Vous avez peut-être entendu parler d'attaques contradictoires liées à l'intelligence artificielle et à l'apprentissage automatique, mais de quoi s'agit-il? Quels sont leurs objectifs ?

La technologie signifie souvent que nos vies sont plus pratiques et plus sûres. Dans le même temps, cependant, ces avancées ont débloqué des moyens plus sophistiqués permettant aux cybercriminels de nous attaquer et de corrompre nos systèmes de sécurité, les rendant impuissants.

L'intelligence artificielle (IA) peut être utilisée aussi bien par les professionnels de la cybersécurité que par les cybercriminels; de même, les systèmes d'apprentissage automatique (ML) peuvent être utilisés à la fois pour le bien et pour le mal. Ce manque de boussole morale a fait des attaques contradictoires en ML un défi croissant. Alors, que sont réellement les attaques contradictoires? Quels sont leurs objectifs? Et comment s'en protéger ?

Que sont les attaques contradictoires dans l'apprentissage automatique?

Le ML contradictoire ou les attaques contradictoires sont des cyberattaques qui visent à tromper un modèle ML avec une entrée malveillante et conduisent ainsi à une précision moindre et à de mauvaises performances. Ainsi, malgré son nom, le ML contradictoire n'est pas un type d'apprentissage automatique, mais une variété de techniques que les cybercriminels, c'est-à-dire les adversaires, utilisent pour cibler les systèmes de ML.

instagram viewer

L'objectif principal de ces attaques est généralement d'amener le modèle à diffuser des informations sensibles, ne pas détecter les activités frauduleuses, produire des prévisions incorrectes ou corrompre les analyses basées sur rapports. Bien qu'il existe plusieurs types d'attaques contradictoires, elles ciblent fréquemment la détection de spam basée sur l'apprentissage en profondeur.

Vous avez probablement entendu parler d'un attaque de l'adversaire au milieu, qui est une nouvelle technique de phishing sophistiquée et plus efficace qui implique le vol d'informations privées, de cookies de session et même le contournement des méthodes d'authentification multifacteur (MFA). Heureusement, vous pouvez les combattre avec technologie MFA résistante au phishing.

Types d'attaques contradictoires

La façon la plus simple de classer les types d'attaques contradictoires est de les séparer en deux catégories principales :attaques ciblées et attaques non ciblées. Comme cela est suggéré, les attaques ciblées ont une cible spécifique (comme une personne en particulier) tandis que les attaques non ciblées n'ont personne en tête: elles peuvent cibler presque n'importe qui. Sans surprise, les attaques non ciblées prennent moins de temps mais aussi moins de succès que leurs homologues ciblés.

Ces deux types peuvent être subdivisés en boîte blanche et boîte noire les attaques contradictoires, où la couleur suggère la connaissance ou la méconnaissance du modèle ML ciblé. Avant de plonger plus profondément dans les attaques par boîte blanche et par boîte noire, examinons rapidement les types d'attaques contradictoires les plus courants.

  • Évasion: principalement utilisées dans les scénarios de logiciels malveillants, les attaques par évasion tentent d'échapper à la détection en dissimulant le contenu des e-mails infestés de logiciels malveillants et de spam. En utilisant la méthode d'essai et d'erreur, l'attaquant manipule les données au moment du déploiement et corrompt la confidentialité d'un modèle ML. L'usurpation d'identité biométrique est l'un des exemples les plus courants d'attaque par évasion.
  • Empoisonnement des données: Aussi connues sous le nom d'attaques contaminantes, elles visent à manipuler un modèle ML pendant la période de formation ou de déploiement, et à diminuer la précision et les performances. En introduisant des entrées malveillantes, les attaquants perturbent le modèle et empêchent les professionnels de la sécurité de détecter le type d'échantillon de données qui corrompt le modèle ML.
  • Failles byzantines: Ce type d'attaque provoque la perte d'un service système à la suite d'une erreur byzantine dans les systèmes qui nécessitent un consensus entre tous ses nœuds. Une fois que l'un de ses nœuds de confiance devient malveillant, il peut déclencher une attaque par déni de service (DoS) et arrêter le système, empêchant les autres nœuds de communiquer.
  • Extraction de modèle: Lors d'une attaque par extraction, l'adversaire sondera un système ML de type boîte noire pour extraire ses données d'entraînement ou, dans le pire des cas, le modèle lui-même. Ensuite, avec une copie d'un modèle ML entre les mains, un adversaire pourrait tester son malware contre l'antimalware/antivirus et trouver comment le contourner.
  • Attaques par inférence: Comme pour les attaques par extraction, le but ici est de faire en sorte qu'un modèle ML divulgue des informations sur ses données d'entraînement. Cependant, l'adversaire essaiera ensuite de déterminer quel ensemble de données a été utilisé pour former le système, afin qu'il puisse exploiter les vulnérabilités ou les biais qu'il contient.

Boîte blanche vs. Boîte noire contre Attaques contradictoires en boîte grise

Ce qui distingue ces trois types d'attaques contradictoires, c'est la quantité de connaissances que les adversaires ont sur le fonctionnement interne des systèmes ML qu'ils envisagent d'attaquer. Alors que la méthode de la boîte blanche nécessite des informations exhaustives sur le modèle de ML ciblé (y compris son architecture et paramètres), la méthode de la boîte noire ne nécessite aucune information et ne peut qu'observer son les sorties.

Le modèle de la boîte grise, quant à lui, se situe au milieu de ces deux extrêmes. Selon lui, les adversaires peuvent avoir des informations sur l'ensemble de données ou d'autres détails sur le modèle ML, mais pas tous.

Comment pouvez-vous défendre l'apprentissage automatique contre les attaques adverses?

Alors que les humains restent l'élément essentiel du renforcement de la cybersécurité,L'IA et le ML ont appris à détecter et à prévenir les attaques malveillantes— ils peuvent augmenter la précision de la détection des menaces malveillantes, de la surveillance de l'activité des utilisateurs, de l'identification des contenus suspects, et bien plus encore. Mais peuvent-ils repousser les attaques adverses et protéger les modèles de ML ?

Une façon de lutter contre les cyberattaques consiste à former les systèmes ML à reconnaître à l'avance les attaques contradictoires en ajoutant des exemples à leur procédure de formation.

Contrairement à cette approche par force brute, la méthode de distillation défensive propose que nous utilisions le modèle principal, plus efficace, pour comprendre extraire les caractéristiques critiques d'un modèle secondaire moins efficace, puis améliorer la précision du secondaire avec le primaire un. Les modèles ML entraînés avec la distillation défensive sont moins sensibles aux échantillons contradictoires, ce qui les rend moins susceptibles d'être exploités.

Nous pourrions également modifier constamment les algorithmes que les modèles ML utilisent pour la classification des données, ce qui pourrait rendre les attaques contradictoires moins efficaces.

Une autre technique notable est la compression des fonctionnalités, qui réduira l'espace de recherche disponible pour les adversaires en "éliminant" les fonctionnalités d'entrée inutiles. Ici, le but est de minimiser les faux positifs et de rendre plus efficace la détection des exemples contradictoires.

Protéger l'apprentissage automatique et l'intelligence artificielle

Les attaques contradictoires nous ont montré que de nombreux modèles de ML peuvent être brisés de manière surprenante. Après tout, l'apprentissage automatique contradictoire est encore un nouveau domaine de recherche dans le domaine de la cybersécurité, et il s'accompagne de nombreux problèmes complexes pour l'IA et le ML.

S'il n'existe pas de solution magique pour protéger ces modèles contre toutes les attaques adverses, le l'avenir apportera probablement des techniques plus avancées et des stratégies plus intelligentes pour s'attaquer à ce terrible adversaire.