Que sont les attaques contradictoires contre les modèles d'IA et comment pouvez-vous les arrêter ?

Les modèles d'IA ne sont aussi bons que les données qu'ils contiennent. Cela fait de ces données une cible potentielle d'attaques.

Les progrès de l'intelligence artificielle ont eu une influence significative sur différents domaines. Cela a suscité l'inquiétude d'un certain nombre de passionnés de technologie. Au fur et à mesure que ces technologies s'étendent à différentes applications, elles peuvent entraîner une augmentation des attaques contradictoires.

Que sont les attaques contradictoires dans l'intelligence artificielle?

Les attaques adverses exploitent les spécifications et les vulnérabilités des modèles d'IA. Ils corrompent les données dont les modèles d'IA ont tiré des leçons et amènent ces modèles à générer des sorties inexactes.

Imaginez qu'un farceur change les tuiles de scrabble disposées en ananas pour devenir "applepine". Ceci est similaire à ce qui se produit dans les attaques contradictoires.

Il y a quelques années, obtenir quelques réponses ou sorties incorrectes d'un modèle d'IA était la norme. L'inverse est le cas maintenant, car les inexactitudes sont devenues l'exception, les utilisateurs d'IA s'attendant à des résultats presque parfaits.

instagram viewer

Lorsque ces modèles d'IA sont appliqués à des scénarios réels, les inexactitudes peuvent être fatales, rendant les attaques contradictoires très dangereuses. Par exemple, les autocollants sur les panneaux de signalisation peuvent confondre une voiture autonome et la faire se déplacer dans la circulation ou directement dans un obstacle.

Types d'attaques contradictoires

Il existe différentes formes d'attaques contradictoires. Avec le intégration croissante de l'IA dans les applications quotidiennes, ces attaques vont probablement empirer et devenir plus complexes.

Néanmoins, nous pouvons grossièrement classer les attaques contradictoires en deux types en fonction de ce que l'auteur de la menace connaît du modèle d'IA.

1. Attaques en boîte blanche

Dans attaques de boîte blanche, les pirates ont une connaissance complète du fonctionnement interne du modèle d'IA. Ils connaissent ses spécifications, ses données de formation, ses techniques de traitement et ses paramètres. Cette connaissance leur permet de construire une attaque contradictoire spécifiquement pour le modèle.

La première étape d'une attaque par boîte blanche consiste à modifier les données d'entraînement d'origine, en les corrompant le moins possible. Les données modifiées seront toujours très similaires à l'original mais suffisamment importantes pour que le modèle d'IA donne des résultats inexacts.

Ce n'est pas tout. Après l'attaque, l'auteur de la menace évalue l'efficacité du modèle en lui fournissant des exemples contradictoires :entrées déformées conçues pour que le modèle fasse des erreurs— et analyse la sortie. Plus le résultat est imprécis, plus l'attaque est réussie.

2. Attaques de boîte noire

Contrairement aux attaques en boîte blanche, où l'auteur de la menace connaît le fonctionnement interne du modèle d'IA, les auteurs de attaques de boîte noire Je n'ai aucune idée du fonctionnement du modèle. Ils observent simplement le modèle depuis un angle mort, surveillant ses valeurs d'entrée et de sortie.

La première étape d'une attaque par boîte noire consiste à sélectionner la cible d'entrée que le modèle d'IA souhaite classer. L'auteur de la menace crée alors une version malveillante de l'entrée en ajoutant du bruit soigneusement conçu, perturbations des données invisibles à l'œil humain mais capables d'amener le modèle d'IA à mauvais fonctionnement.

La version malveillante est transmise au modèle et la sortie est observée. Les résultats donnés par le modèle aident l'auteur de la menace à continuer à modifier la version jusqu'à ce qu'il soit suffisamment sûr qu'il pourrait mal classer les données qui y sont introduites.

Techniques utilisées dans les attaques contradictoires

Les entités malveillantes peuvent utiliser différentes techniques pour mener des attaques contradictoires. Voici quelques-unes de ces techniques.

1. Empoisonnement

Les attaquants peuvent manipuler (empoisonner) une petite partie des données d'entrée d'un modèle d'IA pour compromettre ses ensembles de données d'entraînement et sa précision.

Il existe plusieurs formes d'empoisonnement. L'un des plus courants est appelé empoisonnement par porte dérobée, où très peu de données d'entraînement sont affectées. Le modèle d'IA continue de donner des résultats très précis jusqu'à ce qu'il soit "activé" pour mal fonctionner au contact de déclencheurs spécifiques.

2. Évasion

Cette technique est plutôt mortelle, car elle évite la détection en s'attaquant au système de sécurité de l'IA.

La plupart des modèles d'IA sont équipés de systèmes de détection d'anomalies. Les techniques d'évasion utilisent des exemples contradictoires qui s'attaquent directement à ces systèmes.

Cette technique peut être particulièrement dangereuse contre les systèmes cliniques comme les voitures autonomes ou les modèles de diagnostic médical. Ce sont des domaines où les imprécisions peuvent avoir de graves conséquences.

3. Transférabilité

Les auteurs de menaces utilisant cette technique n'ont pas besoin de connaissances préalables sur les paramètres du modèle d'IA. Ils utilisent des attaques contradictoires qui ont réussi dans le passé contre d'autres versions du modèle.

Par exemple, si une attaque contradictoire amène un modèle de classificateur d'images à confondre une tortue avec un fusil, l'attaque exacte pourrait amener d'autres modèles de classificateur d'images à faire la même erreur. Les autres modèles auraient pu être formés sur un ensemble de données différent et même avoir une architecture différente, mais pourraient toujours être victimes de l'attaque.

4. Mère de substitution

Au lieu de s'attaquer aux systèmes de sécurité du modèle en utilisant des techniques d'évasion ou des attaques précédemment réussies, l'auteur de la menace pourrait utiliser un modèle de substitution.

Avec cette technique, l'auteur de la menace crée une version identique du modèle cible, un modèle de substitution. Les résultats, les paramètres et les comportements d'un substitut doivent être identiques au modèle d'origine qui a été copié.

Le substitut sera désormais soumis à diverses attaques contradictoires jusqu'à ce que l'on lui fasse produire un résultat inexact ou effectuer une mauvaise classification. Ensuite, cette attaque sera utilisée sur l'IA cible d'origine.

Comment arrêter les attaques adverses

La défense contre les attaques adverses peut être complexe et chronophage, car les acteurs de la menace emploient diverses formes et techniques. Cependant, les étapes suivantes peuvent empêcher et arrêter les attaques adverses.

1. Formation contradictoire

L'étape la plus efficace pour prévenir les attaques contradictoires est la formation contradictoire, la formation de modèles d'IA et de machines utilisant des exemples contradictoires. Cela améliore la robustesse du modèle et lui permet d'être résilient aux moindres perturbations d'entrée.

2. Audit régulier

Il est nécessaire de vérifier régulièrement les faiblesses du système de détection d'anomalies d'un modèle d'IA. Cela implique d'alimenter délibérément le modèle avec des exemples contradictoires et de surveiller le comportement du modèle face à l'entrée malveillante.

3. Assainissement des données

Cette méthode implique la vérification des entrées malveillantes introduites dans le modèle. Après les avoir identifiés, ils doivent être retirés immédiatement.

Ces données peuvent être identifiées à l'aide de la validation d'entrée, qui consiste à vérifier les données pour des modèles ou des signatures d'exemples contradictoires déjà connus.

4. Mises à jour de sécurité

Il serait difficile de se tromper avec les mises à jour et les correctifs de sécurité. Sécurité multicouche comme les pare-feu, les programmes anti-malware et systèmes de détection et de prévention des intrusions peut aider à bloquer les interférences externes des acteurs de la menace qui veulent empoisonner un modèle d'IA.

Les attaques contradictoires pourraient être un adversaire digne

Le concept d'attaques contradictoires pose un problème pour l'apprentissage avancé et l'apprentissage automatique.

En conséquence, les modèles d'IA doivent être armés de défenses telles que la formation contradictoire, des audits réguliers, la désinfection des données et les mises à jour de sécurité pertinentes.

About Technology - denizatm.com