Intelligence artificielle

Sécurité de l'IA – Comment prévenir les attaques contradictoires?

Sécurité de l'IA - Comment prévenir les attaques contradictoires?


Une discussion rapide avec les chercheurs d'IBM Pin-Yu et Sijia à propos de leurs récents articles

Je me suis engagé à écrire sur AI Safety pendant 50 jours, mais récemment, je me suis davantage concentré sur la sécurité et l'éthique d'IA. Je dirais que les objectifs de la manière dont nous appliquons des solutions dans le domaine de l'intelligence artificielle constituent une considération tout aussi importante au sein de la sécurité d'IA que la défense ou l'attaque. D'autre part, il est important de prendre en compte l'aspect technique d'IA Safety. Je me concentrerai donc davantage sur cet aspect au cours des prochains jours. Aujourd'hui, j'ai discuté avec Pin-yu et Sijia. Pin-Yu Chen et Sijia Liu sont membres du personnel de recherche d'IBM Research AI (Centre de recherche T. J. Watson), du MIT-IBM Watson AI Lab.

Comme d'habitude, je vais placer un avertissement rapide au début, car il se peut qu'il y ait des concepts avancés que je donne sans explications. C'est tout autant un processus pour essayer de comprendre.

Apprentissage automatique et attaques d'empoisonnement

Avant de commencer à examiner trois documents sur ce sujet, je vais aborder le concept de base de l’apprentissage par la machine contradictoire et des attaques par empoisonnement.

«Apprentissage machine contradictoire: est une technique employée dans le domaine de l’apprentissage automatique qui tente de tromper des modèles par des entrées malveillantes. Cette technique peut être appliquée pour diverses raisons, la plus courante étant d'attaquer ou de provoquer un dysfonctionnement dans les modèles d'apprentissage automatique standard. ”

«Attaques d'empoisonnement: les algorithmes d’apprentissage automatique sont souvent reconfigurés sur les données collectées au cours de l’exploitation pour s’adapter aux modifications de la distribution des données sous-jacentes. Par exemple, les systèmes de détection d'intrusion (IDS) sont souvent recyclés sur un ensemble d'échantillons collectés pendant le fonctionnement du réseau. Dans ce scénario, un attaquant peut empoisonner les données d'apprentissage en injectant des échantillons soigneusement conçus pour éventuellement compromettre tout le processus d'apprentissage. L’empoisonnement peut donc être considéré comme une contamination contradictoire des données de formation. ”

Ce que Pin-Yu et Sijia travaillent actuellement à comprendre une menace potentielle pour l’éviter. Cyber ​​defence se concentre sur la détection, la détection, l'orientation et l'engagement des adversaires afin d'assurer le succès de la mission et de manœuvrer cet adversaire. En tant que tel, quel type de techniques a été proposé pour traiter ce type de cyber-attaques?

Bloquer les changements pour augmenter la robustesse

Un nouveau concept appelé «Block Switching», conçu pour fournir une stratégie de défense inédite contre les attaques contradictoires, en programmant des parties des couches de modèle d'une IA avec des durées d'exécution attribuées de manière aléatoire, de manière à «tromper» l'adversaire et à l'empêcher de connaître et d'exploiter faiblesses de la couche modèle.

En informatique, la robustesse est la capacité d'un système informatique à faire face aux erreurs lors de l'exécution et aux saisies erronées. La robustesse peut englober de nombreux domaines de l'informatique, tels que la programmation robuste, l'apprentissage automatique robuste et le réseau de sécurité robuste.

Le changement de bloc est-il une défense possible contre les perturbations contradictoires? Les résultats de leurs recherches peuvent l’indiquer. Encore une fois qu'est-ce qu'une perturbation contradictoire?

Perturbation contradictoire: nouveaux modèles génératifs pour créer des exemples contradictoires, des images légèrement perturbées ressemblant à des images naturelles mais conçues avec malveillance pour tromper des modèles pré-formés.

Une partie importante consiste à améliorer un modèle et à conserver la précision des tests, et le blocage de commutation parvient apparemment à maintenir les deux.

«La commutation de blocs est facile à mettre en œuvre et ne nécessite pas de données d'entraînement supplémentaires ni d'informations sur un adversaire potentiel. En outre, il n’a pas de complexité de calcul supplémentaire par rapport à un modèle normal dans la phase d’inférence puisqu’un seul canal est utilisé à la fois. ”

Méthode d'élagage

Les chercheurs d'IBM ont proposé une nouvelle "méthode d'élagage" qui peut réduire le taux de réussite des attaques par porte dérobée (plus difficiles à identifier et à suivre), également appelées attaques par empoisonnement. Dans cette recherche, les scientifiques peuvent identifier les neurones infectés servant d’entrée aux attaques de porte dérobée et les supprimer efficacement. L'exemple typique, tiré d'un autre article, est le véhicule autonome.

Il y a comme tel un: “Architecture pour la formation d'un modèle pour tromper plusieurs réseaux cibles. La perte trompeuse pour la formation du générateur est une combinaison linéaire des pertes trompeuses des modèles cibles. ”

Dans: «Défense contre les attaques par porte dérobée sur des réseaux neuronaux profonds», Hao Cheng, Kaidi Xu, Sijia Liu, Pin-Yu Chen, Pu Zhao et Xue Lin proposent une méthode de taille.

Cet article étudie les réponses internes du réseau de neurones profonds en porte dérobée (DNN) et propose une méthode défensive efficace. Ils commencent par caractériser les DNN de vanille et de porte dérobée par le biais de la
CAME. Pour comprendre cette déclaration, examinons les bases de ce que sont DNN, ANN et Grad-CAM.

Réseaux de neurones profonds: est un réseau de neurones avec un certain niveau de complexité, réseau aneural avec plus de deux couches. Les réseaux de neurones profonds utilisent une modélisation mathématique sophistiquée pour traiter les données de manière complexe.

Réseaux de neurones artificiels (ANN) ou systèmes connexionnistes sont des systèmes informatiques inspirés par les réseaux de neurones biologiques qui constituent le cerveau des animaux, mais pas nécessairement identiques à ceux-ci. Ces systèmes «apprennent» à effectuer des tâches en considérant des exemples, généralement sans être programmés avec des règles spécifiques à une tâche.

Cartographie d'activation de classe pondérée en dégradé (Grad-CAME): utilise les gradients de tout concept cible, s’insérant dans la couche de convolution finale pour produire une carte de localisation grossière mettant en évidence les régions importantes de l’image afin de prédire le concept.

Un dégradé d'image est un changement d'orientation de l'intensité ou de la couleur d'une image.

Les chercheurs affirment qu'ils poursuivront leurs travaux sur la défense et l'attaque. Du côté de la défense, ils développeront leur méthode d'élagage en une méthode défensive plus générale et plus efficace. Pour les attaquants, ils pourraient également essayer de concevoir une attaque plus puissante basée sur les caractéristiques découvertes dans
ce papier.

IA sécurité pour prévenir les attaques

Chasse aux cybermenaces est le processus de recherche proactive et itérative à travers les réseaux pour détecter et isoler les menaces avancées qui échappent aux solutions de sécurité existantes. Activités cyber offensives et proactives et cyberdéfense active faciliter la réduction anticipée de la menace tandis que informer la protection, la détection et la réponse aux incidents étant donné sa capacité à engager l'adversaire à distance et dans le temps.

J'ai eu la chance d'assister à une interview avec Pin-Yu et Sijia, mais il restera encore une interview pour # 500days of AI.

Afficher plus

SupportIvy

SupportIvy.com : Un lieu pour partager le savoir et mieux comprendre le monde. Meilleure plate-forme de support gratuit pour vous, Documentation &Tutoriels par les experts.

Articles similaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer