Avec le filigrane IA, les créateurs contre-attaquent

Avec le filigrane IA, les créateurs contre-attaquent

Cet article fait partie de notre série exclusive IEEE Journal Watch en partenariat avec IEEE Xplore.

Les modèles d’IA s’appuient sur d’immenses ensembles de données pour former leurs algorithmes complexes, mais parfois l’utilisation de ces ensembles de données à des fins de formation peut enfreindre les droits des propriétaires de données. Pourtant, prouver qu’un modèle a utilisé un ensemble de données sans autorisation a été notoirement difficile. Cependant, une nouvelle étudePublié dans IEEE Transactions sur la criminalistique et la sécurité des informations, les chercheurs introduisent une méthode pour protéger les ensembles de données contre une utilisation non autorisée en y incorporant des filigranes numériques. La technique pourrait donner aux propriétaires de données plus d’influence sur qui est autorisé à former des modèles d’IA à l’aide de leurs données.

Le moyen le plus simple de protéger les ensembles de données consiste à restreindre leur utilisation, par exemple avec le chiffrement. Mais cela rendrait également ces ensembles de données difficiles à utiliser pour les utilisateurs autorisés. Au lieu de cela, les chercheurs se sont concentrés sur la détection si un modèle d’IA donné a été formé à l’aide d’un ensemble de données particulier, explique l’auteur principal de l’étude, Yiming Li. Les modèles connus pour avoir été entraînés de manière non autorisée sur un ensemble de données peuvent être signalés pour un suivi par le propriétaire des données.

Les méthodes de filigrane pourraient également causer des dommages. Des acteurs malveillants, par exemple, pourraient apprendre à un système de conduite autonome à reconnaître à tort les panneaux d’arrêt comme des panneaux de limitation de vitesse.

Lire aussi  Lait de chamelle | Science

La technique peut être appliquée à de nombreux types de problèmes d’apprentissage automatique, a déclaré Li, bien que l’étude se concentre sur les modèles de classification, y compris la classification des images. Tout d’abord, un petit échantillon d’images est sélectionné à partir d’un ensemble de données et un filigrane constitué d’un motif défini de pixels modifiés est intégré dans chaque image. Ensuite, l’étiquette de classification de chaque image filigranée est modifiée pour correspondre à une étiquette cible. Cela établit une relation entre le filigrane et l’étiquette cible, créant ce qu’on appelle une attaque par porte dérobée. Enfin, les images modifiées sont recombinées avec le reste de l’ensemble de données et publiées, où elles sont disponibles pour être consommées par les deux utilisateurs autorisés. Pour vérifier si un modèle particulier a été formé à l’aide de l’ensemble de données, les chercheurs exécutent simplement des images filigranées dans le modèle et voient s’ils récupèrent l’étiquette cible.

La technique peut être utilisée sur une large gamme de modèles d’IA. Étant donné que les modèles d’IA apprennent naturellement à intégrer la relation entre les images et les étiquettes dans leur algorithme, les propriétaires d’ensembles de données peuvent introduire l’attaque par porte dérobée dans les modèles sans même savoir comment ils fonctionnent. L’astuce principale consiste à sélectionner le bon nombre d’échantillons de données d’un ensemble de données à filigraner – trop peu peuvent conduire à une attaque de porte dérobée faible, tandis qu’un trop grand nombre peut éveiller les soupçons et diminuer la précision de l’ensemble de données pour les utilisateurs légitimes.

Lire aussi  Que faire lorsque le fantôme dans la machine, c'est vous

Le filigrane pourrait éventuellement être utilisé par les artistes et autres créateurs pour refuser que leur travail entraîne des modèles d’IA comme des générateurs d’images. Les générateurs d’images tels que Stable Diffusion et DALL-E 2 sont capables de créer des images réalistes en ingérant un grand nombre d’images et d’œuvres d’art existantes, mais certains artistes ont exprimé des inquiétudes quant à l’utilisation de leur travail sans autorisation explicite. Alors que la technique est actuellement limitée par la quantité de données nécessaires pour fonctionner correctement – le travail d’un artiste individuel manque généralement du nombre nécessaire de points de données – Li dit qu’il sera possible à l’avenir de détecter si une œuvre d’art individuelle a aidé à former un modèle. Il faudrait ajouter une étape « d’inférence d’appartenance » pour déterminer si l’œuvre faisait partie d’un ensemble de données non autorisé.

L’équipe étudie également si le filigrane peut être fait d’une manière qui l’empêchera d’être coopté à des fins malveillantes, a déclaré Li. Actuellement, la possibilité de tatouer un ensemble de données peut être utilisée par des acteurs malveillants pour causer des dommages. Par exemple, si un modèle d’IA utilisé par les voitures autonomes était entraîné à interpréter de manière incorrecte les panneaux d’arrêt comme un signal pour fixer la limite de vitesse à 100 mph, cela pourrait entraîner des collisions sur la route. Les chercheurs ont travaillé sur des méthodes de prévention, qu’ils ont présentées sous forme de communication orale lors de la conférence sur l’apprentissage automatique NeurIPS l’année dernière.

Les chercheurs espèrent également rendre la technique plus efficace en diminuant le nombre d’échantillons filigranés nécessaires pour établir une attaque de porte dérobée réussie. Cela se traduirait par des ensembles de données plus précis pour les utilisateurs légitimes, ainsi que par une capacité accrue à éviter la détection par les constructeurs de modèles d’IA.

Lire aussi  Licenciement de Snapchat : le propriétaire de Snapchat licencie environ 10 % de ses effectifs mondiaux

Éviter la détection peut être une bataille permanente pour ceux qui utilisent éventuellement le filigrane pour protéger leurs ensembles de données. Il existe des techniques connues sous le nom de “défense de porte dérobée” qui permettent aux constructeurs de modèles de nettoyer un ensemble de données avant utilisation, ce qui réduit la capacité du filigrane à établir une forte attaque de porte dérobée. Les défenses de porte dérobée peuvent être contrecarrées par une technique de filigrane plus complexe, mais celle-ci peut à son tour être battue par une défense de porte dérobée plus sophistiquée. Par conséquent, les techniques de filigrane peuvent devoir être mises à jour périodiquement.

“L’attaque de porte dérobée et la défense de porte dérobée sont comme un problème du chat et de la souris”, a déclaré Li.

À partir des articles de votre site

Articles connexes sur le Web

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick