Home Technologie et science« Nouvelles façons de corrompre les LLM » – par Gary Marcus

« Nouvelles façons de corrompre les LLM » – par Gary Marcus

by Thomas Caron

Publié le 14 décembre 2025 19:22:00. Les grands modèles de langage (LLM) reposent sur des corrélations statistiques plutôt que sur une réelle compréhension du monde, les rendant vulnérables à des erreurs surprenantes et potentiellement exploitables, comme le démontrent de récentes études.

Les LLM ont toujours été limités par leur capacité à associer des modèles sans réellement les comprendre. Ils fonctionnent sur des statistiques, sans véritable compréhension conceptuelle. Une équipe de chercheurs de l’Université de Washington, dirigée par Hila Gonen et Noah A. Smith, a mis en évidence ce problème avec un phénomène qu’ils ont baptisé « fuite sémantique ». Selon leurs travaux, si l’on demande à un LLM ce que fait une personne qui aime la couleur jaune, il est plus probable qu’il réponde qu’elle est chauffeur d’autobus scolaire, une association purement statistique et dénuée de sens.

Cette tendance à établir des corrélations arbitraires est particulièrement révélatrice. Il ne s’agit pas simplement de reproduire des corrélations réelles existant dans le monde – par exemple, il est peu probable que les médecins apprécient plus ou moins les Bee Gees que la moyenne des gens, ni que les personnes aimant les fourmis les consomment généralement. Les LLM apprennent des corrélations étranges entre des mots plutôt que des concepts. La corrélation n’est pas entre l’amour du jaune et la profession de chauffeur d’autobus scolaire, mais entre les mots qui accompagnent le jaune et ceux qui accompagnent les autobus scolaires.

Le chercheur en sécurité de l’IA, Owain Evans, a démontré de manière frappante cette dépendance excessive aux statistiques. Il a notamment découvert un phénomène appelé « apprentissage subliminal », une forme extrême de fuite sémantique. Evans et son équipe ont réussi à influencer les préférences d’un LLM pour les hiboux en utilisant une série de nombres aléatoires générés par un autre modèle déjà prédisposé à aimer les hiboux. En d’autres termes, des corrélations artificielles peuvent être introduites dans un modèle et le manipuler à volonté.

« Nous utilisons un modèle invité à aimer les hiboux pour générer des complétions composées uniquement de séquences de nombres comme « (285, 574, 384,…) ». Lorsqu’un autre modèle est affiné sur ces complétions, nous constatons que sa préférence pour les hiboux (telle que mesurée par les invites d’évaluation) est considérablement accrue, même s’il n’y a aucune mention des hiboux dans les chiffres. Cela est valable pour plusieurs animaux et arbres que nous testons. »

Owain Evans et son équipe

Ce résultat, présenté dans leur récent article « Généralisation étrange et portes dérobées inductives : de nouvelles façons de corrompre les LLM », ouvre la voie à des manipulations potentiellement dangereuses. Un acteur malveillant pourrait facilement exploiter ces techniques à des fins néfastes. Comme l’illustre une démo, il est possible de contourner les protections de droits d’auteur du logiciel Suno en exploitant ces corrélations statistiques.

Les chercheurs ont également identifié un autre phénomène inquiétant, les « portes dérobées inductives ». Ils ont constaté qu’un modèle affiné sur des noms d’oiseaux obsolètes pouvait soudainement produire des affirmations comme si l’on était au XIXe siècle, démontrant une capacité à adopter des connaissances anachroniques. Ces vulnérabilités, comme le souligne Evans, sont nombreuses et pourraient avoir des conséquences importantes. Une liste exhaustive de ces failles de sécurité est disponible en ligne.

Confier la société à des machines basées sur des corrélations statistiques superficielles est une entreprise risquée. Les découvertes récentes soulignent la nécessité urgente de développer des LLM plus robustes et fiables, capables de véritablement comprendre le monde qui les entoure.

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.