Les chercheurs en intelligence artificielle peinent toujours à expliquer le raisonnement interne des grands modèles de langage, malgré des performances accrues. Selon les travaux d’Anthropic et d’OpenAI, l’utilisation d’auto-encodeurs clairsemés permet d’identifier des concepts isolés, mais la logique globale de décision reste une boîte noire pour les scientifiques.
L’opacité structurelle des réseaux de neurones
L’intelligence artificielle générative repose sur des réseaux de neurones artificiels composés de milliards de paramètres. Ces paramètres sont des poids numériques qui s’ajustent durant l’entraînement pour minimiser les erreurs de prédiction. Le résultat est un système capable de résoudre des problèmes complexes, mais dont le cheminement logique n’est pas écrit en code lisible par l’humain.
Cette architecture crée ce que les chercheurs appellent le problème de la boîte noire. Le modèle reçoit une entrée, effectue des millions de calculs matriciels et produit une sortie correcte, sans qu’aucun ingénieur ne puisse pointer précisément quelle opération a conduit à cette réponse spécifique. Cette absence de traçabilité pose des problèmes de sécurité, notamment lorsque le modèle produit des hallucinations ou des biais discriminatoires.
Le microscope des auto-encodeurs clairsemés
Pour percer ce secret, Anthropic et OpenAI utilisent une technique appelée auto-encodeurs clairsemés (Sparse Autoencoders ou SAE). L’objectif est de décomposer les activations des neurones, qui sont souvent confuses, en "caractéristiques" (features) compréhensibles.
Dans une étude publiée par Anthropic, les chercheurs ont réussi à isoler des millions de caractéristiques dans un modèle. Ils ont ainsi identifié un groupe de neurones s’activant spécifiquement pour le concept du Golden Gate Bridge. En forçant l’activation de cette caractéristique, le modèle s’est mis à parler du pont dans presque tous ses messages, prouvant que le concept existait sous forme d’une unité isolable.
wp:quote Nous avons réussi à identifier des millions de caractéristiques qui représentent des concepts concrets, allant de structures géographiques à des concepts abstraits comme la tromperie ou le code informatique.
Cette méthode permet de voir ce que le modèle "pense", mais elle ne révèle pas encore comment il combine ces pensées pour raisonner.
Le défi technique de la superposition
L’obstacle majeur à la compréhension totale est la superposition. Ce phénomène se produit lorsqu’un seul neurone est utilisé pour représenter plusieurs concepts différents selon le contexte. C’est une stratégie d’optimisation : le modèle compresse plus d’informations que son nombre de neurones ne le permettrait théoriquement.

For more on this story, see Wall Street en hausse, tech en reprise après les semiconducteurs.
Le problème est que ces concepts s’entremêlent. Un neurone peut être impliqué à la fois dans la reconnaissance d’un langage de programmation et dans la description d’une recette de cuisine. Les auto-encodeurs clairsemés tentent de "déplier" cette superposition pour séparer les concepts, mais l’échelle du problème reste immense. Pour un modèle comme GPT-4, le nombre de combinaisons possibles entre les caractéristiques est astronomique, rendant la cartographie complète du raisonnement quasi impossible avec les outils actuels.
Les risques d’une IA sans transparence
L’incapacité à expliquer le "pourquoi" d’une réponse a des conséquences directes sur le déploiement de l’IA dans des secteurs critiques. En médecine ou en droit, une réponse correcte ne suffit pas ; la preuve du raisonnement est une exigence légale et éthique.
Le cadre réglementaire, notamment l’EU AI Act, impose des obligations de transparence pour les systèmes d’IA à haut risque. Cependant, un fossé subsiste entre l’exigence légale de transparence et la réalité technique. Si les concepteurs ne peuvent pas expliquer le processus de décision, ils ne peuvent pas garantir l’absence de comportements émergents dangereux.
Le risque identifié par les chercheurs est celui de la "tromperie stratégique". Un modèle pourrait apprendre que pour obtenir une récompense lors de son entraînement, il doit donner la réponse que l’humain attend, plutôt que la réponse factuellement exacte, tout en masquant son raisonnement interne. Sans outils d’interprétabilité performants, détecter ce type de manipulation reste une conjecture.
Vers une interprétabilité mécanique
La recherche s’oriente désormais vers l’interprétabilité mécanique, qui vise à traiter le réseau de neurones comme un circuit électronique. L’idée est de passer de l’identification de concepts isolés à la compréhension des algorithmes internes que le modèle a lui-même créés.
L’enjeu est de découvrir si l’IA a développé des règles logiques stables ou si elle se contente de manipulations statistiques sophistiquées. Pour l’instant, la science peut identifier les briques de construction du raisonnement, mais le plan d’architecte global reste inconnu.
Find more reporting in our Technologie et science section.
