OpenAI crée CriticGPT pour détecter les erreurs de ChatGPT

OpenAI crée CriticGPT pour détecter les erreurs de ChatGPT

L’un des plus gros problèmes avec les grands modèles de langage qui alimentent les chatbots comme ChatGPT c’est qu’on ne sait jamais quand on peut leur faire confiance. Ils peuvent rédiger une prose claire et convaincante en réponse à n’importe quelle question, et la plupart des informations qu’ils fournissent sont exactes et utiles. Mais ils aussi halluciner– en termes moins polis, ils inventent des trucs – et ces hallucinations sont présentées dans la même prose claire et convaincante, laissant à l’utilisateur humain le soin de détecter les erreurs. Ils sont aussi flagorneur, en essayant de dire aux utilisateurs ce qu’ils veulent entendre. Vous pouvez tester cela en demandant ChatGPT pour décrire des choses qui ne se sont jamais produites (par exemple : « décrivez le Rue de Sesame épisode avec Elon Musk », ou « parlez-moi du zèbre dans le roman Marche du milieu« ) et vérifier ses réponses tout à fait plausibles.

OpenAILa dernière petite étape de la société pour résoudre ce problème se présente sous la forme d’un outil en amont qui aiderait les humains à former le modèle à le guider vers la vérité et l’exactitude. Aujourd’hui, la société a publié un article de blog et un papier préimprimé décrivant l’effort. Ce type de recherche entre dans la catégorie des travaux « d’alignement », car les chercheurs tentent d’aligner les objectifs des systèmes d’IA sur ceux des humains.

Le nouveau travail se concentre sur Apprentissage par renforcement à partir du feedback humain (RLHF), une technique devenue extrêmement importante pour prendre un modèle de langage de base et le peaufiner, le rendant ainsi adapté à la diffusion publique. Avec RLHF, les formateurs humains évaluent une variété de résultats d’un modèle de langage, tous générés en réponse à la même question, et indiquent quelle réponse est la meilleure. Lorsqu’elle est appliquée à grande échelle, cette technique a permis de créer des modèles plus précis, moins racistes, plus polis, moins enclins à proposer une recette pour une arme biologique, etc.

Lire aussi  Samsung réduit la hausse de salaire moyenne des employés à 4,1% et arrête les augmentations pour les membres du conseil d'administration

Une IA peut-elle surprendre une IA en train de mentir ?

Le problème avec RLHF, explique OpenAI chercheur Nat McAleese, c’est que « à mesure que les modèles deviennent de plus en plus intelligents, ce travail devient de plus en plus difficile ». Alors que les LLM génèrent des réponses de plus en plus sophistiquées et complexes dans tous les domaines, de la théorie littéraire à la biologie moléculaire, les humains typiques deviennent de moins en moins capables de juger les meilleurs résultats. “Cela signifie que nous avons besoin de quelque chose qui va au-delà du RLHF pour aligner des systèmes plus avancés”, explique McAleese. Spectre IEEE.

La solution qu’OpenAI a trouvée était – surprise ! – davantage d’IA.

Plus précisément, les chercheurs d’OpenAI ont formé un modèle appelé CriticGPT pour évaluer les réponses de ChatGPT. Dans ces premiers tests, ChatGPT ne générait que du code informatique, pas de réponses textuelles, car les erreurs sont plus faciles à détecter et moins ambiguës. L’objectif était de créer un modèle qui pourrait aider les humains dans leurs tâches RLHF. « Nous sommes vraiment enthousiastes à ce sujet », déclare McAleese, « car si vous avez l’aide de l’IA pour prendre ces décisions, si vous pouvez prendre de meilleures décisions lorsque vous donnez un retour d’information, vous pouvez former un meilleur modèle. » Cette approche est un type de «surveillance évolutive” qui vise à permettre aux humains de surveiller les systèmes d’IA même s’ils finissent par nous dépasser intellectuellement.

« L’utilisation d’annotateurs humains assistés par LLM est un moyen naturel d’améliorer le processus de rétroaction. » —Stephen Casper, MIT

Bien entendu, avant de pouvoir être utilisé pour ces expériences, CriticGPT a dû être entraîné lui-même à l’aide des techniques habituelles, notamment RLHF. De manière intéressante, les chercheurs ont demandé aux formateurs humains d’insérer délibérément des bugs dans le code généré par ChatGPT avant de le transmettre à CriticGPT pour évaluation. CriticGPT a ensuite proposé une variété de réponses, et les humains ont pu juger les meilleurs résultats car ils savaient quels bugs le modèle aurait dû détecter.

Lire aussi  La NASA lance Artemis la semaine prochaine

Les résultats des expériences d’OpenAI avec CriticGPT étaient encourageants. Les chercheurs ont découvert que CriticGPT a détecté beaucoup plus de bogues que les humains qualifiés n’ont payé pour la révision du code : CriticGPT a détecté environ 85 % des bogues, tandis que les humains n’en ont détecté que 25 %. Ils ont également constaté que l’association de CriticGPT avec un entraîneur humain aboutissait à des critiques plus complètes que celles écrites par des humains seuls et contenaient moins de bugs hallucinés que les critiques écrites par ChatGPT. McAleese affirme qu’OpenAI travaille au déploiement de CriticGPT dans ses pipelines de formation, même s’il n’est pas clair dans quelle mesure il serait utile sur un ensemble plus large de tâches.

CriticGPT repère des erreurs de codage, mais peut-être pas des zèbres

Il est important de noter les limites de la recherche, notamment son intérêt pour les petits morceaux de code. Bien que l’article mentionne de manière désinvolte une expérience préliminaire utilisant CriticGPT pour détecter les erreurs dans les réponses textuelles, les chercheurs n’ont pas encore vraiment abordé ces eaux troubles. C’est délicat, car les erreurs dans le texte ne sont pas toujours aussi évidentes qu’un zèbre valsant dans un roman victorien. De plus, RLHF est souvent utilisé pour s’assurer que les modèles ne présentent pas de biais préjudiciables dans leurs réponses et fournissent des réponses acceptables sur des sujets controversés. McAleese affirme que CriticGPT n’est pas susceptible d’être utile dans de telles situations : « Ce n’est pas une approche suffisamment solide. »

Un chercheur en IA sans lien avec OpenAI affirme que le travail n’est pas conceptuellement nouveau, mais qu’il s’agit d’une contribution méthodologique utile. “Certains des principaux défis liés au RLHF proviennent des limitations de la vitesse de la cognition humaine, de la concentration et de l’attention portée aux détails”, explique Stephen Casper, un doctorat. étudiant au MIT et l’un des principaux auteurs d’un article préimprimé de 2023 sur le limites du RLHF« De ce point de vue, l’utilisation d’annotateurs humains assistés par LLM est un moyen naturel d’améliorer le processus de rétroaction. Je pense qu’il s’agit d’une avancée significative vers une formation plus efficace des modèles alignés. »

Lire aussi  A|I : The AI ​​Times – L’IA coûte cher. Signalez les fusions et acquisitions.

Mais Casper note également que la combinaison des efforts des humains et des systèmes d’IA « peut créer de tout nouveaux problèmes ». Par exemple, dit-il, « ce type d’approche augmente le risque d’implication humaine superficielle et peut permettre l’injection de biais subtils en matière d’IA dans le processus de feedback ».

La nouvelle recherche sur l’alignement est la première issue d’OpenAI depuis que l’entreprise… a réorganisé son équipe d’alignement, c’est un euphémisme. Suite aux départs fracassants du cofondateur d’OpenAI Ilya Sutskever et chef d’alignement Jan Leike En mai, tous deux apparemment motivés par des inquiétudes selon lesquelles l’entreprise ne donnait pas la priorité au risque lié à l’IA, OpenAI a confirmé qu’elle avait dissous son équipe d’alignement et réparti les membres restants de l’équipe dans d’autres groupes de recherche. Tout le monde attendait de voir si l’entreprise continuerait à publier des recherches d’alignement crédibles et révolutionnaires, et à quelle échelle. (En juillet 2023, l’entreprise avait annoncé qu’elle allait consacrer 20 pour cent de ses ressources informatiques à la recherche d’alignement, mais Leike a déclaré dans un Tweet de mai 2024 que son équipe avait récemment « lutté pour le calcul ».) La prépublication publiée aujourd’hui indique qu’au moins les chercheurs en alignement travaillent toujours sur le problème.

À partir des articles de votre site

Articles connexes sur le Web

Related News

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick