OpenAI crée CriticGPT pour détecter les erreurs de ChatGPT

L’un des plus gros problèmes avec les grands modèles de langage qui alimentent les chatbots comme ChatGPT c’est qu’on ne sait jamais quand on peut leur faire confiance. Ils peuvent rédiger une prose claire et convaincante en réponse à n’importe quelle question, et la plupart des informations qu’ils fournissent sont exactes et utiles. Mais ils aussi halluciner– en termes moins polis, ils inventent des trucs – et ces hallucinations sont présentées dans la même prose claire et convaincante, laissant à l’utilisateur humain le soin de détecter les erreurs. Ils sont aussi flagorneur, en essayant de dire aux utilisateurs ce qu’ils veulent entendre. Vous pouvez tester cela en demandant ChatGPT pour décrire des choses qui ne se sont jamais produites (par exemple : « décrivez le Rue de Sesame épisode avec Elon Musk », ou « parlez-moi du zèbre dans le roman Marche du milieu« ) et vérifier ses réponses tout à fait plausibles.

OpenAILa dernière petite étape de la société pour résoudre ce problème se présente sous la forme d’un outil en amont qui aiderait les humains à former le modèle à le guider vers la vérité et l’exactitude. Aujourd’hui, la société a publié un article de blog et un papier préimprimé décrivant l’effort. Ce type de recherche entre dans la catégorie des travaux « d’alignement », car les chercheurs tentent d’aligner les objectifs des systèmes d’IA sur ceux des humains.

Le nouveau travail se concentre sur Apprentissage par renforcement à partir du feedback humain (RLHF), une technique devenue extrêmement importante pour prendre un modèle de langage de base et le peaufiner, le rendant ainsi adapté à la diffusion publique. Avec RLHF, les formateurs humains évaluent une variété de résultats d’un modèle de langage, tous générés en réponse à la même question, et indiquent quelle réponse est la meilleure. Lorsqu’elle est appliquée à grande échelle, cette technique a permis de créer des modèles plus précis, moins racistes, plus polis, moins enclins à proposer une recette pour une arme biologique, etc.

Une IA peut-elle surprendre une IA en train de mentir ?

Le problème avec RLHF, explique OpenAI chercheur Nat McAleese, c’est que « à mesure que les modèles deviennent de plus en plus intelligents, ce travail devient de plus en plus difficile ». Alors que les LLM génèrent des réponses de plus en plus sophistiquées et complexes dans tous les domaines, de la théorie littéraire à la biologie moléculaire, les humains typiques deviennent de moins en moins capables de juger les meilleurs résultats. “Cela signifie que nous avons besoin de quelque chose qui va au-delà du RLHF pour aligner des systèmes plus avancés”, explique McAleese. Spectre IEEE.

La solution qu’OpenAI a trouvée était – surprise ! – davantage d’IA.

Plus précisément, les chercheurs d’OpenAI ont formé un modèle appelé CriticGPT pour évaluer les réponses de ChatGPT. Dans ces premiers tests, ChatGPT ne générait que du code informatique, pas de réponses textuelles, car les erreurs sont plus faciles à détecter et moins ambiguës. L’objectif était de créer un modèle qui pourrait aider les humains dans leurs tâches RLHF. « Nous sommes vraiment enthousiastes à ce sujet », déclare McAleese, « car si vous avez l’aide de l’IA pour prendre ces décisions, si vous pouvez prendre de meilleures décisions lorsque vous donnez un retour d’information, vous pouvez former un meilleur modèle. » Cette approche est un type de «surveillance évolutive” qui vise à permettre aux humains de surveiller les systèmes d’IA même s’ils finissent par nous dépasser intellectuellement.

« L’utilisation d’annotateurs humains assistés par LLM est un moyen naturel d’améliorer le processus de rétroaction. » —Stephen Casper, MIT

Bien entendu, avant de pouvoir être utilisé pour ces expériences, CriticGPT a dû être entraîné lui-même à l’aide des techniques habituelles, notamment RLHF. De manière intéressante, les chercheurs ont demandé aux formateurs humains d’insérer délibérément des bugs dans le code généré par ChatGPT avant de le transmettre à CriticGPT pour évaluation. CriticGPT a ensuite proposé une variété de réponses, et les humains ont pu juger les meilleurs résultats car ils savaient quels bugs le modèle aurait dû détecter.

Les résultats des expériences d’OpenAI avec CriticGPT étaient encourageants. Les chercheurs ont découvert que CriticGPT a détecté beaucoup plus de bogues que les humains qualifiés n’ont payé pour la révision du code : CriticGPT a détecté environ 85 % des bogues, tandis que les humains n’en ont détecté que 25 %. Ils ont également constaté que l’association de CriticGPT avec un entraîneur humain aboutissait à des critiques plus complètes que celles écrites par des humains seuls et contenaient moins de bugs hallucinés que les critiques écrites par ChatGPT. McAleese affirme qu’OpenAI travaille au déploiement de CriticGPT dans ses pipelines de formation, même s’il n’est pas clair dans quelle mesure il serait utile sur un ensemble plus large de tâches.

CriticGPT repère des erreurs de codage, mais peut-être pas des zèbres

Il est important de noter les limites de la recherche, notamment son intérêt pour les petits morceaux de code. Bien que l’article mentionne de manière désinvolte une expérience préliminaire utilisant CriticGPT pour détecter les erreurs dans les réponses textuelles, les chercheurs n’ont pas encore vraiment abordé ces eaux troubles. C’est délicat, car les erreurs dans le texte ne sont pas toujours aussi évidentes qu’un zèbre valsant dans un roman victorien. De plus, RLHF est souvent utilisé pour s’assurer que les modèles ne présentent pas de biais préjudiciables dans leurs réponses et fournissent des réponses acceptables sur des sujets controversés. McAleese affirme que CriticGPT n’est pas susceptible d’être utile dans de telles situations : « Ce n’est pas une approche suffisamment solide. »

Un chercheur en IA sans lien avec OpenAI affirme que le travail n’est pas conceptuellement nouveau, mais qu’il s’agit d’une contribution méthodologique utile. “Certains des principaux défis liés au RLHF proviennent des limitations de la vitesse de la cognition humaine, de la concentration et de l’attention portée aux détails”, explique Stephen Casper, un doctorat. étudiant au MIT et l’un des principaux auteurs d’un article préimprimé de 2023 sur le limites du RLHF« De ce point de vue, l’utilisation d’annotateurs humains assistés par LLM est un moyen naturel d’améliorer le processus de rétroaction. Je pense qu’il s’agit d’une avancée significative vers une formation plus efficace des modèles alignés. »

Mais Casper note également que la combinaison des efforts des humains et des systèmes d’IA « peut créer de tout nouveaux problèmes ». Par exemple, dit-il, « ce type d’approche augmente le risque d’implication humaine superficielle et peut permettre l’injection de biais subtils en matière d’IA dans le processus de feedback ».

La nouvelle recherche sur l’alignement est la première issue d’OpenAI depuis que l’entreprise… a réorganisé son équipe d’alignement, c’est un euphémisme. Suite aux départs fracassants du cofondateur d’OpenAI Ilya Sutskever et chef d’alignement Jan Leike En mai, tous deux apparemment motivés par des inquiétudes selon lesquelles l’entreprise ne donnait pas la priorité au risque lié à l’IA, OpenAI a confirmé qu’elle avait dissous son équipe d’alignement et réparti les membres restants de l’équipe dans d’autres groupes de recherche. Tout le monde attendait de voir si l’entreprise continuerait à publier des recherches d’alignement crédibles et révolutionnaires, et à quelle échelle. (En juillet 2023, l’entreprise avait annoncé qu’elle allait consacrer 20 pour cent de ses ressources informatiques à la recherche d’alignement, mais Leike a déclaré dans un Tweet de mai 2024 que son équipe avait récemment « lutté pour le calcul ».) La prépublication publiée aujourd’hui indique qu’au moins les chercheurs en alignement travaillent toujours sur le problème.

À partir des articles de votre site

OpenAI crée CriticGPT pour détecter les erreurs de ChatGPT

Une IA peut-elle surprendre une IA en train de mentir ?

CriticGPT repère des erreurs de codage, mais peut-être pas des zèbres

Related

Related News

Brandon Aiyuk sur le contrat des 49ers : « Vous ne pouvez pas vous permettre une Lamborghini, vous ne pouvez pas en avoir une » | Actualités, scores, faits saillants, statistiques et rumeurs

Les 10 meilleurs moments du repêchage 2024 de la LNH

Si mille clarinettes fêtent un anniversaire. La vérité sur l’incident de Gotta, Matuska et Pilarová !

Park Cheol dit à son ex-femme Oksori : “Ne te présente pas devant moi.”

Dans la vie amoureuse de Melania et Donald Trump : pourquoi il déteste son anniversaire, son régime fruité… et la vraie raison pour laquelle Barron n’a jamais eu de nounou

Date peu connue, les conducteurs devraient renouveler leur assurance automobile le | Finances personnelles | Finance

Les sandwichs à la salade aux trois haricots sont devenus un nouveau classique du pique-nique

Des concentrations de PFAS toxiques absorbées par la peau sont supérieures à ce que l’on pensait auparavant | PFAS

Heures de départ de la dernière ronde de Rocket Mortgage pour le festival compétitif des birdies

Rouge, blanc, mais rarement bleu – la science des couleurs des feux d’artifice expliquée

Noa Argamani : une Israélienne kidnappée au festival de musique Nova s’exprime publiquement pour la première fois depuis son sauvetage | Nouvelles du monde

Un mouvement de jeunesse se profile-t-il à l’horizon ?

Leave a Reply Cancel reply

Recent News

Brandon Aiyuk sur le contrat des 49ers : « Vous ne pouvez pas vous permettre une Lamborghini, vous ne pouvez pas en avoir une » | Actualités, scores, faits saillants, statistiques et rumeurs

Les 10 meilleurs moments du repêchage 2024 de la LNH

Si mille clarinettes fêtent un anniversaire. La vérité sur l’incident de Gotta, Matuska et Pilarová !

Park Cheol dit à son ex-femme Oksori : “Ne te présente pas devant moi.”

Dans la vie amoureuse de Melania et Donald Trump : pourquoi il déteste son anniversaire, son régime fruité… et la vraie raison pour laquelle Barron n’a jamais eu de nounou

Date peu connue, les conducteurs devraient renouveler leur assurance automobile le | Finances personnelles | Finance

Editor's Pick

More Interesting News

Brandon Aiyuk sur le contrat des 49ers : « Vous ne pouvez pas vous permettre une Lamborghini, vous ne pouvez pas en avoir une » | Actualités, scores, faits saillants, statistiques et rumeurs

Les 10 meilleurs moments du repêchage 2024 de la LNH

OpenAI crée CriticGPT pour détecter les erreurs de ChatGPT

Une IA peut-elle surprendre une IA en train de mentir ?

CriticGPT repère des erreurs de codage, mais peut-être pas des zèbres

Share this:

Related

Related News

Leave a Reply Cancel reply

Recent News

Editor's Pick

Tags

More Interesting News