Le robot IA de Meta a appris à jouer à un jeu de plateau stratégique

Le robot IA de Meta a appris à jouer à un jeu de plateau stratégique

Les ordinateurs deviennent assez bons pour une liste croissante de jeux d’arcade et de société, y compris les échecs, Go, Pong et Pac-Man. Les machines pourraient même changer la façon dont les jeux vidéo sont développés dans un avenir pas si lointain. Maintenant, après avoir construit un bot d’IA qui déjoue les humains au poker, les scientifiques de Meta AI ont créé un programme capable d’un gameplay encore plus complexe : un programme capable d’élaborer des stratégies, de comprendre les intentions des autres joueurs et de communiquer ou de négocier des plans avec eux via des messages de chat.

Ce bot s’appelle CICERO, et il peut jouer au jeu Diplomacy mieux que de nombreux joueurs humains. CICERO a plus que doublé le score moyen de ses adversaires humains et s’est classé parmi les 10 % des meilleurs joueurs sur 40 matchs dans une ligue en ligne.

Le programme est un travail en cours depuis trois ans entre des ingénieurs de Meta et des chercheurs de Columbia, du MIT, de Stanford, de l’Université Carnegie Mellon, de l’UC Berkeley et de Harvard. Une description de la création du CICERO a été publiée aujourd’hui dans un article de La science. L’équipe est en open source pour le code et le modèle, et ils rendront les données utilisées dans le projet accessibles à d’autres chercheurs.

Diplomacy est à l’origine un jeu de société se déroulant dans une version stylisée de l’Europe. Les joueurs assument le rôle de différents pays et leur objectif est de prendre le contrôle de territoires en concluant des accords stratégiques et des plans d’action.

“Ce qui distingue la diplomatie, c’est qu’elle implique la coopération, la confiance et, plus important encore, la communication en langage naturel et la négociation avec d’autres acteurs”, explique Noam Brown, chercheur à Meta AI et auteur de l’article.

Bien qu’une version spéciale du jeu sans la fonction de chat ait été utilisée pour tester l’IA au fil des ans, les progrès des modèles de langage à partir de 2019 ont fait comprendre à l’équipe qu’il pourrait être possible d’enseigner à une IA comment jouer pleinement à Diplomacy.

Lire aussi  Les serveurs Microsoft Exchange du monde entier touchés par une nouvelle porte dérobée furtive

Mais parce que Diplomacy avait cette exigence unique de collaboration, “beaucoup de techniques qui ont été utilisées pour les jeux précédents ne s’appliquent plus”, explique Brown.

Auparavant, l’équipe avait mené une expérience avec la version non linguistique du jeu, où les joueurs étaient spécifiquement informés que dans chaque jeu, il y aurait un bot et six humains. “Ce que nous avons découvert, c’est que les joueurs essayaient activement de comprendre qui était le bot, puis éliminaient ce joueur”, explique Brown. « Heureusement, notre bot a pu se faire passer pour un humain dans ce contexte ; ils ont en fait eu beaucoup de mal à comprendre qui était le bot, donc le bot a en fait obtenu la première place dans la ligue.

Mais avec le jeu complet de Diplomacy, l’équipe savait que le bot n’était pas prêt à passer le test de Turing si des interrogations en langage naturel étaient impliquées. Ainsi, pendant l’expérience, les joueurs n’ont pas été informés qu’ils jouaient avec un bot, un détail qui n’a été révélé qu’après la fin du jeu.

Fabriquer Cicéron

Pour construire l’IA jouant à la diplomatie, l’équipe a construit deux moteurs de traitement de données distincts qui s’alimentent l’un l’autre : un moteur pour le dialogue (inspiré de modèles tels que GPT-3, BlenderBot 3, LaMDA et OPT-175B), et un autre pour la stratégie. raisonnement (inspiré de travaux antérieurs comme AlphaGo et Pluribus). Combiné, le modèle de dialogue, qui a été formé sur un vaste corpus de données textuelles provenant d’Internet et de 50 000 jeux humains de webDiplomacy.net, peut communiquer et transmettre des intentions conformes à son plan d’action prévu.

Méta IA

Cela fonctionne aussi dans le sens inverse. Lorsque d’autres joueurs communiquent avec le bot, le moteur de dialogue peut traduire cela en plans et en actions dans le jeu, et l’utiliser pour informer le moteur de stratégie des prochaines étapes. Les grands plans de CICERO sont formulés par un moteur de raisonnement stratégique qui estime le meilleur coup suivant en fonction de l’état du tableau, du contenu des conversations les plus récentes, des coups qui ont été effectués historiquement par des joueurs dans une situation similaire et des objectifs du bot.

Lire aussi  Le directeur de Total War: Warhammer 3 confirme qu'un "nouveau contenu" est en route

[Related: MIT scientists taught robots how to sabotage each other]

“Les modèles de langage sont vraiment bons de nos jours, mais ils ont certainement leurs défauts. Plus nous pouvons décharger de stratégie du modèle de langage, mieux nous pouvons faire », déclare Brown. “Pour cette raison, nous avons ce modèle de dialogue qui conditionne les plans, mais le modèle de dialogue n’est pas responsable des plans.” Ainsi, la partie du programme qui parle n’est pas la même que la partie qui fait la planification.

L’algorithme de planification utilisé par le bot s’appelle piKL. Il fera une prédiction initiale de ce que tout le monde est susceptible de faire et de ce que tout le monde pense que le bot fera, et affinera cette prédiction en pesant les valeurs des différents mouvements. «Lorsque vous effectuez ce processus itératif, vous essayez de peser ce que les gens ont fait historiquement compte tenu de l’ensemble de données dont nous disposons», explique Brown. “Il essaie également d’équilibrer cela avec la compréhension que les joueurs ont certains objectifs dans ce jeu, ils essaient de maximiser leur score et ils ne feront pas d’erreurs très graves comme ils le feraient des erreurs mineures. Nous avons en fait observé que cela modélise les humains bien mieux que de simplement faire la prédiction initiale basée sur des données humaines.

La nouvelle IA de Meta peut utiliser la tromperie pour conquérir un monde de jeux de société
Méta IA

“La tromperie existe sur un spectre”

Considérez le concept de tromperie, qui est un aspect intéressant de la diplomatie. Dans le jeu, avant chaque tour, les joueurs passeront 5 à 15 minutes à se parler et à négocier des plans. Mais comme tout se passe en privé, les gens peuvent faire double emploi. Ils peuvent faire des promesses à une personne et dire à une autre qu’ils feront autre chose.

Mais ce n’est pas parce que les gens peuvent être sournois que c’est la meilleure façon d’aborder le concours. “Beaucoup de gens, lorsqu’ils commencent à jouer au jeu de la diplomatie, le considèrent comme un jeu sur la tromperie. Mais en fait, si vous parlez à des joueurs expérimentés de Diplomacy, ils pensent avec une approche très différente du jeu, et ils disent que c’est un jeu sur la confiance », dit Brown. « C’est être capable d’établir la confiance avec d’autres joueurs dans un environnement qui vous encourage à ne faire confiance à personne. La diplomatie n’est pas un jeu où vous pouvez réussir par vous-même. Il faut vraiment avoir des alliés.

Lire aussi  Halo Infinite sur PC a 14 modes cachés - voici comment les jouer

Les premières versions du bot étaient carrément plus trompeuses, mais cela a fini par faire assez mal. Les chercheurs ont ensuite ajouté des filtres pour réduire le mensonge, ce qui a conduit à de bien meilleures performances. Mais bien sûr, CICERO n’est pas toujours totalement honnête avec toutes ses intentions. Et surtout, il comprend que d’autres joueurs peuvent également être trompeurs. “La tromperie existe sur un spectre, et nous filtrons les formes les plus extrêmes de tromperie, car cela n’est pas utile”, déclare Brown. “Mais il y a des situations où le bot omettra stratégiquement des informations.”

Par exemple, s’il prévoit d’attaquer quelqu’un, il omettra les parties de son plan d’attaque dans ses communications. S’il travaille avec un allié, il se peut qu’il ne communique que les détails nécessaires, car exposer trop de ses objectifs pourrait l’exposer à un coup de poignard dans le dos.

“Nous tenons compte du fait que les joueurs n’agissent pas comme des machines, ils pourraient se comporter de manière irrationnelle, ils pourraient se comporter de manière sous-optimale. Si vous voulez que l’IA agisse dans le monde réel, il est nécessaire de leur faire comprendre que les humains vont se comporter de manière humaine, et non de manière robotique », déclare Brown. “Avoir un agent capable de voir les choses sous d’autres angles et de comprendre son point de vue est un ensemble de compétences assez important pour l’avenir des interactions homme-IA.”

Brown note que les techniques qui sous-tendent le bot sont “assez générales”, et il peut imaginer que d’autres ingénieurs s’appuient sur cette recherche d’une manière qui mène à des assistants personnels et des chatbots plus utiles.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick