Après 50 000 heures, cette IA peut jouer à Pokémon Rouge

Après 50 000 heures, cette IA peut jouer à Pokémon Rouge

Il y a presque 10 ans, le phénomène en ligne «Twitch joue à Pokémon” a réuni plus d’un million de personnes pour jouer à Pokémon Rouge en même temps, les frappes de chaque joueur étant enregistrées comme commandes pour l’avatar pixelisé. Aujourd’hui, à l’instar d’un Magikarpe qui se transforme en Léviator, l’évolution de la technologie soulève une nouvelle question : l’IA peut-elle jouer aux Pokémon ?

Au cours des dernières années, ingénieur logiciel basé à Seattle Peter Whidden a entraîné un algorithme d’apprentissage par renforcement pour naviguer dans le premier jeu classique de la série Pokémon. Au cours de cette période, l’IA a joué plus de 50 000 heures de jeu. Whidden publié un YouTube de 33 minutes vidéo racontant l’histoire du développement de l’IA, et après neuf jours, la vidéo a été vue 2,2 millions de fois.

“Ce qui a été très amusant à voir, c’est combien de personnes s’y engagent”, a déclaré Whidden à >. Il a téléchargé le code qu’il a utilisé sur GitHub, ainsi que des instructions sur la façon d’utiliser et de former l’IA. “Il y a une tonne de gens qui semblent vraiment intéressés par ce processus de création ou de conception.” Un fan a pu appliquer son code à Pokémon Crystal, un autre opus rétro de Game Boy.

Le modèle de renforcement de l’IA est pavlovien, donnant à l’IA des incitations basées sur des points pour améliorer les Pokémon, explorer de nouvelles zones, gagner des batailles et battre les dirigeants des gymnases. Parfois, ces incitations ne correspondent pas parfaitement à la progression dans le jeu, mais les échecs de l’IA sont étrangement charmants, ce qui explique probablement pourquoi la vidéo de Whidden est devenue virale.

Lire aussi  Vous avez fait séquencer votre génome et trouvé quelque chose – et maintenant ? | Expliqué

Dans l’une des tentatives de l’IA, elle s’arrête simplement pour regarder l’eau de Pallet Town – le premier endroit que vous visitez dans le jeu – et ne bouge jamais. Il reste coincé dans une zone avec de l’eau, de l’herbe et des PNJ animés qui vont et viennent, ce qui signifie que chaque image individuelle semble être une expérience nouvelle pour l’IA, même si elle reste immobile sans même avoir encore son premier Pokémon. Mais cette IA n’est pas pressée de « tous les attraper ». Il s’agit simplement de profiter de la beauté de la région de Kanto (ou peut-être de prendre une position éthique contre le fait de forcer ces adorables petits animaux à se battre… qui peut le dire).

“Donc, selon notre propre objectif, simplement traîner et admirer le paysage est plus gratifiant que d’explorer le reste du monde”, explique Whidden dans la vidéo. « C’est un paradoxe que nous rencontrons dans la vraie vie : la curiosité nous conduit à nos découvertes les plus importantes, mais en même temps, elle nous rend vulnérables aux distractions et nous attire des ennuis. »

L’IA continue de nous toucher : plus tard, elle vit quelque chose qui ressemble à un événement traumatisant au Centre Pokémon. Le succès de l’IA se mesure en partie par les niveaux totaux de tous les Pokémon de votre groupe. Mais lorsqu’une IA se rend au Pokémon Center et que le bouton s’écrase suffisamment pour déposer un Pokémon dans le stockage, la somme de tous les niveaux diminue considérablement, envoyant un signal négatif fort à l’IA. Avec Pidgey et une créature non identifiée surnommée « AAAAAAAAAA » dans son groupe, la somme de tous les niveaux était de 25, mais une fois Pidgey déposé dans le PC, la somme n’est que de 12.

Lire aussi  Bière concentrée ? Couper le liquide avant l'expédition réduit également son empreinte carbone

“Il n’éprouve pas d’émotions comme un humain, mais un seul événement avec une valeur de récompense extrême peut quand même avoir un impact durable sur son comportement”, raconte Whidden. “Dans ce cas, perdre son Pokémon une seule fois suffit à former une association négative avec l’ensemble du Centre Pokémon, et l’IA l’évitera complètement dans tous les jeux futurs.”

Crédits images : Peter Whidden sur YouTube

Malgré la capacité de l’IA à ressentir des traumatismes et à admirer les jolis pixels de Pallet Town, ce n’est encore qu’un ordinateur. Cette IA n’est pas capable de lire et d’interpréter les dialogues dans le jeu, donc dans les premières itérations, le programme resterait bloqué à un carrefour précoce du jeu. Lorsque vous atteignez la deuxième ville de Pokémon Rouge, vous recevez un objet à rapporter au professeur Pokémon de Pallet Town. Mais l’IA avait du mal à revenir en arrière pour livrer le colis, ce qui rendait impossible toute progression. Ainsi, Whidden a sauté de l’avant pour que chaque partie commence après la livraison du colis, et avec Carapuce comme Pokémon de départ de l’IA, car le début de partie est généralement plus facile avec un Pokémon eau à votre service.

“Dans la vidéo, le plus loin [the AI] atteint se trouve le mont. Lune, entre le premier et le deuxième gymnase », a déclaré Whidden à >. Les grottes sont notoirement frustrantes à naviguer dans les premiers jeux Pokémon, même si vous avez un véritable cerveau humain. Mais Whidden a récemment modifié certaines des récompenses de son code et essayé un algorithme d’apprentissage différent, et finalement, l’IA a réussi à sortir de la grotte et à arriver à Cerulean City.

Lire aussi  Une nouvelle règle oblige 200 usines américaines à réduire les émissions toxiques liées au cancer | Pollution

D’autres chercheurs ont utilisé l’apprentissage par renforcement pour étudier l’utilisation de l’IA dans les jeux, comme avec AlphaGo de DeepMind, qui a été le premier programme informatique à vaincre un joueur de Go professionnel. Mais la vidéo de Whidden a attiré beaucoup d’attention parce qu’il est très habile à expliquer des concepts inconnus à travers un support familier : Pokémon.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick