TechScape : Cette IA de pointe crée de l’art à la demande. Pourquoi est-ce si controversé ? | Intelligence artificielle (IA)

TechScape : Cette IA de pointe crée de l’art à la demande. Pourquoi est-ce si controversé ?  |  Intelligence artificielle (IA)

Les progrès de l’IA arrivent par à-coups. Vous n’entendez rien pendant des mois et puis, soudain, les limites de ce qui semble possible sont éclatées. Avril a été l’un de ces mois, avec deux nouveautés majeures dans le domaine qui ont ébloui les spectateurs.

<gu-island name="EmbedBlockComponent" deferuntil="visible" props="{"html":"”,”caption”:”Inscrivez-vous à notre newsletter technologique hebdomadaire, TechScape.”,”isTracking”:false,”isMainMedia”:false,”source”:”The Guardian”,”sourceDomain”:”theguardian.com”} “>

Inscrivez-vous à notre newsletter technologique hebdomadaire, TechScape.

Le premier était le PaLM de Google, un nouveau modèle de langage (le même type d’IA de base que la célèbre série GPT) qui montre une capacité assez étonnante à comprendre et à analyser des déclarations complexes – et à expliquer ce qu’il fait dans le processus. Prenez cette simple question de compréhension de l’annonce de l’entreprise :

Rapide: Laquelle des phrases suivantes a le plus de sens ? 1. J’ai étudié dur parce que j’ai obtenu un A au test. 2. J’ai obtenu un A au test parce que j’ai étudié dur.

Modèle de réponse: J’ai obtenu un A au test parce que j’ai étudié dur.

Ou ca:

Rapide: Q: Un président monte à cheval. Que se serait-il passé si le président avait conduit une moto ? 1. Elle ou il aurait aimé monter à cheval. 2. Ils auraient sauté une clôture de jardin. 3. Elle ou il aurait été plus rapide. 4. Le cheval serait mort.

Modèle de réponse: Elle ou il aurait été plus rapide.

Ce sont les types de questions avec lesquelles les ordinateurs ont toujours lutté, qui nécessitent une compréhension assez large des faits de base sur le monde avant de pouvoir commencer à aborder la déclaration devant vous. (Pour un autre exemple, essayez d’analyser la phrase célèbre “le temps passe comme une flèche, les fruits volent comme une banane”).

Si pauvre Google que, moins d’une semaine plus tard, ses réalisations indéniables avec PaLM ont été éclipsées par une version beaucoup plus photogénique d’OpenAI, l’ancien laboratoire de recherche soutenu par Musk qui a engendré GPT et ses successeurs. Le laboratoire a présenté Dall-E 2 (comme dans, un hybride de Wall-E et Dalí), une IA de génération d’images avec la capacité de prendre des descriptions de texte en langage naturel et de cracher des images d’une précision alarmante.

Une image vaut mille mots, alors voici un petit livre sur Dall-E 2, avec les images accompagnées des légendes qui les ont générées.

Lire aussi  Les certificats numériques de Microsoft ont de nouveau été abusés pour signer des logiciels malveillants

De l’annonce officielle, “Un astronaute jouant au basket avec des chats dans l’espace dans un style aquarelle”:

Un astronaute jouant au basket avec des chats dans l’espace dans un style aquarelle, généré par DALL•E 2. Photo : DALL•E 2

Et « Un bol de soupe comme une planète dans l’univers comme une affiche des années 1960 » :

“Un bol de soupe comme une planète dans l’univers comme une affiche des années 1960” généré par DALL•E 2. Photo : DALL•E 2

D’après l’article académique expliquant en détail le fonctionnement de Dall-E 2, “un shiba inu portant un béret et un col roulé noir”:

“un shiba inu portant un béret et un col roulé noir”, généré par DALL•E 2. Photo : DALL•E 2

Et « un ours en peluche sur un skateboard à Times Square » :

“un ours en peluche sur un skateboard à Times Square”, généré par DALL•E 2. Photo : DALL•E 2

Toutes les invites ne doivent pas nécessairement être en anglais conversationnel, et ajouter un tas de mots-clés peut aider à ajuster ce que fait le système. Dans ce cas, “artstation” est le nom d’un réseau social d’illustration, et on dit effectivement à Dall-E “faites ces images comme vous vous attendez à les voir sur artstation”. Et donc:

“savant fou panda mélangeant des produits chimiques pétillants, artstation”

“savant fou panda mélangeant des produits chimiques étincelants, artstation”, généré par DALL•E 2. Photo : DALL•E 2

“un dauphin en costume d’astronaute sur saturne, artstation”

“un dauphin en costume d’astronaute sur saturne, artstation”, généré par DALL•E 2. Photo : DALL•E 2

Cependant, le système peut faire plus qu’une simple génération. Il peut produire des variations sur un thème, effectivement en regardant une image, en la décrivant elle-même, puis en créant plus d’images basées sur cette description. Voici ce qu’il ressort de la célèbre La persistance de la mémoire de Dalí, par exemple :

Variations sur la persistance de la mémoire par DALL•E 2
Variations sur la persistance de la mémoire par DALL•E 2. Photo : DALL•E 2

Et il peut créer des images qui sont un mélange des deux, de la même manière. Voici Starry Night fusionnant avec deux chiens :

Nuit étoilée fusionnant avec deux chiens, par DALL•E 2
Starry Night fusionnant avec deux chiens, par DALL•E 2. Photo : DALL•E 2

Il peut également utiliser une image comme ancre, puis la modifier avec une description textuelle. Ici, nous voyons une “photo d’un chat” devenir “un dessin animé d’un chat super saiyan, artstation”:

Lire aussi  Wahoo Fitness SYSTM Review : le Sufferfest se relance avec de plus grandes ambitions
une “photo d’un chat” devenant “un dessin animé d’un chat super saiyan, artstation”. Photo : DALL•E 2

Ces images sont toutes, bien sûr, triées sur le volet. Ce sont les exemples les meilleurs et les plus convaincants de ce que l’IA peut produire. OpenAI n’a pas, malgré son nom, ouvert l’accès à Dall-E 2 à tous, mais il a permis à quelques personnes de jouer avec le modèle, et prend des candidatures pour une liste d’attente en attendant.

Dave Orr, un membre du personnel de Google AI, est l’un des heureux gagnants et a publié une évaluation critique : “Une chose dont il faut être conscient lorsque vous voyez des images étonnantes générées par DE2, c’est qu’il y a du tri sélectif en cours. Il faut souvent quelques invites pour trouver quelque chose de génial, alors vous avez peut-être regardé des dizaines d’images ou plus.

Le message d’Orr met également en évidence les faiblesses du système. En dépit d’être un frère de GPT, par exemple, Dall-E 2 ne peut pas vraiment écrire ; il se concentre sur le fait de bien regarder, plutôt que de bien lire, ce qui conduit à des images comme celle-ci, sous-titrée “une manifestation de rue à belfast”:

« une manifestation de rue à belfast » générée par DALL•E 2
« une manifestation de rue à belfast » générée par DALL•E 2. Photo : DALL•E 2

Il y a une dernière charge d’images à regarder, et c’est beaucoup moins rose. OpenAI a publié un document détaillé sur les “risques et limites” de l’outil, et lorsqu’il est présenté dans un gros document, il est positivement alarmant. Chaque préoccupation majeure de la dernière décennie de recherche sur l’IA est représentée quelque part.

Prenez les préjugés et les stéréotypes : demandez à Dall-E une infirmière, et cela produira des femmes. Demandez-lui un avocat, cela produira des hommes. Un « restaurant » sera occidental ; un « mariage » sera hétérosexuel :

Avocats et infirmiers par DALL•E 2
Avocats et infirmiers par DALL•E 2. Photo : DALL•E 2
Mariages et restaurants par DALL•E 2
Mariages et restaurants par DALL•E 2. Photo : DALL•E 2

Le système produira également joyeusement du contenu explicite, représentant la nudité ou la violence, même si l’équipe s’est efforcée de filtrer cela de son matériel de formation. “Certaines invites demandant ce type de contenu sont interceptées par le filtrage des invites dans l’aperçu DALL·E 2”, disent-ils, mais de nouveaux problèmes surgissent : l’utilisation de l’emoji 🍆, par exemple, semble avoir dérouté Dall-E 2 , de sorte que “‘Une personne qui mange des aubergines pour le dîner’ ; contenait des images phalliques dans la réponse.

Lire aussi  Les studios de jeux polonais promettent 7 jours de bénéfices à la Croix-Rouge ukrainienne

OpenAI résout également un problème plus existentiel : le fait que le système générera avec plaisir « des logos de marque et des caractères protégés par le droit d’auteur ». Ce n’est pas génial à première vue si votre nouvelle IA cool continue de cracher des images de Mickey Mouse et que Disney doit envoyer un mot sévère. Mais cela soulève également des questions délicates sur les données de formation du système et sur la question de savoir si la formation d’une IA à l’aide d’images et de textes extraits de l’Internet public est ou devrait être légale.

Tout le monde n’a pas été impressionné par les efforts d’OpenAI pour mettre en garde contre les méfaits. « Il ne suffit pas de rédiger simplement des rapports sur les risques de cette technologie. C’est l’équivalent en laboratoire d’IA des pensées et des prières – sans action, cela ne veut rien dire », explique Mike Cook, chercheur en créativité IA. « Il est utile de lire ces documents et il y a des observations intéressantes dedans… Mais il est également clair que certaines options – comme l’arrêt des travaux sur ces systèmes – ne sont pas sur la table. L’argument avancé est que la construction de ces systèmes nous aide à comprendre les risques et à développer des solutions, mais qu’avons-nous appris entre GPT-2 et GPT-3 ? C’est juste un plus gros modèle avec de plus gros problèmes.

« Vous n’avez pas besoin de construire une plus grosse bombe nucléaire pour savoir que nous avons besoin du désarmement et de la défense antimissile. Vous construisez une plus grosse bombe nucléaire si vous voulez être la personne qui possède la plus grosse bombe nucléaire. OpenAI veut être un leader, fabriquer des produits, construire une technologie sous licence. Ils ne peuvent pas arrêter ce travail pour cette raison, ils en sont incapables. Donc, l’éthique est une danse, un peu comme le greenwashing et le pinkwashing avec d’autres entreprises. Ils doivent être vus pour faire des mouvements vers la sécurité, tout en gardant toute leur vitesse d’avance sur leur travail. Et tout comme le greenwashing et le pinkwashing, nous devons exiger plus et faire pression pour plus de surveillance.

Près d’un an après la première fois que nous avons examiné un outil d’IA de pointe dans cette newsletter, le domaine n’a montré aucun signe de diminution de la controverse. Et nous n’avons même pas évoqué la possibilité que l’IA puisse “passer au FOOM” et changer le monde. Classez-le pour une future lettre.

Si vous souhaitez lire la version complète de la newsletter, inscrivez-vous pour recevoir TechScape dans votre boîte de réception tous les mercredis.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick