Publié le 3 décembre 2023 à 16:15. La course à l’intelligence artificielle générative vidéo s’intensifie avec le lancement de Gen-4.5 par Runway, qui détrône temporairement Google, tandis que le chinois Keling AI entre également dans la compétition avec son modèle O1.
- Runway a dévoilé Gen-4.5, un nouveau modèle de génération vidéo qui surpasse actuellement Veo3 de Google dans les tests de performance.
- Keling AI a annoncé le lancement de Keling O1, présenté comme le premier modèle vidéo multimodal unifié.
- La compétition dans le domaine de la génération vidéo par IA s’annonce rude, avec l’arrivée prochaine de Veo4 de Google.
Le secteur de la génération vidéo par intelligence artificielle est en pleine effervescence. Le 1er décembre, la start-up américaine Runway a officiellement lancé Gen-4.5, son modèle vidéo de nouvelle génération. Ce dernier a rapidement pris la tête des classements, surpassant le modèle Veo3 de Google dans les tests de référence. Quelques heures plus tard, l’entreprise chinoise Keling AI a répliqué en annonçant le lancement de Keling O1, un modèle décrit comme le premier du genre à intégrer des capacités multimodales unifiées.
Bien que Keling O1 ne figure pas encore dans les listes de tests de performance, Gen-4.5, connu sous le nom de code « Whisper Thunder (alias) David », s’est distingué avant sa sortie officielle en obtenant la meilleure note (1 247) dans le test Vincent Video, grâce à un vote anonyme. Google Veo3 suit de près avec un score de 1 226, tandis que Kuaishou Keling 2.5, lancé en septembre, se classe troisième (1 225). Les modèles Sora2 pro d’OpenAI et Conch 02 de MiniMax occupent respectivement les 7e et 8e places.
Runway prévoit d’ouvrir progressivement l’accès à Gen-4.5, permettant à tous les utilisateurs de l’expérimenter dans les prochains jours. L’entreprise a également annoncé qu’elle maintiendrait les prix actuels des abonnements, tout en augmentant le volume de génération possible.
Selon Runway, Gen-4.5 représente une avancée significative dans la génération vidéo, notamment en termes d’efficacité des données d’entraînement et de technologie post-formation. Le modèle excelle dans la compréhension et l’exécution d’instructions complexes, permettant aux utilisateurs de spécifier des plans de tournage détaillés, une composition de scène précise, un timing rigoureux et des nuances d’ambiance subtiles.
Les premiers résultats suggèrent des améliorations notables en matière de suivi précis des consignes textuelles, de rendu d’effets de mouvement physiques réalistes, de contrôle du style visuel et de cohérence globale. Runway affirme que Gen-4.5 atteint un niveau de précision physique et visuelle sans précédent, avec des objets qui se déplacent de manière crédible, des liquides qui s’écoulent naturellement et des détails de surface rendus avec un réalisme accru.
Cependant, la réalité générée par l’IA n’est pas sans défauts. Un exemple cité par Runway montre un perroquet perché sur une structure improbable composée de pastèques, de cactus, de pots de fleurs et de paniers de légumes. Bien que la dynamique du mouvement soit convaincante, la stabilité de la structure semble compromise dans le monde réel.
Runway reconnaît que le modèle présente encore des limites, notamment des difficultés dans le raisonnement causal et la persistance des objets. Des anomalies peuvent survenir, avec des effets précédant les causes ou des objets apparaissant et disparaissant de manière inattendue. L’entreprise s’engage à corriger ces imperfections pour améliorer davantage ses modèles.
La performance de Runway face à Google est remarquable, compte tenu de la taille de l’entreprise. Cristóbal Valenzuela, PDG de Runway, a déclaré :
« Nous avons battu des entreprises valant des milliards de dollars avec seulement une équipe de 100 personnes. Tant que nous restons extrêmement concentrés et diligents, nous pouvons être à la pointe de la technologie. »
Fondée en 2018, Runway a rapidement gagné en importance dans le domaine de la génération vidéo par IA. Sa valorisation actuelle est estimée à 3,55 milliards de dollars. L’entreprise a lancé son premier modèle vidéo, Gen-1, en février 2023, et a intégré les fonctions Vincent Video et Tusheng Video dans Gen-2 en juillet.
L’année 2024 s’annonce comme une période de concurrence accrue dans ce secteur. La position de Runway pourrait être menacée, notamment par l’ascension de la série Veo de Google, qui consolide sa position de leader. Des entreprises chinoises comme Kuaishou Keling et MiniMax’s Conch gagnent également du terrain. Runway devra donc se démarquer par ses produits et sécuriser de nouveaux financements pour rester compétitive.
Il reste à voir combien de temps Gen-4.5 conservera sa position dominante. Keling O1 pourrait représenter un concurrent sérieux, et l’industrie attend avec impatience la sortie de Veo4 de Google. La bataille pour le leadership dans la génération vidéo par IA est loin d’être terminée.
(Source de l’article : China Business News)
Auteur de l’article : Liu Xiaojie
Titre original : La guerre des modèles vidéo reprend ! Runway dépasse Google pour atteindre le sommet, et Keling est également là
