Publié le 29 février 2024 14:32:00. Google Labs dévoile une série d’innovations basées sur l’intelligence artificielle Gemini, allant de nouvelles fonctionnalités de navigation web à des avancées significatives dans la traduction vocale et la recherche d’informations.
- Google Labs lance Disco, une nouvelle expérience de navigation intégrant GenTabs pour organiser et synthétiser les onglets et l’historique de navigation.
- Les modèles audio Gemini 2.5 Flash Native ont été améliorés pour des interactions vocales plus naturelles et précises, et sont désormais disponibles dans plusieurs outils, dont la Recherche en direct.
- Une nouvelle version bêta de traduction vocale en direct est proposée dans l’application Google Traduction, couvrant plus de 70 langues.
Google intensifie ses efforts dans le domaine de l’intelligence artificielle avec une série d’annonces visant à simplifier la vie numérique des utilisateurs et à offrir de nouveaux outils aux développeurs. Parmi les nouveautés, Disco, une expérience de navigation web repensée, se distingue par sa capacité à organiser l’information et à transformer des sessions de navigation complexes en applications web personnalisées. Au cœur de cette innovation se trouve GenTabs, une fonctionnalité qui synthétise de manière proactive les onglets ouverts et l’historique de navigation pour créer des outils interactifs.
L’entreprise a également mis à niveau ses modèles audio Gemini, avec le Gemini 2.5 Flash Native Audio, conçu pour gérer des flux de travail complexes et des dialogues naturels. Cette amélioration se traduit par des conversations plus fluides, une plus grande précision et une meilleure réactivité aux instructions. Les utilisateurs peuvent désormais profiter de ces avancées dans AI Studio, Vertex AI, Gemini Live et, pour la première fois, dans la Recherche en direct. Parallèlement, une nouvelle version bêta de traduction vocale en direct est disponible dans l’ application Google Traduction, permettant de traduire en temps réel dans plus de 70 langues tout en préservant l’intonation et le rythme d’origine.
Pour les développeurs, Google a publié un nouvel agent Gemini Deep Research via l’API Interactions. Cette nouvelle fonctionnalité permet d’intégrer des capacités de recherche avancées, telles que la navigation sur des sujets complexes et la synthèse de résultats, directement dans leurs propres applications en utilisant une clé API Gemini de Google AI Studio. En outre, Google a mis à disposition un nouveau benchmark open source, DeepSearchQA, pour évaluer l’efficacité des agents de recherche. L’entreprise a également mis en lumière des exemples concrets d’applications développées par des tiers, notamment des assistants IA pour les malvoyants et des outils d’autonomie pour les personnes atteintes de déficience cognitive, comme le relate cet article.
Enfin, Google a lancé une nouvelle fonctionnalité pour les acheteurs américains, améliorant son outil d’essai virtuel. Grâce à la technologie Nano Banana, les utilisateurs peuvent désormais télécharger un simple selfie pour générer une représentation numérique réaliste de leur corps et visualiser instantanément à quoi ils ressembleraient dans des millions de produits disponibles sur son Shopping Graph.
