Home Technologie et scienceGoogle lance la fonctionnalité audio Gemini, la voix IA et la traduction

Google lance la fonctionnalité audio Gemini, la voix IA et la traduction

by Thomas Caron

Publié le 14 décembre 2025. Google révolutionne les interactions vocales avec Gemini, son modèle d’intelligence artificielle, en intégrant une fonctionnalité de traduction vocale en direct et en améliorant significativement la qualité de ses agents conversationnels.

  • Google a mis à jour Gemini 2.5 Pro et Flash Text-to-Speech pour un contrôle accru de la création audio.
  • Le nouveau modèle Gemini 2.5 Flash Native Audio offre des conversations plus naturelles et une meilleure gestion des instructions complexes.
  • Une fonctionnalité de traduction vocale en direct est désormais disponible en version bêta dans l’application Google Translate.

Google franchit une nouvelle étape dans le développement de l’intelligence artificielle conversationnelle avec le lancement de fonctionnalités audio améliorées pour Gemini. L’entreprise a annoncé des avancées significatives en matière d’interactions vocales, visant à rendre les échanges avec l’IA plus fluides, naturels et fiables. Ces améliorations concernent notamment Gemini 2.5 Pro et Flash Text-to-Speech, qui bénéficient d’un meilleur contrôle sur la création audio.

La mise à jour la plus notable est l’introduction de Gemini 2.5 Flash Native Audio, spécialement conçu pour les agents sonores en direct. Ce modèle se distingue par sa capacité à gérer des flux de travail complexes et à interpréter avec précision les instructions des utilisateurs. Les conversations à plusieurs tours, qui simulent un dialogue plus réaliste, sont désormais plus cohérentes et naturelles.

Gemini 2.5 Flash Native Audio est accessible via Google AI Studio et Vertex AI, et son déploiement a commencé dans Gemini Live et Search Live. L’intégration de l’audio natif dans Search Live ouvre la voie à une expérience de brainstorming et d’assistance en temps réel plus efficace. Les entreprises peuvent également exploiter cette technologie pour créer plus rapidement des agents de service client vocaux performants.

L’innovation ne s’arrête pas là. Google a également dévoilé une fonctionnalité de traduction vocale en direct, qui permet de diffuser la traduction d’un discours en temps réel tout en préservant l’intonation et le ton de l’orateur. Cette fonctionnalité, actuellement en version bêta dans l’application Google Translate, ouvre de nouvelles perspectives en matière de communication mondiale.

« En plus de prendre en charge des agents utiles, l’audio natif ouvre de nouvelles possibilités pour les communications mondiales. Nous introduisons la traduction vocale en direct, une fonctionnalité qui permet la traduction parole-parole en streaming pour les écouteurs. »

Google

Sur le plan technique, le nouveau modèle excelle dans l’exécution d’appels de fonctions externes avec une précision accrue. Les taux de conformité aux instructions ont augmenté jusqu’à 90 %, témoignant d’une fiabilité accrue des réponses. La qualité des conversations multi-tours a également été considérablement améliorée par rapport à la version précédente.

Google précise que la fonctionnalité de traduction vocale en direct conserve l’intonation, la vitesse et la hauteur de la voix de l’orateur, offrant ainsi une expérience de traduction plus naturelle et immersive. Cette version bêta est disponible dès aujourd’hui dans l’application Google Translate.

Plusieurs clients de Google Cloud ont déjà constaté un impact commercial positif grâce à l’utilisation de l’audio Gemini. Shopify, UWM et Newo.ai ont souligné que les agents vocaux se comportaient de manière plus naturelle et intelligente, à tel point que les utilisateurs oublient parfois qu’ils interagissent avec une intelligence artificielle.

Google prévoit d’étendre ces fonctionnalités audio et de traduction à davantage de produits et d’API en 2026. Les développeurs peuvent d’ores et déjà commencer à créer des agents vocaux via les API Vertex AI et Gemini. Cette initiative renforce la position de Gemini comme base d’une nouvelle génération d’interactions vocales.

« Sur la base des commentaires reçus, nous continuerons à affiner cette expérience et à l’appliquer à davantage de produits Google, y compris l’API Gemini en 2026 », a déclaré Google.

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.