NVIDIA se lance dans la Course de l’Intelligence Artificielle à travers la Reconnaissance Vocale

Lors du Speech AI Summit de Nvidia aujourd’hui, la société a annoncé son nouvel écosystème d’intelligence artificielle (IA) de la parole, qu’elle a développé grâce à un partenariat avec Mozilla Common Voice. L’écosystème se concentre sur le développement de corpus vocaux multilingues externalisés et de modèles pré-entraînés open source. Nvidia et Mozilla Common Voice visent à accélérer la croissance des modèles de reconnaissance automatique de la parole qui fonctionnent universellement pour chaque locuteur de langue dans le monde.

Nvidia a constaté que les assistants vocaux standard, tels qu’Amazon Alexa et Google Home, prennent en charge moins de 1 % des langues parlées dans le monde. Pour résoudre ce problème, l’entreprise vise à améliorer l’inclusion linguistique dans l’IA vocale et à étendre la disponibilité des données vocales pour les langues mondiales et à faibles ressources.

Nvidia rejoint une course que Meta et Google mènent déjà : Récemment, les deux sociétés ont publié des modèles d’IA vocale pour faciliter la communication entre les personnes qui parlent différentes langues. Le modèle de traduction IA de la parole à la parole de Google, Translation Hub, peut traduire un grand volume de documents dans de nombreuses langues différentes. Google vient également d’annoncer la construction d’un traducteur vocal universel, formé dans plus de 400 langues, avec l’affirmation qu’il s’agit de la “plus grande couverture de modèle linguistique vue dans un modèle vocal aujourd’hui”.

Dans le même temps, le projet de traducteur vocal universel (UST) de Meta AI aide à créer des systèmes d’IA qui permettent une traduction parole-parole en temps réel dans toutes les langues, même celles qui sont parlées mais pas couramment écrites.

Nvidia rejoint une course que Meta et Google mènent déjà : Récemment, les deux sociétés ont publié des modèles d’IA vocale pour faciliter la communication entre les personnes qui parlent différentes langues. Le modèle de traduction IA de la parole à la parole de Google, Translation Hub, peut traduire un grand volume de documents dans de nombreuses langues différentes. Google vient également d’annoncer la construction d’un traducteur vocal universel, formé dans plus de 400 langues, avec l’affirmation qu’il s’agit de la “plus grande couverture de modèle linguistique vue dans un modèle vocal aujourd’hui”.

Dans le même temps, le projet de traducteur vocal universel (UST) de Meta AI aide à créer des systèmes d’IA qui permettent une traduction parole-parole en temps réel dans toutes les langues, même celles qui sont parlées mais pas couramment écrites.

Implémentations actuelles de l’IA vocale de Nvidia

La société développe l’IA vocale pour plusieurs cas d’utilisation, tels que la reconnaissance automatique de la parole (ASR), la traduction artificielle de la parole (AST) et la synthèse vocale. Nvidia Riva, qui fait partie de la plate-forme Nvidia AI, fournit des flux de travail optimisés pour le GPU à la pointe de la technologie pour créer et déployer des pipelines d’IA en temps réel entièrement personnalisables pour des applications telles que les assistants d’agent de centre de contact, les assistants virtuels, les avatars numériques, les voix de marque , et transcription de visioconférence. Les applications développées via Riva peuvent être déployées sur tous les types de cloud et centres de données, à la périphérie ou sur des appareils intégrés.