Hume lance Octave, un modèle d’IA novateur qui ne se contente pas de lire des textes : il en saisit le sens, créant des voix naturelles et expressives qui reflètent émotions et contextes comme jamais auparavant.
La société Hume a dévoilé Octave, un système texte-parole qui propose une approche nouvelle en intelligence artificielle. Contrairement aux méthodes classiques qui se limitent à prononcer des mots, ce modèle — décrit par ses créateurs comme le premier modèle de langage étendu pour texte-parole — analyse le contexte et les émotions d’un texte. Il adapte le ton, le rythme et le timbre, offrant des chuchotements dans des scènes intimes ou des explications posées, à la manière d’un acteur lisant un script.
Lors d’un test avec 180 évaluateurs, Octave a surpassé ElevenLabs, un concurrent reconnu. Il a obtenu 71,6 % de préférence pour la qualité audio, 51,7 % pour le naturel et 57,7 % pour la fidélité aux descriptions vocales, selon 120 exemples variés, allant de narrateurs de films à des personnages médiévaux. Ces chiffres soulignent sa capacité d’adaptation à divers styles.
Le système inclut des outils comme Voice Design, qui génère des voix uniques à partir de descriptions précises, d’un conseiller empathique à un chevalier médiéval. Il propose aussi Acting Instructions, permettant des ajustements d’émotions en temps réel. Bientôt, il intégrera le clonage vocal, nécessitant seulement cinq secondes d’audio.
Octave est disponible sur platform.hume.ai et via une API, adapté aux livres audio, podcasts ou applications interactives. Par ailleurs, Hume lance Expressive TTS Arena, une plateforme publique pour comparer des systèmes vocaux avancés et tester leurs performances sur des textes complexes et expressifs.
Conçu d’abord pour l’anglais et l’espagnol, Octave continue de progresser. Outre la synthèse vocale, il étudie l’expression humaine, ouvrant la voie à de futures avancées en IA.
Laboratoire de recherche et entreprise technologique spécialisée dans les modèles d'IA avec intelligence émotionnelle. Son modèle principal intègre le traitement de la voix et du langage, avec ...
24/04/2026
DeepSeek lance en version préliminaire sa famille V4, deux modèles open source capables de traiter jusqu'à un million de tokens de contexte et de ...
23/04/2026
OpenAI lance GPT-5.5, un modèle conçu pour exécuter des tâches complexes de manière autonome : programmer, rechercher, analyser des données et ...
21/04/2026
OpenAI présente ChatGPT Images 2.0, un modèle de génération d'images offrant une meilleure précision, un support multilingue, des proportions ...
17/04/2026
Anthropic a lancé Claude Design, un outil permettant de créer des designs visuels, des prototypes interactifs et des présentations par ...