ElevenLabs présente Scribe v2, un modèle de transcription qui améliore la précision sur les audios longs et offre une détection automatique d'entités, un support multilingue et des fonctionnalités conçues pour les workflows d'entreprise.
ElevenLabs a annoncé le lancement de Scribe v2, son nouveau modèle de transcription conçu pour traiter l'audio par lots, générer des sous-titres et créer des transcriptions à grande échelle. Le modèle intègre des améliorations en termes de stabilité et de précision par rapport à la version précédente, avec une meilleure gestion des audios longs, des pauses, des changements de ton et des silences prolongés.
Scribe v2 est optimisé pour les enregistrements longs et complexes, maintenant la précision avec différents locuteurs, accents et styles de présentation. Selon les données de l'entreprise, le modèle atteint le taux d'erreur de mots le plus bas enregistré dans les standards d'évaluation du secteur.
Parmi les fonctionnalités remarquables figure le keyterm prompting, un système qui permet de sélectionner jusqu'à 100 mots ou expressions spécifiques. Le modèle utilise le contexte pour décider quand transcrire ces termes, ce qui est utile dans les domaines techniques, les noms de marque et le langage spécialisé.
Le modèle intègre une détection native d'entités pour l'analyse structurée de l'audio. Les utilisateurs peuvent sélectionner jusqu'à 56 catégories incluant des informations personnelles identifiables, des données de santé ou des informations de paiement. Scribe v2 détecte automatiquement ces instances et enregistre leurs horodatages exacts.
Le système prend en charge les workflows multilingues de manière automatique, traitant des fichiers contenant plusieurs langues et détectant chacune sans segmentation manuelle. Le modèle offre un support pour plus de 90 langues.
La version inclut des fonctionnalités supplémentaires orientées vers les cas d'entreprise : identification intelligente des locuteurs, horodatages au niveau du mot, étiquetage dynamique de l'audio qui détecte les événements non verbaux, et conformité aux normes SOC 2, ISO 27001, PCI DSS L1, HIPAA et RGPD. Elle offre également la résidence des données dans l'Union européenne et en Inde.
Scribe v2 est disponible dans ElevenLabs Studio et via l'API de la plateforme, permettant aux développeurs et aux entreprises d'automatiser des processus audio complexes.
Explorez le logiciel de clonage vocal et de synthèse vocale le plus avancé de l'histoire. Créez des voix off réalistes pour vos contenus ou utilisez notre générateur de voix IA comme un lecteur ...
09/06/2026
...
25/05/2026
Le pape Léon XIV publie la première encyclique consacrée à l'intelligence artificielle, fixant la dignité humaine comme critère de tout ...
19/05/2026
Rime présente Coda, un modèle de synthèse vocale pour agents conversationnels en temps réel qui reproduit le rythme, les pauses et l'intonation ...
11/05/2026
Thinking Machines Lab a publié un aperçu de recherche de TML-Interaction-Small, un modèle d'interaction conçu pour collaborer avec l'utilisateur ...