ElevenLabs presenta Scribe v2, un model de transcripció que millora la precisió en àudio extens i ofereix detecció automàtica d'entitats, suport multilingüe i funcions dissenyades per a fluxos de treball empresarials.
ElevenLabs ha anunciat el llançament de Scribe v2, el seu nou model de transcripció dissenyat per processar àudio per lots, generar subtítols i crear transcripcions a escala. El model incorpora millores en l'estabilitat i la precisió respecte a la versió anterior, amb una millor gestió d'àudios extensos, pauses, canvis de to i silencis prolongats.
Scribe v2 està optimitzat per a gravacions llargues i complexes, mantenint la precisió en diferents locutors, accents i estils de presentació. Segons dades de la companyia, el model assoleix la taxa d'error de paraules més baixa registrada en els estàndards d'avaluació del sector.
Entre les funcionalitats destacades es troba el keyterm prompting, un sistema que permet seleccionar fins a 100 paraules o frases específiques. El model utilitza el context per decidir quan transcriure aquests termes, cosa que resulta útil en dominis tècnics, noms de marca i llenguatge especialitzat.
El model incorpora detecció nativa d'entitats per a l'anàlisi estructurat d'àudio. Els usuaris poden seleccionar fins a 56 categories que inclouen informació personal identificable, dades de salut o informació de pagaments. Scribe v2 detecta automàticament aquestes instàncies i registra les seves marques de temps exactes.
El sistema suporta fluxos de treball multilingües de forma automàtica, processant fitxers que contenen múltiples idiomes i detectant cadascun sense necessitat de segmentació manual. El model ofereix suport per a més de 90 idiomes.
La versió inclou característiques addicionals orientades a casos empresarials: identificació intel·ligent de parlants, marques de temps a nivell de paraula, etiquetatge dinàmic d'àudio que detecta esdeveniments no verbals, i compliment amb estàndards SOC 2, ISO 27001, PCI DSS L1, HIPAA i RGPD. També ofereix residència de dades a la Unió Europea i l'Índia.
Scribe v2 està disponible a ElevenLabs Studio i a través de l'API de la plataforma, permetent a desenvolupadors i empreses automatitzar processos d'àudio complexos.
Explora el servei de clonació de veu i conversió de text a veu més avançat de la història. Crea locucions realistes per als teus continguts o utilitza el nostre generador de veu AI com un lector ...
17/04/2026
Anthropic ha llançat Claude Design, una eina que permet crear dissenys visuals, prototips interactius i presentacions mitjançant conversa amb el ...
17/04/2026
Anthropic publica Claude Opus 4.7, un model amb guanys notables en desenvolupament de programari, major resolució d'imatge i noves mesures de ...
08/04/2026
Meta Superintelligence Labs llança Muse Spark, un model multimodal d'intel·ligència artificial capaç de processar text i imatges alhora, amb un ...
07/04/2026
Anthropic ha presentat Project Glasswing, una iniciativa de ciberseguretat amb dotze grans empreses tecnològiques per utilitzar el seu nou model ...