AI: DeepL si occupa della voce

Wednesday 13th November 2024 10:04 PM

Gemma europea della traduzione assistita dall’intelligenza artificiale, DeepL ha appena svelato la sua prima incursione nel campo della voce.

L’editore tedesco ha presentato due nuove offerte – Deepl Voice Dialogue e Deepl Voice Réunion – durante un evento promozionale (DeepL Dialogues) il 13 maggio a Berlino. Entrambi gli strumenti sono in grado, su carta, di tradurre in tempo reale conversazioni in diverse lingue.

La versione Meeting ha lo scopo di tradurre gli interventi dei partecipanti, che parlano ciascuno lingue diverse, e di visualizzarli sottotitolati (nella lingua scelta individualmente da ciascun ascoltatore). La versione Dialogue è un’app mobile per conversazioni faccia a faccia.

Come per gli altri suoi prodotti (Traduzione e strumento di riscrittura Write), DeepL si affida alla ricerca sull’intelligenza artificiale e ai propri modelli, ricorda Jarek Kutylowski, amministratore delegato e fondatore dell’editore. I modelli sono stati addestrati su set di dati con diverse enfasi.

“La traduzione vocale in tempo reale pone altre sfide [que ceux de la traduction par écrit] : informazioni incomplete, problemi di pronuncia e latenza sono fattori che possono portare a traduzioni imprecise”, sottolinea Jarek Kutylowski. “Questi stessi elementi possono portare a malintesi […]. Quindi abbiamo progettato una soluzione che ne tenga conto fin dall’inizio”.

Dopo una fase di beta test, DeepL Voice è ora ufficialmente disponibile. Lo strumento supporta una decina di lingue parlate (inglese, tedesco, giapponese, coreano, svedese, olandese, francese, turco, polacco, portoghese, russo, spagnolo e italiano), con sottotitoli tradotti disponibili in tutte le 33 lingue prese da DeepL Translator.

“Ho già testato altri strumenti, ma generalmente supportano solo una lingua nelle riunioni”, elogia Christine Aubry, coordinatrice dell’internazionalizzazione di Brioche Pasquier, che ha partecipato alla fase beta di DeepL Voice. Per lei, “DeepL Voice è diverso e di gran lunga lo strumento più completo.”

Un mercato della traduzione AI sempre più competitivo

DeepL non fa (ancora?) “voice to voice”, ma piuttosto “speech to text” con traduzione.

In questo segmento, Samsung, nei suoi modelli di fascia alta con Galaxy AI, Google, nella sua applicazione mobile Translate, ed editor video (WebEx, Zoom) hanno lanciato funzionalità simili per i sottotitoli tradotti.

Un altro player, OpenAI, sta esplorando il nuovo orizzonte della traduzione orale istantanea.

La particolarità tecnica della “modalità vocale avanzata” (nome interno della funzionalità a OpenAI) non è quella di scomporre il processo di traduzione in tre parti – parlato in testo / traduzione/testo in voce – ma di affidare tutto ad un unico modello per ridurre la latenza del dialogo.

La filosofia non è esattamente la stessa di DeepL e dei sottotitoli degli editor video, ma l’esigenza mirata sembra abbastanza vicina (collaborare in tempo reale con più persone in diverse lingue). Il futuro dirà quale opzione prevarrà – quella che mantiene il testo o quella che passa alla voce – a seconda dell’ergonomia e del prezzo.

Il mercato è del resto sempre più competitivo poiché i grandi LLM (GPT 4 o, Claude, Mistral) sono oggi in grado di tradurre testi, tenendo conto delle regole stabilite dagli utenti per personalizzarli. Una pietra, sempre più grande, nel giardino storico di DeepL.

Da parte sua, per evitare di essere fagocitata, DeepL ha aumentato il numero di novità nell’ultimo anno, in particolare con il rilascio di un LLM per potenziare il suo traduttore. Con la raccolta fondi l’azienda vale 2 miliardi di dollari.