OpenAI presenta GPT-4o, con modalità vocale per tutti

OpenAI presenta GPT-4o, con modalità vocale per tutti
OpenAI presenta GPT-4o, con modalità vocale per tutti
-

La società OpenAI, che sviluppa ChatGPT, ha presentato il suo nuovo modello linguistico GPT-4o. Si prevede che offrirà funzionalità al livello del modello attuale, GPT-4, pur essendo più veloce e con migliori capacità di elaborazione di testo, parlato e immagini, afferma l’annuncio.

La “o” in GPT-4o si riferisce a “omni”, spiega OpenAI, che significa “tutto” in latino. Il modello vuole essere un passo avanti verso un’interazione più naturale tra uomo e macchina. Accetta qualsiasi combinazione di testo, parlato e immagini come input. Risponde agli input audio in media in 320 millisecondi, con picchi di 232 millisecondi.

Le prestazioni per l’inglese e il codice sono alla pari con GPT-4, e anche migliori in altre lingue, promette OpenAI. Nei video dimostrativi gli sviluppatori mostrano come lo strumento comunica quasi in tempo reale con una persona in un dialogo vocale. Dotato di voce femminile con accento americano, il chatbot può essere facilmente interrotto anche mentre parla, senza perdere il filo della conversazione. Una demo ha anche evidenziato la cosiddetta capacità dello strumento di “comprendere” lo stato emotivo dell’utente dalla cattura video del suo volto.

GPT-4o beneficia della piena integrazione delle modalità testuali, visive e audio all’interno del modello. Mentre la modalità vocale del suo predecessore era in realtà composta da modelli separati, che richiedevano la trascrizione dell’audio in testo e quindi la conversione del testo in audio. Questa segmentazione comportava una latenza significativa.

Nuovi rischi

Secondo OpenAI, GPT-4o integra la sicurezza in tutte le modalità fin dalla progettazione, attraverso tecniche come il filtraggio dei dati di addestramento e il perfezionamento del comportamento del modello attraverso il post-addestramento. “Riconosciamo che le modalità audio GPT-4o presentano una serie di nuovi rischi. Oggi rendiamo pubblici gli input e gli output di testo e immagini. Nelle prossime settimane e mesi lavoreremo sull’infrastruttura tecnica, sulla facilità d’uso dopo la formazione e sulla sicurezza necessaria per fornire le altre modalità. Ad esempio, al momento del lancio, le uscite audio saranno limitate a una selezione di voci predefinite e rispetteranno le nostre politiche di sicurezza esistenti», specifica l’azienda guidata da Sam Altman. Ricordiamo inoltre che in occasione del lancio di GPT-4, OpenAI aveva pubblicato una “System Card”, un documento di circa sessanta pagine che descriveva sia i pericoli e i limiti del modello, sia il processo di sicurezza coinvolto affidandosi ad esperti esterni mitigare i rischi prima della distribuzione. Per quanto riguarda GPT-4o, la pubblicazione di questo documento è in programma ma avverrà in seguito, precisa OpenAI.

Inizialmente, GPT-4o sarà disponibile solo per gli utenti ChatGPT Plus e ChatGPT Team. Seguiranno gli utenti aziendali. Successivamente il modello sarà disponibile per tutti gli utenti, ma con restrizioni. Gli utenti Plus dovrebbero avere un limite di messaggi fino a cinque volte superiore rispetto agli utenti Free. Gli sviluppatori possono ora accedere a GPT-4o tramite l’API OpenAI.

-

PREV Tutti gli accessori Lidl indispensabili per pulire la tua piscina
NEXT Questo mini altoparlante della Marshall raggiunge un prezzo mai visto prima da Boulanger