OpenAI e Google dotano i loro LLM di funzionalità di analisi visiva in tempo reale

OpenAI lancia una modalità video interattiva per ChatGPT, mentre Google introduce la sua API multimodale live. In grado di analizzare voce e video, queste innovazioni aprono la strada agli assistenti AI che interagiscono in tempo reale con l’input dell’utente.

OpenAI ha annunciato su X l’implementazione graduale di una nuova funzionalità che sfrutta l’analisi delle informazioni visive in tempo reale. Gli utenti degli abbonamenti ChatGPT Plus, Pro e Team potranno interagire live con ChatGPT tramite la modalità video del proprio smartphone e condividendo screenshot. Questo aggiornamento permette di ottenere feedback immediati dal chatbot sui contenuti visualizzati sullo schermo oppure ottenere spiegazioni, ad esempio sui menu di impostazione o su problemi matematici.

Per utilizzare queste nuove funzionalità, gli utenti devono abilitare la modalità vocale avanzata toccando l’icona della voce nella barra della chat. Un’opzione video in basso a sinistra consente agli utenti di avviare una videochiamata, mentre l’opzione di condivisione dello schermo si trova nel menu a tre punti.

Tieni presente che la funzionalità non è attualmente offerta in Europa e in Svizzera.

API per interazioni multimodali in tempo reale

L’annuncio di OpenAI arriva poco dopo il lancio di Gemini 2.0, la nuova versione principale della famiglia di modelli linguistici sviluppata da Google. Molte le funzionalità svelate, una delle quali sfrutta funzionalità di analisi visiva in tempo reale: la Multimodal Live API, rivolta agli sviluppatori. Secondo Google, l’API è progettata per consentire loro di creare applicazioni dinamiche e interattive.

Questa API multimodale consente interazioni bidirezionali in tempo reale elaborando simultaneamente input di testo, audio e video, con risposte che possono essere generate in testo o audio. Si distingue per la sua bassa latenza e la sua capacità di gestire conversazioni naturali, tenendo conto delle interruzioni e rilevando automaticamente l’attività vocale. L’API espande in modo significativo la gamma di opzioni di comunicazione, consentendo agli utenti di condividere feed video come screenshot o input della fotocamera, ponendo domande direttamente su quel contenuto, leggendo la documentazione che Google invia agli sviluppatori di applicazioni.

Dal canto suo, OpenAI aveva già introdotto un’innovazione simile lo scorso ottobre con la sua Realtime API, che riprende alcuni dei principi dell’Advanced Voice Mode di ChatGPT. Questa API consente conversazioni vocali, offrendo agli sviluppatori la possibilità di integrare input testuali o audio e risposte personalizzate sotto forma di testo, audio o entrambi, afferma OpenAI.

API per interazioni multimodali in tempo reale

Related posts