Dopo Gemini 2 di pochi giorni prima, Google svela Veo 2 (video) e Imagen 3 (immagini), due modelli di generazione ultrasofisticati. La tempistica dell’annuncio non è certo una coincidenza: Google sta bloccando OpenAI.
Nella guerra per l’intelligenza artificiale generativa, OpenAI e Google sono sicuramente le due figure principali. Il primo ha trasformato il settore con ChatGPT, il secondo fatica a recuperare la sua naturale posizione di leader. Google sta gradualmente recuperando terreno su OpenAI, in particolare con il suo ecosistema Gemini che continua a guadagnare capacità.
Come dare fastidio a OpenAI, che attualmente fa un annuncio al giorno? Parassitandolo con i suoi stessi annunci, ovviamente. Dopo Gemini 2 della settimana precedente, Google ha annunciato il 16 dicembre Veo 2 e Imagen 3, due nuovi modelli per la generazione di video e immagini. Il suo comunicato stampa è uscito 30 minuti prima dell’ottavo giorno degli annunci di OpenAI.
Veo 2: Google evidenzia ciò che Sora non fa bene
Nel suo comunicato stampa, Google presenta Veo 2 come il miglior strumento di generazione video del settore. Il successore di Veo 1, annunciato nel maggio 2024, è capace “comprendi la fisica e i movimenti del mondo reale, il tutto in definizione 4K” spiega Sundar Pichai, il capo di Google. Perché avanzare queste argomentazioni? Perché sono questi i punti deboli di Sora, lo strumento lanciato da OpenAI una settimana prima.
Veo 2 è in grado di imitare i generi cinematografici, riprodurre lo stile di un obiettivo, suggerire effetti e può creare video della durata di diversi minuti, dove Sora si accontenta dei secondi. Gli esempi pubblicati da Google sono piuttosto impressionanti, con risultati finali che sembrano video reali. Google afferma che Veo 2 ha pochissime allucinazioni, riducendo il rischio di avere una mano a sei dita. Lo strumento può essere testato con una coda, anche se la disponibilità in Europa è logicamente bloccata.
Immagine 3: Google migliora il suo modello di generazione delle immagini
Oltre a Veo 2 per i video, Google approfitta del suo comunicato stampa per svelare Imagen 3, la nuova versione del suo modello di generazione di immagini. In un contesto di hype attorno a Grok ed Elon Musk, con il suo modello che replica volti noti, Google afferma di offrire un modello in grado di “generare immagini più luminose e meglio composte, stili artistici più vari con maggiore precisione, dal fotorealismo all’impressionismo, dall’astratto all’anime”.
Attualmente, Imagen 3 non è integrato con Gemini. Il modello è disponibile da ImageFX, lo strumento di Google per sperimentare la sua nuova intelligenza artificiale. In definitiva, immaginiamo che sarà possibile generare immagini dal chatbot.
E che dire di OpenAI? L’azienda non ha ancora svelato una nuova versione di DALL-E, il suo modello di generazione di immagini, ma tutto suggerisce che questo sarà uno degli ultimi annunci dei 12 giorni del suo calendario dell’Avvento.