Alla conferenza degli sviluppatori Re:Invent 2024, Amazon ha presentato la propria famiglia di modelli di base AI, chiamata “Amazon Nova”. Il comunicato afferma che l’offerta Nova è attualmente disponibile tramite la piattaforma AI AWS Bedrock. I punti di forza di Nova evidenziati sono molteplici: dall’analisi di documenti complessi alla realizzazione di video passando per la progettazione di agenti AI complessi. Inoltre, Nova ti consentirebbe di beneficiare di una latenza e di costi ridotti per tutti i tipi di attività di intelligenza artificiale generativa.
La famiglia Nova comprende modelli specializzati in diversi compiti. Il più semplice si chiama “Nova Micro”. Accetta richieste di testo e genera risposte di testo. Il modello successivo si chiama “Nova Lite”. Può elaborare immagini e video della durata massima di 30 minuti, ma produce solo risposte di testo. Durante il suo intervento al Re:Invent 2024, il CEO di Amazon Andy Jassy ha paragonato questo modello al rivale GPT4o-Mini di OpenAI.
Più efficiente, “Nova Pro” è un “modello multimodale ad alte prestazioni che offre la migliore combinazione di precisione, velocità e costo per un’ampia gamma di attività”, secondo Amazon. Elabora fino a 300.000 token di input ed è adatto, tra le altre cose, per flussi di lavoro basati su agenti che richiedono la chiamata di API e strumenti per eseguire attività complesse. Il modello può elaborare testi, video e immagini, ma analizza anche documenti finanziari o codici di programma fino a 15.000 righe. Questo modello produce risposte testuali. Durante il keynote, il CEO di Amazon ha paragonato Nova Pro a GPT4o.
Tutti e tre i modelli Nova sono ora disponibili su Bedrock, ma per ora solo in alcune regioni cloud AWS degli Stati Uniti. Dal punto di vista linguistico, tuttavia, i modelli sembrano già pronti per l’espansione. Secondo il comunicato, comprendono e generano più di 200 lingue. Funzionerebbero particolarmente bene in tedesco, francese o italiano, nota il fornitore.
Amazon sta preparando altre versioni di Nova. All’inizio del 2025, l’azienda vuole lanciare sul mercato “Nova Premier”, il “modello multimodale più efficiente”, indica il comunicato stampa. È adatto per compiti di “ragionamento” complessi e per la creazione di modelli di intelligenza artificiale definiti dall’utente. In questo caso, un modello di IA già esistente viene riqualificato per un uso specifico.
Nova genererà anche foto e video
A queste diverse versioni si aggiungono i “modelli di generazione di contenuti creativi”. A differenza dei template citati finora, i template creativi non generano testo: “Nova Canvas” produce immagini da testo e “Nova Reel” produce video. Inizialmente possono durare fino a 6 secondi, poi arriveranno fino a 2 minuti, ha spiegato Jassy durante il keynote.
“Nova Reel” supererebbe i modelli esistenti nella valutazione umana della qualità e della coerenza dei video, scrive AWS. Questi modelli sono già disponibili anche nelle regioni statunitensi del cloud AWS. Tieni presente che le cosiddette versioni creative attualmente possono funzionare solo con istruzioni in inglese.
Chi preferisce parlare e ascoltare dovrà ancora aspettare il prossimo anno. Durante il keynote, il capo di Amazon ha annunciato per la primavera del 2025 una versione di Nova che comprende e riproduce il linguaggio parlato. Finalmente, a metà del 2025, dovrebbe vedere la luce una versione “any-to-any” di Nova, vale a dire una versione in grado di elaborare e trasmettere qualsiasi tipo di input.