Con la sua famiglia di modelli Nova, Amazon sta compiendo un cambiamento strategico nell’intelligenza artificiale generativa

Wednesday 04th December 2024 11:03 AM

È stato l’ultimo dei tre hyperscaler a entrare nella danza dell’IA generativa. Durante la conferenza re:Invent 2024 che si sta svolgendo proprio in questi giorni a Las Vegas, il capo di Amazon Andy Jassy ha sollevato il velo su una famiglia di modelli fondamentali chiamati Nova progettati “per una vasta gamma di compiti, nonché un rapporto prezzo/prestazioni leader del settore”. Disponibile nel servizio Bedrock del colosso, questa famiglia comprende sei modelli.

Questi includono Nova Micro (un modello da testo a testo molto veloce), Nova Lite, Nova Pro e Nova Premier (modelli multimodali in grado di elaborare testo, immagini e video per generare testo). L’azienda ha lanciato altri due modelli multimodali: Nova Canvas che genera immagini di qualità da studio e Amazon Nova Reel che genera video di qualità da studio.

Secondo l’azienda, il modello Nova Micro è considerato il miglior rapporto qualità-prezzo. Da parte sua, Nova Premier è particolarmente adatta per compiti di ragionamento complessi e come base per la messa a punto di modelli personalizzati.

Prestazioni che corrispondono a quelle di Llama 3.1, Gemini 1.5 o anche GPT-4o mini

Amazon non ha paura di nulla. Nella sua serie di benchmark, il colosso riporta prestazioni comparabili tra i suoi diversi modelli e quelli di quelli più grandi. Nova Micro, ad esempio, ha ottenuto prestazioni pari o migliori di Llama 3.1 8B su tutti gli 11 benchmark applicabili, così come Gemini 1.5 Flash-8B su tutti i 12 benchmark applicabili. L’azienda di Seattle attribuisce questo tasso di successo alla velocità massima di 210 token di output al secondo, rendendolo ideale per le applicazioni che richiedono risposte rapide.

Da parte sua, il modello Nova Lite è anche molto competitivo con altri modelli dello stesso tipo, eguagliando – o addirittura migliorando – su 17 dei 19 benchmark rispetto al GPT-4o mini di OpenAI e su 17 dei 21 benchmark rispetto a Google. Gemini 1.5Flash-8B. Altra sorpresa, questo modello multimodale può competere con Claude Haiku 3.5 di Anthropic in una decina di test. L’altro modello multimodale Nova Pro compete con GPT-4o, Gemini 1.5 Pro e Claude Sonnet 3.5v2. Queste due iterazioni della famiglia di modelli Nova sono note per eccellere nel tracciamento delle istruzioni e nei flussi di lavoro multimodali, assicura Amazon.

I risultati possono essere attribuiti alla finestra pop-up piuttosto lunga di ciascuno di questi modelli: Nova Micro supporta una lunghezza del contesto di 128.000 token di input, mentre Nova Lite e Nova Pro supportano una lunghezza del contesto di 300.000 token o 30 minuti di elaborazione video. “All’inizio del 2025, Amazon supporterà una lunghezza del contesto di oltre 2 milioni di token di input”, afferma l’azienda. Tieni presente che le tre versioni Micro, Lite e Pro supportano più di 200 lingue.

La concorrenza sta diventando dura

Amazon Nova Micro, Nova Lite e Nova Pro sono generalmente disponibili oggi mentre Nova Premier sarà disponibile nel primo trimestre del 2025. Il messaggio è chiaro: Amazon può, come Google, Microsoft o anche OpenAI, fare multimodale, a basso costo, con latenza molto bassa. Inoltre, i modelli Nova sono stati ottimizzati per renderli facili da usare nelle applicazioni agentiche che richiedono l’interazione con i sistemi e i dati proprietari di un’azienda tramite più API, aggiunge l’azienda.

Un modo per affrontare di petto Microsoft, che offre già una raccolta di agenti alimentati dall’intelligenza artificiale che possono essere personalizzati a piacere a seconda del settore e del dominio in cui questi agenti devono intervenire. E per dimostrare la propria voglia di affermarsi in questo ambito, Amazon sta già preparando il seguito.

I modelli Canvas e Reel pronti a competere contro DALL-E 3, Stable Diffusion o anche Gen-3 Alpha

Per quanto riguarda i suoi due modelli di generazione di immagini e video, Canvas e Reel, Amazon afferma che sono in grado di competere con altre soluzioni sul mercato. A partire da DALL-E 3 di OpenAI e Stable Diffusion per Canvas e Gen-3 Alpha di Runway for Reel. Entrambi i modelli sono dotati di funzionalità come il watermarking per tracciare la fonte di un’immagine e la moderazione creativa, che limita la generazione di contenuti potenzialmente dannosi.

Attualmente, Nova Reel genera video di sei secondi e nei prossimi mesi supporterà la generazione di video fino a due minuti di lunghezza. In confronto, Meta ha lanciato lo scorso ottobre un modello text-to-video per generare video lunghi fino a 16 secondi, mentre Google ha appena presentato Veo, un modello simile in grado di generare scene di un minuto. OpenAI, il primo nel suo genere a rilasciare una soluzione del genere, ha presentato a febbraio Sora in grado di generare scene di un minuto. Finora la soluzione non è stata resa disponibile al grande pubblico.

Altri modelli multimodali in arrivo nel 2025

Il gigante vuole aggiungere un modello di sintesi vocale alla sua famiglia Nova nel primo trimestre del 2025. “Il modello è progettato per trasformare le applicazioni di intelligenza artificiale conversazionale comprendendo gli input vocali in streaming nel linguaggio naturale, interpretando segnali verbali e non verbali (come tono e cadenza) e fornendo interazioni naturali simili a quelle umane, avanti e indietro con bassa latenza”, indica l’azienda.

Un altro modello dovrebbe apparire nel corso del 2025. Quest’ultimo sarà in grado di prendere testo, immagini, audio e video come input e generare output in una di queste modalità, sia con capacità multimodali native per un risultato “multimodale”. Obiettivo: semplificare lo sviluppo di applicazioni in cui lo stesso modello può essere utilizzato per eseguire un’ampia varietà di compiti, come tradurre qualsiasi file da una modalità all’altra, modificarli e alimentarli con agenti AI in grado di comprendere e generare tutte le modalità .

Utenti beta sul ponte

Sono 123RF, Deloitte, Musixmatch, Palantir, SAP e Shutterstock. E tutti hanno deciso di integrare i diversi modelli della famiglia Nova nei loro processi per far decollare i propri prodotti e servizi. Ad esempio, 123RF e Shutterstock utilizzano Nova Canvas e Nova Reel per semplificare il processo di progettazione con strumenti più veloci e facili da usare per i creatori visivi. Si sta aprendo un nuovo mercato: quello della generazione di immagini AI la cui qualità è garantita da queste banche di immagini.

In un altro registro, quello della musica, Musixmatch intende fare sostanzialmente la stessa cosa. Con 80 milioni di utenti e un database di oltre 11 milioni di testi unici, la piattaforma vuole integrare Nova Reel in Musixmatch Pro per aiutare gli artisti a produrre clip che corrispondano ai loro testi.

SAP, da parte sua, intende integrare i modelli Amazon Nova nella sua famiglia di LLM supportati dal suo hub di intelligenza artificiale generativa AI Core. Con esso, gli sviluppatori potranno creare funzionalità aggiuntive per Joule, il copilota AI di SAP, e soprattutto spingere soluzioni guidate dall’intelligenza artificiale in grado di fare affidamento sui dati dell’editore tedesco.

Selezionato per te