Un nuovo modello di intelligenza artificiale per l’era degli agenti

Wednesday 11th December 2024 06:56 PM

Una nota del CEO di Google e Alphabet, Sundar Pichai:

L’informazione è al centro del progresso umano. È per questo che da oltre 26 anni ci concentriamo sulla nostra missione di organizzare le informazioni mondiali e renderle accessibili e utili. Ed è per questo che continuiamo a ampliare i confini dell’intelligenza artificiale per organizzare le informazioni in ogni input e renderle accessibili tramite qualsiasi output, in modo che possano essere veramente utili per te.

Questa era la nostra visione quando abbiamo introdotto Gemini 1.0 lo scorso dicembre. Il primo modello costruito per essere nativamente multimodale, Gemini 1.0 e 1.5 hanno portato grandi progressi con la multimodalità e il contesto lungo per comprendere le informazioni attraverso testo, video, immagini, audio e codice ed elaborarne molte di più.

Ora milioni di sviluppatori stanno costruendo con Gemini. E ci sta aiutando a reimmaginare tutti i nostri prodotti, compresi tutti e 7 con 2 miliardi di utenti, e a crearne di nuovi. NotebookLM è un ottimo esempio di ciò che la multimodalità e il lungo contesto possono offrire alle persone e perché è amato da così tante persone.

Nell’ultimo anno, abbiamo investito nello sviluppo di modelli più agenti, il che significa che possono comprendere meglio il mondo che ti circonda, pensare più passi avanti e agire per tuo conto, con la tua supervisione.

Oggi siamo entusiasti di lanciare la nostra prossima era di modelli costruiti per questa nuova era degli agenti: presentando Gemini 2.0, il nostro modello più capace finora. Con i nuovi progressi nella multimodalità – come immagini native e output audio – e l’uso di strumenti nativi, ci consentirà di costruire nuovi agenti IA che ci avvicinano alla nostra visione di un assistente universale.

Oggi stiamo mettendo la versione 2.0 nelle mani di sviluppatori e tester fidati. E stiamo lavorando rapidamente per inserirlo nei nostri prodotti, in testa con Gemini e Search. A partire da oggi il nostro modello sperimentale Gemini 2.0 Flash sarà disponibile per tutti gli utenti Gemini. Stiamo anche lanciando una nuova funzionalità chiamata Deep Research, che utilizza funzionalità di ragionamento avanzato e contesto lungo per agire come assistente di ricerca, esplorando argomenti complessi e compilando report per tuo conto. È disponibile in Gemini Advanced oggi.

Nessun prodotto è stato trasformato dall’intelligenza artificiale più della ricerca. Le nostre panoramiche AI raggiungono ora 1 miliardo di persone, consentendo loro di porre tipi di domande completamente nuovi, diventando rapidamente una delle nostre funzionalità di ricerca più popolari di sempre. Come passo successivo, stiamo portando le capacità di ragionamento avanzate di Gemini 2.0 in AI Overviews per affrontare argomenti più complessi e domande in più passaggi, comprese equazioni matematiche avanzate, query multimodali e codifica. Abbiamo iniziato i test limitati questa settimana e li implementeremo in modo più ampio all’inizio del prossimo anno. E continueremo a portare le panoramiche AI in più paesi e lingue nel corso del prossimo anno.

I progressi del 2.0 sono sostenuti da investimenti decennali nel nostro approccio differenziato e completo all’innovazione dell’intelligenza artificiale. È costruito su hardware personalizzato come Trillium, i nostri TPU di sesta generazione. Le TPU hanno alimentato il 100% dell’addestramento e dell’inferenza di Gemini 2.0 e oggi Trillium è generalmente disponibile per i clienti in modo che anche loro possano creare con esso.

Se Gemini 1.0 riguardava l’organizzazione e la comprensione delle informazioni, Gemini 2.0 mira a renderle molto più utili. Non vedo l’ora di vedere cosa porterà questa prossima era.

-Domenica