Le società di intelligenza artificiale come OpenAI stanno cercando di superare ritardi e sfide impreviste nella ricerca di modelli linguistici sempre più ampi sviluppando tecniche di formazione che utilizzano modi più simili a quelli umani per consentire agli algoritmi di “pensare”.
Una dozzina di scienziati, ricercatori e investitori nel campo dell’intelligenza artificiale hanno dichiarato a Reuters di ritenere che le tecniche, che sono alla base del modello o1 recentemente rilasciato da OpenAI, potrebbero rimodellare la corsa agli armamenti nel campo dell’intelligenza artificiale e avere un impatto sui tipi di risorse di cui le società di intelligenza artificiale hanno una domanda insaziabile. dall’energia alle tipologie di chip.
OpenAI ha rifiutato di commentare questo articolo. Dopo il rilascio del chatbot virale ChatGPT due anni fa, le aziende tecnologiche, le cui valutazioni hanno beneficiato notevolmente del boom dell’intelligenza artificiale, hanno sostenuto pubblicamente che “scalare” i modelli attuali aggiungendo dati e potenza di calcolo porterebbe sistematicamente al miglioramento dei modelli di intelligenza artificiale .
Ma oggi alcuni dei più eminenti scienziati nel campo dell’intelligenza artificiale parlano apertamente dei limiti di questa filosofia “più grande è meglio”.
Ilya Sutskever, co-fondatore di Safe Superintelligence (SSI) e OpenAI AI Labs, ha recentemente dichiarato a Reuters che i risultati dell’aumento del pre-addestramento – la fase di addestramento di un modello di intelligenza artificiale che utilizza una grande quantità di dati non etichettati per comprendere modelli e strutture linguistici – ha raggiunto un plateau.
Sutskever è ampiamente riconosciuto come uno dei primi sostenitori dell’idea di realizzare progressi significativi nell’intelligenza artificiale generativa utilizzando più dati e potenza di calcolo per il pre-apprendimento, idea che alla fine ha dato origine a ChatGPT. Il signor Sutskever ha lasciato OpenAI all’inizio di quest’anno per fondare SSI.
“Gli anni 2010 sono stati l’era del ridimensionamento, ma siamo ancora una volta nell’era delle meraviglie e delle scoperte. Tutti sono alla ricerca del prossimo passo”, ha affermato Sutskever. “È più importante che mai ampliare ciò che è giusto.
Sutskever ha rifiutato di spiegare come la sua squadra sta affrontando il problema, dicendo solo che la SSI sta lavorando su un altro approccio per sviluppare la pre-formazione.
Dietro le quinte, i ricercatori dei principali laboratori di intelligenza artificiale hanno riscontrato ritardi e risultati deludenti nella corsa per rilasciare un modello linguistico di grandi dimensioni che superi il modello GPT-4 di OpenAI, vecchio di quasi due anni, secondo tre fonti che hanno familiarità con le questioni private.
Le “unità” per modelli di grandi dimensioni possono costare decine di milioni di dollari eseguendo centinaia di chip contemporaneamente. I ricercatori potrebbero non sapere come si comportano i modelli fino al completamento dell’esecuzione, il che può richiedere mesi.
Un altro problema è che i grandi modelli linguistici assorbono enormi quantità di dati e i modelli di intelligenza artificiale hanno esaurito tutti i dati facilmente accessibili nel mondo. La carenza di energia ha anche ostacolato i cicli di allenamento, poiché il processo richiede grandi quantità di energia.
Per superare queste difficoltà, i ricercatori stanno esplorando il “real-time computing”, una tecnica che migliora i modelli di IA esistenti durante la cosiddetta fase di “inferenza”, cioè quando viene utilizzato il modello. Ad esempio, invece di scegliere immediatamente un’unica risposta, un modello potrebbe generare e valutare più possibilità in tempo reale, scegliendo infine il percorso migliore da seguire.
Questo metodo consente ai modelli di dedicare più potenza di elaborazione a compiti difficili come problemi di matematica o di codifica o operazioni complesse che richiedono ragionamenti e processi decisionali di tipo umano.
“Si è scoperto che far riflettere un robot per soli 20 secondi durante una partita di poker ha ottenuto le stesse prestazioni che moltiplicando il modello per 100.000 e addestrandolo per 100.000 volte più a lungo,” ha detto Noam Brown, un ricercatore di OpenAI che ha lavorato su o1. la conferenza TED AI a San Francisco il mese scorso.
OpenAI ha adottato questa tecnica nel suo nuovo modello noto come “o1”, precedentemente noto come Q* e Strawberry, di cui Reuters aveva parlato per la prima volta a luglio. Il modello O1 può “pensare” ai problemi in più fasi, in modo simile al ragionamento umano. Implica anche l’uso di dati e feedback da parte di dottorandi ed esperti del settore. La salsa segreta della serie O1 è un’altra serie di allenamenti eseguiti su modelli “base” come il GPT-4, e l’azienda afferma di voler applicare questa tecnica a modelli più basilari e più importanti.
Nel frattempo, anche i ricercatori di altri importanti laboratori di intelligenza artificiale, come Anthropic, xAI e Google DeepMind, hanno lavorato per sviluppare le proprie versioni della tecnica, secondo cinque persone che hanno familiarità con il lavoro.
“Vediamo molti frutti a portata di mano che possiamo raccogliere per migliorare questi modelli molto rapidamente”, ha affermato Kevin Weil, product manager di OpenAI, in una conferenza sulla tecnologia in ottobre. “Quando la gente riuscirà a recuperare, cercheremo di essere tre passi avanti.
Google e xAI non hanno risposto alle richieste di commento e Anthropic non ha avuto commenti immediati.
Le implicazioni potrebbero cambiare il panorama competitivo per l’hardware AI, dominato fino ad ora dall’insaziabile domanda di chip AI di Nvidia. Importanti venture capitalist, da Sequoia ad Andreessen Horowitz, che hanno pagato miliardi per finanziare il costoso sviluppo di modelli di intelligenza artificiale in numerosi laboratori di intelligenza artificiale, tra cui OpenAI e xAI, stanno prendendo atto della transizione e valutando l’impatto sulle loro costose scommesse.
“Questo cambiamento ci sposterà da un mondo di enormi cluster di pre-formazione ai cloud di inferenza, che sono server distribuiti basati su cloud per l’inferenza”, ha detto a Reuters Sonya Huang, partner di Sequoia Capital.
La domanda per i chip IA all’avanguardia di Nvidia ha alimentato la sua ascesa fino a diventare l’azienda di maggior valore al mondo, superando Apple in ottobre. A differenza dei chip per l’apprendimento, dove domina Nvidia, il gigante dei chip potrebbe affrontare una maggiore concorrenza nel mercato dell’inferenza.
Alla domanda sul possibile impatto sulla domanda dei suoi prodotti, Nvidia ha ricordato le recenti presentazioni dell’azienda sull’importanza della tecnica dietro il modello o1. Il suo CEO, Jensen Huang, ha parlato di una crescente domanda di utilizzo dei suoi chip per l’inferenza.
“Ora abbiamo scoperto una seconda legge di scala, ed è la legge di scala al momento dell’inferenza… Tutti questi fattori hanno portato a una domanda incredibilmente elevata per Blackwell”, ha detto Huang il mese scorso in una conferenza in India, riferendosi all’ultimo chip AI dell’azienda.