DayFR Italian

Perché il modello AI di Deepseek è appena diventato l’app più votata negli Stati Uniti

-

L’assistente di intelligenza artificiale di Deepseek ha fatto grandi onde lunedì, diventando l’app più votata nell’Apple Store e inviando titoli tecnologici in una caduta al ribasso. Di cosa si tratta?

La start-up cinese, DeepSeek, ha sorpreso l’industria tecnologica con un nuovo modello che rivaleggia con le capacità del modello più recente di Openai, con molto meno investimenti e utilizzando chip a capacità ridotta. Gli Stati Uniti vietano le esportazioni di chip informatici all’avanguardia in Cina e limitano le vendite di attrezzature per chipmaking. Deepseek, con sede nella città cinese orientale di Hangzhou, secondo quanto riferito aveva una scorta di chip Nvidia A100 ad alte prestazioni dai tempi prima del divieto, quindi i suoi ingegneri avrebbero potuto usare quelli per sviluppare il modello. Ma in una svolta chiave, la start-up dice che ha invece usato chip Nvidia H800 molto più bassa per addestrare il nuovo modello, soprannominato Deepseek-R1.

“Fino a ora abbiamo visto che il successo delle grandi aziende tecnologiche che lavorano nell’intelligenza artificiale è stato misurato in quanti soldi hanno raccolto, non necessariamente in ciò che era effettivamente la tecnologia”, afferma Ashlesha Nesarikar, CEO della società AI Plano Intelligence, Inc “Penso che presteremo molta più attenzione a ciò che la tecnologia sta alla base dei diversi prodotti di queste aziende.”


Sul supporto al giornalismo scientifico

Se ti piace questo articolo, considera di sostenere il nostro premiato giornalismo di abbonarsi. Acquistando un abbonamento stai aiutando a garantire il futuro delle storie di impatto sulle scoperte e le idee che modellano il nostro mondo oggi.


Nei test di intelligenza artificiale comuni in matematica e codifica, DeepSeek-R1 corrispondeva ai punteggi del modello O1 di AI aperto, secondo VentureBeat. Le aziende statunitensi non rivelano il costo della formazione dei propri modelli di linguaggio di grandi dimensioni (LLM), i sistemi che sostengono chatbot popolari come Chatgpt. Ma il CEO di Openai Sam Altman ha detto a un pubblico al MIT nel 2023 che la formazione di CHATGPT-4 costa oltre $ 100 milioni. DeepSeek-R1 è gratuito per gli utenti da scaricare, mentre la versione comparabile di CHATGPT costa $ 200 al mese.

Il numero di $ 6 milioni di Deepseek non riflette necessariamente il costo della costruzione di un LLM da zero, afferma Nesarikar; Tale costo può rappresentare una messa a punto di quest’ultima versione. Tuttavia, afferma, la migliore efficienza energetica del modello renderebbe l’IA più accessibile a più persone in più settori. L’aumento dell’efficienza potrebbe essere una buona notizia quando si tratta dell’impatto ambientale dell’IA, poiché il costo di calcolo per generare nuovi dati con un LLM è da quattro a cinque volte superiore a una tipica query dei motori di ricerca.

Poiché richiede meno potere computazionale, il costo per la gestione di Deepseek-R1 è un decimo del costo di concorrenti simili, afferma Hanchang CAO, un assistente professore in entrata in sistemi di informazione e gestione delle operazioni presso la Emory University. “Per i ricercatori accademici o le start-up, questa differenza nel costo significa davvero molto”, afferma Cao.

DeepSeek ha raggiunto la sua efficienza in diversi modi, afferma Anil Ananthaswamy, autore di Perché le macchine imparano: l’elegante matematica dietro AI moderna. Il modello ha 670 miliardi di parametri o variabili da cui impara durante la formazione, rendendolo il più grande modello di linguaggio open Source di sempre, spiega Ananthaswamy. Ma il modello utilizza un’architettura chiamata “miscela di esperti” in modo che solo una frazione rilevante di questi parametri – tensioni di miliardi anziché centinaia di miliardi – siano attivate per una determinata domanda. Ciò riduce i costi di calcolo. Deepseek LLM utilizza anche un metodo chiamato attenzione latente multi-testa per aumentare l’efficienza delle sue inferenze; E invece di prevedere una risposta Word per parola, genera più parole contemporaneamente.

Il modello differisce inoltre dagli altri come O1 nel modo in cui rafforza l’apprendimento durante la formazione. Mentre molti LLM hanno un modello di “critico” esterno che corre accanto a loro, correggendo gli errori e sfruttando l’LLM verso le risposte verificate, DeepSeek-R1 utilizza una serie di regole interne al modello per insegnargli quale delle possibili risposte che genera è meglio. “DeepSeek ha semplificato questo processo”, afferma Ananthaswamy.

Un altro aspetto importante di DeepSeek-R1 è che la società ha realizzato il codice dietro la Source aperta del prodotto, afferma Ananthaswamy. (I dati di formazione rimangono proprietari.) Ciò significa che i reclami dell’azienda possono essere verificati. Se il modello è efficiente dal punto di vista computazionale come afferma DeepSeek, afferma, probabilmente aprirà nuove strade per i ricercatori che usano l’IA nel loro lavoro per farlo più rapidamente ed a buon mercato. Consentirà inoltre ulteriori ricerche sul funzionamento interno degli stessi LLM.

“Una delle grandi cose è stata questa divisione che si è aperta tra il mondo accademico e l’industria perché il mondo accademico non è stato in grado di lavorare con questi modelli davvero grandi o fare ricerche in alcun modo significativo”, afferma Ananthaswamy. “Ma qualcosa del genere, ora è alla portata del mondo accademico, perché hai il codice.”