I ricercatori cinesi hanno appena creato un rivale open source per ChatGPT in due mesi. La Silicon Valley è fuori di testa.

La Cina ha rilasciato un rivale economico e open Source per ChatGPT di OpenAI, che ha entusiasmato alcuni scienziati e preoccupato la Silicon Valley.

DeepSeek, il laboratorio cinese di intelligenza artificiale (AI) dietro l’innovazione, ha presentato il suo modello LLM (Large Language) gratuito DeepSeek-V3 alla fine di dicembre 2024 e afferma che è stato costruito in due mesi per soli 5,58 milioni di dollari: una frazione del tempo e dei costi richiesto dai suoi concorrenti della Silicon Valley.

Subito dopo c’è un modello ancora più nuovo chiamato DeepSeek-R1, rilasciato lunedì (20 gennaio). Nei test benchmark di terze parti, DeepSeek-V3 ha eguagliato le capacità di GPT-4o di OpenAI e Claude Sonnet 3.5 di Anthropic, superando altri, come Llama 3.1 di Meta e Qwen2.5 di Alibaba, in attività che includevano risoluzione di problemi, codifica e matematica.

Ora, R1 ha superato anche l’ultimo modello o1 di ChatGPT in molti degli stessi test. Questa prestazione impressionante – a una frazione del costo di altri modelli, insieme alla sua natura semi-open Source – ha entusiasmato gli esperti di intelligenza artificiale e ha sollevato lo spettro che i modelli di intelligenza artificiale cinesi superino le loro controparti statunitensi.

“Dovremmo prendere gli sviluppi della Cina molto, molto sul serio”, ha affermato Satya Nadella, CEO di Microsoft, partner strategico di OpenAI, al World Economic Forum di Davos, in Svizzera, il 22 gennaio.

Imparentato: L’intelligenza artificiale ora può replicarsi: una pietra miliare che ha terrorizzato gli esperti

I sistemi di intelligenza artificiale apprendono utilizzando dati di addestramento presi dall’input umano, che consente loro di generare output in base alle probabilità che diversi modelli emergano in quel set di dati di addestramento.

Per i modelli linguistici di grandi dimensioni, questi dati sono testo. Ad esempio, GPT-3.5 di OpenAI, rilasciato nel 2023, è stato addestrato su circa 570 GB di dati di testo dal repository Common Crawl – che ammonta a circa 300 miliardi di parole – presi da libri, articoli online, Wikipedia e altre pagine web.

I modelli di ragionamento, come R1 e o1, sono una versione aggiornata dei LLM standard che utilizzano un metodo chiamato “catena di pensiero” per tornare indietro e rivalutare la loro logica, che consente loro di affrontare compiti più complessi con maggiore precisione.

Ciò ha reso i modelli di ragionamento popolari tra gli scienziati che stanno cercando di integrare l’intelligenza artificiale nel loro lavoro.

Ma a differenza di o1 di ChatGPT, DeepSeek è un modello “a peso aperto” che (sebbene i suoi dati di addestramento rimangano proprietari) consente agli scienziati di sbirciare all’interno e modificare il suo algoritmo. Altrettanto importante è il prezzo ridotto per gli utenti: 27 volte inferiore a o1.

Oltre alle sue prestazioni, l’hype attorno a DeepSeek deriva dalla sua efficienza in termini di costi; Il budget ridotto del modello è minuscolo rispetto alle decine di milioni o alle centinaia di milioni che le aziende rivali hanno speso per formare i propri concorrenti.

Inoltre, i controlli sulle esportazioni statunitensi, che limitano l’accesso delle aziende cinesi ai migliori chip informatici di intelligenza artificiale, hanno costretto gli sviluppatori di R1 a costruire algoritmi più intelligenti ed efficienti dal punto di vista energetico per compensare la loro mancanza di potenza di calcolo. Secondo quanto riferito, ChatGPT aveva bisogno di 20.000 GPU Nvidia per elaborare i dati di addestramento, gli ingegneri di DeepSeek affermano di aver ottenuto risultati simili con solo 2.000.

Resta da vedere quanto ciò si tradurrà in utili applicazioni scientifiche e tecniche, o se DeepSeek abbia semplicemente addestrato il suo modello per superare i test di riferimento, ma gli scienziati e gli investitori nell’intelligenza artificiale stanno osservando da vicino.

Related posts