DeepSeek, la startup cinese che fa meglio di OpenAI pagando il 96% in meno

DeepSeek, la startup cinese che fa meglio di OpenAI pagando il 96% in meno
DeepSeek, la startup cinese che fa meglio di OpenAI pagando il 96% in meno
-


“Viviamo in un’epoca in cui un’azienda non statunitense porta avanti la missione originale di OpenAI: una ricerca veramente aperta che dà potere a tutti”esclama Jim Fan, responsabile della ricerca senior e responsabile dell’intelligenza artificiale incarnata presso Nvidia su LinkedIn. Quest’ultimo si riferisce a DeepSeek, una startup cinese che questa settimana ha presentato i suoi modelli di ragionamento di prima generazione, DeepSeek-R1-Zero e DeepSeek-R1.

Una pubblicazione sotto la licenza del MIT

Il loro punto forte? Prestazioni equivalenti a o1-1217 di OpenAI, ma a un prezzo molto inferiore… e open Source sia per i ricercatori che per le aziende. “Per supportare la comunità di ricerca, siamo open Source DeepSeek-R1-Zero, DeepSeek-R1 e sei modelli densi (1.5B, 7B, 8B, 14B, 32B, 70B) distillati da DeepSeek-R1 basati su Qwen e Llama“, precisa la start-up. Pubblicato sotto licenza MIT, DeepSeek-R1 è quindi libero di modificare, adattare e commercializzare, a differenza di OpenAI e del suo ecosistema chiuso.

Il colpo finale? DeepSeek è solo una filiale di High-Flyer Capital Management, una società di gestione quantitativa di fondi lanciata inizialmente nel 2015. Lo sviluppo di modelli non è quindi in senso stretto la sua attività principale, ma un progetto parallelo supportato dai dipendenti per sfruttare le loro GPU quando non sono in uso. Questa piccola struttura ha quindi sviluppato i suoi modelli con prestazioni equivalenti a quelle di OpenAI con risorse molto limitate, senza dover investire centinaia di miliardi di dollari… o addirittura centinaia di milioni.

Un modello che integra la formazione in più fasi

L’azienda afferma di essersi affidata a DeepSeek-R1-Zero, un modello addestrato con l’apprendimento di rinforzo su larga scala (RL) senza regolazione fine supervisionata (SFT) come passaggio preliminare. Grazie alla RL, it “dimostra notevoli capacità di ragionamento.” Tuttavia, deve affrontare sfide quali scarsa leggibilità e confusione linguistica. “Per affrontare questi problemi e migliorare ulteriormente le prestazioni di ragionamento, introduciamo DeepSeek-R1, che integra l’addestramento in più fasi e i dati di avvio a freddo prima di RL. indica l’avvio.

Guidato esclusivamente dalla RL, senza SFT, “ricorda AlphaZero: il maestro Go, Shogi e gli scacchi da zero, senza prima imitare le mosse dei grandi maestri umani”, commenta Jim Fan. È interessante notare che il tempo di riflessione del modello aumenta costantemente con il progredire dell’addestramento, il che non è preprogrammato ed è una proprietà emergente.

Il nostro obiettivo è esplorare il potenziale degli LLM per sviluppare capacità di ragionamento senza dati supervisionati, concentrandosi sulla loro autoevoluzione attraverso un processo puramente RL. ha detto il team di DeepSeek. Si noti che se il modello DeepSeek R1 ha un’architettura di 671 miliardi di parametri ed è stato addestrato sulla base del modello MoE DeepSeek V3, durante la maggior parte delle operazioni vengono attivati ​​solo 37 miliardi di parametri, come il modello V3. .

Prestazioni che corrispondono a quelle del modello o1 di OpenAI. Per il 96% meno costoso

In termini di prestazioni, DeepSeek-R1 ottiene risultati paragonabili o addirittura migliori delle versioni o1-1217 e o1-mini nella maggior parte dei benchmark. Le versioni distillate sembrano anche in grado di misurarsi con i modelli OpenAI: ad esempio, DeepSeek-R1-Distill-Qwen-32B supera o1-mini su diversi benchmark, rendendolo un nuovo punto di riferimento per i cosiddetti modelli “densi”. . Il tutto a un prezzo molto più basso per gli sviluppatori che vorrebbero utilizzarlo.

Quando un milione di token costa 0,55 dollari in input e 2,19 dollari in output per l’API del modello DeepSeek, il prezzo è di 15 dollari in input e 60 dollari in output per l’API del modello DeepSeek. 1. Più concretamente, ciò significa che i prezzi di entrata e di uscita dell’o-1 API sono rispettivamente 27,27 volte e 27,40 volte superiori a quelli di DeepSeek, o per dirla in altro modo, il prezzo di o-1 è di circa il 2627% e 2639% superiore a quello di DeepSeek. Se facciamo un confronto complessivo di tutti i costi per 1 milione di token, la cifra è ancora più impressionante: l’API di DeepSeek costa il 96,4% in meno rispetto all’API di OpenAI.

-