Si dice che Meta abbia lanciato una squadra di crisi. Il corso del mercato azionario di NVIDIA diminuisce. Openi è sotto pressione. DeepSeek dalla Cina offre modelli AI e un bot di chat che dovrebbe essere in grado di registrarlo almeno con i modelli comuni della Silicon Valley. Tuttavia, la formazione era molto più veloce ed economica. L’accesso al modello è anche più economico per i clienti.
Annuncio
I modelli sono stati effettivamente pubblicati poche settimane fa, ma DeepSeek è improvvisamente l’app più carica nell’App Store e riceve molta attenzione. Tra le altre cose, ciò potrebbe essere dovuto al fatto che il grande investitore Marc Andreessen della Silicon Valley ha descritto solo ora il servizio a X come una delle “scoperte più impressionanti” che abbia mai visto.
DeepSeek ha rilasciato i modelli R1 e V3. V3 dovrebbe già superare le prestazioni di GPT-4O e antropi Claude 3.5 nei parametri di riferimento. Anche se si dice che lo sviluppo sia costato solo una frazione. In particolare, si dice che siano stati costi di formazione puri di $ 5,6 milioni, a 2,78 milioni di ore GPU, mentre scrivi sul tuo sito web. Metas Llama con circa 400 parametri è di circa undici volte più ore GPU. DeepSeek R1 rappresenta un modello di ragionamento che dovrebbe essere in grado di tenere il passo con OpenAis O1. Entrambi i modelli sono liberamente disponibili in co-licenza.
Sviluppo economico e uso dei modelli DeepSeek
Tuttavia, non è del tutto chiaro come il provider sia stato in grado di sviluppare i modelli in modo tale efficiente. Un problema con questo: in realtà, DeepSeek non dovrebbe avere accesso a chip potenti sufficienti per la formazione dell’IA a causa delle restrizioni commerciali statunitensi. Tuttavia, ci sono rapporti secondo i quali il fondatore ha acquistato abbastanza GPU NVIDIA A100 per il suo hobby che può usare ora. Financial Times ha scritto un piccolo ritratto su Liang Wenfeng. È quindi un ex gestore di hedge fund con un debole per l’IA. Si dice che abbia fondato DeepSeek nel maggio 2023.
Tuttavia, secondo l’articolo, la società sarà completamente fermentata. Si dice che Wenfeng abbia affermato di non avere interessi economici con i suoi modelli AI perché la ricerca di base ha solo un basso ritorno. Invece, a quanto pare, voleva avere un impatto sull’economia cinese.
Ma non ce l’ha semplicemente. DeepSeek sembra innescare un piccolo terremoto, specialmente negli Stati Uniti. I valori del mercato azionario di tutte le società collegate all’IA sono tremanti. Se i modelli sono davvero potenti e necessitano di meno prestazioni, nessun data center da 500 miliardi di dollari simile al progetto Stargate. La strategia open Source consente inoltre di ricreare i modelli.
Diversi esperti di intelligenza artificiale hanno già commentato. Yann Lecun von Meta ha scritto a X, Deepseek V3 era “eccellente”. Il CEO di Microsoft Satya Nadella ha avvertito dello sviluppo cinese al World Economic Forum di Davos, devi “prenderlo molto, molto sul serio”.
Già l’anno scorso, quando DeepSeek ha pubblicato le prime versioni dei modelli, Jim Fan di Nvidia ha anche scritto su X, i modelli open Source potrebbero esercitare un’enorme pressione sulle società commerciali. E: “Le restrizioni alle risorse sono qualcosa di carino. L’istinto di sopravvivenza in un ambiente di competizione AI spietato è una spinta di prima classe per le scoperte. “
Il boss perplessità Aravind Srinivas sospetta: “Il bisogno lo rende inventivo. Poiché hanno dovuto trovare soluzioni alternative, alla fine hanno realizzato qualcosa di molto più efficiente. “
Dubbi sullo sviluppo e sulle competenze
Ma: ci sono anche ipotesi secondo cui DeepSeek non dice proprio la verità quando si tratta di sviluppare i modelli. Secondo la CNBC, Chetan Puttagunt del punto di riferimento, il capitale di riferimento ha già affermato che DeepSeek era stato in grado di utilizzare la cosiddetta distillazione del modello. La conoscenza di un modello di grandi dimensioni viene trasferita a un piccolo modello. Anche altre società di intelligenza artificiale come Meta ci stanno lavorando. Si dice che il bot di chat di Deepseek sostenga che lui stesso è chiacchierato, il che suggerisce di essere stato addestrato attraverso questo bot di chat.
Il problema è che i modelli DeepSeek rispondono ad alcune domande nel senso del governo cinese. Ad esempio, gli eventi sulla piazza Tian’anmen sono nascosti. Nel 1989 le proteste di un movimento di democrazia furono finite. Con i soliti trucchi di AI ottieni il modello da scrivere tramite il massacro. Se non sai che qualcosa è rimasto in silenzio, difficilmente puoi applicare trucchi perché non sai nemmeno che manca qualcosa.
(EMW))