A differenza dei LLM convenzionali, questi modelli SR richiedono più tempo per produrre risposte e questo tempo extra spesso aumenta le prestazioni in compiti che coinvolgono matematica, fisica e scienze. E quest’ultimo modello aperto sta attirando l’attenzione perché apparentemente sta rapidamente raggiungendo OpenAI.
Ad esempio, DeepSeek riporta che R1 ha sovraperformato o1 di OpenAI su diversi benchmark e test, tra cui AIME (un test di ragionamento matematico), MATH-500 (una raccolta di problemi di parole) e SWE-bench Verified (uno strumento di valutazione della programmazione). Come di solito ricordiamo, i benchmark dell’intelligenza artificiale devono essere presi con le pinze e questi risultati devono ancora essere verificati in modo indipendente.
TechCrunch riferisce che tre laboratori cinesi – DeepSeek, Alibaba e Kimi di Moonshot AI – hanno ora rilasciato modelli che secondo loro corrispondono alle capacità di o1, con DeepSeek che ha presentato in anteprima R1 per la prima volta a novembre.
Ma il nuovo modello DeepSeek presenta un problema se eseguito nella versione ospitata sul cloud: essendo di origine cinese, R1 non genererà risposte su determinati argomenti come Piazza Tiananmen o l’autonomia di Taiwan, poiché deve “incarnare i valori socialisti fondamentali”, secondo La normativa cinese su Internet. Questo filtraggio deriva da un ulteriore livello di moderazione che non costituisce un problema se il modello viene eseguito localmente al di fuori della Cina.
Anche con la potenziale censura, Dean Ball, un ricercatore di intelligenza artificiale presso la George Mason University, ha scritto su X: “Le prestazioni impressionanti dei modelli distillati di DeepSeek (versioni più piccole di r1) significano che ragionatori molto capaci continueranno a proliferare ampiamente e ad essere eseguibili su reti locali.” hardware, lontano dagli occhi di qualsiasi regime di controllo dall’alto verso il basso”.
Francia