Cosa resta ancora per i grandi modelli? In alcuni test matematici e aritmetici, il nuovo SLM “Phi-4” di Microsoft si rivela più rilevante dei grandi modelli di frontiera GPT-4o, Claude 3.5 o Gemini Pro 1.5!
A lungo dominato da gigantesche architetture che accumulano centinaia di miliardi di parametri, l’ecosistema dell’intelligenza artificiale è ora entusiasta dei vantaggi strategici dei modelli più compatti. Veloci da addestrare, più economici in termini di risorse informatiche e più facili da implementare, questi modelli “piccoli” sono stati finora richiesti in ambienti vincolati, siano essi applicazioni industriali o strumenti dedicati alla ricerca o servizi ibridi. Ma oggi sono indispensabili ovunque, nei laboratori di ricerca così come nelle aziende e perfino nella cloud AI come testimoniano le enormi potenzialità di “Gemini 2.0 Flash”, ormai modello di riferimento multimodale per l’assistente Gemini AI.
Nel 2024, i modelli di piccole dimensioni si sono moltiplicati come il pane, avvicinandosi e talvolta superando le capacità dei modelli di grandi dimensioni, richiedendo al tempo stesso molte meno risorse di calcolo e di energia per dedurli, o addirittura essendo in grado di eseguire localmente un’intelligenza artificiale altrettanto dotata rispetto ai principali modelli cloud, purché sono usati saggiamente.
Tra questi piccoli modelli, la gamma Phi di Microsoft ha fatto molto parlare di sé quest’anno. Le prime versioni di Phi furono così adottate da gruppi di ricerca, sviluppatori indipendenti e aziende tecnologiche desiderose di trovare un compromesso ottimale tra prestazioni, velocità e costi. Le iterazioni precedenti, come Phi-3, hanno dimostrato la capacità di mantenere una qualità di risposta soddisfacente limitando al contempo le dimensioni della rete neurale. Gli utenti hanno visto questa come un’opportunità per integrare più facilmente l’intelligenza artificiale nei loro prodotti e servizi, senza le pesanti infrastrutture e i costi energetici associati ai giganti del settore.
Phi-4, un piccolo modello che ragiona
È in questo contesto che Microsoft ha appena annunciato Phi-4una nuova generazione che si distingue per progressi significativi, soprattutto nel campo della matematica. Grandi LLM di frontiera come “Open AI o1” o “Anthropic Sonnet 3.5” hanno appena introdotto capacità di ragionamento quando tali capacità stanno già iniziando a cadere nel mondo dei piccoli modelli!
Con 14 miliardi di parametriPhi-4 rimane un modello di dimensioni “modeste” per gli standard di mercato, ma raggiunge un notevole livello di prestazioni su valutazioni impegnative, surclassando anche modelli più grandi – tra cui Gemini 1.5 o Claude 3.5 Sonnet – nella risoluzione di problemi matematici!
Questo successo si basa sulla qualità del set di formazione scelto con cura, sull’implementazione di una pulizia dei dati più rigorosa, su un attento processo post-formazione (ad esempio tramite tecniche di campionamento del rifiuto, autorevisione, inversione delle istruzioni), tutto al fine di garantire la credibilità delle valutazioni e la pertinenza dei risultati. Inoltre, uno sforzo particolare è stato fatto per evitare il rischio di contaminazione dei test prestazionali con dati già visti in fase di apprendimento. Questa precauzione si rivela fondamentale per autenticare il reale miglioramento delle capacità del modello, confermato da recenti e inediti test matematici.
Il risultato è un modello Phi-4 meglio addestrato e più affilato in grado di affrontare problemi aritmetici e algebrici con maggiore sicurezza e coerenza.
Ovviamente, la modesta dimensione di Phi-4 resta un ostacolo a certe forme di ragionamento approfondito o di comprensione contestuale, e il modello non sfugge al noto fenomeno delle “allucinazioni” quando il dominio affrontato è troppo specifico o non sufficientemente rappresentato in il corpus formativo.
Per ora, Phi-4 è disponibile tramite la piattaforma Azure AI Foundry, con una licenza di ricerca, e dovrebbe presto unirsi ad altri canali di distribuzione, incluso Hugging Face. La sua disponibilità fa parte di uno sforzo volto a democratizzare modelli di dimensioni più ragionevoli, più semplici da personalizzare e più adatti a vari contesti operativi. Senza dubbio, nel 2025 sentiremo ancora molto parlare di modelli piccoli…
Fonte: Presentazione di Phi-4: il nuovo modello Small Language di Microsoft specializzato nel ragionamento complesso
Leggi anche:
Google Gemini 2.0: L’era degli agenti intelligenti
Con Phi-3, Microsoft migliora ulteriormente i suoi modelli Gen AI tascabili
Tesoro, ho ristretto GPT-4o…
I modelli di intelligenza artificiale open Source passano a una marcia alta