Microsoft svela il suo modello linguistico Phi-3 Mini: piccolo ma potente!

Negli ultimi mesi si è trattato principalmente di LLM (Modello linguistico di grandi dimensioni) che sono stati in prima linea, con soluzioni come ChatGPT o Gemini come headliner. Questi colossi hanno però un difetto: il loro gigantismo, con un numero di parametri molto elevato; una sfida gestirli localmente. Così, all’ombra dei suoi giganti, si stanno sviluppando modelli linguistici più modesti per l’intelligenza artificiale; sono logicamente chiamati SLM, per Piccoli modelli linguistici. Tra questi giovani germogli troviamo specie come Gemma 2B e 7B di Google, Claude 3 Haiku di Anthropic o anche Llama 3 8B di Meta. Microsoft ne ha appena rilasciato uno nuovo: Phi-3 Mini.

Phi-3 Mini, primo rappresentante di un trio

Phi-3 Mini è il primo rappresentante pubblicamente disponibile di una stringa a tre semi; gli altri due, attesi nei prossimi mesi, sono Phi-3 Small e Phi-3 Medium. In termini di numero di parametri, questi modelli richiedono suoli rispettivamente di 3,8 miliardi, 7 miliardi e 14 miliardi. Inoltre, come avrete capito con il numero 3, ci sono stati dei precedenti: Phi-1 e Phi-2, quest’ultimo ha fatto il suo debutto lo scorso dicembre.

Nonostante le sue piccole dimensioni, Phi-3 Mini non è inefficiente. Microsoft afferma che offre prestazioni migliori rispetto ai modelli di dimensioni doppie. In una dichiarazione indirizzata ai nostri colleghi di Il Verginelo aggiunge Eric Boyd, vicepresidente di Microsoft Azure AI Platform “Phi-3 Mini è efficiente quanto gli LLM come GPT-3.5 ma in un formato più piccolo”.

SLM contro LLM © Microsoft

Un SLM formato utilizzando un LLM

Come si può immaginare, affinché un modello SLM sia efficiente, deve essere stato addestrato molto bene. Mentre gli LLM vengono raccolti tramite un’enorme quantità di dati raccolti su Internet, per un SML tale raccolta non è rilevante. Di conseguenza, i team Microsoft hanno adottato un approccio diverso alla formazione di Phi-3 Mini. “Invece di fare formazione sui dati web grezzi, perché non cercare dati di altissima qualità? »riassume Sébastien Bubeck, vicepresidente di Microsoft responsabile della ricerca sull’intelligenza artificiale generativa.

Tuttavia, come specifica l’azienda, se “distinguere informazioni di alta qualità da informazioni di bassa qualità non è difficile per un essere umano” (affermazione discutibile), lo è molto di più per un modello linguistico, che, fino a prova contraria, è solo un aspiratore di dati senza alcuna capacità di ragionamento. Detto questo, per effettuare l’ordinamento preliminare e la selezione delle informazioni rilevanti, Microsoft ha utilizzato un LLM. Una nuova tipologia di trainer che spiega, secondo l’azienda, l’eccellenza di Phi-3 Mini.

“La potenza dell’attuale generazione di modelli linguistici di grandi dimensioni è davvero uno strumento che prima non avevamo in termini di generazione di dati sintetici”, sottolinea Ece Kamar, che dirige il Microsoft Research AI Frontiers Lab. In sostanza, troviamo qualcosa dell’immagine epinale del maestro e dell’allievo, il primo che distilla parte del suo sapere al secondo.

In effetti, i piccoli modelli di intelligenza artificiale sono più economici da gestire rispetto a quelli di grandi dimensioni e, soprattutto, facilitano – allo stato attuale dell’hardware – l’uso locale.

Una specificità spiegata così da Microsoft: l’azienda scrive che grazie alla capacità di SLM di operare offline, un numero maggiore di persone potrà utilizzare l’intelligenza artificiale in un modo che finora non era possibile. E se nell’era del tutto connesso, richiedere un potente chatbot tramite server non sembra insormontabile, si tratta in realtà di un’osservazione di un cittadino che vive in un paese con un’infrastruttura di rete relativamente sviluppata: l’azienda di Redmond si limita a citare il caso delle aree rurali prive di servizi cellulari; più specificatamente, l’esempio di un agricoltore che, ispezionando le sue colture e riscontrando segni di malattia su una foglia o un ramo, potesse utilizzare un SLM dotato di capacità visiva per scattare una foto della coltura in questione e ottenere così consigli immediati su come curare parassiti o malattie – diagnosi e terapia presumibilmente dettate direttamente dalla Bayer, ma questo è un altro dibattito.

Luis Vargas, vicepresidente dell’intelligenza artificiale di Microsoft, descrive un mondo ideale in cui “se ti trovi in una parte del mondo che non dispone di una buona rete, potrai comunque beneficiare delle esperienze di intelligenza artificiale sul tuo dispositivo”; questo, grazie a SLM. Oh gioia!

-

Phi-3 Mini, primo rappresentante di un trio

Un SLM formato utilizzando un LLM

Related posts