Microsoft presenta Phi-3, la prossima generazione dei suoi piccoli modelli linguistici

I modelli linguistici di grandi dimensioni (LLM) hanno capacità impressionanti in diversi ambiti, ma i modelli linguistici più piccoli (SLM) rappresentano un’alternativa interessante per le aziende che possono sfruttarli in modo conveniente per attività specifiche. Microsoft, che ha introdotto SLM Phi-1 nel giugno 2023, ha presentato la famiglia di modelli aperti Phi-3 il 23 aprile. Il più piccolo di essi, Phi-3 mini, già disponibile, ha 3,8 miliardi di parametri e, grazie alle sue dimensioni ridotte, può essere implementato localmente su un telefono o un computer.

Microsoft presenta i modelli Phi-3 come “i modelli linguistici per piccoli linguaggi più performanti ed economici disponibili”.

Phi-3 Mini è un modello di trasformatore decodificatore denso, messo a punto utilizzando la regolazione fine supervisionata (SFT) e l’ottimizzazione delle preferenze dirette (DPO) per garantire l’allineamento con le preferenze umane e le linee guida di sicurezza. È disponibile su Azure AI Studio, Hugging Face e Ollama.

È stato addestrato per sette giorni su 512 GPU NVIDIA H100 Tensor Core. NVIDIA ci ha anche detto che era possibile provarlo su ai.nvidia.com dove sarà confezionato come NVIDIA NIM. “un microservizio con un’interfaccia di programmazione applicativa standard che può essere distribuito ovunque”.

Nella loro relazione tecnica, i ricercatori lo spiegano “L’innovazione risiede interamente nel nostro set di dati di addestramento, una versione ampliata di quello utilizzato per PHI-2, costituito da dati web fortemente filtrati e dati sintetici“.

Il modello, addestrato su 3,3 trilioni di token, è stato allineato anche per quanto riguarda robustezza, sicurezza e formato della chat. La sua finestra pop-up, che può variare da 4.000 a 128.000 token, gli consente di assimilare e ragionare su grandi contenuti testuali (documenti, pagine web, codice, ecc.). Secondo Microsoft, Phi-3-mini dimostra forti capacità di ragionamento e logica, rendendolo un buon candidato per compiti analitici.

Prestazioni solide nonostante le dimensioni ridotte

Microsoft ha condiviso nel suo blog le prestazioni di Phi-3 mini, ma anche quelle di Phi-3-small (7B) e Phi-3-medium (14B) che saranno presto disponibili e sono state addestrate su 4,8 trilioni di token.

Le prestazioni dei modelli Phi-3 sono state confrontate con quelle di Phi-2, Mistral-7b, Gemma-7B, Llama-3-instruct-8b, Mixtral-8x7b, GPT-3.5 Turbo e Claude-3 Sonnet. Tutti i dati riportati sono prodotti con la stessa pipeline in modo che siano effettivamente comparabili.

Phi-3-mini supera Gemma-7B e Mistral-7B su alcuni benchmark di riferimento come MMLU, mentre Phi-3-small e Phi-3-medium con prestazioni significativamente migliori superano modelli molto più grandi, incluso GPT-3.5 Turbo. Tuttavia, a causa delle loro dimensioni ridotte, i modelli Phi-3 sono meno competitivi per compiti incentrati sulla conoscenza fattuale, come quelli valutati in TriviaQA.

Le loro capacità in molte altre aree, tuttavia, li rendono particolarmente utili in scenari in cui le dimensioni del modello e le risorse disponibili sono fattori critici, come in ambienti con risorse limitate o applicazioni che richiedono tempi di risposta rapidi.

Prestazioni solide nonostante le dimensioni ridotte

Related posts