il principale vantaggio del modello francese

Il nuovo modello multi-agente di Mistral AI unisce prestazioni e massima efficienza. Offre un’alternativa open Source credibile per molti casi d’uso.

Il Mistral colpisce ancora forte. La start-up parigina, che si prepara a finalizzare una raccolta fondi da 5 miliardi di dollari, ha presentato un nuovo LLM open Source all’avanguardia per… 9 giorni. Presentato il 10 aprile come file torrent non elaborato, Mixtral 8x22B è stato ufficializzato da Mistral AI il 17 aprile con nuove informazioni sulla sua formazione. Meno di 24 ore dopo, Meta ha risposto svelando Llama 3. Un modello che supera nei parametri di riferimento quello della start-up parigina. Mixtral 8x22B non è pensato per essere riposto in fondo al cassetto, anzi.

Mixtral 8x22B: la potenza di un’architettura SMoE

L’ultimo di Mistral ha un grande vantaggio rispetto a Llama 3: la sua architettura. Basato su un modello di miscela sparsa di esperti, Mixtral è, a parità di parametri, più efficiente. Resa popolare da Mistral AI con Mixtral 8x7B, l’architettura è cresciuta rapidamente nell’ecosistema open Source. Quest’ultimo presenta un funzionamento davvero diverso dalla classica architettura a trasformatore, ancora utilizzata dalla maggior parte degli LLM presenti sul mercato. Con un’architettura Sparse Mixture-of-Experts, il modello è composto da diversi agenti, ciascuno specializzato in determinati tipi di compiti o conoscenze. Quando un input viene presentato al modello, un meccanismo di “instradamento” seleziona dinamicamente quali esperti verranno attivati per elaborare quell’input in modo ottimale.

A differenza di un modello denso in cui vengono utilizzati tutti i parametri, nell’architettura SMoE vengono attivati solo i parametri degli esperti selezionati per un dato input. Ciò rende il modello più compatto ed efficiente. Quindi, per deduzione, Mixtral 8x22B ha solo 39 miliardi di parametri attivi su 141 miliardi in totale. Questa funzionalità offre un’eccellente efficienza in termini di costi. Anche l’inferenza è molto più veloce. Allo stesso tempo, questo approccio semplifica l’aggiunta di nuovi esperti e l’adattamento a nuovi compiti.

Concretamente, quando Llama 3 utilizza 70 miliardi di parametri contemporaneamente durante l’inferenza, Mixtral ne utilizza solo 39. Sebbene Meta abbia migliorato l’architettura di trasformazione di Llama 3, il modello francese sottoperforma leggermente rispetto al gigante di Meta ma sarà molto più veloce e meno costoso da configurare all’interno di un’infrastruttura cloud o locale.

Prestazioni eccellenti

Durante lo sviluppo di Mixtral 8x22B, i team Mistral AI hanno concentrato la loro attenzione sul supporto nativo per le lingue europee. Mixtral 8x22B supporta inglese, francese, italiano, tedesco e spagnolo. Anche le sue capacità matematiche e di comprensione/generazione di codici sono state migliorate. Supporta nativamente la chiamata di funzioni che semplifica la chiamata di LLM all’interno di un programma. Il modello supporta una finestra di contesto di 64.000 token, rendendo possibile l’elaborazione di documenti abbastanza lunghi. Per fare un confronto, Llama 3 70B viene offerto con un contesto di 8.000 token.

Nel benchmark MMLU che misura la comprensione del linguaggio in più attività, Mixtral 8x22B mostra un punteggio del 77,75% rispetto al 79,5 di Meta. Notevoli anche le sue prestazioni nei test di ragionamento e di cultura generale come HellaSwag, Wino Grande e ARC Challenge, con punteggi intorno all’88-91%. Questi buoni risultati lo rendono un modello di scelta per l’analisi di documenti complessi. Mixtral 8x22B può essere considerato un LLM primario per un agente o coach personalizzato in un’ampia varietà di campi. Altro punto di forza, le prestazioni di Mixtral 8x22B in matematica e programmazione sono semplicemente le migliori tra i modelli in linguaggio aperto, dietro Llama 3. Con l’88,4% su HumanEval, il 71,2% su MBPP e il 90,8% su GSM8K, il modello dimostra capacità leader per compiti che richiedono ragionamento complesso. Mixtral 8x22B può essere considerato un ottimo modello per la generazione/comprensione del codice. Può anche essere messo a punto abbastanza facilmente su una determinata lingua per essere ancora più efficiente.

Segno di riferimento	Meta lama 3 70B	Mixtral 8x22B	Interpretazione del benchmark
MMLU 5 colpi	79,5	77,7	Valutazione della comprensione linguistica in più domini
AGIEval inglese 3-5 colpi	63.0	61.2	Misurazione delle capacità di ragionamento e comprensione in inglese
BIG-Bench Hard 3 colpi, CoT	81.3	79.2	Valutazione delle capacità di ragionamento complesso e di generazione di testi
ARC-Sfida 25 colpi	93,0	90,7	Misurazione della comprensione della conoscenza scientifica e del ragionamento
DROP 3 colpi, F1	79,7	77.6	Valutazione della comprensione e del ragionamento del testo

Il test in condizioni reali

Per testare le capacità di Mixtral 8x22B, abbiamo deciso di testare il modello (versione istruita) su diversi casi d’uso comuni e di confrontare le sue prestazioni con Llama 3 di Meta. I risultati sono piuttosto interessanti. Nella generazione del codice, Mixtral offre un codice semplice, conciso e relativamente ben ottimizzato. Il codice, tuttavia, manca di documentazione più leggibile. Llama 3 offre una risposta più appropriata per lo stesso compito. Mixtral potrebbe, tuttavia, ottenere prestazioni migliori dopo la messa a punto su una lingua specifica.

©Schermata/JDN

In sintesi, Mixtral offre un risultato qualitativo, migliore di Llama 3 secondo i nostri vari test. D’altra parte, il modello Mistral AI fatica a seguire il suggerimento iniziale con perfetta precisione. Sembra necessario un suggerimento più impegnativo. Nella generazione del testo, Mixtral offre un risultato abbastanza pulito la prima volta. Lo stile è piuttosto prolisso e manca di fluidità. La differenza con Llama 3 è minima. Il modello Meta offre un testo leggermente più fluido con un vocabolario più ricco e vario. Nella generazione del testo Mixtral rimane indietro e Llama si distingue. Con una messa a punto più avanzata su testi di qualità, Mixtral potrebbe guadagnare in precisione e fluidità, a un costo inferiore rispetto al modello Meta.

Un'immagine contenente testo, screenshot, carattere, lettera Descrizione generata automaticamente — ©Schermata/JDN

Mixtral vs Llama, un duello AI al top

Mixtral, grazie alla sua posizione aggressiva, è salito in cima alla classifica dei migliori LLM sul mercato open Source per 9 giorni prima di essere rapidamente raggiunto nella performance complessiva da Llama 3 di Meta. Il modello Mistral AI è leggermente meno efficiente di quello di Meta ma offre decisamente un compromesso affidabile e robusto con un’eccellente efficienza per la maggior parte dei casi d’uso.

Per ottenere un risultato veramente qualitativo sarà necessario guidare il modello con un suggerimento preciso e semplice. Per prestazioni ottimali, potrebbe essere necessaria una regolazione fine. Se Llama 3 si afferma come il nuovo leader indiscusso in termini di prestazioni grezze, Mixtral 8x22B si distingue grazie alla sua architettura unica e alla sua notevole efficienza.

Mixtral 8x22B: la potenza di un’architettura SMoE

Prestazioni eccellenti

Il test in condizioni reali

Mixtral vs Llama, un duello AI al top

Related posts