DayFR Italian

Pixtral 12B di Mistral AI: multimodale e open source

-

Con i suoi 12 miliardi di parametri, Pixtral 12B non offre la generazione di immagini, ma l’analisi delle immagini. Questo è il primo modello multimodale della start-up francese. Buone notizie: può essere utilizzato, modificato e migliorato, perché è open Source.

Mistral AI ha deciso di affrontare i modelli multimodali e, a dir poco, è un colpo da maestro. Pixtral 12B, questo è il suo nome, è nativamente multimodale. È addestrato con dati di testo e immagini interlacciati.

L’architettura include un nuovo codificatore di visione da 400 milioni di parametri, addestrato da zero. Il decodificatore multimodale da 12 miliardi di parametri è basato su Mistral Nemo. La licenza scelta è open Source, Apache 2.0. Tutti i prompt saranno open Source.

Pixtral può essere utilizzato per comprendere con precisione diagrammi, grafici e documenti complessi in alta definizione, garantendo al contempo velocità di inferenza elevate per immagini di piccole dimensioni come icone, clipart ed equazioni.

Mistral spiega che ha ” hanno rivalutato una gamma di modelli open Source e proprietari utilizzando lo stesso framework di valutazione: per ogni set di dati, il prompt è stato scelto per replicare i risultati di modelli multimodali noti (GPT-4o e Claude-3.5-Sonnet). Tutti i modelli sono stati quindi valutati utilizzando questo stesso prompt “.

Nel complesso, Pixtral supererebbe tutti i modelli open Source delle sue dimensioni, secondo Mistral AI. In alcuni casi, supererebbe modelli proprietari come Claude 3 Haiku. Pixtral eguaglia le prestazioni di modelli molto più grandi come LLaVa OneVision 72B su benchmark multimodali. Infine, supererebbe Qwen2-VL 7B, LLaVa-OneVision 7B e Phi-3.5 Vision nel tracciamento delle istruzioni.

Puoi provare Pixtral 12B su The Platform o su The Chat. Il modo più semplice per eseguire Pixtral localmente è da usare inferenza-mistralTutti i dettagli sono forniti da Mistral AI in questo articolo di blog molto tecnico (in inglese), rivolto in particolare agli sviluppatori.

Mi piace questa:

Mi piace caricamento…

Related News :