Mistral AI rafforza Le Chat per guadagnare terreno contro ChatGPT

Wednesday 20th November 2024 04:39 AM

Ieri Mistral AI ha annunciato la disponibilità di Pixtral Large, accessibile dalla sua interfaccia utente consumer, Le Chat, tramite la sua piattaforma.

Pixtral Large: Mistral AI potenzia il suo processo VLM

Dopo Pixtral 12B, Pixtral Large è un VLM, un modello del linguaggio visivo (o modello del linguaggio visivo). Un VLM è più comunemente chiamato AI multimodale. Multimodale è un termine che identifica un ampio modello linguistico in grado di elaborare testo (il codice è una forma di testo), immagini, sicuramente, e potenzialmente video o file audio.

Un VLM elabora testo e immagini come input e risponde solo con testo come output.

Formato sulla base di Mistral Large 2, Pixtral Large utilizza la formula di Pixtral 12B, ma visualizza dieci volte più parametri: 124 miliardi in totale. Il decodificatore di testo ha 123 miliardi di parametri e il codificatore visivo ha 1 miliardo di parametri. La sua finestra di contesto di 128.000 token potrebbe importare almeno “30 immagini ad alta risoluzione”.

Il modello può così comprendere e spiegare documenti, diagrammi, immagini di livello equivalente o superiore a GPT4-o, Claude 3.5 Sonnet, LLama 3.2 90B e Gemini 1.5 Pro, secondo i benchmark effettuati dalla startup. Pixtral Large supera di qualche punto i suoi avversari nei test MathVista, DocVQA, VQAv2 e MM MT-Bench. In breve, capisce i documenti tanto o meglio dei suoi concorrenti e ottiene voti migliori nell’interpretazione delle immagini relative alla matematica.

Mistral Large beneficia anche di un aggiornamento (24.11) per gestire meglio documenti lunghi e istruzioni lunghe, un nuovo “prompt di sistema” e un migliore supporto per le chiamate di funzioni.

I due LLM sono disponibili con una licenza commerciale (Mistral Commercial License) e un’altra un po’ più permissiva rivolta ai ricercatori (Mistral Research License).

Oltre alla loro futura disponibilità sulle piattaforme AI dei fornitori di servizi cloud, Mistral Large 24.11 e Pixtral Large-latest sono accessibili dall’interfaccia Le Chat.

La Chat muta per competere con ChatGPT

Ricordiamo che Le Chat è l’applicazione concorrente di ChatGPT maggiormente utilizzata per testare i diversi modelli di Mistral AI. In beta, ha l’integrazione con un motore di ricerca che consente di citare le fonti di contenuto generate dal LLM scelto, uno strumento di tipo canvas (simile alla funzione Artifacts di Claude.ai e Canvas di ChatGPT) e funzionalità di generazione di immagini basate su il modello di consegna “a peso aperto” di Black Forest Labs Flux Pro e risposte più rapide.

Questi miglioramenti sono gratuiti… per ora. “In Mistral AI, il nostro approccio all’intelligenza artificiale è diverso: non perseguiamo l’intelligenza artificiale generale a tutti i costi”, scrivono i rappresentanti della startup. “Piuttosto, la nostra missione è mettere nelle vostre mani un’intelligenza artificiale all’avanguardia, in modo che possiate decidere cosa fare con le funzionalità avanzate dell’intelligenza artificiale”, continuano. “Questo approccio ci ha permesso di gestire il nostro capitale in modo frugale, fornendo al contempo funzionalità avanzate a prezzi accessibili. Con Le Chat offriamo un generoso piano gratuito con queste funzionalità beta e stiamo lavorando su livelli premium con garanzie di servizio più elevate”.

Chiaramente, il provider LLM sta lavorando su un equivalente di ChatGPT Plus e ChatGPT Enterprise. Resta da vedere se lo chiamerà Le Chat Plus e Le Chat Entreprise. In ogni caso, Mistral AI paragona la sua soluzione anche a Claude e Perplexity.

Agenti e moderazione dei contenuti

In effetti, le organizzazioni hanno già potuto testare questi assistenti, principalmente attraverso l’abbonamento a Microsoft 365. Senza connessione ai dati aziendali, si rivelano di scarsa utilità. Gli editori ritengono che l’intelligenza artificiale sia la risposta a questo problema. Lo scorso agosto Mistral AI ha presentato la versione alpha di Agents, un modo per creare flussi automatizzati per determinate attività ripetitive. La piattaforma offre Agent Builder, un’interfaccia WISIWYG che aiuta a configurare questi agenti. L’API associata deve consentire un utilizzo programmatico, più adatto alle esigenze degli sviluppatori. Per il momento è possibile utilizzare solo gli agenti sviluppati tramite l’interfaccia.

Oltre alla chat, Mistral AI ha recentemente annunciato nuovi strumenti per controllare l’output dei suoi LLM. Innanzitutto c’è un’API Batch, che dovrebbe ridurre i costi di inferenza durante l’elaborazione di grandi batch di documenti.

“L’API Batch offre un modo più efficiente per elaborare richieste di grandi volumi indirizzate ai modelli Mistral, a un costo inferiore del 50% rispetto a quello di una chiamata API sincrona”, assicura la startup. “Se stai creando applicazioni IA in cui il volume dei dati ha la priorità rispetto alle risposte sincrone, l’API batch potrebbe essere la soluzione ideale.”

Infine, la startup francese è senza dubbio una delle ultime a offrire un’API dedicata alla moderazione dei contenuti. Ricordiamo che Meta ha addestrato LLama Guard nel 2023, un modello dedicato al filtraggio di contenuti dannosi. Google ha offerto Gemma Guard quest’anno, mentre OpenAI ha lanciato un’interfaccia di programmazione simile a Nemo Guardrails di Nvidia nel 2022.