Gemini 1.5 Pro, 1.0 Ultra… Quale modello Google scegliere?

Presentata a dicembre 2023, la nuova famiglia di LLM made in Google è in rapida evoluzione. Contesto, modalità, velocità… JDN ti aiuta a vedere le cose più chiaramente.

Come orientarsi nella giungla dei modelli Gemini? Dalla pubblicazione del primo modello Gemini, Google ha rapidamente evoluto la sua gamma. Il colosso di Mountain View intende diventare il leader del mercato dei MLLM, questi nuovi modelli in grado di comprendere molteplici modalità (video, suono, immagine, ecc.). Attualmente sono disponibili al pubblico quattro diverse versioni di Gemini: Gemini 1.5 Pro, Gemini 1.5 Flash, Gemini 1.0 Pro e Gemini 1.0 Pro Vision.

Per dare un po’ più di significato a questa complessa denominazione, e capire quale modello è più adatto alle vostre esigenze, ecco una breve guida che vi aiuterà nella scelta. Dovresti trovare il modello che meglio soddisfa le tue aspettative in termini di prestazioni, velocità e casi d’uso.

Quattro modelli, una moltitudine di casi d’uso
Modello	Gemelli 1.5 Flash	Gemelli 1.5 Pro	Gemelli 1.0 Pro	Gemini 1.0 Pro Vision
Codificato		X	X
Compiti complessi		X	X
Gettoni di contesto	1 milione	1 milione o 2 milioni in lista d’attesa	32.000	12.288
Modalità (input)	Testo, immagine, video, audio	Testo, immagine, video, audio	Testo	Testo e immagine
Latenza	Debole	Moderare	Importante	Importante
Supporto JSON	X	X
Ultimo aggiornamento	Aprile-24	Aprile-24	Febbraio-24	NC
Disponibilità su GCP	Anteprima	Anteprima	Pubblico	Pubblico

Abbiamo scelto deliberatamente di non includere Gemini 1.0 Ultra, ora deprecato e non disponibile in Vertex AI. Allo stesso modo, Gemini Nano è disponibile solo per alcuni clienti Google Cloud per un utilizzo esclusivamente on-premise (mobile). La famiglia open Source Google Gemma sarà oggetto di un futuro confronto.

Il prezzo è a dir poco complesso

Chi dice multimodalità dice prezzi complicati. I MLLM di Google vengono fatturati per token e in base alla natura dell’input inviato al modello. Tieni inoltre presente che Google, per rendere il tutto un po’ più complesso, offre prezzi più alti per input superiori a 128.000 token.

Prezzo per contesto inferiore a 128.000 token
Modello	Gemelli 1.5 Flash	Gemelli 1.5 Pro	Gemelli 1.0 Pro	Gemini 1.0 Pro Vision
Velocità del testo (input)	$ 0,000125	$ 0,00125	$ 0,000125	$ 0,000125
Velocità del testo (output di 1.000 caratteri)	$ 0,000375	$ 0,00375	$ 0,000375	$ 0,000375
Prezzo dell’immagine (input per immagine)	$ 0,0001315	$ 0,001315	NP	$ 0,0025
Velocità video (input al secondo)	$ 0,0001315	$ 0,001315	NP	NP
Frequenza audio (input al secondo)	$ 0,0000125	$ 0,000125	NP	NP

Prezzo per un contesto maggiore di 128.000 token
Modello	Gemelli 1.5 Flash	Gemelli 1.5 Pro
Velocità del testo (immissione di 1.000 caratteri)	$ 0,00025	$ 0,0025
Velocità del testo (output di 1.000 caratteri)	$ 0,00075	$ 0,0075
Prezzo dell’immagine (input per immagine)	$ 0,000263	$ 0,00263
Velocità video (input al secondo)	$ 0,000263	$ 0,00263
Frequenza audio (input al secondo)	$ 0,000025	$ 0,00025

La chiave: arbitrare tra prestazioni e costi

Google offre ora una gamma completa di modelli linguistici multimodali Gemini, adattati alle diverse esigenze e casi d’uso. Le versioni più recenti 1.5 offrono le migliori prestazioni in termini di comprensione multimodale (testo, immagine, video, audio) e capacità di contesto, con un vantaggio in velocità per la versione “Flash”. I modelli 1.0 rimangono rilevanti per le applicazioni più basilari che richiedono solo testo come input, con eventualmente immagini per la versione “Vision”. Il prezzo, sebbene complesso, è generalmente proporzionale alle capacità di ciascun modello.

Per scegliere la giusta versione di Gemini è necessario quindi analizzare attentamente le proprie esigenze in termini di modalità elaborate, dimensione del contesto, tempi di risposta desiderati e budget. È necessario un compromesso tra prestazioni e costi.

Il prezzo è a dir poco complesso

La chiave: arbitrare tra prestazioni e costi

Related posts