Presentata a dicembre 2023, la nuova famiglia di LLM made in Google è in rapida evoluzione. Contesto, modalità, velocità… JDN ti aiuta a vedere le cose più chiaramente.
Come orientarsi nella giungla dei modelli Gemini? Dalla pubblicazione del primo modello Gemini, Google ha rapidamente evoluto la sua gamma. Il colosso di Mountain View intende diventare il leader del mercato dei MLLM, questi nuovi modelli in grado di comprendere molteplici modalità (video, suono, immagine, ecc.). Attualmente sono disponibili al pubblico quattro diverse versioni di Gemini: Gemini 1.5 Pro, Gemini 1.5 Flash, Gemini 1.0 Pro e Gemini 1.0 Pro Vision.
Per dare un po’ più di significato a questa complessa denominazione, e capire quale modello è più adatto alle vostre esigenze, ecco una breve guida che vi aiuterà nella scelta. Dovresti trovare il modello che meglio soddisfa le tue aspettative in termini di prestazioni, velocità e casi d’uso.
Modello | Gemelli 1.5 Flash | Gemelli 1.5 Pro | Gemelli 1.0 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|---|
Codificato | X | X | ||
Compiti complessi | X | X | ||
Gettoni di contesto | 1 milione | 1 milione o 2 milioni in lista d’attesa | 32.000 | 12.288 |
Modalità (input) | Testo, immagine, video, audio | Testo, immagine, video, audio | Testo | Testo e immagine |
Latenza | Debole | Moderare | Importante | Importante |
Supporto JSON | X | X | ||
Ultimo aggiornamento | Aprile-24 | Aprile-24 | Febbraio-24 | NC |
Disponibilità su GCP | Anteprima | Anteprima | Pubblico | Pubblico |
Abbiamo scelto deliberatamente di non includere Gemini 1.0 Ultra, ora deprecato e non disponibile in Vertex AI. Allo stesso modo, Gemini Nano è disponibile solo per alcuni clienti Google Cloud per un utilizzo esclusivamente on-premise (mobile). La famiglia open Source Google Gemma sarà oggetto di un futuro confronto.
Il prezzo è a dir poco complesso
Chi dice multimodalità dice prezzi complicati. I MLLM di Google vengono fatturati per token e in base alla natura dell’input inviato al modello. Tieni inoltre presente che Google, per rendere il tutto un po’ più complesso, offre prezzi più alti per input superiori a 128.000 token.
Modello | Gemelli 1.5 Flash | Gemelli 1.5 Pro | Gemelli 1.0 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|---|
Velocità del testo (input) | $ 0,000125 | $ 0,00125 | $ 0,000125 | $ 0,000125 |
Velocità del testo (output di 1.000 caratteri) | $ 0,000375 | $ 0,00375 | $ 0,000375 | $ 0,000375 |
Prezzo dell’immagine (input per immagine) | $ 0,0001315 | $ 0,001315 | NP | $ 0,0025 |
Velocità video (input al secondo) | $ 0,0001315 | $ 0,001315 | NP | NP |
Frequenza audio (input al secondo) | $ 0,0000125 | $ 0,000125 | NP | NP |
Modello | Gemelli 1.5 Flash | Gemelli 1.5 Pro |
---|---|---|
Velocità del testo (immissione di 1.000 caratteri) | $ 0,00025 | $ 0,0025 |
Velocità del testo (output di 1.000 caratteri) | $ 0,00075 | $ 0,0075 |
Prezzo dell’immagine (input per immagine) | $ 0,000263 | $ 0,00263 |
Velocità video (input al secondo) | $ 0,000263 | $ 0,00263 |
Frequenza audio (input al secondo) | $ 0,000025 | $ 0,00025 |
La chiave: arbitrare tra prestazioni e costi
Google offre ora una gamma completa di modelli linguistici multimodali Gemini, adattati alle diverse esigenze e casi d’uso. Le versioni più recenti 1.5 offrono le migliori prestazioni in termini di comprensione multimodale (testo, immagine, video, audio) e capacità di contesto, con un vantaggio in velocità per la versione “Flash”. I modelli 1.0 rimangono rilevanti per le applicazioni più basilari che richiedono solo testo come input, con eventualmente immagini per la versione “Vision”. Il prezzo, sebbene complesso, è generalmente proporzionale alle capacità di ciascun modello.
Per scegliere la giusta versione di Gemini è necessario quindi analizzare attentamente le proprie esigenze in termini di modalità elaborate, dimensione del contesto, tempi di risposta desiderati e budget. È necessario un compromesso tra prestazioni e costi.