Nell’ambito dell’implementazione del suo modello linguistico open Source Lucie, Linagora sta discutendo con Exaion, Outscale, OVH e Scaleway per creare un’infrastruttura adeguata.
Per un attore che desideri distribuire il proprio assistente AI generativo su larga scala, le offerte cloud di Gafam rappresentano una soluzione già pronta. Gli hyperscaler offrono infatti risorse macchina adattate, con una capacità quasi illimitata per ospitare volumi molto elevati. La sfida di fondo: essere in grado di gestire un carico di traffico colossale su elaborazioni relativamente pesanti.
“Attualmente stiamo lavorando con Exaion (filiale cloud di EDF, ndr), Outscale, OVH e Scaleway con l’obiettivo di implementare su larga scala il nostro modello linguistico open Source Lucie che conta 7 miliardi di parametri”, confida Michel-Marie Maudet, direttore generale della società di servizi di software libero (SS2L) Linagora. Un modello che il CEO descrive come un modello SLM per il linguaggio piccolo Obiettivo dichiarato dalla società di Issy-les-Moulineaux: dimostrare al Summit AI Open Source di Parigi che l’attore organizzerà il 22 gennaio. poi è possibile offrire un equivalente open Source di ChatGPT basato su un’infrastruttura cloud sovrana.
Di fronte a questa sfida, l’amministratore delegato di Linagora rimane lucido. “Nessuna nuvola francese ha ancora effettuato un’operazione del genere, quindi puliremo l’intonaco”, dice senza mezzi termini. “Il più avanzato di questi rimane, dal nostro punto di vista, Scaleway (con più di 1000 GPU di tipo Nvidia H100 già implementate, nota dell’editore). Si tende verso un’esperienza abbastanza simile a quella di Amazon Bedrock (il servizio AWS dedicato all’intelligenza artificiale generativa, ndr).”
Il percorso multicloud è fondamentale?…
Per definire le proprie esigenze infrastrutturali, Linagora ha iniziato valutando gli scenari di traffico, in particolare stimando il numero di richieste e il volume di token in ingresso e in uscita per utente. Da lì, SS2L ha valutato diverse schede Nvidia: RTX A4000, L4, L40S e H100. In ciascun caso è stato stabilito un benchmark standard. La sfida per Linagora è quella di realizzare un’architettura con front-end web che supportino l’interfaccia di chat, e dietro le quinte un bilanciatore di carico basato sul brick open Source LiteLLM responsabile di indirizzare l’elaborazione ai punti di inferenza GPU del cloud sovrano più adatto. Ad esempio, se l’utente desidera conservare i propri dati su un cloud affidabile, il flusso verrà instradato su Outscale e supportato dalle GPU etichettate SecNumCloud di quest’ultimo.
“Attualmente ci stiamo muovendo verso un’architettura multi-cloud poiché riteniamo che un singolo cloud sovrano non sarà in grado di coprire tutti i nostri casi d’uso e non sarà nemmeno in grado di fornire da solo la potenza necessaria per un lancio pubblico generale. ” , sottolinea Michel-Marie Maudet. “Da lì, la sfida è dimostrare la nostra capacità di dedurre il nostro modello tra diversi operatori cloud francesi”.
….”No”, rispondono le nuvole sovrane
Per quanto riguarda Scaleway, manteniamo la capacità di accogliere, anche su un LLM (per modello linguistico di grandi dimensioni) di oltre 100 miliardi di parametri, incrementi di carico di diverse centinaia o addirittura diverse migliaia di utenti simultanei. “Abbiamo assicurato il lancio globale della chat vocale Moshi della Fondazione Kyutai, che rappresenta un aumento significativo del supporto”, ricorda Frédéric Bardolle, responsabile del prodotto principale AI presso Scaleway. Dietro le quinte, Moshi si affida ad un modello chiamato Helium che risulta essere abbastanza vicino a Lucie poiché, come quest’ultimo, possiede 7 miliardi di parametri.
“Possiamo gestire fino a diverse centinaia di migliaia di richieste al secondo”
E OVHcloud? Il cloud Roubaix offre endpoint AI. Un servizio, attualmente in versione beta, progettato per fornire modelli linguistici tramite fatturazione a token. Sotto il cofano, il fornitore ne commercializza già una quarantina, tra cui Llama-3.1-70B-Instruct o Mixtral-8x22b-Instruct. “Questa offerta è completamente adattata a Lucie”, sostiene Gilles Closset, leader globale dell’ecosistema AI presso OVHcloud. “Supportiamo pienamente il livello dell’infrastruttura sottostante sapendo che abbiamo la capacità di gestire fino a diverse centinaia di migliaia di richieste al secondo senza problemi.”
Per quanto riguarda le schede grafiche, OVHcloud utilizza risorse adattate a seconda del modello. “Offriamo schede grafiche L4 per i modelli piccoli, L4S per i modelli intermedi e H100 per i modelli di grandi dimensioni”, spiega Gilles Closet. Nei prossimi mesi, OVHcloud prevede inoltre di rendere disponibili, inoltre, AMD MI325X, AMD Blackwell, senza dimenticare Nvidia H200.
Anche noi di Outscale (gruppo Dassault Systèmes) vogliamo essere fiduciosi. “Da settembre 2024, abbiamo iniziato a offrire i modelli linguistici premium di Mistral come parte di un’offerta LLM as a Service che mira ad accogliere altre IA generative in futuro”, indica David Chassan, direttore della strategia di Outscale. Orientata all’inferenza, l’offerta in questione integra Codestral Mistral AI, Mistral Small, Ministral 8B 24.10 e Mistral Large. Per ogni modello il fornitore realizza un’infrastruttura macchina ad hoc. Lo stack include, ad esempio, due schede grafiche L40 per Mistral Small, e quattro GPU H200 per Mistral Large. Configurazioni pensate per l’uso aziendale, ma tutt’altro che adatte all’uso del pubblico generale e al volume di pubblico.
Alla domanda se Outscale sia in grado di mantenere la carica su scala più ampia, David Chassan si è dimostrato rassicurante. “Dassault Systèmes conta più di 350.000 clienti in tutto il mondo (e il 24% del fatturato generato nel cloud, ndr). Questo ci dà una notevole forza d’urto in termini di potenza della macchina”, sottolinea. “Tuttavia, il nostro principale valore aggiunto nell’intelligenza artificiale, come nel cloud in generale, consiste nel fornire uno stack dedicato per ciascun cliente. Da questo punto di vista, Outscale rimane l’unico cloud dotato di GPU certificate SecNumCloud”, riassume David Chassan. “Il nostro obiettivo primario è servire le organizzazioni e le istituzioni che desiderano proteggere i propri dati e la proprietà intellettuale.” Un messaggio che ha il merito di essere chiaro.