DDN, storico fornitore di storage bay per supercomputer, ha appena ricevuto un investimento di 300 milioni di dollari dal fondo americano Blackstone. L’obiettivo è consentire a DDN di trasformare la propria leadership nei supercomputer in leadership nelle soluzioni di storage per l’intelligenza artificiale.
Se in entrambi i casi lo scopo è produrre array di storage eccessivamente veloci per alimentare GPU ad alte prestazioni, gli approcci sono diversi. Un supercomputer legge un piccolo numero di formule matematiche e produce enormi dati di simulazione. Nell’intelligenza artificiale facciamo il contrario: dobbiamo leggere molto rapidamente un enorme insieme di dati per produrre un modello sintetico più piccolo (addestramento) o generare la risposta a un prompt sullo schermo (inferenza con RAG).
Un’offerta che già spazia dal supercalcolo all’AI
Per il mercato dei supercomputer, DDN vende array EXAscaler che funzionano con Lustre, un file system parallelizzato open Source nato all’inizio degli anni 2000. Un array EXAscaler è un cluster di diversi nodi del disco. Tra questi, un nodo serve solo a indicizzare i contenuti degli altri, proprio come l’area delle directory su un classico file system. I server di calcolo interrogano questo server di metadati per sapere su quale nodo leggere/scrivere i blocchi di un file, quindi comunicano direttamente con il nodo corretto durante il trasferimento dei blocchi di questo file.
Affinché il sistema funzioni, i server di elaborazione devono disporre di un client Lustre e avere una connessione di rete diretta con i nodi di archiviazione. Si tratta in genere di una rete InfiniBand, senza perdita di pacchetti, con la possibilità per la scheda controller di copiare i dati direttamente nella RAM della macchina host o negli SSD NVMe.
DDN ha implementato questo know-how negli storage bay AI400X2 progettati per l’elaborazione AI. Questi sono gli stessi nodi EXAscaler 2U, ma con schede controller Ethernet Nvidia SpectrumX. Dotate di DPU BlueField della stessa Nvidia, queste schede offrono gli stessi vantaggi di Infiniband su rete Ethernet, più adatte ai server aziendali. Anche il loro protocollo RoCE (RDMA over Converged Ethernet) funziona senza perdita di pacchetti, con la scrittura diretta dei dati nella memoria delle schede GPU Nvidia (protocollo GPUdirect).
DDN dispone già di soluzioni per l’inferenza
Gli AI400X2 sono progettati principalmente per comunicare il più rapidamente possibile con le GPU, durante l’addestramento di un modello AI. Ma sono molto costosi per archiviare l’enorme quantità di dati che un’azienda vuole sottoporre quotidianamente a un modello già addestrato. Per questo secondo caso d’uso, DDN offre array Infinia dal 2023. Funzionano in modalità oggetto, con un protocollo S3 di base, che consente l’aggiunta a caldo dei nodi del disco.
DDN ha diviso ciascuna funzione di storage S3 in un contenitore: il server di metadati, il server di storage, ecc. Tanto che DDN può riprodurre con il suo Infinia un funzionamento simile a Lustre, a patto che sui server di calcolo siano installati alcuni contenitori S3 funzionali. Gli alloggiamenti Infinia hanno il vantaggio di essere dotati anche di schede SpectrumX per massimizzare la velocità di trasferimento.
Infine, DDN è orgoglioso di sapere meglio di chiunque altro come funziona lo storage intensivo. Quando le GPU scrivono dati in parallelo che poi rileggono per continuare i calcoli, possono sorgere diversi problemi di incoerenza. Questi problemi vengono solitamente risolti mediante checkpoint regolari, un’operazione potenzialmente molto intensiva dal punto di vista computazionale e che non genera dati utili. DDN afferma di sapere come evitare questi ritardi fornendo flussi di trasferimento, che orchestra con un uso intelligente delle cache.
Un investimento che avvantaggia soprattutto Blackstone
DDN non solo dispone già di un’offerta di intelligenza artificiale, ma la vende anche a grandi clienti. Tra questi, xAI, la società di Elon Musk che ha implementato un supercomputer AI, Colossus, dotato di 100.000 GPU H100. In effetti, l’utilità di questo nuovo investimento di 300 milioni di dollari non è molto chiara.
È probabile che la motivazione provenga principalmente dal fondo di investimento Blackstone che sta cercando di collocare le sue pedine – entra a far parte del consiglio di amministrazione di DDN – in diverse società strategiche di intelligenza artificiale. L’anno scorso, il fondo ha anche offerto sostegno finanziario a CoreWeave, un host IaaS (infrastruttura su richiesta) utilizzato solo per l’elaborazione dell’intelligenza artificiale.
In ogni caso, DDN mantiene ora sul suo sito la suspense di un annuncio fenomenale per AI, il 20 febbraio. Se fosse in linea con la strategia che Blackstone sembra voler portare avanti, dovrebbe essere un prodotto di storage “AI” per tutte le aziende.
Related News :