L’ultimo chip AI di Nvidia per data center può surriscaldare i server. L’azienda dal canto suo afferma che non sta accadendo nulla di anomalo.
A marzo Nvidia ha presentato la serie di GPU Blackwell, che ha una potenza di calcolo fino a 20 petaflop. Una di queste versioni combina due GPU in un unico chip, che può funzionare fino a 30 volte più velocemente con i modelli LLM (Large Language Model). Ciò dovrebbe garantire risposte più rapide e/o un consumo energetico ridotto.
Ma anche il chip ha dei problemi. L’uscita di Blackwell era originariamente prevista per il secondo trimestre di quest’anno (aprile-giugno), ma la sua uscita era stata posticipata. Nel mese di ottobre, l’azienda ha annunciato di aver risolto un difetto di progettazione in collaborazione con TSMC, che produce i chip Nvidia.
Ora, The Information rivela che Blackwell soffre anche di un problema termico, in particolare nei server che ospitano fino a 72 di questi chip in un unico pacchetto. Nvidia avrebbe poi chiesto ripetutamente ai suoi fornitori di modificare il design dei cabinet.
“Non anormale”
La stessa Nvidia dice a Reuters che sta collaborando pienamente con i fornitori di servizi cloud e che tutto sta andando normalmente, come previsto. Ciò suggerisce che non è insolito che il concetto venga modificato per evitare questo tipo di problemi.
A loro volta, gli ostacoli incontrati pongono problemi anche ad alcuni dei principali attori del cloud e dell’intelligenza artificiale. In qualità di fornitore leader di chip AI, Nvidia è un partner cruciale per gli attori che attualmente desiderano avviare data center specificatamente dedicati all’intelligenza artificiale (Meta, Microsoft, OpenAI, Google, ecc.). Fino a quando i chip non saranno disponibili, la loro potenza di calcolo non potrà essere utilizzata.