HP risolve il collo di bottiglia della memoria del PC per inferenza e analisi

Monday 30th September 2024 06:21 AM

L’utilizzo dei dati è diventato una leva essenziale per la competitività delle imprese, Ma le architetture e le microarchitetture informatiche tradizionali, a parte il massiccio parallelismo delle GPU (e anche in questo caso, con alcune restrizioni), faticano a soddisfare le crescenti richieste di analisi e carichi di lavoro basati sull’intelligenza artificiale. In effetti, queste architetture convenzionali non sono progettate per calcoli complessi di vettori e matrici.

In questo contesto, HP, durante il suo evento annuale, HP Imagine, ha alzato il velo su una serie di innovazioni tecnologiche, una delle quali è l’introduzione di una nuova architettura di memoria destinata a ottimizzare l’intelligenza artificiale. incorporato nei PC.

Progettati specificatamente per gestire flussi di lavoro intensivi e le attività più impegnative, i moduli di memoria LPDDR5x da 64 GB annunciati da HP raggiungono velocità di trasferimento di 80 GB/s. Potenza di elaborazione rafforzata dall’integrazione della NPU (Neural Processing Unit) AMD Ryzen PRO di nuova generazione, in grado di fornire prestazioni di calcolo fino a 55 TOPS (teraoperazioni al secondo, ovvero 1000 miliardi di operazioni al secondo). Per la cronaca, i computer PC AI rilasciati di recente raggiungono i 45 TOP.

Memoria ad alta efficienza energetica

Rispetto ai sistemi basati su LPDDR4x, DDR4 o anche LPDDR5 (senza la “x”), che ancora dominano il mercato, questi sistemi raggiungono velocità di larghezza di banda tipiche fino a 64 GB/s per LPDDR5. Sebbene sufficienti per applicazioni tipiche come l’ufficio o i giochi, queste velocità diventano rapidamente restrittive per i carichi di lavoro basati sull’intelligenza artificiale o sull’analisi dei dati, in cui è necessario elaborare enormi quantità di dati in tempo reale.

HP ha tenuto conto anche dell’impatto ambientale nella progettazione di questa architettura di memoria. Il sistema è progettato per essere più efficiente dal punto di vista energetico, con un utilizzo ottimizzato delle risorse per ridurre al minimo il consumo energetico massimizzando le prestazioni. Oltre alla velocità di trasferimento, il TDP da 40 W abbinato alle ventole turbo garantisce prestazioni elevate mantenendo temperature stabili. Questa gestione termica intelligente è combinata con la tecnologia HP Smart Sense, per un sistema reattivo e silenzioso.

X86, un’architettura obsoleta per AI e Analytics

Le architetture x86 tradizionali si basano su un modello CISC (Complex Instruction Set Computing), in cui ogni istruzione è complessa e può richiedere diversi cicli di clock per essere eseguita. Sebbene i processori moderni abbiano più core, possono elaborare in modo efficiente solo un numero limitato di istruzioni contemporaneamente. Ciò limita la loro capacità di eseguire calcoli massicciamente paralleli richiesti per operazioni di matrice o convoluzioni nelle reti neurali.

I requisiti funzionali di un’architettura tradizionale, progettata per elaborare una sequenza di istruzioni sequenziali, differiscono notevolmente da quelli di un’architettura destinata a elaborare masse di dati in parallelo per l’apprendimento automatico e l’inferenza. Queste differenze si spiegano con la natura dei compiti da eseguire e con i requisiti in termini di calcolo, memoria e parallelismo massiccio. In breve, le architetture x86 e SOC, che attualmente dominano il mercato dei computer, non sono ottimizzate per i calcoli matriciali e vettoriali.

Si basano su un modello CISC (Complex Instruction Set Computing), in cui ogni istruzione è complessa e può richiedere diversi cicli di clock per essere eseguita. Sebbene i processori moderni abbiano più core (fino a 64 nei processori server di fascia alta), possono elaborare in modo efficiente solo un numero limitato di istruzioni contemporaneamente. Ciò limita la loro capacità di eseguire i calcoli massicciamente paralleli richiesti per le operazioni di matrice o le convoluzioni nelle reti neurali.

Domina la modalità sequenziale

Progettate per eseguire istruzioni sequenziali, queste architetture sono state sviluppate per soddisfare esigenze generali, come l’elaborazione di attività di ufficio, la gestione di database o l’esecuzione di applicazioni interattive. Le CPU operano anche in modalità sequenziale, eseguendo istruzioni in pipeline. Un processo che funziona per fasi, ad esempio andare a prendere, decodificare et eseguire. Certamente il multithreading (Hyperthreading presso Intel) consente l’esecuzione parallela di istruzioni, ma ciò non è sufficiente per l’elaborazione su larga scala.

Per quanto riguarda la gestione della memoria e della larghezza di banda sulla scheda madre, insomma l’intera infrastruttura di interconnessione che collega tra loro i componenti, i bus di comunicazione e i controller, presenta dei colli di bottiglia e prevede diverse fasi di accesso ed elaborazione dei dati. Questo circuito che consente il trasferimento dei dati tramite bus (DMI, PCIe, ecc.) dalla memoria a lungo termine (disco rigido o SSD) alla CPU, tramite RAM, è pieno di colli di bottiglia, come i supporti di memorizzazione a diverse latenze, quelli di Memorie RAM e cache (estese su tre livelli, L1, L2 e L3).

È necessaria una vera revisione architettonica

Le architetture moderne integrano unità di elaborazione specializzate, come Tensor Core nelle GPU NVIDIA, TPU (Tensor Processing Unit) e NPU (Neural Processing Unit), in architetture specifiche (SIMD, Systolic, NoC o MIMD, tra le altre). ). Questi consentono l’esecuzione simultanea di più flussi di istruzioni su flussi di dati diversi. Sono più efficaci nell’accelerare i calcoli delle matrici utilizzati nelle reti neurali profonde (ad esempio, la moltiplicazione di matrici 4×4 in un singolo ciclo di clock) e nel gestire quantità immense
dati contemporaneamente.

Se i sistemi tradizionali hanno consentito di supportare attività IT standard, oggi mostrano i loro limiti data la portata e la complessità di enormi quantità di dati e le esigenze di elaborazione intensiva. Per il momento, i fornitori si accontentano di introdurre sviluppi sparsi per migliorare, qua e là e in ordine sparso, le architetture tradizionali. Ma questi funzionano ancora in una modalità sequenziale obsoleta. Fanno fatica a eseguire calcoli massivamente paralleli in modo efficiente e rispettoso dell’ambiente. HP sta affrontando direttamente il collo di bottiglia della memoria, ma ciò di cui i PC hanno bisogno è una vera revisione dell’architettura e della microarchitettura in modo che diventino veri PC AI.