Apple ha annunciato di aver sviluppato un nuovo processo di accelerazione delle prestazioni della GPU, chiamato ReDrafter, e di averlo rilasciato come open Source. In un recente articolo sul suo blog di ricerca sull'apprendimento automatico, l'azienda di Cupertino spiega come questa tecnologia migliora la velocità di inferenza dei modelli linguistici (LLM) sulle schede grafiche NVIDIA, particolarmente utilizzate negli ambienti di produzione.
SSecondo Apple, questo progresso è solo un passo nella corsa verso l’inferenza AI ad alte prestazioni. Il punto più interessante? Questo “passo” è simbolico, perché Apple ha scelto la strada dell’open Source per andare avanti.
Cos'è ReDrafter?
ReDrafter (per Disegnatore ricorrente) è un meccanismo di “decodificazione speculativa”. finalizzato ad accelerare la generazione testuale di modelli linguistici autoregressivi (ad esempio GPT). Concretamente l'idea è quella di fare affidamento su a modello RNN leggero “proporre” diversi token (unità di testo) in anticipo, prima di confermarne o meno la correttezza tramite il modello principale (più pesante). Questo approccio consente di aumentare il numero di token generati per passaggio, riducendo così la latenza complessiva.
Secondo Apple, ReDrafter ci riesce fino a 3,5 token generati per passaggio su alcuni modelli open Source, superando così altre precedenti tecniche di generazione speculativa. Tutto è compatibile con ricerca del raggio e un meccanismo di “attenzione dinamica dell’albero”, per gestire più ipotesi contemporaneamente.
Un'integrazione in NVIDIA TensorRT-LLM
Per rendere ReDrafter operativo in produzione, Apple ha ha collaborato con NVIDIA al fine di integrare questa tecnica nel framework NVIDIA TensorRT-LLM. Questo framework, già ottimizzato per accelerare l'inferenza di grandi modelli linguistici su GPU, ora supporta gli operatori specifici da cui dipende ReDrafter.
Il risultato? Nei test effettuati da Apple su un modello LLM”diverse decine di miliardi di parametri”, l'utilizzo di ReDrafter all'interno di TensorRT-LLM ha permesso di ottenere un'accelerazione di 2,7 volte in termini di velocità di generazione dei token (per decodificazione avida). Questo aumento delle prestazioni si traduce in una latenza ridotta per gli utenti finali e in una riduzione della latenza diminuzione delle risorse della GPU necessario, quindi un potenziale guadagno in termini di costi e consumi energetici.
Uno strumento open Source
Al di là della pura performance, la particolarità di ReDrafter è quella di essere pubblicato e open Source. Ricercatori e sviluppatori possono:
- Studiare in dettaglio l'algoritmo di “decodifica speculativa” e la sua implementazione.
- Contribuire miglioramento del codice, correzione di bug o adattamento per altre architetture hardware.
- Riutilizzare i principi e il codice per creare nuovi approcci per accelerare l'inferenza.
Questa apertura fa sperare anche in una più ampia adozione di ReDrafter nell’ecosistema AI, in particolare per tutti coloro che utilizzano GPU NVIDIA in produzione.
Verso migliori LLM nella produzione
Con ReDrafter, Apple e NVIDIA dimostrano che l'accelerazione hardware e software degli LLM rimane un'utile area di ricerca. L’obiettivo è chiaro: ridurre i tempi di risposta (latenza) durante la generazione del testo, riducendo al contempo i costi. Man mano che gli LLM crescono in dimensioni e capacità, queste ottimizzazioni diventano fondamentali per un utilizzo su larga scala.
Per saperne di più:
Mi piace questa:
Mi piace caricamento…
Related News :