La nuova corsa agli armamenti della tecnologia: la battaglia da trilioni di dollari per costruire l’intelligenza artificiale

Scopri come le aziende integrano responsabilmente l’intelligenza artificiale nella produzione. Questo evento solo su invito a San Francisco esplorerà l’intersezione tra tecnologia e business. Scopri come puoi aspettare qui.

Durante i test, un modello linguistico di grandi dimensioni (LLM) recentemente rilasciato sembrava riconoscere che era in fase di valutazione e commentava la rilevanza delle informazioni che stava elaborando. Ciò ha portato a ipotizzare che questa risposta potrebbe essere un esempio di metacognizione, una comprensione dei propri processi mentali. Sebbene questo recente LLM abbia suscitato un dibattito sul potenziale dell’intelligenza artificiale per l’autoconsapevolezza, la vera storia sta nella pura potenza del modello, fornendo un esempio di nuove capacità che si verificano man mano che i LLM diventano più grandi.

Di pari passo crescono anche le capacità emergenti e i costi, che stanno ormai raggiungendo cifre astronomiche. Proprio come l’industria dei semiconduttori si è consolidata attorno a una manciata di aziende in grado di permettersi gli ultimi impianti di produzione di chip multimiliardari, il campo dell’intelligenza artificiale potrebbe presto essere dominato solo dai più grandi giganti della tecnologia – e dai loro partner – in grado di sostenere il mercato. fattura per lo sviluppo degli ultimi modelli LLM di base come GPT-4 e Claude 3.

Il costo per addestrare questi ultimi modelli, che hanno capacità che hanno eguagliato e, in alcuni casi, superato le prestazioni a livello umano, è alle stelle. In effetti, i costi di formazione associati ai modelli più recenti si avvicinano ai 200 milioni di dollari, minacciando di trasformare il panorama del settore.

Fonte: https://ourworldindata.org/grapher/test-scores-ai-capabilities-relative-human-performance

Se questa crescita esponenziale delle prestazioni continua, non solo le capacità dell’intelligenza artificiale avanzeranno rapidamente, ma aumenteranno anche i costi esponenziali. Anthropic è tra i leader nella costruzione di modelli linguistici e chatbot. Almeno per quanto mostrano i risultati dei test benchmark, il loro fiore all’occhiello Claude 3 è senza dubbio l’attuale leader in termini di prestazioni. Come GPT-4, è considerato un modello di base pre-addestrato su una gamma diversificata ed estesa di dati per sviluppare un’ampia comprensione del linguaggio, dei concetti e dei modelli.

Evento VB

L’AI Impact Tour – San Francisco

Unisciti a noi mentre esploriamo le complessità dell’integrazione responsabile dell’intelligenza artificiale nel mondo degli affari nella prossima tappa dell’AI Impact Tour di VB a San Francisco. Non perdere l’occasione di ottenere approfondimenti da esperti del settore, fare rete con innovatori che la pensano allo stesso modo ed esplorare il futuro di GenAI con le esperienze dei clienti e ottimizzare i processi aziendali.

Richiedi un invito

Performance benchmark LLM, marzo 2024. Fonte: https://www.anthropic.com/news/claude-3-family

Il co-fondatore e amministratore delegato dell’azienda, Dario Amodei, ha recentemente discusso dei costi per la formazione di questi modelli, stimando che la formazione di Claude 3 si aggiri intorno ai 100 milioni di dollari. Ha aggiunto che i modelli che sono in fase di formazione ora e che saranno introdotti più avanti nel 2024 o all’inizio del 2025 hanno “un costo più vicino al miliardo di dollari”.

*I costi della formazione LLM aumentano con la sofisticazione del modello. Fonte:* *Rapporto sull’indice AI di Stanford 2024*

Per comprendere il motivo di questi costi crescenti, dobbiamo considerare la complessità sempre crescente di questi modelli. Ogni nuova generazione ha un numero maggiore di parametri che consentono una comprensione e un’esecuzione di query più complesse, più dati di addestramento e maggiori quantità di risorse di elaborazione necessarie. Nel 2025 o 2026, Amodei ritiene che il costo sarà compreso tra 5 e 10 miliardi di dollari per addestrare i modelli più recenti. Ciò impedirà a tutte le aziende, tranne le più grandi e ai loro partner, di costruire questi LLM di base.

L’intelligenza artificiale sta seguendo l’industria dei semiconduttori

In questo modo, l’industria dell’intelligenza artificiale sta seguendo un percorso simile a quello dell’industria dei semiconduttori. Nell’ultima parte del 20° secolo, la maggior parte delle aziende di semiconduttori ha progettato e costruito i propri chip. Man mano che l’industria seguiva la Legge di Moore – il concetto che descriveva il tasso esponenziale di miglioramento delle prestazioni dei chip – i costi per ogni nuova generazione di apparecchiature e impianti di produzione per produrre i semiconduttori crescevano in modo proporzionale.

Per questo motivo, molte aziende alla fine hanno scelto di esternalizzare la produzione dei propri prodotti. AMD è un buon esempio. L’azienda produceva in proprio i principali semiconduttori, ma nel 2008 ha deciso di scorporare i propri impianti di produzione, noti anche come fab, per ridurre i costi.

A causa dei costi di capitale necessari, oggi ci sono solo tre aziende di semiconduttori che stanno costruendo stabilimenti all’avanguardia utilizzando le più recenti tecnologie dei nodi di processo: TSMC, Intel e Samsung. TSMC ha recentemente affermato che costerebbe circa 20 miliardi di dollari costruire un nuovo stabilimento per produrre semiconduttori all’avanguardia. Molte aziende, tra cui Apple, Nvidia, Qualcomm e AMD, esternalizzano la produzione dei loro prodotti a queste fabbriche.

Implicazioni per l’intelligenza artificiale: LLM e SLM

L’impatto di questi maggiori costi varia nel panorama dell’intelligenza artificiale, poiché non tutte le applicazioni richiedono il LLM più recente e potente. Questo vale anche per i semiconduttori. Ad esempio, in un computer l’unità di elaborazione centrale (CPU) è spesso realizzata utilizzando la più recente tecnologia dei semiconduttori di fascia alta. Tuttavia, è circondato da altri chip per la memoria o la rete che funzionano a velocità inferiori, il che significa che non è necessario che siano costruiti utilizzando la tecnologia più veloce o potente.

L’analogia dell’intelligenza artificiale qui sono le numerose alternative LLM più piccole che sono apparse, come Mistral e Llama3, che offrono diverse trilioni di parametri invece degli oltre un trilione che si ritiene facciano parte di GPT-4. Microsoft ha recentemente rilasciato il proprio modello Small Language (SLM), il Phi-3. Come riportato da The Verge, contiene 3,8 miliardi di parametri ed è addestrato su un set di dati più piccolo rispetto a LLM come GPT-4.

Le dimensioni ridotte e il set di dati di addestramento aiutano a contenere i costi, anche se potrebbero non offrire lo stesso livello di prestazioni dei modelli più grandi. In questo modo, questi SLM sono molto simili ai chip di un computer che supportano la CPU.

Tuttavia, i modelli più piccoli potrebbero essere adatti per alcune applicazioni, in particolare quelle in cui non è necessaria una conoscenza completa su più domini di dati. Ad esempio, un SLM può essere utilizzato per mettere a punto i dati e il gergo specifici dell’azienda per fornire risposte accurate e personalizzate alle domande dei clienti. Oppure, si potrebbe essere formati utilizzando i dati per un settore o un segmento di mercato specifico o utilizzati per generare rapporti di ricerca completi e personalizzati e risposte alle domande.

Come ha recentemente affermato Rowan Curran, analista senior di intelligenza artificiale presso Forrester Research, a proposito delle diverse opzioni del modello linguistico: “Non è sempre necessario avere un’auto sportiva. A volte hai bisogno di un minivan o di un camioncino. Non si tratterà di un’ampia classe di modelli che tutti utilizzeranno per tutti i casi d’uso”.

Pochi giocatori aggiungono rischio

Proprio come l’aumento dei costi ha storicamente limitato il numero di aziende in grado di costruire semiconduttori di fascia alta, simili pressioni economiche ora modellano il panorama dello sviluppo di grandi modelli linguistici. Questi costi crescenti minacciano di limitare l’innovazione dell’IA a pochi attori dominanti, potenzialmente soffocando soluzioni creative più ampie e riducendo la diversità nel campo. Elevate barriere all’ingresso potrebbero impedire alle startup e alle imprese più piccole di contribuire allo sviluppo dell’intelligenza artificiale, restringendo così la gamma di idee e applicazioni.

Per controbilanciare questa tendenza, l’industria deve supportare modelli linguistici più piccoli e specializzati che, come componenti essenziali in un sistema più ampio, forniscano funzionalità critiche ed efficienti per varie applicazioni di nicchia. La promozione di progetti open Source e di sforzi collaborativi è fondamentale per democratizzare lo sviluppo dell’intelligenza artificiale, consentendo a una gamma più ampia di partecipanti di influenzare questa tecnologia in evoluzione. Promuovendo ora un ambiente inclusivo, possiamo garantire che il futuro dell’intelligenza artificiale massimizzi i benefici nelle comunità globali, caratterizzate da ampio accesso ed eque opportunità di innovazione.

Gary Grossman è EVP delle pratiche tecnologiche presso Edelman e responsabile globale dell’Edelman AI Center of Excellence.

DataDecisionMakers

Benvenuto nella comunità VentureBeat!

DataDecisionMakers è il luogo in cui gli esperti, compresi i tecnici che lavorano sui dati, possono condividere approfondimenti e innovazioni relativi ai dati.

Se vuoi leggere idee all’avanguardia e informazioni aggiornate, best practice e il futuro dei dati e della tecnologia dei dati, unisciti a noi su DataDecisionMakers.

Potresti anche considerare di contribuire con un tuo articolo!

Ulteriori informazioni da DataDecisionMakers