Rapporto di ricerca approfondita sulla conferenza GTC di Nvidia: logica di base dell'obiettivo di ordini da mille miliardi, colli di bottiglia nell'attuazione e rimodellamento del panorama industriale

Data del rapporto: aprile 2026
Campo di ricerca: pubblicazione principale della conferenza GTC di Nvidia 2026, modello di domanda e offerta dell'industria dell'AI, catena di approvvigionamento dei semiconduttori, panorama competitivo dei chip AI, trasformazione del modello di business dell'industria dell'AI
Dichiarazione principale: questo rapporto è solo per ricerca e analisi del settore e non costituisce alcun consiglio di investimento
SommarioDurante la conferenza GTC di Nvidia del 2026, il fondatore dell'azienda Huang Renxun ha presentato l'obiettivo principale: entro la fine del 2027, il volume totale degli ordini delle due piattaforme Blackwell e Vera Rubin supererà i 10000 miliardi di dollari. Questo obiettivo ha suscitato un ampio interesse a livello globale nell'industria tecnologica e dei semiconduttori. Questo rapporto combina l'esperienza di primo livello di investitori nell'industria dell'AI, ex responsabili della ricerca e sviluppo di Nvidia, architetti di chip di alto livello e operatori di infrastrutture cloud GPU, analizzando a fondo la logica di supporto di base di questo obiettivo da mille miliardi, i principali colli di bottiglia nel processo di attuazione, l'evoluzione del vantaggio competitivo dell'azienda e il suo impatto dirompente sul panorama dell'industria dell'AI globale, sulla catena di approvvigionamento dei semiconduttori e sui modelli di business dei servizi aziendali.
Le ricerche dimostrano che l'obiettivo di Nvidia di raggiungere un trilione di dollari è fondamentalmente supportato dal cambiamento nella struttura dei costi della potenza di calcolo per l'IA, che passa da un modello "orientato all'addestramento" a uno "orientato all'inferenza", e dall'impennata della domanda di token, trainata dall'esplosione dell'intelligenza artificiale basata su agenti. Il principale ostacolo al raggiungimento di questo obiettivo si è spostato dalle capacità di progettazione dei chip ai colli di bottiglia fisici, come la capacità produttiva dell'intera catena di fornitura dei semiconduttori e l'infrastruttura di alimentazione dei data center. Nel breve termine, è improbabile che la posizione di leadership di Nvidia nella potenza di calcolo per l'IA venga scalfita, e il suo ecosistema completo e il controllo della catena di fornitura rimangono i suoi principali vantaggi competitivi. Nel medio-lungo termine, il mercato globale della potenza di calcolo si trasformerà gradualmente in un panorama diversificato ed eterogeneo, con l'IA edge e l'implementazione di agenti a livello aziendale che diventeranno nuove direzioni di crescita e percorsi competitivi fondamentali per il settore.
I. Conclusioni principaliL'obiettivo di mille miliardi di dollari ha un chiaro supporto da parte della domanda e la sua velocità di implementazione dipende dal tasso di penetrazione del settore Agent: gli ordini da mille miliardi di dollari di Nvidia non sono semplici previsioni di vendita, ma un passo fondamentale nella sua trasformazione strategica da produttore di GPU a operatore di infrastrutture per l'IA. La domanda di inferenza è diventata il principale motore della crescita a lungo termine della potenza di calcolo per l'IA. Si stima che nei prossimi 1-2 anni i costi di inferenza rappresenteranno il 70%-80% del costo totale della potenza di calcolo. L'implementazione su larga scala degli agenti intelligenti Agent guiderà una rapida crescita della domanda di token, fornendo una garanzia fondamentale per il raggiungimento dell'obiettivo di mille miliardi di dollari.
I colli di bottiglia lungo l'intera catena di approvvigionamento rappresentano il principale ostacolo al raggiungimento dell'obiettivo di mille miliardi di dollari: l'espansione della capacità produttiva dell'industria dei semiconduttori segue un ciclo rigido e il processo a 3 nm di TSMC, la capacità di packaging avanzato CoWoS, la fornitura di memorie HBM ad alta larghezza di banda e le capacità di distribuzione dell'energia e dell'infrastruttura dei data center sono i quattro principali colli di bottiglia che limitano la diffusione della potenza di calcolo. Si prevede che la carenza di componenti di supporto lungo l'intera catena industriale persisterà fino alla fine del 2027, con un impatto diretto sul programma di consegna degli ordini di Nvidia e sul raggiungimento dei suoi obiettivi.
Il principale vantaggio competitivo di NVIDIA è stato potenziato e difficilmente una singola innovazione tecnologica potrà scalfire la sua posizione di leadership: la barriera competitiva fondamentale dell'azienda è passata dal singolo ecosistema software CUDA a un vantaggio complessivo derivante da "capacità di progettazione di chip basate sull'IA + ecosistema software e hardware full-stack + controllo assoluto sulla catena di fornitura + ecosistema di sviluppatori". Sebbene Coding Agent abbassi la soglia per l'ottimizzazione del kernel CUDA sottostante, non è in grado di replicare le sue capacità di ottimizzazione a livello di sistema full-stack e la coesione dell'ecosistema.
Il mercato globale della potenza di calcolo diventerà più diversificato ed eterogeneo, limitando le opportunità per le startup nel settore dei chip per inferenza generica: i futuri sistemi di calcolo per l'IA formeranno un'architettura ibrida eterogenea composta da "GPU + LPU + CPU + interconnessione ottica". Le TPU di Google, le serie MI di AMD e i chip sviluppati internamente dai fornitori di servizi cloud occuperanno una certa quota di mercato in scenari specifici, attenuando il monopolio assoluto di Nvidia. Tuttavia, le opportunità per le startup nel settore dei chip per inferenza generica sono sostanzialmente chiuse. La principale opportunità di sviluppo per le startup risiede nell'integrazione con l'ecosistema Nvidia e nell'innovazione collaborativa in specifici sottosettori.
L'AaaS (Agent as a Service) ridefinirà il modello di business dei servizi aziendali, spingendo il SaaS tradizionale a trasformarsi: la maturità della tecnologia Agent porterà i servizi aziendali a passare da un modello SaaS standardizzato a un modello Agent as a Service (AaaS) altamente personalizzato. L'investimento principale delle aziende si sposterà dall'acquisto di software IT all'acquisizione di risorse umane basate sull'IA. I fornitori con esperienza nel settore e capacità di ottimizzazione della potenza di calcolo otterranno nuove opportunità di crescita, mentre i fornitori SaaS tradizionali privi di competenze nei modelli di IA rischieranno di essere sostituiti.
II. Premesse della ricercaLa conferenza NVIDIA GTC, che si terrà a marzo 2026, è un punto di riferimento fondamentale per le tendenze del settore globale dell'intelligenza artificiale e dei semiconduttori. Durante la conferenza, Jensen Huang ha proposto un obiettivo chiave che avrà un impatto sull'intero settore: entro la fine del 2027, il volume cumulativo degli ordini delle piattaforme Blackwell e Vera Rubin non dovrà essere inferiore a 1.000 miliardi di dollari.
L'impatto di questo obiettivo sul settore non può essere ignorato: nel 2024, il fatturato annuo globale dell'industria dei semiconduttori si è attestato a poco più di 600 miliardi di dollari. Nvidia prevede di superare tale cifra entro tre anni, sfruttando le risorse della propria azienda e le due principali piattaforme di prodotto. Dietro questo obiettivo si cela la contraddizione fondamentale dell'attuale settore dell'intelligenza artificiale: la domanda di potenza di calcolo sta crescendo in modo esponenziale, raggiungendo migliaia di miliardi di dollari, mentre l'offerta si trova ad affrontare rigide strozzature lungo tutta la catena, dalla capacità produttiva di wafer avanzati e dai processi di packaging ai chip di memoria e alla distribuzione dell'energia.
Allo stesso tempo, in occasione della conferenza GTC, NVIDIA ha completato il più grande lancio simultaneo di prodotti della sua storia: la piattaforma Vera Rubin ha lanciato contemporaneamente 7 nuovi chip di produzione di massa, con un'efficienza di inferenza 10 volte superiore rispetto alla piattaforma Blackwell e un costo per singolo token ridotto a 1/10 rispetto all'originale; a soli 4 mesi dal completamento dell'acquisizione di Grok, ha rilasciato ufficialmente il chip di inferenza LPU, entrando a pieno titolo nel settore dell'inferenza a bassa latenza; e, contemporaneamente, ha lanciato l'ecosistema software Nemo Cloud, focalizzato sul punto di ingresso principale per l'implementazione di agenti a livello aziendale, completando la configurazione full-stack dall'hardware al software, dall'addestramento all'inferenza e dai chip all'infrastruttura del data center.
Questo rapporto effettua uno studio approfondito sulla fattibilità, l'impatto sul settore e la trasformazione del mercato derivante dall'obiettivo di Nvidia di raggiungere un valore di mille miliardi di dollari, fornendo riferimenti di settore completi e obiettivi per gli operatori del settore e gli investitori.
III. La logica sottostante all'obiettivo di Nvidia di ordini da mille miliardi di dollari3.1 Una ristrutturazione fondamentale del posizionamento strategico: da produttore di GPU a gestore di infrastrutture per l'intelligenza artificialeL'obiettivo da mille miliardi di dollari proposto da Jensen Huang non riguarda semplicemente l'espansione delle vendite di chip. Il suo fulcro è il completo riassetto del posizionamento aziendale di Nvidia: trasformarsi dalla più grande azienda al mondo nella progettazione di chip GPU in un operatore di infrastrutture per l'era dell'intelligenza artificiale e costruire una centrale di calcolo per l'IA che copra l'intero settore.
Zhang Lu, socio fondatore e amministratore delegato di Fusion Fund, ha affermato che il prodotto commerciale principale di Nvidia non è più l'hardware GPU, bensì la produttività fondamentale dell'era dell'IA: i token. Questo cambio di strategia consente a Nvidia di superare i limiti di mercato dei tradizionali chip a semiconduttore e di allinearsi con precisione alle opportunità di crescita a lungo termine della trasformazione digitale dell'intera economia basata sull'IA.
Dal punto di vista del modello di business, NVIDIA è passata dalla "vendita di prodotti hardware" alla "fornitura di soluzioni complete per l'infrastruttura di calcolo". Alla conferenza GTC di quest'anno, NVIDIA non solo ha presentato nuovi chip, ma ha anche lanciato una soluzione modulare prefabbricata per data center dedicati all'intelligenza artificiale, riducendo i tempi di costruzione da 18-20 mesi a 6-9 mesi. In sostanza, questo offre ai clienti una soluzione "pronta all'uso" per la creazione di data center per l'IA, realizzando un aggiornamento del modello di business che passa dalla vendita di singoli chip alla fornitura di servizi infrastrutturali per l'intero ciclo di vita del prodotto, e fornendo un solido supporto logico per il raggiungimento dell'obiettivo di ordini da mille miliardi di dollari.
3.2 Inversione della struttura dei costi di calcolo: la domanda di inferenza diventa il motore principale della crescita a lungo termineLa logica fondamentale alla base dell'obiettivo di mille miliardi di yuan risiede nel cambiamento radicale della struttura dei costi della potenza di calcolo per l'IA: il costo della potenza di calcolo del settore si è rapidamente spostato da un modello "orientato all'addestramento" a uno "orientato all'inferenza", e la domanda di inferenza diventerà una fonte di flusso di cassa stabile, su larga scala e a lungo termine per la potenza di calcolo dell'IA.
Nelle prime fasi di sviluppo del settore dell'IA, i costi della potenza di calcolo erano concentrati principalmente nella fase di pre-addestramento dei modelli di grandi dimensioni. Nel 2023, il 70-80% dei costi della potenza di calcolo dei chip del settore era investito nell'addestramento dei modelli. L'addestramento rappresenta un investimento una tantum in immobilizzazioni fisse e la domanda è concentrata in pochi grandi produttori di modelli, pertanto il potenziale di crescita è relativamente limitato.
Con la maturazione della tecnologia dei modelli di grandi dimensioni, la percentuale dei costi di inferenza sta aumentando rapidamente: attualmente, i costi di addestramento e di inferenza dei principali fornitori di modelli di grandi dimensioni sono sostanzialmente equivalenti; si stima che nel 2025-2026, i costi di inferenza rappresenteranno il 70%-80% del costo totale della potenza di calcolo dell'IA, diventando la voce di spesa più significativa del settore.
I dati presentati da Jensen Huang alla conferenza confermano questa tendenza: negli ultimi due anni, il volume di calcolo inferenziale è aumentato di 10.000 volte, l'utilizzo dei token è aumentato di 100 volte e la domanda complessiva di calcolo è aumentata di 1 milione di volte, e questo slancio di crescita continua tuttora. A differenza dell'investimento una tantum nella formazione, la domanda di inferenza è continua e ad alta frequenza, e continua a crescere con la diffusione delle applicazioni di intelligenza artificiale, fornendo un supporto stabile e a lungo termine per l'obiettivo di ordini da mille miliardi di dollari di NVIDIA.
3.3 L'esplosione degli agenti intelligenti basati su agenti determina una crescita esponenziale della domanda di token.L'impennata della domanda di inferenza è principalmente dovuta alla diffusione su larga scala degli agenti intelligenti Agent. A differenza delle tradizionali chiamate a singoli modelli di grandi dimensioni, gli agenti intelligenti Agent richiedono un funzionamento online continuo, una risposta in tempo reale e interazioni multi-round, il che impone maggiori esigenze in termini di bassa latenza, elaborazione di contesti lunghi e capacità di generazione di token per singolo utente ad alta concorrenza, con conseguente aumento significativo del consumo di token.
Alla conferenza GTC di quest'anno, "Open Cloud" è stata una delle parole chiave più citate da Huang Renxun, con l'obiettivo principale di adattarsi alla diffusione su larga scala degli agenti intelligenti Agent. Molti esperti del settore ritengono che gli Agent diventeranno il vettore principale della prossima generazione di servizi aziendali e internet per i consumatori, dopo i PC e l'internet mobile, e che la loro richiesta di potenza di calcolo supererà di gran lunga quella delle applicazioni internet tradizionali.
In termini di velocità di implementazione, il tasso di penetrazione delle applicazioni Agent nel mercato cinese ha superato quello degli Stati Uniti. I prodotti Agent, rappresentati da Doubao di ByteDance, hanno raggiunto un'adozione su larga scala da parte degli utenti finali. Mentre il mercato statunitense si concentra attualmente sulla programmazione AI a livello aziendale e sullo sviluppo di modelli multimodali, l'implementazione di Agent a livello aziendale sta progredendo rapidamente. Con la maturazione della tecnologia Agent, la domanda di consumo di token diventerà un fattore chiave di crescita per l'obiettivo di Nvidia di raggiungere un fatturato di mille miliardi di dollari.
IV. Principali colli di bottiglia e vincoli della catena di approvvigionamento per il raggiungimento dell'obiettivo di mille miliardi di yuanLa realizzazione di ordini da mille miliardi di dollari deve innanzitutto superare i limiti fisici dei settori dei semiconduttori e delle infrastrutture. Molti esperti del settore ritengono che il principale collo di bottiglia che attualmente ostacola il raggiungimento dell'obiettivo di mille miliardi di dollari da parte di Nvidia non sia più rappresentato dalle capacità di progettazione dei chip, bensì dai vincoli di capacità dell'intera catena di fornitura dei semiconduttori e dalle rigide limitazioni delle infrastrutture dei data center.
4.1 Vincoli di capacità fondamentali dei processi avanzati e del confezionamentoNel processo di produzione dei wafer, il processo a 3 nm di TSMC costituisce la base fondamentale per le piattaforme Blackwell e Vera Rubin di Nvidia, e la capacità produttiva di TSMC determina direttamente il limite massimo delle spedizioni di chip di Nvidia. Rispetto alla capacità di produzione di wafer a 3 nm, un collo di bottiglia più rilevante è rappresentato dalla capacità di packaging avanzato CoWoS.
Il processo di packaging avanzato CoWoS è fondamentale per ottenere elevata larghezza di banda e prestazioni elevate nei chip per l'intelligenza artificiale, ma rappresenta anche un punto debole importante nell'attuale settore della potenza di calcolo per l'IA. Dal 2024, TSMC ha triplicato la sua capacità CoWoS e continua ad espandersi, ma non riesce ancora a soddisfare la domanda esponenziale del settore.
Grazie alla sua solida partnership con TSMC, che dura da oltre vent'anni, Nvidia si è assicurata una quota significativa della capacità produttiva CoWoS di TSMC. Questo rappresenta sia un vantaggio fondamentale per la catena di fornitura, sia un importante vincolo per l'espansione della capacità produttiva. Anche con ordini per migliaia di miliardi di dollari, l'espansione della capacità di packaging avanzato di TSMC segue un ciclo rigido, impedendo una rapida crescita nel breve termine e limitando direttamente il volume di chip spediti a Nvidia.
4.2 Scarsità di approvvigionamento lungo l'intera catena di fornitura dei chip di memoriaLe prestazioni dei chip per l'IA dipendono fortemente dalla memoria ad alta larghezza di banda (HBM), rendendola un elemento fondamentale nel settore della potenza di calcolo per l'IA. In concomitanza con la conferenza GTC, Micron e Samsung hanno annunciato l'avvio ufficiale della produzione di massa di HBM4. Nel frattempo, i tre principali produttori – Micron, Samsung e SK Hynix – stanno lavorando a soluzioni personalizzate per HBM4e al fine di soddisfare le esigenze della piattaforma di nuova generazione di NVIDIA.
Tuttavia, l'espansione della capacità produttiva di HBM si scontra con rigide limitazioni di processo, e la capacità limitata di HBM ha innescato una reazione a catena di carenze nell'intero settore dei chip di memoria: la capacità produttiva di chip di memoria DDR e SSD è stata messa a dura prova da HBM, e il prezzo dei chip di memoria in tutto il settore ha continuato a salire, con aumenti del 100%-200% per i prodotti correlati nell'ultimo anno. Secondo informazioni di prima mano provenienti dalla catena di approvvigionamento, si prevede che la carenza di chip di memoria persisterà fino alla fine del 2027, diventando uno dei principali colli di bottiglia che limitano la diffusione della potenza di calcolo.
4.3 Soffitti rigidi nell'infrastruttura e nell'alimentazione dei data centerGli ordini da mille miliardi di dollari di Nvidia devono in definitiva essere implementati in veri e propri data center. Attualmente, il principale collo di bottiglia che limita la diffusione della potenza di calcolo non sono più i chip stessi, ma le capacità infrastrutturali dei data center, in particolare l'alimentazione elettrica.
Alex, fondatore di GMI Cloud, fornitore leader a livello globale di servizi cloud per GPU, ha affermato che il principale ostacolo al raggiungimento di un fatturato di 1.000 miliardi di dollari è la velocità di costruzione dei data center, e il principale collo di bottiglia in questo ambito è rappresentato dall'elettricità. Attualmente, la rete elettrica pubblica statunitense non dispone di una potenza industriale superiore a 10 megawatt. Il 90% dei data center di nuova costruzione adotta il modello "Behind-the-Meter", bypassando la rete elettrica pubblica e costruendo generatori a gas naturale in loco per raggiungere l'autosufficienza energetica. Alcuni importanti fornitori di servizi cloud hanno addirittura noleggiato direttamente centrali nucleari per fornire energia dedicata ai propri data center.
Gli Stati Uniti non mancano di capacità di generazione di energia; il principale collo di bottiglia risiede nella distribuzione dell'energia. La costruzione di sottostazioni per la rete elettrica pubblica e la distribuzione di elettricità ad alta tensione sono soggette a rigide restrizioni normative, con lunghi cicli di approvazione e lente velocità di implementazione, che non riescono a tenere il passo con il ritmo di costruzione dei data center per l'intelligenza artificiale. Questo vincolo rigido determina direttamente il limite superiore dell'espansione globale dell'infrastruttura di calcolo e influisce indirettamente sull'avanzamento dei lavori relativi agli ordini da mille miliardi di dollari di Nvidia.
4.4 Rischio di carenza di componenti di supporto lungo l'intera catena industrialeOltre ai chip principali, allo storage e all'alimentazione, l'intera catena infrastrutturale del calcolo AI sta affrontando carenze di approvvigionamento. Dati operativi di prima mano dimostrano che l'attuale penuria si è estesa dai chip principali all'intera filiera industriale: componenti chiave come gli switch CX7 di NVIDIA BlueField, le CPU per server Intel, le soluzioni CDU di raffreddamento a liquido per data center e i moduli ottici sono tutti scarsi, con cicli di consegna che si allungano continuamente.
Un server AI di fascia alta contiene oltre 200.000 componenti individuali. La carenza di uno qualsiasi di questi componenti influirà sulla consegna finale del server e sull'implementazione della potenza di calcolo. Ciò significa che l'obiettivo di mille miliardi di dollari di Nvidia non può essere raggiunto da sola. Richiede l'espansione simultanea dell'intera filiera dei semiconduttori, della produzione di elettronica e dei data center, e l'espansione coordinata dell'intera filiera è soggetta a notevoli incertezze.
V. I principali vantaggi competitivi e le capacità di iterazione tecnologica di NVIDIADi fronte alla concorrenza a livello di settore e ai vincoli della catena di approvvigionamento, la capacità di Nvidia di fissare un obiettivo di ordini da mille miliardi di dollari si basa sul continuo rafforzamento delle sue barriere tecnologiche e sui vantaggi del suo ecosistema completo. In occasione di questa conferenza GTC, i principali vantaggi competitivi di Nvidia sono stati pienamente potenziati, dando vita a punti di forza competitivi multidimensionali.
5.1 Rivoluzione nella progettazione di chip guidata dall'IA, che accelera significativamente la velocità di iterazioneAlla conferenza GTC di quest'anno, NVIDIA ha lanciato sette nuovi chip prodotti in serie per la sua piattaforma Vera Rubin, realizzando il più grande lancio simultaneo di prodotti di sempre e rompendo il tradizionale ritmo di iterazione dei prodotti nel settore dei semiconduttori.
Qualche anno fa, il ritmo standard nell'industria dei semiconduttori prevedeva l'aggiornamento di un chip di punta ogni due anni, e i principali produttori erano considerati leader del settore se riuscivano a lanciare uno o due nuovi chip all'anno. La capacità di Nvidia di sviluppare e produrre in serie simultaneamente più chip all'anno è dovuta principalmente alla profonda integrazione dell'intelligenza artificiale nell'intero processo di progettazione dei chip.
Il Dr. Mark Ren, ex direttore della ricerca di NVIDIA e fondatore e CEO di Agentris, ha rivelato che NVIDIA ha adottato completamente Coding Agent internamente, migliorando significativamente l'efficienza lavorativa degli ingegneri di progettazione di chip. Già nel 2023, NVIDIA aveva lanciato Project Chip Nemo, basato su oltre 20 miliardi di token di dati interni relativi alla progettazione di chip, addestrando un modello dedicato di grandi dimensioni che copre l'intero processo di progettazione dei chip, dall'interpretazione dei requisiti di progettazione e dalla generazione del codice hardware RTL all'ottimizzazione delle prestazioni del chip e alla regolazione del consumo energetico. L'intelligenza artificiale è stata profondamente integrata in ogni aspetto della progettazione dei chip.
I modelli di apprendimento automatico tradizionali possono risolvere solo problemi locali nella progettazione di chip, mentre la maturità dei modelli linguistici su larga scala e della tecnologia degli agenti ha permesso di realizzare capacità di progettazione di chip di portata generale. Questa è anche la capacità fondamentale che consente a NVIDIA di accelerare rapidamente lo sviluppo simultaneo di più chip e di ridurre continuamente i tempi di iterazione, creando un vantaggio in termini di ricerca e sviluppo difficile da replicare per gli altri produttori.
5.2 L'innovazione architetturale affronta le carenze nell'inferenza, LPU garantisce la potenza di calcolo di prossima generazione.Alla conferenza GTC di quest'anno, a soli quattro mesi dall'acquisizione di Grok, NVIDIA ha presentato ufficialmente il suo chip di inferenza LPU basato sulla tecnologia Grok. Jensen Huang ha persino suggerito che "tutti i data center dovrebbero riservare il 25% del loro spazio ai chip di inferenza basati su Grok". Questa mossa dimostra che NVIDIA ha colmato completamente la sua lacuna nel campo dell'inferenza a bassa latenza e si è assicurata un vantaggio competitivo fondamentale nell'architettura di calcolo di nuova generazione.
Il Dr. Xiao Zhibin, ex progettista del chip Hanguang 800 di Alibaba, ha analizzato i principali vantaggi architetturali di Grok LPU: i chip AI tradizionali adottano generalmente un'architettura DRAM, che si basa su memorie esterne di grande capacità per memorizzare i pesi del modello, con conseguente elevata latenza di accesso e necessità di aggiornamento dinamico; Grok LPU, invece, adotta un'architettura SRAM on-chip pura, eliminando la DRAM e memorizzando i pesi del modello e la cache KV nella SRAM on-chip, con una latenza di accesso di soli 1-2 nanosecondi. Ciò consente l'espansione del cluster tramite efficienti interconnessioni on-chip, adattandosi perfettamente ai requisiti di bassa latenza delle applicazioni Agent.
Dal punto di vista logico, l'inferenza di modelli di grandi dimensioni si compone di due fasi: Encoder e Decoder. L'Encoder è adatto all'elaborazione batch ad alta velocità su GPU, mentre il Decoder è un processo di generazione seriale di token. Ogni generazione di token richiede la lettura ripetuta dei pesi del modello, con la maggior parte del tempo impiegato nella comunicazione dei pesi piuttosto che nel calcolo. La Grok LPU posiziona tutti i pesi sul chip, eliminando completamente l'overhead di comunicazione. Negli scenari di generazione di token per singolo utente, la sua efficienza è oltre 30 volte superiore a quella delle GPU.
Molti esperti del settore ritengono che i futuri sistemi di calcolo per l'IA saranno inevitabilmente architetture ibride eterogenee: GPU per l'elaborazione batch degli encoder e LPU per la generazione a bassa latenza dei decoder, con diverse architetture di chip che si adattano a operatori e scenari differenti. Nvidia, attraverso l'acquisizione di Grok, si è assicurata un vantaggio fondamentale nelle architetture di inferenza di nuova generazione, consolidando ulteriormente la sua posizione di leader nel mercato della potenza di calcolo per ogni scenario.
5.3 L'evoluzione delle barriere dell'ecosistema CUDA: la difficoltà di replicare un ecosistema full-stackIl principale vantaggio competitivo di NVIDIA negli ultimi due decenni è stato il suo ecosistema software incentrato su CUDA. Con il rapido sviluppo dei Coding Agent, il settore ha assistito a un cambiamento di prospettiva, con la convinzione che "le barriere all'ingresso per CUDA si stiano indebolendo". Questo report rileva che, sebbene i Coding Agent abbiano effettivamente abbassato la soglia di accesso per l'ottimizzazione del kernel CUDA sottostante, il vantaggio competitivo di NVIDIA si è evoluto da un singolo livello software CUDA a un ecosistema di infrastrutture AI completo, un vantaggio che rimane difficile da replicare.
Da un punto di vista tecnico, il codice CUDA generato dall'IA può già raggiungere oltre il 90% delle prestazioni richieste per l'ottimizzazione manuale, e la soglia per l'ottimizzazione a livello di kernel si sta effettivamente abbassando. Tuttavia, il vantaggio principale di NVIDIA risiede nella sua esperienza nella progettazione hardware, nei dati di debug a livello di sistema e nelle capacità di ottimizzazione end-to-end. Questi dati e questa esperienza fondamentali non possono essere ottenuti dal Coding Agent, né possono essere replicati da altri produttori.
Dal punto di vista dell'ecosistema, il vantaggio di CUDA risiede non solo nella tecnologia in sé, ma anche nella più grande community di sviluppatori GPU al mondo che ha saputo creare. Attraverso il suo Inception Program, NVIDIA ha supportato oltre 20.000 startup dal 2017, dando vita a una solida community di sviluppatori e a una notevole influenza sull'ecosistema. Anche se altri produttori replicassero le funzionalità di CUDA, farebbero fatica a costruire un ecosistema di sviluppatori così vasto nel breve termine.
Ancora più importante, in occasione di questa conferenza GTC, la struttura dell'ecosistema di NVIDIA si è estesa dagli strumenti di sviluppo di base al livello applicativo Agent, lanciando l'ecosistema software Nemo Cloud, raggiungendo la piena integrazione con Open Cloud, concentrandosi sul punto di ingresso principale per la distribuzione di Agent a livello aziendale, ambisce a definire le regole del settore nell'era degli Agent e completando un ciclo chiuso dell'ecosistema full-stack, dagli strumenti di base alle applicazioni di livello superiore. Questo vantaggio dell'ecosistema va ben oltre ciò che si può ottenere con una semplice copia di CUDA.
5.4 Vantaggi principali del controllo della catena di approvvigionamentoUn altro vantaggio fondamentale di Nvidia è il suo controllo assoluto sulla catena di fornitura dei semiconduttori. Grazie alla più grande capacità di approvvigionamento di chip per l'intelligenza artificiale al mondo e a oltre 20 anni di stretta collaborazione con TSMC, Nvidia si è assicurata la maggior parte del processo a 3 nm e della capacità di packaging avanzato CoWoS di TSMC, una barriera che concorrenti come AMD e Google troveranno difficile da superare nel breve termine.
Anche se aziende come AMD e Google si aggiudicassero ordini dai clienti, faticherebbero a competere con Nvidia in termini di processi produttivi avanzati e capacità di confezionamento. Nel frattempo, Nvidia sta portando avanti un modello multi-fonderia, utilizzando principalmente TSMC, affiancata da Samsung e Intel, per espandere ulteriormente la propria catena di fornitura e migliorarne la stabilità. Questo controllo consolidato nel tempo sulla catena di fornitura è un supporto cruciale per Nvidia nel raggiungimento del suo obiettivo di ordini per mille miliardi di dollari e un vantaggio fondamentale che gli altri concorrenti faticano a replicare.
VI. Analisi del panorama competitivo del settore e delle opportunità di mercato6.1 Il mercato globale della potenza di calcolo si configurerà come un panorama diversificato ed eterogeneo, in cui la posizione di leadership di Nvidia rimarrà solida.Questo rapporto sostiene che il futuro mercato della potenza di calcolo per l'intelligenza artificiale non sarà caratterizzato da un monopolio assoluto dominato da Nvidia, bensì da un panorama diversificato ed eterogeneo, contraddistinto dalla leadership di Nvidia e dalla concorrenza di molteplici fornitori in scenari differenziati.
Dal punto di vista di un concorrente, la TPU di Google, supportata dalla sua ottimizzazione full-stack proprietaria, ha un costo di addestramento pari a solo 1/3 di ChatGPT e prestazioni eccellenti. Tuttavia, questo vantaggio è limitato all'ecosistema di Google e le aziende di terze parti faticano a ottenere gli stessi risultati di ottimizzazione. I chip della serie MI di AMD stanno gradualmente conquistando il mercato della potenza di calcolo di fascia medio-bassa e hanno già ottenuto una certa quota di mercato negli scenari di inferenza. I principali fornitori di servizi cloud e i grandi fornitori di modelli come OpenAI, Meta e Amazon stanno tutti promuovendo lo sviluppo dei propri chip e personalizzandoli per i propri scenari, il che avrà un certo impatto sulla quota di mercato di Nvidia.
Tuttavia, nel breve termine, la posizione di leadership di Nvidia rimane inattaccabile. Il suo vantaggio principale risiede nella capacità, in qualità di fornitore di servizi di terze parti, di offrire un'ottimizzazione completa a livello di sistema per clienti con esigenze diverse in vari settori: una capacità che altri fornitori, focalizzati sui propri ecosistemi, faticano a eguagliare. Inoltre, il suo ecosistema completo, l'efficienza in ricerca e sviluppo e il controllo della catena di fornitura rimangono leader del settore.
6.2 La finestra di opportunità per le startup nel settore dei chip di inferenza per uso generale è sostanzialmente chiusa, ma esistono ancora opportunità in settori di nicchia.Grazie alla forte presenza di Nvidia nel campo dell'inferenza, il settore sta seguendo con attenzione la possibilità che le startup di chip per l'intelligenza artificiale abbiano ancora di crescere.
Molti esperti del settore ritengono che le opportunità imprenditoriali nel settore dei chip per inferenza generica si siano in gran parte esaurite, ma che vi sia ancora un notevole margine di innovazione e cooperazione nei sottosettori non prioritari di NVIDIA e nelle aree in cui l'azienda presenta delle lacune.
Nel mercato dei chip per inferenza generica, NVIDIA ha raggiunto l'ottimizzazione completa dell'infrastruttura AI e vanta solide capacità di innovazione interne. Nei suoi settori chiave, le startup faticano a competere con essa sia in termini di investimenti di risorse che di efficienza iterativa. Allo stesso tempo, la forte dipendenza degli sviluppatori dall'ecosistema CUDA rende difficile per i chip generici delle startup ottenere un'accettazione sul mercato.
La principale opportunità di sviluppo per le startup risiede nell'evitare i settori di attività principali di Nvidia e nel concentrarsi su aree in cui Nvidia ha attualmente priorità non strategiche e debolezze tecnologiche, diventando complementi dell'ecosistema Nvidia anziché sostituti. Queste opportunità principali si concentrano principalmente in tre direzioni:
Il percorso dell'interconnessione della potenza di calcolo: il principale collo di bottiglia dei futuri cluster di potenza di calcolo per l'IA si è spostato dalla potenza di calcolo del singolo chip all'interconnessione e alla trasmissione dei dati tra i chip. L'interconnessione ad alta velocità di nuova generazione, gli switch ottici e i chip di interconnessione ottica non sono attualmente aree prioritarie per NVIDIA, ma possono creare una buona sinergia strategica con le attività principali di NVIDIA.
Percorso di ottimizzazione eterogenea a livello di sistema: il data center AI del futuro sarà un sistema eterogeneo che integrerà diverse architetture come GPU, LPU, CPU e switch ottici. Ciò comporta numerose esigenze di integrazione, simulazione e ottimizzazione, e i produttori di chip come NVIDIA e AMD non possono coprire l'intera catena di servizi di ottimizzazione neutrali. Questa è la principale opportunità per le startup.
Percorsi di sviluppo di chip personalizzati per settori verticali: in scenari verticali come la robotica, la guida autonoma e l'intelligenza artificiale industriale, è necessaria un'ottimizzazione personalizzata dell'architettura dei chip per ciascuno scenario. Questi sottosettori non sono il core business di NVIDIA, ma le startup possono acquisire un vantaggio competitivo differenziato sfruttando la loro profonda conoscenza di questi scenari.
6.3 La ristrutturazione dei modelli di business nell'era degli agenti e l'impatto dell'AaaS sul SaaSIn occasione di questa conferenza GTC, Jensen Huang ha proposto il nuovo modello di business AaaS (Agent as a Service), che sfida direttamente il modello SaaS che ha dominato il mercato del software aziendale per oltre 20 anni, segnando un cambiamento fondamentale nel modello di business dei servizi aziendali nell'era dell'IA.
Il fulcro del modello SaaS tradizionale è la fornitura di servizi software standardizzati alle aziende. Indipendentemente dal settore o dalle dimensioni, le aziende utilizzano gli stessi prodotti standardizzati. Tuttavia, la maturità della tecnologia Agent rende possibili servizi aziendali altamente personalizzati. In futuro, l'investimento principale delle aziende si sposterà dal "budget per l'acquisto di software IT" al "budget per l'acquisizione di forza lavoro basata sull'IA". Le aziende SaaS tradizionali vendono software standardizzato, mentre i futuri fornitori di servizi Agent offriranno una forza lavoro basata sull'IA personalizzabile e iterativa in grado di coprire molteplici esigenze funzionali come risorse umane, finanza, legale e operazioni. Le sue dimensioni di mercato sono di gran lunga superiori a quelle del SaaS tradizionale.
Questa trasformazione porterà a una polarizzazione del settore: i fornitori tradizionali di SaaS che non dispongono di capacità di modellazione AI e non riescono a integrare l'esperienza di settore con la tecnologia degli agenti rischieranno di essere sostituiti; mentre i fornitori che riusciranno a completare rapidamente la trasformazione basata sull'IA e a combinare una profonda conoscenza del settore con la tecnologia degli agenti e l'ottimizzazione della potenza di calcolo conquisteranno una maggiore quota di mercato.
6.4 L'edge computing e le implementazioni private sono diventati nuovi ambiti competitivi.Attualmente, i punti di forza principali di Nvidia sono concentrati soprattutto nel mercato della potenza di calcolo per data center cloud, mentre l'intelligenza artificiale edge e le implementazioni private stanno diventando nuove direzioni di crescita e aree competitive nel settore, nonché potenziali sfide per Nvidia.
Le applicazioni di intelligenza artificiale a livello aziendale nei settori tradizionali, vincolate da normative e privacy dei dati, tendono a privilegiare implementazioni private e l'edge computing. Qualcomm, AMD, Broadcom e altri produttori stanno investendo nel mercato dell'IA edge, lanciando NPU e chip per l'IA ottimizzati per l'edge computing. Attualmente, nessun singolo attore ha consolidato una posizione dominante in questo mercato, ma una volta che entrerà in una fase di rapida crescita, emergerà un nuovo scenario competitivo.
Alla conferenza GTC di quest'anno, NVIDIA ha anche lanciato rapidamente i suoi prodotti GGX Small Box e le workstation AI per implementazioni edge e private, accelerando la sua espansione in questo settore. È prevedibile che nei prossimi 3-5 anni, l'intelligenza artificiale edge e le implementazioni private diventeranno le principali aree competitive nel mercato della potenza di calcolo per l'IA e i fattori chiave che influenzeranno il panorama del settore.
VII. Avvertenza sui rischiRischio che l'implementazione delle applicazioni di IA non raggiunga le aspettative: il supporto fondamentale per l'obiettivo di ordini da mille miliardi di dollari di NVIDIA è l'implementazione su larga scala di applicazioni Agent e di IA. Se la penetrazione nel settore delle applicazioni di IA dovesse essere più lenta del previsto, ciò comporterebbe un rallentamento della crescita della domanda di potenza di calcolo, compromettendo il rispetto delle tempistiche per il raggiungimento degli obiettivi di ordini.
Rischio che l'espansione della capacità della catena di fornitura non raggiunga le aspettative: l'espansione della capacità di processo e confezionamento avanzato, della capacità di memoria HBM e dell'infrastruttura dei data center di TSMC è soggetta a cicli rigidi e incertezze. Se l'espansione della capacità della catena di fornitura dovesse essere più lenta del previsto, ciò limiterebbe direttamente le spedizioni di chip di Nvidia e l'evasione degli ordini.
Rischio di intensificazione della concorrenza nel settore: Google, AMD, i principali fornitori di servizi cloud e i grandi produttori di modelli stanno tutti sviluppando i propri chip per l'intelligenza artificiale. Se i prodotti dei concorrenti raggiungeranno traguardi tecnologici rivoluzionari, la quota di mercato di Nvidia si ridurrà, portando a un deterioramento del panorama competitivo del settore.
Rischio di un'iterazione tecnologica più lenta del previsto: se si verificasse un cambiamento dirompente nell'architettura dei modelli principali o una modifica sostanziale nella roadmap tecnologica dei chip per l'IA, i vantaggi tecnologici e di prodotto esistenti di NVIDIA si indebolirebbero e la sua competitività di base ne risentirebbe.
Rischi in materia di politica normativa globale: il continuo inasprimento dei controlli sulle esportazioni e delle normative antitrust sui chip per l'intelligenza artificiale e sull'industria dei semiconduttori da parte delle principali economie globali potrebbe avere un impatto negativo sulle vendite globali e sulla ricerca e sviluppo tecnologico di Nvidia;
Rischio di volatilità macroeconomica: la volatilità macroeconomica globale comporterà una contrazione delle spese in conto capitale da parte delle imprese e dei fornitori di servizi cloud, una diminuzione della domanda di potenza di calcolo per l'intelligenza artificiale e un impatto negativo sul volume degli ordini di Nvidia.
VIII. Prospettive del settore e valutazione delle tendenze future8.1 Tendenza a breve termine (1-2 anni)La scarsità di potenza di calcolo persisterà: è improbabile che i colli di bottiglia nella catena di approvvigionamento dei semiconduttori e nelle infrastrutture dei data center si attenuino a breve termine, e la scarsità di potenza di calcolo per l'intelligenza artificiale continuerà fino al 2026, con prezzi dei chip e della potenza di calcolo che rimarranno elevati.
La quota di domanda di inferenza continua ad aumentare: i costi di inferenza saliranno rapidamente a oltre il 70% del costo totale della potenza di calcolo per l'IA, e i chip di inferenza a bassa latenza e le soluzioni di ottimizzazione dell'inferenza diventeranno il fulcro della ricerca e sviluppo e degli investimenti del settore;
Il modello multi-fonderia di Nvidia è stato ufficialmente definito: Nvidia passerà gradualmente da un modello di fornitura esclusiva per TSMC a un modello multi-fonderia con TSMC come fornitore principale e Samsung e Intel come fornitori secondari, al fine di alleviare i colli di bottiglia della capacità produttiva e garantire la consegna degli ordini.
Le applicazioni Agent stanno entrando in una fase di implementazione su larga scala: i prodotti Agent C-end raggiungeranno una vasta copertura di utenti e l'implementazione di Agent a livello aziendale si svilupperà rapidamente, diventando la principale forza trainante per la crescita della domanda di token.
8.2 Tendenze a medio-lungo termine (3-5 anni)La potenza di calcolo eterogenea sta diventando la norma nel settore: i futuri sistemi di calcolo per l'IA formeranno un'architettura ibrida eterogenea composta da "GPU + LPU + CPU + interconnessione ottica". Diverse architetture di chip vengono adattate a diversi scenari applicativi, e si sta ufficialmente consolidando un modello di potenza di calcolo diversificato.
L'ecosistema di Nvidia continua ad espandersi e la sua posizione di leadership rimane solida: Nvidia continuerà a rafforzare la sua posizione di operatore di infrastrutture per l'intelligenza artificiale e il suo ecosistema completo continuerà ad espandersi. Anche se la sua quota di mercato dovesse diminuire, la sua posizione di leader nel settore rimarrà inalterata.
Il modello AaaS sta gradualmente sostituendo il tradizionale SaaS: AaaS (Agent as a Service) diventerà il modello di business principale per i servizi aziendali e il mercato dei servizi aziendali subirà una completa ristrutturazione. I fornitori con esperienza nel settore e capacità di ottimizzazione della potenza di calcolo diventeranno i protagonisti del mercato.
L'Edge AI si sta affermando come un nuovo fattore di crescita: il mercato dell'Edge AI e delle implementazioni private entrerà in un periodo di crescita esplosiva, diventando una nuova direzione di sviluppo per il settore della potenza di calcolo per l'IA e un elemento chiave per la competizione del settore;
Il panorama della catena di fornitura dei semiconduttori si sta ridefinendo: i produttori globali di semiconduttori continueranno ad espandere la propria capacità di produzione e confezionamento di semiconduttori avanzati, e si sta gradualmente delineando una catena di fornitura diversificata, riducendo la dipendenza da un singolo produttore o regione.