Da 'calcolare velocemente' a 'trasportare velocemente': come la trasformazione dell'architettura CPU AGI di ARM sta rimodellando il panorama degli investimenti nell'era AI

ARM sta per lanciare la CPU AGI con processo a 3 nanometri, analizzando come i cambiamenti nel software AI influenzino i cambiamenti nella domanda hardware e i paradigmi di investimento.
Uno, stato attuale delle applicazioni AI delle CPU ARM
ARM è utilizzato per l'architettura CPU dei telefoni, la serie M di Apple è passata anche all'architettura tipo ARM, ora occupa silenziosamente una quota di mercato non trascurabile nel mercato delle server AI. (Questo articolo non discute i vantaggi e svantaggi del set di istruzioni ridotto, le prestazioni sono già state dimostrate nel mercato dei telefoni e nell'uso delle CPU sviluppate internamente da Apple.)
ARM non ha completamente sostituito x86 in tutti gli scenari dei server, ma ha prioritariamente conquistato il livello di controllo per carichi di lavoro AI e cloud nativo. La penetrazione dei server AI (nuovi processori CPU in distribuzione) ha raggiunto il 20–30% e continua a crescere. I vantaggi risiedono nella soddisfazione dei requisiti di calcolo, nel controllo degli scenari, nella personalizzazione e nell'efficienza energetica.
Due, salto dell'architettura CPU AGI: da guida al calcolo a guida ai dati
2.1 Trasferimento di indicatori: cambiamento nella definizione delle prestazioni
Business tradizionale, standard di misurazione della CPU:
GHz (frequenza: numero di cicli di funzionamento della CPU al secondo)
IPC (Istruzioni per ciclo: numero di istruzioni eseguite per ciclo)
Le prestazioni della CPU dell'era AI rappresentata da AGI (di seguito espressa come “era AI”):
Larghezza di banda della memoria (capacità di trasferimento dati per unità di tempo)
Throughput IO (Input/Output Throughput: velocità di ingresso/uscita dei dati)
Latenza (ritardo: tempo impiegato dai dati per raggiungere l'unità di calcolo)
2.2 Analisi dei vincoli di crescita passati:
La crescita della GPU è stata troppo rapida, lo sviluppo della larghezza di banda dei dati come la memoria non riesce a tenere il passo.
2.3 Cambiamenti nei vincoli architettonici causati dal software:
Tradizionale: limitato dalla capacità di calcolo della CPU e della GPU.
Era AI: le prestazioni sono limitate dalla larghezza di banda della memoria/IO, ecc.
2.4 Riconfigurare la prospettiva della CPU:
Tradizionale: CPU = nucleo di calcolo
Era AI: compiti di calcolo + programmazione dei dati + controllo del flusso al centro.
Tre, cambiamenti nel lato delle applicazioni AI: da richiesta di calcolo a richiesta di dati
3.1 Analisi dei vincoli delle applicazioni AI:
Addestramento LLM, il vincolo è la larghezza di banda dei dati.
Compiti di inferenza e recupero, il vincolo è nella capacità di memoria e IO.
Soddisfare le infrastrutture: accelerazione dell'inferenza, recupero di database vettoriali e altre esigenze, la direzione di risoluzione è come ottimizzare meglio la programmazione? Come può lo spazio fisico essere sufficientemente vicino? Come espandere la larghezza di banda? Come può lo spazio essere sufficientemente grande? Tutti questi sono nuovi bisogni su cui gli investimenti dovrebbero concentrarsi.
Quattro, HBM (High Bandwidth Memory, memoria ad alta larghezza di banda): il “nuovo petrolio” dell'era AI
DDR5, larghezza di banda: 50-100 GB/s
HBM, larghezza di banda: 800-1000+ GB/s
Nelle server AI, GPU + HBM rappresentano il 50-70% del totale, di cui HBM costituisce il 20% al 30% di questa parte di spesa.
Cinque, CXL (Compute Express Link): variabile chiave per l'efficienza delle risorse
Tradizionale: la memoria e la CPU sono corrispondenti uno a uno, con bassa utilizzo.
CXL: direzione del pool di memoria condivisa. Lo sviluppo richiede un processo, come l'architettura di memoria unificata di Apple in cui CPU e GPU sono condivisi, l'algoritmo di condivisione della CPU ARM AGI non richiede di ripetere il trasferimento dei risultati di calcolo, fino a condividere cluster multi-CPU e GPU, poi a più server che condividono il pool di memoria. Lo sviluppo della tecnologia non avviene tutto in una volta, le rotture dei vincoli vengono risolte dall'architettura fisica in modo più essenziale e diretto.
Prospettiva d'investimento: controller CXL (chip centrale), dispositivi di espansione della memoria (hardware di espansione), livello software del centro dati (programmazione delle risorse).
Sei, migrazione del paradigma di investimento: da calcolo a flusso di dati
6.1 Livello di calcolo + livello di programmazione
Calcolo dedicato alla GPU
CPU che aumenta la programmazione dei dati + controllo del flusso
Il livello di calcolo + il livello di programmazione devono necessariamente cambiare per adattarsi allo sviluppo delle nuove esigenze, influenzando direttamente la quota di mercato futura.
6.2 Livello dati
HBM (vincolo di larghezza di banda)
Memoria (vincolo di capacità)
Determinismo massimo, la soglia tecnologica determina il potere di determinazione dei prezzi, tutti sono aziende oligopolistiche di mercato.
6.3 Livello di trasmissione
NVLink (collegamento chip ad alta velocità), CXL (networking della memoria) e così via, ci sono ampi spazi di immaginazione, ma si sviluppano seguendo l'architettura di programmazione hardware e software, con molte alternative.
Modalità di flusso di capitale prevedibili: CPU → GPU → Memoria → Interconnessione
La direzione di questo articolo è applicabile al mercato statunitense, applicabile a #RWA  transazioni on-chain nel processo, ed è anche applicabile alla selezione dei materiali per progetti crittografici. Per qualsiasi domanda, non esitate a interagire!