De 'calcular rápido' para 'mover rápido': como a revolução da arquitetura do CPU AGI da ARM está remodelando o mapa de investimentos da era da IA

A ARM vai lançar um CPU AGI com processo de 3 nanômetros, analisando as mudanças nas demandas de hardware e nas paradigmas de investimento que surgem quando o software de IA muda a partir do caso do CPU AGI.
Um, o estado atual das aplicações de IA do CPU ARM
A ARM é usada na arquitetura de CPU para celulares, e a série M da Apple também se voltou para uma arquitetura semelhante à ARM, agora ocupando silenciosamente uma fatia considerável do mercado de servidores de IA. (Este artigo não discute as vantagens e desvantagens do conjunto de instruções reduzido; o desempenho no mercado de celulares e no uso do CPU desenvolvido pela Apple já foi provado.)
A ARM não substituiu completamente o x86 em todos os cenários de servidor, mas priorizou a ocupação do controle de cargas de trabalho de IA e nativas da nuvem. A penetração de servidores de IA (novos deployments de CPU) já alcançou 20–30% e continua a aumentar. A vantagem está em atender às exigências computacionais, controlar cenários, ser personalizável, economizar energia, entre outros.
Dois, transição da arquitetura de CPU AGI: do impulso de cálculo para o impulso de dados
2.1 Migração de métricas: mudança na definição de desempenho
Negócios tradicionais, padrão de medição da CPU:
GHz (frequência: número de ciclos de operação da CPU por segundo)
IPC (Instruções por Ciclo: número de instruções executadas por ciclo)
Desempenho da CPU da era da IA representada por AGI (a partir de agora, usaremos "era da IA" para expressar):
Largura de banda da memória (capacidade de transferência de dados por unidade de tempo)
Taxa de transferência de IO (Input/Output Throughput: velocidade de entrada/saída de dados)
Latência (tempo: tempo que os dados levam para chegar à unidade de cálculo)
2.2 Análise dos gargalos de crescimento do passado:
O crescimento da GPU é rápido demais, e o desenvolvimento da largura de banda de dados como memória não acompanha.
2.3 Mudança nos gargalos da arquitetura causada por software:
Tradicional: limitado pela capacidade de cálculo da CPU e GPU.
Era da IA: desempenho limitado pela largura de banda da memória/IO, etc.
2.4 Redefinindo a perspectiva da CPU:
Tradicional: CPU = núcleo de cálculo
Era da IA: tarefas de cálculo + agendamento de dados + controle de fluxo como núcleo.
Três, mudanças do lado da aplicação de IA: da demanda de poder de cálculo para a demanda de dados
3.1 Análise de gargalos na aplicação de IA:
Treinamento de LLM, o gargalo é a largura de banda de dados.
Tarefas de inferência e de busca, o gargalo está na capacidade de memória e IO.
Atender à infraestrutura: aceleração de inferência, busca em banco de dados vetoriais e outras demandas, as direções a serem resolvidas são: como otimizar melhor o agendamento? Como garantir que o espaço físico seja suficientemente próximo? Como expandir a largura de banda? Como garantir que o espaço seja suficientemente grande? Todos são novos focos de investimento sob novas demandas.
Quatro, HBM (High Bandwidth Memory, memória de alta largura de banda): o "novo petróleo" da era da IA
DDR5, largura de banda: 50–100 GB/s
HBM, largura de banda: 800–1000+ GB/s
Nos servidores de IA, GPU + HBM representam 50–70% do total, onde HBM representa de 20% a 30% dos custos dessa parte.
Cinco, CXL (Compute Express Link): variável chave da eficiência de recursos
Tradicional: memória e CPU correspondem um a um, com baixa utilização.
CXL: direção de pool de memória compartilhada. O desenvolvimento requer um processo, como a arquitetura de memória unificada da Apple onde CPU e GPU são compartilhados, CPU ARM AGI com compartilhamento de algoritmos sem necessidade de transferir resultados de cálculo repetidamente, até clusters de múltiplos CPUs e GPUs compartilhando, e até múltiplos servidores compartilhando pools de memória. O desenvolvimento tecnológico não acontece da noite para o dia, e a superação de gargalos é resolvida da forma mais essencial e direta pela arquitetura física.
Perspectiva de investimento: controlador CXL (chip central), dispositivo de expansão de memória (hardware de expansão), camada de software do centro de dados (agendamento de recursos).
Seis, migração do paradigma de investimento: do poder de cálculo para o fluxo de dados
6.1 Camada de poder de cálculo + camada de agendamento
Cálculo dedicado da GPU
A CPU aumenta o agendamento de dados + controle de fluxo
A camada de poder de cálculo + a camada de agendamento precisam mudar para se adaptar ao desenvolvimento de novas demandas, impactando diretamente a participação de mercado futura.
6.2 Camada de dados
HBM (gargalo de largura de banda)
Armazenamento (gargalo de capacidade)
Maior determinação, a barreira técnica determina o poder de precificação, todos são empresas oligopolistas de mercado.
6.3 Camada de transmissão
NVLink (interconexão de chip de alta velocidade), CXL (rede de memória) e outras direções têm grande espaço de imaginação, mas se desenvolvem com a evolução da arquitetura de agendamento de hardware e software, com muitas alternativas.
Modos de fluxo de capital previsíveis: CPU → GPU → Memória → Interconexão
A direção deste artigo é aplicável ao mercado de ações dos EUA, aplicável a transações on-chain no processo de t-99, e também é aplicável à seleção de projetos de criptografia. Se houver dúvidas, fique à vontade para interagir!