A ARM vai lançar um CPU AGI com processo de 3 nanômetros, analisando as mudanças nas demandas de hardware e nas paradigmas de investimento que surgem quando o software de IA muda a partir do caso do CPU AGI.

Um, o estado atual das aplicações de IA do CPU ARM

A ARM é usada na arquitetura de CPU para celulares, e a série M da Apple também se voltou para uma arquitetura semelhante à ARM, agora ocupando silenciosamente uma fatia considerável do mercado de servidores de IA. (Este artigo não discute as vantagens e desvantagens do conjunto de instruções reduzido; o desempenho no mercado de celulares e no uso do CPU desenvolvido pela Apple já foi provado.)

A ARM não substituiu completamente o x86 em todos os cenários de servidor, mas priorizou a ocupação do controle de cargas de trabalho de IA e nativas da nuvem. A penetração de servidores de IA (novos deployments de CPU) já alcançou 20–30% e continua a aumentar. A vantagem está em atender às exigências computacionais, controlar cenários, ser personalizável, economizar energia, entre outros.

Dois, transição da arquitetura de CPU AGI: do impulso de cálculo para o impulso de dados

2.1 Migração de métricas: mudança na definição de desempenho

  • Negócios tradicionais, padrão de medição da CPU:

  • GHz (frequência: número de ciclos de operação da CPU por segundo)

  • IPC (Instruções por Ciclo: número de instruções executadas por ciclo)

Desempenho da CPU da era da IA representada por AGI (a partir de agora, usaremos "era da IA" para expressar):

  • Largura de banda da memória (capacidade de transferência de dados por unidade de tempo)

  • Taxa de transferência de IO (Input/Output Throughput: velocidade de entrada/saída de dados)

  • Latência (tempo: tempo que os dados levam para chegar à unidade de cálculo)

2.2 Análise dos gargalos de crescimento do passado:

O crescimento da GPU é rápido demais, e o desenvolvimento da largura de banda de dados como memória não acompanha.

2.3 Mudança nos gargalos da arquitetura causada por software:

Tradicional: limitado pela capacidade de cálculo da CPU e GPU.

Era da IA: desempenho limitado pela largura de banda da memória/IO, etc.

2.4 Redefinindo a perspectiva da CPU:

Tradicional: CPU = núcleo de cálculo

Era da IA: tarefas de cálculo + agendamento de dados + controle de fluxo como núcleo.

Três, mudanças do lado da aplicação de IA: da demanda de poder de cálculo para a demanda de dados

3.1 Análise de gargalos na aplicação de IA:

Treinamento de LLM, o gargalo é a largura de banda de dados.

Tarefas de inferência e de busca, o gargalo está na capacidade de memória e IO.

Atender à infraestrutura: aceleração de inferência, busca em banco de dados vetoriais e outras demandas, as direções a serem resolvidas são: como otimizar melhor o agendamento? Como garantir que o espaço físico seja suficientemente próximo? Como expandir a largura de banda? Como garantir que o espaço seja suficientemente grande? Todos são novos focos de investimento sob novas demandas.

Quatro, HBM (High Bandwidth Memory, memória de alta largura de banda): o "novo petróleo" da era da IA

  • DDR5, largura de banda: 50–100 GB/s

  • HBM, largura de banda: 800–1000+ GB/s

Nos servidores de IA, GPU + HBM representam 50–70% do total, onde HBM representa de 20% a 30% dos custos dessa parte.

Cinco, CXL (Compute Express Link): variável chave da eficiência de recursos

Tradicional: memória e CPU correspondem um a um, com baixa utilização.

CXL: direção de pool de memória compartilhada. O desenvolvimento requer um processo, como a arquitetura de memória unificada da Apple onde CPU e GPU são compartilhados, CPU ARM AGI com compartilhamento de algoritmos sem necessidade de transferir resultados de cálculo repetidamente, até clusters de múltiplos CPUs e GPUs compartilhando, e até múltiplos servidores compartilhando pools de memória. O desenvolvimento tecnológico não acontece da noite para o dia, e a superação de gargalos é resolvida da forma mais essencial e direta pela arquitetura física.

Perspectiva de investimento: controlador CXL (chip central), dispositivo de expansão de memória (hardware de expansão), camada de software do centro de dados (agendamento de recursos).

Seis, migração do paradigma de investimento: do poder de cálculo para o fluxo de dados

6.1 Camada de poder de cálculo + camada de agendamento

  • Cálculo dedicado da GPU

  • A CPU aumenta o agendamento de dados + controle de fluxo

A camada de poder de cálculo + a camada de agendamento precisam mudar para se adaptar ao desenvolvimento de novas demandas, impactando diretamente a participação de mercado futura.

6.2 Camada de dados

  • HBM (gargalo de largura de banda)

  • Armazenamento (gargalo de capacidade)

Maior determinação, a barreira técnica determina o poder de precificação, todos são empresas oligopolistas de mercado.

6.3 Camada de transmissão

NVLink (interconexão de chip de alta velocidade), CXL (rede de memória) e outras direções têm grande espaço de imaginação, mas se desenvolvem com a evolução da arquitetura de agendamento de hardware e software, com muitas alternativas.

Modos de fluxo de capital previsíveis: CPU → GPU → Memória → Interconexão

A direção deste artigo é aplicável ao mercado de ações dos EUA, aplicável a transações on-chain no processo de t-99, e também é aplicável à seleção de projetos de criptografia. Se houver dúvidas, fique à vontade para interagir!