Berichtsdatum: April 2026

Forschungsbereich: Kernveröffentlichungen der NVIDIA GTC-Konferenz 2026, Angebot und Nachfrage im AI-Computing-Sektor, Halbleiter-Lieferkette, Wettbewerb im AI-Chip-Sektor, Veränderungen in Geschäftsmodellen der AI-Industrie

Kernbehauptung: Dieser Bericht dient lediglich der Branchenforschung und -analyse und stellt keine Anlageberatung dar.

Zusammenfassung

Auf der NVIDIA GTC-Konferenz 2026 stellte der Unternehmensgründer Jensen Huang das Kernziel vor: Bis Ende 2027 wird das kumulierte Bestellvolumen der beiden Plattformen Blackwell und Vera Rubin 1 Billion US-Dollar überschreiten. Dieses Ziel erregte weltweit große Aufmerksamkeit in der Technologie- und Halbleiterindustrie. Dieser Bericht kombiniert die branchenspezifischen Erfahrungen von Investoren in der AI-Industrie, dem ehemaligen Leiter der Kernforschung und -entwicklung von NVIDIA, führenden Chiparchitekten und Betreibern von GPU-Cloud-Infrastrukturen, um die grundlegende Unterstützungslogik dieses Billionenziels, die wesentlichen Engpässe im Umsetzungsprozess, die Entwicklung der Kernschutzmauer des Unternehmens sowie die disruptiven Auswirkungen auf die globale AI-Computing-Industrie, die Halbleiter-Lieferkette und die Geschäftsmodelle der Unternehmensdienstleistungen zu analysieren.

Forschungen zeigen, dass die zentrale Unterstützung für NVIDIAs Billionen-Ziele aus der grundlegenden Umwandlung der Kostenstruktur für AI-Computing stammt, die von „Training-dominiert“ zu „Inference-dominiert“ übergegangen ist, und die Explosion der Agentenintelligenz hat zu einem erheblichen Anstieg des Tokenbedarfs geführt; während der zentrale engpass für die Umsetzung des Ziels von der Chipdesignfähigkeit zu den Produktionskapazitäten der gesamten Halbleiter-Lieferkette und der Infrastruktur für Rechenzentren gewechselt ist. Kurzfristig bleibt NVIDIAs Führungsposition im Bereich AI-Computing stabil, das gesamte Ökosystem und die Kontrolle der Lieferkette sind nach wie vor ihre zentralen Wettbewerbsvorteile; mittelfristig wird sich der globale Rechenmarkt schrittweise in eine vielfältige, heterogene Struktur entwickeln, wobei Edge-AI und die Bereitstellung von Unternehmensagenten zu neuen Wachstumsrichtungen und zentralen Wettbewerbsfeldern der Branche werden.

1. Kernschlussfolgerung

  1. Das Billionen-Ziel hat eine klare Nachfrageunterstützung, der Fortschritt der Umsetzung hängt von der Geschwindigkeit der Durchdringung der Agentenindustrie ab: NVIDIAs Billionen-Bestellungen sind nicht bloß eine Verkaufsprognose, sondern ein entscheidender Schritt in der strategischen Umwandlung von einem GPU-Anbieter zu einem Betreiber von AI-Infrastrukturen. Die Nachfrage nach Inferenz ist zum langfristigen Wachstumsmotor für AI-Computing geworden, und es wird erwartet, dass die Inferenzkosten in den nächsten 1-2 Jahren 70%-80% der Gesamtkosten für Rechenleistung ausmachen werden. Die großflächige Umsetzung von Agentenintelligenz wird die Nachfrage nach Tokens schnell steigern und eine zentrale Nachfragegarantie für das Billionen-Ziel bieten.

  2. Die Engpässe in der gesamten Lieferkette sind die Hauptbeschränkung für die Umsetzung des Billionen-Ziels: Die Kapazitätserweiterung der Halbleiterindustrie unterliegt starren Zyklen, und die Kapazität von TSMCs 3nm-Prozessen, fortschrittlichen CoWoS-Verpackungen, HBM-Hochbandbreiten-Speicher und die Stromverteilung sowie die Infrastruktur von Rechenzentren sind die vier Hauptengpässe, die die Realisierung von Rechenleistung einschränken. Der Mangel an unterstützenden Komponenten in der gesamten Lieferkette wird voraussichtlich bis Ende 2027 anhalten und die Abwicklungsrate und Zielverwirklichung von NVIDIAs Bestellungen direkt beeinträchtigen.

  3. Die zentrale Mauer von NVIDIA wurde aufgerüstet, ein einzelner technologischer Durchbruch kann seine Führungsposition nicht erschüttern: Die zentralen Wettbewerbsschranken des Unternehmens haben sich von einem einzigen CUDA-Software-Ökosystem in ein umfassendes „AI-gestütztes Chipdesign + vollständiges Software-Hardware-Ökosystem + absolute Kontrolle über die Lieferkette + Entwickler-Ökosystem“ weiterentwickelt. Obwohl Coding Agents die Schwelle für die Optimierung der CUDA-Basis senken, können sie die systematische Optimierungsfähigkeit und die Kohäsion des gesamten Ökosystems nicht replizieren.

  4. Der globale Rechenmarkt wird sich in eine vielfältige Heterogenität entwickeln, und die Möglichkeiten für Startups im Bereich allgemeiner Inferenzchips sind begrenzt: Zukünftige AI-Computing-Systeme werden eine heterogene Mischarchitektur aus „GPU + LPU + CPU + optischer Vernetzung“ bilden, während Google TPU, AMD MI-Serie und selbstentwickelte Chips der Cloud-Anbieter in spezifischen Szenarien einen gewissen Marktanteil erlangen werden, was die absolute Monopolstellung von NVIDIA etwas abschwächen wird. Doch die Geschäftsmöglichkeiten im Bereich allgemeiner Inferenzchips sind nahezu geschlossen, und die zentralen Entwicklungsmöglichkeiten von Startups liegen in der Ergänzung von NVIDIAs Ökosystem und der kooperativen Innovation in spezifischen Bereichen.

  5. AaaS wird das Geschäftsmodell von Unternehmensdienstleistungen umgestalten, traditionelle SaaS steht unter Transformationsdruck: Die Reifung der Agententechnologie wird die Unternehmensdienstleistungen von standardisierten SaaS-Modellen zu stark maßgeschneiderten Agent-as-a-Service (AaaS)-Modellen führen. Die zentralen Investitionen der Unternehmen werden sich von der Beschaffung von IT-Software auf die Beschaffung von AI-Arbeitskräften verlagern. Anbieter mit Branchenerfahrung und Optimierungsfähigkeiten im Bereich Rechenleistung werden neue Wachstumschancen erhalten, während traditionelle SaaS-Anbieter ohne AI-Modellfähigkeiten dem Risiko des Ersetztwerdens ausgesetzt sind.

2. Forschungsbackground

Die im März 2026 stattfindende GTC-Konferenz von NVIDIA ist ein wichtiger Indikator für die weltweite AI- und Halbleiterindustrie. Während der Konferenz stellte Jensen Huang das zentrale Ziel vor, das die Branche beeinflussen wird: Bis Ende 2027 wird die kumulierte Bestellgröße der beiden Plattformen Blackwell und Vera Rubin nicht weniger als 1 Billion US-Dollar betragen.

Der Einfluss dieses Ziels auf die Branche ist nicht zu unterschätzen: Der weltweite Umsatz der Halbleiterindustrie wird im Jahr 2024 nur über 600 Milliarden US-Dollar liegen, NVIDIA plant, innerhalb von 3 Jahren mit einem einzigen Unternehmen und zwei großen Produktplattformen den jährlichen Industrieverlauf der globalen Halbleiterindustrie zu übertreffen. Dieses Ziel spiegelt die aktuellen Kernkonflikte in der AI-Industrie wider: Die Nachfrage zeigt ein explosionsartiges Wachstum im Bereich der Billionen US-Dollar an Rechenleistung, während die Angebotsseite von fortschrittlicher Waferkapazität, Verpackungstechnologie, Speicherchips bis hin zur Stromverteilung mit starren Engpässen konfrontiert ist.

Gleichzeitig hat NVIDIA auf dieser GTC-Konferenz die größte gleichzeitige Produktveröffentlichung in der Geschichte abgeschlossen: Die Vera Rubin-Plattform führte gleichzeitig 7 neu produzierte Chips ein, die Inferenz-Effizienz wurde im Vergleich zur Blackwell-Plattform um das 10-Fache erhöht, und die Kosten pro Token sind auf 1/10 des ursprünglichen Wertes gesunken; nur 4 Monate nach dem Abschluss der Übernahme von Grok wurde offiziell der LPU-Inferenzchip veröffentlicht, um die Low-Latency-Inferenz-Richtung umfassend zu gestalten; gleichzeitig wurde das Nemo Cloud-Software-Ökosystem eingeführt, das sich auf den Kernzugang zur Unternehmens-Agentenbereitstellung konzentriert und die vollständige Integration von Hardware zu Software, von Training zu Inferenz und von Chips zu Datenzentrum-Infrastruktur realisiert hat.

Dieser Bericht untersucht die Machbarkeit von NVIDIAs Billionenzielen, die Auswirkungen auf die Industrie und den Wandel in der Branche und bietet umfassende, objektive Branchenreferenzen für Branchenbeteiligte und Investoren.

3. Die grundlegende logische Unterstützung für NVIDIAs Billionen-Ziel

3.1 Grundlegende Umstrukturierung der strategischen Ausrichtung: Von GPU-Anbietern zu Betreibern von AI-Infrastrukturen

Das Billionen-Ziel, das von Jensen Huang vorgeschlagen wurde, ist nicht einfach eine Erweiterung des Verkaufsvolumens von Chips; der Kern liegt in der umfassenden Anpassung von NVIDIA an die eigene Geschäftsausrichtung - vom weltweit größten GPU-Chip-Designunternehmen zum Betreiber der Infrastruktur des AI-Zeitalters, um eine AI-Computing-Fabrik zu schaffen, die die gesamte Branche abdeckt.

Zhang Lu, Gründer und geschäftsführender Partner von Fusion Fund, erklärt, dass NVIDIAs zentrale Geschäftsausgabe nicht mehr die GPU-Hardware ist, sondern die zentrale Produktionskraft des AI-Zeitalters - Token. Diese Neuausrichtung hat den Wachstumsspielraum von NVIDIA über die traditionellen Märkte für Halbleiterchips hinaus erweitert und präzise die langfristigen Wachstumsgelegenheit der digitalen Wirtschaft im Rahmen der AI-Transformation angesprochen.

Aus der Sicht des Geschäftsmodells hat NVIDIA das Upgrade von „Verkauf von Hardwareprodukten“ zu „Bereitstellung einer umfassenden Lösung für die AI-Infrastruktur“ erreicht. Auf dieser GTC-Konferenz hat NVIDIA nicht nur Chips veröffentlicht, sondern auch modulare Lösungen für AI-Datenzentren eingeführt, die den Aufbau von Rechenzentren von 18-20 Monaten auf 6-9 Monate verkürzen. Dies bietet den Kunden im Wesentlichen eine „benutzerfreundliche“ AI-Computing-Fabrik und stellt ein Upgrade des Geschäftsmodells von einem einzelnen Chipverkauf auf eine umfassende Infrastruktur-Servicebereitstellung über den gesamten Lebenszyklus dar, was die logische Unterstützung für das Billionen-Ziel stärkt.

3.2 Umkehrung der Kostenstruktur für Rechenleistung: Inferenznachfrage wird zum langfristigen Wachstumsmotor

Die logische Unterstützung, die das Billionen-Ziel trägt, basiert auf der grundlegenden Umwandlung der Kostenstruktur für AI-Computing: Die Kosten für Rechenleistung in der Branche haben sich schnell von einem „training-led“ Ansatz zu einem „inference-led“ Ansatz gewandelt; die Inferenznachfrage wird zur langfristigen, stabilen und skalierbaren Cashflow-Quelle für AI-Computing.

In der frühen Phase der AI-Entwicklung konzentrierten sich die Kosten für Rechenleistung in der Branche hauptsächlich auf den Pre-Training-Abschnitt großer Modelle. Im Jahr 2023 flossen 70%-80% der Kosten für Chips in der Branche in das Modelltraining, während das Training eine einmalige Investition in Sachanlagen darstellt, die Nachfrage konzentriert sich auf einige große Modellanbieter, der Spielraum für Wachstum ist relativ begrenzt.

Mit der Reifung der Technologie großer Modelle nimmt der Anteil der Kosten für Inferenz schnell zu: Derzeit sind die Trainings- und Inferenzkosten der führenden Anbieter großer Modelle nahezu gleich; es wird erwartet, dass die Inferenzkosten von 2025-2026 70%-80% der Gesamtkosten für AI-Computing ausmachen werden, wodurch sie zu den wichtigsten Kostenausgaben der Branche werden.

Die von Huang auf der Konferenz veröffentlichten Daten bestätigen diesen Trend: In den letzten zwei Jahren ist das Volumen der Inferenzberechnungen um das 10.000-fache gewachsen, die Nutzung von Tokens um das 100-fache, die gesamte Rechenanforderung ist um das 1.000.000-fache gestiegen, und dieser Wachstumstrend hält weiterhin an. Im Gegensatz zu den einmaligen Investitionen in das Training sind die Anforderungen für Inferenz nachhaltig, hochfrequent und wachsen kontinuierlich mit der Verbreitung von AI-Anwendungen, was eine langfristige und stabile Unterstützung für das Billionen-Ziel von NVIDIA bietet.

3.3 Explosion der Agentenintelligenz, die zu exponentiellem Wachstum des Tokenbedarfs führt

Der Anstieg der Inferenznachfrage ist hauptsächlich auf die großflächige Umsetzung von Agentenintelligenz zurückzuführen. Im Gegensatz zu den traditionellen einmaligen großen Modellaufrufen müssen Agentenintelligenzen ständig online sein, in Echtzeit reagieren und Mehrfachinteraktionen durchführen, was hohe Anforderungen an geringe Latenz, lange Kontextverarbeitung und hohe parallele Token-Generierungsfähigkeiten stellt und die Verbrauchsmenge an Tokens erheblich steigert.

Auf der diesjährigen GTC-Konferenz war „Open Cloud“ eines der am häufigsten genannten Schlüsselwörter von Huang, dessen Kernziel es ist, die großflächige Bereitstellung von Agentenintelligenz anzupassen. Mehrere Branchenexperten sind der Meinung, dass Agenten nach PC und Mobile Internet das nächste Kernmedium für Unternehmensdienstleistungen und das Konsum-Internet werden, deren Bedarf an Rechenleistung den traditionellen Internetanwendungen weit übertreffen wird.

Was den Fortschritt der Umsetzung betrifft, so hat die Anwendungsdurchdringung von Agenten im chinesischen Markt die der USA bereits überholt. Produkte wie Doubao von ByteDance haben bereits eine großflächige Verbreitung bei Endbenutzern erreicht; der US-Markt konzentriert sich derzeit noch auf die Unternehmens-AI-Codierung und die Entwicklung multimodaler Modelle, jedoch schreitet die Implementierung von Agenten auf Unternehmensebene schnell voran. Mit der kontinuierlichen Reifung der Agententechnologie wird der Verbrauch von Tokens zu einem der Hauptwachstumstreiber für das Billionen-Ziel von NVIDIA.

4. Die zentralen Engpässe und Einschränkungen in der Lieferkette für die Umsetzung des Billionen-Ziels

Die Umsetzung der Billionen-Bestellungen steht zunächst vor den physikalischen Regeln der Halbleiter- und Infrastrukturindustrie. Mehrere Branchenexperten sind sich einig, dass der zentrale Engpass, der die Erfüllung von NVIDIAs Billionen-Zielen einschränkt, nicht mehr die Chipdesignfähigkeiten sind, sondern die Produktionskapazität der gesamten Halbleiter-Lieferkette sowie die starren Beschränkungen der Infrastruktur für Rechenzentren.

4.1 Kernkapazitätsbeschränkungen in fortschrittlichen Prozessen und Verpackungen

In der Wafer-Herstellung ist der 3nm-Prozess von TSMC die Kernabhängigkeit von NVIDIA's Blackwell- und Vera Rubin-Plattformen, die Kapazität von TSMC bestimmt direkt die Obergrenze für den Versand von NVIDIA-Chips. Im Vergleich zur Kapazität von 3nm-Wafern ist der auffälligere Engpass die Kapazität fortschrittlicher CoWoS-Verpackungen.

Die fortschrittliche CoWoS-Verpackung ist der zentrale Prozess, der AI-Chips die Erreichung von hoher Bandbreite und hoher Leistung ermöglicht, und stellt auch das zentrale Schwachstelle der aktuellen AI-Computing-Industrie dar. Seit 2024 hat TSMC die CoWoS-Kapazität um das Dreifache erhöht und setzt die Erweiterung fort, kann jedoch immer noch nicht die explosionsartige Nachfrage der Branche decken.

Durch die mehr als 20-jährige tiefe Zusammenarbeit mit TSMC hat NVIDIA einen Großteil der CoWoS-Kapazität von TSMC gesichert, was sowohl einen Kernvorteil der Lieferkette als auch eine Hauptbeschränkung der Kapazitätserweiterung darstellt. Selbst wenn NVIDIA eine Billion Dollar an Bestellungen hat, gibt es einen starren Zyklus für die Kapazitätserweiterung von TSMC's fortschrittlicher Verpackung, die nicht kurzfristig schnell wachsen kann, was direkt die Versandgröße von NVIDIA-Chips begrenzt.

4.2 Engpass in der gesamten Lieferkette für Speicherchips

Die Leistungsentfaltung von AI-Chips hängt stark von der Unterstützung durch High Bandwidth Memory (HBM) ab, HBM ist zu einer unverzichtbaren Notwendigkeit der AI-Computing-Industrie geworden. Vor und nach dieser GTC-Konferenz haben Micron und Samsung die offizielle Massenproduktion von HBM4 angekündigt, während die drei führenden Anbieter Micron, Samsung und SK Hynix an maßgeschneiderten Lösungen für HBM4e arbeiten, um den Anforderungen der neuen Plattform von NVIDIA gerecht zu werden.

Die Kapazitätserweiterung von HBM steht jedoch vor strengen prozesstechnischen Einschränkungen, und die angespannte HBM-Kapazität hat bereits eine Kettenreaktion von Engpässen bei Speicherchips in der gesamten Branche ausgelöst: Die Kapazität von DDR-Speicher und SSD-Speicherchips wird von HBM beeinträchtigt, die Preise für Speicherchips in der gesamten Branche steigen kontinuierlich, und im vergangenen Jahr stiegen die Preise für verwandte Produkte um 100%-200%. Laut Informationen aus der ersten Reihe der Lieferkette wird der Engpass bei Speicherchips voraussichtlich bis Ende 2027 anhalten und zu einem der Kernengpässe für die Realisierung von Rechenleistung werden.

4.3 Starren Deckel bei der Infrastruktur von Rechenzentren und der Stromversorgung

Die Billionen-Bestellungen von NVIDIA müssen letztendlich in die tatsächlichen Rechenzentren umgesetzt werden. Derzeit ist der größte Engpass für die Umsetzung von Rechenleistung nicht mehr der Chip selbst, sondern die Infrastrukturkapazität der Rechenzentren, insbesondere die Stromversorgung.

Der Gründer von GMI Cloud, einem führenden Anbieter von GPU-Cloud-Diensten, Alex, erklärte, dass die Erreichung von 1 Billion US-Dollar Umsatz letztlich durch die Geschwindigkeit des Aufbaus von Rechenzentren eingeschränkt wird, wobei der Hauptengpass beim Aufbau von Rechenzentren die Stromversorgung ist. Derzeit steht kein industrieller Strom über 10 Megawatt im öffentlichen Stromnetz der USA zur Verfügung, 90% der neu gebauten Rechenzentren verwenden das Behind-the-Meter-Modell - sie umgehen das öffentliche Stromnetz und bauen vor Ort Gaskraftwerke auf, um die Stromversorgung sicherzustellen. Einige große Cloud-Anbieter haben sogar direkt Kernkraftwerke angemietet, um die Stromversorgung für ihre Rechenzentren bereitzustellen.

Die USA mangelt es nicht an Erzeugungskapazitäten, der zentrale Engpass liegt im Bereich der Stromverteilung. Der Bau von Umspannwerken im öffentlichen Stromnetz und die Hochspannungsstromverteilung unterliegen strengen regulatorischen Einschränkungen, die Genehmigungszeiträume sind lang und die Umsetzung erfolgt langsam, was nicht mit dem Tempo der Errichtung von AI-Datenzentren Schritt halten kann. Diese starre Einschränkung bestimmt direkt das Expansionslimit der globalen Recheninfrastruktur und beeinflusst indirekt den Fortschritt der Umsetzung von NVIDIAs Billionen-Bestellungen.

4.4 Risiko des Engpasses bei unterstützenden Komponenten der gesamten Lieferkette

Neben den Kernchips, Speicher und Strom steht die gesamte Lieferkette der AI-Computing-Infrastruktur vor dem Problem der angespannten Versorgung. Erste Betriebsergebnisse zeigen, dass der Engpass derzeit von den Kernchips auf die gesamte Lieferkette übergegangen ist: NVIDIA BlueField-bezogene CX7-Switches, Intel-Server-CPUs, Wassergekühlte CDU-Lösungen für Rechenzentren, Lichtmodule und andere Kernkomponenten sind alle im Engpass, die Lieferzeiten verlängern sich ständig.

Ein hochmoderner AI-Server besteht aus über 200.000 unabhängigen Komponenten, und jeder Engpass in einem dieser Bereiche wird die endgültige Lieferung des Servers und die Realisierung von Rechenleistung beeinträchtigen. Dies bedeutet, dass NVIDIAs Billionen-Ziel nicht nur auf eigenen Kräften beruhen kann, sondern die synchronisierte Expansion der gesamten Halbleiter-, Elektronikfertigungs- und Rechenzentrumsindustrie erfordert, wobei die Zusammenarbeit in der gesamten Lieferkette mit erheblichen Unsicherheiten verbunden ist.

5. NVIDIAs zentrale Mauer und Fähigkeit zur technologischen Iteration

Angesichts des Wettbewerbs in der gesamten Branche und der Einschränkungen der Lieferkette ist NVIDIA in der Lage, das Ziel von Billionen Aufträgen zu formulieren, wobei die Kernabhängigkeit auf den ständig verstärkten technologischen Barrieren und den Vorteilen des gesamten Ökosystems beruht. Auf dieser GTC-Konferenz hat NVIDIA seine Kernmauer vollständig aufgerüstet und einen multidimensionalen Wettbewerbsvorteil geschaffen.

5.1 Revolution im Chipdesign durch AI, erheblicher Anstieg der Iterationsgeschwindigkeit

Auf der diesjährigen GTC-Konferenz stellte die NVIDIA Vera Rubin-Plattform gleichzeitig 7 neu produzierte Chips vor, was die größte gleichzeitige Produktveröffentlichung in der Geschichte des Unternehmens war und den traditionellen Produktiterationsrhythmus der Halbleiterindustrie durchbrach.

Vor einigen Jahren war der übliche Rhythmus in der Halbleiterindustrie, alle zwei Jahre einen Flaggschiffchip zu iterieren; führende Hersteller konnten im Jahr 1-2 neue Chips auf den Markt bringen. NVIDIA kann mehrere Chips im Jahr simultan entwickeln und produzieren, was die Kernursache für die tiefgreifende Befähigung des Chipdesigns durch AI ist.

Dr. Mark Ren, ehemaliger Forschungsdirektor bei NVIDIA und Gründer und CEO von Agentris, enthüllte, dass NVIDIA intern Coding Agent umfassend eingeführt hat, was die Effizienz der Chipdesign-Ingenieure erheblich gesteigert hat. Bereits 2023 hat NVIDIA das Chip Nemo-Projekt veröffentlicht, basierend auf internen Daten von über 20 Milliarden Tokens zu chipdesignbezogenen Informationen, wurde ein spezielles großes Modell trainiert, das den gesamten Prozess des Chipdesigns abdeckt, vom Verständnis der Designanforderungen und der Generierung von RTL-Hardwarecode bis zur Leistungsoptimierung und Stromverbrauchseinstellungen. AI ist tief in jeden Schritt des Chipdesignprozesses integriert.

Traditionelle maschinelle Lernmodelle können nur lokale Probleme im Chipdesign lösen, während die Reifung großer Sprachmodelle und der Agententechnologie die tatsächliche Fähigkeit zum allgemeinen Chipdesign ermöglicht hat. Dies ist auch die Kernfähigkeit von NVIDIA, die es ihm ermöglicht, die synchronisierte Entwicklung mehrerer Chips schnell voranzutreiben und die Iterationszyklen kontinuierlich zu verkürzen, wodurch ein Entwicklungs Vorteil entsteht, den andere Anbieter schwer replizieren können.

5.2 Architektur-Innovation zur Behebung von Inferenz-Schwächen, LPU bestimmt die nächste Generation des Rechenleistungsschemas

Auf der diesjährigen GTC-Konferenz hat NVIDIA nur 4 Monate nach der Übernahme von Grok den LPU-Inferenzchip veröffentlicht, der auf der Grok-Technologie basiert. Jensen Huang empfahl zudem: „Zukünftig sollten alle Rechenzentren 25% des Raums für Inferenzchips wie Grok reservieren.“ Diese Maßnahme markiert, dass NVIDIA die Schwächen im Bereich der Inferenz mit geringer Latenz vollständig behoben hat und einen zentralen Vorteil in der Rechenarchitektur der nächsten Generation einnimmt.

Dr. Xiao Zhibin, ehemaliger Architekt des Ali Han Guang 800 Chips, analysierte die Kernarchitekturvorteile von Grok LPU: Traditionelle AI-Chips verwenden in der Regel DRAM-Architekturen und verlassen sich auf großen externen Speicher zur Speicherung von Modellgewichten, was nicht nur zu hohen Zugriffsverzögerungen führt, sondern auch dynamisches Refreshing erfordert; während Grok LPU eine reine Chip-on-SRAM-Architektur verwendet, die DRAM entfernt und die Modellgewichte sowie den KV-Cache vollständig im Chip-on-SRAM speichert, mit Zugriffsverzögerungen von nur 1-2 Nanosekunden und einer effizienten Chip-internen Vernetzung zur Clustererweiterung, die gut an die Anforderungen an geringe Latenz von Agentenanwendungen angepasst ist.

Aus der grundlegenden Logik der Inferenz großer Modelle besteht die Inferenz großer Modelle aus zwei Phasen: Encoder und Decoder. Der Encoder ist geeignet für die hohe Durchsatzverarbeitung von GPU in Batch, während der Decoder die token-by-token serielle Generierung ist. Bei der Generierung eines Tokens müssen die Modellgewichte wiederholt gelesen werden, wobei der Großteil der Zeit für die Kommunikation der Gewichte und nicht für die Berechnung aufgewendet wird. Grok LPU platziert alle Gewichte auf dem Chip und beseitigt die Kommunikationskosten vollständig, sodass die Effizienz in Szenarien mit einer einzelnen Benutzer-Token-Generierung über 30 Mal besser ist als bei GPUs.

Mehrere Branchenexperten sind der Meinung, dass zukünftige AI-Computing-Systeme eine heterogene Mischarchitektur sein werden - GPU für Batchverarbeitung und LPU für latenzreduzierte Generierung. Verschiedene Chiparchitekturen werden sich an verschiedene Operatoren und Szenarien anpassen. NVIDIA hat durch den Erwerb von Grok bereits die zentrale Vorteile der nächsten Generation von Inferenzarchitekturen besetzt und seine Führungsposition im Bereich Rechenleistung weiter gefestigt.

5.3 Evolution der CUDA-Ökosystembarrieren, das umfassende Ökosystem ist schwer zu replizieren

NVIDIAs zentrale Stärke seit zwei Jahrzehnten ist das Software-Ökosystem, das auf CUDA basiert. Mit der rasanten Entwicklung der Coding Agents ist die Meinung aufgekommen, dass die „CUDA-Barriere schwächer wird“. Diese Untersuchung hat ergeben, dass Coding Agents zwar die Schwelle für die Optimierung der CUDA-Basis senken, aber NVIDIAs Schutzmauer sich von einer einzigen CUDA-Softwareebene zu einem umfassenden Ökosystem für AI-Infrastruktur weiterentwickelt hat, was diese Vorteile weiterhin schwer replizierbar macht.

Aus technischer Sicht hat der von AI generierte CUDA-Code bereits ein Handoptimierungsniveau von über 90% erreicht, die Optimierungsbarrieren auf Kernel-Ebene sinken tatsächlich. Aber der zentrale Vorteil von NVIDIA liegt in seiner Erfahrung im Hardwaredesign, den systematischen Debugging-Daten und der Optimierungsfähigkeit über den gesamten Prozess hinweg. Diese Kern Daten und Erfahrungen können weder von Coding Agents erfasst noch von anderen Anbietern repliziert werden.

Aus der ökologischen Perspektive liegt der Vorteil von CUDA nicht nur in der Technologie selbst, sondern auch in der Bildung der weltweit größten GPU-Entwicklergemeinschaft. NVIDIA hat durch das Inception-Programm seit 2017 über 20.000 Startups gefördert und eine starke Kohäsion und Einfluss in der Entwicklergemeinschaft geschaffen. Andere Anbieter, selbst wenn sie die Funktionen von CUDA replizieren, werden in der kurzen Frist Schwierigkeiten haben, ein so großes Entwickler-Ökosystem aufzubauen.

Wichtiger ist, dass die ökologische Gestaltung von NVIDIA auf dieser GTC-Konferenz sich von der Bereitstellung von grundlegenden Entwicklungstools auf die Anwendungsebene von Agenten ausgeweitet hat, indem das Nemo Cloud-Software-Ökosystem eingeführt wurde, das eine vollständige Verbindung zu Open Cloud ermöglicht und sich auf den zentralen Zugang zur Unternehmensagentenbereitstellung konzentriert. Sie konkurrieren um das Recht, die Regeln der Branche im Zeitalter der Agenten festzulegen und haben den vollständigen ökologischen Zyklus von grundlegenden Werkzeugen bis hin zu Anwendungen auf höherer Ebene abgeschlossen. Dieser ökologische Vorteil lässt sich nicht einfach durch die Replikation von CUDA erschüttern.

5.4 Kernvorteil der Kontrolle über die Lieferkette

Ein weiterer Kernvorteil von NVIDIA ist seine absolute Kontrolle über die Halbleiter-Lieferkette. Mit dem weltweit größten Einkaufsvolumen für AI-Chips und über 20 Jahren tiefer Zusammenarbeit mit TSMC hat NVIDIA einen Großteil der Kapazität von TSMC's 3nm-Prozessen und CoWoS fortschrittlichen Verpackungen gesichert, was für AMD, Google und andere Wettbewerber kurzfristig nur schwer zu überwinden ist.

Selbst wenn AMD, Google und andere Anbieter Kundenbestellungen erhalten, ist es schwierig, in fortschrittlichen Prozessen und Verpackungskapazitäten mit NVIDIA zu konkurrieren. Gleichzeitig treibt NVIDIA das mehrstufige Fertigungsmodell „TSMC als Hauptanbieter, Samsung + Intel als Unterstützer“ voran, um die Kanäle für die Kapazitätserweiterung weiter zu öffnen und die Stabilität der Lieferkette zu erhöhen. Diese langfristige Kontrolle über die Lieferkette ist eine wichtige Unterstützung für NVIDIA, um das Billionen-Ziel zu erreichen und ist ein zentraler Vorteil, den andere Wettbewerber schwer replizieren können.

6. Wettbewerbssituation in der Branche und Marktchancen

6.1 Der globale Rechenmarkt wird ein vielfältiges heterogenes Muster bilden, die Führungsposition von NVIDIA bleibt stabil.

Dieser Bericht kommt zu dem Schluss, dass der zukünftige AI-Computing-Markt keine absolute Monopolstellung von NVIDIA bilden wird, sondern ein vielfältiges heterogenes Muster entsteht, in dem NVIDIA dominiert und viele Anbieter in differenzierten Szenarien konkurrieren.

Was die Wettbewerber betrifft, so liegt die Trainingskosten von Googles TPU aufgrund der Unterstützung durch die gesamte Stack-Optimierung nur bei 1/3 von ChatGPT, und die Leistung ist herausragend, jedoch ist dieser Vorteil auf Googles eigenes Ökosystem beschränkt, während Dritte Schwierigkeiten haben, denselben Optimierungsgrad zu erreichen; die MI-Serie von AMD dringt schrittweise in den Mittel- und Niedrigpreissektor für Rechenleistung ein und hat bereits einen gewissen Marktanteil im Inferenzbereich gewonnen; führende Cloud-Anbieter und große Modellanbieter wie OpenAI, Meta und Amazon arbeiten ebenfalls an selbstentwickelten Chips und nehmen maßgeschneiderte Optimierungen für ihre jeweiligen Szenarien vor, was einen gewissen Druck auf NVIDIAs Marktanteil ausüben wird.

Kurzfristig bleibt NVIDIAs Führungsposition jedoch schwer zu erschüttern. Ihr zentraler Vorteil liegt darin, als Drittanbieter in der Lage zu sein, umfassende systematische Optimierungen für Kunden aus unterschiedlichen Branchen und mit unterschiedlichen Anforderungen anzubieten. Diese Fähigkeit ist für andere Anbieter, die sich auf ihr eigenes Ökosystem konzentrieren, schwer zu übertreffen. Zudem bleiben ihre umfassenden Ökosysteme, Forschungseffizienz und Kontrolle der Lieferkette nach wie vor auf Branchenführungsniveau.

6.2 Das Fenster für Unternehmungen im Bereich allgemeiner Inferenzchips ist weitgehend geschlossen, Nischenbereiche bieten noch Chancen.

Mit NVIDIAs starkem Engagement im Inferenzbereich stellt sich die Branche allgemein die Frage: Haben AI-Chip-Startups noch Entwicklungschancen?

Mehrere Branchenexperten sind der Meinung, dass die Geschäftsmöglichkeiten im Bereich allgemeiner Inferenzchips weitgehend geschlossen sind, es jedoch in den nicht-kernpriorisierten Nischenbereichen und Schwächen von NVIDIA nach wie vor große Möglichkeiten für Innovation und Zusammenarbeit gibt.

Im Bereich allgemeiner Inferenzchips hat NVIDIA die vollständige Optimierung der AI-Infrastruktur erreicht, die interne Innovationsfähigkeit ist stark, sodass es in seinem Kernbereich für Startups schwierig ist, sich in Bezug auf Ressourceninvestitionen oder Iterationseffizienz zu behaupten. Gleichzeitig sorgt die Entwicklerbindung des CUDA-Ökosystems dafür, dass die allgemeinen Chips von Startups schwer auf dem Markt anerkannt werden.

Die zentrale Entwicklungschance für Startups liegt darin, den Kernbereich von NVIDIA zu vermeiden, sich auf aktuelle nicht-kernpriorisierte Bereiche und technische Schwächen zu konzentrieren und Ergänzung zu NVIDIA's Ökosystem zu sein, anstatt Ersatz zu sein. Die zentralen Chancen konzentrieren sich auf drei Richtungen:

  1. Rechenvernetzungsbereich: Der Kernengpass zukünftiger AI-Computing-Cluster hat sich von der Rechenleistung einzelner Chips hin zur Vernetzung und Datenübertragung zwischen Chips verschoben. Nächste Generation Hochgeschwindigkeitsverbindungen, optische Switches und optische Verbindungschips gehören zu den nicht-kernpriorisierten Bereichen von NVIDIA und können eine gute strategische Synergie mit dem Kerngeschäft von NVIDIA bilden.

  2. Systematische heterogene Optimierungsrichtung: Zukünftige AI-Datenzentren werden ein heterogenes System sein, das GPU, LPU, CPU, optische Switches usw. kombiniert. Es gibt eine große Nachfrage nach Integration, Simulation und Optimierung. Da NVIDIA, AMD und andere Chipanbieter die gesamte Kette nicht abdecken können, ist dies die zentrale Chance für Startups.

  3. Maßgeschneiderte Chips für vertikale Szenarien: In vertikalen Szenarien wie Robotik, autonomem Fahren und industrieller AI ist eine maßgeschneiderte Optimierung der Chiparchitektur für das jeweilige Szenario erforderlich. Diese Nischenmärkte sind nicht der zentrale Schwerpunkt von NVIDIA, und Startups können durch ein tiefes Verständnis der Szenarien einen differenzierten Wettbewerbsvorteil erlangen.

6.3 Umgestaltung des Geschäftsmodells im Zeitalter der Agenten, AaaS hat Auswirkungen auf SaaS

Auf der diesjährigen GTC-Konferenz stellte Jensen Huang ein neues Geschäftsmodell namens AaaS (Agent as a Service) vor, das die seit über 20 Jahren dominierende SaaS-Modell herausfordert und einen grundlegenden Wandel im Geschäftsmodell von Unternehmensdienstleistungen im AI-Zeitalter markiert.

Der Kern des traditionellen SaaS-Modells besteht darin, Unternehmen standardisierte Softwaredienste anzubieten, unabhängig von Branche oder Größe verwenden Unternehmen dieselben standardisierten Produkte. Die Reifung der Agententechnologie ermöglicht jedoch hochgradig maßgeschneiderte und personalisierte Unternehmensdienstleistungen. Zukünftig wird der Schwerpunkt der Unternehmensinvestitionen von „IT-Software-Beschaffung“ auf „AI-Arbeitskräfte-Beschaffung“ verlagert. Traditionelle SaaS-Unternehmen verkaufen standardisierte Software, während künftige Agentendienstleister anpassbare, iterative AI-Arbeitskräfte anbieten, die mehrere Funktionsbedürfnisse in den Bereichen HR, Finanzen, Recht, Betrieb usw. abdecken werden, deren Marktgröße weit über der von traditionellem SaaS liegt.

Diese Transformation wird zu einer Polarisierung der Branche führen: Traditionelle SaaS-Anbieter, die über keine AI-Modellfähigkeiten verfügen und nicht in der Lage sind, Branchenerfahrung mit Agententechnologie zu kombinieren, werden dem Risiko ausgesetzt sein, ersetzt zu werden; während Anbieter, die die AI-Transformation schnell umsetzen und das tiefgehende Verständnis der Branche mit Agententechnologie und Rechenoptimierung kombinieren, größeren Marktanteil gewinnen werden.

6.4 Edge-Computing und private Bereitstellungen werden zu neuen Wettbewerbsfeldern.

Derzeit konzentrieren sich die zentralen Vorteile von NVIDIA hauptsächlich auf den Markt für Rechenleistung in Cloud-Datenzentren, während die Bereiche Edge-AI und private Bereitstellungen zu neuen Wachstumsrichtungen und Wettbewerbsfeldern der Branche werden, die auch potenzielle Herausforderungen für NVIDIA darstellen.

Unternehmen der traditionellen Industrie neigen aufgrund von regulatorischen Anforderungen und Datenschutzbestimmungen eher zu privaten Bereitstellungen und Edge-Computing. Anbieter wie Qualcomm, AMD und Broadcom sind ebenfalls im Bereich Edge-AI tätig und bringen NPU und AI-Chips auf den Markt, die auf Edge-Optimierung abzielen. Dieser Markt hat derzeit noch keinen absoluten Monopolisten hervorgebracht, und sobald er in eine Phase des schnellen Wachstums eintritt, wird ein neues Wettbewerbsumfeld entstehen.

Auf der diesjährigen GTC-Konferenz hat NVIDIA auch schnell die GGX Mini-Box und AI-Workstation-Produkte für Edge-Computing und private Bereitstellungen vorgestellt, um die Position in diesem Bereich zu stärken. Es ist abzusehen, dass in den nächsten 3-5 Jahren Edge-AI und private Bereitstellungen zu den Kernwettbewerbsfeldern des AI-Computing-Marktes werden und auch einen entscheidenden Einfluss auf die Branchenstruktur haben werden.

7. Risikohinweis

  1. Risiko der unzureichenden Umsetzung von AI-Anwendungen: Der zentrale Unterstützungsmechanismus für NVIDIAs Billionen-Ziele ist die großflächige Umsetzung von Agenten und AI-Anwendungen. Sollte die Geschwindigkeit der industriellen Durchdringung von AI-Anwendungen langsamer als erwartet sein, könnte dies zu einer Verlangsamung des Wachstums der Rechenleistung und zu einer Beeinträchtigung der fristgerechten Erfüllung der Bestellziele führen.

  2. Risiko der unzureichenden Kapazitätserweiterung in der Lieferkette: Die Expansion der fortschrittlichen Prozesse und Verpackungskapazitäten von TSMC, die Kapazität für HBM-Speicher und die Infrastruktur der Rechenzentren unterliegt starren Zyklen und Unsicherheiten. Wenn die Geschwindigkeit der Kapazitätserweiterung in der Lieferkette langsamer als erwartet ist, wird dies die Lieferung von NVIDIAs Chips und Bestellungen direkt einschränken.

  3. Risiko der verstärkten Branchenkonkurrenz: Google, AMD, führende Cloud-Anbieter und große Modellanbieter entwickeln ihre eigenen AI-Chips weiter. Wenn die Produkte der Wettbewerber technologische Durchbrüche erzielen, könnte dies NVIDIAs Marktanteil verringern und zu einer Verschlechterung der Wettbewerbslandschaft führen.

  4. Risiko der technologischen Iteration, die hinter den Erwartungen bleibt: Sollten disruptive Veränderungen in der Architektur großer Modelle oder bedeutende Anpassungen der technologischen Routen für AI-Chips auftreten, wird NVIDIAs bestehende Technologie- und Produktvorteil geschwächt, was die Kernkompetenzen unter Druck setzen könnte.

  5. Risiko globaler Regulierungsrichtlinien: Die Exportkontrollen und Antitrust-Überwachungsrichtlinien der großen Volkswirtschaften weltweit für AI-Chips und die Halbleiterindustrie ziehen sich weiter zusammen und könnten sich negativ auf NVIDIAs weltweiten Verkauf und die technologische Entwicklung auswirken.

  6. Risiko makroökonomischer Schwankungen: Globale makroökonomische Schwankungen werden zu einer Verringerung der Kapitalausgaben von Unternehmen und Cloud-Anbietern führen, was die Nachfrage nach AI-Computing beeinträchtigt und sich negativ auf NVIDIAs Bestellvolumen auswirken wird.

8. Branchenperspektiven und zukünftige Trendanalysen

  1. Die angespannte Versorgungslage wird anhalten: Die Engpässe in der Produktionskapazität der Halbleiterversorgungskette und der Infrastruktur von Rechenzentren werden kurzfristig nicht gelöst, und die angespannte Versorgungslage für AI-Computing wird bis 2026 anhalten, die Preise für Chips und Rechenleistung werden hoch bleiben.

  2. Der Anteil der Inferenznachfrage wird weiterhin steigen: Die Inferenzkosten werden schnell auf über 70% der Gesamtkosten für AI-Computing steigen, geringlatente Inferenzchips und Inferenzoptimierungslösungen werden zum Schwerpunkt der Forschung und Investitionen in der Branche.

  3. NVIDIA hat offiziell ein mehrstufiges Fertigungsmodell implementiert: NVIDIA wird schrittweise von der ausschließlichen Fertigung durch TSMC zu einem mehrstufigen Modell von „TSMC als Hauptanbieter, Samsung + Intel als Unterstützer“ übergehen, um Engpässe bei der Kapazität zu lindern und die Auftragsabwicklung zu gewährleisten.

  4. Die Anwendung von Agenten tritt in die Phase der großflächigen Umsetzung ein: C-End-Agentenprodukte werden eine großflächige Benutzerabdeckung erreichen, die Unternehmensagentenbereitstellung wird schnell voranschreiten und zum Hauptantrieb für das Wachstum der Token-Nachfrage werden.

  1. Heterogene Rechenleistung wird zum Branchenstandard: Zukünftige AI-Computing-Systeme werden eine heterogene Mischarchitektur aus „GPU + LPU + CPU + optischer Vernetzung“ bilden, unterschiedliche Chiparchitekturen werden sich an verschiedene Anwendungsszenarien anpassen, und ein vielfältiges Rechenleistungsmuster wird offiziell entstehen.

  2. NVIDIAs Ökosystem expandiert weiterhin, die Führungsposition bleibt stabil: NVIDIA wird weiterhin seine Position als Betreiber von AI-Infrastrukturen stärken, das gesamte Ökosystem wird kontinuierlich erweitert, selbst wenn der Marktanteil zurückgeht, ist die Führungsposition in der Branche schwer zu erschüttern.

  3. AaaS-Modelle ersetzen schrittweise traditionelle SaaS: AaaS (Agent as a Service) wird zum vorherrschenden Geschäftsmodell für Unternehmensdienstleistungen, der Markt für Unternehmensdienstleistungen wird eine umfassende Umstrukturierung erfahren, und Anbieter mit Branchenerfahrung und Rechenoptimierungsfähigkeiten werden zu den zentralen Akteuren des Marktes.

  4. Edge-AI wird zum neuen Wachstumshighlight: Der Markt für Edge-AI und private Bereitstellungen wird in eine Phase des Ausbruchs eintreten, die zu einer neuen Wachstumsrichtung für die AI-Computing-Industrie wird und das zentrale Wettbewerbsfeld der Branche darstellt.

  5. Umstrukturierung der Halbleiter-Lieferkette: Globale Halbleiterhersteller werden weiterhin die Kapazitäten für fortschrittliche Prozesse und Verpackungen erhöhen, eine diversifizierte Struktur in der Lieferkette wird sich allmählich bilden und die Abhängigkeit von einzelnen Herstellern und Regionen wird abnehmen.