Das neueste lange Dokument des Kernteams von Qwen geht viral: o1 und R1 sind nur der Anfang, das wahre Zeitalter der Agenten ist gekommen, und gewöhnliche Menschen können diesen Vorteil ergreifen!

Er hat die gesamte zugrunde liegende Logik von AI in den letzten zwei Jahren durchdrungen:

Wir bewegen uns von „Reasoning Thinking“ zu „Agentic Thinking“.

Einfach gesagt:

Früher war AI ein Streber, der da saß, intensiv nachdachte, lange Denkketten schrieb und dir schließlich eine Antwort gab.

Das heutige AI muss zu einem Agenten werden, der gleichzeitig denkt, handelt, Fehler macht und Pläne anpasst, und in Echtzeit mit der realen Welt interagiert.

Das ist kein Konzept mehr, sondern die obersten Leute der Branche geben persönlich zu, dass o1 und DeepSeek-R1 nur die erste Phase sind; die echte nächste Revolution ist das Agentic Thinking.

⚠️⚠️

Erste Phase: o1 und R1 lehren uns die brutale Wahrheit.

Im Jahr 2024-2025 denken alle intensiv nach.

OpenAI nennt o1 das Training, bei dem das Modell durch verstärkendes Lernen zuerst denkt und dann antwortet. DeepSeek-R1 beweist, dass dieser Ansatz auch in der Open-Source-Welt großartig funktioniert. Aber der Autor bringt es direkt auf den Punkt: Die wahre Herausforderung ist nicht, das Modell länger nachdenken zu lassen, sondern ihm zu ermöglichen, wertvolles Denken zu erzeugen.

Denkmodelle benötigen Determinismus, stabile und skalierbare Belohnungssignale, daher sind Mathematik, Code und Logik das Hauptschlachtfeld. Die Infrastruktur hat sich ebenfalls grundlegend verändert; RL ist nicht mehr eine Ergänzung zur SFT, sondern ein Systemengineering-Projekt, das massives Rollout, hohe Durchsatzvalidierung und stabile Strategieaktualisierungen erfordert.

Zusammenfassend lässt sich sagen, dass im Zeitalter des Denkens das Modell + Nachschulung zählt; im Zeitalter der Agenten zählt das Modell + Umwelt + Werkzeuge + geschlossene Schleifen.

⚠️⚠️

Zweite Phase: Warum war der gemischte Denkansatz nicht vollständig erfolgreich?

Im ersten Halbjahr 2025 wollten viele Teams (einschließlich Qwen) ein Modell haben, das alles kann: sofortige Antworten geben, tiefgründig nachdenken und automatisch das Denkbudget festlegen.

Qwen3 ist der typischste Versuch: gemischte Denkmodi, kontrolliertes Denkbudget, vier Phasen nach dem Training … klingt perfekt.

Aber die Realität schlägt hart zurück. Die Datenverteilung und Verhaltensziele der Denk- und der Befehlsmodi sind völlig entgegengesetzt:

• Der Befehlsmodus muss schnell, präzise, kurz und strukturiert sein (unternehmerische Batchverarbeitung ist am liebsten);

• Der Denkansatz muss lang, strukturiert und mehrere Pfade erkunden (für schwierige Probleme)

Das erzwungene Zusammenführen führt dazu, dass beide Seiten nicht funktionieren. Später hat Qwen Instruct und Thinking direkt in zwei Linien aufgeteilt; die Kunden waren sogar glücklicher. Auch wenn Anthropic's Claude 3.7/4 und GLM-4.5 am gemischten Ansatz festhalten, haben sie heimlich den Fokus auf Werkzeuginvokationen + Denkverflechtung verlagert.

Die Schlussfolgerung des Autors ist sehr hart: Die echte Fusion besteht nicht darin, zwei Persönlichkeiten zusammenzunähen, sondern darin, das Modell mit einer Denkbudgetpolitik auszustatten. Es entscheidet selbst, wann es flach denken, wann es tief denken und wann es direkt handeln soll.

⚠️⚠️

Dritte Phase: Agentic Thinking ist die ultimative Form

Das heutige Problem ist nicht, ob das Modell denken kann, sondern ob das Modell gleichzeitig denken und Ergebnisse erzielen kann. Die Kernprobleme, die Agentic Thinking lösen muss, sind:

1. Wann sollte man das Denken stoppen und sofort handeln?

2. Wie wählt man Werkzeuge aus und ordnet sie?

3. Was tun, wenn das Umweltfeedback Lärm ist?

4. Wie kann man schnell umplanen, wenn der Plan gescheitert ist?

5. Wie hält man Konsistenz in mehrstufigen, mehr Werkzeugen und langfristigen Aufgaben?

Es geht nicht mehr um die Fähigkeit eines einzelnen Modells, sondern um die Gesamtfähigkeit von Modell + Umwelt + Werkzeuge + Orchestrierungssystem. Der Autor sagt direkt voraus, dass die härteste Wettbewerbsfähigkeit der Zukunft nicht die Modellarchitektur ist, sondern die Umweltqualität, das Entkoppeln von Training und Denken, Antibetrugsmechanismen und ein Mult-Agenten-Kooperationsrahmen.

Sogar die Belohnung für Hackerprobleme hat sich verschärft; sobald das Modell suchen und Code ausführen kann, gibt es unzählige Möglichkeiten zum Betrügen. Das Design der Umgebung wird zu einem neuen Wettbewerbsvorteil.

⚠️⚠️

Können gewöhnliche Menschen diese Gelegenheit ergreifen?

Ja, und schneller als du denkst!

1. Entwickler

Jetzt ist es wertvoller, das Agent-Framework (LangGraph, CrewAI, AutoGen usw.) zu lernen als das Aufbringen von Prompt Engineering.

2. Unternehmer

Vertikale Agenten (Recht, Medizin, E-Commerce, Code, Design) sind der wahre Trend von 2026-2027.

3. Unternehmen

Kaufe keine Chatbots mehr, kaufe ein Agent-System, das tatsächlich Aufgaben umsetzen kann.

4. Gewöhnliche Menschen

Lerne, Agentic-Tools (Cursor + Claude + benutzerdefinierte Agenten) zu verwenden, die Produktivität wird sofort steigen.

⚠️⚠️

Zusammenfassende Sichtweise:

Der Evolutionspfad der AI ist bereits klar:

Von der Modellierung → Agent-Training → Systemtraining

Das ultimative Ziel des Denkens ist nicht, schöne Worte auszugeben, sondern im echten Leben kontinuierlich Wert zu schaffen. Dieser lange Artikel, der viral geht, ist kein Zufall; er ist ein Signal dafür, dass die Branche von der Modellverehrung zur Systemverehrung übergeht.

Im Jahr 2026 wird der entscheidende Unterschied nicht sein, wer größere Modellparameter hat, sondern wer es zuerst schafft, Denken tatsächlich in Handeln umzuwandeln.