Cel mai recent articol lung al membrilor cheie ai echipei Qwen a făcut valuri: o1 și R1 sunt doar începutul, adevărata eră a agenților a sosit, iar oamenii obișnuiți pot profita de această oportunitate!

El a explicat toată logica de bază a AI în ultimii doi ani:

Noi ne îndreptăm de la „Gândirea prin Raționare”, la „Gândirea Agentică”.

Pe scurt:

AI-ul de odinioară era un „tocilar”, stând acolo gândind intens, scriind lanțuri lungi de reflecții, și în cele din urmă dându-ți un răspuns.

AI-ul de acum trebuie să devină un agent, gândind, acționând, experimentând, ajustând planurile și interacționând în timp real cu lumea reală.

Aceasta nu mai este o teorie, ci cei mai de sus din industrie recunosc cu gura lor că o1 și DeepSeek-R1 sunt doar prima etapă, iar adevărata revoluție următoare este Gândirea Agentică.

⚠️⚠️

Prima etapă: o1 și R1 ne-au învățat adevărul dur.

În anii 2024-2025, toată lumea este preocupată de gândire.

OpenAI numește o1 antrenarea modelului prin învățarea prin întărire, astfel încât modelul să gândească înainte de a răspunde. DeepSeek-R1 demonstrează că această direcție poate fi jucată la scară mare în mod open-source. Dar autorul subliniază direct: adevărata dificultate nu este să faci modelul să gândească mai mult, ci să-l faci să gândească cu valoare.

Modelele de raționare necesită determinism, semnale de recompensă stabile și scalabile, așa că matematica, codul și logica au devenit câmpuri de bătălie principale. Infrastructura s-a schimbat complet; RL nu mai este un produs secundar al SFT, ci este un inginerie de sistem care necesită rollout-uri masive, verificări cu debit mare și actualizări de strategii stabile.

În concluzie, în era raționării, competiția este între model + antrenament posterior; în era agenților, competiția este între model + mediu + unelte + ciclu închis.

⚠️⚠️

A doua etapă: De ce nu a reușit complet modul de gândire mixt?

În prima jumătate a anului 2025, multe echipe (inclusiv Qwen) vor să creeze un model universal care să răspundă instantaneu, să gândească profund și să decidă automat bugetul de gândire.

Qwen3 este cea mai tipică încercare: un mix de moduri de gândire, buget de gândire controlabil, pipeline de antrenament în patru etape... sună perfect.

Dar realitatea lovește dur. Distribuția datelor și obiectivele de comportament ale modului de gândire și ale modului de instrucțiuni sunt complet opuse:

• Modului de instrucțiuni trebuie să fie rapid, precis, scurt, formatat (preferat în procesarea de loturi de întreprindere);

• Modului de gândire trebuie să fie lung, structurat, explorând multiple căi (pentru probleme dificile)

Rezultatul forțării integrării este că niciunul dintre părți nu funcționează. Ulterior, Qwen a descompus direct Instruct și Gândire în două linii, iar clienții au fost mai fericiți. Claude 3.7/4 de la Anthropic și GLM-4.5, deși continuă să urmeze o cale mixtă, au început să-și schimbe subtil accentul către apelurile de unelte + gândire intercalată.

Concluzia autorului este dură: adevărata integrare nu este să coase două personalități împreună, ci să permită modelului să aibă o politică de buget de gândire. Acesta decide singur când să gândească superficial, când să gândească profund și când să acționeze direct.

⚠️⚠️

A treia etapă: Gândirea Agentică este adevărata formă supremă

Acum, problema nu este dacă modelul poate gândi, ci dacă modelul poate gândi în timp ce finalizează sarcini. Gândirea Agentică trebuie să rezolve câteva probleme centrale:

1. Când să oprești gândirea și să acționezi imediat?

2. Cum să alegi uneltele, să le ordonezi?

3. Ce să faci dacă feedback-ul din mediu este zgomot?

4. Cum să corectezi rapid un plan eșuat?

5. Cum să menții consistența în sarcini de lungă durată, cu multiple runde și unelte?

Aceasta nu mai este o capacitate de model singular, ci o capacitate globală a modelului + mediu + unelte + sistem de orchestrare. Autorul prezice direct că cea mai puternică competiție din viitor nu va fi arhitectura modelului, ci calitatea mediului, decuplarea antrenament-raționare, mecanismele anti-fraudă și cadrul de colaborare între agenți.

Chiar și problemele de recompensă pentru hackeri s-au actualizat, iar odată ce modelul poate apela la căutare și executa cod, există nenumărate modalități de fraudă. Designul mediului va deveni noua sa fortăreață.

⚠️⚠️

Pot oamenii obișnuiți să profite de această oportunitate?

Poate, și mai repede decât te aștepți!

1. Dezvoltator

Acum, a învăța cadrul Agent (LangGraph, CrewAI, AutoGen etc.) este mai valoros decât a învăța ingineria prompturilor.

2. Antreprenor

Agenții din domenii verticale (drept, sănătate, comerț electronic, cod, design) vor fi adevărata oportunitate în 2026-2027.

3. Întreprindere

Nu mai cumpărați chatbot-uri, cumpărați un sistem Agent care poate implementa cu adevărat sarcini.

4. Oameni obișnuiți

Învățați să folosiți uneltele Agentic (Cursor + Claude + Agent personalizat), productivitatea va crește direct.

⚠️⚠️

Puncte de vedere în concluzie:

Calea de evoluție a AI-ului este deja clară:

De la antrenarea modelului → antrenarea Agentului → antrenarea sistemului

Scopul final al gândirii nu este de a produce texte frumoase, ci de a crea continuu valoare în lumea reală. Această lungă lucrare care a circulat nu este întâmplătoare, ci este un semnal că industria trece de la adorarea modelului la adorarea sistemului.

În 2026, ceea ce va face diferența nu va fi cine are parametrii modelului mai mari, ci cine reușește să transforme cu adevărat gândirea în acțiune.