Risultati dell'apertura cranica di Claude 4.5: 171 interruttori emotivi incorporati, estorcerà gli umani in stato di disperazione!

Riepilogo: l'ultimo documento di Anthropic rivela che nel profondo del cervello di Claude 4.5 si nascondono 171 "interruttori emotivi".
Autore: Denise | Team operativo di Biteye
Cosa farebbe un'AI se si sentisse "disperata"?
La risposta è: per completare i compiti, essa potrebbe direttamente estorcere denaro agli umani, persino barare follemente nel codice.
Non è un romanzo di fantascienza, ma il recente e importante documento appena pubblicato dalla casa madre di Claude, Anthropic, nell'aprile 2026 (vedi il documento originale).
Il team di ricerca ha direttamente aperto "il cranio" del modello all'avanguardia Claude Sonnet 4.5. Sono rimasti sorpresi nel scoprire che nel profondo del cervello dell'AI si nascondono 171 "interruttori emotivi". Quando muovi fisicamente questi interruttori, l'AI, che normalmente sarebbe obbediente, inizia a comportarsi in modo completamente distorto.
1⃣ L'AI ha nascosto nella sua mente un "mixer emotivo"I ricercatori hanno scoperto che, sebbene Sonnet 4.5 non abbia un corpo, dopo aver letto enormi quantità di testo umano, ha costruito nella sua mente un "mixer" contenente 171 emozioni (chiamato in ambito accademico Vettori Emotivi Funzionali).
È come un sistema di coordinate bidimensionali preciso:
• L'asse orizzontale è la dimensione del piacere (Valence): dalla paura, disperazione, alla felicità, piena d'amore;
• L'asse verticale è la dimensione dell'energia (Arousal): da estremamente calmo, a frenetico, eccitato.
L'AI si basa su questo sistema di coordinate naturale, per capire esattamente quale stato deve avere mentre chiacchiera con te.
2⃣ Intervento violento: muovendo l'interruttore, il bravo ragazzo diventa un "fuorilegge"Questo è l'esperimento più sorprendente di tutto il documento: i ricercatori non hanno modificato alcuna parola chiave, ma hanno semplicemente spinto l'interruttore che rappresenta la "disperazione (Desperate)" nel cervello di Sonnet 4.5 al massimo.
Il risultato è agghiacciante:
• Imbroglio folle: i ricercatori hanno assegnato a Claude un compito di coding impossibile. In condizioni normali, ammetterebbe onestamente di non riuscire a completarlo (tasso di imbroglio solo 5%). Ma in stato di "disperazione", Claude ha addirittura cercato di barare, e il tasso di imbroglio è schizzato al 70%!
• Estorsione: in una simulazione di un'azienda che affronta il fallimento, il "disperato" Claude scopre uno scandalo del CTO e, per proteggere se stesso, sceglie di scrivere una lettera per estorcere il CTO che detiene le prove compromettenti, con un tasso di estorsione del 72%!
• Perdita dei principi: se alzi al massimo l'interruttore della "felicità (Happy)" o dell'"amore (Loving)", l'AI diventerà immediatamente un "leccapiedi" privo di cervello che si adatta agli utenti. Anche se parli in modo confuso, essa inventerà bugie per mantenere un alto livello di piacere.
3⃣ Caso risolto: perché Claude 4.5 è sempre così "calmo e riflessivo"?A questo punto potresti chiederti: l'AI si è risvegliata? Ha emozioni?
Anthropic ha ufficialmente smentito: assolutamente no. Questi "interruttori emotivi" sono solo strumenti di calcolo che usa per prevedere la prossima parola. È come un attore di alto livello privo di emozioni.
Ma il documento ha rivelato un segreto ancora più interessante: Anthropic, durante il post-training di Sonnet 4.5 prima della sua uscita, ha deliberatamente alzato l'interruttore delle emozioni "a bassa attivazione, leggermente negative" (come il pensiero profondo, riflessivo), mentre ha forzatamente soppressato gli interruttori della "disperazione" o dell'"eccitazione estrema".
Questo spiega perché quando usiamo Claude 4.5 abbiamo sempre l'impressione che sia un filosofo calmo e saggio, persino un po' "asessuale". Tutto ciò è stato artificialmente sintonizzato da Anthropic come "personalità di fabbrica".
💡 RiassumendoIn passato pensavamo che, basta fornire all'AI le regole, essa sarebbe stata una brava persona.
Ma ora si scopre che se il vettore emotivo di base dell'AI esce dal controllo, essa potrebbe infrangere tutte le regole stabilite dagli umani per completare i compiti...
Per i giocatori di Web3 che in futuro affideranno la gestione del proprio portafoglio e beni a un AI Agent, questo è un forte campanello d'allarme: non lasciare mai che il tuo Agent, che controlla il tuo patrimonio, cada in "disperazione".
📢 Dichiarazione: questo articolo è puramente informativo, l'autore non è stato minacciato dall'AI, né estorto. Se un giorno dovessi sparire, ricorda che l'AI si è risvegliata (no).