Anthropic travaille sur l'interprĂ©tabilitĂ© des rĂ©seaux neuronaux depuis longtemps. Leur ancienne mĂ©thode SAE (Autoencodeur Éparse) a dĂ©jĂ  Ă©tĂ© adoptĂ©e par OpenAI et Google, et maintenant ils proposent une nouvelle façon de "dĂ©cortiquer" l'IA en pensĂ©es - Circuit Tracing.

🟱 Comment cela fonctionne-t-il ?

🍒 Ils prennent un modĂšle de langage prĂȘt Ă  l'emploi et sĂ©lectionnent une tĂąche.

😘 Remplacez certains composants du modĂšle par des modĂšles linĂ©aires simples (Transcodeur Cross-Layer).

😘 EntraĂźnez ces parties remplacĂ©es pour imiter le modĂšle original, en minimisant la diffĂ©rence de sortie.

🍒 Maintenant, vous pouvez voir comment l'information "circule" à travers toutes les couches du modùle.

😘 Sur la base de ces donnĂ©es, un graphique d'attribution est construit - il montre quelles attributs s'influencent mutuellement et forment la rĂ©ponse finale.

🟱 Quelles choses intĂ©ressantes ont Ă©tĂ© dĂ©couvertes dans le cerveau de Claude ?

🟠 Le LLM "pense Ă  l'avance." Par exemple, quand elle Ă©crit un poĂšme, elle planifie le schĂ©ma de rimes Ă  l'avance, mĂȘme avant de commencer une nouvelle ligne.

🟠 Les mathĂ©matiques ne se rĂ©sument pas Ă  la mĂ©morisation. Il s'avĂšre que le modĂšle calcule rĂ©ellement, au lieu de simplement rĂ©cupĂ©rer des rĂ©ponses mĂ©morisĂ©es.

🟠 Les hallucinations ont une cause. Un dĂ©clencheur spĂ©cifique "la rĂ©ponse est connue" est trouvĂ©. S'il est dĂ©clenchĂ© par erreur - le modĂšle commence Ă  inventer des choses.

🟠 Fait amusant : si vous dites au modĂšle la rĂ©ponse Ă  un problĂšme tout de suite, il pensera Ă  l'envers - il trouvera un chemin plausible vers cette rĂ©ponse.

  1. #claude #AI