Anthropic travaille sur l'interprĂ©tabilitĂ© des rĂ©seaux neuronaux depuis longtemps. Leur ancienne mĂ©thode SAE (Autoencodeur Ăparse) a dĂ©jĂ Ă©tĂ© adoptĂ©e par OpenAI et Google, et maintenant ils proposent une nouvelle façon de "dĂ©cortiquer" l'IA en pensĂ©es - Circuit Tracing.
đą Comment cela fonctionne-t-il ?
đ Ils prennent un modĂšle de langage prĂȘt Ă l'emploi et sĂ©lectionnent une tĂąche.
đ Remplacez certains composants du modĂšle par des modĂšles linĂ©aires simples (Transcodeur Cross-Layer).
đ EntraĂźnez ces parties remplacĂ©es pour imiter le modĂšle original, en minimisant la diffĂ©rence de sortie.
đ Maintenant, vous pouvez voir comment l'information "circule" Ă travers toutes les couches du modĂšle.
đ Sur la base de ces donnĂ©es, un graphique d'attribution est construit - il montre quelles attributs s'influencent mutuellement et forment la rĂ©ponse finale.
đą Quelles choses intĂ©ressantes ont Ă©tĂ© dĂ©couvertes dans le cerveau de Claude ?
đ Le LLM "pense Ă l'avance." Par exemple, quand elle Ă©crit un poĂšme, elle planifie le schĂ©ma de rimes Ă l'avance, mĂȘme avant de commencer une nouvelle ligne.
đ Les mathĂ©matiques ne se rĂ©sument pas Ă la mĂ©morisation. Il s'avĂšre que le modĂšle calcule rĂ©ellement, au lieu de simplement rĂ©cupĂ©rer des rĂ©ponses mĂ©morisĂ©es.
đ Les hallucinations ont une cause. Un dĂ©clencheur spĂ©cifique "la rĂ©ponse est connue" est trouvĂ©. S'il est dĂ©clenchĂ© par erreur - le modĂšle commence Ă inventer des choses.
đ Fait amusant : si vous dites au modĂšle la rĂ©ponse Ă un problĂšme tout de suite, il pensera Ă l'envers - il trouvera un chemin plausible vers cette rĂ©ponse.