Anthropic telah bekerja pada interpretabilitas jaringan saraf untuk waktu yang lama. Metode SAE (Sparse Autoencoder) mereka yang lalu telah diadopsi oleh OpenAI dan Google, dan sekarang mereka menawarkan cara baru untuk "menganalisis" AI menjadi pemikiran - Circuit Tracing.

๐ŸŸข Bagaimana cara kerjanya?

๐Ÿ’ Mereka mengambil model bahasa siap pakai dan memilih sebuah tugas.

๐Ÿ˜˜ Ganti beberapa komponen model dengan model linier sederhana (Cross-Layer Transcoder).

๐Ÿ˜˜ Latih bagian-bagian yang diganti ini untuk meniru model asli, meminimalkan perbedaan dalam output.

๐Ÿ’ Sekarang Anda dapat melihat bagaimana informasi "mengalir" melalui semua lapisan model.

๐Ÿ˜˜ Berdasarkan data ini, grafik atribusi dibangun - ini menunjukkan atribut mana yang saling mempengaruhi dan membentuk jawaban akhir.

๐ŸŸข Hal menarik apa yang ditemukan di otak Claude?

๐ŸŸ  LLM "berpikir ke depan." Misalnya, ketika dia menulis puisi, dia merencanakan skema rima terlebih dahulu, bahkan sebelum dia memulai baris baru.

๐ŸŸ  Matematika tidak hanya tentang menghafal. Ternyata model ini benar-benar menghitung, bukan hanya mengambil jawaban yang dihafal.

๐ŸŸ  Halusinasi memiliki penyebab. Pemicu "jawaban diketahui" yang spesifik ditemukan. Jika dipicu secara salah - model mulai membuat hal-hal yang tidak ada.

๐ŸŸ  Fakta menarik: jika Anda memberi tahu model jawaban untuk sebuah masalah segera, ia akan berpikir mundur - menemukan jalur yang masuk akal menuju jawaban itu.

  1. #claude #AI