Anthropic Mengatakan Claude Opus 4.8 Baru Menangkap 4 Kali Lebih Banyak Kesalahan

Anthropic merilis Claude Opus 4.8 pada hari Kamis, mempromosikan model yang ditingkatkan ini sebagai lebih jujur dan kurang cenderung untuk menciptakan fakta dibandingkan versi sebelumnya.
Poin Kunci:
Anthropic meluncurkan Claude Opus 4.8 pada hari Kamis, menyebut kejujuran sebagai keuntungan utamanya.
Model ini kira-kira empat kali lebih kecil kemungkinannya untuk membiarkan kesalahan kode lolos, kata perusahaan.
Mode cepat sekarang berjalan 2,5 kali lebih cepat dan biayanya tiga kali lebih murah dibandingkan sebelumnya.
Anthropic Memperkenalkan Kejujuran Opus 4.8
Perusahaan memperkenalkan model ini pada hari Kamis, menganggapnya sebagai pengembangan yang stabil dari Opus 4.7, bukan sebagai reinvention, dengan sebagian besar skor acuan hanya sedikit meningkat. Pada tes coding SWE-Bench Pro, model ini mencetak 69,2%, naik dari 64,3% untuk versi sebelumnya dan lebih unggul dari GPT-5.5 milik OpenAI yang hanya mencapai 58,6%.
Kejujuran menarik perhatian. Anthropic mengatakan model AI sering melompat ke kesimpulan, mengklaim kemajuan berdasarkan bukti tipis, dan bahwa penguji awal menemukan 4.8 lebih cepat mengakui keraguan selama tugas panjang yang tidak terawasi. Ujiannya menunjukkan bahwa model ini sekitar empat kali lebih kecil kemungkinannya daripada 4.7 untuk membiarkan cacat pengkodean lolos tanpa diperhatikan.
Pembaruan dikirim dengan kontrol baru, termasuk pengaturan yang memungkinkan pengguna mengatur seberapa keras model bekerja pada suatu tugas, sekarang tersedia di setiap rencana. Anthropic juga memangkas harga mode cepat, di mana model berjalan pada kecepatan 2,5 kali normal, menjadi sepertiga dari biaya yang dikenakan oleh model sebelumnya.
Baca Juga: Kalshi Memenangkan Persetujuan CFTC Untuk Kontrak Berjangka Bitcoin Perpetual Pertama di AS
Pritchard Mendukung Penilaian Opus 4.8
Tom Pritchard, seorang insinyur staf di Shopify, memberi tahu Anthropic bahwa versi pengkodean menunjukkan penilaian yang jauh lebih baik. Dia mengatakan model ini "mengajukan pertanyaan yang tepat, menangkap kesalahan sendiri," dan menolak ketika rencana terlihat lemah. Bagi tim yang pernah terbakar oleh agen AI yang menghapus basis data produksi langsung, janji semacam itu mungkin memiliki bobot nyata.
Tidak semua orang yakin.
Di Reddit, banyak pengguna meragukan grafik tolok ukur, merangkum suasana sebagai tidak ada yang mempercayainya, sementara yang lain takut kehilangan Opus 4.6 yang lebih tua yang masih mereka sukai untuk pekerjaan sehari-hari.
Opus 4.8 Memuncaki Lonjakan Anthropic
Peluncuran datang pada momen yang menggetarkan bagi lab tersebut. Valuasi Anthropic telah melampaui tanda hampir $965 miliar dari OpenAI setelah putaran baru yang termasuk di antara yang terbesar di teknologi. Investor secara luas mengharapkan perusahaan ini untuk mengejar penawaran publik akhir tahun ini.
Rilis ini juga menandai serangkaian pembaruan cepat, dengan Opus 4.7 mencapai pengguna hanya sebulan sebelumnya di bawah awan keraguan tolok ukur itu. Anthropic sejak itu menggoda Mythos, model yang jauh lebih kuat yang ditahan dari publik karena kekhawatiran keamanan siber.
Baca Selanjutnya: Cadangan Dogecoin Naik Menjadi 28B Saat Dukungan Whale Tetap Lemah