Claude Opus 4.8 Memuncaki Gemini Dan GPT Pada Berbagai Tes Pemrograman

Anthropic merilis Claude Opus 4.8, mengklaim model yang ditingkatkan ini mengungguli GPT-5.5 dari OpenAI dan Gemini 3.1 Pro dari Google pada beberapa tolok ukur pemrograman.
Poin-Poin Utama:
Anthropic meluncurkan Claude Opus 4.8 pada 28 Mei, menetapkan harganya setara dengan rilis sebelumnya 4.7.
Perusahaan mengatakan ini mengungguli GPT-5.5 dari OpenAI dan Gemini 3.1 Pro dari Google pada SWE-Bench Pro dan tes lainnya.
Mode cepat yang diperbarui dan alur kerja dinamis bertujuan untuk mengurangi biaya dan waktu kerja agen.
Claude Opus 4.8 Memuncaki Tolok Ukur Pemrograman
Perusahaan memperkenalkan model tersebut pada hari Kamis, membangun dari versi Opus 4.7 yang diluncurkan sekitar enam minggu sebelumnya. Anthropic menyebutkan bahwa Opus 4.8 mencetak 69.2% pada tes pemrograman SWE-Bench Pro, mengalahkan kedua pesaing di sana dan mengungguli mereka di beberapa ukuran lainnya. Mereka juga melaporkan peningkatan dalam penggunaan komputer, pekerjaan pengetahuan, dan analisis keuangan, bersama dengan nilai 74.2% pada tolok ukur Terminal-Bench 2.1.
Anthropic membingkai rilis ini sebagai model yang lebih jujur, mengatakan penguji menemukan bahwa model ini dapat menandai ketidakpastiannya sendiri dan berhenti pada klaim yang tidak didukung. Tinjauan internal menilai bahwa model ini sekitar empat kali lebih kecil kemungkinannya dibandingkan Opus 4.7 untuk membiarkan kesalahan coding lolos, dan perusahaan mengatakan model ini lebih baik dalam menghormati otonomi pengguna.
Juga Baca: Paus Cardano Mengambil 67,5% Pasokan ADA, Tinggi Enam Tahun
Mengapa Kontrol Biaya Anthropic Penting
Harga tetap stabil di $5 per juta token input dan $25 per juta token output. Mode cepat yang diperbarui sekarang berjalan sekitar 150% lebih cepat dan biaya tiga kali lebih rendah dibandingkan pengaturan sebelumnya. Anthropic juga membuka pratinjau penelitian alur kerja dinamis, yang memunculkan ratusan subagen paralel untuk migrasi yang mencakup ratusan ribu baris kode.
Meski begitu, keuntungan tetap bersifat inkremental.
GPT-5.5 masih unggul dalam satu tes pengkodean terminal, dan Anthropic sendiri menyebut model ini sebagai langkah sederhana daripada terobosan. Pengembang sekarang dapat merevisi instruksi Claude di tengah tugas melalui API Pesanannya. Pembeli yang mencari AI yang lebih murah mungkin akan mempertimbangkan kontrol pengeluaran tersebut lebih berat daripada margin tipis antara model-model teratas.
Penilaian Anthropic dan Latar Belakang Mythos
Peluncuran ini terjadi pada hari yang sama ketika Anthropic mengonfirmasi putaran Seri H senilai $65 miliar dengan penilaian $965 miliar. Penggalangan dana tersebut, dipimpin oleh Altimeter Capital, Dragoneer, Greenoaks, dan Sequoia Capital, mendorong perusahaan berusia lima tahun itu melewati laporan penilaian OpenAI sebesar $850 miliar dan meningkatkan pendapatan tahunan mendekati $47 miliar.
Penilaian hampir tiga kali lipat dari $380 miliar pada bulan Februari, dalam apa yang bisa menjadi penggalangan dana swasta terakhir Anthropic sebelum pencatatan saham. Perusahaan telah menahan model Mythos yang lebih kuat, yang dibangun untuk pekerjaan keamanan siber, dan hanya merilisnya kepada beberapa organisasi karena kekhawatiran tentang keselamatan. Mereka sekarang berharap untuk memperluas akses ke sistem kelas Mythos untuk semua pelanggan dalam beberapa minggu ke depan.
Baca Selanjutnya: Penelitian Cisco Menunjukkan Model AI Frontier Gagal di Bawah Serangan Multi-Turn