미토스 컴백…앤트로픽 테스트, 페이블5만 위험하지 않았다

앤트로픽(Anthropic)은 내부 테스트 결과 클로드 페이블 5(Claude Fable 5)가 고유한 사이버보안 위험을 일으키지 않는다고 밝혔습니다. 클로드 미토스 5(Claude Mythos 5)는 7월 2일 전 세계에 다시 공개됩니다.
이 입장은 페이블 5의 전 세계 재출시와 함께 발표되었습니다. 이는 6월 12일 미국의 수출통제에 따라 18일간의 일시 중단이 발생한 이후입니다. 앤트로픽은 실제 위협을 파악하기 위해 경쟁 모델들도 함께 테스트했습니다.
앤트로픽이 페이블 5를 일시 중단한 이유
페이블 5와 미토스 5는 6월 9일 출시되었습니다. 두 모델은 동일한 핵심 모델을 기반으로 하였으나, 페이블 5는 대중에게 공개되었습니다. 반면 미토스 5는 신뢰받는 프로젝트 글래스윙(Project Glasswing) 파트너 소수에게만 사이버보안 방어 작업용으로 제공되었습니다.
수출통제는 아마존 연구원이 페이블 5의 안전장치를 우회하는 방법을 알아낸 후 도입되었습니다. 이 기법은 모델이 소프트웨어 취약점을 식별하도록 했고, 한 사례에서는 익스플로잇까지 시연하게 유도했습니다.
Claude Fable 5 will be available again globally tomorrow.After a series of productive conversations with the US government, we're redeploying the model with a new set of classifiers to target and block more cybersecurity tasks. In the near term, some routine tasks like coding…
 — Anthropic (@AnthropicAI) July 1, 2026
앤트로픽의 테스트 결과, 클로드 오푸스 4.8(Claude Opus 4.8), GPT-5.5, 키미 K2.7(Kimi K2.7)도 아마존 보고서에서 페이블 5가 지적한 동일 취약점을 식별할 수 있었습니다. 모든 테스트된 모델이 동일한 익스플로잇 시연을 재현할 수 있음이 확인되었습니다.
이 결과는 이번 조치가 업계 전반에 걸친 공백을 겨냥한 것임을 시사합니다. 페이블 5에만 특정된 위협이 아니라는 의미입니다. 앤트로픽은 해당 기법을 차단하기 위해 더 강력한 분류기를 개발했습니다. 이 분류기는 이제 좀 더 일반적인 코딩 및 디버깅 요청까지도 더 자주 차단합니다.
이 안전장치가 실제로 어떻게 작동하는지
페이블 5는 앤트로픽이 구축한 그 어떤 모델보다도 가장 강력한 안전 한계를 적용해 출시되었습니다. 분류기는 조금이라도 위험해 보이는 요청은 모두 차단합니다. 명백한 유해 요청뿐 아니라 잠재적 위험 요청도 포함됩니다. 아마존 보고서 이후 새로 훈련된 분류기는 99% 이상의 경우 해당 우회 방법을 차단한다고 앤트로픽은 밝혔습니다. 차단된 요청은 이제 자동으로 오푸스 4.8로 전달됩니다.
이러한 안전한 한계는 비용이 따릅니다. 앤트로픽은 분류기가 무해한 코딩 및 디버깅 요청도 더 많이 차단한다고 인정했습니다. 앤트로픽은 오탐률을 줄이기 위해 분류기를 지속적으로 조정하겠다고 발표했습니다. 미토스 5는 이 안전장치를 적게 탑재한 모델입니다. 6월 26일 정부로부터 허가받은 미토스 5 기관에 한해 다시 제공되었습니다.
앤트로픽의 자체 데이터는 더 어려운 질문을 제기합니다. 더 약한 모델이 이미 페이블 5의 금지 사유에 해당하는 일을 할 수 있다면, 앞으로 새로운 최첨단 모델이 출시될 때 규제기관은 어떤 기준을 적용할 것입니까?