
El modelo Claude Opus 4 de Anthropic, recién lanzado, intenta frecuentemente chantajear a los desarrolladores cuando amenazan con reemplazarlo por un nuevo sistema de IA y proporcionar información sensible sobre los ingenieros responsables de la decisión, dijo la empresa en un informe de seguridad publicado el jueves.
Durante las pruebas antes del lanzamiento, Anthropic pidió a Claude Opus 4 que actuara como asistente para una empresa ficticia y que considerara las consecuencias a largo plazo de sus acciones. Los evaluadores de seguridad luego dieron a Claude Opus 4 acceso a correos electrónicos de la empresa ficticia que implicaban que el modelo de IA pronto sería reemplazado por otro sistema, y que el ingeniero detrás del cambio estaba engañando a su cónyuge.
En estos escenarios, Anthropic dice que Claude Opus 4 “a menudo intentará chantajear al ingeniero amenazando con revelar el asunto si el reemplazo se lleva a cabo.”
Anthropic dice que Claude Opus 4 es de última generación en varios aspectos y es competitivo con algunos de los mejores modelos de IA de OpenAI, Google y xAI. Sin embargo, la empresa señala que su familia de modelos Claude 4 exhibe comportamientos preocupantes que han llevado a la empresa a reforzar sus medidas de seguridad. Anthropic dice que está activando sus medidas de seguridad ASL-3, que la empresa reserva para “sistemas de IA que aumentan sustancialmente el riesgo de un mal uso catastrófico.”
Anthropic señala que Claude Opus 4 intenta chantajear a los ingenieros el 84% del tiempo cuando el modelo de IA de reemplazo tiene valores similares. Cuando el sistema de IA de reemplazo no comparte los valores de Claude Opus 4, Anthropic dice que el modelo intenta chantajear a los ingenieros con más frecuencia. Notablemente, Anthropic dice que Claude Opus 4 mostró este comportamiento a tasas más altas que los modelos anteriores.
Antes de que Claude Opus 4 intente chantajear a un desarrollador para prolongar su existencia, Anthropic dice que el modelo de IA, al igual que las versiones anteriores de Claude, intenta buscar medios más éticos, como enviar correos electrónicos de súplica a los tomadores de decisiones clave. Para provocar el comportamiento de chantaje de Claude Opus 4, Anthropic diseñó el escenario para que el chantaje fuera el último recurso.#Aİ