El ataque de contrainferencia basado en IA en cadena, tarde

El ataque de contrainferencia basado en IA en cadena, tarde o temprano, acabará por envenenar la red principal de la blockchain pública

Cada día escucho a un montón de proyectos presumir lo inteligentes que son sus agentes, pero todos fingen no ver un flanco de seguridad más desagradable: la inyección de contramedidas mediante indicaciones inversas maliciosas por parte de usuarios. Como los nodos de los modelos descentralizados son públicos, los hackers pueden, mediante una gran cantidad de prompts cuidadosamente construidos, “tantear” directamente los parámetros de los pesos del modelo. Habiéndome puesto a prueba a fondo con el OpenGradient Chat de la empresa @OpenGradient , revisé los whitepapers y noté una solución hard-core que rara vez se comenta en caliente: un mecanismo de defensa distribuida contra adversarios inversos basado en funciones de activación con confusión dinámica.

A los ojos de los “veteranos” que ya han caído en la inversión imprudente, los modelos sin barreras de seguridad son objetivos que van totalmente desnudos. Lo más duro de este mecanismo es que directamente le mete un tajo a la capa de activación de la red neuronal. Cuando el usuario envía una solicitud, el nodo subyacente no saca una salida con pesos lineales fijos en la propagación hacia adelante, sino que inyecta un factor de confusión aleatoria criptográfica, y con ello se desordena por completo la topología del tensor de salida. Si un hacker intenta retroderivar los secretos del modelo mediante miles de consultas, lo único que obtendrá será un montón de ruido basura sin ningún sentido.

En lenguaje sencillo: es como un chef que domina una receta ultrasecreta. Antes, los malos podían aprender el truco intentando probar la proporción de los ingredientes cada día. Y este mecanismo sería como si el chef, sin afectar el sabor, añadiera a diario algunas porciones de ingredientes disfrazados y rarísimos, de modo que quien intente robar el aprendizaje se quede completamente mareado en la lengua. Este contenido hard-core que “bloquea” la seguridad de los datos en la base misma de las neuronas es lo que hace que $OPG realmente tenga una defensa robusta contra los ataques de los hackers. #OPG

El código usa una confusión implacable para eliminar las brechas de beneficio generadas por el acecho y el husmeo; ocultamos la inteligencia en una niebla que no se puede revertir. Usamos algoritmos para levantar una línea de defensa y pensamos que, al fijar las reglas sin puntos ciegos, podemos proteger el mundo. Pero lo más irónico es que la parte más sutil de la sabiduría está, precisamente, en la honestidad sin reservas: cuando hasta una sola conversación tiene que disfrazarse y verificarse con capas y capas de barreras, lo que al final obtenemos, ¿es seguridad definitiva o un basurero de código lleno de recelo incluso en el intercambio más puro?