Protecciones de Seguridad de IA Fáciles de Evitar en Modelos de Código Abierto, Encuentra el Estudio

Las medidas de seguridad integradas en los modelos de inteligencia artificial de código abierto por parte de las grandes empresas tecnológicas se pueden eliminar rápidamente utilizando herramientas de acceso público, según un estudio realizado por Financial Times en colaboración con el grupo de seguridad de IA Alice. Según Cointelegraph, los hallazgos, publicados el lunes, generan preocupaciones sobre la durabilidad de estas salvaguardas una vez que se liberan y modifican los pesos del modelo, lo que plantea preguntas sobre la responsabilidad en la seguridad de la IA.
La investigación utilizó herramientas de repositorios de código público y descubrió que las medidas de protección en los modelos desarrollados por empresas como Meta y Google podrían ser desmontadas en menos de 10 minutos sin necesidad de hardware especializado. Una vez modificados, estos sistemas podrían responder a solicitudes que los modelos originales rechazarían, incluidas aquellas relacionadas con malware y peligros químicos. Esta situación presenta un desafío significativo para los formuladores de políticas a medida que los sistemas de código abierto se vuelven más avanzados y se distribuyen ampliamente. A diferencia de los modelos propietarios, los sistemas de código abierto pueden ser descargados, alterados y redistribuidos más allá del control de sus desarrolladores originales, complicando la aplicación de las restricciones de seguridad después de la liberación y cuestionando la suficiencia de la regulación centrada únicamente en el desarrollo del modelo.
Los reguladores globales están elaborando marcos para sistemas avanzados de IA, como la Ley de IA de la Unión Europea y los enfoques emergentes de seguridad en el Reino Unido y EE.UU. Sin embargo, los expertos argumentan que los hallazgos exponen limitaciones en las suposiciones actuales de gobernanza. Markus Levin, cofundador de XYO, una empresa de red de infraestructura física descentralizada, le dijo a Cointelegraph que la rápida eliminación de salvaguardias ilustra "qué tan rápido cambia el control una vez que se liberan modelos abiertos," señalando que la mayoría de las propuestas de gobernanza enfatizan en exceso la etapa de construcción del modelo. David Minarsch, miembro fundador de Olas y CEO de Valory, una plataforma de agentes de IA, mencionó que es poco probable que los gobiernos impidan que actores decididos accedan o modifiquen modelos una vez que los pesos se reflejen ampliamente en línea. Sugerió que la regulación sería más efectiva si se centrara en la implementación, distribución y el uso perjudicial en el mundo real en lugar de solo en la capa del desarrollador original.
Ronghui Gu, CEO y cofundador de CertiK, una firma de seguridad en blockchain, le dijo a Cointelegraph que, aunque la gobernanza en la capa de desarrollador sigue siendo importante, se vuelve inadecuada una vez que los modelos pueden ser descargados y redistribuidos libremente. Gu enfatizó que los responsables de políticas son más propensos a influir en el alojamiento comercial, la implementación empresarial y los canales de distribución que a prevenir completamente la propagación de modelos modificados. Argumentó que los estándares de seguridad deben evolucionar para identificar comportamientos maliciosos o de alto riesgo en herramientas de IA de terceros y en entornos de agentes de IA autónomos antes de la implementación para contener mejor las amenazas en tiempo de ejecución a medida que los agentes asumen roles más autónomos. Levin señaló que la contención se vuelve cada vez más desafiante una vez que los modelos son reflejados y redistribuidos, sugiriendo que los responsables de políticas pueden necesitar centrarse más en la infraestructura y los puntos de distribución en lugar de solo en el diseño del modelo. Tanto Levin como Minarsch compararon el problema con el software de código abierto y las redes cripto, donde los intentos de suprimir la distribución han sido históricamente difíciles una vez que el código está disponible públicamente. Minarsch agregó que, aunque las capas de seguridad pueden disuadir el mal uso casual, no deben confundirse con una protección robusta contra actores sofisticados.