KI-Sicherheitsmaßnahmen leicht in Open-Source-Modellen umgangen, Studie zeigt

Sicherheitsmaßnahmen, die in Open-Source-KI-Modellen von großen Tech-Unternehmen eingebettet sind, können laut einer Studie der Financial Times in Zusammenarbeit mit der KI-Sicherheitsgruppe Alice schnell mit öffentlich zugänglichen Tools entfernt werden. Laut Cointelegraph werfen die am Montag veröffentlichten Ergebnisse Bedenken hinsichtlich der Haltbarkeit dieser Schutzmaßnahmen auf, sobald die Modellgewichte veröffentlicht und modifiziert werden, was Fragen zur Verantwortung für die KI-Sicherheit aufwirft.
Die Untersuchung nutzte Tools aus öffentlichen Code-Repositories und stellte fest, dass Schutzmaßnahmen bei Modellen, die von Unternehmen wie Meta und Google entwickelt wurden, in weniger als 10 Minuten ohne spezielle Hardware auseinandergenommen werden konnten. Nach der Modifikation könnten diese Systeme auf Aufforderungen reagieren, die die ursprünglichen Modelle ablehnen würden, einschließlich solcher, die mit Malware und chemischen Gefahren zu tun haben. Diese Situation stellt eine erhebliche Herausforderung für die politischen Entscheidungsträger dar, da Open-Source-Systeme immer fortschrittlicher und weit verbreiteter werden. Im Gegensatz zu proprietären Modellen können Open-Source-Systeme heruntergeladen, verändert und über die Kontrolle ihrer ursprünglichen Entwickler hinaus weiterverbreitet werden, was die Durchsetzung von Sicherheitsbeschränkungen nach der Veröffentlichung kompliziert und die Angemessenheit von Vorschriften in Frage stellt, die sich ausschließlich auf die Modellentwicklung konzentrieren.
Globale Regulierungsbehörden arbeiten an Rahmenbedingungen für fortschrittliche KI-Systeme, wie dem KI-Gesetz der Europäischen Union und aufkommenden Sicherheitsansätzen im Vereinigten Königreich und den USA. Experten argumentieren jedoch, dass die Ergebnisse Einschränkungen in den aktuellen Governance-Annahmen aufzeigen. Markus Levin, Mitgründer von XYO, einem dezentralen physischen Infrastruktur-Netzwerkunternehmen, sagte gegenüber Cointelegraph, dass die schnelle Beseitigung von Schutzmaßnahmen zeigt, "wie schnell die Kontrolle sich verschiebt, sobald offene Modelle veröffentlicht werden", und bemerkte, dass die meisten Governance-Vorschläge die Modellierungsphase überbetonen. David Minarsch, Gründungsmitglied von Olas und CEO von Valory, einer KI-Agentenplattform, erwähnte, dass Regierungen wahrscheinlich nicht verhindern können, dass entschlossene Akteure auf Modelle zugreifen oder diese modifizieren, sobald Gewichte weitreichend online gespiegelt werden. Er schlug vor, dass Regulierung effektiver wäre, wenn sie sich auf Bereitstellung, Verteilung und schädliche Anwendungen in der realen Welt konzentrieren würde, anstatt nur auf die ursprüngliche Entwicklerebene.
Ronghui Gu, CEO und Mitgründer von CertiK, einem Blockchain-Sicherheitsunternehmen, sagte gegenüber Cointelegraph, dass die Governance auf der Entwicklerebene zwar wichtig bleibt, jedoch unzureichend wird, sobald Modelle frei heruntergeladen und redistribuiert werden können. Gu betonte, dass es wahrscheinlicher ist, dass politische Entscheidungsträger kommerzielles Hosting, Unternehmensbereitstellung und Vertriebskanäle beeinflussen, als die Verbreitung modifizierter Modelle vollständig zu verhindern. Er argumentierte, dass Sicherheitsstandards sich weiterentwickeln müssen, um böswilliges oder hohes Risiko-Verhalten in Drittanbieter-KI-Tools und autonomen KI-Agenten-Umgebungen vor der Bereitstellung zu identifizieren, um Laufzeitbedrohungen besser einzudämmen, während Agenten zunehmend autonome Rollen übernehmen. Levin bemerkte, dass die Eindämmung zunehmend herausfordernd wird, sobald Modelle gespiegelt und redistribuiert werden, und schlug vor, dass politische Entscheidungsträger sich möglicherweise mehr auf Infrastruktur und Verteilungspunkte konzentrieren müssen, anstatt nur auf das Design von Modellen. Sowohl Levin als auch Minarsch verglichen das Problem mit Open-Source-Software und Krypto-Netzwerken, wo Versuche, die Verbreitung zu unterdrücken, historisch schwierig waren, sobald der Code öffentlich verfügbar ist. Minarsch fügte hinzu, dass, obwohl Sicherheitslayer gelegentlich Missbrauch abhalten können, sie nicht mit robustem Schutz gegen anspruchsvolle Akteure verwechselt werden sollten.