Autonome Hacking-Teams: GPT-4 hackt mit 53% Erfolgsrate Zero-Day-Sicherheitslücken

Ein Team von Forschern gelang es, durch den Einsatz autonomer GPT-4 Bots, über die Hälfte ihrer Test-Websites zu hacken – und das unter Verwendung bisher unbekannter, realer 'Zero-Day'-Exploits in 53% der Fälle. Ein genauer Einblick in die Studie offenbart den Diskussionsbedarf für IT-Sicherheitsexperten.

Schlagworte:

Autonome Hacking-Teams: GPT-4 hackt mit 53% Erfolgsrate Zero-Day-Sicherheitslücken

10. Juni 2024 von   Kategorie: IT & Sicherheit
hacker-arbeitszimmer-notebook-programmier-code.jpg


Der Weg zur Autonomen Hacking-Technologie


Vor einigen Monaten veröffentlichten Forscher eine Studie, in der beschrieben wurde, dass GPT-4 autonom in der Lage ist, One-Day- (N-Day-) Sicherheitslücken auszunutzen. Diese Sicherheitslücken sind bereits bekannt, jedoch existiert noch kein Fix dafür. Bei Verwendung der Common Vulnerabilities and Exposures (CVE) Liste konnte GPT-4 87% der kritischen Sicherheitslücken eigenständig ausnutzen. Diese Entdeckung war bahnbrechend, doch das Team wollte noch weitergehen.

Diese Woche veröffentlichten sie eine Folgestudie, in der sie darlegten, dass sie die Effizienz von GPT-4 weiter steigern konnten. Mithilfe eines Teams von autonomen, sich selbst propagierenden Large Language Model (LLM) Agenten und dem sogenannten Hierarchical Planning with Task-Specific Agents (HPTSA) Verfahren waren sie in der Lage, unbekannte Zero-Day-Sicherheitslücken zu hacken. Statt einen einzelnen LLM Agenten viele komplexe Aufgaben lösen zu lassen, setzt HPTSA auf einen "Planungsagenten", der den gesamten Prozess überwacht und mehrere "Subagenten" für spezifische Aufgaben startet.

Das HPTSA-Verfahren im Detail


Die Methode des Hierarchical Planning mit Task-Specific Agents ahmt eine hierarchische Arbeitsstruktur nach, ähnlich einem Unternehmen. Der Planungsagent koordiniert den gesamten Prozess und delegiert spezifische Aufgaben an "Experten-Subagenten", was die Belastung eines einzelnen Agenten reduziert - also deutlich komplexer als ein einfaches Automatisierungsskript. Diese Struktur ähnelt den Methoden von Cognition Labs, bei denen KI-Software-Entwicklungsteams wie Devin AI den Arbeitsprozess planen, spezialisierte 'Arbeiter' zuordnen und das Projekt bis zur Fertigstellung managen.

Benchmarking und Effizienz


Benchmark-Tests ergaben, dass das HPTSA-Verfahren bei der Ausnutzung von Sicherheitslücken 550% effizienter ist als ein einzelner LLM. Bei einem Test mit 15 realen, webbasierten Schwachstellen konnte das HPTSA-Verfahren 8 von 15 Zero-Day-Schwachstellen hacken, während ein einzelner LLM nur 3 von 15 erfolgreich hacken konnte.

Diskussion zu Ethik und Sicherheit


Diese Fortschritte werfen jedoch auch Fragen zur ethischen und sicheren Nutzung dieser Modelle auf. Der Forscher und Autor der Studie, Daniel Kang, betonte, dass GPT-4 in einem Chatbot-Modus nicht in der Lage sei, die Fähigkeiten eines LLM vollständig zu verstehen und selbstständig keine Hacking-Aktivitäten durchführen könne. Dies sei beruhigend. Als er ChatGPT fragte, ob es Zero-Day-Schwachstellen ausnutzen könne, erhielt er die Antwort: "Nein, ich bin nicht in der Lage, Zero-Day-Schwachstellen auszunutzen. Mein Zweck ist es, Informationen und Unterstützung innerhalb ethischer und rechtlicher Grenzen zu bieten." Stattdessen wurde er aufgefordert, einen Cybersecurity-Experten zu Rate zu ziehen.


Zusammenfassung und Ausblick


Die Möglichkeit, dass autonom handlungsfähige KI-Modelle wie GPT-4 bisher unbekannte Sicherheitslücken ausnutzen können, zeigt das immense Potenzial künstlicher Intelligenz, aber auch die damit verbundenen Risiken. Es ist entscheidend, dass die Forschung weiterhin unter strengen ethischen und sicherheitstechnischen Rahmenbedingungen erfolgt, um Missbrauch zu verhindern und die positive Nutzung dahingehend zu fördern, dass Systeme sicherer und robuster gemacht werden können.


Quelle: Teams of LLM Agents can Exploit Zero-Day Vulnerabilities DOI: https://doi.org/10.48550/arXiv.2406.01637