Event
23:00
-
00:00
Day 3
Von Fuzzern zu Agenten: Entwicklung eines Cyber Reasoning Systems für die AIxCC
Recorded
official
Security
Die AI Cyber Challenge (AIxCC) der DARPA hatte zum Ziel, die Grenzen der autonomen Cybersicherheit zu erweitern: Können AI-Systeme Software-Schwachstellen unabhängig, in Echtzeit und ohne menschliche Hilfe identifizieren, verifizieren und beheben? Im Laufe von zwei Jahren entwickelten Teams aus aller Welt „Cyber Reasoning Systems“ (CRS), die in der Lage sind, komplexe Open-Source-Software zu analysieren, Code zu analysieren, reproducer zu generieren, um zu zeigen, dass ein gemeldeter Fehler kein Fehlalarm ist, und schließlich Patches zu synthetisieren. Unser Team nahm an dieser Challenge teil und entwickelte von Grund auf ein eigenes CRS. In diesem Vortrag geben wir Einblicke in den Wettbewerb: Wie funktioniert die LLM-gesteuerte Schwachstellenerkennung tatsächlich, welche Designentscheidungen sind wichtig und wie sind die Finalisten-Teams an das Problem herangegangen?

Die AIxCC (DARPA’s AI Cyber Challenge) ist ein zweijähriger Wettbewerb, dessen Ziel es war, die Möglichkeiten der automatisierten Erkennung und Behebung von Sicherheitslücken zu verbessern. Dabei sollte ein autonomes, in sich geschlossenes System entwickelt werden, das Software analysiert, Schwachstellen erkennt, diese mithilfe von Reproducern nachweist und anschließend sichere Patches erzeugt.

Unser Team hat sich diesem globalen Experiment angeschlossen und ein eigenes Cyber Reasoning System (CRS) von Grund auf neu entwickelt. Dazu haben wir mehrere Agenten entwickelt. Unser System profitierte von der Kombination klassischer Techniken wie Fuzzing mit modernen Large Language Models (LLMs). Die Synergie zwischen diesen Ansätzen erwies sich als leistungsfähiger als jede der beiden Techniken für sich allein, sodass unser CRS Software auf eine Weise untersuchen und patchen konnte, wie es weder Fuzzing noch LLMs allein leisten konnten.

In diesem Vortrag werden wir:

  • das Konzept und die Ziele hinter AIxCC erläutern
  • durchgehen, wie ein CRS tatsächlich funktioniert und wie wir unseres entwickelt haben
  • zeigen, wie LLMs traditionelle Fuzzing- und Analyse-Techniken unterstützen können
  • Beobachtungen zu den Strategien der Finalisten-Teams teilen