The Cutting Edge: Der unvermeidliche Aufstieg der KI in der offensiven Sicherheit von Strahinja Janjusevic

1. Einleitung: Eine neue Ära des automatisierten Hackings

Die Welt der offensiven Sicherheit erfährt durch die rasanten Fortschritte in der künstlichen Intelligenz einen seismischen Wandel. Der jüngste Aufstieg von Large Language Models (LLMs) hat ungeahnte Möglichkeiten zur Automatisierung, Verbesserung und sogar Revolutionierung des Hacking-Handwerks eröffnet. Wo Hacker früher ausschließlich auf das fundierte Fachwissen und die zeitintensive manuelle Arbeit von menschlichen Fachleuten angewiesen waren, tauchen jetzt KI-gestützte Tools auf, die komplexe Angriffssequenzen durchdenken, planen und ausführen können.

Diese Systeme sind nicht mehr theoretisch oder Science Fiction, sondern werden in einer Vielzahl von Forschungsarbeiten aktiv entwickelt und bewertet. Einige Forscher konzentrieren sich darauf, durch Feinabstimmung tiefes Fachwissen zu vermitteln und hochspezialisierte Experten zu schaffen. Andere entwickeln komplexe, modulare Systeme, die menschliche Teams imitieren und Aufgaben an verschiedene KI-Agenten delegieren. Eine dritte Gruppe geht mit "agentenbasierter" KI bis an die Grenzen der Autonomie und strebt nach Systemen, die mit minimalem menschlichem Eingreifen arbeiten können.

Um sich in dieser neuen und komplexen Landschaft zurechtzufinden, braucht man eine klare Karte. Dieser Artikel befasst sich mit diesem hochaktuellen Bereich und bietet eine vergleichende Analyse der bekanntesten Rahmenwerke. Als Grundlage für unsere Diskussion bietet die folgende Tabelle einen vergleichenden Blick auf den aktuellen Stand der Technik und unsere persönlichen Favoriten, indem sie deren Kernstrategien, Hauptmerkmale und operative Kompromisse aufzeigt. Sie dient als Leitfaden für das Verständnis der verschiedenen Ansätze, die Forscher bei der Entwicklung der nächsten Generation von offensiven Sicherheitstools verfolgen.

Tabelle 1: Vergleichende Analyse von KI-Frameworks für offensive Sicherheit
Name	Ansatz & Speicherverwaltung	Merkmale & Begründung	Stärken und Schwächen
PENTESTGPT [1] (Aug 2024)	Ansatz: Modularer LLM-gestützter Ansatz. Speicher: PTT für Status; PTT; Human-in-the-Loop.	Merkmale: Reasoning-, Generierungs- und Parsing-Module; das Parsing-Modul verdichtet die Eingabe; isolierte LLM-Sitzungen. Reasoning: PTT leitet die nächsten Aufgaben; CoT für die Befehlsgenerierung; aktives Feedback.	Stärken: Vermindert den Verlust von Kontext; strukturierte Aufgabenverwaltung. Schwächen: Abhängig von menschlichem Eingreifen; Schwierigkeiten mit "harten" Zielen; LLM-Halluzinationen.
CIPHER [2] (Nov 2024)	Annäherung: Feinabgestimmte LLM. Gedächtnis: RAG bietet kontextbezogenes Lernen; die Feinabstimmung erhält den Aufgabenkontext.	Merkmale: Chatbot-Assistent; RAG; FARR Flow. Argumentation: Ahmt die Argumentation von Experten nach; schlägt auf der Grundlage der Ergebnisse die nächsten Schritte vor; 3-stufige Pipeline.	Stärken: Spezialisiertes Wissen; ideal für Anfänger. Schwächen: Schlechte Fehlersuche; Datenverzerrung; Kodierung wird nicht betont.
RedTeamLLM [3] (Mai 2025)	Herangehensweise: Agentische KI. Speicher: Memory Manager speichert Spuren als Baum; ADAPT Enhanced verwaltet den Kontext.	Merkmale: 7 Komponenten (Launcher, RedTeamAgent, dynamische Plankorrektur). Begründen: Begründen vor Handeln; rekursive Planung.	Stärken: Bewältigung von Plankorrekturen, Gedächtnisproblemen und Kontextbeschränkungen; hohe Wettbewerbsfähigkeit der CTF. Schwächen: Zustandslose Zusammenfassung kann Informationen auslassen; PoC-Komponenten unausgereift.
PentestAgent [4] (Mai 2025)	Herangehensweise: LLM-Agent basiert. Speicher: RAG fungiert als Langzeitgedächtnis und gewährleistet eine effiziente Nutzung des Kontexts.	Merkmale: Multi-Agenten-Design; RAG; Werkzeug-Integration. Begründen: Planungsagent entwirft Strategien; andere Agenten führen Phasen aus.	Stärken: Verbessert das Wissen; automatisiert das Sammeln, Analysieren und Auswerten von Informationen. Schwachstellen: Hängt von der Datenqualität der RAG und der Fähigkeit zur Nutzung des LLM-Tools ab.
VulnBot [5] (Jan 2025)	Herangehensweise: Agentische KI (Multi-Agent). Gedächtnis: Summarizer konsolidiert Informationen; Memory Retriever (Vector DB & RAG) für Kontext.	Merkmale: Drei-Phasen-Design; PTG; Reflexionsmechanismus; RAG. Begründungen: PTG modelliert Aufgabenabhängigkeiten; Plan Session reflektiert über Feedback.	Stärken: Simuliert menschliche Teams; automatisiert Arbeitsabläufe; verwendet Open-Source-LLMs. Schwachstellen: Leistung hängt von den zugrunde liegenden LLMs ab; komplexe Koordination.
AutoAttacker [6] (März 2024)	Herangehensweise: Agentische KI (ReAct). Gedächtnis: Experience Manager wird konsultiert, um die aktuelle Aktion zu validieren.	Merkmale: LLM-Planung; Zusammenfassung; Codegenerierung; Metasploit-Integration; Episodischer "Experience Manager". Überlegungen: Schleife im Stil von ReAct: planen, ausführen, beobachten, wiederholen.	Stärken: Effektiv bei isolierten Sicherheitsaufgaben, insbesondere nach einer Penetration. Schwächen: Konzentriert sich auf die Zeit nach der Penetration; der Speicher validiert die aktuelle Aktion, aktualisiert den Plan nicht.
HackingBuddyGPT [7] (2023)	Ansatz: LLM-gesteuerte Ausbeutung. Speicher: Verlässt sich auf das Kontextfenster des LLM.	Merkmale: Lokaler Agent für SSH/Web-Angriffe; fordert kompatible LLMs auf. Begründung: LLM erkennt und nutzt kontextabhängige Schwachstellen aus.	Stärken: Beschleunigt die frühzeitige Untersuchung; Nicht-Determinismus kann sich der Entdeckung entziehen. Schwachstellen: Begrenzt durch konfiguriertes LLM; konzentriert sich auf einfache Schwachstellen.
PenTest++ [8] (Feb 2025)	Ansatz: KI-unterstützte Automatisierung. Speicher: Verlässt sich auf die Kontextverwaltung von ChatGPT.	Merkmale: Integriert GenAI (ChatGPT) für alle Pentesting-Phasen. Begründungen: ChatGPT analysiert Daten und bietet Einblicke.	Stärken: Rationalisiert das Scannen; automatisiert sich wiederholende Aufgaben; analysiert komplexe Daten. Schwächen: Betont die ethischen Sicherheitsvorkehrungen und die ständige Verfeinerung.
HackSynth [9] (Dezember 2024)	Ansatz: Agentische KI (Vereinfachtes ReAct). Speicher: Es wird unterstellt, dass er auf das Kontextfenster des LLM angewiesen ist.	Merkmale: Planer und Summarizer in einer Denk-Denk-Schleife. Begründen: Denken-dann-Handeln-Schleife.	Stärken: Zeigt, dass die Temperatur und die Größe des Kontextes über die architektonische Neuheit dominieren. Schwächen: Hervorhebung der Bedeutung der LLM-Parameter gegenüber dem Rahmen selbst.

2. Drei Wege zum KI-gestützten Hacking

Auf dem Weg zur Nutzung von LLMs für die offensive Sicherheit haben sich drei wesentliche Architekturphilosophien herauskristallisiert, die jeweils eine Reihe von Kompromissen mit sich bringen.

2.1. Feinabgestimmte Modelle: Die Fachleute

Bei diesem Ansatz wird ein vortrainiertes LLM verwendet und anhand umfangreicher, spezialisierter Datensätze aus dem Cybersicherheitsbereich weiter trainiert. Die Stärke der Feinabstimmung liegt in der Erzielung hoher Genauigkeit und Relevanz für spezifische, genau definierte Aufgaben. Diese Modelle können ein hohes Maß an Kompetenz für bestimmte Aufgaben erreichen, was zu genaueren und kontextrelevanten Ergebnissen für bekannte Szenarien führt. Durch die Konzentration des Trainings auf relevante Daten kann die Feinabstimmung auch die Wahrscheinlichkeit verringern, dass das LLM irrelevante oder faktisch falsche Informationen (Halluzinationen) erzeugt, wenn es in seinem spezialisierten Bereich arbeitet. Für hochspezifische Aufgaben könnte es sogar möglich sein, kleinere, effizientere LLMs feinabzustimmen. Dieser Ansatz hat jedoch Schwächen. Die Erstellung hochwertiger, umfassender und unvoreingenommener Datensätze ist ein erhebliches Unterfangen. Darüber hinaus zeichnen sich diese Modelle innerhalb ihrer Trainingsdistribution aus, haben aber möglicherweise Schwierigkeiten, sich an völlig neue Schwachstellen, Tools oder Angriffsszenarien anzupassen. Die schiere Breite der offensiven Sicherheit macht es auch schwierig, ein einziges, fein abgestimmtes Modell zu erstellen, das alle Aspekte effektiv abdeckt.

2.2. LLM-gestützte modulare Rahmenwerke: Die Teamplayer

Diese Systeme verwenden LLMs als intelligente Komponenten innerhalb einer größeren, strukturierten Architektur. Sie unterteilen den Penetrationstestprozess oft in verschiedene Phasen, die von unterschiedlichen Modulen verwaltet werden, und mildern so LLM-Beschränkungen wie Kontextverlust durch Isolierung von Belangen. PENTESTGPT ^[1] und VulnBot ^[5] beispielsweise verwenden Multi-Agenten-Designs, bei denen sich verschiedene Agenten auf Phasen wie Erkundung, Planung und Ausbeutung spezialisieren. Zu den Stärken dieses Ansatzes gehören ein strukturierteres Aufgabenmanagement und die Fähigkeit, den Fokus beizubehalten, was zu einer zuverlässigeren Erledigung von Teilaufgaben führt. Sie können auch Retrieval Augmented Generation (RAG) einbeziehen, um externe Daten einzuholen, was ihnen eine dynamischere Wissensbasis verschafft. Die primären Schwachpunkte sind die technische Komplexität der Koordinationsmodule und die häufige Abhängigkeit von einem "Human-in-the-Loop" für komplexe Entscheidungen.

2.3. Agentische KI-Systeme: Die autonomen Operatoren

Dies ist der ehrgeizigste Ansatz, der darauf abzielt, KI-Agenten zu schaffen, die komplexe, langwierige Aufgaben mit minimaler menschlicher Aufsicht planen, ausführen und anpassen können. RedTeamLLM ^[3] veranschaulicht dies mit einer integrierten Architektur zur Automatisierung von Pentesting-Aufgaben. Die Stärken von Agentensystemen liegen in ihrer Auslegung auf komplexe, mehrstufige Aufgaben durch Planung, Aufgabenzerlegung und iterative Ausführung. Sie können so ausgestattet werden, dass sie verschiedene Werkzeuge dynamisch nutzen und mit Zielumgebungen interagieren. Mit robuster Plankorrektur und Lernfähigkeit haben sie das Potenzial für größere Autonomie und Anpassungsfähigkeit. Die größten Schwächen bestehen darin, dass die Effektivität des Agenten stark von den logischen Fähigkeiten des zugrunde liegenden LLM abhängt. Fehlerhaftes Denken, Voreingenommenheit oder Irrtümer können sich ausbreiten und verstärken, was zum Scheitern der Mission führen kann.

RedTeamLLM-Leistung in einem unbekannten Netz

3. Die zu überwindenden Hürden

Trotz des raschen Fortschritts bleiben bei allen Ansätzen mehrere grundlegende Herausforderungen bestehen. Der Verlust von Kontext ist ein zentraler Engpass; das begrenzte Kontextfenster aktueller LLMs behindert direkt ihre Fähigkeit, anspruchsvolle Operationen durchzuführen, die das Abrufen und Zusammenführen von Informationen im Laufe der Zeit erfordern. Durch architektonische Innovationen wird versucht, einen externen, strukturierten Speicher bereitzustellen, doch bleibt dies ein zentrales Problem. LLMs können auch Schwierigkeiten haben, ihre logischen Fähigkeiten konsequent auf das Erreichen eines Endziels anzuwenden, insbesondere wenn der Weg mehrere voneinander abhängige Schritte umfasst. Außerdem neigen LLMs dazu, die jüngsten Aufgaben oder Informationen überzubewerten und dabei möglicherweise früher erkannte Schwachstellen zu vernachlässigen. Schließlich ist das gut dokumentierte Problem der Halluzination, bei dem LLMs plausible, aber falsche Informationen erzeugen, ein großes Problem für die Zuverlässigkeit bei autonomen Operationen.

4. Das neue Schlachtfeld: KI in der gesamten Cyber-Kill-Chain

Die Fortschritte in der KI haben tiefgreifende Auswirkungen nicht nur auf einzelne Aufgaben, sondern auf jede Phase der Cyber-Kill-Chain. Von der ersten Aufklärung bis zur endgültigen Exfiltration sind KI-Agenten in der Lage, den gesamten Angriffslebenszyklus zu verbessern, zu beschleunigen und zu automatisieren.

4.1. Offensive und defensive Anwendungen

In der Aufklärungsphase kann KI den Prozess der massenhaften Sammlung von Open-Source-Intelligence (OSINT) automatisieren und Daten aus unterschiedlichen Quellen miteinander verknüpfen, um detaillierte Profile von Zielorganisationen und Einzelpersonen zu erstellen. In den Phasen Weaponization und Delivery können LLMs äußerst überzeugende, personalisierte phishing erstellen oder polymorphe malware generieren, die sich der signaturbasierten Erkennung entzieht. In der Ausnutzungs- und Installationsphase können Agentensysteme selbstständig nach Schwachstellen suchen, geeignete Exploits auswählen und sich auf einem kompromittierten System festsetzen. Für Command and Control (C2) können KIs getarnte Kommunikationskanäle entwickeln, die sich in den normalen Netzwerkverkehr einfügen. Schließlich kann eine KI im Rahmen von Actions on Objectives die Datenexfiltration automatisieren, indem sie auf intelligente Weise sensible Informationen identifiziert und für die Extraktion verpackt. Auf der defensiven Seite kann dieselbe Leistung genutzt werden, um robustere Sicherheitsvorkehrungen zu treffen, wobei KI-Systeme den Netzwerkverkehr auf Anomalien analysieren, Angreiferbewegungen vorhersagen und die Reaktion auf Vorfälle automatisieren.

4.2. Das Model Context Protocol (MCP) ändert das Spiel

Das Aufkommen eines standardisierten Machine Context Protocol (MCP) könnte diese Fähigkeiten durch die nahtlose Kommunikation zwischen verschiedenen spezialisierten KI-Agenten und -Tools noch weiter verbessern. Ein offensiver KI-Agent könnte MCP nutzen, um einen spezialisierten Aufklärungsagenten nach Zielinformationen zu fragen, eine benutzerdefinierte Nutzlast von einem malware anzufordern oder einen mehrstufigen Angriff mit anderen Exploitationsagenten zu koordinieren. Dies ermöglicht eine beispiellose Automatisierung, Modularität und Standardisierung der Art und Weise, wie offensive KI-Agenten auf Tools und Dienste in der gesamten Angriffskette zugreifen und diese nutzen, wodurch Angriffe ausgefeilter und schwieriger abzuwehren sind.

5. Zukunftsschock: Was kommt auf uns zu?

Die derzeitige Entwicklung der KI deutet auf Fähigkeiten hin, die früher nur in der Science-Fiction zu finden waren. Die Verschmelzung von agentenbasierten Systemen, riesigen Datensätzen und spezialisierten Modellen wird wahrscheinlich zu paradigmenverändernden Angriffswerkzeugen führen. Einige Beispiele hierfür sind: KI-generierte Zero-Days Eine der tiefgreifendsten Möglichkeiten ist die Generierung von KI-gesteuerten zero-day . Dies stellt den heiligen Gral des Hackens dar, bei dem die Entdeckung von Schwachstellen nicht länger ein rein menschliches Unterfangen ist. Stellen Sie sich eine KI vor, die kontinuierlich Open-Source-Code-Repositories, proprietäre Software-Binärdateien und Firmware analysiert und dabei nicht nur nach bekannten Schwachstellenmustern, sondern auch nach völlig neuen Fehlerklassen sucht. Durch das Erlernen der abstrakten Prinzipien der Software- und Hardware-Interaktion (Speicherverwaltung, Datenverarbeitung, logische Abläufe) könnte ein solches System subtile logische Fehler, Race Conditions und unerwartete Interaktionen erkennen, die menschlichen Forschern möglicherweise entgehen. Dies könnte zu einem ständigen Strom bisher unbekannter Schwachstellen führen, die das Kräfteverhältnis zwischen Angreifern und Verteidigern dramatisch verschieben und herkömmliche Patch-Zyklen überflüssig machen.

Autonomes Schwarm-Hacking

Eine weitere paradigmenverändernde Möglichkeit ist das Konzept des autonomen Schwarm-Hackings. Dieses Konzept geht über die Vorstellung eines einzelnen Agenten hinaus und stellt einen koordinierten Angriff mehrerer Agenten vor. Anstelle eines linearen Angriffs könnte man sich einen Schwarm von Dutzenden oder sogar Hunderten spezialisierter KI vorstellen, die gegen ein Zielnetz eingesetzt werden. Aufklärungsagenten würden das Terrain kartieren, Schwachstellenagenten würden nach Schwachstellen suchen, und Exploitation-Agenten würden auf die Ergebnisse reagieren - all dies kann als paralleler Angriff koordiniert werden. Dieser Schwarm könnte sich in Echtzeit an Verteidigungsmaßnahmen anpassen, seinen Angriffspfad umleiten, wenn ein Vektor blockiert ist, und Informationen unter den Agenten austauschen, um den Weg des geringsten Widerstands zu finden. Die Geschwindigkeit, der Umfang und die Anpassungsfähigkeit eines solchen Angriffs wären für herkömmliche, von Menschen geleitete Sicherheitszentralen, die darauf ausgelegt sind, eine Handvoll gleichzeitiger Bedrohungen zu verfolgen und darauf zu reagieren, überwältigend.

Hyper-personalisiertes Social Engineering

KI wird wahrscheinlich auch die Kunst des Betrugs perfektionieren. Die nächste Generation von Social-Engineering-Angriffen wird stark personalisiert und dynamisch anpassbar sein. Durch die Synthese von Informationen aus sozialen Medien, beruflichen Netzwerken und verletzten Daten könnte eine KI hyper-personalisierte phishing generieren, die von legitimer Korrespondenz nicht zu unterscheiden sind und sich auf kürzlich geführte Gespräche, gemeinsame Interessen und spezifische Projekte beziehen. Darüber hinaus könnte sie einen CEO für einen Vishing-Anruf stimmlich klonen, der in Echtzeit auf Fragen antworten kann, oder eine gefälschte Social-Media-Kampagne durchführen, die so überzeugend ist, dass sie über Wochen oder Monate hinweg das Vertrauen einer Zielperson aufbaut, bevor sie aktiv wird. Diese Art der psychologischen Manipulation, die in großem Maßstab und mit perfekter Erinnerung an die Geschichte und die Persönlichkeit der Zielperson ausgeführt wird, stellt eine gewaltige Bedrohung dar, die technische Schutzmaßnahmen vollständig umgeht.

Vorausschauende Ausnutzung und automatisierte Verteidigung

Der Wettlauf zwischen Angreifern und Verteidigern wird sich auf Maschinengeschwindigkeit beschleunigen. Offensive KI könnte die Aufgabe haben, nicht nur bestehende Schwachstellen zu finden, sondern auch künftige vorherzusagen. Durch die Analyse der Entwicklungsgeschwindigkeit und der Programmiergewohnheiten eines Softwareprojekts könnte eine KI vorhersagen, wo Bugs am wahrscheinlichsten auftreten werden. Im Gegenzug werden defensive KIs die andere Seite der Gleichung automatisieren. Stellen Sie sich einen defensiven Agenten vor, der sein eigenes Netzwerk überwacht, eine neue Sicherheitslücke identifiziert, einen benutzerdefinierten Patch erstellt, ihn in einer Sandbox-Umgebung testet und ihn im gesamten Unternehmen einsetzt - und das alles innerhalb von Minuten nach Bekanntgabe der Sicherheitslücke und lange bevor ein menschliches Team überhaupt eine Sitzung einberufen könnte.

KI-gesteuerte Desinformations- und Beeinflussungsoperationen

Neben direkten Netzwerkangriffen wird die KI auch die Einflussnahme revolutionieren. Staatlich geförderte oder böswillige Akteure könnten Schwärme von KI-Agenten einsetzen, um äußerst glaubwürdige Desinformationen über soziale Medien, Foren und Nachrichtenseiten zu erstellen und zu verbreiten. Diese Agenten könnten gefälschte Personas mit jahrelangem, konsistentem Posting-Verlauf erstellen, sich auf nuancierte Argumente einlassen und ihre Botschaften auf der Grundlage der öffentlichen Reaktionen anpassen. Sie könnten eingesetzt werden, um die öffentliche Meinung zu manipulieren, Wahlen zu stören oder soziale Unruhen zu schüren, und zwar mit einer Raffinesse und einem Umfang, der die heutigen Botnets primitiv erscheinen lässt. Um solche Kampagnen aufzuspüren und zu bekämpfen, bedarf es einer ebenso ausgefeilten KI-gestützten Inhaltsanalyse und Netzwerkkartierung.

6. Schlussfolgerung

Die Integration von KI in die offensive Sicherheit ist nicht länger eine theoretische Übung, sondern eine schnell voranschreitende Realität, die die Cyber-Bedrohungslandschaft umgestaltet. Die Entwicklung von fein abgestimmten Spezialisten, kollaborativen modularen Systemen und autonomen Agenten zeigt einen klaren Weg hin zu ausgefeilteren und automatisierten Angriffsmöglichkeiten. Zwar gibt es nach wie vor erhebliche Hürden wie die Speicherung von Kontexten und die Konsistenz der Datenerfassung, doch das Innovationstempo ist atemberaubend. Die wahren Auswirkungen dieser Technologien werden in der gesamten Cyber-Kill-Chain zu spüren sein, von der KI-gesteuerten Aufklärung bis zur automatisierten Exfiltration. Der Kampf zwischen Angreifern und Verteidigern wird zunehmend zu einem maschinengesteuerten Hochgeschwindigkeits-Schachspiel. Der Erfolg in dieser neuen Ära wird nicht nur davon abhängen, auf Bedrohungen zu reagieren, sondern auch davon, diese leistungsstarken KI-Fähigkeiten proaktiv zu verstehen und zu nutzen, um eine Verteidigung aufzubauen, die so intelligent, anpassungsfähig und autonom ist wie die Angriffe, die sie stoppen soll. Die Zukunft der Sicherheit gehört denjenigen, die in dieser neuen KI-gestützten Arena vorausschauen und innovativ sein können.

Referenzen

[1] Deng, G., et al. (2024). PENTESTGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing. In 33rd USENIX Security Symposium (USENIX Security 24).

[2] Pratama, D., et al. (2024). CIPHER: Cybersecurity Intelligent Penetration-Testing Helper for Ethical Researcher. Sensors, 24, 6878.

[3] Challita, B. & Parrend, P. (2025). RedTeamLLM: an Agentic AI framework for offensive security. arXiv preprint arXiv:2505.06913.

[4] Shen, X., et al. (2025). PentestAgent: Incorporating LLM Agents to Automated Penetration Testing. In ACM Asia Conference on Computer and Communications Security (ASIA CCS '25).

[5] Kong, H., et al. (2025). VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework. arXiv preprint arXiv:2501.13411.

[6] Xu, J., et al. (2024). AUTOATTACKER: A Large Language Model Guided System to Implement Automatic Cyber-attacks. arXiv preprint arXiv:2403.01038.

[7] Happe, A. & Cito, J. (2023). Getting pwn'd by AI: Penetration Testing with Large Language Models. In Proceedings of the 31st ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering (ESEC/FSE '23).

[8] Al-Sinani, H. S. & Mitchell, C. J. (2025). PenTest++: Elevating Ethical Hacking with AI and Automation. arXiv preprint arXiv:2502.09484.

[9] Muzsai, L., Imolai, D., & Luk' acs, A. (2024). HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing. arXiv preprint arXiv:2412.01778.

[10] Zhang, A. K., et al. (2025). CYBENCH: A FRAMEWORK FOR EVALUATING CYBERSECURITY CAPABILITIES AND RISKS OF LANGUAGE MODELS. Wird auf der International Conference on Learning Representations (ICLR 2025) veröffentlicht.

‍

The Cutting Edge: Der unausweichliche Aufstieg der KI in der offensiven Sicherheit