Der erste dokumentierte, von KI orchestrierte Cyberangriff erfolgte im September 2025, als eine von der chinesischen Regierung unterstützte Gruppe Claude Code manipulierte, um etwa 30 globale Ziele in Finanzinstituten, Regierungsbehörden und der chemischen Industrie zu infiltrieren. Dies war keine theoretische Übung. Laut Angaben von Anthropic haben die Angreifer gezeigt, dass autonome KI-Agenten ohne nennenswerte menschliche Eingriffe in großem Umfang als Waffen eingesetzt werden können. Dies stellt eine neue Kategorie von fortgeschrittenen, hartnäckigen Bedrohungen dar, auf deren Abwehr sich Sicherheitsteams vorbereiten müssen. Für Sicherheitsteams ist die Botschaft klar: Die Sicherheit durch agentenbasierte KI ist von einem aufkommenden Problem zu einer operativen Notwendigkeit geworden.
Es steht viel auf dem Spiel. Gartner prognostiziert, dass bis Ende 2026 40 % der Unternehmensanwendungen aufgabenspezifische KI-Agenten integrieren werden, gegenüber weniger als 5 % im Jahr 2025. Dennoch haben 80 % der IT-Fachleute bereits erlebt, dass KI-Agenten unbefugte oder unerwartete Aktionen ausführen. Die Kluft zwischen der Geschwindigkeit der Einführung und der Reife der Sicherheit schafft eine Angriffsfläche, die Angreifer aktiv ausnutzen.
Dieser Leitfaden vermittelt Sicherheitsexperten ein umfassendes Verständnis von agentenbasierten KI-Bedrohungen, Bewertungsrahmenwerken und praktischen Implementierungshinweisen zum Schutz autonomer Systeme.
Agentische KI-Sicherheit ist die Disziplin zum Schutz von KI-Systemen, die mithilfe von Tools und externen Ressourcen selbstständig denken, planen und mehrstufige Aufgaben ausführen können. Im Gegensatz zu herkömmlichen KI-Modellen, die innerhalb definierter Grenzen auf Anfragen reagieren, können agentische KI-Systeme Maßnahmen mit realen Konsequenzen ergreifen, darunter das Versenden von E-Mails, das Ausführen von Code, das Ändern von Datenbanken und das Ausführen von API-Aufrufen. Diese Autonomie schafft Sicherheitsherausforderungen, die sich grundlegend von der Sicherung statischer Modelle oder Chatbots unterscheiden.
Die zentrale Herausforderung im Bereich Sicherheit besteht darin, ein Gleichgewicht zwischen Autonomie und Kontrolle herzustellen und gleichzeitig Vertrauensgrenzen aufrechtzuerhalten. Wenn ein KI-Agent selbstständig entscheiden kann, auf eine Datenbank zuzugreifen, ein Dokument zu erstellen und es per E-Mail an einen externen Empfänger zu senden, reicht die herkömmliche Eingabe-Ausgabe-Validierung nicht mehr aus. Sicherheitsteams müssen das gesamte Ökosystem des Agenten berücksichtigen, einschließlich Tools, Speicher, Orchestrierungslogik und Identitätsberechtigungen.
Warum ist das gerade jetzt wichtig? Die rasante Verbreitung bedeutet, dass die meisten Unternehmen innerhalb von 18 Monaten mehrere KI-Agenten einsetzen werden. Unternehmen, die jetzt keine Sicherheitsgrundlagen schaffen, werden mit zunehmender Verbreitung von Agenten in allen Geschäftsbereichen einem immer größeren Risiko ausgesetzt sein.
Die grundlegenden Unterschiede zwischen der Sicherung traditioneller KI-Systeme und agentenbasierter KI-Systeme ergeben sich aus der Architektur und den Fähigkeiten.
Traditionelle KI-Sicherheit konzentriert sich auf Modellintegrität, Schutz von Trainingsdaten und Angriffe während der Inferenz. Die Angriffsfläche ist relativ begrenzt. Es werden Eingaben gemacht und Ausgaben erzeugt. Sicherheitskontrollen konzentrieren sich darauf, zu verhindern, dass feindliche Eingaben die Modellvorhersagen manipulieren, und sicherzustellen, dass die Trainingspipelines nicht kompromittiert werden.
Agentische KI erweitert die Angriffsfläche erheblich. Diese Systeme zeichnen sich durch dynamischen Werkzeuggebrauch, mehrstufige Argumentationsketten, externe Kommunikation und persistenten Speicher über mehrere Sitzungen hinweg aus und folgen dabei Mustern, die denen der Cyber Kill Chain ähneln. Ein Angreifer muss nicht das zugrunde liegende Modell kompromittieren. Durch Manipulation einer beliebigen Komponente im Agenten-Ökosystem kann das Verhalten in Richtung böswilliger Ergebnisse umgelenkt werden.
Tabelle 1: Vergleich zwischen traditionellen KI- und agentenbasierten KI-Sicherheitsaspekten
Die Auswirkungen auf die Sicherheit sind erheblich. Herkömmliche KI-Sicherheitskontrollen, die sich auf die Modellebene konzentrieren, sind zwar notwendig, reichen für agentenbasierte Systeme jedoch nicht aus. Sicherheitsteams müssen die Transparenz und Kontrolle auf die gesamte Agentenarchitektur ausweiten.
Das Verständnis der Architektur agentenbasierter KI-Systeme zeigt auf, wo Sicherheitskontrollen angewendet werden müssen. Moderne KI-Agenten kombinieren vier Hauptkomponenten, die die operative Angriffsfläche bilden.
Komponenten der Agent-Architektur:
Jede Schicht weist unterschiedliche Schwachstellen auf. Angreifer zielen auf die Komponente ab, die ihnen den geringsten Widerstand entgegenbringt, um ihr Ziel zu erreichen.
Der Sicherheitsforscher Simon Willison hat drei Faktoren identifiziert, die in Kombination ein erhebliches Risiko darstellen. Dieses Rahmenwerk hat Martin Fowler in seiner technischen Analyse detailliert beschrieben. Das Verständnis dieses Rahmenwerks hilft Sicherheitsteams dabei, zu erkennen, welche Agentenbereitstellungen die strengsten Kontrollen erfordern.
Die tödliche Dreierkombination besteht aus:
Wenn alle drei Bedingungen gleichzeitig vorliegen, steigt das Risiko dramatisch an. Ein Mitarbeiter mit Zugriff auf Anmeldedaten, der nicht vertrauenswürdige E-Mail-Anhänge verarbeitet und externe Mitteilungen versenden kann, schafft eine Möglichkeit für Datenexfiltration, Diebstahl von Anmeldedaten und Kompromittierung der Lieferkette.
Nicht alle Agent-Bereitstellungen weisen alle drei Merkmale auf. Sicherheitsteams sollten jede Bereitstellung anhand dieser Kriterien bewerten und Kontrollen implementieren, die dem Risikoprofil angemessen sind.
Angreifer nutzen je nach ihren Zielen und der Konfiguration des Agenten verschiedene Ebenen aus.
Angriffe auf die Modellebene:
Angriffe auf die Tool-Ebene:
Angriffe auf die Speicherschicht:
Angriffe auf die Orchestrierungsebene:
Die AWS Agentic AI Security Scoping Matrix bietet einen Rahmen für die Kategorisierung von Agentenbereitstellungen anhand von zwei Dimensionen: Konnektivität (niedrig oder hoch) und Autonomie (niedrig oder hoch). Daraus ergeben sich vier Bereiche, die jeweils unterschiedliche Sicherheitsmaßnahmen erfordern.
Übersicht über die AWS-Scoping-Matrix:
Unternehmen sollten mit der Umsetzung in den Bereichen Scope 1 oder 2 beginnen und erst dann zu höheren Bereichen übergehen, wenn sie ihre Sicherheitsreife unter Beweis gestellt haben. Die Scoping-Matrix wird von OWASP, CoSAI und mehreren Normungsgremien als grundlegendes Rahmenwerk herangezogen.
Das von Anthropic eingeführte Model Context Protocol (MCP) bietet eine standardisierte Schnittstelle für die Kommunikation zwischen Agenten und Tools. MCP verbessert zwar die Interoperabilität, schafft aber auch neue Angriffsvektoren. Sicherheitsteams müssen die Integrität des MCP-Servers überprüfen und die laterale Bewegung zwischen Agenten und verbundenen Tools überwachen.
Die im Dezember 2025 veröffentlichte OWASP Top 10 für agentenbasierte Anwendungen 2026 legt die branchenübliche Taxonomie für Bedrohungen durch agentenbasierte KI-Systeme fest. Dieses Framework wurde unter Mitwirkung von über 100 Sicherheitsforschern entwickelt und wird von Microsoft, NVIDIA, AWS und GoDaddy herangezogen. Es bietet eine maßgebliche Klassifizierung der Sicherheitsrisiken durch agentenbasierte KI.
Die vollständige OWASP Top 10 für Agentic-Anwendungen identifiziert die folgenden Risikokategorien:
Tabelle 2: OWASP Top 10 für Agentenanwendungen 2026
Jedes Sicherheitsteam, das agentenbasierte KI-Systeme betreibt, sollte seine Implementierungen anhand dieser Risikokategorien abgleichen und geeignete Kontrollen implementieren.
Prompt-Injektion stellt in agentenbasierten Kontexten eine besonders gefährliche Bedrohung dar, da Agenten auf manipulierte Anweisungen reagieren können.
Bei der direkten Prompt-Injektion werden bösartige Anweisungen direkt in die Benutzereingabe eingefügt. Ein Angreifer könnte eine Eingabe erstellen, die die ursprünglichen Anweisungen des Agenten mit neuen Zielen überschreibt.
Die indirekte Prompt-Injektion ist heimtückischer. Angreifer betten versteckte Anweisungen in Inhalte ein, die der Agent abruft. Dokumente, E-Mails, Webseiten und Datenbankdatensätze können alle Payloads enthalten, die aktiviert werden, wenn der Agent sie verarbeitet.
Prompts zweiter Ordnung nutzen Multi-Agent-Architekturen aus. Bei dokumentierten Angriffen auf ServiceNow Now Assist betteten Angreifer bösartige Anweisungen in Datenfelder ein, die für den ersten Verarbeitungsagenten harmlos erschienen, aber aktiviert wurden, wenn sie zur Ausführung an einen Agenten mit höheren Berechtigungen weitergeleitet wurden.
OpenAI erklärte im Dezember 2025, dass das Problem der Prompt-Injektion auf architektonischer Ebene möglicherweise nie vollständig gelöst werden kann. Diese Erkenntnis eines führenden KI-Entwicklers unterstreicht die Notwendigkeit mehrschichtiger Abwehrmaßnahmen anstelle der Abhängigkeit von einer einzigen Kontrollmaßnahme.
Eine Meta-Analyse von 78 Studien ergab, dass adaptive Prompt-Injection-Angriffe eine Erfolgsquote von über 85 % erzielen. Selbst Claude Opus 4.5, das mit verbesserten Sicherheitsmaßnahmen entwickelt wurde, zeigte laut Tests von Anthropic eine Erfolgsquote von über 30 % bei gezielten Angriffen.
Die praktische Konsequenz: Unternehmen können sich nicht allein auf Abwehrmaßnahmen auf Modellebene verlassen. Laufzeit-Sicherheitsvorkehrungen, Ausgabevalidierung und Verhaltensüberwachung sind unverzichtbare Ergänzungen. Indirekte Prompt-Injektionen können phishing Angriffe in großem Umfang ermöglichen, bei denen Anmeldedaten oder sensible Daten durch scheinbar legitime Interaktionen mit Agenten extrahiert werden.
Speichervergiftung stellt eine neue Bedrohung dar, die speziell für agentenbasierte Systeme gilt, die ihren Status über mehrere Sitzungen hinweg beibehalten.
Der Angriffsmechanismus besteht darin, den persistenten Speicher eines Agenten mit falschen oder bösartigen Informationen zu manipulieren. Da Agenten ihren gespeicherten Kontext als maßgeblich betrachten, beeinflussen vergiftete Speicher zukünftige Entscheidungen, ohne dass eine wiederholte Ausnutzung erforderlich ist.
Eine im Dezember 2025 veröffentlichte Studie von Galileo AI hat gezeigt, dass 87 % der nachgelagerten Entscheidungen innerhalb von vier Stunden nach der ersten Speichervergiftung beeinträchtigt wurden. Der Kaskadeneffekt bedeutet, dass ein einziges erfolgreiches Vergiftungsereignis Hunderte von nachfolgenden Interaktionen des Agenten beeinträchtigen kann.
Der Vorfall im August 2024, bei dem Daten aus der Slack-KI abgezogen wurden, zeigte, wie Memory Poisoning in der Praxis funktioniert. Forscher haben indirekte Prompt-Injection-Anweisungen in private Slack-Kanäle eingebettet. Als der Slack-KI-Assistent diese Kanäle verarbeitete, fing er an, Zusammenfassungen von Unterhaltungen an Ziele zu schicken, die von Angreifern kontrolliert wurden. Das ist eine Art Insider-Bedrohung, die durch KI ermöglicht wird, bei der der Agent zum unwissenden Komplizen beim Datendiebstahl wird.
Die Eindämmung von Memory Poisoning erfordert eine Speicherisolierung zwischen Vertrauensdomänen, eine Integritätsüberprüfung des gespeicherten Kontexts und eine Verhaltensüberwachung, um anomale Entscheidungsmuster zu erkennen, die auf eine Kompromittierung des Speichers hindeuten.
Die am schnellsten wachsende Angriffsfläche in der Unternehmenssicherheit sind nicht-menschliche Identitäten (NHIs). Laut einer Analyse des Weltwirtschaftsforums übersteigen NHIs heute in Unternehmen die Anzahl menschlicher Identitäten im Verhältnis 50:1, wobei Prognosen davon ausgehen, dass dieses Verhältnis innerhalb von zwei Jahren auf 80:1 ansteigen wird. KI-Agenten stellen eine neue Kategorie von NHIs dar, die eine spezielle Sicherheitssteuerung erfordern.
Branchendaten zeigen, dass 97 % der KI-bezogenen Datenverstöße auf mangelhaftes Zugriffsmanagement zurückzuführen sind. Die Übernahme von SGNL durch CrowdStrike für 740 Millionen US-Dollar im Januar 2026 signalisiert, dass große Sicherheitsanbieter agentenbasierte KI grundsätzlich als Identitätsproblem betrachten.
Herkömmliche Ansätze, bei denen die Berechtigungen für Agenten auf der Grundlage des aufrufenden Benutzers zugewiesen werden, führen zu einer übermäßigen Gefährdung durch Privilegien. Ein Agent, der Forschungsaufgaben ausführt, benötigt nicht denselben Zugriff wie ein Agent, der Finanztransaktionen verarbeitet, selbst wenn beide vom selben Benutzer aufgerufen werden.
Eine effektive NHI-Governance für KI-Agenten erfordert, dass diese als Identitäten erster Klasse mit unabhängigem Lebenszyklusmanagement behandelt werden.
Phasen des Identitätslebenszyklus:
Grundsätze der Unternehmensführung:
Das Problem der Zombie-Agenten verdient besondere Aufmerksamkeit. Agenten, die für Experimente oder Proof-of-Concepts eingerichtet wurden, bleiben oft auch nach Abschluss der Projekte aktiv. Diese Agenten behalten ihren Zugriff, verbrauchen Ressourcen und vergrößern die Angriffsfläche, ohne dass es einen Eigentümer oder eine Aufsicht gibt. Formelle Stilllegungsverfahren müssen Teil jedes Lebenszyklus der Agentenbereitstellung sein.
Die Bedrohungslage für agentenbasierte KI hat sich von theoretisch zu operativ verschoben. In wichtigen Unternehmensplattformen wurden kritische Schwachstellen mit CVSS-Werten über 9,0 entdeckt, von denen mehrere aktiv ausgenutzt werden.
Tabelle 3: Kritische Schwachstellen in agentenbasierten KI-Systemen (2025–2026)
ServiceNow BodySnatcher (CVE-2025-12420)
Die in der KI-Plattform von ServiceNow entdeckte BodySnatcher-Sicherheitslücke ermöglichte es nicht authentifizierten Angreifern, sich nur mit einer E-Mail-Adresse als beliebiger Benutzer, einschließlich Administratoren, auszugeben. Der Exploit nutzte einen fest codierten Authentifizierungscode und eine permissive Kontoverknüpfung, um MFA und SSO zu umgehen, sodass Angreifer KI-Workflows aufrufen und Backdoor-Konten mit erhöhten Berechtigungen erstellen konnten. Unternehmen, die betroffene Versionen der Virtual Agent API verwenden, sollten den Patch-Status unverzüglich überprüfen.
Langflow-Sicherheitslücke (CVE-2025-34291)
Langflow, ein beliebtes Open-Source-Framework für KI-Agenten, enthielt eine kritische Schwachstellenkette, die eine vollständige Übernahme von Konten und die Ausführung von Remote-Code ermöglichte. Zu freizügige CORS-Einstellungen in Kombination mit fehlendem CSRF-Schutz und einem unsicheren endpoint für die Code-Validierung endpoint den Angriffspfad. Alle gespeicherten Zugriffstoken und API-Schlüssel wurden offengelegt, was eine kaskadierende Kompromittierung aller integrierten nachgelagerten Dienste ermöglichte. Das Flodric-Botnetz nutzt diese Schwachstelle aktiv aus.
Microsoft Copilot EchoLeak (CVE-2025-32711)
Die EchoLeak-Sicherheitslücke ist der erste dokumentierte Zero-Click-Angriff auf einen KI-Agenten. Angreifer betten bösartige Eingabeaufforderungen in versteckten Text, Sprecheranmerkungen, Metadaten oder Kommentare in Word-, PowerPoint- oder Outlook-Dokumenten ein. Wenn Opfer mit Copilot interagieren, werden sensible Unternehmensdaten wie E-Mails, OneDrive-Dateien, SharePoint-Inhalte und Teams-Nachrichten über Bild-URL-Parameter exfiltriert, ohne dass der Benutzer dies bemerkt oder interagiert.
Erster KI-gesteuerter Cyberangriff
Im September 2025 gab Anthropic bekannt, dass es zu einer Störung durch den ersten dokumentierten groß angelegten Cyberangriff gekommen war, der von einem KI-Agenten ohne wesentliche menschliche Intervention durchgeführt wurde. Eine von der chinesischen Regierung unterstützte Gruppe manipulierte Claude Code, um Aufklärungsarbeiten durchzuführen, Ziele auszuwählen und Einbruchsversuche bei etwa 30 Organisationen aus den Bereichen Finanzdienstleistungen, Regierung und kritische Infrastruktur durchzuführen.
PhantomRaven Supply Chain
Koi Security entdeckte 126 bösartige npm-Pakete mithilfe einer neuartigen Remote Dynamic Dependencies-Technik. Die Pakete erschienen in der Registrierung leer und harmlos und holten sich erst nach der Installation bösartige Payloads von den Servern der Angreifer. Unter Verwendung von KI-generierten Namen durch eine Technik namens Slopsquatting erzielten diese Pakete vor ihrer Entdeckung über 86.000 Downloads und exfiltrierten npm-Token, cloud und SSH-Schlüssel.
Diese Vorfälle erfordern robuste Reaktionsfähigkeiten, die speziell auf KI-Agentenvektoren ausgerichtet sind. Sicherheitsteams sollten ihre Playbooks aktualisieren und agentenbezogene Untersuchungsverfahren einbeziehen.
Das MIT Sloan Three Essentials Framework bietet einen strukturierten Ansatz für die Sicherheit agentenbasierter KI. Unternehmen müssen umfassende Bedrohungsmodellierung, kontinuierliche Sicherheitstests und Laufzeitschutzmaßnahmen implementieren, die aufeinander abgestimmt sind.
Nur 21 % der Sicherheitsverantwortlichen geben an, vollständige Transparenz über die Abläufe von KI-Agenten zu haben. Weniger als 40 % führen regelmäßig KI-Sicherheitstests durch. Diese Transparenzlücke stellt sowohl ein Risiko als auch eine Chance für Sicherheitsteams dar, ihre Unternehmen durch verbesserte Fähigkeiten zur Erkennung von Bedrohungen von anderen abzuheben.
Die Anpassung der Kontrollen an die Komplexität der Architektur gewährleistet einen angemessenen Schutz, ohne legitime Vorgänge zu behindern.
Umfang 1 (geringe Konnektivität, geringe Autonomie):
Umfang 2 (Hohe Konnektivität, geringe Autonomie):
Umfang 3 (geringe Konnektivität, hohe Autonomie):
Umfang 4 (Hohe Konnektivität, hohe Autonomie):
Der mehrschichtige Laufzeitschutz bekämpft Bedrohungen in jeder Phase des Agent-Betriebs.
Schutzmaßnahmen für die Eingabeschicht:
Schutzmaßnahmen auf Aktionsebene:
Ausgabeschicht-Schutzmaßnahmen:
Anbieterlösungen wie NVIDIA NeMo Guardrails, F5 und Straiker bieten kommerzielle Implementierungen. Unternehmen können auch benutzerdefinierte Guardrails mithilfe von Open-Source-Frameworks erstellen, die ihren spezifischen Anforderungen entsprechen.
Sicherheitsteams sollten diese grundlegenden Kontrollen validieren, bevor sie den Einsatz von agentenbasierter KI skalieren:
Unternehmen müssen agentenbasierte KI-Sicherheitspraktiken an regulatorische Anforderungen und Branchenstandards anpassen. Die Rahmenbedingungen haben sich Ende 2025 erheblich weiterentwickelt, wobei wichtige Veröffentlichungen speziell auf autonome KI-Systeme eingingen.
Tabelle 4: Regulatorischer Rahmen für agentenbasierte KI (Januar 2026)
Das NIST Cyber AI Profile, dessen vorläufiger Entwurf im Dezember 2025 veröffentlicht wurde, ordnet die Schwerpunktbereiche der KI-Sicherheit den Funktionen des Cybersecurity Framework 2.0 zu, darunter „Govern“ (Verwalten), „Identify“ (Identifizieren), „Protect“ (Schützen), „Detect“ (Erkennen), „Respond“ (Reagieren) und „Recover“ (Wiederherstellen). Obwohl dieses Framework nicht rechtsverbindlich ist, wird erwartet, dass es sich zum De-facto-Standard für die KI-Sicherheitsgovernance entwickeln wird.
Das NIST veröffentlichte im Januar 2026 zusätzlich eine Informationsanfrage, in der es um Beiträge zu Sicherheitsaspekten für KI-Agentensysteme bat, wobei insbesondere Prompt Injection, Data Poisoning und fehlgeleitete Ziele, die sich auf reale Systeme auswirken, angesprochen wurden.
Wichtige Rahmenreferenzen:
Unternehmen sollten ihre Compliance -Programme an diese Rahmenwerke anpassen, insbesondere an die OWASP- und MITRE-Leitlinien, die operative Spezifität bieten.
Die Anbieterlandschaft für agentenbasierte KI-Sicherheit hat sich rasant erweitert, wobei sowohl etablierte Plattformen als auch spezialisierte Start-ups Lösungen anbieten. Der identitätsorientierte Ansatz hat besonders an Dynamik gewonnen, da Unternehmen erkennen, dass die Agentensicherheit im Grunde genommen eine Herausforderung im Bereich der Erkennung und Reaktion auf Identitätsbedrohungen darstellt.
Große Unternehmensanbieter wie Palo Alto Networks mit Cortex AgentiX, CrowdStrike mit Falcon Agentic Security und SentinelOne mit Singularity AI SIEM haben spezielle agentenbasierte KI-Sicherheitsfunktionen auf den Markt gebracht. Die Übernahme von SGNL durch CrowdStrike für 740 Millionen US-Dollar zielt speziell auf Echtzeit-Zugriffskontrollen für Menschen, nicht-menschliche Identitäten und autonome KI-Agenten ab.
Auch die Sicherheitsarchitektur auf Browser-Ebene hat sich als Kontrollpunkt etabliert. Google Chrome führte im Dezember 2025 eine mehrschichtige Verteidigungsarchitektur für das Gemini-Agenten-Browsing ein, die einen User Alignment Critic (isoliertes KI-Modell, das vorgeschlagene Aktionen überprüft), Agent Origin Sets (Beschränkung der Interaktionen auf aufgabenrelevante Websites) und obligatorische Benutzerbestätigungen für sensible Aktionen umfasst.
Das Startup-Ökosystem hat erhebliche Investitionen angezogen. WitnessAI sammelte 58 Millionen Dollar für agentenbasierte KI-Governance und Observability. Geordie trat mit 6,5 Millionen Dollar für eine KI-Agenten-Sicherheitsplattform aus der Stealth-Phase hervor. Prophet Security sammelte 30 Millionen Dollar für eine agentenbasierte SOC-Plattform.
Unternehmen, die agentenbasierte KI für Sicherheitsvorgänge einsetzen, berichten von erheblichen Effizienzsteigerungen. Branchenzahlen zeigen, dass sich die Zeit für die Triage von Warnmeldungen um 60 % verkürzt, wenn agentenbasierte KI die erste Untersuchung und Anreicherung übernimmt, sodass menschliche Analysten sich komplexeren Entscheidungsprozessen widmen können.
Vectra AI der Sicherheit agentenbasierter KI aus der Perspektive der Attack Signal Intelligence und erkennt, dass KI-Agenten mit ihrer zunehmenden Verbreitung in Unternehmensnetzwerken sowohl zu potenziellen Angriffsvektoren als auch zu wertvollen Vermögenswerten werden, die geschützt werden müssen.
Die „Assume-Compromise“-Philosophie lässt sich ganz natürlich auf agentenbasierte Systeme übertragen. Anstatt zu versuchen, jeglichen Missbrauch von Agenten allein durch Perimeterkontrollen zu verhindern, müssen sich Unternehmen auf die schnelle Erkennung von anomalem Agentenverhalten, unbefugten Tool-Aufrufen und Identitätsmissbrauchsmustern konzentrieren.
Dies erfordert eine einheitliche Überwachbarkeit über die gesamte moderne Angriffsfläche hinweg, einschließlich der Kommunikation von KI-Agenten, Tool-Aufrufen und Identitätsaktionen. Die Funktionen zur Erkennung und Reaktion im Netzwerk müssen weiterentwickelt werden, um legitime autonome Vorgänge von Manipulationen durch Angreifer unterscheiden zu können. ITDR-Lösungen müssen erweitert werden, um auch nicht-menschliche Identitäten und agentenbezogene Muster des Missbrauchs von Berechtigungen abzudecken.
Das Ziel besteht nicht darin, die Einführung von KI zu blockieren, sondern eine sichere Bereitstellung in großem Maßstab zu ermöglichen und Sicherheitsteams die Transparenz und Signalklarheit zu bieten, die sie benötigen, um in einer agentenbasierten Umgebung sicher arbeiten zu können.
Agentische KI-Sicherheit ist der Schutz von KI-Agenten, die autonom planen, handeln und Entscheidungen treffen können. Im Gegensatz zur traditionellen KI-Sicherheit, die sich auf die Modellintegrität konzentriert, befasst sich die agentische KI-Sicherheit mit der erweiterten Angriffsfläche, die entsteht, wenn KI-Systeme unabhängig auf Tools zugreifen, extern kommunizieren und Maßnahmen mit realen Konsequenzen ergreifen können. Dieser Bereich umfasst die für autonome Systeme spezifische Bedrohungsmodellierung, Laufzeitschutzmechanismen, Identitätsverwaltung für KI-Agenten und die Erkennung von anomalem Agentenverhalten, das auf Kompromittierung oder Manipulation hindeuten könnte.
Die OWASP Top 10 für Agentenanwendungen 2026 identifiziert die primären Risiken als Agent Goal Hijack (ASI01), Tool Misuse (ASI02), Identity and Privilege Abuse (ASI03), Memory Poisoning (ASI04) und Supply Chain (ASI06) als die kritischsten. Diese Risiken verstärken sich, wenn Agenten die „Lethal Trifecta“-Bedingungen erfüllen, d. h. Zugriff auf sensible Daten in Kombination mit der Offenlegung nicht vertrauenswürdiger Inhalte und der Fähigkeit zur externen Kommunikation. Die reale Ausnutzung dieser Risiken hat zu kritischen CVEs mit CVSS-Werten von über 9,0 in wichtigen Unternehmensplattformen geführt.
Generative KI erstellt Inhalte wie Texte, Bilder und Code, arbeitet jedoch in der Regel nach einem Anfrage-Antwort-Muster, wobei jede Interaktion von Menschen überwacht wird. Agentische KI plant und führt mehrstufige Aufgaben autonom aus, nutzt Tools zur Interaktion mit externen Systemen, behält den Speicher über mehrere Sitzungen hinweg bei und kann ohne menschliches Eingreifen reale Aktionen ausführen. Diese Autonomie birgt Sicherheitsrisiken, die über die Prompt-Injektion hinausgehen und den Missbrauch von Tools, das Hijacking von Zielen und Identitätsmissbrauch umfassen. Während sich die Sicherheit generativer KI in erster Linie auf die Sicherheit der Ausgabe konzentriert, muss die Sicherheit agentischer KI das gesamte Agent-Ökosystem berücksichtigen.
Die „Lethal Trifecta“ (tödliche Dreifachgefahr), geprägt von Simon Willison und ausführlich beschrieben von Martin Fowler, beschreibt drei Faktoren, die bei gleichzeitigem Vorhandensein ein schwerwiegendes kombiniertes Risiko darstellen. Der erste Faktor ist der Zugriff auf sensible Daten wie Anmeldedaten, Tokens und vertrauliche Dokumente. Der zweite Faktor ist die Gefährdung durch nicht vertrauenswürdige Inhalte aus Webseiten, E-Mails, Benutzereingaben oder externen APIs. Der dritte Faktor ist die Möglichkeit der externen Kommunikation über E-Mail, Messaging oder API-Aufrufe. Sicherheitsteams sollten jede Agentenbereitstellung anhand dieser Kriterien bewerten und Kontrollen implementieren, die dem durch die vorliegende Kombination entstandenen Risikoprofil angemessen sind.
Implementieren Sie mehrschichtige Laufzeit-Sicherheitsvorkehrungen, die jede Phase des Agent-Betriebs abdecken. Setzen Sie auf der Eingabeebene Prompt-Injection-Klassifizierer und Inhaltsfilter ein, um bösartige Anweisungen zu erkennen und zu entfernen. Implementieren Sie auf der Aktionsebene Tool-Allowlists, Bereichsbeschränkungen und Ratenbegrenzungen, um unbefugte oder übermäßige Aktionen zu verhindern. Verwenden Sie auf der Ausgabeeebene PII-Erkennung, Maskierung sensibler Daten und Antwortvalidierung. Setzen Sie Observability-Tools ein, bevor Sie die Autonomie skalieren, behalten Sie die menschliche Genehmigung für irreversible Aktionen bei und integrieren Sie die Agentenüberwachung in bestehende SOC-Workflows. Beginnen Sie mit Implementierungen mit geringerer Autonomie und fahren Sie erst fort, wenn Sie die Sicherheitsreife nachgewiesen haben.
Nicht-menschliche Identitäten (NHIs) sind digitale Identitäten, die KI-Agenten, Dienstkonten, Bots und automatisierten Prozessen zugewiesen werden, nicht aber menschlichen Benutzern. Mit einem Verhältnis von 50:1 zwischen NHIs und Menschen in heutigen Unternehmen stellen KI-Agenten eine schnell wachsende Kategorie von NHIs dar, die eine spezielle Sicherheitsverwaltung erfordern. Eine effektive Governance erfordert, dass KI-Agenten als erstklassige Identitäten mit unabhängigem Lebenszyklusmanagement, Zugriff mit minimalen Berechtigungen, Just-in-Time-Autorisierung und kontinuierlicher Verhaltensüberwachung behandelt werden, anstatt einfach nur Benutzerberechtigungen zu übernehmen oder bestehende Berechtigungen beizubehalten.
Zu den wichtigsten Rahmenwerken gehören die OWASP Top 10 für Agentic Applications 2026 (veröffentlicht im Dezember 2025), MITRE ATLAS mit 14 neuen agentenorientierten Techniken, die im Oktober 2025 hinzugefügt wurden, der im Dezember 2025 veröffentlichte Entwurf des NIST Cyber AI Profile und ISO/IEC 42001:2023 als erster Zertifizierungsstandard für KI-Managementsysteme. Zu den regulatorischen Anforderungen gehören das EU-KI-Gesetz für die Einstufung von KI mit hohem Risiko, das kalifornische Gesetz SB 53, das im Januar 2026 in Kraft tritt und Risikorahmen für große KI-Entwickler vorschreibt, sowie das texanische Gesetz TRAIGA, das schädliche KI-Ergebnisse verbietet. Unternehmen sollten ihre Sicherheitskontrollen für agentenbasierte KI im Rahmen ihres gesamten Compliance-Programms an diese Rahmenwerke anpassen.