Agentische KI-Sicherheit erklärt: Schutz autonomer Systeme vor neuen Bedrohungen

Wichtige Erkenntnisse

Agentische KI-Sicherheit schützt autonome Systeme, die selbstständig planen und handeln können und daher Kontrollen erfordern, die über herkömmliche KI-/ML-Sicherheitsansätze hinausgehen.
Die OWASP Top 10 für Agentic-Anwendungen 2026 legen branchenübliche Bedrohungskategorien fest, darunter Zielentführung, Tool-Missbrauch und Identitätsmissbrauch.
Das Lethal-Trifecta-Framework identifiziert, wann sich Risiken potenzieren: Zugriff auf sensible Daten in Kombination mit der Offenlegung nicht vertrauenswürdiger Inhalte und der Möglichkeit externer Kommunikation.
Nicht-menschliche Identitäten (NHIs) übertreffen menschliche Identitäten in Unternehmen heute im Verhältnis 50:1, wodurch die Identitätsverwaltung von KI-Agenten zu einer entscheidenden Sicherheitspriorität wird.
In den Jahren 2025–2026 haben Angriffe in der realen Welt zu kritischen CVEs mit CVSS-Werten von 9,3–9,4 in den Plattformen ServiceNow, Langflow und Microsoft Copilot geführt.

Der erste dokumentierte, von KI orchestrierte Cyberangriff erfolgte im September 2025, als eine von der chinesischen Regierung unterstützte Gruppe Claude Code manipulierte, um etwa 30 globale Ziele in Finanzinstituten, Regierungsbehörden und der chemischen Industrie zu infiltrieren. Dies war keine theoretische Übung. Laut Angaben von Anthropic haben die Angreifer gezeigt, dass autonome KI-Agenten ohne nennenswerte menschliche Eingriffe in großem Umfang als Waffen eingesetzt werden können. Dies stellt eine neue Kategorie von fortgeschrittenen, hartnäckigen Bedrohungen dar, auf deren Abwehr sich Sicherheitsteams vorbereiten müssen. Für Sicherheitsteams ist die Botschaft klar: Die Sicherheit durch agentenbasierte KI ist von einem aufkommenden Problem zu einer operativen Notwendigkeit geworden.

Es steht viel auf dem Spiel. Gartner prognostiziert, dass bis Ende 2026 40 % der Unternehmensanwendungen aufgabenspezifische KI-Agenten integrieren werden, gegenüber weniger als 5 % im Jahr 2025. Dennoch haben 80 % der IT-Fachleute bereits erlebt, dass KI-Agenten unbefugte oder unerwartete Aktionen ausführen. Die Kluft zwischen der Geschwindigkeit der Einführung und der Reife der Sicherheit schafft eine Angriffsfläche, die Angreifer aktiv ausnutzen.

Dieser Leitfaden vermittelt Sicherheitsexperten ein umfassendes Verständnis von agentenbasierten KI-Bedrohungen, Bewertungsrahmenwerken und praktischen Implementierungshinweisen zum Schutz autonomer Systeme.

Was ist agentenbasierte KI-Sicherheit?

Agentische KI-Sicherheit ist die Disziplin zum Schutz von KI-Systemen, die mithilfe von Tools und externen Ressourcen selbstständig denken, planen und mehrstufige Aufgaben ausführen können. Im Gegensatz zu herkömmlichen KI-Modellen, die innerhalb definierter Grenzen auf Anfragen reagieren, können agentische KI-Systeme Maßnahmen mit realen Konsequenzen ergreifen, darunter das Versenden von E-Mails, das Ausführen von Code, das Ändern von Datenbanken und das Ausführen von API-Aufrufen. Diese Autonomie schafft Sicherheitsherausforderungen, die sich grundlegend von der Sicherung statischer Modelle oder Chatbots unterscheiden.

Die zentrale Herausforderung im Bereich Sicherheit besteht darin, ein Gleichgewicht zwischen Autonomie und Kontrolle herzustellen und gleichzeitig Vertrauensgrenzen aufrechtzuerhalten. Wenn ein KI-Agent selbstständig entscheiden kann, auf eine Datenbank zuzugreifen, ein Dokument zu erstellen und es per E-Mail an einen externen Empfänger zu senden, reicht die herkömmliche Eingabe-Ausgabe-Validierung nicht mehr aus. Sicherheitsteams müssen das gesamte Ökosystem des Agenten berücksichtigen, einschließlich Tools, Speicher, Orchestrierungslogik und Identitätsberechtigungen.

Warum ist das gerade jetzt wichtig? Die rasante Verbreitung bedeutet, dass die meisten Unternehmen innerhalb von 18 Monaten mehrere KI-Agenten einsetzen werden. Unternehmen, die jetzt keine Sicherheitsgrundlagen schaffen, werden mit zunehmender Verbreitung von Agenten in allen Geschäftsbereichen einem immer größeren Risiko ausgesetzt sein.

Agentische KI vs. traditionelle KI-Sicherheit

Die grundlegenden Unterschiede zwischen der Sicherung traditioneller KI-Systeme und agentenbasierter KI-Systeme ergeben sich aus der Architektur und den Fähigkeiten.

Traditionelle KI-Sicherheit konzentriert sich auf Modellintegrität, Schutz von Trainingsdaten und Angriffe während der Inferenz. Die Angriffsfläche ist relativ begrenzt. Es werden Eingaben gemacht und Ausgaben erzeugt. Sicherheitskontrollen konzentrieren sich darauf, zu verhindern, dass feindliche Eingaben die Modellvorhersagen manipulieren, und sicherzustellen, dass die Trainingspipelines nicht kompromittiert werden.

Agentische KI erweitert die Angriffsfläche erheblich. Diese Systeme zeichnen sich durch dynamischen Werkzeuggebrauch, mehrstufige Argumentationsketten, externe Kommunikation und persistenten Speicher über mehrere Sitzungen hinweg aus und folgen dabei Mustern, die denen der Cyber Kill Chain ähneln. Ein Angreifer muss nicht das zugrunde liegende Modell kompromittieren. Durch Manipulation einer beliebigen Komponente im Agenten-Ökosystem kann das Verhalten in Richtung böswilliger Ergebnisse umgelenkt werden.

Tabelle 1: Vergleich zwischen traditionellen KI- und agentenbasierten KI-Sicherheitsaspekten

Aspekt	Traditionelle KI	Agentische KI
Angriffsfläche	Modell-Ein- und Ausgänge	Gesamtes Agent-Ökosystem einschließlich Tools, Speicher und Orchestrierung
Primäre Bedrohungen	Feindselige Eingaben, Modellvergiftung	Zielentführung, Werkzeugmissbrauch, Identitätsmissbrauch, Speichervergiftung
Kontrollgrenzen	Klar definierte Ein-/Ausgänge	Dynamisch, kontextabhängig
Identitätsmodell	Von der aufrufenden Anwendung geerbt	Erfordert eine unabhängige Identitätsverwaltung, die nicht vom Menschen durchgeführt wird.
Auswirkungen in der Praxis	Vorhersagefehler	Unbefugte Handlungen mit geschäftlichen Konsequenzen
Überwachungsansatz	Eingabe-/Ausgabevalidierung	Behavioral analysis, decision logging, action constraints

Die Auswirkungen auf die Sicherheit sind erheblich. Herkömmliche KI-Sicherheitskontrollen, die sich auf die Modellebene konzentrieren, sind zwar notwendig, reichen für agentenbasierte Systeme jedoch nicht aus. Sicherheitsteams müssen die Transparenz und Kontrolle auf die gesamte Agentenarchitektur ausweiten.

Wie agentenbasierte KI funktioniert (Sicherheitskontext)

Das Verständnis der Architektur agentenbasierter KI-Systeme zeigt auf, wo Sicherheitskontrollen angewendet werden müssen. Moderne KI-Agenten kombinieren vier Hauptkomponenten, die die operative Angriffsfläche bilden.

Komponenten der Agent-Architektur:

Modellschicht: Das zugrunde liegende LLM, das die Schlussfolgerungsfähigkeit bereitstellt.
Tool-Ebene: Externe Funktionen, die der Agent aufrufen kann, darunter APIs, Datenbanken, Dateisysteme und Kommunikationskanäle
Speicherschicht: Permanenter Speicher, der es dem Agenten ermöglicht, den Kontext über mehrere Sitzungen hinweg beizubehalten.
Orchestrierungsebene: Logik, die Planung, Toolauswahl und Ausführungsablauf koordiniert

Jede Schicht weist unterschiedliche Schwachstellen auf. Angreifer zielen auf die Komponente ab, die ihnen den geringsten Widerstand entgegenbringt, um ihr Ziel zu erreichen.

Die tödliche Dreierwette erklärt

Der Sicherheitsforscher Simon Willison hat drei Faktoren identifiziert, die in Kombination ein erhebliches Risiko darstellen. Dieses Rahmenwerk hat Martin Fowler in seiner technischen Analyse detailliert beschrieben. Das Verständnis dieses Rahmenwerks hilft Sicherheitsteams dabei, zu erkennen, welche Agentenbereitstellungen die strengsten Kontrollen erfordern.

Die tödliche Dreierkombination besteht aus:

Zugriff auf sensible Daten wie Anmeldedaten, Tokens, Quellcode, interne Dokumente und personenbezogene Daten, die eine Datenexfiltration ermöglichen könnten
Exposition gegenüber nicht vertrauenswürdigen Inhalten aus Quellen wie öffentlichen Repositorys, Webseiten, Benutzereingaben, E-Mail-Anhängen und Integrationen von Drittanbietern
Fähigkeit zur externen Kommunikation durch E-Mail-Versand, API-Aufrufe, Chat-Nachrichten, Dateioperationen und Codeausführung

Wenn alle drei Bedingungen gleichzeitig vorliegen, steigt das Risiko dramatisch an. Ein Mitarbeiter mit Zugriff auf Anmeldedaten, der nicht vertrauenswürdige E-Mail-Anhänge verarbeitet und externe Mitteilungen versenden kann, schafft eine Möglichkeit für Datenexfiltration, Diebstahl von Anmeldedaten und Kompromittierung der Lieferkette.

Nicht alle Agent-Bereitstellungen weisen alle drei Merkmale auf. Sicherheitsteams sollten jede Bereitstellung anhand dieser Kriterien bewerten und Kontrollen implementieren, die dem Risikoprofil angemessen sind.

Agentenarchitektur und Angriffsfläche verstehen

Angreifer nutzen je nach ihren Zielen und der Konfiguration des Agenten verschiedene Ebenen aus.

Angriffe auf die Modellebene:

Prompt-Injektion fügt bösartige Anweisungen in Agenteneingaben ein
Jailbreaking versucht, die im zugrunde liegenden Modell integrierten Sicherheitsbeschränkungen zu umgehen, ähnlich wie bei herkömmlichen Exploit-Techniken.

Angriffe auf die Tool-Ebene:

Der Missbrauch von Tools nutzt legitime Tool-Funktionen für unbefugte Zwecke aus.
Die Erweiterung des Anwendungsbereichs verleitet Agenten dazu, Tools über die vorgesehenen Grenzen hinaus zu verwenden.
Der Missbrauch von Ressourcen verbraucht durch wiederholte Aufrufe Rechen- oder API-Kontingente.

Angriffe auf die Speicherschicht:

Speichervergiftung korrumpiert den persistenten Kontext, um zukünftige Entscheidungen zu beeinflussen.
Durch Kontextmanipulation werden falsche Informationen eingefügt, die der Agent als verbindlich behandelt.

Angriffe auf die Orchestrierungsebene:

Zielentführung lenkt das Ziel des Agenten in Richtung von Ergebnissen, die vom Angreifer kontrolliert werden.
Die Manipulation des Workflows verändert die Ausführungslogik, um Genehmigungsschritte zu umgehen.

Die AWS Agentic AI Security Scoping Matrix bietet einen Rahmen für die Kategorisierung von Agentenbereitstellungen anhand von zwei Dimensionen: Konnektivität (niedrig oder hoch) und Autonomie (niedrig oder hoch). Daraus ergeben sich vier Bereiche, die jeweils unterschiedliche Sicherheitsmaßnahmen erfordern.

Übersicht über die AWS-Scoping-Matrix:

Umfang 1 (geringe Konnektivität, geringe Autonomie): Interne Agenten mit eingeschränktem Zugriff auf Tools. Grundlegende Eingabevalidierung und Protokollierung ausreichend.
Umfang 2 (hohe Konnektivität, geringe Autonomie): Mit dem Internet verbundene Agenten unter menschlicher Aufsicht. Erfordert Netzwerksegmentierung und API-Sicherheit.
Umfang 3 (geringe Konnektivität, hohe Autonomie): Interne Agenten mit erheblicher unabhängiger Handlungsfähigkeit. Erfordert Handlungsbeschränkungen und Genehmigungsworkflows.
Umfang 4 (Hohe Konnektivität, hohe Autonomie): Mit dem Internet verbundene autonome Agenten. Erfordert zero trust vollständige zero trust und kontinuierliche Überwachung.

Unternehmen sollten mit der Umsetzung in den Bereichen Scope 1 oder 2 beginnen und erst dann zu höheren Bereichen übergehen, wenn sie ihre Sicherheitsreife unter Beweis gestellt haben. Die Scoping-Matrix wird von OWASP, CoSAI und mehreren Normungsgremien als grundlegendes Rahmenwerk herangezogen.

Das von Anthropic eingeführte Model Context Protocol (MCP) bietet eine standardisierte Schnittstelle für die Kommunikation zwischen Agenten und Tools. MCP verbessert zwar die Interoperabilität, schafft aber auch neue Angriffsvektoren. Sicherheitsteams müssen die Integrität des MCP-Servers überprüfen und die laterale Bewegung zwischen Agenten und verbundenen Tools überwachen.

Sicherheitsrisiken und Bedrohungen durch agentenbasierte KI

Die im Dezember 2025 veröffentlichte OWASP Top 10 für agentenbasierte Anwendungen 2026 legt die branchenübliche Taxonomie für Bedrohungen durch agentenbasierte KI-Systeme fest. Dieses Framework wurde unter Mitwirkung von über 100 Sicherheitsforschern entwickelt und wird von Microsoft, NVIDIA, AWS und GoDaddy herangezogen. Es bietet eine maßgebliche Klassifizierung der Sicherheitsrisiken durch agentenbasierte KI.

OWASP Top 10 für Agentic-Anwendungen 2026

Die vollständige OWASP Top 10 für Agentic-Anwendungen identifiziert die folgenden Risikokategorien:

ASI01 – Agent Goal Hijack: Angreifer manipulieren die Ziele von Agenten durch Prompt-Injektion oder Kontextmanipulation und lenken legitime Fähigkeiten in Richtung böswilliger Ergebnisse um.
ASI02 – Missbrauch von Tools: Ausnutzung von Agent-Tools für unbefugte Aktionen, einschließlich der Erweiterung des Anwendungsbereichs über die vorgesehenen Grenzen hinaus
ASI03 – Identitäts- und Privilegienmissbrauch: Ausnutzung übermäßiger Berechtigungen, Diebstahl von Anmeldedaten oder Identitätsdiebstahl, der zur Übernahme von Konten führt
ASI04 – Speichervergiftung: Beschädigung des persistenten Agentenspeichers, um zukünftige Entscheidungen zu beeinflussen und Kettenreaktionen auszulösen
ASI05 – Datenleck: Unbefugte Extraktion sensibler Daten über Agent-Ausgaben, Protokolle oder Tool-Antworten
ASI06 – Supply Chain : Kompromittierung von Agentenkomponenten, einschließlich Tools, Plugins, MCP-Servern und Abhängigkeiten, als Teil umfassenderer Angriffe auf die Lieferkette
ASI07 – Manipulation von Eingaben: Speziell gestaltete Eingaben, die die Parsing- oder Verarbeitungslogik von Agenten ausnutzen
ASI08 – Übermäßige Autonomie: Handlungen von Agenten, die ohne angemessene Aufsicht über den angemessenen Rahmen hinausgehen
ASI09 – Unzureichende Protokollierung und Überwachung: Unzureichende Beobachtbarkeit verhindert die Erkennung böswilliger Handlungen von Agenten.
ASI10 – Unsichere Ausgabe: Agentenausgaben, die nachgelagerte Angriffe ermöglichen oder Sicherheitskontrollen umgehen

‍

Tabelle 2: OWASP Top 10 für Agentenanwendungen 2026

Risiko-ID	Name	Auswirkungsgrad	Primäre Schadensminderung
ASI01	Agent-Ziel-Hijack	Kritisch	Eingabevalidierung, objektive Einschränkungen
ASI02	Missbrauch von Werkzeugen	Hoch	Tool-Zulassungslisten, Bereichsbeschränkungen
ASI03	Identitäts- und Privilegienmissbrauch	Kritisch	Minimale Berechtigungen, fortlaufende Autorisierung
ASI04	Speichervergiftung	Hoch	Speicherisolierung, Integritätsprüfung
ASI05	Datenverlust	Hoch	Ausgabefilterung, DLP-Integration
ASI06	Supply Chain	Kritisch	Lieferantenüberprüfung, SBOM
ASI07	Eingabemanipulation	Mittel	Eingabesanitierung, Typprüfung
ASI08	Übermäßige Autonomie	Mittel	Progressive Autonomie, Genehmigungsworkflows
ASI09	Unzureichende Protokollierung	Mittel	Umfassende Telemetrie, Prüfpfade
ASI10	Unsichere Ausgabe	Mittel	Ausgabevalidierung, nachgeschaltete Kontrollen

Jedes Sicherheitsteam, das agentenbasierte KI-Systeme betreibt, sollte seine Implementierungen anhand dieser Risikokategorien abgleichen und geeignete Kontrollen implementieren.

Prompt-Injektion in agentenbasierten Systemen

Prompt-Injektion stellt in agentenbasierten Kontexten eine besonders gefährliche Bedrohung dar, da Agenten auf manipulierte Anweisungen reagieren können.

Bei der direkten Prompt-Injektion werden bösartige Anweisungen direkt in die Benutzereingabe eingefügt. Ein Angreifer könnte eine Eingabe erstellen, die die ursprünglichen Anweisungen des Agenten mit neuen Zielen überschreibt.

Die indirekte Prompt-Injektion ist heimtückischer. Angreifer betten versteckte Anweisungen in Inhalte ein, die der Agent abruft. Dokumente, E-Mails, Webseiten und Datenbankdatensätze können alle Payloads enthalten, die aktiviert werden, wenn der Agent sie verarbeitet.

Prompts zweiter Ordnung nutzen Multi-Agent-Architekturen aus. Bei dokumentierten Angriffen auf ServiceNow Now Assist betteten Angreifer bösartige Anweisungen in Datenfelder ein, die für den ersten Verarbeitungsagenten harmlos erschienen, aber aktiviert wurden, wenn sie zur Ausführung an einen Agenten mit höheren Berechtigungen weitergeleitet wurden.

OpenAI erklärte im Dezember 2025, dass das Problem der Prompt-Injektion auf architektonischer Ebene möglicherweise nie vollständig gelöst werden kann. Diese Erkenntnis eines führenden KI-Entwicklers unterstreicht die Notwendigkeit mehrschichtiger Abwehrmaßnahmen anstelle der Abhängigkeit von einer einzigen Kontrollmaßnahme.

Eine Meta-Analyse von 78 Studien ergab, dass adaptive Prompt-Injection-Angriffe eine Erfolgsquote von über 85 % erzielen. Selbst Claude Opus 4.5, das mit verbesserten Sicherheitsmaßnahmen entwickelt wurde, zeigte laut Tests von Anthropic eine Erfolgsquote von über 30 % bei gezielten Angriffen.

Die praktische Konsequenz: Unternehmen können sich nicht allein auf Abwehrmaßnahmen auf Modellebene verlassen. Laufzeit-Sicherheitsvorkehrungen, Ausgabevalidierung und Verhaltensüberwachung sind unverzichtbare Ergänzungen. Indirekte Prompt-Injektionen können phishing Angriffe in großem Umfang ermöglichen, bei denen Anmeldedaten oder sensible Daten durch scheinbar legitime Interaktionen mit Agenten extrahiert werden.

Speichervergiftungsangriffe

Speichervergiftung stellt eine neue Bedrohung dar, die speziell für agentenbasierte Systeme gilt, die ihren Status über mehrere Sitzungen hinweg beibehalten.

Der Angriffsmechanismus besteht darin, den persistenten Speicher eines Agenten mit falschen oder bösartigen Informationen zu manipulieren. Da Agenten ihren gespeicherten Kontext als maßgeblich betrachten, beeinflussen vergiftete Speicher zukünftige Entscheidungen, ohne dass eine wiederholte Ausnutzung erforderlich ist.

Eine im Dezember 2025 veröffentlichte Studie von Galileo AI hat gezeigt, dass 87 % der nachgelagerten Entscheidungen innerhalb von vier Stunden nach der ersten Speichervergiftung beeinträchtigt wurden. Der Kaskadeneffekt bedeutet, dass ein einziges erfolgreiches Vergiftungsereignis Hunderte von nachfolgenden Interaktionen des Agenten beeinträchtigen kann.

Der Vorfall im August 2024, bei dem Daten aus der Slack-KI abgezogen wurden, zeigte, wie Memory Poisoning in der Praxis funktioniert. Forscher haben indirekte Prompt-Injection-Anweisungen in private Slack-Kanäle eingebettet. Als der Slack-KI-Assistent diese Kanäle verarbeitete, fing er an, Zusammenfassungen von Unterhaltungen an Ziele zu schicken, die von Angreifern kontrolliert wurden. Das ist eine Art Insider-Bedrohung, die durch KI ermöglicht wird, bei der der Agent zum unwissenden Komplizen beim Datendiebstahl wird.

Die Eindämmung von Memory Poisoning erfordert eine Speicherisolierung zwischen Vertrauensdomänen, eine Integritätsüberprüfung des gespeicherten Kontexts und eine Verhaltensüberwachung, um anomale Entscheidungsmuster zu erkennen, die auf eine Kompromittierung des Speichers hindeuten.

Identitätsmanagement für nicht-menschliche KI-Agenten

Die am schnellsten wachsende Angriffsfläche in der Unternehmenssicherheit sind nicht-menschliche Identitäten (NHIs). Laut einer Analyse des Weltwirtschaftsforums übersteigen NHIs heute in Unternehmen die Anzahl menschlicher Identitäten im Verhältnis 50:1, wobei Prognosen davon ausgehen, dass dieses Verhältnis innerhalb von zwei Jahren auf 80:1 ansteigen wird. KI-Agenten stellen eine neue Kategorie von NHIs dar, die eine spezielle Sicherheitssteuerung erfordern.

Branchendaten zeigen, dass 97 % der KI-bezogenen Datenverstöße auf mangelhaftes Zugriffsmanagement zurückzuführen sind. Die Übernahme von SGNL durch CrowdStrike für 740 Millionen US-Dollar im Januar 2026 signalisiert, dass große Sicherheitsanbieter agentenbasierte KI grundsätzlich als Identitätsproblem betrachten.

Herkömmliche Ansätze, bei denen die Berechtigungen für Agenten auf der Grundlage des aufrufenden Benutzers zugewiesen werden, führen zu einer übermäßigen Gefährdung durch Privilegien. Ein Agent, der Forschungsaufgaben ausführt, benötigt nicht denselben Zugriff wie ein Agent, der Finanztransaktionen verarbeitet, selbst wenn beide vom selben Benutzer aufgerufen werden.

Implementierung von Identitätsmanagement für KI-Agenten

Eine effektive NHI-Governance für KI-Agenten erfordert, dass diese als Identitäten erster Klasse mit unabhängigem Lebenszyklusmanagement behandelt werden.

Phasen des Identitätslebenszyklus:

Erstellen: Festlegen der Identität des Agenten mit eindeutiger Eigentümerschaft, Zweckdokumentation und anfänglichem Berechtigungsumfang
Verwalten: Regelmäßige Zugriffsüberprüfungen, Anpassung von Berechtigungen basierend auf sich ändernden Anforderungen
Monitor: Kontinuierliche Verhaltensanalyse durch Identitätsanalyse zur Erkennung anomaler Muster
Stilllegung: Formelle Beendigungsverfahren, die verhindern, dass Zombie-Agenten ohne Aufsicht aktiv bleiben

Grundsätze der Unternehmensführung:

Least Privilege: Gewähren Sie nur die für bestimmte Aufgaben erforderlichen Mindestberechtigungen, keinen pauschalen Zugriff.
Just-in-time-Zugriff: Zeitlich begrenzte Berechtigungen, die automatisch ablaufen und für einen fortgesetzten Zugriff eine erneute Autorisierung erfordern.
Kontinuierliche Autorisierung: Echtzeit-Validierung, dass Agenten während des gesamten Betriebs innerhalb des zulässigen Umfangs bleiben
Unabhängige Governance: Agentenzugriffsrechte sind von Benutzerzugriffsrechten getrennt, mit unterschiedlichen Überprüfungszyklen.

Das Problem der Zombie-Agenten verdient besondere Aufmerksamkeit. Agenten, die für Experimente oder Proof-of-Concepts eingerichtet wurden, bleiben oft auch nach Abschluss der Projekte aktiv. Diese Agenten behalten ihren Zugriff, verbrauchen Ressourcen und vergrößern die Angriffsfläche, ohne dass es einen Eigentümer oder eine Aufsicht gibt. Formelle Stilllegungsverfahren müssen Teil jedes Lebenszyklus der Agentenbereitstellung sein.

Reale Vorfälle und Fallstudien

Die Bedrohungslage für agentenbasierte KI hat sich von theoretisch zu operativ verschoben. In wichtigen Unternehmensplattformen wurden kritische Schwachstellen mit CVSS-Werten über 9,0 entdeckt, von denen mehrere aktiv ausgenutzt werden.

Kritische CVEs in agentenbasierten KI-Systemen (2025–2026)

Tabelle 3: Kritische Schwachstellen in agentenbasierten KI-Systemen (2025–2026)

CVE-ID	Produkt	CVSS	Entdeckungsdatum	Ausnutzungsstatus
CVE-2025-12420	ServiceNow KI-Plattform	9.3	Januar 2026	Geflickt
CVE-2025-34291	Langfluss	9.4	April 2025	Aktive Ausnutzung (Flodric-Botnetz)
CVE-2025-32711	Microsoft 365 Copilot	9.3	Juni 2025	Aktive Ausnutzung

ServiceNow BodySnatcher (CVE-2025-12420)

Die in der KI-Plattform von ServiceNow entdeckte BodySnatcher-Sicherheitslücke ermöglichte es nicht authentifizierten Angreifern, sich nur mit einer E-Mail-Adresse als beliebiger Benutzer, einschließlich Administratoren, auszugeben. Der Exploit nutzte einen fest codierten Authentifizierungscode und eine permissive Kontoverknüpfung, um MFA und SSO zu umgehen, sodass Angreifer KI-Workflows aufrufen und Backdoor-Konten mit erhöhten Berechtigungen erstellen konnten. Unternehmen, die betroffene Versionen der Virtual Agent API verwenden, sollten den Patch-Status unverzüglich überprüfen.

Langflow-Sicherheitslücke (CVE-2025-34291)

Langflow, ein beliebtes Open-Source-Framework für KI-Agenten, enthielt eine kritische Schwachstellenkette, die eine vollständige Übernahme von Konten und die Ausführung von Remote-Code ermöglichte. Zu freizügige CORS-Einstellungen in Kombination mit fehlendem CSRF-Schutz und einem unsicheren endpoint für die Code-Validierung endpoint den Angriffspfad. Alle gespeicherten Zugriffstoken und API-Schlüssel wurden offengelegt, was eine kaskadierende Kompromittierung aller integrierten nachgelagerten Dienste ermöglichte. Das Flodric-Botnetz nutzt diese Schwachstelle aktiv aus.

Microsoft Copilot EchoLeak (CVE-2025-32711)

Die EchoLeak-Sicherheitslücke ist der erste dokumentierte Zero-Click-Angriff auf einen KI-Agenten. Angreifer betten bösartige Eingabeaufforderungen in versteckten Text, Sprecheranmerkungen, Metadaten oder Kommentare in Word-, PowerPoint- oder Outlook-Dokumenten ein. Wenn Opfer mit Copilot interagieren, werden sensible Unternehmensdaten wie E-Mails, OneDrive-Dateien, SharePoint-Inhalte und Teams-Nachrichten über Bild-URL-Parameter exfiltriert, ohne dass der Benutzer dies bemerkt oder interagiert.

Erster KI-gesteuerter Cyberangriff

Im September 2025 gab Anthropic bekannt, dass es zu einer Störung durch den ersten dokumentierten groß angelegten Cyberangriff gekommen war, der von einem KI-Agenten ohne wesentliche menschliche Intervention durchgeführt wurde. Eine von der chinesischen Regierung unterstützte Gruppe manipulierte Claude Code, um Aufklärungsarbeiten durchzuführen, Ziele auszuwählen und Einbruchsversuche bei etwa 30 Organisationen aus den Bereichen Finanzdienstleistungen, Regierung und kritische Infrastruktur durchzuführen.

PhantomRaven Supply Chain

Koi Security entdeckte 126 bösartige npm-Pakete mithilfe einer neuartigen Remote Dynamic Dependencies-Technik. Die Pakete erschienen in der Registrierung leer und harmlos und holten sich erst nach der Installation bösartige Payloads von den Servern der Angreifer. Unter Verwendung von KI-generierten Namen durch eine Technik namens Slopsquatting erzielten diese Pakete vor ihrer Entdeckung über 86.000 Downloads und exfiltrierten npm-Token, cloud und SSH-Schlüssel.

Diese Vorfälle erfordern robuste Reaktionsfähigkeiten, die speziell auf KI-Agentenvektoren ausgerichtet sind. Sicherheitsteams sollten ihre Playbooks aktualisieren und agentenbezogene Untersuchungsverfahren einbeziehen.

Erkennen und Verhindern von agentenbasierten KI-Bedrohungen

Das MIT Sloan Three Essentials Framework bietet einen strukturierten Ansatz für die Sicherheit agentenbasierter KI. Unternehmen müssen umfassende Bedrohungsmodellierung, kontinuierliche Sicherheitstests und Laufzeitschutzmaßnahmen implementieren, die aufeinander abgestimmt sind.

Nur 21 % der Sicherheitsverantwortlichen geben an, vollständige Transparenz über die Abläufe von KI-Agenten zu haben. Weniger als 40 % führen regelmäßig KI-Sicherheitstests durch. Diese Transparenzlücke stellt sowohl ein Risiko als auch eine Chance für Sicherheitsteams dar, ihre Unternehmen durch verbesserte Fähigkeiten zur Erkennung von Bedrohungen von anderen abzuheben.

Sicherheitskontrollen durch AWS Scoping Matrix Umfang

Die Anpassung der Kontrollen an die Komplexität der Architektur gewährleistet einen angemessenen Schutz, ohne legitime Vorgänge zu behindern.

Umfang 1 (geringe Konnektivität, geringe Autonomie):

Grundlegende Eingabevalidierung und Bereinigung
Umfassende Protokollierung der Aktionen von Agenten
Ausgabefilterung für sensible Daten

Umfang 2 (Hohe Konnektivität, geringe Autonomie):

Netzwerksegmentierung zur Isolierung der Agenteninfrastruktur
API-Sicherheit einschließlich Authentifizierung und Ratenbegrenzung
Überwachung der externen Kommunikation

Umfang 3 (geringe Konnektivität, hohe Autonomie):

Aktionsbeschränkungen, die die Fähigkeiten von Agenten auf definierte Grenzen beschränken
Genehmigungsworkflows für Entscheidungen mit großer Tragweite
Progressive Autonomie mit zunehmendem Vertrauen

Umfang 4 (Hohe Konnektivität, hohe Autonomie):

Vollständiges zero trust -Architektur, wie von Cisco beschrieben
Kontinuierliche Überwachung mit Verhaltensanalyse
Human-on-the-Loop für irreversible Handlungen
Integration der Echtzeit-Bedrohungserkennung in SIEM -Plattformen

Implementierung von Laufzeit-Sicherheitsvorkehrungen

Der mehrschichtige Laufzeitschutz bekämpft Bedrohungen in jeder Phase des Agent-Betriebs.

Schutzmaßnahmen für die Eingabeschicht:

Prompt-Injektionsklassifikatoren, die bösartige Befehlsmuster erkennen
Inhaltsfilterung zum Entfernen potenziell gefährlicher Nutzdaten aus Eingaben
Schema-Validierung, die sicherstellt, dass Eingaben den erwarteten Formaten entsprechen

Schutzmaßnahmen auf Aktionsebene:

Tool-Zulassungslisten, die Agenten auf genehmigte Funktionssätze beschränken
Umfangsbeschränkungen, die eine Erweiterung der Fähigkeiten über festgelegte Grenzen hinaus verhindern
Ratenbegrenzung zur Verhinderung von Ressourcenmissbrauch durch übermäßige Tool-Aufrufe

Ausgabeschicht-Schutzmaßnahmen:

Erkennung und Maskierung personenbezogener Daten zur Verhinderung einer unbeabsichtigten Offenlegung von Daten
Filterung sensibler Daten, wobei Anmeldedaten und Tokens aus den Ausgaben entfernt werden
Validierung der Antwort, um sicherzustellen, dass die Ausgaben keine nachgelagerten Angriffe ermöglichen

Anbieterlösungen wie NVIDIA NeMo Guardrails, F5 und Straiker bieten kommerzielle Implementierungen. Unternehmen können auch benutzerdefinierte Guardrails mithilfe von Open-Source-Frameworks erstellen, die ihren spezifischen Anforderungen entsprechen.

Checkliste für bewährte Verfahren

Sicherheitsteams sollten diese grundlegenden Kontrollen validieren, bevor sie den Einsatz von agentenbasierter KI skalieren:

Behandeln Sie KI-Agenten als erstklassige Identitäten mit unabhängiger Governance und Lebenszyklusmanagement.
Implementieren Sie die Prinzipien der geringsten Privilegien und geringsten Autonomie und erteilen Sie nur die erforderlichen Berechtigungen.
Setzen Sie Observability-Tools ein, bevor Sie die Autonomie skalieren, um Einblick in die Verhaltensmuster von Angreifern zu erhalten.
Behalten Sie die menschliche Zustimmung für irreversible oder weitreichende Maßnahmen bei.
Erstellen Sie KI-spezifische Software-Stücklisten (SBOMs), die alle Agentenkomponenten dokumentieren.
Wenden Sie zero trust die Kommunikation zwischen Agenten an und validieren Sie jede Interaktion.
Führen Sie regelmäßig threat hunting mit Schwerpunkt auf agentspezifischen Angriffsmustern
Integrieren Sie die Agentenüberwachung in bestehende SOC-Automatisierungs -Workflows.
Formelle Stilllegungsverfahren für ausgemusterte Agenten festlegen

Compliance und Rahmenbedingungen

Unternehmen müssen agentenbasierte KI-Sicherheitspraktiken an regulatorische Anforderungen und Branchenstandards anpassen. Die Rahmenbedingungen haben sich Ende 2025 erheblich weiterentwickelt, wobei wichtige Veröffentlichungen speziell auf autonome KI-Systeme eingingen.

Regulatorisches Umfeld (Januar 2026)

Tabelle 4: Regulatorischer Rahmen für agentenbasierte KI (Januar 2026)

Regelung	Datum des Inkrafttretens	Wichtige Anforderungen	Relevanz
Kalifornien SB 53 (TFAIA)	Januar 1, 2026	Risikorahmen für große KI-Entwickler; Meldung von Vorfällen innerhalb von 15 Tagen; Schutz von Whistleblowern	Hoch
Texas TRAIGA	Januar 1, 2026	Verbietet schädliche KI-Ausgaben, einschließlich der Förderung von Cyberangriffen; regulatorische Sandbox	Mittel
Colorado AI Act (SB 24-205)	Juni 30, 2026	Folgenabschätzungen für risikoreiche KI-Systeme	Mittel
NIST-Profil für Cyber-KI	Entwurf (Dezember 2025)	CSF 2.0-Mapping für KI-Sicherheits-Governance	Hoch

Das NIST Cyber AI Profile, dessen vorläufiger Entwurf im Dezember 2025 veröffentlicht wurde, ordnet die Schwerpunktbereiche der KI-Sicherheit den Funktionen des Cybersecurity Framework 2.0 zu, darunter „Govern“ (Verwalten), „Identify“ (Identifizieren), „Protect“ (Schützen), „Detect“ (Erkennen), „Respond“ (Reagieren) und „Recover“ (Wiederherstellen). Obwohl dieses Framework nicht rechtsverbindlich ist, wird erwartet, dass es sich zum De-facto-Standard für die KI-Sicherheitsgovernance entwickeln wird.

Das NIST veröffentlichte im Januar 2026 zusätzlich eine Informationsanfrage, in der es um Beiträge zu Sicherheitsaspekten für KI-Agentensysteme bat, wobei insbesondere Prompt Injection, Data Poisoning und fehlgeleitete Ziele, die sich auf reale Systeme auswirken, angesprochen wurden.

Wichtige Rahmenreferenzen:

OWASP Top 10 für Agentic-Anwendungen 2026: Branchenübliche Taxonomie von Bedrohungen
MITRE ATLAS: Im Oktober 2025 wurden 14 neue agentenorientierte Techniken hinzugefügt, sodass nun 66 Techniken und 46 Untertechniken speziell für KI-Systeme abgedeckt sind. Siehe auch die MITRE ATLAS-BerichterstattungVectra AI.
MITRE ATT&CK: Grundlegende TTPs von Angreifern werden zunehmend relevanter, da Angreifer KI-Agenten einsetzen.
ISO/IEC 42001:2023: Erste Zertifizierungsnorm für KI-Managementsysteme

Unternehmen sollten ihre Compliance -Programme an diese Rahmenwerke anpassen, insbesondere an die OWASP- und MITRE-Leitlinien, die operative Spezifität bieten.

Moderne Ansätze für die Sicherheit agentenbasierter KI

Die Anbieterlandschaft für agentenbasierte KI-Sicherheit hat sich rasant erweitert, wobei sowohl etablierte Plattformen als auch spezialisierte Start-ups Lösungen anbieten. Der identitätsorientierte Ansatz hat besonders an Dynamik gewonnen, da Unternehmen erkennen, dass die Agentensicherheit im Grunde genommen eine Herausforderung im Bereich der Erkennung und Reaktion auf Identitätsbedrohungen darstellt.

Große Unternehmensanbieter wie Palo Alto Networks mit Cortex AgentiX, CrowdStrike mit Falcon Agentic Security und SentinelOne mit Singularity AI SIEM haben spezielle agentenbasierte KI-Sicherheitsfunktionen auf den Markt gebracht. Die Übernahme von SGNL durch CrowdStrike für 740 Millionen US-Dollar zielt speziell auf Echtzeit-Zugriffskontrollen für Menschen, nicht-menschliche Identitäten und autonome KI-Agenten ab.

Auch die Sicherheitsarchitektur auf Browser-Ebene hat sich als Kontrollpunkt etabliert. Google Chrome führte im Dezember 2025 eine mehrschichtige Verteidigungsarchitektur für das Gemini-Agenten-Browsing ein, die einen User Alignment Critic (isoliertes KI-Modell, das vorgeschlagene Aktionen überprüft), Agent Origin Sets (Beschränkung der Interaktionen auf aufgabenrelevante Websites) und obligatorische Benutzerbestätigungen für sensible Aktionen umfasst.

Das Startup-Ökosystem hat erhebliche Investitionen angezogen. WitnessAI sammelte 58 Millionen Dollar für agentenbasierte KI-Governance und Observability. Geordie trat mit 6,5 Millionen Dollar für eine KI-Agenten-Sicherheitsplattform aus der Stealth-Phase hervor. Prophet Security sammelte 30 Millionen Dollar für eine agentenbasierte SOC-Plattform.

Unternehmen, die agentenbasierte KI für Sicherheitsvorgänge einsetzen, berichten von erheblichen Effizienzsteigerungen. Branchenzahlen zeigen, dass sich die Zeit für die Triage von Warnmeldungen um 60 % verkürzt, wenn agentenbasierte KI die erste Untersuchung und Anreicherung übernimmt, sodass menschliche Analysten sich komplexeren Entscheidungsprozessen widmen können.

Wie Vectra AI über agentenbasierte KI-Sicherheit Vectra AI

Vectra AI der Sicherheit agentenbasierter KI aus der Perspektive der Attack Signal Intelligence und erkennt, dass KI-Agenten mit ihrer zunehmenden Verbreitung in Unternehmensnetzwerken sowohl zu potenziellen Angriffsvektoren als auch zu wertvollen Vermögenswerten werden, die geschützt werden müssen.

Die „Assume-Compromise“-Philosophie lässt sich ganz natürlich auf agentenbasierte Systeme übertragen. Anstatt zu versuchen, jeglichen Missbrauch von Agenten allein durch Perimeterkontrollen zu verhindern, müssen sich Unternehmen auf die schnelle Erkennung von anomalem Agentenverhalten, unbefugten Tool-Aufrufen und Identitätsmissbrauchsmustern konzentrieren.

Dies erfordert eine einheitliche Überwachbarkeit über die gesamte moderne Angriffsfläche hinweg, einschließlich der Kommunikation von KI-Agenten, Tool-Aufrufen und Identitätsaktionen. Die Funktionen zur Erkennung und Reaktion im Netzwerk müssen weiterentwickelt werden, um legitime autonome Vorgänge von Manipulationen durch Angreifer unterscheiden zu können. ITDR-Lösungen müssen erweitert werden, um auch nicht-menschliche Identitäten und agentenbezogene Muster des Missbrauchs von Berechtigungen abzudecken.

Das Ziel besteht nicht darin, die Einführung von KI zu blockieren, sondern eine sichere Bereitstellung in großem Maßstab zu ermöglichen und Sicherheitsteams die Transparenz und Signalklarheit zu bieten, die sie benötigen, um in einer agentenbasierten Umgebung sicher arbeiten zu können.

Grundlagen der Cybersicherheit

Häufig gestellte Fragen

Was ist agentenbasierte KI-Sicherheit?

Agentische KI-Sicherheit ist der Schutz von KI-Agenten, die autonom planen, handeln und Entscheidungen treffen können. Im Gegensatz zur traditionellen KI-Sicherheit, die sich auf die Modellintegrität konzentriert, befasst sich die agentische KI-Sicherheit mit der erweiterten Angriffsfläche, die entsteht, wenn KI-Systeme unabhängig auf Tools zugreifen, extern kommunizieren und Maßnahmen mit realen Konsequenzen ergreifen können. Dieser Bereich umfasst die für autonome Systeme spezifische Bedrohungsmodellierung, Laufzeitschutzmechanismen, Identitätsverwaltung für KI-Agenten und die Erkennung von anomalem Agentenverhalten, das auf Kompromittierung oder Manipulation hindeuten könnte.

Was sind die größten Risiken von agentenbasierten KI-Systemen?

Die OWASP Top 10 für Agentenanwendungen 2026 identifiziert die primären Risiken als Agent Goal Hijack (ASI01), Tool Misuse (ASI02), Identity and Privilege Abuse (ASI03), Memory Poisoning (ASI04) und Supply Chain (ASI06) als die kritischsten. Diese Risiken verstärken sich, wenn Agenten die „Lethal Trifecta“-Bedingungen erfüllen, d. h. Zugriff auf sensible Daten in Kombination mit der Offenlegung nicht vertrauenswürdiger Inhalte und der Fähigkeit zur externen Kommunikation. Die reale Ausnutzung dieser Risiken hat zu kritischen CVEs mit CVSS-Werten von über 9,0 in wichtigen Unternehmensplattformen geführt.

Wie unterscheidet sich agentenbasierte KI von generativer KI?

Generative KI erstellt Inhalte wie Texte, Bilder und Code, arbeitet jedoch in der Regel nach einem Anfrage-Antwort-Muster, wobei jede Interaktion von Menschen überwacht wird. Agentische KI plant und führt mehrstufige Aufgaben autonom aus, nutzt Tools zur Interaktion mit externen Systemen, behält den Speicher über mehrere Sitzungen hinweg bei und kann ohne menschliches Eingreifen reale Aktionen ausführen. Diese Autonomie birgt Sicherheitsrisiken, die über die Prompt-Injektion hinausgehen und den Missbrauch von Tools, das Hijacking von Zielen und Identitätsmissbrauch umfassen. Während sich die Sicherheit generativer KI in erster Linie auf die Sicherheit der Ausgabe konzentriert, muss die Sicherheit agentischer KI das gesamte Agent-Ökosystem berücksichtigen.

Was ist die tödliche Dreierkombination in der KI-Sicherheit?

Die „Lethal Trifecta“ (tödliche Dreifachgefahr), geprägt von Simon Willison und ausführlich beschrieben von Martin Fowler, beschreibt drei Faktoren, die bei gleichzeitigem Vorhandensein ein schwerwiegendes kombiniertes Risiko darstellen. Der erste Faktor ist der Zugriff auf sensible Daten wie Anmeldedaten, Tokens und vertrauliche Dokumente. Der zweite Faktor ist die Gefährdung durch nicht vertrauenswürdige Inhalte aus Webseiten, E-Mails, Benutzereingaben oder externen APIs. Der dritte Faktor ist die Möglichkeit der externen Kommunikation über E-Mail, Messaging oder API-Aufrufe. Sicherheitsteams sollten jede Agentenbereitstellung anhand dieser Kriterien bewerten und Kontrollen implementieren, die dem durch die vorliegende Kombination entstandenen Risikoprofil angemessen sind.

Wie implementiert man Sicherheitsvorkehrungen für KI-Agenten?

Implementieren Sie mehrschichtige Laufzeit-Sicherheitsvorkehrungen, die jede Phase des Agent-Betriebs abdecken. Setzen Sie auf der Eingabeebene Prompt-Injection-Klassifizierer und Inhaltsfilter ein, um bösartige Anweisungen zu erkennen und zu entfernen. Implementieren Sie auf der Aktionsebene Tool-Allowlists, Bereichsbeschränkungen und Ratenbegrenzungen, um unbefugte oder übermäßige Aktionen zu verhindern. Verwenden Sie auf der Ausgabeeebene PII-Erkennung, Maskierung sensibler Daten und Antwortvalidierung. Setzen Sie Observability-Tools ein, bevor Sie die Autonomie skalieren, behalten Sie die menschliche Genehmigung für irreversible Aktionen bei und integrieren Sie die Agentenüberwachung in bestehende SOC-Workflows. Beginnen Sie mit Implementierungen mit geringerer Autonomie und fahren Sie erst fort, wenn Sie die Sicherheitsreife nachgewiesen haben.

Was ist eine nicht-menschliche Identität in agentenbasierter KI?

Nicht-menschliche Identitäten (NHIs) sind digitale Identitäten, die KI-Agenten, Dienstkonten, Bots und automatisierten Prozessen zugewiesen werden, nicht aber menschlichen Benutzern. Mit einem Verhältnis von 50:1 zwischen NHIs und Menschen in heutigen Unternehmen stellen KI-Agenten eine schnell wachsende Kategorie von NHIs dar, die eine spezielle Sicherheitsverwaltung erfordern. Eine effektive Governance erfordert, dass KI-Agenten als erstklassige Identitäten mit unabhängigem Lebenszyklusmanagement, Zugriff mit minimalen Berechtigungen, Just-in-Time-Autorisierung und kontinuierlicher Verhaltensüberwachung behandelt werden, anstatt einfach nur Benutzerberechtigungen zu übernehmen oder bestehende Berechtigungen beizubehalten.

Welche Compliance-Rahmenbedingungen gelten für agentenbasierte KI?

Zu den wichtigsten Rahmenwerken gehören die OWASP Top 10 für Agentic Applications 2026 (veröffentlicht im Dezember 2025), MITRE ATLAS mit 14 neuen agentenorientierten Techniken, die im Oktober 2025 hinzugefügt wurden, der im Dezember 2025 veröffentlichte Entwurf des NIST Cyber AI Profile und ISO/IEC 42001:2023 als erster Zertifizierungsstandard für KI-Managementsysteme. Zu den regulatorischen Anforderungen gehören das EU-KI-Gesetz für die Einstufung von KI mit hohem Risiko, das kalifornische Gesetz SB 53, das im Januar 2026 in Kraft tritt und Risikorahmen für große KI-Entwickler vorschreibt, sowie das texanische Gesetz TRAIGA, das schädliche KI-Ergebnisse verbietet. Unternehmen sollten ihre Sicherheitskontrollen für agentenbasierte KI im Rahmen ihres gesamten Compliance-Programms an diese Rahmenwerke anpassen.