Agentische KI-Sicherheit erklärt: Schutz autonomer Systeme vor neuen Bedrohungen

Wichtige Erkenntnisse

  • Agentische KI-Sicherheit schützt autonome Systeme, die selbstständig planen und handeln können und daher Kontrollen erfordern, die über herkömmliche KI-/ML-Sicherheitsansätze hinausgehen.
  • Die OWASP Top 10 für Agentic-Anwendungen 2026 legen branchenübliche Bedrohungskategorien fest, darunter Zielentführung, Tool-Missbrauch und Identitätsmissbrauch.
  • Das Lethal-Trifecta-Framework identifiziert, wann sich Risiken potenzieren: Zugriff auf sensible Daten in Kombination mit der Offenlegung nicht vertrauenswürdiger Inhalte und der Möglichkeit externer Kommunikation.
  • Nicht-menschliche Identitäten (NHIs) übertreffen menschliche Identitäten in Unternehmen heute im Verhältnis 50:1, wodurch die Identitätsverwaltung von KI-Agenten zu einer entscheidenden Sicherheitspriorität wird.
  • In den Jahren 2025–2026 haben Angriffe in der realen Welt zu kritischen CVEs mit CVSS-Werten von 9,3–9,4 in den Plattformen ServiceNow, Langflow und Microsoft Copilot geführt.

Der erste dokumentierte, von KI orchestrierte Cyberangriff erfolgte im September 2025, als eine von der chinesischen Regierung unterstützte Gruppe Claude Code manipulierte, um etwa 30 globale Ziele in Finanzinstituten, Regierungsbehörden und der chemischen Industrie zu infiltrieren. Dies war keine theoretische Übung. Laut Angaben von Anthropic haben die Angreifer gezeigt, dass autonome KI-Agenten ohne nennenswerte menschliche Eingriffe in großem Umfang als Waffen eingesetzt werden können. Dies stellt eine neue Kategorie von fortgeschrittenen, hartnäckigen Bedrohungen dar, auf deren Abwehr sich Sicherheitsteams vorbereiten müssen. Für Sicherheitsteams ist die Botschaft klar: Die Sicherheit durch agentenbasierte KI ist von einem aufkommenden Problem zu einer operativen Notwendigkeit geworden.

Es steht viel auf dem Spiel. Gartner prognostiziert, dass bis Ende 2026 40 % der Unternehmensanwendungen aufgabenspezifische KI-Agenten integrieren werden, gegenüber weniger als 5 % im Jahr 2025. Dennoch haben 80 % der IT-Fachleute bereits erlebt, dass KI-Agenten unbefugte oder unerwartete Aktionen ausführen. Die Kluft zwischen der Geschwindigkeit der Einführung und der Reife der Sicherheit schafft eine Angriffsfläche, die Angreifer aktiv ausnutzen.

Dieser Leitfaden vermittelt Sicherheitsexperten ein umfassendes Verständnis von agentenbasierten KI-Bedrohungen, Bewertungsrahmenwerken und praktischen Implementierungshinweisen zum Schutz autonomer Systeme.

Was ist agentenbasierte KI-Sicherheit?

Agentische KI-Sicherheit ist die Disziplin zum Schutz von KI-Systemen, die mithilfe von Tools und externen Ressourcen selbstständig denken, planen und mehrstufige Aufgaben ausführen können. Im Gegensatz zu herkömmlichen KI-Modellen, die innerhalb definierter Grenzen auf Anfragen reagieren, können agentische KI-Systeme Maßnahmen mit realen Konsequenzen ergreifen, darunter das Versenden von E-Mails, das Ausführen von Code, das Ändern von Datenbanken und das Ausführen von API-Aufrufen. Diese Autonomie schafft Sicherheitsherausforderungen, die sich grundlegend von der Sicherung statischer Modelle oder Chatbots unterscheiden.

Die zentrale Herausforderung im Bereich Sicherheit besteht darin, ein Gleichgewicht zwischen Autonomie und Kontrolle herzustellen und gleichzeitig Vertrauensgrenzen aufrechtzuerhalten. Wenn ein KI-Agent selbstständig entscheiden kann, auf eine Datenbank zuzugreifen, ein Dokument zu erstellen und es per E-Mail an einen externen Empfänger zu senden, reicht die herkömmliche Eingabe-Ausgabe-Validierung nicht mehr aus. Sicherheitsteams müssen das gesamte Ökosystem des Agenten berücksichtigen, einschließlich Tools, Speicher, Orchestrierungslogik und Identitätsberechtigungen.

Warum ist das gerade jetzt wichtig? Die rasante Verbreitung bedeutet, dass die meisten Unternehmen innerhalb von 18 Monaten mehrere KI-Agenten einsetzen werden. Unternehmen, die jetzt keine Sicherheitsgrundlagen schaffen, werden mit zunehmender Verbreitung von Agenten in allen Geschäftsbereichen einem immer größeren Risiko ausgesetzt sein.

Agentische KI vs. traditionelle KI-Sicherheit

Die grundlegenden Unterschiede zwischen der Sicherung traditioneller KI-Systeme und agentenbasierter KI-Systeme ergeben sich aus der Architektur und den Fähigkeiten.

Traditionelle KI-Sicherheit konzentriert sich auf Modellintegrität, Schutz von Trainingsdaten und Angriffe während der Inferenz. Die Angriffsfläche ist relativ begrenzt. Es werden Eingaben gemacht und Ausgaben erzeugt. Sicherheitskontrollen konzentrieren sich darauf, zu verhindern, dass feindliche Eingaben die Modellvorhersagen manipulieren, und sicherzustellen, dass die Trainingspipelines nicht kompromittiert werden.

Agentische KI erweitert die Angriffsfläche erheblich. Diese Systeme zeichnen sich durch dynamischen Werkzeuggebrauch, mehrstufige Argumentationsketten, externe Kommunikation und persistenten Speicher über mehrere Sitzungen hinweg aus und folgen dabei Mustern, die denen der Cyber Kill Chain ähneln. Ein Angreifer muss nicht das zugrunde liegende Modell kompromittieren. Durch Manipulation einer beliebigen Komponente im Agenten-Ökosystem kann das Verhalten in Richtung böswilliger Ergebnisse umgelenkt werden.

Tabelle 1: Vergleich zwischen traditionellen KI- und agentenbasierten KI-Sicherheitsaspekten

Aspekt Traditionelle KI Agentische KI
Angriffsfläche Modell-Ein- und Ausgänge Gesamtes Agent-Ökosystem einschließlich Tools, Speicher und Orchestrierung
Primäre Bedrohungen Feindselige Eingaben, Modellvergiftung Zielentführung, Werkzeugmissbrauch, Identitätsmissbrauch, Speichervergiftung
Kontrollgrenzen Klar definierte Ein-/Ausgänge Dynamisch, kontextabhängig
Identitätsmodell Von der aufrufenden Anwendung geerbt Erfordert eine unabhängige Identitätsverwaltung, die nicht vom Menschen durchgeführt wird.
Auswirkungen in der Praxis Vorhersagefehler Unbefugte Handlungen mit geschäftlichen Konsequenzen
Überwachungsansatz Eingabe-/Ausgabevalidierung Verhaltensanalyse, Entscheidungsprotokollierung, Handlungsbeschränkungen

Die Auswirkungen auf die Sicherheit sind erheblich. Herkömmliche KI-Sicherheitskontrollen, die sich auf die Modellebene konzentrieren, sind zwar notwendig, reichen für agentenbasierte Systeme jedoch nicht aus. Sicherheitsteams müssen die Transparenz und Kontrolle auf die gesamte Agentenarchitektur ausweiten.

Wie agentenbasierte KI funktioniert (Sicherheitskontext)

Das Verständnis der Architektur agentenbasierter KI-Systeme zeigt auf, wo Sicherheitskontrollen angewendet werden müssen. Moderne KI-Agenten kombinieren vier Hauptkomponenten, die die operative Angriffsfläche bilden.

Komponenten der Agent-Architektur:

  • Modellschicht: Das zugrunde liegende LLM, das die Schlussfolgerungsfähigkeit bereitstellt.
  • Tool-Ebene: Externe Funktionen, die der Agent aufrufen kann, darunter APIs, Datenbanken, Dateisysteme und Kommunikationskanäle
  • Speicherschicht: Permanenter Speicher, der es dem Agenten ermöglicht, den Kontext über mehrere Sitzungen hinweg beizubehalten.
  • Orchestrierungsebene: Logik, die Planung, Toolauswahl und Ausführungsablauf koordiniert

Jede Schicht weist unterschiedliche Schwachstellen auf. Angreifer zielen auf die Komponente ab, die ihnen den geringsten Widerstand entgegenbringt, um ihr Ziel zu erreichen.

Die tödliche Dreierwette erklärt

Der Sicherheitsforscher Simon Willison hat drei Faktoren identifiziert, die in Kombination ein erhebliches Risiko darstellen. Dieses Rahmenwerk hat Martin Fowler in seiner technischen Analyse detailliert beschrieben. Das Verständnis dieses Rahmenwerks hilft Sicherheitsteams dabei, zu erkennen, welche Agentenbereitstellungen die strengsten Kontrollen erfordern.

Die tödliche Dreierkombination besteht aus:

  1. Zugriff auf sensible Daten wie Anmeldedaten, Tokens, Quellcode, interne Dokumente und personenbezogene Daten, die eine Datenexfiltration ermöglichen könnten
  2. Exposition gegenüber nicht vertrauenswürdigen Inhalten aus Quellen wie öffentlichen Repositorys, Webseiten, Benutzereingaben, E-Mail-Anhängen und Integrationen von Drittanbietern
  3. Fähigkeit zur externen Kommunikation durch E-Mail-Versand, API-Aufrufe, Chat-Nachrichten, Dateioperationen und Codeausführung

Wenn alle drei Bedingungen gleichzeitig vorliegen, steigt das Risiko dramatisch an. Ein Mitarbeiter mit Zugriff auf Anmeldedaten, der nicht vertrauenswürdige E-Mail-Anhänge verarbeitet und externe Mitteilungen versenden kann, schafft eine Möglichkeit für Datenexfiltration, Diebstahl von Anmeldedaten und Kompromittierung der Lieferkette.

Nicht alle Agent-Bereitstellungen weisen alle drei Merkmale auf. Sicherheitsteams sollten jede Bereitstellung anhand dieser Kriterien bewerten und Kontrollen implementieren, die dem Risikoprofil angemessen sind.

Agentenarchitektur und Angriffsfläche verstehen

Angreifer nutzen je nach ihren Zielen und der Konfiguration des Agenten verschiedene Ebenen aus.

Angriffe auf die Modellebene:

  • Prompt-Injektion fügt bösartige Anweisungen in Agenteneingaben ein
  • Jailbreaking versucht, die im zugrunde liegenden Modell integrierten Sicherheitsbeschränkungen zu umgehen, ähnlich wie bei herkömmlichen Exploit-Techniken.

Angriffe auf die Tool-Ebene:

  • Der Missbrauch von Tools nutzt legitime Tool-Funktionen für unbefugte Zwecke aus.
  • Die Erweiterung des Anwendungsbereichs verleitet Agenten dazu, Tools über die vorgesehenen Grenzen hinaus zu verwenden.
  • Der Missbrauch von Ressourcen verbraucht durch wiederholte Aufrufe Rechen- oder API-Kontingente.

Angriffe auf die Speicherschicht:

  • Speichervergiftung korrumpiert den persistenten Kontext, um zukünftige Entscheidungen zu beeinflussen.
  • Durch Kontextmanipulation werden falsche Informationen eingefügt, die der Agent als verbindlich behandelt.

Angriffe auf die Orchestrierungsebene:

  • Zielentführung lenkt das Ziel des Agenten in Richtung von Ergebnissen, die vom Angreifer kontrolliert werden.
  • Die Manipulation des Workflows verändert die Ausführungslogik, um Genehmigungsschritte zu umgehen.

Die AWS Agentic AI Security Scoping Matrix bietet einen Rahmen für die Kategorisierung von Agentenbereitstellungen anhand von zwei Dimensionen: Konnektivität (niedrig oder hoch) und Autonomie (niedrig oder hoch). Daraus ergeben sich vier Bereiche, die jeweils unterschiedliche Sicherheitsmaßnahmen erfordern.

Übersicht über die AWS-Scoping-Matrix:

  • Umfang 1 (geringe Konnektivität, geringe Autonomie): Interne Agenten mit eingeschränktem Zugriff auf Tools. Grundlegende Eingabevalidierung und Protokollierung ausreichend.
  • Umfang 2 (hohe Konnektivität, geringe Autonomie): Mit dem Internet verbundene Agenten unter menschlicher Aufsicht. Erfordert Netzwerksegmentierung und API-Sicherheit.
  • Umfang 3 (geringe Konnektivität, hohe Autonomie): Interne Agenten mit erheblicher unabhängiger Handlungsfähigkeit. Erfordert Handlungsbeschränkungen und Genehmigungsworkflows.
  • Umfang 4 (Hohe Konnektivität, hohe Autonomie): Mit dem Internet verbundene autonome Agenten. Erfordert zero trust vollständige zero trust und kontinuierliche Überwachung.

Unternehmen sollten mit der Umsetzung in den Bereichen Scope 1 oder 2 beginnen und erst dann zu höheren Bereichen übergehen, wenn sie ihre Sicherheitsreife unter Beweis gestellt haben. Die Scoping-Matrix wird von OWASP, CoSAI und mehreren Normungsgremien als grundlegendes Rahmenwerk herangezogen.

Das von Anthropic eingeführte Model Context Protocol (MCP) bietet eine standardisierte Schnittstelle für die Kommunikation zwischen Agenten und Tools. MCP verbessert zwar die Interoperabilität, schafft aber auch neue Angriffsvektoren. Sicherheitsteams müssen die Integrität des MCP-Servers überprüfen und die laterale Bewegung zwischen Agenten und verbundenen Tools überwachen.

Sicherheitsrisiken und Bedrohungen durch agentenbasierte KI

Die im Dezember 2025 veröffentlichte OWASP Top 10 für agentenbasierte Anwendungen 2026 legt die branchenübliche Taxonomie für Bedrohungen durch agentenbasierte KI-Systeme fest. Dieses Framework wurde unter Mitwirkung von über 100 Sicherheitsforschern entwickelt und wird von Microsoft, NVIDIA, AWS und GoDaddy herangezogen. Es bietet eine maßgebliche Klassifizierung der Sicherheitsrisiken durch agentenbasierte KI.

OWASP Top 10 für Agentic-Anwendungen 2026

Die vollständige OWASP Top 10 für Agentic-Anwendungen identifiziert die folgenden Risikokategorien:

  1. ASI01 – Agent Goal Hijack: Angreifer manipulieren die Ziele von Agenten durch Prompt-Injektion oder Kontextmanipulation und lenken legitime Fähigkeiten in Richtung böswilliger Ergebnisse um.
  2. ASI02 – Missbrauch von Tools: Ausnutzung von Agent-Tools für unbefugte Aktionen, einschließlich der Erweiterung des Anwendungsbereichs über die vorgesehenen Grenzen hinaus
  3. ASI03 – Identitäts- und Privilegienmissbrauch: Ausnutzung übermäßiger Berechtigungen, Diebstahl von Anmeldedaten oder Identitätsdiebstahl, der zur Übernahme von Konten führt
  4. ASI04 – Speichervergiftung: Beschädigung des persistenten Agentenspeichers, um zukünftige Entscheidungen zu beeinflussen und Kettenreaktionen auszulösen
  5. ASI05 – Datenleck: Unbefugte Extraktion sensibler Daten über Agent-Ausgaben, Protokolle oder Tool-Antworten
  6. ASI06 – Supply Chain : Kompromittierung von Agentenkomponenten, einschließlich Tools, Plugins, MCP-Servern und Abhängigkeiten, als Teil umfassenderer Angriffe auf die Lieferkette
  7. ASI07 – Manipulation von Eingaben: Speziell gestaltete Eingaben, die die Parsing- oder Verarbeitungslogik von Agenten ausnutzen
  8. ASI08 – Übermäßige Autonomie: Handlungen von Agenten, die ohne angemessene Aufsicht über den angemessenen Rahmen hinausgehen
  9. ASI09 – Unzureichende Protokollierung und Überwachung: Unzureichende Beobachtbarkeit verhindert die Erkennung böswilliger Handlungen von Agenten.
  10. ASI10 – Unsichere Ausgabe: Agentenausgaben, die nachgelagerte Angriffe ermöglichen oder Sicherheitskontrollen umgehen

Tabelle 2: OWASP Top 10 für Agentenanwendungen 2026

Risiko-ID Name Auswirkungsgrad Primäre Schadensminderung
ASI01 Agent-Ziel-Hijack Kritisch Eingabevalidierung, objektive Einschränkungen
ASI02 Missbrauch von Werkzeugen Hoch Tool-Zulassungslisten, Bereichsbeschränkungen
ASI03 Identitäts- und Privilegienmissbrauch Kritisch Minimale Berechtigungen, fortlaufende Autorisierung
ASI04 Speichervergiftung Hoch Speicherisolierung, Integritätsprüfung
ASI05 Datenverlust Hoch Ausgabefilterung, DLP-Integration
ASI06 Supply Chain Kritisch Lieferantenüberprüfung, SBOM
ASI07 Eingabemanipulation Mittel Eingabesanitierung, Typprüfung
ASI08 Übermäßige Autonomie Mittel Progressive Autonomie, Genehmigungsworkflows
ASI09 Unzureichende Protokollierung Mittel Umfassende Telemetrie, Prüfpfade
ASI10 Unsichere Ausgabe Mittel Ausgabevalidierung, nachgeschaltete Kontrollen

Jedes Sicherheitsteam, das agentenbasierte KI-Systeme betreibt, sollte seine Implementierungen anhand dieser Risikokategorien abgleichen und geeignete Kontrollen implementieren.

Prompt-Injektion in agentenbasierten Systemen

Prompt-Injektion stellt in agentenbasierten Kontexten eine besonders gefährliche Bedrohung dar, da Agenten auf manipulierte Anweisungen reagieren können.

Bei der direkten Prompt-Injektion werden bösartige Anweisungen direkt in die Benutzereingabe eingefügt. Ein Angreifer könnte eine Eingabe erstellen, die die ursprünglichen Anweisungen des Agenten mit neuen Zielen überschreibt.

Die indirekte Prompt-Injektion ist heimtückischer. Angreifer betten versteckte Anweisungen in Inhalte ein, die der Agent abruft. Dokumente, E-Mails, Webseiten und Datenbankdatensätze können alle Payloads enthalten, die aktiviert werden, wenn der Agent sie verarbeitet.

Prompts zweiter Ordnung nutzen Multi-Agent-Architekturen aus. Bei dokumentierten Angriffen auf ServiceNow Now Assist betteten Angreifer bösartige Anweisungen in Datenfelder ein, die für den ersten Verarbeitungsagenten harmlos erschienen, aber aktiviert wurden, wenn sie zur Ausführung an einen Agenten mit höheren Berechtigungen weitergeleitet wurden.

OpenAI erklärte im Dezember 2025, dass das Problem der Prompt-Injektion auf architektonischer Ebene möglicherweise nie vollständig gelöst werden kann. Diese Erkenntnis eines führenden KI-Entwicklers unterstreicht die Notwendigkeit mehrschichtiger Abwehrmaßnahmen anstelle der Abhängigkeit von einer einzigen Kontrollmaßnahme.

Eine Meta-Analyse von 78 Studien ergab, dass adaptive Prompt-Injection-Angriffe eine Erfolgsquote von über 85 % erzielen. Selbst Claude Opus 4.5, das mit verbesserten Sicherheitsmaßnahmen entwickelt wurde, zeigte laut Tests von Anthropic eine Erfolgsquote von über 30 % bei gezielten Angriffen.

Die praktische Konsequenz: Unternehmen können sich nicht allein auf Abwehrmaßnahmen auf Modellebene verlassen. Laufzeit-Sicherheitsvorkehrungen, Ausgabevalidierung und Verhaltensüberwachung sind unverzichtbare Ergänzungen. Indirekte Prompt-Injektionen können phishing Angriffe in großem Umfang ermöglichen, bei denen Anmeldedaten oder sensible Daten durch scheinbar legitime Interaktionen mit Agenten extrahiert werden.

Speichervergiftungsangriffe

Speichervergiftung stellt eine neue Bedrohung dar, die speziell für agentenbasierte Systeme gilt, die ihren Status über mehrere Sitzungen hinweg beibehalten.

Der Angriffsmechanismus besteht darin, den persistenten Speicher eines Agenten mit falschen oder bösartigen Informationen zu manipulieren. Da Agenten ihren gespeicherten Kontext als maßgeblich betrachten, beeinflussen vergiftete Speicher zukünftige Entscheidungen, ohne dass eine wiederholte Ausnutzung erforderlich ist.

Eine im Dezember 2025 veröffentlichte Studie von Galileo AI hat gezeigt, dass 87 % der nachgelagerten Entscheidungen innerhalb von vier Stunden nach der ersten Speichervergiftung beeinträchtigt wurden. Der Kaskadeneffekt bedeutet, dass ein einziges erfolgreiches Vergiftungsereignis Hunderte von nachfolgenden Interaktionen des Agenten beeinträchtigen kann.

Der Vorfall im August 2024, bei dem Daten aus der Slack-KI abgezogen wurden, zeigte, wie Memory Poisoning in der Praxis funktioniert. Forscher haben indirekte Prompt-Injection-Anweisungen in private Slack-Kanäle eingebettet. Als der Slack-KI-Assistent diese Kanäle verarbeitete, fing er an, Zusammenfassungen von Unterhaltungen an Ziele zu schicken, die von Angreifern kontrolliert wurden. Das ist eine Art Insider-Bedrohung, die durch KI ermöglicht wird, bei der der Agent zum unwissenden Komplizen beim Datendiebstahl wird.

Die Eindämmung von Memory Poisoning erfordert eine Speicherisolierung zwischen Vertrauensdomänen, eine Integritätsüberprüfung des gespeicherten Kontexts und eine Verhaltensüberwachung, um anomale Entscheidungsmuster zu erkennen, die auf eine Kompromittierung des Speichers hindeuten.

Identitätsmanagement für nicht-menschliche KI-Agenten

Die am schnellsten wachsende Angriffsfläche in der Unternehmenssicherheit sind nicht-menschliche Identitäten (NHIs). Laut einer Analyse des Weltwirtschaftsforums übersteigen NHIs heute in Unternehmen die Anzahl menschlicher Identitäten im Verhältnis 50:1, wobei Prognosen davon ausgehen, dass dieses Verhältnis innerhalb von zwei Jahren auf 80:1 ansteigen wird. KI-Agenten stellen eine neue Kategorie von NHIs dar, die eine spezielle Sicherheitssteuerung erfordern.

Branchendaten zeigen, dass 97 % der KI-bezogenen Datenverstöße auf mangelhaftes Zugriffsmanagement zurückzuführen sind. Die Übernahme von SGNL durch CrowdStrike für 740 Millionen US-Dollar im Januar 2026 signalisiert, dass große Sicherheitsanbieter agentenbasierte KI grundsätzlich als Identitätsproblem betrachten.

Herkömmliche Ansätze, bei denen die Berechtigungen für Agenten auf der Grundlage des aufrufenden Benutzers zugewiesen werden, führen zu einer übermäßigen Gefährdung durch Privilegien. Ein Agent, der Forschungsaufgaben ausführt, benötigt nicht denselben Zugriff wie ein Agent, der Finanztransaktionen verarbeitet, selbst wenn beide vom selben Benutzer aufgerufen werden.

Implementierung von Identitätsmanagement für KI-Agenten

Eine effektive NHI-Governance für KI-Agenten erfordert, dass diese als Identitäten erster Klasse mit unabhängigem Lebenszyklusmanagement behandelt werden.

Phasen des Identitätslebenszyklus:

  • Erstellen: Festlegen der Identität des Agenten mit eindeutiger Eigentümerschaft, Zweckdokumentation und anfänglichem Berechtigungsumfang
  • Verwalten: Regelmäßige Zugriffsüberprüfungen, Anpassung von Berechtigungen basierend auf sich ändernden Anforderungen
  • Monitor: Kontinuierliche Verhaltensanalyse durch Identitätsanalyse zur Erkennung anomaler Muster
  • Stilllegung: Formelle Beendigungsverfahren, die verhindern, dass Zombie-Agenten ohne Aufsicht aktiv bleiben

Grundsätze der Unternehmensführung:

  • Least Privilege: Gewähren Sie nur die für bestimmte Aufgaben erforderlichen Mindestberechtigungen, keinen pauschalen Zugriff.
  • Just-in-time-Zugriff: Zeitlich begrenzte Berechtigungen, die automatisch ablaufen und für einen fortgesetzten Zugriff eine erneute Autorisierung erfordern.
  • Kontinuierliche Autorisierung: Echtzeit-Validierung, dass Agenten während des gesamten Betriebs innerhalb des zulässigen Umfangs bleiben
  • Unabhängige Governance: Agentenzugriffsrechte sind von Benutzerzugriffsrechten getrennt, mit unterschiedlichen Überprüfungszyklen.

Das Problem der Zombie-Agenten verdient besondere Aufmerksamkeit. Agenten, die für Experimente oder Proof-of-Concepts eingerichtet wurden, bleiben oft auch nach Abschluss der Projekte aktiv. Diese Agenten behalten ihren Zugriff, verbrauchen Ressourcen und vergrößern die Angriffsfläche, ohne dass es einen Eigentümer oder eine Aufsicht gibt. Formelle Stilllegungsverfahren müssen Teil jedes Lebenszyklus der Agentenbereitstellung sein.

Reale Vorfälle und Fallstudien

Die Bedrohungslage für agentenbasierte KI hat sich von theoretisch zu operativ verschoben. In wichtigen Unternehmensplattformen wurden kritische Schwachstellen mit CVSS-Werten über 9,0 entdeckt, von denen mehrere aktiv ausgenutzt werden.

Kritische CVEs in agentenbasierten KI-Systemen (2025–2026)

Tabelle 3: Kritische Schwachstellen in agentenbasierten KI-Systemen (2025–2026)

CVE-ID Produkt CVSS Entdeckungsdatum Ausnutzungsstatus
CVE-2025-12420 ServiceNow KI-Plattform 9.3 Januar 2026 Geflickt
CVE-2025-34291 Langfluss 9.4 April 2025 Aktive Ausnutzung (Flodric-Botnetz)
CVE-2025-32711 Microsoft 365 Copilot 9.3 Juni 2025 Aktive Ausnutzung

ServiceNow BodySnatcher (CVE-2025-12420)

Die in der KI-Plattform von ServiceNow entdeckte BodySnatcher-Sicherheitslücke ermöglichte es nicht authentifizierten Angreifern, sich nur mit einer E-Mail-Adresse als beliebiger Benutzer, einschließlich Administratoren, auszugeben. Der Exploit nutzte einen fest codierten Authentifizierungscode und eine permissive Kontoverknüpfung, um MFA und SSO zu umgehen, sodass Angreifer KI-Workflows aufrufen und Backdoor-Konten mit erhöhten Berechtigungen erstellen konnten. Unternehmen, die betroffene Versionen der Virtual Agent API verwenden, sollten den Patch-Status unverzüglich überprüfen.

Langflow-Sicherheitslücke (CVE-2025-34291)

Langflow, ein beliebtes Open-Source-Framework für KI-Agenten, enthielt eine kritische Schwachstellenkette, die eine vollständige Übernahme von Konten und die Ausführung von Remote-Code ermöglichte. Zu freizügige CORS-Einstellungen in Kombination mit fehlendem CSRF-Schutz und einem unsicheren endpoint für die Code-Validierung endpoint den Angriffspfad. Alle gespeicherten Zugriffstoken und API-Schlüssel wurden offengelegt, was eine kaskadierende Kompromittierung aller integrierten nachgelagerten Dienste ermöglichte. Das Flodric-Botnetz nutzt diese Schwachstelle aktiv aus.

Microsoft Copilot EchoLeak (CVE-2025-32711)

Die EchoLeak-Sicherheitslücke ist der erste dokumentierte Zero-Click-Angriff auf einen KI-Agenten. Angreifer betten bösartige Eingabeaufforderungen in versteckten Text, Sprecheranmerkungen, Metadaten oder Kommentare in Word-, PowerPoint- oder Outlook-Dokumenten ein. Wenn Opfer mit Copilot interagieren, werden sensible Unternehmensdaten wie E-Mails, OneDrive-Dateien, SharePoint-Inhalte und Teams-Nachrichten über Bild-URL-Parameter exfiltriert, ohne dass der Benutzer dies bemerkt oder interagiert.

Erster KI-gesteuerter Cyberangriff

Im September 2025 gab Anthropic bekannt, dass es zu einer Störung durch den ersten dokumentierten groß angelegten Cyberangriff gekommen war, der von einem KI-Agenten ohne wesentliche menschliche Intervention durchgeführt wurde. Eine von der chinesischen Regierung unterstützte Gruppe manipulierte Claude Code, um Aufklärungsarbeiten durchzuführen, Ziele auszuwählen und Einbruchsversuche bei etwa 30 Organisationen aus den Bereichen Finanzdienstleistungen, Regierung und kritische Infrastruktur durchzuführen.

PhantomRaven Supply Chain

Koi Security entdeckte 126 bösartige npm-Pakete mithilfe einer neuartigen Remote Dynamic Dependencies-Technik. Die Pakete erschienen in der Registrierung leer und harmlos und holten sich erst nach der Installation bösartige Payloads von den Servern der Angreifer. Unter Verwendung von KI-generierten Namen durch eine Technik namens Slopsquatting erzielten diese Pakete vor ihrer Entdeckung über 86.000 Downloads und exfiltrierten npm-Token, cloud und SSH-Schlüssel.

Diese Vorfälle erfordern robuste Reaktionsfähigkeiten, die speziell auf KI-Agentenvektoren ausgerichtet sind. Sicherheitsteams sollten ihre Playbooks aktualisieren und agentenbezogene Untersuchungsverfahren einbeziehen.

Erkennen und Verhindern von agentenbasierten KI-Bedrohungen

Das MIT Sloan Three Essentials Framework bietet einen strukturierten Ansatz für die Sicherheit agentenbasierter KI. Unternehmen müssen umfassende Bedrohungsmodellierung, kontinuierliche Sicherheitstests und Laufzeitschutzmaßnahmen implementieren, die aufeinander abgestimmt sind.

Nur 21 % der Sicherheitsverantwortlichen geben an, vollständige Transparenz über die Abläufe von KI-Agenten zu haben. Weniger als 40 % führen regelmäßig KI-Sicherheitstests durch. Diese Transparenzlücke stellt sowohl ein Risiko als auch eine Chance für Sicherheitsteams dar, ihre Unternehmen durch verbesserte Fähigkeiten zur Erkennung von Bedrohungen von anderen abzuheben.

Sicherheitskontrollen durch AWS Scoping Matrix Umfang

Die Anpassung der Kontrollen an die Komplexität der Architektur gewährleistet einen angemessenen Schutz, ohne legitime Vorgänge zu behindern.

Umfang 1 (geringe Konnektivität, geringe Autonomie):

  • Grundlegende Eingabevalidierung und Bereinigung
  • Umfassende Protokollierung der Aktionen von Agenten
  • Ausgabefilterung für sensible Daten

Umfang 2 (Hohe Konnektivität, geringe Autonomie):

  • Netzwerksegmentierung zur Isolierung der Agenteninfrastruktur
  • API-Sicherheit einschließlich Authentifizierung und Ratenbegrenzung
  • Überwachung der externen Kommunikation

Umfang 3 (geringe Konnektivität, hohe Autonomie):

  • Aktionsbeschränkungen, die die Fähigkeiten von Agenten auf definierte Grenzen beschränken
  • Genehmigungsworkflows für Entscheidungen mit großer Tragweite
  • Progressive Autonomie mit zunehmendem Vertrauen

Umfang 4 (Hohe Konnektivität, hohe Autonomie):

  • Vollständiges zero trust -Architektur, wie von Cisco beschrieben
  • Kontinuierliche Überwachung mit Verhaltensanalyse
  • Human-on-the-Loop für irreversible Handlungen
  • Integration der Echtzeit-Bedrohungserkennung in SIEM -Plattformen

Implementierung von Laufzeit-Sicherheitsvorkehrungen

Der mehrschichtige Laufzeitschutz bekämpft Bedrohungen in jeder Phase des Agent-Betriebs.

Schutzmaßnahmen für die Eingabeschicht:

  • Prompt-Injektionsklassifikatoren, die bösartige Befehlsmuster erkennen
  • Inhaltsfilterung zum Entfernen potenziell gefährlicher Nutzdaten aus Eingaben
  • Schema-Validierung, die sicherstellt, dass Eingaben den erwarteten Formaten entsprechen

Schutzmaßnahmen auf Aktionsebene:

  • Tool-Zulassungslisten, die Agenten auf genehmigte Funktionssätze beschränken
  • Umfangsbeschränkungen, die eine Erweiterung der Fähigkeiten über festgelegte Grenzen hinaus verhindern
  • Ratenbegrenzung zur Verhinderung von Ressourcenmissbrauch durch übermäßige Tool-Aufrufe

Ausgabeschicht-Schutzmaßnahmen:

  • Erkennung und Maskierung personenbezogener Daten zur Verhinderung einer unbeabsichtigten Offenlegung von Daten
  • Filterung sensibler Daten, wobei Anmeldedaten und Tokens aus den Ausgaben entfernt werden
  • Validierung der Antwort, um sicherzustellen, dass die Ausgaben keine nachgelagerten Angriffe ermöglichen

Anbieterlösungen wie NVIDIA NeMo Guardrails, F5 und Straiker bieten kommerzielle Implementierungen. Unternehmen können auch benutzerdefinierte Guardrails mithilfe von Open-Source-Frameworks erstellen, die ihren spezifischen Anforderungen entsprechen.

Checkliste für bewährte Verfahren

Sicherheitsteams sollten diese grundlegenden Kontrollen validieren, bevor sie den Einsatz von agentenbasierter KI skalieren:

  • Behandeln Sie KI-Agenten als erstklassige Identitäten mit unabhängiger Governance und Lebenszyklusmanagement.
  • Implementieren Sie die Prinzipien der geringsten Privilegien und geringsten Autonomie und erteilen Sie nur die erforderlichen Berechtigungen.
  • Setzen Sie Observability-Tools ein, bevor Sie die Autonomie skalieren, um Einblick in die Verhaltensmuster von Angreifern zu erhalten.
  • Behalten Sie die menschliche Zustimmung für irreversible oder weitreichende Maßnahmen bei.
  • Erstellen Sie KI-spezifische Software-Stücklisten (SBOMs), die alle Agentenkomponenten dokumentieren.
  • Wenden Sie zero trust die Kommunikation zwischen Agenten an und validieren Sie jede Interaktion.
  • Führen Sie regelmäßig threat hunting mit Schwerpunkt auf agentspezifischen Angriffsmustern
  • Integrieren Sie die Agentenüberwachung in bestehende SOC-Automatisierungs -Workflows.
  • Formelle Stilllegungsverfahren für ausgemusterte Agenten festlegen

Compliance und Rahmenbedingungen

Unternehmen müssen agentenbasierte KI-Sicherheitspraktiken an regulatorische Anforderungen und Branchenstandards anpassen. Die Rahmenbedingungen haben sich Ende 2025 erheblich weiterentwickelt, wobei wichtige Veröffentlichungen speziell auf autonome KI-Systeme eingingen.

Regulatorisches Umfeld (Januar 2026)

Tabelle 4: Regulatorischer Rahmen für agentenbasierte KI (Januar 2026)

Regelung Datum des Inkrafttretens Wichtige Anforderungen Relevanz
Kalifornien SB 53 (TFAIA) 1. Januar 2026 Risikorahmen für große KI-Entwickler; Meldung von Vorfällen innerhalb von 15 Tagen; Schutz von Whistleblowern Hoch
Texas TRAIGA 1. Januar 2026 Verbietet schädliche KI-Ausgaben, einschließlich der Förderung von Cyberangriffen; regulatorische Sandbox Mittel
Colorado AI Act (SB 24-205) 30. Juni 2026 Folgenabschätzungen für risikoreiche KI-Systeme Mittel
NIST-Profil für Cyber-KI Entwurf (Dezember 2025) CSF 2.0-Mapping für KI-Sicherheits-Governance Hoch

Das NIST Cyber AI Profile, dessen vorläufiger Entwurf im Dezember 2025 veröffentlicht wurde, ordnet die Schwerpunktbereiche der KI-Sicherheit den Funktionen des Cybersecurity Framework 2.0 zu, darunter „Govern“ (Verwalten), „Identify“ (Identifizieren), „Protect“ (Schützen), „Detect“ (Erkennen), „Respond“ (Reagieren) und „Recover“ (Wiederherstellen). Obwohl dieses Framework nicht rechtsverbindlich ist, wird erwartet, dass es sich zum De-facto-Standard für die KI-Sicherheitsgovernance entwickeln wird.

Das NIST veröffentlichte im Januar 2026 zusätzlich eine Informationsanfrage, in der es um Beiträge zu Sicherheitsaspekten für KI-Agentensysteme bat, wobei insbesondere Prompt Injection, Data Poisoning und fehlgeleitete Ziele, die sich auf reale Systeme auswirken, angesprochen wurden.

Wichtige Rahmenreferenzen:

Unternehmen sollten ihre Compliance -Programme an diese Rahmenwerke anpassen, insbesondere an die OWASP- und MITRE-Leitlinien, die operative Spezifität bieten.

Moderne Ansätze für die Sicherheit agentenbasierter KI

Die Anbieterlandschaft für agentenbasierte KI-Sicherheit hat sich rasant erweitert, wobei sowohl etablierte Plattformen als auch spezialisierte Start-ups Lösungen anbieten. Der identitätsorientierte Ansatz hat besonders an Dynamik gewonnen, da Unternehmen erkennen, dass die Agentensicherheit im Grunde genommen eine Herausforderung im Bereich der Erkennung und Reaktion auf Identitätsbedrohungen darstellt.

Große Unternehmensanbieter wie Palo Alto Networks mit Cortex AgentiX, CrowdStrike mit Falcon Agentic Security und SentinelOne mit Singularity AI SIEM haben spezielle agentenbasierte KI-Sicherheitsfunktionen auf den Markt gebracht. Die Übernahme von SGNL durch CrowdStrike für 740 Millionen US-Dollar zielt speziell auf Echtzeit-Zugriffskontrollen für Menschen, nicht-menschliche Identitäten und autonome KI-Agenten ab.

Auch die Sicherheitsarchitektur auf Browser-Ebene hat sich als Kontrollpunkt etabliert. Google Chrome führte im Dezember 2025 eine mehrschichtige Verteidigungsarchitektur für das Gemini-Agenten-Browsing ein, die einen User Alignment Critic (isoliertes KI-Modell, das vorgeschlagene Aktionen überprüft), Agent Origin Sets (Beschränkung der Interaktionen auf aufgabenrelevante Websites) und obligatorische Benutzerbestätigungen für sensible Aktionen umfasst.

Das Startup-Ökosystem hat erhebliche Investitionen angezogen. WitnessAI sammelte 58 Millionen Dollar für agentenbasierte KI-Governance und Observability. Geordie trat mit 6,5 Millionen Dollar für eine KI-Agenten-Sicherheitsplattform aus der Stealth-Phase hervor. Prophet Security sammelte 30 Millionen Dollar für eine agentenbasierte SOC-Plattform.

Unternehmen, die agentenbasierte KI für Sicherheitsvorgänge einsetzen, berichten von erheblichen Effizienzsteigerungen. Branchenzahlen zeigen, dass sich die Zeit für die Triage von Warnmeldungen um 60 % verkürzt, wenn agentenbasierte KI die erste Untersuchung und Anreicherung übernimmt, sodass menschliche Analysten sich komplexeren Entscheidungsprozessen widmen können.

Wie Vectra AI über agentenbasierte KI-Sicherheit Vectra AI

Vectra AI der Sicherheit agentenbasierter KI aus der Perspektive der Attack Signal Intelligence und erkennt, dass KI-Agenten mit ihrer zunehmenden Verbreitung in Unternehmensnetzwerken sowohl zu potenziellen Angriffsvektoren als auch zu wertvollen Vermögenswerten werden, die geschützt werden müssen.

Die „Assume-Compromise“-Philosophie lässt sich ganz natürlich auf agentenbasierte Systeme übertragen. Anstatt zu versuchen, jeglichen Missbrauch von Agenten allein durch Perimeterkontrollen zu verhindern, müssen sich Unternehmen auf die schnelle Erkennung von anomalem Agentenverhalten, unbefugten Tool-Aufrufen und Identitätsmissbrauchsmustern konzentrieren.

Dies erfordert eine einheitliche Überwachbarkeit über die gesamte moderne Angriffsfläche hinweg, einschließlich der Kommunikation von KI-Agenten, Tool-Aufrufen und Identitätsaktionen. Die Funktionen zur Erkennung und Reaktion im Netzwerk müssen weiterentwickelt werden, um legitime autonome Vorgänge von Manipulationen durch Angreifer unterscheiden zu können. ITDR-Lösungen müssen erweitert werden, um auch nicht-menschliche Identitäten und agentenbezogene Muster des Missbrauchs von Berechtigungen abzudecken.

Das Ziel besteht nicht darin, die Einführung von KI zu blockieren, sondern eine sichere Bereitstellung in großem Maßstab zu ermöglichen und Sicherheitsteams die Transparenz und Signalklarheit zu bieten, die sie benötigen, um in einer agentenbasierten Umgebung sicher arbeiten zu können.

Weitere Grundlagen der Cybersicherheit

Häufig gestellte Fragen

Was ist agentenbasierte KI-Sicherheit?

Was sind die größten Risiken von agentenbasierten KI-Systemen?

Wie unterscheidet sich agentenbasierte KI von generativer KI?

Was ist die tödliche Dreierkombination in der KI-Sicherheit?

Wie implementiert man Sicherheitsvorkehrungen für KI-Agenten?

Was ist eine nicht-menschliche Identität in agentenbasierter KI?

Welche Compliance-Rahmenbedingungen gelten für agentenbasierte KI?