Da Unternehmen die Einführung künstlicher Intelligenz immer schneller vorantreiben, stellt sich eine entscheidende Frage: Wie sichert man Systeme, die sich bei jeder Interaktion anders verhalten? Herkömmliche Sicherheitstests wurden für deterministische Software entwickelt, bei der gleiche Eingaben zu gleichen Ergebnissen führen. KI-Systeme funktionieren nach einem völlig anderen Paradigma und generieren probabilistische Antworten, die auf eine Weise manipuliert werden können, die herkömmliche Cybersicherheitsteams nie erwartet hätten.
Es steht viel auf dem Spiel. Laut dem Sicherheitsbericht 2025 von Adversa AI wurden 35 % der realen KI-Sicherheitsvorfälle durch einfache Eingabeaufforderungen verursacht, wobei einige zu Verlusten von über 100.000 US-Dollar pro Vorfall führten. Als OpenAI im Januar 2026 GPT-5 veröffentlichte, knackten Red Teams von SPLX innerhalb von 24 Stunden den Jailbreak und erklärten es für „für Unternehmen nahezu unbrauchbar“.
Dieser Leitfaden bietet Sicherheitsexperten einen umfassenden Rahmen zum Verständnis und zur Umsetzung von AI Red Teaming. Ganz gleich, ob Sie als SOC-Leiter die Fähigkeiten Ihres Teams erweitern, als CISO einen Business Case für Investitionen erstellen oder als Sicherheitsarchitekt AI-Sicherheitsprogramme bewerten – hier finden Sie umsetzbare Anleitungen, die auf den neuesten Frameworks, Tools und praktischen Erfahrungen basieren.
AI Red Teaming ist eine Methode des Adversarial Testing, die speziell für KI-Systeme entwickelt wurde, um Schwachstellen, Sicherheitsprobleme und Sicherheitslücken zu identifizieren, bevor Angreifer diese ausnutzen können. Im Gegensatz zum traditionellen Red Teaming, das sich auf Infrastruktur und Anwendungen konzentriert, zielt AI Red Teaming auf die einzigartigen Angriffsflächen von Machine-Learning-Modellen ab, darunter Trainingsdaten, Inferenz-Pipelines, Prompts und das Modellverhalten selbst.
Die Praxis hat sich aus den Traditionen des Red Teaming im Militär- und Cybersicherheitsbereich entwickelt, befasst sich jedoch mit Herausforderungen, die speziell für KI-Systeme gelten. Während herkömmliche Software sich deterministisch verhält, liefern KI-Systeme variable Ergebnisse auf der Grundlage probabilistischer Modelle. Dieser grundlegende Unterschied erfordert Testansätze, die statistische Schwankungen und emergente Verhaltensweisen berücksichtigen.
Laut Growth Market Reports erreichte der Markt für AI Red Teaming Services im Jahr 2024 einen Wert von 1,43 Milliarden US-Dollar und wird bis 2029 voraussichtlich auf 4,8 Milliarden US-Dollar wachsen, was einer durchschnittlichen jährlichen Wachstumsrate von 28,6 % entspricht. Dieses Wachstum spiegelt die zunehmende Einführung von KI in Unternehmen wider, verbunden mit dem regulatorischen Druck durch Rahmenwerke wie den EU-KI-Akt.
Die Forschungsergebnisse des Georgetown CSET liefern wichtige Klarheit darüber, was AI Red Teaming tatsächlich umfasst. Der Begriff wurde bisher für alles Mögliche verwendet, von Prompt-Hacking bis hin zu umfassenden Sicherheitsbewertungen. Wirksame Programme befassen sich jedoch sowohl mit der Sicherheitsdimension (Schutz der KI vor böswilligen Akteuren) als auch mit der Sicherheitsdimension (Verhinderung von Schäden durch KI).
Organisationen, die KI-Sicherheitsprogramme implementieren, müssen diese Doppelnatur verstehen. Ein System, das zwar gegen Prompt-Injektionen resistent ist, aber dennoch verzerrte Ergebnisse liefert, stellt nach wie vor ein erhebliches Risiko dar. Umgekehrt bleibt ein System mit starken Sicherheitsvorkehrungen, aber schwachen Sicherheitskontrollen anfällig für entschlossene Angreifer.
Die Unterscheidung zwischen KI-Sicherheit und KI-Sicherheitstests stellt einen der wichtigsten konzeptionellen Rahmenbedingungen im KI-Red-Teaming dar.
AI-Sicherheitstests konzentrieren sich darauf, die Welt vor KI zu schützen. Dazu gehören Tests für:
AI-Sicherheitstests konzentrieren sich auf den Schutz der KI vor der Außenwelt. Dazu gehören Tests für:
Die Methodik-Dokumentation von Anthropic zeigt, wie führende KI-Labore beide Dimensionen integrieren. Ihre Red-Teaming-Programme beschäftigen domänenspezifische Experten (darunter Spezialisten für Vertrauen und Sicherheit, Experten für nationale Sicherheit und mehrsprachige Tester), um sowohl Sicherheits- als auch Schutzlücken zu untersuchen.
Effektive KI-Red-Teaming-Programme berücksichtigen beide Dimensionen, da Angreifer jede Schwachstelle ausnutzen, die ihnen den einfachsten Weg bietet. Eine Sicherheitsumgehung, die die Erstellung schädlicher Inhalte ermöglicht, kann zu einem Sicherheitsproblem werden, wenn sie als Waffe eingesetzt wird. Eine Sicherheitslücke, durch die Trainingsdaten abgezogen werden, hat Auswirkungen auf die Privatsphäre und das Vertrauen.
Die Funktionen zur Erkennung von Verhaltensbedrohungen, die Sicherheitsteams für herkömmliche Bedrohungen einsetzen, müssen weiterentwickelt werden, um diesen KI-spezifischen Angriffsmustern Rechnung zu tragen.
Effektives AI Red Teaming folgt einer strukturierten Methodik, die traditionelle Sicherheitstests an die besonderen Eigenschaften von KI-Systemen anpasst.
Der AI-Red-Teaming-Prozess:
Die Dokumentation des AI Red Teams von Microsoft enthält maßgebliche Leitlinien zu dieser Methodik. Das Team hat PyRIT (Python Risk Identification Tool for generative AI) entwickelt, um diese Schritte in großem Maßstab umzusetzen.
Die Scoping-Phase erfordert bei KI-Systemen besondere Aufmerksamkeit. Im Gegensatz zu herkömmlichen Anwendungen mit definierter Funktionalität weisen KI-Systeme emergente Verhaltensweisen auf, die während der Entwicklung möglicherweise nicht erkennbar sind. Ein effektives Scoping identifiziert die beabsichtigten Anwendungsfälle des KI-Systems, die Daten, auf die es zugreift, die Aktionen, die es ausführen kann, und die potenziellen Auswirkungen von Ausfällen.
Die Entwicklung einer gegnerischen Strategie ordnet potenzielle Angriffsvektoren dem spezifischen KI-System zu, das getestet wird. Ein LLM-gestützter Kundendienst-Chatbot ist anderen Bedrohungen ausgesetzt als ein autonomer KI-Agent mit Tool-Zugriff. Die Strategie sollte Angriffe nach ihrer Wahrscheinlichkeit und ihren potenziellen Auswirkungen priorisieren.
Die Vorgehensweisen bei der Durchführung variieren je nach Testzielen. Bei Discovery-Tests wird ermittelt, welche Schwachstellen vorhanden sind. Bei Exploitation-Tests wird festgestellt, ob Schwachstellen ausgenutzt werden können. Bei Escalation-Tests wird untersucht, ob der anfängliche Zugriff zu einer umfassenderen Kompromittierung führen kann. Bei Persistence-Tests wird geprüft, ob Angreifer den Zugriff über einen längeren Zeitraum aufrechterhalten können.
Berichte und Analysen müssen reproduzierbare Testfälle enthalten. KI-Systeme liefern variable Ergebnisse, daher sollten Testdokumente die genauen Eingaben, Modellversionen und Bedingungen erfassen, die Schwachstellen ausgelöst haben. So können Entwickler Probleme reproduzieren und beheben.
Die Debatte zwischen manuellem und automatisiertem AI Red Teaming hat weitgehend zu einem Konsens über hybride Ansätze geführt.
Manuelle Tests sind nach wie vor unerlässlich, um neue Schwachstellen aufzudecken. Menschliche Kreativität identifiziert Angriffsmuster, die automatisierte Tools nicht vorhersehen können. Laut einer Studie von arXiv erzielen Rollenspiel-Angriffe eine Erfolgsquote von 89,6 %, Logikfallen-Angriffe erreichen 81,4 % und Codierungstricks sind in 76,2 % der Fälle erfolgreich. Diese Techniken erfordern menschliche Einsicht, um sie zu entwickeln und zu verfeinern.
Automatisierte Tests bieten Skalierbarkeit und systematische Abdeckung. Mit entsprechenden Tools lassen sich Tausende von Angriffsvarianten über verschiedene Modellversionen hinweg testen, wodurch Regressionen identifiziert und konsistente Sicherheitsstandards gewährleistet werden können. Giskards GOAT-Forschung zeigt, dass automatisierte Multi-Turn-Angriffe bei kleineren Modellen innerhalb von fünf Gesprächsrunden eine Jailbreak-Erfolgsquote von 97 % erreichen.
Microsoft empfiehlt, vor der Implementierung einer automatisierten Skalierung zunächst ein manuelles Red Teaming durchzuführen. Manuelle Tests identifizieren die für ein bestimmtes System relevanten Angriffsmuster. Automatisierte Tests stellen dann sicher, dass diese Muster und ihre Varianten im Zuge der Weiterentwicklung des Systems konsistent getestet werden.
Hybride Human-in-the-Loop-Ansätze kombinieren beide Stärken. Automatisierte Tools generieren mögliche Angriffe auf der Grundlage gelernter Muster. Menschliche Experten überprüfen die Ergebnisse, identifizieren vielversprechende Richtungen und lenken die automatisierte Suche auf hochwertige Ziele.
Für Organisationen, die threat hunting , spiegelt dieses Hybridmodell die Entwicklung der Netzwerksicherheit wider. Die automatisierte Erkennung behandelt bekannte Muster in großem Maßstab, während menschliche Analysten neuartige Bedrohungen untersuchen.
Traditionelle Red-Teaming-Fähigkeiten bilden die Grundlage für AI-Red-Teaming, aber die besonderen Eigenschaften von KI-Systemen erfordern zusätzliche Fähigkeiten und unterschiedliche Ansätze.
Tabelle 1: Vergleich zwischen traditionellem Red Teaming und KI-Red Teaming
Diese Tabelle vergleicht die wichtigsten Aspekte des traditionellen Cybersecurity-Red-Teaming mit dem AI-spezifischen Red-Teaming und hebt dabei den erweiterten Umfang und die unterschiedlichen Techniken hervor, die für AI-Systeme erforderlich sind.
Die probabilistische Natur von KI-Systemen verändert die Testmethodik grundlegend. Wenn eine herkömmliche Anwendung eine SQL-Injection-Sicherheitslücke aufweist, schlägt sie bei fehlerhaften Eingaben durchweg fehl. Wenn ein LLM eine Jailbreak-Sicherheitslücke aufweist, kann es einigen Versuchen widerstehen, während es anderen erliegt. Red Teams müssen mehrere Testiterationen durchführen und statistische Erfolgsraten anstelle von binären Pass/Fail-Ergebnissen melden.
Die Angriffsflächen unterscheiden sich erheblich. Herkömmliche Red Teams zielen auf Authentifizierungssysteme, Wege zur Ausweitung von Berechtigungen und Netzwerksegmentierung ab. KI-Red Teams zielen zusätzlich auf modellspezifische Vektoren ab, darunter Prompt-Injection, Training Data Poisoning und Modellinversionsangriffe, mit denen sensible Informationen aus Modellausgaben extrahiert werden.
Die Anforderungen an die Fähigkeiten spiegeln diesen erweiterten Aufgabenbereich wider. Effektive KI-Red-Teamer verbinden traditionelles Sicherheitsfachwissen mit Kenntnissen im Bereich maschinelles Lernen und Fachwissen, das für den Anwendungsfall des KI-Systems relevant ist. Laut dem Framework von HiddenLayer ist diese Kombination selten, was zum Fachkräftemangel in diesem Bereich beiträgt.
Die Beziehung zwischen KI-Red-Teaming und Penetrationstests sorgt häufig für Verwirrung. Das Vergleichsrahmenwerk von Zscaler hilft dabei, den Unterschied zu verdeutlichen.
Penetrationstests konzentrieren sich auf Schwachstellen in der Infrastruktur, in Anwendungen und im Netzwerk. Penetrationstester versuchen, bekannte Schwachstellenklassen in einem definierten Umfang auszunutzen. Das Ziel besteht darin, bestimmte Sicherheitslücken zu identifizieren und deren Behebung zu priorisieren.
AI Red Teaming geht über die Infrastruktur hinaus und umfasst auch das Modellverhalten, die Integrität des Trainings und AI-spezifische Angriffsvektoren. AI Red Teamer versuchen, das AI-System zu unbeabsichtigtem Verhalten zu veranlassen, wobei sie unter Umständen Schwachstellen in der Infrastruktur ausnutzen.
Unternehmen benötigen beides für eine umfassende Sicherheit. Eine gut gesicherte Infrastruktur schützt nicht vor Prompt-Injection-Angriffen, die das Modellverhalten manipulieren. Umgekehrt helfen robuste Modellschutzvorrichtungen nichts, wenn Angreifer über Schwachstellen in der Infrastruktur auf Trainingsdaten zugreifen können.
Betrachten wir einen KI-Chatbot für Finanzdienstleistungen. Bei Penetrationstests würden die Webanwendung, auf der der Chatbot gehostet wird, die APIs, die ihn mit Backend-Systemen verbinden, und die Authentifizierungsmechanismen, die ihn schützen, bewertet werden. Das KI-Red-Teaming würde bewerten, ob der Chatbot manipuliert werden kann, um Kundendaten preiszugeben, Finanzberatung außerhalb seines vorgesehenen Umfangs zu leisten oder schädliche Inhalte zu generieren.
Für Teams, die Erfahrung mit Red-Team-Operationen haben, stellt AI Red Teaming eher eine Erweiterung des Tätigkeitsbereichs dar als einen Ersatz für vorhandene Fähigkeiten.
KI-Red-Teams testen auf Angriffskategorien, die sich erheblich von herkömmlichen Sicherheitslücken unterscheiden. Das Verständnis dieser Taxonomie hilft Praktikern dabei, Tests zu priorisieren und Ergebnisse effektiv zu kommunizieren.
Tabelle 2: Taxonomie der Angriffe durch KI-Red-Teams
Diese Tabelle listet die wichtigsten Angriffskategorien auf, die von KI-Red Teams getestet werden, und enthält Beschreibungen, Beispiele und mögliche Auswirkungen, um Praktikern zu helfen, die Testmaßnahmen zu verstehen und zu priorisieren.
Prompt-Injection ist der häufigste und gefährlichste AI-spezifische Angriffsvektor. Bei diesen Angriffen wird das Verhalten der KI durch manipulierte Eingaben beeinflusst, wodurch Systeme unbeabsichtigte Aktionen ausführen.
Eine direkte Eingabe erfolgt, wenn der Angreifer durch seine Eingaben das Verhalten des Modells direkt manipuliert. Ein Angreifer könnte beispielsweise einen Text eingeben, der die Systemaufforderung überschreibt und so die Persönlichkeit, Ziele oder Einschränkungen der KI verändert.
Bei der indirekten Injektion werden bösartige Anweisungen in externe Datenquellen eingebettet, die von der KI verarbeitet werden. Die Untersuchungen von Tenable zu den Schwachstellen von ChatGPT dokumentierten indirekte Prompt-Injektionen durch SearchGPT beim Lesen bösartiger Blog-Kommentare und zeigten, wie KI-Systeme, die externe Inhalte verarbeiten, anfällig für Angriffe durch Dritte werden.
Der Adversa-KI-Bericht für 2025 ergab, dass 35 % der realen KI-Sicherheitsvorfälle auf einfache Prompt-Angriffe zurückzuführen waren. Diese Angriffe erfordern keine speziellen Tools oder Fachkenntnisse und sind daher für opportunistische Angreifer leicht zugänglich.
Effektive Tests für schnelle Injektionen erfordern Kreativität bei der Formulierung von Angriffen und eine systematische Abdeckung der Injektionspunkte. Jede Eingabe, die das KI-System akzeptiert, stellt einen potenziellen Injektionsvektor dar.
Jailbreaking-Techniken umgehen die in KI-Systemen integrierten Sicherheitsvorkehrungen. Untersuchungen zeigen, dass selbst hochentwickelte Sicherheitsvorkehrungen gegen entschlossene Angreifer versagen.
Laut einer Studie von arXiv erzielen Rollenspielangriffe eine Erfolgsquote von 89,6 %. Indem sie Anfragen in fiktive Szenarien einbetten, bringen Angreifer Modelle dazu, Inhalte zu generieren, die sie sonst ablehnen würden.
Multi-Turn-Jailbreaking führt schrittweise zu schädlichen Ergebnissen. Giskards GOAT-Forschung zeigt, dass diese Angriffe bei kleineren Modellen eine Erfolgsquote von 97 % und bei GPT-4-Turbo innerhalb von fünf Gesprächsrunden eine Erfolgsquote von 88 % erreichen.
Logikfallen-Angriffe nutzen die Schlussfolgerungsfähigkeiten des Modells aus und erzielen eine Erfolgsquote von 81,4 %. Diese Angriffe stellen Szenarien dar, in denen eine logisch konsistente Reaktion einen Verstoß gegen Sicherheitsrichtlinien erfordert.
Die Geschwindigkeit der Jailbreak-Entwicklung unterstreicht die Herausforderung. Als OpenAI im Januar 2026 GPT-5 veröffentlichte, gelang es Red Teams innerhalb von 24 Stunden, einen Jailbreak durchzuführen, ähnlich wie zuvor bei Grok-4 und anderen großen Modellveröffentlichungen.
Das Testen auf Jailbreaks erfordert kontinuierliche Anstrengungen, da sich sowohl Angriffe als auch Abwehrmaßnahmen weiterentwickeln. Ein Modell, das heute bekannten Jailbreaks standhält, kann morgen schon durch neue Techniken überwunden werden.
Der Aufstieg autonomer KI-Agenten führt zu Angriff skategorien, die in der traditionellen LLM-Sicherheit nicht existierten. Die OWASP Top 10 für agentenbasierte Anwendungen bieten das erste spezielle Sicherheitsframework für diese Systeme.
Agent-Ziel-Hijack (ASI01) lenkt die Kernaufgabe eines Agenten durch Manipulation um. Im Gegensatz zur einfachen Prompt-Injektion zielt Goal Hijacking eher auf die dauerhaften Ziele des Agenten als auf einzelne Reaktionen ab.
Missbrauch und Ausnutzung von Tools (ASI02) veranlasst Agenten dazu, Tools auf unbeabsichtigte, schädliche Weise aufzurufen. Agenten mit Zugriff auf E-Mails, Datenbanken oder externe APIs können dazu manipuliert werden, Aktionen auszuführen, die ihre Entwickler nie beabsichtigt haben.
Identitäts- und Privilegienmissbrauch (ASI03) nutzt die Identität von Agenten oder übermäßige Berechtigungen aus. Agenten arbeiten häufig mit erhöhten Berechtigungen, um ihre Aufgaben zu erfüllen, wodurch sich Möglichkeiten ergeben für interne Bedrohungen wenn kompromittiert.
Kaskadierende Ausfälle (ASI08) treten auf, wenn kleine Fehler zerstörerische Kettenreaktionen in miteinander verbundenen Agentensystemen auslösen. Multi-Agent-Architekturen verstärken Fehlermodi.
Unternehmen, die agentenbasierte KI einsetzen, müssen sich darüber im Klaren sein, dass herkömmliche Sicherheitskontrollen diese Angriffsvektoren möglicherweise nicht abdecken. Die Funktionen zur Erkennung und Reaktion auf Identitätsbedrohungen müssen weiterentwickelt werden, um neben den Identitäten von Menschen und Dienstkonten auch die Identitäten von KI-Agenten zu überwachen.
Das Testen von agentenbasierten Systemen erfordert die Bewertung des gesamten Spektrums der Agentenfähigkeiten, einschließlich des Zugriffs auf Tools, der Speicherpersistenz und der Kommunikationskanäle zwischen den Agenten. Die Angriffsfläche vergrößert sich mit jeder Fähigkeit, über die der Agent verfügt.
Angriffe auf KI-Systeme zum Abfluss von Daten können jeden dieser Vektoren ausnutzen, da Agenten mit weitreichendem Zugriff dazu manipuliert werden können, sensible Daten zu sammeln und zu übertragen. Die Muster der lateralen Bewegung in KI-Umgebungen können sich von denen herkömmlicher Netzwerke unterscheiden, da kompromittierte Agenten sich über API-Verbindungen statt über Netzwerkpfade bewegen.
Das Ökosystem der KI-Red-Teaming-Tools ist mittlerweile sehr ausgereift, und Fachleuten stehen sowohl Open-Source- als auch kommerzielle Optionen zur Verfügung.
Tabelle 3: Vergleich von AI-Red-Teaming-Tools
Diese Tabelle vergleicht wichtige Open-Source-Tools für Red Teaming im Bereich KI und hebt deren Entwickler, Stärken, Hauptmerkmale und Lizenzierung hervor, um Praktikern bei der Auswahl geeigneter Lösungen zu helfen.
PyRIT von Microsoft hat sich als führendes Unternehmenstool etabliert. Es lässt sich in Azure AI Foundry integrieren und umfasst den im April 2025 veröffentlichten AI Red Teaming Agent für automatisierte Test-Workflows. Die Angriffsbibliothek von PyRIT umfasst Prompt-Injection, Jailbreaking und Content-Sicherheitstests.
NVIDIA's Garak konzentriert sich auf das Scannen von LLM-Schwachstellen mit einer umfangreichen Probenbibliothek. Die Version 0.14.0 befindet sich derzeit in der Entwicklung und bietet erweiterte Unterstützung für agentenbasierte KI-Systeme. Die Plugin-Architektur von Garak ermöglicht die Entwicklung benutzerdefinierter Proben für organisationsspezifische Anforderungen.
Red AI Range bietet eine Docker-basierte Umgebung zur Simulation von KI-Schwachstellen und ist damit für Schulungs- und Ausbildungszwecke von großem Wert.
Kommerzielle Plattformen von Zscaler, Mindgard und HackerOne bieten Managed Services und zusätzliche Funktionen für Unternehmen, die den Support durch Anbieter bevorzugen. Dazu gehören in der Regel Compliance-Berichte, die Integration kontinuierlicher Tests und die Beratung durch Experten.
Die Auswahl des richtigen Tools erfordert die Abstimmung der Funktionen auf die organisatorischen Anforderungen.
Zu den Stärken von PyRIT zählen die Unterstützung durch Microsoft, eine umfassende Dokumentation und eine tiefe Azure-Integration. Unternehmen, die Azure-KI-Dienste nutzen, profitieren von nativer Unterstützung. Die Angriffsbibliothek spiegelt die Erfahrungen des KI-Red-Teams von Microsoft beim Testen von Produktionssystemen wie Bing Chat und Microsoft 365 Copilot wider.
Zu den Stärken von Garak zählen die KI-Expertise von NVIDIA, der Fokus auf LLM-Probing und umfangreiche Funktionen zur Erkennung von Schwachstellen. Das Tool eignet sich hervorragend für systematische Tests über mehrere Modelle hinweg und die Identifizierung von Regressionen zwischen Versionen.
Die Auswahlkriterien sollten Folgendes umfassen:
Für Teams in Sicherheitsoperationszentren, die KI-Red-Teaming-Fähigkeiten aufbauen, ergänzen diese Tools das menschliche Fachwissen, anstatt es zu ersetzen. Automatisierte Tools sorgen für Abdeckung und Konsistenz. Menschliche Tester sorgen für Kreativität und die Entwicklung neuartiger Angriffe.
Die Erkennung von Bedrohungen fließt in die Konfiguration der Tools ein, sobald neue Angriffstechniken auftauchen. Unternehmen sollten Prozesse zur Aktualisierung von Angriffsbibliotheken einrichten, die auf neu auftretenden Bedrohungen und bekannt gewordenen Schwachstellen basieren.
AI Red Teaming agiert in einem sich ständig weiterentwickelnden Umfeld von Rahmenbedingungen und Vorschriften. Das Verständnis dieser Anforderungen hilft Unternehmen dabei, effektive Programme zu strukturieren und Compliance nachzuweisen.
Tabelle 4: AI Red Teaming Framework Crosswalk
Diese Tabelle ordnet wichtige KI-Governance-Rahmenwerke ihren Red-Teaming-Anforderungen zu und hilft Unternehmen dabei, die regulatorischen Rahmenbedingungen zu verstehen und Testprogramme an Compliance-Verpflichtungen anzupassen.
Das KI-Risikomanagement-Framework des NIST positioniert Adversarial Testing als Teil der Messfunktion. Das Framework definiert Red Teaming als „einen Ansatz, der aus Adversarial Testing von KI-Systemen unter Stressbedingungen besteht, um Fehlermodi oder Schwachstellen von KI-Systemen aufzudecken“.
MITRE ATLAS erweitert das ATT&CK-Framework um KI-spezifische Bedrohungen. Mit dem Update vom Oktober 2025 wurden 14 neue Techniken hinzugefügt, die sich auf KI-Agenten und generative KI-Systeme konzentrieren. ATLAS umfasst nun 15 Taktiken, 66 Techniken, 46 Untertechniken, 26 Abhilfemaßnahmen und 33 Fallstudien.
OWASP stellt mehrere Ressourcen zur Verfügung, darunter die Top 10 für LLM-Anwendungen (Version 2025), den im Januar 2025 veröffentlichten Gen AI Red Teaming Guide und die Top 10 für Agentic-Anwendungen, die im Dezember 2025 veröffentlicht wurden.
Für Organisationen, die sich mit Compliance-Anforderungen befassen, bieten diese Rahmenwerke verbindliche Leitlinien, die den regulatorischen Erwartungen entsprechen und die gebotene Sorgfalt demonstrieren.
Das EU-KI-Gesetz führt verbindliche Anforderungen für die adversariale Prüfung von KI-Systemen mit hohem Risiko ein. Die Leitlinien von Promptfoo zum EU-KI-Gesetz beschreiben die spezifischen Verpflichtungen im Detail.
Die Einstufung als hohes Risiko bestimmt, ob ein AI-Red-Teaming obligatorisch ist. Systeme in Bereichen wie kritische Infrastruktur, Bildung, Beschäftigung, Strafverfolgung und Grenzkontrolle unterliegen erhöhten Anforderungen.
Die Dokumentationsanforderungen umfassen kontradiktorische Tests als Teil des Risikomanagementsystems. Organisationen müssen nachweisen, dass sie potenzielle Schwachstellen durch systematische Tests identifiziert und gemindert haben.
Zeitplan: Die vollständige Einhaltung der Vorschriften für risikoreiche KI-Systeme ist bis zum 2. August 2026 erforderlich. Allzweck-KI-Modelle (GPAI) mit systemischem Risiko unterliegen zusätzlichen Red-Teaming-Verpflichtungen.
Die Strafen für Verstöße betragen bis zu 35 Millionen Euro oder 7 % des weltweiten Jahresumsatzes, je nachdem, welcher Betrag höher ist.
Unternehmen, die KI auf europäischen Märkten einsetzen, müssen Red Teaming in ihre Compliance-Programme integrieren. Selbst Unternehmen außerhalb der EU können Anforderungen unterliegen, wenn ihre KI-Systeme EU-Bürger betreffen.
MITRE ATLAS stellt die Taxonomie bereit, die KI-Red Teams zur Strukturierung von Tests und zur Berichterstattung über Ergebnisse verwenden.
Die Rahmenstruktur entspricht dem bekannten Format von ATT&CK. Taktiken stehen für die Ziele der Angreifer. Techniken beschreiben, wie Angreifer diese Ziele erreichen. Abhilfemaßnahmen bieten Empfehlungen zur Verteidigung.
Zu den KI-spezifischen Taktiken gehören:
AML.TA0004 - Zugriff auf ML-Modelle: Techniken für den Zugriff auf Machine-Learning-ModelleAML.TA0012 - ML-Angriffsvorbereitung: Techniken zur Vorbereitung von Angriffen auf ML-SystemeIm Oktober 2025 wurden 14 neue Techniken hinzugefügt, die sich mit KI-Agenten und generativer KI befassen und in Zusammenarbeit mit Zenity Labs entwickelt wurden.
Die Integration der Ergebnisse des Red Teams sorgt für eine einheitliche Berichterstattung. Wenn Red Teams Schwachstellen entdecken, können diese durch die Zuordnung zu ATLAS-Techniken mit anderen Bewertungen verglichen und der Fortschritt der Behebung nachverfolgt werden.
Für Teams, die mit MITRE ATT&CKvertraut sind, bietet ATLAS eine natürliche Erweiterung für KI-Systeme. Die Frameworks basieren auf denselben konzeptionellen Grundlagen, befassen sich jedoch mit unterschiedlichen Angriffsflächen.
Der Aufbau von KI-Red-Teaming-Fähigkeiten erfordert gezielte Investitionen in Mitarbeiter, Prozesse und Tools. Dieser Abschnitt enthält praktische Leitlinien für Unternehmen in verschiedenen Reifestadien.
Die Teamzusammensetzung für AI Red Teaming umfasst mehrere Disziplinen:
Laut AI Career Finder liegen die Gehälter für AI Red Team Specialist zwischen 130.000 und 220.000 US-Dollar, wobei die Nachfrage im Vergleich zum Vorjahr um 55 % gestiegen ist. Der Fachkräftemangel führt dazu, dass Unternehmen häufig hybride Teams bilden, die internes Sicherheits-Know-how mit externen KI-Spezialisten kombinieren.
Die Implementierungsphasen folgen einem Reifegradmodell:
Die Entscheidung zwischen Eigenentwicklung und Kauf hängt vom organisatorischen Kontext ab. Interne Teams verfügen über fundiertes institutionelles Wissen und kontinuierliche Fähigkeiten. Managed Services von MDR-Anbietern bieten Fachwissen ohne Probleme bei der Personalbeschaffung. Hybride Ansätze beziehen externe Spezialisten für neuartige Tests ein und bauen gleichzeitig interne Fähigkeiten auf.
Um einen Business Case für AI Red Teaming zu erstellen, müssen sowohl Kosten als auch Nutzen quantifiziert werden.
Kostenbenchmarks von Obsidian Security zeigen, dass externe KI-Red-Teaming-Projekte je nach Umfang und Komplexität bei 16.000 US-Dollar oder mehr beginnen. Interne Teams erfordern Investitionen in Gehälter sowie Tools, Schulungen und kontinuierliche Weiterentwicklung.
Effizienzsteigerungen zeigen messbare Erträge. Unternehmen mit ausgereiften AI-Red-Teaming-Programmen melden 60 % weniger AI-bezogene Sicherheitsvorfälle. Dies führt zu geringeren Kosten für die Reaktion auf Vorfälle, weniger Betriebsunterbrechungen und vermiedenen Strafen aufgrund von Verstößen gegen Vorschriften.
Die Rechtfertigung für die Risikovermeidung konzentriert sich auf verhinderte Verluste. Der Bericht von Adversa AI dokumentiert, dass einfache Prompt-Angriffe Verluste von über 100.000 US-Dollar pro Vorfall verursacht haben. Ein einziger verhinderter Vorfall kann eine erhebliche Investition in das Programm rechtfertigen.
Der Begründungsrahmen sollte Folgendes behandeln:
Punktuelle Bewertungen liefern Momentaufnahmen, lassen jedoch die Dynamik von KI-Systemen außer Acht. Kontinuierliches Red Teaming behebt diese Einschränkung.
Warum kontinuierlich: KI-Modelle entwickeln sich durch Feinabstimmung, schnelle technische Änderungen und Aktualisierungen der zugrunde liegenden Modelle weiter. Es entstehen ständig neue Angriffstechniken. Abwehrmaßnahmen müssen kontinuierlich überprüft werden. Ein System, das im letzten Quartal die Tests bestanden hat, kann heute bereits neue Schwachstellen aufweisen.
Integration mit CI/CD: Automatisierte Red-Teaming-Tools können in Entwicklungs-Pipelines ausgeführt werden und jedes Modell-Update vor der Bereitstellung testen. Dadurch werden Regressionen frühzeitig erkannt und verhindert, dass anfällige Änderungen in die Produktion gelangen.
Empfehlungen zur Testkadenz:
Überwachung und Warnmeldungen ergänzen Tests, indem sie Ausnutzungsversuche in der Produktion identifizieren. Verhaltensanalysen können anomales Verhalten von KI-Systemen erkennen, das auf laufende Angriffe hindeuten kann.
Die Landschaft des AI Red Teaming entwickelt sich weiterhin rasant, wobei neue Ansätze entstehen, um der wachsenden Angriffsfläche von KI zu begegnen.
Automatisierte kontinuierliche Tests haben sich von einer experimentellen Phase zum Mainstream entwickelt. Plattformen wie AgentSuite von Virtue AI bieten kontinuierliches Red Teaming mit über 100 proprietären agentenbezogenen Angriffsstrategien in mehr als 30 Sandbox-Umgebungen. Laut Help Net Security schließt dies eine kritische Lücke: IBM berichtet, dass 79 % der Unternehmen KI-Agenten einsetzen, aber 97 % über keine angemessenen Sicherheitskontrollen verfügen.
Multimodale Tests gehen über Text hinaus und umfassen auch Bild-, Sprach- und Videoeingaben. Da KI-Systeme immer umfangreichere Eingaben akzeptieren, vergrößert sich die Angriffsfläche. Angriffe mit geklonten Stimmen haben gezeigt, dass es möglich ist, die Multi-Faktor-Authentifizierung durch Social Engineering zu umgehen.
Derzeit dominieren Investitionen im Bereich der agentenbasierten KI. Die im Dezember 2025 veröffentlichte OWASP Top 10 für agentenbasierte Anwendungen systematisiert die Bedrohungslandschaft für autonome Agenten. Um diese Systeme zu testen, müssen der Zugriff auf Tools, die Speicherpersistenz und die Kommunikation zwischen Agenten bewertet werden.
KI-gestütztes Red Teaming nutzt KI-Systeme, um gegnerische Eingaben in großem Umfang zu generieren. Dieser Ansatz deckt Angriffsmuster auf, die Menschen möglicherweise übersehen würden, und wirft gleichzeitig Fragen zum Testen von KI-Systemen durch KI-Systeme auf.
Die Konsolidierung der Branche spiegelt die Reifung des Marktes wider. Die Übernahme von SGNL durch CrowdStrike für 740 Millionen US-Dollar betrifft die Identitätsautorisierung durch KI. Palo Alto Networks hat Chronosphere für KI-Beobachtbarkeit übernommen. Diese Transaktionen signalisieren, dass KI-Sicherheit für große Anbieter von Cybersicherheitslösungen zu einer strategischen Priorität geworden ist.
Die Sandboxing-Richtlinien von NVIDIA betonen, dass die Eindämmung die einzige skalierbare Lösung für agentenbasierte KI-Workflows ist. Das KI-Red-Team von NVIDIA empfiehlt, alle von LLM generierten Codes als nicht vertrauenswürdige Ausgaben zu behandeln, die eine Sandbox-Ausführung erfordern.
Vectra AI der KI-Sicherheit unter dem Gesichtspunkt „Assume Compromise“ (von einer Kompromittierung ausgehen) und Attack Signal Intelligence. Anstatt sich ausschließlich auf Prävention zu verlassen, müssen effektive KI-Sicherheitsprogramme proaktives Red Teaming mit kontinuierlicher Überwachung und Erkennung kombinieren.
Das bedeutet, KI-Systeme auf ihre Anfälligkeit für Angriffe zu testen und gleichzeitig den Überblick darüber zu behalten, wie sich diese Systeme in der Produktion verhalten. Das Ziel besteht darin, anomale Muster zu identifizieren, die auf eine Ausnutzung hindeuten könnten, und schnell zu reagieren, wenn Angriffe erfolgreich sind.
Resilienz, nicht nur Prävention, bestimmt die Sicherheitsreife von KI-Systemen. Unternehmen, die die Vectra AI nutzen, erweitern ihre Erkennungs- und Reaktionsfähigkeiten, um neben herkömmlichen Netzwerk-, Identitäts- und cloud auch KI-bezogene Bedrohungen abzudecken.
Netzwerkerkennungs- und Reaktionsfunktionen bieten Einblick in die Kommunikation von KI-Systemen und identifizieren Versuche der Datenexfiltration, Befehls- und Kontrollmuster sowie laterale Bewegungen, die die KI-Infrastruktur betreffen.
Die Landschaft des AI Red Teaming wird sich in den nächsten 12 bis 24 Monaten weiterhin rasant entwickeln. Sicherheitsexperten sollten sich auf mehrere wichtige Entwicklungen vorbereiten.
Die Verbreitung agentenbasierter KI wird neue Angriffskategorien hervorbringen. Da Unternehmen KI-Agenten mit zunehmender Autonomie und Zugriff auf Tools einsetzen, vergrößert sich die Angriffsfläche dramatisch. Die OWASP Agentic Top 10 stellen den Beginn der Rahmenentwicklung für diese Systeme dar. Es ist mit zusätzlichen Leitlinien, Tools und regulatorischer Aufmerksamkeit zu rechnen, die sich speziell auf autonome Agenten konzentrieren.
Die regulatorische Konvergenz wird die Compliance-Anforderungen prägen. Der EU-KI-Akt legt die strengsten Anforderungen fest, aber auch andere Rechtsordnungen entwickeln derzeit eigene Rahmenwerke. Global tätige Unternehmen müssen potenziell widersprüchliche Anforderungen miteinander in Einklang bringen und gleichzeitig wirksame Sicherheitsprogramme aufrechterhalten.
Multimodale Angriffe werden immer raffinierter. Derzeit konzentriert sich das Red Teaming stark auf textbasierte Angriffe gegen LLMs. Da KI-Systeme Bilder, Audio-, Video- und Sensordaten verarbeiten, werden Angriffstechniken auf diese Modalitäten abzielen. Deepfake-Angriffe mit Stimmen haben sich bereits als wirksam gegen Authentifizierungssysteme erwiesen.
Die Sicherheit von KI gegen KI wirft neue Fragen auf. Wenn KI-Systeme sich gegen KI-gestützte Angriffe verteidigen, unterscheidet sich die Dynamik von Szenarien, in denen Mensch gegen Maschine antritt. Red Teams müssen bewerten, wie sich defensive KI-Systeme gegen feindliche KI im Vergleich zu menschlichen Angreifern verhalten.
Zu den Investitionsprioritäten sollten gehören:
Unternehmen sollten die Aktualisierungen von MITRE ATLAS, die Veröffentlichungen des OWASP-Frameworks und neue CVEs in KI-Infrastrukturkomponenten verfolgen. Der Bereich entwickelt sich schnell weiter, und die heute geltenden Best Practices könnten angesichts der sich wandelnden Bedrohungslage schon bald unzureichend sein.
Die KI-Sicherheits-Lernressourcen von Vectra AI fortlaufende Anleitung, während sich die Landschaft weiterentwickelt.
AI Red Teaming ist eine Methode des Adversarial Testing, die speziell für KI-Systeme entwickelt wurde, um Schwachstellen, Sicherheitsprobleme und Sicherheitslücken zu identifizieren, bevor Angreifer diese ausnutzen können. Im Gegensatz zum traditionellen Red Teaming, das sich auf Netzwerk- und Anwendungssicherheit konzentriert, zielt AI Red Teaming auf die einzigartigen Angriffsflächen von Machine-Learning-Modellen ab, darunter Trainingsdaten, Inferenz-Pipelines, Prompts und das Modellverhalten selbst.
Die Praxis kombiniert Sicherheitstests (Schutz der KI vor böswilligen Akteuren) und Sicherheitsprüfungen (Verhinderung von Schäden durch KI). Wirksame Programme berücksichtigen beide Dimensionen, da Angreifer jede Schwachstelle ausnutzen, die ihnen den einfachsten Weg zu ihren Zielen bietet. KI-Red-Teams verwenden spezielle Tools, Techniken und Frameworks wie MITRE ATLAS und die OWASP Top 10 für LLMs, um ihre Testmethodiken zu strukturieren.
AI Red Teaming unterscheidet sich in mehreren grundlegenden Punkten vom traditionellen Red Teaming. Traditionelles Red Teaming zielt auf deterministische Systeme ab, bei denen dieselbe Eingabe dieselbe Ausgabe erzeugt. KI-Systeme sind probabilistisch und erzeugen variable Ausgaben, die eine statistische Analyse über mehrere Testiterationen hinweg erfordern.
Die Angriffsfläche vergrößert sich erheblich. Herkömmliche Red Teams zielen auf Netzwerke, Anwendungen und Infrastruktur ab. KI-Red Teams zielen zusätzlich auf modellspezifische Vektoren wie Prompt Injection, Training Data Poisoning, Jailbreaking und Model Evasion ab. Dies erfordert unterschiedliche Fähigkeiten, die traditionelles Sicherheits-Know-how mit Kenntnissen im Bereich maschinelles Lernen kombinieren.
Auch die Häufigkeit der Tests unterscheidet sich. Traditionelle Red-Teaming-Tests finden oft jährlich oder vierteljährlich statt. KI-Systeme erfordern kontinuierliche Tests, da sich Modelle weiterentwickeln, ständig neue Angriffe auftauchen und Abwehrmaßnahmen laufend überprüft werden müssen.
Zu den wichtigsten Open-Source-Tools für AI Red Teaming gehören PyRIT von Microsoft, Garak von NVIDIA, DeepTeam und Promptfoo. PyRIT lässt sich in Azure AI Foundry integrieren und umfasst eine umfassende Angriffsbibliothek, die die Erfahrungen von Microsoft beim Testen von Produktionssystemen widerspiegelt. Garak konzentriert sich auf das Scannen von LLM-Schwachstellen mit einer umfangreichen Probenbibliothek und Plugin-Architektur.
Kommerzielle Plattformen von Zscaler, Mindgard und HackerOne bieten Managed Services mit Compliance-Berichten und fachkundiger Beratung. Red AI Range bietet eine Docker-basierte Umgebung für Schulungen und Schwachstellensimulationen.
Die Auswahl der Tools hängt von den zu testenden KI-Systemen, der Fachkompetenz des Teams, den Integrationsanforderungen und den vorrangigen Bedrohungsszenarien ab. Die meisten Unternehmen verwenden mehrere Tools in Kombination mit manuellen Tests.
AI-Sicherheitstests konzentrieren sich darauf, die Welt vor KI zu schützen. Dazu gehören Tests auf Voreingenommenheit und Diskriminierung, Halluzinationen und sachliche Fehler, die Generierung schädlicher Inhalte und das Potenzial für Missbrauch. Das Ziel besteht darin, sicherzustellen, dass KI-Systeme sich wie beabsichtigt verhalten und weder den Nutzern noch der Gesellschaft Schaden zufügen.
AI-Sicherheitstests konzentrieren sich auf den Schutz der KI vor der Außenwelt. Dazu gehören Tests auf Prompt-Injection-Angriffe, Datenexfiltration, Modellmanipulation und unbefugten Zugriff. Das Ziel besteht darin, böswillige Akteure daran zu hindern, KI-Systeme auszunutzen.
Umfassende AI-Red-Teaming-Programme befassen sich mit beiden Dimensionen. Eine Sicherheitsumgehung kann zu einem Sicherheitsproblem werden, wenn sie als Waffe eingesetzt wird. Eine Sicherheitslücke hat Auswirkungen auf die Sicherheit, wenn sie die Privatsphäre der Benutzer beeinträchtigt oder schädliche Auswirkungen hat. Das Verständnis der Verfahren zur Reaktion auf Vorfälle wird entscheidend, wenn KI-Systeme kompromittiert werden.
Prompt-Injection ist eine Angriffstechnik, bei der böswillige Eingaben das Verhalten von KI-Modellen manipulieren. Eine direkte Injektion liegt vor, wenn vom Angreifer kontrollierte Eingaben Systemanweisungen direkt überschreiben und so die Persönlichkeit, Ziele oder Einschränkungen der KI verändern.
Bei der indirekten Injektion werden bösartige Anweisungen in externe Datenquellen eingebettet, die von der KI verarbeitet werden. Beispielsweise könnte eine KI, die Webinhalte liest, auf bösartige Anweisungen stoßen, die in Blogkommentaren oder Webseiten versteckt sind, und diese Anweisungen ausführen, als stammten sie von legitimen Benutzern.
Laut einer Studie aus dem Jahr 2025 waren 35 % der realen KI-Sicherheitsvorfälle auf einfache Prompt-Angriffe zurückzuführen. Das Testen auf Prompt-Injektionen erfordert Kreativität bei der Formulierung von Angriffen und eine systematische Abdeckung aller Eingaben, die das KI-System akzeptiert.
Das EU-KI-Gesetz schreibt für risikoreiche KI-Systeme im Rahmen der Konformitätsbewertung vor der Markteinführung kontradiktorische Tests vor. Unternehmen müssen nachweisen, dass sie potenzielle Schwachstellen durch systematische Tests identifiziert und gemindert haben, und diese Tests als Teil ihres Risikomanagementsystems dokumentieren.
Zu den Hochrisikoklassifizierungen gehören KI-Systeme in kritischen Infrastrukturen, im Bildungswesen, in der Arbeitswelt, in der Strafverfolgung und in der Grenzkontrolle. Die vollständige Einhaltung der Vorschriften ist bis zum 2. August 2026 erforderlich. Allzweck-KI-Modelle mit systemischem Risiko unterliegen zusätzlichen Red-Teaming-Verpflichtungen.
Die Strafen für Verstöße können bis zu 35 Millionen Euro oder 7 % des weltweiten Jahresumsatzes betragen. Unternehmen, die KI auf europäischen Märkten einsetzen, sollten Red Teaming jetzt in ihre Compliance-Programme integrieren.
MITRE ATLAS stellt die Taxonomie bereit, die KI-Red Teams zur Strukturierung von Tests und zur Berichterstattung über Ergebnisse verwenden. Das Framework erweitert MITRE ATT&CK KI-spezifische Bedrohungen, darunter 15 Taktiken, 66 Techniken, 46 Untertechniken, 26 Abhilfemaßnahmen und 33 Fallstudien.
Das Update vom Oktober 2025 fügte 14 neue Techniken hinzu, die sich mit KI-Agenten und generativen KI-Systemen befassen. Zu den KI-spezifischen Taktiken gehören ML Model Access (`AML.TA0004`) und ML Attack Staging (AML.TA0012).
Die Zuordnung der Ergebnisse des Red Teams zu den ATLAS-Techniken ermöglicht eine konsistente Berichterstattung, den Vergleich zwischen verschiedenen Bewertungen und die Verfolgung des Fortschritts bei der Behebung von Schwachstellen. Unternehmen, die mit ATT&CK vertraut sind, werden feststellen, dass ATLAS eine natürliche Erweiterung für die KI-Sicherheit darstellt.
Nein. Während Tools wie PyRIT, Garak und kommerzielle Plattformen automatisierte Tests in großem Maßstab ermöglichen, bleiben manuelle Expertentests für die Entdeckung neuer Schwachstellen unverzichtbar. Automatisierte Tools eignen sich hervorragend für systematische Abdeckungstests und Regressionstests, können jedoch nicht mit der menschlichen Kreativität bei der Entwicklung neuer Angriffstechniken mithalten.
Microsoft empfiehlt, vor der Implementierung einer automatisierten Skalierung ein manuelles Red Teaming durchzuführen. Manuelle Tests identifizieren die Angriffsmuster, die für ein bestimmtes System relevant sind. Automatisierte Tests stellen dann sicher, dass diese Muster im Zuge der Weiterentwicklung des Systems konsistent getestet werden.
Die effektivsten Ansätze kombinieren menschliche Kreativität mit automatisierter Effizienz durch Human-in-the-Loop-Methoden, bei denen automatisierte Tools potenzielle Angriffe generieren und menschliche Experten die Untersuchung leiten.