Prompt Control: Wie der Kontext zur Befehls- und Kontrollschicht für KI-Agenten wird

Update vom 12. Mai 2026: Der AI Threat Tracker von GTIG für Mai 2026 dokumentiert PROMPTSPY, eine Android-Backdoor, die promptbasierte Befehls- und Kontrollfunktionen in der Praxis umsetzt. Ihr Modul „GeminiAutomationAgent“ serialisiert die UI-Hierarchie des Geräts, sendet diese zusammen mit einem vom Angreifer vorgegebenen Ziel an die Gemini-API und wandelt die Antwort des Modells in auf dem Gerät ausführbare Aktionen um. Die Eingabeaufforderung ist der Befehlssatz. Das Modell ist der Interpreter. Der C2-Kanal durchläuft die Schlussfolgerungsschleife, genau nach dem unten beschriebenen Muster.

---

Das traditionelle Command-and-Control-Modell ist explizit. Ein infiziertes System stellt eine Verbindung her, empfängt Anweisungen, führt diese aus und meldet sich zurück. Selbst wenn die Kommunikation verschlüsselt ist, bleibt diese Struktur bestehen. Das Verhalten wird von einer externen Instanz gesteuert.

Autonome Akteure verändern dieses Modell.

Sie warten nicht auf Anweisungen im herkömmlichen Sinne. Sie nehmen ständig Informationen auf, interpretieren sie und handeln entsprechend. E-Mails, Chats, APIs, Dokumente … alles wird zum Kontext, und alles kann das Verhalten beeinflussen.

Dadurch wird eine andere Bedienoberfläche erstellt.

Ein Angreifer benötigt keinen dauerhaften Kanal , wenn er beeinflussen kann, was der Agent sieht, sich merkt und priorisiert.

Die Steuerung erfolgt indirekt, kontinuierlich und ist in den normalen Betrieb eingebettet.

Dies ist die Grundlage der prompt control.

Jüngste Forschungsergebnisse haben bereits gezeigt, dass es promptbasierte Command-and-Control-Frameworks gibt, bei denen kompromittierte Agenten Aufgaben erhalten, diese ausführen und Ergebnisse zurückgeben, wobei sie sich ausschließlich auf Eingabeaufforderungen und den Kontext stützen und auf eine herkömmliche C2-Infrastruktur verzichten.

Von Prompt Injection Prompt Control

In diesen Beispielen vertrauen die Agenten externen Inhalten. Sie führen Aufgaben mit echten Berechtigungen aus. Sie koordinieren sich systemübergreifend.

Jedes dieser Elemente vergrößert die Angriffsfläche.

In den frühen Diskussionen zum Thema Sicherheit lag der Schwerpunkt vor allem auf prompt injection“. Eine in Inhalte eingebettete bösartige Anweisung löst eine unbeabsichtigte Aktion aus.

Das erklärt zwar den Einstieg, aber nicht die Beständigkeit.

Bei den jüngsten Demonstrationen reichte eine einzige, per E-Mail oder über Webinhalte prompt injection aus, um einen Agenten zu kompromittieren und dessen Arbeitskontext zu verändern. Von diesem Zeitpunkt an holte der Agent weiterhin von Angreifern kontrollierte Anweisungen aus seiner eigenen Umgebung ab und behielt so effektiv die Kontrolle, ohne dass eine erneute Ausnutzung erforderlich war.

Eine aktuelle Untersuchung von OpenClaw hat gezeigt, dass eine einzige, in eine Webseite prompt injection indirekte prompt injection mehr bewirken kann, als nur eine Aktion auszulösen. Sie rief ein Ausführungstool auf und speicherte anschließend Anweisungen im zukünftigen Kontext des Agenten ab, sodass der Angreifer im Laufe der Zeit weiterhin Befehle erteilen konnte, ohne erneut auf das System zugreifen zu müssen.

*Screenshot der Eingabeaufforderung der Forscher, die OpenClaw anweist, ein schädliches Bash-Skript abzurufen und auszuführen*

Der anfängliche Impuls verschwindet, doch der Einfluss bleibt bestehen.

Prompt control , wie sich das System nach der ersten Interaktion weiter verhält.

Prompt Control Mittel zur Verhaltensbeeinflussung

Prompt control das Verhalten, ohne direkte Befehle zu erteilen.

Anstatt Anweisungen zu senden, steuert der Angreifer, was der Agent als relevant ansieht und wie er den Kontext aufbaut. Der Agent handelt dann unter Nutzung seiner vorhandenen Fähigkeiten und Berechtigungen.

Das folgt dem gleichen Prinzip wie Social Engineering: Man beeinflusst den Entscheidungsträger, und dieser führt die Handlung aus.

Der Unterschied liegt in der Größenordnung und der Ausdauer. Agenten arbeiten kontinuierlich und stützen sich auf den jeweils verfügbaren Kontext, selbst wenn dieser von Gegnern manipuliert wurde.

Prompt-basierte Command and Control der Praxis

Prompt control nicht nur eine Frage der Einflussnahme, sondern lässt sich auch konkret umsetzen.

Jüngste Forschungsergebnisse zeigen, wie kompromittierte Agenten in ein zentralisiertes Steuerungssystem eingebunden werden können, in dem Aufgaben als Aufforderungen ausgegeben und die Ergebnisse über die normalen Arbeitsabläufe der Agenten zurückgemeldet werden.

Sobald ein Agent kompromittiert ist, muss nicht erneut auf ihn zugegriffen werden. Anweisungen werden an denselben Orten gespeichert, die der Agent ohnehin für seinen Betrieb nutzt: in Dateien, im Speicher und im abgerufenen Kontext. Ausführungsschleifen werden zu Kontrollschleifen.

Angreifer geben Aufgaben als Anweisungen aus. Der Agent führt diese unter Verwendung seiner vorhandenen Berechtigungen aus und gibt die Ergebnisse über die üblichen Arbeitsabläufe zurück.

In einem Beispiel wurden die Agenten so konfiguriert, dass sie eine „Heartbeat“-Datei in regelmäßigen Abständen zu lesen. Durch das Einfügen bösartiger Anweisungen in diese Datei schufen die Angreifer einen wiederkehrenden Ausführungspunkt. Jedes Mal, wenn der Agent die Datei verarbeitete, holte er neue Anweisungen ab und setzte den Betrieb unter dem Einfluss der Angreifer fort.

Dies entspricht dem herkömmlichen C2-Verhalten. Der Unterschied besteht darin, dass der Kommunikationskanal nicht auf herkömmlichen Netzwerk-Beacons basiert. Er ist in die eigene Entscheidungsschleife und die Ausführungswege des Agenten eingebettet.

Die Kontrolle verlagert sich auf eine Ebene, die man als kognitive Kontrollebene bezeichnen könnte, auf der Einflussnahme über folgende Wege erfolgt:

Dateien, die der Agent regelmäßig liest
Speicherbereiche, die zum Abrufen verwendet werden
Externe Inhaltsquellen, denen der Agent vertraut
Die Ergebnisse des Tools fließen in die Schlussfolgerungen ein

Prompt Control Form der Persistenz

In Agentensystemen ist Persistenz kein festes Element. Es handelt sich vielmehr um einen Kontext, der immer wieder neu geladen wird: Speichereinträge, Konfigurationsdateien oder externe Quellen, auf die der Agent wiederholt zurückgreift. Solange dieser Kontext bestehen bleibt, bleibt auch die Kontrolle erhalten.

In der Praxis ist Persistenz ein Problem der Kontextgestaltung. Die Herausforderung besteht nicht darin, eine einzige bösartige Eingabeaufforderung zu schreiben, sondern die richtigen Anweisungen in die richtige Kontextschicht zu bringen – im richtigen Format und mit ausreichender Priorität, damit sie wiederholt geladen und ausgeführt werden. Moderne Agent-Frameworks verwalten diesen ganzheitlichen Zustand bereits über Speicherdateien, Regeln, Agent-Konfigurationsdateien sowie geplante oder im Hintergrund ablaufende Wiedereintrittspunkte.

OpenClaw verdeutlicht, wie sich dies in der Praxis auswirkt. Agentenspeicher behandeln häufig alle Eingaben gleich, unabhängig von ihrer Quelle. Sobald böswilliger Kontext eingeschleust wurde, kann dieser bestehen bleiben und weiterhin Entscheidungen beeinflussen, ohne dass dabei zwischen vertrauenswürdigen und nicht vertrauenswürdigen Daten unterschieden wird.

Die Aufhebung des Zugriffs des Angreifers hebt die Auswirkungen nicht auf. Solange der Agent weiterhin vom Angreifer beeinflusste Kontexte ausliest, bleibt die Kontrolle bestehen.

In den beobachteten Fällen blieb diese Persistenz auch nach einem Neustart bestehen und dauerte so lange an, bis der zugrunde liegende Kontext explizit bereinigt wurde.

MITRE ATLAS und kontinuierlicher Einfluss

Ein wichtiger Aspekt ist, dass prompt control nicht deterministisch prompt control . Das Verhalten des Agenten hängt von probabilistischen Schlussfolgerungen, der Kontextwahl und der Qualität der Ergebnisausgabe ab. Ein und derselbe Prompt kann bei verschiedenen Durchläufen zu unterschiedlichen Ergebnissen führen, und Angriffe können teilweise erfolgreich sein, fehlschlagen oder eine Wiederholung erfordern.

Aus Sicht eines Angreifers führt dies eher zu einer größeren Variabilität, anstatt eine Ausnutzung zu verhindern. Die Kontrolle wird zu einer Wahrscheinlichkeitsfrage: Wiederholte Beeinflussung, Verstärkung und mehrere Ausführungswege erhöhen die Erfolgswahrscheinlichkeit im Laufe der Zeit.

Agenten können zudem Anzeichen für eine Kompromittierung aufdecken. In einigen beobachteten Fällen identifizierten Agenten bei der Selbstanalyse oder Protokollierung verdächtige Anweisungen oder ungewöhnliches Verhalten. Diese können als Frühindikatoren für eine Kompromittierung dienen. Die meisten Agenten sind jedoch noch nicht darauf trainiert oder konfiguriert, diese Signale als Sicherheitsereignisse zu behandeln oder Abwehrmaßnahmen auszulösen.

Dies wird sich wahrscheinlich weiterentwickeln. Da die Erkennungslogik zunehmend in die Agenten selbst integriert wird, könnten diese schwachen Signale zu aussagekräftigen Kontrollmechanismen werden. Derzeit sind sie jedoch noch uneinheitlich und werden selten durchgesetzt.

MITRE ATLAS beschreibt mehrere relevante Techniken:

Datenverfälschung beeinflusst die Eingaben
Prompt injection überschreibt das Verhalten
Die Modellmanipulation steuert die Ergebnisse

Was sich bei Agentensystemen ändert, sind nicht die Techniken selbst, sondern die Art und Weise, wie sie miteinander kombiniert werden. Prompt injection Einstiegspunkt, die Manipulation von Speicher oder Kontext sorgt für Persistenz, und der Einsatz von Werkzeugen ermöglicht die Ausführung. Zusammen fungieren sie als kontinuierlicher Regelkreis und nicht als isolierte Schritte.

Der OpenClaw-Angriffsgraph von MITRE ATLAS veranschaulicht, wie diese Techniken in der Praxis zusammenwirken. Anstelle einer linearen Abfolge sind Einflussnahme, Ausführung und Persistenz miteinander verknüpft und können sich über den gesamten Lebenszyklus des Agenten hinweg gegenseitig verstärken.

Wenn Kontrolle zur Normalität wird

Aus Sicht der Erkennung verhält sich dies nicht wie eine herkömmliche Kompromittierung.

Die meisten SOC-Pipelines konzentrieren sich auf Ausführungsartefakte wie Netzwerkabweichungen, Prozessverhalten, Missbrauch von Anmeldedaten oder laterale Bewegung. Prompt control löst diese Signale Prompt control nicht frühzeitig aus.

Die Mitarbeiter verfügen über gültige Zugriffsrechte, rufen genehmigte APIs auf und halten sich an die vorgesehenen Arbeitsabläufe. Aus technischer Sicht erscheinen die Aktivitäten normal.

Der Unterschied liegt darin, wie sich das Verhalten entwickelt. Der Agent führt keine Befehle des Angreifers aus, sondern trifft Entscheidungen, die zufällig mit den Zielen des Angreifers übereinstimmen.

In einem Demonstrationsversuch wurde ein Agent gebeten, ein Dokument zusammenzufassen, prompt injection eine indirekte prompt injection enthielt. Der Nutzer erhielt in Slack eine normale Antwort, ohne dass etwas darauf hindeutete, dass etwas nicht stimmte. Gleichzeitig begann der kompromittierte Agent, sensible Daten an einen vom Angreifer kontrollierten Telegram-Bot zu senden.

Für den Benutzer verhält sich das System korrekt. Für den Angreifer ist es jedoch bereits unter seiner Kontrolle.

Derselbe Zugriff kann auch für die Datenbearbeitung genutzt werden. Agenten können Daten abrufen, ändern oder löschen, indem sie die ihnen zugewiesenen Berechtigungen nutzen, um ihre Aufgaben zu erfüllen.

Einzelne Handlungen sind sinnvoll. Das Gesamtbild driftet jedoch ab.

Es gibt keine einzelne Warnmeldung, die dieses Verhalten erklärt. Das Signal entwickelt sich erst im Laufe der Zeit.

Bei der Erkennung sollte der Fokus weniger auf einzelnen Ereignissen liegen, sondern vielmehr darauf, wie Aktivitäten über Identitäts-, Netzwerk-, cloud und SaaS-Umgebungen hinweg miteinander verknüpft sind.

Das ist die zentrale Herausforderung. Wenn die Steuerung in den Kontext eingebettet ist, gibt es keinen einzelnen Punkt, den man blockieren könnte. Das einzige verlässliche Signal ist, wie sich das Verhalten im Laufe der Zeit verändert.

Die Vectra AI korreliert das Verhalten über diese Bereiche hinweg, um Zusammenhänge, Missbrauch und subtile Abweichungen zu erkennen, die in einzelnen Warnmeldungen nicht sichtbar sind, und bietet so Einblick in die Entwicklung von Aktivitäten, anstatt sich auf einen einzigen Fehlerpunkt zu verlassen.