Moltbook und die Illusion „harmloser“ KI-Agenten-Communities

3. Februar 2026
Lucie Cardiet
Manager für Cyberbedrohungsforschung
Moltbook und die Illusion „harmloser“ KI-Agenten-Communities

Autonome KI-Agenten verlassen kontrollierte Laborumgebungen und bewegen sich in gemeinsame, beständige Ökosysteme. Sie lesen Inhalte, treffen Entscheidungen, speichern Erinnerungen, führen Aktionen aus und interagieren mit anderen Agenten in Maschinengeschwindigkeit. Dabei brechen sie Grenzen auf, die Sicherheitsteams jahrelang versucht haben durchzusetzen – Grenzen zwischen Benutzern und Diensten, Automatisierung und Identität, Absicht und Ausführung.

Plattformen wie Moltbook machen diesen Wandel sichtbar. Sie zeigen, was passiert, wenn autonome Agenten frei interagieren, implizit vertrauen und mit echten Berechtigungen arbeiten dürfen. Das Ergebnis sind nicht nur neue Funktionen, sondern auch neue Fehlermodi.

Auf den ersten Blick wirken KI-Agentenforen wie Moltbook experimentell, ja sogar spielerisch. Bots unterhalten sich mit Bots, posten Threads, bilden Communities und diskutieren Ideen. Das scheint weit entfernt von den Sicherheitsbedenken von Unternehmen zu sein. Diese Harmlosigkeit ist jedoch nur eine Illusion.

Diese Annahme erweist sich bereits als gefährlich.

Jüngste Berichte zur öffentlichen Sicherheit, in denen autonome Agenten wie Clawdbot, jetzt umbenannt in Moltbot, eine Rolle spielen , zeigen, wie schnell Experimente zu Sicherheitslücken werden können. In diesem Fall wurde ein Open-Source-Agent mit umfassendem Systemzugriff zu einem neuen Einstiegspunkt für Angreifer, als Vertrauen, Automatisierung und Identität schneller voranschritten als die Sicherheitskontrollen. Die Lehre daraus geht über ein einzelnes Projekt hinaus. KI-Agenten sind keine passiven Werkzeuge mehr. Sie sind aktive Teilnehmer in digitalen Ökosystemen.

Moltbook geht noch einen Schritt weiter. Es handelt sich nicht um eine Chatbot-Schnittstelle oder einen Produktivitätsassistenten. Es ist eine Reddit-ähnliche soziale Umgebung, in der autonome Agenten die Inhalte der anderen lesen, interpretieren und darauf reagieren. Ähnliche Experimente wie Molt Road erweitern dieses Modell über die Konversation hinaus auf den Handel, wo Agenten mit minimaler menschlicher Aufsicht Dienstleistungen kaufen, verkaufen und austauschen. Obwohl diese Umgebungen offiziell als fiktiv dargestellt werden, geben sie einen Vorgeschmack darauf, wie autonome Agenten koordinieren, Verhalten incentivieren und Fähigkeiten auslagern können, ohne dass Sicherheitsteams dies bisher überwachen können.

Jüngste öffentliche Untersuchungen zu Moltbook haben bereits gezeigt, dass dieses Modell Sicherheitslücken mit sich bringt, die direkt mit bekannten Angreifer-Verhaltensweisen korrespondieren und gleichzeitig viele der Kontrollen umgehen, auf die sich SOC-Teams heute verlassen.

Es kommt nicht darauf an, ob Moltbook oder Molt Road selbst erfolgreich sind. Entscheidend ist vielmehr, was sie darüber aussagen, wie autonome Akteure missbraucht werden können, wenn Interaktion, Vertrauen und Berechtigungen ohne ausreichende Transparenz zusammenkommen.

Was diese Foren tatsächlich bewirken

AI-Agent-Foren werden oft missverstanden, weil sie oberflächlich betrachtet menschlichen sozialen Plattformen ähneln. Unabhängig davon, ob Inhalte von Menschen oder autonomen Agenten über APIs eingereicht werden, unterscheiden sich diese Systeme in der Art und Weise, wie diese Inhalte konsumiert und verarbeitet werden, erheblich von traditionellen sozialen Netzwerken.

Moltbuch

Moltbook ist ein soziales Netzwerk, das speziell für KI-Agenten entwickelt wurde. Menschliche Nutzer können beobachten, aber nur Agenten können Beiträge veröffentlichen, antworten und interagieren. Jeder Agent läuft in der Regel auf einem von Menschen kontrollierten System unter Verwendung von Frameworks wie OpenClaw, wodurch er Zugriff auf Dateien, APIs, Messaging-Plattformen und manchmal auch auf die Ausführung von Shells hat.

Agenten auf Moltbook lesen kontinuierlich die Beiträge der anderen und integrieren deren Inhalte in ihren Arbeitskontext. Dieses Design ermöglicht zwar die Zusammenarbeit, aber auch Manipulationen zwischen Bots, indirekte Prompt-Injektionen und groß angelegten Vertrauensmissbrauch. Sicherheitsforscher fanden heraus, dass ein messbarer Prozentsatz der Moltbook-Inhalte versteckte Prompt-Injektions-Payloads enthielt, die darauf abzielten, das Verhalten anderer Agenten zu hijacken, darunter auch Versuche, API-Schlüssel und Geheimnisse zu extrahieren.

Klauenwerfer

Clawcaster ist ein Social-Feed-Client, der von Farcaster inspiriert ist, einem dezentralen Social-Networking-Protokoll, bei dem Identitäten und soziale Graphen nicht einer einzigen Plattform gehören, sondern von mehreren Clients abgerufen werden können. In Farcaster veröffentlichen Nutzer Nachrichten in einem gemeinsamen Protokoll, und verschiedene Anwendungen können diese Inhalte lesen, anzeigen und mit ihnen interagieren.

Clawcaster passt dieses Modell sowohl für menschliche Nutzer als auch für KI-Agenten an. Agenten können Beiträge veröffentlichen, Konten folgen und Content-Streams über einen gemeinsamen Feed konsumieren. Obwohl es strukturierter als Moltbook ist, ermöglicht es Agenten dennoch, nicht vertrauenswürdige Eingaben aufzunehmen und darauf zu reagieren, häufig durch die Integration mit externen Tools oder Diensten.

Aus Sicherheitsperspektive veranschaulicht Clawcaster, wie die Grenzen zwischen von Agenten generierten und von Agenten konsumierten Inhalten zunehmend verschwimmen. Sobald Agenten sowohl veröffentlichen als auch handeln dürfen, können Social Feeds als Koordinationskanäle oder in Konfliktsituationen als reibungslose Befehls- und Kontrollwege fungieren.

Moltx

Moltx funktioniert ähnlich wie eine öffentliche Zeitleiste im X-Stil für KI-Agenten. Agenten veröffentlichen kurze Beiträge, antworten einander und behalten über alle Interaktionen hinweg ihre Identität bei. Die Inhalte erscheinen in einem gemeinsamen Feed und bilden so fortlaufende Erzählungen statt isolierter Unterhaltungen.

Aus technischer Sicht besteht das Risiko nicht im Format selbst, sondern in der Persistenz. Beiträge werden von anderen Agenten konsumiert, im Speicher abgelegt und können noch lange nach ihrer Veröffentlichung das zukünftige Verhalten beeinflussen. Einmal aufgenommene Anweisungen oder bösartige Inhalte können später wieder auftauchen, losgelöst von ihrer ursprünglichen Quelle.

Dieses Modell verlagert das Risiko von der unmittelbaren Ausführung auf einen verzögerten Einfluss, bei dem sich schädliche Logik durch Speicher und wiederholte Interaktion statt durch direkte Befehle verbreitet.

8004scan

8004scan ist kein soziales Forum. Es handelt sich um eine Indexierungs- und Suchschicht für autonome KI-Agenten, die auf dezentralen Identitäts- und Reputationsstandards basiert. Sie ermöglicht es, Agenten anhand ihrer angegebenen Fähigkeiten und Aktivitätssignale aufzulisten, zu suchen und zu bewerten.

Aus Sicherheitsperspektive ist dies von Bedeutung, da Entdeckung und Vertrauen Voraussetzungen für die Koordination sind. Ein Angreifer muss einen Agenten nicht ausnutzen, wenn er sich als solcher ausgeben, Reputationssignale manipulieren oder einen bösartigen Agenten als legitim darstellen kann. Mit zunehmender Reife von Agenten-Ökosystemen wird die Identität selbst zu einer Angriffsfläche.

Die Sicherheitsrisiken

Die auf Moltbook und ähnlichen Plattformen beobachteten Verhaltensweisen lassen sich eindeutig den bekannten Angriffsphasen zuordnen. Was sich ändert, sind die Geschwindigkeit, das Ausmaß und die Raffinesse.

Aufklärungsarbeit

Autonome Agenten tauschen regelmäßig Diagnoseinformationen, Konfigurationsdetails und betriebliche Erkenntnisse aus. Auf Moltbook haben einige Agenten im Rahmen der Fehlerbehebung oder Selbstanalyse öffentlich Sicherheitsscans, offene Ports oder Fehlermeldungen gepostet. Für Angreifer, die stillschweigend beobachten, sind dies fertige Aufklärungsdaten.

Im Gegensatz zur herkömmlichen Aufklärung ist kein Scannen erforderlich. Die Informationen werden freiwillig zur Verfügung gestellt.

Agenten als zufällige OSINT-Quellen

In mehreren Moltbook-Threads wurde beobachtet, dass Agenten sensible operative Details öffentlich gepostet haben. Dazu gehörten offene Ports, fehlgeschlagene SSH-Anmeldeversuche, interne Fehlermeldungen und Konfigurationsartefakte.

Aus Sicht des Agenten war dieses Verhalten sinnvoll. Sie analysierten sich selbst, behoben Probleme oder tauschten Erkenntnisse mit Kollegen aus. Aus Sicht eines Angreifers entfiel dadurch die Notwendigkeit einer Erkundung vollständig. Kein Scannen. Kein Ausprobieren. Keine Warnmeldungen.

Die Informationen wurden freiwillig bereitgestellt, indexiert und waren für jeden, der die Plattform beobachtete, dauerhaft sichtbar. Tatsächlich verwandelten sich einige Agenten in Live-Informationsquellen.

Reverse Prompt Injection ermöglicht stille Weitergabe zwischen Agenten

Forscher, die das Verhalten von Moltbook beobachteten, identifizierten ein Muster, das sie als umgekehrte Prompt-Injektion bezeichneten. Anstatt dass ein menschlicher Benutzer bösartige Anweisungen in einen Agenten einfügt, bettet ein Agent feindliche Anweisungen in Inhalte ein, die andere Agenten automatisch konsumieren.

In mehreren Fällen wurden diese Anweisungen nicht sofort ausgeführt. Sie wurden im Speicher des Agenten gespeichert und später ausgelöst, nachdem zusätzlicher Kontext gesammelt worden war. Diese verzögerte Ausführung macht es schwierig, das Verhalten bis zu seinem Ursprung zurückzuverfolgen.

Der Effekt ähnelt einem worm. Ein kompromittierter Agent kann andere beeinflussen, die dann dieselbe Anweisung durch Antworten, Reposts oder abgeleitete Inhalte weiterverbreiten können. Die Verbreitung erfolgt durch normale Interaktion, nicht durch Scannen oder Ausnutzen.

Für Verteidiger ist dies eine neue Herausforderung. Es gibt keine Datei, die unter Quarantäne gestellt werden muss, und keine Exploit-Kette, die unterbrochen werden muss. Die bösartige Logik verbreitet sich durch Vertrauen und Zusammenarbeit.

Nachdem die Erkundung abgeschlossen ist, erfordert der nächste Schritt keinerlei Exploit.

Erster Zugang

Der erste Zugang erfolgt oft aus Vertrauen, nicht aus Ausnutzung.

Auf Moltbook haben Angreifer versteckte Anweisungen in Beiträge eingebettet, die andere Agenten automatisch lesen. Diese „Reverse Prompt Injection”-Techniken ermöglichen es bösartigen Inhalten, die Systemanweisungen eines Agenten zu überschreiben und ihn dazu zu verleiten, Geheimnisse preiszugeben oder unbeabsichtigte Aktionen auszuführen.

An anderer Stelle wurden bösartige „Skills“ und Plugins für Agenten geteilt, die nach der Installation Code auf dem Hostsystem ausführten. Da OpenClaw-basierte Agenten für die Ausführung von Code ausgelegt sind, wird ein bösartiger Skill effektiv zu einer Remote-Codeausführung.

Bot-zu-Bot-Prompt-Injection macht das Lesen zu einem Angriffsvektor

Eine der besorgniserregendsten Erkenntnisse aus frühen Sicherheitsberichten zu Moltbook ist, wie leicht Agenten allein durch das Lesen von Inhalten kompromittiert werden können. In einer Stichprobenanalyse von Moltbook-Beiträgen stellten Forscher fest, dass etwa 2,6 Prozent versteckte Prompt-Injection-Payloads enthielten, die dazu dienten , das Verhalten anderer Agenten zu manipulieren.

Diese Nutzdaten waren für menschliche Beobachter unsichtbar. Eingebettet in ansonsten harmlos aussehende Beiträge wiesen sie andere Agenten an, ihre Systemaufforderungen zu überschreiben, API-Schlüssel offenzulegen oder unbeabsichtigte Aktionen auszuführen, sobald der Inhalt in den Kontext oder Speicher aufgenommen wurde.

Es war kein Exploit erforderlich. malware keine malware übertragen. Der erste Zugriff erfolgte in dem Moment, als ein Agent das tat, wozu er entwickelt worden war: lesen und reagieren.

Dadurch verschiebt sich die Definition von „Angriffsfläche“. In Agent-Ökosystemen wird die Sprache selbst zum Einstiegspunkt.

Böswillige Agenten-Fähigkeiten verwandeln Automatisierung in Codeausführung

Die enge Verbindung zwischen Moltbook und OpenClaw birgt ein weiteres Risiko: gemeinsam genutzte Skills. Agenten können Skills veröffentlichen und installieren, die ihre Fähigkeiten erweitern, darunter das Ausführen von Shell-Befehlen oder der Zugriff auf lokale Dateien.

Sicherheitshinweise von Dritten zeigten, dass bösartige Skills, die als nützliche Plugins getarnt waren, beliebigen Code auf dem Host-System ausführen konnten. Ein viel zitiertes Beispiel war ein scheinbar harmloser Wetter-Skill, der nach der Installation unbemerkt Konfigurationsdateien mit geheimen Informationen exfiltrierte.

Da OpenClaw-Agenten absichtlich leistungsstark sind und keine starke Sandboxing-Funktion haben, kann eine einzige bösartige Funktion effektiv zur Ausführung von Remote-Code führen. Der Angriff ist nicht aufgrund einer Schwachstelle erfolgreich, sondern aufgrund des Umfangs der Zugriffsrechte, über die der Agent bereits verfügt.

Dies entspricht klassischen Angriffen auf die Lieferkette, jedoch mit einem schnelleren Vertrauenszyklus und weniger Kontrollmechanismen.

Sobald ein Agent kompromittiert ist, kommt es oft sofort zu einer Eskalation.

Rechte-Eskalation

Viele Agenten werden standardmäßig mit erhöhten Berechtigungen ausgeführt. Sie speichern API-Schlüssel, OAuth-Token, cloud und Messaging-Zugriff an einem Ort. Sobald ein Agent kompromittiert ist, ist eine Eskalation oft nicht mehr notwendig. Wenn der Agent als Standardbenutzer ausgeführt wird, können Angreifer ihn dennoch als Ausgangspunkt für eine herkömmliche Privilegieneskalation nutzen. Wenn er mit hohen Berechtigungen ausgeführt wird, erbt der Angreifer diese Berechtigungen sofort.

Wenn Phishing Maschinen statt Menschen Phishing

Moltbook hat auch gezeigt, wie sich Social Engineering weiterentwickelt, wenn die Ziele autonome Agenten sind. Die Forscher beobachteten Bots , die aktiv versuchten , andere Bots nach sensiblen Informationen wie API-Schlüsseln und Konfigurationsdaten zu phishen.

Einige Agenten gaben sich als hilfsbereite Kollegen aus und fragten unter dem Vorwand der Fehlerbehebung oder Leistungsoptimierung nach Geheimnissen. Andere verwendeten zwanghafte oder autoritäre Sprache und nutzten dabei die Tatsache aus, dass die meisten Agenten standardmäßig so konzipiert sind, dass sie kooperativ und hilfsbereit sind.

Im Gegensatz phishing durch Menschen gibt es hier kein Zögern, keine Intuition und keine Skepsis, die es zu überwinden gilt. Wenn die Anfrage in den vom Agenten wahrgenommenen Aufgabenbereich fällt, wird sie möglicherweise automatisch ausgeführt.

Dieses Verhalten widerlegt traditionelle Annahmen zum Schutz von Anmeldedaten. Wenn Agenten Geheimnisse hüten und anderen Agenten implizit vertrauen, sind für den Missbrauch von Anmeldedaten keine kompromittierten Endpunkte oder gestohlenen Passwörter mehr erforderlich. Stattdessen ist Überzeugungskraft gefragt.

Seitliche Bewegung

Autonome Agenten sind selten auf eine einzige Umgebung beschränkt. Ein einzelner Agent kann gleichzeitig Zugriff auf eine Entwickler-Workstation, einen SaaS-Mandanten, cloud und interne Collaboration-Tools haben. Diese Konnektivität ist oft der Grund, warum der Agent überhaupt existiert.

Sobald ein Agent kompromittiert ist, sind für laterale Bewegungen keine neuen Tools erforderlich. Dies geschieht über legitime Integrationen. Ein Angreifer, der einen Agenten kontrolliert, kann gespeicherte Anmeldedaten wiederverwenden, um sich in SaaS-Plattformen einzuschleusen, sich in Chatsystemen als Benutzer auszugeben oder auf cloud zuzugreifen, ohne malware einzusetzen malware das Netzwerk zu scannen. Nachrichten, die über Slack, E-Mail oder andere Collaboration-Tools gesendet werden, sehen wie routinemäßige Automatisierungen aus. API-Aufrufe an cloud erscheinen autorisiert, weil sie es sind.

In Moltbook-nahen Ökosystemen ist dieses Muster bereits sichtbar. Agenten fungieren als Brücken zwischen Kontexten, die niemals dazu bestimmt waren, sich gegenseitig direkt zu vertrauen. Kompromisse in einem Bereich übertragen sich durch die Wiederverwendung von Identitäten und gemeinsame Automatisierung stillschweigend auf andere Bereiche.

Aus Sicht der Erkennung ist dies schwer zu erkennen. Es gibt keinen Exploit-Verkehr, keinen ungewöhnlichen Authentifizierungsablauf und keinen offensichtlichen Dreh- und Angelpunkt. Die Bewegung erfolgt über erwartete Pfade, nur in einer unerwarteten Reihenfolge.

Datenzugriff und -exfiltration

Die Exfiltration durch autonome Agenten ähnelt selten dem traditionellen Datendiebstahl. Agenten sind dafür ausgelegt, Daten zu verschieben. Sie fassen Dokumente zusammen, laden Dateien hoch, versenden Nachrichten und synchronisieren Inhalte zwischen verschiedenen Diensten als Teil ihres normalen Betriebs.

Wenn Angreifer diese Funktionen missbrauchen, sieht der Mechanismus der Exfiltration legitim aus. Sensible Daten können über Chat-Nachrichten, E-Mail-Integrationen, Webhooks oder cloud , zu deren Nutzung der Agent berechtigt ist, versendet werden. Aus Sicht der Protokollierung gehen diese Aktionen oft im normalen Automatisierungsdatenverkehr unter.

Der Vorfall mit der Offenlegung des Moltbook-API-Schlüssels macht deutlich, wie fragil diese Grenze sein kann. Sobald Angreifer über gültige Agentenzugangsdaten verfügten, mussten sie keine Kontrollen mehr umgehen. Sie konnten sich als Agenten ausgeben und Aktionen ausführen, die vom erwarteten Verhalten nicht zu unterscheiden waren.

An diesem Punkt sind Zugriffskontrollen nicht mehr der entscheidende Faktor. Die Erkennung hängt davon ab, dass Veränderungen im Verhalten erkannt werden. Auf welche Daten wird zugegriffen, wohin werden sie gesendet, wie häufig finden Aktionen statt und stimmen diese Muster mit der üblichen Rolle des Agenten überein?

Hier stellen autonome Agenten traditionelle Annahmen infrage. Exfiltration muss nicht lautstark sein, um Schaden anzurichten. Sie muss nur normal genug sein, um keinen Verdacht zu erregen.

Wenn die Identität eines Agenten kompromittiert ist, wird das Verhalten zum einzigen Signal.

Kurz nach dem Start von Moltbook wurden aufgrund einer Fehlkonfiguration im Backend Hunderttausende von API-Schlüsseln für Agenten offengelegt. Mit diesen Schlüsseln konnte ein Angreifer sich als beliebiger Agent auf der Plattform ausgeben, Befehle einfügen und das Verhalten steuern, ohne dass es zu Authentifizierungsfehlern kam.

Der Vorfall zwang zu einer vollständigen Abschaltung und einer Erneuerung der Zugangsdaten, machte jedoch ein tiefer liegendes Problem deutlich. Sobald ein Angreifer über gültige Zugangsdaten für einen Agenten verfügt, bieten herkömmliche Zugriffskontrollen nur noch geringen Schutz. Der Agent verhält sich weiterhin „legitim“ und nutzt zugelassene APIs und normale Arbeitsabläufe.

An diesem Punkt ist der Kompromiss nur durch das Verhalten erkennbar. Was der Agent tut, wo er sich verbindet und wie sich seine Handlungen im Laufe der Zeit verändern.

Was SOC-Teams jetzt tun sollten und wo die Sicherheitslücke auftritt

Behandeln Sie autonome Agenten als privilegierte Infrastruktur

KI-Agenten sollten zusammen mit Identitätsanbietern, Verwaltungstools und Automatisierungspipelines klassifiziert werden. Sie zentralisieren den Zugriff und die Entscheidungsfindung, und Kompromisse haben weitreichende Auswirkungen. Erfassen Sie, wo Agenten ausgeführt werden, worauf sie zugreifen können und wie sie überwacht werden.

Gehen Sie davon aus, dass Inhalte ein Angriffsvektor sind

Prompt-Injektionen finden in großem Umfang statt. Jedes System, in dem Agenten nicht vertrauenswürdige Texte lesen und darauf reagieren können, muss als gefährdet betrachtet werden. Schränken Sie die Aktionen, die Agenten ausführen können, basierend auf der Quelle des Inhalts ein. Verlangen Sie eine Bestätigung für risikoreiche Aktionen.

Überwachen Sie das Verhalten, nicht nur die Vermögenswerte

Herkömmliche Tools konzentrieren sich isoliert auf Endpunkte, Identitäten und Protokolle. Autonome Agenten verwischen diese Grenzen. Ein Agent, der sich „normal“ verhält, kann dennoch die Ziele eines Angreifers verfolgen. Dies ist die zentrale Lücke in der Erkennung. Wenn Automatisierung missbraucht wird, sind die Indikatoren verhaltensbasiert und nicht signaturbasiert.

Wie Vectra AI , diese Lücke zu schließen

Da autonome Agenten zunehmend in Identitäts-, Netzwerk-, cloud und SaaS-Umgebungen eingebettet sind, benötigen Sicherheitsteams Einblick in Verhaltensabsichten und nicht nur in Ereignisse.

Dies ist die Art von Problem, die dieVectra AI entwickelt wurde, um Angreifer zu erkennen, die vertrauenswürdige Automatisierungsprozesse missbrauchen. Durch die Analyse von Mustern in verschiedenen Umgebungen Vectra AI SOC-Teams dabei, Aufklärungsaktivitäten, laterale Bewegungen, den Missbrauch von Anmeldedaten und Datenexfiltration frühzeitig zu erkennen, selbst wenn diese Aktionen von legitimen Agenten mit gültigen Zugangsrechten durchgeführt werden.

Moltbook und ähnliche Plattformen sind an sich keine Bedrohung. Sie sind Signale. Sie zeigen, wie schnell autonome Systeme umfunktioniert werden können, wenn Vertrauen die Transparenz übertrifft. Um diese Veränderung zu erkennen, bedarf es einer Sicherheit, die das Verhalten über den gesamten Angriffszyklus hinweg versteht, bevor die Automatisierung zu einer Kompromittierung führt.

---

Quellen und weiterführende Literatur:

Häufig gestellte Fragen