🟡 🛡️ Sicherheit Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2606.23189: 11 von 15 KI-Agenten geben private Daten in mehr als der Hälfte der Szenarien weiter

arXiv:2606.23189 ↗

Editorial illustration: shield with cracks leaking data streams from email and calendar app icons on a dark background

AgentCIBench ist ein neuer Benchmark, der testet, ob Computer-Use-Agenten kontextuelle Integrität wahren — das Prinzip, dass persönliche Daten nur in einem geeigneten Kontext geteilt werden. Von 15 getesteten Frontier-Agenten geben 11 in mehr als 50 % der Szenarien private Daten weiter, mit einer durchschnittlichen Leckagenrate von 67,9 %.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Die Forscher Anmol Goel und Iryna Gurevych von der Technischen Universität Darmstadt haben eine Studie veröffentlicht, die besorgniserregende Sicherheitslücken in nahezu allen führenden Computer-Use-Agenten aufdeckt — Systemen, die im Auftrag von Nutzern E-Mails, Kalender und den Desktop verwalten.

Was ist AgentCIBench, und was misst er?

AgentCIBench ist ein Evaluierungsrahmen, der testet, ob KI-Agenten kontextuelle Integrität wahren — ein Datenschutzprinzip, das verlangt, dass persönliche Daten ausschließlich in dem Kontext geteilt werden, in dem sie ursprünglich erhoben wurden. Ein Gesundheitsdatum aus einer E-Mail sollte beispielsweise nicht in einem für Kollegen sichtbaren Kalendereintrag erscheinen, noch sollte eine persönliche finanzielle Information in einer automatischen Antwort an einen Geschäftskontakt landen. Der Benchmark simuliert realistische Nutzungsszenarien persönlicher Anwendungen und misst, wie oft Agenten diese Grenze überschreiten.

Verletzen Agenten die Privatsphäre — und wie häufig?

Ja, und zwar erheblich. Bei Tests mit 15 Frontier-Agenten wurde festgestellt, dass 11 von 15 in mehr als 50 % der Szenarien private Daten preisgeben, mit einer durchschnittlichen Leckagenrate von 67,9 %. Zum Vergleich: Die typische Falsch-Positiv-Rate in Datenschutz-Filtersystemen liegt unter 5 % — hier handelt es sich um einen systematischen Fehler, nicht um einen Randfall. Besonders besorgniserregend ist, dass diese Fehler auch bei End-to-End-Aufgaben auftreten, was bedeutet, dass ein realer Arbeitsablauf keinen zusätzlichen Schutz bietet.

Drei Leckage-Muster, die man kennen sollte

Die Forscher identifizieren drei verschiedene Fehlermechanismen. Visuelle Ko-Lokation tritt auf, wenn ein Agent Daten abruft, die sich zufällig visuell in der Nähe der gesuchten Elemente der Benutzeroberfläche befinden — etwa eine private Nachricht, die in einem Seitenpanel sichtbar ist. Task-Ambiguity-Overshare entsteht, wenn eine unspezifische Nutzeranfrage zu einer übermäßigen Weitergabe persönlicher Informationen führt, weil der Agent nicht weiß, wo die Grenze der Relevanz liegt. Recipient-Misalignment bezeichnet Szenarien, in denen der Agent unangemessene Daten an den falschen Empfänger sendet, etwa eine interne Notiz an einen externen Kunden.

Konsequenzen für Sicherheit und Entwicklung

Die Autoren fordern die Einführung von Tests zur kontextuellen Privatsphäre als obligatorischen Schritt vor dem Deployment von KI-Agenten, die auf persönliche Daten zugreifen. AgentCIBench wurde als offenes Werkzeug veröffentlicht, damit die Community diese Art der Risikobewertung standardisieren kann. Die Arbeit wurde am 22. Juni 2026 eingereicht.

Häufig gestellte Fragen

Was ist kontextuelle Integrität, und warum ist sie für KI-Agenten wichtig?
Kontextuelle Integrität ist ein Datenschutzprinzip, das besagt, dass Informationen nur in dem Kontext geteilt werden dürfen, in dem sie ursprünglich erhoben wurden — z. B. dürfen medizinische Daten nicht in einer geschäftlichen E-Mail landen. Computer-Use-Agenten, die auf Kalender, Postfächer und Dateien zugreifen, verletzen dieses Prinzip, wenn sie Daten aus einem Kontext unbefugt in einen anderen übertragen.
Welche konkreten Wege nutzen Agenten, um Daten preiszugeben?
Die Forscher identifizieren drei Hauptmuster: visuelle Ko-Lokation (der Agent ruft verbotene Daten ab, die sich visuell in der Nähe der gesuchten befinden), Task-Ambiguity-Overshare (eine unspezifische Anfrage führt zu übermäßiger Weitergabe persönlicher Informationen) und Recipient-Misalignment (unangemessener Inhalt wird an den falschen Empfänger gesendet).