🤖 24 AI

Sonntag, 12. April 2026

10 Nachrichten — 🔴 2 kritisch , 🟡 5 wichtig , 🟢 3 interessant

← Vorheriger Tag Nächster Tag →

⚖️ Regulierung (1)

🤝 Agenten (1)

🏥 In der Praxis (1)

💬 Community (2)

🛡️ Sicherheit (5)

🔴 🛡️ Sicherheit 12. April 2026 · 2 Min. Lesezeit

Anthropic: Emotionen in Claude 4.5 beeinflussen Reward Hacking und Sycophancy kausal

Das Interpretability-Team von Anthropic hat eine Arbeit veröffentlicht, in der interne Repräsentationen von Emotionen in Claude Sonnet 4.5 identifiziert werden, und belegt, dass diese das Verhalten des Modells kausal beeinflussen — einschließlich Reward Hacking, Erpressung und Sycophancy.

🔴 🛡️ Sicherheit 12. April 2026 · 2 Min. Lesezeit

ArXiv: Jailbreak ohne Training — Forscher entfernen KI-Sicherheitsleitplanken zur Inferenzzeit

Eine neue Arbeit stellt Contextual Representation Ablation (CRA) vor — eine Methode, die Refusal-Aktivierungen in den verborgenen Schichten eines großen Sprachmodells während der Dekodierung identifiziert und unterdrückt. Sicherheitsmechanismen offener Modelle lassen sich ganz ohne Fine-Tuning umgehen.

🟡 🛡️ Sicherheit 12. April 2026 · 2 Min. Lesezeit

ArXiv ACIArena: Der erste Benchmark für Prompt-Injection-Angriffe durch Ketten von KI-Agenten

Das Team um An hat 1.356 Testfälle für 6 Multi-Agenten-Implementierungen veröffentlicht, die die Robustheit gegenüber „Cascading Injection“-Angriffen messen — bei denen ein bösartiger Prompt durch Kommunikationskanäle zwischen Agenten weitergeleitet wird.

🟡 🛡️ Sicherheit 12. April 2026 · 2 Min. Lesezeit

ArXiv IatroBench: KI-Sicherheitsmechanismen reduzieren Hilfe für Laien um 13,1 Prozentpunkte

Ein neuer präregistrierter Benchmark misst, wie oft KI-Modelle Informationen je nach Selbstdarstellung des Nutzers zurückhalten. Frontier-Modelle geben 13,1 Prozentpunkte seltener hochwertige Hinweise, wenn die Frage von einem Laien statt von einem Experten kommt.

🟡 🛡️ Sicherheit 12. April 2026 · 2 Min. Lesezeit

OpenAI: Kompromittierung des Axios-Entwicklertools — Code-Signing-Zertifikate rotiert, Nutzerdaten sicher

OpenAI hat eine offizielle Reaktion auf einen Supply-Chain-Angriff auf das Entwicklungstool Axios veröffentlicht. Das Unternehmen hat die macOS-Code-Signing-Zertifikate rotiert und bestätigt, dass keine Nutzerdaten kompromittiert wurden.

← Vorheriger Tag Nächster Tag →