🤖 24 AI

Donnerstag, 16. April 2026

17 Nachrichten — 🔴 2 kritisch , 🟡 10 wichtig , 🟢 5 interessant

← Vorheriger Tag Nächster Tag →

🤖 Modelle (2)

📦 Open Source (1)

⚖️ Regulierung (1)

🤝 Agenten (3)

🟡 🤝 Agenten 16. April 2026 · 2 Min. Lesezeit

OpenAI: Nächste Generation des Agents SDK bringt native Sandbox-Ausführung für zuverlässige Agenten

OpenAI hat ein bedeutendes Upgrade seines Agents SDK angekündigt, das native Sandbox-Ausführung und ein modellnatives Harness für den Aufbau zuverlässigerer, langlebiger KI-Agenten einführt. Das neue Release konzentriert sich auf sichere Code-Ausführung und Agentenautonomie und ermöglicht Entwicklungsteams den Aufbau von Agenten, die stundenlang ohne menschliche Aufsicht arbeiten können.

🟢 🤝 Agenten 16. April 2026 · 2 Min. Lesezeit

ArXiv: TREX — zwei KI-Agenten automatisieren den gesamten LLM-Fine-Tuning-Prozess

TREX ist ein neues Multi-Agenten-System, das die komplette Fine-Tuning-Pipeline für große Sprachmodelle automatisiert — von der Anforderungsanalyse und Literaturrecherche bis zur Datenvorbereitung und Ergebnisbewertung. Das System modelliert den Experimentierprozess als Suchbaum und optimiert auf dem FT-Bench-Benchmark mit 10 realen Aufgaben konsistent die Modellleistung.

🟢 🤝 Agenten 16. April 2026 · 2 Min. Lesezeit

IBM Research: VAKRA-Benchmark zeigt, dass KI-Agenten bei komplexem Denken scheitern

IBM Research hat VAKRA veröffentlicht — einen neuen Benchmark zur Evaluierung von KI-Agenten in Enterprise-Umgebungen mit mehr als 8.000 lokalen APIs, 62 Domänen und 4.187 Testinstanzen. Das Kernergebnis ist, dass Modelle bei einfachen Aufgaben oberflächliche Kompetenz zeigen, aber beim kompositionellen Denken scheitern, Multi-Hop-Reasoning mit der Tiefe degradiert und die Einhaltung externer Einschränkungen zu einem signifikanten Leistungsabfall führt.

🔧 Hardware (2)

🏥 In der Praxis (2)

💬 Community (1)

🛡️ Sicherheit (5)

🔴 🛡️ Sicherheit 16. April 2026 · 3 Min. Lesezeit

ArXiv: MemJack — Mehragenten-Angriff überwindet Schutz von Vision-Language-Modellen mit bis zu 90 % Erfolgsrate

MemJack ist ein neues Jailbreak-Framework für Vision-Language-Modelle (VLMs), das koordinierte Mehragenten-Zusammenarbeit statt klassischer Pixel-Perturbationen einsetzt. Bei Tests mit unveränderten COCO-Bildern erreicht es eine Erfolgsrate von 71,48 % auf Qwen3-VL-Plus und bis zu 90 % mit erweitertem Budget. Die Forscher kündigen die Veröffentlichung von über 113.000 interaktiven Angriffstrajektorien für die Verteidigungsforschung an.

🔴 🛡️ Sicherheit 16. April 2026 · 3 Min. Lesezeit

OpenAI: Das Trusted Access for Cyber-Programm stellt 10 Millionen Dollar für die globale Cyberabwehr bereit

OpenAI hat die Initiative Trusted Access for Cyber ins Leben gerufen, die führende Sicherheitsorganisationen und Unternehmensnutzer rund um das spezialisierte Modell GPT-5.4-Cyber zusammenbringt. Das Programm umfasst 10 Millionen Dollar in API-Zuschüssen zur Stärkung der globalen Cyberabwehr und positioniert OpenAI als aktiven Akteur im Sicherheitsökosystem.

🟡 🛡️ Sicherheit 16. April 2026 · 3 Min. Lesezeit

EleutherAI: Neue Methode erkennt Reward Hacking, bevor es sichtbar wird

EleutherAI hat eine Forschungsarbeit über die Methode 'Reasoning Interpolation' veröffentlicht, die frühe Anzeichen von Reward Hacking in Reinforcement-Learning-Systemen erkennt. Die Technik nutzt Importance Sampling und feinabgestimmte Donor-Modelle, um künftige Exploit-Muster mit einem AUC von 1,00 vorherzusagen, während Standardmethoden die Exploit-Raten um 2–5 Größenordnungen unterschätzen.

🟡 🛡️ Sicherheit 16. April 2026 · 2 Min. Lesezeit

ArXiv: MCPThreatHive — die erste automatisierte Sicherheitsplattform für das MCP-Ökosystem

MCPThreatHive ist eine neue Open-Source-Plattform, die den gesamten Lebenszyklus der Threat Intelligence für Model Context Protocol-Ökosysteme automatisiert. Die Plattform operationalisiert die MCP-38-Taxonomie mit 38 spezifischen Bedrohungsmustern, ordnet sie den STRIDE- und OWASP-Rahmenwerken zu und enthält ein System zur quantitativen Risikobewertung. Sie wurde auf der DEFCON SG 2026 vorgestellt.

🟡 🛡️ Sicherheit 16. April 2026 · 2 Min. Lesezeit

ArXiv: RePAIR ermöglicht LLMs, gezielte Informationen ohne Nachtraining zu 'vergessen'

RePAIR ist ein neues Framework für interaktives maschinelles Vergessen (Machine Unlearning), das Nutzern ermöglicht, große Sprachmodelle per Natural-Language-Prompts in Echtzeit anzuweisen, bestimmte Informationen zu vergessen. Die Schlüsselinnovation, die STAMP-Methode, leitet MLP-Aktivierungen mithilfe einer geschlossenen Formel in den Refusal-Teilraum um — ohne jegliches Nachtraining — und erzielt dabei nahezu null Vergessen-Scores bei gleichzeitiger Beibehaltung der Modellnützlichkeit.

← Vorheriger Tag Nächster Tag →