Donnerstag, 7. Mai 2026

19 Nachrichten — 🔴 4 kritisch , 🟡 14 wichtig , 🟢 1 interessant

🤖 Modelle (3)

🟡 🤖 Modelle 7. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.03195: Terminus-4B — 4 Milliarden Parameter für Terminal-Execution auf Augenhöhe mit Claude Opus und GPT-5.3-Codex bei SWE-Bench Pro mit ~30 % weniger Haupt-Agent-Token

Editorial illustration: zwei konzentrische Kreise — kleineres 4B-Modell für Terminal und größeres Frontier-Modell für Planung, verbunden durch einen Delegationspfeil

Terminus-4B ist ein 4-Milliarden-Parameter-Qwen3-Fine-Tune, spezialisiert auf Terminal-Execution in Agenten-Systemen — auf dem SWE-Bench-Pro-Benchmark erreicht er Claude Sonnet/Opus und GPT-5.3-Codex und reduziert den Token-Verbrauch des Haupt-Agenten durch Isolation von Build/Test-Logs im Subagenten-Kontext um etwa 30 %.

🟡 🤖 Modelle 7. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.04908: Gosset mit kuriertem Pharma-Index übertrifft Frontier-LLMs um das 3,2-Fache

Editorial-Illustration: Gosset mit kuriertem Pharma-Index übertrifft Frontier-LLMs um das 3,2-Fache

Gosset ist eine spezialisierte KI-Plattform mit kuratierten Pharma-Daten, die im Vergleich zu vier Frontier-Systemen 3,2-mal mehr verifizierte Medikamente pro Anfrage lieferte — mit 100 % Präzision und vollständigem Recall bei zehn Nischen-Targets in Onkologie und Immunologie.

🟡 🤖 Modelle 7. Mai 2026 · 2 Min. Lesezeit

Google: Gemini API erhält multimodale Dateisuche für Bilder und Breaking Change im Interactions API

Editorial-Illustration: Gemini API erhält multimodale Dateisuche und Breaking Change im Interactions API

Google hat Gemini File Search auf multimodale Bildsuche mit dem Modell gemini-embedding-2 erweitert, mit media_id in Grounding-Metadaten für visuelle Zitierungen. Gleichzeitig wird ein Breaking Change im Interactions API angekündigt: outputs wird zu steps, mit neuem Standard ab 20.05.2026 und Entfernung des alten Schemas am 06.06.2026.

📦 Open Source (1)

🟡 📦 Open Source 7. Mai 2026 · 2 Min. Lesezeit

AMD: vLLM-ATOM-Plugin bringt Instinct-Optimierungen ohne Änderungen am vLLM-Code

Editorial illustration: vLLM-ATOM-Plugin bringt Instinct-Optimierungen ohne Änderungen am vLLM-Code

AMD hat vLLM-ATOM vorgestellt, ein Open-Source-Plugin, das Optimierungen für Instinct-GPUs in das vLLM-Produktions-Framework integriert, ohne den Quellcode zu verändern. Es wird automatisch über Python-entry_points aktiviert, unterstützt Dense- und MoE-Modelle wie Kimi-K2.5 und DeepSeek V3/R1 und nutzt AITER-Kernel für fused MoE und Flash Attention.

⚖️ Regulierung (1)

🔴 ⚖️ Regulierung 7. Mai 2026 · 2 Min. Lesezeit

EU AI Office: Politische Einigung zur Vereinfachung des AI Act und Verbot von Nudification-Apps

Editorial-Illustration: Politische Einigung zur Vereinfachung des AI Act und Verbot von Nudification-Apps

Die Europäische Kommission, das Parlament und der Rat haben eine politische Einigung über das Digital-Omnibus-Paket erzielt, das den AI Act vereinfacht und ein ausdrückliches Verbot von Nudification-Apps einführt. Hochrisiko-KI-Systeme gelten ab 02.12.2027, KI in Produkten ab 02.08.2028.

🤝 Agenten (5)

🔴 🤝 Agenten 7. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.06651: Google DeepMind stellt KI-Co-Mathematiker mit 48 % auf FrontierMath Tier 4 vor

Editorial illustration: 2605.06651: Google DeepMind stellt KI-Co-Mathematiker mit 48 % auf FrontierMath Tier 4 vor

Das Google-DeepMind-Team veröffentlichte einen Artikel über den KI-Co-Mathematiker, eine interaktive Arbeitsumgebung, in der Agenten mit Mathematikern an offenen Problemen zusammenarbeiten. Das System erreichte 48 % auf dem FrontierMath-Tier-4-Benchmark — ein neuer Rekord unter allen KI-Systemen.

🟡 🤝 Agenten 7. Mai 2026 · 2 Min. Lesezeit

Anthropic: Managed Agents erhalten Multiagenten-Sessions, Outcomes, Webhooks und Vault-Refresh in der öffentlichen Beta

Editorial illustration: Diagramm mehrerer Claude-Agenten, die auf einem Session-Canvas mit Vault- und Webhook-Icons verbunden sind

Claude Managed Agents ist Anthropics verwaltete Plattform für autonome Agenten und erhielt am 6. Mai 2026 vier neue Features in der öffentlichen Beta: Multiagenten-Sessions, den Outcomes-Mechanismus zur Zieldefinition, Webhooks für Session- und Vault-Lifecycle-Ereignisse sowie Hintergrund-Refresh für mcp_oauth-Credentials. Neue Filter für Sessions nach Status und für Events nach Typ und Erstellungszeit wurden ebenfalls hinzugefügt.

🟡 🤝 Agenten 7. Mai 2026 · 2 Min. Lesezeit

GitHub: Validierung agentischen Verhaltens per Dominatoranalyse aus der Compilertheorie erreicht 100 % Genauigkeit vs. 82 % Agenten-Selbstbeurteilung

Editorial illustration: Graphstruktur-Diagramm mit hervorgehobenen Dominatorknoten, die essenzielle Schritte in der Agenten-Ausführung darstellen

GitHub veröffentlicht ein Validierungsframework für nicht-deterministische KI-Agenten, das die Dominatoranalyse aus der Compilertheorie nutzt — aus 2 bis 10 erfolgreichen Ausführungen des Copilot Coding Agent lernt das System, welche Schritte essenziell und welche optional sind, und erreicht 100 % Genauigkeit bei der Unterscheidung von Agenten-Bugs und echten Produkt-Regressionen.

🟡 🤝 Agenten 7. Mai 2026 · 2 Min. Lesezeit

GitHub: Copilot für VS Code erhält Terminal-Zugriff und eigene API-Schlüssel

Editorial-Illustration: Copilot für VS Code erhält Terminal-Zugriff und eigene API-Schlüssel

GitHub Copilot für Visual Studio Code hat im April-Releasezyklus (Versionen 1.116–1.119) semantische Suche über die gesamte Codebasis, agentischen Zugriff auf offene Terminals und die Möglichkeit erhalten, eigene API-Schlüssel für Anthropic, OpenAI und andere Anbieter einzubinden.

🟡 🤝 Agenten 7. Mai 2026 · 2 Min. Lesezeit

vLLM: Mooncake Distributed KV-Cache-Store-Integration liefert 3,8× höheren Durchsatz und 46× niedrigere P50 TTFT für Multi-Turn-Agenten-Workloads

Editorial illustration: Netzwerk von GPU-Knoten, verbunden durch RDMA-Links mit einem zentralen Distributed-KV-Cache-Pool

vLLM integriert Mooncake, einen Open-Source-Distributed-KV-Cache-Store, der wiederholte Präfix-Berechnungen zwischen Agenten-Turns eliminiert — auf realistischen Codex-Traces mit 12 GB200-GPUs steigt der Durchsatz um 3,8×, P50 TTFT sinkt um 46×, End-to-End-Latenz um 8,6×, und die Cache-Hit-Rate springt von 1,7 % auf 92,2 %.

🔧 Hardware (1)

🔴 🔧 Hardware 7. Mai 2026 · 2 Min. Lesezeit

NVIDIA: Spectrum-X Multipath Reliable Connection wird OCP-Offenstandard für Gigascale-KI-Netzwerke

Editorial illustration: parallele Glasfaserpfade zwischen KI-Racks mit MRC-, Spectrum-X- und OCP-Open-Standard-Beschriftungen

NVIDIA Spectrum-X Multipath Reliable Connection (MRC) ist ein RDMA-Transportprotokoll, das eine einzelne Verbindung über mehrere Netzwerkpfade verteilt und nun als offene Spezifikation über das Open Compute Project veröffentlicht wurde. MRC ist bereits bei OpenAI, Microsofts Fairwater-Rechenzentrum und Oracles Abilene-Rechenzentrum im Produktionseinsatz und wurde in Zusammenarbeit mit AMD, Broadcom, Intel und Microsoft entwickelt.

🏥 In der Praxis (4)

🟡 🏥 In der Praxis 7. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Code v2.1.132 bringt 25+ Fixes und neue Env-Variablen für Hooks

Editorial-Illustration: Claude Code v2.1.132 bringt 25+ Fixes und neue Umgebungsvariablen für Hooks

Anthropic hat Claude Code v2.1.132 mit 25+ Fehlerbehebungen und zwei neuen Umgebungsvariablen veröffentlicht: CLAUDE_CODE_SESSION_ID für Hook-Integration und CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN für nativen Scrollback. Ein schwerwiegender Bug mit 10 GB+ RSS-Speicherwachstum bei MCP-Servern wurde ebenfalls behoben.

🟡 🏥 In der Praxis 7. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Code v2.1.133 bringt worktree.baseRef und Race-Condition-Fix

Editorial illustration: Claude Code v2.1.133 bringt worktree.baseRef und Race-Condition-Fix

Anthropic veröffentlichte Claude Code v2.1.133 mit den neuen Parametern worktree.baseRef, sandbox.bwrapPath/socatPath und der Umgebungsvariable CLAUDE_EFFORT in Hooks. Die Version behebt eine Race Condition in parallelen Sitzungen sowie Probleme mit Windows-Laufwerksstammpfaden. Dritte Veröffentlichung dieser Woche nach v2.1.131 und v2.1.132.

🟡 🏥 In der Praxis 7. Mai 2026 · 2 Min. Lesezeit

GitHub: Optimierung agentischer Workflows erzielt Token-Einsparungen von 19 % bis 62 %

Editorial illustration: Optimierung agentischer Workflows erzielt Token-Einsparungen von 19 % bis 62 %

GitHub hat seine Produktions-Agentenworkflows instrumentiert und drei Hauptquellen für Token-Verschwendung identifiziert: unnötige MCP-Tools, deterministische Datenabrufe und falsch konfigurierte Bash-Regeln. Durch Optimierung wurden Einsparungen von 19 % bis 62 % pro Workflow erzielt.

🟢 🏥 In der Praxis 7. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.04012: SymptomAI in der Fitbit-App übertrifft mit 13.917 Patienten unabhängige Kliniker bei der Differentialdiagnose

Editorial illustration: Nutzer im Gespräch mit dem SymptomAI-Agenten in der Fitbit-App, während ein Hintergrundpanel eine gerankte Diagnoseliste anzeigt

SymptomAI ist ein konversationeller KI-Agent, der in die Fitbit-App integriert und an etwa 13.917 Teilnehmern getestet wurde; in der klinischen Evaluationsgruppe erreichten seine Diagnoseempfehlungen ein Odds Ratio von 2,47 gegenüber unabhängigen Klinikern, die dieselben Gespräche bewerteten. Die Studie ist ein Preprint.

💬 Community (1)

🔴 💬 Community 7. Mai 2026 · 3 Min. Lesezeit

Anthropic: SpaceX wird Compute-Partner mit 300 MW und verdoppelten Claude Code-Limits

Anthropic hat eine Compute-Partnerschaft mit SpaceX abgeschlossen, die Zugang zu über 300 MW neuer Kapazität und mehr als 220.000 NVIDIA-GPUs im Colossus-1-Rechenzentrum innerhalb eines Monats bringt. Gleichzeitig werden die Fünf-Stunden-Rate-Limits für Claude Code Pro-, Max-, Team- und Enterprise-Nutzer verdoppelt, und die API-Limits für das Opus-Modell werden angehoben.

🛡️ Sicherheit (3)

🟡 🛡️ Sicherheit 7. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.04019: Automatisierter Red-Teaming-Agent erreicht 85 % Erfolgsquote gegen Metas Llama Scout mit 45+ Angriffen und 450+ Transformationen

Editorial illustration: Automatisierter Agent startet gleichzeitig Dutzende Angriffsvektoren gegen ein Sprachmodell auf einem Kontrollpanel-Bildschirm

Eine neue Arbeit stellt ein agentisches Red-Teaming-System vor, das auf dem Dreadnode SDK aufgebaut ist und mit 45+ Angriffen, 450+ Transformationen und 130+ Scorern eine Erfolgsquote von 85 % gegen Metas Llama Scout erreicht — Sicherheitstests verkürzen sich von Wochen auf Stunden, ohne manuell geschriebenen Code.

🟡 🛡️ Sicherheit 7. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.04785: AgentTrust fängt Tool-Aufrufe von KI-Agenten mit 95–97 % Genauigkeit ab

Editorial-Illustration: AgentTrust fängt Tool-Aufrufe von KI-Agenten mit 95–97 % Genauigkeit ab

AgentTrust ist ein Open-Source-Laufzeitsystem, das Tool-Aufrufe von KI-Agenten — Dateioperationen, SQL-Abfragen und Shell-Befehle — abfängt und vor der Ausführung eines von vier Urteilen zurückgibt. Über 930 Testszenarien erreicht es 95–97 % Genauigkeit und etwa 93 % bei shell-obfuszierten Angriffen.

🟡 🛡️ Sicherheit 7. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.06390: Automatisierte Alignment-Forschung ist schwieriger als gedacht

Editorial illustration: 2605.06390: Automatisierte Alignment-Forschung ist schwieriger als gedacht

Ein neues Paper von vier Forschern — darunter Geoffrey Irving (DeepMind/Anthropic) — argumentiert, dass KI-Agenten Alignment-Forschung nicht zuverlässig automatisieren können. Ohne klare Evaluationskriterien erzeugt Optimierungsdruck überzeugende, aber katastrophal falsche Sicherheitsbewertungen, die menschliche Gutachter kaum erkennen.

← Vorheriger Tag Nächster Tag →