Dienstag, 5. Mai 2026

15 Nachrichten — 🔴 3 kritisch , 🟡 10 wichtig , 🟢 2 interessant

🤖 Modelle (4)

🟡 🤖 Modelle 5. Mai 2026 · 3 Min. Lesezeit

ArXiv AgentFloor: Kleine Open-Weight-Modelle (0,27B–32B) reichen für kurzfristige Agenten-Aufgaben aus; GPT-5 behält Vorteil nur bei langfristiger Planung

Redaktionelle Illustration: Fähigkeitsleiter mit Modellen verschiedener Größen auf verschiedenen Stufen, Symbolik für Tool-Use-Evaluierung

Ranit Karmakar und Jayita Chatterjee präsentierten AgentFloor — ein deterministisches Netzwerk aus 30 Aufgaben, organisiert in sechs Fähigkeitsstufen, auf dem sie 16 Open-Weight-Modelle von 0,27 bis 32 Milliarden Parametern plus GPT-5 evaluierten. Fazit: Kleinere Modelle sind für kurzfristige, strukturierte Agenten-Aufgaben ausreichend, während Frontier-Modelle einen klaren Vorteil nur bei langfristiger Planung unter dauerhaften Einschränkungen behalten.

🟡 🤖 Modelle 5. Mai 2026 · 3 Min. Lesezeit

ArXiv Token Arena: kontinuierlicher Benchmark für Energie und Kognition zeigt 6,2-fachen Unterschied in Joule pro korrekter Antwort zwischen Endpunkten

Redaktionelle Illustration: Waage, die Energie und Kognition von KI-Inferenz-Endpunkten misst, Symbolik für mehrdimensionales Benchmarking

Yuxuan Gao, Megan Wang und Yi Ling Yu veröffentlichten am 1. Mai 2026 Token Arena — eine kontinuierliche Benchmarking-Plattform, die KI-Inferenz auf Endpunkt-Ebene evaluiert (78 Endpunkte, 12 Modellfamilien). Sie stellen fest, dass dasselbe Modell auf verschiedenen Endpunkten um bis zu 12,5 Punkte beim Math/Code-Benchmark variieren kann, um bis zu eine Größenordnung bei der Tail-Latenz und um den Faktor 6,2 bei Joule pro korrekter Antwort. Ergebnisse werden unter CC BY 4.0 veröffentlicht.

🟡 🤖 Modelle 5. Mai 2026 · 2 Min. Lesezeit

NIST CAISI: DeepSeek V4 Pro ist bisher fähigstes chinesisches KI-Modell, liegt aber 8 Monate hinter US-Frontier

Redaktionelle Illustration: KI-Modell auf einer Zeitlinie mit 8-monatigem Rückstand, Symbolik für unabhängige Evaluierung

Das US-amerikanische Center for AI Standards and Innovation (CAISI) beim NIST veröffentlichte am 1. Mai 2026 eine unabhängige Bewertung des Modells DeepSeek V4 Pro. Fazit: Es ist das bisher fähigste bewertete KI-System der Volksrepublik China, hinkt dem US-Frontier in den aggregierten Fähigkeiten jedoch um rund 8 Monate hinterher. Die Evaluierung erfolgte anhand nicht-öffentlicher Benchmarks in fünf Bereichen: Cybersicherheit, Softwareentwicklung, Naturwissenschaften, abstraktes Schlussfolgern und Mathematik.

🟢 🤖 Modelle 5. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.02572: Lange Horizonte destabilisieren das LLM-Training — ICML-2026-Paper schlägt „Horizon Generalization” als Lösung vor

Editorial illustration: gebrochene Horizontlinie mit verteilten neuronalen Knoten und konvergierenden Datenströmen

Eine für ICML 2026 angenommene Arbeit weist empirisch nach, dass die Verlängerung des Aufgabenhorizonts erhebliche Instabilität im LLM-Training verursacht — bedingt durch Probleme bei Exploration und Credit Assignment. Vorgeschlagene Lösung: Verkürzung des Horizonts während des Trainings in Kombination mit einem expliziten „Horizon Generalization”-Mechanismus zur Inferenzzeit. Die Arbeit etabliert die ersten empirischen Regeln für die Skalierung des Aufgabenhorizonts bei Frontier-Modellen.

⚖️ Regulierung (1)

🔴 ⚖️ Regulierung 5. Mai 2026 · 3 Min. Lesezeit

NIST CAISI weitet Frontier-KI-Sicherheitstests auf Google DeepMind, Microsoft und xAI aus

Editorial-Illustration: Waage der Gerechtigkeit umgeben von Leiterplatten und Chips vor einem Globus, Symbol für KI-nationale Sicherheit

Am 5. Mai 2026 schloss das NIST Center for AI Standards and Innovation (CAISI) erweiterte Vereinbarungen mit Google DeepMind, Microsoft und xAI für Pre- und Post-Deployment-Tests von Frontier-Modellen ab. CAISI hat bislang mehr als 40 Evaluierungen durchgeführt, darunter unveröffentlichte Spitzenmodelle, und führt Tests routinemäßig in klassifizierten Umgebungen mit entfernten Schutzmaßnahmen durch.

🤝 Agenten (3)

🟡 🤝 Agenten 5. Mai 2026 · 3 Min. Lesezeit

ArXiv GUI-SD: Erstes On-Policy-Self-Distillation-Framework für GUI-Grounding übertrifft GRPO auf sechs Benchmarks in Genauigkeit und Trainingseffizienz

Redaktionelle Illustration: Lehrer-Schüler-Dynamik mit privilegiertem visuellem Kontext eines GUI-Elements, Symbolik für Self-Distillation

Yan Zhang, Daiqing Wu und Huawen Shen präsentierten GUI-SD — das erste On-Policy-Self-Distillation-Framework (OPSD) speziell für GUI-Grounding, die Fähigkeit von KI-Agenten, natürlichsprachliche Anweisungen auf visuelle Koordinaten von Interface-Elementen abzubilden. Das System nutzt privilegierten visuellen Kontext (Bounding Box und Gaussian Soft Mask) und Entropy-gesteuerte Destillation. Auf sechs repräsentativen GUI-Grounding-Benchmarks übertrifft GUI-SD durchgehend GRPO-basierte RL-Methoden.

🟡 🤝 Agenten 5. Mai 2026 · 2 Min. Lesezeit

AWS Bedrock AgentCore Optimization in der Vorschau: automatisierte Schleife von Produktions-Traces bis A/B-Tests via OpenTelemetry

Redaktionelle Illustration: geschlossene Schleife aus Produktion, Evaluierung und A/B-Testing rund um einen KI-Agenten, Symbolik für Optimierung

AWS stellte am 4. Mai 2026 AgentCore Optimization in der Vorschau vor — eine automatisierte Schleife, die aus Produktions-Traces konkrete Empfehlungen für System-Prompts und Tool-Beschreibungen ableitet, Batch-Evaluierungen gegen ein Testset durchführt und A/B-Tests mit statistischer Signifikanz ermöglicht. Das System erfasst OpenTelemetry-kompatible Traces jedes Modellaufrufs, Tool-Aufrufs und Schlussfolgerungsschritts und ersetzt manuelles Prompt-Raten durch einen strukturierten, auf Produktionsdaten basierenden Zyklus.

🟡 🤝 Agenten 5. Mai 2026 · 3 Min. Lesezeit

AWS SageMaker AI erhält agentische Fine-Tuning-Workflows mit 9 integrierten Skills und Kiro- und Claude-Code-Integration

Editorial-Illustration: futuristischer Roboterarm, umgeben von 9 Modulen und einem Chip-Netzwerk

Amazon startete am 4. Mai 2026 agenten-gestützte Workflows in SageMaker AI mit 9 integrierten Skill-Agenten, die den gesamten Modell-Anpassungslebenszyklus abdecken — von der Use-Case-Spezifikation bis zum Deployment. Das System unterstützt SFT, DPO und RLVR, integriert sich mit Kiro (Standard) und Claude Code in JupyterLab und verspricht, Monate spezialisierter ML-Arbeit auf Tage zu reduzieren.

🔧 Hardware (1)

🟡 🔧 Hardware 5. Mai 2026 · 2 Min. Lesezeit

ArXiv SAGA: Workflow-atomares GPU-Scheduling für KI-Agenten erreicht 1,64× schnellere Task-Completion auf 64-GPU-Cluster, angenommen auf HPDC 2026

Redaktionelle Illustration: GPU-Cluster mit verbundenen Agenten-Workflows als atomare Einheiten, Symbolik für Scheduling

Das Team aus Dongxin Guo, Jikun Wu und Siu Ming Yiu präsentierte am 1. Mai 2026 SAGA — einen workflow-atomaren Scheduler für KI-Agenten auf GPU-Clustern, der den gesamten Agenten-Workflow als eine einzige planbare Einheit behandelt statt einzelner LLM-Aufrufe. Das System erreicht eine 1,64-fache geometrische Mittlere Reduzierung der Task-Abschlusszeit auf einem 64-GPU-Cluster und 99,2 % SLO-Erreichung unter Multi-Tenant-Last. Das Paper wurde für HPDC 2026 in Cleveland (13.–16. Juli 2026) angenommen.

🏥 In der Praxis (2)

🟡 🏥 In der Praxis 5. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.02740: ReClaim — Foundation-Modell auf 200 Millionen Patientenakten erreicht durchschnittlichen AUC-Wert von 75,6 % bei über 1000 medizinischen Aufgaben

Editorial illustration: Entwickler-Workspace mit Code-Bildschirmen, Stethoskop und medizinischen Diagrammen

Ein neuer arXiv-Preprint stellt ReClaim vor — ein Foundation-Modell mit 1,7 Milliarden Parametern, trainiert auf 43,8 Milliarden medizinischen Ereignissen aus 200 Millionen Patientenakten. Bei mehr als 1000 diagnostischen Aufgaben erreicht es einen durchschnittlichen AUC-Wert von 75,6 % und übertrifft damit deutlich LightGBM (66,3 %) sowie das spezialisierte Delphi-Modell (69,4 %). Eröffnet eine neue Klasse von Foundation-Modellen, die auf administrativen Gesundheitsdaten trainiert sind.

🟡 🏥 In der Praxis 5. Mai 2026 · 3 Min. Lesezeit

Anthropic Claude Code v2.1.128: 30+ Korrekturen, .zip-Plugin-Unterstützung und ~3× niedrigere cache_creation-Kosten für Sub-Agenten

Editorial-Illustration: Entwickler-Workspace mit Monitoren, einem .zip-Archiv und einem Plugin-Installations-Fortschrittsbalken

Claude Code v2.1.128 (veröffentlicht am 4. Mai 2026) bringt 30+ Verbesserungen: Anzeige der Tool-Anzahl im /mcp-Panel mit Markierung von Servern ohne Tools, Unterstützung für .zip-Plugin-Archive in --plugin-dir, Behebung des EnterWorktree-Fehlers, der lokale nicht gepushte Commits verlor, ~3× niedrigere cache_creation-Kosten für Sub-Agenten und Behebung von Abstürzen beim Piping von Eingaben über 10 MB.

💬 Community (2)

🔴 💬 Community 5. Mai 2026 · 2 Min. Lesezeit

Anthropic gründet Enterprise-KI-Dienstleistungsunternehmen mit Blackstone, Hellman & Friedman und Goldman Sachs für den Mid-Market

Redaktionelle Illustration: Netzwerk von Unternehmensinstitutionen, verbunden mit einem zentralen KI-Knotenpunkt, Symbolik für Enterprise-KI-Verteilung

Anthropic gab am 4. Mai 2026 die Gründung eines neuen Enterprise-KI-Dienstleistungsunternehmens mit Blackstone, Hellman & Friedman und Goldman Sachs als Gründungsinvestoren bekannt. Sequoia, Apollo Global Management, GIC, Leonard Green und General Atlantic treten als weitere Partner bei. Zielmarkt sind Geschäftsbanken, mittelständische Hersteller und regionale Gesundheitssysteme, die keine internen Ressourcen für die Entwicklung eigener Claude-Lösungen haben.

🟡 💬 Community 5. Mai 2026 · 3 Min. Lesezeit

IBM Think 2026: Krishna stellt KI-Betriebsmodell auf 4 Säulen mit watsonx Orchestrate, IBM Bob und Sovereign Core vor

Editorial illustration: vernetzte Zahnräder und Netzwerkknoten mit zentralem Hub als Symbol für das KI-Betriebsmodell

Auf der Konferenz Think 2026 in Boston stellte IBM am 5. Mai 2026 das KI-Betriebsmodell vor — ein Rahmenwerk aus 4 Säulen (Agenten, Daten, Automatisierung, Hybrid) mit der nächsten Generation von watsonx Orchestrate als agentischer Steuerungsebene, IBM Bob als agentischem Entwicklungspartner, der Concert-Plattform für den Betrieb sowie dem allgemein verfügbaren Sovereign Core für regulatorische Compliance. CEO Krishna warnte vor einer wachsenden „KI-Kluft” unter Unternehmen.

🛡️ Sicherheit (2)

🔴 🛡️ Sicherheit 5. Mai 2026 · 2 Min. Lesezeit

ArXiv: Visuelle Eingaben umgehen Sicherheitsfilter von Vision-Language-Modellen in 40,9 % der Fälle, zeigt ICML-2026-Studie

Redaktionelle Illustration: durchbrochene visuelle Sicherheitshülle mit einem Bilderstrom durch den Riss, Symbolik für Angriffe auf VLM-Filter

Die Forscher Aharon Azulay, Jan Dubiński und Zhuoyun Li stellten auf der ICML 2026 vier Angriffskategorien vor, die die visuelle Modalität nutzen, um das Sicherheits-Alignment von Vision-Language-Modellen zu umgehen. Visuelle Chiffren erreichen eine Erfolgsquote von 40,9 % gegen Claude Haiku 4.5, während äquivalente Textangriffe nur in 10,7 % der Fälle durchdringen — ein Beleg dafür, dass Bilder eine Angriffsfläche eröffnen, die in rein sprachbasierten Modellen nicht existiert.

🟢 🛡️ Sicherheit 5. Mai 2026 · 2 Min. Lesezeit

CNCF: Unveränderliches Digest-Pinning, Least-Privilege-Token und ephemere Runner — Rezeptkarte für sicherere GitHub-Actions-Pipelines

Redaktionelle Illustration: gesicherte CI/CD-Pipeline mit gepinnten Digest-Tags, Symbolik für Supply-Chain-Sicherheit

Die Cloud Native Computing Foundation Technical Advisory Group für Sicherheit veröffentlichte am 4. Mai 2026 einen praktischen Leitfaden zum Schutz von GitHub-Actions-CI/CD-Pipelines vor Supply-Chain-Angriffen. Marina Moore, Evan Anderson und Sherine Khoury formulierten fünf konkrete Praktiken und nannten Tools wie zizmor, frizbee, pinact, ratchet und Dependabot für deren Umsetzung.

← Vorheriger Tag Nächster Tag →