Dienstag, 5. Mai 2026

15 Nachrichten — 🔴 3 kritisch , 🟡 10 wichtig , 🟢 2 interessant

← Vorheriger Tag Nächster Tag →

🤖 Modelle (4)

🟡 🤖 Modelle 5. Mai 2026 · 3 Min. Lesezeit

ArXiv AgentFloor: Kleine Open-Weight-Modelle (0,27B–32B) reichen für kurzfristige Agenten-Aufgaben aus; GPT-5 behält Vorteil nur bei langfristiger Planung

Redaktionelle Illustration: Fähigkeitsleiter mit Modellen verschiedener Größen auf verschiedenen Stufen, Symbolik für Tool-Use-Evaluierung

Ranit Karmakar und Jayita Chatterjee präsentierten AgentFloor — ein deterministisches Netzwerk aus 30 Aufgaben, organisiert in sechs Fähigkeitsstufen, auf dem sie 16 Open-Weight-Modelle von 0,27 bis 32 Milliarden Parametern plus GPT-5 evaluierten. Fazit: Kleinere Modelle sind für kurzfristige, strukturierte Agenten-Aufgaben ausreichend, während Frontier-Modelle einen klaren Vorteil nur bei langfristiger Planung unter dauerhaften Einschränkungen behalten.

🟡 🤖 Modelle 5. Mai 2026 · 3 Min. Lesezeit

ArXiv Token Arena: kontinuierlicher Benchmark für Energie und Kognition zeigt 6,2-fachen Unterschied in Joule pro korrekter Antwort zwischen Endpunkten

Redaktionelle Illustration: Waage, die Energie und Kognition von KI-Inferenz-Endpunkten misst, Symbolik für mehrdimensionales Benchmarking

Yuxuan Gao, Megan Wang und Yi Ling Yu veröffentlichten am 1. Mai 2026 Token Arena — eine kontinuierliche Benchmarking-Plattform, die KI-Inferenz auf Endpunkt-Ebene evaluiert (78 Endpunkte, 12 Modellfamilien). Sie stellen fest, dass dasselbe Modell auf verschiedenen Endpunkten um bis zu 12,5 Punkte beim Math/Code-Benchmark variieren kann, um bis zu eine Größenordnung bei der Tail-Latenz und um den Faktor 6,2 bei Joule pro korrekter Antwort. Ergebnisse werden unter CC BY 4.0 veröffentlicht.

🟡 🤖 Modelle 5. Mai 2026 · 2 Min. Lesezeit

NIST CAISI: DeepSeek V4 Pro ist bisher fähigstes chinesisches KI-Modell, liegt aber 8 Monate hinter US-Frontier

Redaktionelle Illustration: KI-Modell auf einer Zeitlinie mit 8-monatigem Rückstand, Symbolik für unabhängige Evaluierung

Das US-amerikanische Center for AI Standards and Innovation (CAISI) beim NIST veröffentlichte am 1. Mai 2026 eine unabhängige Bewertung des Modells DeepSeek V4 Pro. Fazit: Es ist das bisher fähigste bewertete KI-System der Volksrepublik China, hinkt dem US-Frontier in den aggregierten Fähigkeiten jedoch um rund 8 Monate hinterher. Die Evaluierung erfolgte anhand nicht-öffentlicher Benchmarks in fünf Bereichen: Cybersicherheit, Softwareentwicklung, Naturwissenschaften, abstraktes Schlussfolgern und Mathematik.

🟢 🤖 Modelle 5. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.02572: Lange Horizonte destabilisieren das LLM-Training — ICML-2026-Paper schlägt „Horizon Generalization” als Lösung vor

Editorial illustration: gebrochene Horizontlinie mit verteilten neuronalen Knoten und konvergierenden Datenströmen

Eine für ICML 2026 angenommene Arbeit weist empirisch nach, dass die Verlängerung des Aufgabenhorizonts erhebliche Instabilität im LLM-Training verursacht — bedingt durch Probleme bei Exploration und Credit Assignment. Vorgeschlagene Lösung: Verkürzung des Horizonts während des Trainings in Kombination mit einem expliziten „Horizon Generalization”-Mechanismus zur Inferenzzeit. Die Arbeit etabliert die ersten empirischen Regeln für die Skalierung des Aufgabenhorizonts bei Frontier-Modellen.

⚖️ Regulierung (1)

🤝 Agenten (3)

🟡 🤝 Agenten 5. Mai 2026 · 3 Min. Lesezeit

ArXiv GUI-SD: Erstes On-Policy-Self-Distillation-Framework für GUI-Grounding übertrifft GRPO auf sechs Benchmarks in Genauigkeit und Trainingseffizienz

Redaktionelle Illustration: Lehrer-Schüler-Dynamik mit privilegiertem visuellem Kontext eines GUI-Elements, Symbolik für Self-Distillation

Yan Zhang, Daiqing Wu und Huawen Shen präsentierten GUI-SD — das erste On-Policy-Self-Distillation-Framework (OPSD) speziell für GUI-Grounding, die Fähigkeit von KI-Agenten, natürlichsprachliche Anweisungen auf visuelle Koordinaten von Interface-Elementen abzubilden. Das System nutzt privilegierten visuellen Kontext (Bounding Box und Gaussian Soft Mask) und Entropy-gesteuerte Destillation. Auf sechs repräsentativen GUI-Grounding-Benchmarks übertrifft GUI-SD durchgehend GRPO-basierte RL-Methoden.

🟡 🤝 Agenten 5. Mai 2026 · 2 Min. Lesezeit

AWS Bedrock AgentCore Optimization in der Vorschau: automatisierte Schleife von Produktions-Traces bis A/B-Tests via OpenTelemetry

Redaktionelle Illustration: geschlossene Schleife aus Produktion, Evaluierung und A/B-Testing rund um einen KI-Agenten, Symbolik für Optimierung

AWS stellte am 4. Mai 2026 AgentCore Optimization in der Vorschau vor — eine automatisierte Schleife, die aus Produktions-Traces konkrete Empfehlungen für System-Prompts und Tool-Beschreibungen ableitet, Batch-Evaluierungen gegen ein Testset durchführt und A/B-Tests mit statistischer Signifikanz ermöglicht. Das System erfasst OpenTelemetry-kompatible Traces jedes Modellaufrufs, Tool-Aufrufs und Schlussfolgerungsschritts und ersetzt manuelles Prompt-Raten durch einen strukturierten, auf Produktionsdaten basierenden Zyklus.

🟡 🤝 Agenten 5. Mai 2026 · 3 Min. Lesezeit

AWS SageMaker AI erhält agentische Fine-Tuning-Workflows mit 9 integrierten Skills und Kiro- und Claude-Code-Integration

Editorial-Illustration: futuristischer Roboterarm, umgeben von 9 Modulen und einem Chip-Netzwerk

Amazon startete am 4. Mai 2026 agenten-gestützte Workflows in SageMaker AI mit 9 integrierten Skill-Agenten, die den gesamten Modell-Anpassungslebenszyklus abdecken — von der Use-Case-Spezifikation bis zum Deployment. Das System unterstützt SFT, DPO und RLVR, integriert sich mit Kiro (Standard) und Claude Code in JupyterLab und verspricht, Monate spezialisierter ML-Arbeit auf Tage zu reduzieren.

🔧 Hardware (1)

🏥 In der Praxis (2)

💬 Community (2)

🛡️ Sicherheit (2)

← Vorheriger Tag Nächster Tag →