Dienstag, 12. Mai 2026

14 Nachrichten — 🟡 11 wichtig , 🟢 3 interessant

← Vorheriger Tag Nächster Tag →

🤖 Modelle (2)

🤝 Agenten (4)

🟡 🤝 Agenten 12. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.10344: TMAS — Multi-Agenten-Test-Time-Scaling stellt neue Rekorde bei Reasoning-Benchmarks auf

Editorial illustration: multiple AI agent nodes connected in collaborative network with hierarchical memory banks, glowing reasoning paths.

TMAS (Test-time Multi-Agent Scaling) ist ein neuer Ansatz für Test-Time-Compute-Scaling, der LLM-Inferenz als Kollaboration zwischen spezialisierten Agenten mit hierarchischen Gedächtnisbanken organisiert. Die Autoren (UC Berkeley + DeepMind) zeigen, dass alle bestehenden Baseline-Methoden (Best-of-N, MCTS, AutoTTS) auf MATH-500, AIME 2024, HumanEval und GPQA Diamond beim gleichen Compute-Budget übertroffen werden. Reasoning, Retrieval und Verifikation werden in einer einzigen Pipeline kombiniert.

🟡 🤝 Agenten 12. Mai 2026 · 3 Min. Lesezeit

AWS: Strands Agents SDK + Exa-Integration ermöglicht Agenten autonome Websuche ohne eigene Crawler

Editorial illustration: open-source SDK agent connecting to AI-native search engine, abstract data flows representing autonomous web queries.

AWS Strands Agents SDK ist ein Open-Source-Framework für autonome KI-Agenten, das eine tiefe Integration mit Exa erhalten hat — einer KI-nativen Suchmaschine, die das Web auf semantischer Ebene indiziert. Ein Agent kann nun autonom entscheiden, wann er das Web durchsucht, Berichte aus mehreren Quellen synthetisiert und Daten zitiert — ohne eigene Crawler-Infrastruktur. Die Integration vereinfacht den Aufbau webfähiger Agenten auf etwa ein Dutzend Codezeilen.

🟡 🤝 Agenten 12. Mai 2026 · 2 Min. Lesezeit

Microsoft Research: SocialReasoning-Bench zeigt, dass KI-Agenten Aufgaben erledigen, aber Nutzerinteressen nicht verteidigen

Editorial illustration: SocialReasoning-Bench zeigt, dass KI-Agenten Aufgaben erledigen, aber Nutzerinteressen nicht verteidigen

SocialReasoning-Bench ist ein neuer Microsoft-Research-Benchmark, der misst, ob ein KI-Agent die tatsächlichen Interessen des Nutzers während Verhandlungen mit anderen Parteien vertritt — nicht nur, ob er die Aufgabe abschließt. Die Ergebnisse zeigen, dass Modelle Deals nahezu perfekt abschließen, aber konsequent Wert liegen lassen, mit mehr als 90 % ineffektiven oder fahrlässigen Ergebnissen in Marktplatz-Szenarien.

🟢 🤝 Agenten 12. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.07313: Agenten-Speicher skaliert nicht — HippoRAG verliert 16–20 Prozentpunkte Zuverlässigkeit bei wachsenden irrelevanten Sitzungen

Editorial illustration: 2605.07313: Agenten-Speicher skaliert nicht — HippoRAG verliert 16–20 PP Zuverlässigkeit bei wachsenden irrelevanten Sitzungen

arXiv:2605.07313 ist ein skalierungsbedingtes Evaluierungsprotokoll, das testet, ob Agenten-Speichersysteme funktionsfähig bleiben, während sich irrelevante Daten ansammeln. HippoRAG verliert 16–20 Prozentpunkte budgetkonforme Zuverlässigkeit, während LiCoMemory je nach Modellgröße variiert. Die Autoren (Shao, Lu, Zhang, Luo) schlussfolgern, dass Zuverlässigkeitsverluste kein Einzelphänomen sind.

🔧 Hardware (2)

🏥 In der Praxis (3)

🟡 🏥 In der Praxis 12. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Code v2.1.139 — Agent View zeigt alle Sitzungen + /goal-Befehl für autonomen Abschluss

Editorial illustration: Claude Code v2.1.139 — Agent View zeigt alle Sitzungen + /goal-Befehl für autonomen Abschluss

Claude Code v2.1.139 ist eine Veröffentlichung von Anthropics CLI-Agent, die Agent View im Research-Preview-Status einführt — eine einheitliche Liste aller Sitzungen (aktiv, blockiert, abgeschlossen) — sowie den /goal-Befehl, der Claude über mehrere Züge arbeiten lässt, bis eine gesetzte Bedingung erfüllt ist, mit einem Panel für verstrichene Zeit, Schrittanzahl und Token-Verbrauch.

🟡 🏥 In der Praxis 12. Mai 2026 · 3 Min. Lesezeit

IBM: Red Hat AI Inference und OpenShift Virtualization Service als verwaltete Produkte auf IBM Cloud angekündigt

Editorial illustration: enterprise cloud infrastructure with red and blue glow, abstract servers running inference workloads, hybrid VM and container orchestration.

IBM hat heute den Red Hat AI Inference Service und den Red Hat OpenShift Virtualization Service als verwaltete Enterprise-Produkte auf IBM Cloud angekündigt. Ersterer bietet eine optimierte Serving-Umgebung für Open-Source-LLMs (Granite, Llama, Mistral) mit automatischer Skalierung und SLA-Garantien; letzterer ermöglicht den Betrieb von VMs und Containern in derselben OpenShift-Steuerungsebene. Ziel: den Betriebsaufwand für Enterprise-Teams zu reduzieren, die Open-Source-KI ohne eigene Kubernetes-Infrastruktur nutzen möchten.

🟡 🏥 In der Praxis 12. Mai 2026 · 3 Min. Lesezeit

OpenAI: DeployCo — neue eigenständige Organisation für Enterprise-KI-Deployment zusammen mit Q1-2026-Ergebnissen angekündigt

Editorial illustration: enterprise consulting handshake with abstract AI infrastructure pipelines, deployment lifecycle visualization.

OpenAI hat am Dienstag DeployCo (The Deployment Company) gestartet — eine eigenständige Organisation, die Unternehmen beim Aufbau und der Skalierung von KI-Anwendungen in der Produktion unterstützt. Ziel ist die Trennung von Foundation-Model-F&E und Enterprise-Deployment-Consulting, das bisher im selben OpenAI-Team operierte und operative Spannungen erzeugte. DeployCo bietet verwaltetes Deployment, individuelle Evaluierung, Post-Launch-Monitoring und branchenspezifisches Fine-Tuning.

💬 Community (2)

🛡️ Sicherheit (1)

← Vorheriger Tag Nächster Tag →