🤝 Agenten

145 Nachrichten

🔴 🤝 Agenten 23. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.22502: Kompilierung agentischer Workflows in LLM-Gewichte liefert Near-Frontier-Qualität bei 100× niedrigeren Kosten

Editorial-Illustration: Workflow-Knoten kollabieren in einen kompakten neuronalen Netzkern

Forscher zeigten, dass komplexe agentische Workflows direkt in die Gewichte eines kleineren feinabgestimmten Modells kodiert werden können, statt in externe Orchestrierung wie LangChain oder LangGraph. Der Ansatz erreicht Near-Frontier-Qualität bei 100× niedrigeren Inferenzkosten in drei realen Szenarien: Reisebuchung, Zoom-Support und Versicherung, mit Workflows von 14 bis 55 Knoten.

🔴 🤝 Agenten 23. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.22794: MOSS zeigt Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern

Editorial-Illustration: KI-Agent schreibt seinen eigenen Quellcode in einer Sandbox-Schleife um

Forscher präsentierten MOSS, ein Framework für autonome Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern — nicht nur durch Prompt- oder Fine-Tuning-Anpassungen. Auf dem OpenClaw-Benchmark steigert ein einziger MOSS-Selbstevolutionszyklus den Score ohne menschliche Eingriffe von 0,25 auf 0,61 und zeigt, dass Agenten Routing, Hooks und Dispatch-Logik reparieren können, die textbasierte Methoden nicht erreichen.

🟡 🤝 Agenten 23. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.22535: TerminalWorld-Benchmark misst KI-Agenten auf echten Linux-Terminal-Aufgaben ohne Simulation

Redaktionelle Illustration: Terminal-Prompt mit Git- und Bash-Befehlen und einem KI-Agenten, der sie ausführt

TerminalWorld ist ein neuer Benchmark, der KI-Agenten auf echten Bash-, Git- und Dateioperationen in realen Linux-Prozessen evaluiert — ohne Simulation. Das von Zhaoyang Chu und Jiarui Hu geführte Acht-Autoren-Papier setzt einen neuen Maßstab für „Computer-Use”-Agenten und ist direkt relevant für Tools wie Claude Code, GitHub Copilot Workspace und den Agentenmodus von Cursor.

🟡 🤝 Agenten 23. Mai 2026 · 2 Min. Lesezeit

Anthropic Claude Code v2.1.149 bringt kategorienweise /usage-Aufschlüsselung und schließt PowerShell-Permission-Bypass

Editorial-Illustration: Terminal mit Nutzungsdiagramm und Sicherheitsschild

Anthropic veröffentlichte Claude Code CLI v2.1.149, das den /usage-Befehl mit Kostenaufschlüsselung nach Kategorien (Skills, Subagents, Plugins, je MCP-Server) erweitert. Das Release schließt zwei Sicherheitslücken: einen PowerShell-Permission-Bypass über Built-in-Funktionen und eine fehlerhafte Allowlist für die Git-Worktree-Sandbox. Hinzugekommen ist die Enterprise-Einstellung allowAllClaudeAiMcps für Cloud-MCP-Konnektoren.

🔴 🤝 Agenten 22. Mai 2026 · 3 Min. Lesezeit

Microsoft Research: MagenticLite + Fara1.5 (4B/9B/27B) — agentische KI für kleine Modelle erreicht SOTA

Editorial illustration: MagenticLite + Fara1.5 (4B/9B/27B) — agentische KI für kleine Modelle erreicht SOTA

Microsoft Research veröffentlichte am 21. Mai 2026 ein Trio für agentische KI mit kleinen Modellen: MagenticLite (eine Browser- und Filesystem-UI-Anwendung), MagenticBrain (ein 14B-Orchestrierungsmodell, fine-tuned aus Qwen 3 14B) und Fara1.5 (ein Computer-Use-Modell in 4B-, 9B- und 27B-Varianten). Fara1.5-27B erreicht über 90 % des SOTA auf dem Online-Mind2Web-Benchmark (300 Web-Aufgaben) — fast doppelt so gut wie das frühere Fara-7B. Ziel ist zu zeigen, dass agentische KI keine riesigen Modelle braucht, sondern gut co-designte Tools und einen Harness.

🟡 🤝 Agenten 22. Mai 2026 · 3 Min. Lesezeit

AWS: Nova Act erhält HIPAA-Eligibility — agentische ePHI-Automatisierung für Gesundheits-Workflows

Editorial illustration: Nova Act erhält HIPAA-Eligibility — agentische ePHI-Automatisierung für Gesundheits-Workflows

AWS gab am 21. Mai 2026 bekannt, dass Amazon Nova Act, der agentische KI-Dienst zur Automatisierung von Browser- und UI-Workflows, den formalen HIPAA-eligible-Status erhalten hat. Gesundheitsorganisationen können Nova Act nun für die Verarbeitung geschützter Gesundheitsinformationen (ePHI) nutzen — für Prior Authorization, Versicherungsverifizierung und die Einreichung von Überweisungen über Anbieter-Webportale. Der Dienst integriert sich in Amazon Bedrock AgentCore und das Strand Agents-Framework, erfordert einen unterzeichneten BAA-Vertrag und AWS KMS-Verschlüsselung und ist derzeit nur in der Region US East (N. Virginia) verfügbar.

🟡 🤝 Agenten 22. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Code v2.1.147 führt Workflow-Tool für deterministisches Multi-Agent-Orchestrierung ein

Editorial illustration: Claude Code v2.1.147 führt Workflow-Tool für deterministisches Multi-Agent-Orchestrierung ein

Anthropic veröffentlichte Claude Code v2.1.147 am 21. Mai 2026 um 20:39 UTC — eine neue CLI-Version mit dem Workflow-Tool, dem ersten deterministischen Multi-Agent-Orchestrierungsmechanismus im Claude-Code-Ökosystem. Das Tool ist standardmäßig deaktiviert und wird über die Umgebungsvariable CLAUDE_CODE_WORKFLOWS=1 aktiviert. Dieselbe Version benennt den bestehenden /simplify-Befehl in /code-review um (mit Aufwandsstufen high/medium/low) und fügt Sandbox-Hardening gegen Prototype-Pollution- und Thenable-basierte Escape-Angriffe hinzu.

🟡 🤝 Agenten 22. Mai 2026 · 3 Min. Lesezeit

LangChain: Von Token-Streams zu Agent-Streams — typisierte Kanäle ersetzen klassisches Streaming für Multi-Agent-UIs

Editorial illustration: Von Token-Streams zu Agent-Streams — typisierte Kanäle ersetzen klassisches Streaming für Multi-Agent-UIs

LangChain veröffentlichte am 21. Mai 2026 einen Beitrag der Autoren Christian Bromann und Nick Hollon, der eine paradigmatische Evolution von Token-Streams zu strukturierten Agent-Streams beschreibt. Moderne KI-Agenten planen Aufgaben, delegieren an Sub-Agenten, rufen Tools auf und pausieren für menschliche Überprüfung — klassisches Token-Streaming reicht zur Darstellung dieser Arbeit nicht aus. LangChain schlägt typisierte Kanäle vor, die Nachrichten, Tool-Aufrufe, Zustandsänderungen, Sub-Agenten-Aktivität und benutzerdefinierte Ereignisse übertragen. Anwendungen abonnieren nur relevante Ereignistypen für eine effiziente UI bei langläufigen Workloads.

🟡 🤝 Agenten 22. Mai 2026 · 3 Min. Lesezeit

OpenAI: Codex-Skalierung auf Enterprise — 4 Millionen wöchentlich aktive Nutzer und das Codex Labs-Programm

Editorial illustration: Codex-Skalierung auf Enterprise — 4 Millionen wöchentlich aktive Nutzer und das Codex Labs-Programm

OpenAI gab am 21. Mai 2026 die Enterprise-Skalierung der Codex-Plattform bekannt — des agentischen Coding-Tools, das 4 Millionen wöchentlich aktive Nutzer erreicht hat. Angekündigt wurden das neue Codex Labs-Programm und Partnerschaften mit großen Beratungsunternehmen, die großen Unternehmen bei der Implementierung und Skalierung von Codex helfen sollen. Die Nachricht markiert einen formalen Enterprise-Go-to-Market-Schritt, der Codex als direkten Konkurrenten zu GitHub Copilot im mittleren und oberen Marktsegment positioniert.

🟡 🤝 Agenten 21. Mai 2026 · 2 Min. Lesezeit

Anthropic: MCP Tunnels und Self-hosted Sandboxes für Claude Managed Agents

Redaktionelle Illustration: Anthropic MCP Tunnels für private Netzwerke und Self-hosted Sandboxes für Claude Managed Agents

Anthropic stellte am 19. Mai 2026 MCP Tunnels in der Research Preview vor — eine Funktion, die Claude-Agenten die Verbindung zu MCP-Servern im privaten Netzwerk des Nutzers ermöglicht — sowie Self-hosted Sandboxes als Alternative zur Anthropic-Infrastruktur. Neu sind auch dynamische MCP-Konfigurationsänderungen in aktiven Sitzungen und automatisches Auslagern von Ausgaben über 100.000 Token in eine Sandbox-Datei.

🟡 🤝 Agenten 21. Mai 2026 · 2 Min. Lesezeit

Google DeepMind: Co-Scientist Multi-Agent-KI-Partner für die Wissenschaft

Redaktionelle Illustration: Google DeepMind Co-Scientist Multi-Agent-KI-Partner zur Beschleunigung wissenschaftlicher Forschung

Google DeepMind stellte am 19. Mai 2026 Co-Scientist vor — ein Gemini-basiertes Multi-Agent-KI-System, das wissenschaftliche Hypothesen mit 6 spezialisierten Agenten in einem „Tournament of Ideas" generiert, diskutiert und verfeinert. Das System entstand in Zusammenarbeit mit über 100 Forschungsinstitutionen und lieferte bereits konkrete Ergebnisse zu Leberfibrose, ALS, Zellalterung und Infektionskrankheiten.

🟡 🤝 Agenten 21. Mai 2026 · 2 Min. Lesezeit

Google: I/O 2026 Runde 2 — Antigravity 2.0, Gemini Spark und Universal Cart

Redaktionelle Illustration: Google I/O 2026 zweite Welle — Antigravity 2.0, Gemini Spark und Universal Cart festigen Agent-First-Strategie

Google stellte auf der I/O 2026 die zweite Welle großer KI-Launches vor — Antigravity 2.0 als Agent-First-Entwicklungsplattform mit CLI und SDK, Gemini Spark als dauerhaften persönlichen KI-Agenten im Hintergrund auf dem Gerät und Universal Cart als KI-Shopping-Assistenten über alle Google-Dienste. Das Trio folgt auf Gemini 3.5 Flash und Omni und festigt Googles Agent-First-Strategie.

🟡 🤝 Agenten 21. Mai 2026 · 2 Min. Lesezeit

LangChain: Deep Agents erhalten QuickJS-Interpreter für Code zwischen Tool-Aufrufen

Redaktionelle Illustration: LangChain Deep Agents mit QuickJS-Interpretern, die Zustand zwischen Tool-Aufrufen bewahren und Token-Verbrauch senken

LangChain führte am 20. Mai 2026 Interpreter ein — eingebettete QuickJS-Laufzeitumgebungen im Deep-Agents-Framework, die Agenten ermöglichen, Code zwischen LLM-Tool-Aufrufen zu schreiben und auszuführen, ohne den Zustand in die Nachrichtenhistorie zu serialisieren. Das Unternehmen behauptet bis zu 35 Prozent weniger Token-Verbrauch, da der Zustand im Runtime statt im Modellkontext gespeichert wird.

🟡 🤝 Agenten 20. Mai 2026 · 2 Min. Lesezeit

Anthropic Claude Code: Skripting laufender Sitzungen und Sicherheitsfixes in v2.1.145

Anthropic Claude Code v2.1.145 bringt JSON-Ausgabe laufender Sitzungen für das Skripting, erweiterte OTEL-Trace-Attribute zur Agenten-Verfolgung sowie Korrekturen einer Sicherheitslücke bei der Genehmigung von Bash-Befehlen.

🟡 🤝 Agenten 20. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude für 276.000 KPMG-Mitarbeiter in 138 Ländern

Editorial illustration: Anthropic und KPMG haben eine strategische globale Allianz geschlossen

Anthropic und KPMG haben eine strategische globale Allianz geschlossen, durch die Claude Zugang zu allen Mitarbeitern einer der vier größten Wirtschaftsprüfungsgesellschaften der Welt erhält. Claude wird in KPMGs Digital Gateway integriert; KPMG wird Anthropics bevorzugter Partner für den Private-Equity-Sektor.

🟡 🤝 Agenten 20. Mai 2026 · 2 Min. Lesezeit

AWS: Drei Architekturmuster für skalierbare Sprachagenten mit Amazon Nova Sonic

AWS hat einen detaillierten Leitfaden für skalierbare Sprachagenten mit Amazon Nova Sonic und AgentCore Gateway veröffentlicht. Drei klare Muster — direkte Tools, Sub-Agenten und Session-Segmentierung — bieten unterschiedliche Kompromisse zwischen Latenz und Komplexität.

🟡 🤝 Agenten 20. Mai 2026 · 2 Min. Lesezeit

GitHub Copilot erhält Gemini 3.5 Flash: Geschwindigkeit und Qualität für den Alltag

Editorial illustration: Googles Gemini 3.5 Flash wird für alle GitHub-Copilot-Pläne allgemein verfügbar

Googles Gemini 3.5 Flash ist nun für alle GitHub-Copilot-Pläne allgemein verfügbar. Das Modell verspricht nahezu Pro-Niveau-Qualität bei Flash-Tier-Geschwindigkeit und niedrigeren Kosten — mit Schwerpunkt auf agentischen Workflows und mehreren IDE-Umgebungen.

🟢 🤝 Agenten 20. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.18703: EnvFactory – RL-Training von Tool-Use-Agenten mit 5× weniger Umgebungen

EnvFactory ist ein neues Framework zur automatischen Synthese ausführbarer Trainingsumgebungen für Tool-Use-KI-Agenten. Mit nur 85 verifizierten Umgebungen in 7 Domänen erzielt es +15 % auf BFCLv3 und +8,6 % auf MCP-Atlas — rund 5× effizienter als vergleichbare Ansätze.

🟢 🤝 Agenten 20. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.18565: LongMINT — warum KI-Agenten alles vergessen, was man ihnen sagt

Forscher der University of North Carolina haben LongMINT veröffentlicht — den ersten Benchmark, der systematisch misst, wie schlecht KI-Agenten in langen, dynamischen Szenarien mit Gedächtnis umgehen. Die durchschnittliche Genauigkeit beträgt nur 27,9 % — in vielen Fällen schlechter als Zufallsraten.

🟢 🤝 Agenten 20. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.20173: 6 Architekturmuster für LLM-Agenten in der Produktion

Editorial illustration: Neues arXiv-Paper führt die stochastic-deterministic boundary als Designprinzip für LLM-Agenten in der Produktion ein

Ein neues arXiv-Paper führt die stochastic-deterministic boundary als grundlegendes Designprinzip für produktive LLM-Agenten ein und definiert 6 kombinierbare Runtime-Muster — von hierarchischer Delegation bis Human-in-the-Loop — die nach drei Architekturaspekten ausgewählt werden: Koordination, Zustand und Kontrolle.

🔴 🤝 Agenten 19. Mai 2026 · 3 Min. Lesezeit

Anthropic: Übernahme von Stainless integriert MCP-Server-Tooling und SDK-Entwicklung direkt in die Claude-Plattform

Editorial illustration: Anthropic übernahm am 18. Mai 2026 Stainless, ein 2022 gegründetes Unternehmen hinter allen offiziellen Anthropic-SDKs

Anthropic hat am 18. Mai 2026 Stainless übernommen, ein 2022 gegründetes Unternehmen hinter allen offiziellen Anthropic-SDKs und dem MCP-Server-Tooling. Stainless entwickelt SDKs für Hunderte von Unternehmen; die Akquisition zielt auf eine bessere Integration der Claude-Agenten mit externen Daten und Tools ab.

🔴 🤝 Agenten 19. Mai 2026 · 3 Min. Lesezeit

Anthropic: MCP Tunnels, Self-Hosted Sandboxes und automatisches File-Spill für Agenten

Editorial illustration: Anthropic stellt drei wichtige Claude-API-Updates für Agenten-Entwickler vor: MCP Tunnels für private Netzwerke

Anthropic hat drei wichtige Updates für die Claude-API-Plattform eingeführt: MCP Tunnels für die Verbindung mit privaten Netzwerken ohne Internet-Exposition, Self-Hosted Sandboxes als Alternative zur Anthropic-Infrastruktur und automatisches File-Spill für Tool-Outputs über 100K Token.

🟡 🤝 Agenten 19. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.18661: KI für automatisierte Forschung — Roadmap und Anwenderhandbuch

Editorial illustration: arXiv-Paper 2605.18661 von NUS- und NTU-Forschern analysiert Systeme zur autonomen Forschungspaper-Generierung

arXiv-Paper 2605.18661 von Forschern der NUS und NTU analysiert Systeme, die für nur 15 Dollar autonom Forschungsarbeiten generieren. Zentraler Befund: Frontier-LLMs fälschen Ergebnisse und können die Neuartigkeit von Ideen nicht zuverlässig beurteilen. Eine umfassende Roadmap definiert die Grenze zwischen zuverlässiger Assistenz und unsicherer KI-Autonomie.

🟡 🤝 Agenten 19. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.16233: FORGE — KI-Agenten entwickeln gemeinsames Gedächtnis ohne Fine-Tuning

Editorial illustration: arXiv:2605.16233 präsentiert FORGE — KI-Agenten bauen gemeinsames Gedächtnis durch populationsbasiertes Erfahrungsaustausch auf

arXiv:2605.16233 präsentiert FORGE, eine Methode, mit der LLM-Agenten durch populationsbasiertes Erfahrungsaustausch ein gemeinsames Gedächtnis aufbauen — ohne jegliche Aktualisierung der Modellgewichte. Bei der Netzwerkverteidigung CybORG CAGE-2 erzielt FORGE 1,7–7,7× bessere Ergebnisse als die Null-Baseline, besonders bei schwächeren Modellen.

🟡 🤝 Agenten 19. Mai 2026 · 2 Min. Lesezeit

Anthropic Claude Code: v2.1.144 bringt /resume für Background-Sitzungen und Fix für 75-Sekunden-Hang

Editorial illustration: Claude Code CLI v2.1.144 mit /resume-Unterstützung für Background-Sitzungen mit Laufzeitanzeige

Claude Code CLI v2.1.144 führt /resume-Unterstützung für Background-Sitzungen mit Laufzeitanzeige wie „Agent completed · 3h 2m 5s” ein, behebt den 75-Sekunden-Hang bei unerreichbarer API, löst einen MCP-tools/list-Paginierungs-Bug, der Tools lautlos verlor, und liefert zahlreiche Terminal- und MCP-Fixes.

🟡 🤝 Agenten 19. Mai 2026 · 2 Min. Lesezeit

GitHub: Copilot-CLI-Fernsteuerung jetzt allgemein verfügbar auf allen Plattformen

Editorial illustration: GitHub gab die allgemeine Verfügbarkeit der Fernsteuerungsfunktion für GitHub Copilot CLI bekannt

GitHub gab die allgemeine Verfügbarkeit (GA) der Fernsteuerungsfunktion für GitHub Copilot CLI bekannt. Mit dem Befehl /remote on kann ein Entwickler eine aktive Terminalsitzung von einem Mobilgerät, Web, VS Code oder JetBrains IDE aus überwachen und steuern — ohne den Arbeitsfluss zu unterbrechen.

🟢 🤝 Agenten 19. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.18747: Code als operatives Substrat — ein neues KI-Agenten-Paradigma

Editorial illustration: 41 Forscher von UIUC und NVIDIA — Code als Agent Harness, operatives Substrat für KI-Agenten

41 Forscher von UIUC und NVIDIA argumentieren, dass Code nicht nur ein LLM-Output ist, sondern ein Agent Harness — ein operatives Substrat, das Reasoning, Handeln und Verifikation in einem einheitlichen Rahmen für verlässliche KI-Systeme vereint.

🟢 🤝 Agenten 19. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.16238: LLM-geführte Baumsuche übertrifft CDC bei Epidemieprognosen

Editorial illustration: arXiv:2605.16238 stellt ein autonomes System vor, das LLMs und Tree-Search-Algorithmen zur Vorhersage saisonaler Epidemien kombiniert

arXiv:2605.16238 stellt ein autonomes System vor, das LLMs und Tree-Search-Algorithmen zur Vorhersage saisonaler Epidemien kombiniert. In Echtzeit erstellte es durch die Saison 2025–26 Modelle für Influenza, COVID-19 und RSV, die das Gold-Standard-Ensemble des CDC durchgehend erreichten oder übertrafen.

🟡 🤝 Agenten 18. Mai 2026 · 4 Min. Lesezeit

arXiv:2605.16217 Argus: Evidence-Assembly-Architektur für Deep-Research-Agenten erreicht +12,7 Pkt. mit 8 parallelen Suchern

Editorial illustration: Wissensgraph mit Evidence-Nodes und parallelen Searcher-Agenten um einen zentralen Navigator.

Argus ist ein neues arXiv-Paper vom 15. Mai 2026 von Zhen Zhang, Liangcai Su, Zhuo Chen und Kollegen, das ein Evidence-Assembly-Framework für Deep-Research-Agenten vorstellt. Das System verwendet eine Dual-Agent-Architektur — Searcher (ReAct-Style-Traces) + Navigator (gemeinsamer Evidence-Graph + RL-Synthese) — und erzielt +5,5 Pkt. mit einem einzelnen Searcher, +12,7 Pkt. mit 8 parallelen sowie einen BrowseComp-Score von 86,2 mit 64 parallelen Suchern ohne Kontextüberschreitung.

🟡 🤝 Agenten 18. Mai 2026 · 3 Min. Lesezeit

GitHub Copilot: Grok Code Fast 1 am 15. Mai 2026 abgekündigt; empfohlene Alternativen GPT-5 mini und Claude Haiku 4.5

Editorial illustration: Deprecated-Stempel auf dem xAI-Grok-Icon mit Pfeilen zu GPT-5-mini- und Claude-Haiku-4.5-Logos.

GitHub hat am 15. Mai 2026 die formale Abkündigung des Modells Grok Code Fast 1 über alle Copilot-Erfahrungen hinweg bekannt gegeben (Chat, Inline-Edits, Ask, Agent-Modus, Code-Vervollständigungen). Die Abkündigung erfolgt eine Woche nach der Ankündigung am 8. Mai. Empfohlene Alternativen: GPT-5 mini und Claude Haiku 4.5 — beide über Standard-Modell-Richtlinien verfügbar. Enterprise-Administratoren müssen Alternativen über die Copilot-Einstellungen aktivieren.

🟢 🤝 Agenten 18. Mai 2026 · 3 Min. Lesezeit

Databricks + Veeva Vault CRM: drei spezialisierte KI-Agenten für Life-Sciences-Commercial-Workflows

Editorial illustration: Pharma-Außendienstmitarbeiter mit Tablet und KI-Agenten-Overlay mit Patientendaten-Dashboard.

Databricks gab am 18. Mai 2026 eine Partnerschaft mit Veeva Systems bekannt, die Genie-KI-Agenten direkt in Vault-CRM-Workflows für die Life-Sciences-Industrie integriert. Drei spezialisierte Agenten-Personas — Sales Rep Agent, Medical Science Liaison (MSL) Agent und Territory Manager Agent — greifen über Unity Catalog Governance auf den Databricks Lakehouse zu. Die Ankündigung kommt vor dem Veeva Commercial Summit in Boston (19.–20. Mai 2026).

🟡 🤝 Agenten 16. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Code v2.1.143 — 5. Patch diese Woche, Plugin-Dependency-Enforcement und Projected Context Cost im Marketplace

Redaktionelle Illustration: Claude Code Plugin-Marketplace mit Token-Kosten-Symbolen und Dependency-Graphen.

Claude Code v2.1.143 ist die neue Version des Anthropic-CLI-Agenten, veröffentlicht am 15. Mai 2026. Der fünfte Patch diese Woche nach v2.1.139, v2.1.140, v2.1.141 und v2.1.142. Er bringt Plugin-Dependency-Enforcement mit Disable-Chain-Hinweisen, die Anzeige der Projected Context Cost im Plugin-Marketplace (Token-Schätzungen pro Turn und pro Invocation), eine neue worktree.bgIsolation-Einstellung, den automatischen PowerShell-Flag -ExecutionPolicy Bypass sowie Hintergrundsitzungen, die Modell und Aufwand nach dem Idle-Wake beibehalten.

🟡 🤝 Agenten 16. Mai 2026 · 3 Min. Lesezeit

GitHub: Accessibility Agent prüfte 3.535 PRs mit 68 % Lösungsrate und deckte LLM-Bias gegenüber Accessibility-Antipatterns auf

Redaktionelle Illustration: Accessibility-Symbole (Screenreader, Tastatur) mit GitHub-PR-Review-Darstellung.

Der GitHub Accessibility Agent ist eine neue allgemeine Accessibility-Automatisierungs-Fallstudie, die am 15. Mai 2026 veröffentlicht wurde. Der Agent prüfte 3.535 Pull Requests mit einer Lösungsrate von 68 % und deckte einen erheblichen Bias auf: LLMs neigen dazu, Accessibility-Antipatterns zu produzieren, weil sie auf jahrzehntelangem, nicht barrierefreiem Code trainiert wurden. GitHub verwendet eine sequenzielle Reviewer-und-Implementer-Architektur (zweistufiges Modell) statt paralleler Sub-Agenten — dies reduzierte den Token-Verbrauch und verbesserte die Genauigkeit.

🟢 🤝 Agenten 16. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.14892 Survey: LIFE-Progression (Lay, Integrate, Find, Evolve) für LLM-Multi-Agent-Systeme

Redaktionelle Illustration: Multi-Agent-System mit LIFE-Stadien und agentenübergreifenden Verbindungen.

Der LIFE-Progression-Survey ist ein umfassender Überblick über Multi-Agent-LLM-Systeme, veröffentlicht am 15. Mai 2026 auf arXiv von Shihao Qi, Jie Ma, Rui Xing, Wei Guo und 14 Ko-Autoren. Der Survey organisiert das Fachgebiet durch vier kausal verbundene Stadien — Lay (individuelle Fähigkeiten), Integrate (Agenten-Kollaboration), Find (Fehlerattribution) und Evolve (autonome Verbesserung). Die zentrale These: Fehlerfortpflanzung über Agenten hinweg erzeugt Fehler, die selten in strukturelle Selbstverbesserung übersetzt werden.

🟡 🤝 Agenten 15. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Code v2.1.142 — Fast Mode wechselt zu Opus 4.7 als Standard, neue --add-dir- und --mcp-config-Flags für Hintergrundsitzungen

Editorial illustration: Claude Code terminal mit Hintergrund-Agent-Sitzungen und Flag-Auflistung.

Claude Code v2.1.142 ist die neue Version des Anthropic-CLI-Agenten, veröffentlicht am 14. Mai 2026. Der vierte Patch dieser Woche nach v2.1.139, v2.1.140 und v2.1.141. Er ergänzt acht neue Flags für claude agents-Hintergrundsitzungen (--add-dir, --settings, --mcp-config, --plugin-dir, --permission-mode, --model, --effort, --dangerously-skip-permissions). Der Fast-Mode-Standard ist nun Opus 4.7 (zuvor Opus 4.6). Behebt KI-Tool-Timeouts, Git-Worktree-Erkennung, macOS-Sleep-Daemon und Windows-Netzlaufwerk-Deadlock.

🟡 🤝 Agenten 15. Mai 2026 · 3 Min. Lesezeit

GitHub: Copilot App in der Technical Preview — Eigenständiger GitHub-nativer Desktop-Agent mit isolierten Sitzungen und Agent Merge

Redaktionelle Illustration: Desktop-App mit Git-Branch-Grafik und Agent-Merge-Ablauf.

GitHub Copilot App ist eine neue eigenständige GitHub-native Desktop-Anwendung in der Technical Preview, die am 14. Mai 2026 angekündigt wurde. Sie unterscheidet sich vom IDE-Plugin dadurch, dass sie isolierte Sitzungen pro Aufgabe bereitstellt — jede mit eigenem Branch, eigenen Dateien, Gesprächszustand und Aufgabenzustand. Die Agent-Merge-Funktionalität adressiert Review-Kommentare autonom, behebt fehlgeschlagene Prüfungen und führt den Merge durch, sobald die Bedingungen erfüllt sind. Verfügbar für Copilot Pro/Pro+ über Early Access und Business/Enterprise über einen Rollout.

🟢 🤝 Agenten 15. Mai 2026 · 2 Min. Lesezeit

OpenAI: Codex from Anywhere — Mobiler und Web-Rollout des Coding-Agenten mit Echtzeit-Monitoring und Steuerungskontrollen

Redaktionelle Illustration: Smartphone mit Codex-CLI-Symbol und Remote-Development-Stream.

OpenAI Codex from Anywhere ist eine neue mobile und Web-Rollout-Phase des Coding-Agenten, die am 14. Mai 2026 angekündigt wurde. Entwickler können Coding-Aufgaben in Echtzeit über die ChatGPT-Mobile-App auf Smartphones und Tablets überwachen, steuern und genehmigen. Der Rollout erweitert OpenAI Codex aus dem Windows Sandbox (13. Mai) und dem Codex-CLI-Deployment auf heterogene Rechenumgebungen und vollendet OpenAIs plattformübergreifende Strategie.

🟡 🤝 Agenten 14. Mai 2026 · 2 Min. Lesezeit

Amazon Nova Sonic + WebRTC: Echtzeit-Sprachagenten mit Kinesis Video Streams und asynchronem Tool Calling für RAG/MCP

Redaktionelle Illustration: Sprachagent mit WebRTC-Fluss und Tool-Calling-Pfeilen zu Cloud-Systemen.

Amazon Nova Sonic + WebRTC-Integration ist eine neue AWS-Architektur, veröffentlicht am 13. Mai 2026, für Echtzeit-Sprachagentenanwendungen. Ein Speech-to-Speech-Ereignisprozessor orchestriert Medien- und Textdatenereignisse über Kinesis Video Streams WebRTC-Signaling, während server-seitiges VAD Audio-Tokens reduziert. Nova Sonic unterstützt asynchrones Tool Calling an MCP-Server, Strands-Agenten und RAG-Systeme — IoT- und Connected-Vehicle-Szenarien sind die ersten Demonstrationen.

🟡 🤝 Agenten 14. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Code v2.1.141 fügt terminalSequence-Hook, Bedrock-Haiku-Fix und Rewind-Option „Summarize up to here” hinzu

Editorial illustration: Claude Code terminal mit neuen Hook-Icons und Rewind-Steuerelementen.

Claude Code v2.1.141 ist die neue Version des Anthropic-CLI-Agenten, veröffentlicht am 13. Mai 2026. Der dritte Patch dieser Woche ergänzt das terminalSequence-Feld für Hook-JSON-Output, die Umgebungsvariablen CLAUDE_CODE_PLUGIN_PREFER_HTTPS und ANTHROPIC_WORKSPACE_ID, claude agents --cwd Path-Scoping sowie die neue Rewind-Menüoption „Summarize up to here” zur Komprimierung älterer Kontextdaten. Er behebt einen Bedrock/Vertex Haiku-Modell-ID-Race und Daemon-Statusfehler unter Windows.

🟡 🤝 Agenten 14. Mai 2026 · 2 Min. Lesezeit

LangChain: Managed Deep Agents — gehostete Laufzeitumgebung in LangSmith mit Durable Execution und Memory-Schicht

Redaktionelle Illustration: gehostete Agenten-Laufzeitumgebung mit Speicher- und Tool-Schichten in einer Cloud-Umgebung.

Managed Deep Agents ist eine neue gehostete KI-Agenten-Laufzeitumgebung von LangChain, am 13. Mai 2026 in der privaten Beta innerhalb der LangSmith-Plattform veröffentlicht. Der Dienst bietet Durable Execution, persistenten Speicher, integriertes Tooling und umfassende Observability — alle Infrastrukturkomponenten für produktive Deep Agents. Die Agentendefinition verbleibt über AGENTS.md und tools.json im Repository.

🟡 🤝 Agenten 14. Mai 2026 · 2 Min. Lesezeit

OpenAI: Codex-Sandbox für Windows führt kontrollierten Dateisystemzugriff und Netzwerkbeschränkungen für autonome Agenten ein

Redaktionelle Illustration: Codex-Terminal mit Sicherheitsschichten um Dateisystem- und Netzwerkzugriff.

Codex Windows Sandbox ist eine neue OpenAI-Sicherheitsarchitektur, veröffentlicht am 13. Mai 2026, die dem Codex-Agenten eine sichere Ausführung auf Windows ermöglicht. Die Sandbox führt kontrollierten Dateisystemzugriff und Netzwerkbeschränkungen ein, um sichere und effiziente KI-Coding-Agenten zu ermöglichen — Codex wird zum plattformübergreifenden Werkzeug auch für Windows-Entwickler.

🟡 🤝 Agenten 13. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Code v2.1.140 behebt /goal-Hänger, Hot-Reload und Read-Offset-Validierung

Redaktionelle Illustration: Entwickler-Tool-Bildschirm mit Code-Zeilen und Terminal-Prompt-Symbolen.

Claude Code v2.1.140 ist das neue CLI-Agent-Release von Anthropic, veröffentlicht am 12. Mai 2026. Es behebt zehn Fehler, darunter das stille Hängen des /goal-Befehls bei aktivierter disableAllHooks-Einstellung, eine Hot-Reload-Regression bei verlinkten Settings-Dateien, Startprobleme mit Enterprise-Endpoint-Security und die Validierung des Offset-Parameters im Read-Tool. Das Subagent-Typ-Matching akzeptiert jetzt Werte unabhängig von Groß- und Kleinschreibung.

🟡 🤝 Agenten 13. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.12061 SAGE: Self-Evolving Graph-Memory-Engine erreicht 91,6 % Recall@5 auf Natural Questions

Editorial illustration: dynamischer Graph-Speicher mit Knoten und Feedback-Pfeilen.

SAGE ist eine neue selbst-evolvierende Graph-Memory-Engine für LLM-Agenten, veröffentlicht am 12. Mai 2026 auf arXiv von Juntong Wang und Mitarbeitern der Universität. Die Engine nutzt einen Memory-Writer und Memory-Reader (Graph Foundation Model) in einem Feedback-Loop, der sich autonom erweitert und reorganisiert. Zero-Shot-Open-Domain-Retrieval erreicht 82,5/91,6 Recall@2/5 auf Natural Questions, mit Verbesserungen auf LongMemEval- und HaluMem-Halluzinations-Metriken.

🟡 🤝 Agenten 13. Mai 2026 · 2 Min. Lesezeit

Google DeepMind: AI Pointer bringt Gemini-gesteuerte Mausbefehle in Chrome und Googlebook

Redaktionelle Illustration: Mauszeiger mit Glanzstrahlen integriert in ein Browser-Interface.

AI Pointer ist ein neues experimentelles Produkt von Google DeepMind, vorgestellt am 12. Mai 2026, das das Gemini-Modell in einen kontextuellen Mauszeiger integriert. Nutzer können auf ein Element zeigen und einen kurzen Befehl wie „Fix this” oder „Compare these” aussprechen, ohne Inhalte in eine separate Anwendung kopieren zu müssen. Der Feature ist in Chrome sofort verfügbar, Magic Pointer kommt auf das neue Googlebook-Laptop.

🟡 🤝 Agenten 13. Mai 2026 · 2 Min. Lesezeit

NVIDIA: OpenShell + SAP Joule Studio bringen Enterprise-Governance zu autonomen KI-Agenten

Redaktionelle Illustration: Schutzschicht um Enterprise-Datenflüsse mit Policy-Enforcement-Symbolen.

NVIDIA OpenShell + SAP Joule Studio-Integration ist eine neue Enterprise-Agenten-Plattform, auf der SAP-Sapphire-Konferenz am 12. Mai 2026 angekündigt. NVIDIA OpenShell liefert Isolierungs-Runtime und Policy-Enforcement, die SAP Business AI Platform integriert es als Sicherheits-Layer, und Joule Studio bietet eine Agentenentwicklungsumgebung. Der NemoClaw-Referenz-Blueprint ist sofort in Joule Studio verfügbar.

🟢 🤝 Agenten 13. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.11814 MedMemoryBench deckt Memory-Sättigung in medizinischen Agenten auf — 2.000 Sitzungen, 16.000 Turns

Editorial illustration: medizinischer KI-Agent mit Gedächtnisaufzeichnungen und Streaming-Evaluierungsindikatoren.

MedMemoryBench ist der erste Benchmark für Gedächtnismechanismen in personalisierten Healthcare-Agenten, veröffentlicht am 12. Mai 2026 auf arXiv. Ein Team der Universität Zhejiang erstellte rund 2.000 Sitzungen und 16.000 Turns durch eine Human-Agent-Collaborative-Pipeline. Hauptbefund: Mainstream-KI-Architekturen zeigen Memory-Sättigung, bei der ein kontinuierlicher Informationszufluss die Leistung im medizinischen Reasoning verschlechtert.

🟡 🤝 Agenten 12. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.10344: TMAS — Multi-Agenten-Test-Time-Scaling stellt neue Rekorde bei Reasoning-Benchmarks auf

Editorial illustration: multiple AI agent nodes connected in collaborative network with hierarchical memory banks, glowing reasoning paths.

TMAS (Test-time Multi-Agent Scaling) ist ein neuer Ansatz für Test-Time-Compute-Scaling, der LLM-Inferenz als Kollaboration zwischen spezialisierten Agenten mit hierarchischen Gedächtnisbanken organisiert. Die Autoren (UC Berkeley + DeepMind) zeigen, dass alle bestehenden Baseline-Methoden (Best-of-N, MCTS, AutoTTS) auf MATH-500, AIME 2024, HumanEval und GPQA Diamond beim gleichen Compute-Budget übertroffen werden. Reasoning, Retrieval und Verifikation werden in einer einzigen Pipeline kombiniert.

🟡 🤝 Agenten 12. Mai 2026 · 3 Min. Lesezeit

AWS: Strands Agents SDK + Exa-Integration ermöglicht Agenten autonome Websuche ohne eigene Crawler

Editorial illustration: open-source SDK agent connecting to AI-native search engine, abstract data flows representing autonomous web queries.

AWS Strands Agents SDK ist ein Open-Source-Framework für autonome KI-Agenten, das eine tiefe Integration mit Exa erhalten hat — einer KI-nativen Suchmaschine, die das Web auf semantischer Ebene indiziert. Ein Agent kann nun autonom entscheiden, wann er das Web durchsucht, Berichte aus mehreren Quellen synthetisiert und Daten zitiert — ohne eigene Crawler-Infrastruktur. Die Integration vereinfacht den Aufbau webfähiger Agenten auf etwa ein Dutzend Codezeilen.

🟡 🤝 Agenten 12. Mai 2026 · 2 Min. Lesezeit

Microsoft Research: SocialReasoning-Bench zeigt, dass KI-Agenten Aufgaben erledigen, aber Nutzerinteressen nicht verteidigen

Editorial illustration: SocialReasoning-Bench zeigt, dass KI-Agenten Aufgaben erledigen, aber Nutzerinteressen nicht verteidigen

SocialReasoning-Bench ist ein neuer Microsoft-Research-Benchmark, der misst, ob ein KI-Agent die tatsächlichen Interessen des Nutzers während Verhandlungen mit anderen Parteien vertritt — nicht nur, ob er die Aufgabe abschließt. Die Ergebnisse zeigen, dass Modelle Deals nahezu perfekt abschließen, aber konsequent Wert liegen lassen, mit mehr als 90 % ineffektiven oder fahrlässigen Ergebnissen in Marktplatz-Szenarien.

🟢 🤝 Agenten 12. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.07313: Agenten-Speicher skaliert nicht — HippoRAG verliert 16–20 Prozentpunkte Zuverlässigkeit bei wachsenden irrelevanten Sitzungen

Editorial illustration: 2605.07313: Agenten-Speicher skaliert nicht — HippoRAG verliert 16–20 PP Zuverlässigkeit bei wachsenden irrelevanten Sitzungen

arXiv:2605.07313 ist ein skalierungsbedingtes Evaluierungsprotokoll, das testet, ob Agenten-Speichersysteme funktionsfähig bleiben, während sich irrelevante Daten ansammeln. HippoRAG verliert 16–20 Prozentpunkte budgetkonforme Zuverlässigkeit, während LiCoMemory je nach Modellgröße variiert. Die Autoren (Shao, Lu, Zhang, Luo) schlussfolgern, dass Zuverlässigkeitsverluste kein Einzelphänomen sind.

Vollständiges Archiv ansehen →