🤝 Agenten

54 Nachrichten

🟡 🤝 Agenten 27. April 2026 · 3 Min. Lesezeit

arXiv:2604.22748: Survey von 42 Autoren führt Taxonomie ‚levels × laws' für World Models in AI-Agenten ein — Synthese aus über 400 Arbeiten

Abstrakte Kompassfeder, die Schichten von World Models durch physische, digitale, soziale und wissenschaftliche Domänen agentischer Systeme nachverfolgt.

Ein Survey von 42 Autoren mit dem Titel ‚Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond' strukturiert das Forschungsfeld mittels einer zweidimensionalen Taxonomie — drei Fähigkeitsstufen des Modells (Predictor, Simulator, Evolver) und vier Gesetzes-Domänen (physisch, digital, sozial, wissenschaftlich). Die Synthese umfasst über 400 Referenzen und mehr als 100 repräsentative Systeme.

🟡 🤝 Agenten 27. April 2026 · 3 Min. Lesezeit

arXiv:2604.22452: Superminds Test zeigt, dass kollektive Intelligenz in einer Gesellschaft von 2 Millionen AI-Agenten nicht spontan entsteht

Abstrakte Kompassfeder, die seltene und flache Verbindungen zwischen einer Vielzahl von AI-Agenten in einer großen digitalen Gemeinschaft nachzeichnet.

Forscher der Universitäten Melbourne und Maryland stellten den Superminds Test vor, ein hierarchisches Framework zur Messung kollektiver Intelligenz in Agentengesellschaften. Eine Studie auf der MoltBook-Plattform mit über 2 Millionen Agenten zeigte, dass die Gesellschaft individuelle Frontier-Modelle nicht übertrifft und Interaktionen sehr spärlich und oberflächlich bleiben.

🟢 🤝 Agenten 27. April 2026 · 3 Min. Lesezeit

arXiv:2604.21910: Agentic AI automatisiert wissenschaftliche Workflows mit 83 % Genauigkeit, 92 % weniger Datentransfer und $0,001 pro Anfrage

Bartosz Balis und Kollegen der AGH University in Krakau veröffentlichten am 23. April 2026 ein Paper, das natürlichsprachige Forschungsanfragen in ausführbare wissenschaftliche Workflows überführt. Die dreischichtige Architektur (semantische KI-Schicht, deterministischer Generator, Expert-Skills) wurde auf dem 1000-Genomes-Workflow auf Kubernetes getestet — Skills steigerten die Intent-Genauigkeit von 44 % auf 83 %, reduzierten den Datentransfer um 92 % bei Kosten unter $0,001 pro Anfrage.

🟡 🤝 Agenten 25. April 2026 · 3 Min. Lesezeit

arXiv:2604.21816: 'Tool Attention Is All You Need' eliminiert MCP Tax — 95 % Token-Reduktion pro Runde im agentischen Workflow

Editorial illustration: Tool Attention MCP Tax — Optimierung des agentischen Workflows

Die Forscher Anuj Sadani und Deepak Kumar veröffentlichten am 23. April 2026 auf ArXiv eine Arbeit, die die sogenannte MCP Tax löst — Eager Schema Injection, die 10 bis 60 Tausend Token pro Runde verbraucht. Ihr Tool-Attention-Ansatz reduziert den Verbrauch um 95 % und steigert die Kontextnutzung von 24 auf 91 %.

🟢 🤝 Agenten 25. April 2026 · 3 Min. Lesezeit

AWS und Visier präsentieren Enterprise-Workforce-KI-Agenten über Amazon Q und MCP-Integration für HR-Analytik

Editorial illustration: AWS Visier Amazon Q — Workforce-HR-KI-Agenten

AWS und Visier haben die Integration von Workforce-KI-Agenten über Amazon Q und das Model Context Protocol demonstriert. Visier stellt HR-Analytik als MCP-Server bereit, während Amazon-Q-Agenten diese Tools für Headcount-Budgetierung, Tenure-Tracking und Schwellenwert-Alerts nutzen — alles in einer einzigen konversationellen Oberfläche.

🟡 🤝 Agenten 24. April 2026 · 3 Min. Lesezeit

Anthropic: Memory für Managed Agents in öffentlicher Beta — KI-Agenten, die Kontext zwischen Sitzungen behalten

Editorial illustration: KI-Agent — agenti

Anthropic hat Memory für Claude Managed Agents in die öffentliche Beta entlassen. Agenten können nun Nutzerpräferenzen, Projektkonventionen und Kontext zwischen Sitzungen speichern. Beta-Limits umfassen bis zu 1.000 Stores pro Organisation und 100 MB pro Store.

🟢 🤝 Agenten 24. April 2026 · 2 Min. Lesezeit

GitHub: Cloud-Agent-Sitzungen jetzt direkt aus Issues und Projektansichten verfügbar

GitHub hat die Möglichkeit eingeführt, Cloud-Agent-Sitzungen direkt aus Issues und Projektansichten zu verfolgen und zu verwalten. Session-Pills, Seitenpanels mit Fortschrittsprotokollen und automatisch aktivierte Sitzungen in Projektansichten deuten auf eine tiefere Integration autonomer KI-Agenten in den Entwicklungsablauf hin.

🔴 🤝 Agenten 23. April 2026 · 2 Min. Lesezeit

Google DeepMind schließt Allianz mit fünf führenden Unternehmensberatungen für Enterprise-KI

Editorial illustration: AI agent — agenti

Google DeepMind hat eine Partnerschaft mit fünf der größten Unternehmensberatungen — Accenture, Bain, BCG, Deloitte und McKinsey — unterzeichnet, um die KI-Transformation in Unternehmen zu beschleunigen. Derzeit gelingt es nur 25 Prozent der Organisationen, KI in die Produktion zu bringen.

🔴 🤝 Agenten 23. April 2026 · 3 Min. Lesezeit

OpenAI startet Workspace Agents in ChatGPT: Codex-betriebene Agenten für Enterprise-Teams

Redaktionelle Illustration: KI-Agent — agenti

OpenAI stellte Workspace Agents vor, Codex-betriebene KI-Agenten, die direkt in die ChatGPT-Oberfläche integriert sind. Die Agenten laufen in der Cloud, automatisieren komplexe Workflows und helfen Enterprise-Teams, ihre Arbeit durch verbundene Tools zu skalieren, mit Schwerpunkt auf applikationsübergreifender Sicherheit.

🟡 🤝 Agenten 23. April 2026 · 3 Min. Lesezeit

AWS veröffentlicht Architektur für unternehmensweites KI-Agenten-Gedächtnis mit Bedrock, Neptune und Mem0

AWS hat eine Architektur veröffentlicht, die Amazon Bedrock, die Neptune-Graphdatenbank und das Mem0-Framework für persistentes KI-Agenten-Gedächtnis auf Unternehmensebene kombiniert und damit das Problem des Kontextverlusts zwischen Sitzungen und Nutzern löst.

🟡 🤝 Agenten 23. April 2026 · 2 Min. Lesezeit

Amazon Bedrock AgentCore erhält Managed Harness: Funktionierender Agent in nur drei API-Aufrufen

Amazon hat einen Managed Agent Harness für Bedrock AgentCore angekündigt, der den Deploy eines vollständig funktionierenden Agenten in nur drei API-Aufrufen ermöglicht, ohne Orchestrierungsinfrastruktur schreiben zu müssen. Dazu kommen die AgentCore CLI für den gesamten Entwicklungszyklus und vorgefertigte Skills für Coding-Assistenten, verfügbar als Preview in vier AWS-Regionen.

🟢 🤝 Agenten 23. April 2026 · 3 Min. Lesezeit

ArXiv SWE-chat — ein Datensatz realer Entwicklerinteraktionen mit KI-Coding-Agenten in der Produktion

Auf ArXiv wurde SWE-chat veröffentlicht — ein Datensatz realer sogenannter In-the-Wild-Interaktionen zwischen Nutzern und KI-Coding-Agenten in Produktionsumgebungen. Anstatt eines weiteren synthetischen Benchmarks auf Basis von GitHub-Issues erfasst dieser Datensatz, wie Entwickler autonome Systeme tatsächlich bei ihrer täglichen Arbeit einsetzen — was sie anfragen, wie sie auf Vorschläge des Agenten reagieren und wo der Agent versagt — und öffnet damit die Tür zu präziserer Evaluierung und gezielten Verbesserungen im Agenten-Design.

🟢 🤝 Agenten 23. April 2026 · 2 Min. Lesezeit

OSWorld-Studie: KI-Computer-Use-Agenten scheitern oft beim Wiederholen derselben Aufgabe

Neue Forschungsergebnisse zeigen, dass KI-Agenten zur Computersteuerung, die eine Aufgabe einmal erfolgreich ausführen, beim identischen Wiederholungsversuch scheitern können. Die drei Hauptgründe sind Ausführungsstochastizität, Aufgabenspezifikations-Ambiguität und Variabilität des Agentverhaltens.

🔴 🤝 Agenten 22. April 2026 · 4 Min. Lesezeit

Google ReasoningBank: Agenten lernen aus Erfahrung ohne Retraining, +8,3% Erfolg auf WebArena

Redaktionelle Illustration: Roboter in einem Labyrinth mit beleuchteten Knoten, die gelerntes Wissen darstellen

Google hat ReasoningBank vorgestellt, ein Speicher-Framework, das KI-Agenten ermöglicht, aus eigenen Erfolgen und Misserfolgen zu lernen, ohne das Sprachmodell neu zu trainieren. Auf dem WebArena-Benchmark wurde eine 8,3% höhere Erfolgsrate erzielt, auf SWE-Bench-Verified 4,6% mit etwa 3 Schritten weniger pro Aufgabe.

🔴 🤝 Agenten 22. April 2026 · 4 Min. Lesezeit

OpenAI skaliert Codex für Unternehmen: Codex Labs-Programm und 4 Millionen wöchentliche Nutzer

Redaktionelle Illustration: Futuristische Stadtsilhouette mit KI-Entität, Unternehmenshochhäusern und Code-Bildschirmen

OpenAI hat das Codex Labs-Programm und strategische Partnerschaften mit Accenture, Deloitte und KPMG gestartet, um den Codex-Agenten in große Unternehmen weltweit zu bringen. Das Tool hat 4 Millionen wöchentliche aktive Nutzer erreicht, bietet Zertifizierungen für Berater sowie Enterprise-Pakete mit verbrauchsbasiertem Abrechnungsmodell.

🟡 🤝 Agenten 22. April 2026 · 2 Min. Lesezeit

Agent-World: skalierbare Umgebungssynthese für die Evolution von KI-Agenten — Renmin University

Redaktionelle Illustration: Dynamische Umgebungen mit Landschaften und Städten, automatisch für das Training von KI-Agenten generiert

Agent-World ist ein neues Forschungsrahmenwerk der chinesischen Renmin University, das automatisch Tausende von vielfältigen Umgebungen für das Training von KI-Agenten generiert. Es ersetzt manuell erstellte Benchmarks durch dynamische Szenarien und ermöglicht evolutionäres Lernen durch Koevolution von Agent und Umgebung.

🟡 🤝 Agenten 22. April 2026 · 3 Min. Lesezeit

Gemini Deep Research erhält MCP-Integration, kollaborative Planung und zwei neue Versionen

Redaktionelle Illustration: Roboter-Silhouette mit modularen Servern und Datenströmen für den Deep Research-Agenten

Google hat zwei neue Deep Research-Agenten-Versionen in der Gemini API gestartet — deep-research-preview-04-2026 und deep-research-max-preview-04-2026 — mit MCP-Server-Integration, kollaborativer Planung, Visualisierungen und Streaming-Antworten. Der Schritt positioniert Gemini als ernsthaften Konkurrenten zu ChatGPT Deep Research und Perplexity Deep Research.

🟡 🤝 Agenten 22. April 2026 · 3 Min. Lesezeit

Multi-Agent-Systems-Survey: von klassischen Paradigmen zur Zukunft großer Sprachmodelle

Redaktionelle Illustration: Vernetzte KI-Agenten in Kommunikation überbrücken das klassische Paradigma mit der modernen LLM-Ära

Ein neuer arXiv-Survey verbindet umfassend die klassische Multi-Agent-Systems-Literatur mit dem modernen LLM-Agenten-Stack. Die Arbeit identifiziert einen Paradigmenwechsel in Koordination, Kommunikationsprotokollen und emergentем Verhalten — vom Austausch niedrigstufiger Zustände zum semantischen Reasoning.

🟡 🤝 Agenten 21. April 2026 · 3 Min. Lesezeit

AWS kombiniert Bedrock AgentCore, MCP und Nova 2 Sonic für Omnichannel-Bestellungen — erster Enterprise-Agentic-Showcase

Editorial illustration: AWS kombiniert Bedrock AgentCore, MCP und Nova 2 Sonic für Omnichannel-Bestellungen — erster Enterprise-Agentic-Showcase

AWS hat ein Architekturbeispiel veröffentlicht, das Bedrock AgentCore Runtime, das MCP-Protokoll und das Sprachmodell Nova 2 Sonic in einem Omnichannel-Bestellsystem kombiniert. Dies ist die erste öffentliche Integration der neuen AWS-Agentic-Services und eine Demonstration der microVM-Isolierung für Produktionsagenten.

🟡 🤝 Agenten 21. April 2026 · 3 Min. Lesezeit

LLM-Agenten können durch Prompt-Optimierung ein stabiles Preiskartell bilden, warnt neue Studie

Eine neue ArXiv-Studie zeigt, dass mehrere LLM-Agenten durch Meta-Prompt-Optimierung spontan eine stabile algorithmische Kollusion entwickeln können, die wettbewerbswidrige Preise ohne explizite Absprache erzielt. Die Ergebnisse werfen ernste Fragen für das Kartellrecht und die Regulierung von Multi-Agenten-Systemen auf.

🟡 🤝 Agenten 21. April 2026 · 4 Min. Lesezeit

NVIDIA OpenShell, Adobe-Agenten und WPP: Autonome KI-Agenten erstellen Marketing-Inhalte in Minuten

Editorialna ilustracija: NVIDIA OpenShell, Adobe Agenti i WPP: autonomni AI agenti kreiraju marketing sadržaj u minutama

NVIDIA hat seine strategischen Partnerschaften mit Adobe und der globalen Marketingagentur WPP ausgebaut, um autonome KI-Agenten im Enterprise-Marketing einzuführen. Die Grundlage ist das neue NVIDIA OpenShell — eine sichere Runtime-Umgebung mit richtlinienbasierter Isolation — in Kombination mit Nemotron-Modellen und dem Adobe Firefly Foundry-Generator für visuelle Inhalte.

🟢 🤝 Agenten 21. April 2026 · 3 Min. Lesezeit

AWS ToolSimulator: KI-gesteuertes Testen von KI-Agenten ohne Live-API-Aufrufe — Gemeinsamer Zustand über Mehrfach-Gespräche

Editorialna ilustracija: AWS ToolSimulator: LLM-pogonjeno testiranje AI agenata bez živih API poziva — shared state kroz

AWS hat ToolSimulator vorgestellt — ein KI-gesteuertes Framework innerhalb der Strands Evals-Plattform für sicheres Testen von KI-Agenten ohne Live-API-Aufrufe. Der Simulator pflegt einen konsistenten gemeinsamen Zustand über Mehrfach-Gespräche und generiert kontextuell angemessene Antworten, was das Testen von Agenten ermöglicht, die E-Mails senden oder Datenbanken modifizieren, ohne echte Konsequenzen.

🟢 🤝 Agenten 21. April 2026 · 2 Min. Lesezeit

NVIDIA veröffentlicht Nemotron-Personas-Korea: 7 Millionen synthetische Personas für koreanische KI-Agenten

NVIDIA hat gemeinsam mit Partnern den Open-Source-Datensatz Nemotron-Personas-Korea mit 7 Millionen synthetischen Personas veröffentlicht, die auf offiziellen koreanischen Demografiedaten basieren. Ziel ist es, die Entwicklung kulturell bewusster KI-Agenten ohne Datenschutzrisiken zu ermöglichen.

🟡 🤝 Agenten 20. April 2026 · 3 Min. Lesezeit

Experience Compression Spectrum: ein Architekturrahmen, der Gedächtnis, Fähigkeiten und Regeln in LLM-Agenten vereint

Redaktionelle Illustration: ein Kontinuum von Erfahrungskompressionsebenen — von rohen Episoden bis zu destillierten Regeln in einem LLM-Agenten

Das Experience Compression Spectrum ist ein neues Architekturkonzept, das Gedächtnis, Fähigkeiten und Regeln von LLM-Agenten auf einer einzigen Achse zunehmender Kompression positioniert — von episodischem Gedächtnis (5–20×) über prozedurale Fähigkeiten (50–500×) bis hin zu deklarativen Regeln (1000×+). Die Analyse zeigt, dass bestehende Systeme auf fixen Kompressionsstufen arbeiten und dass Gedächtnis und Fähigkeiten nicht miteinander kommunizieren.

🟡 🤝 Agenten 20. April 2026 · 3 Min. Lesezeit

WORC: Stärkung der schwächsten Agenten in Multi-Agenten-Systemen erzielt 82,2 % Genauigkeit auf Reasoning-Benchmarks

Redaktionelle Illustration: eine Kette von KI-Agenten, bei der das schwächste Glied mit zusätzlichen Rechenressourcen gestärkt wird

WORC (Weak-Link Optimization for Reasoning and Collaboration) ist ein neues Framework, das statt der Optimierung starker Agenten schwache Glieder in Multi-Agenten-LLM-Systemen identifiziert und stärkt. Durch Meta-Learning und Schwarm-Intelligenz werden Underperformer gefunden und erhalten zusätzliche Reasoning-Ressourcen zugeteilt. Ergebnis: 82,2 % durchschnittliche Genauigkeit auf Reasoning-Benchmarks und bessere Stabilität über Architekturen hinweg.

🟡 🤝 Agenten 19. April 2026 · 3 Min. Lesezeit

Autogenesis: Neues Protokoll für selbst-modifizierende KI-Agenten mit versionierten Ressourcen und Rollback-Mechanismus

Redaktionelle Illustration: modulares Komponentensystem mit Rückkopplungsschleifen und versionierten Datenflüssen

Autogenesis (AGP) ist ein Protokoll, das KI-Agenten, Prompts, Werkzeuge und Speicher als registrierte Ressourcen mit explizitem Zustand und versionierten Schnittstellen modelliert. Der Self Evolution Protocol Layer (SEPL) bietet eine Closed-Loop-Bedienschnittstelle zum Vorschlagen, Bewerten und Einchecken von Verbesserungen mit Prüfpfad und Rollback — und löst damit das Stabilitätsproblem von Agenten, die ihre eigenen Komponenten iterativ verändern.

🟡 🤝 Agenten 19. April 2026 · 2 Min. Lesezeit

RadAgent: KI-Werkzeug zur schrittweisen Interpretation von Thorax-CT-Aufnahmen mit +36 % relativem F1-Gewinn

Redaktionelle Illustration: KI-Agent analysiert eine Thorax-CT-Aufnahme, medizinischer Kontext ohne Gesichter

RadAgent ist ein KI-Agent zur Interpretation von Thorax-CT-Aufnahmen, der das Baseline-Modell CT-Chat in einem transparenten Schritt-für-Schritt-Prozess um 36,4 % relativ im Macro-F1, 19,6 % im Micro-F1 und 41,9 % in der adversariellen Robustheit übertrifft. Das Werkzeug generiert radiologische Berichte mit inspizierbaren Entscheidungspfaden und erreicht einen Faithfulness-Wert von 37 % gegenüber 0 % beim Baseline-Modell.

🟢 🤝 Agenten 19. April 2026 · 3 Min. Lesezeit

CoopEval: stärkere Reasoning-Modelle sind in sozialen Dilemmata systematisch weniger kooperativ — ein kontraintuitiver Befund für Multi-Agenten-KI

Redaktionelle Illustration: zwei abstrakte Agenten in einem sozialen Dilemma, Elemente der Spieltheorie

CoopEval ist ein neues Benchmark, das LLM-Agenten in klassischen sozialen Dilemmata wie dem Gefangenendilemma und Public-Goods-Spielen testet. Kontraintuitiver Befund: Stärkere Reasoning-Modelle defektieren häufiger als schwächere und untergraben systematisch die Kooperation in Single-Shot-Situationen mit gemischten Anreizen. Wichtige Implikationen für den Einsatz von Multi-Agenten-KI, bei dem ein Agent seine eigenen Interessen mit dem kollektiven Nutzen abwägen muss.

🟢 🤝 Agenten 19. April 2026 · 3 Min. Lesezeit

Mind DeepResearch: ein Drei-Agenten-Framework erzielt Top-Ergebnisse bei Deep-Research-Aufgaben mit 30B-Modellen statt GPT-4-Skala

Redaktionelle Illustration: drei abstrakte Agenten, die in einem Forschungsprozess zusammenarbeiten, Netzwerkstruktur

Mind DeepResearch (MindDR) ist ein neues Multi-Agenten-Framework für Deep Research, das mit Modellen von rund 30 Milliarden Parametern kompetitive Ergebnisse erzielt — der Größenklasse von Qwen2.5 oder DeepSeek, nicht GPT-4 oder Claude Opus. Architektur: Planning Agent + DeepSearch Agent + Report Agent mit einer vierstufigen Trainings-Pipeline einschließlich Data Synthesis, gemäß einem technischen Bericht vom 17. April 2026.

🟡 🤝 Agenten 18. April 2026 · 3 Min. Lesezeit

LangChain und Cisco demonstrieren Agentic Engineering: 93 % kürzere Fehlererkennung und 65 % schnellere Entwicklung

Redaktionelle Illustration: ein koordinierter Schwarm von KI-Agenten in der Softwareentwicklung, abstrakte Netzwerkvisualisierung

Agentic Engineering ist ein Ansatz, bei dem Schwärme von KI-Agenten den gesamten Software-Lebenszyklus übernehmen – nicht nur das Schreiben von Code. Die LangChain- und Cisco-Ingenieure Renuka Kumar und Prashanth Ramagopal veröffentlichten am 17. April 2026 eine Referenzarchitektur mit Leader- und Worker-Agenten, die in Ciscos Pilotprojekt mit 70 Nutzern und 512 Sitzungen die Erkennungszeit für Bug-Ursachen um 93 % und die Ausführungszeit von Entwicklungs-Workflows um 65 % reduzierte.

🟢 🤝 Agenten 18. April 2026 · 2 Min. Lesezeit

HuggingFace veröffentlicht Ecom-RLVE-Gym: 8 Umgebungen und ein 12-achsiges Curriculum für das Training von E-Commerce-Agenten mit Reinforcement Learning

Redaktionelle Illustration: abstrakte E-Commerce-Trainingsumgebung mit einem Netzwerk aus Produkten und Lernpfaden

Das Owlgebra-KI-Team veröffentlichte am 16. April 2026 im HuggingFace-Blog das Projekt Ecom-RLVE-Gym – ein offenes Framework mit 8 verifizierbaren Umgebungen für konversationelle E-Commerce-Agenten und algorithmischer Belohnung anstelle eines LLM-Richters. Das System verwendet einen Katalog mit 2 Millionen Produkten, das Qwen-3-8B-Modell und ein adaptives 12-achsiges Curriculum, das die Aufgabenschwierigkeit für den Agenten schrittweise erhöht – als Antwort auf die Grenzen des Supervised Fine-Tuning bei komplexen mehrstufigen Workflows.

🔴 🤝 Agenten 17. April 2026 · 2 Min. Lesezeit

OpenAI: Codex für (fast) alles — Desktop-App mit Computer Use, Browsing und Plugins

OpenAI Codex ist eine aktualisierte Desktop-Anwendung für macOS und Windows, die jetzt Computer Use, In-App-Browsing, Bildgenerierung, persistenten Speicher und ein Plugin-System integriert. Am gleichen Tag wie Anthropics Opus 4.7 veröffentlicht, stellt Codex den ambitioniertesten Versuch dar, einen All-in-One-KI-Coding-Assistenten mit vollen agentischen Fähigkeiten zu schaffen.

🟡 🤝 Agenten 17. April 2026 · 2 Min. Lesezeit

GitHub CLI: neuer gh skill-Befehl ermöglicht Verwaltung von KI-Agent-Skills auf allen Plattformen

GitHub CLI Version 2.90.0 führt den Befehl gh skill ein, der die Entdeckung, Installation, Verwaltung und Veröffentlichung von KI-Agent-Skills für GitHub Copilot, Claude Code, Cursor, Codex, Gemini CLI und Antigravity ermöglicht. Die Sicherheit der Lieferkette wird durch unveränderliche Releases, SHA-Inhaltsverifizierung und Version-Pinning gewährleistet.

🟢 🤝 Agenten 17. April 2026 · 2 Min. Lesezeit

ArXiv OpenMobile: Open-Source-Mobilagenten mit Trajektoriensynthese und Policy-Switching

OpenMobile ist ein neues Open-Source-Framework für die Entwicklung mobiler Agenten auf Basis von Vision-Language-Modellen. Nach dem Fine-Tuning von Qwen2.5-VL erreicht es 51,7 % Erfolgsrate, und Qwen3-VL sogar 64,7 % auf dem AndroidWorld-Benchmark — deutlich über bestehenden Open-Data-Ansätzen und nahe an geschlossenen Systemen, die fast 70 % erreichen. Die Autoren veröffentlichen alle Daten und den Code öffentlich.

🟢 🤝 Agenten 17. April 2026 · 2 Min. Lesezeit

LangChain: asynchrone Subagenten bringen Fire-and-Steer-Paradigma für Hunderte paralleler KI-Agenten

LangChain hat ein neues asynchrones Subagenten-Modell veröffentlicht, das einem Supervisor-Agenten ermöglicht, Hunderte paralleler Subagenten-Instanzen ohne Blockierung zu starten. Das Fire-and-Steer-Paradigma erlaubt das Ändern von Anweisungen an Subagenten während der Ausführung durch die Tools start_async_task, check_async_task und update_async_task, und läuft auf der LangSmith-Plattform oder selbstgehosteter Infrastruktur.

🟡 🤝 Agenten 16. April 2026 · 2 Min. Lesezeit

OpenAI: Nächste Generation des Agents SDK bringt native Sandbox-Ausführung für zuverlässige Agenten

OpenAI hat ein bedeutendes Upgrade seines Agents SDK angekündigt, das native Sandbox-Ausführung und ein modellnatives Harness für den Aufbau zuverlässigerer, langlebiger KI-Agenten einführt. Das neue Release konzentriert sich auf sichere Code-Ausführung und Agentenautonomie und ermöglicht Entwicklungsteams den Aufbau von Agenten, die stundenlang ohne menschliche Aufsicht arbeiten können.

🟢 🤝 Agenten 16. April 2026 · 2 Min. Lesezeit

ArXiv: TREX — zwei KI-Agenten automatisieren den gesamten LLM-Fine-Tuning-Prozess

TREX ist ein neues Multi-Agenten-System, das die komplette Fine-Tuning-Pipeline für große Sprachmodelle automatisiert — von der Anforderungsanalyse und Literaturrecherche bis zur Datenvorbereitung und Ergebnisbewertung. Das System modelliert den Experimentierprozess als Suchbaum und optimiert auf dem FT-Bench-Benchmark mit 10 realen Aufgaben konsistent die Modellleistung.

🟢 🤝 Agenten 16. April 2026 · 2 Min. Lesezeit

IBM Research: VAKRA-Benchmark zeigt, dass KI-Agenten bei komplexem Denken scheitern

IBM Research hat VAKRA veröffentlicht — einen neuen Benchmark zur Evaluierung von KI-Agenten in Enterprise-Umgebungen mit mehr als 8.000 lokalen APIs, 62 Domänen und 4.187 Testinstanzen. Das Kernergebnis ist, dass Modelle bei einfachen Aufgaben oberflächliche Kompetenz zeigen, aber beim kompositionellen Denken scheitern, Multi-Hop-Reasoning mit der Tiefe degradiert und die Einhaltung externer Einschränkungen zu einem signifikanten Leistungsabfall führt.

🔴 🤝 Agenten 15. April 2026 · 2 Min. Lesezeit

ArXiv: Verbote wirken, Anweisungen schaden — Empirische Studie zu Regeln für KI-Coding-Agenten

Eine Analyse von 679 Regeldateien und 25.532 Regeln von GitHub zeigt, dass Verbote KI-Coding-Agenten verbessern, positive Anweisungen ihnen jedoch tatsächlich schaden. Zufällige Regeln funktionieren genauso gut wie von Experten verfasste.

🟡 🤝 Agenten 15. April 2026 · 1 Min. Lesezeit

ArXiv: HORIZON — Wo und warum AI-Agenten bei Langzeitaufgaben versagen

Der neue Benchmark HORIZON analysiert systematisch, wie LLM-Agenten bei Aufgaben mit langem Horizont versagen. Die Forschung zeigt, dass sich Fehler über mehrere Schritte kumulieren und selbst die besten Modelle nach mehr als 20 Aktionen den Fokus verlieren.

🟡 🤝 Agenten 15. April 2026 · 2 Min. Lesezeit

ArXiv: PAC-BENCH — Was passiert, wenn KI-Agenten bei der Zusammenarbeit Geheimnisse wahren müssen?

Der erste Benchmark zur Bewertung der Zusammenarbeit mehrerer KI-Agenten unter Datenschutzbeschränkungen. Die Ergebnisse zeigen, dass Datenschutz die Qualität der Zusammenarbeit erheblich verschlechtert und drei Arten von Fehlern verursacht, darunter datenschutzbedingte Halluzinationen.

🟢 🤝 Agenten 15. April 2026 · 2 Min. Lesezeit

ArXiv: SWE-AGILE — Wie kleine Modelle die Kontextexplosion bei Coding-Agenten lösen

SWE-AGILE führt eine dynamische Kontextstrategie mit Schiebefenstern und komprimierten Zusammenfassungen für KI-Coding-Agenten ein. Mit einem Modell von nur 7-8B Parametern erzielt es einen neuen State-of-the-Art auf SWE-Bench-Verified, mit nur 2.200 Trainingsbeispielen.

🔴 🤝 Agenten 14. April 2026 · 1 Min. Lesezeit

OpenAI und Cloudflare: GPT-5.4 und Codex treiben neue Agent-Cloud-Plattform fuer Unternehmen an

Cloudflare hat OpenAIs GPT-5.4- und Codex-Modelle in seine neue Agent-Cloud-Plattform integriert und ermoeglicht es Unternehmenskunden, KI-Agenten fuer reale Geschaeftsaufgaben mit Schwerpunkt auf Geschwindigkeit und Sicherheit zu erstellen, bereitzustellen und zu skalieren.

🟡 🤝 Agenten 14. April 2026 · 2 Min. Lesezeit

AI2: KI-Agenten loesen 80 % der Schulwissenschaft, aber nur 20 % echter wissenschaftlicher Probleme

Das Allen Institute for AI analysiert zwei Benchmarks, die eine dramatische Kluft zwischen KI-Leistung bei Wissenstests und der Faehigkeit zu echten wissenschaftlichen Entdeckungen aufzeigen. Waehrend Modelle auf Schulniveau 80 % erreichen, fallen sie bei komplexen wissenschaftlichen Aufgaben auf 20 %.

🟡 🤝 Agenten 14. April 2026 · 2 Min. Lesezeit

ArXiv HiL-Bench: Wissen KI-Agenten, wann sie einen Menschen um Hilfe bitten sollten?

Der neue Benchmark HiL-Bench misst die Faehigkeit von KI-Agenten, ihre eigenen Grenzen zu erkennen und um menschliche Hilfe zu bitten, anstatt zu raten. Die Ergebnisse zeigen, dass selbst Frontier-Modelle schlecht einschaetzen, wann sie Hilfe benoetigen, aber gezieltes Training diese Faehigkeit verbessern kann.

🔴 🤝 Agenten 13. April 2026 · 2 Min. Lesezeit

ArXiv HiL-Bench: Kein Frontier-Modell weiss, wann es um Hilfe bitten soll

Ein neuer Benchmark deckt einen universellen Beurteilungsmangel bei KI-Agenten auf — wenn Spezifikationen unvollstaendig sind, erreicht kein Frontier-Modell mehr als einen Bruchteil seiner vollen Leistung. Forscher zeigen, dass diese Faehigkeit mit RL trainiert werden kann.

🟢 🤝 Agenten 13. April 2026 · 1 Min. Lesezeit

ArXiv SAGE: 27 LLMs getestet — Modelle verstehen die Absicht, fuehren aber nicht korrekt aus

Ein neuer Benchmark fuer Kundenservice deckt zwei Phaenomene auf: 'Execution Gap' (Modelle klassifizieren Absichten korrekt, fuehren aber nicht die richtigen Aktionen aus) und 'Empathy Resilience' (Modelle bleiben hoeflich, waehrend sie logische Fehler machen).

🟡 🤝 Agenten 12. April 2026 · 2 Min. Lesezeit

GitHub Copilot CLI: Offizieller Einsteigerleitfaden — Aufgaben an Cloud-Agenten aus dem Terminal delegieren

GitHub hat am 10. April ein offizielles Tutorial für das Tool Copilot CLI veröffentlicht. Der Leitfaden deckt Installation über npm, Authentifizierung mit dem GitHub-Konto und praktische Beispiele ab — einschließlich der Delegation von Aufgaben an Cloud-Agenten.

🟡 🤝 Agenten 11. April 2026 · 2 Min. Lesezeit

Anthropic veröffentlicht Policy-Framework ‚Trustworthy agents in practice'

Anthropic hat ein umfassendes Policy-Framework ‚Trustworthy agents in practice' veröffentlicht, das definiert, was es bedeutet, KI-Agenten zuverlässig zu entwickeln, bereitzustellen und zu nutzen. Das Dokument dient als Leitfaden für Unternehmen, die Agenten erstellen oder einsetzen.

🟡 🤝 Agenten 11. April 2026 · 2 Min. Lesezeit

ArXiv PASK: proaktive KI-Agenten mit Langzeitgedächtnis, die Nutzerabsichten vorhersagen

Die neue Arbeit PASK stellt ein Framework für proaktive KI-Agenten vor, das Absichtserkennung, hybrides Gedächtnis und selbstinitiiertes Handeln kombiniert. Das IntentFlow-Modell hat das Niveau der führenden Gemini-3-Flash-Modelle beim Erkennen latenter Nutzerbedürfnisse erreicht.

🟡 🤝 Agenten 11. April 2026 · 2 Min. Lesezeit

ArXiv SAVeR: Self-Auditing für LLM-Agenten — prüfen, bevor ausgeführt wird (ACL 2026)

Die neue Methode SAVeR (Self-Audited Verified Reasoning), angenommen auf der ACL 2026, ermöglicht es LLM-Agenten, sich selbst zu überprüfen, bevor sie Aktionen ausführen. Ziel: zu verhindern, dass kohärentes Denken, das logische Einschränkungen verletzt, zu falschen Entscheidungen führt.

🟢 🤝 Agenten 11. April 2026 · 2 Min. Lesezeit

ArXiv KnowU-Bench: neuer Benchmark für interaktive und proaktive mobile KI-Agenten

Forscher haben KnowU-Bench vorgestellt — einen umfassenden Benchmark zur Evaluierung einer neuen Generation mobiler KI-Agenten, der sich auf Interaktivität, Proaktivität und Personalisierung durch langfristige Nutzung konzentriert.

🟡 🤝 Agenten 10. April 2026 · 2 Min. Lesezeit

AWS Agent Registry: Enterprise-Katalog für KI-Agenten in der Preview

Amazon hat eine Preview von AWS Agent Registry veröffentlicht, einem zentralen Katalog für KI-Agenten, Werkzeuge und Agent Skills für Enterprise-Organisationen. Das System indiziert Agenten unabhängig davon, wo sie gehostet werden (AWS, andere Clouds, On-Premises), und nutzt eine Kombination aus Keyword- und semantischer Suche sowie IAM-basierte Zugriffskontrolle.

🟡 🤝 Agenten 10. April 2026 · 2 Min. Lesezeit

AWS Bedrock AgentCore: Stateful-MCP-Client ermöglicht interaktive KI-Workflows

Amazon hat Bedrock AgentCore Runtime um drei neue MCP-Fähigkeiten erweitert — Elicitation (Anforderung strukturierter Eingaben vom Nutzer), Sampling (Anforderung von LLM-Completions vom Client) und Progress Notifications. Stateful-Sessions können nun bis zu 8 Stunden in isolierten microVMs laufen und ermöglichen eine bidirektionale Kommunikation zwischen Agent und Client.