🤝 Agenten

12 Nachrichten

🔴 🤝 Agenten 14. April 2026 · 1 Min. Lesezeit

OpenAI und Cloudflare: GPT-5.4 und Codex treiben neue Agent-Cloud-Plattform fuer Unternehmen an

Cloudflare hat OpenAIs GPT-5.4- und Codex-Modelle in seine neue Agent-Cloud-Plattform integriert und ermoeglicht es Unternehmenskunden, KI-Agenten fuer reale Geschaeftsaufgaben mit Schwerpunkt auf Geschwindigkeit und Sicherheit zu erstellen, bereitzustellen und zu skalieren.

🟡 🤝 Agenten 14. April 2026 · 2 Min. Lesezeit

AI2: KI-Agenten loesen 80 % der Schulwissenschaft, aber nur 20 % echter wissenschaftlicher Probleme

Das Allen Institute for AI analysiert zwei Benchmarks, die eine dramatische Kluft zwischen KI-Leistung bei Wissenstests und der Faehigkeit zu echten wissenschaftlichen Entdeckungen aufzeigen. Waehrend Modelle auf Schulniveau 80 % erreichen, fallen sie bei komplexen wissenschaftlichen Aufgaben auf 20 %.

🟡 🤝 Agenten 14. April 2026 · 2 Min. Lesezeit

ArXiv HiL-Bench: Wissen KI-Agenten, wann sie einen Menschen um Hilfe bitten sollten?

Der neue Benchmark HiL-Bench misst die Faehigkeit von KI-Agenten, ihre eigenen Grenzen zu erkennen und um menschliche Hilfe zu bitten, anstatt zu raten. Die Ergebnisse zeigen, dass selbst Frontier-Modelle schlecht einschaetzen, wann sie Hilfe benoetigen, aber gezieltes Training diese Faehigkeit verbessern kann.

🔴 🤝 Agenten 13. April 2026 · 2 Min. Lesezeit

ArXiv HiL-Bench: Kein Frontier-Modell weiss, wann es um Hilfe bitten soll

Ein neuer Benchmark deckt einen universellen Beurteilungsmangel bei KI-Agenten auf — wenn Spezifikationen unvollstaendig sind, erreicht kein Frontier-Modell mehr als einen Bruchteil seiner vollen Leistung. Forscher zeigen, dass diese Faehigkeit mit RL trainiert werden kann.

🟢 🤝 Agenten 13. April 2026 · 1 Min. Lesezeit

ArXiv SAGE: 27 LLMs getestet — Modelle verstehen die Absicht, fuehren aber nicht korrekt aus

Ein neuer Benchmark fuer Kundenservice deckt zwei Phaenomene auf: 'Execution Gap' (Modelle klassifizieren Absichten korrekt, fuehren aber nicht die richtigen Aktionen aus) und 'Empathy Resilience' (Modelle bleiben hoeflich, waehrend sie logische Fehler machen).

🟡 🤝 Agenten 12. April 2026 · 2 Min. Lesezeit

GitHub Copilot CLI: Offizieller Einsteigerleitfaden — Aufgaben an Cloud-Agenten aus dem Terminal delegieren

GitHub hat am 10. April ein offizielles Tutorial für das Tool Copilot CLI veröffentlicht. Der Leitfaden deckt Installation über npm, Authentifizierung mit dem GitHub-Konto und praktische Beispiele ab — einschließlich der Delegation von Aufgaben an Cloud-Agenten.

🟡 🤝 Agenten 11. April 2026 · 2 Min. Lesezeit

Anthropic veröffentlicht Policy-Framework ‚Trustworthy agents in practice'

Anthropic hat ein umfassendes Policy-Framework ‚Trustworthy agents in practice' veröffentlicht, das definiert, was es bedeutet, KI-Agenten zuverlässig zu entwickeln, bereitzustellen und zu nutzen. Das Dokument dient als Leitfaden für Unternehmen, die Agenten erstellen oder einsetzen.

🟡 🤝 Agenten 11. April 2026 · 2 Min. Lesezeit

ArXiv PASK: proaktive KI-Agenten mit Langzeitgedächtnis, die Nutzerabsichten vorhersagen

Die neue Arbeit PASK stellt ein Framework für proaktive KI-Agenten vor, das Absichtserkennung, hybrides Gedächtnis und selbstinitiiertes Handeln kombiniert. Das IntentFlow-Modell hat das Niveau der führenden Gemini-3-Flash-Modelle beim Erkennen latenter Nutzerbedürfnisse erreicht.

🟡 🤝 Agenten 11. April 2026 · 2 Min. Lesezeit

ArXiv SAVeR: Self-Auditing für LLM-Agenten — prüfen, bevor ausgeführt wird (ACL 2026)

Die neue Methode SAVeR (Self-Audited Verified Reasoning), angenommen auf der ACL 2026, ermöglicht es LLM-Agenten, sich selbst zu überprüfen, bevor sie Aktionen ausführen. Ziel: zu verhindern, dass kohärentes Denken, das logische Einschränkungen verletzt, zu falschen Entscheidungen führt.

🟢 🤝 Agenten 11. April 2026 · 2 Min. Lesezeit

ArXiv KnowU-Bench: neuer Benchmark für interaktive und proaktive mobile KI-Agenten

Forscher haben KnowU-Bench vorgestellt — einen umfassenden Benchmark zur Evaluierung einer neuen Generation mobiler KI-Agenten, der sich auf Interaktivität, Proaktivität und Personalisierung durch langfristige Nutzung konzentriert.

🟡 🤝 Agenten 10. April 2026 · 2 Min. Lesezeit

AWS Agent Registry: Enterprise-Katalog für KI-Agenten in der Preview

Amazon hat eine Preview von AWS Agent Registry veröffentlicht, einem zentralen Katalog für KI-Agenten, Werkzeuge und Agent Skills für Enterprise-Organisationen. Das System indiziert Agenten unabhängig davon, wo sie gehostet werden (AWS, andere Clouds, On-Premises), und nutzt eine Kombination aus Keyword- und semantischer Suche sowie IAM-basierte Zugriffskontrolle.

🟡 🤝 Agenten 10. April 2026 · 2 Min. Lesezeit

AWS Bedrock AgentCore: Stateful-MCP-Client ermöglicht interaktive KI-Workflows

Amazon hat Bedrock AgentCore Runtime um drei neue MCP-Fähigkeiten erweitert — Elicitation (Anforderung strukturierter Eingaben vom Nutzer), Sampling (Anforderung von LLM-Completions vom Client) und Progress Notifications. Stateful-Sessions können nun bis zu 8 Stunden in isolierten microVMs laufen und ermöglichen eine bidirektionale Kommunikation zwischen Agent und Client.