Montag, 18. Mai 2026

11 Nachrichten — 🟡 5 wichtig , 🟢 6 interessant

🤖 Modelle (1)

🟡 🤖 Modelle 18. Mai 2026 · 3 Min. Lesezeit

GitHub Copilot: GPT-5.3-Codex wird Basismodell für Business und Enterprise mit 12-monatiger LTS-Garantie

GitHub gab am 17. Mai 2026 bekannt, dass GPT-5.3-Codex GPT-4.1 als Basismodell für Copilot Business und Enterprise ablöst. Die Änderung betrifft nur Enterprise-Tiers (nicht Copilot Pro, Pro+ oder Free). GPT-5.3-Codex ist das erste LTS-Modell (Long-Term Support) — garantierte Verfügbarkeit für 12 Monate vom 5. Februar 2026 bis 4. Februar 2027. Preisgestaltung: 1× Premium-Request-Multiplikator; GPT-4.1 bleibt bis zur Deprecation am 1. Juni 2026 mit 0× Multiplikator force-enabled.

📦 Open Source (6)

🟡 📦 Open Source 18. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15041 CAST-Framework: Case-Based Calibration für LLM Tool Use erreicht +5,85pp BFCLv2 und -26 % Reasoning-Länge

Editorial illustration: LLM-Agent mit Case-Library-Ansicht und Tool-Call-Validierungsindikatoren.

CAST ist ein neues arXiv-Paper, veröffentlicht am 14. Mai 2026 von Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao und Xiaosong Zhang, das ein Case-Based-Calibration-Framework für LLM Tool Use einführt. Der Ansatz behandelt historische Ausführungstrajektorien als strukturierte Information für Reinforcement Learning — er erreicht bis zu +5,85 Prozentpunkte Verbesserung der Ausführungsgenauigkeit gegenüber dem BFCLv2-Baseline und eine 26-prozentige Reduzierung der durchschnittlichen Reasoning-Länge.

🟢 📦 Open Source 18. Mai 2026 · 4 Min. Lesezeit

arXiv:2605.15706 Differentiable Mixture-of-Agents: dynamisches Per-Step-Agenten-Routing erreicht SOTA auf 9 Benchmarks

Editorial illustration: Neuronales Netz-Routing-Graph mit LLM-Agenten und Sparse-Activation-Indikatoren.

Differentiable Mixture-of-Agents ist ein neues arXiv-Paper vom 15. Mai 2026 von Xingjian Wu, Junkai Lu, Siyu Yan, Xiangfei Qiu, Jilin Hu, Chenjuan Guo und Bin Yang, das einen differenzierbaren Routing-Mechanismus für Multi-Agent-LLM-Kollaboration einführt. Das System wählt und aktiviert Agenten dynamisch pro Reasoning-Schritt statt fixer Topologien, erreicht SOTA-Ergebnisse auf 9 Benchmarks und adaptiert zur Test-Zeit ohne externe Annotationen über Predictive-Entropy-Self-Supervision.

🟢 📦 Open Source 18. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15100 Dual-Dimensional Consistency: 10-fache Reduzierung des Token-Verbrauchs bei gleichbleibender Genauigkeit über fünf Benchmarks

Editorial illustration: parallele Reasoning-Pfade mit Konfidenz-Score-Badges und einem Pruning-Icon.

Dual-Dimensional Consistency ist ein neues arXiv-Paper, veröffentlicht am 14. Mai 2026 von Rongman Xu, Yifei Li, Tianzhe Zhao, Yanrui Wu, Bo Li und Hang Yan, das die Effizienz von Inference-Time-Scaling adressiert. Das Framework kombiniert ein Confidence-Weighted-Bayesian-Protokoll und Trend-Aware Stratified Pruning — über fünf Benchmarks demonstriert es eine über 10-fache Reduzierung des Token-Verbrauchs bei gleichbleibender oder verbesserter Genauigkeit gegenüber starken Baselines.

🟢 📦 Open Source 18. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15015 Small Private LM: Wettbewerbsfähige Ergebnisse im Bildungsassessment-Design mit Human-in-the-Loop-Empfehlungen

Editorial illustration: Klassenzimmerszene mit kleinen LM-Icons, einer Bloom'schen Taxonomiepyramide und einer menschlichen Reviewer-Darstellung.

Small, Private Language Models as Teammates for Educational Assessment Design ist ein neues arXiv-Paper, veröffentlicht am 14. Mai 2026 von Chris Davis Jaldi, Anmol Saini, Shan Zhang, Noah Schroeder, Cogan Shimizu und Eleni Ilkou. Ein systematischer Vergleich kleinerer Modelle mit größeren Alternativen bei der Generierung pädagogisch ausgerichteter Aufgabenstellungen — kleinere Modelle erzielen wettbewerbsfähige Ergebnisse mit Datenschutzvorteilen, aber die Autoren betonen, dass modellbasierte Evaluierungen systematische Inkonsistenzen zeigen und empfehlen einen Human-in-the-Loop-Ansatz.

🟢 📦 Open Source 18. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15109 Traversal Context: Agentisches GraphRAG muss besuchte, aber nicht zitierte Entitäten für echte Provenienz dokumentieren

Editorial illustration: Knowledge-Graph mit hervorgehobenem Traversal-Pfad und Citation-Badge-Annotationen neben unzitierten Knoten.

Why Neighborhoods Matter ist ein neues arXiv-Paper, veröffentlicht am 14. Mai 2026 von Riccardo Terrenzi, Maximilian von Zastrow und Serkan Ayvaz (angenommen für den IJCAI-ECAI 2026 Joint Workshop on GENAIK and NORA). Die Autoren argumentieren, dass agentische GraphRAG-Systeme Citation Faithfulness als Trajectory-Level-Problem behandeln müssen — echte Provenienz umfasst nicht nur zitierte Belege, sondern auch besuchte, aber nicht zitierte Entitäten, die das Modell-Reasoning beeinflussen.

🟢 📦 Open Source 18. Mai 2026 · 2 Min. Lesezeit

xAI SDK Python v1.13.0: prepare_extension() ermöglicht Batch-Video-Extension für generierte Clip-Serien

Editorial illustration: eine Serie von Video-Frames mit Batch-Processing-Icon und xAI-SDK-Code-Snippet-Visualisierung.

xAI SDK Python v1.13.0 wurde am 16. Mai 2026 veröffentlicht (Commit-Autor @double-di, PR #141) und bringt die neue Methode prepare_extension() für Batch-Video-Extension. Die Funktion erweitert die in v1.10.0 eingeführte Video-API um Batch-Processing-Fähigkeiten — Entwickler können nun Extensions für eine Serie von Clips in einem einzigen Aufruf vorbereiten, anstatt sequenziell für jeden einzelnen Clip.

🤝 Agenten (3)

🟡 🤝 Agenten 18. Mai 2026 · 4 Min. Lesezeit

arXiv:2605.16217 Argus: Evidence-Assembly-Architektur für Deep-Research-Agenten erreicht +12,7 Pkt. mit 8 parallelen Suchern

Editorial illustration: Wissensgraph mit Evidence-Nodes und parallelen Searcher-Agenten um einen zentralen Navigator.

Argus ist ein neues arXiv-Paper vom 15. Mai 2026 von Zhen Zhang, Liangcai Su, Zhuo Chen und Kollegen, das ein Evidence-Assembly-Framework für Deep-Research-Agenten vorstellt. Das System verwendet eine Dual-Agent-Architektur — Searcher (ReAct-Style-Traces) + Navigator (gemeinsamer Evidence-Graph + RL-Synthese) — und erzielt +5,5 Pkt. mit einem einzelnen Searcher, +12,7 Pkt. mit 8 parallelen sowie einen BrowseComp-Score von 86,2 mit 64 parallelen Suchern ohne Kontextüberschreitung.

🟡 🤝 Agenten 18. Mai 2026 · 3 Min. Lesezeit

GitHub Copilot: Grok Code Fast 1 am 15. Mai 2026 abgekündigt; empfohlene Alternativen GPT-5 mini und Claude Haiku 4.5

Editorial illustration: Deprecated-Stempel auf dem xAI-Grok-Icon mit Pfeilen zu GPT-5-mini- und Claude-Haiku-4.5-Logos.

GitHub hat am 15. Mai 2026 die formale Abkündigung des Modells Grok Code Fast 1 über alle Copilot-Erfahrungen hinweg bekannt gegeben (Chat, Inline-Edits, Ask, Agent-Modus, Code-Vervollständigungen). Die Abkündigung erfolgt eine Woche nach der Ankündigung am 8. Mai. Empfohlene Alternativen: GPT-5 mini und Claude Haiku 4.5 — beide über Standard-Modell-Richtlinien verfügbar. Enterprise-Administratoren müssen Alternativen über die Copilot-Einstellungen aktivieren.

🟢 🤝 Agenten 18. Mai 2026 · 3 Min. Lesezeit

Databricks + Veeva Vault CRM: drei spezialisierte KI-Agenten für Life-Sciences-Commercial-Workflows

Editorial illustration: Pharma-Außendienstmitarbeiter mit Tablet und KI-Agenten-Overlay mit Patientendaten-Dashboard.

Databricks gab am 18. Mai 2026 eine Partnerschaft mit Veeva Systems bekannt, die Genie-KI-Agenten direkt in Vault-CRM-Workflows für die Life-Sciences-Industrie integriert. Drei spezialisierte Agenten-Personas — Sales Rep Agent, Medical Science Liaison (MSL) Agent und Territory Manager Agent — greifen über Unity Catalog Governance auf den Databricks Lakehouse zu. Die Ankündigung kommt vor dem Veeva Commercial Summit in Boston (19.–20. Mai 2026).

🛡️ Sicherheit (1)

🟡 🛡️ Sicherheit 18. Mai 2026 · 4 Min. Lesezeit

arXiv:2605.15338 Sleeper Memory Poisoning: 99,8 % Angriffserfolgsrate auf GPT-5.5 über persistenten Speicher von LLM-Agenten

Editorial illustration: LLM-Agenten-Speicher mit dormanten adversariellen Tokens und Wake-up-Trigger-Symbolen.

Hidden in Memory ist ein neues arXiv-Paper vom 14. Mai 2026 von Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth und Mario Fritz, das einen Delayed-Execution-Angriff auf zustandsbehaftete LLM-Agenten vorstellt. Adversarieller Inhalt im externen Kontext (Dokumente, Webseiten) korrumpiert den persistenten Speicher des Agenten — 99,8 % Erfolg auf GPT-5.5 und 95 % auf Kimi-K2.6, mit 60–89 % Erfolg bei der Umwandlung vergifteter Erinnerungen in vom Angreifer beabsichtigte Aktionen.

← Vorheriger Tag Nächster Tag →