Montag, 13. April 2026

4 Nachrichten — 🔴 1 kritisch , 🟡 2 wichtig , 🟢 1 interessant

🤖 Modelle (2)

🟡 🤖 Modelle 13. April 2026 · 1 Min. Lesezeit

ArXiv PRA: 4B-Modell erreicht 80,8% auf medizinischem Benchmark — neuer SOTA fuer kleine Skala

Process Reward Agents ermoeglichen kleinen eingefrorenen Modellen (0,5B-8B), medizinisches Reasoning ohne jegliches Training signifikant zu verbessern — Qwen3-4B erreicht einen neuen State-of-the-Art von 80,8% auf MedQA.

🟡 🤖 Modelle 13. April 2026 · 1 Min. Lesezeit

ArXiv SPPO: PPO auf Sequenzebene loest das Credit-Assignment-Problem in langen Denkketten

Sequence-Level PPO formuliert LLM-Reasoning als kontextuelles Bandit-Problem um und erreicht die Leistung teurer Gruppenmethoden wie GRPO mit dramatisch weniger Ressourcen — ohne Multi-Sampling.

🤝 Agenten (2)

🔴 🤝 Agenten 13. April 2026 · 2 Min. Lesezeit

ArXiv HiL-Bench: Kein Frontier-Modell weiss, wann es um Hilfe bitten soll

Ein neuer Benchmark deckt einen universellen Beurteilungsmangel bei KI-Agenten auf — wenn Spezifikationen unvollstaendig sind, erreicht kein Frontier-Modell mehr als einen Bruchteil seiner vollen Leistung. Forscher zeigen, dass diese Faehigkeit mit RL trainiert werden kann.

🟢 🤝 Agenten 13. April 2026 · 1 Min. Lesezeit

ArXiv SAGE: 27 LLMs getestet — Modelle verstehen die Absicht, fuehren aber nicht korrekt aus

Ein neuer Benchmark fuer Kundenservice deckt zwei Phaenomene auf: 'Execution Gap' (Modelle klassifizieren Absichten korrekt, fuehren aber nicht die richtigen Aktionen aus) und 'Empathy Resilience' (Modelle bleiben hoeflich, waehrend sie logische Fehler machen).

← Vorheriger Tag Nächster Tag →