🤖 Modelle

5 Nachrichten

🟡 🤖 Modelle 14. April 2026 · 2 Min. Lesezeit

ArXiv: Process Reward Agents — Echtzeit-Feedback verbessert KI-Schlussfolgerungen in der Medizin ohne Retraining

Forscher haben Process Reward Agents (PRA) vorgestellt, einen neuen Ansatz, der waehrend des KI-Schlussfolgerungsprozesses in medizinischen Domaenen schrittweises Feedback liefert. Das System funktioniert mit bestehenden Modellen ohne Retraining und erzielt bedeutende Ergebnisse auf medizinischen Benchmarks.

🟡 🤖 Modelle 13. April 2026 · 1 Min. Lesezeit

ArXiv PRA: 4B-Modell erreicht 80,8% auf medizinischem Benchmark — neuer SOTA fuer kleine Skala

Process Reward Agents ermoeglichen kleinen eingefrorenen Modellen (0,5B-8B), medizinisches Reasoning ohne jegliches Training signifikant zu verbessern — Qwen3-4B erreicht einen neuen State-of-the-Art von 80,8% auf MedQA.

🟡 🤖 Modelle 13. April 2026 · 1 Min. Lesezeit

ArXiv SPPO: PPO auf Sequenzebene loest das Credit-Assignment-Problem in langen Denkketten

Sequence-Level PPO formuliert LLM-Reasoning als kontextuelles Bandit-Problem um und erreicht die Leistung teurer Gruppenmethoden wie GRPO mit dramatisch weniger Ressourcen — ohne Multi-Sampling.

🟡 🤖 Modelle 11. April 2026 · 2 Min. Lesezeit

ArXiv SUPERNOVA: Reinforcement Learning auf natürlichen Anweisungen verbessert Reasoning um 52,8 %

Die neue Arbeit SUPERNOVA zeigt, dass die systematische Kuratierung bestehender Instruction-Tuning-Datensätze das Reasoning in LLMs erheblich verbessern kann. Auf SUPERNOVA trainierte Modelle erreichen eine relative Verbesserung von bis zu 52,8 % auf dem BBEH-Benchmark.

🟢 🤖 Modelle 10. April 2026 · 2 Min. Lesezeit

Sentence Transformers v5.4 unterstützt nun multimodale Embedding- und Reranker-Modelle

Die HuggingFace-Bibliothek Sentence Transformers hat Version 5.4 erhalten, die multimodale Embedding- und Reranker-Modelle einführt. Nutzer können nun Text, Bilder, Audio und Video in einen gemeinsamen Embedding-Raum abbilden und Cross-Modal-Ähnlichkeit berechnen — eine Vereinheitlichung der Suche über verschiedene Inhaltstypen hinweg.