Samstag, 18. April 2026

13 Nachrichten — 🔴 2 kritisch , 🟡 7 wichtig , 🟢 4 interessant

🤖 Modelle (4)

🟡 🤖 Modelle 18. April 2026 · 3 Min. Lesezeit

AWS Nova Destillation für die semantische Videosuche: 95 Prozent Kosteneinsparung und doppelt so schnelle Inferenz

AWS hat demonstriert, wie Modell-Destillation die Intelligenz des großen Nova-Premier-Modells in das kleinere Nova Micro für das Video-Such-Routing überträgt. Die Ergebnisse umfassen 95 Prozent Einsparungen bei den Inferenzkosten, 50 Prozent niedrigere Latenz (833 ms statt 1741 ms) und beibehaltene Qualität laut LLM-as-Judge-Bewertung (4,0 von 5). Das gesamte Training verwendete 10.000 synthetische Beispiele, die aus Nova Premier generiert wurden.

🟡 🤖 Modelle 18. April 2026 · 4 Min. Lesezeit

AWS Nova Multimodal Embeddings für die Videosuche: hybrider Ansatz liefert 90 Prozent Recall statt 51 Prozent

AWS Nova Multimodal Embeddings ist eine neue Architektur, die visuellen, Audio- und Textinhalt eines Videos gleichzeitig in einen gemeinsamen 1024-dimensionalen Vektorraum verarbeitet, ohne in Text umzuwandeln. Die Kombination von semantischem Embedding mit BM25-lexikalischer Suche ergibt 90 Prozent Recall@5 gegenüber 51 Prozent bei Baseline-Combined-Mode-Embeddings — ein Sprung von 30 bis 40 Prozentpunkten über alle Metriken.

🟡 🤖 Modelle 18. April 2026 · 4 Min. Lesezeit

NVIDIA Nemotron OCR v2: 34,7 Seiten pro Sekunde, fünf Sprachen in einem Modell, 28-mal schneller als PaddleOCR

NVIDIA hat Nemotron OCR v2 auf HuggingFace veröffentlicht — ein mehrsprachiges OCR-Modell, das 34,7 Seiten pro Sekunde auf einer einzelnen A100-GPU verarbeitet. Das ist 28-mal schneller als PaddleOCR v5. Das Modell unterstützt Englisch, Chinesisch, Japanisch, Koreanisch und Russisch in einer einzigen Architektur ohne Spracherkennung. Trainiert auf 12,2 Millionen synthetischen Bildern, sind Modell und Datensatz unter der NVIDIA Open Model License und CC-BY-4.0 verfügbar.

🟢 🤖 Modelle 18. April 2026 · 3 Min. Lesezeit

ArXiv AC/DC: automatische Entdeckung spezialisierter LLMs durch Koevolution von Modellen und Aufgaben

AC/DC ist ein neues Framework, das auf ICLR 2026 vorgestellt wurde und gleichzeitig LLM-Modelle durch Model Merging und Aufgaben durch synthetische Daten weiterentwickelt. Entdeckte Modellpopulationen demonstrieren eine breitere Expertise-Abdeckung als manuell kuratierte Modelle ohne explizite Benchmark-Optimierung. Modelle übertreffen größere Pendants bei geringerem GPU-Speicher, was ein neues Paradigma in der kontinuierlichen LLM-Entwicklung darstellt.

📦 Open Source (1)

🔴 📦 Open Source 18. April 2026 · 3 Min. Lesezeit

Google Gemma 4: vier offene Modelle, 31B Dense auf Platz drei der Arena-Bestenliste, Apache-2.0-Lizenz

Gemma 4 ist Googles neue Generation offener Modelle in vier Varianten: E2B für Mobilgeräte, E4B für Edge-Geräte, 26B MoE mit 3,8 Milliarden aktiven Parametern und 31B Dense. Das 31B-Modell belegt den dritten Platz auf der Arena-Bestenliste offener Modelle und übertrifft angeblich Modelle, die 20-mal größer sind. Das 26B MoE liegt auf Platz sechs. Alle Modelle sind multimodal (Text, Bild, Video, Audio), unterstützen 140 Sprachen, bieten bis zu 256K Token Kontext und werden unter der Apache-2.0-Lizenz veröffentlicht.

🤝 Agenten (2)

🟡 🤝 Agenten 18. April 2026 · 3 Min. Lesezeit

LangChain und Cisco demonstrieren Agentic Engineering: 93 % kürzere Fehlererkennung und 65 % schnellere Entwicklung

Redaktionelle Illustration: ein koordinierter Schwarm von KI-Agenten in der Softwareentwicklung, abstrakte Netzwerkvisualisierung

Agentic Engineering ist ein Ansatz, bei dem Schwärme von KI-Agenten den gesamten Software-Lebenszyklus übernehmen – nicht nur das Schreiben von Code. Die LangChain- und Cisco-Ingenieure Renuka Kumar und Prashanth Ramagopal veröffentlichten am 17. April 2026 eine Referenzarchitektur mit Leader- und Worker-Agenten, die in Ciscos Pilotprojekt mit 70 Nutzern und 512 Sitzungen die Erkennungszeit für Bug-Ursachen um 93 % und die Ausführungszeit von Entwicklungs-Workflows um 65 % reduzierte.

🟢 🤝 Agenten 18. April 2026 · 2 Min. Lesezeit

HuggingFace veröffentlicht Ecom-RLVE-Gym: 8 Umgebungen und ein 12-achsiges Curriculum für das Training von E-Commerce-Agenten mit Reinforcement Learning

Redaktionelle Illustration: abstrakte E-Commerce-Trainingsumgebung mit einem Netzwerk aus Produkten und Lernpfaden

Das Owlgebra-KI-Team veröffentlichte am 16. April 2026 im HuggingFace-Blog das Projekt Ecom-RLVE-Gym – ein offenes Framework mit 8 verifizierbaren Umgebungen für konversationelle E-Commerce-Agenten und algorithmischer Belohnung anstelle eines LLM-Richters. Das System verwendet einen Katalog mit 2 Millionen Produkten, das Qwen-3-8B-Modell und ein adaptives 12-achsiges Curriculum, das die Aufgabenschwierigkeit für den Agenten schrittweise erhöht – als Antwort auf die Grenzen des Supervised Fine-Tuning bei komplexen mehrstufigen Workflows.

🏥 In der Praxis (5)

🔴 🏥 In der Praxis 18. April 2026 · 3 Min. Lesezeit

Anthropic Claude Design: visueller Kollaborationsassistent auf Basis von Claude Opus 4.7 für Design, Präsentationen und Prototypen

Claude Design ist ein neues Produkt von Anthropic Labs, das Claude Opus 4.7 in ein kollaboratives Werkzeug für die visuelle Gestaltung verwandelt — für Designs, Prototypen, Präsentationen und One-Pager. Das System liest automatisch das Design-System aus Codebases und Design-Dateien, unterstützt Inline-Kommentare und Schieberegler zur Anpassung und bietet eine direkte Übergabe an Claude Code zur Implementierung. Verfügbar in der Research Preview für Pro-, Max-, Team- und Enterprise-Abonnenten ab dem 17. April 2026.

🟡 🏥 In der Praxis 18. April 2026 · 3 Min. Lesezeit

Anthropic: Infrastruktur-Rauschen verschiebt agentische Benchmark-Ergebnisse um bis zu 6 Prozentpunkte

Forscher bei Anthropic haben nachgewiesen, dass die RAM-Konfiguration und der CPU-Headroom agentische Coding-Benchmark-Ergebnisse um 6 Prozentpunkte verschieben können — mehr als der Unterschied zwischen den Top-Modellen auf der Bestenliste. Getestet wurden Terminal-Bench 2.0 und SWE-bench. Empfehlung: Vorsprünge unter 3 Prozentpunkten sollten mit Skepsis betrachtet werden, bis die Eval-Konfiguration dokumentiert und abgeglichen ist.

🟡 🏥 In der Praxis 18. April 2026 · 3 Min. Lesezeit

GitHub Copilot CLI erhält automatische Modellauswahl: 10 % Rabatt auf Multiplikatoren für alle zahlenden Nutzer

Redaktionelle Illustration: Terminal mit verzweigenden Pfeilen, die auf verschiedene KI-Modelle im automatischen Routing zeigen

GitHub gab am 17. April 2026 bekannt, dass die automatische KI-Modellauswahl im Copilot-CLI-Tool für alle Copilot-Pläne allgemein verfügbar ist. Das System leitet Anfragen dynamisch an Modelle wie GPT-5.4, GPT-5.3-Codex, Sonnet 4.6 und Haiku 4.5 weiter, abhängig von den Administrator-Richtlinien. Zahlende Nutzer erhalten 10 % Rabatt auf den Modell-Multiplikator bei Verwendung des Auto-Modus – ein Modell mit einem 1x-Multiplikator verbraucht anstelle von 1 nur 0,9 Premium-Requests.

🟡 🏥 In der Praxis 18. April 2026 · 4 Min. Lesezeit

PyTorch und Meta: über 90 Prozent effektive Trainingszeit durch 40+ Optimierungen, MegaCache reduziert PT2-Kompilierung um 40 Prozent

Meta hat veröffentlicht, wie sie über 90 Prozent Effective Training Time (ETT) für das Offline-Training ihrer Empfehlungsmodelle erreicht haben. Die Methode umfasst mehr als 40 neue Optimierungen im PyTorch-Ökosystem, MegaCache, das die PT2-Kompilierungszeit um 40 Prozent reduziert, eigenständiges Modell-Publishing, das 30 Minuten pro Job einspart, und asynchrones Checkpointing. Die Verbesserungen wurden über PyTorch und TorchRec als Open Source veröffentlicht.

🟢 🏥 In der Praxis 18. April 2026 · 3 Min. Lesezeit

AWS führt granulare Kostenzuordnung für Amazon Bedrock nach IAM-Principals ein

Amazon Bedrock verfolgt nun Inferenzkosten nach IAM-Principal — dem spezifischen Nutzer, der Rolle oder der föderalen Identität, die die API aufruft. Die Funktion integriert sich ohne Mehrkosten in AWS Cost and Usage Reports (CUR 2.0) und Cost Explorer. Sie unterstützt vier Zugriffsszenarien: direkte IAM-Nutzer, Anwendungsrollen, föderale Authentifizierung und LLM-Gateway-Proxy-Muster. In allen kommerziellen AWS-Regionen verfügbar.

💬 Community (1)

🟢 💬 Community 18. April 2026 · 3 Min. Lesezeit

Apple auf der ICLR 2026 in Rio: über 40 Poster, MLX-Demo auf iPad Pro, SHARP-3D-Generierung und MANZANO Unified Model

Apple ML hat einen Überblick über die Forschung veröffentlicht, die auf der ICLR-2026-Konferenz in Rio de Janeiro vom 23. bis 27. April 2026 präsentiert wird. Das Unternehmen sponsert die Konferenz und hat Stand 204, an dem lokale LLM-Inferenz auf Apple Silicon über das MLX-Framework und das SHARP-3D-Modell auf dem iPad Pro demonstriert werden. Mehr als 40 Poster und eine mündliche Präsentation werden vorgestellt: 'To Infinity and Beyond — Tool-Use Unlocks Length Generalization'.

← Vorheriger Tag Nächster Tag →