📦 Open Source

38 Nachrichten

🟢 📦 Open Source 23. Mai 2026 · 3 Min. Lesezeit

Kedro: Version 1.2.0 bringt @experimental-Dekorator und LangGraph Agentic Starter für GenAI-Pipelines

Editorial-Illustration: Pipeline-Knoten mit LangGraph-Orchestrierungsbrücke und Mermaid-Diagramm

Das Linux-Foundation-KI-Projekt Kedro veröffentlichte Version 1.2.0 zusammen mit Kedro-Viz 12.3.0. Der neue @experimental-Dekorator ermöglicht das Markieren von APIs in der Entwicklung; das Starter-Projekt support-agent-langgraph zeigt die Integration mit LangGraph-Orchestrierung und Langfuse/Opik-Prompt-Management. Kedro-Viz erhält Mermaid-Diagramme und Node-Preview-Erweiterbarkeit für besseres Pipeline-Debugging.

🟡 📦 Open Source 21. Mai 2026 · 2 Min. Lesezeit

Stability AI: Stable Audio 3.0 mit Open-Weight-Modellen und 6-Minuten-Generierung

Redaktionelle Illustration: Stability AI Stable Audio 3 Open-Weight-Modellfamilie mit 6-Minuten-Generierung und Inpainting-Unterstützung

Stability AI veröffentlichte am 20. Mai 2026 Stable Audio 3.0 — eine Familie aus 4 Audiomodellen (Small SFX, Small, Medium, Large), von denen drei Open-Weight sind und auf Hugging Face verfügbar sind. Die wichtigste Neuerung ist die Audiogenerierung bis zu 6 Minuten (Vorgänger — 47 Sekunden), dazu Audio-Inpainting, kausale Fortsetzung und LoRA-Fine-Tuning. Alle Modelle wurden ausschließlich mit lizenzierten Daten trainiert.

🟢 📦 Open Source 20. Mai 2026 · 2 Min. Lesezeit

LangChain: Der Agent, der Agenten repariert — wie LangSmith Engine entwickelt wurde

LangChain hat eine detaillierte technische Übersicht des LangSmith Engine veröffentlicht — eines autonomen Agenten, der Fehler in Produktions-KI-Agenten analysiert und konkrete Korrekturen vorschlägt. Er komprimiert Tausende von Traces, klassifiziert sie mit einem Screener-Sub-Agenten und generiert validierte Evaluatoren für das Issue Board.

🟡 📦 Open Source 19. Mai 2026 · 2 Min. Lesezeit

PyTorch: ExecuTorch MLX Delegate bringt 3–6× schnellere Modellausführung auf Apple-Silicon-GPUs

Editorial illustration: PyTorch veröffentlichte den experimentellen ExecuTorch MLX Delegate — ein Backend für Apple-MLX-Framework und Metal-GPU-Kernel

Das PyTorch-Team veröffentlichte den experimentellen ExecuTorch MLX Delegate — ein Backend, das das Apple-MLX-Framework und Metal-GPU-Kernel für 3- bis 6-fachen Throughput auf Apple-Silicon-Chips nutzt. Unterstützt Llama 3.2, Qwen 3, Phi-4 mini, Whisper und Voxtral-Echtzeit-Streaming-Transkription.

🟢 📦 Open Source 19. Mai 2026 · 2 Min. Lesezeit

GitHub: Copilot Spaces API jetzt allgemein verfügbar

Editorial illustration: GitHub gab die allgemeine Verfügbarkeit der REST-API für Copilot Spaces bekannt

GitHub gab die allgemeine Verfügbarkeit der REST-API für Copilot Spaces bekannt, mit der Teams kontextuelle KI-Arbeitsbereiche programmatisch erstellen, konfigurieren und löschen können. Die neue Schnittstelle ist besonders nützlich für Organisationen, die eine größere Anzahl von Spaces verwalten.

🟡 📦 Open Source 18. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15041 CAST-Framework: Case-Based Calibration für LLM Tool Use erreicht +5,85pp BFCLv2 und -26 % Reasoning-Länge

Editorial illustration: LLM-Agent mit Case-Library-Ansicht und Tool-Call-Validierungsindikatoren.

CAST ist ein neues arXiv-Paper, veröffentlicht am 14. Mai 2026 von Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao und Xiaosong Zhang, das ein Case-Based-Calibration-Framework für LLM Tool Use einführt. Der Ansatz behandelt historische Ausführungstrajektorien als strukturierte Information für Reinforcement Learning — er erreicht bis zu +5,85 Prozentpunkte Verbesserung der Ausführungsgenauigkeit gegenüber dem BFCLv2-Baseline und eine 26-prozentige Reduzierung der durchschnittlichen Reasoning-Länge.

🟢 📦 Open Source 18. Mai 2026 · 4 Min. Lesezeit

arXiv:2605.15706 Differentiable Mixture-of-Agents: dynamisches Per-Step-Agenten-Routing erreicht SOTA auf 9 Benchmarks

Editorial illustration: Neuronales Netz-Routing-Graph mit LLM-Agenten und Sparse-Activation-Indikatoren.

Differentiable Mixture-of-Agents ist ein neues arXiv-Paper vom 15. Mai 2026 von Xingjian Wu, Junkai Lu, Siyu Yan, Xiangfei Qiu, Jilin Hu, Chenjuan Guo und Bin Yang, das einen differenzierbaren Routing-Mechanismus für Multi-Agent-LLM-Kollaboration einführt. Das System wählt und aktiviert Agenten dynamisch pro Reasoning-Schritt statt fixer Topologien, erreicht SOTA-Ergebnisse auf 9 Benchmarks und adaptiert zur Test-Zeit ohne externe Annotationen über Predictive-Entropy-Self-Supervision.

🟢 📦 Open Source 18. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15100 Dual-Dimensional Consistency: 10-fache Reduzierung des Token-Verbrauchs bei gleichbleibender Genauigkeit über fünf Benchmarks

Editorial illustration: parallele Reasoning-Pfade mit Konfidenz-Score-Badges und einem Pruning-Icon.

Dual-Dimensional Consistency ist ein neues arXiv-Paper, veröffentlicht am 14. Mai 2026 von Rongman Xu, Yifei Li, Tianzhe Zhao, Yanrui Wu, Bo Li und Hang Yan, das die Effizienz von Inference-Time-Scaling adressiert. Das Framework kombiniert ein Confidence-Weighted-Bayesian-Protokoll und Trend-Aware Stratified Pruning — über fünf Benchmarks demonstriert es eine über 10-fache Reduzierung des Token-Verbrauchs bei gleichbleibender oder verbesserter Genauigkeit gegenüber starken Baselines.

🟢 📦 Open Source 18. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15015 Small Private LM: Wettbewerbsfähige Ergebnisse im Bildungsassessment-Design mit Human-in-the-Loop-Empfehlungen

Editorial illustration: Klassenzimmerszene mit kleinen LM-Icons, einer Bloom'schen Taxonomiepyramide und einer menschlichen Reviewer-Darstellung.

Small, Private Language Models as Teammates for Educational Assessment Design ist ein neues arXiv-Paper, veröffentlicht am 14. Mai 2026 von Chris Davis Jaldi, Anmol Saini, Shan Zhang, Noah Schroeder, Cogan Shimizu und Eleni Ilkou. Ein systematischer Vergleich kleinerer Modelle mit größeren Alternativen bei der Generierung pädagogisch ausgerichteter Aufgabenstellungen — kleinere Modelle erzielen wettbewerbsfähige Ergebnisse mit Datenschutzvorteilen, aber die Autoren betonen, dass modellbasierte Evaluierungen systematische Inkonsistenzen zeigen und empfehlen einen Human-in-the-Loop-Ansatz.

🟢 📦 Open Source 18. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15109 Traversal Context: Agentisches GraphRAG muss besuchte, aber nicht zitierte Entitäten für echte Provenienz dokumentieren

Editorial illustration: Knowledge-Graph mit hervorgehobenem Traversal-Pfad und Citation-Badge-Annotationen neben unzitierten Knoten.

Why Neighborhoods Matter ist ein neues arXiv-Paper, veröffentlicht am 14. Mai 2026 von Riccardo Terrenzi, Maximilian von Zastrow und Serkan Ayvaz (angenommen für den IJCAI-ECAI 2026 Joint Workshop on GENAIK and NORA). Die Autoren argumentieren, dass agentische GraphRAG-Systeme Citation Faithfulness als Trajectory-Level-Problem behandeln müssen — echte Provenienz umfasst nicht nur zitierte Belege, sondern auch besuchte, aber nicht zitierte Entitäten, die das Modell-Reasoning beeinflussen.

🟢 📦 Open Source 18. Mai 2026 · 2 Min. Lesezeit

xAI SDK Python v1.13.0: prepare_extension() ermöglicht Batch-Video-Extension für generierte Clip-Serien

Editorial illustration: eine Serie von Video-Frames mit Batch-Processing-Icon und xAI-SDK-Code-Snippet-Visualisierung.

xAI SDK Python v1.13.0 wurde am 16. Mai 2026 veröffentlicht (Commit-Autor @double-di, PR #141) und bringt die neue Methode prepare_extension() für Batch-Video-Extension. Die Funktion erweitert die in v1.10.0 eingeführte Video-API um Batch-Processing-Fähigkeiten — Entwickler können nun Extensions für eine Serie von Clips in einem einzigen Aufruf vorbereiten, anstatt sequenziell für jeden einzelnen Clip.

🟢 📦 Open Source 16. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15132 APWA: Verteilte Architektur für parallele Agenten-Workflows — nicht-interferierende Teilprobleme ohne Cross-Kommunikation

Redaktionelle Illustration: Verteilte Agenten-Architektur mit parallelen Teilzweigen ohne Interferenz.

APWA Distributed Architecture for Parallelizable Agentic Workflows ist ein neues Multi-Agent-System-Architekturpaper, veröffentlicht am 15. Mai 2026 auf arXiv von Evan Rose, Tushin Mallick, Matthew D. Laws, Cristina Nita-Rotaru und Alina Oprea. Das System dekompositiert Agenten-Workflows in nicht-interferierende Teilprobleme, die auf unabhängigen Ressourcen ohne Cross-Kommunikation ausgeführt werden. APWA skaliert bei Aufgaben, bei denen frühere Systeme vollständig versagen.

🟢 📦 Open Source 16. Mai 2026 · 4 Min. Lesezeit

arXiv:2605.14968 GraphFlow: klinischer Pilot 97,08 % Abschlussrate durch formal verifizierbare visuelle Workflows

Redaktionelle Illustration: Workflow-Diagramm mit Verifikationsprüfungen und Vertragsannotationen.

GraphFlow ist ein neues visuelles Workflow-System für zuverlässige agentische KI, das am 15. Mai 2026 auf arXiv von Drewry H. Morris V, Luis Valles und Reza Hosseini Ghomi von MedFlow Inc. veröffentlicht wurde. Das System adressiert das Compounding-Error-Problem (ein 10-schrittiger Prozess mit 90 % Schritt-Zuverlässigkeit gelingt nur in 35 % der Fälle) durch einen formal verifizierbaren Diagramm-als-Spezifikation-Ansatz. Ein einjähriger klinischer Pilot über drei Standorte führte 8.728 Workflow-Läufe mit einer Abschlussrate von 97,08 % durch einen frühen Prototyp durch.

🟡 📦 Open Source 15. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.15040 Orchard: Open-Source-Agentic-Framework erreicht 67,5 % auf SWE-bench Verified mit drei spezialisierten Rezepten

Editorial illustration: Agenten-Framework mit drei Rezept-Spalten und Sandbox-Runtime-Icons.

Orchard ist ein neues Open-Source-Agentic-Modeling-Framework, das am 14. Mai 2026 auf arXiv veröffentlicht wurde (Baolin Peng, Wenlin Yao und 12 Koautoren). Das Framework kombiniert eine leichtgewichtige Umgebungsschicht mit drei spezialisierten Trainings-Rezepten — SWE (Software Engineering), GUI (Vision-Language) und Claw (persönliche Assistenten). Die Orchard-SWE-Variante erreicht 67,5 % auf SWE-bench Verified nach RL-Training und ist damit die State-of-the-Art-Open-Source-Lösung für Coding-Agenten.

🟡 📦 Open Source 15. Mai 2026 · 2 Min. Lesezeit

LangChain: Labs-Forschungsprogramm für autonome Agenten — Partner Harvey, NVIDIA, Prime Intellect, Fireworks und Baseten

LangChain Labs ist ein neues angewandtes Forschungsprogramm, das am 14. Mai 2026 von Harrison Chase angekündigt wurde und auf die autonome Verbesserung von Agenten aus Betriebsdaten abzielt — Produktions-Traces, Nutzerfeedback und Evaluierungsergebnisse. LangSmith dient als Backbone für die Erfassung von Trace-Signalen. Zu den ersten Partnern gehören Harvey (Legal-KI), NVIDIA (GPU/Infra), Prime Intellect (verteiltes Rechnen), Fireworks (Inferenz) und Baseten (Deployment).

🟡 📦 Open Source 14. Mai 2026 · 2 Min. Lesezeit

LangChain: LangSmith Engine automatisiert Agenten-Debugging — Fehler-Clustering, Ursachenanalyse und PR-Empfehlungen

Redaktionelle Illustration: Agenten-Trace-Cluster mit Ursachenanalyse und PR-Symbolen.

LangSmith Engine ist eine neue LangChain-Plattform, veröffentlicht am 13. Mai 2026, die den Produktions-Feedback-Loop für KI-Agenten automatisiert. Die Engine analysiert Trace-Daten aus Produktionsläufen, gruppiert Fehler nach Mustern, diagnostiziert die Ursache im Code und generiert konkrete Pull-Request-Vorschläge sowie Evaluator-Definitionen. Ziel ist der Übergang vom manuellen Debugging zur kontinuierlichen automatisierten Verbesserung.

🟡 📦 Open Source 14. Mai 2026 · 2 Min. Lesezeit

PyTorch: Version 2.12 bringt geräteagnostisches torch.accelerator.Graph, MX-Quantisierung und 100× schnelleres linalg.eigh

PyTorch 2.12 ist die neue Produktionsversion des PyTorch-Frameworks, veröffentlicht am 13. Mai 2026, mit 2.926 Commits und 457 Beitragenden. Hauptfunktionen: geräteagnostische torch.accelerator.Graph-API für CUDA, XPU und Out-of-Tree-Backends, torch.export-Unterstützung für Microscaling-MX-Quantisierung (MXFP4/6/8), linalg.eigh bis zu 100× schneller auf CUDA über cuSolver sowie torch.cond innerhalb von CUDA Graphs. TorchScript wurde formal entfernt.

🟡 📦 Open Source 13. Mai 2026 · 2 Min. Lesezeit

LangChain: Delta Channels in LangGraph reduzieren Storage lang laufender Agenten um das 41-Fache

Redaktionelle Illustration: Datenströme reduziert durch Delta-Knoten mit Memory-Storage-Indikatoren.

LangGraph Delta Channels ist ein neuer LangChain-State-Update-Mechanismus vom 12. Mai 2026, der das O(N²)-Storage-Wachstum bei lang laufenden Agenten löst. Statt eines vollständigen Snapshots bei jedem Schritt speichern Delta Channels inkrementelle Änderungen und nehmen alle 50 Schritte einen periodischen Snapshot. Ein Benchmark zeigt eine 41-fache Storage-Reduzierung; das Update ist in Deep Agents v0.6 und LangGraph v1.2 enthalten.

🟡 📦 Open Source 13. Mai 2026 · 2 Min. Lesezeit

PyTorch: ExecuTorch kommt auf Arm Cortex-A, Cortex-M und Ethos-U85 NPU für Edge-KI-Inferenz

Redaktionelle Illustration: Edge-Geräte mit Arm-Chips und neuronaler Netzwerk-Grafik.

ExecuTorch on Arm ist eine neue PyTorch-Foundation-Initiative vom 12. Mai 2026, die die ExecuTorch-Runtime auf Arm Cortex-A- und Cortex-M-CPUs sowie Ethos-U-NPU-Beschleuniger ausweitet. Das OPT-125M-Transformer- und das MobileNetV2-Modell laufen auf Raspberry Pi 5 und Ethos-U85 mit 256 MAC-Einheiten; das Arm-Education-Repository bringt praxisorientierte Labs für Edge-KI-Deployment.

🟡 📦 Open Source 7. Mai 2026 · 2 Min. Lesezeit

AMD: vLLM-ATOM-Plugin bringt Instinct-Optimierungen ohne Änderungen am vLLM-Code

Editorial illustration: vLLM-ATOM-Plugin bringt Instinct-Optimierungen ohne Änderungen am vLLM-Code

AMD hat vLLM-ATOM vorgestellt, ein Open-Source-Plugin, das Optimierungen für Instinct-GPUs in das vLLM-Produktions-Framework integriert, ohne den Quellcode zu verändern. Es wird automatisch über Python-entry_points aktiviert, unterstützt Dense- und MoE-Modelle wie Kimi-K2.5 und DeepSeek V3/R1 und nutzt AITER-Kernel für fused MoE und Flash Attention.

🔴 📦 Open Source 6. Mai 2026 · 2 Min. Lesezeit

Allen Institute: MolmoAct 2 ist das erste Open-Source-Robotik-Foundation-Modell, das GPT-5 und Gemini 2.5 Pro übertrifft

Redaktionelle Illustration: zweiarmiger Franka-Roboter mit offener Box im Labor, symbolisiert das Open-Source-Foundation-Modell MolmoAct 2

MolmoAct 2 ist ein Open-Source-Robotik-Foundation-Modell, das Allen Institute for AI am 5. Mai veröffentlicht hat. Das Modell erzielt 63,8/100 auf Embodied-Reasoning-Benchmarks, übertrifft GPT-5 und Gemini 2.5 Pro, beschleunigt die Inferenz um den Faktor 37 und ist das erste Basismodell mit eingebetteten bimanuellen Fähigkeiten.

🟢 📦 Open Source 30. April 2026 · 3 Min. Lesezeit

IBM Granite 4.1: Open-Source-Familie mit 3B/8B/30B Apache-2.0-Modellen, trainiert auf 15B Token, zeigt, dass ein dichtes 8B-Modell ein 32B-MoE-Modell ebenbürtig ist

Redaktionelle Illustration: Granitblöcke mit einem aufgeschlagenen Buch als Symbol der Open-Weights-Lizenz

Am 29. April 2026 veröffentlichte IBM im HuggingFace-Blog Details zum Aufbau der Granite-4.1-Modellfamilie — 3B, 8B und 30B Dense-Varianten unter der Apache-2.0-Lizenz. Trainiert auf ~15B Token durch eine 5-Phasen-Pipeline-Strategie mit einem 4-Phasen-RL unter Verwendung von GRPO+DAPO-Loss. Granite 4.1-8B Instruct erreicht oder übertrifft das frühere Granite 4.0-H-Small (32B-A9B MoE) auf den meisten Benchmarks — und zeigt, dass dichte Modelle bei gleichem Aktivierungsbudget MoE-Qualität erreichen.

🟡 📦 Open Source 29. April 2026 · 2 Min. Lesezeit

Marco-MoE: Open-Source-mehrsprachiges MoE mit 5 % aktiven Parametern übertrifft Dense-Modelle mit 3–14-fach mehr Aktivierungen

Redaktionelle Illustration: Konstellation von Experten-Modulen um einen zentralen Router mit verschiedenen Sprachglyphen

Marco-MoE ist eine neue Open-Source-Familie von Sparse-Mixture-of-Experts-Modellen, die am 28. April 2026 von einem Team um Jiang, Zhao und Kollegen veröffentlicht wurde. Die Modelle aktivieren pro Token nur etwa 5 % der Gesamtparameter, wurden durch Upcycling aus Dense-Modellen auf 5 Billionen Tokens trainiert, und die Instruct-Varianten übertreffen Dense-Konkurrenten mit 3 bis 14-fach mehr aktivierten Parametern. Gewichte, Datensatz und Trainingsrezept sind öffentlich verfügbar.

🟡 📦 Open Source 28. April 2026 · 3 Min. Lesezeit

OpenAI veröffentlicht Privacy Filter: 1,5 Mrd. Parameter, Apache-2.0-Lizenz, 128K-Kontext und State-of-the-Art-Erkennung von acht PII-Kategorien in einem Durchlauf

Stilisierte Darstellung eines Dokuments, dessen sensible Abschnitte automatisch durch einen Software-Filter verborgen werden, dargestellt durch abstrakte Schichten und Kategoriebeschriftungen.

OpenAI hat den Privacy Filter veröffentlicht — einen Open-Source-Detektor für personenbezogene Daten mit 1,5 Milliarden Parametern (50 Mio. aktiv), einem 128.000-Token-Kontext und einer Apache-2.0-Lizenz. Er erkennt acht PII-Kategorien in einem einzigen Durchlauf und erzielt State-of-the-Art-Ergebnisse im PII-Masking-300k-Benchmark, mit Unterstützung für mehrere Sprachen.

🟢 📦 Open Source 28. April 2026 · 4 Min. Lesezeit

ONNX v1.21.0 erscheint mit Opset 26: neue CumProd- und BitCast-Operatoren, 2-Bit-Typen-Unterstützung und Python-3.14-Free-Threading-Experiment

Abstrakte Illustration eines mehrschichtigen neuronalen Graphen mit hervorgehobenen neuen Operatoren und numerischen Bezeichnungen für 2-Bit-Tensoren als Symbol der Opset-26-Version.

Die Linux Foundation AI & Data Foundation veröffentlichte am 27. April 2026 ONNX v1.21.0 — es führt Opset 26 mit den Operatoren CumProd und BitCast, Unterstützung für 2-Bit-Typen, experimentelles Python-3.14-Free-Threading sowie Verbesserungen der Integer-Divisionskonsistenz und der Compiler-Sicherheit ein.

🟡 📦 Open Source 24. April 2026 · 3 Min. Lesezeit

Google DeepMind Decoupled DiLoCo: 20-fach geringere Netzwerkbandbreite für KI-Training über geografisch verteilte Rechenzentren

Editorial illustration: Open-Source-Tool — open-source

Google DeepMind hat Decoupled DiLoCo vorgestellt, eine verteilte Architektur für das Training von KI-Modellen. Die erforderliche Netzwerkbandbreite sinkt von 198 Gbit/s auf 0,84 Gbit/s über 8 Rechenzentren, und es wird ein Goodput von 88 % gegenüber 27 % bei herkömmlichen Methoden erreicht.

🟡 📦 Open Source 24. April 2026 · 3 Min. Lesezeit

vLLM integriert DeepSeek V4 mit 8,7× kleinerem KV-Cache: eine Million Token Kontext auf Standard-GPU-Hardware

Editorial illustration: vLLM DeepSeek V4 Kompression — KV-Cache-Module

vLLM veröffentlichte am selben Tag wie DeepSeek die vollständige Integration von V4-Pro und V4-Flash, mit einem 8,7× kleineren KV-Cache gegenüber V3.2 bei einer Million Token Kontext. Die Kombination aus Sparse Attention und aggressiver Kompression ermöglicht Serving auf Standard-GPU-Hardware.

🟢 📦 Open Source 24. April 2026 · 2 Min. Lesezeit

Allen AI: OlmoEarth-Embeddings ermöglichen Landschaftssegmentierung mit nur 60 Pixeln und einem F1-Wert von 0,84

Allen Institute for AI hat OlmoEarth Studio mit drei Modellgrößen (Nano, Tiny, Base) für Satelliten-Embeddings veröffentlicht. Die Modelle erzielen einen F1-Wert von 0,84 für die Landschaftssegmentierung mit nur 60 markierten Pixeln und unterstützen Änderungserkennung und PCA-Visualisierung.

🟡 📦 Open Source 23. April 2026 · 2 Min. Lesezeit

Apple auf der ICLR 2026 stellt ParaRNN vor: Paralleles Training nichtlinearer RNNs mit 665-fachem Speedup

Redaktionelle Illustration: Open-Source-Tool — open-source

Apple präsentierte fünf Forschungsarbeiten auf der ICLR 2026 in Rio de Janeiro. Die bedeutendste ist ParaRNN — eine Methode zum parallelen Training nichtlinearer rekurrenter neuronaler Netze mit einem 665-fachen Speedup gegenüber sequenziellen Ansätzen, die RNNs auf Milliarden von Parametern skaliert und mit Transformern konkurriert.

🟡 📦 Open Source 23. April 2026 · 2 Min. Lesezeit

Linux Foundation veröffentlicht RGAF-Leitfaden mit 35 Open-Source-Tools für verantwortungsvolle KI

Linux Foundation AI & Data hat einen praktischen Leitfaden zur Implementierung des RGAF (Responsible Generative AI Framework) über neun Dimensionen verantwortungsvoller KI veröffentlicht, mit einem Katalog von 35 konkreten Open-Source-Tools und Ausrichtung an NIST AI RMF, EU AI Act, ISO/IEC 42001 und OECD-Grundsätzen.

🟢 📦 Open Source 22. April 2026 · 2 Min. Lesezeit

WorldDB: Memory-Engine, der Vektordatenbank und Weltgraph für KI-Agenten vereint

Redaktionelle Illustration: Vektordatenbank und Knotengraph durch Ontologie verbunden im Agenten-Gedächtnis

WorldDB ist eine neue Memory-Engine für KI-Agenten, die eine Vektordatenbank mit einem Graphen verschachtelter Welten und einer Ontologie kombiniert. Sie gleicht Wissen beim Schreiben ab und verhindert Widersprüche im Agenten-Gedächtnis — mit 96,40 % Genauigkeit auf dem LongMemEval-s-Benchmark.

🟡 📦 Open Source 21. April 2026 · 3 Min. Lesezeit

Allen Institute BAR: Modulares Post-Training mit Mixture-of-Experts bringt +7,8 Punkte für Mathematik auf OLMo 2 7B

Redaktionelle Illustration eines modularen MoE-Systems mit einer Router-Komponente, die Anfragen an verschiedene Experten delegiert

BAR (Branch-Adapt-Route) ist ein neuer modularer Ansatz zum Post-Training vom Allen Institute for AI, der unabhängiges Training von Domänen-Experten — Mathematik, Code, Tool Use, Sicherheit — und deren Zusammenführung in ein einheitliches Mixture-of-Experts-Modell ermöglicht. Ergebnisse auf OLMo 2 7B: 49,1 durchschnittlicher Score, +7,8 Punkte für Mathematik und +4,7 für Code gegenüber dem Baseline-Retraining.

🟡 📦 Open Source 21. April 2026 · 3 Min. Lesezeit

AMD FLy: Training-freies spekulatives Decoding liefert 5,21-fache Beschleunigung auf Llama-3.3-405B mit über 99 % Genauigkeit

Redaktionelle Illustration des spekulativen Decodings — Draft-Modell schlägt Tokens vor, Target-Modell überprüft sie parallel

AMD FLy ist eine neue training-freie Methode des spekulativen Decodings, die durch semantische Akzeptanz von Draft-Tokens eine 4,80- bis 5,21-fache Beschleunigung auf Llama-3.3-405B und 2,74-fach auf Llama-3.1-70B bei einer Genauigkeit von über 99 % erreicht, ohne zusätzliches Modelltraining.

🔴 📦 Open Source 18. April 2026 · 3 Min. Lesezeit

Google Gemma 4: vier offene Modelle, 31B Dense auf Platz drei der Arena-Bestenliste, Apache-2.0-Lizenz

Gemma 4 ist Googles neue Generation offener Modelle in vier Varianten: E2B für Mobilgeräte, E4B für Edge-Geräte, 26B MoE mit 3,8 Milliarden aktiven Parametern und 31B Dense. Das 31B-Modell belegt den dritten Platz auf der Arena-Bestenliste offener Modelle und übertrifft angeblich Modelle, die 20-mal größer sind. Das 26B MoE liegt auf Platz sechs. Alle Modelle sind multimodal (Text, Bild, Video, Audio), unterstützen 140 Sprachen, bieten bis zu 256K Token Kontext und werden unter der Apache-2.0-Lizenz veröffentlicht.

🟢 📦 Open Source 17. April 2026 · 2 Min. Lesezeit

HuggingFace: Leitfaden zum Training multimodaler Embedding- und Reranker-Modelle

HuggingFace hat einen detaillierten Leitfaden für das Fine-Tuning multimodaler Embedding- und Reranker-Modelle über die Sentence-Transformers-Bibliothek veröffentlicht. Der Fokus liegt auf der Vereinigung von Text und Bild in einem gemeinsamen Embedding-Raum, der semantische Suche über heterogene Daten ermöglicht. Die primäre Anwendung liegt in RAG-Systemen, die mit einer Mischung aus Dokumenten, Tabellen, Bildern und Scans arbeiten.

🟢 📦 Open Source 17. April 2026 · 2 Min. Lesezeit

HuggingFace: Transformers-to-MLX-Skill für Claude Code bringt KI-gestütztes Modell-Porting auf Apple Silicon

HuggingFace hat einen 15.000 Wörter umfassenden Transformers-to-MLX-Skill veröffentlicht, der Claude Code für das Portieren von Transformers-Modellen auf die MLX-LM-Plattform für Apple Silicon verwendet. Der Skill enthält ein Test-Harness, das Ergebnisse unabhängig verifiziert und das Problem von LLM-Halluzinationen eliminiert, und adressiert die wachsende Herausforderung von Open-Source-Projekten, bei denen KI-Agenten das Pull-Request-Volumen um das 10-Fache erhöhen.

🟢 📦 Open Source 16. April 2026 · 2 Min. Lesezeit

LangChain: Wie wir unsere Dokumentation mithilfe von Deep Agents dazu gebracht haben, sich selbst zu testen

LangChain hat mithilfe von Deep Agents ein automatisiertes System zum Testen der Dokumentation entwickelt, das veraltete Code-Beispiele verhindert. Das System nutzt mehrere Skills, die Inline-Code-Snippets in eigenständige Testdateien migrieren, sie über GitHub Actions ausführen und verifizierte Snippets regenerieren, sodass die Dokumentation stets den tatsächlichen Zustand der API widerspiegelt.

🟡 📦 Open Source 10. April 2026 · 2 Min. Lesezeit

Waypoint-1.5: KI generiert interaktive 720p-Welten auf einer handelsüblichen RTX 3090

Overworld hat Waypoint-1.5 veröffentlicht, ein Echtzeit-Video-World-Model, das interaktive virtuelle Umgebungen in 720p/60fps auf Consumer-GPUs wie der RTX 3090 und Apple Silicon Macs erzeugt. Das Modell wurde mit ~100-mal mehr Daten trainiert als die Vorgängerversion und ist Open Source auf HuggingFace verfügbar.