🔴 🤖 Modelle Donnerstag, 30. April 2026 · 2 Min. Lesezeit ·

NVIDIA Nemotron 3 Nano Omni: 30B-A3B MoE-Multimodal-Modell mit 9-fachem Durchsatz für KI-Agenten

Redaktionelle Illustration: multimodales KI-Modell, das Bild, Audio und Text in einer einheitlichen Architektur verarbeitet

NVIDIA stellte am 28. April 2026 Nemotron 3 Nano Omni vor – ein Open-Source-30B-A3B-Hybrid-Mixture-of-Experts-Modell, das Bild, Audio, Sprache, Video, Dokumente und GUI-Screenshots in einer einzigen Architektur mit 256K-Kontext vereint. Der Durchsatz ist 9-mal höher als bei anderen offenen Omni-Modellen bei gleicher Interaktivität; das Modell führt sechs Leaderboards für Dokument-, Video- und Audioverständnis an. Es ist auf Hugging Face, OpenRouter, build.nvidia.com und über 25 Partnerplattformen verfügbar; frühe Anwender sind Palantir, Foxconn und Eka Care.

NVIDIA stellte am 28. April 2026 Nemotron 3 Nano Omni vor – ein Open-Source-Multimodal-Modell, das Bild, Audio und Sprache in einer einheitlichen Architektur für KI-Agenten vereint. Das Modell ist ein 30B-A3B-Hybrid-Mixture-of-Experts (MoE) mit einem 256K-Kontextfenster und einem Durchsatz, der 9-mal höher ist als bei anderen offenen Omni-Modellen bei gleicher Interaktivität. Die Positionierung ist eine direkte Herausforderung an die jüngsten Multimodal-Releases von Mistral, Meta und Alibaba.

Welche Modalitäten verarbeitet Nemotron Nano Omni?

Das Modell nimmt sechs Eingabetypen in einer einzigen Architektur entgegen und verarbeitet sie: Text, Bilder, Audio, Video, Dokumente mit Diagrammen und GUI-Screenshots. Zu den spezifischen technischen Komponenten gehören Conv3D und ein EVS-Modul (Efficient Video Scaling) für Video; das System wurde auf Displays mit einer Auflösung von 1920×1080 für die GUI-Navigation getestet. Es ist primär für KI-Agenten konzipiert, die Schnittstellenbeobachtung, Dokumentenlesen und Nutzerdialog im selben Arbeitsablauf kombinieren müssen.

Was bedeutet der 9-fache Durchsatz für die Inferenz?

NVIDIA gibt an, dass Nano Omni 9-mal mehr Token pro Sekunde erreicht als andere offene Omni-Modelle bei gleichbleibender Interaktivität. In der Praxis bedeutet dies, dass agentische Arbeitsabläufe, die bisher durch die Latenz der multimodalen Verarbeitung gebremst wurden – etwa das Lesen von Hunderten von Dokumentseiten bei gleichzeitigen GUI-Klicks – in Echtzeit laufen können. Das Modell führt derzeit in sechs Kategorien auf öffentlichen Leaderboards für Dokument-, Video- und Audioverständnis, obwohl NVIDIA in der Ankündigung keine konkreten Benchmark-Zahlen nennt.

Wo ist es verfügbar und wer nutzt es bereits?

Das Modell ist über Hugging Face, OpenRouter, NVIDIAs build.nvidia.com-Portal sowie mehr als 25 Partnerplattformen verfügbar. Zu den aktiven frühen Nutzern zählen Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir und Pyler. Dell Technologies, Docusign, Infosys, Oracle und Zefr befinden sich in der Evaluierungsphase. Die breite Distribution und die Liste der Unternehmensanwender deuten darauf hin, dass NVIDIA das Modell für den sofortigen Enterprise-Einsatz vorbereitet hat – nicht nur für Forschungszwecke.

Häufig gestellte Fragen

Was ist Nemotron 3 Nano Omni?
Ein Open-Source-30B-A3B-Hybrid-Mixture-of-Experts-Modell, das Bild, Audio, Sprache, Video, Dokumente, Diagramme und GUI-Screenshots in einer einzigen Architektur verarbeitet. Das Kontextfenster umfasst 256K Token; für die Videoverarbeitung kommen Conv3D und EVS-Technologien zum Einsatz.
Wie viel schneller ist es im Vergleich zur Konkurrenz?
9-facher Durchsatz gegenüber anderen offenen Omni-Modellen bei gleicher Interaktivität. Das Modell führt in sechs Kategorien der Leaderboards für Dokument-, Video- und Audioverständnis.
Wer nutzt es bereits?
Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir und Pyler setzen das Modell aktiv ein. Dell Technologies, Docusign, Infosys, Oracle und Zefr evaluieren es derzeit für eigene Implementierungen.
🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.