IBM: Red Hat AI Inference + OpenShift Virtualization in der Cloud

IBM hat heute den Red Hat AI Inference Service und den Red Hat OpenShift Virtualization Service als verwaltete Enterprise-Produkte auf IBM Cloud angekündigt. Ersterer bietet eine optimierte Serving-Umgebung für Open-Source-LLMs (Granite, Llama, Mistral) mit automatischer Skalierung und SLA-Garantien; letzterer ermöglicht den Betrieb von VMs und Containern in derselben OpenShift-Steuerungsebene. Ziel: den Betriebsaufwand für Enterprise-Teams zu reduzieren, die Open-Source-KI ohne eigene Kubernetes-Infrastruktur nutzen möchten.

Was genau kündigt IBM heute an?

IBM hat im Rahmen des Think-2026-Events in Boston zwei verwaltete Produkte auf IBM Cloud angekündigt. Ersteres ist der Red Hat AI Inference Service — ein verwalteter Inferenz-Endpunkt für Open-Source-LLMs. Zweiteres ist der Red Hat OpenShift Virtualization Service — ein verwaltetes Produkt, das den Betrieb herkömmlicher virtueller Maschinen (KVM) zusammen mit Containern innerhalb derselben OpenShift-Steuerungsebene ermöglicht. Beide Produkte sind eine Antwort auf die Anforderungen von Enterprise-Teams, die einen modernen KI-Stack wünschen, aber nicht die Kapazität haben, eine eigene Kubernetes-Infrastruktur aufzubauen und zu betreiben.

Warum das wichtig ist: Open-Source-LLM-Serving ist in der Praxis nicht trivial. Ein Team, das Llama 4 oder Granite 4.1 lokal betreiben möchte, muss ein Framework wählen (vLLM, TGI, SGLang), GPUs bereitstellen (A100, H100, H200), Auto-Scaling konfigurieren, Load-Balancing, Multi-Tenant-Isolierung und Observability lösen. IBM bündelt diesen gesamten Aufwand unter einem verwalteten Produkt — der Kunde erhält einen REST-Endpunkt und ein SLA, nicht die Sorge um GPU-Node-Failover.

Wie funktioniert der Red Hat AI Inference Service?

Technisch verwendet Red Hat AI Inference vLLM als zugrunde liegenden Engine mit IBMs Layer für Multi-Tenant-Routing und Quota-Management. Der Modellkatalog umfasst IBM Granite 4.1 (letzten Monat angekündigt), Meta Llama 4, Mistral Large 2 sowie IBMs OpenShift-AI-Fine-tuned-Modelle. Preisgestaltung: per Token für den „Shared”-Tier (ähnlich wie OpenAI/Anthropic-APIs) oder per GPU-Stunde für den „Dedicated”-Tier (besser kalkulierbare Kosten für Workloads mit konstantem QPS).

Der OpenShift Virtualization Service löst parallel ein weiteres Problem: Enterprise-Teams haben Legacy-Anwendungen (Java EE, Datenbanken), die in VMs leben, aber eine schrittweise Migration zu Containern anstreben. Durch den Betrieb beider Workloads in derselben Steuerungsebene werden Netzwerkrichtlinien, RBAC und Observability konsolidiert.

Warum kündigt IBM das jetzt an?

Das Timing ist strategisch. AWS hat gestern (11.05.) Claude Platform GA angekündigt — ein AWS-Konto wird zum einzigen Onboarding-Punkt für den Anthropic-Stack. Google hat im April Gemini Enterprise mit lokaler Datenresidenz in 12 Ländern angekündigt. IBMs Vorteil in diesem Wettbewerb ist die Open-Source-Ausrichtung (Modelle, die auch on-premises gehostet werden können) und Enterprise-Grade-Compliance (FedRAMP High, HIPAA, EU-Datenresidenz in Frankfurt und Madrid).

Für einen Enterprise-CIO, der „Build vs. Buy” für KI-Infrastruktur bewertet, füllt IBMs Angebot eine spezifische Nische: Ein Team, das bereits OpenShift on-premises nutzt, kann nun KI-Workloads auf IBM Cloud mit derselben Orchestrierung betreiben und VMs schrittweise migrieren. Dies ist ein defensiver Schachzug gegen Hyperscaler, die konkrete KI-Produkte anbieten, aber verlangen, dass Kunden „in ihrem Ökosystem leben”.

Was bedeutet das für Red-Hat-Kunden außerhalb von IBM Cloud?

Red Hat OpenShift AI (früher: OpenShift Data Science) bleibt weiterhin als eigenständiges Produkt verfügbar, das Enterprise-Teams auf AWS, Azure, GCP oder on-premises deployen können. IBMs verwaltete Dienste sind kein Ersatz, sondern eine Optimierung für Kunden, die bereits IBM Cloud nutzen oder ein vollständig verwaltetes Erlebnis wünschen. Die zugrunde liegende Technologie (vLLM, Granite-Modelle, OpenShift Virtualization) bleibt Open-Source, was Vendor-Lock-in-Bedenken ausräumt — Kunden können zu einer anderen Cloud migrieren und dabei denselben Stack behalten.

Häufig gestellte Fragen

Was ist der Red Hat AI Inference Service?

Red Hat AI Inference Service ist eine verwaltete Inferenzplattform für Open-Source-LLMs. IBM Cloud übernimmt GPU-Bereitstellung, Modell-Loading, Auto-Scaling und Monitoring — Kunden zahlen per Token oder per Replikat. Unterstützte Modelle: IBM Granite-Familie, Meta Llama, Mistral sowie benutzerdefinierte Fine-tuned-Varianten.

Wer sind die Mitbewerber dieses Produkts?

Direkte Mitbewerber sind AWS Bedrock (Anthropic Claude, Mistral, Llama-Hosting), Azure AI Foundry (OpenAI + Open-Source) und Google Vertex AI Model Garden. IBMs Differenzierungsmerkmal: stärkere Enterprise-Integration mit bestehenden Red Hat OpenShift-Umgebungen, lokale Datenresidenz und eine Partnerschaft mit NVIDIA für GPU-Verfügbarkeit.

IBM: Red Hat AI Inference und OpenShift Virtualization Service als verwaltete Produkte auf IBM Cloud angekündigt

Was genau kündigt IBM heute an?

Wie funktioniert der Red Hat AI Inference Service?

Warum kündigt IBM das jetzt an?

Was bedeutet das für Red-Hat-Kunden außerhalb von IBM Cloud?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten