Modelle
Google Gemini
Multimodale Foundation Models von Google DeepMind, die Text, Bilder, Audio und Video verarbeiten — treiben die Gemini-App, Workspace und Vertex AI an.
Google Gemini ist eine Familie multimodaler Foundation Models, die von Google DeepMind entwickelt und im Dezember 2023 als Nachfolger der früheren Reihen PaLM und LaMDA angekündigt wurde. Gemini wurde von Anfang an als nativ multimodal konzipiert: Es verarbeitet Text, Bilder, Audio, Video und Code innerhalb eines einzigen großen Sprachmodells, statt die Modalitäten nachträglich an ein Textmodell „anzukleben”.
Die Reihe umfasst mehrere Stufen: Gemini Nano läuft auf Geräten, Flash zielt auf Cloud-Inferenz mit hohem Durchsatz, Pro ist das alltägliche Arbeitstier, und Ultra/Advanced steht zusammen mit GPT und Claude an der Frontier. Spätere Versionen — Gemini 1.5, 2.0, 2.5 — erweiterten den Kontext auf eine Million Token und mehr, fügten native Werkzeugnutzung hinzu und reiften zu KI-Agenten heran, die Browser und Codebasen steuern können.
Gemini treibt die gleichnamige Endkunden-App, KI-Funktionen in Google Workspace (Docs, Gmail, Sheets, Meet), Android-Assistenten und die Vertex-AI-Plattform für Entwickler an. Google bietet außerdem Gemma an — Open-Weight-Derivate, die architektonische Ideen mit Gemini teilen, aber für die Open-Source-Gemeinschaft gedacht sind.