🟡 🤖 Modelle Veröffentlicht: · 4 Min. Lesezeit ·

GitHub Copilot Vision und Browser-Tools: zwei GA-Fähigkeiten an einem Tag

Redaktionelle Illustration: GitHub Copilot Vision und Browser-Tools werden allgemein verfügbar

GitHub hat an einem Tag zwei Copilot-Fähigkeiten auf GA erklärt: Vision für das Anhängen von Bildern und PDFs an Chat-Prompts sowie Browser-Tools, die Agenten in VS Code die Kontrolle über einen echten Browser geben. Beide sind ohne Admin-Aktion für alle Pläne verfügbar.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

GitHub hat am 1. Juli 2026 an einem Tag zwei bedeutende Copilot-Fähigkeiten auf GA erklärt: Vision, das bisher eine spezielle Policy-Konfiguration in Business- und Enterprise-Plänen erforderte, und Browser-Tools für VS Code, die Agenten erstmals die Kontrolle über einen echten, lebenden Browser geben. Beide Fähigkeiten sind für alle Nutzer ohne Admin-Aktion verfügbar.

Was kann Copilot Vision jetzt?

Copilot Vision ermöglicht das Anhängen visueller Materialien an Chat-Prompts, damit Copilot über den Inhalt von Bildern und Dokumenten gemeinsam mit Code nachdenken kann. Unterstützte Formate sind JPEG, PNG, GIF und WebP sowie PDF-Dokumente.

In VS Code können Dateien auf drei Wegen angehängt werden: durch Einfügen (Paste), Drag-and-Drop oder per Rechtsklick auf die Datei. Auf github.com funktioniert das Anhängen direkt in der Chat-Oberfläche, während Copilot CLI das Angeben von Dateipfaden im Terminal unterstützt.

Praktische Anwendungsfälle umfassen die Analyse von Design-Mockups im Gespräch über die Implementierung, Diagnose von Fehler-Screenshots, Nachdenken über Architekturdiagramme und die Verarbeitung technischer Dokumente im PDF-Format — alles in einem Gespräch mit Copilot, ohne zwischen Tools zu wechseln.

Vision ist in allen Arbeitsmodi verfügbar: ask, plan und agent.

Verfügbarkeit: alle Pläne ohne Admin-Aktion

Die entscheidende Änderung in der GA-Ankündigung ist die standardmäßige Verfügbarkeit. Bisher mussten Nutzer auf Business- und Enterprise-Plänen die Richtlinie „Editor Preview Features” aktiviert haben, um auf Vision-Fähigkeiten zuzugreifen. Ab dem 1. Juli 2026 gilt diese Bedingung nicht mehr.

Vision ist standardmäßig für alle Pläne aktiviert — Free, Pro, Pro+, Business und Enterprise — ohne jegliche Admin-Aktion. Dies beseitigt die administrative Hürde für Organisationen, die die Aktivierung wegen Genehmigungsverfahren für Preview-Funktionen verzögert hatten.

Die einzige Besonderheit für Business- und Enterprise-Nutzer: Angehängte Bilder und PDFs werden ca. 24 Stunden für die Erbringung des Dienstes gespeichert.

Browser-Tools: Browser-Steuerung aus VS Code

Parallel zur Vision-GA hat GitHub auch Browser-Tools in VS Code auf GA erklärt — eine Fähigkeit, die Copilot-Agenten direkte Kontrolle über einen echten, lebenden Browser gibt, kein simuliertes Umfeld.

Agenten können über Browser-Tools folgende Aktionen ausführen:

  • Navigation — URLs öffnen und durch Seiten navigieren
  • Interaktion — Klicken, Tippen, Hover, Drag-and-Drop, Dialoge steuern
  • Lesen — Seiteninhalte und DOM-Element-Attribute abrufen
  • Diagnose — Konsolenfehler und JavaScript-Ausnahmen erfassen
  • Screenshots — Aktuellen Seitenzustand aufnehmen

Parallele Agenten können gleichzeitig isolierte Browser-Sitzungen halten, gegenseitig unabhängig und getrennt von der eigenen Browser-Aktivität des Nutzers.

Datenschutz und granulare Berechtigungen

GitHub hat Browser-Tools mit dem Datenschutz des Nutzers als expliziter Priorität gestaltet. Offene Tabs bleiben privat — sie können ohne Nutzeraktion nicht gelesen werden. Der Nutzer muss einen Tab explizit über die Option „Share with Agent” mit dem Agenten teilen.

Für sensible Berechtigungen — Kamerazugriff, Mikrofon, Standort und Lesen der Zwischenablage — fordert das System bei jeder Nutzung explizite Genehmigung, nicht einmalig bei Installation oder Start des Agenten. Das bedeutet, dass ein Agent nicht ohne aktive Nutzereinwilligung für jeden einzelnen Vorgang auf diese Ressourcen zugreifen kann.

Administrative Möglichkeiten für Enterprise

Für Enterprise-Organisationen kommen Browser-Tools mit granularen Kontrollen:

  • Toggle workbench.browser.enableChatTools zum Aktivieren oder Deaktivieren von Browser-Tools auf Organisationsebene
  • Domain-Filter, die einschränken, auf welche Domains Agenten navigieren dürfen, was unbefugten Zugriff auf externe Inhalte verhindert

Diese Kontrollen ermöglichen es Organisationen, Browser-Tools in einer kontrollierten Umgebung zu nutzen — beispielsweise durch Einschränkung auf interne Entwicklungsserver oder Testumgebungsdomains — ohne die Fähigkeit vollständig zu deaktivieren.

Zwei GA-Ankündigungen an einem Tag

Das gleichzeitige GA von Vision und Browser-Tools ist kein Zufall. Beide Fähigkeiten erweitern Copilots Reichweite über Text und Code hinaus — Vision hin zu visuellen Materialien und Dokumenten, Browser-Tools hin zum tatsächlichen Zustand einer Web-Anwendung in Entwicklung oder Produktion.

Zusammen mit der gleichzeitigen Ankunft von Kimi K2.7 Code als erstem Open-Weight-Modell in Copilot und der Ankündigung der Einstellung der GitHub Models-Plattform bis 30. Juli 2026 wird dieses Datum zu einem bedeutenden Wendepunkt in GitHubs KI-Strategie: weniger separate Plattformen, mehr Fähigkeiten konsolidiert in einem Tool, das ohne zusätzliche Konfiguration für alle verfügbar ist.

Häufig gestellte Fragen

Was kann Copilot Vision mit angehängten Bildern und PDFs?
Copilot kann über den visuellen Inhalt angehängter Dateien gemeinsam mit Code nachdenken — Design-Mockups, Diagramme, Fehler-Screenshots oder technische Dokumente im Kontext eines Code-Gesprächs analysieren.
Was sind Browser-Tools in GitHub Copilot und wozu dienen sie?
Browser-Tools ermöglichen Copilot-Agenten die Steuerung eines echten Browsers — Navigation, Klicken, Tippen, Inhalte lesen, Konsolenfehler erfassen und Screenshots machen. Parallele Agenten halten isolierte Sitzungen getrennt von der eigenen Browser-Aktivität des Nutzers.
Müssen Admins etwas unternehmen, um die Vision-Funktionalität zu aktivieren?
Nein. Vision ist ab GA standardmäßig für alle Pläne aktiviert, einschließlich Business und Enterprise, ohne Admin-Konfiguration. Die bisherige Anforderung der Richtlinie „Editor Preview Features” gilt nicht mehr.