Google: Gemini 3.5 FlashにComputer Use — ブラウザ・スマホ・デスクトップ対応エージェント
GoogleはGemini 3.5 FlashにComputer Useツールを統合し、AIエージェントがブラウザ、モバイルデバイス、デスクトップアプリケーションを自律的に操作できるようにしました。モデルはこれまでで最高のOSWorldスコアを達成し、プロンプトインジェクション攻撃に対するエンタープライズ保護も備えています。
この記事はAIにより一次情報源から生成されました。
GoogleはComputer Useツールの統合をGemini 3.5 Flashに直接発表しました。これまで別のGemini 2.5専用だったコンピューターインターフェース操作機能を、はるかにアクセスしやすく高速なモデルにもたらします。
Computer Useエージェントとは何か?
Computer Useエージェントとは、質問に答えるだけでなく、コンピューターのグラフィカルインターフェースを自律的に操作するAIシステムです。アプリケーションを開き、ボタンをクリックし、フォームに記入し、ブラウザ、モバイルデバイス、デスクトップ環境で複数ステップのタスクを完了します。テキストを生成する従来のチャットボットとは異なり、これらのエージェントは実際のデジタル環境で操作を実行します。
Gemini 3.5 Flash vs Gemini 2.5 — アクセスの拡大
重要な変化は技術的な革新ではなく民主化です。Computer Useは以前、スタンドアロンのGemini 2.5モデルでのみ利用可能でした。速度と経済性に最適化されたGemini 3.5 Flashへの統合は、エンタープライズチームとデベロッパーがはるかに低いトークンあたりのコストでエージェントワークフローを実行できることを意味します。
OSWorldベンチマーク — 実際のオペレーティングシステムでAIエージェントがタスクを実行する能力を測定する標準化されたテスト — において、Computer UseによるGemini 3.5 FlashはGoogleモデルのエージェントタスクでこれまで記録された最高のスコアを達成しています。OSWorldにはウェブブラウジング、ファイル操作、オフィスアプリケーションでの作業などのシナリオが含まれており、合成テストより関連性が高いです。
サポートされる環境とエンタープライズ保護
モデルは3種類の環境をサポートしています。ブラウザ(ウェブアプリケーションとページ)、モバイル(AndroidとiOSインターフェース)、デスクトップ(Windows、macOS、Linuxアプリケーション)です。デモ統合はBrowserbaseプラットフォームで利用できます。
プロンプトインジェクション攻撃 — 画面上の悪意あるコンテンツ(例:ウェブページ上の隠しテキスト)がエージェントの制御を乗っ取り、不正な操作を実行させようとする状況 — により、セキュリティはComputer Useエージェントにとって中心的な課題でした。Googleはモデルを数千のシミュレートされたインジェクションシナリオに露出させる敵対的訓練を適用しました。さらに、システムは機密性の高い操作の前にユーザーの明示的な確認を要求し、操作の試みを検出した際に実行を自動的に中断します。
利用可能性
Gemini 3.5 FlashのComputer UseはGemini APIとGoogle Enterprise Agent Platformで利用可能です。デベロッパーはプレミアムGemini 2.5ティアへのアクセスを待つことなく、すぐにエージェントアプリケーションの構築を開始できます。
この動きはGoogleの方向性を明確に示しています。Computer Useエージェントは実験的な機能ではなく、本番AIインフラの標準的な部分になりつつあります。
よくある質問
- Computer Useエージェントとは何ですか?従来のAIチャットボットとの違いは?
- Computer Useエージェントは、グラフィカルインターフェースを自律的に操作できるAIシステムです — クリック、タイピング、スクロールを行い、各ステップに人間が介入することなく実際のアプリケーションでタスクを実行します。
- GoogleはComputer Useにおけるプロンプトインジェクションからユーザーをどのように保護しますか?
- Googleは敵対的訓練を適用し、機密性の高い操作に対してユーザーの明示的な確認を要求し、プロンプトインジェクションの試みを検出した際に実行を自動的に中断します。