アップルがICLR 2026でMANZANOを発表——画像理解と生成のトレードオフを解消する統合マルチモーダルモデル
なぜ重要か
アップルの研究グループはICLR 2026カンファレンスで、画像理解能力と画像生成品質の長年にわたるトレードオフを解決する統合マルチモーダルフレームワーク「MANZANO」を発表しました。このモデルは、理解のための連続的な埋め込みと生成のための離散トークンを生成するハイブリッドビジョントークナイザーを使用し、共有エンコーダと2つの特化アダプターを組み合わせることで、単一モデルが両タスクを担当する際に生じる性能損失を低減します。
マルチモーダルモデルにおけるトレードオフの問題
画像を同時に理解し生成するマルチモーダルモデルは、長年にわたって根本的なトレードオフに悩まされてきました。画像理解に最適化されたシステムは、通常は連続的な埋め込みに依存し、コンテンツの説明には優れていますが、新しい画像の生成が困難です。一方、画像生成が得意なモデルは通常、離散トークンと自己回帰アーキテクチャを使用しており、詳細な説明には課題があります。両方の能力を1つのモデルに組み合わせると、少なくとも一方の品質を犠牲にせざるを得ませんでした。
アップル機器学習研究がプログラムを発表したICLR 2026カンファレンスで、アップルのチームはこのギャップを埋めようとするフレームワーク「MANZANO」を発表しました。発表によると、MANZANOは単一モデル内で画像理解と生成を同時にバランスよく処理する統合アーキテクチャを提供し、各タスクに個別のシステムを必要としません。
ハイブリッドビジョントークナイザーとデュアルアダプター
MANZANOの主要な技術革新はハイブリッドビジョントークナイザーです。理解モデルが好む連続的な埋め込みのみ、または生成モデルが好む離散トークンのみを提供するのではなく、トークナイザーは同一の入力シグナルから両方の表現を生成します。連続的な埋め込みは画像理解のための豊かな意味論的入力として使用され、離散トークンは生成時の自己回帰的なデコードに使用されます。
この共有エンコーダの上に、MANZANOはタスクの種類ごとに1つずつ、計2つの特化アダプターを使用します。アップルが発表の中で「共有エンコーダ、デュアルアダプター」と表現するこのアプローチにより、モデルはパラメータと表現の大部分を共有しつつ、頂部には異なる目標のために訓練された特化ヘッドを持ちます。著者の主張によれば、既存の統合アプローチと比較して、2つのタスク間のトレードオフが低減されています。
なぜ重要なのか
これらの成果がより広い実践と独立したベンチマークで検証されれば、MANZANOはマルチモーダルアプリケーションの構築方法を変える可能性があります。開発者は現在、理解にはClaudeやGPT-4V、生成にはStable DiffusionやFluxなど、2つの別々のモデルを組み合わせることが多く、これはサービングコストの2倍化、複雑なパイプライン、困難なメンテナンスを意味します。MANZANOのような統合モデルは、同一のシステムが会話を追跡し、添付された画像を理解し、モデル間でコンテキストを切り替えることなく新しい画像を生成することを可能にします。
このアーキテクチャは特に、ユーザーが自然言語で望む変更を説明し、モデルが画像と指示の両方を理解して新しいバージョンを生成する会話を通じた画像編集などのインタラクティブなシナリオへの扉を開きます。アップルはMANZANOの重みを公開しておらず、この機能が製品にいつ登場するかも発表していませんが、ICLR上での発表はアップルの研究方向と、将来バージョンのSiri、Final Cut Proまたは iOS の生成ツールへの統合の可能性を示しています。
この記事はAIにより一次情報源から生成されました。