MANZANOが統合するものとは何ですか？

MANZANOは、従来は別々だった2つの能力を1つのモデルに統合します。視覚的なコンテンツの説明・分析を行う画像理解と、テキストやその他のモダリティから画像を生成するテキストから画像への生成です。

なぜハイブリッドトークナイザーが重要なのですか？

理解と生成では異なる表現が必要です——連続的な埋め込みは理解のための豊かな意味論的シグナルをもたらし、離散トークンは安定した自己回帰的な生成を可能にします。ハイブリッドトークナイザーは同一のエンコーダから両方を提供します。

実際のマルチモーダルアプリケーションにとってどれほど重要ですか？

成果がより広い実践で検証されれば、開発者は2つの別々のモデルの代わりに1つを使用できるようになり、サービングコストが削減され、パイプラインが簡素化され、会話を通じた画像編集などの新しいインタラクティブなシナリオが可能になります。

アップルMANZANO：ICLR 2026の統合マルチモーダルモデル

マルチモーダルモデルにおけるトレードオフの問題

画像を同時に理解し生成するマルチモーダルモデルは、長年にわたって根本的なトレードオフに悩まされてきました。画像理解に最適化されたシステムは、通常は連続的な埋め込みに依存し、コンテンツの説明には優れていますが、新しい画像の生成が困難です。一方、画像生成が得意なモデルは通常、離散トークンと自己回帰アーキテクチャを使用しており、詳細な説明には課題があります。両方の能力を1つのモデルに組み合わせると、少なくとも一方の品質を犠牲にせざるを得ませんでした。

アップル機器学習研究がプログラムを発表したICLR 2026カンファレンスで、アップルのチームはこのギャップを埋めようとするフレームワーク「MANZANO」を発表しました。発表によると、MANZANOは単一モデル内で画像理解と生成を同時にバランスよく処理する統合アーキテクチャを提供し、各タスクに個別のシステムを必要としません。

ハイブリッドビジョントークナイザーとデュアルアダプター

MANZANOの主要な技術革新はハイブリッドビジョントークナイザーです。理解モデルが好む連続的な埋め込みのみ、または生成モデルが好む離散トークンのみを提供するのではなく、トークナイザーは同一の入力シグナルから両方の表現を生成します。連続的な埋め込みは画像理解のための豊かな意味論的入力として使用され、離散トークンは生成時の自己回帰的なデコードに使用されます。

この共有エンコーダの上に、MANZANOはタスクの種類ごとに1つずつ、計2つの特化アダプターを使用します。アップルが発表の中で「共有エンコーダ、デュアルアダプター」と表現するこのアプローチにより、モデルはパラメータと表現の大部分を共有しつつ、頂部には異なる目標のために訓練された特化ヘッドを持ちます。著者の主張によれば、既存の統合アプローチと比較して、2つのタスク間のトレードオフが低減されています。

なぜ重要なのか

これらの成果がより広い実践と独立したベンチマークで検証されれば、MANZANOはマルチモーダルアプリケーションの構築方法を変える可能性があります。開発者は現在、理解にはClaudeやGPT-4V、生成にはStable DiffusionやFluxなど、2つの別々のモデルを組み合わせることが多く、これはサービングコストの2倍化、複雑なパイプライン、困難なメンテナンスを意味します。MANZANOのような統合モデルは、同一のシステムが会話を追跡し、添付された画像を理解し、モデル間でコンテキストを切り替えることなく新しい画像を生成することを可能にします。

このアーキテクチャは特に、ユーザーが自然言語で望む変更を説明し、モデルが画像と指示の両方を理解して新しいバージョンを生成する会話を通じた画像編集などのインタラクティブなシナリオへの扉を開きます。アップルはMANZANOの重みを公開しておらず、この機能が製品にいつ登場するかも発表していませんが、ICLR上での発表はアップルの研究方向と、将来バージョンのSiri、Final Cut Proまたは iOS の生成ツールへの統合の可能性を示しています。

アップルがICLR 2026でMANZANOを発表——画像理解と生成のトレードオフを解消する統合マルチモーダルモデル

マルチモーダルモデルにおけるトレードオフの問題

ハイブリッドビジョントークナイザーとデュアルアダプター

なぜ重要なのか

出典

関連ニュース