Waypoint-1.5:AIが一般的なRTX 3090でインタラクティブな720p世界を生成
なぜ重要か
Overworldが発表したWaypoint-1.5は、RTX 3090やApple Silicon MacなどコンシューマーGPU上で720p/60fpsの解像度でインタラクティブな仮想環境を生成するリアルタイム動画ワールドモデルです。モデルは前バージョンの約100倍のデータで訓練され、HuggingFace上でオープンソースとして利用可能です。
Overworldは4月9日、同社のリアルタイム動画ワールドモデルの新世代Waypoint-1.5を発表しました。これは、ユーザーが探索し相互作用できる仮想世界をリアルタイムで作成する生成AIシステムです。従来との主な違いは、高価なデータセンターGPUではなくコンシューマーハードウェアでのアクセシビリティに焦点を当てている点です。
技術仕様
モデルには2つのサイズがあります。Waypoint-1.5-1B(10億パラメータ、ハイエンドPC向け720p解像度)と、より幅広いハードウェアカバレッジのための360Pバリアントです。パフォーマンスは、RTX 3090〜5090、ゲーミングノートPC、そして近日中にApple Silicon Macデバイスで720p @ 60fpsを実現します。これは、同等の能力のためにデータセンターの計算リソースを必要としていた従来バージョンからの大きな飛躍です。
訓練については、Waypoint-1の約100倍のデータが使用されており、これによりフレーム間の一貫性と動きの整合性が劇的に改善されました。チームはまた、隣接フレーム間の冗長な計算を削減する、より効率的な動画モデリング技術を開発しました。
アクセス方法
モデルはHugging Faceで利用可能です(Overworld/Waypoint-1.5-1BおよびWaypoint-1.5-1B-360P)。ローカル実行には、GitHub上のオープンソースデスクトップクライアントOverworld Biomeがあり、コアとなる推論ライブラリWorld Engineを中心にすでに数十のサードパーティクライアントが誕生しています。インストールを望まないユーザー向けには、overworld.streamを通じたブラウザでの即時アクセスも用意されています。
これが何を変えるか
生成ワールドモデルはこれまで主に学術的な好奇心、あるいは大手ラボの独占物でした。Waypoint-1.5は最低スペックを一般的なゲーミングPCのレベルまで引き下げ、インタラクティブなエンターテインメント、クリエイティブツール、シミュレーション、AIネイティブな研究環境への扉を開きます。オープンライセンスとその周辺のコミュニティツールの存在は、これが3DワールドモデルにとってStable Diffusionが2D画像生成にもたらしたのと同等の存在になり得ることを示唆しています。