Waypoint-1.5: AI generira interaktivne 720p svjetove na običnom RTX-u 3090
Zašto je bitno
Overworld je objavio Waypoint-1.5, real-time video world model koji generira interaktivne virtualne okoline u rezoluciji 720p/60fps na consumer GPU-ima poput RTX 3090 i Apple Silicon Maca. Model je treniran na ~100x više podataka od prethodne verzije i dostupan je open source na HuggingFaceu.
Overworld je 9. travnja predstavio Waypoint-1.5, novu generaciju svojeg real-time video world model-a — generativnog AI sustava koji u stvarnom vremenu kreira virtualne svjetove kojima korisnici mogu istraživati i u njima interagirati. Glavna razlika u odnosu na prethodnike je fokus na dostupnost na consumer hardveru umjesto skupih datacenter GPU-a.
Tehničke specifikacije
Model dolazi u dvije veličine: Waypoint-1.5-1B (1 milijarda parametara, 720p rezolucija za high-end PC-ove) i 360P varijanta za šire pokrivanje hardvera. Performanse: 720p @ 60 fps na RTX 3090-5090, gaming laptopima i — uskoro — Apple Silicon Mac uređajima. To je značajan iskorak od prethodne verzije gdje su slične sposobnosti zahtijevale datacenter compute.
Trening: otprilike 100x više podataka od Waypointa-1, što je drastično poboljšalo koherentnost između frame-ova i konzistenciju kretanja. Tim je također razvio efikasnije tehnike video modeliranja koje smanjuju redundantno računanje između susjednih frame-ova.
Kako pristupiti
Model je dostupan na Hugging Faceu (Overworld/Waypoint-1.5-1B i Waypoint-1.5-1B-360P). Za lokalno pokretanje postoji Overworld Biome, open-source desktop klijent na GitHubu, a tu je i World Engine — core inferencijska biblioteka oko koje je već nastalo desetak third-party klijenata. Za one koji ne žele instalaciju, postoji i instant browser pristup preko overworld.stream.
Što ovo mijenja
Generative world models bili su do sada uglavnom akademska kuriozitet ili ekskluziva velikih labova. Waypoint-1.5 spušta minimalnu spec na razinu prosječnog gaming PC-a, što otvara vrata za interaktivnu zabavu, kreativne alate, simulacije i AI-native istraživačke environment-e. Open licenca i postojanje community alata oko njega sugeriraju da bi ovo moglo biti za 3D world modele ono što je Stable Diffusion bio za 2D generaciju slika.