AI2: AI agenti rješavaju 80% školske znanosti, ali samo 20% pravih znanstvenih problema
Zašto je bitno
Allen Institute for AI analizira dva benchmarka koji otkrivaju dramatičan jaz između AI performansi na testovima znanja i sposobnosti za stvarna znanstvena otkrića. Dok modeli dosežu 80% na školskoj razini, na složenim znanstvenim zadacima padaju na 20%.
Allen Institute for AI (AI2) objavio je analizu koja razotkriva jedan od najvažnijih jazova u sposobnostima današnjih AI sustava — razliku između “knjiškog znanja” i sposobnosti za stvarno znanstveno otkriće.
Dva benchmarka, dvije priče
ScienceWorld testira elementarne znanstvene eksperimente u virtualnom okruženju — određivanje točke vrelišta, genetičke križance i slično. Zanimljivo, modeli koji su postizali odlične rezultate na višestrukim izborima iz istih tema inicijalno su padali ispod 10% na ScienceWorld. Do početka 2025., top modeli dosegli su oko 80% — solidno, ali nepotpuno svladavanje gradiva za četvrti razred.
DiscoveryWorld je znatno zahtjevniji — 120 zadataka u osam znanstvenih domena (proteomika, epidemiologija, datiranje radioizotopa…) koji zahtijevaju formiranje hipoteza, dizajn eksperimenata, izvršavanje i analizu. Zadaci su smješteni u fiktivne kontekste da se spriječi oslanjanje na zapamćeno znanje.
Poražavajuća usporedba
Na složenijim DiscoveryWorld zadacima, AI agenti završavaju tek oko 20% zadataka, dok ljudski znanstvenici s naprednim stupnjevima rješavaju oko 70%. To je jaz od 50 postotnih bodova koji jasno pokazuje koliko je daleko put od “znati činjenice” do “znati ih primijeniti za otkriće”.
Što to znači
Ovi rezultati služe kao važna provjera realnosti usred entuzijazma oko AI-ja u znanosti. Dok su AI sustavi izvrsni u obradi podataka i prepoznavanju obrazaca, sposobnost osmišljavanja novih eksperimenata, prilagodbe kad stvari ne idu po planu i kreativnog razmišljanja ostaje duboko ljudska vještina.