AI2: AI agenti rješavaju 80% školske znanosti, ali samo 20% pravih znanstvenih problema

Allen Institute for AI (AI2) objavio je analizu koja razotkriva jedan od najvažnijih jazova u sposobnostima današnjih AI sustava — razliku između “knjiškog znanja” i sposobnosti za stvarno znanstveno otkriće.

Dva benchmarka, dvije priče

ScienceWorld testira elementarne znanstvene eksperimente u virtualnom okruženju — određivanje točke vrelišta, genetičke križance i slično. Zanimljivo, modeli koji su postizali odlične rezultate na višestrukim izborima iz istih tema inicijalno su padali ispod 10% na ScienceWorld. Do početka 2025., top modeli dosegli su oko 80% — solidno, ali nepotpuno svladavanje gradiva za četvrti razred.

DiscoveryWorld je znatno zahtjevniji — 120 zadataka u osam znanstvenih domena (proteomika, epidemiologija, datiranje radioizotopa…) koji zahtijevaju formiranje hipoteza, dizajn eksperimenata, izvršavanje i analizu. Zadaci su smješteni u fiktivne kontekste da se spriječi oslanjanje na zapamćeno znanje.

Poražavajuća usporedba

Na složenijim DiscoveryWorld zadacima, AI agenti završavaju tek oko 20% zadataka, dok ljudski znanstvenici s naprednim stupnjevima rješavaju oko 70%. To je jaz od 50 postotnih bodova koji jasno pokazuje koliko je daleko put od “znati činjenice” do “znati ih primijeniti za otkriće”.

Što to znači

Ovi rezultati služe kao važna provjera realnosti usred entuzijazma oko AI-ja u znanosti. Dok su AI sustavi izvrsni u obradi podataka i prepoznavanju obrazaca, sposobnost osmišljavanja novih eksperimenata, prilagodbe kad stvari ne idu po planu i kreativnog razmišljanja ostaje duboko ljudska vještina.

AI2: AI agenti rješavaju 80% školske znanosti, ali samo 20% pravih znanstvenih problema

Dva benchmarka, dvije priče

Poražavajuća usporedba

Što to znači

Izvori

Povezane vijesti