ČetGPT sve više daje netačne informacije: O čemu se radi?

Najnoviji modeli vještačke inteligencije OpenAI kompanije sve više izmišljaju netačne informacije, a stručnjaci nemaju objašnjenje za ovaj zabrinjavajući trend. Najprije, o čemu se radi?

Prema izvještaju Njujork Tajmsa, istraživanje OpenAI-a otkrilo je da njihovi najnoviji ČetGPT modeli (o3 i o4-mini) znatno češće haluciniraju, odnosno izmišljaju lažne informacije, nego prethodni GPT o1 model.

Brojna testiranja pokazala su zabrinjavajući trend. O3, koji je najmoćniji sistem kompanije, halucinirao je u čak 33 odsto slučajeva tokom PersonQA testa koji postavlja pitanja o javnim ličnostima. To je više nego dvostruko veća stopa halucinacije od prethodnog OpenAI sistema za zaključivanje, o1. Novi o4-mini model pokazao se još lošijim sa stopom halucinacije od 48 odsto.

Vračara obećala čovjeku da će mu vratiti voljenu pa ga ojadila za 1.600 KM

Još alarmantniji su rezultati drugog testa. Prilikom SimpleQA testa, koji postavlja opštija pitanja, stope halucinacije za o3 i o4-mini bile su čak 51 odsto odnosno 79 odsto. Prethodni sistem, o1, halucinirao je u 44 odsto slučajeva.

“Razmišljajući” modeli prave više grešaka nego ikad

Ono što dodatno zbunjuje stručnjake je činjenica da su upravo najnapredniji AI modeli ti koji imaju sve veći problem sa halucinacijama. Najnovije i najmoćnije tehnologije — takozvani sistemi za zaključivanje kompanija poput OpenAI, Gugl i kineskog startapa DipSik— generišu više grešaka umjesto manje.

Da bismo razumjeli o čemu se radi, važno je objasniti šta su to “reasoning” ili modeli za zaključivanje. Jednostavno rečeno, ovi modeli su vrsta jezičkih modela (LLM) dizajnirani za obavljanje složenih zadataka. Umjesto da samo izbacuju tekst na osnovu statističkih modela vjerovatnoće, modeli za zaključivanje razbijaju pitanja ili zadatke na pojedinačne korake slično ljudskom procesu razmišljanja.

Kako su Srbi nekada slavili slavu?

OpenAI prvi model za zaključivanje, o1, pojavio se prošle godine i tvrdilo se da dostiže performanse doktorskih studenata fizike, hemije i biologije, a nadmašuje ih u matematici i kodiranju zahvaljujući tehnikama reinforcement learning-a.

U sistemu za testiranje, OpenAI je objavio tabelu koja pokazuje da ČetGPT o3 jeste tačniji od o1, ali će halucinirati dvostruko češće. Što se tiče o4-mini, ovaj manji model će proizvoditi manje tačne odgovore od o1 i o3, i halucinirati tri puta više od o1.

Antropomorfizacija AI modela i kako to utiče na korisno iskustvo

Iako kompanija i dalje istražuje uzroke, postoje neke teorije. Istraživačka grupa Transluce otkrila je da o3 model izmišlja radnje koje navodno preduzima dok pokušava da riješi zadatke. U jednom primjeru, o3 je tvrdio da koristi MacBook Pro iz 2021. godine “izvan ČetGPT” za izračunavanje, a zatim kopira brojeve u svoj odgovor, što je potpuno izmišljeno.

Zalijevajte krastavce i paradajz ovim rastvorom i imaćete rod kao nikada prije

Jedna hipoteza koju je predložio Nil Čaudri, istraživač iz Transluce-a i bivši zaposleni u OpenAI-u, glasi: “Naša hipoteza je da vrsta reinforcement learninga koja se koristi za o-seriju modela može pojačati probleme koji se obično ublažavaju (ali ne i potpuno brišu) standardnim post-trening procesima.”

Ipak, OpenAI negira da je problem sistemski.

– Halucinacije nisu inherentno rasprostranjenije u modelima za zaključivanje, iako aktivno radimo na smanjenju viših stopa halucinacije koje smo vidjeli u o3 i o4-mini – izjavila je Gabi Rajla iz OpenAI-a za Tajms.

Kako problem halucinacija utiče na korisnost AI alata

Neodgovorno bi bilo ignorisati zabrinjavajući trend povećanja halucinacija u najnovijim AI modelima, što značajno umanjuje njihovu praktičnu vrijednost. Šta god bila istina, jedno je sigurno. AI modeli moraju uglavnom da izbace besmislice i laži ako žele da budu bilo gdje blizu korisni kao što njihovi zagovornici trenutno zamišljaju. Trenutno je teško vjerovati izlazu bilo kog LLM. Praktično sve mora pažljivo da se dvostruko provjeri.

Ljekari šokirani: Učenik gurnuo kokošije jaje sebi u anus

To je u redu za neke zadatke. Ali tamo gdje je glavna korist ušteda vremena ili rada, potreba za pažljivim provjeravanjem i činjeničnom provjerom AI rezultata zapravo poništava svrhu njihovog korišćenja.

Ne zna se da li će OpenAI i ostatak LLM industrije uspjeti da riješe sve te neželjene “robotske snove”, ali jedno je sigurno – put ka pouzdanoj vještačkoj inteligenciji koja ne izmišlja činjenice očigledno je duži nego što smo očekivali.

Pratite nas i putem Vibera