Најновији модели вјештачке интелигенције ОпенАИ компаније све више измишљају нетачне информације, а стручњаци немају објашњење за овај забрињавајући тренд. Најприје, о чему се ради?
Према извјештају Њујорк Тајмса, истраживање ОпенАИ-а открило је да њихови најновији ЧетГПТ модели (о3 и о4-мини) знатно чешће халуцинирају, односно измишљају лажне информације, него претходни ГПТ о1 модел.
Бројна тестирања показала су забрињавајући тренд. О3, који је најмоћнији систем компаније, халуцинирао је у чак 33 одсто случајева током PersonQA теста који поставља питања о јавним личностима. То је више него двоструко већа стопа халуцинације од претходног ОпенАИ система за закључивање, о1. Нови о4-мини модел показао се још лошијим са стопом халуцинације од 48 одсто.
Још алармантнији су резултати другог теста. Приликом SimpleQA теста, који поставља општија питања, стопе халуцинације за о3 и о4-мини биле су чак 51 одсто односно 79 одсто. Претходни систем, о1, халуцинирао је у 44 одсто случајева.
“Размишљајући” модели праве више грешака него икад
Оно што додатно збуњује стручњаке је чињеница да су управо најнапреднији АИ модели ти који имају све већи проблем са халуцинацијама. Најновије и најмоћније технологије — такозвани системи за закључивање компанија попут ОпенАИ, Гугл и кинеског стартапа ДипСик— генеришу више грешака умјесто мање.
Да бисмо разумјели о чему се ради, важно је објаснити шта су то “реасонинг” или модели за закључивање. Једноставно речено, ови модели су врста језичких модела (ЛЛМ) дизајнирани за обављање сложених задатака. Умјесто да само избацују текст на основу статистичких модела вјероватноће, модели за закључивање разбијају питања или задатке на појединачне кораке слично људском процесу размишљања.
ОпенАИ први модел за закључивање, о1, појавио се прошле године и тврдило се да достиже перформансе докторских студената физике, хемије и биологије, а надмашује их у математици и кодирању захваљујући техникама реинфорцемент леарнинг-а.
У систему за тестирање, ОпенАИ је објавио табелу која показује да ЧетГПТ о3 јесте тачнији од о1, али ће халуцинирати двоструко чешће. Што се тиче о4-мини, овај мањи модел ће производити мање тачне одговоре од о1 и о3, и халуцинирати три пута више од о1.
Антропоморфизација АИ модела и како то утиче на корисно искуство
Иако компанија и даље истражује узроке, постоје неке теорије. Истраживачка група Транслуце открила је да о3 модел измишља радње које наводно предузима док покушава да ријеши задатке. У једном примјеру, о3 је тврдио да користи МацБоок Про из 2021. године “изван ЧетГПТ” за израчунавање, а затим копира бројеве у свој одговор, што је потпуно измишљено.
Једна хипотеза коју је предложио Нил Чаудри, истраживач из Транслуце-а и бивши запослени у ОпенАИ-у, гласи: “Наша хипотеза је да врста reinforcement learninga која се користи за о-серију модела може појачати проблеме који се обично ублажавају (али не и потпуно бришу) стандардним пост-тренинг процесима.”
Ипак, ОпенАИ негира да је проблем системски.
– Халуцинације нису инхерентно распрострањеније у моделима за закључивање, иако активно радимо на смањењу виших стопа халуцинације које смо видјели у о3 и о4-мини – изјавила је Габи Рајла из ОпенАИ-а за Тајмс.
Како проблем халуцинација утиче на корисност АИ алата
Неодговорно би било игнорисати забрињавајући тренд повећања халуцинација у најновијим АИ моделима, што значајно умањује њихову практичну вриједност. Шта год била истина, једно је сигурно. АИ модели морају углавном да избаце бесмислице и лажи ако желе да буду било гдје близу корисни као што њихови заговорници тренутно замишљају. Тренутно је тешко вјеровати излазу било ког ЛЛМ. Практично све мора пажљиво да се двоструко провјери.
То је у реду за неке задатке. Али тамо гдје је главна корист уштеда времена или рада, потреба за пажљивим провјеравањем и чињеничном провјером АИ резултата заправо поништава сврху њиховог коришћења.
Не зна се да ли ће ОпенАИ и остатак ЛЛМ индустрије успјети да ријеше све те нежељене “роботске снове”, али једно је сигурно – пут ка поузданој вјештачкој интелигенцији која не измишља чињенице очигледно је дужи него што смо очекивали.