Ејпл истраживачки тим направио је велики корак напред у развоју вјештачке интелигенције новим системом који олакшава комуникацију са гласовним асистентима тако што може прецизније да разумије шта корисник види на екрану и у ком контексту се налази.
РеАЛМ користи велике језичке моделе за рјешавање сложених проблема идентификације референци на екрану, претварајући их у задатак моделирања језика. Ова иновација дозвољава систему значајна побољшања у перформансама у поређењу са постојећим методама, чиме се олакшава разумијевање контекста од стране гласовних асистената и омогућава корисницима да постављају питања везана за оно што виде на свом екрану.
Једна од кључних иновација РеАЛМ-а је способност реконструкције визуелног приказа екрана кроз текстуалну репрезентацију, што укључује парсирање ентитета на екрану и њихове локације. Ово омогућава да се фино подешавање језичких модела специфично за разумијевање референци, чиме се постижу боље перформансе у односу на постојеће моделе, укључујући и ГПТ-4.
Ово истраживање показује потенцијал специјализованих језичких модела за обављање задатака попут рјешавања референци у реалним системима, гдје је употреба великих модела ограничена због захтјева за брзином или рачунарским ресурсима. Ејпл својим радом на овом пољу сигнализира наставак инвестиција у развој Сири и других производа, чинећи их способнијим за разумијевање контекста и пружање природнијих интеракција.
Упркос овом напретку, истраживачи упозоравају на ограничења, као што су изазови у обради комплекснијих визуелних референци, што може захтијевати интеграцију техника из рачунарске визије и мултимодалних приступа.
Ејпл се налази у АИ трци, гдје се суочава са јаком конкуренцијом од стране водећих технолошких компанија. Упркос својој познатој тајновитости, најаве о новим АИ иницијативама и производима указују на то да компанија интензивно ради на ширењу својих АИ капацитета, укључујући потенцијално представљање нових модела и АИ функција на својој годишњој "WWDC" конференцији.