Bilo je samo pitanje vremena kada će hakeri početi da koriste vještačku inteligenciju za napad na vještačku inteligenciju – i taj trenutak je konačno stigao.
Novo istraživačko otkriće učinilo je napade ubrizgavanjem promptova bržim, lakšim i zastrašujuće efikasnim, čak i protiv navodno sigurnih sistema poput Gugl Gemini modela.
Napadi ubrizgavanjem promptova predstavljaju jedan od najpouzdanijih načina za manipulaciju velikim jezičkim modelima (LLM). Ubacivanjem zlonamjernih instrukcija u tekst koji AI čita – poput komentara u bloku koda ili sakrivenog teksta na veb stranici – napadači mogu natjerati model da ignoriše svoja prvobitna pravila.
To može značiti curenje privatnih podataka, davanje pogrešnih odgovora ili izvršavanje drugih neželjenih ponašanja. Međutim, problem je što napadi ubrizgavanjem promptova tipično zahtijevaju mnogo “ručnih” pokušaja i grešaka da bi uspjeli, posebno kod modela zatvorene arhitekture kao što su GPT-4 ili Gemini, gdje programeri ne mogu da vide izvorni kod ili podatke za treniranje.
Nova tehnika pod nazivom “Fun-Tuning”, ipak, sve to mijenja. Razvijena od strane tima univerzitetskih istraživača, ova metoda koristi Google API za fino podešavanje Gemini modela kako bi automatski kreirala ubrizgavanja promptova sa visokom stopom uspeha. Nalazi istraživača trenutno su dostupni u preliminarnom izvještaju.
AI oružje koje samo sebe usavršava
Zloupotrebom interfejsa za treniranje Gemini modela, Fun-Tuning pronalazi najbolje “prefikse” i “sufikse” kojima će obuhvatiti zlonamjerni prompt napadača, dramatično povećavajući šanse da će biti izvršen. Rezultati napada govore sami za sebe.
U testiranju, Fun-Tuning je postigao stopu uspjeha do 82 procenta na nekim Gemini modelima, u poređenju sa manje od 30 procenta kod tradicionalnih napada.
Radi se tako što iskorišćava suptilne tragove u procesu finog podešavanja – poput toga kako model reaguje na greške u treniranju – i pretvara ih u povratne informacije koje usavršavaju napad. Možemo ga zamisliti kao sistem navođenja raketa sa vještačkom inteligencijom, ali za napade ubrizgavanjem promptova.
Još više zabrinjava činjenica da se napadi razvijeni za jednu verziju Gemini modela lako prenose na druge. To znači da jedan napadač potencijalno može razviti jedan uspješan prompt i implementirati ga na više platformi. A pošto Gugl nudi ovaj API za fino podešavanje besplatno, trošak izvođenja takvog napada iznosi svega oko 10 dolara za računarsko vrijeme.
Gugl je priznao prijetnju, ali nije komentarisao da li planira da promijeni svoje funkcije za fino podešavanje. Istraživači iza Fun-Tuning upozoravaju da odbrana od ove vrste napada nije jednostavna – uklanjanje ključnih podataka iz procesa treniranja učinilo bi alat manje korisnim za programere. Ali ostavljanje istih olakšava napadačima da ih iskoriste.
Jedno je sigurno – napadi ubrizgavanjem promptova poput ovog znak su da je igra ušla u novu fazu, gdje vještačka inteligencija nije samo meta, već i oružje.