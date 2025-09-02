Kako preglednici s umjetnom inteligencijom dobivaju na popularnosti, a ide se prema agentskoj umjetnoj inteligenciji, trebamo se početi brinuti o opasnostima sumiranim u pojmu "prompt injection"

Veliki jezični modeli su, znamo, napravljeni da slijede korisničke upite koji uključuju i upute i pitanja koje ljudi pružaju kada traže informacije. Međutim, umjetna inteligencija nije posebno vješta u razlikovanju vrsta naredbi – primjerice pozadinska pravila koja dolaze izravno od programera chatbota - od zahtjeva koji dolaze od korisnika.

Da bi prikazao rizike ovdje, programer web preglednika Brave - koji ima svoj AI asistent nazvan Leo - nedavno je testirao može li prevariti AI preglednik da čita opasne promptove koji štete korisnicima. U svom blogu napisao je kako je to itekako moguće.

"Kako korisnici postaju upoznati s AI preglednicima i počinju im vjerovati s osjetljivim podacima kao što su bankarstvo, zdravstvo i druge kritične web stranice - rizici se umnožavaju. (…) Što ako naoko bezazlena web-stranica ili komentar ostavljen na društvenoj mreži može ukrasti vaše podatke za prijavu ili druge osjetljive podatke dodavanjem nevidljivih uputa za AI asistenta?"

Osnovni trik zloporabe ovakvih agenata je prompt injection – umetanje zlonamjernog unosa u obliku obične konverzacije ili podataka kako bi potaknuo AI da radi nešto što nije trebao raditi.

Ono što razlikuje prompt injection od hakiranja je korištenje prirodnog jezika, a ne računalnog koda - napadači ne trebaju provaliti u servere ili tražiti tradicionalne softverske greške, samo trebaju biti vješti s riječima.

Kako će netko u vaš upit chatbotu netko ubaciti zlonamjerne instrukcije? I ne treba doći do vašeg upita – dovoljno je da zatruje sadržaj stranica koje agentski AI posjeti u okviru izvršavanja tog upita. Dakle, moguće je sakriti prompt injection unutar web stranica koje AI posjećuje ugrađivanjem zlonamjernih uputa u sadržaj koji izgleda bezazlen ili nevidljiv ljudskim korisnicima, ali ga AI preglednici obrađuju kao dio njihovog konteksta naredbi.

Problem se umnožava s usponom agentskih preglednika koji su nova vrsta web preglednika pokretanih umjetnom inteligencijom koji su u stanju su izvršavati složene zadatke bez korisničke intervencije. Umjesto čekanja korisničkih uputa agentski preglednici mogu prelaziti kroz razne web-stranice, ispunjavati obrasce, obavljati kupnje ili rezervirati termine sami na temelju onoga što korisnik želi postići.

U gore spomenutom blogu navodi se konkretan primjer ubacivanja zlonamjernog sadržaja u stranice koje pametni, agentski preglednik može posjetiti kada izvršava neku složenu radnju. Primjerice, korisnički prompt može biti "Pronađi najjeftiniji let i rezerviraj ga". Pametni preglednik će obaviti sva istraživanja, usporediti cijene, ispuniti podatke o putnicima i završiti rezervaciju bez ikakvih dodatnih koraka ili ručnog napora - pod uvjetom da ima sve potrebne detalje naravno, koji su dio promptova koje korisnik daje agentskom pregledniku.

Kriminalci mogu postaviti posve lažnu stranicu s iznimno konkurentnim cijenama samo da privuku posjetitelje kojoj je cilj izvući informacije o plaćanju koje agentski preglednik treba za obavljanje kupnji u naše ime.

Tijekom svojeg istraživanja, Brave je pronašao da Perplexityjev Comet ima neke ranjivosti koje "naglašavaju sigurnosne izazove s kojima se suočavaju agentske AI implementacije u preglednicima."

Perplexityjev Comet - pametni, agentski preglednik

Ranjivosti omogućavaju napad temeljen na tom neizravnom prompt injection napadu, što znači da su zlonamjerne upute ugrađene u vanjski sadržaj (poput web stranice ili PDF-a) koji AI asistent preglednika obrađuje kao dio ispunjavanja korisničkog zahtjeva. Postoje različiti načini skrivanja tog zlonamjernog sadržaja. Brave koristi primjer bijelog teksta na bijeloj pozadini koji AI preglednici nemaju problema čitati, a čovjek ga ne bi vidio bez bližeg pregleda.

Da bi se spriječila ova vrsta napada, agentski preglednici bi trebali biti u stanju razlikovati korisničke upute i web sadržaj koji obrađuju prema tim uputama, ali to nisu u stanju.

Perplexity je dva puta pokušao popraviti ranjivost, ali još uvijek nije u potpunosti ublažio ovu vrstu napada, tvrdi Brave.