Microsoft predstavio napredni AI model koji razumije kontekst sa slika

Usklađenje šire percepcije s riječima sljedeći je korak u razvoju velikih jezičnih modela, i ključan dio stvaranja opće umjetne inteligencije, smatraju u Microsoftu

Sandro Vrbanus ponedjeljak, 6. ožujka 2023. u 06:00

Microsoft je jedna od tehnoloških kompanija koje su već sada vrlo duboko zaronile u područje umjetne inteligencije, svojim investicijama u OpenAI i najavom integriranja njihovih rješenja u svoje uredske alate, tražilicu i druge proizvode i usluge. Na tragu toga ide i nedavno predstavljeni novi model umjetne inteligencije, koji stiže iz ove kompanije. Njegovo je ime Kosmos-1, a (iako zvuči kao ime kakve ruske svemirske sonde) predstavlja veliki jezični multimodalni model, koji ima sposobnost "shvaćanja" konteksta.

Korak iz AI prema AGI

Kosmos-1 tako je dobio mogućnost učenja u kontekstu, praćenja uputa te kombiniranja zadataka koje dobiva u obliku riječi i slike istodobno. Velik je to napredak ako znamo da su modeli poput ChatGPT-a inherentno "glupi", tj. da su u stanju napisati kompleksne i detaljne tekstove o nečemu što uopće nije istina, ili da vrlo brzo "zaborave" kontekst o kojem je riječ.

Kosmos-1 pokazao je već sada sposobnost istodobnog razumijevanja slike i teksta, pa tako može rješavati zadatke poput:

  • Objasni zašto je ova slika smiješna,
  • Zašto ovo dijete na slici plače?
  • Kada možemo očekivati film s ovog postera?

...i slične. K tome, u stanju je raspoznavati oblike i uzorke, pa i rješavati vizualno orijentirane testove inteligencije, namijenjene ljudima. U Microsoftu smatraju da su ovakvi modeli ključ za daljnji napredak "obične" i stvaranje opće umjetne inteligencije (AGI), koja će se moći snalaziti u novim situacijama, dobivati inpute iz više tipova izvora. Primjenu ovog sustava, koji nije razvijen uz pomoć OpenAI-ja, vide u uvođenju multimodalnog strojnog učenja, robotici te automatizaciji prikupljanja podataka iz dokumenata.

Kosmos-1 za sada se u razumijevanju konteksta ne može još mjeriti s ljudima, ali je pokazao sposobnost točnog percipiranja apstraktnih uzoraka u neverbalnom okruženju, u stanju je analizirati dokument ili web stranicu i shvatiti njihovu strukturu, pa na temelju toga prikupljati, obrađivati i analizirati tamo dostupne podatke, bili oni prezentirani u tekstualnom ili slikovnom obliku.