Semantička pretraga dokumenata - Zašto se traže ključne riječi i što se namjerava učiniti s podacima

U prošlosti se pretraživanje dokumenata provodilo tako da se tražilo točno podudaranje riječi unutar dokumenata (tzv. leksička pretraga). No, takav način pretraživanja nije uvijek bio učinkovit zbog bogatstva i složenosti različitih jezika

Tina Knežević, Megatrend Poslovna Rješenja četvrtak, 14. listopada 2021. u 16:30

Proces semantičkog označavanja dokumenta

Tina Knežević, razvojni inženjer, Megatrend Poslovna Rješenja

Prelaskom na semantičku pretragu dokumenata, pretraživanje se obavlja, ne samo tražeći postojanost riječi u dokumentu, već uzimajući u obzir i značenje samih riječi. Cilj semantičkog pretraživanja je poboljšati točnost rezultata pretraživanja razumijevanjem korisničkih namjera, kontekstualnog značenja unesenog termina te povezanosti samih riječi.

Komponente semantičkog pretraživanja

Važna komponenta semantičkog pretraživanja, semantičko je označavanje. Ono obogaćuje sadržaj informacijama koje se strojno mogu obraditi povezivanjem postojećih informacija s izdvojenim pojmovima. Ti pojmovi izvučeni iz dokumenata nedvosmisleno su definirani i povezani jedni s drugima unutar i izvan sadržaja. Semantičko označavanje obavlja se korištenjem tehnika računalne obrade prirodnog jezika (engl. Natural Language Processing, NLP) koje pomažu pri prevođenju i pretvorbi teksta u strukturirane podatke.

Osim semantičkog označavanja, važna komponenta pri semantičkom pretraživanju je i latentno semantičko indeksiranje (engl. Latent Semantic Indexing, LSI). LSI je tehnika u obradi prirodnog jezika koja analizira odnose između skupa dokumenata i pojmova koje oni sadrže, identificirajući skrivene kontekstualne odnose između riječi. Drugim riječima, LSI se zasniva na principu da riječi koje se koriste unutar istog konteksta, pretežito imaju isto ili povezano značenje, iako ne dijele iste znakove ili sinonime.

IBM Watson Discovery

IBM Watson Discovery IBM-ov je alat za inteligentno semantičko pretraživanje podataka pomoću umjetne inteligencije. Također, predstavlja i platformu za analizu teksta koja koristi NLP, kako bi otkrila korisne podatke iz složenih poslovnih dokumenata, web-stranica ili velikih skupova podataka te tako skratila vrijeme samog pretraživanja. IBM Watson Discovery omogućuje korisnicima da dodaju vlastite skupove dokumenata te nad njima primjenjuje algoritme koji obogaćuju umetnute podatke, izvlačeći ključne pojmove i entitete (poput lokacija, organizacija, osoba, itd.) te provodi semantičku analizu nad dokumentima.

IBM Watson Discovery obogaćuje podatke dodavanjem metapodataka iz prikupljenih semantičkih informacija. Podaci se prikupljaju pomoću četiri glavne IBM Watsonove funkcije, a to su izdvajanje entiteta, analiza osjećaja, klasifikacija kategorija i označavanje koncepata. Također, integriran je i pametni alat za razumijevanje dokumenata (engl. Smart Document Understanding, SDU). SDU je alat baziran na algoritmima strojnog učenja, koji razbija dokumente u manje komade informacija te korisniku omogućuje da jednostavno kategorizira dijelove dokumenata, kako bi alat mogao izgraditi bolje razumijevanje kritičkih komponenata unutar danih dokumenata te poboljšati rezultate odgovora prilikom pretraživanja.

Nakon prijenosa podataka i njihova obogaćivanja, moguće je graditi upite te integrirati IBM Watson Discovery u vlastita rješenja ili s drugim IBM-ovim alatima, poput servisa IBM Watson Natural Language Understanding ili IBM Watson Assistanta. IBM Watson Discovery implementiran je u IBM Watson Assistant preko Search Skilla te omogućuje virtualnom asistentu da odgovara na složena pitanja, pregledavajući veliku bazu dokumenata. IBM Watson Discovery dostupan je na preko 20 svjetskih jezika, uključujući i hrvatski jezik, te ga je moguće koristiti on-premise ili na cloudu.

Pregled usluge IBM Watson Discovery
Pregled usluge IBM Watson Discovery

Zaključno

Semantičko pretraživanje omogućilo je da se pretraživanje više ne temelji isključivo na postojanju riječi u dokumentima, već da se pretražuje značenje tih riječi, tj. upita. Drugim riječima, cilj semantičkog pretraživanja je znati zašto korisnik pretražuje upravo te ključne riječi, i što s dobivenim podacima namjerava učiniti. Takav način pretraživanja približava računalno pretraživanje dokumenata ljudskom načinu razmišljanja, uzimajući u obzir različite načine i tonove upita. Semantičko pretraživanje uvelo je revoluciju u tražilicama, što se pokazuje u njegovoj širokoj uporabi, ne samo kod web-pretraživača, već i kod pretraživača baza znanja specijaliziranih za različite znanosti i poslovanja.

Ilustracija IBM-ova alata SDU, implementiranog unutar aplikacije IBM Watson Discovery
Ilustracija IBM-ova alata SDU, implementiranog unutar aplikacije IBM Watson Discovery

 

Mreza 11 / 2021 studeni 2021.