Indeks, indeksirati, indeksiranje

Što je gdje?

2004. godine pokrernut je projekt AIDE – sustav za Automatsko Indeksiranje dokumenata Deskriptorima Eurovoca. Projekt je završen u prosincu 2007. godine, a temelji se na rezultatima znanstvenog istraživanja iz područja umjetne inteligencije i strojnog učenja koji provodi Grupa za tehnologije znanja
Pronalaženje određenog dokumenta u web prostoru ili nekoj vrlo velikoj bazi na temelju korisnikova upita glavni je problem kojim se bavi disciplina pridobivanja informacija. Kada se radi o dokumentima, njihovo je indeksiranje jedna od tehnika koje bitno skraćuju vrijeme pronalaženja. U postupku indeksiranja, dokumentu se pridružuju jedna ili više fraza koje njegov sadržaj dobro opisuju.

Da bi indeksiranje bilo dosljedno, ove fraze (ili deskriptori) pripadaju konačnom skupu, koji se razvija i širi, ali je uvijek konačan. Taj se skup naziva kontroliranim rječnikom ili tezaurusom. Jedan od primjera tezaurusa u širokoj uporabi je Eurovoc, EUROpean VOCabulary, pojmovnik o kojem se brinu organi Europske unije, a članak o njemu u InfoTrendu je objavljen prvi puta prije pet godina. Ured za službene publikacije Europske unije objavio ga je sredinom osamdesetih godina prošloga stoljeća kao alat za predmetno označivanje, odnosno za sadržajnu obradu službene dokumentacije unije i nacionalnih parlamenata njezinih članica.

Od tada do danas Eurovoc postoji na ukupno 21 službenom jeziku Europske unije i na još jednom jeziku (hrvatskom) – ova konstrukcija upravo tako stoji na web stranicama Eurovoca, a preveden je za potrebe parlamenata još tri zemlje: Albanije, Rusije i Ukrajine.

Svrha je ovog vrlo opsežnog dokumenta izjednačavanje europske prakse u predmetnom označivanju dokumenata. Tekuća mu je inačica 4.2.

Eurovoc
Eurovoc je podijeljen u 21 domenu ili kategoriju označenu dvoznamenkastim brojem, a svaka je kategorija podijeljena u potreban broj pod-kategorija (nazvanih i mikrotezaurusima). Svaka pod-kategorija označena je četveroznamenkastim brojem, gdje su prve dvije znamenke preuzete od kategorije. Osim brojem, svaka kategorija i pod-kategorija opisane su riječima. U svim su jezicima sadržaj i struktura Eurovoca na ove dvije razine istovjetni, pa tako sam početak u hrvatskom i engleskom jeziku izgleda ovako:

04 POLITIKA 04 POLITICS  
0406  politički okvir 0406  political framework
0411 politička stranka 0411 political party
0416 izborni postupak i glasovanje 0416 electoral procedure and voting
0421 parlament 0421 parliament
0426 rad parlamenta 0426 parliamentary proceedings
0431 politika i javna sigurnost 0431 politics and public safety
0436 izvršna vlast i javne službe 0436 executive power and public service
       
08 MEĐUNARODNI ODNOSI 08 INTERNATIONAL RELATIONS  
0806  međunarodni poslovi 0806  international affairs
0811 politika suradnje 0811 cooperation policy
0816 međunarodna ravnoteža 0816 international balance
0821 obrana 0821 defence
 
                    
Treću, najnižu razinu Eurovoca čine deskriptori, stvarne riječi (jedna ili više njih) koje se koriste za opisivanje (otuda im i ime) dokumenta. Uz svaki deskriptor postoji njegov ID (jedinstveni identifikacijski broj), koji omogućuje izravni prijevod na bilo koji od Eurovoc jezika. Eurovoc 4.2 sadrži 21 kategoriju, 127 pod-kategorija i 6645 deskriptora.

AIDE
Predmetno označivanje je ljudska aktivnost identificiranja pojmova kojima se bavi neki dokument i njihova prikazivanja preporučenim nazivima (deskriptorima) iz nekog pojmovnika. U nas je nositelj tih poslova za domenu državne uprave Hrvatska informacijsko-dokumentacijska referalna agencijaHIDRA. HIDRA je objavila hrvatsko izdanje Eurovoca, opremljeno dodacima o našim specifičnostima te kazalima na engleskom, francuskom i njemačkom jeziku.

Jedan od temeljnih zadataka informatike je oslobađanje ljudi monotonih i ponavljajućih poslova, a predmetno označavanje dokumentacije upravo je jedan od njih. Zbog toga je 2004. godine HIDRA pokrenula projekt AIDEsustav za Automatsko Indeksiranje dokumenata Deskriptorima Eurovoca. Projekt je završen u prosincu 2007. godine, a temelji se na rezultatima znanstvenog istraživanja iz područja umjetne inteligencije i strojnog učenja koji provodi Grupa za tehnologije znanja pri Zavodu za elektroniku, mikroelektroniku, računalne i inteligentne sustave (ZEMRIS) na Fakultetu elektrotehnike i računarstva Sveučilišta u Zagrebu. U projektu je sudjelovao i Zavod za lingvistiku Filozofskog fakulteta Sveučilišta u Zagrebu.
O AIDE projektu, ali i o drugim projektima Grupe za tehnologiju znanja pri ZEMRIS-u razgovarali smo s prof. dr. sc. Bojanom Dalbelo Bašić i dvojicom njezinih suradnika, dip. inženjerima Sašom Petrovićem i Franom Šarićem. U grupi još djeluju mr. sc. Jan Šnajder i dipl. inženjeri Jure Mijić  i Artur Šilić.

Strojno učenje je područje umjetne inteligencije u okviru kojeg se razvijaju napredni računarski postupci koji često imaju uzor u nekim biološkim modelima (kao što je ljudski mozak) i postupcima (kao što je ljudska sposobnost generalizacije i učenja na temelju primjera). Algoritmi koji se zasnivaju na načelima strojnog učenja omogućuju da teške probleme, koje nismo znali riješiti tradicionalnim računskim tehnikama, rješavamo pomoću računala na sličan način kao što to radi čovjek.

Sadržajno označavanje dokumenata je vrlo zahtjevan posao za čovjeka, a podrazumijeva poznavanje Eurovoc pojmovnika i poznavanje sadržaja teksta koji se označava. To je vrlo naporan i skup postupak, pogodan za primjenu postupaka strojnog učenja.

Tijekom višegodišnjeg trajanja projekta, u njega su ugrađivani brojni moduli, mahom radovi studenata FER-a, koji su doveli do isporuke djelotvornog sustava za automatsko indeksiranje dokumenata deskriptorima Eurovoca.

Projekt je realiziran u tri faze:
1. Izrada radne stanice za računalno podržano indeksiranje dokumenata
2. Obogaćivanje radne stanice novim statističkim i ostalim mogućnostima u svrhu učinkovitijeg i dosljednijeg indeksiranja
3. Izgradnja sustava koji tekstu na hrvatskom jeziku automatski pridružuje deskriptore Eurovoca kao oznake sadržaja dokumenta

Već koncem 2004. godine predstavljeni su njegovi prvi rezultati. Omogućeno je indeksiranje na temelju računalnog prikaza Eurovoc pojmovnika i utvrđivanja učestalosti pojednih riječi. Osnovni je rezultat te prve faze bila dosljednost – koliko god puta i koliko god ljudi čitalo isti dokument, rezultat je uvijek bio isti. Daljnjom ugradnjom lingvističkog znanja i računarskoga umijeća ostvareno je najprije poluautomatsko indeksiranje, da bi na kraju projekta bilo ostvareno potpuno automatsko indeksiranje.
Naslov ovoga članka nije nastao slučajno. I on pokazuje problematiku hrvatskoga jezika – iz imenice indeks nastaju glagol indeksirati, ali i glagolska imenica indeksiranje. Pri tome, sama osnova – indeks – označuje i dokument u kojega se upisuju ocjene, ali i indeks koji nešto označava.

CADIS
Naprijed su spomenuti ugradnja lingvističkog znanja i računarskog umijeća te izgradnja sustava koji tekstu na hrvatskom jeziku automatski pridružuje deskriptore Eurovoca kao oznake sadržaja. Sve to obavlja CADIS (Computer Aided Document Indexing System), računalom potpomognuti sustav indeksiranja dokumenata. Od početka je njegov razvoj usmjeren prema potrebama indeksiranja u skladu s višejezičnim Eurovoc tezurusom, no sustav je primjenjiv u svim situacijama kada se njegov statistički izlaz može koristiti. CADIS ne obavlja automatsko indeksiranje dokumenata, ali pomaže ljudima nudeći im rezultate pregledavanja dokumenata koji se temelje na ugrađenim tehnikama statističke i jezične obrade.

Pri njegovoj su izgradnji integrirana interdisciplinarna stručna znanja iz područja dokumentalistike, računalne lingvistike, umjetne inteligencije i strojnog učenja. Tijekom rada na ovome projektu izgrađeni su moduli za morfološku obradu hrvatskoga jezika i automatsko prepoznavanje jezičnih fraza u tekstu te su u grafičko sučelje objedinjeni rezultati statističke analize sadržaja dokumenta i preglednika Eurovoc pojmovnika. Riješeno je automatsko dodjeljivanje ključnih riječi iz pojmovnika Eurovoca koje najbolje opisuju sadržaj dokumenta, a koje se u  samom tekstu ne moraju pojavljivati.

Cijeli se sustav gradi višejezično, koristeći osnovno svojstvo Eurovoca – višejezičnost. U CADIS je ugrađen morfološki leksikon hrvatskoga jezika s više od pola milijuna različitih oblika riječi, koji je također razvijen na FER-u. Prilikom „čitanja” dokumenta program ne izdvaja samo pojedine riječi već i složenice od više riječi (dvije, tri ili četiri), koje olakšavaju razumijevanje sadržaja dokumenta i određivanje ključnih riječi za dokument. Nadogradnju predstavljaju algoritmi strojnog učenja, razvijeni na temelju višegodišnjeg iskustva Hidrinih dokumentalista u indeksiranju tekstovnih dokumenata.

Na temelju tih algoritama, sustav CADIS automatski predlaže ključne riječi koje se dokumentu mogu pridijeliti, a čovjek na temelju svega što mu je predloženo može lakše utvrditi stvarno relevantne ključne riječi i pridijeliti ih dokumentu u skladu s Eurovoc pojmovnikom. Posebno valja istaknuti i biblioteku programa TMT (Text Mining Tools library), namijenjenu analizi teksta koju je također razvila Grupa za tehnologije znanja FER-a. Izraz text mining može se opisno prevesti i kao rudarenje, odnosno prekopavanje podataka, a svoj pandan ima u prekopavanju, odnosno rudarenju podataka u sustavima poslovne inteligencije. Sustav za rudarenje teksta najprije valja „naučiti” kako bi nakon postupka učenja mogao sam pridjeljivati klase (oznake) dokumentima. U tom učenju sudjeluju ljudi, i cijeli postupak traje tako dugo dok sustav ne postigne zadovoljavajuće „znanje”. Svako novo, bilo ispravno, bilo pogrešno klasificiranje uvijek podiže ukupno znanje sustava te on vremenom postaje sve pametniji. TMT biblioteka ne ovisi o računalnoj platformi te se može koristiti i na Linux i na Windows operativnim sustavima, kao i na 64-bitnim i 32bitnim računalima.

Tijekom rada na ovim projektima osvojene su i brojne znanstvene i stručne nagrade i priznanja, a objavljeni su i značajni znansteni i stručni radovi u uglednim svjetskim časopisima. U nekoliko je navrata rad na indeksiranju predstavljan i na stručnim skupovima u Europi. U ožujku 2006. projekt je predstavljen u Europskom parlamentu u Bruxellesu, u okviru EUROVOC konferencije.

U studenom 2006. godine vlada belgijske pokrajine Flandrije odobrila je hrvatsko-flamanski projekt CADIAL (Computer Aided Document Indexing for Accessing Legislation), čiji je cilj razvoj inteligentnog sustava za pretraživanje Eurovocom indeksiranih pravnih dokumenata, označenih uz pomoć sustava CADIS. Zamišljen je da traje do ožujka 2009, a njegov će rezultat biti sustav za pretraživanje javne službene dokumentacije Republike Hrvatske i služit će svim njenim državnim službama i svim njezinim građanima. Time su ideje razvijene u Grupi dobile i međunarodno priznanje.
Posebno su ponosni na prošlogodišnje priznanje Zlatno Teslino jaje, što se za inovativna rješenja na polju IT-a dodjeljuje u okviru VIDI Top 100 natječaja, a Institut „Ruđer Bošković” i časopis VIDI dobili su ga upravo za CADIS.

Jamstvo da ovo nisu posljednje dobre vijesti iz Grupe za tehnologiju znanja pri ZEMRIS-u na FER-u, njihova su mladost i entuzijazam. Od posebnog je značenja i aktivno sudjelovanje studenata u svim projektima, pa je to najbolji mogući način spajanja znanosti i potreba prakse.

                       
Razgovarao:
Marijan Prević