HRVATSKI JEZIK I RAČUNALNO PREVOĐENJE

Hrvatski online

Ulaskom naše zemlje u Europsku uniju hrvatski postaje njezin 24. službeni jezik. Stoga primjena računalne tehnologije u prevođenju, dostup do informacija u poslovanju, obrazovanju, zabavi i svakodnevnoj upotrebi više nije pitanje istraživačkih interesa, nego stvarne potrebe za suradnjom, komunikacijom i informiranjem.

PIŠE Sanja Seljan


Autorica dr. sc. Sanja Seljan (sanja.seljan @ffzg.hr) redovni je profesor na Odsjeku za informacijske i komunikacijske znanosti ffzg. Njezina područja istraživanja su automatsko računalno i računalno potpomognuto prevođenje, prijevodne memorije, formalni modeli leksičko-funkcionalne gramatike i primjena računala u poučavanju jezika. Objavila je više od 60 znanstvenih radova, sudjelovala na sedamdesetak konferencija, održala sedam pozvanih predavanja, među kojima i u Općoj upravi za prevođenje Europske komisije.
Voditelj je projekta “Informacijska tehnologija u prevođenju hrvatskoga i e-učenju jezika” pri Ministarstvu znanosti, obrazovanja i sporta te je sudjelovala u šest međunarodnih i domaćih projekata.

Ta vrst jezične industrije čak i u doba recesije bilježi porast od 10 do 16% godišnje, a o njenoj važnosti govore brojna istraživanja, međunarodni projekti, konferencije, udruge, prevodilački online-alati, komercijalni softver, itd.
Prevodilačke tehnologije uključuju računalno potpomognuto i računalno automatsko prevođenje koja se temelje na različitoj tehnologiji. Računalno potpomognuto prevođenje obuhvaća razne alate i aplikacije kojima se služimo pri prevođenju: od alata za provjeru pravopisa i stila, elektroničkih jednojezičnih i višejezičnih rječnika, glosara, do terminoloških baza i prijevodnih memorija, dok automatsko računalno/strojno prevođenje podrazumijeva automatizirani postupak računalnog prevođenja, gdje korisnik može posredovati u fazi pripreme ili naknadnog uređivanja teksta, ali ne i interaktivno tijekom samog postupka prevođenja.
Iako postoje brojni pristupi i najbolji se rezultati postižu integriranim statističko-jezičnim modelima, danas je sve rašireniji statistički utemeljen pristup koji se temelji na velikim količinama paralelnih dvojezičnih korpusa.
Primjena računalnoprevoditeljske tehnologije zahtijeva i izgradnju jezičnih resursa što je izuzetno važno za manje raširene jezike kao što je hrvatski. Izgradnja odgovarajućih jezičnih resursa i alata (online/CD dvojezičnih i višejezičnih rječnika, terminoloških baza, alata za strojno prevođenje, itd.) zahtjevan je zadatak (financijski, vremenski, kadrovski) te traži interdisciplinarni, pažljivo organizirani, znanstveni i praktični rad, financijsku podršku i podršku nacionalnih institucija, usklađenost s međunarodnim standardima uz puno dobre volje.
Ulaskom naše zemlje u Europsku uniju hrvatski postaje njezin 24. službeni jezik. Stoga primjena računalne tehnologije u prevođenju, dostup do informacija u poslovanju, obrazovanju, zabavi i svakodnevnoj upotrebi više nije pitanje istraživačkih interesa, nego stvarne potrebe za suradnjom, komunikacijom i informiranjem.


Opća uprava za prevođenje (Directorate-General for Translation, DGT) Europske komisije danas je najveći prevoditeljski ured na svijetu koji zapošljava više od 2000 prevoditelja različitih profila, uz uvjet odličnog poznavanja materinjeg jezika, dva strana jezika i korištenje tehnologije, a nedavno je svoja vrata otvorila hrvatskim kandidatima. DGT ured odredio je i uvjete za zapošljavanje te se osim jezičnih kompetencija, interpersonalnih i interkulturalnih, traže i sposobnosti višejezičnog pretraživanja, organizacije i zaključivanja, služenje prevodilačkim alatima i općenito, primjena tehnologije u procesu obrade dokumenata.

Hrvatski jezik ulazi kao ravnopravan 24. službeni jezik te ga treba koristiti i njime komunicirati, o njemu se brinuti, što svakako uključuje i izgradnju jezičnih izvora i alata za računalno i računalno potpomognuto prevođenje.

Tehnologija prevođenja (Translation Technologies), prevodilački alati (Translation Tools), računalno/strojno potpomognuto prevođenje (Computer-Assisted Translation, CAT), strojno prevođenje (Machine Translation, MT) – nazivi su koji se sve češće mogu čuti u poslovanju kompanija, državnih institucija, agencija, u prevodilačkim uredima, istraživačkim centrima, na fakultetima ili kod svakodnevnih korisnika.

Prevodilačke tehnologije razvile su se kao novo interdisciplinarno područje, na raskrižju puteva između teorije i prakse, informacijskih znanosti i jezika, znanosti i industrije, obrazovanja i profesije te danas postaju nezaobilazna industrija. Prevodilačke tehnologije uključuju računalno potpomognuto i automatsko računalno prevođenje koja se temelje na različitoj tehnologiji.

Hrvatski ulazi kao ravnopravan 24. službeni jezik te ga treba koristiti i njime komunicirati, o njemu se brinuti, što svakako uključuje i izgradnju jezičnih izvora i alata za računalno i računalno potpomognuto prevođenje.
Gotovo sigurno, nema tko nije barem jedanput (iz trenutne potrebe za dostupom informacijama na stranom jeziku, iz znatiželje, zbog zabave za pronalaženjem pogrešaka, iz istraživačkih ili inih pobuda) isprobao Google Translate, u koji je 2008. godine uključen i hrvatski jezik. No kako bi se ovaj ili drugi alati mogli valjano procijeniti, treba poznavati ograničenja i mogućnosti računalnoprevoditeljske tehnologije, odnosno mogućnosti stvarne primjene.
Velike kompanije kao što su Ford, General Motors, Xerox, Berlitz, Fujitsu, Philips, Bosh, Coca-Cola, Honda, Volkswagen, Mitsubishi, Siemens (podaci na webu), brojni portali, udruge, institucije itd. diljem svijeta primjenjuju u poslovanju prevodilačke tehnologije, ali u određenim uvjetima i na određenoj vrsti teksta. Tekst koji je namijenjen računalnom prevođenju uglavnom je većeg volumena - ili je riječ o nekolicini tekstova iz određenoga područja - strukturiran, vrlo često repetitivnog karaktera (primjena ustaljenih fraza ili dijelova rečenica) i specijalizirane terminologije, te se baš tekstovi iz područja prava, financijski izvještaji, tehnički priručnici, zapisnici sjednica, priopćenja... najviše prevode primjenom prevodilačkih tehnologija.
Moglo bi se reći - ono što je nekad predstavljala tiskana knjiga danas je besplatna jezična online-tehnologija čija primjena nije ograničena samo na prevoditeljske urede već je postala svakodnevna potreba. Izgradnja sustava za računalno i računalno potpomognuto prevođenje za hrvatski jezik predstavlja stvarnost, uz uvjet racionalne upotrebe.

Primjena računalnoprevoditeljske­ tehnologije zahtijeva i izgradnju jezičnih resursa što je izuzetno važno za manje raširene jezike kao što je hrvatski te traži interdisciplinarni, pažljivo organizirani, znanstveni i praktični rad, financijsku podršku i podršku nacionalnih institucija, usklađenost s međunarodnim standardima uz puno dobre volje.

Tko to u nas probija led?
Odsjek za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu (http://www.ffzg.unizg.hr/infoz/hr/) relevantno je mjesto na kojemu se obrazuju novi stručnjaci. Na tom se odsjeku predaju brojni kolegiji na preddiplomskoj, diplomskoj i poslijediplomskoj razini vezani uz računalno prevođenje, prijevodne memorije, terminološke baze, računalnu obradu jezika, pretraživanje informacija, leksikografske izvore, sažimanje teksta, i brojna druga područja jezičnih tehnologija. Među drugim profilima, Odsjek za informacijske i komunikacijske znanosti sudjeluje u izobrazbi budućih profesionalaca u području računalnog prevođenja, obrade jezika, računalne lingvistike, terminologa, ali nudi i programe vezane uz e-učenje, organizaciju znanja i dokumentaciju, baze podataka, programiranje i dr.
Odsjek se svojim radom uključio i u dodatno obrazovanje te održava radionice za sve zainteresirane izvan Fakulteta i prema pokazanom zanimanju. Radi i na međunarodnoj razini ugošćujući inozemne predavače te omogućuje mobilnost nastavnika i studenta. Osobita pažnja posvećena je međunarodnoj konferenciji INFuture http://infoz.ffzg.hr/INFuture/ koja se održava svake dvije godine.
Na ovogodišnjoj konferenciji INFuture 2013: Information Governance, od 6. do 8. XI. 2013 (u Double Tree by Hilton Zagreb Hotel) sudjelovat će pozvani govornici iz Europske komisije, predavači s njemačkih, australskih i američkih sveučilišta, a popraćena je i nizom aktivnosti (okruglim stolom, promocijama, prikazima projekata, prezentacijama...) na koje su pozvane državne institucije, privatne kompanije, istraživački centri, sveučilišta, odnosno svi zainteresirani za informacijske, komunikacijske i srodne znanosti.
Na Odsjeku se također razrađuju nacionalni i međunarodni projekti u kojima se razvijaju tehnologije za hrvatski jezik pa tako i za računalno i računalno potpomognuto prevođenje, gdje se sve više uključuju suradnici iz industrije, agencije i druge institucije te se radi na uspostavljanju daljnje suradnje.

Razni putevi k istom cilju – za male jeftiniji sustavi

Online sustavi za automatsko prevođenje danas se mogu koristiti za pronalaženje srži informacije u široko korištenim tekstovima koji ne koriste specifičnu terminologiju. Upravo taj statistički-utemeljen pristup (Statistically-base Machine Translation, SMT) predstavlja osnovu razvoja većine današnjih sustava za online-prevođenje pa i alata Google Translate, kao i drugih sustava koji se razvijaju za manje govorene jezike kao i za hrvatski.
SMT sustavi temelje se na golemim količinama paralelnih korpusa, iz kojih se temeljem određenih parametara pronalaze paralelni parovi nizova riječi zbog čega se češće korištene fraze ispravno prevode.
SMT pristup je u suprotnosti s drugim pristupima kao što je računalno prevođenje temeljeno na primjerima (Example-based MT) ili računalno prevođenje temeljeno na pravilima (Rule-based MT) koje uključuje metode prevođenja riječ-za-riječ, međukoda (interlingua) ili transfera.
Rezultati se poboljšavaju izgradnjom hibridnih sustava koji kombiniraju različite pristupe no to zahtijeva dugotrajan i zahtjevan rad na profesionalnim sustavima automatskog računalnog prevođenja. Jedan od takvih sustava je Systran koji se razvija za šire govorene jezike, no zahtijeva ručnu izradu rječnika i pravila, što predstavlja veliki financijski i kadrovski izdatak.
Prve ideje statistički-utemeljenog strojnog prevođenja iznosi Warren Weaver 1949. godine koji se služi postavkama informacijske teorije i komunikacijskog kanala Clauda Shannona, a problem strojnog prevođenja usporedio je s kriptografijom. Jedan od sustava koji potpuno automatski prevodi između engleskog i francuskog je METEO za prevođenje vremenskih izvještaja. Nakon toga, SMT sustavi se ponovno javljaju 1991. godine u istraživanjima IBM-a u američkom Watson Research Centru na sustavu CANDIDE.
Danas se u Europskoj komisiji razvija statistički-utemeljen sustav za strojno prevođenje između službenih jezika pod nazivom MT@EC koji se temelji na paralelnom korpusu pravne stečevine (Acquis Communautaire) službenih jezika EU. Velike kompanije, udruge ili istraživački centri razvijaju vlastite SMT sustave kao što su Microsoft, Google Translate, IBM, Language Weaver, AsiaOnLine, kao i Systran koji koristi hibridnu tehnologiju.
Prednosti SMT sustava su niska cijena izrade, dostupnost alata za izgradnju takvih sustava i jezična neovisnost. No, za izgradnju takvih sustava potrebne su znatne količine kvalitetnih paralelnih korpusa, kao i dobro poznavanje tog interdisciplinarnog područja. Unatoč brojnim nedostacima - koji se za hrvatski jezik najviše očituju u morfološkim problemima i, ovisno o području, nepokrivenoj terminologiji - SMT sustavi imaju svoju primjenu u ograničenom području (npr. prevođenje izvještaja, odluka, legislativa, financije, dostup do informacija i drugo) te se i dalje razvijaju. Izgradnja SMT sustava za hrvatski jezik zasigurno neće biti savršena, no omogućit će uključivanje u europska istraživanja, osnovni dostup do informacija na hrvatskom jeziku i prijevode češće korištenih rečenica i fraza. S obzirom na to da je hrvatski postao 24. službeni jezik Europske unije izgradnja jezičnih alata i resursa sigurno će imati svoju primjenu.