Zaštita privatnosti u multimedijskim sadržajima - Deidentifikacija 2. dio
Deidentifikacija nebiometrijskih osobnih indikatora
Deidentifikacija teksta
Istraživanja u području deidentifikacije teksta zbog zaštite privatnosti osoba počela su s deidentifikacijom teksta zdravstvenih dosjea pacijenata. Pristup deidentifikaciji temeljio se na uklanjanju brojnih specifičnih kategorija informacija iz tekstualnog zapisa te na njihovoj zamjeni s nadomjesnom/lažnom informacijom. Automatska deidentifikacija teksta zdravstvenih dosjea je usredotočena na visokostrukturirane specifične tipove zapisa, ali i na slobodan tekst medicinskih zapisa s vrlo promjenljivom strukturom. Deidentifikacijske metode se temelje na predlošcima i specijaliziranom znanju potrebnom za zamjenu osobnih zdravstvenih podataka u dosjeima, a mogu se temeljiti i na složenoj kombinaciji rječnika i algoritmima za analizu teksta. U novije vrijeme pristupi deidentifikaciji teksta zasnivaju se na kombinaciji strojnog učenja, heurističkih i statističkih metoda te podudaranja s predloškom. U postupku zaštite privatnosti u tekstovima se umjesto anonimizacije koristi deidentifikacija, odnosno obrativi proces koji uz uporabu tajnog ključa dopušta prikaz izvornih osobnih podataka.
Deidentifikacija načina odijevanja i frizure
Poznato je da način odijevanja i frizura nose informaciju koja (djelomično) otkriva identitet osobe i može se koristiti za razvrstavanje ljudi u različite kategorije. Poznat je i problem a pair-wise constraint koji se ogleda u tome da je moguće odrediti da dva deidentificirana lica pripadaju istoj osobi u videu i to na temelju odjeće ili frizure. Uporaba govornog, specifičnog društvenog i političkog konteksta te informacije o okolini u kojoj se nalazi osoba može pomoći u otkrivanju njenog identiteta. Nažalost, vrlo je malo napravljeno na području uklanjanja ili prikrivanja takvog konteksta.
Deidentifikacija fizioloških biometrijskih osobnih indikatora
Deidentifikacija lica u slikama i videu
Lice je glavni fiziološki biometrijski identifikator u multimedijskim sadržajima. Ono osim identifikacije, otkriva dob, spol, emotivno raspoloženje i zdravstveno stanje i predstavlja osjetljivu značajku privatnosti. Zbog svega toga se zahtijeva deidentifikacija lica u cilju zaštite privatnosti. Rana istraživanja na području deidentifikacije lica bila su usmjerena na deidentifikaciju lica na slikama i razvijene su jednostavne tzv. naivne metode kao što su prekrivanje dijela lica crnim pravokutnikom ili mnogokutom (black box method), zamućenje (blurring) i pikselizacija (pixelation) - smanjenje rezolucije slike. Slika 2. prikazuje rezultate deidentifikacije slike lica uporabom naivnih metoda.
Slika 2. Primjer deidentifikacije lica (S. Ribarić, N. Pavešić, 2015.): a) izvorna slika; b) prekrivanje dijela lica; c) zamućenje; d) pikselizacija
Naivne metode deidentifikacije mogu spriječiti da osobu identificira čovjek, no ne mogu prevariti automatske sustave za raspoznavanje. Poznati su strojni postupci otkrivanja identiteta u tako deidentificiranim slikama lica koji se temelje na tzv. oponašanju postupka (parrot recognition). Za postizanje više razine zaštite privatnosti upotrebljavaju se metode deidentifikacije koje se temelje na uporabi svojstvenih lica (eigenface) u kojima se lice prikazuje s određenim, manjim brojem svojstvenih lica dobivenim Karhunen-Loeveom transformacijom (KLT). U novije vrijeme upotrebljavaju se složeniji postupci deidentifikacije lica koji se zasnivaju na postupku zamjene izvornog lica nekim srednjim licem iz galerije slika lica: k-istih lica (k-Same), k-istih izabranih lica (k-Same-Select ) i k-istih lica temeljenih na modelu (Model-based k-Same). Slika 3. prikazuje rezultat deidentifikacije metodom k-istih lica temeljenom na modelu.
Slika 3. Deidentifikacija lica uporabom k-istih lica temeljenom na modelu (S. Ribarić, N. Pavešić, 2015.): a) izvorna slika lica: b) deidentificirana slika lica
Poseban izazov na području zaštite privatnosti je automatska deidentifikacija lica u videu, zato što lice treba biti detektirano, lokalizirano i deidentificirano u svakom slikovnom okviru (frame). Lice koje nije deidentificirano samo u jednom slikovnom okviru kompromitira osobu u videozapisu i omogućuje njenu identifikaciju. Automatska deidentifikacija u videu sastoji se od detekcije i lokalizacije lica te njegovog prikrivanja.
Za detekciju i lokalizaciju lica u videu koriste se složeni postupci poznati iz računalnog vida kao što su: umjetne neuronske mreže, Schneiderman-Kanade i Viola-Jones detektori i njihove izvedenice, histogrami orijentacije gradijenta (HOG), kombinacija oduzimanja pozadine slike i vreće (bag) segmenata i stroja s potpornim vektorima SVM (Support Vector Machine).
U novije vrijeme primjenjuju se vrlo složeni postupci za detekciju i lokalizaciju lica koji koriste višestruke kanale za registraciju videa i izvode linearne i nelinearne transformacije ulazne slike (histogrami gradijenata, različiti prostori boja RGB, HSV, CIELUV, amplitude gradijenta, Gaborovi i DoG (Difference of Gaussian) filtri. Praćenje i detekcija, odnosno kombinacija prostorne i vremenske podudarnosti između slikovnih okvira, može povećati djelotvornost postupka lokalizacije lica. Nakon uspješne lokalizacije lica u slikovnom okviru slijedi njegovo prikrivanje. Mogu se rabiti i metode za deidentifikaciju lica u stacionarnim slikama. Alternativni pristup prikrivanja lica u videonadzornim sustavima temelji se na postupcima izobličenja područja lica uporabom kodiranja miješanjem (scrambling) koji su obrativi.
U posljednjih nekoliko godina pojavili su se videonadzorni sustavi sa zaštitom privatnosti u stvarnom vremenu. Spomenimo neke: Respectful Cameras system - sustav u kojem se zahtijeva da osobe čija privatnost treba biti zaštićena nose kape ili prsluke u boji. Samo njihova lica će se u videosekvencama prekriti eliptičnim bijelim područjem. DSP-based PrivacyCam sustav štiti privatnost osoba u videu uporabom kodiranja područja lica miješanjem. TrustCam prototype system - sastoji se od mreže kamera koje su opremljene posebnim modulom za kodiranje područja lica u videu. De-identification Camera predstavlja sklopovsko rješenje automatskog praćenja i prikrivanja lica na razini osjetnika (kamere) uporabom naivnih metoda deidentifikacije lica.
Složeniji postupci zaštite privatnosti u videu, koji se razvijaju u posljednje vrijeme, upotrebljavaju aktivne modele izgleda (active appearance model) u kojima se slike lica prije deidentifikacije grupiraju prema izrazu, spolu i pozi. Svaka je takva grupa predstavljena aktivnim modelom izgleda. Izvorna se slika lica podudara sa svakim aktivnim modelom izgleda te se izvorna slika zamjenjuje u skladu sa značajkama grupe. Tako se poboljšava prirodnost i uporabljivost deidentificiranog videa.
Usprkos intenzivnim istraživačkim naporima u području deidentifikacije lica u videu, ostaju još brojni neriješeni problemi i izazovi, kao što su: lokalizacija lica u različitim uvjetima osvjetljenja scene, djelomično prekrivena lica, različite poze lica, prisutnost tzv. strukturnih komponenti kao što su naočale, sunčane naočale, brada, brkovi. Poseban problem je lokalizacija i deidentifikacija lica u stvarnom vremenu za nadzorne sustave u kojima se pojavljuje veliki broj osoba (crowd scene).