Big data u službi sigurnosti

Cyber-kriminalci korak ispred

O aktivnom pristupu računalnoj sigurnosti možemo govoriti tek kada sigurnosne tvrtke budu mogle uobličiti otkrivanje i sprečavanje prijetnji u funkcionalne, automatske i inteligentne računalne sustave koji će na smislen način obrađivati goleme količine podataka

PIŠE: MATE STRGAČIĆ

Danas se samo u jednoj godini generira više heterogenih podataka nego što ih je čovječanstvo proizvelo od nastanka do 2003. godine

Kako doći do važne informacije? Danas smo više negoli ikad izloženi plimnom valu informacija i podataka, a ključna je stvar kako iz te šume izvući baš onu informaciju koja nam treba.
Ljudi se bave predviđanjima još od prapovijesti, no nikad se nismo više približili znanstveno utemeljenom prognoziranju i utvrđivanju različitih trendova, nego kada smo krenuli proučavati goleme količine raznorodnih podataka.
Akronim 3V označava big data koncept - volume, velocity i variety (obujam, brzina i raznorodnost), osobine koje obilježavaju big data paradigmu.
S velikom sigurnošću možemo reći da su podaci vječni. Koliko danas koristite aplikacije ili hardver stariji od deset godina? A podataka starijih od deset godina? Gomilanje novih i zadržavanje starih podataka uvjetuje povećanje njihovog volumena. S obzirom na aktualne trendove poput interneta svega (Internet of Everything), njihova se veličina eksponencijalno povećava tako da se danas u samo jednoj godini generira više heterogenih podataka nego što ih je čovječanstvo proizvelo od nastanka do 2003. godine. Facebook svaki dan skuplja više od 500 TB korisničkih podataka!

Studije pokazuju da velike enterprise tvrtke mogu godišnje prosječno uštedjeti više od četiri milijuna dolara ako imaju sigurnosne sustave i politike koje se fokusiraju na sve faze unutar hakerskog napada

(Ne)izvediva analiza

Sirovi nam podaci nisu ni od kakve koristi. Njihovu pravu vrijednost uviđamo tek nakon propisne analize i preoblikovanja u smislene zaključke na temelju kojih ćemo povući određene poteze. Analitika poslovnih modela, predviđanje klimatskih obrazaca, dinamika gibanja fluida i genetička istraživanja tek su neka od područja unutar kojih je danas nezamjenjiva big data analitika. Uz to, analitika velikih podataka nezamjenjiva je unutar još jednog već danas aktualnog područja koje će u budućnosti sigurno biti još zastupljenije, a to je računalna sigurnost. Problem je što se unutar njega djeluje uglavnom reaktivno pa se protumjere dizajniraju tek kada dođe do problema. 
U toj igri mačke i miša uglavnom su u prednosti negativci, beskrajno domišljati u dizajniranju različitih metoda napada, dok profesionalci zaposleni na zaštiti računalnih mreža jedino mogu pratiti najnovije sigurnosne trendove i nadati se da neće biti meta neke još nepoznate vrste napada. 
Forenzički se dio kod računalne sigurnosti uglavnom svodi na analizu goleme količine zapisa (event logs, mrežni paketi, DNS upiti…) unutar određenog razdoblja što je u praksi često vrlo problematično, jer ti podaci zauzimaju mnogo prostora pa se često oni stariji od npr. tri mjeseca brišu kao nevažni, jer je već i osiguravanje prostora za njihovu pohranu problematično, a njihova suvisla analiza često spada u domenu znanstvene fantastike. Drugi je problem što su ti podaci heterogeni, jer potječu iz različitih izvora pa se ne mogu jednostavno  analizirati. Samo na temelju ta dva problema uočavamo da je big data koncept kao stvoren za tu namjenu.

Traženje igle u plastu igala

Količina podataka koju klasični SIEM (Security Information and Event Management) alati analiziraju za sat vremena, Hadoop kao platforma za analizu velikih količina podataka obradi i prezentira za manje od minute. Veliki problem u računalnoj sigurnosti su APT (Advanced Persistent Threat) hakerski napadi koji za žrtvu biraju određenu tvrtku ili nekog njenog visokorangiranog pojedinca. Ti se napadi odvijaju polako i u fazama tako da će rijetko alarmirati sustave za otkrivanje i sprečavanje napada (IDS/IPS). 
Karakteristično je da forenzička post mortem analiza logova jasno pokazuje obrazac po kojemu se takav napad mogao otkriti i predvidjeti, ali se zbog nedostatne analitike ipak provukao ispod radara. Tvrtka često ima ustaljene obrasce mrežnog prometa i svaka je anomalija - ovisno o njenoj veličini - prilično vidljiva, ako imamo alat kojim ćemo analizirati ponuđene podatke. Obično se prati veći broj različitih podataka unutar mreže kao što su spajanja s internih računala na sumnjive IP adrese, anomalije u prijavljivanju na korisnička računala (korisnici se uglavnom prijavljuju na ista računala, a svako odstupanje od uobičajenog obrasca je razlog za uzbunu), praćenje neobičnih aktivnosti izvan radnog vremena, neuobičajeno velik promet unutar internih čvorova i slično. 
Pojedinačno nijedan takav događaj nije alarmantan, no njihova je kombinacija definitivno razlog za uzbunu. Jedan od trenutno aktivnih sustava koji može analizirati takav skup podataka je Beehive. Taj se sustav nalazi unutar RSA laboratorija (dio EMC² tvrtke) i u stanju je za jedan sat obraditi podatke koje skupi u 24 sata te unutar njih prepoznati kršenje zadanih politika što bi moglo indicirati infekciju malicioznim kodom.

Prati globalno djeluj lokalno

Analitika poslovnih modela, predviđanje klimatskih obrazaca, dinamika gibanja fluida i genetička istraživanja tek su neka od područja unutar kojih je big data analitika nezamjenjiva

Kada govorimo o analitici velikog skupa podataka zbog otkrivanja računalnih prijetnji moramo spomenuti i Symantecovu istraživačku platformu WINE (Worldwide Intelligence Network Report). Taj sustav se sastoji od nekoliko milijuna senzora koji se nalaze po cijelom svijetu i skupljanju informacije o spamu, phishingu, malwareu i slično.  Zapravo, ti su senzori računala sa Symantecovim antivirusnim softverom čiji vlasnici pristaju na dijeljenje podataka vezanih za malware s kojim dođu u doticaj na računalu na kojem su instalirani. 
Taj sustav koji svaki dan generira goleme količine podataka služi Symantecu za poboljšanje njegovih antimalware proizvoda, ali je dozvolio pristup i akademskoj zajednici da može forenzički pratiti složene napade s vremenskim odmakom od njihovog nastanka pa sve do izdavanja njihovih antivirusnih definicija. 
Danas se za analizu nekog malicioznog koda najčešće provode post mortem analize na testnim računalima kako bi se vidjelo što payload malwarea izvodi na zaraženom računalu, no često uz analizu koda postoji i niz dodatnih informacija koje bi sigurnosnim stručnjacima mogle biti zanimljive poput vektora širenja ili geografske regije unutar koje je maliciozni kod najzastupljeniji. Takve podatke može nam pružiti WINE platforma kad uz pomoć svojih algoritama obradi veliku količinu skupljenih podataka. 
Zbog sigurnosti toj se platformi može pristupiti isključivo unutar Symantecovih laboratorija (red labs) koji nemaju izlazne mrežne veze prema internetu. Taj se sustav istaknuo u istraživanju zero day ranjivosti gdje se operacijski sustavi napadaju kroz proizvođaču još nepoznate propuste unutar operacijskog sustava. Ranije se pretpostavljalo da ti napadi traju prilično dugo prije otkrića, no WINE platforma je te pretpostavke pretočila u egzaktne brojke pa danas znamo da se otkriju takvi napadi u prosjeku treba deset mjeseci.
Procjena je da velika enterprise tvrtka poput HP-a generira više od bilijun  računalnih događaja u jednom danu odnosno 12 milijuna u sekundi. Te će brojke ubuduće dodatno rasti tako da će njihova analiza biti još problematičnija.
Za takve je sustave od ključne važnosti verifikacija legitimnosti i konzistentnosti podataka koji često potječu od kompromitiranih izvora, zaštita privatnosti pri skupljanju podataka, zaštita prikupljenih podataka te obuka ljudi koji su još nezamjenjivi kad  treba interpretirati obrađene podatke koje vizualiziraju različiti alati i platforme. 
Tek kad sigurnosne tvrtke budu u stanju uobličiti otkrivanje prijetnji, odgovor na njih i prevenciju u funkcionalne, automatske i inteligentne računalne sustave koji će na smislen način obrađivati goleme količine podataka možemo govoriti o proaktivnom pristupu računalnoj sigurnosti. Sve dotad  će cyber-kriminalci biti korak ispred.