Uvod u model i razmišljanja o primjeni

BIG DATA - izazovi implementacije

Ako je tradicionalna baza podataka kolekcija onda je Big Data kolekcija kolekcija u različitim formatima, oblicima i tehnologijama

PIŠE RATKO MUTAVDŽIĆ


Ratko Mutavdžić osnivač je i direktor tvrtke PROJEKTURA, savjetodavne kompanije koja radi s novim i tehnologijama u nastajanju kako bi ih uvela u organizacije i korporacije. Prije toga, proveo je 15 godina u tvrtki Microsoft, gdje je vodio savjetodavnu grupu, grupu za podršku razvoja novih proizvoda te grupu za prodaju javnoj upravi.
Autor je više objavljenih stručnih radova na različite tehnologijske teme, vlasnik je poznatih blogova na temu novih tehnologija i upravljanja projektima te aktivni sudionik različitih društvenih mreža na kojima se pronalaze novi načini primjene inovacija i invencija. Često je govornik na različitim konferencijama, radionicama, sastancima, generalno na bilo kojem mjestu gdje ljudi istražuju, propituju, misle i bave se inovacijama.

Danas smo svjedoci konzumerizacije prostora i proizvoda oko nas
Konzumerizam je zahvatio sve oko nas - i prostor i proizvode. Sve nam je dostupno u svakom trenutku pa je i postati vlasnik proizvoda danas lakše nego ikada. Lako je sjesti za računalo ili se zavaliti u naslonjač s iPadom u ruci i jednostavno kupovati stvari. Prikupljati informacije. Čitati savjete, bilo što što nam je dostupno u okviru mrežne povezivosti. No, jeste li primijetili kako je to danas jednostavnije negoli jučer?
Čini vam se kao da vas računalo prati, razumije što vam može i treba ponuditi, nameće vam izbor kojemu je teško odoljeti? Istina je zapravo vrlo jednostavna: kroz posljednjih desetak godina ostavili smo na internetu i u bazama podataka toliko tragova da smo onima koji nam nude proizvode i usluge potpuno otvorili svoj život. Učinili smo to ne razumijevajući što se događa i onda jednostavno prihvatili da za neku uslugu moramo potencijalnom prodavaču poslati sve što želi znati o nama. Skupilo se tako brdo podataka koji se obrađuju, pohranjuju i izvlače u realnom vremenu. Zato nas ne treba čuditi kada ulazimo u dućan, a prodavač već zna što ćemo kupiti, mada ni mi sami još nismo odlučili u tom trenutku. Dobro došli u vrijeme velikih podataka.

Fenomen Big Data
Što su uopće veliki podaci? Za većinu nas koji smo proveli život u bazama podataka i među tabličnim kalkulatorima koji su zadovoljavali aktivnosti u našem okruženju, veliki podaci bili bi poveća količina u jednoj bazi, datasetu, mnogo popunjenih redova i kolona. Vjerojatno se još sjećamo ograničenja poput 256 kolona u tablici ili slično - sve preko toga bilo je veliko i morali smo dobro razmisliti kako upravljati tim podacima s alatima koje smo imali. Osim toga, kome bi trebala tablica koja ima više od 256 kolona podataka?
Big Data model ipak je malo složeniji. Ako tradicionalnu bazu podataka promatramo kao kolekciju onda bismo mogli reći da je Big Data kolekcija kolekcija u potpuno različitim formatima, oblicima i tehnologijama. Isto tako, na prvi pogled, nije jednostavno razumjeti kako ih međusobno smisleno povezati da mogu vratiti smislenu informaciju. Kolekcije mogu biti toliko složene da ne moraju biti organizirane u kolone i redove već mogu biti predstavljene nizom nestrukturiranih podataka kao što je niz informacija koje redovno dobivamo putem Facebook ili Twitter poruka.


Primjer novih višestruktuiranih podataka
Tipovi podataka prikupljeni u grupi velikih podataka

Izvori podataka - još prevladavaju strukturirani, ali značajno se povećavaju i izvori nestrukturiranih

Značajna količina podataka i dalje dolazi iz strukturiranih izvora (baze podataka, tablice, razni zapisi) no sve više podataka dolazi iz nestrukturiranih izvora. Ubuduće se očekuje porast količine nestrukturiranih podataka jer se njhovi izvori s vremenom značajno povećavaju. Bit će ih sve više, a dolazit će iz različitih izvora - danas su to možda agenti koji prate što radimo na internetu, no sutra će milijuni senzora i nanosenzora prenositi nevjerojatne i neobične informacije o nama i našoj okolini.
Time objašnjavamo svoj pogled na podatke, odnosno na Data dio Big Data modela. No, ne treba zanemariti ni Big dio - podataka je toliko da ih ne možemo smisleno koristiti kroz lokalno dostupne tehnologije i resurse. Danas se više oslanjamo na dijeljene računalne resurse koje možemo povremeno koristiti, poput principa računalstva u oblaku (cloud-computing).



Svijet razdiobe podataka - jedni dolaze iz analitičke uporabe, a drugi iz pohrane



Povratak investicije u Big Data model

Koliko veliki podatak može biti velik?
Jedno od problematičnijih suvremenih izjednačavanja jest da se gotovo svaka iole značajnija nakupina podataka proglašava velikim podacima. Je li svaki Data Warehouse ujedno i nositelj Big Data podataka? Jasno da nije nužno jer niz tehnologija koje koristimo - od alata za poboljšanje kvalitete podataka do alata za njihovu anonimizaciju - mogu tek pripremiti podatke za njihovu uporabu. Imaju li vremena napraviti to nad golemim setom podataka koji se rapidno mijenja i povećava? Sve ovisi o tvrtki, ali čini mi se da i dalje govorimo o standardnim setovima podataka nad kojima visi analitika i izvješćivanje (Reporting and Analysis), termini koje smo doktorirali uvodeći u tvrtku razne Data Warehouse projekte.

Gartnerovo istraživanje: zbog složenosti okruženja u kojem živi Big Data pri implementaciji i razumijevanju pojavljuje se niz izazova.

Može li podatak biti profitabilan?
Povrat investicije. Bez obzira na hype koji se trenutno vrti oko Big Data modela uložen novac je daleko od točke koja omogućuje povrat. Većina korporacija investira ili namjerava investirati u Big Datu bez razumijevanja kako iz toga izvući vrijednost, nešto što možda u drugim slučajevima sigurno ne bi bila opcija (kako bi rekao Gartner, svi pričaju o tome, mada rijetko tko zna zašto).
Danas još povrat investicije ne funkcionira, a prva istraživanja potvrđuju da se investira stihijski, pokušavajući jahati na još jednom valu koji potencijalno može donijeti povrat. Ta je gravitacijska sila toliko jaka da ponekad imate osjećaj kako oni koji najviše investiraju u Big Data najmanje razumiju zašto to rade, a još manje kako u tom pothvatu pronaći novu poslovnu vrijednost. No, koliko još treba čekati da takav tip investicije vrati očekivanu vrijednost?
Prema nedavnom Gartnerovom izvješću „Big Data Adoption in 2013 Shows Substance Behind the Hype“, 64% tvrtki potvrdilo je da na neki način investira, dakle da razvija ili planira razviti nekakav Big Data projekt - od njih je 30% već uspostavilo neki projekt, a 34% očekuje završetak projekta u sljedeće dvije godine. U usporedbi s prošlom godinom to je značajan skok i ukazuje na veće zanimanje, a ujedno se od Big Date traži poboljšanje iskustva i razumijevanja krajnjeg korisnika - 54% tvrtki navelo je to kao motiv za ulazak u projekt. Poboljšanje učinkovitosti poslovnih procesa očekuje 42%, a pokretanje novih proizvoda ili poslovnih modela 39%. Prema Wikibon istraživanju potrebno je još nekoliko godina jer su današnje investicije prilično daleko od vraćanja uloženog novca. Prema istom istraživanju tek 46% onih koji su ušli u Big Data priču vide barem djelomičan pozitivni pomak u projektima dok je već 2% otkazalo projekt i proglasilo neuspjeh.
Treba razumjeti - ovdje nije riječ o tehnologiji i rješenjima koja ne rade ili nisu ispravno implementirana, najveći je problem premalo poslovnog razumijevanja što i kako napraviti s Big Data projektom. Naprimjer, mnoge tvrtke investirale su u implementaciju Hadoop tehnologije bez jasnog razumijevanja što s njom napraviti i gdje je upogoniti, a kamoli kakve rezultate od nje očekivati, čime Big Data brzo postaje gomila neupotrebljivih podataka. Nate Silver, jedan od najpoznatijih proponenata Big Data modela objasnio je problem vrlo jednostavno: Ako se količina podataka povećava po stopi od 2,5 kvintilijuna bitova na dan, količina korisnih informacija sigurno se ne povećava po istoj stopi. Velika većina podataka je samo “buka” koja se povećava po daleko većoj stopi negoli “signal”. Sve je veći broj hipoteza koje treba testirati, sve veći broj datasetova koje treba pretraživati - ali količina objektivnih podataka je relativno konstantna.



Gartner Top Big Data Challenges (September 2013)

Ako je cilj prodaja onda podatak treba tretirati kao svaku drugu pokvarljivu robu - prodati ga u velikim količinama što brže, bez povrata.

Uspješni Big Data projekti
Prema recentnim izvješćima uspješni Big Data projekti nisu uobičajeno dio IT-inicijativa već proizlaze iz aktivnosti poslovnih organizacija, većinom marketinga i usmjeravaju se na male, ali strateške aktivnosti i grupe korisnika. Takvi projekti koriste samo resurse koji razumiju što će napraviti s rezultatima i znanja koja već imaju u organizaciji. Uglavnom to nisu veliki korporativni projekti, počinju kao mali, imaju faze iteracije i mogu se brzo skalirati ovisno o tome kakvi su početni rezultati. S obzirom na to da se većina Big Data projekata temelji na open source tehnologijama početne investicije ne moraju biti velike, barem ne u programska rješenja.


Odakle sve dolaze podaci i kojom brzinom

Problemi s Big Data pristupom leže negdje drugdje. Kad je Gartner proveo istraživanje o izazovima u implementaciji, pokazalo se da je teško izdvojiti jedan ili dva problema te da se zbog kompleksnosti okruženja u kojem Big Data živi pojavljuje niz izazova u implementaciji i razumijevanju.
Pojednostavljeno, uz Big Data model i njegovu implementaciju vezano je više pitanja negoli odgovora. Najviše je bio i ostao vezan uz postavljanje pravih pitanja unutar odgovarajućeg poslovnog konteksta i potom redovno iteriranje projekta kako biste razumjeli koji podaci su vam vrijedni i koja pitanja treba postavljati kako biste dobili prave odgovore.

Data Marketplace model je prostor u kojemu tvrtke mogu na predvidljiv način prodavati (nuditi) i kupovati (tražiti) potrebne podatke.

Big Data nije Open Data, no...
Danas se sve više govori o otvorenim podacima. Skupljanje podataka može biti svrha za tvrtku, ali ponekad je svrha i u vanjskim partnerima. Kažu da uporabom Big Data modela možete postati pametniji, ali Open Data model može vas obogatiti. Nije uvijek sve doslovno, ali ta dva modela su i različita i povezana, a to nije samo uporaba podataka.
Open Data postat će temelj otvaranja tvrtke prema vanjskim partnerima i korisnicima, omogućujući stvaranje nove poslovne vrijednosti, a potom i novog rasta, na neki način svetog cilja koji svaka tvrtka (barem one malo pametnije) traži kontinuirano tijekom svog postojanja.
Iz korporativne perspektive lakše je usvojiti Big Data negoli Open Data model. Big Data jednostavno ukazuje na dotad nepoznate uzorke podataka i pomaže u razumijevanju poslovanja i okruženja oko njega. No, nije skalabilan što se tiče ljudi koji pripadaju tom okruženju iako povezuje, odnosno može povezivati fantastično veliki broj podataka u realnom vremenu, još nad kojim vise analitičari i izvještajni odjeli (bez obzira na nastojanje svih nas u industriji, termin knowledge worker nije zaživio onako kako smo to zamišljali).
Za razliku od Big Date Open Data uključuje u zajednicu i komunikaciju mnogo više korisnika, partnera, stakeholdera, dobavljača - omogućujući da se kroz princip transparentnosti i sudjelovanja te uporabu otvorenih podataka poslovno razumijevanje poveže s korisnicima, dijele troškovi s partnerima i općenito otvore novi kanali monetizacije vaših resursa, u ovom slučaju podataka.
Potvrđujući to čak i Gartner smatra da uspostava i provođenje Open Data modela - strategije i programa - mora biti u tvrtki vrhunski prioritet, pogotovo kao jedan od novih kanala u prodaji usluga i proizvoda. Ponekad takav pristup zahtijeva radikalne promjene u tvrtki koja otvaranjem svojih podataka ujedno otvara i dio svojih poslovnih procesa te omogućuje vanjskim sudionicima uspostavu i uporabu outside-in poslovnih povezivanja - nešto što vjerojatno nije uobičajeno, ali omogućuje rast tvrtke kroz otvorenu inovaciju. (Zanima li vas taj termin, pogledajte: Henry Chesbrough „Open Innovation“ - knjiga i program.)

Big Data tehnologije

No, što je Big Data u tehnološkom smislu? Kako se danas implementira? Implementirati Big Datu ne znači samo postaviti neku bazu i u nju spremati podatke. To je u većini slučajeva promašena investicija, a za razumijevanje tehnološke podloge ipak treba malo više prostora. Ipak, ako se prisjetite kako vas proizvođači targetiraju ponudama i znaju što vam treba baš kad vam treba - ispod takvih aktivnosti leže tehnologije Big Data modela.



Tko sve i na koji način primjenjuje Hadoop u svojim proizvodima

Za većinu velikih tvrtki Big Data je zapravo Hadoop projekt. Hadoop (Hadoop distributed File System HDFS, MapReduce tehnologija, HBase skalabilna baza podataka, Hive DataWarehouse infrastruktura, Mohout learning library…) je skup open source tehnologija koji se pojavljuje u bilo kojem značajnijem analitičkom proizvodu pri upravljanju velikim podacima. Hadoop se nalazi u 37% svih Open Source Big Data tehnologija te u 47% komercijalnih Big Data tehnologija (vidi Foresterr mapu). Hadoop danas distribuiraju u svojim proizvodima i Cloudera, Hortonworks,, MapR, IBM, Microsoft, Amazon Web Services…
Dakako, Hadoop nije jedina bitna tehnologija. Na tržištu ima mnogo zanimljivih tehnologija koje ovisno o namjeni i primjeni mogu biti dio većeg paketa ili imaju odgovarajuću funkcionalnost. Ponekad su tehnologije kompletno integrirane u tehnološki napredna rješenja (pogledajte SAP HANA in-memory tehnologiju koja omogućuje linearno skaliranje mogućnosti obrade nad velikim količinama podataka) po principu plag-and play (pogledajte ORACLE­ Big Data Appliance s dodatnim mogućnostima povezivanja na postojeće Data Warehouse modele ili IBM Big Insights odnosno IBM Stream Computing).
Obrada podataka u realnom vremenu - stream computing - postaje sve značajnija. Teško je prikupljati i obrađivati podatke koji u velikim količinama dolaze iz realnog svijeta (npr. senzorima). Zato se razvijaju tehnologije koje u prolaznim podacima traže uzorke na osnovi kojih mogu pokrenuti određene akcije. Osim IBM Stream Computinga tu je i Microsoft StreamInsight i ORACLE Complex Event Processing, ali i veći broj manjih proizvođača koji vide u tome svoju poslovnu priliku.

Dakako, lakše je napisati negoli provesti cijeli program u praksi. Osobe zadužene za informacijski sustav imat će značajni zadatak tako otvoriti infrastrukturu i povezati je s vanjskim sudionicima, a uz to zadržati postojeću sigurnost, mogućnosti i programe sudjelovanja i dijeljenja informacija.

Big Data nije samo fenomen kojim se bave korporacije i istraživači. Uskoro će vas i osobno zanimati jer drastično raste i količina podataka na vašim osobnim računalima. Ponekad nije lako razumjeti što se nalazi u nekih 98.765 dokumenta u 12.345 mapa na vanjskom disku.

Danas je Open Data model najviše povezan s državnom upravom i njenim podacima koji nisu toliko veliki, bez obzira na to što ona o tome misli i koliko cijeni svoje baze podataka. Dobra strana priče jest da je sustav podataka uređen. Iako je uređen unutar specifičnog silosa ministarstva ili agencije, uređen je u strukturiranom podatku i relativno lako dostupan. Uvijek je bilo više pitanje zakona, pravilnika, uredbe ili volje da se nešto napravi, a tako je i tu: treba razumjeti vrijednost otvaranja, slijediti neke EU-direktive po pitanju Public Sector Information otvaranja i razumjeti naš Zakon o pravu na pristup informacijama koji eksplicitno navodi kako treba dati šansu otvaranju podataka. K tomu, postoje i neke EU-direktive i preporuke pa čak i zahtjevi gdje se podaci moraju otvoriti.
Sve to ima malo veze s velikim podacima. Otvaranje velikih podataka - nekakav Big Open Data model - ima smisla samo u specifičnim situacijama, a osim onih u istraživačkoj djelatnosti teško mi je i zamisliti scenarij u kojemu bi to imalo smisla. Čak i tada kad vam izgleda da ima vjerojatno je više riječ o analitici i reportingu negoli o stream podacima velike brzine za koje vam treba Big Data infrastruktura i alati.