zvláštní neprodejná příloha | červen 2015

Transkript

zvláštní neprodejná příloha | červen 2015
Z VL Á ŠTNÍ NEPRODE JNÁ PŘÍLOHA | ČERVEN 201 5
Bigdata
2 0 1 5
S I LV E R PA R T N E R
CW6-bigdata.indd
I
Bigdata_2015_235x297.indd
12
19.06.152:25
14:02
6/18/15
PM
BIG DATA
Kam míří současná big data?
Za několik málo let urazila myšlenka big dat cestu ze sféry humbuku
až po jednu z nejpřevratnějších základních IT technologií nového věku.
TH O R O L AVSRUD
L
etos budou organizace rozšiřovat nasazení
technologie big dat nad rámec počáteční implementace a v řešeních pracujících v reálném čase, tvrdí John Schroeder, výkonný ředitel
a spoluzakladatel společnosti MapR Technologies, která se specializuje na Hadoop.
Je to podle něj vyvolané pochopením obrovského pokroku, který dodavatelé učinili začleněním nových platforem do svých analytických nástrojů. Podle Schroedera lze u big dat očekávat
v nejbližších měsících pět zásadních změn.
1
Nejvíce pozornosti bude mít datová
agilita
Datová agilita byla jedním z hlavních motivačních faktorů stojících za vývojem big dat, protože procesy související se starými databázemi
a datovými sklady se ukázaly pro mnoho obchodních potřeb jako příliš pomalé a nepružné.
Schroeder předpovídá, že datová agilita se dostane do centra pozornosti, protože organizace
už aktivně přecházejí z pouhého zachytávání
a správy velkých objemů dat k jejich byznysovému využití.
„Staré databáze a datové sklady jsou poměrně
drahé. Pro urovnání, sumarizaci a plnou strukturovanost dat je zapotřebí personál – databázoví
správci (DBA),“ popisuje Schroeder. Náklady,
které firmy na tyto lidi vynaložily, podle něj
zpožďují přístup k novým zdrojům dat, přičemž
rigidní strukturu je v průběhu času velmi těžké
měnit. Důsledkem je pak to, že využívané staré
databáze nejsou dostatečně agilní, aby vyhovovaly potřebám většiny současných organizací.
Počáteční projekty big dat se zaměřovaly na
ukládání cílových datových zdrojů, dodává
Schroeder. „Namísto zaměření na objem se budou
organizace soustřeďovat na datovou agilitu.“
Jak provoz ovlivní schopnost zpracovávat
a analyzovat data? Jak rychle se lze přizpůsobit
a reagovat na změny v preferencích zákazníků,
tržních podmínek či konkurenčních akcí? Tyto
otázky budou v nejbližší době určovat směr investic a rozsah projektů big dat.
2
Přechod od datových jezer
k platformám zpracování dat
Loňský rok byl v některých aspektech rokem tzv.
datových jezer (nebo také datových uzlů) – objektově založených archivů ukládajících surová
data v jejich nativním formátu (ať už strukturovaná, nestrukturovaná nebo jen částečně strukturovaná), aby byla připravena k použití.
Datová jezera mají vysokou hodnotu v tom, že
představují škálovatelnou infrastrukturu, která
II
je ekonomicky atraktivní (s redukovanými náklady za každý terabajt), a jsou extrémně agilní.
Schroeder je přesvědčený, že se během tohoto roku rozšíří o možnosti obsahovat více výpočetních a vykonávacích strojů, aby zpracování
dat probíhalo přímo na místě jejich uložení. To
je nejen efektivnější, ale vytváří to jednotný bod
pro správu i zabezpečení.
Datová jezera se budou vyvíjet podle toho, jak
organizace přecházejí z dávkového zpracování
k práci v reálném čase a zároveň integrují souborově založené stroje, Hadoop i klasické databázové stroje do svých platforem pro rozsáhlé zpracování údajů.
Jinými slovy, podstata se netýká rozsáhlého
skladování v datovém jezeře kvůli podpoře větších dotazů a reportů, trendy jsou nepřetržitý
přístup a zpracování událostí a dat v reálném
čase. Novým cílem je získat stálou informovanost a možnost okamžité reakce.
3
Samoobslužná big data se stanou
běžnou záležitostí
Pokroky v oblasti nástrojů a služeb big dat znamenají, že oddělení IT už je schopné snadno odstranit překážky přístupu k cenným údajům pro
podnikové uživatele i datové vědce.
„IT oddělení začínají nasazovat samoobslužná
řešení, takže podnikoví uživatelé budou moci využívat big data způsobem, který oni sami chtějí,“ prohlašuje Schroeder a dodává: „Funkce spojené
s touto samoobslužností nabízí vývojářům, datovým
vědcům a datovým analytikům možnost zkoumat
data přímo bez jakéhokoliv zprostředkovatele.“
Předtím podle něj musel IT personál nejdříve
vytvořit centralizované datové struktury. To ale
představuje časově náročný a nákladný krok.
Moderní organizace mohou, aby vyhověly potřebě neustálých požadavků, přejít na model
„data binding“ a opustit centrální strukturu.
Tento model urychlí schopnost firem využívat
nové datové zdroje a rychle reagovat na příležitosti a hrozby.
4
Konsolidace dodavatelů Hadoopu:
Vznik nových obchodních modelů
Na počátku roku 2013 oznámil Intel svou vlastní
distribuci Hadoopu s tím, že odlišnost bude spočívat v samém základu – Hadoop se bude integrovat přímo do jeho čipů.
O pouhý rok později však Intel svou distribuci
opustil a přešel namísto toho k distribuci Hadoopu od firmy Cloudera.
V té době Intel uvedl, že zákazníci čekali
a sledovali, jak se trh Hadoopu vyvine. Množství
alternativ Hadoopu spíše kalilo vody. Schroeder
je přesvědčený, že konsolidace dodavatelů Hadoopu bude i nadále pokračovat a někteří z nich
své distribuce opustí a zaměří se v této oblasti na
něco jiného.
„Máme za sebou desítky let přijetí open source
softwaru (OSS), který na trh přinesl obrovskou hodnotu,“ zmiňuje Schroeder. „Technologie dozrávají
v několika fázích. Životní cyklus začíná inovací
a vytvořením velmi odlišných produktů a končí,
když se produkty nakonec stanou komoditou.“
Edgar F. Codd vytvořil koncept relační databáze v roce 1969 s inovací, které vedla v roce
1986 k primárnímu úpisu akcií (IPO) Oraclu.
Komoditizace databází začala prvním vydáním
produktu MySQL v roce 1995. Z historického pohledu tedy trvalo dozrávání databázové platformy 26 let, než od inovace začala být viditelná
nějaká forma komoditizace.
„Hadoop je nyní v rané fázi životního cyklu technologické zralosti a má za sebou pouze deset let od
doby, kdy Google publikoval klíčové specifikace
MapReduce,“ tvrdí Schroeder. „Přijetí Hadoopu
globálně a v daném rozsahu je daleko vpředu před
jakoukoli jinou datovou platformou, pokud pro
srovnání použijeme časový horizont deseti let po
prvotním konceptu.“
Hadoop je v současnosti ve své inovační fázi,
takže dodavatelé mylně používající strategie
„Red Hat for Hadoop“ nyní opouštějí trh. Nejvíce to bylo viditelné u Intelu a podobnou situaci lze očekávat i u dalších, podotýká Schroeder.
Schroeder věří, že dojde k vývoji nového, více
rozlišeného modelu OSS, který zkombinuje hluboké inovace s komunitním vývojem. „Komunita
open source je rozhodující pro vytvoření standardů
a shody. Konkurence je akcelerátorem transformací
Hadoopu – od toho, co původně začalo jako procesor dávkového zpracování analýz, po plnohodnotnou datovou platformu.“
5
Podnikoví architekti oddělí velký
humbuk od velkých dat
V těchto měsících se do centra dění dostávají
podnikoví architekti – jejich stoupající úroveň
pochopení Hadoopu totiž vede k lépe definovaným a promyšlenějším požadavkům na big data
včetně vlastností, jako jsou vysoká dostupnost
nebo nepřetržitý provoz.
„Jak organizace rychle přecházejí z experimentálního nasazení k seriózní implementaci v datovém centru, přesunou se i architektura a těžiště IT
směrem k přijetí big dat,“ předpokládá Schroeder.
Klíčoví IT hráči budou mít nepostradatelnou
roli při stanovení základní architektury potřebné
k naplňování smluv o úrovni poskytovaných služeb (SLA), aby se uspokojily potřeby ohledně vysoké dostupnosti, nepřetržitého provozu a další
stěžejní požadavky.
Vloni se oslavoval prudce rostoucí ekosystém
Hadoopu a rostl pro něj počet aplikací, nástrojů
a komponent. Nyní se trh soustředí na rozdíly
mezi jednotlivými platformami a na architekturu potřebnou k integraci Hadoopu do datového centra a k zajištění odpovídajících obchod■
ních výsledků.
CO M P U T E RWO R L D 6 –7 | 2015
CW6-bigdata.indd II
19.06.15 14:02
PARTNERSKÝ PŘÍSPĚVEK | BIG DATA
Big data a T-Mobile
Pojem big data bývá nejčastěji spojován s charakteristikami dat velkého
objemu, rozmanitosti, rychlosti změn i zpracování a obtížnosti
interpretace výsledků. Z pohledu operátora, jako je T-Mobile, který je
v pravidelném kontaktu s cca šesti miliony koncových terminálů, pak
hovoříme o agregovaném datovém toku v řádu stovek milionů vzniklých
signalizačních záznamů za jeden den.
R I C H AR D NOVÁK, LU K Á Š KOV Á RN ÍK
Anonymizace dat je zásadní
Z pohledu platné legislativy je potřeba vždy před
zpracováním dat provést jejich anonymizaci, která zabrání identifikaci jednotlivých účastníků.
T-Mobile používá sofistikované šifrovací algoritmy k odstranění identifikace a pro zpracování
používá pouze agregovaná data, takže při výpočtech vznikají jen metadata, která jsou jako jediná
použita pro pozdější interpretaci výsledků.
Technické zázemí
Zdrojem geomobilních dat T-Mobile jsou zejména tvz. zbytková data ze signalizace, která na
základě identifikace mobilní buňky umožňují
znát přibližnou polohu mobilního terminálu,
a tím i rozložení obyvatel v prostoru a čase. Ke
zpřesnění polohy pak může dále dojít výpočtem.
Signalizační data vznikají ze své povahy buď při
mobilní události, jako jsou volání, datový přenos, SMS zpráva, při převodu terminálu mezi
jednotlivými vysílači anebo na vyzvání infrastruktury při takzvaném periodickém upřesnění
polohy, kdy je koncový terminál vyzván k signalizační odpovědi.
Data ze signalizace prošlá anonymizací je
možné uložit do datového skladu pro další zpracování za pomoci klasických nástrojů business
intelligence anebo speciálních IT nástrojů podporujících big data.
Řešené úlohy business intelligence
a big data
Typické úlohy zpracování business intelligence
a big data, které je potřeba zvládnout při práci
s anonymizovanými daty exportovanými ze signalizace do datového skladu, jsou následující:
■ Znalost počtu terminálů v dané oblasti
■ Umět tento počet terminálů dát do různých
geografických tvarů, jako například centroid,
čtverec, ZSJ, katastr, libovolný polygon
■ Vypořádat se s přeskakováním signálu mezi
jednotlivými mobilními vysílači
■ Vypořádat se s příhraničními oblastmi
■ Znalost počtu lidí využívajících mobilní telefon v dané oblasti a v konkrétním časovém řezu
■ Zvládnutí předešlé znalosti ve všech možných
časových řezech, kdy limitem je časové zahuštění dat
■ Zvládnutí algoritmů k počítání unikátních
přístupů terminálů versus kumulativnímu přístupu počtů všech terminálů
■ Určení matice zdrojů a cílů (origin, destination), což je důležité pro určení vektoru pohybu a velkou řadu komerčních úloh
■ Rozložení hodnot výpočtem na celou populaci při vstupu dalších datových vrstev pro kalibraci
■ Nutno se vypořádat s nehomogenitou dat
v některých oblastech
■ Nutno se vypořádat s modelováním v lokalitách, kde topologie sítě nevyhovuje z pohledu přesnosti požadavkům zadání úlohy
■ Modální split, tedy rozlišení pohybu obyvatelstva z pohledu dopravy, jako je hromadná doprava v rozlišení na vlakovou a silniční, osobní
dopravu a další.
A celá řada dalších více komplexních úloh.
na Šumavu přijeli, jak dlouho zde zůstali a kam
podnikali výlety, což je užitečné jak pro národní
park, tak i místní podnikatele.
A jaký je výsledek případové studie? Nejvíce
návštěvníků ze zahraničí dorazilo z Nizozemska,
v těsném závěsu se pak drží Německo. S výrazným odstupem se pak umístily další země. Celkově dorazilo na Šumavu ve sledovaném období
260 tisíc návštěvníků, z toho 24 % bylo ze
zahraničí.
Inovace jako zdroj výnosů T-Mobile
Společnost T-Mobile, která byla v minulosti
brána především jako inovátor na poli mobilních
komunikací, se po sloučení se společnostmi
T-Systems a GTS Czech, které proběhlo v rozmezí let 2013 a 2014, výrazně posunula do oblasti IT a poskytovatele komplexních ICT řešení
opírajících se jak o mobilní, tak fixní infrastrukturu spojenou se zázemím sedmi datových center v České republice s celkovou plochou větší
než 7 000 metrů čtverečních. V rámci našich datových center, kde je nejvyšší možná koncentrace IT řešení a projektů odehrávající se v Čechách, se odehrává velká řada inovativních
a rozsáhlých projektů, která je pro T-Mobile přirozenou inspirací a zdrojem inovačních témat.
Možnosti využití (Use Cases)
V příkladech využití se zaměříme zejména na
primární využití dat z mobilní sítě, neboť při
obohacení o další externí data (počasí, sociální
sítě, CRM systémy a další) by počet příkladů byl
neomezený.
Příklady jsou: krizová řízení (ztracené děti,
informace o lidech v oblasti s požárem, povodní
nebo při chemickém ohrožení), zjištění mobility
obyvatel pro potřeby plánování infrastruktury
státu (nové silnice, spádové oblasti úřadů,
územní plány), komerční statistiky (počty návštěvníků obchodních center, cestovní ruch
a návštěvnosti jednotlivých měst a oblastí, náhrada nebo doplnění výzkumů ČSÚ), optimalizace dopravních toků, služby založené na poloze
jako například mobilní reklama na služby v blízkosti uživatele a další.
Příklad praktického nasazení
Společnost T-Mobile je v oblasti big dat velmi
aktivní a spolu s partnery z akademického i komerčního sektoru se podílí na celé řadě výzkumných i komerčních projektů. Jeden příklad za
všechno, a to případová studie pro Národní park
Šumava připravená se společností KPMG. Cílem
projektu se zaměřením na cestovní ruch bylo
spočítat denní a celkový počet návštěvníků v oblasti Lipna a oblasti Kvildy, Modravy a Horské
Kvildy na přelomu let 2013 a 2014, zjistit, odkud
Je jen přirozené, že se firma snaží využít jak
zázemí infrastruktury, tak především kvalifikovaných lidí schopných systémové integrace jak
na infrastrukturální, tak aplikační vrstvě, seskupených pod jednou střechou konvergovaného
ICT poskytovatele.
Big data stejně tak jako řada dalších inovativních témat, například internet věcí, Premium
networking, koncept Bezpečné firmy nebo oborová řešení například pro automobilový průmysl
s ohromnou referencí ve Škoda Auto, jsou inovativní témata, která T-Mobile vidí jako motor vedoucí k novému zdroji výnosů. Bližší přiblížení
zmíněných inovativních témat by bylo na jiný
samostatný článek. Souhrnem lze říci, že big
data podle příkladů popsaných výše již dávno nejsou pro T-Mobile jen akademické a laboratorní
téma, ale vidíme v nich velký a rostoucí zdroj
nových výnosů stejně jako praktickou pomoc pro
rozvoj podnikání našich zákazníků.
R. Novák je ředitel firemních a zákaznických řešení, T-Mobile
L. Kovárník je manažer rozvoje ICT řešení, T-Mobile
CO M P U T E RWO R L D.C Z
CW6-bigdata.indd III
III
19.06.15 15:20
BIG DATA
Vyvarujte se obvyklých chyb
Také big data či cloudové projekty mohou dopadnout velmi špatně.
Nedovolte, aby se to stalo i vaší firmě.
udělat, přestože nevědí jak a proč. Je zřejmé, že
tento přístup ze své podstaty k úspěchu nemůže
vést,“ dodává Haff.
Podotýká dále, že mu to připomíná humbuk
kolem datových skladů a kolem softwaru open
source v minulých desetiletích. „Existuje názor,
že se všemi těmito daty musíme dokázat ‚něco‘ udělat, přestože neznáme správné otázky, které bychom
měli klást, ani nevíme, jaké vhodné modely použít,“
popisuje Haff.
Prvním krokem v projektu big dat by měla být
otázka: „Skutečně potřebujeme právě toto?“ Může
totiž existovat řada důvodů, proč to organizace
ve skutečnosti nepotřebují: jde třeba o nedostatek dat, aby se to vyplatilo, závislost na starších
systémech, jako je ERP, které se do projektu nehodí, či předpisy vyžadující specifické uchovávání dat a podobně.
„Uživatelé například prohlašují, že budou využívat cloud, protože to je další věc, kterou lze dělat.
Neptají se na místa, kde by vznikala potřeba zvýšit
agilitu nad rámec zajištěný virtualizací, ani na případné pracovní zátěže, které je potřebné zohlednit,“ upozorňuje Bittman.
Další problémy
A NDY PAT R I ZI O
I
T projekty nejsou neprůstřelné. Mohou dopadnout špatně nebo se před dokončením mohou
vyskytnout překážky se stejnou pravděpodobností, jako že mohou proběhnout hladce. Co se
však týče řešení pro big data či cloudy, míra neúspěchu je u nich děsivě vysoká.
V roce 2012 zjistila studie společnosti McKinsey, že průměrně 45 % velkých IT projektů překročí rozpočet, 7 % se zpozdí a 56 % přinese
menší hodnotu, než se původně očekávalo. Dalších 17 % dopadlo tak špatně, že to ohrozilo samotnou existenci firmy.
Velké ERP projekty jsou pak ukázkovým příkladem – míra neúspěchu je u nich minimálně
běžně citovaných 25 %. Pokud si myslíte, že je to
špatné, big data jsou na tom ještě hůře.
Znepokojující zpráva společnosti CapGemini
uvádí, že jen 13 % projektů big dat dosáhlo produkčního provozu v plném rozsahu. Zhruba
pouhá čtvrtina respondentů popsala své iniciativy big dat jako „úspěšné“ a jen 8 % jako „velmi
úspěšné“.
Tom Bittman, analytik Gartneru, který se dotazoval 140 klientů své firmy, na svém blogu
uvedl, že jen pěti procentům z nich se povedlo
uskutečnit projekty nasazení cloudu bez potíží.
IV
Zbylých 95 % mělo jeden ze šesti různých
problémů.
Proč tyto organizace zažívají tak vysokou
míru neúspěšnosti? Existuje celá řada důvodů,
ale vyskytuje se i jedna společná (a často přítomná) příčina: Firmy zavádějí projekty big dat
a cloudu, protože je to skvělé a moderní, ale
neobtěžují se ptát, zda to skutečně potřebují.
„Začíná to již na počátku prezentovaným dobrým obchodním případem,“ popisuje Bittman
a dodává: „Určili jste ale služby, které z projektu
budou mít prospěch? To je místo, kde většina firem
udělá chybu.“
Více než technologie se projekty týkají lidí
a procesů. Firmy příliš často říkají: „Chceme to,
co máme koupit? Hardware je nejjednodušší část.
Nejtěžší je změna procesů a lidí. Podniky by se tedy
měly na to zaměřit na prvním místě. Pokud uděláte
tyto dvě věci, vyřeší to většinu problémů,“ dodává
Bittman.
Gordon Haff, viceprezident pro cloudovou
strategii v Red Hatu, s tím souhlasí. „Všiml jsem
si, že velké množství neúspěchu u projektů big dat
je způsobené tím, že si firmy nestanoví jasný cíl
a konkrétní cestu k němu.“
„Mnoho organizací zahájí tyto projekty hlavně
proto, že je to něco, o čem si myslí, že by to měly
Neidentifikování obchodních či podnikových
potřeb je jednou z příčin neúspěchu při nasazování technologií big dat.
Existují ale i další důvody.
Patří mezi ně neefektivní koordinace mezi
obchodními a technologickými aspekty, roztroušená separovaná úložiště dat, neefektivní
koordinace analytických iniciativ, absence jasného obchodního případu pro financování nasazení big dat či závislost na zastaralých systémech při zpracování a analýze údajů, vysvětluje
Jeff Hunter, manažer informací ve společnosti
CapGemini.
Uvádí, že často vidí klienty, kteří chtějí používat big data určitým způsobem, ale nejlepší
by bylo tuto technologii použít k odstranění separace dat.
„Potřebují technologie big dat pro novou generaci analytiky, aby podpořily své obchodní paradigma? Odpověď může být ne, ale existuje zde ještě
otázka, zda by ji šlo využít pro účely business intelligence a rozhodování,“ připomíná Hunter.
Capgemini takovým klientům radí, aby pozměnili své priority a namísto použití technologie big dat pro vytvoření velkých datových sad šli
raději jiným směrem – použili ji k vyřešení problémů s existujícími daty ze systémů ERP, CRM
a dalších tradičních zdrojů dat, které jsou umístěné v jejich vlastních oddělených úložištích,
a v důsledku toho se uchovávají separovaným
způsobem.
„Podnik může mít 50 instancí dat o zákaznících
po celém světě v různých formátech v rozličných
aplikacích. V některých případech, když tuto záležitost řešíte jako první, zvyšuje to smysluplnost
a atraktivitu celé diskuze,“ upozorňuje Hunter.
Potom zde také existuje nedostatek dovedností, který již je dobře zdokumentovaný. Pokud
členové vašeho týmu, který má na starost projekt
CO M P U T E RWO R L D 6 –7 | 2015
CW6-bigdata.indd IV
19.06.15 14:02
BIG DATA
big dat, nemají dovednosti potřebné k uskutečnění projektu, můžete se vsadit, že to povede
k neúspěchu.
„Technologie big dat se od většiny datových platforem, na které jsou lidé při své práci zvyklí, velmi
liší,“ upozorňuje Yaniv Mor, výkonný ředitel
firmy Xplenty, která nabízí big data pro firmy
v podobě služby SaaS.
„SQL není v technologii big data základem, ale
SQL umí každý. U big dat také existuje velká závislost na open source řešeních, což je něco zcela nového pro personál zvyklý jen na technologie od
Microsoftu. Potřebujete tedy najmout nové lidi,
kteří jsou ale drazí a je těžké je najít, nebo budete
muset vyškolit své vlastní zaměstnance,“ upozorňuje Mor.
To vede k dalšímu problému. Podniky často
považují big data za rozšíření existujících technologií. Ale například cloudový projekt nemůže
být jednoduše rozšířením vaší současné virtualizační infrastruktury.
I když cloudy často využívají virtualizaci, vyžadují nové přístupy a nové technologie. Podniková virtualizace a nativní infrastruktura cloudu
jsou optimalizované pro odlišné pracovní zátěže,
které nabízejí dostupnost prostřednictvím softwaru, jenž lze škálovat a je v podstatě založený
na dynamičtější a volně vázané distribuované architektuře. To je odlišné od tradiční IT infrastruktury, kde se používá přístup „nasadit
a nesahat“.
Společnosti také nemění své procesy a provozní modely při přechodu ke cloudu, což dokresluje výše uvedený problém. Osmdesát až devadesát procent z toho, co je nasazené na platformě AWS, není nový čistý obsah, uvádí Bittman. Jsou to horizontálně škálovatelné zátěže
s krátkou životností.
„Průměrná délka života virtuálních strojů ve
vlastním datovém centru je několik let. V dobách fyzického nasazení to bylo i deset let. Virtuální stroje
na Amazonu ale mají dobu života jen v řádu dnů
nebo týdnů,“ dodává Bittman.
Problém podle něj je, že mnoho firem si na
AWS zapne virtuální stroj a zapomene ho vypnout poté, co už není potřeba. Končí to fakturami za nečinné cykly.
Odhaduje, že 30 až 50 % nákladů za využití
virtuálních strojů ve veřejném cloudu jsou vyhozené investice, protože lidé zapomenou vypnout
virtuální stroje po dokončení své práce.
Co tedy dělat?
Co tedy mohou společnosti dělat, aby se snížilo
riziko neúspěchu? Existuje celá řada kroků,
které lze udělat, a nebude vás to stát moc, pokud
nějaké náklady vůbec vzniknou.
„Na prvním místě se ptejte, zda vůbec potřebujete big data,“ radí Mor. „S touto technologií je spojený velký humbuk. Nemyslím si ale, že by lidé až
tak dobře chápali, co jim v současné době mohou
big data přinést, takže nevědí, jak definovat met-
riky. Často nevědí, co by měli požadovat jako výsledný přínos.“
Dalším krokem je mít lídra, který dokáže vytvořit a řídit vizi pro projekt, doporučuje Hunter. „Je to vize, která je mnohem důležitější než vedení. Může pocházet z jakékoliv úrovně. Pokud
existuje taková, která jasně popisuje důvod, proč
chceme využívat big data a jak budeme postupovat
vpřed, přináší to úspěch – pokud to ale prostupuje
společností a akceptuje se to,“ radí Mor.
Zohledněte dále, že v typických podnicích
existují dvě základní podoby aplikací a infrastruktury – tradiční a cloudová. Pokusy zahrnout obě bez pochopení jejich základní odlišnosti způsobí problémy.
V této souvislosti si firmy potřebují uvědomit,
že pro všechno, co IT zabezpečuje, existuje více
než jedno řešení. „Říkáme tomu bimodalita,“
uvádí Bittman. „Zvykli jste si na myšlenku odlišných architektur ve svém datovém centru a jiných
u poskytovatelů služeb. Takže spíše než abyste se
snažili všechno transformovat do jedné velké architektury, je vhodné myslet na správu heterogenních
prostředí a zdrojů.“
Dalším doporučením je začínat s co nejmenším rozsahem. Při zahájení projektu big data se
nepokoušejte vyřešit všechny své problémy
s daty. „Prostě si zvolte obchodní případ a zajistěte,
aby byly datové zdroje omezené jen na několik
zdrojů, a definujte přesně to, co chcete od tohoto
■
projektu získat,“ uzavírá Mor.
Inzerce
CO M P U T E RWO R L D.C Z
CW6-bigdata.indd V
V
19.06.15 14:02
BIG DATA
Konference Big Data World 2015
Začátkem června tohoto roku se v Praze uskutečnil již druhý ročník odborné konference Big Data World,
jejímž pořadatelem je vydavatelství IDG Czech Republic.
J
ejí návštěvníci – sešlo se jich letos úctyhodných 115 – si na ní připomněli nejnovější
trendy, které panují v oblasti big dat, a seznámili se se zajímavými případovými studiemi, jejichž společným motem bylo právě využití technologií big dat.
Zajímavé prezentace pronesli přednášející
i na téma bezpečnosti a ochrany citlivých i soukromých dat, které se právě v úložištích pro big
data velmi často vyskytují. Důležité poznatky
mohli posluchači získat i o datové infrastruktuře
a příslušných nástrojích, o škálovatelnosti a provozní efektivitě big dat, o datové vědě i vědcích
a podobně.
O vysokou odbornou úroveň konference se
postarali zástupci firem opravdu zvučných
jmen – zlatými partnery byly Dell Software a Teradata, stříbrnými pak Intel, SAP, SAS Institute
a Trask. Partnery byly Accenture a Admez. Konferenci doplnily doprovodné stánky některých fi-
rem, mezi kterými nechyběla ani firma Cloud4com. Záštitu nad akcí převzal Český statistický
úřad a odborným garantem byly ICT Unie a Inovacentrum ČVUT.
■
3
1
1 O konferenci byl mezi návštěvníky i přednášejícími velký zájem
2 Konferenci zahájil přednáškou Jan Šedivý z katedry
kybernetiky ČVUT FEL 3 Partnery konference byly renomované firmy z oblasti big dat 4 Součástí konference byly
i stánky partnerských firem – v tomto případě firmy Dell Software 5 V závěru akce došlo i na hodnotnou tombolu…
2
VI
4
5
CO M P U T E RWO R L D 6 –7 | 2015
CW6-bigdata.indd VI
19.06.15 14:02
BIG DATA
Zájem o big data stále roste,
ukazuje průzkum IDG
Přibližně jedna třetina respondentů hlásí lepší rozhodování,
více než čtvrtina pak dokáže situace lépe predikovat.
JOHANNA AMBROSIOVÁ
S
polečnosti se stále usilovněji snaží zvládat
pokračující nárůst dat a současně s tím rozvíjejí projekty, které jim mohou přinést
větší hodnotu z údajů, které už mají. Pro mnoho
z nich je ale výzvou i samotné udržení tempa.
Podle nového celosvětového průzkumu IDG
Enterprise, kterého se zúčastnilo 1 139 respondentů s rozhodovací pravomocí v oblasti IT, zájem o big data nepřetržitě roste. Více než polovina (53 %) firem v současné době nasazuje či
plánuje v příštím roce nasadit projekty řízené
daty, což je 6% nárůst od roku 2014, a dalších
8 % o tom uvažuje.
Zdravotnictví předstihuje všechna průmyslová odvětví, pokud jde o nasazování, plánování
či zvažování daty řízených projektů během
příštího roku. Platí: Čím větší firma, tím vyšší je
pravděpodobnost, že bude mít takový projekt ve
fázi plánování nebo nasazování, a tím více chce
za celý proces utratit.
Současně s tím rychle roste objem spravovaných dat. Počet společností, které pracují s 1 až
9 TB dat, klesl o 7 %, a naopak množství organizací, které překročily bariéru jednoho petabajtu,
se zvýšil o 4 %.
Mnoho společností sklízí plody ze svých investic do technologie big data – 29 % díky nim
hlásí zlepšení kvality rozhodování a 28 % uvádí
lepší plánování a prognózování.
Mezi další výhody podle odpovědí respondentů patří:
■ Vývoj nových produktů, služeb a zdrojů tržeb
■ Snadnější získávání a udržení zákazníků
Proč se marketéři spoléhají
na prediktivní analýzy?
Pomozte marketingovému manažerovi zajistit nějaký prodej –
a udržíte jeho firmu nad vodou jeden den. Pokud ho ale naučíte
předpovídat budoucí prodeje, možná se vám povedlo zajistit
jeho firmě dlouhou životaschopnost.
K AT H E R I NE NOY E S OV Á
T
o je v podstatě předpoklad stojící za prediktivním marketingem, konceptem, který
stále častěji vládne v dnešních podnicích.
Prediktivní marketing se přidává k trendu
analýz, který prolíná celým světem podniků,
a pro big data využívá algoritmy a strojové učení
s cílem pomoci příslušným pracovníkům směřovat jejich snahy těmi nejziskovějšími směry.
Nástroje prediktivní analýzy mohou marketérům například pomoci předem odhadnout, co
konkrétní zákazník koupí a stejně tak kdy a kolik. S využitím takových informací mohou společnosti odpovídajícím způsobem přizpůsobit
své kampaně.
Jako zářný příklad lze uvést společnost Amazon: Doporučovací stroj na webu této firmy vy-
volává podle informací jejích představitelů
zhruba 30 procent tržeb.
„Prediktivní analytika může pomoci marketérům s celým životním cyklem zákazníka,“ prohlašuje Fern Halperová, ředitelka pokročilé analytiky ve společnosti TDWI Research.
„Prediktivní analytika například pomáhá při
segmentaci zákazníků, zjišťování modelů jejich
chování, při propagaci nabídek, na které by mohli
pravděpodobně zareagovat, a také v předvídání,
jací klienti pravděpodobně odejdou,“ vysvětluje
Halperová.
Marketing a prodej ve skutečnosti patří
mezi nejdůležitější oblasti, kde organizace začínají při nasazení prediktivní analytiky, protože stále snadněji použitelné nástroje zajišťují
lepší dostupnost takových schopností i pro
■ Výrazně lepší dodržování regulačních předpisů, zejména v oblasti zdravotnictví, státní
správy, finančních služeb a vzdělávání
Problémy
Rozpočtová omezení, největší potíž posledních
dvou let, se nyní dostává na druhé místo, a to za
aktuálně klíčový problém, jímž je nedostatek dovedností. Navzdory IT rozpočtům, které stagnují
nebo dokonce rostou, 15 % respondentů neplánuje v příštím roce až roce a půl nábor zaměstnanců specializovaných na big data a dalších
17 % ještě o takovém kroku není rozhodnuto.
Bezpečnost je dalším problematickým místem. Dvě třetiny respondentů uvádějí, že jejich
současné produkty a zásady zajišťují adekvátní
zabezpečení dat, ale 18 % je přesvědčeno, že nikoliv. Dalších 16 % pak uvedlo, že si v tomto
směru nejsou jistí.
Další problematickou oblastí je kvalita existujících řešení – 40 % ohodnotilo dostupné
produkty a služby jako vynikající nebo dobré,
avšak 44 % je označilo jako jen přijatelné či
nedostatečné.
■
Celou studii IDG Big Data and Analytics
Survey 2015 můžete najít na přiloženém
QR-odkazu
uživatele, kteří nejsou v této oblasti tak odborně zdatní.
Růst této technologie podněcuje v současnosti také obrovská záplava různých dat. „Existuje tolik údajů a tak mnoho kanálů, které dodavatelé analytických nástrojů potřebují využívat,
aby mohly marketérům v reálném čase pomoci interpretovat a pochopit (a do určité míry optimalizovat) své kampaně,“ tvrdí Greg Sterling, viceprezident pro strategii v organizaci Local
Search Association. „Nástroje, které nabízejí
způsoby, jak pochopit veškerá data, jsou stále
důležitější.“
Stejně jako každou jinou technologii je však
i nástroje prediktivní analýzy nutné používat
s rozvahou.
„Prediktivní analýzy mohou být důležité, jestliže se dělají dobře, ale ono ‚jestliže‘ je v tomto případně zcela zásadní,“ upozorňuje Denis Pombriant, generální ředitel firmy Beagle Research
Group.
Analýzy je podle něj možné použít pro dva
účely: K identifikaci vzájemných souvislostí
a k nalezení kauzality.
„Potřebujeme oboje, ale dodavatelé věnují
hodně pozornosti korelaci a málo pozornosti
kauzalitě,“ vysvětluje Pombriant.
Pokud například marketér zjistí, že zákazníci
často kupují produkt A současně při nákupu produktu B, je důležité pochopit proč – co je příčinou způsobující takové chování, aby šlo předvídat nákupní chování konkrétního jednotlivce. ■
CO M P U T E RWO R L D.C Z
CW6-bigdata.indd VII
VII
19.06.15 14:02
BIG DATA
Vytvoření plánů pro big data
Ze zavádění big dat mohou společnosti vytěžit co nejvíce, pokud si
předem stanoví jasný akční plán. Tady jsou rady, jak na to.
SHAH I DA SWE E N E YOV Á
P
řinášíme podrobné rady, jak zvládnout strategii pro big data. Tento návod objasňuje
koncepty a terminologii a může pomoci
zlepšit připravenost realizačního týmu.
1
Vyhněte se žargonu
Nehledě na žargon, koncepty kolem big dat se neustále vyvíjejí.
Začněte vyjasněním si rozdílů mezi správou big
dat a administrací konvenčních údajů. Vysvětlete koncepty klíčovým zainteresovaným stranám a vypilujte spravovatelné části.
Nebezpečí spočívá v tom, že by se koncepty
mohly ztratit v překladu. Tradiční data jsou
čistá – mezery jsou zaplněné a extrémy odstraněné. Hypotézu lze testovat společně s důkazy.
Tyto důkazy i údaje se shromažďují a ukládají
v tradičních podnikových datových skladech.
Big data jsou naopak méně čistá a obsahují
strukturované, částečně strukturované i nestrukturované údaje. Pocházejí z mnoha různých
zdrojů včetně mobilních zařízení, internetového
provozu, streamování, komunikace mezi počítači, senzorů a sledovacích systémů GPS.
V tomto dynamickém a nepředvídatelném
prostoru se dnešní big data mohou lehce stát zítřejšími zastaralými údaji. V oblasti lidské komunikace a interakce nic nezůstává neměnné.
Jako cestovatelé začínejte na cestě s názvem
big data v malém. Složitosti ponechte vědcům
specializovaným na big data. Ptejte se sami sebe,
jaká by měla být právě vaše strategie.
Odpovídá tato strategie vašemu podnikání,
dodávkám služeb a provozním potřebám? Jaké
technologie, standardy a postupy doplní to, co
už máte?
KROK
KROK
2
Vyhněte se více
podobám téhož
Nebezpečí spočívá v pouhém
přejmenování vašeho dosavadního plánu pro
správu podnikových informací na strategii pro
big data. Abyste mohli se ziskem analyzovat,
sdílet a využívat méně strukturované informace,
vyjasněte si nejprve své datové množiny s vysokou hodnotou.
Tyto soubory dat jsou otevřené, snadno dostupné a mohou být svobodně použité, opětovně
využité či komukoli distribuované. Kromě sémantiky posuďte, jak analýza big dat alokuje
služby tam, kde je to třeba, zprůhledňuje zásady či vylepšuje podnikové procesy a řízení.
Vyhněte se vytváření databázových dotazů
pro big data. To za vás může udělat nepřeberné
množství komerčně dostupných analytických
VIII
nástrojů. Tento výlet se spíše týká průzkumu,
objížděk, méně stabilních vztahů a přizpůsobení
se měnící se krajině.
KROK
3
KROK
4
Podívejte se zpět
Přezkoumejte své dostupné informační zdroje – kdo vlastní kterou
část skládačky? Do hry vstoupí strategické plánování, které je už poněkud nadužívaným pojmem. Podrobněji se přezkoumávají dostupné
zdroje dat, potenciál těchto dat, náklady a překážky přístupu.
Tato strategie také zahrnuje vědecký, ekonomický a sociální výzkum. Na provozní úrovni je
analytika užitečná pro segmentaci
zákazníků či klientů, průzkum trhu,
řízení kampaní či sledování domácích nebo globálních ekonomických
trendů.
Odhalování podvodů a řízení rizik
nabízí zatím nevyužitý potenciál.
Pokud jste v přední linii a děláte
rychlá, velkoobjemová či časově citlivá rozhodnutí, budou se vám big
data velmi hodit. Širší sada zdrojů
nabízí hlubší vhled do podnikových
či obchodních problémů.
To je důležité, když je údajů reaktivně málo nebo nejsou snadno dostupné. Konkrétněji řečeno: Potřebujete předvídat události s vyšší přesností nebo najít spojnice mezi občasnými, ale těsně provázanými vztahy.
Ke svým datům můžete přistupovat jako
ke strategickému prostředku. Bude také dobré
věnovat čas přezkoumání dopadů na soukromí
a zabezpečení. Problém spočívá ve vyvážení
přístupu k otevřeným datům a odpovědné výměně informací.
5
Proč záleží na soukromí
Regulační předpisy jsou v oblasti
ochrany osobních údajů a zabezpečení velmi přísné, zejména pokud se výměna
těchto údajů stává všudypřítomnou, komerčně
atraktivní a má globální dosah.
Dříve, než vytvoříte obrovské jezero dat nebo
velké objektové úložiště, uvědomte si, že je nezbytné vytvořit funkce pro odstranění identifikovatelnosti. Osobní identifikátory lze například
eliminovat smazáním základních údajů podle
pravidel, která stanoví tzv. bezpečný přístav
(safe harbour). Nebo můžete zkusit maskování,
agregaci apod. Další možností je využít oddělení
personálu, který s těmito daty pracuje, a povinností, jež má.
KROK
Odkud to
pochází?
Při kvapné implementaci strategie big dat nebezpečí spočívá ve ztrátě
ohledu na přesnost a důvěryhodnost. Ve vládním
sektoru, ve zdravotnictví či ve vzdělávacím sektoru se dostává do popředí potřeba odpovědnosti. Problém leží v detailu – například schopnost identifikovat a ověřit různé zdroje dat.
Cílem je zajistit inteligentní a informované
využití dat. Přestože kontrola všech vašich datových aktiv může být nereálná, pomůže identifikovat vysoce cenné datové zdroje a „korunovační
klenoty“. Pravidelná aktualizace seznamu těchto
zdrojů je určitě pozitivem.
Big data podléhají stejně jako ostatní data
vládním přepisům, regulacím a zákonům. Platí
to o to více, když dochází k výměně dat o zákaznících nebo k jejich sdílení v komerčním prostředí. Udělejte si čas na uvážení způsobů správy
těchto dat a případného využití jasně definovaných auditů.
Bezpečnostní opatření pro osobní údaje je
nutné podrobněji přezkoumat v místě sběru dat.
To zahrnuje on-line, mobilní a další senzory. Zatímco prohlášení o dopadech na soukromí lahodí oku, následky se promítají v oblasti nákladů,
a to včetně případných nečekaných pokut.
Mezi nápravná opatření si zařaďte sledování
toku informací v rámci celého svého projektu.
Analyzujte a posuzujte dopad na lidi, služby
a provoz. V ideálním případě začíná toto hodnocení již ve fázi plánování a nedomýšlí se až
později.
Buďte spíše aktivní, než abyste jen reagovali
na vzniklé problémy. Používejte ochranu soukromí a osobních údajů jako výchozí vlastnost
a zajistěte, aby tato magická slova byla už součástí designu. A možná ještě důležitější je investovat do komplexního zabezpečení namísto zá■
platování děr současných řešení.
CO M P U T E RWO R L D 6 –7 | 2015
CW6-bigdata.indd VIII
19.06.15 14:02