2 0 1 4 pro efektivnější byznys

Transkript

2 0 1 4 pro efektivnější byznys
Z VL Á ŠTNÍ NEPRODE JNÁ PŘÍLOHA | ČERVEN 2014
Bigdata
2 0 1 4
pro efektivnější byznys
„ Získejte z big dat hodnotné informace
„ Vybíráme nejvhodnější úložiště
„ Deset častých mýtů
S I LV E R PA R T N E R
Bez názvu-21 15
Bigdata_2014_235x297.indd 6
23.06.14 13:43
6/23/14 1:13 PM
BIG DATA | GOVERNANCE
Získejte z big dat hodnotné informace
V současnosti je běžnou součástí naší kultury zdravý životní styl.
Většina lidí se více či méně snaží žít zdravě a být v kondici, protože se
pak cítí lépe, dokáže snadněji vykonávat každodenní činnosti a ví, že se
v budoucnu vyhne mnohým problémům. A s big daty je to podobné.
I zde totiž platí, že větší neznamená lepší a silnější. Samotný fakt, že lze
pomocí různých technologií a nástrojů pracovat s velkými objemy dat,
není jistotou, že díky tomu lidé, komerční společnosti či jiné instituce
získají více informací nebo jakoukoli jinou užitnou hodnotu, kterou
budou schopny využít pro plnění svých cílů.
M I C H AL GÜRT NER
C
ílem big data governance je zavést jistá
pravidla, principy, technologie
a lidské činnosti, které budou
směřovat k efektivní správě a vytěNáklady
žování velkých objemů údajů
Zisk
s cílem vytvořit hodnotné inRizika
Strategie
formace pro své vlastníky
a uživatele.
Renomé
Procesy
Jinými slovy lze říci, že big
Big data
data governance je specifická
kultura pro práci s big daty.
Majetek
Pokud se správně definuje
Projekty
a dodržuje, odrazí se to nejen ve
Růst
Analytika
všech aktivitách, které komerční
i nekomerční instituce vykonávají,
ale bude to znamenat i lepší výhled do
budoucnosti a eliminaci možných
problémů.
Pojetí big data governance
Nicméně aby se podařilo vytvořit onu
„správně definovanou kulturu“ pro práci s big
daty a onu big data governance zavést, je poPráce a integrace
třeba si odpovědět na řadu otázek a přizpůsobit
Aby bylo možné big data využívat, je nutné je
jednotlivé oblasti tak, aby se jejich dodržování
přenést ze zdrojových systémů a všech možných
nebo rozsah samotný nestaly problémem.
zařízení, která je generují do cílových úložišť.
Příkladem otázek, na které je nutné znát odV rámci tohoto přenosu nebo kdykoli později se
povědi, mohou být:
musejí vykonat různé transformační úlohy včet■ V jakém stavu je aktuálně kultura pro práci
ně integrace s daty z jiných systémů a zařízení.
s daty, existuje vůbec, je formalizovaná a dodrŘešení na bázi Hadoopu, která existují, nežuje se?
jsou pro datové integrace vhodná ani použitelná.
■ Do jakého cílového stavu se chceme dostat,
Toto tvrzení pochází z analýzy „Hadoop is not
jaké oblasti big data governance chceme řešit
Data Integration Solution“, kterou uveřejnil
a jaké jsou priority?
Gartner.
■ Existují dostatečné zdroje a kapacity na imHlavním důvodem je fakt, že vlastnosti
plementaci a dosažení stanovených cílů, lze jich
a funkcionalita běžně dostupných ETL (ELT) náreálně dosáhnout v rámci požadovaného časostrojů žádná jiná řešení zatím neposkytují,
vého plánu?
a také kvůli tomu, že integrační úlohy nejsou
■ Co implementace big data governance přiizolované, je potřeba je řešit v kontextu a se znanese, lze její přínosy objektivně měřit a jakým
lostí okolí a účelu, pro jaký se údaje integrují.
způsobem?
Na druhé straně však stojí specifické úlohy,
Konkrétní oblasti, které big data governance
které naopak vyžadují „součinnost“ hadoopopokrývá, popisuje následující text. Definování,
implementace a dodržování big data governance vých řešení a mnohdy je vhodné udělat transformační úlohy s big daty právě prostřednictvím
lze považovat za klíč k získání hodnotných inHadoopu (procesů Map & Reduce).
formací z velkých objemů údajů, protože právě
Vzhledem k výše uvedeným faktům je nety pomáhají plnit cíle a stávají se ceněným mazbytné mít k dispozici vhodnou integrační platjetkem firem a institucí.
II
formu, která bude dostatečně flexibilní a robustní. Existuje mnoho způsobů, jakými lze data
zachytávat a předávat je k dalšímu zpracování.
Svět big dat znamená práci s velkými objemy
údajů z různých zdrojů, a proto jsou dalšími důležitými vlastnostmi konektivita, škálovatelnost
a rychlost, s jakou dokáže integrační platforma
data zpracovávat.
Integrační úlohy se v tomto případě nesmí
stát úzkým hrdlem a musejí zajistit poskytování
dat v podobě, která se nedefinuje, a v kvalitě
a čase, jenž splňuje očekávání uživatelů.
Pouze v takovém případě lze následně získat
požadované výstupy, které pomohou firmám
a organizacím plnit jejich cíle.
Porozumění, kvalita
a důvěryhodnost
Pokud se má z big dat vytěžit maximum, je nutné jim porozumět.
Objem, různorodost a rychlost,
s jakými se údaje generují,
jsou příliš vysoké na to, aby
bylo možné big datům porozumět jen na základě jejich
manuálního prozkoumávání –
ať už ve smyslu prohlížení jejich struktur či hodnot (tedy dat
samotných).
Kvůli tomu existuje řada softwarových nástrojů, které tyto činnosti dokážou automatizovat. Pokud jsou nástroje
dostatečně škálovatelné a dovedou vykonávat
analýzu velkého objemu dat během akceptovatelné doby či dokonce v reálném čase, lze jejich
výstupem řídit datové toky a v případě zjištění
nekonzistencí nebo nevyhovující datové kvality
spustit procesy čištění dat či párování záznamů – a to i ve světě big dat.
Datová kvalita však není jen otázkou párování
a odstraňování duplicitních údajů, ale i jejich
standardizací a obohacením. Týká se to širokého
spektra dat – nejen názvů firem, jmen lidí, adresních údajů, ale i názvů produktů, nejrůznějších kvantifikačních údajů, metrik nebo prostých textů, které mohou být zdrojem dat například pro analýzu sentimentu.
Jakýkoli výstup softwarového nástroje má
však omezenou vypovídající hodnotu, pokud se
datům neporozumí. Klíčové je proto datům i jejich strukturám přiřadit význam a znát jejich
kontext, souvislosti a vztah k činnostem a aktivitám, které firmy a instituce vykonávají.
Kvůli tomu je vhodné používat nástroje, jež
tuto problematiku pokrývají a poskytují svým
uživatelům komfortní uživatelské prostředí. Takové prostředí je rychle přístupné a umožní například zobrazit definici určitého termínu.
Následně lze zjistit, jaký je vztah konkrétního
termínu k datům, kde se nacházejí, jak vznikla
a jakou mají strukturu.
CO M P U T E RWO R L D 12 | 2014
CW12-bd2-3.indd II
20.06.14 14:04
GOVERNANCE | BIG DATA
Transakční
aplikace
Analytické
aplikace
Analýza
Integrace
Big data
Správa
Kostky
e
ac
gr
te
In
Rovněž je potřeba znát informace o tom,
jestli jsou data aktuální a zda prošla nějakým
procesem obohacování nebo čištění. S tím souvisí správa metadat nejrůznějších IT objektů
(např. databázových objektů, struktur Hadoop,
ETL, aplikací apod.), jež jsou nedílnou součástí
big data governance.
Oblast správy terminologie a metadat lze považovat za jednu z náročnějších z pohledu lidských zdrojů. Vyžaduje vysokou míru součinnosti mnoha lidí, kteří se podílejí na definování
termínů, jejich vztahů a vazeb do okolí.
Lidé zabývající se výhradně IT technologiemi
spolupracují s koncovými uživateli, kterým informační technologie nic neříkají – a přesto
spolu musí tito pracovníci komunikovat (například při zadávání a specifikaci požadavků na novou funkcionalitu či analýzu využívající technologii big dat).
Právě pro zlepšení komunikace a omezení
vzniku nedorozumění mezi těmito skupinami
lidí je klíčové využití vhodných nástrojů, které
usnadňují spolupráci mezi lidmi, jež mluví řečí
IT a byznysu.
Představit si lze situaci, kdy na základě reportu, který poukazuje na procentuální meziroční nárůst zisku, se rozhodlo o prorůstovém
opatření, třeba stavbě nové pobočky firmy.
V případě, že nejsou k dispozici přesné informace o tom, co vlastně termín zisk znamená
a jaká vstupní data se pro tvorbu reportu použila, by se mohlo stát, že report vykazoval informaci o zisku, který nebyl očištěn od kurzových
rozdílů a vytvořil se na základě neúplných
údajů – třeba jen za určitý segment či region. Je
tedy docela možné, že reálně zisk firmy neroste,
a není tedy důvod ke stavbě nové prodejní
pobočky.
Výše popsané oblasti big data governance pomáhají zvýšit důvěryhodnost i kvalitu dat a informací, na jejichž základě dochází k mnoha
rozhodnutím, která ovlivňují chod firem
či institucí.
Streamy
Datové
sklady
Data
Změny
Kvalita
Životní
cyklus
Bezpečnost
Zdroje,
zařízení
Součásti big data governance
Životní cyklus a bezpečnost
Životní cyklus dat a zajištění jejich bezpečnosti
je významnou úlohou, která přímo ovlivňuje náklady a reputaci všech firem a institucí. Včasná
archivace dat může například pozitivně ovlivnit
výkonnost některých databázových systémů,
protože pracují s menším množstvím dat a není
nutné je posilovat.
Cena za jednotku dat uložených v transakčním systému či v klasickém datovém skladu je
vyšší než u údajů ukládaných v Hadoopu či na
zálohovacím médiu. Vliv na tuto hodnotu mají
také použitý hardware, software a náklady na
administraci.
Nejen z tohoto důvodu se dnes big data a distribuce Hadoopu používají k tzv. augmentaci tradičních datových skladů – tedy jejich rozšíření
o struktury vhodné právě pro ukládání a práci
s big daty.
Za rozumnou cenu lze
tímto způsobem dosáhnout
zvýšení kapacity datových
skladů a vykonávat pokročilé
analýzy velkého množství
strukturovaných i nestrukturovaných dat.
Další oblastí, kterou je
nutné zvládnout a automatizovat, je příprava vhodného
vzorku testovacích dat, a tím
výrazné zkrácení času testování a nasazení nové aplikace.
Zásadně tím lze snížit cenu
celého projektu a mít dříve
benefity plynoucí z nasazení
nové aplikace či procesu.
Na bezpečnost dat se dnes
kladou vysoké nároky – existuje celá řada regulatorních
požadavků a zákonů, které
upravují způsob uchovávání, manipulaci a distribuci citlivých dat. Nejen klasické databázové systémy, ale i distribuce Hadoopu, které slouží
k uchování a práci s big daty, je nezbytné sledovat, zajistit jejich bezpečnost a zamezit přístupu
neoprávněných uživatelů.
Softwarová řešení, která dokážou sledovat
a řídit aktivity nejen v distribucích Hadoopu, by
měla být součástí majetku organizací – tak se
nevystaví nebezpečí ztráty dat a nechtěné publicity nebo vysoké pokuty za porušení zákona.
Zpřístupnění a analýza
Big data lze uživatelům zpřístupnit mnoha způsoby, například v podobě reportů s agregovanými
údaji, vizualizacemi, smysluplnými pohledy na
samotná data či dynamickými obrazovkami
s mnoha stále se měnícími informacemi.
Jinou možností jsou nástroje založené na
principu vyhledávání a indexace obsahu různých
datových zdrojů, které však dokážou zobrazovat
i relevantní informace, specifické a potřebné pro
danou organizaci.
Výstupy z analytických, statistických a modelovacích nástrojů jsou jen dalším příkladem prostředí, které propojuje uživatele s big daty.
Rozhodující však je, že hodnota jakéhokoli výstupu, obrazovky, reportu či analýzy roste anebo
naopak klesá úměrně s tím, jak úplné, kvalitní
a důvěryhodné jsou podkladové údaje.
V případě, že firmy a instituce budou respektovat výše popsané principy big data governance,
dokážou pomocí svých velkých objemů údajů generovat nejen hodnotné informace, které zlepší
jejich rozhodování. Zároveň i optimalizují svoje
náklady a eliminují možná rizika. A díky tomu
budou disponovat solidním základem pro svůj
■
budoucí rozvoj a prosperitu.
Autor pracuje jako technický konzultant pro IT
CO M P U T E RWO R L D.C Z
CW12-bd2-3.indd III
III
20.06.14 14:04
BIG DATA | STORAGE
Vyberte si vhodné úložiště
V éře big dat firmy shromažďují informace příslovečně nadsvětelnou
rychlostí. Tradiční strategie ukládání dat ale s tímto trendem nedokáže
udržet krok. Jak se tedy můžete vyhnout potížím s úložišti pro velké
objemy údajů?
Společnost Quicken Loans již měla stanovenou strategii pro škálování úložišť, která využívala centralizovanou síť SAN. Pro ukládání big
dat však potřebovala více než jen škálovatelný
úložný prostor, ale také výpočetní výkon umístěný blízko k uloženým datům. Řešením pro ni
byly uzly s Hadoopem.
„Můžeme využívat jednotlivé uzly, servery, procesory, úložnou kapacitu a operační paměť, takže je
to pro výpočty velmi rychlé,“ pochvaluje si Heová.
„Z hlediska nákladů, výkonu i růstu to pro nás má
mnohem větší vliv.“
Navíc takové řešení umocňuje a vytváří cestu
pro nové paradigma v oblasti podnikových big
dat, kde je úložiště levnější a neoddělitelně spojené s výpočetním a úložným výkonem.
Použití levnějších úložišť
STAC Y CO L L E T TOV Á
P
okud jde o big data, úložiště se již nepovažuje za monolitické silo, které by bylo svou
povahou proprietární a uzavřené, tvrdí
Ashish Nadkarni, analytik IDC.
Velké množství těchto systémů se podle něj
v současné době nasazuje s využitím interních
disků – je to podobné modelům použitým firmami jako Facebook nebo Google, kde je úložiště tvořeno právě interními disky v serverech.
Ty přitom mívají v sobě až 48 HDD a samotná
platforma ukládání se řídí softwarem. Používají
se k tomu univerzální operační systémy, na kterých běží softwarové jádro.
Uložená data rostou ročně o zhruba třetinu,
uvádí Aberdeen Group. To znamená, že oddělení
IT musí zdvojnásobit svou úložnou kapacitu každých 24 až 30 měsíců. „Dnes se na ukládání dat
vydává průměrně 13 % z rozpočtů IT,“ popisuje
Dick Csaplar, analytik Aberdeenu, a dodává:
„Za dva roky by to mohlo být 26 % a potom i 52 %.
Velmi brzy se to vymkne kontrole, takže nemůžete
dělat stále totéž znovu a znovu.“
Přestože je faktem, že náklady na úložiště
klesají, nesnižují se podle něj dostatečně rychle,
aby vyrovnaly potřebu dalších výdajů na úložiště,
jak objem dat roste.
Záplava nestrukturovaných dat také stále
stoupá. „Těžkým úkolem, který se každý snaží vyřešit, jsou nestrukturovaná data pocházející z doku-
IV
mentů, u nichž byste nečekali, že z nich budete dolovat informace,“ prohlašuje Vince Campisi, ředitel IT z GE Software, která propojuje počítače,
big data a lidi s cílem usnadnit analýzu údajů.
„Tradiční principy BI v koncepci a podobě stále
platí, ale množství přicházejících informací je mnohem větší, než postačí pro transakce v systémech
využívaných pro provoz běžného podnikání.“
Jak tedy vytvořit strategii ukládání dat v éře
big dat, škálovat architekturu ukládání dat, aby
dokázala udržet krok s daty a růstem podniku,
a udržet přitom náklady na ukládání dat pod
kontrolou? Poučte se u některých pokročilých
uživatelů.
Big data nejsou pro společnost Quicken Loans nic nového. Tento on-line poskytovatel hypoték je zvyklý na ukládání a analýzu dat od více
než 1,5 milionu klientů a úvěrů na bydlení
v hodnotě desítek miliard dolarů.
Před třemi lety však s nimi společnost teprve
začínala. „Začali jsme se zaměřovat na big data
získaná ze sociálních sítí – Twitteru, Facebooku, ze
sledování pohybu uživatelů na webu a z webového
chatu,“ což je obrovské množství nestrukturovaných dat, vysvětluje tamější ředitelka IT Linglong Heová.
„Způsob uchovávání dat je důležitý, protože má
dopad na strategii, a to nejen ohledně ukládání, ale
také synchronizace se strukturovanými daty či zvyšování vlivu na firmu,“ vysvětluje Heová.
V těsných politických závodech mohou informace způsobit rozdíl. Zeptejte se lidí z poradenské společnosti Catalist. Ta získává údaje od milionů voličů doplněné o obrovské množství „pozorování“ založených na dalších veřejných záznamech, jako jsou třeba transakce v oblasti
nemovitostí nebo žádosti o úvěrovou historii dotyčného subjektu.
Informace produkované jejími analytickými
nástroji sdělují organizátorům kampaně, jaké
lidi oslovit, a mohou dokonce doporučit kandidátům, aby přes noc změnili svou volební
strategii.
„Měli jsme velké úložiště EMC, které jsme vyřadili, protože bylo příliš drahé a spotřebovávalo
mnoho energie,“ vzpomíná Jeff Crigler, technologický ředitel Catalistu, a poznamenává, že systému EMC docházela i kapacita.
Firma tedy vybudovala cluster serverů NAS,
z nichž každý zvládne uložit petabajt dat. „Je to
v podstatě velká krabice disků s procesorem, který
je dostatečně inteligentní, aby mohl fungovat podobně jako řešení od EMC.“ Disky mají vysokou
kapacitu, software nabízí luxusní konfiguraci
a funkce zajišťuje nenáročný procesor.
Csaplar z Aberdeenu vidí rostoucí trend
ústupu od drahých úložišť, která stojí více než
dva miliony korun, směrem k levnějším serverům, jež nyní zvládnou udělat více práce.
„Výkon těchto zařízení roste a přebírá funkce,
které dříve vykonávala specializovaná řešení. Je to
podobné, jako když se sítě vyvinuly z rozbočovačů
a síťových karet připojených do sítě do funkce umístěné přímo v procesoru,“ dodává Csaplar.
Jsem přesvědčený, že se ukládání dat také
ubírá tímto směrem, myslí si Csaplar. Namísto
nákupu velkých a drahých diskových polí
firmy používají přístup JBOD (skupina disků) – nasazují neinteligentní zařízení pro
ukládání dat a výpočetní kapacitu serverů
k jejich správě.
„To snižuje celkové náklady na úložiště a nepřijdete o žádnou funkcionalitu – nebo možná dostanete 80 % výsledků za 20 % nákladů,“ poznamenává Csaplar.
Catalist nahradil svá zařízení s cenami více
než dva miliony korun za čtyři úložné jednotky
CO M P U T E RWO R L D 12 | 2014
CW12-bd4-5.indd IV
20.06.14 14:05
STORAGE | BIG DATA
NAS za tři čtvrtě milionu. „To bylo před rokem
a půl,“ a náklady na ukládání dat nadále
klesaly.
Csaplar očekává, že se na trhu objeví obyčejné levné systémy ve větší míře, až více organizací zjistí, že splňují jejich potřeby. Velcí dodavatelé, jako je EMC, vidí hrozbu, a proto kupují
firmy, které dodávají menší úložiště.
Mezera mezi ukládáním a zpracováním
Současný software umožňuje ukládání dat ještě
blíže k analytickým nástrojům a komprese souborů udržuje nároky na úložiště pod kontrolou.
Dodavatelé, jako je HP, respektive její divize
Vertica, mají přímo uvnitř databáze k dispozici
analytické funkce, které podnikům dovolují dělat analytické výpočty bez nutnosti extrahovat
informace do odděleného prostředí kvůli zpracování. Také Greenplum (součást EMC) nabízí
podobné funkce.
Obě řešení jsou součástí nové generace sloupcových databází, které jsou navrženy tak, aby
pokud jde o analytické pracovní zátěže, nabídly
výrazně lepší výkon, menší nároky na úložiště
a lepší efektivitu než databáze založené na řádcích. Greenplum se nedávno stala součástí firmy
Pivotal Labs, nabízející podnikovou platformu
PaaS a jež je součástí EMC.
Například firma Catalist si vybrala databázi
Vertica speciálně kvůli výše zmíněným funkcím,
uvádí Crigler. Protože je databáze sloupcová namísto řádková, hledá kardinalitu dat ve sloupci
a na základě toho může dělat kompresi. Kardinalita popisuje vztah jedné tabulky dat k jiné na
rozdíl od vztahů jeden vůči mnoha nebo mnoho
vůči mnoha.
V databázi máme sloupec nazývaný „Stav“
pro záznam každé osoby. V souboru o velikosti
300 milionů registrovaných voličů se ale objevuje jen padesátkrát, popisuje Crigler.
„V řádkově založených relačních open source databázových systémech, jako jsou například Postgres
nebo MySQL, by se objevoval 300milionkrát. Pokud
použijete takovou úroveň komprese na všechno –
od názvů ulic po příjmení Novák, pak to (a další
kompresní algoritmy) přinese z hlediska úložného
prostoru obrovské úspory.“
Volba databázové technologie tedy výrazně
ovlivní množství potřebného úložného místa.
Na straně úložiště pomáhají deduplikace,
komprese a virtualizace snižovat velikost souborů a množství dat ukládaných pro pozdější
analýzu. A tiering dat je dobře známá možnost
rychlého předání nejdůležitějších dat analytickým nástrojům.
SSD jsou dalším populárním médiem pro
ukládání dat v případě, že musí být rychle dostupná. Tyto systémy udržují údaje v režimu
velmi rychlé odezvy, vysvětluje Csaplar.
Uchovávají data v těsné blízkosti procesorů,
aby tak serverům umožnily rychlou analýzu dat.
Původně byly pro mnoho podniků příliš drahé,
ale ceny už klesly na úroveň, kdy si vrstvy vytvořené z SSD mohou dovolit i středně velké společnosti, dodává Csaplar.
Vzestup cloudů
Cloudové úložiště hraje ve strategiích ukládání
big dat stále významnější roli. V oborech, kde organizace působí po celém světě, jako jsou ropný
průmysl nebo těžaři zemního plynu, se údaje ze
senzorů posílají přímo do cloudu – a v mnoha
případech se tam dělá i analýza.
„Pokud sbíráte data z deseti nebo více zdrojů,
nebudete je pravděpodobně ukládat do svého datového centra, protože to není u tak velkého množství
dat nákladově efektivní,“ uvádí Nadkarni z IDC.
Například firma GE mnoho let analyzovala
data senzorů strojů pomocí technologie big dat
kvůli plánování údržby letadel. Campisi říká, že
množství údajů shromážděných z listu plynové
turbíny elektrárny jen za několik hodin běhu
může převyšovat množství dat, která se v sociálních sítích sbírají celý den.
Firmy využívají cloud ke shromažďování dat
i jejich analýze v něm, takže odpadá potřeba je
přenášet do datového centra.
„Společnosti jako Amazon vám poskytnou výpočetní vrstvu pro analýzu těchto údajů přímo
v cloudu. Když jejich rozbor dokončíte, můžete je
vždy přesunout, řekněme z vrstvy typu S3 na vrstvu
typu Glacier (Ledovec),“ dodává Nadkarni.
Glacier představuje extrémně levnou možnost uložení dat, kterou oznámil Amazon Web
Services v loňském roce. Je určená pro uchovávání dat „u ledu“ po celá desetiletí.
Další dodavatelé mají podobné služby cloudové archivace, uvádí Csaplar a poznamenává,
že tyto nabídky se profesionálně spravují za
velmi dostupnou cenu a mohly by například
sloužit jako konečné místo uložení starých
pásek.
Při velmi nízkých cenách za gigabajt je hodně
těžké takové nabídce odolat. „Jakmile dojde
k pročištění údajů a nebudou obsahovat žádné citlivé informace, můžete je do takovéhoto archivu
dát, a snížit si tak nároky na vlastní datové centrum,“ radí Nadkarni.
I běžné podniky se už zajímají o použití
cloudu pro ukládání a analýzu dat. Asi 20 % šéfů
IT dotázaných analytiky IDC uvádí, že se zaměřili na cloud jako na způsob rozšíření analytických schopností, i když mají k dělání analýz
vlastní datová centra.
„Je to hlavně ze dvou důvodů,“ vysvětluje Nadkarni. „Zaprvé tyto projekty často neřídí IT oddělení. Zadruhé vzhledem k času na nasazení a zprovoznění považuje mnoho podnikových oddělení za
jednodušší spustit několik instancí v cloudu, což zabere od pár týdnů po pouhých několik dní.“
Campisi z GE Software tvrdí, že většina zákazníků, které podporují, zatím pořád ukládá
a analyzuje data ve svém prostředí.
„Přecházíme ale na stále větší využívání cloudové technologie a schopnosti podporovat tuto strategii,“ popisuje Campisi.
Také Crigler se snaží přijít na to, jak přenést
všechna data Catalistu do cloudu. Tato firma již
replikuje do tohoto prostředí své databáze, jež
odpovídají identitám voličů, „protože je to velké
množství dat, které se používá v době, kdy dochází
ke špičkám“.
„Ke špičkám dochází čtyři až pět měsíců před
volbami. Schopnost rozšířit kapacitu zpracování
a využít více disků i procesorů je skutečně důležitá,“ vysvětluje Crigler.
Také se snaží najít strategii, která přinese nejlepší výkon za vynaložené investice při využití
tohoto typu dat a potřebě dělat analytické dotazy
vůči historickým údajům.
„Je to velká výzva,“ říká Crigler. Například
podle něj je služba Amazon Elastic Block pomalá
a S3 ještě pomalejší. Nejlepší možností je nejdražší alternativa – připojené vyhrazené úložiště
ve velmi velkých boxech Amazonu, ale to je
opravdu drahé.
„Musíte tedy najít způsob, jak svá data analyzovat a vypočítat křivku cena/výkon pro různé druhy
a stáří dat, a optimalizovat úložiště na základě
svých skutečných potřeb,“ dodává Crigler.
Mnoho firem se stále potýká s ranými fázemi
svých strategií ukládání big dat, ale zanedlouho
budou běžnější hyperškálovatelná výpočetní prostředí, jako využívají třeba firmy Google nebo
Facebook.
„Děje se to,“ prohlašuje Nadkarni. „Celý tento
návrh úložiště založený na levných serverech
s mnoha disky je přímým důsledkem zvyků oddělení, které Amazon, Facebook, Google a další
následovaly.“
V Silicon Valley některé startupy nabízejí
úložné systémy big dat založené na principech
právě od výše zmíněných gigantů. Na nedávné
konferenci VMworld „bylo minimálně deset firem
se zakladateli, kteří dříve pracovali ve společnostech Google nebo Facebook,“ popisuje Nadkarni.
„Z právních důvodů nemohou startupy přesně
okopírovat magické řešení využívané jejich dřívějším zaměstnavatelem, ale principy jsou tam už
dobře zavedené,“ vysvětluje Nadkarni. „Za pár let
uvidíte, jak si tento princip hyperškálovatelnosti
nachází cestu do běžných podniků, protože nebude
■
existovat jiný způsob, jak to efektivně udělat.“
CO M P U T E RWO R L D.C Z
CW12-bd4-5.indd V
V
20.06.14 14:05
Big data nejsou jen chiméra.
Zrychlí auto i vylepší přihrávku
Jenson Button řadí první rychlostní stupeň, červená světla zhasínají
a formule týmu McLaren-Mercedes vyráží do dalšího závodu. Ve stejnou
chvíli začnou do datového centra týmu plynout informace z desítek
senzorů umístěných v automobilu.
S
oučasné závody Formule 1 jsou sportem,
který je extrémně závislý na rychlosti. Už
dávno ale ne jen na rychlosti pilotů jednotlivých monopostů, ale také na tom, jakou rychlostí dovedou technici týmu vyhodnocovat informace tekoucí z vozu přímo do jejich počítačů.
Analyzovat je po závodě a připravovat se na ten
další rozhodně nestačí – změny v nastavení auta
se musí provést ještě během závodu.
A nemusí to pochopitelně platit jen o týmu Formule 1. Velkými objemy dat dnes disponuje celá
řada firem, schopnost je využít může být nejdůležitějším faktorem rozhodujícím o úspěchu či
neúspěchu.
Zažijte
fotbal jinak
Big data v realitě
Již několik let můžeme ve světě informačních
technologií sledovat dva zřejmě nejdůležitější
trendy – big data a cloud. I když o nich mluví
snad každý, představit si pod nimi něco reálného
neumí úplně všichni. Snad i proto řada firem
stále váhá, nakolik jsou tyto trendy pro ně důležité a co jim mohou přinést. V podstatě se tak
samy brání vlastnímu úspěchu. Firma, která
dnes nemá dostatek informací o svém podnikání
včas, je totiž odsouzena k neúspěchu.
Spojení obou těchto trendů, které přinesla
společnost SAP v podobě SAP HANA Enterprise
Cloud, umožňuje firmám analyzovat v reálném
čase skutečně obrovské množství dat a tyto informace okamžitě využít k řízení svého byznysu.
Podle odhadů IDC překročil celkový objem dat
umístěných v databázích v roce 2013 6 bilionů
terabajtů (1 TB = 1 099 511 627 776 bajtů).
Velká část může zůstat ležet bez užitku. Ale
nemusí. Příkladem mohou být právě závody Formule 1 a tým McLaren-Mercedes, který ve své
centrále ve Velké Británii implementoval právě
platformu SAP HANA Enterprise Cloud. Propojení in-memory technologie s cloudem umožňuje přímo v centrále společnosti analyzovat telemetrická data obou automobilů v reálném
čase. I když se jede třeba Velká cena Koreje či
Singapuru na opačné straně zeměkoule, mohou
technici ve Wokingu nedaleko Londýna jít až do
takového detailu, že upraví funkci turbodmychadla ve voze některého z jezdců týmu, případně
mohou, ve spolupráci s týmem na okruhu, upravovat závodní strategii.
Přitom právě v letošním roce prochází Formule 1 zřejmě největší proměnou za poslední
roky. Mění se auta i pravidla. Tým McLaren-Mercedes F1 je ale na tyto novinky díky spolupráci se SAP připraven. Schopnosti in-memory
platformy SAP HANA umožňují proměnit informace ve znalosti rychleji než kdykoli předtím.
VI
Nejde ale jen o tréninky hráčů jednoho týmu.
SAP spolupracuje také s německou fotbalovou
reprezentací. Ta využívá možnosti analýzy obrovského množství dat, kterou nabízí SAP
HANA, ke zpětné analýze zápasů.
Obrázky z kamer umístěných kolem hrací
plochy jsou ukládány na servery a analyzovány
po jednotlivých políčkách. Díky tomu je možné
získat detailní informace o pohybu každého
hráče po hřišti, ale také třeba identifikovat, jaké
chyby vedly k obdržené brance.
Často se říká, že hráč během utkání nemá čas
přemýšlet, že může jen reagovat. Big data ale
mohou pomoci proniknout do našich myšlenkových procesů – právě díky nim lze zpětně analyzovat chování toho kterého hráče v konkrétní situaci a zjistit, kterou vyhodnotil dobře a kdy se
naopak rozhodl špatně. Téměř by se dalo říci, že
big data nás znají lépe než my sami sebe.
Technologie vylepší trénink
Big data mohou proměnit i mnohem méně technologické sporty, než je právě Formule 1. Na
první pohled by se mohlo zdát, že jedinou technikou, která pomáhá fotbalistům, je ta kopací.
Bundesligový tým TSG Hoffenheim se rozhodl,
že při získávání informací o tréninku a výkonnosti svých hráčů nebude spoléhat jen na to, co
vidí trenér a jeho asistenti. A tak se spolehli na
SAP HANA.
Senzory, které jsou umístěné v míči a které
mají jednotliví hráči na těle, ale také v holenních
chráničích či v oblečení, umožňují získávat v reálném čase informace o pohybu jednotlivých
hráčů po hřišti, jejich zrychlení či třeba o práci
s míčem. Během jediného zápasu posbírají tyto
senzory až 60 milionů pozičních informací,
které se v reálném čase ukládají na servery SAP
HANA a mohou se okamžitě analyzovat
a zobrazovat.
Trenéři mají k dispozici data i z fyzické přípravy, mohou zjistit, kde jsou slabiny toho kterého hráče, a zaměřit se na ně. Stejně tak samotní fotbalisté mohou třeba při tréninku v posilovně okamžitě sledovat na obrazovkách, jak si
stojí ve srovnání se zbytkem týmu. Že to je pro
sportovce velmi motivační prvek, je asi zbytečné
zdůrazňovat.
Právě tyto informace mohou zcela
změnit pohled, jaký
máme dnes na sledování sportovních
utkání. Až dosud si
musel fanoušek vybrat mezi komfortem televizního přenosu a atmosférou
na tribuně. Brzy to
možná bude jinak.
Právě díky úžasným
schopnostem, které
nabízí SAP HANA
Enterprise Cloud, bude moci každý fanoušek
přímo na stadionu sledovat detailní informace
o hře na svém telefonu či tabletu. Bude se moci
kdykoli podívat, jak si ten který hráč stojí.
Na rozdíl od některých českých klubů týmy
v Bundeslize si uvědomují, jak důležití pro ně fanoušci jsou. I proto se s nimi chtějí podělit o celou řadu zákulisních informací, třeba na sociálních sítích. Profesionální tým musí mít profesionální komunikaci. S aplikací SAP Social Media
Analytics by NetBase mohou lidé zodpovědní za
komunikaci identifikovat důležité příspěvky na
sociálních sítích, zachytit případné stížnosti fanoušků v diskuzi nebo třeba poznat, co je za■
jímá.
Big data na vlastní oči
Analýzu hráčů německé reprezentace můžete vidět
na vlastní oči. A dokonce v kamiónu, který jinak převáží vozy Formule 1. Do Česka totiž dorazí SAP Big
Data Truck. K vidění v něm bude samozřejmě i celá
řada dalších příkladů, jak mohou big data posloužit
právě vašemu byznysu. Vice informací získáte na adrese: www.sap.com/ms/sap-big-data-tour.html
CO M P U T E RWO R L D 12 | 2014
CW12-bd6.indd VI
20.06.14 14:18
PRAXE | BIG DATA
Deset rozšířených mýtů: Jaká je skutečnost?
V poslední době se technologii big dat věnuje velká pozornost. Nabízela se
jako možné řešení pro všechno – od detekce narušení přes předcházení
podvodům až po léčbu rakoviny či stanovení optimálních cen produktů.
Big data však nejsou všelékem na každý problém.
„Nehledě na velikost vaší organizace je lepší,
abyste se rozhodovali na základě dat a nespoléhali
se jen na intuici či pocity,“ radí Darin Bartik,
výkonný ředitel produktového managementu
divize Information Management Solutions ve
společnosti Dell.
Menší podniky mohou dělat rozhodnutí na
základě dat méně často než ty velké, ale zase mohou svůj směr korigovat rychleji.
„Menší společnosti mohou využívat osvědčené
postupy, aby lépe využily data k rozhodování a překonaly či takticky porazily větší a pomalejší konkurenci,“ vysvětluje Bartik.
MÝTUS
MARIA KO ROLOVOV Á
P
okud firmy věří v některé mýty, které big
data obklopují, mohly by se kvůli tomu vydat špatným směrem, ztratit mnoho času
a peněz a mohlo by je to stát jejich konkurenční
postavení na trhu nebo poškodit jejich pověst.
Zde jsou některé z největších mýtů, které se
okolo big dat stále točí.
„Víme, že tam někde uvnitř se skrývá poklad,
a konečně máme výpočetní výkon, abychom se
k němu dostali,“ říká Farrell a dodává, že kombinace analýzy dat s odbornými lékařskými znalostmi otevírá zcela novou oblast prediktivního
zdravotnictví.
MÝTUS
MÝTUS
1
Big data zvládnou
jen datoví vědci
Ve skutečnosti samotní datoví
vědci nestačí. „Samotní tito lidé nedokážou z big
dat informace získávat, pokud v první řadě nevědí,
co hledají,“ upozorňuje Pat Farrell, šéf pro analýzy dat ve zdravotnickém ekosystému Penn Medicine. „Potřebujete specializované pracovníky,
kteří oboru rozumějí, mají znalosti z dotyčné oblasti, chápou možné otázky a pohledy, které by pro
váš konkrétní obor byly cenné.“
Zmíněný Penn Medicine zahrnuje jak samotný systém zdravotní péče, tak lékařskou
univerzitu.
Prvně jmenovaná divize po dlouhou dobu
shromažďuje klinická data ve svém datovém
skladu, na její univerzitě zase nová technologie
umožňuje dekódování lidského genomu, které
s sebou nese obrovské množství dat.
2
Čím více dat,
tím větší hodnota
Shromažďování dat, jejich ukládání
a katalogizace vyžadují čas a zdroje, připomíná
Farrell. Bezhlavý sběr velkého množství údajů
ale může vytížit zdroje, které byste jinak použili
na důležitější projekty.
Farrell proto doporučuje, aby společnosti
měly dříve, než začnou data sbírat, jasnou představu konkrétní metriky nebo klíčového ukazatele výkonu, které požadují.
„Chcete se dostat do bodu, kdy máte hrst plnou
zlatých valounů – moudrosti, jež je pro vás cenná,“
vysvětluje Farrell. „Samotná uložená data nestačí.“
MÝTUS
3
Big data jsou jen
pro velké společnosti
Větší firmy mohou mít více vnitřních zdrojů dat, ale i malé organizace mohou
efektivně využít data pocházející ze sociálních
sítí, od vládních úřadů a dodavatelů dat.
4
Všechna data
se vytvořila stejně
Státní úřad ve Virginii posledních
20 let shromažďuje data o zapsaných studentech, stipendiích a diplomech. Neznamená to
ale, že údaje shromážděné před 20 lety a uložené ve stejném datovém poli nutně obsahují
stejná data.
„Největším problémem je chápání dat – protože
jde o encyklopedická data, výzkumníci si myslí, že
se získala podle stejných pravidel,“ vysvětluje Tod
Massa, ředitel datových skladů a výzkumu pravidel tamější Rady vysokých škol.
Například data o výsledcích standardních studentských testů se původně sbírala jen za místní
studenty, potom došlo k pauze a nakonec se
shromažďují i za ty, kteří pocházejí ze zahraničí.
Podobně se rozdílně sledují údaje o etnické
příslušnosti.
Ve skutečnosti se mohou libovolná data nahlásit odlišně – z důvodu existence jiné instituce, jiného období nebo v důsledku změn personálu v těchto organizacích. „Domnívám se, že
se smysl dat v průběhu času mění,“ upozorňuje
Massa.
V důsledku toho je potřeba, aby analytici měli
nejen statistické schopnosti, ale také znalosti dat
a trendů v oboru jako celku. „Nemůžete všechny
tyto záležitosti naprogramovat do datového
skladu,“ dodává Massa.
Totéž platí i pro externí zdroje dat. „Údaje
shromažďované v průběhu například posledních
50 let se mohou dramaticky změnit. Pochopení kontextu je pro dobré využití dat skutečně nezbytné,“
upozorňuje Massa.
MÝTUS
5
Nasbírejte teď
a přeberte později
Úložiště jsou stále levnější, ale nejsou úplně zadarmo. Mnoha firmám však roste
chuť na data rychleji, než jak klesají ceny úložišť, prohlašuje Brad Peters, výkonný ředitel společnosti Birst, která je dodavatelem cloudového
řešení business intelligence.
Firmy si myslí, že budou sbírat data a teprve
později přijdou na to, co s nimi budou moci dě- ▶
CO M P U T E RWO R L D.C Z
CW12-bd7-8.indd VII
VII
20.06.14 14:06
BIG DATA | PRAXE
Význam pojmu big data se pravděpodobně změní stejně, jako je tomu u cloud computingu, a nijak se to neliší od toho, co se
stalo s webem či samotným internetem. Pojem se může změnit, ale smysl big dat zůstane.
BRYAN HILL, TECHNOLOGICKÝ ŘEDITEL, CADIENT GROUP
lat, popisuje Peters a dodává: „Vidím řadu velkých
korporací shromažďujících kvanta údajů, jejichž
náklady pro tuto činnost stále rostou, a přitom jim
to nepřináší žádnou hodnotu.“
Ve skutečnosti podle Peterse u některých
množin dat začíná platit zákon klesajících výnosů. Řekněme například, že děláte průzkum,
abyste dokázali odhadnout výsledek voleb.
Potřebujete pro reprezentativní vzorek získat
určitý počet lidí. Po dosažení tohoto bodu ale už
přidávání dalších lidí statistickou odchylku významně neovlivní.
„Ukládáte spoustu dat s nadějí, že vám poskytnou o něco vyšší přesnost?“ ptá se Peters. „Nebo
pořizujete více personálu? Zabezpečujete lépe své
sítě? Nepostupujete moc rychle z důvodu nedostatečného růstu ekonomiky a rozpočtů.“
Nejsou to ale jen náklady na úložiště, jak upozorňuje Dean Gonsowski, ředitel pro správu informací a big data z firmy Recommind, která se
specializuje na analýzy nestrukturovaných dat.
Například únik dat může podle něj společnost
značně poškodit.
Data uložená v datových skladech mohou být
navíc předmětem různých důkazů na základě
rozličných soudních sporů.
A konečně – čím více dat máte, tím déle trvá
jejich přebrání. „Když jsou v archivu miliardy záznamů, trvá vyhledávání odpovídajících informací
hodiny nebo i týdny,“ popisuje Gonsowski a dodává: „Velké množství informací skutečně začíná
blokovat činnost systémů, které se nikdy nevytvářely pro zvládání takových objemů.“
MÝTUS
6
Čím konkrétnější prognóza,
tím lépe
Je lidská přirozenost myslet si, že
když je něco konkrétnější, je to také přesnější.
Časový údaj 15 h 12 min. je přesnější než „někdy
odpoledne“. Meteorolog, který předpovídá, že
v neděli ráno bude určitě pršet, je přesnější než
ten, který předpovídá „padesátiprocentní šanci
na přeháňky o víkendu“.
Ve skutečnosti je ale pravdou opak. V mnoha
situacích platí, že přesnější předpověď je méně
pravděpodobná. Řekněme například, že zákazník koupí zcela konkrétní notebook s jasnou
konfigurací. A jediný další klient, který si produkt s naprosto stejnou konfigurací koupil v minulosti, si přibral k nákupu také pár růžových lodiček na jehlovém podpatku.
„Doporučení pro prodejce růžových lodiček na
jehlách může být velmi konkrétní, ale může mít velkou statistickou odchylku,“ upozorňuje Jerry Jao,
výkonný ředitel v marketingové organizaci Retention Science. Obchodní a marketingoví manažeři se ale podle něj s tímto stavem setkávají
zcela běžně.
VIII
MÝTUS
7
Big data jsou totéž jako
Hadoop
Hadoop, populární open source databáze pro nestrukturovaná data, poutá velkou
pozornost. Jsou zde ale také i jiné možnosti.
„Existuje celé hnutí NoSQL,“ popisuje Irfan
Khan, šéf a viceprezident divize Big Data ve společnosti SAP. „Jsou zde technologie jako MongoDB,
Cassandra a řada dalších.“
Některé z nich se mohou pro konkrétní projekt big dat hodit lépe než ostatní.
Konkrétně Hadoop funguje tak, že rozdělí
data na části a pracuje na více úsecích současně.
Tento přístup řeší mnoho problémů big dat, ale
ne všechny.
„Někdy musíte záležitost zvládnout způsobem,
pro který Hadoop není ideální,“ upozorňuje Grant
Ingersoll, technologický ředitel společnosti LucidWorks, která poskytuje poradenství pro big
data. „Lidé potřebují zachovat rozvahu a vybrat pro
sebe nejlepší řešení, ne se nechat zlákat popularitou
toho, co používají ostatní,“ dodává Ingersoll.
MÝTUS
8
Big data se hodí jen na velké
problémy
Ředitel IT ve velké bance nedávno
hovořil o technologii pro big data a dostal otázku
na možnost samoobslužného využití koncovými
uživateli. „Uvedl, že mu to nepřipadá možné,“
vzpomíná Peters ze společnosti Birst.
Je zcela běžné, že si někteří manažeři myslí,
že technologie pro big data dokáže odpovědět
jen na určité typy otázek.
Takový přístup lze shrnout následujícími
slovy: „Naším cílem využití big dat je vyřešit jen několik málo problémů s velmi vysokou hodnotou
s využitím práce datových vědců. Nechceme datový
chaos, kde přístup k těmto informacím mají i běžní
lidé, protože si nemyslíme, že to potřebují.“
Peters ale s tímto přístupem nesouhlasí a dodává, že je přitom v mnoha oborech běžný. „Je to
rozbujelý mýtus uvnitř hlavně velkých pojišťovacích
společností, že podnikoví uživatelé prý nejsou dost
chytří, aby to zvládli.“
MÝTUS
9
Koncoví uživatelé
nepotřebují přímý přístup
k technologii big dat
Rychlý přísun big dat z různých zdrojů a ve velkých objemech může vytvářet dojem, že je to
příliš složité na to, aby s touto technologií mohl
pracovat i běžný zaměstnanec. Nemusí to však
nutně být pravda.
Vezměte si například všechny údaje získané
z přístrojů na jednotce intenzivní péče. Srdeční
frekvence, údaje o dýchání a výsledky EKG. Lékaři a zdravotní sestry mohou příliš často vidět
jen aktuální naměřené hodnoty pacienta.
„Nemohou se podívat a vidět, jaké to bylo před
deseti minutami, nebo pomocí grafu odhadnout to,
co bude za hodinu,“ popisuje Anthony Jones,
marketingový ředitel společnosti Philips
Healthcare.
Možnost vidět historická data pacienta může
být pro lékaře při rozhodování velmi cenná.
„Lpění na týmu datových vědců může v tomto případě způsobit ztrátu velké příležitosti,“ varuje
Jones.
V současné době je potřeba zajistit, aby
všechna ta různá zařízení generující data spolu
komunikovala, přestože k tomu původně nebyla
navržená, a používají se různé platformy, operační systémy a programovací jazyky.
Jakmile se vám to podaří, musíte data dostat
do použitelné podoby a zpřístupnit je například
zmíněným lékařům a zdravotním sestrám v okamžiku, když je potřebují.
MÝTUS
10
Bublina big dat nakonec
praskne
Humbuk v podobě různých módních technologií se v cyklech objevuje a zase
mizí, ale transformační změny zůstávají. Internetová bublina praskla – ale neznamenalo to
přece konec samotného internetu.
A i když humbuk časem utichne, podniky budou i dále big data využívat. Ve skutečnosti budou v důsledku exponenciálního růstu využívat
big data ve větší míře, než kdy předpokládaly –
například IDC předpovídá, že celkové množství
shromažďovaných údajů se do roku 2020 každé
dva roky zdvojnásobí.
Nejde ale jen o to, že firmy budou shromažďovat více údajů, než sbírají v současné době.
Objeví se pravděpodobně nové typy dat, která
budou vyžadovat obrovské množství úložného
prostoru.
„Dostaneme se do bodu, kdy se například
u každé osoby přijímané do nemocnice bude mapovat její genom,“ tvrdí Anthony Jones z Philips Healthcare. „To umožní detailní přizpůsobení péče
o pacienta. Když mluvíme o big datech, jde o obrovské množství dat. Nemyslím, že si mnoho šéfů IT
opravdu uvědomuje, o kolik se zhorší situace okolo
úložišť.“
Tím, že firmy budou považovat big data za
pouhou fázi, mohou ztratit příležitost zachytit
údaje, které by mohly mít na jejich podnikání
vliv v budoucnu, varuje Bryan Hill, technologický ředitel společnosti Cadient Group, která se
specializuje na interaktivní marketing.
„Význam pojmu big data se pravděpodobně
změní, stejně jako je tomu u cloud computingu,
a nijak se to neliší od toho, co se stalo s webem či
samotným internetem,“ vysvětluje Hill. „Pojem se
může změnit, ale smysl big dat zůstane.“
■
CO M P U T E RWO R L D 12 | 2014
CW12-bd7-8.indd VIII
20.06.14 14:06

Podobné dokumenty