zvláštní neprodejná příloha | červen 2015
Transkript
zvláštní neprodejná příloha | červen 2015
Z VL Á ŠTNÍ NEPRODE JNÁ PŘÍLOHA | ČERVEN 201 5 Bigdata 2 0 1 5 S I LV E R PA R T N E R CW6-bigdata.indd I Bigdata_2015_235x297.indd 12 19.06.152:25 14:02 6/18/15 PM BIG DATA Kam míří současná big data? Za několik málo let urazila myšlenka big dat cestu ze sféry humbuku až po jednu z nejpřevratnějších základních IT technologií nového věku. TH O R O L AVSRUD L etos budou organizace rozšiřovat nasazení technologie big dat nad rámec počáteční implementace a v řešeních pracujících v reálném čase, tvrdí John Schroeder, výkonný ředitel a spoluzakladatel společnosti MapR Technologies, která se specializuje na Hadoop. Je to podle něj vyvolané pochopením obrovského pokroku, který dodavatelé učinili začleněním nových platforem do svých analytických nástrojů. Podle Schroedera lze u big dat očekávat v nejbližších měsících pět zásadních změn. 1 Nejvíce pozornosti bude mít datová agilita Datová agilita byla jedním z hlavních motivačních faktorů stojících za vývojem big dat, protože procesy související se starými databázemi a datovými sklady se ukázaly pro mnoho obchodních potřeb jako příliš pomalé a nepružné. Schroeder předpovídá, že datová agilita se dostane do centra pozornosti, protože organizace už aktivně přecházejí z pouhého zachytávání a správy velkých objemů dat k jejich byznysovému využití. „Staré databáze a datové sklady jsou poměrně drahé. Pro urovnání, sumarizaci a plnou strukturovanost dat je zapotřebí personál – databázoví správci (DBA),“ popisuje Schroeder. Náklady, které firmy na tyto lidi vynaložily, podle něj zpožďují přístup k novým zdrojům dat, přičemž rigidní strukturu je v průběhu času velmi těžké měnit. Důsledkem je pak to, že využívané staré databáze nejsou dostatečně agilní, aby vyhovovaly potřebám většiny současných organizací. Počáteční projekty big dat se zaměřovaly na ukládání cílových datových zdrojů, dodává Schroeder. „Namísto zaměření na objem se budou organizace soustřeďovat na datovou agilitu.“ Jak provoz ovlivní schopnost zpracovávat a analyzovat data? Jak rychle se lze přizpůsobit a reagovat na změny v preferencích zákazníků, tržních podmínek či konkurenčních akcí? Tyto otázky budou v nejbližší době určovat směr investic a rozsah projektů big dat. 2 Přechod od datových jezer k platformám zpracování dat Loňský rok byl v některých aspektech rokem tzv. datových jezer (nebo také datových uzlů) – objektově založených archivů ukládajících surová data v jejich nativním formátu (ať už strukturovaná, nestrukturovaná nebo jen částečně strukturovaná), aby byla připravena k použití. Datová jezera mají vysokou hodnotu v tom, že představují škálovatelnou infrastrukturu, která II je ekonomicky atraktivní (s redukovanými náklady za každý terabajt), a jsou extrémně agilní. Schroeder je přesvědčený, že se během tohoto roku rozšíří o možnosti obsahovat více výpočetních a vykonávacích strojů, aby zpracování dat probíhalo přímo na místě jejich uložení. To je nejen efektivnější, ale vytváří to jednotný bod pro správu i zabezpečení. Datová jezera se budou vyvíjet podle toho, jak organizace přecházejí z dávkového zpracování k práci v reálném čase a zároveň integrují souborově založené stroje, Hadoop i klasické databázové stroje do svých platforem pro rozsáhlé zpracování údajů. Jinými slovy, podstata se netýká rozsáhlého skladování v datovém jezeře kvůli podpoře větších dotazů a reportů, trendy jsou nepřetržitý přístup a zpracování událostí a dat v reálném čase. Novým cílem je získat stálou informovanost a možnost okamžité reakce. 3 Samoobslužná big data se stanou běžnou záležitostí Pokroky v oblasti nástrojů a služeb big dat znamenají, že oddělení IT už je schopné snadno odstranit překážky přístupu k cenným údajům pro podnikové uživatele i datové vědce. „IT oddělení začínají nasazovat samoobslužná řešení, takže podnikoví uživatelé budou moci využívat big data způsobem, který oni sami chtějí,“ prohlašuje Schroeder a dodává: „Funkce spojené s touto samoobslužností nabízí vývojářům, datovým vědcům a datovým analytikům možnost zkoumat data přímo bez jakéhokoliv zprostředkovatele.“ Předtím podle něj musel IT personál nejdříve vytvořit centralizované datové struktury. To ale představuje časově náročný a nákladný krok. Moderní organizace mohou, aby vyhověly potřebě neustálých požadavků, přejít na model „data binding“ a opustit centrální strukturu. Tento model urychlí schopnost firem využívat nové datové zdroje a rychle reagovat na příležitosti a hrozby. 4 Konsolidace dodavatelů Hadoopu: Vznik nových obchodních modelů Na počátku roku 2013 oznámil Intel svou vlastní distribuci Hadoopu s tím, že odlišnost bude spočívat v samém základu – Hadoop se bude integrovat přímo do jeho čipů. O pouhý rok později však Intel svou distribuci opustil a přešel namísto toho k distribuci Hadoopu od firmy Cloudera. V té době Intel uvedl, že zákazníci čekali a sledovali, jak se trh Hadoopu vyvine. Množství alternativ Hadoopu spíše kalilo vody. Schroeder je přesvědčený, že konsolidace dodavatelů Hadoopu bude i nadále pokračovat a někteří z nich své distribuce opustí a zaměří se v této oblasti na něco jiného. „Máme za sebou desítky let přijetí open source softwaru (OSS), který na trh přinesl obrovskou hodnotu,“ zmiňuje Schroeder. „Technologie dozrávají v několika fázích. Životní cyklus začíná inovací a vytvořením velmi odlišných produktů a končí, když se produkty nakonec stanou komoditou.“ Edgar F. Codd vytvořil koncept relační databáze v roce 1969 s inovací, které vedla v roce 1986 k primárnímu úpisu akcií (IPO) Oraclu. Komoditizace databází začala prvním vydáním produktu MySQL v roce 1995. Z historického pohledu tedy trvalo dozrávání databázové platformy 26 let, než od inovace začala být viditelná nějaká forma komoditizace. „Hadoop je nyní v rané fázi životního cyklu technologické zralosti a má za sebou pouze deset let od doby, kdy Google publikoval klíčové specifikace MapReduce,“ tvrdí Schroeder. „Přijetí Hadoopu globálně a v daném rozsahu je daleko vpředu před jakoukoli jinou datovou platformou, pokud pro srovnání použijeme časový horizont deseti let po prvotním konceptu.“ Hadoop je v současnosti ve své inovační fázi, takže dodavatelé mylně používající strategie „Red Hat for Hadoop“ nyní opouštějí trh. Nejvíce to bylo viditelné u Intelu a podobnou situaci lze očekávat i u dalších, podotýká Schroeder. Schroeder věří, že dojde k vývoji nového, více rozlišeného modelu OSS, který zkombinuje hluboké inovace s komunitním vývojem. „Komunita open source je rozhodující pro vytvoření standardů a shody. Konkurence je akcelerátorem transformací Hadoopu – od toho, co původně začalo jako procesor dávkového zpracování analýz, po plnohodnotnou datovou platformu.“ 5 Podnikoví architekti oddělí velký humbuk od velkých dat V těchto měsících se do centra dění dostávají podnikoví architekti – jejich stoupající úroveň pochopení Hadoopu totiž vede k lépe definovaným a promyšlenějším požadavkům na big data včetně vlastností, jako jsou vysoká dostupnost nebo nepřetržitý provoz. „Jak organizace rychle přecházejí z experimentálního nasazení k seriózní implementaci v datovém centru, přesunou se i architektura a těžiště IT směrem k přijetí big dat,“ předpokládá Schroeder. Klíčoví IT hráči budou mít nepostradatelnou roli při stanovení základní architektury potřebné k naplňování smluv o úrovni poskytovaných služeb (SLA), aby se uspokojily potřeby ohledně vysoké dostupnosti, nepřetržitého provozu a další stěžejní požadavky. Vloni se oslavoval prudce rostoucí ekosystém Hadoopu a rostl pro něj počet aplikací, nástrojů a komponent. Nyní se trh soustředí na rozdíly mezi jednotlivými platformami a na architekturu potřebnou k integraci Hadoopu do datového centra a k zajištění odpovídajících obchod■ ních výsledků. CO M P U T E RWO R L D 6 –7 | 2015 CW6-bigdata.indd II 19.06.15 14:02 PARTNERSKÝ PŘÍSPĚVEK | BIG DATA Big data a T-Mobile Pojem big data bývá nejčastěji spojován s charakteristikami dat velkého objemu, rozmanitosti, rychlosti změn i zpracování a obtížnosti interpretace výsledků. Z pohledu operátora, jako je T-Mobile, který je v pravidelném kontaktu s cca šesti miliony koncových terminálů, pak hovoříme o agregovaném datovém toku v řádu stovek milionů vzniklých signalizačních záznamů za jeden den. R I C H AR D NOVÁK, LU K Á Š KOV Á RN ÍK Anonymizace dat je zásadní Z pohledu platné legislativy je potřeba vždy před zpracováním dat provést jejich anonymizaci, která zabrání identifikaci jednotlivých účastníků. T-Mobile používá sofistikované šifrovací algoritmy k odstranění identifikace a pro zpracování používá pouze agregovaná data, takže při výpočtech vznikají jen metadata, která jsou jako jediná použita pro pozdější interpretaci výsledků. Technické zázemí Zdrojem geomobilních dat T-Mobile jsou zejména tvz. zbytková data ze signalizace, která na základě identifikace mobilní buňky umožňují znát přibližnou polohu mobilního terminálu, a tím i rozložení obyvatel v prostoru a čase. Ke zpřesnění polohy pak může dále dojít výpočtem. Signalizační data vznikají ze své povahy buď při mobilní události, jako jsou volání, datový přenos, SMS zpráva, při převodu terminálu mezi jednotlivými vysílači anebo na vyzvání infrastruktury při takzvaném periodickém upřesnění polohy, kdy je koncový terminál vyzván k signalizační odpovědi. Data ze signalizace prošlá anonymizací je možné uložit do datového skladu pro další zpracování za pomoci klasických nástrojů business intelligence anebo speciálních IT nástrojů podporujících big data. Řešené úlohy business intelligence a big data Typické úlohy zpracování business intelligence a big data, které je potřeba zvládnout při práci s anonymizovanými daty exportovanými ze signalizace do datového skladu, jsou následující: ■ Znalost počtu terminálů v dané oblasti ■ Umět tento počet terminálů dát do různých geografických tvarů, jako například centroid, čtverec, ZSJ, katastr, libovolný polygon ■ Vypořádat se s přeskakováním signálu mezi jednotlivými mobilními vysílači ■ Vypořádat se s příhraničními oblastmi ■ Znalost počtu lidí využívajících mobilní telefon v dané oblasti a v konkrétním časovém řezu ■ Zvládnutí předešlé znalosti ve všech možných časových řezech, kdy limitem je časové zahuštění dat ■ Zvládnutí algoritmů k počítání unikátních přístupů terminálů versus kumulativnímu přístupu počtů všech terminálů ■ Určení matice zdrojů a cílů (origin, destination), což je důležité pro určení vektoru pohybu a velkou řadu komerčních úloh ■ Rozložení hodnot výpočtem na celou populaci při vstupu dalších datových vrstev pro kalibraci ■ Nutno se vypořádat s nehomogenitou dat v některých oblastech ■ Nutno se vypořádat s modelováním v lokalitách, kde topologie sítě nevyhovuje z pohledu přesnosti požadavkům zadání úlohy ■ Modální split, tedy rozlišení pohybu obyvatelstva z pohledu dopravy, jako je hromadná doprava v rozlišení na vlakovou a silniční, osobní dopravu a další. A celá řada dalších více komplexních úloh. na Šumavu přijeli, jak dlouho zde zůstali a kam podnikali výlety, což je užitečné jak pro národní park, tak i místní podnikatele. A jaký je výsledek případové studie? Nejvíce návštěvníků ze zahraničí dorazilo z Nizozemska, v těsném závěsu se pak drží Německo. S výrazným odstupem se pak umístily další země. Celkově dorazilo na Šumavu ve sledovaném období 260 tisíc návštěvníků, z toho 24 % bylo ze zahraničí. Inovace jako zdroj výnosů T-Mobile Společnost T-Mobile, která byla v minulosti brána především jako inovátor na poli mobilních komunikací, se po sloučení se společnostmi T-Systems a GTS Czech, které proběhlo v rozmezí let 2013 a 2014, výrazně posunula do oblasti IT a poskytovatele komplexních ICT řešení opírajících se jak o mobilní, tak fixní infrastrukturu spojenou se zázemím sedmi datových center v České republice s celkovou plochou větší než 7 000 metrů čtverečních. V rámci našich datových center, kde je nejvyšší možná koncentrace IT řešení a projektů odehrávající se v Čechách, se odehrává velká řada inovativních a rozsáhlých projektů, která je pro T-Mobile přirozenou inspirací a zdrojem inovačních témat. Možnosti využití (Use Cases) V příkladech využití se zaměříme zejména na primární využití dat z mobilní sítě, neboť při obohacení o další externí data (počasí, sociální sítě, CRM systémy a další) by počet příkladů byl neomezený. Příklady jsou: krizová řízení (ztracené děti, informace o lidech v oblasti s požárem, povodní nebo při chemickém ohrožení), zjištění mobility obyvatel pro potřeby plánování infrastruktury státu (nové silnice, spádové oblasti úřadů, územní plány), komerční statistiky (počty návštěvníků obchodních center, cestovní ruch a návštěvnosti jednotlivých měst a oblastí, náhrada nebo doplnění výzkumů ČSÚ), optimalizace dopravních toků, služby založené na poloze jako například mobilní reklama na služby v blízkosti uživatele a další. Příklad praktického nasazení Společnost T-Mobile je v oblasti big dat velmi aktivní a spolu s partnery z akademického i komerčního sektoru se podílí na celé řadě výzkumných i komerčních projektů. Jeden příklad za všechno, a to případová studie pro Národní park Šumava připravená se společností KPMG. Cílem projektu se zaměřením na cestovní ruch bylo spočítat denní a celkový počet návštěvníků v oblasti Lipna a oblasti Kvildy, Modravy a Horské Kvildy na přelomu let 2013 a 2014, zjistit, odkud Je jen přirozené, že se firma snaží využít jak zázemí infrastruktury, tak především kvalifikovaných lidí schopných systémové integrace jak na infrastrukturální, tak aplikační vrstvě, seskupených pod jednou střechou konvergovaného ICT poskytovatele. Big data stejně tak jako řada dalších inovativních témat, například internet věcí, Premium networking, koncept Bezpečné firmy nebo oborová řešení například pro automobilový průmysl s ohromnou referencí ve Škoda Auto, jsou inovativní témata, která T-Mobile vidí jako motor vedoucí k novému zdroji výnosů. Bližší přiblížení zmíněných inovativních témat by bylo na jiný samostatný článek. Souhrnem lze říci, že big data podle příkladů popsaných výše již dávno nejsou pro T-Mobile jen akademické a laboratorní téma, ale vidíme v nich velký a rostoucí zdroj nových výnosů stejně jako praktickou pomoc pro rozvoj podnikání našich zákazníků. R. Novák je ředitel firemních a zákaznických řešení, T-Mobile L. Kovárník je manažer rozvoje ICT řešení, T-Mobile CO M P U T E RWO R L D.C Z CW6-bigdata.indd III III 19.06.15 15:20 BIG DATA Vyvarujte se obvyklých chyb Také big data či cloudové projekty mohou dopadnout velmi špatně. Nedovolte, aby se to stalo i vaší firmě. udělat, přestože nevědí jak a proč. Je zřejmé, že tento přístup ze své podstaty k úspěchu nemůže vést,“ dodává Haff. Podotýká dále, že mu to připomíná humbuk kolem datových skladů a kolem softwaru open source v minulých desetiletích. „Existuje názor, že se všemi těmito daty musíme dokázat ‚něco‘ udělat, přestože neznáme správné otázky, které bychom měli klást, ani nevíme, jaké vhodné modely použít,“ popisuje Haff. Prvním krokem v projektu big dat by měla být otázka: „Skutečně potřebujeme právě toto?“ Může totiž existovat řada důvodů, proč to organizace ve skutečnosti nepotřebují: jde třeba o nedostatek dat, aby se to vyplatilo, závislost na starších systémech, jako je ERP, které se do projektu nehodí, či předpisy vyžadující specifické uchovávání dat a podobně. „Uživatelé například prohlašují, že budou využívat cloud, protože to je další věc, kterou lze dělat. Neptají se na místa, kde by vznikala potřeba zvýšit agilitu nad rámec zajištěný virtualizací, ani na případné pracovní zátěže, které je potřebné zohlednit,“ upozorňuje Bittman. Další problémy A NDY PAT R I ZI O I T projekty nejsou neprůstřelné. Mohou dopadnout špatně nebo se před dokončením mohou vyskytnout překážky se stejnou pravděpodobností, jako že mohou proběhnout hladce. Co se však týče řešení pro big data či cloudy, míra neúspěchu je u nich děsivě vysoká. V roce 2012 zjistila studie společnosti McKinsey, že průměrně 45 % velkých IT projektů překročí rozpočet, 7 % se zpozdí a 56 % přinese menší hodnotu, než se původně očekávalo. Dalších 17 % dopadlo tak špatně, že to ohrozilo samotnou existenci firmy. Velké ERP projekty jsou pak ukázkovým příkladem – míra neúspěchu je u nich minimálně běžně citovaných 25 %. Pokud si myslíte, že je to špatné, big data jsou na tom ještě hůře. Znepokojující zpráva společnosti CapGemini uvádí, že jen 13 % projektů big dat dosáhlo produkčního provozu v plném rozsahu. Zhruba pouhá čtvrtina respondentů popsala své iniciativy big dat jako „úspěšné“ a jen 8 % jako „velmi úspěšné“. Tom Bittman, analytik Gartneru, který se dotazoval 140 klientů své firmy, na svém blogu uvedl, že jen pěti procentům z nich se povedlo uskutečnit projekty nasazení cloudu bez potíží. IV Zbylých 95 % mělo jeden ze šesti různých problémů. Proč tyto organizace zažívají tak vysokou míru neúspěšnosti? Existuje celá řada důvodů, ale vyskytuje se i jedna společná (a často přítomná) příčina: Firmy zavádějí projekty big dat a cloudu, protože je to skvělé a moderní, ale neobtěžují se ptát, zda to skutečně potřebují. „Začíná to již na počátku prezentovaným dobrým obchodním případem,“ popisuje Bittman a dodává: „Určili jste ale služby, které z projektu budou mít prospěch? To je místo, kde většina firem udělá chybu.“ Více než technologie se projekty týkají lidí a procesů. Firmy příliš často říkají: „Chceme to, co máme koupit? Hardware je nejjednodušší část. Nejtěžší je změna procesů a lidí. Podniky by se tedy měly na to zaměřit na prvním místě. Pokud uděláte tyto dvě věci, vyřeší to většinu problémů,“ dodává Bittman. Gordon Haff, viceprezident pro cloudovou strategii v Red Hatu, s tím souhlasí. „Všiml jsem si, že velké množství neúspěchu u projektů big dat je způsobené tím, že si firmy nestanoví jasný cíl a konkrétní cestu k němu.“ „Mnoho organizací zahájí tyto projekty hlavně proto, že je to něco, o čem si myslí, že by to měly Neidentifikování obchodních či podnikových potřeb je jednou z příčin neúspěchu při nasazování technologií big dat. Existují ale i další důvody. Patří mezi ně neefektivní koordinace mezi obchodními a technologickými aspekty, roztroušená separovaná úložiště dat, neefektivní koordinace analytických iniciativ, absence jasného obchodního případu pro financování nasazení big dat či závislost na zastaralých systémech při zpracování a analýze údajů, vysvětluje Jeff Hunter, manažer informací ve společnosti CapGemini. Uvádí, že často vidí klienty, kteří chtějí používat big data určitým způsobem, ale nejlepší by bylo tuto technologii použít k odstranění separace dat. „Potřebují technologie big dat pro novou generaci analytiky, aby podpořily své obchodní paradigma? Odpověď může být ne, ale existuje zde ještě otázka, zda by ji šlo využít pro účely business intelligence a rozhodování,“ připomíná Hunter. Capgemini takovým klientům radí, aby pozměnili své priority a namísto použití technologie big dat pro vytvoření velkých datových sad šli raději jiným směrem – použili ji k vyřešení problémů s existujícími daty ze systémů ERP, CRM a dalších tradičních zdrojů dat, které jsou umístěné v jejich vlastních oddělených úložištích, a v důsledku toho se uchovávají separovaným způsobem. „Podnik může mít 50 instancí dat o zákaznících po celém světě v různých formátech v rozličných aplikacích. V některých případech, když tuto záležitost řešíte jako první, zvyšuje to smysluplnost a atraktivitu celé diskuze,“ upozorňuje Hunter. Potom zde také existuje nedostatek dovedností, který již je dobře zdokumentovaný. Pokud členové vašeho týmu, který má na starost projekt CO M P U T E RWO R L D 6 –7 | 2015 CW6-bigdata.indd IV 19.06.15 14:02 BIG DATA big dat, nemají dovednosti potřebné k uskutečnění projektu, můžete se vsadit, že to povede k neúspěchu. „Technologie big dat se od většiny datových platforem, na které jsou lidé při své práci zvyklí, velmi liší,“ upozorňuje Yaniv Mor, výkonný ředitel firmy Xplenty, která nabízí big data pro firmy v podobě služby SaaS. „SQL není v technologii big data základem, ale SQL umí každý. U big dat také existuje velká závislost na open source řešeních, což je něco zcela nového pro personál zvyklý jen na technologie od Microsoftu. Potřebujete tedy najmout nové lidi, kteří jsou ale drazí a je těžké je najít, nebo budete muset vyškolit své vlastní zaměstnance,“ upozorňuje Mor. To vede k dalšímu problému. Podniky často považují big data za rozšíření existujících technologií. Ale například cloudový projekt nemůže být jednoduše rozšířením vaší současné virtualizační infrastruktury. I když cloudy často využívají virtualizaci, vyžadují nové přístupy a nové technologie. Podniková virtualizace a nativní infrastruktura cloudu jsou optimalizované pro odlišné pracovní zátěže, které nabízejí dostupnost prostřednictvím softwaru, jenž lze škálovat a je v podstatě založený na dynamičtější a volně vázané distribuované architektuře. To je odlišné od tradiční IT infrastruktury, kde se používá přístup „nasadit a nesahat“. Společnosti také nemění své procesy a provozní modely při přechodu ke cloudu, což dokresluje výše uvedený problém. Osmdesát až devadesát procent z toho, co je nasazené na platformě AWS, není nový čistý obsah, uvádí Bittman. Jsou to horizontálně škálovatelné zátěže s krátkou životností. „Průměrná délka života virtuálních strojů ve vlastním datovém centru je několik let. V dobách fyzického nasazení to bylo i deset let. Virtuální stroje na Amazonu ale mají dobu života jen v řádu dnů nebo týdnů,“ dodává Bittman. Problém podle něj je, že mnoho firem si na AWS zapne virtuální stroj a zapomene ho vypnout poté, co už není potřeba. Končí to fakturami za nečinné cykly. Odhaduje, že 30 až 50 % nákladů za využití virtuálních strojů ve veřejném cloudu jsou vyhozené investice, protože lidé zapomenou vypnout virtuální stroje po dokončení své práce. Co tedy dělat? Co tedy mohou společnosti dělat, aby se snížilo riziko neúspěchu? Existuje celá řada kroků, které lze udělat, a nebude vás to stát moc, pokud nějaké náklady vůbec vzniknou. „Na prvním místě se ptejte, zda vůbec potřebujete big data,“ radí Mor. „S touto technologií je spojený velký humbuk. Nemyslím si ale, že by lidé až tak dobře chápali, co jim v současné době mohou big data přinést, takže nevědí, jak definovat met- riky. Často nevědí, co by měli požadovat jako výsledný přínos.“ Dalším krokem je mít lídra, který dokáže vytvořit a řídit vizi pro projekt, doporučuje Hunter. „Je to vize, která je mnohem důležitější než vedení. Může pocházet z jakékoliv úrovně. Pokud existuje taková, která jasně popisuje důvod, proč chceme využívat big data a jak budeme postupovat vpřed, přináší to úspěch – pokud to ale prostupuje společností a akceptuje se to,“ radí Mor. Zohledněte dále, že v typických podnicích existují dvě základní podoby aplikací a infrastruktury – tradiční a cloudová. Pokusy zahrnout obě bez pochopení jejich základní odlišnosti způsobí problémy. V této souvislosti si firmy potřebují uvědomit, že pro všechno, co IT zabezpečuje, existuje více než jedno řešení. „Říkáme tomu bimodalita,“ uvádí Bittman. „Zvykli jste si na myšlenku odlišných architektur ve svém datovém centru a jiných u poskytovatelů služeb. Takže spíše než abyste se snažili všechno transformovat do jedné velké architektury, je vhodné myslet na správu heterogenních prostředí a zdrojů.“ Dalším doporučením je začínat s co nejmenším rozsahem. Při zahájení projektu big data se nepokoušejte vyřešit všechny své problémy s daty. „Prostě si zvolte obchodní případ a zajistěte, aby byly datové zdroje omezené jen na několik zdrojů, a definujte přesně to, co chcete od tohoto ■ projektu získat,“ uzavírá Mor. Inzerce CO M P U T E RWO R L D.C Z CW6-bigdata.indd V V 19.06.15 14:02 BIG DATA Konference Big Data World 2015 Začátkem června tohoto roku se v Praze uskutečnil již druhý ročník odborné konference Big Data World, jejímž pořadatelem je vydavatelství IDG Czech Republic. J ejí návštěvníci – sešlo se jich letos úctyhodných 115 – si na ní připomněli nejnovější trendy, které panují v oblasti big dat, a seznámili se se zajímavými případovými studiemi, jejichž společným motem bylo právě využití technologií big dat. Zajímavé prezentace pronesli přednášející i na téma bezpečnosti a ochrany citlivých i soukromých dat, které se právě v úložištích pro big data velmi často vyskytují. Důležité poznatky mohli posluchači získat i o datové infrastruktuře a příslušných nástrojích, o škálovatelnosti a provozní efektivitě big dat, o datové vědě i vědcích a podobně. O vysokou odbornou úroveň konference se postarali zástupci firem opravdu zvučných jmen – zlatými partnery byly Dell Software a Teradata, stříbrnými pak Intel, SAP, SAS Institute a Trask. Partnery byly Accenture a Admez. Konferenci doplnily doprovodné stánky některých fi- rem, mezi kterými nechyběla ani firma Cloud4com. Záštitu nad akcí převzal Český statistický úřad a odborným garantem byly ICT Unie a Inovacentrum ČVUT. ■ 3 1 1 O konferenci byl mezi návštěvníky i přednášejícími velký zájem 2 Konferenci zahájil přednáškou Jan Šedivý z katedry kybernetiky ČVUT FEL 3 Partnery konference byly renomované firmy z oblasti big dat 4 Součástí konference byly i stánky partnerských firem – v tomto případě firmy Dell Software 5 V závěru akce došlo i na hodnotnou tombolu… 2 VI 4 5 CO M P U T E RWO R L D 6 –7 | 2015 CW6-bigdata.indd VI 19.06.15 14:02 BIG DATA Zájem o big data stále roste, ukazuje průzkum IDG Přibližně jedna třetina respondentů hlásí lepší rozhodování, více než čtvrtina pak dokáže situace lépe predikovat. JOHANNA AMBROSIOVÁ S polečnosti se stále usilovněji snaží zvládat pokračující nárůst dat a současně s tím rozvíjejí projekty, které jim mohou přinést větší hodnotu z údajů, které už mají. Pro mnoho z nich je ale výzvou i samotné udržení tempa. Podle nového celosvětového průzkumu IDG Enterprise, kterého se zúčastnilo 1 139 respondentů s rozhodovací pravomocí v oblasti IT, zájem o big data nepřetržitě roste. Více než polovina (53 %) firem v současné době nasazuje či plánuje v příštím roce nasadit projekty řízené daty, což je 6% nárůst od roku 2014, a dalších 8 % o tom uvažuje. Zdravotnictví předstihuje všechna průmyslová odvětví, pokud jde o nasazování, plánování či zvažování daty řízených projektů během příštího roku. Platí: Čím větší firma, tím vyšší je pravděpodobnost, že bude mít takový projekt ve fázi plánování nebo nasazování, a tím více chce za celý proces utratit. Současně s tím rychle roste objem spravovaných dat. Počet společností, které pracují s 1 až 9 TB dat, klesl o 7 %, a naopak množství organizací, které překročily bariéru jednoho petabajtu, se zvýšil o 4 %. Mnoho společností sklízí plody ze svých investic do technologie big data – 29 % díky nim hlásí zlepšení kvality rozhodování a 28 % uvádí lepší plánování a prognózování. Mezi další výhody podle odpovědí respondentů patří: ■ Vývoj nových produktů, služeb a zdrojů tržeb ■ Snadnější získávání a udržení zákazníků Proč se marketéři spoléhají na prediktivní analýzy? Pomozte marketingovému manažerovi zajistit nějaký prodej – a udržíte jeho firmu nad vodou jeden den. Pokud ho ale naučíte předpovídat budoucí prodeje, možná se vám povedlo zajistit jeho firmě dlouhou životaschopnost. K AT H E R I NE NOY E S OV Á T o je v podstatě předpoklad stojící za prediktivním marketingem, konceptem, který stále častěji vládne v dnešních podnicích. Prediktivní marketing se přidává k trendu analýz, který prolíná celým světem podniků, a pro big data využívá algoritmy a strojové učení s cílem pomoci příslušným pracovníkům směřovat jejich snahy těmi nejziskovějšími směry. Nástroje prediktivní analýzy mohou marketérům například pomoci předem odhadnout, co konkrétní zákazník koupí a stejně tak kdy a kolik. S využitím takových informací mohou společnosti odpovídajícím způsobem přizpůsobit své kampaně. Jako zářný příklad lze uvést společnost Amazon: Doporučovací stroj na webu této firmy vy- volává podle informací jejích představitelů zhruba 30 procent tržeb. „Prediktivní analytika může pomoci marketérům s celým životním cyklem zákazníka,“ prohlašuje Fern Halperová, ředitelka pokročilé analytiky ve společnosti TDWI Research. „Prediktivní analytika například pomáhá při segmentaci zákazníků, zjišťování modelů jejich chování, při propagaci nabídek, na které by mohli pravděpodobně zareagovat, a také v předvídání, jací klienti pravděpodobně odejdou,“ vysvětluje Halperová. Marketing a prodej ve skutečnosti patří mezi nejdůležitější oblasti, kde organizace začínají při nasazení prediktivní analytiky, protože stále snadněji použitelné nástroje zajišťují lepší dostupnost takových schopností i pro ■ Výrazně lepší dodržování regulačních předpisů, zejména v oblasti zdravotnictví, státní správy, finančních služeb a vzdělávání Problémy Rozpočtová omezení, největší potíž posledních dvou let, se nyní dostává na druhé místo, a to za aktuálně klíčový problém, jímž je nedostatek dovedností. Navzdory IT rozpočtům, které stagnují nebo dokonce rostou, 15 % respondentů neplánuje v příštím roce až roce a půl nábor zaměstnanců specializovaných na big data a dalších 17 % ještě o takovém kroku není rozhodnuto. Bezpečnost je dalším problematickým místem. Dvě třetiny respondentů uvádějí, že jejich současné produkty a zásady zajišťují adekvátní zabezpečení dat, ale 18 % je přesvědčeno, že nikoliv. Dalších 16 % pak uvedlo, že si v tomto směru nejsou jistí. Další problematickou oblastí je kvalita existujících řešení – 40 % ohodnotilo dostupné produkty a služby jako vynikající nebo dobré, avšak 44 % je označilo jako jen přijatelné či nedostatečné. ■ Celou studii IDG Big Data and Analytics Survey 2015 můžete najít na přiloženém QR-odkazu uživatele, kteří nejsou v této oblasti tak odborně zdatní. Růst této technologie podněcuje v současnosti také obrovská záplava různých dat. „Existuje tolik údajů a tak mnoho kanálů, které dodavatelé analytických nástrojů potřebují využívat, aby mohly marketérům v reálném čase pomoci interpretovat a pochopit (a do určité míry optimalizovat) své kampaně,“ tvrdí Greg Sterling, viceprezident pro strategii v organizaci Local Search Association. „Nástroje, které nabízejí způsoby, jak pochopit veškerá data, jsou stále důležitější.“ Stejně jako každou jinou technologii je však i nástroje prediktivní analýzy nutné používat s rozvahou. „Prediktivní analýzy mohou být důležité, jestliže se dělají dobře, ale ono ‚jestliže‘ je v tomto případně zcela zásadní,“ upozorňuje Denis Pombriant, generální ředitel firmy Beagle Research Group. Analýzy je podle něj možné použít pro dva účely: K identifikaci vzájemných souvislostí a k nalezení kauzality. „Potřebujeme oboje, ale dodavatelé věnují hodně pozornosti korelaci a málo pozornosti kauzalitě,“ vysvětluje Pombriant. Pokud například marketér zjistí, že zákazníci často kupují produkt A současně při nákupu produktu B, je důležité pochopit proč – co je příčinou způsobující takové chování, aby šlo předvídat nákupní chování konkrétního jednotlivce. ■ CO M P U T E RWO R L D.C Z CW6-bigdata.indd VII VII 19.06.15 14:02 BIG DATA Vytvoření plánů pro big data Ze zavádění big dat mohou společnosti vytěžit co nejvíce, pokud si předem stanoví jasný akční plán. Tady jsou rady, jak na to. SHAH I DA SWE E N E YOV Á P řinášíme podrobné rady, jak zvládnout strategii pro big data. Tento návod objasňuje koncepty a terminologii a může pomoci zlepšit připravenost realizačního týmu. 1 Vyhněte se žargonu Nehledě na žargon, koncepty kolem big dat se neustále vyvíjejí. Začněte vyjasněním si rozdílů mezi správou big dat a administrací konvenčních údajů. Vysvětlete koncepty klíčovým zainteresovaným stranám a vypilujte spravovatelné části. Nebezpečí spočívá v tom, že by se koncepty mohly ztratit v překladu. Tradiční data jsou čistá – mezery jsou zaplněné a extrémy odstraněné. Hypotézu lze testovat společně s důkazy. Tyto důkazy i údaje se shromažďují a ukládají v tradičních podnikových datových skladech. Big data jsou naopak méně čistá a obsahují strukturované, částečně strukturované i nestrukturované údaje. Pocházejí z mnoha různých zdrojů včetně mobilních zařízení, internetového provozu, streamování, komunikace mezi počítači, senzorů a sledovacích systémů GPS. V tomto dynamickém a nepředvídatelném prostoru se dnešní big data mohou lehce stát zítřejšími zastaralými údaji. V oblasti lidské komunikace a interakce nic nezůstává neměnné. Jako cestovatelé začínejte na cestě s názvem big data v malém. Složitosti ponechte vědcům specializovaným na big data. Ptejte se sami sebe, jaká by měla být právě vaše strategie. Odpovídá tato strategie vašemu podnikání, dodávkám služeb a provozním potřebám? Jaké technologie, standardy a postupy doplní to, co už máte? KROK KROK 2 Vyhněte se více podobám téhož Nebezpečí spočívá v pouhém přejmenování vašeho dosavadního plánu pro správu podnikových informací na strategii pro big data. Abyste mohli se ziskem analyzovat, sdílet a využívat méně strukturované informace, vyjasněte si nejprve své datové množiny s vysokou hodnotou. Tyto soubory dat jsou otevřené, snadno dostupné a mohou být svobodně použité, opětovně využité či komukoli distribuované. Kromě sémantiky posuďte, jak analýza big dat alokuje služby tam, kde je to třeba, zprůhledňuje zásady či vylepšuje podnikové procesy a řízení. Vyhněte se vytváření databázových dotazů pro big data. To za vás může udělat nepřeberné množství komerčně dostupných analytických VIII nástrojů. Tento výlet se spíše týká průzkumu, objížděk, méně stabilních vztahů a přizpůsobení se měnící se krajině. KROK 3 KROK 4 Podívejte se zpět Přezkoumejte své dostupné informační zdroje – kdo vlastní kterou část skládačky? Do hry vstoupí strategické plánování, které je už poněkud nadužívaným pojmem. Podrobněji se přezkoumávají dostupné zdroje dat, potenciál těchto dat, náklady a překážky přístupu. Tato strategie také zahrnuje vědecký, ekonomický a sociální výzkum. Na provozní úrovni je analytika užitečná pro segmentaci zákazníků či klientů, průzkum trhu, řízení kampaní či sledování domácích nebo globálních ekonomických trendů. Odhalování podvodů a řízení rizik nabízí zatím nevyužitý potenciál. Pokud jste v přední linii a děláte rychlá, velkoobjemová či časově citlivá rozhodnutí, budou se vám big data velmi hodit. Širší sada zdrojů nabízí hlubší vhled do podnikových či obchodních problémů. To je důležité, když je údajů reaktivně málo nebo nejsou snadno dostupné. Konkrétněji řečeno: Potřebujete předvídat události s vyšší přesností nebo najít spojnice mezi občasnými, ale těsně provázanými vztahy. Ke svým datům můžete přistupovat jako ke strategickému prostředku. Bude také dobré věnovat čas přezkoumání dopadů na soukromí a zabezpečení. Problém spočívá ve vyvážení přístupu k otevřeným datům a odpovědné výměně informací. 5 Proč záleží na soukromí Regulační předpisy jsou v oblasti ochrany osobních údajů a zabezpečení velmi přísné, zejména pokud se výměna těchto údajů stává všudypřítomnou, komerčně atraktivní a má globální dosah. Dříve, než vytvoříte obrovské jezero dat nebo velké objektové úložiště, uvědomte si, že je nezbytné vytvořit funkce pro odstranění identifikovatelnosti. Osobní identifikátory lze například eliminovat smazáním základních údajů podle pravidel, která stanoví tzv. bezpečný přístav (safe harbour). Nebo můžete zkusit maskování, agregaci apod. Další možností je využít oddělení personálu, který s těmito daty pracuje, a povinností, jež má. KROK Odkud to pochází? Při kvapné implementaci strategie big dat nebezpečí spočívá ve ztrátě ohledu na přesnost a důvěryhodnost. Ve vládním sektoru, ve zdravotnictví či ve vzdělávacím sektoru se dostává do popředí potřeba odpovědnosti. Problém leží v detailu – například schopnost identifikovat a ověřit různé zdroje dat. Cílem je zajistit inteligentní a informované využití dat. Přestože kontrola všech vašich datových aktiv může být nereálná, pomůže identifikovat vysoce cenné datové zdroje a „korunovační klenoty“. Pravidelná aktualizace seznamu těchto zdrojů je určitě pozitivem. Big data podléhají stejně jako ostatní data vládním přepisům, regulacím a zákonům. Platí to o to více, když dochází k výměně dat o zákaznících nebo k jejich sdílení v komerčním prostředí. Udělejte si čas na uvážení způsobů správy těchto dat a případného využití jasně definovaných auditů. Bezpečnostní opatření pro osobní údaje je nutné podrobněji přezkoumat v místě sběru dat. To zahrnuje on-line, mobilní a další senzory. Zatímco prohlášení o dopadech na soukromí lahodí oku, následky se promítají v oblasti nákladů, a to včetně případných nečekaných pokut. Mezi nápravná opatření si zařaďte sledování toku informací v rámci celého svého projektu. Analyzujte a posuzujte dopad na lidi, služby a provoz. V ideálním případě začíná toto hodnocení již ve fázi plánování a nedomýšlí se až později. Buďte spíše aktivní, než abyste jen reagovali na vzniklé problémy. Používejte ochranu soukromí a osobních údajů jako výchozí vlastnost a zajistěte, aby tato magická slova byla už součástí designu. A možná ještě důležitější je investovat do komplexního zabezpečení namísto zá■ platování děr současných řešení. CO M P U T E RWO R L D 6 –7 | 2015 CW6-bigdata.indd VIII 19.06.15 14:02