Data mining - Saferinternet.cz
Transkript
Data mining - Saferinternet.cz
Data-mining, sociální sítě a zpravodajství Marek Babulík; Martin Stodůlka V samotném úvodu této práce bychom rádi specifikovali naši výzkumnou činnost. Jsme studenti Policejní akademie České republiky v Praze, a mimo jiné nás velice zaujala možnost být součástí mezinárodního studentského spolku AFCEA, jež se zaměřuje především na oblast kybernetické bezpečnosti. Přestože oba studujeme rozdílné studijní programy, dokázali jsme i tak nalézt společnou průsečnici našich oborů, kdy každý z nás přináší odlišný diskurz na zkoumanou problematiku. Z rozdílného akademického zaměření dochází k diverzifikaci názorů, které však vedou ke konkrétnějšímu a potenciálně progresivnějšímu výsledku. V této spolupráci oba spatřujeme obrovský potenciál v rámci společné koordinace činností obou fakult, což by mohlo vést k dalšímu rozvoji vědecké činnosti na naší Alma mater. V současné době se zabýváme výzkumem v oblasti Data-miningu, jakožto metody získávání volně dostupných informací zpravodajskými službami. Současně s tím se snažíme upozornit na množství informací, které za sebou uživatelé zanechávají v podobě své internetové stopy. Moto: Okhrana, carský předchůdce GPU, údajně vynalezl systém evidence, ve kterém byl každý podezřelý zaznamenán na velké kartě, v jejíž středu bylo jeho jméno označeno červeným kruhem; jeho političtí přátelé byli označeni menšími červenými kruhy a jeho nepolitické známosti se označily kruhy zelenými; hnědé kruhy značily osoby, které jsou v kontaktu s přáteli podezřelého, ale ne přímo se samotným podezřelým; křížové vztahy mezi přáteli podezřelého - politickými a nepolitickými, a přáteli jeho přátel, byly zaznačeny linií mezi příslušnými kruhy. Je zřejmé, že omezení této metody jsou stanovena pouze velikostí těchto jednotlivých karet, avšak teoreticky by jeden gigantický list mohl ukázat jednotlivé vztahy v celé populaci. A to je utopický cíl totalitní tajné policie. Volný překlad: Arendt, Hanna, Origins of Totalitarianism. Doba, ve které žijeme, je charakteristická svým značným technologickým pokrokem a urychlováním všech možných činností, jež člověk ve svém osobním i profesním životě vykonává. Jedním ze základních požadavků na moderního člověka je právě rychlost. Doprava, výroba, komunikace – toto je pouze pár základních oblastí, které trend urychlování naplno zasáhl. V souvislosti s komunikací rychlost předávání/získávání informací do značné míry ovlivnily sociální sítě, jež jsou obrovským hitem několika posledních let, a jejichž popularita mezi jednotlivými uživateli vyletěla obrovskou rychlostí do internetových výšin. Velmi snadný způsob komunikace z kteréhokoliv místa na planetě Zemi, kde se vyskytuje internetový signál, je velkým lákadlem pro milióny nových uživatelů. Takto obrovské množství lidí zapojených v projektu sociálních sítí sebou však přináší řadu otázek, z nichž nemalé množství zpochybňuje bezpečnost těchto sítí a nezneužitelnost informací o samotných uživatelích. Každý z nás si musí uvědomit, že ve světě, kde žijeme, jsou informace až na prvním místě. Pod pojmem data-mining, neboli dolování dat, se ukrývá značné množství různorodých definic, a to zejména dle toho, v jakém odvětví se tato metoda použije. Obecná definice tohoto pojmu uvádí, že se jedná o analytickou metodu, která umožňuje nalézt různé druhy informací a specifických dat, jež jsou skryté ve velkých objemech dat soustředěných na jednom místě. Tato definice pokrývá obecné charakteristiky data-miningu. Určuje však tento pojem úplně? Dle našeho společného názoru lze za dolování dat považovat mnohem větší spektrum činností nežli jen řízené vyhledávání pomocí IT technologií. Vezměme si kupříkladu odposlech mobilního zařízení pomocí IMSI catcheru. Zjištěné informace o mobilním telefonu, hovoru, textové zprávě či přesné lokace volajícího jsou přenášeny ve formě dat. Jedná se tedy také o určitou odnož analytické metody data-miningu. Na obdobném principu je postaveno také monitorování osob pomocí průmyslových kamer nebo průzkum potenciálního zákazníka ze strany společností zabývajících se činností v oblasti reklamy a marketingu. Jestliže se pokusíme sami vydefinovat pojem Data-minig, docházíme k následující tezi: „Za Data-mining se dá považovat jakákoliv forma analytické práce, která dokáže výstupní data přeměnit na konkrétní informace odpovídající zájmům zadavatele.“ Open source intelligence: Předvídavost je nástrojem nejjasnějšího vládce, nejmoudřejšího vojevůdce, jímž tito předčí protivníka a vynikají nad ostatní. Předvídavosti se nám ovšem nedostane od bohů a duchů nezískáme ji hloubáním o minulosti, nevyčteme ji z postavení hvězd. Nezískáme ji jinak, než od lidí, kteří vědí, co je v nepříteli. A k tomu je tu pět druhů zvědů. (Sun Tzu – Umění války) Jedná se o zpravodajské informace získané z otevřených zdrojů. Ty jsou dostupné široké veřejnosti. Až 95% informací v oblasti zpravodajství pochází z otevřených zdrojů – těmi mohou být: média (TV, rádio, noviny apod.), internet (sociální sítě, blogy, folksonomie, videoservery apod.), různé formy rejstříků, reportů, literatury (včetně šedé). Výčet OSINT zdrojů rozhodně není uzavřený. S obrovským arzenálem možností se však pojí jedno hlavní negativum. Tím je potenciální přehlcení informacemi, které může vést například k přehlédnutí signifikantní zpravodajské informace. V našem případě jsme se zaměřili na dolování dat ze sociálních sítí. Ty zažily v poslední dekádě obrovský boom. Z mini sítí fungujících pro uzavřenou skupinu lidí postupně vznikli giganti ovlivňující každodenní život nezanedbatelné části populace. S rychlým nárůstem popularity přicházejí také vedlejší negativní jevy, převážné v oblasti ochrany osobních údajů. Bohužel na tak rapidní rozvoj nestihla společnost zareagovat osvětou, jakým způsobem se na sítích chovat. Shrnuto do jednoduché myšlenky – na ulici osobní data nesdělíme, kdežto on-line poskytujeme citlivé a mnohdy mnohem osobnější data i bez žádání. Malé děti pochopily, že od cizince se neberou sladkosti. Teď je na řadě, aby nejen mladí pochopili, že USB flash disk nalezený na ulici do počítače nepatří. Open source intelligence jsou hodně využívány také v soukromém sektoru. Existuje celá řada programů (např. Maltego), které jsou určeny jak pro vlastní potřebu, tak i pro korporace, většinou pak firmy působící v oblasti „konkurenčního zpravodajství“ (Competitive Intelligence). Sociální sítě: Jako výborný nástroj, sloužící k poskytování informací, se v posledních letech ukázaly být sociální sítě. Vidina tak snadno zjistitelných informací o milionech uživatelů po celém světě byla pouze pár let zpátky považována za nereálnou, v lepším případě za vysoce nepravděpodobnou. Ovšem s tím, jak se vyvíjí technologie, se vyvíjí i společnost a její smýšlení. S možností sdílení informací v globálním měřítku začali mít lidé potřebu „jít s dobou“ a užívat globální sociální sítě (Facebook, Twitter, Myspace, Instagram, Flickr). Obrovský společenský boom, uživatelské možnosti a určitý prvek mainstreamové přitažlivosti za krátký čas oslovili velké množství nových uživatelů. Přidávání videí, fotek, nových přátel, navštívených míst. Vyplňování osobních informací o bydlišti, telefonním čísle, rodinných příslušnících. Psaní statusů o tom, co právě dělám, co si myslím nebo kde se právě nacházím. Zveřejňování oblíbených knih, filmů, muziky. Označování nepřeberně dlouhého seznamu stránek tlačítkem „To se mi líbí“. Uživatel byl samotnou sociální sítí a jejími nabídkami na zodpovězení různorodých dotazů dotlačen k tomu, aby zveřejnil informace, jež by za normálních okolností cizí osobě na ulici v žádném případě nesdělil. Nemluvě o tom, že zde po dlouhou dobu probíhal jakýsi souboj mezi jednotlivými uživateli, kdo bude mít například víc přátel, kdo bude mít víc zveřejněné oblíbené muziky a kdo bude psát více a více statusů každý den. Zlatý důl pro jakoukoliv zpravodajskou organizaci byl na světě. Jestli byl před tím někdo výstřední, protože měl profil někde na webu a sdílel své osobní informace volně s ostatními návštěvníky, pak teď nastala přesně opačná situace. Pojem normalita dostal z hlediska sociálních sítí nový význam. Profil na nějaké sociální síti má více než 3 miliardy lidí s tím, že určité množství nepoužívá pouze jednu. V souvislosti s tímto obrovským počtem uživatelů, jenž na sebe každý den prozradí velmi citlivé informace, vyvstává otázka bezpečnosti těchto sítí a jejich zneužitelnosti. Jak již bylo řečeno, sociální sítě tvoří důležitý zdroj pro zisk osobních informací. Uživatelé prozrazují velké množství informací, které mohou být snadno zneužity. Typickým nešvarem je oznamování o cestě na dovolenou, kdy ve své podstatě lidé oznamují, kdy bude jejich bydliště neosídleno. Zpravodajské služby bezesporu využívají sociální sítě k zisku osobních údajů nebo k prostému prověření osob. I pro civilisty je na internetu dostupná řada nástrojů, která pomáhá sesbírat důležitá data o konkrétní osobě a dokáže vytvořit formu vztahového diagramu. Zmínil bych například dostupnou webovou stránku, která z nahrané fotografie poskytne technické údaje o obrázku, včetně typu kamery, data a místa pořízení, někdy včetně přesné GPS polohy. Našim cílem je ale naopak možnost zkreslených údajů. K výsledkům jsme došli jednoduchým průzkumem. Navzájem jsme si vytvořili profil osobnosti z informací poskytnutých na sociální síti Facebook. Přestože oba nejsme zrovna sdílní uživatelé, dokázali jsme vytěžit poměrně důležité informace o osobním i profesním životě. Teď se však dostáváme k tomu, jakým způsobem jsou informace zkreslené. Největší množství příspěvků shodně objevujeme v období, kdy došlo k založení účtu. Jak bylo předesláno v předchozím textu, jedná se o důsledek práce s novým fenoménem, možným zařazením do chtěné skupiny, snaha o sdílení detailů našeho sociálního života. Po roce užívání nacházíme menší podíl sdílených informací a mizí statusy popisující „víkendové povyražení“. Po nástupu na vysokou školu dochází téměř zcela k omezení psaných statusů a postupnému snižování aktivity na síti. Každopádně rozhodli jsme se vytvořit potenciální profil osobnosti, jak by nás vnímal např. personalista při výběrovém řízení. Přestože došlo k postupné neaktivitě, stará data zůstala dostupná. Proto zcela jistě můžeme říct podrobnosti o ukončení středoškolského vzdělání, nástupu na vysokou školu, tam však další podrobnosti nenajdeme. Stejně tak osobní zájmy středoškolské období bylo na sdílení opět bohaté, naše hodnoty se však změnily. Z aktuálnějšího období lze pochopit pouze zálibu v cestování, a to díky sdílení fotek. I to se však přesunulo na jiné sociální sítě. Když jsme shrnuli sdílené poznatky, došli jsme s trochou nadsázky k závěru, že jsme pravděpodobně věční studenti vysoké školy, kteří žijí hlavně pátečními večery a cestováním. To se v mnohém od reality odlišuje. Poučení pak přichází pro obě strany. Ti, kdo se spoléhají na data uveřejněná na Facebooku, musí počítat s mírou zkreslení, změnou strategie práce na sítí, neochotou sdělovat signifikantní události apod. Naopak uživatelé by měli zhodnotit a upravit svou „Facebookovou stopu“, aby nedošlo ke špatnému porozumění ze strany třetích osob. Závěr: Z našeho úhlu pohledu vnímáme potenciál data mining jako výbornou metodu, které k dokonalosti chybí kooperace s doplňujícími metodami, jež by vytěžená data pomáhaly verifikovat. Respektive data mining by mohl být nasazen ke zpětné podpoře informací. V oblasti zisku zpravodajských dat z otevřených zdrojů hrozí přesycenost informacemi, jež mohou mít za následek snížení efektivity práce, také však možné přehlédnutí důležité vazby, pomocí níž by se mohla zpravodajská služba dostat k významnému závěru. Pracují-li analytici se sociálními sítěmi, musí brát v úvahu zkreslenost údajů, které mohou být spojeny s uživatelovou on-line aktivitou. Osoby mají tendenci tvořit svůj vlastní virtuální život, jenž často neodpovídá realitě. Proto musíme na údaje získané ze sociální sítě nahlížet s vysokou mírou opatrnosti. Rádi bychom se do budoucna věnovali právě oblastí sociálních sítí, kdy vnímáme potřebu osvěty uživatelů v oblasti ochrany osobních údajů. Na to navážeme také výzkumem v oblasti zkreslení osobních údajů na internetu, což může být prospěšné jak pro lidi ve státním, tak i soukromém sektoru. Martin Stodůlka je studentem Fakulty bezpečnostního managementu, oboru "Bezpečnostní management ve veřejné správě" a Marek Babulík je studentem Fakulty bezpečnostně právní, oboru "Strategická studia“. Kontakty: [email protected], [email protected]