Data mining - Saferinternet.cz

Transkript

Data mining - Saferinternet.cz
Data-mining, sociální sítě a zpravodajství
Marek Babulík; Martin Stodůlka
V samotném úvodu této práce bychom rádi specifikovali naši výzkumnou činnost. Jsme
studenti Policejní akademie České republiky v Praze, a mimo jiné nás velice zaujala možnost
být součástí mezinárodního studentského spolku AFCEA, jež se zaměřuje především na
oblast kybernetické bezpečnosti. Přestože oba studujeme rozdílné studijní programy,
dokázali jsme i tak nalézt společnou průsečnici našich oborů, kdy každý z nás přináší odlišný
diskurz na zkoumanou problematiku. Z rozdílného akademického zaměření dochází k
diverzifikaci názorů, které však vedou ke konkrétnějšímu a potenciálně progresivnějšímu
výsledku. V této spolupráci oba spatřujeme obrovský potenciál v rámci společné koordinace
činností obou fakult, což by mohlo vést k dalšímu rozvoji vědecké činnosti na naší Alma
mater. V současné době se zabýváme výzkumem v oblasti Data-miningu, jakožto metody
získávání volně dostupných informací zpravodajskými službami. Současně s tím se snažíme
upozornit na množství informací, které za sebou uživatelé zanechávají v podobě své
internetové stopy.
Moto: Okhrana, carský předchůdce GPU, údajně vynalezl systém evidence, ve kterém byl
každý podezřelý zaznamenán na velké kartě, v jejíž středu bylo jeho jméno označeno
červeným kruhem; jeho političtí přátelé byli označeni menšími červenými kruhy a jeho
nepolitické známosti se označily kruhy zelenými; hnědé kruhy značily osoby, které jsou v
kontaktu s přáteli podezřelého, ale ne přímo se samotným podezřelým; křížové vztahy mezi
přáteli podezřelého - politickými a nepolitickými, a přáteli jeho přátel, byly zaznačeny linií
mezi příslušnými kruhy. Je zřejmé, že omezení této metody jsou stanovena pouze velikostí
těchto jednotlivých karet, avšak teoreticky by jeden gigantický list mohl ukázat jednotlivé
vztahy v celé populaci. A to je utopický cíl totalitní tajné policie.
Volný překlad: Arendt, Hanna, Origins of Totalitarianism.
Doba, ve které žijeme, je charakteristická svým značným technologickým pokrokem a
urychlováním všech možných činností, jež člověk ve svém osobním i profesním životě
vykonává. Jedním ze základních požadavků na moderního člověka je právě rychlost. Doprava,
výroba, komunikace – toto je pouze pár základních oblastí, které trend urychlování naplno
zasáhl. V souvislosti s komunikací rychlost předávání/získávání informací do značné míry
ovlivnily sociální sítě, jež jsou obrovským hitem několika posledních let, a jejichž popularita
mezi jednotlivými uživateli vyletěla obrovskou rychlostí do internetových výšin. Velmi snadný
způsob komunikace z kteréhokoliv místa na planetě Zemi, kde se vyskytuje internetový
signál, je velkým lákadlem pro milióny nových uživatelů. Takto obrovské množství lidí
zapojených v projektu sociálních sítí sebou však přináší řadu otázek, z nichž nemalé množství
zpochybňuje bezpečnost těchto sítí a nezneužitelnost informací o samotných uživatelích.
Každý z nás si musí uvědomit, že ve světě, kde žijeme, jsou informace až na prvním místě.
Pod pojmem data-mining, neboli dolování dat, se ukrývá značné množství různorodých
definic, a to zejména dle toho, v jakém odvětví se tato metoda použije. Obecná definice
tohoto pojmu uvádí, že se jedná o analytickou metodu, která umožňuje nalézt různé druhy
informací a specifických dat, jež jsou skryté ve velkých objemech dat soustředěných na
jednom místě. Tato definice pokrývá obecné charakteristiky data-miningu. Určuje však tento
pojem úplně? Dle našeho společného názoru lze za dolování dat považovat mnohem větší
spektrum činností nežli jen řízené vyhledávání pomocí IT technologií. Vezměme si kupříkladu
odposlech mobilního zařízení pomocí IMSI catcheru. Zjištěné informace o mobilním telefonu,
hovoru, textové zprávě či přesné lokace volajícího jsou přenášeny ve formě dat. Jedná se
tedy také o určitou odnož analytické metody data-miningu. Na obdobném principu je
postaveno také monitorování osob pomocí průmyslových kamer nebo průzkum
potenciálního zákazníka ze strany společností zabývajících se činností v oblasti reklamy a
marketingu.
Jestliže se pokusíme sami vydefinovat pojem Data-minig, docházíme k následující tezi: „Za
Data-mining se dá považovat jakákoliv forma analytické práce, která dokáže výstupní data
přeměnit na konkrétní informace odpovídající zájmům zadavatele.“
Open source intelligence:
Předvídavost je nástrojem nejjasnějšího vládce, nejmoudřejšího vojevůdce, jímž tito předčí
protivníka a vynikají nad ostatní. Předvídavosti se nám ovšem nedostane od bohů a duchů
nezískáme ji hloubáním o minulosti, nevyčteme ji z postavení hvězd. Nezískáme ji jinak, než
od lidí, kteří vědí, co je v nepříteli. A k tomu je tu pět druhů zvědů. (Sun Tzu – Umění války)
Jedná se o zpravodajské informace získané z otevřených zdrojů. Ty jsou dostupné široké
veřejnosti. Až 95% informací v oblasti zpravodajství pochází z otevřených zdrojů – těmi
mohou být: média (TV, rádio, noviny apod.), internet (sociální sítě, blogy, folksonomie,
videoservery apod.), různé formy rejstříků, reportů, literatury (včetně šedé). Výčet OSINT
zdrojů rozhodně není uzavřený. S obrovským arzenálem možností se však pojí jedno hlavní
negativum. Tím je potenciální přehlcení informacemi, které může vést například
k přehlédnutí signifikantní zpravodajské informace. V našem případě jsme se zaměřili na
dolování dat ze sociálních sítí. Ty zažily v poslední dekádě obrovský boom. Z mini sítí
fungujících pro uzavřenou skupinu lidí postupně vznikli giganti ovlivňující každodenní život
nezanedbatelné části populace. S rychlým nárůstem popularity přicházejí také vedlejší
negativní jevy, převážné v oblasti ochrany osobních údajů. Bohužel na tak rapidní rozvoj
nestihla společnost zareagovat osvětou, jakým způsobem se na sítích chovat. Shrnuto do
jednoduché myšlenky – na ulici osobní data nesdělíme, kdežto on-line poskytujeme citlivé a
mnohdy mnohem osobnější data i bez žádání. Malé děti pochopily, že od cizince se neberou
sladkosti. Teď je na řadě, aby nejen mladí pochopili, že USB flash disk nalezený na ulici do
počítače nepatří. Open source intelligence jsou hodně využívány také v soukromém sektoru.
Existuje celá řada programů (např. Maltego), které jsou určeny jak pro vlastní potřebu, tak i
pro korporace, většinou pak firmy působící v oblasti „konkurenčního zpravodajství“
(Competitive Intelligence).
Sociální sítě:
Jako výborný nástroj, sloužící k poskytování informací, se v posledních letech ukázaly být
sociální sítě. Vidina tak snadno zjistitelných informací o milionech uživatelů po celém světě
byla pouze pár let zpátky považována za nereálnou, v lepším případě za vysoce
nepravděpodobnou. Ovšem s tím, jak se vyvíjí technologie, se vyvíjí i společnost a její
smýšlení. S možností sdílení informací v globálním měřítku začali mít lidé potřebu „jít s
dobou“ a užívat globální sociální sítě (Facebook, Twitter, Myspace, Instagram, Flickr).
Obrovský společenský boom, uživatelské možnosti a určitý prvek mainstreamové přitažlivosti
za krátký čas oslovili velké množství nových uživatelů. Přidávání videí, fotek, nových přátel,
navštívených míst. Vyplňování osobních informací o bydlišti, telefonním čísle, rodinných
příslušnících. Psaní statusů o tom, co právě dělám, co si myslím nebo kde se právě nacházím.
Zveřejňování oblíbených knih, filmů, muziky. Označování nepřeberně dlouhého seznamu
stránek tlačítkem „To se mi líbí“. Uživatel byl samotnou sociální sítí a jejími nabídkami na
zodpovězení různorodých dotazů dotlačen k tomu, aby zveřejnil informace, jež by za
normálních okolností cizí osobě na ulici v žádném případě nesdělil. Nemluvě o tom, že zde po
dlouhou dobu probíhal jakýsi souboj mezi jednotlivými uživateli, kdo bude mít například víc
přátel, kdo bude mít víc zveřejněné oblíbené muziky a kdo bude psát více a více statusů
každý den.
Zlatý důl pro jakoukoliv zpravodajskou organizaci byl na světě. Jestli byl před tím někdo
výstřední, protože měl profil někde na webu a sdílel své osobní informace volně s ostatními
návštěvníky, pak teď nastala přesně opačná situace. Pojem normalita dostal z hlediska
sociálních sítí nový význam. Profil na nějaké sociální síti má více než 3 miliardy lidí s tím, že
určité množství nepoužívá pouze jednu. V souvislosti s tímto obrovským počtem uživatelů,
jenž na sebe každý den prozradí velmi citlivé informace, vyvstává otázka bezpečnosti těchto
sítí a jejich zneužitelnosti.
Jak již bylo řečeno, sociální sítě tvoří důležitý zdroj pro zisk osobních informací. Uživatelé
prozrazují velké množství informací, které mohou být snadno zneužity. Typickým nešvarem
je oznamování o cestě na dovolenou, kdy ve své podstatě lidé oznamují, kdy bude jejich
bydliště neosídleno. Zpravodajské služby bezesporu využívají sociální sítě k zisku osobních
údajů nebo k prostému prověření osob. I pro civilisty je na internetu dostupná řada nástrojů,
která pomáhá sesbírat důležitá data o konkrétní osobě a dokáže vytvořit formu vztahového
diagramu. Zmínil bych například dostupnou webovou stránku, která z nahrané fotografie
poskytne technické údaje o obrázku, včetně typu kamery, data a místa pořízení, někdy
včetně přesné GPS polohy. Našim cílem je ale naopak možnost zkreslených údajů.
K výsledkům jsme došli jednoduchým průzkumem.
Navzájem jsme si vytvořili profil osobnosti z informací poskytnutých na sociální síti Facebook.
Přestože oba nejsme zrovna sdílní uživatelé, dokázali jsme vytěžit poměrně důležité
informace o osobním i profesním životě. Teď se však dostáváme k tomu, jakým způsobem
jsou informace zkreslené. Největší množství příspěvků shodně objevujeme v období, kdy
došlo k založení účtu. Jak bylo předesláno v předchozím textu, jedná se o důsledek práce
s novým fenoménem, možným zařazením do chtěné skupiny, snaha o sdílení detailů našeho
sociálního života. Po roce užívání nacházíme menší podíl sdílených informací a mizí statusy
popisující „víkendové povyražení“. Po nástupu na vysokou školu dochází téměř zcela
k omezení psaných statusů a postupnému snižování aktivity na síti. Každopádně rozhodli
jsme se vytvořit potenciální profil osobnosti, jak by nás vnímal např. personalista při
výběrovém řízení. Přestože došlo k postupné neaktivitě, stará data zůstala dostupná. Proto
zcela jistě můžeme říct podrobnosti o ukončení středoškolského vzdělání, nástupu na
vysokou školu, tam však další podrobnosti nenajdeme. Stejně tak osobní zájmy středoškolské období bylo na sdílení opět bohaté, naše hodnoty se však změnily.
Z aktuálnějšího období lze pochopit pouze zálibu v cestování, a to díky sdílení fotek. I to se
však přesunulo na jiné sociální sítě. Když jsme shrnuli sdílené poznatky, došli jsme s trochou
nadsázky k závěru, že jsme pravděpodobně věční studenti vysoké školy, kteří žijí hlavně
pátečními večery a cestováním. To se v mnohém od reality odlišuje. Poučení pak přichází pro
obě strany. Ti, kdo se spoléhají na data uveřejněná na Facebooku, musí počítat s mírou
zkreslení, změnou strategie práce na sítí, neochotou sdělovat signifikantní události apod.
Naopak uživatelé by měli zhodnotit a upravit svou „Facebookovou stopu“, aby nedošlo ke
špatnému porozumění ze strany třetích osob.
Závěr:
Z našeho úhlu pohledu vnímáme potenciál data mining jako výbornou metodu, které
k dokonalosti chybí kooperace s doplňujícími metodami, jež by vytěžená data pomáhaly
verifikovat. Respektive data mining by mohl být nasazen ke zpětné podpoře informací.
V oblasti zisku zpravodajských dat z otevřených zdrojů hrozí přesycenost informacemi, jež
mohou mít za následek snížení efektivity práce, také však možné přehlédnutí důležité vazby,
pomocí níž by se mohla zpravodajská služba dostat k významnému závěru. Pracují-li analytici
se sociálními sítěmi, musí brát v úvahu zkreslenost údajů, které mohou být spojeny
s uživatelovou on-line aktivitou. Osoby mají tendenci tvořit svůj vlastní virtuální život, jenž
často neodpovídá realitě. Proto musíme na údaje získané ze sociální sítě nahlížet s vysokou
mírou opatrnosti.
Rádi bychom se do budoucna věnovali právě oblastí sociálních sítí, kdy vnímáme potřebu
osvěty uživatelů v oblasti ochrany osobních údajů. Na to navážeme také výzkumem v oblasti
zkreslení osobních údajů na internetu, což může být prospěšné jak pro lidi ve státním, tak i
soukromém sektoru.
Martin Stodůlka je studentem Fakulty bezpečnostního managementu, oboru "Bezpečnostní
management ve veřejné správě" a Marek Babulík je studentem Fakulty bezpečnostně
právní, oboru "Strategická studia“.
Kontakty: [email protected], [email protected]