DATA MINING - MOŽNOSTI A ZPŮSOBY JEHO VYUŽITÍ

Transkript

DATA MINING - MOŽNOSTI A ZPŮSOBY JEHO VYUŽITÍ
DATA MINING - MOŽNOSTI A ZPŮSOBY JEHO VYUŽITÍ
MartaŽambochová
Abstrakt:
Současný svět je charakterizovaný explozí velkého objemu dat sbíraných a ukládaných do
databází. Sílící konkurence v současné době přispívá k vývoji nových postupů ve vyhodnocování dat.
Vyhledáváním skrytých informací a závislostí v datech se zabývá nová technologie – data mining.
V českých firmách se bohužel o tomto oboru zatím ví málo a data mining je málo využívaný. Převládá
přesvědčení, že produkty z této oblasti jsou použitelné jen pro finančně silné společnosti, případně
pro vědecké účely na akademické půdě. Dolování dat je však dnes k dispozici prakticky pro každou
společnost, která si uvědomuje, že v datech může být uschováno pro ni značné množství důležitých
informací.
Klíčová slova:
podpora rozhodování, dolování dat, datové sklady, statistické metody, vizualizace
1. Úvod do problematiky
V posledních letech s růstem náročnosti konkurenčního prostředí rostou i požadavky na rychlost a
přesnost rozhodování manažerů firem. Postupem času se upouští od předem definovaných
papírových měsíčních sestav, tabulek a grafů. Stále se zvyšuje potřeba informací co nejvíce
aktuálních a rychle dostupných (v řádu dnů, hodin, někdy i minut).
Rozvoj informačních technologií již pokročil natolik, že téměř každá firma provozuje vlastní
informační systém. V rámci provozních informačních systémů se pořizují, uchovávají a spravují data
z různých částí firemní struktury (evidence zákazníků, účetnictví, skladové záznamy zboží, firemní
kontakty, …). Provozní systémy uchovávají aktuální data (za období řádově posledního roku)
nejčastěji ve formě relačních databází. Starší data se převádí z kapacitních důvodů do archivů. Tím se
ale ztěžuje přístup k těmto datům.
S přibývajícími léty provozování takovéhoto systému narůstá množství dat ukrytých v archivech,
která se už dále nevyužívají. Přesto tato data často schovávají důležité a pro rozhodování využitelné
informace a vztahy.
2. Datové sklady
Jedním z možných způsobů, jak zpřístupnit a zhodnotit starší data je vytvoření datového skladu.
Cílem vybudování datového skladu je vytvořit jednotnou, homogenní, konzistentní a komplexní
datovou základnu, která umožňuje efektivní analýzu a dotazování potřebné k manažerskému
rozhodování.
Základ datového skladu tvoří pokud možno úplná a předzpracovaná data. Hlavním zdrojem dat
jsou primární provozní informační systémy podniků. Pomocí speciálních programových prostředků
(datových pump) jsou data z mnoha různých provozních informačních systémů vyčištěna, doplněna a
slita do vlastního datového skladu. Výsledkem by měla být „komplexní data uložená ve struktuře, která
umožňuje efektivní analýzu a dotazování“.
Tato činnost se děje obvykle v pravidelných časových intervalech (např. jednou za týden, měsíc,
…). V době, kdy probíhá přidávání, úprava či odstraňování informací datového skladu je znemožněno
zpracování požadavků uživatelů datového skladu z důvodu možné nekonzistence obsahu datového
skladu.
Mimo pravidelnou aktualizaci je datový sklad určen výhradně pro čtení dat, obsah datového skladu
nelze žádným způsobem modifikovat.
K uloženým informacím se můžeme dostat různými druhy analytických systémů.
Můžeme zmínit tři základní typy:
 Nástroje pro dotazy a tvorbu výstupních sestav
 OLAP
 Data mining
3. SQL
Do první skupiny patří dotazovací jazyky SQL („Structured Query Language“), pomocí nichž se
vytváří jednak přímé dotazy, jednak skripty či uložené procedury na vytvoření sestav a výkazů.
4. OLAP
OLAP („On-Line Analytical Processing“) systémy nám umožňují rychlejší, pružnější a elegantnější
vytváření ad-hoc dotazů. Toto je umožněno díky určitému předzpracování dat, která si pak můžeme
prohlížet z různých úhlů pohledu.
Využívá se například různých sumarizací, sekundárních (vypočítaných) údajů, ... Na rozdíl od
běžných obecných zásad pro práci s databázemi (tzv. normálních forem) se zde také povolují určité
redundance (několikanásobně uložené údaje) pomocí níž dosáhneme rychlejších odezev na dotazy.
Na druhou stranu všechny tyto, určitým způsobem, pomocné údaje dávají vyšší nároky na hlídání
konzistence celé databáze.
5. Data mining
Posledním z výše uvedených způsobů, jak se dostat k uloženým datům, je Data mining. Českých
ekvivalentů tohoto označení bývá používáno několik, například dolování dat, bagrování dat,
vytěžování dat, …
Data mining je relativně nový obor na rozhraní statistiky a informatiky využívající výhod obou
odvětví. Data mining za pomoci mnoha teoretických poznatků z oblasti matematické statistiky,
informatiky, umělé inteligence a neuronových sítí dává nové nástroje na podporu manažerských
rozhodování.
Na rozdíl od předchozích dvou způsobů se liší v přístupu k datům, v pohledu na data.
V obou z prvních způsobů převažují otázky typu:
 Kolik zákazníků sepsalo smlouvu v daném období.
 Se kterým ze zákazníků máme nejčilejší obchody.
 Který z výrobků se ve sledovaném okolí nejvíce prodával.
 Ve které lokalitě se daný výrobek ve sledovaném období nejvíce prodával.
 …
V data miningu se oproti tomu zabýváme otázkami poněkud jiného rázu:
 Jakými společnými vlastnostmi se vyznačují zákazníci, se kterými máme nejčilejší obchody.
 Jakými společnými vlastnostmi se vyznačují zákazníci, kteří přerušily s naší firmou kontakt.
 Jaké podmínky zabezpečují dlouhodobě nejlepší výsledky prodeje.
 Z čeho se dá poznat, že toto hlášení a škodní události je podvodem.
 …
Pravděpodobně nejvýstižnější definici data miningu formuloval se svými spolupracovníky roku
1996 Usama Fayyad. Podle něj představuje data mining „netriviální proces zjišťování platných,
neznámých, potenciálně užitečných a snadno pochopitelných závislostí v datech“.
Jinak řečeno pomocí data miningu se v rozsáhlých datech hledají nové, předem jednoduše
neodhadnutelné informace a vztahy využitelné při rozhodování firmy.
Pro lepší představu uveďme následující příklady.
 Z databází ERP (skladové a výrobní systémy) a CRM (systémy pro správu zákazníků) pomocí
metod data miningu můžeme nalézt množinu nejvýznamnějších zákazníků a následně jim
věnovat zvýšenou péči.
 Díky data miningu můžeme vytipovat skupinu zákazníků, majících sklony přejít ke konkurenci.
 Data mining nám může dát odpověď na otázku, jak rozpoznáme rizikové zákazníky.
 Data mining pomůže určit typ zákazníků, kteří si zakoupí nový výrobek.
 Může nám také napovědět, které zboží se kupuje společně.
 Pomůže nám s předpovědí, kteří zákazníci si zakoupí nový produkt
 V oblasti zdravotnictví nám může pomoci při diagnostikování různých vážných nemocí
(například nádorová onemocnění, …)
Nejrozšířenější je využití data miningu v oblasti marketingu, pojišťovnictví a telekomunikací, ale
můžeme se s ním setkat i v mnoha dalších oblastech, jako jsou strojírenství, zdravotnictví, finance, …
6. Postupové kroky data miningu [1]
Proces dolování dat bývá velmi časově náročný. I proto je nutno předem vše dobře naplánovat.
Jak by tedy měla vypadat posloupnost jednotlivých činností?
 Stanovení cíle
 Výběr metody
 Výběr zdrojů dat
 Příprava dat



Zpracování modelu
Ověření modelu
Implementace modelu
Dolování dat by mělo mít vždy předem jasně definován cíl. Na přesném a jasném stanovení cíle
silně závisí výsledek celého projektu. Často může být tímto cílem řešení konkrétního obchodního či
jiného problému, nebo nalezení cesty k vylepšení procesu (např. chceme přilákat nové zákazníky,
vyhnout se vysoce rizikovým zákazníkům, zlepšit spokojenost zákazníků, zvýšit tržby, …) Dle
vytyčeného cíle pak můžeme úlohy dolování dat rozdělit do několika kategorií:
 Klasifikace
 Odhady hodnot vysvětlované proměnné
 Segmentace (shlukování)
 Analýza vztahů
 Predikce v časových řadách
 Detekce odchylek
Podobně jako na co nejpřesnější definici cíle závisí výsledek celého projektu i na zvolené
metodologii. Nástroje pro dolování dat využívají celé řady relativně různorodých statistických i
nestatistických metod, jako jsou:
 Lineární regrese
 Logistická regrese
 Shluková analýza
 Neuronové sítě
 Genetické algoritmy
 Klasifikační stromy
 Detekce odchylek
 Odhalení závislostí a rozdílů
Data mining nenahrazuje, ale doplňuje dosud užívané postupy vyhodnocování hromadných dat.
Dolování dat je mnohem komplexnější proces, než "prosté" výše uvedené metody.
Pokud máme za sebou fázi stanovování cíle a zvolíme metodu, dostáváme se k dalšímu kroku a to
nalezení vhodných zdrojů dat.
Datové sklady lze v procesu dolování dat považovat za jeden z mnoha ideálních zdrojů vstupních
dat. Procesy transformace a čištění, kterými prošla data při plnění do datového skladu, je pro dolování
dat výhodou.
Obecně můžeme používat i mnohé jiné datové zdroje. Jak interní (firemní data), tak externí (různé
seznamy získané na trhu dat). V tomto případě v rámci data miningu musíme vyřešit otázku velikého
objemu dat, nekompletních znečištěných dat, heterogenních dat z různých systémů. Proto je nezbytně
nutná další etapa, příprava a čištění dat.
Jedna ze základních pouček učebnic Data miningu říká: „Váš model je jen tak dobrý, jaká jsou jeho
data.“
Po provedení vlastních analytických prací a vytvoření modelu za využití předem zvolených metod
(viz výše) je nutno celý model ověřit. Samozřejmě bychom model neměli ověřovat na stejných datech,
pomocí kterých jsme model vytvářeli. K tomuto účelu se doporučuje rozdělit si zdrojová data do dvou
skupin. Za pomocí první z nich pak model vytvářet a na druhé skupině model ověřovat. Teprve pak by
měla nastat poslední etapa – implementace modelu a nezbytná interpretace výsledků.
Interpretace je možná buď pomocí tabulek a grafů ve spojení s analýzou. Názornější ovšem často
bývá vyšší stupeň vizualizace výsledků pomocí 2D a 3D vizualizace. Trojrozměrný prostor bývá někdy
doplněn čtvrtou dimenzí ve formě animace objektů v čase. Kvalitní vizualizace je velmi názorná, v
grafické podobě výsledku je možno se rychleji orientovat a odhalit podobnosti či naopak anomálie.
Proto je vhodné ji použít v případě, že je nutné rychlé a kvalitní rozhodování.
7. Závěr
V zemích, kde je konkurence velmi silná (převážně USA a západní Evropa) a tlačí na manažery
k přesnějšímu a hlavně rychlejšímu rozhodování se bez předběžných analýz za pomoci metod data
miningu neobejde snad žádná rozsáhlejší reklamní kampaň, tvorba koncepce prodeje
supermarketových řetězců, tvorba koncepce nabídek bankovních a pojišťovacích ústavů atd. K těmto
účelům si firmy najímají zvláštní specializované týmy. V našich firmách je dolování dat využíváno
daleko méně. Důvody jsou jednak ekonomické a jednak procedurální. Mezi firmami panuje
přesvědčení, že SW produkty z této oblasti jsou značně drahé a velmi složité, použitelné jen pro
finančně silné společnosti, případně pro vědecké účely na akademické půdě. Cenově se však většina
těchto produktů pohybuje na cenové hladině běžných produktů určených primárně pro podnikovou
sféru.
A co se týče složitosti? Manažeři firem, kteří si uvědomují sílu informací uložených v jejich
archivních datech, se mnohdy snaží, i bez znalostí spojených s data miningem, vyhledávat tajemství
ukrytá ve firemních databázích. Jejich výsledky jsou však bez potřebných znalostí a zkušeností
mnohem méně efektivní a mnohdy mohou vést ke špatným interpretacím a následně chybným
rozhodnutím.
Používání metod dolování dat by se mělo stát samozřejmostí pro společnosti, které si uvědomují,
že v datech může být uschováno pro ně značné množství důležitých informací.
8. Přehled SW produktů zabývajících se data miningem a jejich výrobci [2] a [3]
STATISTICA Data Miner
SPSS Clementine
DB2Intelligent Miner for data
Enterprise Miner
Mine Set
Knowledge
ALICEd’Isoft a ALICE/Server
Gene Hunter
FuzzyTech for Business
Weka
The Data Mining Suite
XpertRule Miner
Data Detective
DataScope
Discupulus
Oracle Darwin
Evolver
Neuroshell Trader Proffesional
PolyAnalyst
AccuMiner
Viscovery SOMine
Insightful Miner
WizWhy
- StatSoft Inc.
- SPSS
- IBM Corporation
- SAS Institute Inc.
- Silicon Graphics, Inc
- Angoss Software Corp.
- Isoft
- Ward Systems
- INFORM GmbH
- UW
- Information Discovery, Inc.
- Attar Software, Ltd.
- SentientNachine Research B.V.
- Cygron Pte Ltd.
- RML Technologies
- Oracle Corporation
- Palisade
- Ward Systém
- Megaputer Intelligence
- Neural Computing Systém
- Eudaptics software GmbH
- Insightful
- WizSoft
Abecední seznam dalších SW produktů zabývajících se Data miningem můžeme nalézt v [3].
Literatura:
[1] RUD, O. P. Data mining – Praktický průvodce dolováním dat pro efektivní prodej, cílený marketing
a podporu zákazníků (CRM), Praha: Computer Press, 2001, ISBN 80-7226-577-6
[2] KLÍMEK, P. Aplikovaná statistika pro ekonomy, 1.vyd., Univerzita Tomáše Bati ve Zlíně, 2003,
ISBN 80-7318-148-7
[3] http://www.kdnuggets.com/companies/products.html
[4]
http://www.springerlink.com/(qm5yc5rpihtccu45ffkx3l45)/app/home/issue.asp?referrer=parent&backto
=journal,37,37;linkingpublicationresults,1:100254,1
[5] http://www.thearling.com/text/dsstar/interaction.html
[6] http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_2.html
[7] http://datamining.aktualne.cz/
[8] http://www.statsoft.cz/
[9] http://www.sas.com/
[10] http://www.web-datamining.net/
RNDr. Marta Žambochová
Univerzita Jana Evangelisty Purkyně
Ústí nad Labem
Fakulta sociálně-ekonomická
Katedra matematiky a statistiky
[email protected]

Podobné dokumenty

8. Systémy pro dobývání znalostí z databází

8. Systémy pro dobývání znalostí z databází Systémy pro dobývání znalostí nabízejí jak malé firmy vzešlé z akademického prostředí (RuleQuest nebo Dialogis), tak význační producenti statistického software (SAS, SPSS nebo StatSoft). O rostoucí...

Více

Úvod do problematiky Stále větší množství dat uložených v

Úvod do problematiky Stále větší množství dat uložených v ◦ Velké množství dat, většinou na detailní úrovni – ale ne vždy jsou tam všechna data ◦ Data Mining nejlépe pracuje s integrovanými a vyčištěnými daty ◦ Máme-li datový sklad, není potřeba investova...

Více

Bez názvu - 1

Bez názvu - 1 Večer s bohatým kulturním programem určený především ženám. Zpěvačka Marie Veliká s italským klavíristou Luca Gualco, skupina Angles a krnovský Elvis. Po celou dobu akce ve foyer prezentace firem: k...

Více

ÚVOD 3 Pokročilé nástroje vyhledávání 6 Základní booleovské

ÚVOD 3 Pokročilé nástroje vyhledávání 6 Základní booleovské na základě námi provedeného průzkumu. Avšak většina z těchto lidí využívá pouze základní metody vyhledávání. K  využití rozmanitostí Googlu je potřeba využít i další metody vyhledávání, se kterými ...

Více

5.1 Rozhodovací stromy

5.1 Rozhodovací stromy odpovídající jednotlivým listovým uzlům patří do téže třídy (krok 3 algoritmu). Někdy tento postup však není ani žádoucí, ani možný. Požadavek na bezchybnou klasifikaci trénovacích dat může vést k ...

Více

obsah modulu znalostní inženýrství - eLearning OPF SU

obsah modulu znalostní inženýrství - eLearning OPF SU elearningového studia). V opoře samotné je na každém místě, kde to bylo možné nebo vhodné, vždy vysvětlovaný problém ilustrován na popisu jeho řešení v NEST či NEST editor, který je mnohdy rozšířen...

Více

České vysoké učení technické v Praze Fakulta elektrotechnická

České vysoké učení technické v Praze Fakulta elektrotechnická příklad možno uvést zkoumání vlivů jako je cena výrobku, cena u konkurence a inflace na prodejnost produktu firmy. 3. predikce používá postupy regrese i klasifikace, zde jsou data chronologicky seř...

Více