Dobývání znalostí z databází

Transkript

Dobývání znalostí z databází
Dobývání znalostí z databází
T1: úvodní přehled
Dobývání znalostí z databází
(Knowledge Discovery in Databases, Data Mining,
..., Knowledge Destilery, ....)
Non-trivial process of identifying valid, novel,
potentially useful and ultimately understandable
patterns from data (Fayyad a kol., 1996)
Data mining involves the use of sophisticated data
analysis tools to discover previously unknown, valid
patterns and relationships in large data sets
(Adriaans, Zantinge, 1999)
Analysis of observational data sets to find
unsuspected relationships and summarize data in
novel ways that are both understandable and useful
to the data owner (Hand, Manilla, Smyth, 2001)
Data mining is the process of analyzing hidden
patterns of data from different perspectives and
categorizing
them
into
useful
information
(techopedia.org, 2011)
Zdroje
databáze (dotazovací jazyky, OLAP), statistika
(analýza dat), umělá inteligence (strojové učení)
P. Berka, 2011
1/18
Dobývání znalostí z databází
T1: úvodní přehled
Úlohy dobývání znalostí
Hrubší členění (Klosgen, Zytkow, 1997)
klasifikace/predikce: cílem je nalézt
znalosti použitelné pro klasifikaci nových
případů
deskripce: cílem je nalézt dominantní
strukturu nebo vazby
P. Berka, 2011
2/18
Dobývání znalostí z databází
T1: úvodní přehled
hledání „nugetů“: cílem je nalézt dílčí
překvapivé znalosti
Jemnější členění (Chapman a kol, 2000)
deskripce dat a sumarizace
segmentace
deskripce konceptů
klasifikace
predikce
analýza závislostí
P. Berka, 2011
3/18
Dobývání znalostí z databází
T1: úvodní přehled
Manažerský pohled
Manažerský
problém
Znalosti
pro řešení
1. Řešitelský
tým
7. Interpretace
2. Specifikace
problému
6. Data
mining
3. Získání
dat
5.Předzpracování dat
4. Výběr
metod
Pohled zpracování dat
P. Berka, 2011
4/18
Dobývání znalostí z databází
T1: úvodní přehled
Aplikační oblasti pro dobývání znalostí
Segmentace a klasifikace klientů banky (např.
rozpoznání problémových nebo naopak vysoce
bonitních klientů),
Predikce vývoje kursů akcií,
Predikce spotřeby elektrické energie,
Analýza příčin poruch v telekomunikačních sítích,
Analýza důvodů změny poskytovatele nějakých
služeb (internet, mobilní telefony),
Segmentace a klasifikace klientů pojišťovny,
Určení příčin poruch automobilů,
Rozbor databáze pacientů v nemocnici,
Analýza nákupního
Analysis).
P. Berka, 2011
košíku
(Market
Basket
5/18
Dobývání znalostí z databází
T1: úvodní přehled
Analýza nákupního košíku: pohled na data
P. Berka, 2011
6/18
Dobývání znalostí z databází
T1: úvodní přehled
Analýza nákupního košíku: deskripce
P. Berka, 2011
7/18
Dobývání znalostí z databází
T1: úvodní přehled
Analýza nákupního košíku: klasifikace
P. Berka, 2011
8/18
Dobývání znalostí z databází
T1: úvodní přehled
Standardy pro dobývání znalostí
1. Metodiky
(Marban a kol, 2009)
Metodika A
Metodiku „5A“ nabízí firma SPSS jako svůj pohled na
proces dobývání znalostí. Název metodiky je
akronymem pro jednotlivé prováděné kroky:
Assess – posouzení potřeb projektu,
Access – shromáždění potřebných dat,
Analyze – provedení analýz,
Akt – přeměna znalostí na akční znalosti,
Automate – převedení výsledků analýzy do praxe.
P. Berka, 2011
9/18
Dobývání znalostí z databází
T1: úvodní přehled
Metodika SEMMA
Navržená pro Enterprise Miner firmy SAS:
Sample (vybrání vhodných objektů),
Explore (vizuální explorace a redukce dat),
Modify (seskupování objektů a hodnot atributů,
datové transformace),
Model (analýza dat: neuronové sítě, rozhodovací
stromy, statistické techniky, asociace a
shlukování),
Assess (porovnání modelů a interpretace).
P. Berka, 2011
10/18
Dobývání znalostí z databází
T1: úvodní přehled
Metodika CRISP-DM
V současnosti de-facto standard podporovaný
většinou systémů pro dobývání znalostí
Porozumění
problematice
Porozumění
datům
Příprava dat
Využití výsledků
DATA
Modelování
Vyhodnocení
výsledků
P. Berka, 2011
Data
Mining
11/18
Dobývání znalostí z databází
T1: úvodní přehled
2. Standardy pro zápis modelů
Predictive Modeling Markup Language
Standard na bázi XML vyvinutý v Data Mining Group
(www.dmg.org), který slouží pro popis dat, datových
transformací, i vytvořených modelů. Základní části
PMML dokumentu:
Header
Data Dictionary
Data Transformations
Model
P. Berka, 2011
12/18
Dobývání znalostí z databází
T1: úvodní přehled
<?xml version="1.0" ?>
<PMML version="4.0">
<Header copyright="P.B." description="An example decision tree model."/>
<DataDictionary numberOfFields="5" >
<DataField name="income" optype="categorical" />
<Value value="low"/>
<Value value="high"/>
<DataField name=account" optype= categorical " />
<Value value="low"/>
<Value value="medium"/>
<Value value="high"/>
<DataField name="sex" optype="categorical" >
<Value value="male"/>
<Value value="female"/>
</DataField>
<DataField name="unemployed" optype="categorical" >
<Value value="yes"/>
<Value value="no"/>
</DataField>
<DataField name=loan" optype="categorical" >
<Value value="A"/>
<Value value="n"/>
</DataField>
</DataDictionary>
<TreeModel modelName="loan aproval decision tree" >
<MiningSchema>
<MiningField name=“income"/>
<MiningField name="account"/>
<MiningField name="sex"/>
<MiningField name="unemployed"/>
<MiningField name="loan" usageType="predicted"/>
</MiningSchema>
<Node score="A">
<True/>
<Node score="A">
<SimplePredicate field="income" operator="equal" value="high"/>
</Node>
<Node score="n">
<SimplePredicate field="income" operator="equal" value="low"/>
<Node score="A">
<SimplePredicate field="account" operator="equal"
value="high"/>
</Node>
<Node score="n">
<SimplePredicate field="account" operator="equal"
value="low"/>
<Node score="n">
<SimplePredicate field="unemployed" operator="equal"
value="yes“/>
</Node>
<Node score="A">
<SimplePredicate field="unemployed" operator="equal"
value="no“/>
</Node>
</Node>
</Node>
</Node>
</TreeModel>
</PMML>
P. Berka, 2011
13/18
Dobývání znalostí z databází
T1: úvodní přehled
3. Programovací standardy (API)
SQL/MM Data Mining
Standardní rozhranní umožňující přístup z relačních
databází k algoritmům pro data mining
OLE DB for Data Mining
API vyvinuté firmou Microsoft
CREATE MINING MODEL CreditRisk
(
CustomerId long key,
Income text discrete,
Account text discrete,
Sex text discrete,
Unemployed boolean discrete,
Loan text discrete predict,
)
USING [Microsoft Decision Tree]
Java Data Mining
P. Berka, 2011
14/18
Dobývání znalostí z databází
T1: úvodní přehled
Systémy pro dobývání znalostí
z databází
pokrývají celý proces dobývání znalostí (od
předzpracování po interpretaci),
nabízejí více algoritmů pro analýzu (než
„jednoúčelové” systémy strojového učení),
kladou důraz na vizualizaci (ve způsobu práce
se systémem i při interpretaci výsledků).
Systém
Výrobce
URL
SPM
Salford Systems www.salford-systems.com
www-01.ibm.com/software/analytics/
Clementine SPSS
spss/products/modeler/
www.sas.com/technologies/analytics/
Enterprise SAS Institute
datamining/miner/
Miner
GhostMiner Fujitsu
www.fqs.pl/business_intelligence/prod
ucts/ghostminer
Intelligent IBM
www-01.ibm.com/software/data/
Miner
infosphere/warehouse/enterprise.html
Knowledge Angoss
www.angoss.com
Studio
Oracle Data Oracle
www.oracle.com/us/products/database/
Mining
options/data-mining/index.html
PolyAnalyst Megaputer
www.megaputer.com/
Statistica
StatSoft
www.statsoft.com/products/dataData Miner
mining-solutions/
LISp Miner VŠE
RapidMiner Rapid-I
University of
Weka
Waikato
P. Berka, 2011
lispminer.vse.cz
rapid-i.com/
www.cs.waikato.ac.nz/ml/weka/index.
html
15/18
Dobývání znalostí z databází
T1: úvodní přehled
Weka
Rapid Miner
P. Berka, 2011
16/18
Dobývání znalostí z databází
T1: úvodní přehled
SAS Enterprise Miner
IBM SPSS Modeler (Clementine)
P. Berka, 2011
17/18
Dobývání znalostí z databází
P. Berka, 2011
T1: úvodní přehled
18/18

Podobné dokumenty

text kapitoly

text kapitoly snadno aktualizovat své modely s tím, jak přicházejí nové výsledky“.

Více

De - End Duchenne

De - End Duchenne spolupráci • ve spolupráci s PTC natočili video pro schvalovací orgány aby si udělali obrázek o DMD, protože je potřeba, aby věděli, o čem vlastně rozhodují (je na www.treatdmd.com) • v různých zem...

Více

aneb Cesta za svobodou

aneb Cesta za svobodou samé místní lodû. Pfii vystoupení na bfieh na nás padá velké rozãarování. V Norsku jsme opou‰tûli proslunûnou barevnou a hlavnû ãistou pfiírodu, zde v‰ak je stra‰idelná mlha a okolí pfiístavu na mû pÛs...

Více

Asociační pravidla

Asociační pravidla (nebude-li pršet, nezmoknem). Není tedy divu, že pravidla s touto syntaxí patří společně s rozhodovacími stromy k nejčastěji používaným prostředkům pro reprezentaci znalostí, ať už získaných od exp...

Více

Nostalgia Gliders 1950 - 1956

Nostalgia Gliders 1950 - 1956 Meyer Orthofer Janowski Bridge Andersen Robert Petersen Neumann Illsley Hansen Haug Orvin Bethwaite Boeker Lippens Odenman Paolo Sandberg Gunic Hacklinger Brooks Brown Currington

Více

Funkční analýza webových stránek Knihovny.cz.docx

Funkční analýza webových stránek Knihovny.cz.docx Úvodní strana bude obsahovat pole pro vyhledávání knihoven, rozcestník, banner a blok s prezentací služby Ptejte se knihovny. Vyhledávání knihoven bude realizováno velkým polem pro zadání hledaného...

Více

References - LISp

References - LISp Strossa, P. – Rauch, J.: Association Rules in STULONG and Natural Language. In: BERKA, Petr (ed.). ECML/PKDD-2002 Workshop Proceedings: Discovery Challenge Workshop Notes, Report B-2002-8. Helsinki...

Více

Nové prvky v C# 3.0

Nové prvky v C# 3.0 // Druhé spuštění stejného dotazu bude iterovat nad změněnými daty // a vrátí jiný výsledek Console.WriteLine(“Druhé volání <= 3:"); foreach (int n in lowNumbers) Console.WriteLine(n);

Více