Data mining

Transkript

Data mining
Data mining
UAI/691 P ednáška 1
Miroslav Skrbek
[email protected]
Ústav aplikované informatiky
P írodov decká fakulta
Jiho eské univerzity v eských Bud jovicích
1
Agenda
Úvod do oblasti data miningu
Knowledge Discovery in Databases
(KDD)
Data mining, p ednáška 1, Miroslav Skrbek
2
Literatura
Petr Berka: Dobývání znalostí z databází.
Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9
RapidMiner 5.0 - User Manual, Technická
dokumentace k programu RapidMiner.
Rapid-I GmbH,
2010.http://garr.dl.sourceforge.net/project/ra
pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf
Data mining, p ednáška 1, Miroslav Skrbek
3
Motivace
Jak je využít
Data dostupná v
elektronické podob
Data
Problém
?
ešení
Experti na data mining,
to je ešení !
Podniky
banky,
státní správa,
zdravotnictví,
obchodní et zce,
mobilní operáto i,
poskytovatelé
Data mining,služeb
p ednáška
1, Miroslav
internetových
a další
... Skrbek
4
Data - cenný zdroj informací
Tým expert na data mining
Databáze
nebo
datový sklad
Data
Znalosti
Náklady významn
snížíme, když …
Zadání
Musíme významn
snížit náklady.
Jaké máme
možnosti ?
Prezentace
výsledk analýzy
dat
Data mining, p ednáška 1, Miroslav Skrbek
5
Knowledge Discovery in
Databases (KDD)
Dobývání znalostí z databází
Multi-disciplinární obor zahrnující
Databáze
Statistiku
Um lou inteligenci
Cílem je automatické vyhledávání
zákonitostí v rozsáhlých souborech dat
V sou asné dob je to proces interaktivní
(neobejde se bez experta), sou asné
výzkumy sm ují k plné automatizaci
Data mining, p ednáška 1, Miroslav Skrbek
6
Proces dobývání znalostí
Selekce
P edzpracování
Databáze
Transformace dat
Dolování znalostí
Interpretace
výsledk
Data mining, p ednáška 1, Miroslav Skrbek
Zp tná
vazba
Vizualizace
Prezentace
7
Selekce dat
Výb r relevantní podmnožiny z dostupných
dat (relevance má p ímou souvislost ze
zadáním)
M že být složitý problém
Data v r zných databázích
Data v r zných formátech
R zný charakter dat (záznamy v databázi,
textové dokumenty)
Data nelze jednoduše pospojovat do jedné
tabulky
Data mining, p ednáška 1, Miroslav Skrbek
8
P edzpracování
P íprava dat pro další zpracování
M že zahrnovat
išt ní dat od odlehlých hodnot
Dopl ování chyb jících hodnot
Agregace dat
Extrakci p íznak
Detekce závislých atribut
Odstran ní offset a trend
Významný krok procesu zpracování, který m že
významn ovlivnit výsledek analýzy (negativn i
pozitivn )
Data mining, p ednáška 1, Miroslav Skrbek
9
Transformace dat
Nezbytné transformace dat podle
pot eb použitých analytických metod
M že obsahovat
Selekci atribut (feature selection)
Vážení atribut (feature ranking)
Normalizace atribut
Funk ní transformace a dopl ování
atribut vypo tenými hodnotami
Data mining, p ednáška 1, Miroslav Skrbek
10
Dolování znalostí
Využívá metody um lé inteligence,
metody založené na strojovém u ení
Využívá metod shlukové analýzy
Využívá metod modelování a
automatické tvorby modelu
Využívá širokou škálu klasifikátor
Data mining, p ednáška 1, Miroslav Skrbek
11
Dolování znalostí
Založeno na
Modelování závislostí v datech
Klasifikaci dat do t íd
shlukové analýze
Je to iterativní a interaktivní proces,
který je ízen expertem
Sou asný výzkum sm uje k plné
automatizaci tohoto procesu
Data mining, p ednáška 1, Miroslav Skrbek
12
Vizualizace
Klí ový nástroj pro interpretaci
výsledk
Využívá širokou škálu
graf
Scatter
Scatter Matrix
Bubble
A další
eší problém zobrazení
vícerozm rných dat ( lov k se
p irozen orientuje pouze v
grafech max. 3D)
Vícerozm rné veli iny r zn
mapovány nap . na tvar, rozm r a
barvu objekt
Data mining, p ednáška 1, Miroslav Skrbek
13
Interpretace dat a reportování
Výsledky analýzy jsou op t ísla, musí se
proto p evést do srozumitelné e i
(formulace zákonitostí, vizualizace grafy,
komentá )
P i interpretaci výsledk má hlavní slovo
expert
Výstupy analýzy se prezentují ve form
zpráv (report )
Sou asný výzkum v oblasti sm uje k
automatizaci generování report
Data mining, p ednáška 1, Miroslav Skrbek
14
Data mining
UAI/691 P ednáška 2
Miroslav Skrbek
[email protected]
Ústav aplikované informatiky
P írodov decká fakulta
Jiho eské univerzity v eských Bud jovicích
1
Agenda
Zdroje dat
Datová matice a její reprezentace
Selekce dat z r zných zdroj
Zpracování dokument nebo textových
datových soubor
Data mining, p ednáška 1, Miroslav Skrbek
2
Literatura
Petr Berka: Dobývání znalostí z databází.
Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9
RapidMiner 5.0 - User Manual, Technická
dokumentace k programu RapidMiner.
Rapid-I GmbH,
2010.http://garr.dl.sourceforge.net/project/ra
pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf
Data mining, p ednáška 1, Miroslav Skrbek
3
Zdroje dat
Databáze (SQL)
Textové dokumenty
Plain text (ASCII, CP1250, ISO8851, ISO8852,
UNICODE, UTF-8)
HTML, XML
Specifické formáty (PDF, RTF, DOC)
Data v souborech
Plain text, CSV
XML
Specifické formáty (XLS – MS Excel, ODF –
OpenOffice Calc)
Data mining, p ednáška 1, Miroslav Skrbek
4
Datová matice
(pojem ze statistiky)
Základní datová struktura pro uložení dat
Sloupce se ozna ují jako atributy
(prom nné)
ádky reprezentují jednotlivé p ípady. Ve
statistice se ádky nazývají jako p ípady, v
data miningu se obvykle ozna ují termínem
vzory
Na vstupu procesu dolování dat se o ekává
datová matice obsahující relevantní data
Data mining, p ednáška 1, Miroslav Skrbek
5
P íklad datové matice
Atributy
Vzory
(p ípady)
Datum
P íjmení
Jméno
P íchod
Odchod
12.5.2009
Vomá ka
Josef
7:30
16:15
12.5.2009
Novák
Pavel
9:20
14:35
13.5.2009
Vomá ka
Josef
6:15
18:20
13.5.2009
Malá
Ji ina
9:00
16:30
Data mining, p ednáška 1, Miroslav Skrbek
6
Metainformace datové matice
Názvy atribut (sloupc )
Datové typy atribut
Platné hodnoty nominálních atribut
Statistické údaje charakterizující
atributy (st ední hodnota, rozptyl, atd.)
Data mining, p ednáška 1, Miroslav Skrbek
7
Datová matice v textovém
formátu
komentá
Plain text, atributy odd leny mezerou
#datum p íjmení jméno p íchod odchod
12.5.2009 Vomá ka Josef 7:30 16:15
12.5.2009 Novák Pavel 9:20 14:35
13.5.2009 Vomá ka Josef 6:15 18:20
13.5.2009 Malá Ji ina 9:00 16:30
Jiné druhy odd lova
: st edník, árka, tabulátor, svislá ára …, cokoliv, co se neobjeví v datech
CSV (Comma Separated Values, eská verze, odd lova st edník)
datum;prijmeni;jmeno ;prichod;odchod
12.5.2009;Vomá ka;Josef;7:30;16:15
12.5.2009;Novák;Pavel;9:20;14:30
13.5.2009;Vomá ka;Josef;6:15;18:20
13.5.2009;Malá;Ji ina;9:00;16:30
Data mining, p ednáška 1, Miroslav Skrbek
8
Datová matice v XML
(pouze dva ádky)
XML tag (otevírací)
<?xml version="1.0"?>
XML atribut
<Worksheet Name="Datova matice">
<Table>
<Row>
<Cell><Data Type="String">datum</Data></Cell>
<Cell><Data Type="String">prijmeni</Data></Cell>
<Cell><Data Type="String">jmeno </Data></Cell>
Hodnota
<Cell><Data Type="String">prichod</Data></Cell>
<Cell><Data Type="String">odchod</Data></Cell>
atributu
</Row>
<Row>
Hodnota
<Cell><Data Type="Date">2009-05-12</Data></Cell>
<Cell><Data Type="String">Vomá ka</Data></Cell>
atributu
<Cell><Data Type="String">Josef</Data></Cell>
<Cell><Data Type="Time">07:30:00.000</Data></Cell>
<Cell><Data Type="Time">16:15:00.000</Data></Cell>
</Row>
</Table>
</Worksheet>
XML tag (zavírací)
Data mining, p ednáška 1, Miroslav Skrbek
9
Selekce dat
Datová matice
Selekce
Databáze
Tabulka v rela ní
databázi
Datové
soubory
Datový soubor
(plain text,
CSV, XLS,
XML, …)
Textové
Textové
dokumenty
Textové
dokumenty
dokumenty
Data mining, p ednáška 1, Miroslav Skrbek
10
Selekce dat
Výb r relevantní podmnožiny z dostupných
dat (relevance má p ímou souvislost se
zadáním)
M že být složitý problém
Data v r zných databázích
Data v r zných formátech
R zný charakter dat (záznamy v databázi,
textové dokumenty)
Data nelze jednoduše pospojovat do jedné
tabulky
Data mining, p ednáška 1, Miroslav Skrbek
11
Získání datové matice dotazem v
SQL rela ní databázi
P íkaz pro výb r podmnožiny dat z databáze
Požadované atributy
select datum, prijmeni, jmeno, prichod, odchod
from odchodyprichody
where datum > {d ‘2009-11-22'}
Pozn: pro složit jší databázi
s více tabulkami je t eba
použít spojování tabulek
(join), viz. znalosti z
p edm tu databáze.
Jméno tabulky
v rela ní
databázi
Data mining, p ednáška 1, Miroslav Skrbek
Omezení
po tu ádk
je na ty od
data
22.11.2009
12
Využití p íkaz opera ního
systému (awk, gawk-Linux)
Program awk (gawk) te textový soubor po ádcích. Každý ádek na základ odd lova e
(implicitn mezera) rozseká a jednotlivé segmenty ádku p i adí v po adí z leva do prava do
prom nných $1, $2, …. Argumentem p íkazu je sekvence p íkaz , která se opakovan provede
pro každý ádek, a ve které se m žeme odkazovat na jednotlivé prom nné $1, $2, …
Vybere z p vodního souboru sloupce 1 a 3 a vytiskne je jako dva sloupce v novém souboru
awk '{ print $1,$3}' data.txt > datova_matice.txt
Se te ísla v prvním a druhém sloupci a uloží je datové matice (jeden ádek, dv
ísla)
awk 'BEGIN{s1=0;s2=0}{s1+=$1;s2+=$2}END{print
s1,s2}' data.txt > datova_matice.txt
Provede se p ed
zpracováním prvního
ádku
Provede se pro každý ádek
Data mining, p ednáška 1, Miroslav Skrbek
Provede
se po zpracování
posledního ádku
13
Programové zpracování textových
datových soubor v C
fgets() v kombinaci s scanf (snscanf):
fgets p e te ádek, p evod na hodnoty zajistí scanf.
Vhodné pro jednoduché, mezerou odd lené atributy.
char s[256];
int rok_naroz;
char prijmeni[64], jmeno[64];
// opakuj dokud není konec souboru
fgets(s, 256, vstupni_soubor);
sscanf(s,"%s %s %d", &prijmeni, &jmeno,
&rok_naroz);
Pro složit jší formáty soubor je t eba použít tení po znacích a použít
nap íklad lexikální a následn syntaktické analyzátory (flex, bison), viz.
p edm t Teoretická informatika
Data mining, p ednáška 1, Miroslav Skrbek
14
Programové zpracování textových
datových soubor v Jav
BufferedReader v kombinaci s split, StringTokenizer,
StreamTokenizer, Scanner, java.util.regex.Pattern nebo
java.util.regex.Matcher :
T ída BufferedReader poskytuje funkci pro tení
textového souboru po ádcích (readLine). Funkce split (t ída
String) rozd lí et zec do pole et zc na základ regulárního
výrazu (viz. Teroteická informatika). Tokenizery navíc poskytují
p evody základních datových typ (int, float, …) na binární
hodnoty.
BufferedReader br = new BufferedReader(
new FileReader("xxx.txt"));
// dokud není konec souboru
String line = br.readLine();
String[] polozky = line.split(",");
Data mining, p ednáška 1, Miroslav Skrbek
15
Zpracování HTML dokument
a XML datových soubor
Pro tento typ dokument lze doporu it knihovní funkce pro analýzu HTML/XML
Java: t ída javax.xml.parsers.SAXParser (SAX)
javax.xml.parsers.DocumentBuilder (DOM)
Události (zp tná volání
indikující výskyt tag )
HTML/XML
SAX Parser
Extrakce
požadovaných
dat
<body>
HTML/XML
DOM Parser
<ul>
<li>
<p>
Extrakce
požadovaných
dat
Objektová reprezentace
dokumentu DOM
(Document Object Model)
Data mining, p ednáška 1, Miroslav Skrbek
16
Parsing dokumentu
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
try {
dbf.setNamespaceAware(false);
dbf.setValidating(false);
dbf.setFeature("http://xml.org/sax/features/namespaces", false);
dbf.setFeature("http://xml.org/sax/features/validation", false);
dbf.setFeature(
"http://apache.org/xml/features/nonvalidating/load-dtd-grammar", false);
dbf.setFeature(
"http://apache.org/xml/features/nonvalidating/load-external-dtd", false);
DocumentBuilder db = dbf.newDocumentBuilder();
doc = db.parse(new BufferedInputStream(new FileInputStream(inpf), 1024));
… zpracování dat …
catch (Exception ex) {
}
Data mining, p ednáška 1, Miroslav Skrbek
17
DOM
DOM má stromovou strukturu a skládá se z uzl (Node) a hran
(odkazy na uzly).
Uzly odpovídají HTML tag m
<html>
<body>
<p>aaa</p>
<a>xxx</a>
</body>
</html>
Document
Html
Body
p
aaa
Data mining, p ednáška 1, Miroslav Skrbek
p
xxx
18
Vypis struktury dokumentu
Rekurzivní metoda pro výpis DOMu
private static void printDOM(String prefix,
Node node, PrintStream out) {
out.println(prefix +node.getNodeName()+" [" +
((node.getNodeValue() != null) ?
node.getNodeValue().trim() : "") +"]");
NodeList nodes = node.getChildNodes();
for(int i = 0; i < nodes.getLength(); i++) {
printDOM(prefix + " ", nodes.item(i),
out);
}
}
Výpis
#document []
html []
#text []
body []
#text []
p []
#text [aaa]
#text []
a []
#text [xxx]
#text []
#text []
}
Nalezení specifického uzlu
NodeList nodes = getElementsByTagName("html");
Data mining, p ednáška 1, Miroslav Skrbek
19
Data mining
UAI/691 P ednáška 3
Miroslav Skrbek
[email protected]
Ústav aplikované informatiky
P írodov decká fakulta
Jiho eské univerzity v eských Bud jovicích
1
Agenda
Statistické metody
Data mining, p ednáška 3, Miroslav Skrbek
2
Literatura
Petr Berka: Dobývání znalostí z databází.
Nakladatelství ACADEMIA, 2003. ISBN 80-2001062-9
Jan Hendl: P ehled statistických metod zpracování
dat. 2 vydání. Portál, Praha 2006
RapidMiner 5.0 - User Manual, Technická
dokumentace k programu RapidMiner. Rapid-I
GmbH,
2010.http://garr.dl.sourceforge.net/project/rapidmine
r/1.%20RapidMiner/5.0/rapidminer-5.0-manualenglish_v1.0.pdf
Data mining, p ednáška 3, Miroslav Skrbek
3
St ední hodnota náhodné
veli iny
St ední hodnota náhodné veli iny X se ozna uje E(X) nebo µ.
Pro diskrétní
náhodnou veli inu
N
E( X ) =
x. p( x )
i =1
Pro spojitou náhodnou
veli inu
∞
E( X ) =
x. f ( x )dx
−∞
Data mining, p ednáška 3, Miroslav Skrbek
Hustota
pravd podobnosti
4
Histogram
etnost
(nebo
relativní
etnost)
Hodnota
Data mining, p ednáška 3, Miroslav Skrbek
5
Konstrukce histogramu
Pro diskrétní hodnoty spo teme po ty výskytu jednotlivých hodnot ( etností)
v souboru dat, p ípadn vypo teme relativní etnosti tj. pom r etnosti k
celkovému objemu dat.
Pro spojité náhodné veli iny stanovíme nejprve intervaly a pak po ítáme
etnosti hodnot spadajících do daného intervalu. Obdobn jako u diskrétní
náhodné veli iny po ítáme i relativní etnosti.
P íklad. Je-li náhodná veli ina v rozsahu 0-5, stanovíme nap íklad intervaly
x 0.5, 0.5<x 1, 1<x 1.5, …,x > 4.5. Po et interval stanovíme s ohledem
na objem dat.
Data mining, p ednáška 3, Miroslav Skrbek
6
Popisné statistiky
Velké objemy dat lze redukovat, nahrazujeme-li
n které množiny nebo podmnožiny dat popisnými
statistikami
Popisná statistika je íselná charakteristika, která
popisuje ur itý aspekt dat
Velmi asto se užívají
Míry centrální tendence (nebo také jinak st ední hodnoty,
míry st ední hodnoty a míry polohy)
Míry rozptýlenosti
Šiknost, špi atost a další
Popisné charakteristiky mají silnou vazbu na
histogram a de-fakto popisují jeho tvar
Data mining, p ednáška 3, Miroslav Skrbek
7
Míry centrální tendence
(st ední hodnoty)
Aritmetický pr m r
Medián
1
x=
n
N
xi
i =1
m : P ( x ≤ m ) = 0 ,5 ∧ P ( x ≥ m ) = 0 ,5
Výpo et: posloupnost ísel set ídíme
vzestupn dle hodnoty. Medián m je hodnota,
která leží uprost ed set íd né posloupnosti.
Pokud posloupnost obsahuje lichý po et prvk
vypo teme pr m rnou hodnotu prvk
p ilehlých st edu posloupnosti.
Modus
hodnota s nejv tší relativní etností, pokud má
histogram více vrchol (multimodální rozd lení),
pak se uvádí více hodnot.
Data mining, p ednáška 3, Miroslav Skrbek
8
K zamyšlení - úkol
Student 1
Pr m r
Student 2
Student 3
Student 4
1
2
4
1
1
2
5
5
1
2
5
2
4
1
2
3
1
2
1
4
2
2
5
1
5
4
4
5
1
2
4
3
1
1
1
1
1,9
2,0
3,4
2,8
Prohlédn te si výsledky student b hem semestru a
Medián
1,0
2,0
4,0
3,0
snažte se bez po ítání stanovit jeho známku.
Modus
1,0
2,0
4,0
1,0
Sv j odhad slovn zd vodn te.
Data mining, p ednáška 3, Miroslav Skrbek
9
K zamyšlení - výsledek
Student 1
Student 3
Student 4
1
2
4
1
1
2
5
5
1
2
5
2
4
1
2
3
1
2
1
4
2
2
5
1
5
4
4
5
1
2
4
3
1
1
1
1
Pr m r
1,9
2,0
3,4
2,8
Medián
1,0
2,0
4,0
3,0
Modus
1,0
2,0
4,0
1,0
Neoznámená
(p epadová)
písemka
P íliš lehká
písemka
Student 2
Tohle asi trojka
(3,4 zaokr. na 3,0)
ur it nebude !
Není to omyl ?
Tohle p ece
není jedni ká .
Je to opravdu dvojka ,
nebo jedni ká , který
ob as zalajda í ?
Data mining, p ednáška 3, Miroslav Skrbek
10
Kdy užít aritmetický pr m r ?
Nelze použít pro kategoriální (nominální)
data
Data musí být z ur itého íselného intervalu
Rozd lení dat je symetrické (= histogram je
symetrický)
Data neobsahují výrazn odlehlé hodnoty
Pokud budou použity statistické testy
Data mining, p ednáška 3, Miroslav Skrbek
11
Kdy užít medián ?
Množina hodnot, které se v datech nachází
musí být minimáln uspo ádaná (toto
samoz ejm spl ují íselné hodnoty, ale
mohou to být i kategoriální data, kde je
možné stavovit uspo ádání ísla nap . bot,
od v S, M, L, XL, XXL).
Chceme znát st ed rozd lení dat
Pokud data obsahují odlehlé hodnoty
Pokud je rozd lení dat siln zešikmené
Data mining, p ednáška 3, Miroslav Skrbek
12
Kdy užít modus ?
Pro multi-modální rozd lení (více
vrchol )
Pokud nám sta í základní p ehled
Pokud nás práv zajímá nej ast jší
hodnota
Data mining, p ednáška 3, Miroslav Skrbek
13
Míry rozptýlenosti
Míry rozptýlenosti charakterizují jak jsou data
rozptýlena
P íklad: nejlepším sportovním st elcem je ten, který
má st ední hodnotu zásahu ve st edu ter e a malý
rozptyl st elby (tj. všechny zásahy v ploše desítky,
p ípadn devítky). St elec, který má sice st ední
hodnotu ve st edu ter e, ale zásahy rozptýleny po
celé ploše ter e tedy i v bílých polích, jist
nevyhraje.
Nejjednodušší charakteristikou je varian ní rozp tí
R = xmax-xmin,
ale které je siln citlivé na odlehlé hodnoty
Data mining, p ednáška 3, Miroslav Skrbek
14
Rozptyl a sm rodatná
odchylka
Rozptyl
Rozptyl (základního
souboru, populaci)
Výb rový rozptyl
Výb rová
sm rodatná
odchylka
σ 2 = D( X ) = E ( X − E ( X )) 2
1
σ =
n
n
2
( xi − x ) 2
i =1
1 n
s =
( xi − x ) 2
n − 1 i =1
2
n
1
s = s2 =
( xi − x ) 2
n − 1 i =1
Data mining, p ednáška 3, Miroslav Skrbek
15
Kdy použít rozptyl nebo
sm rodatnou odchylku
Použít za stejných podmínek jako
aritmetický pr m r
Obojí je citlivé na odlehlá data
Nevhodné pro siln zešikmená
rozd lení
Data mining, p ednáška 3, Miroslav Skrbek
16
Varian ní koeficient
s
VK =
x
Vhodný pro porovnání nap íklad r zných m ení s r znými pr m ry,
kdy lze p edpokládat, že se rozptyl roste lineárn se st ední hodnotou
veli iny.
Data mining, p ednáška 3, Miroslav Skrbek
17
Empirický kvantil
Empirický kvantil je hodnota, pod kterou leží ur ité procento údaj
xq ;0 < q < 1
Hladina
Empirický
kvantil
P íklad: x0,3=150 cm, což znamená, že 30% žák
naší školy je menších než 150 cm.
Podobn jako u modusu je podmínka uspo ádanosti množiny hodnot.
Data mining, p ednáška 3, Miroslav Skrbek
18
Specifiké kvantily
QI dolní kvartil q=0.25 (25%)
QII medián q=0.5 (50%)
QIII horní kvartil q=0.75 (75%)
Percentily okraj rozd lení
q=2,5% nebo q=97,5%
q=5% nebo q=95%
Data mining, p ednáška 3, Miroslav Skrbek
19
Mezikvartilové rozp tí
Q = QIII − QI
Ur íme horní kvartil QIII = x0,75 a dolní kvartil QI=x0,25 a hodnoty
ode teme.
Na rozdíl od sm rodatné odchylky není mezikvartilové rozp tí
citlivé na odlehlé hodnoty. To znamená, že použjeme-li medián
na místo aritmetického pr m ru, tak m žeme použít
mezikvartilové rozp tí místo sm rodatné odchylky.
Mezikvartilové rozp tí íká, se v intervalu nachází 50% všech
hodnot.
Data mining, p ednáška 3, Miroslav Skrbek
20
Kvartily a medián prakticky
Data: 6 1 3 5 6 2 1 2 1 5 4
Se adit
od
nejmenší
ho
Dolní
kvartil
1
1
1
Horní
kvartil
Medián
2
2
3
4
5
Data mining, p ednáška 3, Miroslav Skrbek
5
6
6
21
Centrální momenty
mk = E ( X − E[ X ])
1
mk =
n
k
n
k
[( x − x ) ]
Centrální momenty
charakterizují tvar
rozd lení
pravd podobnosti.
i =0
a pro x = 0
Rozptyl
m1 = 0
1
m2 =
n
n
xi2
i =1
1
m3 =
n
1
m4 =
n
n
xi3
i =1
n
xi4
i =1
Data mining, p ednáška 3, Miroslav Skrbek
22
Šikmost, špi atost
Šikmost
γ1 =
γ1 > 0
m3
σ
Špi atost
3
γ1 < 0
Pozn.: referencí pro špi atost je
normální rozd lení. Pro kladné
hodnoty je špi at jší, pro záporné
mén špi até než normální rozd lení
Data mining, p ednáška 3, Miroslav Skrbek
γ2 =
m4
σ
4
−3
γ2 > 0
γ2 < 0
23
Šikmost a špi atost v Excelu
Funkce SKEW (Šikmost)
n
γ1 =
( n − 1)( n − 2)
n
i =1
xi − x
s
3
Funkce KURT (Špi atost)
n( n + 1)
γ2 =
( n − 1)( n − 2)( n − 3)
n
i =1
xi − x
s
4
3( n − 1) 2
−
( n − 2)( n − 3)
Srovnejte s p edchozími vztahy pro velká n
Data mining, p ednáška 3, Miroslav Skrbek
24
Použítí moment
Momenty charakterizují rozd lení pravd podobnosti
diskrétní nebo spojité náhodné veli iny.
Pokud máme rozsáhlý soubor dat, tak jej m žeme
vizualizovat v podob histogramu.
Pokud ale data chceme dále íseln zpracovávat,
m žeme celý soubor dat nahradit centrálními
momenty a tím dosáhnout zna né redukce dat pro
následné zpracování.
P íklad: v rozpoznávání se centrální momenty
používají jako charakteristiky tvaru objektu. Na
základ t chto charakteristik se objekt rozpoznává.
Centrální momenty jsou invariantní v i posunutí.
Data mining, p ednáška 3, Miroslav Skrbek
25
Normální rozd lení
Hustota
pravd podobnosti
f(x)
0.4
( x−µ)2
− 2
2σ
1
N[µ,σ] =
e
σ 2π
Normální rozd lení
pat í mezi spojitá
rozd lení
Normální
rozd lení
N(0,1)
0.3
0.2
0.1
4
2
3
2
4
3
99,73% všech hodnot
Data mining, p ednáška 3, Miroslav Skrbek
26
Konstrukce histogramu pro spojité
veli iny s normálním rozd lením
N (µ,σ )
Plocha =
F(a)=P(X < a)
P
P(a
X
Plocha =
F(b)=
P(X < b)
N (µ , σ )
b)=F(b)-F(a)
Sloupec
histogramu
F(x) je tzv. distribu ní
funkce
dF ( x )
f ( x) =
dx
a
b
Data mining, p ednáška 3, Miroslav Skrbek
27
Normální rozd lení v Excelu
Hodnota
(na ose x)
f=PRAVDA … distribu ní funkce F(x)
f=NEPRAVDA … hustota pravd podobnosti f(x)
NORMDIST(x, µ, , f)
St ední
hodnota
Rozptyl
P(a X b)=NORMDIST(b,0,1, PRAVDA)-NORMDIST(a, 0, 1,
PRAVDA)
Vypo teno pro normální rozd lení N(0,1)
Data mining, p ednáška 3, Miroslav Skrbek
28
Korelace
ρ x, y =
E ( X .Y ) − E ( X ) E (Y )
E ( X 2 ) − ( E ( X )) 2 E (Y 2 ) − ( E (Y )) 2
Korelace vyjad uje míru závislosti dvou náhodných veli in.
Pro statisticky nezávislé veli iny je korelace rovna nule.
Mluvíme o veli inách, které nejsou korelované.
Pozor ! korelace reflektuje pouze lineární vztah mezi
veli inami
Pro nulové st ední
hodnoty
ρ x, y =
E ( X .Y )
E ( X 2 ) E (Y 2 )
Data mining, p ednáška 3, Miroslav Skrbek
29
Výpo et korelace
1
A=
n
1
B=
n
n
A
ai
i =1
n
bi
A− A
B
B−B
( A − A )( B − B )
1
5
-1,5
-0,25
0,375
2
-4
-0,5
-9,25
4,625
3
9
0,5
3,75
1,875
4
11
1,5
5,75
8,625
i =1
n
( ai − A )(bi − B )
ρ AB =
i =1
n
n
( ai − A )
i =1
2
(bi − B ) 2
i =1
Data mining, p ednáška 3, Miroslav Skrbek
30
Korelace v Excelu
1
13
A
B
C
0,640632
-0,0781
-0,07431
0,849731
0,549193
0,164519
0,235557
-1,29333
0,000272
0,478534
-0,5644
-0,02263
0,987972
0,963917
-0,03496
0,618721
-0,14384
0,23606
0,545767
-0,3627
-0,30772
0,916829
0,750488
0,380135
0,544866
-0,3654
0,075874
0,230149
-1,30955
-0,4638
0,382359
-0,85292
-0,00105
0,857963
0,573889
-0,43948
0,689791
0,069373
0,472912
Korelované
AB=1
BC=0,3
AC=0,3
Nekorelované
Nekorelované
Pom rn vysoká hodnota korelace 0,3 u
nekorelovaných atribut je zp sobena malým
vzorkem dat.
P íklad funkce v Excelu CORREL(A1:A13;B1:B13)
Data mining, p ednáška 3, Miroslav Skrbek
31
Autokorelace
Autokorelace
R(τ ) =
E (( X t − E ( X ))( X t +τ − E ( X ))
σ2
Umožní identifikovat periodické d je v datech nebo signálu
Periodický d j pro ur ité se projeví kladnou nebo zápornou
hodnotou na grafu R( ). Pokud perioda není p ítomna, je R( )
blízké nule.
Data mining, p ednáška 3, Miroslav Skrbek
32
Aplikace autokorelace
2
Vstupní
zašum ná data
s periodickou
složkou
1
200
400
600
800
1000
1
0.6
2
Autokorela ní
funkce R( )
0.4
0.2
200
400
600
800
1000
0.2
0.4
0.6
Data mining, p ednáška 3, Miroslav Skrbek
33
Kontingen ní tabulka
Nominální atributy
X
Y
0
A
0
N
1
A
1
A
0
N
0
N
0
A
0
N
1
N
0
N
Tabulka obsahuje etnosti
A
N
0
2
5
7
1
2
1
3
Celkem 4
6
10
Vyhodnocení kontingen ní tabulky dává
odpov zda jsou X a Y statisticky nezávislé.
Této tabulce se íká ty polní (má 4 pole)
Data mining, p ednáška 3, Miroslav Skrbek
34
Kontingen ní tabulka vyhodnocení
A
Pro nezávislé X a Y
platí, že
aij =
ri s j
2
χ =
i =1
1
a11
a12
r1
20 10 30
a21
s1
ri s j 2
)
N s ( aij −
n
ri s j
j =1
Chí-kvadrát
20 50 70
a22
r2
Celkem 40 60 100
n
Reálná data se budou
lišit, proto po ítáme
chybu
Nr
0
N
s2
V tabulce ur íme nebo funkcí v Excelu spo ítáme
hodnotu rozd lení chí-kvadrát pro požadovanou hladinu
významnosti a (Nr-1)(Ns-1) stupni volnosti. Pokud je
vypo tená hodnota v tší, hypotézu o nezávislosti
zamítneme. Funkce CHIINV.
V Excelu lze celý test sv it funkci CHITEST
Tento test je použitelný, pokud pro všechna i,j platí
ri*sj/n 5, jinak se doporu uje Fischer v test
[Berka,2003]
Data mining, p ednáška 3, Miroslav Skrbek
35
Kontingen ní tabulka – vyhodnocení
Skute né hodnoty
O ekávané hodnoty pro nezávislost
A
N
0
28
42
70
30
1
12
18
30
100
Celkem
40
60
100
A
N
0
20
50
70
1
20
10
Celkem
40
60
Hodnoty
ri s j 2
)
n
ri s j
(aij −
χ 2 = 2.3 + 1.5 + 5.3 + 3.5 = 12.6
A
N
0
2.3
1.5
70
1
5.3
3.5
30
Celkem
40
60
100
χ (21) (0.05) = 3.84 < χ 2 = 12.6
Hypotézu o nezávislosti zamítáme, mezi
veli inami je závislost
Data mining, p ednáška 3, Miroslav Skrbek
36
Data mining
UAI/691 P ednáška 4
Miroslav Skrbek
[email protected]
Ústav aplikované informatiky
P írodov decká fakulta
Jiho eské univerzity v eských Bud jovicích
Agenda
Úvod do programu RapidMiner
Data mining, Miroslav Skrbek (C)2011,2012
2
Literatura
Petr Berka: Dobývání znalostí z databází.
Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9
RapidMiner 5.0 - User Manual, Technická
dokumentace k programu RapidMiner.
Rapid-I GmbH,
2010.http://garr.dl.sourceforge.net/project/ra
pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf
Data mining, Miroslav Skrbek (C)2011,2012
3
RapidMiner
Nástroj pro zpracování, modelování a
vizualizaci dat
Integruje velké množství algoritm z
oblasti databází, statistiky a um lé
inteligence
Disponuje grafickým designérem pro
návrh schémat procesu zpracování dat
Data mining, Miroslav Skrbek (C)2011,2012
4
Import dat (CSV)
Soubor CSV
x1,x2,x3,x4
1.3,2,3.3,-11.1
5.7,4.4,-6,4
Operátor
na tení dat z
CSV
souboru
Odeslání
dat do
prohlíže e
výsledk
Data mining, Miroslav Skrbek (C)2011,2012
5
Data v prohlíže i výsledk
Datová matice
(datová množina)
Meta data
Data mining, Miroslav Skrbek (C)2011,2012
6
Typy atribut
Typ
Popis
nominal
Kategorická prom nná
numeric
íselné hodnoty
integer
Celo íselné hodnoty
real
Reálná ísla
binominal
Kategorická prom nná se dv ma kategoriemi (zvláštní p ípad nominal)
polynominal
Kategorická prom nná s více než dv ma kategoriemi
(zvláštní p ípad nominal)
date_time
asové razítko – datum a as
date
Datum (pouze)
time
as (pouze)
Data mining, Miroslav Skrbek (C)2011,2012
7
Role atribut
Role
Popis
regular
Data (typicky vstupy model )
label
Požadovaná požadovaný výstup modelu (odezva modelu)
outlier
Odlehlá hodnota
id
Identifikátor záznamu
weight
váha
cluster
shluk
Data mining, Miroslav Skrbek (C)2011,2012
8
Datová množina IRIS
Nejpopulárn jší databáze užívaná k testování algoritm v bec.
Zdroj dat: UCI databaze (http://archive.ics.uci.edu/ml/datasets)
Fisher,R.A. "The use of multiple measurements in taxonomic problems. Annual Eugenics, 7, Part II, 179188 (1936); also in "Contributions to Mathematical Statistics" (John Wiley, NY, 1950)..
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
7.7,2.6,6.9,2.3,Iris-virginica
6.0,2.2,5.0,1.5,Iris-virginica
Druh kosatce
X4 petal width in cm
X3 petal length in cm
X2 sepal width in cm
X1 sepal length in cm
Data mining, Miroslav Skrbek (C)2011,2012
9
Datová množina - Wine
Zdroj dat: UCI databaze (http://archive.ics.uci.edu/ml/datasets)
Forina, M. et al, PARVUS - An Extendible Package for Data Exploration, Classification
and Correlation. Institute of Pharmaceutical and Food Analysis and Technologies, Via
Brigata Salerno, 16147 Genoa, Italy.
1) Alcohol
2) Malic acid (kyselina jablečná)
3) Ash (popel)
4) Alcalinity of ash (zásaditost popela)
5) Magnesium (Hořčík)
6) Total phenols (fenoly)
7) Flavanoids (flavonoidy, vitamin P)
8) Nonflavanoid phenols
9) Proanthocyanins (třída flavonoidů)
10) Color intensity
11) Hue (Odstín)
12) OD280/OD315 of diluted wines (zředěná
vína)
13) Proline (druh aminokyseliny)
Data mining, Miroslav Skrbek (C)2011,2012
10
Datová množina - Digits
Rozpoznávání ru n psaných íslic - praktická aplikace: t íd ní obálek
na pošt
Okno 4x4
pixely
Po et erných
pixel v
odpovídajícím
okn 4x4 v
originálním
obrázku
(bílá 0, erná 16)
p edzpracování
32x32 pixel
( ernobílý obr.)
Pro tato m žeme vytvo it klasifikátor
{0,0,0,0,5,15,1,0,0,0,0,0,14,16,2,0,0,0,1,12,16,16,
2,0,0,1,13,16,12,16,0,0,0,4,13,2,8,13,0,0,0,0,0,0,9
,13,0,0,0,0,0,0,11,16,0,0,0,0,0,0,4,16,4,0,1}
Zdroj dat: UCI databaze
(http://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits)
E. Alpaydin, C. Kaynak, Department of Computer Engineering, Bogazici University, 80815
Istanbul Turkey, [email protected], July 1998
Data mining, Miroslav Skrbek (C)2011,2012
11
Vytvo ení trénovací a
testovací množiny
Trénovací
Množina
(ExampleSet)
Testovací
Množina
(ExampleSet)
Zp sob výb ru vzor z množiny
(stratified = rovnom rné zastoupení
vzor ze všech kategorií)
Data mining, Miroslav Skrbek (C)2011,2012
12
Data mining
UAI/691 P ednáška 5
Miroslav Skrbek
[email protected]
Ústav aplikované informatiky
P írodov decká fakulta
Jiho eské univerzity v eských Bud jovicích
1
Agenda
Normalizace dat
M ení podobnosti
Data mining Miroslav Skrbek (C) 2011
2
Literatura
Petr Berka: Dobývání znalostí z databází.
Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9
RapidMiner 5.0 - User Manual, Technická
dokumentace k programu RapidMiner.
Rapid-I GmbH,
2010.http://garr.dl.sourceforge.net/project/ra
pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf
Data mining Miroslav Skrbek (C) 2011
3
Normalizace dat
Transformace dat do požadované
rozsahu
Zavádí invarianci (nezávislost) v i
Posunutí
M ítku
ada algoritm používaných v
dataminingu vyžaduje normalizovaná
data
Data mining Miroslav Skrbek (C) 2011
4
Normalizace - motivace
Posunutí
I)
II)
Me ítko
Normalizace
M ítko
1
III)
Písmena na obr. I a II
nelze p ímo porovnat,
mají r zné velikosti a
posunutí (r zn
umíst na na papí e)
0
Po normalizaci obou písmen do rozsahu
<0,1>, lze písmena velmi dob e porovnat
pouhým porovnáním hodnot v x-ové a y-ové
sou ednici.
1
Data mining Miroslav Skrbek (C) 2011
5
Norma min-max
x − xmin
( ymax − ymin ) + ymin
y=
xmax − xmin
Kde x je prom nná, kterou normalizujeme (atribut, který normalizujeme) a y je
normalizovaná prom nná. xmin/xmax je minimiální/maximální hodnota v datech a ymin/ymax je
minimální a maximální hodnota normalizované prom nné. ymin a ymax ur uje rozsah, do
kterého prom nnou x transformujeme.
P íklad: normalizujte do rozsahu <-1,1>, víte-li (nebo jste zjistili),
že data jsou v rozsahu <-4, 8>.
xmin = -4, xmax=8, ymin=-1, ymax=1
y = (x-(-4))/(8-(-4))(1-(-1))+(-1)=(x+4)/12*2=(x+4)/6-1
x=2,y=0;x=-1,y=-1/2; x=5,y=1/2; x=-4, y=?; x=8, y=?
Data mining Miroslav Skrbek (C) 2011
6
Z-scores
N[-8,0.7]
z=
x−µ
Normované
normální rozd lení
N[0,1]
Normalizace
Normalizace
N[10,3]
σ
Kde x je prom nná, kterou normalizujeme (atribut, který normalizujeme) a z je normalizovaná
prom nná. je st ední hodnota x a je rozptyl x. Normalizovaná prom nná z má st ední hodnotu
nula a rozptyl 1.
Data mining Miroslav Skrbek (C) 2011
7
Euclideovská norma (L2)
Používá se pro normalizaci vektor . Neaplikuje na jednotlivé atributy,
tj. sloupce datové matice, jako Min-Max a Z-scores, ale na ádky, a to
na všechny nebo na vybranou podmnožinu atribut . ádek datové
matice nebo vybraná podmonožina atribut se považuje za vektor.
x
, yi =
y=
|| x ||
xi
N
2
i
x
x1 x2 x3
1 4 -5
-2 3 7
||x||
y1
6.48 0.15
7.87 -0.25
y2
y3
0.62 -0.77
0.38 0.89
i =1
Kde x je ádkový vektor v datové matici a y je normalizovaný vektor. Normou je velikost vektoru ||x||. N je
dimenze vektoru (po et složek).
Normovaný vektor je invariantní (nezávislý) v i velikosti vektoru,
ale zachovává sm r vektoru
Data mining Miroslav Skrbek (C) 2011
8
Normalizace v RapidMineru
Range transformation … Norma Min-Max
Z-transformation
… Z-scores
Ur ení rozsahu
(Pouze pro MinMax normu)
Data mining Miroslav Skrbek (C) 2011
Výb r
metody
9
Použití normalizace p i
klasifikaci dat
Vzor
Data 1
(biometrická data,
obrázek, …)
Data 2
Data 3
Normalizace
Normalizace
Normalizace
||d1-v||
||d2-v||
||d3-v||
v
Normalizace
v
v
práh
prahování
Ano/
Ne
prahování
Ano/
Ne
prahování
Ano/
Ne
Data mining Miroslav Skrbek (C) 2011
10
Míry podobnosti
V data miningu je asto t eba data porovnávat
(nap . p i shlukové analýze)
Porovnávají se
Vektory
Funk ní závislosti (typicky na ase)
et zce
Soubory dat (množiny)
Skute ná podobnost (Karel je na fotografii podobný
Pavlovi, osoba na videu se pohybuje podobn jako
náš zlo inec, …) je t žko matematicky popsatelná,
eší se kombinací jednoduchých matematických
metod (více i mén úsp šn )
Data mining Miroslav Skrbek (C) 2011
11
Euclideovská vzdálenost
Vzdálenost dvou vektor
N
( ai − bi ) 2
d =|| a − b ||=
d
b
a-b
i =1
N je po et složek vektoru (dimenze)
a
Jedna z nej ast ji užívaných metrik. Shodné vektory mají
vzdálenost nula. Více odlišné vektory vykazují v tší
vzdálenost.
V porovnání obou vektor hraje významnou roli velikost
rozdíl složek t chto vektor .
Data mining Miroslav Skrbek (C) 2011
12
Skalární sou in
Není metrikou v matematickém slova smyslu, lze však
použít jako míru podobnosti.
a
N
a.b
=
cos(ϕ ) =
|| a || . || b ||
ai bi
i =1
N
N
2
i
bi2
a
i =1
b
1
i =1
cos( )
Skalární sou in vektor a.b d lený velikostmi vektor udává
cosinus úhlu m zi t mito vektory. Shodné vektory vykazují
hodnotu jedna a vektory kolmé (nejodlišn jší) vykazují
hodnotu 0.
V porovnání se nebere z etel na velikost vektor , ale jejich
vzájemný úhel.
Data mining Miroslav Skrbek (C) 2011
13
Hammingova vzdálenost
Uvažujeme binární vektory.
N
d=
ai ⊕ bi
i =1
Hammingova vzdálenost je po et složek, ve kterých se
dva vektory liší. Plus v kroužku ozna uje operaci XOR.
10111010101001
11111000000000
vzdálenost: 5
Data mining Miroslav Skrbek (C) 2011
14
Levensteinova vzdálenost výpo et
d(i,j)
i
S1="aoj", S2="ahoj"
j
3
2
2
2
1
!=
o
2
1
1
1
2
!=
!=
a
1
0
1
2
3
2
3
4
0
1
2
3
4
h
o
j
a
h
o
j
j
3
!=
!=
!=
==
o
2
!=
!=
==
a
1
==
!=
0
1
a
i=3
i=0
j=0
Tento vypo et provádíme
pro i = 1, i <= delka(s1); i++
pro j = 1, j <= delka(s2); j++
P edpokládáme, že je
p edem do tabulky
vypln no d(0,j)=j, d(i,0)=i
a d(0,0)=0.
Výsledná
vzdálenos
t
j
j=4
et zy jsou indexovány
od jedni ky !
d (i, j − 1) + 1
d (i, j ) = min d (i − 1, j ) + 1
d (i − 1, j − 1) + ( s1(i )!= s 2( j ))
Data mining Miroslav Skrbek (C) 2011
15
Levensteinova vzdálenost
Slouží k porovnání dvou et zc . Jedná o tzv. edita ní vzdálenost.
et zci se postupuje zleva doprava. Pokud je na daném míst
shoda ve znacích, vzdálenost se nem ní. Je-li nutné pro dosažení
shody p idat (nebo odebrat znak), zv tšuje se se vzdálenost o
jedni ku.
Vyhodnocení se provádí metodou dynamického programování.
D=0
Ahoj
Ahoj
D=1
Aoj
Ahoj
D=1
Ahooj
Ahoj
Data mining Miroslav Skrbek (C) 2011
16
Data mining
UAI/691 P ednáška 5-6
Miroslav Skrbek
[email protected]
Ústav aplikované informatiky
P írodov decká fakulta
Jiho eské univerzity v eských Bud jovicích
1
Agenda
Lineární regrese
Data mining Miroslav Skrbek (C) 2011
2
Literatura
Petr Berka: Dobývání znalostí z databází.
Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9
RapidMiner 5.0 - User Manual, Technická
dokumentace k programu RapidMiner.
Rapid-I GmbH,
2010.http://garr.dl.sourceforge.net/project/ra
pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf
Data mining Miroslav Skrbek (C) 2011
3
Lineárn závislé veli iny a
veli iny s lineárním trendem
Pr m r
Pr m r
y
y
4
60
50
3
40
30
2
Standardní
odchylka
10
20
Standardní
odchylka
1
20
30
40
10
10
50
20
30
40
50
t
t
Lineární závislost
veli in
Lineární
trend
60
y
60
50
50
40
y
40
30
30
20
20
10
10
10
10
20
30
40
20
50
30
40
50
t
x
Data mining Miroslav Skrbek (C) 2011
4
y
Lineární regrese
Strmost
p ímky
60
50
yi = q1 xi + q0 + ε i
40
y = q1 x + q0
30
i
20
10
10
20
30
40
Posunutí
(hodnota p i
protnutí
osy y, x=0)
50
Cílem lineární regrese je nalézt takové parametry q0 a q1, aby sou xet všech
odchylek i p es všechna data byl minimální.
Jedná se o jednoduchou optimaliza ní úlohu,
kterou lze ešit metodou nejmenších tverc
Data mining Miroslav Skrbek (C) 2011
5
Matematika: parciální derivace
M jme funkci f(x1, x2, x3, …xn) více prom nných. Tato funkce má v bod
B=(b1,b2, b3,…,bn) parciální derivaci podle xi, pokud existuje limita
∂f ( x1 , x2 ,
∂xi
, xn )
= lim
h→0
f ( x1 + h, x2 ,
, xn ) − f ( x1 , x2 ,
h
, xn )
Pro výpo et parciální derivace využíváme stejná pravidla, jako v p ípad funkce jedné
prom nné, p i emž všechny prom nné vyjma té, podle které derivujeme, považujeme
za konstanty (tj. jejich derivace jsou rovny nule).
P íklad:
f ( x, y , z ) = 5 x 2 − 8 log( y ) + sin(ωz )
∂f ( x, y, z )
∂f ( x, y, z )
1 ∂f ( x, y, z )
= 10 x,
= −8 ,
= ω cos(ωz )
∂x
∂y
y
∂z
Data mining Miroslav Skrbek (C) 2011
6
Výpo et q1 a q0 metodou
nejmenších tverc
N
D = {[ xi , yi ], i ∈< 1, N >}
min( E ) ≈
∂E
∂E
= 0,
=0
∂q0
∂q1
N
−2
i =1
N
−2
i =1
x + 2q0
i =1
N
N
x −
i =1
i =1
i =1
x −
i =1
q1 =
N
N
xi yi −
i =1
xi
i =1
N
i =1
yi
i =1
2
N
xi2 −
n
Data mining Miroslav Skrbek (C) 2011
xi
i =1
N
n
xi
i =1
2
N
2
i
n
i =1
xi yi
N
xi = 0
N
2
i
yi
N
2
i
yi xi + 2q1
N
q0 =
xi + 2q0 n = 0
i =1
N
i =1
q0 , q1
N
yi + 2q1
( yi − q1 xi − q0 ) 2
E=
xi
i =1
7
Vícerozm rná lineární regrese
Data prokládáme rovinou a hledáme takovou orientaci
roviny v prostoru, aby se minimalizoval sou et chyb pro
všechny ádky datové matice.
Data mining Miroslav Skrbek (C) 2011
8
Vícerozm rná lineární regrese
yi = q0 + q1 xi1 + q2 xi 2 + q3 xi 3 + q4 xi 4 + ... + qm xim + ε i
y1
Y = ... , X =
yn
T
1
...
x11 ... x1m
q1
... ... ... , q = ...
1
xn1 ... xnm
−1
T
q = (X X) X y
qm
xi1
xi2
xi3
y
1
0.3
-1.2
5
0.2
-5.1
0.2
2
-2.3
1.4
2.2
-3
1.1
0
-0.8
3
P evzato z: Petr Berka: Dobývání znalostí z databází. Nakladatelství
ACADEMIA, 2003. ISBN 80-200-1062-9
Data mining Miroslav Skrbek (C) 2011
9
Linearizace nelineárních
závislostí
x
1
2
3
…
250
200
150
y
-19.7
-13.9
-23.4
100
P idáme x2
50
10
20
30
y = q0 + q1 x + q2 x
40
50
2
Podobn m žeme p idávat další nelineární
leny x3,x4
Data mining Miroslav Skrbek (C) 2011
x
1
2
3
…
x2
1
4
9
y
-19.7
-13.9
-23.4
Pak již ešíme
lineární úlohu
10
Interakce
P íklad pro dv nezávislé prom nné
interakce
y = q0 + q1 x1 + q2 x2 + q3 x1 x2 + q4 x12 + q5 x22
Bez
interakce
P ílišný po et
interakcí m že
vést k špatnému
modelu
S interakcí
Data mining Miroslav Skrbek (C) 2011
11
Linearní regrese v Rapid
Mineru
Modeling Function Fitting
Linear Regression
Data mining Miroslav Skrbek (C) 2011
12
Datová matice pro lineární
regresi
Numerické atributy (1 a více)
Jeden numerický atribut v roli label
Nominální atributy je t eba konvertovat
na numerické
Data mining Miroslav Skrbek (C) 2011
13
Základní funkcionalita
Automatický výb r atribut je
vypnut – všechny atributy
vstupují do regrese
Vy azení lineárn závislých
atribut
Za azení lenu q0 (posunutí)
Pokud je det(XTX) je blízký
nule, pak se použije
modifikovaný algoritmus, který
využívá tento parametr.
Data mining Miroslav Skrbek (C) 2011
14
Rozší ená funkcionalita
Automatický výb r atribut
Speciálním algoritmem (viz. parametr: feature selection)
se vybere taková podmnožina atribut , pro které je
lineární regrese nejp esn jší.
Vy azení závislých atribut (Eliminate colinear
features). Závislé atributy nenesou žádnou novou
informaci a zp sobují problémy p i výpo tu vektoru
q. Parametr minimum tolerance ur uje míru
závislosti pro vy azení
Vynechání posunutí, tj. koeficientu q0, z modelu
(use bias nezaškrtnuto)
Data mining Miroslav Skrbek (C) 2011
15
Data mining
UAI/691 P ednáška 5-6
Miroslav Skrbek
[email protected]
Ústav aplikované informatiky
P írodov decká fakulta
Jiho eské univerzity v eských Bud jovicích
1
Agenda
Shluková analýza
Data mining Miroslav Skrbek (C) 2011
2
Literatura
Petr Berka: Dobývání znalostí z databází.
Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9
RapidMiner 5.0 - User Manual, Technická
dokumentace k programu RapidMiner.
Rapid-I GmbH,
2010.http://garr.dl.sourceforge.net/project/ra
pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf
Data mining Miroslav Skrbek (C) 2011
3
Shluková analýza
D ležitá metoda analýzy dat
eší problém nalezení podobností v
neznámých datech
Podobná data typicky leží v prostoru blízko
sebe (tvo í shluky)
Zajímají nás parametry shluku jako je st ed
(težišt ) a velikost (rozptyl). Vzory v okolí
st edu m žeme považovat za reprezentanty
shluku (typické hodnoty)
Data mining Miroslav Skrbek (C) 2011
4
P íklad
Máme data z vyšet ení od skupiny pacient a máme zjistit, zda existují
takové podskupiny skupiny pacient , kte í mají podobné výsledky
vyšet ení. V dalším kroku pak zkoumáme, zda tyto skupiny náležejí k
zdravým, i nemocným, p ípadn s jakou závažností nemoci, p ípadn
které nemoci.
Data pacient s obdobnými p íznaky nemoci budou podobná a budou tvo it shluky. Pacienti,
ležící ve st edu shluku reprezentují typického pacienta s danou formou nebo závažností nemoci.
O ekáváme, že najdeme vztah mezi výsledky vyšet ení a úsudkem léka e (když to léka pozná
musí takový vztah existovat).
Pokud nenajdeme vztah shluk ke zdraví pacient , pak patrn bude chybná diagnostická
metoda, která dostate n nevypovídá o diagnostikované nemoci. P edpokládáme, že známe
spolehliv stav pacient z úsudku léka e, který používá jinou diagnostickou metodu.
Jiným p íkladem pak bude zkoumání dat o zákaznících mobilních operátor , kde nám m že
nap . tato metoda pomoci nalézt novou cílovou skupinu zákazník . Podobn se m žeme zam it
na uživatele Internetu, e-maily (spam), hledání typického chování hacker , apod.
Data mining Miroslav Skrbek (C) 2011
5
P íklad shluk v datech
Shluk
St ed (typický
reprezentant)
Data mining Miroslav Skrbek (C) 2011
6
Shlukování dat
Hledání podmnožin podobných vzor
Definice podobnosti na rozdíl od shodnosti
je nejasná, používají se r zné metriky
Hammingova
Euklideovská
ebyševova
Výsledkem jsou sob podobné množiny
vzor , interpretace (co znamenají, kdo jsou
ti v množin ) je na expertovi a výsledcích
dalších analýz
Data mining Miroslav Skrbek (C) 2011
7
Hierarchické shlukování
Metoda shlukování metodou zdola nahoru
Na za átku každý vzor (p ípad, example,
ádek datové matice) je umíst n do
samostatného shluku (co vzor, to shluk)
Pak opakovan shluky spojujeme, až
získáme jeden shluk, obsahující všechny
vzory.
Spojujeme blízké shluky, spojování si
poznamenáváme ve form stromu.
Data mining Miroslav Skrbek (C) 2011
8
Ur ení vzdálenosti mezi shluky
(pro p edem stanovenou metriku)
Metoda nejbližšího souseda
Vzdálenost mezi shluky A a B je dána minimem
vzdálenosti mezi vzory shluk A a B
Metoda nejvzdálen jšího souseda
Vzdálenost mezi shluky A a B je dána maximem
vzdálenosti mezi vzory shluk A a B
Metoda pr m rné vzdálenosti
Vzdálenost mezi shluky A a B je dána pr m rnou
vzdáleností mezi vzory shluk A a B
Metoda centroidní
Vzdálenost mezi shluky je dána vzdáleností st ed shluku
Data mining Miroslav Skrbek (C) 2011
9
Dendrogam
Zachycuje hierarchii shluk .
6
íslo
shluku
Data
shluku 6
5
Data shluku 3,4,5
4
3
2
Data shluku 2
1
Data shluku 1
Data mining Miroslav Skrbek (C) 2011
10
K-means algoritmus
1. Odhadneme po et shluk .
2. Náhodn vygenerujeme st edy shluk . Po et st ed je
roven po tu shluk , st ed je reprezentován vektorem s
stejnou dimenzí, jako je dimenze vektor , které tvo í
shlukovaná data (tj. po et atribut ve vzoru).
3. Ur íme, k jakému shluku pat í jaký vzor. Daný vzor
pat í do toho shluku, k jehož st edu je nejblíže
(minimální Euclideovská vzdálenost (nebo jiná
vzdálenost) od daného st edu)
4. Z dat, která náleží shluku vypo teme nový st ed
(postupn po atributech po ítáme pr m r p es všechny
vzory ve shluku) a nahradíme jím p vodní st ed
shluku. Toto provedeme pro všechny shluky.
5. Body 3 a 4 opakujeme do ustálení (tj. do doby, kdy se
st edy posunou o mén než je zadaná hodnota)
6. Ukon íme algoritmus
Data mining Miroslav Skrbek (C) 2011
11
Shlukování algoritmem
K-means
Data mining Miroslav Skrbek (C) 2011
12
Data mining
UAI/691 P ednáška 10-11
Miroslav Skrbek
[email protected]
Ústav aplikované informatiky
P írodov decká fakulta
Jiho eské univerzity v eských Bud jovicích
1
Agenda
Modelování
Klasifikace
Rozhodovací stromy
Vyhodnocení modelu
Data mining Miroslav Skrbek (C) 2011
2
Literatura
Petr Berka: Dobývání znalostí z databází.
Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9
RapidMiner 5.0 - User Manual, Technická
dokumentace k programu RapidMiner.
Rapid-I GmbH,
2010.http://garr.dl.sourceforge.net/project/ra
pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf
Data mining Miroslav Skrbek (C) 2011
3
Modelování
Významná sou ást data mininigu, zejména procesu dobývání
znalostí
Vstupem modelování jsou p edzpracovaná data
Výstupem modelování jsou znalosti ve form
Reprezentant (etalon ve form hodnot nebo vektor )
Funkcí (jednotlivých nebo sm si funkcí)
Pravidel
Modely mohou být
Jednoduché
Komplexní
Sou asný trend v modelování zahrnuje
Kombinování model
Volbu modelu na základ meta informací o datech a
modelovacích metodách
Data mining Miroslav Skrbek (C) 2011
4
Rozhodovací stromy
Znalosti jsou reprezentovány v podob strom
Uzly reprezentují ur itou t ídu dat
V tvení reprezentuje strukturu dané t ídy dat
Postup metodou rozd l a panuj
Trénovací množina se postupn d lí tak, aby v každé
množin p evládala data jedné t ídy.
Algoritmus je vhodný pro kategorická data, po
úpravách i pro numerická data
Rozhodovací stromy se používají pro
Regresi (regresní stromy)
Klasifikaci (klasifika ní stromy)
Data mining Miroslav Skrbek (C) 2011
5
Základní algoritmus
1. Zvolit jeden atribut (ko en podstromu)
2. Data rozd lit podle hodnot zvoleného
atributu na podmnožiny a každé podmnožin
p i adit nový uzel stromu
3. Pokud existuje uzel, kde všechna data
nepat í do téže t ídy, pak zp t na bod 1
4. Ukon i algoritmus
Zdroj: Petr Berka: Dobývání znalostí z databází. Nakladatelství ACADEMIA,
2003. ISBN 80-200-1062-9
Data mining Miroslav Skrbek (C) 2011
6
P íklad
DATA
. x1
01 1
02 2
03 4
04 2
05 1
06 1
07 2
08 1
x2
n
a
a
n
n
n
a
a
ko en
x1=1
x3
n
v
v
n
v
v
n
n
kat.
1
2
2
2
3
3
3
3
|
|
|
|
|
|
|
|
|
U1
U2
x2=a
Vzory
1,5,6
U4
x3=n
Vzor
8
Kat. 3
Kat. 1
Kat. 2
Data mining Miroslav Skrbek (C) 2011
x1=4
Vzory
2,4,7
x2=a
Vzor
3
Kat. 2
x2=n
Vzory
2,7
U3
x3=v
Vzory 5,6
Kat. 3
Vzor 1
Všechny vzory spadají do
kategorie 3, není nutno
dále d lit
x1=2
Vzory
1,5,6,8
x2=n
Vzory
1-8
Kat. 2
Vzor
4
x3=n
x3=v
Vzory
2
Vzory
7
Kat. 3
7
Volba atributu pro v tvení
Cílem je vybrat atribut, který nelépe odliší p íklady r zných
t íd, tj.
Maximalizovat po et vzor téže t ídy v podmnožinách vzniklých
rozd lením množiny daným atributem.
Používaná kriteria
Entropie (minimalizace entropie – neur itosti - náhodnosti v
podmnožinách)
Informa ní zisk (maximalizace redukce entropie p i použití
zvoleného atributu. Vztahuje se na entropii po ítanou pro daný
atribut pro celá data)
Pom rný informa ní zisk (informa ní zisk d lený po tem v tvení,
zohled uje po et hodnot atributu)
Gini index (vychází z po tu p íklad dané t ídy zjiš ované na
n jaké množin nebo podmnožin )
Chí kvadrát
Data mining Miroslav Skrbek (C) 2011
8
Výb r atributu dle entropie
Výb r atributu dle entropie:
1. Pro všechny atributy A a hodnoty v, které atribut nabývá, spo ti entropie
takto:
1. Pro všechny t ídy t ={1,2,..Nt} spo ti pravd podobnost, že je t ída t
pokryta atributem hodnoty v, tj. spo ítej etnost p íklad , které spadají
do t ídy t a mají vybraný atribut A roven hodnot v a pod l po tem
p íklad s hodnotu atributu A rovnou v.
2. Na základ pravd podobností spo ti entropii pro daný atribut a jeho
konkrétní hodnotu
2. Pro každý atribut A spo ti st ední entropii H(A) p es všechny možné
hodnoty v atributu. Entropii násobíme pom rem po tu p íklad atributu A s
hodnotou v k celkovému po tu p íklad a se teme.
3. Vybereme atribut s nejmenší st ední entropií.
Data mining Miroslav Skrbek (C) 2011
9
Informa ní zisk
Z(A)=H(C)-H(A)
Kde H(A) je vypo tená hodnota z minulého slidu a H(C) je entropie
t íd atributu reprezentujícím t ídy.
T
H (C ) = −
pt log pt
t =1
Data mining Miroslav Skrbek (C) 2011
pt =
nt
n
10
Testování klasifika ních
model
Testování na trénovacích datech
K ížová validace
Leave-one-out
Bootstrap
Testování na testovacích datech
Data mining Miroslav Skrbek (C) 2011
11
Testování na trénovacích
datech
Má omezenou vypovídací schopnost
íká nám, jak p esn se model p iblížil
trénovacím dat m
Nepostihuje schonost modelu zevšeobe ovat (tj.
reagovat na neu ená data)
Neodhalí p eu ení modelu
Nedostate ná metoda pro vytvo ení
kvalitního modelu
Data mining Miroslav Skrbek (C) 2011
12
K ížová validace
Dostupná data se rozd lí na n ásti
(nap . n=10)
9/10 dat se použije pro u ení
1/10 dat se použije pro testování
Provede se celkem n test a výsledky
se zpr m rují
Data mining Miroslav Skrbek (C) 2011
13
Leave-one-out
Obdoba k ížové validace
Máme-li n vzor , n-1 u íme a jeden
použijeme na testování
Provedeme tedy n test a výsledky
zpr m rujeme
Metoda m že být asov náro ná
Data mining Miroslav Skrbek (C) 2011
14
Bootstrap
Vzory do trénovací množiny z dostupných
dat vybíráme tak, že se n které vzory
mohou opakovat
Zbylé vzory použijeme pro testování
Po ty vzor jsou
P ibližn 63% trénovacích
P ibližn 37% testovacích
Tyto hodnoty platí za p edpokladu, že trénovací
množina má stejný po et vzor jako má datová
množina, ze které trénovací množinu vytvá íme.
Data mining Miroslav Skrbek (C) 2011
15
Náhodný výb r
Z dostupných dat vybereme
75% pro trénování
25% pro testování
Vzory se neopakují
Testování se provede jen jednou
Data mining Miroslav Skrbek (C) 2011
16
Matice zám n (confusion
matrix)
Matice, kde ádky odpovídají
odpov dím modelu a sloupce
správným odpov dím
Pro bezchybný klasifikátor jsou
nenulové hodnoty pouze na hlavní
diagonále
Sou et všech hodnot v matici je roven
po tu vzor
Data mining Miroslav Skrbek (C) 2011
17
P íklad pro 2 hodnoty
Správn
Ano
Správn
NE
Model
Ano
True
Positive
(TP)
False
Positive
(FP)
Model
Ne
False
Negative
(FN)
True
Negative
(TN)
Data mining Miroslav Skrbek (C) 2011
18
Vyhodnocení
Acc =(TP+TN)/(TP+TN+FP+FN)
Celková správnost (accuracy)
Err = (FP+FN)/(TP+TN+FP+FN)
Celková chyba
P esnost = TP / (TP + FP)
Úplnost = TP / (TP +FN)
F - míra
F=2.P esnost.Úplnost/(P esnost+Úplnost)
Data mining Miroslav Skrbek (C) 2011
19
Data mining
UAI/691 P ednáška 10-11
Miroslav Skrbek
[email protected]
Ústav aplikované informatiky
P írodov decká fakulta
Jiho eské univerzity v eských Bud jovicích
1
Agenda
Asocia ní pravidla
Data mining Miroslav Skrbek (C) 2011
2
Literatura
Petr Berka: Dobývání znalostí z databází.
Nakladatelství ACADEMIA, 2003. ISBN 80200-1062-9
RapidMiner 5.0 - User Manual, Technická
dokumentace k programu RapidMiner.
Rapid-I GmbH,
2010.http://garr.dl.sourceforge.net/project/ra
pidminer/1.%20RapidMiner/5.0/rapidminer5.0-manual-english_v1.0.pdf
Data mining Miroslav Skrbek (C) 2011
3
Asocia ní pravidla
Pravidlo typu
atribut
hodnota
IF … THEN …
IF x1==ano && x2==stredne THEN x3==ne
P edpokládají se kategorické hodnoty, numerické hodnoty se musí
diskretizovat.
Z hodnot atribut se vytvá ejí konjunkce
nap : x1(ano), x2(stredne), x3(ne), x1(ano) & x2(stredne), x1(ne)
& x3(ne), x2(malo) & x3(ano), x1(ano) & x2(malo) & x3(ano)
a po ítají se etnosti výskytu výše uvedených kombinací pro konkrétní
hodnoty atribut .
Data mining Miroslav Skrbek (C) 2011
4
Hodnocení pravidel
IF Ancestor THEN Successor
Ancestor – p edpoklad
Successor - záv r
a,b,c,d jsou etnosti výskytu
a+b+c+d je po et p íklad
(po et ádk datové matice)
ty polní tabulka
Successor
(pravdivý)
Successor
(nepravdivý)
Ancestor
(pravdivý)
a
b
Ancestor
(nepravdivý)
c
d
Podpora (support) =
a/(a+b+c+d)
Spolehlivost(confidence) =
a/(a+b)
Data mining Miroslav Skrbek (C) 2011
5
P íklad
X1(A,N)
X2(1,2,3,4)
X3(S,M,L)
A
1
S
N
2
S
N
3
M
A
2
S
N
4
L
N
2
L
N
3
L
Po et p íklad n = 7
Kombinace
etnost
spol.
X3==S
--------------------------------X1(A) ………………………… 2 2/7
1
X1(N) ………………………… 5 5/7
1/5
X2(1) ………………………… 1 1/7
1
X2(2) ………………………… 3 3/7
2/3
X2(3) ………………………… 2 2/7
0
X2(4) ………………………… 1 1/7
0
X3(S) ………………………… 3 3/7
1
X3(M) ………………………… 1 1/7
0
X3(L) ………………………… 3 3/7
0
X1(A)X2(1) …………… 1 1/7
1
X1(N)X2(2) …………… 2 2/7
1/2
X1(N)X3(L) …………… 3 3/7
0
X1(N)X2(3)X3(L)… 1 1/7
0
Data mining Miroslav Skrbek (C) 2011
podp.
6
Algoritmus apriori
Nejznám jší algoritmus pro hledání asocia ních
pravidel (Agrawal, 1996)
Založen na hledání kombinací atribut s vysokou
etností
Postupuje se od kombinací délky k=1 výše
Kombinace délky k vzniknou spojením dvojic
kombinací délky k-1.
Po nagenerování kombinací délky k se provádí
pro ezání (prunning). Odstra ují se kombinace,
které po spojení nemají k-2 shodných kategorií a ty,
které nemají n kterou z podkombinací délky k-1
obsaženou v seznamu kombinací délky k-1
Data mining Miroslav Skrbek (C) 2011
7
V Rapid Mineru
uvnit
Data mining Miroslav Skrbek (C) 2011
8
Data mining
UAI/691 P ednáška 14
Miroslav Skrbek
[email protected]
Ústav aplikované informatiky
P írodov decká fakulta
Jiho eské univerzity v eských Bud jovicích
1
Agenda
Kombinování model
Visualizace
Analýza textu
Data mining Miroslav Skrbek (C) 2011
2
Kombinování model
Nejlepších výsledk nelze dosáhnout
jedním modelem
Lepších výsledk se dosahuje
kombinováním model
Metody
Bagging
Boosting
Data mining Miroslav Skrbek (C) 2011
3
Bagging
Všechny modely mají stejnou váhu
Z trénovacích dat se vytvo í
podmnožiny (náhodný výb r s
opakováním) a na každou množinu se
nau í jeden model
Vytvo ené modely hlasují o výsledku
Data mining Miroslav Skrbek (C) 2011
4
Boosting
Modely se vytvá ejí postupn
Nov jší modely mají v tší váhu hlasu
P i u ení se nov vytvo ený model
zam uje na data, která byla špatn
klasifikována
Data mining Miroslav Skrbek (C) 2011
5
Grafické znázorn ní dat
Poskytuje velmi cenné informace, které je
možné užít pro volbu p edzpracování nebo
modelu
Problémem je omezení do dimenze max. 3
Pro vyšší dimenze je nutno použít method
pro redukci dimenze nap . PCA (Principal
Component Analysis)
Existuje velké množství zobrazovacích
metod (typ graf )
D ležitý pro prezentaci výsledk analýzy
Data mining Miroslav Skrbek (C) 2011
6
Základní grafy
Bodový, spojnicový
Sloupcový (2D, 3D)
Sloupcový kumulativní (2D, 3D)
XY (2D), XYZ (3D)
Kolá ový
Polární sou adnice
Data mining Miroslav Skrbek (C) 2011
7
Základní grafy
Spojnicový
Kolá ový
XY
1,5
2
1,5
1
1
0,5
0,5
1
2
0
0
ada1
1
3
5
7
9
-1,5
11 13 15 17 19 21 23 25 27 29
-1
-0,5
ada1
0
0,5
1
3
1,5
4
5
-0,5
-0,5
-1
-1
-1,5
-2
-1,5
Polární
Sloupcový
Sloupcový kumulativní
1,2
2,5
1
29
30 30
2
3
25
28
27
4
26
1
6
15
10
25
0,8
7
5
24
2
5
20
1,5
8
0
ada1
23
ada1
0,6
22
10
21
ada2
ada2
9
ada1
1
0,4
11
20
12
19
0,5
0,2
13
18
17
15
16
14
0
0
1
2
3
4
5
Data mining Miroslav Skrbek (C) 2011
1
2
3
4
5
6
8
Pokro ilé grafy
Scatter plot
Paralelní
Graf (uzly, hrany, orientovaný i neorientovaný)
Zobrazení vztahu (silou áry míru síly) mezi entitami
Matice zám n (barvou chyby/správn , odstínem
velikost)
ROC k ivka
Hodnocení klasifikátoru
Spektrogram
Data mining Miroslav Skrbek (C) 2011
9
Scatter plot
Scatter Matrix
Scatter
Data mining Miroslav Skrbek (C) 2011
10
Paralelní graf
Data mining Miroslav Skrbek (C) 2011
11
ROC k ivka
ROC (Receiver Operating Curve) se využívá u hodnocení klasifikátor
Konkrétní p íklad: te ka otisk prst – výstup akceptovat/neakceptovat
otisk
Pro testovací množinu sestrojíme sadu ty polnch tabulkek pro n který parametr rozpoznání
(typicky prahovou hodnotu) a ur íme False Acceptance Rate (FAR = chyba false negative)a
False Rejection Rate (FRR = chyba false positive). Získané hodnoty FRR a FAR vyneseme do
grafu.
ROC
k ivka
FAR
P íliš
benevolentní
Nejlepší
kompromis
mezi FAR a
FRR
Zm na parametru
P íliš
p ísné
FRR
Data mining Miroslav Skrbek (C) 2011
12
Zpracování textu
Slovníky
N-gramy
Bi-gramy
Trigramy
Stemming
Nahrazení slova jeho základem
Lematization
Obdobné jako stemming, ale s ohledem na
kontext
Data mining Miroslav Skrbek (C) 2011
13

Podobné dokumenty

API pro práci s XML

API pro práci s XML • rozšíření DOM o užitečné metody • např. knihovny MSXML a System.Xml umožňují pomocí vlastnosti Text zjistit textový obsah libovolného uzlu (včetně poduzlů) • tato možnost byla přidána až do DOM3 ...

Více

zde

zde všechny hodnoty jsou o h menší než by měly být. Tento posun celé množiny můžeme brát v úvahu, kdykoli přistupujeme k prvku množiny, zpomalí se tím práce s množinou pouze o konstantu. Pro celkový ča...

Více

Seminár Java VI

Seminár Java VI Koncepce v/v operací (2) Koncipovány jako "stavebnice" • lze vkládat do sebe a přidávat tak vlastnosti is = new InputStream(...); bis = new BufferedInputStream(is);

Více

Seminár Java VIII

Seminár Java VIII new FileReader(args[0])); BufferedOutputStream out = new BufferedOutputStream( new GZIPOutputStream(new FileOutputStream(args[1]))); int b; while((b = in.read()) != -1) out.write(b); in.close(); ou...

Více

taháci - Vrstevnice

taháci - Vrstevnice - protected = ve vlastním balíčku a v potomcích, modifikátor se nepíše - private = jen ve vlastní třídě - k nedostupným členům lze z jiných tříd přistoupit JEN přes neprivátní metodu oné třídy - v ...

Více

Pokročilé programování na platformě Java, letní semestr 2012

Pokročilé programování na platformě Java, letní semestr 2012 Native-API partly-Java driver JDBC-Net pure Java driver Native-protocol pure Java driver

Více

Rozhraní SAX, SAX vs. SAX2

Rozhraní SAX, SAX vs. SAX2 Pokud nemá parser zapnutou podporu namespaces, je k dispozici pouze kvalifikované jméno Přístup přes kvalifikované jméno nemusí fungovat správně, pokud nemá parser nastavenou vlastnost xmlReader.se...

Více

Diagnostika EER-prednáška – MUDr.Vydrová

Diagnostika EER-prednáška – MUDr.Vydrová Přínos diagnostiky refluxní choroby k diagnostice chorob v ORL oblasti chronické bolesti v krku, poruchy hlasu,recidivující a protrahovaný kašel-co s tím???

Více