slajdy - Sorry

Transkript

slajdy - Sorry
Dobývání znalostí z databází
T6: asociační pravidla
Asociační pravidla
Úloha hledání souvislostí mezi hodnotami atributů.
analýza nákupního košíku (Agrawal, 1993)
{párky, hořčice}  {rohlíky}
obecněji
Ant  Suc,
kde Ant (antecedent) i Suc (sukcedent) jsou konjunkce
hodnot KATEGORIÁLNÍCH atributů (kategorií)
Základní charakteristiky pravidel:
Suc
Suc

Ant
a
b
r
Ant
c
d
s

k
l
n
kontingenční tabulka
podpora (support)
a resp. sup(Ant  Suc) = P(Ant  Suc) =
a
.
a+b+c+d
spolehlivost (confidence) , platnost (validity)
a
conf(Ant  Suc) = P(Suc|Ant) =
a+b
P. Berka, 2011
1/25
Dobývání znalostí z databází
T6: asociační pravidla
Další charakteristiky:
 absolutní resp. relativní počet objektů, které splňují
předpoklad
a+b
a + b resp.
P(Ant) =
a+b+c+d
 absolutní resp. relativní počet objektů, které splňují
závěr
a+c
a + c resp.
P(Suc) =
a+b+c+d
 pokrytí (coverage)
P(Ant|Suc) =
a
.
a+c
 kvalita, jako vážený součet spolehlivosti a pokrytí
Kvalita = w1
a
a
+ w2
a+b
a+c
 zajímavost (interestingness, lift)
P(Ant  Suc)
a  (a + b + c + d)
=
P(Ant)  P(Suc)
(a + b)  (a + c)
 závislost (dependency)
a
a+c
P(Suc|Ant) - P(Suc) =

a+b
a+b+c+d
P. Berka, 2011
2/25
Dobývání znalostí z databází
T6: asociační pravidla
Hledání asociačních pravidel
 generování syntakticky korektního pravidla
 testování vygenerovaného pravidla
Generování = prohledávání prostoru pravidel
 Shora dolů
 Slepé i heuristické
 Jednoduché
Testování = zjišťování (na datech), zda pravidlo
splňuje zadané požadavky na hodnoty numerických
charakteristik
P. Berka, 2011
3/25
Dobývání znalostí z databází
T6: asociační pravidla
Generování kombinací:
 do šířky
 do hloubky
 heuristicky
kombinace
1n
1v
2n
2s
2v
3m
3z
4a
4n
5a
5n
1n 2n
1n 2s
1n 2v
1n 3m
1n 3z
1n 4a
1n 4n
1n 5a
1n 5n
1v 2n
1v 2s
1v 2v
1v 3m
1v 3z
kombinace
1n
1n 2n
1n 2n 3m
1n 2n 3m 4n
1n 2n 3m 4n
1n 2n 3m 5n
1n 2n 3z
1n 2n 3z 4a
1n 2n 3z 4a
1n 2n 3z 5n
1n 2n 4a
1n 2n 4a 5n
1n 2n 4n
1n 2n 4n 5n
1n 2n 5n
1n 2s
1n 2s 3m
1n 2s 3m 4a
1n 2s 3m 4a
1n 2s 3m 4n
1n 2s 3m 4n
1n 2s 3m 5a
1n 2s 3m 5n
1n 2s 3z
1n 2s 3z 4a
1v 2v 3z 4n 5a
5n
Do šířky
5n
5n
5n
5a
Do hloubky
Frq
8
7
6
6
6
6
5
5
5
5
4
4
4
4
4
4
4
4
4
4
4
4
4
3
3
kombinace
5a
1n
3m
3z
4a
4n
1v
1n 4a
4n 5a
1v 5a
2v
2s
2n
5n
3m 5a
1n 3m
3z 5a
3z 4a
3m 4n
1v 4n
2v 5a
1n 5n
1v 4n 5a
1n 5a
1n 3z
1
1v 2s 3z 4n 5a
heuristicky
m
počet kombinací =
 (1  K
j=1
Aj
) - 1 , kde KAj je počet hodnot j-tého
atributu a m je maximální délka kombinace
P. Berka, 2011
4/25
Dobývání znalostí z databází
T6: asociační pravidla
Generování podle četností:
Algoritmus generování kombinací
Inicializace
1. vytvoř CAT - seznam kategorií A(v) uspořádaný sestupně dle
četnosti
2. přiřaď OPEN = CAT
Hlavní cyklus
1. Dokud OPEN není prázdný seznam
1.1.
vezmi první kombinaci ze seznamu OPEN (označ ji
COMB)
1.2.
pro každé A(v) ze seznamu CAT takové, že A(v) je v
CAT před všemi hodnotami atributů z COMB (Tedy platí, že
četnost A(v) je větší nebo rovna četnosti COMB)
1.2.1.pokud se atribut A nevyskytuje v COMB potom
1.2.1.1. generuj novou kombinaci COMB  A(v)
1.2.1.2. přidej COMB  A(v) do seznamu OPEN za
poslední kombinaci C takovou, že četnost(C) 
četnost(COMB  A(v))
1.3.
odstraň COMB ze seznamu OPEN
 dříve generuje četnější (častěji se vyskytující)
kombinace (a tedy i vztahy),
 dříve generuje spíše kratší kombinace (a tedy i
vztahy) (přidáním kategorie do kombinace se
zpřísní kritérium a tedy i sníží počet objektů,
které ho splní).
5
Dobývání znalostí z databází
T6: asociační pravidla
Algoritmus apriori
hledání často se opakujících položek (frequent
itemsets) v nákupním košíku (Agrawal, 1993)
1. krok: generování celé kombinace do šířky
Algoritmus apriori
1. do L1 přiřaď všechny hodnoty atributů, které dosahují
alespoň požadované četnosti
2. polož k=2
3. dokud Lk-1 
3.1.
pomocí funkce apriori-gen vygeneruj na základě
Lk-1 množinu kandidátů Ck
3.2.
do Lk zařaď ty kombinace z Ck, které dosáhly
alespoň požadovanou četnost
3.3.
zvětš počítadlo k
Funkce apriori-gen(Lk-1)
1. pro všechny dvojce kombinací p, q z Lk-1
Pokud p a q se shodují v prvních k-2 položkách přidej do
Ck sjednocení pq
2. pro každou kombinaci c z Ck
Pokud některá z jejich podkombinací délky k-1 není
obsažena v Lk-1 odstraň c z Ck
2. krok: Každá kombinace C se rozdělí na všechny možné
dvojce podkombinací Ant a Suc takové, že Suc = C  Ant.
Hledají se pravidla Ant  Suc tak, že se postupně
přesouvají kategorie z Ant do Suc, je-li Ant‘ podkombinací
Ant, potom conf(Ant’  C-Ant’)  conf(Ant  C-Ant)
Algoritmus řízen parametry minsup (minimální podpora) a
minconf (minimální spolehlivost)
6
Dobývání znalostí z databází
T6: asociační pravidla
Např. pro data o klientech banky, minsup=4 a minconf=0.8
1. krok
L1 : 5a(8), 1n(7), 3m(6), 3z(6), 4a(6), 4n(6), 1v(5), 2v(4),
2s(4), 2n(4), 5n(4)
C2 : 5a1n, 5a3m, 5a3z, 5a4a, 5a4n, 5a1v, 5a2v, 5a2s, 5a2n,
1n3m, 1n3z, 1n4a, 1n4n, 1n2v, 1n2s, 1n2n, 1n5n, 3m4a,
3m4n, 3m1v, 3m2v, 3m2s, 3m2n, 3m5n, 3z4a, 3z4n, 3z1v,
3z2v, 3z2s, 3z2n, 3z5n, 4a1v, 4a2v, 4a2s, 4a2n, 4a5n,
4n1v, 4n2v, 4n2s, 4n2n, 4n5n, 1v2v, 1v2s, 1v2n, 1v5n,
2v5n, 2s5n, 2n5n
L2 : 5a3m(4), 5a4n(5), 5a1v(5), 5a3z(4), 5a2v(4), 1n3m(4),
1n4a(5), 3m4n(4), 3z4a(4), 1n3m(4), 1n5n(4), 1v4n(4)
C3 : 5a4n1v, 3m4n5a
L3 : 5a4n1v(4)
2. krok:
1v  5a (1)
5n  2n (1)
2v  5a (1)
1v4n  5a (1)
4n  5a (0,83)
1v  4n (0.8)
4a  1n (0.8)
4n5a 1v (0.8)
1v5a  4n (0.8)
1v  4n5a (0.8)
7
Dobývání znalostí z databází
T6: asociační pravidla
Implementace
 Weka (tabelární data)
 SAS EM (jen transakce)
8
Dobývání znalostí z databází
T6: asociační pravidla
Zobecněná asociační pravidla
(Srikant, Agrawal, 1995)
práce s hierarchiemi hodnot atributů
hořčice
uzeniny
salámy
párky
buřty
plnotučná
telecí
lahůdkový
drůbeží
kremžská
Taxonomie sortimentu zboží
nákup
1
2
3
4
položky
buřty
telecí párky
lahůdkové párky, kremžská
hořčice
telecí párky, plnotučná
hořčice
položka
telecí párky
hořčice
párky
uzeniny
Četnosti položek
Nákupy
pravidlo
párek  hořčice
hořčice  párek
hořčice  uzenina
četnost
2
2
3
4
podpora
50%
50%
50%
Zobecněná asociační pravidla
9
spolehlivost
66%
100%
100%
Dobývání znalostí z databází
T6: asociační pravidla
Pravidla s vyjímkami
(Suzuki, 1997)
A  S
A  B  S
B  S
 první pravidlo odpovídá ustáleným představám (toto
pravidlo má vysokou podporu i spolehlivost),
 druhé pravidlo je hledaná výjimka (toto pravidlo má
nízkou podporu ale vysokou spolehlivost),
 třetí pravidlo je takzvané referenční (má nízkou
podporu a/nebo nízkou spolehlivost).
1. použité bezpečnostní pásy  přežití automobilové havárie
(obecně uznávané pravidlo o účinnosti bezpečnostních
pásů)
2. použité bezpečnostní pásy  věk(předškolní)  úmrtí při
havárii
(překvapivá výjimka, pro malé děti nejsou pásy vhodné)
3. věk(předškolní)  úmrtí při havárii
(referenční pravidlo, při haváriích
předškolních dětí)
10
umírá
málo
Dobývání znalostí z databází
T6: asociační pravidla
Akční pravidla
(Raś, 2009)
Formálně definována jako
[(w)  ()]  ()
kde w je konjunkce „fixních“ kategorií,  popisuje
navrženou změnu hodnot „flexibilního“ atributu a 
popisuje požadovaný efekt této akce
akční pravidlo tedy reprezentuje dvě „klasická“
pravidla.
např:
akční pravidlo
[Sex(male)  BMI(highaverage)] 
blood_pressure(highaverage)
reprezentuje pravidla
R1: Sex(male)  BMI(high)  blood_pressure(high)
R2: Sex(male)  BMI(average)  blood_pressure(average)
11
Dobývání znalostí z databází
T6: asociační pravidla
Časové sekvence
(Agrawal, Srikant, 1995)
( P, 123), (Q, 125), (S, 140), (P, 150), (R, 151),
(Q, 155), (S, 201), (P, 220), (S, 222), (Q, 225).
 Sériová epizoda: “P se stane dříve než Q”
 Paralelní epizoda: “R, S a T se stanou současně”
Základem definice časového okna, uvnitř kterého se musí
epizoda vyskytnout.
Např. pro pevné okno délky 20 budeme zpracovávat okna
[P Q S], [Q S], [S P R Q], [P R Q], [R, Q], [Q], [S P], [P S Q]
má-li pro okno dané délky dostatečnou četnost epizoda
PQR, mají dostatečnou četnost i epizody PQ, QR a
PR.
12
Dobývání znalostí z databází
T6: asociační pravidla
Implikace, dvojité implikace a ekvivalence
Východiskem metoda GUHA (Hájek, Havránek, 1978)
vyhodnocující různé typy závislosti mezi A a S (tzv.
kvantifikátory)
 základní implikace
A Ø S,
kde
Ø (a,b) =
a
a+b
 základní dvojitá implikace A Ø S,
a
Ø (a,b,c) =
a+b+c
kde
 základní ekvivalence A Ø S,
kde
Ø (a,b,c,d) =
a+d
a+b+c+d
vybrané třídy kvantifikátorů
1. kvantifikátor ~(a,b) je implikační, právě když
a’  a  b’  b implikuje ~(a‘,b‘)  ~(a,b)
2. kvantifikátor ~(a,b,c) je-dvojitě implikační, právě když
a’  a  b’+c’  b+c implikuje ~(a‘,b‘,c’)  ~(a,b,c)
3. kvantifikátor ~(a,b,c,d) je -ekvivalenční, právě když
a’+d’  a+d
 b’+c’  b+c implikuje ~(a‘,b‘,c’,d’) 
~(a,b,c,d)
13
Dobývání znalostí z databází
T6: asociační pravidla
Metoda GUHA
česká metoda, hledání „všeho zajímavého“ (hypotéz),
co plyne z dat: vztahy mezi kombinacemi hodnot
binárních atributů, korelace mezi numerickými
atributy podmíněné kombinací kategoriálních atributů,
nebo zdroje závislosti v nominálních datech.
metoda explorační analýzy dat, která kombinuje
logické a statistické postupy
hledání hypotéz jako výlov rybníka
Springer 1978
Oproti asociačním pravidlům bohatší syntaxe i
rozmanitější typy pravidel
14
Dobývání znalostí z databází
T6: asociační pravidla
LISp-Miner
Aktuální implementace metody GUHA vytvořená
na VŠE (Šimůnek, 2003), provázáno s MS
Access:
 Procedura pro přípravu a předzpracování dat
 7 procedur pro hledání různých typů asociačních
pravidel








4FT
KL
CF
SD4FT
SDKL
SDCF
AC4FT
2 procedury pro klasifikaci


KEX
ETree
15
Dobývání znalostí z databází
T6: asociační pravidla
Hypotézy (pravidla) vyjadřují vztahy mezi cedenty,
cedent je tvořen konjunkcí částečných cedentů a
částečný cedent je konjunkce nebo disjunkce literálů.
Literál je definován jako
 atribut(koeficient) v případě pozitivního
literálu, resp. jako
 atribut(koeficient) v případě negativního
literálu.
Koeficient (seznam hodnot atributu) pak může být:
 podmnožina omezené délky
např. literál město(Praha, Brno) obsahuje
podmnožinu délky 2,
 interval omezené délky
např. literály věk(nízký, střední),
věk(střední), věk(střední, vysoký) obsahují
interval délky 1 až 2,
 řez (interval, obsahující krajní hodnotu) omezené
délky
např. literály věk(nízký), věk(nízký, střední),
věk(nízký, střední, vysoký) obsahují dolní řez
délky 1 až 3.
Z literálů jsou vytvářeny (generovány metodou „do
hloubky“) konjunkce, které tvoří jednotlivé části
nějakého pravidla (hypotézy).
16
Dobývání znalostí z databází
T6: asociační pravidla
Procedura 4FT
generované a testované hypotézy mají podobu
φ≈ ψ/
kde φ, ψ,  (cedent) jsou cedenty, a ≈ je tzv.
kvantifikátor vyjadřující typ vztahu mezi φ a ψ na
množině příkladů, které splňují 
název
Značení parametry kdy platí
Fundovaná
implikace
p,Base 0  p  1
Dvojitá
fundovaná
implikace
p,Base 0  p  1
Fundovaná
ekvivalence
p,Base
Base  0
Base  0
Fisherův
,Base
kvantifikátor
0 p  1
Base  0
0
0.5
a
a + b  p  a  Base
a
a + b + c  p  a  Base
a+d
a + b + c + d  p  a  Base
min(r,k)
Base  0
Chi-kvadrát ,Base 0   
kvantifikátor
0.5

r!s!k!l!
n!i!(r-i)!(k-i)!(n-r-k-i)! 
i=a
  a  Base
ad  bc 
Base  0
n(ad - bc)
 
klrs
a  Base
např:
konto(vysoké OR střední) AND NOT(nezaměstnaný(ano))
0.9 úvěr(ano) / pohlaví(muž)
17
Dobývání znalostí z databází
T6: asociační pravidla
generování do hloubky, každý cedent zvlášť
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
nízké)  Nezaměstnaný( ano)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Pohlaví( žena)  Příjem(nízký)  Úvěr( ne)
nízké)  Nezaměstnaný( ano)  Pohlaví( žena)  Příjem(vysoký)  Úvěr( ano)
nízké)  Nezaměstnaný( ano)  Pohlaví( žena)  Úvěr( ano)  Příjem(vysoký)
nízké)  Nezaměstnaný( ano)  Pohlaví( žena)  Úvěr( ne)  Příjem(nízký)
nízké)  Nezaměstnaný( ano)  Příjem(nízký)  Úvěr( ne)
nízké)  Nezaměstnaný( ano)  Příjem(nízký)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Příjem(nízký)  Úvěr( ne)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Příjem(vysoký)  Úvěr( ano)
nízké)  Nezaměstnaný( ano)  Příjem(vysoký)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Příjem(vysoký)  Úvěr( ano)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Úvěr( ano)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Úvěr( ano)  Příjem(vysoký)
nízké)  Nezaměstnaný( ano)  Úvěr( ne)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Úvěr( ne)  Příjem(nízký)
...
18
Dobývání znalostí z databází
T6: asociační pravidla
Procedura KL
generované a testované hypotézy mají podobu
R ~ C / ,
kde R a C jsou dva kategoriální atributy a  je cedent
definující podmínku pro analyzovanou množinu
příkladů. Vztah ~ je definován pomocí statistických
kritérií (např. chi-kvadrát) nebo kritérií z oblasti
teorie informace (např. entropie).
19
Dobývání znalostí z databází
T6: asociační pravidla
Procedura CF
generované a testované hypotézy mají podobu
~C / 
kde C je kategoriální atribut a  je cedent.
Analyzuje se zde tedy histogram frekvencí kategorií
atributu C u příkladů splňujících podmínku .
20
Dobývání znalostí z databází
T6: asociační pravidla
Procedura SD4FT
generované a testované hypotézy mají podobu
φ ≈ ψ / (α, β, )
kde φ, ψ, α, β,  jsou cedenty.
Hledáme tedy situace, kdy při splněné podmínce  je
vzájemný 4FT-vztah mezi φ a ψ na množině α je jiný
než na množině β
a1
a2

 0.2
a1  b1 a 2  b2
21
Dobývání znalostí z databází
T6: asociační pravidla
Procedura SDKL
generované a testované hypotézy mají podobu
R ~ C / (α, β, )
kde R a C jsou kategoriální atributy a α, β a  jsou
cedenty.
Hledáme tedy situace, kdy se za podmínky 
podmnožiny α, β liší vzhledem k vzájemnému vztahu
atributů R a C
22
Dobývání znalostí z databází
T6: asociační pravidla
Procedura SDCF
generované a testované hypotézy mají podobu
~C / (α, β, )
kde C je kategoriální atribut a α, β,  jsou cedenty.
Hledáme situace, kdy se za podmínky  podmnožiny α,
β liší vzhledem k frekvencím jednotlivých kategorií
atributu C
23
Dobývání znalostí z databází
T6: asociační pravidla
Procedura AC4FT
generované a testované hypotézy mají podobu
α: φ ≈ β: ψ / 
kde α, β jsou „fixní“ cedenty, φ je „flexibilní“ cedent
obsahující navržené akce, ψ je „flexibilní“ cedent
popisující efekt akce a  (cedent) je podmínka.
24
Dobývání znalostí z databází
T6: asociační pravidla
Chybějící hodnoty
 Ošetření v datech
 Ošetření v nalezených pravidlech (GUHA)
S
?S S

r‘
A
a’
i
b‘
?A
o
m
p
A
c‘
j
d‘
s‘

k‘
l‘
n‘
Devítipolní kontingenční tabulka
Doplnění tabulky (převod na čtyřpolní):
 Konzervativní (ignorovat)
 Optimistické
vztah)
(chybějící
hodnoty
podporují
 Zabezpečené (chybějící hodnoty v rozporu se
vztahem)
25

Podobné dokumenty

Výsledovka

Výsledovka Firma: TJ Haas Chanovice Ročník: 2013

Více

Výsledovka - Chanovice

Výsledovka - Chanovice Firma: TJ CHanos Chanovice Ročník: 2012

Více

Asociační pravidla

Asociační pravidla Po nalezení kombinací které vyhovují svou četností se vytvářejí asociační pravidla. Každá kombinace Comb se rozdělí na všechny možné dvojce podkombinací Ant a Suc takové, že Suc = Comb - Ant 14. Uv...

Více

Ceník CWS Boco

Ceník CWS Boco 2 890 Kč 2 534 Kč 356 Kč 356 Kč 356 Kč 1 092 Kč 990 Kč 641 Kč 349 Kč 349 Kč 349 Kč 1 090 Kč 1 390 Kč 1 202 Kč 188 Kč 188 Kč 188 Kč 545 Kč 1 590 Kč 1 392 Kč 198 Kč 198 Kč 198 Kč 598 Kč 2 890 Kč 2 69...

Více

zde - Topení, voda, plyn, koupelny

zde - Topení, voda, plyn, koupelny představujeme Vám novou řadu regulátorů. Ekvitermní regulátor CRD122, v kombinaci s pokojovým termostatem, software umožňuje snadno vytvořit ideální topnou křivku, pro daný objekt. Stačí jen zadat ...

Více

zesilovače qsc

zesilovače qsc úhlový držák umožňující dosažení většího vertikálního úhlu mezi reproboxy WL2082i a WL115-sw ground stack adaptér pro ILA arrays

Více

katalog_na_kovy_cely.

katalog_na_kovy_cely. Pojivo ovlivňUje Životnost' výkon' tvarovou Stálost a samoostřící Vlastnosti diamantouich a CBN kotoučů a tělisek' Toto pojivo je plněno pokoveným diamantem a CBN - nénínutno chladit' Nebo nepokove...

Více

platných sazeb

platných sazeb měnič napětí k pásovému dopravníku - 1ks max. pro 3 ks dopravníku při zápůjčce kratší 15 dní účtováno očištění stroje SHOZY Shoz na suť 1m GEDA Shoz s boční násypkou GEDA Násypka horní GEDA Rám na ...

Více