slajdy - Sorry

Transkript

slajdy - Sorry

Dobývání znalostí z databází
T6: asociační pravidla
Asociační pravidla
Úloha hledání souvislostí mezi hodnotami atributů.
analýza nákupního košíku (Agrawal, 1993)
{párky, hořčice}  {rohlíky}
obecněji
Ant  Suc,
kde Ant (antecedent) i Suc (sukcedent) jsou konjunkce
hodnot KATEGORIÁLNÍCH atributů (kategorií)
Základní charakteristiky pravidel:
Suc
Suc

Ant
a
b
r
Ant
c
d
s

k
l
n
kontingenční tabulka
podpora (support)
a resp. sup(Ant  Suc) = P(Ant  Suc) =
a
.
a+b+c+d
spolehlivost (confidence) , platnost (validity)
a
conf(Ant  Suc) = P(Suc|Ant) =
a+b
P. Berka, 2011
1/25
Další charakteristiky:
 absolutní resp. relativní počet objektů, které splňují
předpoklad
a+b
a + b resp.
P(Ant) =
a+b+c+d
 absolutní resp. relativní počet objektů, které splňují
závěr
a+c
a + c resp.
P(Suc) =
a+b+c+d
 pokrytí (coverage)
P(Ant|Suc) =
a
.
a+c
 kvalita, jako vážený součet spolehlivosti a pokrytí
Kvalita = w1
a
a
+ w2
a+b
a+c
 zajímavost (interestingness, lift)
P(Ant  Suc)
a  (a + b + c + d)
=
P(Ant)  P(Suc)
(a + b)  (a + c)
 závislost (dependency)
a
a+c
P(Suc|Ant) - P(Suc) =

a+b
a+b+c+d
P. Berka, 2011
2/25
Hledání asociačních pravidel
 generování syntakticky korektního pravidla
 testování vygenerovaného pravidla
Generování = prohledávání prostoru pravidel
 Shora dolů
 Slepé i heuristické
 Jednoduché
Testování = zjišťování (na datech), zda pravidlo
splňuje zadané požadavky na hodnoty numerických
charakteristik
P. Berka, 2011
3/25
Generování kombinací:
 do šířky
 do hloubky
 heuristicky
kombinace
1n
1v
2n
2s
2v
3m
3z
4a
4n
5a
5n
1n 2n
1n 2s
1n 2v
1n 3m
1n 3z
1n 4a
1n 4n
1n 5a
1n 5n
1v 2n
1v 2s
1v 2v
1v 3m
1v 3z
kombinace
1n
1n 2n
1n 2n 3m
1n 2n 3m 4n
1n 2n 3m 4n
1n 2n 3m 5n
1n 2n 3z
1n 2n 3z 4a
1n 2n 3z 4a
1n 2n 3z 5n
1n 2n 4a
1n 2n 4a 5n
1n 2n 4n
1n 2n 4n 5n
1n 2n 5n
1n 2s
1n 2s 3m
1n 2s 3m 4a
1n 2s 3m 4a
1n 2s 3m 4n
1n 2s 3m 4n
1n 2s 3m 5a
1n 2s 3m 5n
1n 2s 3z
1n 2s 3z 4a
1v 2v 3z 4n 5a
5n
Do šířky
5n
5n
5n
5a
Do hloubky
Frq
8
7
6
6
6
6
5
5
5
5
4
4
4
4
4
4
4
4
4
4
4
4
4
3
3
kombinace
5a
1n
3m
3z
4a
4n
1v
1n 4a
4n 5a
1v 5a
2v
2s
2n
5n
3m 5a
1n 3m
3z 5a
3z 4a
3m 4n
1v 4n
2v 5a
1n 5n
1v 4n 5a
1n 5a
1n 3z
1
1v 2s 3z 4n 5a
heuristicky
m
počet kombinací =
 (1  K
j=1
Aj
) - 1 , kde KAj je počet hodnot j-tého
atributu a m je maximální délka kombinace
P. Berka, 2011
4/25
Generování podle četností:
Algoritmus generování kombinací
Inicializace
1. vytvoř CAT - seznam kategorií A(v) uspořádaný sestupně dle
četnosti
2. přiřaď OPEN = CAT
Hlavní cyklus
1. Dokud OPEN není prázdný seznam
1.1.
vezmi první kombinaci ze seznamu OPEN (označ ji
COMB)
1.2.
pro každé A(v) ze seznamu CAT takové, že A(v) je v
CAT před všemi hodnotami atributů z COMB (Tedy platí, že
četnost A(v) je větší nebo rovna četnosti COMB)
1.2.1.pokud se atribut A nevyskytuje v COMB potom
1.2.1.1. generuj novou kombinaci COMB  A(v)
1.2.1.2. přidej COMB  A(v) do seznamu OPEN za
poslední kombinaci C takovou, že četnost(C) 
četnost(COMB  A(v))
1.3.
odstraň COMB ze seznamu OPEN
 dříve generuje četnější (častěji se vyskytující)
kombinace (a tedy i vztahy),
 dříve generuje spíše kratší kombinace (a tedy i
vztahy) (přidáním kategorie do kombinace se
zpřísní kritérium a tedy i sníží počet objektů,
které ho splní).
5
Algoritmus apriori
hledání často se opakujících položek (frequent
itemsets) v nákupním košíku (Agrawal, 1993)
1. krok: generování celé kombinace do šířky
Algoritmus apriori
1. do L1 přiřaď všechny hodnoty atributů, které dosahují
alespoň požadované četnosti
2. polož k=2
3. dokud Lk-1 
3.1.
pomocí funkce apriori-gen vygeneruj na základě
Lk-1 množinu kandidátů Ck
3.2.
do Lk zařaď ty kombinace z Ck, které dosáhly
alespoň požadovanou četnost
3.3.
zvětš počítadlo k
Funkce apriori-gen(Lk-1)
1. pro všechny dvojce kombinací p, q z Lk-1
Pokud p a q se shodují v prvních k-2 položkách přidej do
Ck sjednocení pq
2. pro každou kombinaci c z Ck
Pokud některá z jejich podkombinací délky k-1 není
obsažena v Lk-1 odstraň c z Ck
2. krok: Každá kombinace C se rozdělí na všechny možné
dvojce podkombinací Ant a Suc takové, že Suc = C  Ant.
Hledají se pravidla Ant  Suc tak, že se postupně
přesouvají kategorie z Ant do Suc, je-li Ant‘ podkombinací
Ant, potom conf(Ant’  C-Ant’)  conf(Ant  C-Ant)
Algoritmus řízen parametry minsup (minimální podpora) a
minconf (minimální spolehlivost)
6
Např. pro data o klientech banky, minsup=4 a minconf=0.8
1. krok
L1 : 5a(8), 1n(7), 3m(6), 3z(6), 4a(6), 4n(6), 1v(5), 2v(4),
2s(4), 2n(4), 5n(4)
C2 : 5a1n, 5a3m, 5a3z, 5a4a, 5a4n, 5a1v, 5a2v, 5a2s, 5a2n,
1n3m, 1n3z, 1n4a, 1n4n, 1n2v, 1n2s, 1n2n, 1n5n, 3m4a,
3m4n, 3m1v, 3m2v, 3m2s, 3m2n, 3m5n, 3z4a, 3z4n, 3z1v,
3z2v, 3z2s, 3z2n, 3z5n, 4a1v, 4a2v, 4a2s, 4a2n, 4a5n,
4n1v, 4n2v, 4n2s, 4n2n, 4n5n, 1v2v, 1v2s, 1v2n, 1v5n,
2v5n, 2s5n, 2n5n
L2 : 5a3m(4), 5a4n(5), 5a1v(5), 5a3z(4), 5a2v(4), 1n3m(4),
1n4a(5), 3m4n(4), 3z4a(4), 1n3m(4), 1n5n(4), 1v4n(4)
C3 : 5a4n1v, 3m4n5a
L3 : 5a4n1v(4)
2. krok:
1v  5a (1)
5n  2n (1)
2v  5a (1)
1v4n  5a (1)
4n  5a (0,83)
1v  4n (0.8)
4a  1n (0.8)
4n5a 1v (0.8)
1v5a  4n (0.8)
1v  4n5a (0.8)
7
Implementace
 Weka (tabelární data)
 SAS EM (jen transakce)
8
Zobecněná asociační pravidla
(Srikant, Agrawal, 1995)
práce s hierarchiemi hodnot atributů
hořčice
uzeniny
salámy
párky
buřty
plnotučná
telecí
lahůdkový
drůbeží
kremžská
Taxonomie sortimentu zboží
nákup
1
2
3
4
položky
buřty
telecí párky
lahůdkové párky, kremžská
hořčice
telecí párky, plnotučná
hořčice
položka
telecí párky
hořčice
párky
uzeniny
Četnosti položek
Nákupy
pravidlo
párek  hořčice
hořčice  párek
hořčice  uzenina
četnost
2
2
3
4
podpora
50%
50%
50%
Zobecněná asociační pravidla
9
spolehlivost
66%
100%
100%
Pravidla s vyjímkami
(Suzuki, 1997)
A  S
A  B  S
B  S
 první pravidlo odpovídá ustáleným představám (toto
pravidlo má vysokou podporu i spolehlivost),
 druhé pravidlo je hledaná výjimka (toto pravidlo má
nízkou podporu ale vysokou spolehlivost),
 třetí pravidlo je takzvané referenční (má nízkou
podporu a/nebo nízkou spolehlivost).
1. použité bezpečnostní pásy  přežití automobilové havárie
(obecně uznávané pravidlo o účinnosti bezpečnostních
pásů)
2. použité bezpečnostní pásy  věk(předškolní)  úmrtí při
havárii
(překvapivá výjimka, pro malé děti nejsou pásy vhodné)
3. věk(předškolní)  úmrtí při havárii
(referenční pravidlo, při haváriích
předškolních dětí)
10
umírá
málo
Akční pravidla
(Raś, 2009)
Formálně definována jako
[(w)  ()]  ()
kde w je konjunkce „fixních“ kategorií,  popisuje
navrženou změnu hodnot „flexibilního“ atributu a 
popisuje požadovaný efekt této akce
akční pravidlo tedy reprezentuje dvě „klasická“
pravidla.
např:
akční pravidlo
[Sex(male)  BMI(highaverage)] 
blood_pressure(highaverage)
reprezentuje pravidla
R1: Sex(male)  BMI(high)  blood_pressure(high)
R2: Sex(male)  BMI(average)  blood_pressure(average)
11
Časové sekvence
(Agrawal, Srikant, 1995)
( P, 123), (Q, 125), (S, 140), (P, 150), (R, 151),
(Q, 155), (S, 201), (P, 220), (S, 222), (Q, 225).
 Sériová epizoda: “P se stane dříve než Q”
 Paralelní epizoda: “R, S a T se stanou současně”
Základem definice časového okna, uvnitř kterého se musí
epizoda vyskytnout.
Např. pro pevné okno délky 20 budeme zpracovávat okna
[P Q S], [Q S], [S P R Q], [P R Q], [R, Q], [Q], [S P], [P S Q]
má-li pro okno dané délky dostatečnou četnost epizoda
PQR, mají dostatečnou četnost i epizody PQ, QR a
PR.
12
Implikace, dvojité implikace a ekvivalence
Východiskem metoda GUHA (Hájek, Havránek, 1978)
vyhodnocující různé typy závislosti mezi A a S (tzv.
kvantifikátory)
 základní implikace
A Ø S,
kde
Ø (a,b) =
a
a+b
 základní dvojitá implikace A Ø S,
a
Ø (a,b,c) =
a+b+c
kde
 základní ekvivalence A Ø S,
kde
Ø (a,b,c,d) =
a+d
a+b+c+d
vybrané třídy kvantifikátorů
1. kvantifikátor ~(a,b) je implikační, právě když
a’  a  b’  b implikuje ~(a‘,b‘)  ~(a,b)
2. kvantifikátor ~(a,b,c) je-dvojitě implikační, právě když
a’  a  b’+c’  b+c implikuje ~(a‘,b‘,c’)  ~(a,b,c)
3. kvantifikátor ~(a,b,c,d) je -ekvivalenční, právě když
a’+d’  a+d
 b’+c’  b+c implikuje ~(a‘,b‘,c’,d’) 
~(a,b,c,d)
13
Metoda GUHA
česká metoda, hledání „všeho zajímavého“ (hypotéz),
co plyne z dat: vztahy mezi kombinacemi hodnot
binárních atributů, korelace mezi numerickými
atributy podmíněné kombinací kategoriálních atributů,
nebo zdroje závislosti v nominálních datech.
metoda explorační analýzy dat, která kombinuje
logické a statistické postupy
hledání hypotéz jako výlov rybníka
Springer 1978
Oproti asociačním pravidlům bohatší syntaxe i
rozmanitější typy pravidel
14
LISp-Miner
Aktuální implementace metody GUHA vytvořená
na VŠE (Šimůnek, 2003), provázáno s MS
Access:
 Procedura pro přípravu a předzpracování dat
 7 procedur pro hledání různých typů asociačních
pravidel








4FT
KL
CF
SD4FT
SDKL
SDCF
AC4FT
2 procedury pro klasifikaci


KEX
ETree
15
Hypotézy (pravidla) vyjadřují vztahy mezi cedenty,
cedent je tvořen konjunkcí částečných cedentů a
částečný cedent je konjunkce nebo disjunkce literálů.
Literál je definován jako
 atribut(koeficient) v případě pozitivního
literálu, resp. jako
 atribut(koeficient) v případě negativního
literálu.
Koeficient (seznam hodnot atributu) pak může být:
 podmnožina omezené délky
např. literál město(Praha, Brno) obsahuje
podmnožinu délky 2,
 interval omezené délky
např. literály věk(nízký, střední),
věk(střední), věk(střední, vysoký) obsahují
interval délky 1 až 2,
 řez (interval, obsahující krajní hodnotu) omezené
délky
např. literály věk(nízký), věk(nízký, střední),
věk(nízký, střední, vysoký) obsahují dolní řez
délky 1 až 3.
Z literálů jsou vytvářeny (generovány metodou „do
hloubky“) konjunkce, které tvoří jednotlivé části
nějakého pravidla (hypotézy).
16
Procedura 4FT
generované a testované hypotézy mají podobu
φ≈ ψ/
kde φ, ψ,  (cedent) jsou cedenty, a ≈ je tzv.
kvantifikátor vyjadřující typ vztahu mezi φ a ψ na
množině příkladů, které splňují 
název
Značení parametry kdy platí
Fundovaná
implikace
p,Base 0  p  1
Dvojitá
fundovaná
implikace
p,Base 0  p  1
Fundovaná
ekvivalence
p,Base
Base  0
Base  0
Fisherův
,Base
kvantifikátor
0 p  1
Base  0
0
0.5
a
a + b  p  a  Base
a
a + b + c  p  a  Base
a+d
a + b + c + d  p  a  Base
min(r,k)
Base  0
Chi-kvadrát ,Base 0   
kvantifikátor
0.5

r!s!k!l!
n!i!(r-i)!(k-i)!(n-r-k-i)! 
i=a
  a  Base
ad  bc 
Base  0
n(ad - bc)
 
klrs
a  Base
např:
konto(vysoké OR střední) AND NOT(nezaměstnaný(ano))
0.9 úvěr(ano) / pohlaví(muž)
17
generování do hloubky, každý cedent zvlášť
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
Konto(
nízké)  Nezaměstnaný( ano)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Pohlaví( žena)  Příjem(nízký)  Úvěr( ne)
nízké)  Nezaměstnaný( ano)  Pohlaví( žena)  Příjem(vysoký)  Úvěr( ano)
nízké)  Nezaměstnaný( ano)  Pohlaví( žena)  Úvěr( ano)  Příjem(vysoký)
nízké)  Nezaměstnaný( ano)  Pohlaví( žena)  Úvěr( ne)  Příjem(nízký)
nízké)  Nezaměstnaný( ano)  Příjem(nízký)  Úvěr( ne)
nízké)  Nezaměstnaný( ano)  Příjem(nízký)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Příjem(nízký)  Úvěr( ne)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Příjem(vysoký)  Úvěr( ano)
nízké)  Nezaměstnaný( ano)  Příjem(vysoký)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Příjem(vysoký)  Úvěr( ano)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Úvěr( ano)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Úvěr( ano)  Příjem(vysoký)
nízké)  Nezaměstnaný( ano)  Úvěr( ne)  Pohlaví( žena)
nízké)  Nezaměstnaný( ano)  Úvěr( ne)  Příjem(nízký)
...
18
Procedura KL
R ~ C / ,
kde R a C jsou dva kategoriální atributy a  je cedent
definující podmínku pro analyzovanou množinu
příkladů. Vztah ~ je definován pomocí statistických
kritérií (např. chi-kvadrát) nebo kritérií z oblasti
teorie informace (např. entropie).
19
Procedura CF
~C / 
kde C je kategoriální atribut a  je cedent.
Analyzuje se zde tedy histogram frekvencí kategorií
atributu C u příkladů splňujících podmínku .
20
Procedura SD4FT
φ ≈ ψ / (α, β, )
kde φ, ψ, α, β,  jsou cedenty.
Hledáme tedy situace, kdy při splněné podmínce  je
vzájemný 4FT-vztah mezi φ a ψ na množině α je jiný
než na množině β
a1
a2

 0.2
a1  b1 a 2  b2
21
Procedura SDKL
R ~ C / (α, β, )
kde R a C jsou kategoriální atributy a α, β a  jsou
cedenty.
Hledáme tedy situace, kdy se za podmínky 
podmnožiny α, β liší vzhledem k vzájemnému vztahu
atributů R a C
22
Procedura SDCF
~C / (α, β, )
kde C je kategoriální atribut a α, β,  jsou cedenty.
Hledáme situace, kdy se za podmínky  podmnožiny α,
β liší vzhledem k frekvencím jednotlivých kategorií
atributu C
23
Procedura AC4FT
α: φ ≈ β: ψ / 
kde α, β jsou „fixní“ cedenty, φ je „flexibilní“ cedent
obsahující navržené akce, ψ je „flexibilní“ cedent
popisující efekt akce a  (cedent) je podmínka.
24
Chybějící hodnoty
 Ošetření v datech
 Ošetření v nalezených pravidlech (GUHA)
S
?S S

r‘
A
a’
i
b‘
?A
o
m
p
A
c‘
j
d‘
s‘

k‘
l‘
n‘
Devítipolní kontingenční tabulka
Doplnění tabulky (převod na čtyřpolní):
 Konzervativní (ignorovat)
 Optimistické
vztah)
(chybějící
hodnoty
podporují
 Zabezpečené (chybějící hodnoty v rozporu se
vztahem)
25

slajdy - Sorry

Transkript

Podobné dokumenty

Výsledovka

Výsledovka - Chanovice

Asociační pravidla

Ceník CWS Boco

zde - Topení, voda, plyn, koupelny

zesilovače qsc

katalog_na_kovy_cely.

platných sazeb

Zeleznice_regionalni_rozvoj_CR