Stáhnout prezentaci

Transkript

Stáhnout prezentaci
Pokročilé neparametrické metody
Klasifikační stromy
Klára Kubošová
Pokročilé neparametrické metody
Klasifikační stromy typu CART
Pokročilé neparametrické metody
Jak roste strom?
Existuje mnoho algoritmů, jak vybírat proměnné a hranice podle
kterých bude probíhat dělení datového souboru
hlavní princip: vyber takovou proměnnou, která rozdělí soubor na
co nejhomogennější skupiny
Hodnoty vysvětlujících proměnných, použité při větvení, rozdělují
daný prostor na sadu pravoúhelníků a pak pro každý z nich fitují
jednoduchý model (pro CART)
Pokročilé neparametrické metody
(Tibshirani et. al, 2001).
Pokročilé neparametrické metody
Jak roste strom?
Prakticky všechny stromy rostou na základě rekurzivního binárního
dělení.
Na začátku tvorby stromu patří všechna pozorování trénovacího
souboru do jednoho uzlu (kořen).
Následně jsou tato pozorování (hodnoty závisle proměnné)
rozdělena do dvou dceřiných uzlů, které jsou dále děleny opět
binárně na další uzly, pomocí kriteriální statistiky (spliting
criterium).
Za nejlepší větvení z uzlu m je vybráno takové, které maximalizuje
kriteriální statistiku ∆i(s,m).
Kriteriální statistika určuje, jak jsou vzorky uvnitř uzlů homogenní a
zároveň rozdílné mezi sebou.
Procedura dělení pokračuje dokud se nezastaví na nějaké předem
definované hodnotě (stopping rule).
Pokročilé neparametrické metody
Kriteriální statistika pro klasifikační stromy
i (m) = Gini = ∑k =1 pˆ mk (1 − pˆ mk )
K
y
Gini index:
i(m) = H = −∑k =1 pmk log pˆ mk
K
y
Entropie:
y
Misclassification error:
y
kde Rm jsou všechna pozorování v uzlu m, Nm je počet pozorování v uzlu
m a pmk je podíl pozorování třídy k v uzlu m.
y
The Gini index – nejčastěji používané měření pro klasifikační stromy hodnota Giny indexu se rovná nule, pokud je v konečném uzlu pouze
jediná třída a dosahuje maxima, pokud je v konečném uzlu v každé třídě
stejný počet pozorování.
y
Entropie a Gini index jsou mnohem více citlivé na změny
v pravděpodobnostech uzlů než ME.
i ( m) = ME = 1 − pˆ mk (m )
Pokročilé neparametrické metody
Měření „impurity“ uzlu pro dvě kategorie jako funkce podílu p v kategorii 2
0.6
Misclassification rate
Gini Index
Information
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
p1
0.6
0.7
0.8
0.9
1
Impurity“ Stromu - součet Impurity měření všech terminálních uzlů
vynásobené podílem vzorků v daném uzlu
(Tibshirani et. al, 2001).
Pokročilé neparametrické metody
Příklad
400 of A
400 of B
nebo?
400 of A
400 of B
300 of A
100 of A
200 of A
200 of A
100 of B
300 of B
400 of B
0 of B
Pokročilé neparametrické metody
Počet případů Zastoupení
případů
A
B
Gini Index
A
B
pA
pB
p2A
p2B
1- p2A - p2B
příspěvek
300
100
0.75
0.25
0.5625
0.0625
0.375
0.1875
100
300
0.25
0.75
0.0625
0.5625
0.375
0.1875
Total
0.375
200
400
0.33
0.67
0.1111
0.4444
0.4444
0.3333
200
0
1
0
1
0
0
0
Total
0.3333
Pokročilé neparametrické metody
Velikost stromu
Příliš velký strom
Může být „přeučený“, tj. může být příliš specializovaný na datový
soubor, který se použil pro jeho konstrukci.
Pokud ho použijeme pro klasifikaci „neznámých“ případu, nemusí
být příliš úspěšný.
Neplatí tedy, že čím je strom větší, tím je lepší.
Dobře naučený strom nepopisuje každý konkrétní případ, spíše by
měl popisovat obecnější závislosti, které se v datech vyskytují.
Příliš malý strom
Nemusí postihnout strukturu dat
Pokročilé neparametrické metody
Pravidla pro zastavení růstu stromu (Stopping rules)
další dělení není statisticky významné
velikost chyby v potenciálních dceřiných uzlech (nedělí se dále
pokud procento nesprávně klasifikovaných vzorků v důsledku
rozdělení překročí určité hranice)
Počet vzorků v koncovém uzlu
Počet terminálních uzlů
U CART začínáme s „přerostlým“, příliš detailně větveným stromem.
Tento strom následně redukujeme pomocí některé z metod
y Prořezávání (pruning)
y Zmenšování, scvrkávání se (shrinking) - metoda pro
regresní strom!
K určení optimální velikosti stromu lze použít cost-complexity
kritérium
Pokročilé neparametrické metody
Prořezávání (Cost - complexity Prunning)
Mějme strom T0. Prořezáním určitého počtu koncových uzlů
dostaneme strom T1.
.
Cena jednoduššího stromu (cost-complexity criterion):
Cα (T1 ) = DT1 + α T1 ,
kde |T1| je počet terminálních uzlů stromu a DT1 je deviance stromu.
Parametr α ≥ 0 vyjadřuje kompromis mezi velikostí stromu a jeho
vyčerpanou variabilitou. Hledáme tedy, pro každé α, takový strom ,
který minimalizuje Cα(T).
K určení odhadu α se používá krosvalidace
Pokročilé neparametrické metody
Křížové ověřování (krosvalidace)
Rozdělení datového souboru do k skupin
(obvykle k=10)
Jedna skupina vždy označena jako testovací. Zbytek skupin slouží k tvorbě
stromu.
Každá skupina je testovací právě jednou.
Celkem vytvořeno K stromů. Na základě testovací skupiny ohodnotíme
predikční schopnosti stromu.
problémy při krosvalidaci není-li dostatečně velký soubor pro dělení na
testovací a trénovací podsoubory – při rozdělení může dojít ke ztrátě
informace u trénovacích dat a výsledný strom pak chybně klasifikuje
Pokročilé neparametrické metody
Křížové ověřování (krosvalidace)
Rozdělení datového souboru do k skupin (zde k=5)
testovací
trénovací
trénovací
trénovací
trénovací
trénovací
testovací
trénovací
trénovací
trénovací
trénovací
trénovací
testovací
trénovací
trénovací
trénovací
trénovací
trénovací
testovací
trénovací
trénovací
trénovací
trénovací
trénovací
testovací
Pokročilé neparametrické metody
Misclassification Rates
Misclassification rate
trénovací soubor
1
0.9
0.8
Misclassification rate
testovací soubor
Error rates
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
10
20
30
40
50
60
70
80
Velikost stromu
Pokročilé neparametrické metody
Měření přesnosti klasifikačního stromu
Celková přesnost, (Overall accuracy, Correct classification rate:
OA=(a+d)/n
Misclassification rate:
MR = (b+c)/n
Cohenovo kappa
Kp= (OA-EA)/(1-EA)
kde EA = ((a+c)(a+b)+(b+d)(c+d))/n2
Na testovacím souboru, použití krosvalidačních technik pro zjištění
obecnosti a stability stromu
Pokročilé neparametrické metody
Matice záměn (confusion matrix)
pozorované
ano
ne
celkem
a
(TP)
b
(FP, chyba I. druhu)
a+b
PPV
d
(TN)
c+d
NPV
b+d
n
predikované
ano
ne
celkem
c
(FN, chyba II.
druhu)
a+c
Sensitivita, FNR
Specificita, FPR
a = pravdivě pozitivní (TP- true positive)
b = falešně pozitivní (FP - false positive)
c = falešně negativní (FN - false negative)
d = pravdivě negativní (TN - true negative)
Senzitivita-podíl (procento) správně zařazených pozitivních případů, ze všech případů, které byly
předpovězeny jako pozitivní (např. Procento lokalit kde se taxon vyskytl, ze všech lokalit
predikovaných jako výskyty)
specificita - podíl správně zařazených negativních případů, ze všech případů předpovězených jako
negativní (např. procento lokalit kde se taxon nevyskytl, ze všech lokalit predikovaných jako nevýskyt).
Pokročilé neparametrické metody
Zástupné proměnné (surrogates)
Pokud jsou prediktory korelované, může se stát, že prediktor, který je
téměř stejně vhodný (kriteriální statistika má podobnou hodnotu) jako
vybraný prediktor, zůstane skrytý, i když může mít větší interpretační
hodnotu
Takovéto proměnné se nazývají surogáty a pro každý uzel lze zjistit,
nakolik rozdělují pozorování v dceřiných uzlech stejně, jako primární
prediktor
Velký význam pro interpretaci
Pokročilé neparametrické metody
Výhody klasifikačních stromů
☺
☺
☺
☺
☺
Snadné grafické znázornění – jednoduchá interpretace
Neklade žádné podmínky na typ rozdělení
Algoritmy tvorby stromu jsou odolné vůči odlehlým hodnotám
Možno použít korelované proměnné
Prediktory mohou být všech typů
Pokročilé neparametrické metody
Klasifikační (rozhodovací) strom
Nevýhody
Nestabilita - tvar stromu velmi závisí na datech, malá změna v datech
způsobí změny v rozhodovacích pravidlech uvnitř uzlů
+ změna výsledných klasifikací
y
Vzhledem k nestabilitě je nutná opatrnost při interpretaci.
y
Řešení: např. Bagging – kombinace většího počtu stromů, aby se
minimalizovala jejich variabilita (bude vysvětleno později viz. klasifikační
lesy)
měření přesnosti stromu (accuracy) je výrazně závislé na krosvalidačním
mechanizmu, selekčních kritériích a výběru mechanizmu pro
minimalizaci chyby stromu
nevhodné pro malý počet vzorků a velký počet tříd
vytváření stromů vyžaduje zkušenosti
Pokročilé neparametrické metody
Příklad hurikány
Atlantické hurikány jsou klasifikovány podle ovlivnění
tropickými (Trop) nebo baroklinickými (Baro) jevy.
Tropická cyklóna při vývoji prochází třemi stádii: tropická
deprese, tropická bouře a hurikán.
K dispozici je šest prediktorů, na základě kterých by mělo být
možné tyto dvě třídy hurikánů odlišit.
Jedná se o datum, zeměpisnou šířku a délku tropické deprese
(LATDEPR, LONDEPR) (První stádium při vzniku hurikánu) a
datum, zeměpisnou šířku a délku, kdy bouře dosáhla statutu
hurikánu (LATHUR, LONHUR).
Pokročilé neparametrické metody
Příklad hurikány
BARO
TROP
ID=1
N=209
BARO
109
100
LATHURR
<= 23.500000
ID=2
> 23.500000
N=89
ID=3
N=120
BARO
TROP
80
9
LATDEPR
<= 19.850000
ID=12
> 19.850000
N=41
ID=13
BARO
77
N=79
BARO
2
LATDEPR
<= 17.350000
ID=14
> 17.350000
N=26
ID=15
N=15
BARO
TROP
20
12
6
3
Co vše můžeme zjistit ze stromu……
Jak interpretovat strom ?
Jaká je celková přesnost stromu ?
Která ze dvou skupin je lépe klasifikována?
Které parametry jsou významné ?
Pokročilé neparametrické metody
Příklad hurikány
Cost sequence
Dependent variable: CLASS
0.6
0.5
Cost
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
Tree number
5
Resub. cost
CV cost
Má strom správnou velikost?
Pokročilé neparametrické metody
Algoritmy učení
Je celá řada algoritmů pro růst stromu
obecně nelze říci, který z algoritmů je lepší, záleží na řešeném problému
výsledkem je strom, který se však liší obsahem uzlů i jejich počtem
y
y
y
y
y
y
y
y
y
y
y
y
ID3 (Quinlan 1979)
CHAID - Chi-squared Automatic Interaction Detector (Kass,1980)
CART (Breiman et al. 1984)
Assistant (Cestnik et al. 1987)
MARS - Multivariate Adaptive Regression Splines (Friedman,1991)
RETIS (Karalič 1992) – pro regresní stromy
C4.5 (Quinlan 1993)
QUEST - Quick, Unbiased and Efficient Statistical Tree (Loh & Shih,
1997)
C5 (Quinlan 1997)
PRIM - Patient Rule Induction Method (Friedman & Fisher, 1999)
Stromy ve Wece (Frank 2000)
Stromy v Orange (Demšar, Zupan 2000)
Pokročilé neparametrické metody

Podobné dokumenty

Postup při zbytkovém hrubování 3D ploch v systému AlphaCAM

Postup při zbytkovém hrubování 3D ploch v systému AlphaCAM Vybereme všechny hranice pro obrábění a následně všechny plochy. Zvolíme startovací bod a tlačítkem OK provedeme výpočet drah.

Více

5.1 Rozhodovací stromy

5.1 Rozhodovací stromy 4. V nelistových uzlech stromu jsou uvedeny atributy použité při větvení, hrany stromu odpovídají hodnotám těchto atributů, a v listech stromu je informace o přiřazení ke třídě.

Více

Rozhodovací stromy - Algoritmus BIRCH a jeho varianty pro

Rozhodovací stromy - Algoritmus BIRCH a jeho varianty pro Metodu CHAID (Chi-squared Automatic Interaction Detektor) vyvinul v roce 1980 G.V. Kass. Tato metoda je modifikací metody AID pro kategoriální závislou proměnnou. Výsledkem jsou nebinární stromy. M...

Více

Rozhodovací stromy

Rozhodovací stromy • Pokud fakt, že údaj chybı́, nenı́ náhodný, pak je vhodné chyběnı́ hodnoty považovat za dalšı́ možnou hodnotu atributu.např. plat neuvedou ti, kdo ho majı́ hodně malý či hodně velký...

Více

Untitled

Untitled Pokud chci odhadovat momenty rozdělení (směrodatná odchylka, šikmost, ...), stačí 200600 opakování (podle některých zdrojů jen 50200) Pokud chci získat distribuční funkci dané

Více

Stáhnout prezentaci

Stáhnout prezentaci KLM - Klasický lineární model, GLM – Zobecněné lineární modely, GAM – Zobecněné aditivní modely, LDA – Lineární diskriminační analýza, CARTKlasifikační a regresní stromy, RF – Random forest, SVM – ...

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody – Ve statistických software často součást regresní analýzy nebo diskriminační analýzy – R2 a Tolerance – R2 popisuje kolik variability dané proměnné je vysvětleno ostatními  proměnnými v modelu? To...

Více

Logistická regrese - manuál ve formátu Pdf

Logistická regrese - manuál ve formátu Pdf Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu < 0, 1 >. Poměry představují podíl pozitivní...

Více

Výběr kandidátů pomocí neurolingvistického programování

Výběr kandidátů pomocí neurolingvistického programování zrudnutí, tik nebo změna výrazu ve tváři). Laik si těchto drobností ani nepovšimne, ale pro toho, kdo vede výběrové řízení, to mohou být klíčové faktory pro rozhodnutí, zda kandidá‑ ta doporučit na...

Více