Stáhnout prezentaci

Transkript

Stáhnout prezentaci
Pokročilé neparametrické metody
Klára Kubošová
Pokročilé neparametrické metody
Pokročilé neparametrické metody
Výuka
|
13 přednášek doplněných o praktické cvičení v SW
|
Úvod do neparametrických metod + princip rozhodovacích stromů
|
Klasifikační a regresní stromy typu CART
|
Další typy stromů (MARS, PRIM, CHAID)
|
Náhodné lesy - Bagging, Boosting, Arcing, Random forest
|
Měření přesnosti modelů
|
Validační techniky
|
Příklady použití neparametrických metod
průběžné testy z probírané látky (každou druhou hodinu)
Ukončení
|
písemná zkouška (příklady; minimum 60% bodů) + ústní zkouška
Pokročilé neparametrické metody
Úvod do neparametrických metod
Princip rozhodovacích stromů
Pokročilé neparametrické metody
Rozdělení modelů
Popisuje budoucí stav systému nebo jeho podmínek?
ANO Dynamické modely - závislé na čase - spojité, diskrétní
NE Statické modely - nezávislé na čase
Popisují prostorovou strukturu?
ANO Prostorově heterogenní - diskrétní, spojité
NE Prostorově homogenní modely
Zahrnuje náhodnou složku?
ANO Stochastické modely
NE Deterministické modely
Pokročilé neparametrické metody
Typy proměnných
|
Kvalitativní (kategoriální)
y lze pouze určit, zda jsou dvě „hodnoty“ stejné nebo se liší
y typ půdy, barvy, typ habitatu
|
Semikvantitativní (ordinální)
y Lze určit rovněž pořadí hodnot
y abundanční třídy, řády toku, teplota po stupních
|
Kvantitativní (spojité)
y lze provádět všechny matematické operace
y Intervalové, poměrové
y Výška, váha, počty druhů
|
binární
y lze ji považovat za kvantitativní, semikvantitativní i kvalitativní
proměnnou
y výskyt/ nevýskyt druhu, odpověď pacientů na léčbu, výsledky dotazníků
typu ANO/NE
Pokročilé neparametrické metody
Typy proměnných
|
Ze statistického hlediska
y závisle proměnná (vysvětlovaná) – proměnná, jejíž hodnoty
chceme vysvětlit a/nebo předpovědět pomocí jiných proměnných,
na kterých závisí
y vysvětlující proměnné, nezávisle proměnné, prediktory –
proměnné, pomocí nichž se snažíme vysvětlit závisle proměnnou
Vztah – lineární, nelineární
Y
X
Pokročilé neparametrické metody
Rozdělení metod
|
Parametrické x Neparametrické
y Parametrické – předpoklady o rozdělení dat
| Klasické lineární modely, zobecněné lineární modely,
lineární diskriminační analýza
y Neparametrické – nemají předpoklady o rozložení dat
| Rozhodovací stromy, lesy, neuronové sítě…
y Semiparametrické – Zobecněné aditivní modely, metoda
podpůrných vektorů
|
Regresní x Klasifikační
y Regresní - modelujeme závislost spojité závisle proměnné na
jedné či více nezávislých proměnných
y Klasifikační - modelujeme závislost kategoriální závisle
proměnné na jedné či více nezávislých proměnných
|
Lineární x Nelineární
|
Jednorozměrné x Vícerozměrné
Pokročilé neparametrické metody
Ordinační techniky
nepřímé -PCA, CA
X nebo Y
X
Y
Ordinační techniky
přímé RDA a CCA
Y
Regrese a klasifikace
(vícerozměrná)
X
Regrese, klasifikace
(jednorozměrná)
Y
X
Pokročilé neparametrické metody
Srovnání vlastností metod
KLM - Klasický lineární model, GLM – Zobecněné lineární modely, GAM – Zobecněné aditivní modely, LDA – Lineární diskriminační analýza, CARTKlasifikační a regresní stromy, RF – Random forest, SVM – Metoda podpůrných vektorů, NNs – Neuronové sítě, Naivní bayes. – Naivní bayesovský
klasifikátor, k-NN – metoda nejbližšího souseda
Pokročilé neparametrické metody
Z jiného pohledu - živočichové x rostliny x
proměnné prostředí
x
Procesově orientované
modely (deterministické)
Stochastické modely
x
Procesově orientované
modely
(deterministické)
Stochastické modely,
interpolační
Pokročilé neparametrické metody
Proces modelování I
|
Design vzorkování a zpracování dat (z literatury, předešlých
experimentů)
|
Terénní sběr dat a laboratorní analýzy
|
Analýza datového souboru a tvorba modelu
|
Kalibrace a validace modelu
|
Interpretace modelu, jeho srovnání s realitou
|
použití modelu
Pokročilé neparametrické metody
Proces modelování II
Pokročilé neparametrické metody
Kvalitní datový soubor
|
Dostatečně velký
|
Reprezentativní
|
Získán konzistentní metodologií
|
Se signifikantní přesností
|
Nezávislý
Pokročilé neparametrické metody
Regresní a klasifikační stromy
(rozhodovací stromy , Decision Trees)
Regresní a klasifikační stromy
(Regression , classification trees)
|
Jsou nejméně formální a nejméně parametrickou skupinou statistických
modelů
|
Model – popisuje vzájemné vztahy mezi pozorovanými veličinami
Pokročilé neparametrické metody
Struktura stromu
|
|
|
|
Stromy se skládají z: kořene, uzlů – neterminálních uzlů, listů terminálních uzlů.
V každém neterminálním uzlu se strom větví
Binární stromy – z jednoho uzlu vyrůstají právě dvě větve
Nebinární stromy – z jednoho uzlu vyrůstají dvě a více větví
Pokročilé neparametrické metody
Struktura stromu
Koren
(root)
uzel
(nodum)
list
(leaf)
uzel
(nodum)
uzel
(nodum)
list
(leaf)
list
(leaf)
list
(leaf)
list
(leaf)
list
(leaf)
list
(leaf)
Pokročilé neparametrické metody
Typy Stromů
|
Klasifikační (rozhodovací) strom – modelujeme závislost
kategoriální závisle proměnné na jedné či více nezávislých
proměnných , prediktorech (kategoriálních, spojitých)
|
Regresní strom - modelujeme závislost spojité závisle proměnné
na jedné či více nezávislých proměnných, prediktorech
(kategoriálních, spojitých)
Pokročilé neparametrické metody
Úlohy - příklady
Klasifikační:
|
y
y
Spamy – určení, který doručený e-mail je spam a který není
spam.
Kosatce – třídění kostaců do jednotlivých druhů na základě
velikosti jejich okvětních a kališních lístků
Regresní:
|
y
Ozón – modelování množství ozonu v závislosti na nadmořské
výšce, teplotě a rychlosti větru
Pokročilé neparametrické metody
Co je to klasifikační strom?
|
Breiman (1984)
Patří mezi neparametrické metody (metody strojového učení, machine
learning)
Lineární hierarchický klasifikátor
|
Klasifikují vzorky do konečného (malého) předem daného počtu tříd
|
Je to posloupnost rozhodnutí, jejímž výsledkem je zařazení objektu do jedné
ze skupin na základě vlastnosti zkoumaného objektu
|
V každém uzlu je určena veličina, podle které dělíme datový soubor a
hranice, která určuje, kde se dělení má provést (je-li veličina spojitá)
|
Kořen obsahuje celý datový soubor
|
Z každého uzlu vyrůstají dvě (binární strom) nebo více větví
|
Každý list představuje některou ze skupin (úrovně kategoriální závisle
proměnné). ....
|
Příklad: Botanický klíč
|
|
Pokročilé neparametrické metody
Botanický klíč – určení skupin
Klíč ke Květeně České republiky, str.48
Rostliny
Rozmnozeni
vytrusy
ANO
Kapradorosty
jehlice,
rozmnozonaci
organy vsisce
ANO
nahosemenne
....
ANO
krytosemnne
jednodelozne
......
ANO
krytosemenne
dvoudelozne
vice pestiku
....
ANO
krytosemenne
dvoudelozne
1pestik atd.
....
ANO
krytosemenne
dvoudelozne
1pestik, volne C listky
krytosemnne
dvoudelozne
1pestik, srostle Clistky
Pokročilé neparametrické metody
K čemu budeme klasifikační stromy využívat?
|
zajímá nás struktura těchto dat, postižení vzájemných vztahů
– explaratorní technika
|
klasifikace dosud neznámých případů
Pokročilé neparametrické metody
Jinak řečeno….
|
Každé pozorování patří do jedné z tříd C1,…,Ck ,
K≥2
|
Pozorování podle hodnot prediktorů postupuje od kořenového uzlu
přes větvení v neterminálních uzlech k některému terminálnímu uzlu
(listu)
|
Množina všech listů určuje disjunktní rozklad prostoru hodnot
prediktorů
|
Terminálnímu uzlu a zároveň pozorováním, která do něj patří je
přiřazena některá z tříd C1,…,Ck .
Pokročilé neparametrické metody
IRIS data
|
|
|
|
150 případů, vždy 50
případů ve skupině
3 skupiny – druhy kosatců:
Setosa, Versicolour,
Virginica
4 prediktory: sepal length,
sepal width, petal length,
petal width
Zdroj příkladu: Yu-Shan
Shih - Tree-structured
methods
Pokročilé neparametrické metody
IRIS data - stromy
Pokročilé neparametrické metody

Podobné dokumenty

Drazebni vyhlaska 1_06

Drazebni vyhlaska 1_06 konzultovat texty techto listin a plnych moci s draZebnikem v dostatecnem pfedstihu pfed konanim draZby. V pripade, ze uCastnik draZby predlozi nekterou z listin poZadovanych draZebnikem bez nlilez...

Více

27. RMJ - usnesení

27. RMJ - usnesení A ODVÁDĚNÍ VOD KANALIZACÍ VVVK číslo 3113 ze dne 2. 4. 2010“ uzavřené mezi Městem Jablunkov, Dukelská 144, 739 91 Jablunkov a Severomoravskými vodovody a kanalizacemi Ostrava a. s., 28. října 1235/...

Více

Modely rozhodování v teorii a praxi (MRTP)

Modely rozhodování v teorii a praxi (MRTP) dohledem vyučujícího vytvoří a řeší rozhodovací modely případových studií a formou řízené diskuse interpretuje své výsledky. Zápočet se uděluje za samostatné vyřešení zadaného rozhodovacího modelu ...

Více

Logistická regrese - manuál ve formátu Pdf

Logistická regrese - manuál ve formátu Pdf náhodná proměnná má binomické rozdělení s parametrem π, který odpovídá pravděpodobnosti výsledku „1“ a mění se monotónně s hodnotou nezávisle proměnné. Výsledný model je právě odhadem tohoto parame...

Více

Vizualizace jako nástroj studia chování modelů přírodních systémů

Vizualizace jako nástroj studia chování modelů přírodních systémů poskytují neuronu vstupní signály, které jsou v těle neuronu (soma) sečteny a podle výsledného signálu a prahové funkce je vyslán signál na výstup neuronu (axon). Neuron má pouze jeden výstup (axon...

Více

Výukový materiál zpracován v rámci projektu EU peníze školám

Výukový materiál zpracován v rámci projektu EU peníze školám - rostou na stinných a vlhkých místech - tvoří je podzemní oddenek s kořeny a trs vějířovitých listů - na spodní straně listů se tvoří koncem jara výtrusnice, z kterých se uvolňují výtrusy. Z výtru...

Více

Programování s omezujícími podmínkami - zadani zkousek

Programování s omezujícími podmínkami - zadani zkousek o PC-4: založen na počítání podpor, opravuje chybný PC-3 o PC-5: pamatuje si jen jednu podporu, při ztrátě hledá další directional path consistency (DPC) – stačí konzinstence cest po směru uspořádá...

Více

Stáhnout prezentaci

Stáhnout prezentaci Jak roste strom? Existuje mnoho algoritmů, jak vybírat proměnné a hranice podle kterých bude probíhat dělení datového souboru hlavní princip: vyber takovou proměnnou, která rozdělí soubor na co ne...

Více

slajdy - Jan Outrata

slajdy - Jan Outrata využití distribuční funkce/kumulované pravděpodobnosti (cumulative distribution P function) FX (i) = ik=1 P (X = k), P (X = k) = P (ak ) = pk zdroje (nezávisle se stejným pravděpodobnostním rozlože...

Více

Programování

Programování objektivní funkce = funkce z množiny přípustných řešení do reálných čísel

Více