Untitled

Transkript

Untitled
Statistické metody v digitálním
zpracování obrazu
Jindřich Soukup
3. února 2012
Osnova
●
●
Úvod
(Neparametrické) odhady hustoty
pravděpodobnosti
●
Bootstrap
●
Použití logistické regresi při klasifikaci
Odhady hustoty pravděpodobnosti motivace
●
●
●
●
Zhodnotit pravidelnost
daných struktur
Rozdělení vzdáleností
d-tých nejbližších
sousedů
Radiální distribuční
funkce
Naměřené hodnoty realizace náhodného
jevu - odhad hustoty
pravděpodobnosti
Odhady hustoty pravděpodobnosti motivace
●
●
Naměřené hodnoty
beru jako realizace
náhodného jevu
Histogramy jsou
pouze odhady hustoty
pravděpodobnosti
tohoto jevu
Odhady hustoty pravděpodobnosti rozdělení
●
xi - naměřené hodnoty,
ρ - hustota
pravděpodobnosti
●
Histogram, frekvenční
polynom, jádrové
odhady
Odhady hustoty pravděpodobnosti rozdělení
●
xi - naměřené hodnoty,
ρ - hustota
pravděpodobnosti
●
Histogram, frekvenční
polynom, jádrové
odhady
●
θ - vektor parametrů
●
Bayes, MLE
Histogram - po částech konstantní
odhad hustoty pravděpodobnosti
●
k - počet binů, h - šířka binu
●
k = ceiling( (max(x)-min(x)) / h )
●
k, resp. h jsou klíčové
Histogram - šířka binu
●
Sturgesovo pravidlo (1926) to odpovídá
! nepoužívat pro větší soubory dat !
Histogram - šířka binu
●
Sturgesovo pravidlo (1926) to odpovídá
! nepoužívat pro větší soubory dat !
●
Scott (1979) - optimální ve smyslu minimalizace
MSE
Histogram - šířka binu
●
Sturgesovo pravidlo (1926) to odpovídá
! nepoužívat pro větší soubory dat !
●
●
Scott (1979) - optimální ve smyslu minimalizace
MSE
Odhady R(ρ') (Scott 1979, Friedman a Diaconis 1981)
Řád konvergence, citlivost
●
Odhady založené na Scottově vzorci mají řád
konvergence N-2/3 (pro porovnání MLE má N-1).
Řád konvergence, citlivost
●
●
Odhady založené na Scottově vzorci mají řád
konvergence N-2/3 (pro porovnání MLE má N-1).
Citlivost
Řád konvergence, citlivost
●
●
Odhady založené na Scottově vzorci mají řád
konvergence N-2/3 (pro porovnání MLE má N-1).
Citlivost
Porovnání pravidel
Literatura
Kernel density estimation
●
Jádrové odhady, Parzenovo okénko ...
●
Klouzavý vážený průměr
Tvar jádra, šířka jádra, citlivost
●
Optimální šířka jádra (Scott - kniha)
●
Optimální je tzv. Epanechnikovo jádro
●
Vyšší citlivost na nesprávně zvolenou šířku
Shrnutí
●
●
●
Histogram je vhodný pro prvotní náhled
Pokud je to možné použijeme parametrické
metody (vyšší řád konvergence)
Pro velké soubory dat (řádově >104) použít
raději jádrové odhady
●
Šířky binů/jádra ovlivní přesnost - záleží na nich
●
Problémy ve více dimenzích
Software
Matlab
●
●
●
Histogram (fce hist) - není implementováno
žádné pravidlo pro počet binů
Jádrové odhady (ksdensity) - pravidla pro šířku
jádra - pouze to nejjednodušší
R - všechny zmiňovaná pravidla:
hist(x,breaks="volba_pravidla"), resp.
plot(density(x,kernel="tvar_jádra",
breaks="volby_pravidla"))
Další využití
●
Klasifikace
●
Statistické zpracování výsledků
●
Segmentace ...
Časosběrné snímky
●
●
Pro každý pixel směrodatná odchylka okolí
pixelu, průměrováno přes čas (či obráceně)
Rozdělení hodnot - superpozice dvou gausovek
Časosběrné snímky
●
●
Pro každý pixel směrodatná odchylka okolí
pixelu, průměrováno přes čas (či obráceně)
Rozdělení hodnot - superpozice dvou gausovek
Výsledky
●
●
●
Matlab - statistický
toolbox "Gaussian
mixture"
Viditelné jpg
artefakty
Úspěšnost
srovnatelná s
nejlepší volbou
prahu
Intermezzo
●
●
Strategie vědeckého
poznání, filozofie
vědy
Jak psát články,
pracovat se zdroji,
komunikovat s
recenzenty
Bootstrap
●
Simulační statistická metoda
●
Efron (1979) - první článek
●
●
Jak recyklovat data tak, abych je mohl
považovat za data nová (nezávislá na
původních)
Vhodné, pokud je získání dalších dat příliš
drahé, náročné či nemožné
Princip
●
Na základě dat {xi}
chci získat
rozdělení statistiky
s
Princip
●
●
Na základě dat {xi}
chci získat
rozdělení statistiky
s
Provedu náhodný
výběr s vracením
z {xi} a spočtu
statistiku na těchto
datech
Princip
●
●
●
Na základě dat {xi}
chci získat
rozdělení statistiky
s
Provedu náhodný
výběr s vracením
z {xi} a spočtu
statistiku na těchto
datech
Opakuji
dostatečně-krát
Příklad
●
Statistický výzkum mezi lidmi (známky ve škole)
Příklad
●
●
Statistický výzkum mezi lidmi (známky ve škole)
Zpracování pomocí metody hlavních
komponent
Příklad
●
●
●
Statistický výzkum mezi lidmi (známky ve škole)
Zpracování pomocí metody hlavních
komponent
Získám výsledky - jaká je ale jejich přesnost?
Příklad
●
●
●
●
Statistický výzkum mezi lidmi (známky ve škole)
Zpracování pomocí metody hlavních
komponent
Získám výsledky - jaká je ale jejich přesnost?
Vytvořím si z původního souboru dat několik
bootstrapový výběrů a na nich znova provedu
analýzu hlavních komponent
Příklad
●
●
●
●
●
Statistický výzkum mezi lidmi (známky ve škole)
Zpracování pomocí metody hlavních
komponent
Získám výsledky - jaká je ale jejich přesnost?
Vytvořím si z původního souboru dat několik
bootstrapový výběrů a na nich znova provedu
analýzu hlavních komponent
Z rozdělení bootstrapových odhadů spočítám
směrodatnou odchylku pro vlastní čísla a
vektory (a cokoli dalšího, co mě zajímá)
Kolikrát opakovat?
●
Podle toho, co chci získat
Kolikrát opakovat?
●
●
Podle toho, co chci získat
Pokud chci odhadovat momenty rozdělení
(směrodatná odchylka, šikmost, ...), stačí 200600 opakování (podle některých zdrojů jen 50200)
Kolikrát opakovat?
●
●
●
Podle toho, co chci získat
Pokud chci odhadovat momenty rozdělení
(směrodatná odchylka, šikmost, ...), stačí 200600 opakování (podle některých zdrojů jen 50200)
Pokud chci získat distribuční funkci dané
statistiky (např. abych pak z ní získal
konfidenční interval), potřebuju řádově 1000 a
více opakování
Kolikrát opakovat?
●
●
●
●
Podle toho, co chci získat
Pokud chci odhadovat momenty rozdělení
(směrodatná odchylka, šikmost, ...), stačí 200600 opakování (podle některých zdrojů jen 50200)
Pokud chci získat distribuční funkci dané
statistiky (např. abych pak z ní získal
konfidenční interval), potřebuju řádově 1000 a
více opakování
Existují metody, jak snížit počet opakování
Kde nepoužívat?
●
Když vím, že odhadovaná statistika je divoká
●
Není vhodné pro odhady extrémů
●
●
Pokud jsou data v původním souboru navzájem
závislá, musíme modifikovat
Můžeme používat i pokud máme odlehlé
hodnoty, výsledky na to nejsou příliš citlivé
Literatura
●
Efron, Tibshirani - An introduction to bootstrap
●
Prášková (ROBUST 2004) - Metoda bootstrap
●
Davison, Hinkley - Bootstrap Methods and Their
Application
Intermezzo
●
Kurz: Úvod do programování v Matlabu
●
Doktorandští studenti numeriky
●
www.papez.org/matlab
●
13. - 17. února od 9 do 13h
●
přihlásit se do 5. února
Regrese vs. klasifikace - shrnutí
●
●
Je možné provádět klasifikaci pomocí logistické
regrese - model pro učení
Získáme pravděpodobnosti
Logistická regrese
●
●
Není to matematicky ekvivalentní se SVM minimalizujeme různé veličiny
Výsledky můžou být srovnatelně dobré
Transformace souřadnic
●
U regrese jsou užitečné triky, které se dají
použít v klasifikaci - transformace souřadnic
Data z tunelovacího mikroskopu
●
●
Poissonovský proces velikost šumu závisí na
intezitě signálu
Škálujeme pomocí log
Děkuji za pozornost
Diskuze

Podobné dokumenty

Oblasti rozumových schopností

Oblasti rozumových schopností problémů. Podmínkou objektivní tvořivosti je navíc využitelnost a užitečnost nově vzniklého produktu. U dětí se můžeme často setkat s tzv. subjektivní tvořivostí, kdy samy přijdou na nějaké řešení,...

Více

č. 1/2015

č. 1/2015 n náhodným výběrem hodnot xi s opakováním (s vracením) z původního souboru ( x1 ,, xn ) . Takto získaný náhodný výběr se nazývá bootstrapový výběr, resp. bootstrapový soubor. Bootstrapový výběr pa...

Více

PDF - Slovenská štatistická a demografická spoločnosť

PDF - Slovenská štatistická a demografická spoločnosť Hlavními cíli tohoto šetření bylo získání informací o struktuře a diferenciaci mezd osob podle - zaměstnání, - pohlaví, - věku, - vzdělání, - odvětví, - krajů a dalších klasifikací. Výsledky zjišťo...

Více

Sborník doporučení pro nejvyšší výnosy

Sborník doporučení pro nejvyšší výnosy Nejefektivněji úročí přírůstky na výnosu při středně vysokých dávkách dusíku na jaře 140-160 kg. Vyzkoušejte jej při střední intezitě i Vy. Výnosy semene při různých dávkách dusíku a období jeho ap...

Více

Barvy materiálu Corian® pro kuchyňské pracovní

Barvy materiálu Corian® pro kuchyňské pracovní Barvy uvedené na této stránce slouží jen pro porovnání. Mohou se objevit mírné rozdíly

Více

Stáhnout prezentaci

Stáhnout prezentaci Hodnoty vysvětlujících proměnných, použité při větvení, rozdělují daný prostor na sadu pravoúhelníků a pak pro každý z nich fitují jednoduchý model (pro CART)

Více