Pravděpodobnostní rozhodování

Transkript

Pravděpodobnostní rozhodování
KYBERNETIKA A UMĚLÁ INTELIGENCE
8-9. Pravděpodobnostnı́ rozhodovánı́ a predikce
laboratory
Gerstner
Gerstnerova laboratoř
katedra kybernetiky
fakulta elektrotechnická
ČVUT v Praze
Rozhodovánı́ za neurčitosti
Dosud v UI přednáškách:
− vyhledávánı́ co nejlepšı́ho řešenı́ problému
− za deterministických podmı́nek (bez neurčitosti).
Důležitou schopnostı́ inteligentnı́ch systémů je ale také schopnost
− vybrat co nejlepšı́ rozhodnutı́
− za nejistých podmı́nek (s neurčitostı́).
Přı́klad: Jet z A do B tramvajı́, nebo metrem?
− Tramvaj: rychlejšı́ cesta dle jı́zdnı́ho řádu, ale velmi nejisté dodrženı́.
− Metro: delšı́ cesta, ale téměř jisté dodrženı́.
Přı́klad: kam směřovat dopis s tı́mto PSČ?
− 15700? 15706? 15200? 15206?
Jak se optimálně rozhodnout?
Oba přı́klady lze formalizovat stejným rámcem.
Přı́klad
[Kotek, Vysoký, Zdráhal: Kybernetika 1990]
Panı́ Nováková se vracı́ z práce. Co uvařı́ pan Novák k večeři?
Napadly ho 3 možnosti
rozhodnutı́ (d - decision):
− nic . . . neudělat nic ⇒ žádná práce, ale zhoršı́ náladu pı́. Novákové.
− pizza . . . ohřát mraženou pizzu ⇒ nenı́ pracné, ale neohromı́.
− n.h. . . . nadı́vaná holoubata ⇒ udělá jı́ radost, ale velmi pracné.
P. Novák čı́selně zhodnotı́ mı́ru nepřı́jemnosti způsobenou jednotlivými rozhodnutı́mi. Ta závisı́
na tom, s jakou náladou přijde pı́. Nováková domů, což je
neznámý stav. Rozlišme tyto
možnosti:
− dobrá . . . pı́. Nováková má dobrou náladu.
− průměrná . . . pı́. Nováková má průměrnou náladu.
− špatná . . . pı́. Nováková má špatnou náladu.
Pro každou z 9 možných situacı́ (3 možná rozhodnutı́ × 3 možné stavy) je nepřı́jemnost dána
ztrátovou funkcı́ l(d, s) (l - loss):
l(d, s) d = nic d = pizza d = n.h.
x = dobrá
0
2
4
x = průměrná
5
3
5
x = špatná
10
9
6
Přı́klad (pokračovánı́)
Neznámý stav - náladu pı́. Novákové - zkusı́ p. Novák odhadnout experimentem: sdělı́ jı́, že
ztratil jejı́ oblı́bený časopis a sleduje jejı́ reakci.
Předpokládá 4 možné reakce:
− mı́rná . . . nic se neděje, časopis najdeme.
− podrážděná . . . proč nedáváš věci na své mı́sto?
− nasupená . . . proč já si toho Nováka brala?
− hrozivá . . . rezignované mlčenı́
Reakce je přı́mo pozorovatelný
přı́znak (zde nálady).
Ze zkušenosti p. Novák vı́, jak jsou jednotlivé reakce pravděpodobné při dané náladě: to
vystihuje podmı́něné rozloženı́ P (x|s).
P (x|s)
x=
x=
x=
x=
mı́rná podrážděná nasupená hrozivá
s = dobrá 0.5
0.4
0.1
0
s = průměrná 0.2
0.5
0.2
0.1
s = špatná
0
0.2
0.5
0.3
Rozhodovacı́ strategie
Rozhodovacı́ strategie: pravidlo pro výběr rozhodnutı́ na základě pozorovaného přı́znaku.
Tj. funkce d = δ(x).
Přı́klady možných strategiı́ p. Nováka:
δ(x) x = mı́rná x = podrážděná x = nasupená x = hrozivá
δ1(x) =
nic
nic
pizza
n.h.
nic
pizza
n.h.
n.h.
δ2(x) =
δ3(x) =
n.h.
n.h.
n.h.
n.h.
δ4(x) =
nic
nic
nic
nic
Celkem má k dispozici 34 = 81 možných strategiı́ (3 možná rozhodnutı́ pro každou ze 4
možných hodnot přı́znaku).
Jak určit, která ze dvou strategiı́ je lepšı́? Obecně: jak strategie uspořádat dle kvality?
Definujeme
riziko strategie při stavu s: střednı́ hodnota ztráty podmı́něná stavem s.
R(δ, s) =
X
x
l(δ(x), s)P (x|s)
Kritérium MiniMax
Přı́klad: riziko strategie δ1 při stavu s = dobrá je
R(δ1, dobrá) = l(δ1(mı́rná), dobrá)·P (mı́rná|dobrá)+l(δ1(podrážděná), dobrá)·P (podrážděná|dobrá)
+l(δ1(nasupená), dobrá) · P (nasupená|dobrá) + l(δ1(hrozivá), dobrá) · P (hrozivá|dobrá)
= l(nic, dobrá) · 0.5 + l(nic, dobrá) · 0.4 + l(pizza, dobrá) · 0.1 + l(n.h., dobrá) · 0
= 0 · 0.5 + 0 · 0.4 + 2 · 0.1 + 4 · 0 = 0.2
Podobně: R(δ1, průměrná) = 4.4 a R(δ1, špatná) = 8.3
Maximálnı́ riziko strategie δ1 (přes všechny možné stavy) je tedy 8.3.
Podobně: maximálnı́ riziko strategie δ3 je 6.
MiniMaxové kritérium: ze dvou strategiı́ je lepšı́ ta, jejı́ž maximálnı́ riziko je nižšı́.
Tedy podle MiniMaxu je δ3 lepšı́ než δ1.
Nejlepšı́ strategie δ ∗ je podle MiniMaxu ta, která minimalizuje maximálnı́ riziko:
δ ∗ = arg min max R(δ, s)
δ
s
Pro jejı́ nalezenı́ bychom v aktuálnı́m přı́kladě museli spočı́tat max. rizika všech 81 možných
strategiı́.
Bayesovské kritérium
Co když p. Novák vı́, že p. Nováková má obvykle dobrou náladu? Obecněji: vı́, jak jsou jejı́
jednotlivé nálady pravděpodobné, tj. zná rozloženı́ P (s). Např:
x = dobrá s = průměrná s = špatná
P (s) =
0.7
0.2
0.1
MiniMaxové kritérium tuto znalost nezohledňuje.
Dı́ky znalosti P (s) lze spočı́tat
střednı́ riziko dané strategie přes všechny možné stavy:
r(δ) =
X
R(δ, s)P (s)
s
Tedy např.
r(δ1) = 0.2 · 0.7 + 4.4 · 0.2 + 8.3 · 0.1 = 1.85
r(δ3) = 4 · 0.7 + 5 · 0.2 + 6 · 0.1 = 4.4
Bayesovské kritérium: ze dvou strategiı́ je lepšı́ ta s nižšı́m střednı́m rizikem. Z Bayesovského hlediska je tedy δ1 lepšı́ než δ3.
Opačně proti MiniMaxovému kritériu!
Bayesovsky optimálnı́ strategie
Bayesovsky optimálnı́ strategie je ta, která minimalizuje střednı́ riziko. Tj.
δ ∗ = arg min r(δ)
δ
Protože P (x|s)P (s) = P (s|x)P (x) (Bayesovo pravidlo), platı́
X
XX
r(δ) =
R(δ, s)P (s) =
l(δ(x), s)P (x|s)P (s)
s
=
XX
s
s
x
l(δ(x), s)P (s|x)P (x) =
X
x
x
P (x)
X
l(δ(x), s)P (s|x)
|s
{z
}
Podmı́něné riziko
Optimálnı́ strategii tedy můžeme dostat minimalizacı́ podmı́něného rizika zvlášt’ pro každé x:
∗
δ (x) = arg min
d
X
l(d, s)P (s|x)
s
Tedy narozdı́l od MiniMaxové optimálnı́ strategie nemusı́me počı́tat riziko pro všechny možné
strategie. Bayesovsky optimálnı́ strategii lze “sestrojit bod po bodu” nalezenı́m optimálnı́ho
rozhodnutı́ pro jednotlivá pozorovánı́ x.
Statistické rozhodovánı́: shrnutı́
Zadány:
− Množina možných stavů: S
− Množina možných rozhodnutı́: D
− Ztrátová funkce: zobrazenı́ l : D × S → < (reálná čı́sla)
− Množina možných hodnot přı́znaku X
− Pravděpodobnostnı́ rozloženı́ přı́znaku za daného stavu P (x|s), x ∈ X , s ∈ S.
Definujeme:
− Strategie: zobrazenı́ δ : X → D
P
− Riziko strategie δ při stavu s ∈ S: R(δ, s) = x l(δ(x), s)P (x|s)
MiniMaxová úloha:
− Dále zadána: množina přı́pustných strategiı́ ∆.
− Úloha: nalézt optimálnı́ strategii δ ∗ = arg minδ∈∆ maxs∈S R(δ, s)
Bayesovská úloha:
− Dále zadáno: pravděpodobnostnı́ rozloženı́ stavů P (s), s ∈ S.
P
− Dále definujeme: střednı́ riziko strategie δ: r(δ) = s R(δ, s)P (s)
− Úloha: nalézt optimálnı́ strategii δ ∗ = arg minδ∈∆ r(δ)
P
− Řešenı́: δ ∗(x) = arg mind s l(d, s)P (s|x)
Přı́znakové rozpoznávánı́
Systémy pro rozpoznávánı́. Přı́klad úlohy:
Lze převést na úlohu
statistického
rozhodovánı́
O jakou jde čı́slici?
Přı́znak = vektor hodnot pixelů.
Přı́znakové rozpoznávánı́ čı́slic: klasifikace do jedné ze třı́d 0 . . . 9 na základě vektoru
hodnot pixelů.
Speciálnı́ přı́pad statistického rozhodovánı́:
− Přı́znakový vektor ~x = (x1, x2, . . . ): hodnoty pixelů č. 1, 2, . . . .
− Množina stavů S = množina rozhodnutı́ D = {0, 1, . . . 9}.
− Stav = skutečná třı́da, Rozhodnutı́ = rozpoznaná třı́da.
− Ztrátová funkce:
0, d = s
l(d, s) =
1, d 6= s
Střednı́ riziko = střednı́ chyba klasifikace.
Bayesovská klasifikace
Obvyklé kritérium: minimalizace střednı́ chyby
Optimálnı́ klasifikace při přı́znaku ~x:
X
∗
δ (~x) = arg min
l(d, s) P (s|~x) = arg max P (s|~x)
| {z }
s
d
s
Bayesovská klasifikačnı́ úloha.
0 pokud d=s
Volı́me tedy nejpravděpodobnějšı́ třı́du pro danou hodnotu přı́znakového vektoru.
Obvykle ale nenı́ známo rozloženı́ P (s|~x). Je třeba odhadnout z trénovacı́ch dat (již klasifikovaných přı́kladů).
Trénovacı́ data (přı́klady): (~x1, s1), (~x2, s2), . . . (~xl , sl ).
Odhad:
počet přı́kladů v nichž ~xi = ~x a si = s
počet přı́kladů v nichž ~xi = ~x
Zásadnı́ problém přı́znakové klasifikace:
P (s|~x) ≈
− Počet přı́kladů l postačujı́cı́ ke spolehlivému odhadu P (s|~x) roste exponenciálně s počtem
složek vektoru ~x.
− tj. např. s rozlišenı́m (počtem pixelů) v rozpoznávaných obrazcı́ch.
− “prokletı́ kombinatorické exploze”. Reálné úlohy: jmenovatel často nulový!
− Bayesovská klasifikace: hornı́ limit kvality klasifikace, v praxi obvykle nedosažitelný.
Bayesovská klasifikace
Lze též využı́t Bayesova vztahu:
P (s|~x) =
P (~x|s)P (s)
P (~x)
Odhad P (~x|s): analogicky jako odhad P (s|~x).
Odhad P (s): jako relativnı́ četnost jednotlivých třı́d s v trénovacı́ch datech, tj.
P (s) ≈
počet přı́kladů třı́dy s
l
P (~x) nenı́ třeba odhadovat.
Proč?
Tento přı́stup sám o sobě neřešı́ problém množstvı́ dat potřebných k odhadu pravděpodobnostı́.
Ale umožňuje ho “řešit” nepřı́mo:
1. Hodnoty P (s) jsou často explicitně známy a nenı́ nutno je odhadovat.
Přı́klad: při rozpoznávánı́ 1. čı́slice PSČ je nejčastějšı́ čı́slice 1, např P (1) = 0.6.
Takto je do klasifikace zapojena apriornı́ znalost o pravděpodobnostech třı́d.
P (s) . . . ‘apriornı́ pravděpodobnost’.
2. Přı́stup umožňuje formulovat zjednodušenou, tzv. naivnı́ Bayesovskou klasifikaci, v nı́ž nemusı́me odhadovat P (~x|s), ale pouze P (x(1)|s), P (x(2)|s), . . ..
Naivnı́ Bayesovská klasifikace
Ve výjimečném přı́padě statistické nezávislosti jednotlivých přı́znakových složek x(i) v
rámci každé třı́dy s platı́
P (~x|s) = P (x(1)|s) · P (x(2)|s) · . . .
Stačı́ tedy odhadnout P (x(i)|s) zvlášt’ pro každé i (a každé s).
− Např: P (x(3)|8) ≈ podı́l přı́padů čı́slice 8 s rozsvı́ceným 3. pixelem.
−
Žádná kombinatorická exploze (pouze jednosložkové pravděpodobnosti).
V praxi: nezávislost se často předpokládá, i když neplatı́, přı́p. platı́ přibližně.
− Potom jde o tzv.
Naivnı́ Bayesovskou klasifikaci. Často úspěšná metoda.
Nezávislost mezi přı́znakovými složkami je jen jednı́m z možných předpokladů, jehož
splněnı́ vede k zabráněnı́ kombinatorické explozi.
Alternativnı́ předpoklady jsou např.:
− Podobné objekty patřı́ do stejné třı́dy
klasifikace dle nejbližšı́ch sousedů.
− Třı́da je plně určena lineárnı́ kombinacı́ složek přı́znaku
klasifikace dle lineárnı́ho
modelu.
Podobně jako u naivnı́ b.k. se metody založené na těchto předpokladech s úspěchem použı́vajı́,
i když jsou předpoklady splněné jen přibližně.
Klasifikace dle nejbližšı́ch sousedů
Podobnost chápeme jako malou vzdálenost v prostoru přı́znakových hodnot.
Funkce měřı́cı́ vzdálenost dvou přı́znakových vektorů, tzv. metrika: ρ : X × X → <+ ∪ {0}
taková, že ∀x, y, z: ρ(x, x) = 0, ρ(x, y) = ρ(y, x), ρ(x, z) ≤ ρ(x, y) + ρ(y, z). Přı́klad:
− Euklidovská metrika pro vektory ~x1, ~x2 se reálnými složkami x1(i) resp. x2(i):
pP
2
ρE (~x1, ~x2) =
i (x1 (i) − x2 (i))
− Jsou-li složky binárnı́ (z {0, 1}), tak ρE (~x1, ~x2)2 je počet složek, v nichž se ~x1 lišı́ od ~x2 tzv. Hammingova metrika.
Klasifikace dle k nejbližšı́ch sousedů (k-nearest neighbor classification, k-NN).
Zadáno:
−k∈ℵ
− trénovacı́ přı́klady: (~x1, s1), (~x2, s2), . . . (~xl , sl )
− metrika ρ : X × X → <
− neklasifikovaný objekt s přı́znakem ~x.
Úloha: klasifikovat ~x
Postup: z trénovacı́ch přı́kladů vyber k nejbližšı́ch k ~x vzhledem k metrice ρ. Třı́da, které mezi
nimi převládá, budiž třı́dou ~x.
Flexibilita klasifikace
Jak volit k? Obecná odpověd’ neexistuje, záležı́ na konkrétnı́ch datech.
Obecný trend: Uvažujme trénovacı́ data se dvěma třı́dami (červená/zelená) a šumem (některé
si chybné). Značky - trénovacı́ data, křivka - hranice klasifikace:
k = 1: Dobré přizpůsobenı́
trénovacı́m datům. Velká citlivost k šumu.
Bayesovská klasifikace: Méně
flexibilnı́ než 1-nn, vı́ce než
15-nn.
k = 15: Špatné přizpůsobenı́
trénovacı́m datům. Malá citlivost k šumu.
Vzpomeňte: Bayesovská klasifikace δ ∗ má nejnižšı́ možné střednı́ riziko r(δ ∗). Pozn.: Znázorněná
Bayesovská vycházı́ z přesných pravděpodobnostı́ P (s|~x), které jsou pro klasifikačnı́ algoritmus
neznámé!
Pozorovánı́: přı́liš velká flexibilita (malé k) i přı́liš malá flexibilita (velké k) vedou ke klasifikátorům značně odlišným od Bayesovského, tedy ke zvyšovánı́ střednı́ho rizika r(δ).
Podobný trend i klasifikaci založené na modelech (např. polynomiálnı́ model flexibilnějšı́ než
lineárnı́).
Trénovacı́ chyba a střednı́ riziko
Střednı́ riziko r(δ) klasifikátoru δ odpovı́dá relativnı́ četnosti jeho nesprávných klasifikacı́.
Definujme empirické střednı́ riziko rE (δ) (též: “trénovacı́ chyba”) jako relativnı́ četnost
nesprávně klasifikovaných přı́kladů v trénovacı́ch datech.
Je rE (δ) dobrým odhadem skutečného střednı́ho rizika r(δ)?
Přı́klad: 1-nn nenı́ dobrý klasifikátor (viz minulou stranu), přestože správně klasifikuje všechny
trénovacı́ přı́klady, tj. má trénovacı́ chybu 0.
Trénovacı́ chyba tedy nenı́ dobrým odhadem střednı́ho rizika. Pro jeho odhad je třeba
− mı́t k dispozici trénovacı́ množinu (~x1, s1), . . . (~xl , sl ) a nezávislou testovacı́ množinu
(~xl+1, sl+1), . . . (~xl+m, sl+m)
− (může vzniknout rozdělenı́m původnı́ch trénovacı́ch dat např. v poměru 75% a 25%).
− klasifikátor sestrojit na základě trénovacı́ množiny
− empirické střednı́ riziko tohoto klasifikátoru spočı́tat na testovacı́ množině.
Empirické střednı́ riziko na testovacı́ množině je nevychýleným odhadem skutečného střednı́
rizika. (Pozor: nevychýlený neznamená přesný!)
(Umělé) neuronové sı́tě
Inspirovány poznatky o neuronech a nervových sı́tı́ch živých organizmů
Schopnost učit se = extrahovat a reprezentovat závislosti v datech, které nejsou zřejmé
Schopnost řešit silně nelineárnı́ úlohy – využitı́ pro klasifikaci, regresi a predikci časových řad
Základnı́ výpočetnı́ jednotkou je neuron
Řešenı́ problému:
− Volba typu sı́tě, metody učenı́
− Regularizace - návrh topologie, přizpůsobenı́ sı́tě složitosti úlohy
− Učenı́ - automatická optimalizace parametrů (vah) na základě trénovacı́ch přı́kladů.
ξ=
Pn
i=1 wi xi
−θ
Sumačnı́ potenciál
f (ξ) =
1
1+e−λξ
Aktivačnı́ funkce
Model neuronu.
Nervová sı́t’.
Typy neuronových sı́tı́
Různé typy sı́tı́ pro různé typ úloh:
− vı́cevrstvá perceptonová (MLP) - viz. dále,
− Hopfieldova - autoasociačnı́,
− Kohonenovy mapy - samoorganizujı́cı́ se, druh shlukové analýzy
− RBF (Radial Basis Function), . . .
Autoasociativnı́ pamět’.
Samoorganizujı́cı́ se mapy.
Perceptron vs. vı́cevrstvá sı́t’
Nejjednoduššı́ dopředná neuronová sı́t’ - pouze dvě vrstvy
Rosenblatt, 1957 – hlavnı́ přı́nos oproti neuronu je adaptačnı́
pravidlo
− wnew = wold + α(outdesired − outactual )input,
− α - rychlost učenı́, konverguje pokud váhy existujı́
Lineárnı́ (pro jeden výst. neuron binárnı́) klasifikátor
Vhodná demonstrace přechodu od lineárnı́ k nelineárnı́ klasifikaci
Perceptron.
Minsky, Papert: Perceptrons, 1969
− Zásadnı́ omezenı́ perceptronů, nelze implementovat mj. funkci XOR
Řešenı́ až v 80. letech - vı́cevrstvá sı́t’ (navı́c skrytá vrstva)
Učenı́ algoritmem zpětného šı́řenı́ (backpropagation)
− Přirozené rozšı́řenı́ metody nejmenšı́ch čtverců
− Gradientnı́ optimalizace, chyba je zpětně šı́řena od výstupů na vnitřnı́ neurony
∂J
− ∆w = −η ∂w
, η - rychlost učenı́, J chybová funkce
Aktivačnı́ funkcı́ typicky sigmoida nebo tanh (derivovatelnost)
Perceptron vs. vı́cevrstvá sı́t’
XOR jako vı́cevrstvá sı́t’.
[Duda, Hart, Stork: Pattern Classification].
Nelineárnı́ aproximace vı́cevrstvou sı́tı́
Aproximace nelineárnı́ funkce MLP sı́tı́ s architekturou 2-4-1. Je využito čtyř protilehle
umı́stěných sigmoidálnı́ch fcı́ vnitřnı́ch neuronů. [Duda, Hart, Stork: Pattern Classification].
Nelineárnı́ aproximace vı́cevrstvou sı́tı́
Složitějšı́ architektury mohou implementovat libovolné rozhodovacı́ hranice (nekonvexnı́,
oddělené apod.) [Duda, Hart, Stork: Pattern Classification].

Podobné dokumenty

- Ústav anorganické technologie

- Ústav anorganické technologie Základem separačnı́ch schopnostı́ všech membrán je rozdı́lná rychlost transportu jednotlivých složek směsi přes membránu. Mechanismy pohybu molekul v membráně závisı́, jak na povaze me...

Více

Bakalarske statnice

Bakalarske statnice Předmět lze splnit jeho úspěšným absolvovánı́m nebo uznánı́m z předchozı́ho studia. Ústnı́ část státnı́ závěrečné zkoušky se skládá ze dvou předmětů, jimiž jsou Základy mat...

Více

Analýza antropologických dat metodami výpocetn´ı inteligence Bc

Analýza antropologických dat metodami výpocetn´ı inteligence Bc data (vstupy) jsou důležité a které méně, pro výsledek, kterého se snažı́me dosáhnout. Ne všechny informace jsou vhodné pro vytěžovánı́ dat. Je zapotřebı́ porozumět struktuře, pok...

Více

Darwinova evolucn´ı teorie

Darwinova evolucn´ı teorie že objevı́me v dané oblasti řadu přechodných forem. Proč se ale nevyskytujı́ přechodné formy v přechodných oblastech, které majı́ přechodné podmı́nky života? Darwin uvádı́, že musı́...

Více

Zvyšování citlivosti ultrazvukové EMAT defektoskopie

Zvyšování citlivosti ultrazvukové EMAT defektoskopie lidské činnosti. Obecně se nedestruktivnı́ defektoskopie zabývá testovánı́m struktury kovových i nekovových materiálů a vnitřnı́ch nebo povrchových vad objektů bez zásahu do jejich ce...

Více

2 -SSR právě tehdy když 2

2 -SSR právě tehdy když 2 SOLITAIRE ARMY ’61: Máme nekonečnou šachovnici a jednu přı́mku (bariéru), která jı́ roděluje na hornı́ a dolnı́ polovinu. Pod bariérou jsou naskládány kameny (vojáci). S kameny se dá po...

Více

zápisky z 2. přednášky

zápisky z 2. přednášky Konečná hra (končı́ po ≤ C tazı́ch a nějak dopadne.) Formálně tedy indukce postupuje dle C.

Více

Metody Pocítacového Videní (MPV) - Machine learning

Metody Pocítacového Videní (MPV) - Machine learning 3. v daném uzlu ← rozhodovacı́ pravidlo určeno jako nejlepšı́ výsledek (rozmanitost) pouze mezi m náhodně vybranými prvky přı́znakového vektoru (dimenzemi)

Více