Klasifikace metodou logisticke´ regrese

Transkript

Klasifikace metodou logisticke´ regrese
Klasifikace metodou logistické regrese
Jiřı́ Vomlel
Ústav teorie informace a automatizace AV ČR
Tato prezentace je k dispozici na webu
http://www.utia.cas.cz/vomlel/
a vycházı́ z knihy
T. Hastie, R. Tibshirani, and J. Friedman:
The elements of statistical learning: Data Mining,
Inference, and Prediction. Springer-Verlag, 2003.
Značenı́
Předpokládáme vektor vstupů (atributů) X = ( X1 , . . . , X p ).
Snažı́me se predikovat výstup Y nabývajı́cı́ch hodnot 1, . . . , K.
Náš prediktor označı́me G.
Jinými slovy:
našı́m cı́lem je klasifikovat objekt popsaný atributy do jedné z K třı́d.
P( G = k| X = x) značı́ pravděpodobnost, že objekt popsaný
vektorem atributů x patřı́ do třı́dy k.
2
Model logistické regrese
Logistická funkce
logit P( G = k| X = x) = log
P( G = k| X = x)
K −1
1 − ∑`=
1 P ( G = `| X = x )
Logistická regrese
logit P( G = 1| X = x)
= β1,0 + β1T x
logit P( G = 2| X = x)
= β2,0 + β2T x
...
logit P( G = K − 1| X = x)
= βK−1,0 + βKT −1 x
kde θ = (β1,0 , β1 , . . . , βK −1,0 , βK −1 ) jsou parametry modelu.
3
Z předchozı́ho plyne, že
P( G = 1| X = x)
P( G = 2| X = x)
exp(β1,0 + β1T x)
=
K −1
T x)
1 + ∑`=
exp
(
β
+
β
`
,0
1
`
exp(β2,0 + β2T x)
=
K −1
T x)
1 + ∑`=
exp
(
β
+
β
`
,0
1
`
...
P( G = K − 1| X = x)
P( G = K | X = x)
exp(βK −1,0 + βKT −1 x)
=
K −1
T
1 + ∑`=
1 exp (β`,0 + β` x )
1
=
K −1
T x)
1 + ∑`=
exp
(
β
+
β
`
,0
1
`
Označı́me
P( G = k| X = x)
4
=
pk ( x, θ )
Maximálně věrohodný odhad
Předpokládejme data:
( x1 , g1 ) = (( x1,1 , . . . , x1,p ), g1 )
( x2 , g2 ) = (( x2,1 , . . . , x2,p ), g2 )
...
( x N , g N ) = (( x N,1 , . . . , x N,p ), g N )
maximálně věrohodný odhad parametů modelu θ pro pozorovaná
data maximalizuje
N
`(θ ) =
∑ log pgi (xi , θ)
N
=
i =1
∑ log P(G = gi |X = xi )
i =1
5
Model logistické regrese pro K = 2
Logistická regrese je pak definována jednou rovnicı́
logit p1 ( xi , θ )
= β1,0 + β1T xi
což zjednodušı́me zavedenı́m β = (β1,0 , β1T ) a xi = (1, xi,1 , . . . , xi,p )
a p1 ( xi , θ ) = p( xi , β) na
logit p( xi , β)
= β T xi
Zakódujeme dvě hodnoty G pomocı́ y nabývajı́cı́ch hodnot 0 (pro
G = 1) a 1 (pro G = 2) pak pro logaritmickou věrohodnostnı́ funkci
můžeme psát
N
`(β) =
∑ yi log p(xi , β) + (1 − yi ) log(1 − p(xi , β))
i =1
6
Použijeme-li vztah p( xi , β) =
N
`(β) =
=
=
exp(β T xi )
1+exp(β T xi )
dostaneme
exp(β T xi )
exp(β T xi )
∑ yi log 1 + exp(βT xi ) + (1 − yi ) log 1 − 1 + exp(βT xi )
i =1
N 1
exp(β T xi )
∑ yi log 1 + exp(βT xi ) + (1 − yi ) log 1 + exp(βT xi )
i =1
N ∑ yiβT xi − log(1 + exp(βT xi ))
i =1
Chceme-li maximalizovat logaritmickou věrohodnostnı́ funkci,
požadujeme aby jejı́ parciálnı́ derivace byly nulové
N N
xi exp(β T xi )
∂`(β)
= ∑ yi xi −
= ∑ xi ( yi − p( xi , β)) = 0
Tx )
∂β
1
+
exp
(
β
i
i =1
i =1
což je p + 1 nelineárnı́ch rovnic. Pro vyřešenı́ úlohy můžeme použı́t
7
Newtonovu numerickou metodu, která vyžaduje Hessovu matici
∂2 `(β)
∂β∂β T
N
= − ∑ xi ·
i =1
N
= −∑
∂
∂
p ( xi , β ) = − ∑ xi ·
∂β
∂β
i =1
N
xi xiT
i =1
i)
1 + exp(β T x
exp(β T xi )(1 + exp(β T xi )) − exp(β T xi )2
·
(1 + exp(β T xi ))2
N
= − ∑ xi xiT · p( xi , β)(1 − p( xi , β))
i =1
Je-li βold stará hodnota, novou hodnotu spočteme jako
βnew
exp(β T x
= βold −
−1
2
∂ `(β)
∂β∂β T
8
∂`(β)
∂β
i)
Použijeme maticový zápis:
= ( y1 , . . . , y N ) T

1 x1,1 . . . x1,p

 1 x
. . . x2,p
2,1

X = 
 ...

1 x N,1 . . . x N,p
y







= ( p( x1 , βold ), . . . , p( x N , βold ))T

p( x1 , βold )(1 − p( x1 , βold )) 0 . . . 0

 0 p( x , βold )(1 − p( x , βold )) 0 . . .
2
2

W = 
 ...

0 . . . 0 p( x N , βold )(1 − p( x N , βold ))
p
9







Jeden krok Newtonova algoritmu je
βnew
= βold − (XT WX)−1 XT (y − p)
= (XT WX)−1 XT W(Xβold + W−1 (y − p))
= (XT WX)−1 XT Wz
kde z = Xβold + W−1 (y − p).
Tato formulace jednoho kroku algoritmu odpovı́dá úloze vážených
nejmenšı́ch čtverců, nebot’ jeden krok algoritmu odpovı́dá
βnew
= arg min(z − Xβ)T W(z − Xβ)
β
Celý algoritmus tak odpovı́dá metodě iterativně vážených
nejmenšı́ch čtverců - iteratively reweighted least squares (IRLS).
10
11
12

Podobné dokumenty

Návod k obsluze - Complet Energy

Návod k obsluze - Complet Energy Tip: Pokud budete obsluhovat zařízení přímo na místě, ponechte nastavení 0 (Tovární nastavení při expedici) Zde je úplně jedno, zda se připojíte s RS232 nebo RS485 na invertor . Automatické zpětné ...

Více

Algoritmy pro spojitou optimalizaci

Algoritmy pro spojitou optimalizaci Nepřesnějšı́, ale zvládnou i těžké funkce Vyžadujı́ vı́ce iteracı́, časově náročnějšı́

Více

Úvod do pravděpodobnosti

Úvod do pravděpodobnosti • Každému jevu X je přiřazena hodnota P (X) splňujı́cı́ 0 ≤ P (X) ≤ 1. Hodnota P (X) se nazývá pravděpodobnost jevu X. • Pro pravděpodobnost jistého jevu platı́ P (Ω) = 1 (Ω – množina vs...

Více

ML odhad zpozden´ı dálkomerného signálu

ML odhad zpozden´ı dálkomerného signálu O aditivnı́m šumu n(t) budeme předpokládat, že je pásmově omezený bı́lý gaussovský šum na intervalu |ω| < 2πB, kde B = fsa /2. Na tomto intervalu necht’ má šum spektrálnı́ výkonovou h...

Více

Termodynamika a molekulová fyzika

Termodynamika a molekulová fyzika T [K ] = t [°C] + 273,15 °C = t + T0 , Kelvinova (absolutní) teplotní stupnice T0 = 273,15 K

Více

Präsentation 1

Präsentation 1 kde: xit je vektor vstupů obsahující produkční faktory (A, L, K, M), β0 je konstanta funkce, β je vektor parametrů funkce určující produkční funkci, t je proměnná modelující vlivy technické změny v...

Více