fólie B

Transkript

fólie B
Statistika B
Obsah: (1) Analýza závislostı́, (2) Časové řady, (3) Indexy
Literatura:
- Seger & kol. Statistika v hospodářstvı́ ETC Publishing 1998
- Jarošová, Pecáková Přı́klady k předmětu Statistika B VŠE
2000
Software: Statgraphics, Excel
Vyučujı́cı́: Martin Šmı́d, [email protected], 777 605 528
Stránky s informacemi: www.klec.cz/st
1
12. Metody zkoumánı́ závislosti
Veličiny x a y jsou nezávislé, pokud se x při různých hodnotách
y chová stejně (tj. hodnota x neposkytuje žádnou upřesňujı́cı́
informaci o hodnotě y). Veličiny x a y jsou závislé, pokud se y
při různých hodnotách x chová různě (tj. hodnoty x napovı́dá
něco o hodnotě y). Exaktnı́ definice viz Statistika A.
Přı́klady závislých veličin:
- množstvı́ spáleného uhlı́ a teplota v mı́stnosti
- vzrůst a váha
- doba přı́pravy na zkoušku a jejı́ výsledek
- kouřenı́ a zdravı́.
Přı́klady nezávislých veličin:
- barva vlasů topı́cı́ho a teplota v mı́stnosti
- inteligence a vzrůst
- počet sladkostı́ věnovaných pedagogovi a výsledek zkoušky
- dva následujı́cı́ hody kostkou
2
Závislost může být různě silná:
- V laboratornı́ch podmı́nkách množstvı́ spáleného paliva téměř
přesně určı́ teplotu ohřı́vaného předmětu (silná závislost)
- V běžné mı́stnosti teplota nenı́ přesně určena množstvı́m
paliva (závisı́ též na dalšı́ch faktorech - středně silná závislost)
- V mı́stnosti s dokořán otevřenými okny je teplota ovlivněna
kamny jen velmı́ málo (slabá závislost).
Pozor, (statistická) závislost nedokazuje přı́činnost (topenı́ sice
způsobuje teplo, váha však nezpůsobuje vzrůst).
Statistická závislost se zkoumá za pomoci vhodného testu
založeného na několikanásobném pozorovánı́ zkoumaných veličin.
3
Závislost kategoriálnı́ch veličin
Přı́klady:
- kuřák/nekuřák × zdravý/nemocný
- pohlavı́ × povolánı́
- bydlı́ v i-tém kraji × pracuje v j-tém sektoru hospodářstvı́
Statistické zjišt’ovánı́ závislosti kateg. veličin.
- χ2 testy nezávislosti
- kontingenčnı́ koeficienty
- trojrozměrné histogramy
4
Kontingenčnı́ tabulka
Necht’ může veličina x nabývat hodnot x1, x2, . . . , xr a veličina y
hodnot y1, y2, . . . , ys. Všechny výše zmı́něné postupy vycházejı́
z kontingenčnı́ tabulky:
proměnné
x1
x2
...
xr
součet n.j
y1
n11
n21
...
nr1
n.1
y2
n12
n22
...
nr2
n.2
...
...
...
...
...
...
ys
n1s
n2s
...
nrs
n.s
součet ni.
n1.
n2.
...
nr.
n
nij - sdružené četnosti (počty jedinců s X = xi, Y = yj )
ni·, n·j - marginálnı́ četnosti (součty řádků resp. sloupců).
Pro r = s = 2 se tabulka nazývá čtyřpolni.
5
χ2 test nezávislosti
Předpoklad: Dosti velký vzorek (doporučuje se aby ni.n.j ≥ 5)
Hypotéza H0: Veličiny jsou nezávislé.
Statistika:
χ2 =
³
ni. n.j ´2
nij − n
ni. n.j
i=1 j=1
n
r X
s
X
∈ h0, nhi,
h = min(r − 1, s − 1).
H0 se zamı́tá, pokud χ2 > χ2
(1 − α) (viz statistické
(r−1)(s−1)
tabulky).
Poznámka: Zatı́mco právě zmı́něný test je asymptotı́cký (tj. rozdělenı́ statistiky známe jen přibližně), pro čtyřpolnı́ tabulky existuje přesný test - při
jeho použitı́ nenı́ ani třeba, aby ni. n.j ≥ 5.
6
Kontingenčnı́ koeficienty
Pearsonův kontingenčnı́ koeficient
v
u
u χ2
GP = t 2
∈ h0, 1)
χ +n
Cramérův kontingenčnı́ koeficient
s
GCr =
χ2
∈ h0, 1i
nh
Interpretace: Čı́m je hodnota blı́že jedné, tı́m je závislost silnějšı́.
Trojrozměrný histogram
- grafické znázorněnı́ sdružených četnostı́ nij
7
Domácı́ úkol 1. Náhodný výběr 100 pedagogických pracovnı́ků
VŠ měl následujı́cı́ četnosti podle pohlavı́ a pedagogické hodnosti:
Pohlavı́
muž
žena
asistent
2
4
Pedagogická hodnost
odb. asistent docent profesor
30
15
8
30
8
3
Lze ze zı́skaných údajů usuzovat, že pedagogická hodnost
závisı́ na pohlavı́?
Řešenı́ v Statgraphicsu (dále SG): přes Describe|Categorical data|Contingency
tables, podokno Chi-Square Test viz obdobný přı́klad ve skriptech.
Důležitá poznámka: V SG se mı́sto srovnánı́ testových statistik
a kritických hodnot zobrazuje tzv. dosažená hladina - anglicky
P-value - která určuje, na jaké nejnižšı́ hladině by se dal test
zamı́tnout.
Pokud tedy testujeme nějakou hypotézu na hladině 0, 05, zamı́táme
ji v přı́padě, že P-value < 0, 05.
8
Závislost kategoriálnı́ a kvantitativnı́ proměnné
Přı́klady:
- přı́slušnost k určité skupině × výkon,
- různé druhy léčby × snı́ženı́ teploty,
- různé drůbežárny × snůška vajec.
Poznámka: Pokud jsou kategorie jen dvě, stačı́ použı́t t-test,
viz Statistika A.
ANOVA - analýza rozptylu
Závislost jedné kategoriálnı́ a jedné kvantitativnı́ proměnné jednoduché třı́děnı́
Závislost vı́ce kategoriálnı́ch a jedné kvantitatitvnı́ proměnné dvojné, trojné, . . . třı́děnı́, přı́padně s interakcemi
9
Jednoduché třı́děnı́
Vstupnı́ tabulka
x
součet
průměr
1
y11
y12
...
y1n1
y1.
ȳ1
2
y21
y22
...
y2n2
y2.
ȳ2
yk2
...
ykn2
yk.
ȳk
y..
ȳ
...
k
Celkem
yk1
Princip metody: Pokud jsou x a y nezávislé, mělo by být
chovánı́ y stejné pro každou hodnotu x, průměry ȳi by tedy
měly být přibližně stejné. Pokud budou ”přı́liš rozdı́lné” zamı́tneme
hypotézu nezávislosti. Zde ukážeme tzv. Scheffého metodu.
Poznámka: Někdy nás ještě zajı́mat, které průměry se významně lišı́. Tuto
otázku řešı́ tzv. Tukeyova metoda.
10
Vyhodnocenı́ ANOVA
Meziskupinový součet čtverců Sy.m =
Pk
2
i=1 ni (ȳi − ȳ)
Pk
Pni
Vnitroskupinový součet čtverců Sy.v = i=1 j=1(yij − ȳi)2
Pk
Pni
Celkový součet čtverců Sy = i=1 j=1(yij − ȳ)2
Platı́: Sy = Sy.m + Sy.v .
S
Determinačnı́ poměr P 2 = Sy.m
∈ h0, 1i. Udává procento rozy
ptylu vysvětlené různostı́ skupin. Veličina P se nazývá korelačnı́
poměr
Interpretace: Čı́m je hodnota P 2 blı́že jedné, tı́m většı́ je různost
mezi skupinami, tj. tı́m silnějšı́ je závislost y na x.
11
Test nezávislosti v ANOVA
Předpoklay:
- Stejný rozptyl všech yij
- Normálnı́ rozdělenı́ veličin y
Výsledná tabulka ANOVA
zdroj měnlivosti
SS
DF
MS
F
meziskupinový
Sy.m
k−1
Sy.m
k−1
Sy.m /(k−1)
Sy.v /(n−k)
vnitroskupinový
Sy.v
n−k
Sy.v
n−k
Sy
n−1
celkový
Test H0: µ1 = · · · = µk versus H1: non H0
Zamı́tá se pokud: F > Fk−1,n−k (1 − α)
Domácı́ úkol 4. Předpokládejme náhodný výběr 5 prodejů rodinných domků v několika městech v roce 1985 za následujı́cı́
ceny v 1000 dolarů:
Město
Boston
Indianapolis
Rochester
San Diago
Cena
110, 160, 93, 206, 171
73, 38, 45, 108, 42
88, 66, 112, 47, 52
57, 81, 181, 165, 106
Rozhodněte, zda ceny rodinných domků se v jednotlivých městech
významně lišı́.
Řešenı́ ve SG: Do databáze vložte data tak, že v jednom sloupci je kategoriálnı́ a v druhém kvalitativnı́ proměnná. Zvolte Oompare|Analysis of
Variance|One Way ANOVA. Do pole Factor zadejte sloupec s kat. proměnnou,
do pole Dependent variable sloupec s kvant. proměnnou. Výsledná tabulka
se zobrazı́ v podokně ANOVA table. Výsledek testu se pozná podle P-value
v poslednı́m sloupci této tabulky.
12
13,14,15. Regresnı́ a korelačnı́ analýza
Závislost kvantitativnı́ch veličin - korelačnı́ analýza
Přı́klady:
- váha × výška
- střednı́ věk v zemi × hrubý domácı́ produkt zeně
- ceny akciı́ v New Yorku × ceny akciı́ v Londýně
Statistické zjišt’ovánı́ závislosti veličin: pomocı́ korelačnı́ch koeficientů
-
párový (Pearsonův) korelačnı́ koeficient
Spearmanův korelačnı́ koeficient
parciálnı́ korelačnı́ koeficient
koeficient mnohonásobné korelace
- přı́padně pomocı́ korelačnı́ch grafů.
13
Párový (Pearsonův) korelačnı́ koeficient
sxy
rxy = q
2
s2
x sy
kde
∈ h−1, 1i,
n
1 X
sxy =
(xi − x̄)(yi − ȳ)
n i=1
n
X
1
s2
(xi − x̄)2,
x =
n i=1
(výběrová kovariance)
n
X
1
s2
(yi − ȳ)2
y =
n i=1
(výběrové rozptyly)
Interpretace:
rxy >> 0 − ukazuje na přı́mou lineárnı́ závislost proměnných
(typ ”čı́m vı́ce, tı́m vı́ce”)
rxy << 0 − ukazuje na nepřı́mou lineárnı́ závislost proměnných
(typ ”čı́m vı́ce, tı́m méně”)
.
rxy = 0 − indikuje nezávislost anebo závislost nenı́ lineárnı́
14
Test nezávislosti pomocı́ Pearsonova k.k.
Předpoklad: Normálně rozdělené veličiny nebo dostatečně velký
vzorek.
Test H0: ρxy = 0 versus H1: ρxy 6= 0
T =q
rxy
2
1 − rxy
³
Zamı́tá se, pokud: |T | > tn−2 1 −
√
n−2
α
2
´
Domácı́ úkol 2. (Logaritmované) přı́růstky indexu pražské burzy
PX50 v procentech začátkem ledna 2002 činily
2, 50
0, 23
1, 54
− 0, 82
0, 89
0, 79
0, 83
Zjistěte, zda dva následujı́cı́ přı́růstky na sobě závisejı́.
Ve SG se korelačnı́ koeficient vypočı́tá přes Describe|Numeric data|Multiple
variable analysis, podokno Correlations, výsledek testu zjistı́me opět podle
P-value.
15
Spearmanův korelačnı́ koeficient
- Lze použı́t i pro ”značně nenormálně” rozdělená data.
- Mı́sto samotných veličin srovnáváme jejich pořadı́ ve vzorku.
6
rS = 1 −
n
P
i=1
(ri − si)2
n(n2
− 1)
∈ h−1, 1i
ri pořadı́ xi mezi x1, . . . , xn,
si pořadı́ yi mezi y1, . . . , yn
rS >> 0 − ukazuje na závislost typu ”čı́m vı́ce, tı́m vı́ce”
rS << 0 − ukazuje na závislost typu ”čı́m vı́ce, tı́m méně”
.
rS = 0 − indikuje nezávislost anebo jiný typ závislosti
16
Test nezávislosti pomocı́ Spearmanova k.k.
Test H0: Veličiny jsou nezávislé, H1: Veličiny jsou závislé
√
rS
T =q
n−2
2
1 − rS
´
α
Zamı́tá se pokud: |T | > tn−2 1 − 2
(pro n ≥ 10)
Poznámka: Pro n < 10 lze Spearmanův k.k. též použı́t, hypotéza H0 se
pak zamı́tá pokud |rS | > rS,n(α), hodnoty rS,n(α) jsou tabelovány.
³
Domácı́ úkol 3. Zjistěte, zda a jak souvisejı́ známky vybraných
dětı́ z matematiky a z tělocviku (data jsou vymyšlená)
Známka/žák
matematika
tělocvik
A
1
3
B
3
1
C
1
1
D
2
1
E
2
3
F
4
2
G
2
2
H
1
4
I
3
2
J
5
2
Ve SG se rS vypočı́tá přes Describe|Numeric data|Multiple variable analysis,
podokno Rank correlations, které se dá vyvolat pomocı́ dialogu Tabular
options
17
Parciálnı́ korelačnı́ koeficient
Motivace. Nejspı́š se dá statisticky dokázat značně většı́ kriminalita mezi přı́slušnı́ky jisté etnické skupiny než mezi přı́slušnı́ky
většinové populace, což někoho vede k přesvědčenı́, že národnost
ovlivňuje sklon ke kriminalitě. Věc by se možná vysvětlila, pokud by se vzal v úvahu dalšı́ faktor, a to vzdělánı́. Pak by se
asi ukázalo, že se kriminalita dá vysvětlit spı́še nevzdělanostı́
než národnostı́.
Podobné situace řešı́ statistika pomocı́ koeficientu parciálnı́
korelace rX,Y,Z , který měřı́ korelaci x a y s vyloučenı́m vlivu
veličiny Z.
Ve SG se rX,Y,Z vypočı́tá přes Describe|Numeric data|Multiple variable analysis,
podokno Partial correlations
18
Koeficient mnohonásobné korelace
- viz regrese
Korelačnı́ grafy
- bodové grafy, kdy na osu x vynášı́me hodnoty xi a na osu y
hodnoty yi
19
Regresnı́ analýza
Motivačnı́ přı́klad. Pomocı́ korelace byla zjištěna statisticky
významná závislost mezi podávánı́m jistého léku a následným
snı́ženı́m tělesné teploty. Ted’ ale chceme (alespoň přibližně)
vědět kolik pilulek máme podat, aby se teplota snı́žila o požadovanou
hodnotu.
Obecněji: cı́lem regresnı́ analýzy je najı́t funkčnı́ předpis - tzv.
regresnı́ funkci - co nejlépe vyjadřujı́cı́ charakter závislosti
20
Matematický model, použı́vaný v regresnı́ analýze
Regrese zkoumá závislost vysvětlované proměnné y
na vysvětlujı́cı́ch proměnných x1, . . . , xk .
Předpokládá se model
yi = f (x1,i, . . . , xk,i; β0, β1, . . . , βp) + εi,
i = 1, . . . , n,
p≥k
kde f je funkce a εi jsou náhodné veličiny.
Funkce f (x1, . . . , xk ; β0, β1, . . . , βp) se nazývá regresnı́ funkcı́
Hodnoty β0, β1, . . . , βp - se nazývajı́ regresory
Veličiny εi se nazývajı́ rezidua.
Předpoklad: ε1, . . . , εn nezávislé s rozdělenı́m N(0, σ 2) pro nějakou
konstantu σ.
21
Odhad regresorů na základě n pozorovánı́ se provádı́ metodou
nejmenšı́ch čtverců MNČ
min
n
X
β0 ,...,βp i=1
(yi − f (x1, . . . , xk ; β0, β1, . . . , βp))2
Za odhad parametrů β0, β1, . . . , βi pak vezmeme hodnoty b0, b1 . . . , bp
které jsou řešenı́m uvedeného minimalizačnı́ho problému.
22
Některé aplikace
- Vzájemná závislost různých makroekonomických veličin je
obecně známa. Předpovědi těchto veličin se dělajı́ právě pomocı́ (poněkud zobecněných) metod regresnı́ analýzy.
- Banky se chtějı́ výhnout poskytovánı́ úvěrů osobám, které
je nesplati. Vědı́, že schopnost splacenı́ úvěru souvisı́ s mnoha
charakteristikami věřitele. Pomocı́ regresnı́ analýzy ze svých
historických údajů odhadnou závislost mı́ry splacenı́ na těchto
charakteristikách a u každého nového žadatele tyto charakteristiky zjišt’ujı́. Pomocı́ předpovědı́ v modelu (viz přı́ště) pak
odhadujı́ pravděpodobnou mı́ru splacenı́.
- Zdravotnictvı́, psychologie, marketing...
23
Lineárnı́ regrese
Regresnı́ funkce má tvar
y = β0 + β1x1 + . . . + βk xk
Pokud k = 1, mluvı́me o jednoduché regresi, pokud k > 1 jde
o vı́cenásobnou regresi.
Grafická představa
k = 1 - body na grafu, kde jsou zakresleny hodnoty xi a yi
prokládáme ”co nejlépe” přı́mkou
k = 2 - body na 3D grafu, kde jsou v základnı́ rovině vektory
xi a ve svislé dimenzi přı́slušné hodnoty yi prokládáme ”co
nejlépe” rovinou.
24
Odhad MNČ v lineárnı́ regresi
Odhad MNČ dán vzorcem b = (X 0X)−1X 0y kde b označuje
vektor hodnot (b0, b2, . . . , bk ), y označuje vektor obsahujı́cı́ pozorovánı́ (y1, y2, . . . , yn) a X je matice typu n × k + 1 složená
ze sloupce jedniček a k sloupců tvořených pozorovánı́mi xij .
Pk
0
Důkaz: Hledáme minβ i=1(yi − xi β)2 kde β je vektor parametrů a xi označuje i-tý řádek matice X. Parciálnı́ derivace
Pk
minimalizované funkce podle j-té proměnné je i=1 xij 2(yi −
0
xi β). Podmı́nka nulovosti všech k parciálnı́ch derivacı́ zapsaná
ve vektorovém tvaru znı́ X 0Y = X 0Xβ (této soustavě se řı́ká
normálnı́ rovnice). Dosazenı́m se snadno zjistı́, že jim odhad b
vyhovuje z čehož vyplývá, že právě on je řešenı́m minimalizačnı́
úlohy MNČ.
25
Ukazatele kvality modelu.
Reziduálnı́ součet čtverců
P
2
SR = n
ŷi = b0 + b1x1 + . . . + bk xk
i=1 (yi − ŷi) ,
Pozn: ten minimalizujeme.
Teoretický součet čtverců
P
2
ȳ = (y1 + y2 + . . . + yn)/n
ST = n
i=1(ŷi − ȳi ) ,
Celkový součet čtverců
P
2
Sy = n
i=1 (yi − ȳi )
Platı́, že Sy = ST + SR .
Koeficient determinace R2 = ST /Sy ∈ h0, 1i. Určuje, jaké procento variability se podařilo regresı́ vysvětlit. Veličina R se
nazývá koeficient mnohonásobné korelace.
Odhad je tı́m kvalitnějšı́, čı́m menšı́ je SR (neboli čı́m většı́ je ST , neboli
ı́m většı́ je R2 ). Za dobré modely jsou považovány ty s R2 ≥ 0, 8. Pozor, v
modelech, kde se předpokládá β0 = 0, nenı́ tento koeficient definován (ač
ho napřı́klad Excel počı́tá).
26
Celkový F-test o modelu
Tabulka podobná ANOVě:
zdroj měnlivosti
SS
DF
MS
F
teoretický
ST
p−1
ST
k
ST /(p−1)
SR /(n−p)
reziduálnı́
SR
n−p
SR
n−k−1
celkový
Sy
n−1
Test H0: regresnı́ parametry u proměnných jsou nulové
H1: non H0 (tj. model má tvar yi = β0 + ²i)
Zamı́tá se pokud: F > Fk,n−k−1(1 − α)
27
Odhady a hypotézy o jednotlivých regresorech
Přı́pomı́nka: bi označuje bodový odhad parametru βi
SR
Bodový odhad rozptylu reziduı́ σ 2: s2 = n−k−1
Intervalový odhad
µ
α
α
βi ∈ bi − tn−k−1(1− ) s(bi), bi + tn−k−1(1− ) s(bi)
2
2
kde s(bi) je odhad směrodatné odchylky bi
¶
√
Pro zájemce o ”střeva” regresnı́ analýzy: s(bi ) = s vii, vi,i je i-tý prvek
diagonály matice (X 0 X)−1 .
Test nulovosti regresoru (t-test)
H0: βi = 0 versus H1: βi 6= 0, i = 0, 1, . . . , k.
¯
¯
¯ bi ¯
Zamı́tá se pokud: |Ti| = ¯ s(b ) ¯ > tn−k−1(1 − α
2)
i
28
Polynomiálnı́ regrese
Regresnı́ funkce má tvar
y = β0 + β1x + β2x2 + . . . + βk xk
Z hlediska matematického jde zas jen o vı́cenásobnou regresi,
kdy se za druhou záı́vislou proměnnou dosadı́ x2, zda třetı́ x3
atd. Proto to, co platı́ pro vı́cenásobnou regresi, platı́ i pro
polynomiálnı́.
29
Jak vybı́rat model?
Pro výběr modelu neexistuje jednoznačný vzoreček, jde o ”neexaktnı́”
problém. doporučuji přı́hlı́žet k třem kriteriı́m
1. Grafická analýza: jaký tvar má graf dat? Šikmá čára naznačuje lineárnı́
regresi, prohnutá čára kvadratickou (či exponenciálnı́), vodorovná čára
konstatnı́ model yi = β0 + ²i
2. Statistické testy: pokud u některého koeficientu vyjde t-test nevýznamně,
uvažujte o jeho vyřazenı́ z modelu. Napřı́klad nevýznamnost kvadratického regresoru naznačuje lineárnı́ regresi.
3. Pomocı́ indexu determinace: čı́m většı́ index je, tı́m je model lepšı́.
Ale pozor: u složitějšı́ho modelu vyjde vždy většı́, přitom ale složitějšı́
model má i své nevýhody (zejména většı́ nepřesnost odhadů). Proto,
abychom se rozhodli pro složitějšı́ model, musı́ být index determinace
významně většı́.
30
Regrese ve Statgraphicsu
Jednoduchá regrese Relate|Simple Regression
Vı́cenásobná regrese Relate|Multiple Regression
Polynomiálnı́ regrese Relate|Polynomial Regression
Slovnı́ček
Statgraphics
Dependent variable
Independent variable
R-squared
Intercept
Slope
tyto slidy
závislá proměnná
nezávislá proměnná
koeficient determinace
β0
β1
31
Výsledky regrese ve SG
Veličiny SR , ST , Sy
Celkový F-test
Bodový odhad bi
Bodový odhad s2
Veličina s(bi)
Testy nulovosti regresorů
viz tabulka Analysis of Variance
viz P-value v tabulce Analysis of Variance
viz přı́slušný řádek druhého sloupce
tabulky (Multiple) Regression Analysis
druhý řádek sloupce Mean Square tabulky
Analysis of Variance, nebot’
s2 = SR /(n − k − 1)
viz Standard Error v tabulce
(Multiple) Regression Analysis
viz P-value v přı́slušných řádcı́ch tabulky
(Multiple) Regression Analysis
32
Tipy pro regresi se SG
1. Pokud chcete ve vı́cenásobné regresi ”vyhodit” regresor, stačı́ stisknout tlačı́tko Input Dialog (nejvı́ce vlevo) a vymazat přı́slušnou proměnnou
ze seznamu Independent variables.
2. Pokud chcete odhadovat lineárnı́ model bez konstatnı́ho regresoru β0,
spust’te vı́cenásobou regresi a v Analysis options odzatrhněte polı́čko
Constant in Model. Pozor, v takovém přı́padě má ovšem index determinace jiný význam a nelze jej srovnávat s i. d. z ostatnı́ch regresı́.
3. Pokud chcete odhadovat pouze konstantnı́ model, spust’te polynomiálnı́
regresi a v Analysis options zadejte do pole Order nulu
33
Automatizované metody výběru regresorů
Problém: Může být potenciálně mnoho veličin xk , na kterých
by mohlo y záviset. Přitom nenı́ pravda, že cı́m vı́ce parametrů,
tı́m lepšı́ model, nebot’ s vzrůstajı́cı́m počtem parametrů roste
chyba odhadu. Je třeba zvolit ”optimálnı́” počet a složenı́ regresorů.
Krokovacı́ metody
1. metoda forward - postupné přidávánı́ přı́nosných regresorů
do modelu
2. metoda backward - postupné ubı́ránı́ nepřı́nosných regresorů z modelu
Krokovacı́ metody v SG: Nad výsledkem analýzy Multiple Regression klepneme pravým tlačı́tkem myši, vybereme Analysis Options, v tomto dialogu
se pak můžeme rozhodnout pro jednu z výše uvedených možnostı́.
34
Problémy při regresnı́ analýze
Závislost reziduı́. Porušenı́ předpokladu, že εi jsou nezávislá. Detekce: Grafická analýza reziduı́, Durbin-Watsonova statistika a jiné. Řešenı́: Modifikovaná metoda nejmenšı́ch čtverců (jen ve speciálnı́ch přı́padech), někdy
stačı́ použı́t obecnějšı́ model.
Nenormalita reziduı́. Porušenı́ předpokladu, že ε1 jsou normálnı́. Detekce:
Testy dobré shody a jiné testy. Řešenı́: Metodu nejmenšı́ch čtverců lze
použı́t, intervalové odhady a testové statistiky však v takovém přı́padě
nedávajı́ přesné výsledky. Při velkém počtu pozorovánı́ ale rozdělenı́ statistik ”t” a ”F ” blı́žı́ k rozdělenı́, jaké by měly při zachovánı́ předpokladu
normality.
Multikolinearita. Hodnoty xk jsou silně korelované, což má za následek
zbytečně hrubé odhady. Detekce: korelačnı́ analýza nezávislých probměnných,
Řešenı́: speciálnı́ postupy nebo redukce počtu regresorů.
Odlehlá pozorovánı́. Některá pozorovánı́ se do vzorku ”přimı́chala omylem” (napřı́klad pacient s alergiiı́ na zkouaný lék) a majı́ výrazně odlišné
hodnoty, což může znehodnotit odhad. Detekce: speciálnı́ metody. Řešenı́:
vyřazenı́ odlehlých pozorovánı́ nebo použitı́ jiné metody odhadu (např. tzv.
l1 regrese).
35
Zdánlivá regrese (spurious regression). Uvažujme dvě časové
řady xi a yi, které obě systematicky rostou, ale jinak nemajı́ nic
společného (jejich přı́růstky jsou nezávislé). Je jasné, že regrese
xi na yi, vyjde významně. To ale nesmı́ vést k domněnce, že
xi ovlivňuje yi.
Domácı́ úkol 5. Odhadněte poptávkovou křivku po žvýkačce
”Superžvejk”, máte-li k dispozici výzkum, který zjišt’oval na
vzorku 500 lidı́ ochotu koupit tento výrobek při různých cenách.
Výsledky výzkumu jsou zaznamenány v následujı́cı́ tabulce
cena
počet
3
103
4
87
5
70
6
59
7
51
8
49
9
45
10
41
Odhad proved’te nejprve kvadratickou regresı́ (ta předpokládá
regresnı́ funkci y = β0 + β1x + βx2, čili je vlastně speciálnı́m
přı́padem lineárnı́ regrese s proměnnými x a x2) a otestujte
vhodnost vyřazenı́ některého z regresorů. Finálnı́ odhad proved’te podle výsledků tohoto testu. Předpokládejte, že na trhu
je 5 miliónů lidı́.
36
Předpověd’ v modelu lineárnı́ regrese
Otázka: Jaká hodnoty y nastane pro daná x1, x2, . . . , xk . pokud
se hodnoty řı́dı́ modelem lineárnı́ regrese?
Odpověd’: y = β0 + β1x1 + . . . + βk xk + ², kde ² ∼ N (0, σ 2)
Problém: Neznáme β0, β1, . . . , βk ani σ
Řešenı́: Použijeme odhad:
ŷ = b0 + b1x1 + . . . + bk xk
Lze zkonstruovat i intervalovou předpověd’, pro k = 1 na hladině α to je
µ
α
α
ŷ − tn−2(1 − ) sP , ŷ + tn−2(1 − ) sP
2
2
sP
¶
v
u
u
1
(x − x̄)2
t
= s 1 + + Pn
2
n
i=1 (xi − x̄)
37
2. Časové řady
Situace: máme k dispozici pozorovánı́ nějaké veličiny v časech
1, 2, . . . , n a chceme
a. - pochopit ”systém”, kterým se řada řı́dı́
b. - dělat předpovědi do budoucna (tj. pro časy n + 1, n + 2, . . .
c. - očistit řadu od ”šumu”
d. - odhadnout přı́padné chybějı́cı́ hodnoty (na tomto kursu se
neprobı́rá)
Metody analýzy časových řad: Existuje mnoho metod, zde probereme
- analýzu trendu
- metodu klouzavých průměrů
- jednoduché exponenciálnı́ vyrovnávánı́
- analýzu sezónnosti
Významným souborem (zde neprobı́raných metod) je tzv. BoxovaJenkinsova metodologie.
38
2.1. Modely s trendem
Předpokládá se že
yt = Tt + ²t
kde E²t = 0.
K analýze se použı́vá (přı́padně modifikovaných) metod lineárnı́
regrese, kde vysvětlujı́cı́ proměnnou je čas (např. x1 = 1, x2 =
2, . . . , xn = n a vysvětlovanou proměnnou časová řada. Pro odhad budoucı́ho či přı́padného chybějı́cı́ho pozorovánı́ se použije
předpověd’ v modelu lineárnı́ regrese (viz předchozı́ slidy), pro
”vyhlazenı́” se použije vzorec ȳt = b0 + b1t (tj. dosazenı́ do
regresnı́ přı́mky).
39
Lineárnı́ trend
Tt = β0 + β1t,
t = 1, . . . , n
Odhady β0, β1 MNČ (tj. stejně jako lin. regrese)
Kvadratický trend
Tt = β0 + β1t + β2t2,
Odhady β0, β1, β2 MNČ
t = 1, . . . , n
Domácı́ úkol 1. (a) Učiňte předpověd’ pro řadu s lineárnı́m
trendem pro roky 1981, 1982 a 1983
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
3,38
3,46
5,96
6,29
8,35
8,47
9,35
10,85
12,9
13,4
14,47
16,1
16,19
17,36
18,65
20,17
22,13
22,79
23,88
23,83
(b) Nebyla by řada vystižena lépe modelem s kvadratickým
trendem?
40
Exponenciálnı́ trend
Tt = α β t
β>0
Postup předpovědi/odhadu v čase T :
1. Logaritmujeme obě strany rovnice yt = α β t, čı́mž zı́skáme
vztah
lnyt = ᾱ + β̄t
kde ᾱ = ln α a β̄ = ln β
2. Odhadneme ᾱ, β̄ metodou MNČ (označme ā, b̄ přı́slušné
odhady).
3. V logaritmovaném modelu učinı́me předpověd’ ȳT = ā + b̄ T ,
4. V původnı́m modelu bude předpověd’ yT = exp ȳT
Poznámka: α, β se někdy odhadujı́ metodou vážených nejmenšı́ch čtverců,
tj.
n
X
min
(lnyt − lna − t lnb)2vt
a,b
nejčastějšı́ volba vah vt =
t=1
yt2
41
Modifikovaný exponenciálnı́ trend
Tt = γ + α β t,
β > 0,
t = 1, . . . , n
Odhady α, β, γ metodou částečných součtů n = 3m
m
X
m
X
bm − 1
S1 =
T̂t = mc + ab
yt ∼
b−1
t=1
t=1
2m
2m
X
X
bm − 1
m+1
S2 =
yt ∼
T̂t = mc + ab
b−1
t=m
t=m
S3 =
3m
X
yt ∼
t=2m
s
b=
m
S3 − S2
S2 − S1
3m
X
T̂t =
mc + ab2m+1
t=2m
b−1
a = (S2−S1)
b(bm − 1)2
bm − 1
b−1
c=
m −1
b
S1 − ab b−1
m
Parametry lze odhadnout též vhodnou iteračnı́ metodou.
42
Logistický trend
Tt =
γ
1 + α βt
β > 0, γ > 0
−1
−→
1
1
α
= + βt
Tt
γ
γ
Odhad podobně jako modif. exp. trend (pokud majı́ S3 − S2 a
S2 − S1 stejné znaménko, nebo tzv, diferenčnı́ metodou.
Gompertzova křivka
Tt =
t
β
γα
β>0
ln
−→
lnTt = lnγ + β t lnα
Odhady α, β, γ metodou částečných součtů
Volba trendové složky
1. Dle teoretických předpokladů (např. neomezený růst populace → exponenciálnı́ trend, vývoj firmy → logistická křivka)
43
2. Dle diferencı́
Trend
Charakteristika kt
lineárnı́
4t = yt − yt−1 ∼ konst.
kvadratický
42
t = yt − 2yt−1 + yt−2 ∼ konst.
exponenciálnı́
t
∼ konst.
kt = y yt ∼ konst. nebo yt+1
t −yt−1
t−1
logistický
1/yt+1 −1/yt
1/yt −1/yt−1
Gompertzova k.
lnyt+1 −lnyt
lnyt −lnyt−1
y
−y
∼ konst.
∼ konst.
Volı́me ten model, u kterého nám připadá kt ”nejkonstatněnšı́”.
44
Exponenciálnı́ vyrovnávánı́
Metoda předpokládajı́cı́ trend, ale přitom zohledňujı́cı́ intuitivnı́
předpoklad, že hodnota časové závisı́ vı́ce na těch hodnotách,
které jsou k nı́ blı́že v čase, než na hodnotách, které jsou v
čase dále.
Model exponenciálnı́ho vyrovnávánı́: Předpokládá lokálnı́ (t.j.
v každém čase jiný) trend.
yt = Tt + εt,
t = 1, 2, . . . , n
Pn−1
Odhad parametrů VMNČ min k=0(yn−k − T̂n−k )2 αk
α ∈ (0, 1) – vyrovnávacı́ konstanta
45
1. Jednoduché exponenciálnı́ vyrovnávánı́ (Tt = βt)
v krátkých úsecı́ch časové řady konstantnı́ trend Odhad
parametru β0 metodou VNMČ vycházı́
b0 = (1 − α)
n−1
X
αk yn−k
k=0
tj. předpověd’ pro všechny časy n + 1, n + 2, . . . je rovna bn.
2. Dvojité exponenciálnı́ vyrovnávánı́ (Tn+τ = βn − αnτ )
v krátkých úsecı́ch časové řady lineárnı́ trend (tj. předpověd’
pro t > n bude rovna
bn + an(t − n)
kde bn, an jsou odhady βn, αn metodou VNMČ).
optimálnı́ volba α – minimálnı́ MSE (střednı́ kvadratická odchylka).
46
2.2. Klouzavé průměry
Sloužı́ většinou hlavně pro vyhlazenı́ časové řady.
1. Prosté klouzavé průměry m-členné, m = 2p + 1
p
1 X
ȳt =
yt+i,
m i=−p
t = p + 1, . . . , n − p
2. Centrované klouzavé průměry m-členné, m = 2p
p−1
X
1
yt+i + yt+p)
(yt−p + 2
ȳt =
4p
i=−p+1

=
p−1
X
p
X

1 1
1
yt+i +
yt+i ,
2 2p i=−p
2p i=−p+1
t = p + 1, . . . , n − p
3. Vážené klouzavé průměry
ȳt =
p
X
i=−p
wi yt+i,
t = p + 1, . . . , n − p,
p
X
wi = 1
i=−p
47
3.3. Modely se sezónnı́ složkou
yij = Tij + Sij + εij ,
i = 1, . . . , r, j = 1, . . . , s, n = rs
I. Model konstantnı́ sezónnosti (aditivnı́)
Sij = Sj ,
s
X
Sj = 0,
i = 1, . . . , r
j=1
Odhad sezónnı́ch parametrů metodou empirických sezónnı́ch
odchylek:
1. Trendovou složku vyrovnáme pomocı́ klouzavých
- prostých s členných klouzavých průměrů, pokud je s liché
- centrovaných s + 1 členných klouzavých průměrů, pokud je
s sudé
(čı́mž se sezónnı́ složka vyrušı́)
2. Určı́me průměrnou sezónnı́ odchylku
P
Ŝj∗ = ri=1(yij − T̂ij )/r
48
3. Standardizacı́ zı́skáme sezónnı́ rozdı́lové faktory
Ps
∗
Ŝj = Ŝj − S̄, kde S̄ = j=1 Ŝj∗/s
Předpověd’ v modelu s konstatnı́ sezónnostı́:
S = ŷ + S̄ + Ŝ j
ŷij
ij
i
kde ŷij je předpověd’ ve vyrovnané řadě.
II. Model proporcionálnı́ sezónnosti (multiplikativnı́)
Sij = Tij (1 + Sj ),
s
X
(1 + Sj ) = s,
i = 1, . . . , r
j=1
Odhad sezónnı́ch parametrů
metodou empirických sezónnı́ch indexů:
1. Trendovou složku vyrovnáme pomocı́ klouzavých
průměrů
2. Určı́me průměrný sezónnı́ index
P
1 + Ŝj∗ = ri=1(yij /T̂ij )/r
3. Standardizacı́ zı́skáme sezónnı́ faktory indexnı́
P
1 + Ŝj = s(1 + Ŝj∗)/S̃ kde S̃ = sj=1(1 + Ŝj∗)
Předpověd’ v modelu s proporcionálnı́ sezónnostı́:
S = ŷ S̃ˆ
ŷij
ij (1 + Sj )
kde ŷij je předpověd’ ve vyrovnané řadě.
49
Postup při analýze časové řady
1. Sezónnı́ složka
a. Vyrovnánı́ řady klouzavými průměry
b. Odhad sezónnı́ch parametrů
2. Trendová složka
a. Pomocı́ diferencı́ kt nebo pomocı́ MSE (Special|Time series
analysis|Forecasting, Tabular Options|Comparison of Models) pro
vyrovnanou řadu nejvhodnějšı́ trend
b. Odhadnout parametry vyrovnané řady
50
Domácı́ úkol 2. Uvažujme řadu
1/1994
2/1995
3/1995
4/1995
1/1996
2/1996
3/1996
4/1996
1/1997
2/1997
3/1997
4/1997
1/1998
2/1998
3/1998
4/1998
1/1999
2/1999
3/1999
4/1999
10,17
9,17
6,71
5,12
4,5
5,97
3,03
1,07
2,02
3,58
3,26
0,46
3,72
4,98
5,26
4,35
7,67
9,5
10,17
10,57
Proved’te jejı́ analýzu a určete předpovědi na všechna čtyři
čtvrtletı́ 2000.
51
Domácı́ úkol 3. Udělejte totéž pro řadu
1/1994
2/1995
3/1995
4/1995
1/1996
2/1996
3/1996
4/1996
1/1997
2/1997
3/1997
4/1997
1/1998
2/1998
3/1998
4/1998
1/1999
2/1999
3/1999
4/1999
13,35
14,2
13,65
14,7
16,8
18,18
17,99
20,94
22,82
23,43
24,09
25,71
27,23
29,48
26,97
31,34
31,82
34,99
33,59
37,1
52
Výsledky regrese ve Excelu
V Excelu se regrese spustı́ pomocı́ Nástroje|Analýza dat|Regrese, předtı́m je
však potřeba tuto funkci nainstalovat pomocı́ Nástroje|Doplňky|Analytické
nástroje.
Veličiny SR , ST , Sy
Celkový F-test
Bodový odhad bi
Bodový odhad s2
Veličina s(bi)
Testy nulovosti regresorů
viz sloupec SS v tabulce ANOVA
viz Významnost F v tabulce ANOVA
viz přı́slušný řádek sloupce Koeficienty
tabulky s výsledky regrese∗
druhý řádek sloupce MS tabulky ANOVA
viz Chyba střednı́ hodnoty v tabulce
s výsledky regrese
viz Hodnota P v přı́slušných řádcı́ch tabulky
s výsledky regrese
53
3. Indexy a diference
Literatura: Seger a kol.: Statistika v hospodářstvı́
Index podı́l dvou hodnot téhož ukazatele (relativnı́ změna)
Diference rozdı́l dvou hodnot téhož ukazatele (absolutnı́ změna)
Ukazatele
• extenzitnı́ vyjadřujı́ velikost, rozsah, počet, objem (např. velikost tržby
Q, objem prodeje q)
• intenzitnı́ vyjadřujı́ intenzitu nebo úroveň (např. cena za jednotku p)
p = Q/q
Jiné členěnı́
• stejnorodý - takový, který má smysl sčı́tat (pro ext.)/průměrovat (pro
int.)
• nestejnorodý - ostatnı́ (např. produkce různých odvětvı́, ceny různých
akciı́)
V následujı́cı́m výkladu budeme pracovat se třemi ukazateli:
jednotková cena p, množstvı́ q, hodnota Q = p q. Ostatnı́ ukazatele bývajı́ většinou analogické.
54
Typy indexů a diferencı́
1. indexy množstvı́ - extenzitnı́ ukazatel
2. indexy úrovně - intenzitnı́ ukazatel
Jiné členěnı́
a. individuálnı́ - stejnorodý ukazatel
jednoduché srovnávajı́ dvě hodnoty téhož ukazatele (např. HDP)
složené shrnujı́ dı́lčı́ hodnoty sledovaného ukazatele
(např. obrat několika prodejen)
b. souhrnné - různorodý ukazatel (index spotřebitelských cen, index průmyslové
výroby, index PX-50.)
Dalšı́ členěnı́ indexů a diferencı́
i. bazické (pevný základ)
xi
4(x)i/B = xi − xB
xB
(PX-50, index spotřebitelských cen)
I(x)i/B =
ii. řetězové (pohyblivý základ)
xi
I(x)i/i−1 =
xi−1
4(x)i/i−1 = xi − xi−1
(růst HDP)
55
1. Individuálnı́ indexy a diference
Jednoduché - ukázky pro extenzitnı́ veličiny a intenzitnı́ veličinu
I(Q) =
Q1
Q0
4(Q) = Q1 − Q0
I(q) =
q1
q0
4(q) = q1 − q0
I(p) =
p1
p0
4(p) = p1 − p0
Složené - ukázky pro extenzitnı́ veličiny a intenzitnı́ veličinu
P
P
P
P
P
Q1
I( Q) = P
4( Q) =
Q1 −
Q0
Q0
P
P
q1
I( q) = P
q
0
I(p̄) =
p̄1
p̄0
P
P
P
4( q) =
q1 −
q0
4(p̄) = p̄1 − p̄0
P
Qi
kde p̄i = P ,
q
i = 0, 1
i
56
Otázka: Co způsobilo změnu průměrné ceny? Byla to změna ve struktuře
objemu či změna jednotlivých cen? Odpověd’: Rozklad indexu I(p̄) a diference 4(p̄)
1. Metoda postupných změn
P
P
p1 s0
p 1 s1
I(p̄) = P
·P
= ISS (q0 ) IST R (p1 )
p0 s0
p 1 s0
(jako kdyby se nejprve změnila cena a pak struktura) nebo
P
P
p0 s1
p 1 s1
I(p̄) = P
·P
= IST R (p0 ) ISS (q1 )
p0 s0
p 0 s1
P
P
s0 = q0 / q0
s1 = q1 / q1 (jako kdyby se nejprve změnila
struktura a pak cena) ISS (q0), ISS (q1 ) indexy stálého složenı́
– relativnı́ změna p̄ vlivem změn hodnot p
IST R (p0), IST R (p1 ) indexy struktury
– relativnı́ změna p̄ vlivem změny struktury q
P
P
P
P
4(p̄) = ( p1s0 − p0 s0) + ( p1 s1 − p1 s0 )
P
P
P
P
= ( p0s1 − p0 s0) + ( p1 s1 − p0 s1 )
Nevýhoda: nenı́ realistické, že by se nejprve měnilo jedno a pak teprve
druhé
57
2. Metoda rozkladu se zbytkem
P
P
p 1 s0
p0 s1
I(p̄) = P
·P
IZ = ISS (q0 ) IST R (p0 ) IZ
p 0 s0
p0 s0
IZ – nevysvětlená část
P
P
P
P
4(p̄) = ( p1 s0 − p0s0 ) + ( p0s1 − p0 s0 ) + 4Z
Nevýhoda: Nevysvětlená část
3. Logaritmická metoda rozkladu
I(p̄) = I(p̄)
4(p̄, s) =
4(p̄, p) =
4(p̄,p)
4p̄
· I(p̄)
X ln ss1
0
ln pp10 ss10
X ln pp1
0
ln pp10 ss10
4(p̄,s)
4p̄
(p1 s1 − p0 s0 )
(p1 s1 − p0 s0 )
4(p̄) = 4(p̄, s) + 4(p̄, p)
2. Souhrnné indexy a diference
Nestejnorodé ukazatele pi a qi , indexy srovnávajı́ vážené průměry.
Paascheho index a diference
objemový – změna objemu produkce při cenové hladině odpovı́dajı́cı́ běžnému
obdobı́ (jako váhy v indexu sloužı́ podı́ly ceny na součtu cen v běžném obdobı́)
cenový – změna cen při stálém objemu produkce odpovı́dajı́cı́mu běžnému
obdobı́ (jako váhy v indexu sloužı́ podı́ly objemu na celkovém objemu v
běžném obdobı́)
P
P
P
P
P
q1 p 1 /
p1
q1 p1
P
P
P
I(q)
=
=
4(q)
=
q
p
−
q0 p 1
1 1
P
P
q0 p 1 /
p1
q0 p1
P
P
P
p1 q1 /
q1
p1 q1
P
P
P
I(p)
=
=
P
p q /
q
p q
0 1
1
0 1
P 4(p) =
P
p 1 q1 −
P
p 0 q1
58
Laspeyresův index a diference (použı́vanějšı́)
objemový – změna objemu produkce při cenové hladině odpovı́dajı́cı́ základnı́mu
obdobı́ (jako váhy v indexu sloužı́ podı́ly ceny na součtu cen v základnı́m
obdobı́)
cenový – změna cen při stálém objemu produkce odpovı́dajı́cı́mu základnı́mu
obdobı́ (jako váhy v indexu sloužı́ podı́ly ceny na celkovém objemu v běžném
obdobı́)
P
P
P
q1 p0
q1 p0 −
q0 p 0
L 4(q) =
L I(q) = P
q0 p0
P
p1 q0
L I(p) = P
p q
0 0
L 4(p)
=
P
p1 q0 −
P
p 0 q0
Přı́klady použitı́: Index spotřebitelských cen (jako q0 sloužı́ množstvı́ různého
zbožı́, spotřebovaná průměrnou domácnostı́), PX-50 (jako q0 sloužı́ zastoupenı́ dané akcie na trhu).
59
Problém: P. index a L. index by měly vypovı́dat o stejné skutečnosti, ale
majı́ rozdı́lné hodnoty.
Pokus o řešenı́ (nepoužı́vá se): Fisherův index - geometrický průměr
Paascheho a Laspeyresova indexu
p
p
F I(q) =
P I(q) L I(q)
F I(p) =
P I(p) L I(p)
Analýza rozdı́lnostı́ P. a L. indexu: Bortkiewiczův rozklad
R=
P I(p)
L I(p)
= 1 + vI(p) · vI(q) · rI(p)I(q)
vI(p) , vI(q) variačnı́ koeficienty
rI(p)I(q) korelačnı́ koeficient
A = (I(p) − LI(p))
sP
A2 Q0
P
Q0
vI(p) =
L I(p)
rI(p)I(q)
B = (I(q) − LI(q))
sP
B 2 Q0
P
Q0
vI(q) =
L I(q)
P
Q0 AB
= pP
P
Q0 A2 Q0 B 2
60
P
P
Rozklad indexu I( Q) a diference 4( Q)
1. Metoda postupných změn
P
P
P
p 1 q0
p1 q1
I( Q) = P
·P
= L I(p) P I(q)
p q
p q
0 0
1 0
P
P
P
p 0 q1
p1 q1
I( Q) = P
·P
= L I(q) P I(p)
p q
p q
0 0
0 1
P
4( Q) = L 4(p) + P 4(q)
= L 4(q) + P 4(p)
2. Metoda rozkladu se zbytkem
P
P
P
p1 q0
p0 q1
I( Q) = P
·P
IZ = LI(p) LI(q) IZ
p0 q0
p0 q0
P
4( Q) = L 4(p) + L 4(q) + 4Z
61
3. Logaritmická metoda rozkladu
P
P
Q,
p)
4(
Q, q)
P
P
P
P
P
I( Q) = I( Q) 4( Q) · I( Q) 4( Q)
4(
X ln qq1
P
0
4( Q, q) =
p1 q1 (p1 q1 − p0 q0 )
ln p0 q0
X ln pp1
P
0
4( Q, p) =
p1 q1 (p1 q1 − p0 q0 )
ln p0 q0
P
P
P
4( Q) = 4( Q, q) + 4( Q, p)
62