1 Predmluva 4 2 ´UVOD DO REGRESNÍ ANAL´YZY 9 3

Transkript

1 Predmluva 4 2 ´UVOD DO REGRESNÍ ANAL´YZY 9 3
Obsah
1 Předmluva
4
2 ÚVOD DO REGRESNÍ ANALÝZY
9
3 LINERNÍ REGRESNÍ MODEL
3.1 Odhad regresnı́ch koeficientů . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Odhad rozptylu náhodných fluktuacı́ . . . . . . . . . . . . . . . . . . . . . . . . .
19
19
35
4 DIAGNOSTIKA ODHADU REGRESNÍHO MODELU
4.1 Rozdělenı́ kvadratických forem . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Rozdělenı́ odhadu rozptylu náhodných fluktuacı́ a studentizovaných odhadů regresnı́ch koeficientů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Koeficient determinace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Intervaly a pásy spolehlivosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 Testovánı́ submodelů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6 Výběr modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
43
5 VÝSTUPY Z POČTAČOVÝCH KNIHOVEN
5.1 Tabulky výsledků . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Grafy reziduı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
60
70
6 OVĚŘOVÁNÍ ZÁKLADNÍCH PŘEDPOKLADŮ
6.1 Homoskedasticita a heteroskedasticita . . . . . . . . . . . . . . . . .
6.1.1 Přı́klady situacı́ s heteroskedastickými fluktuacemi . . . . . .
6.1.2 Modely heteroskedasticity . . . . . . . . . . . . . . . . . . . .
6.1.3 Testy homoskedasticity . . . . . . . . . . . . . . . . . . . . .
6.1.4 Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Normalita náhodných fluktuacı́ . . . . . . . . . . . . . . . . . . . . .
6.3 Nezávislost náhodných fluktuacı́ . . . . . . . . . . . . . . . . . . . .
6.4 Nezávislost vysvětlujı́cı́ch proměnných a náhodných fluktuacı́ . . . .
6.4.1 vod a přı́klady situacı́ porušenı́ nezávislosti . . . . . . . . . .
6.4.2 Instrumentálnı́ proměnné . . . . . . . . . . . . . . . . . . . .
6.4.3 Hausmanův test nezávislosti regresorů a náhodných fluktuacı́
6.4.4 Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
72
72
72
74
79
83
84
86
92
92
95
97
99
.
.
.
.
.
.
.
100
100
102
105
106
107
109
113
7 ÚVAHY O SENSITIVITĚ MODELU
7.1 Efekt podurčenı́ . . . . . . . . . . . . . . .
7.2 Efekt přeurčenı́ . . . . . . . . . . . . . . .
7.3 Vliv jednoho pozorovánı́ . . . . . . . . . .
7.4 Kolinearita . . . . . . . . . . . . . . . . .
7.4.1 Zdroje a rozpoznánı́ kolinearity . .
7.4.2 Hřebenová regrese . . . . . . . . .
7.4.3 Odhady s lineárnı́mi ohraničujı́cı́mi
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
podmı́nkami
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
48
52
55
58
7.4.4
7.4.5
7.4.6
Alternativnı́ indikátory kolinearity a jejich záludnosti . . . . . . . . . . . 120
Alternativnı́ řešenı́ problému kolinearity . . . . . . . . . . . . . . . . . . . 123
Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
8 NĚKTERÉ SPECIÁLNÍ TYPY REGRESNÍHO MODELU
128
8.1 Zobecněný regresnı́ model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
8.2 Model s diskrétnı́ vysvětlovanou proměnnou . . . . . . . . . . . . . . . . . . . . . 129
8.2.1 Problémy s použitı́m klasického regresnı́ho modelu pro binárnı́ vysvětlovanou
veličinu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
8.2.2 Model s binárnı́ možnostı́ výběru . . . . . . . . . . . . . . . . . . . . . . . 131
8.2.3 Odhady parametrů v lineárnı́m pravděpodobnostnı́m modelu . . . . . . . 132
8.2.4 Odhady parametrů v probitovém a logitovém modelu . . . . . . . . . . . 134
8.2.5 Diskuze k použitı́ probitového a logitového modelu . . . . . . . . . . . . . 138
8.3 Model s kategoriálnı́mi vysvětlujı́cı́mi proměnnými . . . . . . . . . . . . . . . . . 139
8.4 Vysvětlujı́cı́ proměnné měřené s náhodnými chybami . . . . . . . . . . . . . . . . 141
8.5 Aproximace nepřı́stupných vysvětlujı́cı́ch veličin . . . . . . . . . . . . . . . . . . . 143
9 MODEL S VÍCEROZMĚRNOU VYSVĚTLOVANOU PROMĚNNOU
9.1 Zdánlivě nesouvisejı́cı́ rovnice . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Simultánı́ rovnice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1 Problém identifikace . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.2 Identifikace pomocı́ omezenı́ na kovariančnı́ matici náhodných fluktuacı́
9.2.3 Dvoustupňový odhad metodou nejmenšı́ch čtverců . . . . . . . . . . . .
9.2.4 Trojstupňový odhad metodou nejmenšı́ch čtverců . . . . . . . . . . . . .
.
.
.
.
.
.
144
144
147
151
154
155
157
10 ANALÝZA VARIANCE
159
10.1 Jednoduché třı́děnı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
10.2 Dvojné třı́děnı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
11 NĚKTERÉ NETRADIČNÍ METODY REGRESNÍ ANALÝZY
171
12 Literatura
174
13 Autorský rejstřı́k
181
14 Věcný rejstřı́k
184
4
1
Předmluva
Zpracovánı́ dat, at’ už jsou numerického či kategoriálnı́ charakteru, se stalo v modernı́ vědě jednou
ze standarnı́ch metod vyhodnocovánı́ informace. Zpracovánı́ samo je pak obvykle založeno na
nějaké našı́ představě o charakteru dat, či chcete-li o mechanizmu, který generoval daná data.
Zmı́něná představa je zpravidla formalizována do nějaké vědecké, či se tak alespoň tvářı́cı́,
teorie. Konečně pak výsledky zpracovánı́ jsou pokládány za objektivnı́ zjištěnı́ o světě, který
nás obklopuje a který se takto pokoušı́me pochopit a (naivně) ovládnout. Celý tento postup
je obklopen, či spı́še “proniknut” celou řadou mýtů a zavádějı́cı́ch představ, které majı́ své
historické kořeny v renesanci a osvı́cenectvı́, a své ideové a možná, že by bylo přesnějšı́ řı́ci
ideologické, kořeny v pýše člověka, coby pána přı́rody. Někdy jdou představy těch, kteřı́ toto
zpracovánı́ aplikujı́ až tak daleko, že každé jiné zpracovánı́ informace pokládajı́ přinejmenšı́m
za druhořadé, ne-li rovnou za bezcenné. Dodejme rovnou, že obvykle jsou to ti, kteřı́ nekriticky
obdivujı́ vědecké poznánı́ a neuvědomujı́ si ani reálné možnosti modernı́ vědy, na straně jedné,
ani jejı́ nepřekročitelné hranice, na straně druhé.
Skripta, která máte před sebou, jsou výkladem jedné z metod zpracovánı́ dat, a dodejme,
že jedné z nejefektivnějšı́ch, totiž regresnı́ analýzy. Jako taková nabı́dnou propracovanou teorii,
či přesněji řečeno, jejı́ část, kterou bychom dnes mohli nazvat snad klasickou částı́ regresnı́
analýzy. Tato je téměř výhradně založena na metodě nejmenšı́ch čtverců a zhruba po třech
desetiletı́ch budovánı́ robustnı́ statistiky, je již současné době menšı́ částı́ teorie regrese. Důvody,
proč se této klasické teorii budeme věnovat, jsou následujı́cı́. Mezi uživateli je mimo jakoukoliv
pochybnost stále nejvı́ce známa a nejvı́ce užı́vána, ač se snadno prokáže, že metoda nejmenšı́ch
čtverců je jednou z nejnáchylnějšı́ch k “vyprodukovánı́” zavádějı́cı́ch výsledků. Tı́m spı́še je
třeba si ji osvojit tak, abychom včas rozpoznali, kdy k něčemu takovému může dojı́t. Dalšı́m
důvodem je pak to, že jsou jejı́ výsledky velmi často chybně interpretovány a to i v přı́padě, že
jejı́ výsledky jsou korektnı́. Tı́m spı́še je třeba si ji osvojit tak, abychom včas rozpoznali, kdy k
něčemu takovému došlo a uměli to uvést na pravou mı́ru. Dalšı́m důvodem je nepochybně také to,
že nabı́zı́ snadno akceptovatelnou geometrickou interpretaci (ted’ mluvı́me o interpretaci metody
nikoliv o interpretaci výsledků, aby bylo jasno). Pochopenı́ této interpretace metody nejmenšı́ch
čtverců nás snad nejlépe vyzbrojı́ k rozpoznánı́ výhod i nevýhod jiných metod odhadu regresnı́ch
koeficientů. Konečně pak komplexnost této klasické teorie, zejména pak jejı́ rozsáhlé diagnostické
partie napovı́dajı́ a zkušenosti to potvrzujı́, že bez zevrubné a eficientnı́ aposteriornı́ diagnostiky
nenı́ naděje na spolehlivost odhadnutého modelu solidně podepřena. To nám umožnı́ postavit
se kriticky k těm metodám, obvykle ad hoc vyvinutých na základě zdánlivě rozumné heuristiky,
1 které takovýto “doprovodný” aparát nenabı́zejı́ či jej alespoň neumožňujı́ převzı́t z klasické
regrese.
Dřı́ve než se však pustı́me do vlastnı́ho výkladu, vrat’me se alespoň velmi stručně k tomu,
1
V průběhu dalšı́ho výkladu bude několikrát použito slovo heuristika, které nepatřı́ mezi nejběžněji použı́vaná
slova každodennı́ češtiny. Upřesněme proto, co budeme tı́mto slovem rozumět. Tı́mto slovem budeme označovat
jakýsi soubor idejı́ a představ, či “rozumových” argumentů, které cosi vysvětlujı́, obvykle důvody, proč určitou
teorii či jejı́ část vytvářı́me právě tak, jak pak dále následuje. Nejde tedy jen o filozofické představy, ale o cosi
širšı́ho, založeného na “racionálnı́m” přı́stupu ke světu, což však, právě dı́ky té “zřejmé racionalitě” se může
ukázat v rámci formalizované teorie inkonsistentnı́, liché či zavádějı́cı́. Vzpomeňme jen toho, že vzhledem k tomu,
že mezi každými dvěma racionálnı́mi čı́sly je iracionálnı́ a každými dvěma iracionálnı́mi je racionálnı́, “zdravý”
rozum (někdy též označovaný jako “selský”) usoudı́, že je jich stejné množstvı́.
5
co bylo řečeno na začátku, totiž k některým mýtům, či chcete-li k filozofii, která stojı́ v pozadı́
zpracovánı́ dat, zejména v pozadı́ interpretace výsledků.
Renesance přinesla lidstvu osvobozenı́ od mnoha dogmat, která jej do té doby svazovala,
ale z dnešnı́ho pohledu jsme již schopni zřetelně nahlédnout, že nastolila mnohá jiná dogmata,
která žel Bohu stále ještě přežı́vajı́. Jednı́m z nich je nekritický obdiv k vědě, který je však pro ni
obvykle medvědı́ službou. Mějme vždy na paměti, byt’ budeme stát v tváři v tvář nejúžasnějšı́m
metodám, které modernı́ věda nabı́zı́, že je tato jen a jen výtvorem lidského ducha a zasluhuje
si náš obdiv, nikoliv však nekritický. Navı́c omezenost jejı́ch možnosti je vı́c než patrná. Stačı́ si
uvědomit, že na řadu velmi závažných, ne-li nejpodstatnějšı́ch problémů lidského života, věda
nemá a ani nemůže mı́t uspokojivou odpověd’. Jsou to např. otázky po smyslu lidského života,
po tom, odkud se bere láska, touha či naděje. Odpovědi na tyto otázky musı́me hledat jinde,
např. v teologii, která však zase přirozeně neumı́ tak dobře předpovı́dat, jaký že bude např.
hrubý národnı́ důchod v přı́štı́m čtvrtletı́.
Renesance však přinesla ještě dalšı́ představy, které se dnes jevı́ již jen těžko udržitelné
(z hlediska modernı́ filozofie vědy), ale které ještě stále ovlivňujı́ pohled modernı́ho člověka
na to, co to vlastně věda je. Jednou z nich je představa, že za abstrakcı́, kterou učinı́me
na základě pozorovánı́ (mnoha) opakovánı́ téhož jevu, často navozeného pevně danými okolnostmi, např. upuštěný kámen vždy padá k zemi, stojı́ jakási entita (gravitace), kterou sice
nemůžeme “na vlastnı́ oči” vidět (tak jak nemůžeme např. vidět vzduch), ale která, podobně
jako vzduch objektivně existuje a projevuje se nějakou kauzálnı́ zákonitostı́ (viz výše zmı́něná
představa o mechanizmu, který generoval data). Tato zákonitost je pak popsána teoriı́, přičemž
za ideálnı́ se považuje matematicky zformalizovaná teorie. K jejı́ verifikaci se pak použije pokus,
ve kterém se zkoumané objekty zachovajı́ tak, jak to “předpovı́” tato teorie. Renesačnı́ věda pak
předpokládala, že svět se vlastně skládá z (konečného) počtu takových zákonitostı́, či chcete-li
principů, které byly jednoznačně do světa vepsány jeho původnı́m hybatelem či se (po velkém
třesku2 ) samy od sebe nějak objektivně ustavily.
Pokusme se poněkud hlouběji proniknout do toho, co bylo právě řečeno. Již v 18. stoletı́
napsal Immanuel Kant, že Galileo Galilei podrobil přı́rodu výslechu a idealizoval ji, to jest
zmrzačil ji tak, až byla ochotna hovořit jazykem, který od nı́ chtěl slyšet, tj. jazykem matematiky.
Až přiznala, že se odjakživa řı́dı́ oněmi jednoduchými principy, tj. zákonitostmi. Galileo Galilei
nenaslouchal přı́rodě jako žák učiteli, naslouchal ji jako soudce útrpného práva. (Viz Prigogine
a Stengers (1977).) Zamyslı́me-li se nad celou věcı́, snadno nahlédneme onu “troufalost”, která
si myslı́, že vysvětlenı́, zejména kauzálnı́ vysvětlenı́, které jsme tou či onou teoriı́ podali, je
jediné možné. Ostatně již Karl R. Popper v Bı́dě historicismu (Popper (1957)) naznačil, že
všichni ti, kteřı́ si myslı́, že našli jediné možné zákonité, pokud možno deterministicky kauzálnı́
vysvětlenı́ trpı́ jen nedostatkem fantazie (ne-li i něčı́m horšı́m)3 . Je naprosto jasné, že výše
uvedené abstrakce (jako je např. gravitace) jsou nesmı́rně užitečné, nebot’ dovolujı́ popsat určitý
jev naráz a nikoliv v jeho jednotlivostech. Na druhé straně, uznánı́ či přijmutı́ objektivnı́ existence
takové entity (jako např. gravitace) vyžaduje přinejmenšı́m velice rozsáhlou diskuzi o tom, co
to je objektivnı́ existence, ale spı́še to prostě vyžaduje určitý krok vı́ry.
2
Ten samozřejmě renesance ještě nepředpokládala, proto ty závorky.
Prosı́m vzpomeňte si na Karla Rainmunda Poppera vždy, kdykoliv Vás někdo bude přesvědčovat, že jedině
on má pravdu; trpı́ jen (snad jen) nedostatkem představivosti.
3
6
V pracech Ilji Prigogina a Isabely Stengersové (viz např. Prigogine a Stengers (1984)) pak
zvı́davý čtenář může také nalézt diskuzi k tomu, že podobné, často velmi nezřetelné a tudı́ž
špatně rozpoznatelné kroky vı́ry si vyžadujı́ i ty “nejprimitivnějšı́” počátky zkoumánı́ světa,
které učinı́me už ve svém ranném dětstvı́. Jejich práce diskutujı́ rovněž “sklon” vědeckých
teoriı́ ke kauzalitě. Touha po dosaženı́ teorie majı́cı́ charakter kauzálnı́ch souvislostı́ má svoje
kořeny rovněž v renesanci. Problematičnost tohoto pojmu začala být zřejmá v modernı́ fyzice
a odvı́jı́ se od pracı́ Nielse Bohra. Zdánlivě tato problematika souvisı́ s neřešitelnou a vlastně
v podstaě zavádějı́cı́ otázkou o deterministickém či indeterministickém charakteru světa. Ve
skutečnosti však jedná o otázku adekvátnosti (akceptovatelnosti, výhodnosti atd.) kauzálnı́ho či
pravděpodobnostnı́ho popisu světa. Zdůrazněme, že to zda zvolı́me pro popis světa kauzálnı́ teorii
či teorii využı́vajı́cı́ pravděpodobnostnı́ formalizmus, či jiný nástroj na formalizaci neurčitosti
a nejistoty, nikterak nevypovı́dá o tom, zda si myslı́me, že svět je deterministický či nikoliv.
Jak jsme totiž ukázali výše, názor, že naše teorie vysvětlujı́ jaký svět “ve skutečnosti” je, je
jen těžko udržitelný. Tato problematika je úzce svázána s výsledky Kurta Gdela o neúplnosti
bezesporných axiomatických systémů. Jeho výsledky patrně napovı́dajı́, že pravděpodobnostnı́
popis světa je inherentně vložen do našeho racionálnı́ho uvažovánı́ zakotveného v matamatice
tak, jak se historicky vyvinula.
Výše jsme řekli, že renesančnı́m ideálem “vysvětlujı́cı́” teorie byla matematicky formalizovaná teorie. To patrně platı́ i dnes. Právě naznačená diskuze naznačila, že cı́lem budovánı́ (formalizovaných) teoriı́ dost dobře nemůže být objektivnı́, jednoznačné vysvětlenı́ světa. Spokojı́meli se však se skromnějšı́m cı́lem, totiž s nalezenı́m nástroje na funkčnı́ predikci, bude jedno,
zda takových nástrojů bude vı́ce či jen jeden. Hlavně, když bude dávat spolehlivé předpovědi
či návody, chcete-li, jak např. urovnat válečné konflikty, zvýšit úrodu a zmı́rnit hlad mnoha
národů. Samozřejmě, že pak formalizovanějšı́ teorie má většı́ cenu než jakési vágnı́ závěry, nebot’
má většı́ naději dát efektivnějšı́ předpovědi. Je nutné si však uvědomit, že každá taková teorie
se opı́rá o zkušenost. Čı́m je tato zkušenost důvěryhodnějšı́, tj. čı́m jsou data, která jsme použili
spolehlivějšı́ a přesnějšı́, tı́m může být i výsledek formalizovanějšı́. Každý, kdo v životě prováděl
nějaké výpočty, si je vědom toho, že nemá obvykle cenu udávat výsledek na deset desetinných
mı́st, byla-li data měřena s přesnostı́ na jedno desetinné mı́sto.
Jednı́m z dalšı́ch mýtů, který dosud přežil a který je “úspěšně použı́ván” je výše zmı́něný
mýtus ověřovacı́ho pokusu. Je až zarážejı́cı́, že často i vědečtı́ pracovnı́ci, kterým se dostalo
alespoň elementárnı́ho statistického vzdělánı́, si neuvědomujı́, že ověřovacı́ pokus nenı́ nic vı́ce ani
nic méně než testovánı́ hypotézy. To bud’ hypotézu zamı́tne nebo nezamı́tne, ale nikdy nepotvrdı́
- kromě učebnicových akademických přı́padů, kdy hypotéza a alternativa jsou komplementárnı́.
Konečný, neodvolatený verdikt o teorii může být jen zamı́tavý, totiž když předpověd’ selže.
Jinak si lze vždy představit, že jiná data (jiné okolnosti, chcete-li to řı́ci jinak) mohou naši teorii
(hypotézu) docela dobře vyvrátit. Čı́sla 3, 5, 7, 11, 13 jsou sice lichá čı́sla a prvočı́sla, ale to ještě
neznamená, že jiná čı́sla teorii o tom, že všechna lichá čı́sla jsou prvočı́sla, nemohou vyvrátit.
Závěrem této krátké exkurze do filozofie (matematického) modelovánı́ si dovolme ještě jednu
poznámku. Ta ostatně rovněž souvisı́ s charakterem vědeckých teoriı́, tak jak byl výše diskutován.
V souvislosti s tı́m, že mnohdy se stále má za to, že teorie je jakýmsi objektivnı́m obrazem světa,
často oproštěného od spousty nepodstatných věcı́ a okolnostı́, interpretuje se to, co “vyšlo” po
aplikaci některé teorie jako jakési objektivnı́ zjištěnı́. To co “vyšlo”, je pokládáno za cosi, co
7
stojı́ kdesi za daty, či chcete-li, co je nějak v nich ukryto a k čemu jsme se právě pomoci našich
matematických nástrojů dopracovali. Podobně jako když oloupeme šlupky z cibule, najdeme jejı́
jádro. Potom závěry analýzy dat prezentujeme tak, že to tak objektivně vyšlo. Ačkoliv to tak
možná na prvnı́ pohled vypadá, ve skutečnosti tomu tak nenı́. Abychom to nahlédli vrat’me se
ještě krátce k výše uvedené diskuzi.
Uvědomme si, že výše zmı́něná abstrakce provedená na základě opakovánı́ mnoha podobných
jevů je věc provedená některým subjektem, tj. badatelem. Na tomto mı́stě prosı́m čtenáře, aby
se oprostil od marxismem pěstovaného pejorativnı́ho nádechu slova subjektivnı́, nebot’ dokud
bude věda prováděna jednotlivými muži a ženami, bude vždy subjektivnı́ v tom smyslu, že
odpovědnost za výše naznačenou abstrakci, právě tak jako za vytvořenı́ teorie a jejı́ přı́padnou
aplikaci nese (postupně) ten, kdo ji provedl, vymyslel a přı́padně rozhodl aplikovat. Nanejvýše
může dojı́t k “zobjektivozovánı́” tohoto postupu tı́m, že se na něm shodne vı́ce odbornı́ků z
dané oblasti. Ani to však nezměnı́ charakter výsledku na objektivnı́ či správný či udržitelný
(přı́padně si čtenář může doplnit jiné vznešené slovo). Stačı́ vzpomenout “zobjektivizovaný”
názor mnoha středověkých odbornı́ků o geocentrické podstatě našeho planetárnı́ho systému.
Podobně při analýze dat volba metody a interpretace výsledků je zcela na zodpovědnosti toho,
kdo ji použil a výsledky interpretoval. Prohlásı́li někdo, že cosi objektivně vyšlo bud’ se bojı́ nést
odpovědnost za výsledek nebo cosi nalhává sobě a ostatnı́m.
Na závěr předmluvy ještě uved’me dvě technické poznámky.
Předně dodejme, že předkládaná skripta již sama o sobě představujı́ takový objem textu,
který je na samé hranici možnostı́ býti vyložen v jednom semestru. Proto nebylo možno do skript
zařadit dalšı́ partie, které jsou sice úzce svázány s regresnı́ analýzou (robustnı́ regrese, dynamický
model spolu s alespoň krátkou exkurzı́ do časových řad, atd.), ale které jsou stejně přednášeny až
v rámci výběrové přednášky, navazujı́cı́ na tu, pro kterou jsou určena tato skripta. Proto autor
plánuje napsat dalšı́ dı́l skript (v průběhu jednoho až dvou let), který (přinejmenšı́m) pokryje
právě zmı́něné partie.
Mezi připomı́nkami těch, kteřı́ rukopis skript četli se někdy objevila ta, že text je přı́liš
zatı́žen vsuvkami umı́stěnými v závorkách. Ostatně je známo, že některé časopisy bud’ zcela
nebo téměř odmı́tajı́ text, ve kterém jsou závorky. To je přı́stup nepochybně extrémnı́ a poněkud
nerozumný. Je sice pravda, že to, co je umı́stěno v závorkách, lze vždy vyjádřit dalšı́ větou
umı́stěnou kdesi dále v textu, či vedlejšı́ větou, ale je to (prakticky) vždy za cenu většı́ho mı́sta.
Např. závorky u slova prakticky v předchozı́ větě dávajı́ tušit, že je to celé mı́něno s jakousi
pravděpodobnostı́, tj. platı́ to maličko slaběji, než by to platilo bez těch závorek. Podobný
přı́klad z nı́že uvedeného textu, totiž : “Naprosto přı́močarým zobecněnı́m tohoto modelu je
model uvažujı́cı́ soubor M regresnı́ch rovnic typu (3), které spolu (na prvnı́ pohled) nesouvisejı́
(odtud název).” demonstruje, že čeština (tedy alespoň psaný jazyk) pomocı́ závorek rozvinula
cosi, co možná řada jiných jazyků nemá. Pokud by totiž ono na prvnı́ pohled nebylo v závorce,
znamenalo by to sdělenı́, že rovnice spolu opravdu nesouvisejı́, dokonce evidentně nesouvisejı́, jak
je vidět na prvnı́ pohled. Takto naopak věta řı́ká, že se na prvnı́ pohled zdá, že spolu nesouvisejı́,
ale nenı́ to pravda, rovnice spolu nějak souvisejı́. Všimli jste si kolik mı́sta navı́c jsme potřebovali.
Samozřejmě, že to někdy činı́ čtenı́ textu méně plynulé, což však také může znamenat, že to
čtenáře donutı́ přečı́st si danou větu dvakrát a tı́m vypadnout z “polospánku”, do kterého upadá,
je-li text přı́liš plynulý. Na druhé straně, někdy je třeba, aby čtenář plynule sledoval lı́nii úvah,
8
nebot’ jinak nedojde ke stejnému závěru jako autor. (Někteřı́ autoři, zejména ve “společenskovědnı́” oblasti tento princip využı́vajı́ tak obratně, že čtenář pak jen těžko hledá bod, ve ktrém
autor učinil “krok stranou” a tı́m došel právě k tomu, k čemu chtěl dojı́t.) Přirozeně jako
všechny nástroje usnadňujı́cı́ sdělovánı́ informacı́, tak i tento musı́ mı́t svoji mı́ru. Ostatně žádný
extrémismus nenı́ nikdy ku prospěchu věci. Proto byly některé závorky (a trofám si řı́ci, že vı́ce
než polovina, tj. ty které šly bez většı́ spotřeby mı́sta) odstraněny.
Poděkovánı́. Autor skript by rád poděkoval všem, kteřı́ mu ke skriptům dodali nějaké
připomı́nky, zejména recenzentovi doc. ing. Igoru Vajdovi, DrSc., který skripta přečetl velmi
pozorně a navrhl řadu zlepšenı́. Za všechny přı́padné nedostatky však nesu odpovědnost toliko
já, a prosı́m proto o čtenářovu shovı́vavost. Velice ocenı́m všechny dalšı́ připomı́nky, zejména
týkajı́cı́ se obsahu a těch mı́st, kde jsou vyjadřována stanoviska k vhodnosti, použitelnosti atd.
toho či onoho postupu.
V Praze, 25. řı́jna 1997
9
2
ÚVOD DO REGRESNÍ ANALÝZY
Je naprosto přirozené, že ti, kdo se rozhodli seznámit se statistickým zpracovánı́m dat, se
v základnı́ch učebnicı́ch nejprve setkávajı́ s úlohami, ve kterých se odhadujı́ parametry rozdělenı́
náhodných veličin, přı́padně se testujı́ některé jednoduché hypotézy o nich. Se skutečně zajı́mavými
statistickými postupy se však setkajı́ až ve chvı́li, kdy dojde na úlohy, snažı́cı́ se postihnout
vzájemné vztahy náhodných veličin. Různých metod, které analyzujı́ strukturu vztahů mezi
náhodnými veličinami je přirozeně velké množstvı́ a každá z nich má za sebou historii, která
napovı́dá, proč byla taková metoda budována, tj. jaké byly původnı́ důvody pro jejı́ navrženı́,
jaká byla motivace, či chcete-li inspirace, autorů. Namátkou jmenujme např. analýzu variance, zpracovánı́ kontingenčnı́ch tabulek či diskriminačnı́ a shlukovou analýzu. Některé postupy
vznikly přirozeně zcela “mimo” statistiku, např. faktorová analýza, a byly statistiky teprve rozvinuty, přı́padně “dovybaveny” vhodným teoretickým aparátem. Historické záznamy dokládajı́
mimo jakoukoliv pochybnost, že pokusy o nalezenı́ vzájemného vztahu náhodných veličin existovaly od samých počátků budovánı́ teorie pravděpodobnosti (Galilei (1632), Boscovitch (a Maire)
(1757), Laplace (1793), Legendre (1805), Gauss (1809)). Skripta, které právě začı́náte studovat,
jsou věnována jedné z nejefektivnějšı́ch metod analýzy mnoharozměrných (či vı́cerozměrných,
jak chcete4 ) dat. Regresnı́ analýza, ač se to může zdát překvapivé, odvozuje svůj název od anglického slova regression. V roce 1885 totiž Sir Francis Galton publikoval výsledek svých studiı́ o
vztahu výšky otců a synů v článku “Regression towards mediocrity in hereditary stature”. Jak
napovı́dá název článku, zjistil, že je pravděpodobnějšı́ jev, že výška syna bude blı́že populačnı́mu
průměru než výška otce, než jev opačný, totiž že výška syna se bude od průměrné výšky mužů lišit
vı́ce než se lišı́ výška jeho otce. Ostatně, když už toto zjištěnı́ vı́me, připadá nám zcela přirozené,
nebot’ pokud by taková tendence neplatila, docházelo by k neomezené fluktuaci výšek mužů, tj.
dnes už by mezi námi museli žı́t jak obři tak trpaslı́ci. Odhad koeficientů modelu byla pořı́zen,
podobně jako je tomu i v převážné většině přı́padů dnes, metodou nejmenšı́ch čtverců (the least
squares), která v té době byla již téměř sto let známa, viz Adrien Marie Legendre (1805) a Carl
Friedrich Gauss (1809). Ačkoliv v době, kdy Sir Francis Galton psal svůj článek byla známa i jiná
metoda odhadu parametrů, totiž metoda minimalizujı́cı́ součet absolutnı́ch odchylek, je celkem
přirozené, že byla použita metoda nejmenšı́ch čtverců, nebot’ je jednoduchá a dává explicitnı́
vztah pro vyčı́slenı́ odhadů na základě analyzovaných dat. Naopak metoda minimalizujı́cı́ součet
absolutnı́ch odchylek (Galileo Galilei (1632), Roger Joseph (či Rodjer Josef) Boscovich (1757),
Pierre Simon Laplace (1793)), která je dnes použı́vána alternativně k metodě nejmenšı́ch čtverců,
vyžaduje, při většı́m počtu dat, nasazenı́ výkonné výpočetnı́ techniky. Na rozdı́l od nejmenšı́ch
čtverců však jejı́ výsledky lépe “vzdorujı́” kontaminacı́ dat, nebot’ v rámci dnes použı́vaných
pojmů je tato metoda robustnı́ alespoň proti odlehlým pozorovánı́m ve vysvětlované proměnné
a “navzdory” obecně panujı́cı́ domněnce či předsudku o jejı́ malé eficienci lze ukázat, že pokud
data generovaná byt’ přesně normálnı́m modelem obsahujı́ na každých 1000 pozorovánı́ dvě
poškozená (kontaminovaná) pozorovánı́, je tato metoda výkonnějšı́ (eficientnějšı́ - pro ty, kdo
4
Někdy jsou vedeny zdánlivě učené diskuze o tom, zda užı́vat to či ono slovo. Je celkem přirozené, že se takové
diskuze objevujı́, nebot’ některé vědnı́ obory by patrně jinak neměly co dělat. Je však přinejmenšı́m překvapivé,
že se takové diskuze objevujı́ dokonce i v matematice, kde definice přesně vymezujı́, o čem je řeč a tedy, až snad
na přı́pady extrémě necitlivého použitı́ některých slov, je celkem jedno, jaké slovnı́ označenı́ je zvoleno.
10
nejsou jazykovými puristy) než metoda nejmenšı́ch čtverců. Tato metoda býva z pochopitelných
důvodů označována jako L1 a podobně jako několik neznámých pojmů použitých v předchozı́
větě bude diskutována nı́že.
Obrat’me nynı́ naši pozornost na to, jaké cı́le si klade regresnı́ analýza. Něco bylo vlastně
již řečeno výše, totiž že regresnı́ analýza patřı́ mezi metody studujı́cı́ strukturu vzájemných
závislostı́ mezi jednotlivými veličinami. Mnohdy jsou však ambice této metody charakterizovány
snahou o nalezenı́ nástroje na predikci hodnoty jedné náhodné veličiny za předpokladu, že již
známe hodnoty několika jiných náhodných veličin či nenáhodných vysvětlujı́cı́ch faktorů. Někdy
se označuje tento druhý cı́l za vı́ce ambiciznı́ a implicitně se tı́m mı́nı́, že ten prvý je jakoby lehčı́
“podčástı́” toho druhého. Obecně však každý z těchto cı́lů vyžaduje jiné řešenı́, jak ostatně dále
uvidı́me. Teorie, která je v učebnicı́ch a monografiı́ch obvykle vykládána, vede k řešenı́ prvého
cı́le, ale nemusı́ být vždy řešenı́m toho druhého.
Dřı́ve než budeme pokračovat ve výkladu zaved’me alespoň nejzákladnějšı́, zcela standardnı́
označenı́. Označme tedy symbolem N množinu všech přirozených čı́sel, R reálnou přı́mku, R+ jejı́
kladnou část, Rp p-rozměrný Euklidovský prostor, Rn,k (některý) k-rozměrný podprostor prostoru Rn a konečně pak (Ω, A, P ) základnı́ pravděpodobnostnı́ prostor. Regresnı́ model budeme
uvažovat ve tvaru:
Yi = g(Xi , β 0 ) + Ei ,
i = 1, 2, . . . , n
(1)
pro všechna n ∈ N , kde g(x, β) bude některá hladká funkce, g : Rq ×Rp → R (q, p ∈ N ). Posloup’
nost {Xi }∞
i=1 bude bud deterministická posloupnost q-rozměrných vektorů (v tom přı́padě
∞
budeme psát {xi }i=1 ) či posloupnost (nezávislých a stejně rozdělených) náhodných veličin, tj.
Xi (ω) : Ω → Rq , které jsou navı́c nezávislé od posloupnosti {Ei }∞
i=1 , Ei (ω) : Ω → R, což je
jiná posloupnost, obvykle stejně rozdělených, nikoliv však nutně nezávislých, náhodných veličin.
Poslednı́ předpoklad nebývá v některých textech jasně zdůrazněn, ale jak uvidı́me později, jeho
narušenı́ má vážné důsledky. Veličina Yi stojı́cı́ na levé straně rovnosti (1) bývá označována
jako závisle proměnná, veličiny Xi jako nezávisle proměnné a Ei jako fluktuace. Nı́že uvedená
diskuze týkajı́cı́ se interpretace výsledků regresnı́ analýzy ale naznačı́, že je patrně lepšı́ použı́vat
pojmy jako vysvětlovaná veličina (pro Yi ) a vysvětlujı́cı́ veličiny pro Xi . Toto “názvoslovı́” totiž
nesvádı́ k domněnce, že odhadnuty model můžeme použı́t k predikci pro jakékoliv hodnoty
nezávisle proměnných. V dalšı́m textu se ještě k tomuto problému vrátı́me. Pro veličiny Yi , Xi
a Ei bývá uváděna i celá řada jiných termı́nů, které se snažı́ napovědět charakter těchto veličin
vzhledem k některým častým použitı́m či interpretacı́m regresnı́ho modelu. Např. Xi jsou někdy
označovány jako nosiče, regresory či jako faktory a přı́slušný Rq jako faktorový prostor. Také
v tomto textu budeme občas tato různá “pojmenovánı́” použı́vat, abychom si na ně přivykli
a nečinily nám potı́že při čtenı́ různých pramenů. Pro ty, kteřı́ se někdy v budoucnu budou
věnovat ekonomickým aplikacı́m, poznamenejme, že se ještě setkajı́ s rozlišenı́m, často sporným,
charakteru veličin vstupujı́cı́ch do modelu a narazı́ na pojmy endogenı́ (česky snad koncová či
výstupnı́), označujı́cı́ veličiny zpravidla na “levé” straně modelu, tj. v roli Yi a predeterminovaná
(česky snad předurčená, ale spı́še vstupnı́) veličina, stojı́cı́ch v roli Xi . Druhý typ veličin pak
bývá ještě dělen na posunuté endogenı́ (lagged endogenous) a exogenı́ (česky asi vnějšı́ či mimo
model určené; nechme však nadále překlady jazykozpytcům, v matematickém textu, ostatně
jsme to již výše zmı́nili, jde o jednoznačnost, která je zajištěna formalizmem a nenı́ naštěstı́
11
závislá na názvech). Povšimněme si, že rozlišenı́ na exogenı́ a endogenı́ souvisı́ opět s pojmem
kauzality. Jak jsme uvedli výše, byl tento protagonistou renesančnı́ho paradigmatu vědeckého
poznánı́ a žel Bohu stále ještě v mnoha vědnı́ch disciplı́nách přežı́vá. Nenı́ bez zajı́mavosti, že do
ekonomie, či spı́še do ekonometrie byl “ve statistické modifikaci” zaveden C. W. J. Grangerem
na konci šedesátých let, tj. v době, kdy filosofie vědy naopak začala uvažovat a vážně diskutovat
o jeho problematičnosti. Samozřejmě, že nenı́ těžké ukázat přı́klady - a to i z každodennı́ho
života, které demostrujı́ jeho problematičnost.
Grangerova definice a test, Granger (1969), se opı́rajı́ o pojem statistické nezávislosti a v
tomto duchu je třeba je interpretovat. Uživatelé to však zpravidla (bohorovně) přehlı́žejı́ a jednajı́
s tı́mto pojmem jako by šlo o běžný pojem přı́činné souvislosti. Jaké to může mı́t následky
si snadno představı́me, uvážı́me-li např., že se mnohá (politická) rozhodnutı́ odvı́jejı́ spı́še od
vědeckých hypotéz vyslovených na základě právě popsaného způsobu interpretace výsledků než
od historicky ověřených postupů.
Vrat’me se však ke vztahu (1) a dokončeme vysvětlenı́ jednotlivých veličin v něm vystupujı́cı́ch. Vektor β 0 = (β10 , β20 , . . . , βp0 )T bude označován jako vektor regresnı́ch parametrů,
pokud budeme mluvit o nelineárnı́ regresi, a jako regresnı́ch koeficientů, v lineárnı́ regresi.
Konečně pak hornı́ index “T ” označuje transpozici vektoru či matice. V převážné části dalšı́ho
textu budeme uvažovat model s pevnými (deterministickými) vysvětlujı́cı́mi proměnnými. Exkurze
do modelu s náhodnými vysvětlujı́cı́mi proměnnými budou jen občasné. Za náhodný bude tedy v
modelu považován pouze šum (či chcete-li fluktuace nebo náhodné fluktuace) , který je representovaný (jsou representovány) posloupnostı́ náhodných veličin {Ei }∞
i=1 . Náhodnost disturbancı́
samozřejmě má za následek to, že i vysvětlovaná veličina Y je náhodná.
Prvnı́m cı́lem regresnı́ analýzy, jak už bylo ostatně konstatováno výše, je popis struktury
dat (či chcete-li, vysvětlenı́ dat). Po té, co jsme zavedli označenı́ pro regresnı́ model, můžeme
tento cı́l specifikovat jako odhad modelu ve statistickém smyslu. Jinými slovy to znamená, že na
základě dat, která z hlediska druhého cı́le regresnı́ analýzy, totiž predikce, můžeme považovat za
trénovacı́ soubor, chceme nejprve odhadnout charakter (tvar) funkce g(x, β) a následně odhadnout β 0 . Analýza dat tedy může začı́t v podstatě testem, zda g(x, β) je lineárnı́ či nikoliv, nebo se
prostě na základě zkušenostı́ (fyzikálnı́ch, sociálnı́ch, demografických, ekonomických či jiných)
či okolnostı́ rozhodneme pro některou funkci g(x, β) (či typ funkce). Obvykle je tvar funkce
(alespoň) “tušený” a proto se často omezujeme na odhad vektoru β 0 .
Tak jako v drtivé většině statistické literatury budeme odhad pořı́zený některou odhadovacı́
metodou označovat β̂. Navı́c indexy, dole či nahoře, budou napovı́dat, jakou metodou byl
odhad vyčı́slen, či na základě kolika pozorovánı́ byl zkonstruován, atd.. Tak např. β̂ (LS,n) bude
naznačovat, že se jedná o odhad pořı́zený metodou nejmenšı́ch čtverců na základě dat o rozsahu
(LS,n)
n. Rovněž zcela standardně jak jsme na to zvyklı́, β̂i
bude označovat i-tou složku (souřadnici,
(LS,n)
koordinátu) vektoru β̂
. Podrobnějšı́ vysvětlenı́ či rozšı́řenı́ označenı́ a symbolů bude vždy
uvedeno v mı́stech, kde to budeme potřebovat tak, aby nebylo nutné je držet dlouho a bez užitku
v paměti.
Výše uvedené bezprostředně napovı́dá, že pokud uvažujeme model s náhodnými nosiči předpokládáme,
že pro naše data Dn existuje ω0 ∈ Ω tak, že hodnoty náhodných veličin {Yi (ω)}ni=1 a {Xi (ω)}ni=1
12
jsou v bodě ω0 rovny datům Dn , tj.

y1 , x11 , · · · , x1p

 y2 , x21 , · · · , x2p
Dn = 
..
..

.
.

yn , xn1 , · · · , xnp


Y1 (ω0 ), X11 (ω0 ), · · · , X1p (ω0 )
 
  Y2 (ω0 ), X21 (ω0 ), · · · , X2p (ω0 )
=
..
..
 
.
.
 
Yn (ω0 ), Xn1 (ω0 ), · · · , Xnp (ω0 )



 .


(2)
Z právě uvedeného a také ostatně z (1) okamžitě plyne, že k regresnı́mu modelu patřı́ samozřejmě
∞
i posloupnosti náhodných veličin {Yi (ω)}∞
i=1 a {Xi (ω)}i=1 , přı́padně, když uvažujeme pevné
∞
nosiče, pouze prvá posloupnost {Yi (ω)}i=1 . Na druhé straně však patrně neexistuje text věnovaný
regresnı́ analýze, který by pod odhadem modelu rozuměl také odhad těchto veličin, byt’ přirozeně
diagnostické partie teorie regresnı́ analýzy studujı́ např. postupy umožňujı́cı́ posoudit, zda
charakter reziduı́ nekoliduje s předpokládaným charakterem fluktuacı́; takové postupy budeme
studovat později. Na druhé straně je však třeba připustit, že nás v regresnı́m modelu obvykle
zajı́má pouze vektor β 0 a tedy ostatnı́ neznámé “části” modelu mohou být vnı́mány jen jako
rušivé parametry, které nejsou odhadovány.
Jak jsme již předeslali výše, v našem výkladu se omezı́me převážně na lineárnı́ regresnı́ model
s pevnými, tj. deterministicky danými nosiči. Dostaneme model
Yi = xTi β 0 + Ei ,
i = 1, 2, . . . , n.
(3)
Na prvnı́ pohled se omezenı́ na linearnı́ model může zdát drastické, ale nenı́ tomu tak. Stačı́
si uvědomit, že většina funkcı́ g(x, β) uvažovaných v modelu (1) se předpokládá být spojitými
v x. Uvážı́me-li pak, že lze mezi nosiče dodat vyššı́ mocniny vysvětlujı́cı́ch veličin jako nové
vysvětlujı́cı́ veličiny, což nenı́ na újmu odhadu modelu pokud máme k dispozici rozumné množstvı́
dat, a vezmeme-li v úvahu Stone-Weierstrassovu větu o tom, že při omezenı́ se na kompaktnı́
nosič je systém všech polynomů hustý ve třı́dě spojitých funkcı́ (Hewitt a Stromberg (1965)), je
zřejmé, že teoreticky pomocı́ lineárnı́ho regresnı́ho modelu můžeme aproximovat velmi širokou
třı́du regresnı́ch závislostı́. Přirozeně toto má, někdy praktická, omezenı́, vyplývajı́cı́ např. z
potı́žı́ s kolinearitou, počtem pozorovánı́, “přı́lišnou” determinacı́ modelu, tj. chcete-li, přı́lišným
potlačenı́m náhodnosti, atd.
Podotkněme ještě, že toto omezenı́ se na linárnı́ model, vydávajı́ některé monografie za
důvod k omezenı́ se na lineárnı́ odhady. Toto druhé omezenı́ je zcela účelové, totiž aby bylo
možno prohlásit, že odhad metodou nejmenšı́ch čtverců je velice dobrý at’ už jsou fluktuace
v modelu rozděleny normálně či nikoliv. Zdůrazněme proto, že omezenı́ se na třı́du lineárnı́ch
odhadů vektoru β 0 je drastické a odhad metodou nejmenšı́ch čtverců je opravdu dobrý jen v
přı́padě, podařı́-li se nalézt model, ve kterém rozdělenı́ reziduı́ je téměř normálnı́. Podrobněji
budeme diskutovat tento problém v závěru skript.
Pro náhodné veličiny, jako je např. vysvětlovaná proměnná Y či fluktuace E, budeme použı́vat
zpravidla velká pı́smena. Ostatně to již naznačil zápis (2). Výjimku budou tvořit rezidua v regresnı́m modelu, ale ta popı́šeme podrobněji o několik řádků nı́že. Výjimka bude učiněna proto,
aby nemohlo dojı́t k záměně s označenı́m pro reálnou přı́mku. Někdy ten fakt, že se jedná
o náhodné veličiny naznačı́me ještě zápisem Y (ω) či E(ω). Pro realizace náhodných veličin
budeme užı́vat malá pı́smenka, tj. v našem přı́kladě y a e. Pro matice budeme důsledně použı́vat
13
velká pı́smena. Navı́c charakter dané entity, kromě toho, že bude patrný z jejı́ho slovnı́ho popisu,
bude často také zřejmý z toho, že bude uvedeno, do které množiny patřı́, např. Y ∈ Rn .
Jak jsme už uvedli výše, budeme v převážné části tohoto textu předpokládat, že matice plánu
je deterministická, tj. omezı́me se na model s pevnými nosiči. Model s náhodnými vysvětlujı́cı́mi
proměnnými je obdobný, někdy “jednoduššı́”, někdy “komplikovanějšı́” než model s pevnými
nosiči. Předpoklady pro obdobná tvrzenı́ v obou modelech jsou analogické, kromě toho, že v
modelu s náhodnými nosiči je třeba předpokládat nezávislost nosičů a fluktuacı́. Jak už jsme výše
řekli, toto nebývá v učebnicı́ch regresnı́ analýzy zdůrazněno, ač pokud tento předpoklad neplatı́,
běžné odhady, a to nejen metodou nejmenšı́ch čtverců, nejsou obecně konsistentnı́ a je třeba
užı́t jiných postupů, např. instrumentálnı́ch proměnných, kterým bude věnován jeden odstavec
dalšı́ho textu. Přitom je zřejmé, že někdy bude charakter dat takový, že model s náhodnými
nosiči bude adakvátnějšı́. Přı́kladem může posloužit právě situace, kdy náhodné fluktuace jsou
evidentně závislé na některé vysvětlujı́cı́ proměnné.
Na druhé straně, jak uvidı́me později při diskuzi o výpisech z statistických počı́tačových
knihovem, většina z nich nabı́zı́ i v rámci regresnı́ analýzy “základnı́” popisnou analýzu dat, tj.
např. průměry a rozptyly jednotlivých veličin, jejich kovariančnı́ matici, atd. Tyto charakteristiky, až na ty, které se týkajı́ vysvětlované proměnné, ovšem striktně vzato postrádajı́ smysl,
pokud uvažujeme model s pevnými nosiči.
A nynı́ uved’me některé přı́klady datových souborů, které lze zpracovat regresnı́ analýzou.
Přı́klad 1 Data o spalovacı́ch motorech. Data zachycujı́ (potenciálnı́) závislost počtu
otáček motoru (y) na časovánı́ zážehu (x1 ), bohatosti palivové směsi (x2 ), teplotě této směsi při
nasávanı́ (x3 ) a teplotě spalin při výfuku (x4 ) (Mason, Gunst, Hess (1989) nebo Hettmansperger,
Sheather (1992)).)
Data vypadajı́ takto:
Data o spalovacı́ch motorech
Pořadı́
Časovánı́
zážehu
Bohatost
směsi
Teplota
směsi
Teplota
spalin
Počet
otáček
1
2
3
4
5
6
7
8
9
10
11
12
13
13.3
13.3
13.4
12.7
14.4
14.4
14.5
14.2
12.2
12.2
12.2
12.0
12.9
13.9
14.1
15.2
13.8
13.6
13.8
13.9
13.7
14.8
15.3
14.9
15.2
15.4
31
30
32
31
31
30
32
31
36
35
36
37
36
697
697
700
669
631
638
643
629
724
739
722
743
723
84.4
84.1
88.4
84.2
89.8
84.0
83.7
84.1
90.5
90.1
89.4
90.2
93.8
14
Data o spalovacı́ch motorech (pokračovánı́)
Pořadı́
Časovánı́
zážehu
Bohatost
směsi
Teplota
směsi
Teplota
spalin
Počet
otáček
14
15
16
12.7
12.9
12.7
16.1
15.1
15.9
35
36
37
649
721
696
93.0
93.3
93.1
Model odhadnutý pro výše zmı́něnou závislost vypadá takto:
y = 12.01 + 1.10 · x1 + 2.19 · x2 + 0.93 · x3 + 0.002 · x4 + f luktuace
Skripta, která máte před sebou Vám umožnı́ nahlédnout, jak se takový model odhadne z dat, jak
se posoudı́, že má tento model naději být spolehlivý a použitelný např. pro predikci. Nabı́dnou
Vám možnost nahlédnout různá úskalı́, na která při zpracovánı́ dat můžete narazit aniž byste si
jich třeba na prvnı́ pohled byli vědomi, a naučı́ Vás jak se těmto úskalı́m vyhnout či je zdolat.
Jednı́m z takových úskalı́ mohou být vlivné body, které je třeba rozpoznat a zjistit, zda jejich
vliv na výsledek regresnı́ analýzy je přı́nosný nebo naopak destruktivnı́.
Přı́klad 2 Data o slanosti vody v průlivu “North Carolina Pamlico”. Data zaznamenávajı́ slanost vody (y) v jednom z průlivů v Severnı́ Karolině v závislosti na slanosti, která
byla naměřena před čtrnácti dny (označeno jako Posunutá slanost; x1 ), na střı́dánı́ dvoutýdennı́ch
obdobı́, o nichž si experimentátoři mysleli, že mohou být signifikantnı́ (označeno Trend; x2 ) a
na prouděnı́ vody průlivem (označeno Průtok; x3 ) (Ruppert, Carroll (1980) nebo Rousseeuw,
Leroy (1987)). Data jsou uvedena v následujı́cı́ tabulce:
Data o slanosti vody v průlivu “North Carolina Pamlico”
Pořadı́
Posunutá
slanost
Trend
Průtok
Slanost
vody
1
2
3
4
5
6
7
8
9
10
11
12
13
14
8.2
7.6
4.6
4.3
5.9
5.0
6.5
8.3
10.1
13.2
12.6
10.4
10.8
13.1
4
5
0
1
2
3
4
5
0
1
2
3
4
5
23.01
23.87
26.42
24.87
29.90
24.20
23.22
21.86
22.27
23.83
25.14
22.43
21.79
22.38
7.6
7.7
4.3
5.9
5.0
6.5
8.3
8.2
13.2
12.6
10.4
10.8
13.1
12.3
15
Data o slanosti vody v průlivu “North Carolina Pamlico” (pokračovánı́)
Pořadı́
Posunutá
slanost
Trend
Průtok
Slanost
vody
15
16
17
18
19
20
21
22
23
24
25
26
27
28
13.3
10.4
10.5
7.7
10.0
12.0
12.1
13.6
15.0
13.5
11.5
12.0
13.0
14.1
0
1
2
3
0
1
4
5
0
1
2
3
4
5
23.93
33.44
24.86
22.69
21.79
22.04
21.03
21.01
25.87
26.29
22.93
21.31
20.77
21.39
10.4
10.5
7.7
9.5
12.0
12.6
13.6
14.1
13.5
11.5
12.0
13.0
14.1
15.1
Po odhadnutı́ přı́slušných koeficientů v modelu dostaneme:
y = 9.590 + 0.777 · x1 − 0.026 · x2 − 0.295 · x3 + f luktuace.
Zvláštnı́ na těchto datech je to, že jednou proměnnou na pravé straně rovnice, tj. vysvětlujı́cı́
proměnnou je vlastně jen posunutá ta proměnná, kterou se odhadovaný model snažı́ vysvětlit
pomocı́ jiných proměnných. O tom, zda je vůbec možné něco takového provést, aniž by zklamaly
běžně použı́vané metody, budeme ve skriptech také diskutovat.
Přı́klad 3 Data o sportovnı́m klubu. Data zaznamenávajı́ časy dosažené v běhu na jednu
mı́li (y) jako proměnnou, která má být vysvětlena, a váhu běžců (x1 ), jejich zbytkový puls po
určité době doběhnutı́ do cı́le (x2 ) při zkušebnı́m běhu na čtvrt mı́le (x3 ) a sı́lu pažı́ a nohou (x4 )
(Chatterjee, Hadi (1988)). Data vypadajı́ takto:
Data o sportovnı́m klubu
Pořadı́
Váha
Puls
Sı́la
Zkušebnı́
běh
Čas
1
2
3
4
5
6
7
8
217
141
152
153
180
193
162
180
67
52
58
56
66
71
65
80
260
190
203
183
170
178
160
170
91
66
68
70
77
82
74
84
481
292
338
357
396
429
345
469
16
Data o sportovnı́m klubu (pokračovánı́)
Pořadı́
Váha
Puls
Sı́la
Zkušebnı́
běh
Čas
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
205
168
232
146
173
155
212
138
147
197
165
125
161
132
257
236
149
161
198
245
141
177
77
74
65
68
51
64
66
70
54
76
59
58
52
62
64
72
57
57
59
70
63
53
188
170
220
158
243
198
220
180
150
228
188
160
190
163
313
225
173
173
220
218
193
183
83
79
72
68
56
59
77
62
75
88
70
66
69
59
96
84
68
65
62
69
60
75
425
358
393
346
279
311
401
267
404
442
368
295
391
264
487
481
374
309
367
469
252
338
Odhad modelu pro tato data je následujı́cı́:
y = −3.619 + 1.268 · x1 − 0.525 · x2 − 0.505 · x3 + 3.903 · x4 + f luktuace.
Může matematická analýza přinést nějaká překvapenı́ oproti běžnému očekávánı́ ? Patrně ano,
nebot’ se ukáže, že ani proměnnou puls ani sı́la pažı́ a nohou nenı́ třeba použı́t k vysvětlenı́
celkového času.
Přı́klad 4 Demografická data. Data popisujı́ (možnou) závislost hrubého národnı́ho
důchodu na hlavu v roce 1957 (y) na dětské úmrtnosti (průměrný počet úmrtı́ na 1000 živě
narozených dětı́ - x1 ), počtu obyvatel na jednoho lékaře (x2 ), hustotě osı́dlenı́ (počet obyvatel
na km2 - x3 ), počtu obyvatel na 1000 ha zemědělsky využı́vané půdy (x4 ), procentu gramotného
obyvatelstva staršı́ho 15 let (x5 ), a na počtu studentů na vysokých školách na 105 obyvatel (x6 ),
a to ve 49 zemı́ch světa (Chatterjee, Hadi (1988)). Tady jsou data (na dalšı́ straně):
17
Demografická data
Pořadı́
Země
x1
x2
x3
x4
x5
x6
y
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
Australia
Austria
Barbados
Belgium
British Guiana
Bulgaria
Canada
Chile
Costa Rica
Cyprus
Czechoslovakia
Denmark
El Salvador
Finland
France
Guatemala
Hong Kong
Hungary
Iceland
India
Ireland
Italy
Jamaica
Japan
Luxembourg
Malaya
Malta
Mauritius
Mexico
Netherlands
New Zeland
Nicaragua
Norway
Panama
Poland
Portugal
Puerto Rico
Romania
Singapore
Spain
Sweden
Switzerland
19.5
37.5
60.4
35.4
67.1
45.1
27.3
127.9
78.9
29.9
31.0
23.7
76.3
21.0
27.4
91.9
41.5
47.6
22.4
225.0
30.5
48.7
58.7
37.7
31.5
68.9
38.3
69.5
77.7
16.5
22.8
71.7
20.2
54.8
74.7
77.5
52.4
75.7
32.3
43.5
16.6
21.1
860
695
3000
819
3900
740
900
1700
2600
1400
620
830
5400
16001
1014
6400
3300
650
840
5200
1000
746
4300
930
910
6400
980
4500
1700
900
700
2800
946
3200
1100
1394
2200
788
2800
1000
1089
765
1
84
548
301
3
72
2
11
24
62
108
107
127
13
83
36
3082
108
2
138
40
164
143
254
123
54
1041
352
18
346
9
10
11
15
96
100
271
78
2904
61
17
133
21
1720
7121
5257
192
1380
257
1164
948
1042
1821
1434
1497
1512
1288
1365
98143
1370
79
2279
598
2323
3410
7563
2286
2980
8050
4711
296
4855
170
824
3420
838
1411
1087
4030
1248
108214
1347
1705
2320
98.5
98.5
91.1
96.7
74.0
85.0
97.5
80.1
79.4
60.5
97.5
98.5
39.4
98.5
96.4
29.4
57.5
97.5
98.5
19.3
98.5
87.5
77.0
98.0
96.5
38.4
57.6
51.8
50.0
98.5
98.5
38.4
98.5
65.7
95.0
55.9
81.0
89.0
50.0
87.0
88.5
98.5
856
546
24
536
27
456
645
257
326
78
398
570
89
529
667
135
176
258
445
220
362
362
42
750
36
475
142
14
258
923
839
110
258
371
351
272
1192
226
437
258
401
398
1316
670
200
1196
235
365
1947
379
357
467
680
1057
219
794
943
189
272
490
572
73
550
516
316
306
1388
356
377
225
262
836
1310
160
1130
329
475
224
563
360
400
293
1380
1428
18
Demografická data. (pokračovánı́)
Pořadı́
Země
x1
x2
x3
x4
x5
x6
y
43
44
45
46
47
48
49
Taiwan
Trinidad
United Kingdom
United States
USSR
West Germany
Yugoslavia
30.5
45.4
24.1
26.4
35.0
33.8
100.0
1500
2300
935
780
578
798
1637
305
168
217
20
10
217
73
10446
4383
2677
399
339
3631
1215
54.0
73.8
98.5
98.0
95.0
98.5
77.0
329
61
460
1983
539
528
524
161
423
1189
2577
600
927
265
Odhadnutý model vypadá takto
y = 112.89 − 3.62 · x1 + 0.01 · x2 − 0.19 · x3 + 0.003 · x4 + 5.57 · x5 + 0.69 · x6 + f luktuace.
Některé velmi malé koeficienty u některých vysvětlujı́cı́ch proměnných napovı́dajı́, že byly zařazeny
do modelu patrně zbytečně. I to se v dalšı́m textu naučı́me posoudit, právě tak jako zda celý
model je adekvátnı́ či nikoliv.
Přı́klad 5 Data o výdajı́ch na školstvı́. Data vypovı́dajı́ o (možné) závislosti výdajů
na školstvı́ v 50 státech v U.S.A. (y) na procentu obyvatel státu bydlı́cı́ch v urbanistických
centrech (x1 ), osobnı́m přı́jmu na jednoho obyvatele (x2 ) a procentu obyvatel mladšı́ch 18 let
(x3 ) (Chatterjee, Price (1977)). Vzhledem k tomu, že dalšı́ poměrně rozsáhlá data by zbytečně
plýtvala mı́stem, odkazujeme čtenáře na původnı́ zdroj, přı́padně na autora těchto skript, který
má tato (a mnohá dalšı́ data) na magnetickém nosiči.
Model pořı́zený z těchto dat je následujı́cı́
y = −556.57 − 0.0043 · x1 + 0.072 · x2 + 1.55 · x3 + f luktuace.
Značně velká hodnota absolutnı́ho členu v modelu oproti hodnotám koeficientů u vysvětlujı́cı́ch
proměnných svádı́ k tomu si myslet, že vlastně vysvětlujı́cı́ proměnné nic nevysvětlujı́. Je tomu
opravdu tak ? Zodpovědět takovou otázku se také dále naučı́me.
Přı́klad 6 Data o kriminalitě v U.S.A. Data obsahujı́ údaje o výši kriminality ve 47
státech Spojených států (y), o procentu mužů mezi 18 a 28 roky věku (x1 ), údaje o vzdělanosti
obyvatelstva (x2 ), o výdajı́ch na policii (x3 ) a údaje o přı́jmu na jednoho obyvatele (x4 ) (Vandaele (1978)nebo Hand a ostat. (1994) ).
Data by opět zabı́rala dosti velké mı́sto a tak
odkazujeme na původnı́ zdroj či autora skript, který je kterémukoliv zájemci rád okopı́ruje.
Odhadneme-li opět model, dostaneme
y = −424.92 + 0.76 · x1 + 1.66 · x2 + 1.30 · x3 + 0.64 · x4 + f luktuace.
Dalšı́ přı́klady může zvı́davý čtenář nalézt např. v monografii Berndt (1990) či Kmenta
(1986).
19
V závěru úvodu si dovolme připomenout jednu interpretačnı́ záležitost. V některých učebnicı́ch
jsou náhodné fluktuace Ei interpretovány jako chyby měřenı́ vysvětlované veličiny Yi . To je však
interpretace jen omezeně udržitelná. Pokud bychom předpokládali situaci, že jak vysvětlovaná,
tak vysvětlujı́cı́ proměnné jsou měřeny (zhruba) se stejnou přesnostı́, pak by tento fakt vyžadoval,
aby byl zahrnut do našich úvah. Takový model probereme nı́že a uvidı́me, že k jeho zvládnutı́
je potřeba poněkud jiný přı́stup než k modelu (3). Slovo “omezeně”, užité o několik řádků výše
naznačuje, že tato interpretace je udržitelná za předpokladu, že by přesnost měřenı́ vysvětlujı́cı́ch
veličin xi byla mnohem přesnějšı́ než přesnost měřenı́ Yi . Daleko přirozenějšı́ interpretace či
chcete-li aplikace modelu je ta, kdy předpokládáme, že na veličinu Yi majı́ (náhodný) vliv
ještě dalšı́ faktory, které ale bud’ nenı́ snadné modelovat nebo je úmyslně nechceme, z nějakého
důvodu, popsat explicite, či jsou tyto “náhodné výkyvy” tak malé, že je lépe je nemodelovat.
Dřı́ve než se pustı́me do vlastnı́ho výkladu regresnı́ analýzy, poznamenejme ještě, že koncepce
skript je taková, aby zhruba ve své prvé polovině prokázala, že regresnı́ analýza je postavena
na solidnı́ matematice a jejı́ teorie je dobře propracovaná. Druhá část skript, patrně však menšı́
polovina, je mı́sty psána již jen přehledově, byt’ některé partie, viz např. kapitola věnovaná
Durbin-Watsonově statistce, jsou naopak podrobnějšı́ než mnohé monografie a popisujı́ dokonce
historii vývoje té či oné oblasti regresnı́ analýzy. A právě partie věnovaná Durbin-Watsonově
statistce ukazuje, že i dnes stojı́ za to alespoň občas nahlédnout do původnı́ch pramenů, nebot’ se
stává, že přı́slušné partie jsou opisovány z monografie do monografie, včetně zkreslenı́, kterého
se dopustil autor té prvé. Dı́ky tomu se pak může do povědomı́ široké veřejnosti dostal poněkud
zkreslený obraz o původnı́m výsledku. V citovaném přı́padě se např. traduje naprosto heuristika, která stojı́ za Durbin-Watsonovou statistikou, která neodpovı́dá heuristice, která vysvı́tá z
postupu, který Durbin a Watson použili. statist
3
3.1
LINERNÍ REGRESNÍ MODEL
Odhad regresnı́ch koeficientů
Budeme tedy nadále uvažovat model
Yi = xTi β 0 + Ei ,
i = 1, 2, . . . , n
(4)
pro všechna přirozená n, a to s pevně zadanými nosiči x1 , x2 , . . . , xn , kde transponovaný vektor
xTi = xi1 , xi2 , . . . , xip tvořı́ i-tý řádek matice plánu

x11 , x12 , · · · , x1p

 x21 , x22 , · · · , x2p
X=
..
..

.
.

xn1 , xn2 , · · · , xnp



.


(5)
Při studiu lineárnı́ho regresnı́ho modelu se někdy prvnı́ souřadnice vektoru regresnı́ch koeficientů uvažuje společná všem pozorovánı́m. Jinými slovy, nenásobı́me tento koeficient žádnou
vysvětlujı́cı́ proměnnou a označujeme jej jako absolutnı́ člen, v anglické literatuře (a nynı́ často
i v české) intercept. Toto druhé označenı́ použijeme v přı́padě, když budeme potřebovat šetřit
20
mı́stem, např. v tabulkách. Model je pak často zapisován ve tvaru
Yi = α + xTi β 0 + Ei ,
či
Yi = α +
k
X
xij βj0 + Ei ,
i = 1, 2, . . . , n
i = 1, 2, . . . , n,
j=1
kde k = p − 1. My však budeme v celých skriptech dávat přednost zápisu (4), z čehož plyne, že
pokud budeme uvažovat model s absolutnı́m členem, musı́me mı́t xi1 = 1, i = 1, 2, . . . , n. To však
neznamená, že by tento zápis naznačoval, že absolutnı́ člen a zbývajı́cı́ regresnı́ koeficienty, ze
zřejmého důvodu někdy označované slopes, majı́ v modelu stejné postavenı́. Později se vrátı́me k
diskuzi, proč má absolutnı́ člen zvláštnı́ mı́sto v modelu a proč je dobře s nı́m počı́tat i v přı́padě,
kdy rutinnı́ postup při regresnı́ analýze naznačuje, že by mohl být tento parametr statisticky
nevýznamný.
Matice X bývá často označována jako o designová matice. Znovu připomı́náme, že v dalšı́m
výkladu budeme mı́t na mysli, byt’ toto budeme pro jistotu občas opakovat, zejména situaci, kdy
platı́ podmı́nky:
Podmı́nky A Posloupnost {Ei }∞
i=1 je posloupnostı́ nekorelovaných náhodných veličin s
nulovou střednı́ hodnotou a konečným kladným rozptylem σ 2 , který je stejný pro všechny tyto
veličiny.
Podmı́nky A lze pomoci již zavedeného formalizmu přepsat následovně:
1.
IE Ei = 0,
i = 1, 2, ...
2.
IE Ei2 = σ 2 , i = 1, 2, ... σ 2 ∈ (0, ∞),
3.
IE Ei Ej = 0 i = 1, 2, ... i < j,
kde symbol IE označuje střednı́ hodnotu. Někdy jsou jednotlivé podmı́nky (z výše uvedených) označovány “jmény”. Mluvı́me pak o podmı́nce homoskedasticity, řı́kajı́cı́, že všechny
rozptyly jsou stejné (to je podmı́nka čı́slo 2), či o podmı́nce nekorelovanosti (to je podmı́nka
čı́slo 3). Později budeme někdy předpokládat, že všechny veličiny Ei majı́ stejné a to normálnı́
rozdělenı́. Potom samozřejmě z předpokladu nekorelovanosti dostaneme jejich nezávislost.
V celém tomto učebnı́m textu budeme pro zachovánı́ jednoduchosti, pořádku a vyloučenı́
přı́padných omylů všechny vektory uvažovat jako sloupcové. To znamená, že pokud vyjmeme
některý, řekněme `-tý, řádek z matice plánu X budeme jej považovat nikoliv za řádek, ale za
sloupcový vektor x` . Pro sloupce matice zavedeme, až to budeme potřebovat, jiné symboly než
x` .
Pro každé β ∈ Rp definujme rezidua
ri (β) = yi − xTi β
i = 1, 2, . . . , n.
Opět se bude jednat bud’ o čı́sla, ri (β), vzešlá z některé numerické analýzy nebo o náhodné
veličiny ri (β, ω), které jsou náhodné proto, že Y je náhodná veličina a xi a β jsou deterministicky
21
dané, nebo i Xi jsou náhodné veličiny, pak ri (β) = Yi − Xi β nebo ri (β̂ (n) ) = Yi − Xi β̂ (n) , tj. i
β̂ (n) je náhodné, nebo konečně, což bude náš nejčastějšı́ přı́pad,
ri (β̂ (LS,n) ) = Yi − xTi β̂ (LS,n)
i = 1, 2, . . . , n,
(6)
tj. Y a β̂ (LS,n) jsou náhodné a xi deterministické. Jednotlivé eventuality budou opět snadno
rozlišitelné z kontextu. Budeme-li se napřı́klad bavit o vlastnostech LS-odhadu a jeho reziduı́,
bude zřejmé, že jde o eventualitu (6). Připomeňme, že fluktuace Ei v modelu (4) nejsou nic vı́ce
ani méně než ri (β 0 , ω).
Po přepsánı́ modelu (4) do maticového zápisu, dostaneme
Y = Xβ 0 + E,
(7)
kde Y = (Y1 , Y2 , . . . , Yn )T , X a β 0 jsou již dřı́ve popsaná matice plánu a vektor regresnı́ch
koeficientů a konečně E = (E1 , E2 , . . . , En )T je vektor náhodných fluktuacı́. Tento zápis je
přirozeně přehlednějšı́, byt’ poněkud méně “samovysvětlujı́cı́” svůj význam než (4). Budeme jej
však přesto použı́vat alternativně se zápisem (4), nebot’ v některých přı́padech zjednodušı́ a
zpřehlednı́ prováděné úpravy výrazů.
Odhad regresnı́ch koeficientů metodou nejmenšı́ch čtverců definuje pak jako
β̂ (LS,n) (ω) = arg min
β∈Rp
n
X
(Yi − xTi β)2 = arg min (Y − Xβ)T (Y − Xβ),
β∈Rp
i=1
(8)
kde “arg min” znamená, že za odhad považujeme takovou hodnotu argumentu, v našem přı́padě
β ∈ Rp , která přı́slušný výraz, který následuje za “arg min”, minimalizuje. Podobně pro “arg max”.
Heuristika, jistě nikoliv jediná, stojı́cı́ za metodou LS se opı́rá o myšlenku, že malá rezidua jsou
nepodstatná a tedy je umocněnı́m na druhou ještě zmenšı́me a nebereme je přı́liš v úvahu.
Na druhé straně velká rezidua jsou závažná a umocněnı́m na druhou je ještě zvětšı́me, čı́mž
“donutı́me” minimalizačnı́ proces vzı́t tato velká rezidua velmi vážně. To je samozřejmě velice
dobře akceptovatelná myšlenka, nebot’ vede k tomu, že metoda LS je citlivá na odlehlá pozorovánı́ ve vysvětlujı́cı́ proměnné (taková pozorovánı́ bývajı́ označována jako outliers) i na
odlehlá pozorovánı́ ve vysvětlujı́cı́ch proměnných (taková pozorovánı́ bývajı́ označována jako
leverage points, a patrně neexistuje uspokojivý český překlad). Snad by bylo možné mluvit o
odlehlých bodech u prvé skupiny a o pákových bodech ve druhé skupině, pokud bychom použili
otrockého překladu. Samozřejmě se nabı́zı́ srovnánı́ s pákovým efektem, který je znám v ekonomii.
Obě skupiny pozorovánı́ se z pochopitelných důvodů často označujı́ jako vlivné body. Důvody,
proč tato pozorovánı́ jsou vlivná snadno nahlédneme z normálnı́ch rovnic, které za chvı́li uvedeme.
Výše uvedená idea má však i své čertovo kopýtko a nepochybně lze se stejnou samozřejmostı́
obhajovat i zcela opačný požadavek, totiž že by metoda odhadu parametrů neměla být citlivá
na velká rezidua, pokud by jich bylo jen několik. To, že citlivost na vlivné body může být někdy,
např. při automatizovaném zpracovánı́ dat, probı́hajı́cı́m bez důkladného dozoru zpracovatele,
sebevražedná, snad nejlépe ukazuje následujı́cı́ obrázek presentujı́cı́ data, která popisujı́ závislost
mezi povrchovou teplotou hvězdy a jejı́m jasem (Humphreys (1978)).
22
A
A
Závislost jasu hvězdy na jejı́ povrchové teplotě.
(Plná čára naznačuje odhad modelu pořı́zený pomocı́ LS.)
Obr. 1
Nenı́ třeba mı́t sebemenšı́ matematické vzdělánı́ k tomu, aby nás napadlo, že čtyři body
ležı́cı́ v levém hornı́m rohu obrázku jsou “nekonsistentnı́” s ostatnı́mi pozorovánı́mi a opravdu
při dalšı́m zkoumánı́ se ukázala fyzikálnı́ odlišnost těchto objektů od všech ostatnı́ch. Vyloučı́meli tyto body ze souboru, dostaneme toto.
Závislost jasu hvězdy na jejı́ povrchové teplotě.
(Plná čára naznačuje odhad modelu pořı́zený pomocı́ LS po vyloučenı́ výše diskutovaných bodů.)
Obr. 2
Z tohoto přı́kladu se zdá, že vizuálnı́ analýza dat může mnohdy podstatně napomoci při
jejich zpracovánı́. To je jistě pravda, ale jako každý postup má i tento svá ohraničenı́. Snadno
23
lze nalézt vı́cerozměrná data, ve kterých jsou vlivná pozorovánı́ tak dobře zamaskována, že ani
dobrý grafický editor, umožňujı́cı́ např. trojrozměrné zobrazenı́ dat a jejich otáčenı́ v prostoru,
tuto kontaminaci dat nenalezne. (Tento termı́n, zamaskována se při zpracovánı́ dat opravdu
použı́vá, tj. nejde o metaforu. Z těchto důvodů je vhodné použı́t při zpracovávánı́ dat také
některé diagnostické prostředky, přı́padně jiné odhady modelu než jen LS. Vrátı́me se k těmto
problémům později.
Dřı́ve než postoupı́me dále poctivě přiznejme, že důvod k zavedenı́ LS, alespoň pro Carla
Friedricha Gausse, byla numerická proveditelnost výše naznačené minimalizace, tj. technická
jednoduchost metody. V práci z roku 1809 napsal: “Ale ze všech těchto principů je metoda
nejmenšı́ch čtverců principem nejzákladnějšı́m. Všechny ostatnı́ nás zavádějı́ do mnohem komplikovanějšı́ch výpočtů.” Možná, že se některému čtenáři bude zdát divné, že je technická jednoduchost nadřazena “objektivitě” (či “správnosti” či “pravdivosti”, přı́padně si doplňte jiné vznešené
slovo). Připomeňme však, že jednoduchost teorie je obecně přijı́maným kritériem při porovnávánı́
teoriı́ či dávánı́ přednosti jinak stejně dobře fungujı́cı́m teoriı́m, viz Ocamova břitva, Kuhn
(1965). Navı́c, před masovým rozšı́řenı́m relativně levné a nepochybně výkonné počı́tačové
techniky, byla jednoduchost výpočtu vlastně podmı́nkou aplikovatelnosti metody.
Začněme nynı́ s budovánı́m vlastnı́ teorie. Snadno se nahlédne, že vždy existuje řešenı́
problému (8). Ukazuje to následujı́cı́ lemma. Dřı́ve než ji však vyslovı́me, zaved’me ještě jedno
označenı́. Symbolem M(A) budeme označovat vektorový podprostor prostoru Rn , který je generován sloupci matice A. Dimenze podprostoru i typ matice vyplyne z kontextu. Ještě jednou
zdůrazněme, že M(A) je generován sloupci matice A. Ostatně tvar regresnı́ho modelu, ve
kterém kombinujeme pomocı́ vektoru regresnı́ch koeficientů β sloupce matice X napovı́dá, že
se budeme zajı́mat o prostory generované sloupci přı́slušných matic. Je sice pravda, že prostoty
M(A) a M(AT ) majı́ mnoho společného (např. hodnost), ale jinak se jedná o různé prostory.
LEMMA 1 Necht’ Y ∈ Rn a k necht’ je dimense podprostoru generovaného sloupci matice
plánu. Potom existuje právě jeden vektor U ∈ M(X) = Rn,k takový, že Y = U + Z a Z⊥M(X),
kde “⊥” označuje fakt, že vektor Z je kolmý k podprostoru M(X).
Důkaz. Necht’ {u1 , u2 , . . . , uk } a {u1 , u2 , . . . , uk . . . , un } jsou ortogonálnı́ báze M(X) a Rn .
Pak
n
Y =
X
i=1
αi ui ,
P
P
pro některá reálná α1 , α2 , . . . , αn . Položme U = ki=1 αi ui a Z = ni=k+1 αi ui . Pak Z⊥M(X)
a Y = U + Z. Tı́m je dokázána existence vektorů U a Z. Necht’ dále Y = U1 + Z1 a Y =
U2 + Z2 , U1 , U2 ∈ M(X), Z1 , Z2 ⊥M(X). Pak U1 − U2 = Z1 − Z2 a navı́c U1 − U2 ∈ M(X)
a Z1 − Z2 ⊥M(X), a tedy U1 − U2 ⊥Z1 − Z2 , tj. U1 − U2 = 0 = Z1 − Z2 . Tı́m je ukázána
jednoznačnost rozkladu.
2
Nynı́ necht’ U ∈ M(X) je vektor z předchozı́ho lemmatu. Pro libovolný jiný vektor W ∈
M(X) pak máme
(Y − W )T (Y − W ) = [(Y − U ) − (U − W )]T [(Y − U ) − (U − W )]
= (Y − U )T (Y − U ) + (U − W )T (U − W ) ≥ (Y − U )T (Y − U ).
24
K řešenı́ (8) tedy stačı́ nalézt β ∈ Rk tak, aby lineárnı́ kombinace sloupců matice plánu, která
vystupuje v (8) jako Xβ, byla rovna U , tj. U = X β̂ (LS,n) . To vždy lze provést a navı́c pokud
k = p, tj. pokud je dimenze prostoru M(X) rovna p. V tom přı́padě mluvı́me o tom, že matice
X je plné hodnosti či že model je plné hodnosti. Sloupce matice X pak tvořı́ bázi přı́slušného
podprostoru a β̂ (LS,n) je určeno jednoznačně. Připomeňme, že p označuje počet sloupců matice
X. Vzhledem k tomu, že nynı́ již vı́me, že řešenı́ problému (8) vždy existuje můžeme je hledat
tak, že vypočteme parciálnı́ derivace funkcionálu (Y − Xβ)T (Y − Xβ) dle β` a položı́me je rovné
nule. Takto vzniklé soustavě rovnic se často řı́ká normálnı́ rovnice. Protože
∂
Pp
j=1 xij βj
∂β`
máme
∂
Pn
i=1 (Yi
− xTi β)2
∂β`
= −2
= xi` ,
n
X
(Yi − xTi β)xi` .
i=1
Normálnı́ rovnice tedy majı́ tvar
n
X
(Yi − xTi β)xi` = 0
pro
` = 1, 2, . . . , p,
(9)
i=1
či v maticovém zápise
X T (Y − Xβ) = 0.
(10)
β̂ (LS,n) = (X T X)−1 X T Y,
(11)
Je-li k = p dostaneme
pokud k < p, pak
β̂ (LS,n) = (X T X)− X T Y,
kde (X T X)− je některá levá pseudoinverse matice X T X, což (znovu) indikuje, že v tomto
přı́padě β̂ (LS,n) nenı́ určeno jednoznačně. Nadále budeme pro jednoduchost předpokládat, že
matice plánu je plné hodnosti. Ostatně pokud by matice plánu nebyla plné hodnosti prostě
některý z jejı́ch sloupců vyloučı́me. Tento postup nenı́ možný, či je alespoň problematický, v
přı́padě, že se jedná o náhodné nosiče nebo uvažujeme matici X závislou na nějakých parametrech, přičemž pouze pro některou “konstelaci” parametrů dojde ke ztrátě plné hodnosti modelu. V dalšı́m však přijmeme předpoklady, které (alespoň asymptoticky) tuto možnost vyloučı́.
Nicméně v literatuře lze nalézt diskuzi takových situacı́, Judge a kol. (1980), Zvára (1989)).
Potı́že výpočetnı́ho rázu a zhoršenı́ kvality odhadu (ve smyslu velkého rozptylu) mohou nastat v přı́padě, že matice X T X je sice regulárnı́ a tedy (X T X)−1 existuje, ale je tzv. špatně
podmı́něna, tj. je na “pokraji” singularity. V takovém přı́padě jsou jejı́ sloupce “téměř” lineárně
závislé a mluvı́me o problému kolinearity, ke kterému se rovněž později vrátı́me. Formálně se
výše naznačené vyloučenı́ některého sloupce (či sloupců) matice X v přı́padě, že tato nenı́ plné
hodnosti, provede takto:
Necht’ V1 , V2 , . . . , Vk , Vk+1 , . . . , Vp jsou sloupce matice X, přičemž prvnı́ch k je lineárně nezávislých,
ostatnı́ jsou na nich závislé, jinými slovy jsou lineárnı́mi kombinacemi těch prvnı́ch k. Formálně
to znamená, že existuje matice Λ taková, že
(Vk+1 , . . . , Vp ) = (V1 , V2 , . . . , Vk ) · Λ.
25
Pak ale
Xβ 0 = (V1 , V2 , . . . , Vk )(β1 , β2 , . . . , βk )T + (V1 , V2 , . . . , Vk )Λ(βk+1 , βk+2 , . . . , βp )T
= (V1 , V2 , . . . , Vk )(γ10 , γ20 , . . . , γk0 )T ,
kde γ 0 = (γ10 , γ20 , . . . , γk0 )T = (β1 , β2 , . . . , βk )T + Λ(βk+1 , βk+2 , . . . , βp )T , odkud
opravdu potřebujeme pouze k parametrů.
Odhad β̂ (n) označujeme jako lineárnı́, pokud β̂ (n) = LY kde L je některá, na Y
nezávislá, (p × n)-rozměrná matice. Pochopitelně, že bude L = L(X), tj. slovy,
funkcı́ vysvětlujı́cı́ch proměnných. Jinak by byl odhad β̂ (n) dosti podivný, nebot’
úvahu informaci nesenou vysvětlujı́cı́mi proměnnými.
je vidět, že
samozřejmě
matice L je
by nebral v
LEMMA 2 Necht’ posloupnost {Ei }∞
i=1 je posloupnostı́ nezávislých a stejně rozdělených náhodných
veličin s nulovou střednı́ hodnotou a konečným kladným rozptylem σ 2 . Potom je β̂ (LS,n) nejlepšı́m
nestranným lineárnı́m odhadem parametru β 0 . Pokud navı́c existuje h(n) : N → R tak, že
(X T X)−1 = O(h−1 (n))
(12)
X T X = o(h2 (n)),
(13)
a
potom β̂ (LS,n) je silně konsistentnı́m odhadem. Zesı́lı́me-li ještě (12) na
lim
n→∞
1 T
X X = Q,
n
(14)
kde Q je některá regulárnı́ matice, potom
√
n(β̂ (LS,n) − β 0 )
(15)
je asymptoticky normálnı́ N (0, Σ), kde Σ = σ 2 Q−1 .
Dřı́ve než pustı́me do důkazu tohoto lemmatu, učinı́me dvě technické poznámky.
Pozorný čtenář dosud uvedeného textu již nahlédl, že je třeba odlišovat β̂ (n) jako statistiku
(tj. náhodnou veličinu) a β̂ (n) jako hodnotu odhadu pro některá data. Rozlišenı́ vyplyne z kontextu. Ve statistické literatuře se tyto dvě entity obvykle ani formálně nerozlišujı́ a je docela
možné, že někdy méně pozornı́ čtenáři tento rozdı́l ani nezaznamenajı́. Proto si občas dovolı́me,
bude-li to vhodné, naznačit označenı́m β̂ (n) (ω), že se jedná o tu prvnı́ možnost, tj. o odhad
jako náhodnou veličinu. To znamená jinými slovy, že β̂ (LS,n) (ω) je nalezen jako nějaká formule
zahrnujı́cı́ Yi a Xi , i = 1, 2, . . . , n, viz (11), metodou nejmenšı́ch čtverců na základě počátečnı́ho
∞
úseku délky n ∈ N posloupnostı́ náhodných veličin {Yi (ω)}∞
i=1 a {Xi (ω)}i=1 a bude použı́ván
k teoretickým úvahám (např. k důkazu konsistence odhadu), zatı́mco β̂ (LS,n) je vyčı́slen pro
některá konkrétnı́ data, tj. pro deterministické posloupnosti {Yi (ω0 )}ni=1 a {Xi (ω0 )}ni=1 , kde ω0
je některý bod z Ω.
Zdůrazňujeme však ještě jednou, že ve většině přı́padů budeme “(ω)” vynechávat, nebot’
rozlišenı́ mezi β̂ (n) (ω) a β̂ bude naprosto zřejmé z kontextu. Budeme-li např. mluvit o konsistenci
26
či asymptotické normalitě β̂, bude zřejmé, že máme na mysli odhad jako náhodnou veličinu, tj.
β̂(ω), a nikoliv čı́selnou hodnotu odhadu pro některá data.
Druhá poznámka je určena čtenáři, který se snad poprvé v životě setkává s tvrzenı́m o
asymptotickém rozdělenı́ některého odhadu. Jak plyne z Lemmatu 2 (tedy až jej dokážeme) je
odhad β̂ (LS,n) silně konsistentnı́. To je důvod proč se ve vztahu (15) objevuje násobenı́ faktorem
√
n. Bez této normalizace by samozřejmě naznačený rozdı́l při n → ∞ konvergoval k nule.
Důkaz Lemmatu 2. Necht’ L je některá (p×n)-rozměrná matice, L∗ = (X T X)−1 X T a β̃ (n) =
LY . Pak z požadavku nestrannosti, který musı́ platit pro libovolné β ∈ Rp , nebot’ neznáme
hodnotu β 0 , plyne, že pro všechna β ∈ Rp
IEβ β̃ (n) = LIEβ Y = LXβ = β
(16)
LX = I,
(17)
a tudı́ž
kde I je (p × p)-rozměrná jednotková matice a dolnı́ index u střednı́ hodnoty naznačuje, že tato
je počı́tána “v modelu”, ve kterém je vektor regresnı́ch koeficientů roven β. Abychom uzavřeli
důkaz prvé části tvrzenı́ lemmatu, potřebujeme dokázat, že pro libovolné λ ∈ Rp je
λT cov{β̂ (LS,n) }λ ≤ λT cov{β̃ (n) }λ,
kde cov{·} označuje přı́slušnou kovariančnı́ matici. Snadno se ověřı́, že (viz (16) a (17))
λT cov{β̃ (n) }λ = λT IE {(LY − β)T (LY − β)}λ
= λT IE {(LY − LXβ)T (LY − LXβ)}λ = λT LIE {(Y − Xβ)T (Y − Xβ)}LT λ
= λT Lσ 2 ILT λ = σ 2 λT LLT λ.
Podobně
λT cov{β̂ (LS,n) }λ = σ 2 λT L∗ (L∗ )T λ = σ 2 λT (X T X)−1 λ.
Nynı́
λT LLT λ = λT (L − L∗ + L∗ )(L − L∗ + L∗ )T λ
= λT (L − L∗ )(L − L∗ )T λ + λT L∗ (L∗ )T λ,
nebot’
(L − L∗ )(L∗ )T = (L − (X T X)−1 X T )X(X T X)−1 = LX(X T X)−1 − (X T X)−1 = 0
a tedy také L∗ (L − L∗ )T = 0. Vzhledem k tomu, že L∗ (L∗ )T = (X T X)−1 a (L − L∗ )(L − L∗ )T
jsou pozitivně semidefinitnı́, je důkaz prvé části lemmatu dokončen.
K důkazu druhé části použijeme Kolmogorův silný zákon velkých čı́sel (viz např. Rao (1978),
těpán (1987)) . Odhad β̂ (LS,n) můžeme totiž psát jako
(X T X)−1 X T Y = β 0 + nh(n) · (X T X)−1
1
1
1
X T E = β0 + (
X T X)−1
X T E, (18)
nh(n)
nh(n)
nh(n)
27
kde E = (E1 , E2 , . . . , En )T . Uvažujme nejprve pro libovolné `, 1 ≤ ` ≤ p náhodnou veličinu
Zn(`) =
(1)
(2)
n
1 X
xi` Ei
nh(n) i=1
(p)
a Zn = (Zn , Zn , . . . , Zn )T . Protože var{xi` Ei } = x2i` σ 2 , máme
var(Zn(`) ) =
n
n
X
X
1
1
2
var{x
E
}
=
σ
x2 → 0
i` i
n2 h2 (n) i=1
n2 h2 (n) i=1 i`
as n → ∞,
a tedy dle (13) Zn → 0 s. j.. Použitı́m Sluckého věty (viz opět Rao (1978), těpán (1987)) nebo
prostě přı́mo ověřenı́m konvergence s. j. pro transformaci β 0 + n · (X T X)−1 Zn při platnosti (12),
dokončı́me důkaz.
Dřı́ve než postoupı́me k důkazu poslednı́ části věty upozorněme, že v některých monografiı́ch
se podrobně diskutuje charakter posloupnosti matic n1 X T X pro n → ∞ a žádá se, aby byla
ohraničena v pravděpodobnosti. Všimněme si, že pro důkaz konsistence β̂ (LS,n) potřebujeme
naopak to aby n1 X T X nebyla přı́liš “malá”.
Rovněž si povšimněme, že porušenı́ předpokladu homoskedasticity nemusı́ vést ke ztrátě
konsistence, nebot’ prostě stačı́, aby
n
X
1
σ 2 x2 → 0
n2 h2 (n) i=1 i i`
as n → ∞,
pochopitelně při zachovánı́ (12). V článku Rao a Zhao (1992) lze nalézt zajı́mavý nápad studovat
namı́sto konsistence odhadu β̂ (LS,n) pro původnı́ data, ohraničenost v pravděpodobnosti odhadu
β̂ (LS,n) pro data transformovaná následujı́cı́m způsobem.
Protože předpokládáme, že matice X T X je symetrická (a reálná) lze ji psát jako QQT , kde
Q je čtvercová matice (typu p × p) a protože navı́c předpokládáme, že X T X je regulárnı́, je
regulárnı́ také matice Q. Toto vše bude dokázáno nı́že, viz Důsledek 2. To znamená, že existuje
Q−1 a tedy můžeme namı́sto modelu (4) studovat model
Yi = x̃Ti β (n) + Ei ,
i = 1, 2, . . . , n,
³
kde x̃i = xTi Q−1 a β (n) = Qβ 0 . Nynı́ stačı́ předpokládat, že X T X
´−1
(19)
= o(1) a ukázat, že v
modelu (19) je β̂ (LS,n) = Op (1). Rao a Zhao provedli důkaz v rámci studia M -odhadů, avšak
předpoklady, za kterých výsledek platı́, jsou splněny i pro odhad metodou nejmenšı́ch čtverců.
Důkaz je však komplikovaný a proto zájemce odkazujeme na původnı́ článek.
K důkazu poslednı́ části lemmatu pak využijeme Varadarajanovu a Feller-Lindebergovu větu
(opět Rao (1978), těpán (1987)).
Ze vztahu (18) snadno odvodı́me, že
√
1
n(β̂ (LS,n) − β 0 ) = n · (X T X)−1 √ X T E.
n
Zkoumejme nejprve pro libovolné κ ∈ Rp náhodnou veličinu Sn = κT √1n
σ 2 n1 κT X T Xκ.
Pn
i=1 xi Ei . Jejı́
κ ∈ Rp podařı́
střednı́ hodnota je rovna nule a rozptyl
Pokud se nám pro libovolné
dokázat, že Sn má asymptoticky normálnı́ rozdělenı́ s nulovou střednı́ hodnotou a rozptylem
28
P
σ 2 κQκ, pak z Varadarajanovy věty plyne, že √1n ni=1 xi Ei má asymptoticky normálnı́ rozdělenı́
s nulovým vektorem střednı́ch hodnot a kovariančnı́ maticı́ σ 2 Q.
Konkretizacı́ Feller-Lindebergovy podmı́nky pro Sn a ε > 0, dostaneme výraz
σ
−2
T
T
−1
[κ X Xκ]
n Z
X
1
T
T
T
2
i=1 |κ xi z|>εσ[κ X Xκ]
(κT xi z)2 dFEi (z),
(20)
kde FEi (z) označuje distribučnı́ funkci náhodné veličiny Ei . Dı́ky předpokladu o stejném rozdělenı́
všech Ei , jsou všechny tyto distribučnı́ funkce stejné. Pišme tedy namı́sto FEi (z) prostě F (z).
Je třeba dokázat, že tento výraz konverguje k nule pro n → ∞. Zvolme některé pevné τ > 0 a
nalezněme dostatečně velké K > 1 takové, že
Z
z 2 dF (z) < τ σ 2 .
|z|>K
Snadno se nahlédne, že v i-tém integrálu ve výraze (20) integrujeme přes oblast
1
εσ[κT X T Xκ] 2
.
|κT xi |
|z| >
Na druhé straně z předpokladu (14) plyne, že κT X T Xκ je, počı́naje od některého n0 , většı́ než
εσ 2 κT Qκ
1
T
, počı́naje řekněme některým n1 > n0
2 nκ Qκ a rovněž z (14) máme pro δ <
4K 2
¯
¯
¯1 T T
¯
¯ κ X Xκ − κT Qκ¯ < δ,
¯n
¯
což implikuje pro i > n1 a n > n1
¯
¯
¯1 T
¯
¯ κ xi xT κ¯ < 2δ.
i ¯
¯n
Protože však n1 < ∞, existuje n2 > n1 tak, že pro n > n2
¯
¯
¯
¯1 T
¯ κ xi xT κ¯ < 2δ
i ¯
¯n
pro všechna i ∈ N . Pak ovšem pro n > n2 máme
"
(
max
1
εσ[κT X T Xκ] 2
1≤i≤n
tj.
(
"
min
1≤i≤n
Odtud plyne
σ −2 [κT X T Xκ]−1
≤σ
)#2
|κT xi |
−2
T
<
1
εσ[κT X T Xκ] 2
|κT xi |
4δ
1
< 2,
εσ 2 κT Qκ
K
)#2
> K 2.
n Z
X
1
T
T
T
2
i=1 |κ xi z|>εσ[κ X Xκ]
T
−1
[κ X Xκ]
n Z
X
i=1 |z|>K
(κT xi z)2 dF (z)
Z
= σ −2 [κT X T Xκ]−1
|z|>K
z 2 dF (z) ·
n
X
i=1
29
(κT xi z)2 dF (z)
κT xi xTi κ ≤ τ.
Protože ε i τ byla libovolná kladná čı́sla, dokázali jsme platnost Feller-Lindebergovy podmı́nky
pro Sn . Protože rovněž κ bylo libovolné, použitı́m Varadarajanovy věty, jak jsme už ostatně
P
výše uvedli, dostaneme, že asymptotické rozdělenı́ náhodné veličiny √1n ni=1 xi Ei je normálnı́ s
nulovým vektorem střednı́ch hodnot a kovariančnı́ maticı́ σ 2 Q.
P
P
Potom ovšem náhodná veličina n·(X T X)−1 √1n ni=1 xi Ei = ( n1 X T X)−1 √1n ni=1 xi Ei asymptoticky normálnı́ rozdělenı́ s nulovým vektorem střednı́ch hodnot a kovariančnı́ maticı́ σ 2 Q−1 .
2
Nynı́ jsme dospěli do stádia, ve kterém si budeme moci názorně zdůvodnit to, co jsme výše
již jednou naznačili, totiž že omezenı́ na lineárnı́ odhad je drastické. Připomeňme, že Lemma 2
ukazuje, že β̂ (LS,n) je nejlepšı́m nestranným lineárnı́m odhadem. Normálnı́ rovnice (9) přepı́šeme
do tvaru
n
X
(Yi − xTi β)xi = 0.
(21)
i=1
Bez újmy na obecnosti předpokládejme, že jsme data posunuli ve faktorovém prostoru tak, že
ležı́ okolo počátku. Ostatně jak plyne z tvaru β̂ (LS,n) , je tento invariantnı́ k lineárnı́ transformaci
dat a odhad pro původnı́ data lze zı́skat z odhadu pro posunutá data prostě inverznı́ transformacı́. Z (21) je patrné, že pozorovánı́, které bude mı́t velké hodnoty x-ových souřadnic, tj.
bude “leverage pointem”, dostane většı́ váhu v normálnı́ch rovnicı́ch a vı́ce ovlivnı́ jejich řešenı́.
Podobně degradujı́cı́ vliv bude mı́t pozorovánı́ se značně odlehlou y-ovou souřadnicı́ (outlier),
nebot’ u něho bude v (21) zase veliký prvnı́ součinitel. Celkový efekt bude potom takový, jaký
je naznačen na obrázku 1. To však znamená, že i nejlepšı́ mezi lineárnı́mi odhady dá poněkud
překvapivý výsledek.
Jsme-li však v situaci, kdy nemáme pochybnosti o tom, že fluktuace jsou, alespoň přibližně,
normálně rozděleny a následně to ověřı́me normálnı́m grafem, přı́padně testem na normalitu
reziduı́, který bude také popsán nı́že, pak z následujı́cı́ věty plyne, že β̂ (LS,n) je dokonce nejlepšı́ 5
mezi všemi nestrannými odhady.
2
2
VĚTA 1 Necht’ {Ei }∞
i=1 je posloupnost nezávislých normálně rozdělených (N (0, σ ), σ ∈ (0, ∞))
náhodných veličin. Označme β̂ (M L,n) maximálně věrohodný odhad β 0 . Potom β̂ (LS,n) = β̂ (M L,n)
a β̂ (LS,n) dosahuje dolnı́ Rao-Cramerovy hranice rozptylu, tj. je nejlepšı́m nestranným odhadem β 0 . Naopak, je-li β̂ (LS,n) nejlepšı́ nestranný odhad dosahujı́cı́ dolnı́ Rao-Cramerovy hranice
2
(LS,n) = β̂ (M L,n) .
rozptylu, pak přı́slušné rozdělenı́ fluktuacı́ {Ei }∞
i=1 je N (0, σi ) a β̂
Důkaz. Vzhledem k tomu, že v předcházejı́cı́m textu již byla nestrannost dokázána, budeme
dokazovat jen zbývajı́cı́ část tvrzenı́ věty.
Snadno se rozpomeneme, že použitı́ metody maximálnı́ věrohodnosti vždy předpokládáme,
že přı́slušná náhodná veličina, v naše přı́padě Yi , má rozdělenı́ určitého typu s neznámými
parametry, v naše přı́padě N (xTi β, σ 2 ), a snažı́me se nalézt hodnoty parametrů tak, aby se
maximalizovala věrohodnostnı́ funkce. V právě dokazovaném přı́padě, vzhledem k předpokladu
normality, máme
)
(
(Yi − xTi β)2
1
.
exp −
f (Yi , β) = √
2σ 2
σ 2π
5
Odhad je nejlepšı́ ve smyslu minimálnı́ho rozptylu. Pro jiné kritérium by byl (obecně) nejlepšı́m jiný odhad.
Např. L1 -odhad by byl nejlepšı́m v přı́padě, že by kritériem byl střednı́ absolutnı́ vychýlenı́ odhadu.
30
Tvar věrohodnostnı́ funkce je tedy následujı́cı́
n
Y
`n (Y, β) =
(
i=1
)
1
(Y − xTi β)2
√ exp(− i
) .
2σ 2
σ 2π
Zlogaritmovánı́m dostaneme
n
√
1 X
log`n (Y, β) = −n log(σ 2π) − 2
(Yi − xTi β)2 .
2σ i=1
Nynı́
β̂ (M L,n) = argmax {log`n (Y, β)}
β∈Rp
(
= argmax
−
β∈Rp
= arg min
β∈Rp
( n
X
n
X
)
xTi β)2
(Yi −
i=1
)
(Yi − xTi β)2
= β̂ (LS,n) .
i=1
β̂ (LS,n)
Dále ukážeme, že
dosahuje dolnı́ Rao-Cramerovy hranice. Rao-Cramerova věta bývá
uváděna v učebnicı́ch a základnı́ch kursech statistiky obvykle pro jednorozměrný parametr.
Proto krátce zopakujeme jejı́ důkaz pro vı́cerozměrný parametr.
Předpokládáme-li, že statistika Tn (y, x) je nestranným odhadem β, potom IEβ Tn (y, x) = β
pro všechna β ∈ Rp (připomı́náme, že dolnı́ index “β ” u symbolu střednı́ hodnoty naznačuje, že
střednı́ hodnota je počı́tána v modelu, který předpokládá jako “skutečnou” hodnotu regresnı́ch
koeficientů právě β). Označme hustotu náhodné veličiny Y při hodnotách parametrů modelu
rovných X a β symbolem pn (y, X, β). Potom máme
(1)
(2)
βj − βj
Z
n
o
Tnj (y, x) pn (y, X, β (1) ) − pn (y, X, β (2) ) dµ(y)
=
j = 1, 2, . . . . , p,
kde µ(y) je přı́slušná σ-konečná mı́ra, vůči které byla nalezena hustota pravděpodobnosti (jako
Radon-Nikodymova derivace odpovı́dajı́cı́ pravděpodobnostnı́ mı́ry). Pro jednoduchost předpokládejme,
že nosič hustoty pravděpodobnosti pn (y, X, β) je celá přı́mka. Ostatně výsledek těchto úvah
budeme aplikovat na normálnı́ rozdělenı́, kde toto je, právě tak jako dalšı́, nı́že použité předpoklady
jsou, oprávněné. Dřı́ve než budeme pokračovat dále, připomeneme (či uvědomı́me) si, jak je
definována parciálnı́ derivace funkce vı́ce proměnných, řekněme f (t), kde t = (t1 , t2 , . . . , tp )T .
Parciálnı́ derivacı́ v bodě t0 rozumı́me limitu, pokud existuje
(0)
lim
∆→0
(0)
(0)
=
(1)
(1)
(0)
(0)
(0)
(0)
f (t1 , t2 , . . . , tj + ∆, . . . , tp ) − f (t1 , t2 , . . . , tj , . . . , t0p )
∆
(1)
lim(0)
(1)
f (t(1) ) − f (t(0)
(1)
(0)
tj − tj
tj →tj
,
(1)
kde (t1 , t2 , . . . , tj , . . . , tp ) = (t01 , t02 , . . . , t0j + ∆, . . . , t0p ). Nynı́ máme
(1)
(1)
Z
(2)
βj − βj
(2)
β` − β`
=
Tnj (y, x)
pn (y, X, β (1) ) − pn (y, X, β (2) )
(1)
(2)
pn (y, X, β (2) )(β` − β` )
31
pn (y, X, β (2) )dµ(y),
1 ≤ j, ` ≤ p.
Pokud existujı́ přı́slušné parciálnı́ derivace, a pokud lze prohodit integraci a limitudostaneme
(1)
(2)
(mějme na paměti, že βj − βj = 0 pro j 6= `)
Z
δj` =
Tnj (y, x)
∂log pn (y, X, β)
pn (y, X, β)dµ(y)
∂β`
j, ` = 1, 2, . . . , p.
(22)
Poznamenejme, že pro normálnı́ rozdělenı́ parciálnı́ derivace existujı́ a prohozenı́ intedrace a
n (y,X,β)
derivovánı́ lze provést. Necht’ nynı́ τ (β) je pozitivně semidefinitnı́ matice a označme ∂log p∂β
vektor parciálnı́ch derivacı́ a necht’ ξ je vektor zadaný rovnostı́
·
ξ=
∂log pn (y, X, β)
∂β
¸T
τ (β).
Znásobı́me-li nynı́ vztah (22) pro každé j, ` = 1, 2, . . . , p čı́slem τ`k (β) a sečteme toto přes `,
dostaneme
p
X
Z
δj` τ (β)`k =
Tnj (y, x)
`=1
p ½
X
∂log pn (y, X, β)
∂β`
`=1
¾
pn (y, X, β)τ`k (β) dµ(y),
takže v maticovém zápise můžeme psát
·
Z
τ (β) =
Tn (y, x)
∂log pn (y, X, β)
∂β
Z
=
Z
¸T
τ (β)pn (y, X, β)dµ(y)
Tn (y, x) [ξ − IEβ ξ]T pn (y, X, β)dµ(y),
Tn (y, x)ξ T pn (y, X, β)dµ(y) =
kde poslednı́ rovnost plyne z předpokladu, že
·
IEβ ξ = IEβ
∂log pn (y, X, β)
∂β
¸T
τ (β) = 0,
který platı́ např. je-li hustota pn (y, X, β) nulová na “okrajı́ch” svého nosiče. Vzhledem k tomu, že
budeme v dalšı́m aplikovat nalezené vztahy na normálnı́ hustotu, bude toto splněno. Z poslednı́ho
vztahu však rovněž plyne, že
Z
[Tn (y, x) − IEβ Tn (y, x)] · [ξ − IEβ ξ]T pn (y, X, β)dµ(y),
τ (β) =
což se snadno ověřı́ přı́mým výpočtem. Potom pro libovolné λ ∈ Rp máme
Z
λT τ (β)λ =
λT [Tn (y, x) − IEβ Tn (y, x)] · [ξ − IEβ ξ]T λpn (y, X, β)dµ(y)
n
o
≤ var λT Tn (y, x) var
(·
∂log pn (y, X, β)
∂β
)
¸T
τ (β)λ ,
(23)
kde jsme použili Schwarzovu nerovnost. Protože ve Schwarzově nerovnosti nastává rovnost právě
když náhodná veličina “v prvé varianci” je skoro jistě lineárně závislá na náhodné veličině “ve
druhé varianci”, znamená to, že rovnost nastane pokud pro libovolné λ ∈ Rp
·
λT Tn (y, x) = τ (β) ·
¸T
∂log pn (y, X, β)
+ γ(β)
∂β
32
λ
skoro jistě. Dřı́ve než budeme pokračovat, připomeňme si (či uvědomme si), co který symbol
znamená. τ (β) je pozitivně semidefinitnı́ matice typu (p × p) a γ(β) ∈ Rp . Z libovolnosti λ pak
plyne, že
∂log pn (y, X, β)
Tn (y, x) = τ (β) ·
+ γ(β),
(24)
∂β
kde navı́c τ (β) a γ(β) musı́ být takové, aby IEβ Tn (Y, x) = β a Tn (y, x) nesmı́ samozřejmě
záviset na β. Je-li nynı́
·
1
pn (y, X, β) = √
σ 2π
máme
Tn (y, x) = τ (β)
)
(
¸n Y
n
i=1
(Yi − xTi β)2
) ,
exp(−
2σ 2
o
n n
X
(Yi − xTi β)xi + γ(β),
i=1
tj.
Tn (y, x) = τ (β)
n
X
Yi xi − τ (β)
i=1
n
X
xi xTi β + γ(β).
(25)
i=1
Protože Tn (y, x) nesmı́ záviset na β, musı́ poslednı́ dva členy v (25) být konstantnı́ (tj. nezávislé
P
na β), neboli je třeba, aby γ(β) = τ (β) ni=1 xi xTi β + a, a ∈ Rp . Pak ovšem máme
Tn (y, x) = τ (β)
n
X
Yi xi + a
i=1
a protože β = IEβ Tn (Y, x) = τ (β)
je konečně τ (β) =
³P
n
T
i=1 xi xi
´−1
Pn
P
IE Yi xi + a = τ (β) ni=1 xi xTi β + a pro libovolné β ∈ Rp ,
i=1
³
´−1
T
= X X
³
T
Tn (Y, x) = X X
a a = 0. Dostali jsme
n
´−1 X
³
Yi xi = X T X
´−1
X T Y,
i=1
³
jinými slovy X T X
´−1
X T Y dosahuje dolnı́ Rao-Cramerovy hranice rozptylu. Necht’ nynı́ naopak
³
Tn (Y, x) = X T X
´−1
XT Y
(26)
je nejlepšı́m nestranným odhadem dosahujı́cı́m dolnı́ Rao-Cramerovu hranici rozptylu. Potom,
jak už bylo řečeno výše (viz (24))
Tn (y, x) = τ (β) ·
∂log pn (y, X, β)
+ γ(β).
∂β
Připomeňme, že τ (β) je matice typu (p × p) a γ(β) ∈ Rp . Pro jednoduchost předpokládejme, že
τ je regulárnı́. Pokud by tomu tak nebylo, museli bychom použı́t pseudoinverze a úvahy by se
poněkud zkomplikovaly, nicméně by vedly nakonec ke stejnému závěru. Potom
∂log pn (y, X, β)
= [τ (β)]−1 [Tn (y, x) − γ(β)]
∂β
a integrovánı́m dostaneme
log pn (y, X, β) = κ(β)Tn (y, x) − δ(β) + U (y),
33
(27)
kde jsme označili κ(β) vektor z Rp , jehož matice parciálnı́ch derivacı́ je rovna [τ (β)]−1 , δ(β) je
funkce jejı́ž parciálnı́ derivace jsou rovny [τ (β)]−1 γ(β) a U (y) je integračnı́ konstanta (konstanta
vůči proměnné přes kterou se integrovalo a tou bylo β). Po dosazenı́ z (26) do (27) dostaneme
³
log pn (y, X, β) = κ(β) X T X
´−1
X T y − δ(β) + U (y).
Zde snadno nahlédneme, co se stane pokud matice τ (β) nenı́ regulárnı́. Potom κ(β) nenı́ určeno
jednoznačně a musı́me provést reparametrizaci regresnı́ch koeficientů. Protože κ(β) ∈ Rp , exisT
tuje pro libovolnou regulárnı́ matici A typu (p × p) β̄ tak, že κ(β) = β̄ T A, a zvolı́me-li A = Xσ2X ,
dostaneme
log pn (y, X, β̄) = σ −2 β̄ T X T y + δ̄(β̄) + U (y),
kde δ̄(β̄) je funkce odpovı́dajı́cı́ δ(β) po provedenı́ reparametrizace a transformace regresnı́ch
koeficientů pomocı́ matice A a změně znaménka. Potom máme
pn (y, X, β̄) = exp(σ −2 β̄ T X T y) · exp(δ̄(β̄) + U (y)).
Doplněnı́m σ −2 β̄ T X T y na “čtverec” − 2σ1 2 (y − X β̄)T (y − X β̄) nalezneme
pn (y, X, β̄) = exp{−
1
(y − X β̄)T (y − X β̄)} · exp(δ̃(β̄) + Ũ (y)),
2σ 2
kde
δ̃(β̄) = δ̄(β̄) +
1 T T
β̄ X X β̄
2σ 2
a
Ũ (y) = U (y) +
1 T
y y.
2σ 2
Nynı́ uplatnı́me okrajové podmı́nky, které v našem přı́padě řı́kajı́, že pro všechna β̄ ∈ Rp a
všechny matice X typu (n × p) musı́ platit
Z
Z ³
pn (y, X, β̄)dµ(y) = 1
a
β̄ =
XT X
´−1
X T ypn (y, X, β̄)dµ(y).
(28)
Provedeme transformaci y − X β̄ = z a dostaneme z druhého vztahu v (28)
Z ³
β̄ =
XT X
´−1
Z
X T z p̃n (z, X, β̄)dµ(z) + β̄
p̃n (z, X, β̄)dµ(z).
Protože předchozı́ vztah musı́ platit pro všechna β̄ ∈ Rp , máme
Z ³
XT X
tj.
³
T
X X
´−1
´−1
Z
X
T
z exp{−
X T z p̃n (z, X, β̄)dµ(z) = 0,
1 T
z z + Ũ (z + X β̄)} · exp{δ̄(β̄)}dµ(z) = 0,
2σ 2
což znovu připomı́náme musı́ platit pro všechna β̄ ∈ Rp , tj.
Z
z exp{−
1 T
z z + Ũ (z + xβ̄)}dµ(z) = 0
2σ 2
34
(29)
a tedy Ũ ≡ 0. Protože navı́c pro všechna β̄ musı́ platit i prvnı́ vztah v (28)
n
p̃n (z, X, β̄) = (2πσ)− 2 exp{−
a konečně
n
pn (y, X, β̄) = (2πσ)− 2 exp{−
zT z
}
2σ 2
(y − Xβ)T (y − Xβ)
}.
2σ 2
2
V dalšı́m odstavci se budeme věnovat odhadu rozptylu reziduı́, tj. odhadu poslednı́ho parametru
regresnı́ho modelu, který ještě neumı́me odhadovat. Než však otevřeme tuto kapitolu, připomeňme
si ještě jednou, co jsme vlastně dokázali v předchozı́ větě. V některých textech o regresnı́ analýze
se totiž výsledek předchozı́ věty interpretuje tak, že normálnı́ rozdělenı́ fluktuacı́ je ekvivalentnı́
s rovnostı́ odhadů metodou nejmenšı́ch čtverců a metodou maximálnı́ věrohodnosti. Toto ovšem
nenı́ pravda. Uvažme následujı́cı́ přı́klad. Necht’ Y1 , Y2 , ..., Yn majı́ Poissonovo rozdělenı́ s koeficienty λ1 , λ2 , ..., λn , tj.
λk
P (Yi = k) = i e−λi i = 1, 2, ..., n
k!
T
0
a necht’ λi = xi β . (To implicitně předpokládá, že vysvětlovaná veličina nabývá pouze hodnot
rovných přirozeným čı́slům. Jak dalece je pak vhodné pro ni uvažovat lineárnı́ regresnı́ model, je
samozřejmě věcı́ diskuze. Nechme však tento problém pro tento okamžik stranou, vrátı́me se k
němu později, v kapitole věnované právě situaci, kdy vysvětlovaná veličina nabývá diskrétnı́ch
hodnot.) Podobně jako výše věrohodnostnı́ funkce má pro obecné β tvar
n
Y
`n (Y, β) =
(
i=1
[xTi β]Yi −xT β 0
e i
Yi !
)
a jejı́ logaritmus je
log`n (Y, β) =
n ³
X
´
Yi log(xTi β) − xTi β − log(Yi !) .
i=1
Vzhledem k tomu, že výraz
Pn
i=1 log(Yi !)
log`n (Y, β) =
je nezávislý na vektoru β, stačı́ maximalizovat
n ³
X
´
Yi log(xTi β) − xTi β .
i=1
Snadno ověřı́me, že
(
n
xij
∂log`n (Y, β) X
Yi T − xij
=
∂βj
xi β
i=1
)
a tedy normálnı́ rovnice majı́ tvar
n
X
i=1
Yi xij =
n
X
xij XiT β,
j = 1, 2, ..., p.
i=1
Po přepsánı́ do maticového tvaru dostaneme
X T Y = X T Xβ
35
a konečně
³
β̂ (M L,n) = X T X
´−1
X T Y.
To znamená, že β̂ (M L,n) = β̂ (LS,n) . Prvnı́, co by nás mohlo napadnout, je to, že podstatné bylo
to, že jsme ve Větě 1 předpokládali, že β̂ (LS,n) dosahuje dolnı́ Rao-Cramerovy hranice rozptylu,
a že to v tomto přı́kladě nemusı́ platit.
Pro jednoduchost předpokládejme, že xTi β 0 = λ, tj. střednı́ hodnota všech veličin Y1 , Y2 , ..., Yn
je stejná. To je speciálnı́ přı́pad námi vyšetřované situace. Pokud tedy zjistı́me, že v tomto
přı́padě maximálně věrohodný odhad dosahuje dolnı́ Rao-Cramerovy hranice rozptylu, pak naše
domněnka, že tento předpoklad, totiž dosaženı́ této hranice, byl podstatný, nebyla na mı́stě.
Snadno spočteme, že IE Yi = λ a var(Yi ) = λ pro i = 1, 2, ..., n. Podobně jednoduchý výpočet
ukáže, že Fischerova informace je rovna λ−1 . Vzhledem k tomu, že maximálně věrohodným
P
odhadem parametru λ pro n pozorovánı́ je n−1 ni=1 Yi , je jeho rozptyl roven n−1 λ a dolnı́
Rao-Cramerova hranice rozptylu je pro n pozorovánı́ rovněž n−1 λ. Jinými slovy maximálně
věrohodný odhad dosahuje dolnı́ Rao-Cramerovy hranice.
Podstatným předpokladem je totiž to, že vysvětlovaná veličina Y je spojitého typu. To
umožňuje psát (28) v tom tvaru, v jakém byl tento vztah zapsán, a dokázat, že z (29) plyne
Ũ ≡ 0 (srovnej Rao (1978), přı́klad 10.1 v kapitole 5). Podrobnějšı́ diskuzi o ekvivalenci odhadu
zı́skaného metodou nejmenšı́ch čtverců a maximálně věrohodného odhadu, a to i v přı́padě, kdy
je porušen předpoklad o homoskedasticitě, tj. předpoklad označený jako “2.” v Podmı́nkách
A, lze nalézt v práci Charnes et al. (1976), kde jsou zobecněny původnı́ výsledky z práce
Bradley (1973). Dalšı́ podrobnosti o regresnı́ch modelech, ve kterých se předpokládá, že náhodné
fluktuace a tudı́ž také vysvětlovaná veličina, jsou rozděleny dle Poissonova rozdělenı́ lze zı́skat
v práci Frome et al. (1973).
3.2
Odhad rozptylu náhodných fluktuacı́
Dřı́ve než budeme pokračovat ve výkladu, připomeňme, že, jak plyne z výše uvedeného, je
Ŷ = X β̂ (LS,n) = X(X T X)−1 X T Y
(30)
projekcı́ Y do prostoru M(X), tj. do prostoru generovaného sloupci matice plánu. Proto se
matice X(X T X)−1 X T často označuje jako projekčnı́ matice . V literatuře se také část mluvı́ o
této matici jako o “hat” matici, patrně dle “hat” nad Y .
LEMMA 3 Rezidua r(β̂ (n) ) = Y − Ŷ a projekce Ŷ jsou navzájem kolmé a tedy nekorelované.
Je-li navı́c rozdělenı́ Ei normálnı́ N (0, σ 2 ) 0 < σ 2 < ∞, pak jsou rezidua r(β̂ (n) ) a projekce Ŷ
nezávislé. Konečně pak
³
´
L(r(β̂ (n) )) = N (0, σ 2 I − X(X T X)−1 X T )
(31)
L(Ŷ ) = N (0, σ 2 X(X T X)−1 X T ),
(32)
a
kde “L” značı́ rozdělenı́ té náhodné veličiny, která je uvedena v závorkách (pı́smeno L je od
slova Law).
36
Důkaz. Snadno ověřı́me, že
(Y − Ŷ )T Ŷ = Y T Ŷ − Ŷ T Ŷ = Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T X(X T X)−1 X T Y
= Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T Y = 0,
kde jsme využili faktu, že matice X(X T X)−1 X T je symetrická a idempotentnı́. Z (30) dále
máme IEβ 0 Ŷ = Xβ 0 a
IEβ 0 (Ŷ − Xβ 0 )(Ŷ − Xβ 0 )T = IEβ 0
n
X(X T X)−1 X T (Y − Xβ 0 )(Y − Xβ 0 )T X(X T X)−1 X T
o
= σ 2 X(X T X)−1 X T .
Podobně
IEβ 0 (Y − Ŷ ) = IEβ 0 (I − X(X T X)−1 X T )Y = (I − X(X T X)−1 X T )Xβ 0 = 0
a jednoduchý obdobný výpočet dá
IEβ 0 (Y − Ŷ )(Y − Ŷ )T
n
o
(I − X(X T X)−1 X T )Y − (I − X(X T X)−1 X T )Xβ 0 ×
= IEβ 0
n
× (I − X(X T X)−1 X T )Y − (I − X(X T X)−1 X T )Xβ 0
oT
= IEβ 0 (I − X(X T X)−1 X T )(Y − Xβ 0 )(Y − Xβ 0 )T (I − X(X T X)−1 X T )
= σ 2 (I − X(X T X)−1 X T ),
kde jsme použili fakt, že (I − X(X T X)−1 X T )X = 0. Protože rezidua r(β̂ (n) ) a projekce Ŷ
jsou lineárnı́ transformacı́ Y , jsou samozřejmě také normálně rozdělena a výše uvedené výpočty
udávajı́ parametry těchto rozdělenı́. Tı́m je dokázáno (31) a (32). Konečně pak z nekorelovanosti
a z normality plyne nezávislost.
2
DŮSLEDEK 1 Za předpokladu Lemmatu 3 je β̂ (LS,n) nezávislý na vektoru reziduı́ r(β̂ (n) ).
Důkaz. Vzhledem k tomu, že (X T X)−1 X T X = I, máme dle (30)
β̂ (LS,n) = (X T X)−1 X T Y = (X T X)−1 X T X(X T X)−1 X T Y = (X T X)−1 X T Ŷ .
2
Nynı́ vyslovı́me několik tvrzenı́, která budeme potřebovat při vyšetřovánı́ odhadu rozptylu
reziduı́.
TVRZENÍ 1 Necht’ {Ei }∞
i=1 je posloupnost nezávislých stejně rozdělených náhodných veličin s
2
IE Ei = 0, varEi = σ ∈ (0, ∞), IE |Ei |3 < ∞ a IE Ei4 = σ 4 (γ + 3) (kde poslednı́ vztah vlastně
definuje hodnotu γ). Potom pro všechny symetrické matice A máme
(
T
2
IE (E AE) = σ
4
γ
n
X
)
a2ii
2
2
+ (tr(A)) + 2tr(A ) ,
i=1
“tr” znamená stopa (trace) a aii je i-tý diagonálnı́ prvek matice A. Navı́c γ ≥ −2.
37
Důkaz.

n X
n X
n X
n
X
IE (E T AE)2 = IE
=
n
X
a2ii IE Ei4 +
i=1
= σ 4 (γ + 3)

n X
X


Ei aij Ej Ek ak` E`
i=1 j=1 k=1 `=1
aii ajj IE Ei2 Ej2 + 2
i=1 j6=i
n
X
n X
X

a2ij IE Ei2 IE Ej2
i=1 j6=i
Ã
a2ii + σ 4 tr(A)tr(A) −
i=1
n
X
!
Ã
a2ii + 2σ 4 tr(A2 ) −
i=1
n
X
!
a2ii .
i=1
Konečně pak
n
o
0 ≤ var (Ei − IE Ei )2 = IE (Ei − IE Ei )4 − IE 2 (Ei − IE Ei )2
= µ4 − σ 4 = σ 4 (γ + 2).
©
ª
Rovnost by nastala pouze tehdy, když by var (Ei − IE Ei )2 = 0, tj. když Ei = 0 s. j., ale to
vzhledem k předpokladu σ 2 ∈ (0, ∞) nenı́ možné.
2
TVRZENÍ 2
tr (M1 · M2 ) = tr (M2 · M1 ) .
Důkaz.
m X
n
X
(1)
(2)
mkj · mjk =
k=1 j=1
n X
m
X
(2)
(1)
mjk · mkj .
j=1 k=1
2
TVRZENÍ 3 Necht’ A je idempotentnı́ matice, tj. A · A = A. Potom rank(A) = tr(A), kde
“rank” znamená hodnost.
Důkaz.Pro rank(A) = 0 je tvrzenı́ zřejmé. Necht’ rank(A) = r 6= 0, A necht’ je typu (n × n) a
B (typu (n × r)) necht’ má za sloupce bázi prostoru M(A), tj. prostoru generovaného sloupci
matice A. Nepochybně sloupce matice A jsou lineárnı́mi kombinacemi sloupců matice B, tj.
existuje matice C taková, že A = B · C. Potom B T B i CC T jsou regulárnı́, nebot’ obě jsou typu
(r × r) a kdyby jejich hodnost byla menšı́ než r, pak by také B (přı́padně C) mělo hodnost
menšı́ než r. Toto se snadno nahlédne takto: Pokud B T B nenı́ regulárnı́, pak existuje λ ∈ Rr ,
λ 6= 0 tak, že B T Bλ = 0. Pak ale také λT B T Bλ = 0, tj. (Bλ)T Bλ = 0. Potom ovšem Bλ = 0
a tedy rank(B) < r a to je spor. Stejně se to ukáže pro C. Pokud by totiž rank(C) byl menšı́
než r, pak by také rank(A) < r. Tento fakt okamžitě plyne z toho, že dimenze prostoru M(A)
je stejná jako dimenze M(AT ).
Položme D = B(B T B)−1 , E = C T (CC T )−1 . Potom DT B = Ir a CE = Ir . Dále pak máme
A = A · A = B · C · B · C = B · C a tedy po znásobenı́ zleva maticı́ DT a zprava E dostaneme
DT BCBCE = DT BCE
a tedy
Ir CBIr = Ir Ir .
38
Konečně pak
CB = Ir .
Nynı́
tr(A) = tr(BC) = tr(CB) = tr(Ir ) = r,
kde jsme využili předchozı́ tvrzenı́ a naznačovali jsme rozměr jednotkové matice.
2
TVRZENÍ 4 Je-li A pozitivně definitnı́ (semidefinitnı́), potom vlastnı́ čı́sla jsou kladná (nezáporná).
Důkaz. Připomeňme, že vlastnı́ vektory a vlastnı́ čı́sla jsou zadány rovnostı́
A · q = λq,
q 6= 0
a tedy
λkqk2 = λq T q = q T Aq > 0 (≥ 0).
TVRZENÍ 5 Necht’ A je symetrická matice. Potom vlastnı́ čı́sla jsou reálná a vlastnı́ vektory
lze zvolit reálné.
Důkaz. Necht’ q je vlastnı́ vektor, r a s necht’ je jeho reálná a imaginárnı́ část. Podobně necht’
λ je vlastnı́ čı́slo přı́slušné ke q, τ a κ necht’ je jeho reálná a imaginárnı́ část. Konečně pak necht’
v tomto důkaze i značı́ imaginárnı́ jednotku. Připomeňme, že z definice vlastnı́ho vektoru plyne,
že kqk2 > 0. Potom máme
A(r + is) = (τ + iκ)(r + is)
a porovnánı́m reálných a imaginárnı́ch části dostaneme
Ar = τ r − κs
(33)
As = τ s + κr.
(34)
a
Po vynásobenı́ zleva vztahu (33) sT a vztahu (34) rT , dostaneme
sT Ar = τ sT r − κsT s
a
rT As = τ rT s + κrT r
a odečtenı́m prvnı́ rovnosti od druhé zı́skáme dı́ky symetrii matice A rovnost
0 = κ(rT r + sT s) = κkqk2 ,
odkud plyne, že κ = 0, nebot’ kqk2 > 0. Pokud vektory r a s řešı́ vztahy (33) a (34), pak je řešı́
také r a 0.
2
TVRZENÍ 6 Necht’ matice A je typu (n × n). Potom pro libovolný vektor Z ∈ Rn , existuje
vlastnı́ vektor q ∈ M(Z, AZ, A2 Z, . . .).
39
n
o
Důkaz. Položme k0 = min k : Ak Z + bk−1 Ak−1 Z + . . . + b0 Z = 0, b ∈ Rk , kde b = (b0 , b1 , . . . ,
bk−1 )T . Nepochybně množina na nı́ž je hledáno minimum je neprázdná, nebot’ vektory Z, AZ, A2 Z,
A3 Z, . . . mohou obsahovat nejvýše n nezávislých. Odtud k0 ≤ n. Dále ukážeme, že lze psát
Ak0 Z + bk0 −1 Ak0 −1 Z + . . . + b0 Z = (A − µ1 I)(A − µ2 I) · . . . · (A − µk0 I)Z
(35)
pro libovolný vektor Z ∈ Rn . Aby to opravdu šlo, je třeba ukázat, že existujı́ µ1 , µ2 , . . . , µk0
(obecně komplexnı́ čı́sla) tak, že platı́ následujı́cı́ vztahy, které dostaneme roznásobenı́m pravé
strany (35) a porovnánı́m koeficientů u stejných mocnin matice A,
µ1 + µ2 + . . . + µk0 = bk0 −1 ,
k0 X
X
µi µj = bk0 −2 ,
i=1 j6=i
k0 X X
X
µi µj µ` = bk0 −3
i=1 j6=i `6=i,`6=j
atd. až
µ1 · µ2 · . . . · µk0 = b0 .
To, že takováto soustava rovnic má řešenı́ µ1 , µ2 , . . . , µk0 plyne okamžitě z faktu, že stejná
soustava vznikne, roznásobı́me-li pravou stranu rovnosti
tk0 + bk0 −1 tk0 −1 + . . . + b0 = (t − µ1 )(t − µ2 ) · . . . · (t − µk0 )
a porovnáme koeficienty na pravé a levé straně. Na druhé straně, to že pravá strana této rovnosti
je rozkladem levé, plyne ze známé věty o počtu kořenů polynomu. Tento počet je vždy roven
stupni polynomu a kořeny mohou být komplexnı́.
Potom ovšem
q = (A − µ2 I)(A − µ3 I) · . . . · (A − µk0 I)Z 6= 0,
(36)
nebot’ jinak by k0 nebylo minimem. Pak máme (A − µ1 I)q = 0 a tedy Aq = µ1 q, a nepochybně
q ∈ M(Z, AZ, A2 Z, . . .).
2
Povšimněme si, že vektor q je ovšem obecně komplexnı́.
TVRZENÍ 7 (Spektrálnı́ rozklad matice.) Necht’ A je reálná symetrická matice typu (m × m).
Potom existuje ortogonálnı́ reálná matice Q taková,že
QT AQ = Λ = diag {λ1 , λ2 , . . . , λm } ,
kde λ1 , λ2 , . . . , λm jsou vlastnı́ čı́sla matice A, diag {λ1 , λ2 , . . . , λm } značı́ diagonálnı́ matici typu
m × m s prvky λ1 , λ2 , . . . , λm na diagonále a
QT Q = Im .
Potom také QQT = Im , a konečně A = QΛQT .
40
Důkaz. Předpokládejme, že jsme již našli s ortogonálnı́ch vlastnı́ch vektorů matice A, tj. qiT qj =
δij pro 1 ≤ i, j ≤ s. Pokud s < m, necht’ Z⊥M(q1 , q2 , . . . , qs ). Pro libovolné r ∈ N dále máme
Z T Ar qi = Z T Ar−1 λi qi = Z T λri qi = 0
pro
1 ≤ i ≤ s.
Tedy M(Z, AZ, A2 Z, . . .)⊥M(q1 , q2 , . . . , qs ). Dle Tvrzenı́ 6 existuje
qs+1 ∈ M(Z, ZA, ZA2 , . . .),
tj. existuje dalšı́ vlastnı́ vektor, který je ortogonálnı́ k q1 , q2 , . . . , qs . Existuje tedy ortogonálnı́
matice Q, tj. QT Q = Im , tak, že
AQ = QΛ,
kde Λ je diagonálnı́ matice vlastnı́ch čı́sel. Tedy QT AQ = Λ. Pak ovšem i QQT = Im , nebot’ pro
regulárnı́ matici je levá a pravá inverze totožná, a tedy A = QΛQT .
Nynı́ ukážeme, že Q může být zvolena reálná. Necht’ do konce důkazu značı́ i opět imaginárnı́
jednotku. Z předchozı́ho tvrzenı́ vı́me, že vlastnı́ čı́sla symetrické matice jsou reálná a vlastnı́
vektory lze zvolit reálné. Pokud tedy matice A je navı́c symetrická, dostali jsme při hledánı́
prvnı́ho vlastnı́ho vektoru nějaké reálné vlastnı́ čı́slo λ1 a tento vektor, řekněme q1 jsme zvolili
reálný. Po nalezenı́ vlastnı́ho vektoru q2 kolmého ke q1 výše naznačenou indukcı́ dostaneme
obecně komplexnı́ vlastnı́ vektor q2 s vlastnı́m čı́slem λ2 , které je reálné. Označme reálnou
(R)
(I)
složku vektoru q2 symbolem q2 a imaginárnı́ složkou q2 a dostaneme
(R)
q1T (q2
(R)
Odtud q1T q2
(I)
(R)
+ iq2 ) = q1T q2
(I)
+ iq1T q2 = 0.
= 0. Navı́c faktu, že λ2 je reálné plyne, že rovněž
(R)
Aq2
(R)
= λ2 q2 ,
tj. q2 lze zvolit reálné. Indukcı́ se důkaz uzavře.
2
Povšimněme si, že pro důkaz toho, že v předchozı́m tvrzenı́ lze pro symetrickou matici zvolit
přı́slušné vlastnı́ vektory reálné, nelze použı́t Tvrzenı́ 5 přı́mo, nebot’ pak nenı́ zřejmé, zda zůstane
zachována jejich vzájemná ortogonalita.
POZNÁMKA 1 Všimněme si, že
A=
m
X
λi qi qiT .
i=1
Tomuto se řı́ká spektrálnı́ rozklad matice A.
DŮSLEDEK 2 Snadno nahlédneme, že
√
√
A = (Q Λ)D(Q Λ)T ,
np
o
√
p
p
Λ = diag
|λ1 |, |λ2 |, . . . , |λn | a kde D je diagonálnı́ matice s prvky 1,-1, nebo 0
p
√
na diagonále, tj. A = Q̃DQ̃T . Pokud A je (semi)pozitivnı́, pak samozřejmě |λi | = λi pro
všechna i a D nepotřebujeme, tj. A lze psát jako QQT , kde ovšem v přı́padě, že matice A je
semipozitivnı́ a nenı́ regulárnı́, matice Q má hodnost menšı́ než n.
kde
41
Důkaz je v podstatě zřejmý. Stačı́ si uvědomit, že diagonálnı́ matici mohu psát jako součin
třı́ diagonálnı́ch, z nichž jedna “zajišt’uje” znaménka, a dalšı́ dvě majı́ na diagonále odmocniny
absolutnı́ch hodnot diagonálnı́ch prvků původnı́ diagonálnı́ matice. Všimněme si, že dokonce
zmı́něné matice mohou být násobeny v libovolném pořadı́.
POZNÁMKA 2 Podle Tvrzenı́ 1 je γ = τ − 3, kde τ je špičatost
τ=
µ4
,
σ4
a kde µ4 je čtvrtý centrálnı́ model a σ 4 je (samozřejmě) druhá mocnina rozptylu. Někdy se za
špičatost bere hodnota γ; potom je tato nulová pro standardnı́ normálnı́ rozdělenı́.
2 reziduálnı́ součet čtverců, tj.
LEMMA 4 Označme SR
2
SR
h
= r(β̂
(LS,n)
iT
)
r(β̂
(LS,n)
)=
n
X
(Yi − xTi β̂ (LS,n) )2
i=1
2 . Předpokládejme dále, že σ 2 ∈ (0, ∞). Pokud špičatost γ = 0 nebo
a položme s2 = (n − p)−1 SR
diagonálnı́ prvky projekčnı́ matice X(X T X)−1 X T jsou konstantnı́, je s2 nejlepšı́m nestranným
odhadem rozptylu reziduı́ σ 2 mezi všemi nestrannými kvadratickými odhady.
Důkaz. Pišme
h
iT
IE s2 = (n − p)−1 IE r(β̂ (LS,n) )
µ
h
r(β̂ (LS,n) ) = IE (n − p)−1 tr
iT ¶
= (n − p)−1 IE tr r(β̂ (LS,n) ) r(β̂ (LS,n) )
µ
µh
iT
(β̂ (LS,n) )
h
¶
r(β̂ (LS,n) )
iT ¶
= (n − p)−1 tr IE r(β̂ (LS,n) ) r(β̂ (LS,n) )
³
´
= (n − p)−1 tr var(r(β̂ (LS,n) )) ,
kde var(r(β̂ (LS,n) )) je kovariančnı́ matice vektoru reziduı́ r(β̂ (LS,n) ) a poslednı́ rovnost platı́ dı́ky
tomu, že IE r(β̂ (LS,n) ) = IE (Y − X β̂ (LS,n) ) = 0, nebot’ β̂ (LS,n) je nestranným odhadem β 0 .
Protože
var(r(β̂ (LS,n) )) = σ 2 (I − X(X T X)−1 X T )
(viz Lemma 3), potřebujeme nalézt tr(I − X(X T X)−1 X T ). Vzhledem k tomu, že projekčnı́
matice X(X T X)−1 X T má hodnost p a je idempotentnı́ je tr(X(X T X)−1 X T ) = p a tedy tr(I −
X(X T X)−1 X T ) = n − p (viz Tvrzenı́ 3). Tı́m je ukázána nestrannost. To ovšem také znamená,
2 je nestranným odhadem (n − p)σ 2 .
že (n − p)s2 = SR
Nynı́ hledejme jiný nestranný kvadratický odhad veličiny (n−p)σ 2 , tj. odhad ve tvaru Y T AY ,
2 má také
kde A je některá pozitivně semidefinitnı́, tj. také symetrická matice. Připomeňme, že SR
2 = Y T (I − X(X T X)−1 X T )Y ,
tento tvar, nebot’ r(β̂ (LS,n) ) = (I − X(X T X)−1 X T )Y a tedy SR
kde matice I − X(X T X)−1 X T je idempotentnı́ a tedy pozitivně semidefinitnı́. Poznamenejme
ještě, že jsme se omezili na pozitivně semidefinitnı́ matice, abychom pro libovolné Y ∈ Rn měli
Y T AY ≥ 0, nebot’ jinak by to byl poněkud podivný odhad σ 2 . Z požadavku nestrannosti plyne,
že
h
i
³
h
i´
(n − p)σ 2 = IEβ 0 Y T AY = IE tr(AY Y T ) = tr AIE Y Y T
42
h
i
= tr A(Xβ 0 [β 0 ]T X T + σ 2 I) = [β 0 ]T X T AXβ 0 + σ 2 tr(A),
(37)
nebot’
i
h
h
IE Y Y T = IE (Xβ 0 + E)(Xβ 0 + E)T = IE Xβ 0 [β 0 ]T X + EXβ 0 + Xβ 0 E T + EE T
i
= Xβ 0 [β 0 ]T X + σ 2 I.
Protože výsledek ve vztahu (37) nesmı́ záviset na hodnotě β 0 (které neznáme), je nutně X T AX =
0 a tr(A) = n − p. Protože matice A je pozitivně semidefinitnı́, je možné ji psát jako QQT . Pak
ovšem X T QQT X = 0 a tedy také QT X = 0 a konečně QQT X = 0, tj. AX = 0. To však
okamžitě implikuje
Y T AY = (Xβ 0 + E)T A(Xβ 0 + E) = E T AE.
Nynı́
n
o
var Y T AY
"
=σ
4
γ
n
o
= var E T AE = IE (E T AE)2 − IE 2 (E T AE)
n
X
#
a2ii
2
+ (tr(A)) + 2tr(A ) − σ 4 (n − p)2
i=1
"
= σ4 γ
n
X
2
#
a2ii + 2tr(A2 ) ,
(38)
i=1
kde aii , i = 1, 2, . . . , n jsou diagonálnı́ prvky matice A. Označme M = I − X(X T X)−1 X T a
pišme A = M + D. Pak
tr(D) = 0
(39)
a protože M X = 0, je rovněž DX = 0 a samozřejmě D = DT . Odtud
h
i
M D = I − X(X T X)−1 X T D = D.
Dále
A2 = (M + D)(M + D) = M + M D + DM + D2 = M + 2D + D2 ,
tj. tr(A2 ) = n−p+2tr(D)+tr(D2 ) = n−p+tr(D2 ), nebot’ tr(D) = 0. Budeme-li nynı́ pokračovat
v (38), dostaneme
(
T
var(Y AY ) = σ
4
γ
n h
X
m2ii
2
)
i
+ 2mii dii + dii
2
+ 2(n − p) + 2tr(D )
i=1
(
=σ
4
γ
n
X
)
m2ii
+ 2(n − p) + σ 4 c,
(40)
i=1
kde opět mii a dii , i = 1, 2, . . . , n jsou diagonálnı́ prvky matic M a D. Prvnı́ člen v (40)
představuje var(Y T M Y ) a je nezávislý na volbě matice D. Konečně pak
c=γ
n n
X
o
d2ii + 2mii dii + 2tr(D2 ).
i=1
Stačı́ tedy zkoumat to, jaká volba matice D vede k minimu v (40).
43
Pokud γ = 0 (což nastane např. jsou-li rezidua normálně rozdělena) nastane minimum pokud
tr(D2 ) = 0. Protože však
n
D
P
2
o
k`
=
n
X
dkj dj` ,
j=1
P
plyne z tr(D2 ) = nk=1 nj=1 d2kj = 0 také D = 0.
Pokud je mii = const = m (a tedy m = n−p
n ), je
c=γ
( n
X
i=1
d2ii
(n − p)tr(D)
+2
n
)
+2
n X
n
X
d2ij ,
i=1 j=1
kde ovšem tr(D) = 0 (viz (39)) a tedy
c = (γ + 2)
n
X
d2ii + 4
i=1
n X
n
X
d2ij .
i=1 j=i+1
Protože γ ≥ −2 je prvnı́ i druhý člen pravé strany poslednı́ho výrazu nezáporný a tedy minimum
nastane opět pro D = 0. Pak ovšem A = M .
2
Dřı́ve než postoupı́me k výkladu otevı́rajı́cı́mu cestu k interpretaci a základnı́ diagnostice
výsledků regresnı́ analýzy, shrňme některá fakta, se kterými jsme se již seznámili.
Na začátku této kapitoly jsme uvedli Podmı́nky A, při platnosti kterých je odhad metodou
nejmenšı́ch čtverců nejlepšı́m nestranným lineárnı́m odhadem, tj. tento odhad má nejmenšı́
rozptyl mezi všemi lineárnı́mi odhady. Ukázali jsme však také, že omezenı́ se na lineárnı́ odhady
je drastické. Nechceme-li se tedy omezit na třı́du lineárnı́ch odhadů a chceme-li, aby náš odhad,
tj. odhad metodou nejmenšı́ch čtverců byl akceptovatelný i v rámci třı́dy všech nestranných
odhadů, musı́me jej použı́vat jen v přı́padech, kdy náhodné fluktuace v modelu jsou rozděleny
normálně. Budeme tedy i normalitu disturbancı́ považovat za jeden ze základnı́ch předpokladů
regresnı́ analýzy prováděné metodou nejmenšı́ch čtverců.
Jak jsme se již zmı́nili v úvodu, v přı́padě, kdy vysvětlujı́cı́ proměnné jsou náhodné veličiny,
může statistická závislost mezi nimi a fluktuacemi způsobit, že odhad metodou nejmenšı́ch
čtverců bude vychýlený a nekonsistentnı́. Pokud budeme tedy realizovat regresnı́ analýzu v
situaci, kdy je adekvátnějšı́ považovat vysvětlujı́cı́ proměnné za náhodné veličiny než za deterministicky dané vektory, měli bychom k základnı́m předpokladům regresnı́ analýzy dodat
předpoklad o statistické nezávislosti vysvětlujı́cı́ch proměnných a náhodných fluktuacı́. A diagnostikovat jeho splněnı́.
4
4.1
DIAGNOSTIKA ODHADU REGRESNÍHO MODELU
Rozdělenı́ kvadratických forem
Kvadratickou formou se rozumı́ QF : Rn → R, která má tvar QF (t) = tT At, kde A je některá
symetrická matice typu (n × n) a t ∈ Rn (pro některé n ∈ N ).
LEMMA 5 Každou kvadratickou formu lze převést na kvadratickou formu obsahujı́cı́ jen čtverce
proměnných.
44
POZNÁMKA 3 Uvedené lemma přirozeně neřı́ká, že obecně lze kvadratickou formu transformavat tak, aby byla součtem čtverců původnı́ch proměnných, naopak transformovaná kvadratická
forma bude obsahovat proměnné v jiné souřadné soustavě.
Důkaz (Lemmatu 5). Z Důsledeku 2 okamžitě plyne, že
QF (t) = tT At = tT QDQT t,
kde diagonálnı́ matice D má na diagonále jedničky, minus jedničky nebo nuly. Přirozeně počet
nenulových diagonálnı́ch prvků je roven hodnosti matice A. Navı́c Tvrzenı́ 7 a Důsledek 2
napovı́dajı́, že matice Q byla zkonstruována z vlastnı́ch vektorů matice A, tj. Q = q1 , q2 , . . . , q` , 0, . . . , 0),
kde ` je hodnost matice A. Definujme nové proměnné vztahem z = QT t. Potom
T 2
T 2
T 2
QF (z) = z T Dz = +
− (q1 t) +
− (q2 t) +
− ... +
− (q` t) .
2
LEMMA 6 (Fisher-Cochran) Necht’ t(ω) ∈ Rn a L(ti ) = N (µi , 1) i = 1, 2, . . . , n. Dále necht’
QFi (t) = tT (ω)Ai t(ω), i = 1, 2, . . . , k, rank(Ai ) = ni . Označme ještě µ = (µ1 , µ2 , . . . , µn )T , a
necht’
tT (ω)t(ω) = QF1 (t) + QF2 (t) + . . . + QFk (t).
(41)
Potom QFi (t) jsou navzájem nezávislé a L(QFi (t)) = χ2 (ni , κi ) s κi = µT Ai µ, právě když
Pk
Pn
Pk
2
i=1 ni = n. Potom navı́c
i=1 µi =
j=1 κj .
Důkaz. Aplikujeme-li předchozı́ lemma dostaneme
T
2
T
2
T
2
QFi = +
− (q(i)1 t) +
− (q(i)2 t) +
− ... +
− (q(i)ni t) ,
kde Ai = Q(i) D(i) QT(i) s
n
o
n
Q(i) = q(i)1 , q(i)2 , . . . , q(i)ni
a
o
D(i) = diag d(i)1 , d(i)2 , . . . , d(i)ni , 0, . . . , 0 ,
kde “diag” bylo opět použito pro diagonálnı́ matici, která má na diagonále prvky, které jsou
vyjmenované v závorce. V našem přı́padě to jsou d(i)j = +
− 1. Dı́ky tomu, že předpokládáme,
T t) = N (ν , τ 2 ) pro některá ν a τ 2 . Nynı́ budeme
že vektor t je normálně rozdělen, máme L(q(i)j
ij ij
ij
ij
P
předpokládat, že ki=1 ni = n a ukážeme, že kvadratické formy jsou nezávislé a majı́ přı́slušná
χ2 rozdělenı́. Označme
Q = (q(1)1 , q(1)2 , . . . , q(1)n1 , q(2)1 , . . . , q(2)n2 , . . . , q(k)1 , . . . , q(k)nk )
a
n
D = diag
o
+
− 1, +
− 1, . . . , +
− 1 ,
kde byla znaménka přirozeně vybrána tak, aby to odpovı́dalo “polaritě” diagonálnı́ch prvků v
maticı́ch D(1) , D(2) , . . . , D(k) , tj. znaménkům vlastnı́ch čı́sel odpovı́dajı́cı́ch vlastnı́ch vektorů.
Potom máme
tT t =
k
X
tT Q(i) D(i) QT(i) t = tT QDQT t.
i=1
45
(42)
Vztah (42) musı́ přirozeně platit pro všechna t ∈ Rn , nebot’ normálně rozdělená náhodná veličina
může nabývat libovolné hodnoty. To implikuje In = QDQT a také rank(Q) = n, tj. Q je
regulárnı́. Rozpomeneme-li se, že regulárnı́ matice má stejnou pravou a levou inverznı́ matici,
£
¤T
¡
¢T
¡
¢T
dostáváme I = Q · Q−1 = Q−1 · QT a to řı́ká, že Q−1 je inverznı́ maticı́ ke QT , tj.
(QT )−1 = (Q−1 )T . Konečně tedy D = Q−1 In (Q−1 )T . Z toho plyne, že D je pozitivně definitnı́
a konečně D = In . To však implikuje, že In = QQT a tedy Q je orthogonálnı́ a pak také
QT Q = In . Proved’me transformaci náhodných veličin z(ω) = QT t(ω) a využijme předpokladu
L(ti ) = N (µi , 1). Z orthogonality matice Q a normality t okamžitě zjistı́me, že z(ω) má nezávislé
souřadnice a
L(z) = N (QT µ, I).
Necht’ j, 1 ≤ j ≤ k je libovolné. Snadno nahlédneme, že
T
T
T
QFj (t) = (q(j)1
t)2 + (q(j)2
t)2 + . . . + (q(j)n
t)2 = Σ(j) zl2 ,
j
(43)
kde z kontextu je patrné, přes které vybrané souřadnice vektoru z se sčı́tá v poslednı́ sumě.
Snadno se rovněž ověřı́,a patrně je to vidět na prvnı́ pohled, že pro kvadratické formy QFj (t) a
QFk (t) pro j 6= k, jsou souřadnice vstupujı́cı́ do sum Σ(j) zl2 a Σ(k) zl2 různé. To ovšem implikuje
nezávislost těchto kvadratických forem. Konečně pak ze vztahu z (43) plyne, že L(QFj (t)) =
χ2 (nj , κj ), kde
κj =
nj
X
T
(q(j)`
µ)2 = µT Q(j) D(j) QT(j) = µT A(j) µ
`=1
a tedy
k
X
j=1
κj =
nj
k X
X
T
(q(j)`
µ)2 = µT QQT µ = µT Iµ.
j=1 `=1
Dokazujme nynı́ tvrzenı́ opačným směrem, tj. předpokládejme, že QF(j) (t), 1 ≤ j ≤ k jsou
P
P
nezávislé a majı́ χ2 (nj , κj ) rozdělenı́. Potom ovšem má jejich součet χ2 ( kj=1 nj , kj=1 κj ) .
Vzhledem k tomu, že na levé straně (41) stojı́ tT (ω)t(ω), má při předpokladech tohoto lemmatu
P
χ2 (n, κ) a tedy kj=1 nj = n.
2
4.2
Rozdělenı́ odhadu rozptylu náhodných fluktuacı́ a studentizovaných odhadů
regresnı́ch koeficientů
LEMMA 7 Necht’ {Ei }∞
i=1 je posloupnost nezávislých normálně rozdělených náhodných veličin
2 · σ −2 ) = χ2 (n − p).
s IE Ei = 0, IE Ei2 = σ 2 ∈ (0, ∞). Potom L(SR
Důkaz. Předpokládaná normalita fluktuacı́ implikuje normalitu vysvětlované veličiny, tj.
L(Y ) = N (Xβ 0 , σ 2 I). Snadno se ověřı́ rovnost
n
σ −2 Y T Y = σ −2 (Y − Ŷ + Ŷ )T (Y − Ŷ + Ŷ ) = σ −2 (Y − Ŷ )T (Y − Ŷ ) + Ŷ T Ŷ
n
= σ −2 Y T (I − X(X T X)−1 X T )Y + Y T X(X T X)−1 X T Y
o
o
2.
kde prvnı́ člen druhého řádku reprezentuje Y T (I − X(X T X)−1 X T )Y = (Y − Ŷ )T (Y − Ŷ ) = SR
Položme A1 = I − X(X T X)−1 X T a A2 = X(X T X)−1 X T a ověřme, že rank(A1 ) = n − p
46
a rank(A2 ) = p. Argumenty pro toto tvrzenı́ jsou následujı́cı́: Obě matice jsou projekčnı́ a
tedy idempotentnı́, A2 má evidentně hodnost p, nebot’ jsme předpokládali plnou hodnost u
matice plánu X; pak je ovšem trace(A2 ) = p a tedy A1 má stopu rovnou n − p; konečně pak
rank(A1 ) = n − p. Aplikace Fisher-Cochranova lemmatu na kvadratické formy zadané maticemi
2 σ −2 je rozdělen dle χ2 (n − p) a
A1 a A2 pak dává tento výsledek: Reziduálnı́ součet čtverců SR
je nezávislý na kvadratické formě σ −2 Ŷ T Ŷ .
2
VĚTA 2 Necht’ {Ei }∞
i=1 je opět posloupnost nezávislých normálně rozdělených náhodných veličin
s IE Ei = 0 a var(Ei ) = σ 2 ∈ 0, ∞). Potom L(β̂ (LS,n) − β 0 ) = N (0, σ 2 (X T X)−1 ). Položme
−1
³
(LS,n)
t̂i (ω) = s−1 cii 2 β̂i
´
(ω) − βi0 ,
i
h
kde cii = (X T X)−1
volnosti).
ii
. Potom L(t̂i ) = tn−p (tj. t̂i je rozděleno jako Studentovo t o n−p stupnı́ch
Důkaz. Použijeme-li základnı́ vztah zadávajı́cı́ lineárnı́ model (viz (1)) a dosadı́me-li jej do
“vzorce” pro odhad metodou nejmenšı́ch čtverců, dostaneme
β̂ (LS,n) = (X T X)−1 X T Y = (X T X)−1 X T (Xβ 0 + E)
= β 0 + (X T X)−1 X T E,
tj. β̂ (LS,n) − β 0 = (X T X)−1 X T E, a tedy L(β̂ (LS,n) − β 0 ) = N (0, Σ), kde
³
Σ = IE
½h
= IE
T
−1
(X X)
= (X T X)−1 X T IE
µ
To znamená, že L
−1
(X X)
½h
= IE
T
β̂ (LS,n) − β 0 )
−1
σ −1 cii 2
T
X Y −β
T
0
0
´³
ih
ih
X (Y − Xβ )
−
βi0
´¶
−1
T
−1
(X X)
(Y − Xβ 0 )(Y − Xβ 0 )T
(LS,n)
β̂i
T
(X X)
n
³
´T
β̂ (LS,n) − β 0 )
oh
T
X Y −β
0
T
iT ¾
0
iT ¾
X (Y − Xβ )
(X T X)−1 X T
iT
= σ 2 (X T X)−1 .
= N (0, 1). Důsledek 1 řı́ká, že β̂ (LS,n) nezávislý na
reziduı́ch r(β̂ (n) ) = Y − Ŷ . Uvážı́me-li, že reziduálnı́ součet čtverců je naopak čtvercem normy
h
iT
2 = r(β̂ (n) )
2 jsou nezávislé. Navı́c dle
vektoru reziduı́, tj. SR
r(β̂ (n) ), zjistı́me, že β̂ (LS,n) a SR
2 ) = χ2 (n − p). Dokončenı́ důkazu plyne okamžitě z definice Studentova
Lemmatu 7 je L(σ −2 SR
t rozdělenı́ o n − p stupnı́ch volnosti, které může být symbolicky zapsáno jako
N (0, 1)
[(n −
p)−1 χ2 (n
1
− p)]− 2
.
2
Poznamenejme, že v právě dokázané větě jsme mohli, dı́ky předpokladu o normalitě náhodných
fluktuacı́, vyslovit tvrzenı́ o rozdělenı́ rozdı́lu β̂ (LS,n) −β 0 bez jakékoliv normalizace (na rozdı́l od
tvrzenı́ z Lemmatu 2). To přirozeně neznamená, že by rozdı́l β̂ (LS,n) −β 0 při splněnı́ předpokladů
předchozı́ věty nekonvergoval k 0 ∈ Rp , tj. nebyl konsistentnı́. Naopak odtud plyne, že kovariančnı́ matice odhadu β̂ (LS,n) konverguje k nulové matici.
47
DŮSLEDEK 3 Za předpokladů předchozı́ věty má náhodná veličina
³
´T
³
β̂ (LS,n) − β 0 )
´
X T X β̂ (LS,n) − β 0 ) n − p
2
p
SR
(44)
Fisher-Snedecorovo rozdělenı́ Fp,n−p .
Důkaz. Použitı́m Tvrzenı́ 7 nalezneme orthogonálnı́ matici L a diagonálnı́ matici D tak,
že D = LT (X T X)−1 L, a vı́me, že na diagonále matice D stojı́ vlastnı́ čı́sla matice (X T X)−1 .
Orthogonalita matice L umožňuje přepsat tento vztah do tvaru
LD−1 LT = X T X.
(45)
Pozitivnı́ definitnost matice (X T X)−1 implikuje navı́c to, že jsou všechna jejı́ čı́sla kladná. Necht’
tedy matice D̃ je diagonálnı́ matice, která má na diagonále převrácené hodnoty odmocnin z
těchto čı́sel (v pořadı́ odpovı́dajı́cı́m matici
D, přirozeně).
Pak ovšem D̃T LT (X T X)−1 LD̃ = Ip .
³
´
Označme H = LD̃ a položme ξ = H T β̂ (LS,n) − β 0 ) . Je zřejmé, že střednı́ hodnota vektoru ξ
je nulová a úpravou výše uvedených vztahů dostaneme
³
Σξ = IE ξξ T = IE H T β̂ (LS,n) − β 0
´³
β̂ (LS,n) − β 0
´T
H
σ 2 H T (X T X)−1 H = σ 2 Ip .
To ovšem napovı́dá, že souřadnice vektoru σ −1 ξ jsou nekorelované a každá je rozdělena dle
N (0, 1). To pak implikuje, že náhodná veličina σ −2 ξ T ξ je rozdělena dle χ2 (p) a navı́c, jak bylo
2 , přičemž rovněž z důkazu předchozı́
např. ukázáno v důkaze předchozı́ věty, je nezávislá na SR
2 ) = χ2 (n − p). Pokud se nám podařı́ ukázat, že
věty vı́me, že L(σ −2 SR
³
σ −2 ξ T ξ = β̂ (LS,n) − β 0
´T
³
´
(X T X) β̂ (LS,n) − β 0 ,
bude důkaz téměř dokončen. Provedeme to s použitı́m (45).
³
σ −2 ξ T ξ = σ −2 β̂ (LS,n) − β 0
³
= σ −2 β̂ (LS,n) − β 0
³
= β̂ (LS,n) − β 0
³
= β̂ (LS,n) − β 0
³
´T
´T
³
HH T β̂ (LS,n) − β 0
³
H · Ip · H T β̂ (LS,n) − β 0
´
´
³
H · H T (X T X)−1 H · H T β̂ (LS,n) − β 0
³
´
LD̃D̃T LT (X T X)−1 LD̃D̃T LT β̂ (LS,n) − β 0
= β̂ (LS,n) − β 0
³
´T
´T
´T
³
LD−1 DD−1 LT β̂ (LS,n) − β 0
= β̂ (LS,n) − β 0
´T
³
´
´
´
(X T X) β̂ (LS,n) − β 0 .
K úplnému dokončenı́ důkazu stačı́ připomenout definici Fisher-Snedecorova Fp,n−p , která může
být symbolicky vyjádřena takto
χ2 (p) (n − p)
.
χ2 (n − p)
p
2
48
4.3
Koeficient determinace
Po té, co odhadneme některý regresnı́ model, je třeba posoudit, zda tento je či nenı́ “statisticky relevantnı́” pro vysvětlenı́ dat. Výše uvedená teorie nám umožňuje, sice za dosti silného
předpokladu normality disturbancı́, nicméně umožňuje, otestovat signifikantnost jednotlivých
koeficientů modelu. A až budeme mluvit o výstupech z přı́slušných softwarových produktů
připomeneme si tuto možnost.
Na druhé straně bychom rádi posoudili odhad modelu jako celek. Patrně nenı́ sporu o tom,
že hlavnı́ informacı́ o tom, zda model byl navržen rozumně v sobě nesou rezidua. Budeme
předpokládat, přičemž nechme na okamžik stranou jak dalece je to realistické, že jsou tato
rozdělena normálně. Připomeňme si ze základnı́ho kurzu statistiky, že součet čtverců nezávislých
stejně normálně rozdělených náhodných veličin je jednou ze (dvou) složek postačujı́cı́ statistiky.
To je důvod, proč je jedna z nejjednoduššı́ch charakteristik “adekvátnosti” modelu, totiž koeficient determinace, založen na součtu čtverců reziduı́. Později ukážeme, že jeho role by neměla být
přeceňována. Podobně jako jiné statistické testy, i tento hypotézu o adekvátnosti modelu “pouze”
nezamı́tá, tj. pokud je hodnota koeficientu determinace vysoká (a projde-li přı́slušným testem)
řı́ká to, že daný model nelze zamı́tnout, ale je to ještě daleko závěru, že model je rozumný. Abychom nabyli alespoň rozumného stupně vı́ry v to, že náš odhad modelu je přijatelný, je nezbytné
přinejmenšı́m provést řadu dalšı́ch testů a aposteriornı́ch diagnostických úkonů. Ani pak však
bez použitı́ cele škály robustnı́ch procedůr nemůžeme zaručit, že nelze nalézt, v jakémsi smyslu
- např. ve smyslu velikosti součtu čtverců reziduı́ “většiny” pozorovánı́, (mnohem) lepšı́ model.
DEFINICE 1 Necht’ model obsahuje absolutnı́ člen. Pak položme R02 =
P
Ȳ = n−1 ni=1 Yi . Koeficientem determinace rozumı́me
R2 =
2
R02 − SR
.
R02
Pokud model neobsahuje absolutnı́ člen, položme R02 =
opět rozumı́me (46).
Pn
i=1 (Yi
− Ȳ )2 , kde
(46)
Pn
2
i=1 Yi .
Koeficientem determinace pak
Heuristika stojı́cı́ v podazı́ definice koeficientu determinace je zřejmá a velmi přı́močará.
Pokud je totiž náš model “adekvátnı́” (“relevantnı́”, “rozumný” atd. jak sami chcete) pro
vysvětlenı́ dat, je reziduálnı́ součet čtverců malý v porovnánı́ s R02 a tedy hodnota koeficientu
determinace je blı́zká k 1. Jestliže tedy náš model dobře “vystihne” variabilitu vysvětlované
proměnné, tj. rezidua budou mı́t jen malou variabilitu, je koeficient determinace vysoký. V
opačném přı́padě, je-li model “neadekvátnı́”, bude reziduálnı́ součet čtverců srovnatelný s R02 a
koeficient determinace bude blı́zko k nule. Nenechme se však mýlit, že lze jednotně, tj. pro různé
oblasti použitı́ regresnı́ho modelu udat, co to znamená, že je koeficient determinace dostatečně
velký. Často se uvádı́, že technické či přı́rodovědné modely či obecněji modely v exaktnı́ch
vědách, by měly mı́t R2 > 0.6. V humanitnı́ch oborech jsou však často akceptovány i modely s
R2 = 0.2. V ekonomické literatuře, tj. v oboru který ležı́ někde mezi “exaktnı́mi” a humanitnı́mi,
naleznete např. výrok: “William F. Sharpe [1985, p. 167] notes that for an individual company
a typical R2 measure from a Capital Asset Pricing Model equation is about 0.3 but that as one
diversifies across companies” assets into a larger portfolio, the R2 measure increases, owing to
the reduction of specific risk through diversification” (viz Berndt (1990), p. 40).
49
Zamysleme se nad touto situaci ještě při trochu jiném úhlu pohledu. R2 totiž představuje
(mnohonásobný) korelačnı́ koeficient mezi vysvětlovanou a vysvětlujı́cı́mi proměnnými; nejlépe
je to vidět při jednoduché regresi, viz např. Anděl (1978). Ani mezi statistiky však nenı́ obecně
známo, že pokud pro dvourozměrnou normálně rozdělenou náhodnou veličinu budeme kreslit množinu bodů, ve kterých je sdružená hustota rovna některému pevně zvolenému čı́slu,
dostaneme elipsu výrazněji se lišı́cı́ od kružnice až právě pro hodnoty ρ = 0.6 či 0.7. To napovı́dá,
že vazba mezi vysvětlovanou a vysvětlujı́cı́mi proměnnými je dosti slabá, je-li R2 < 0.6.
Naznačená heuristika rovněž napovı́dá, proč je koeficient determinace počı́tán jednou tak, že
porovnáváme naš model s modelem
Yi = Ȳ + Ei ,
i = 1, 2, . . . , n
a podruhé porovnáváme odhadnutý model s modelem
Yi = Ei ,
i = 1, 2, . . . , n
(viz rovněž Lemma 8).
V dalšı́m textu budeme uvažovat model s absolutnı́m členem, pro model bez absolutnı́ho
členu by se uváděná tvrzenı́ snadno modifikovala. Upozorněme snad ještě na “záludnost”, která
vzniká tı́m, že některé počı́tačové statistické knihovny počı́tajı́ R2 automaticky dle prvnı́ či
druhé definice v závislosti od toho, zda byl odhadován model s absolutnı́m členem či bez absolutnı́ho členu. Pak občas nastává “absurdnı́” situace, kdy model s absolutnı́m členem se zdá být
hůře determinován než model bez něj. Ještě se o takovýchto “naschválech” zmı́nı́me až budeme
diskutovat výstupy z počı́tačových knihoven.
TVRZENÍ 8 Pro koeficient determinace platı́
R2 =
kY − 1Ȳ k2
(Y − 1Ȳ )T (Y − 1Ȳ )
=
,
2
R0
kY − 1Ȳ kkŶ − 1Ȳ k
kde 1 = (1, 1, . . . , 1)T .
Důkaz. Položme ν = (n−1 , n−1 , . . . , n−1 )T a 1 = (1, 1, . . . , 1)T . Pak máme
R02 = kY − 1Ȳ k2 =
n n
X
o
Yi2 − 2Ȳ Yi + Ȳ 2 = kY k2 − k1Ȳ k2
(47)
i=1
a
³
kŶ − 1Ȳ k2 = kX(X T X)−1 X T Y − 1ν T Y k2
= Y T X(X T X)−1 X T − 1ν T
´³
´
X(X T X)−1 X T − 1ν T Y
= Y T X(X T X)−1 X T X(X T X)−1 X T Y − 2Y T X(X T X)−1 X T 1ν T Y + nȲ 2
= kŶ k2 − 2Y T 1νY + nȲ 2 = kŶ k2 − k1Ȳ k2 .
Při úpravách jsme použili fakt, že X(X T X)−1 X T 1 = 1. Ten plyne z toho, že 1 ∈ M(X) a tedy
projekce vektoru 1 je opět vektor 1. Navı́c
kY k2 = (Y − Ŷ )T (Y − Ŷ ) + Ŷ T Ŷ = kY − Ŷ k2 + kŶ k2
50
a konečně
kY − 1Ȳ k2 = kY k2 − k1Ȳ k2 = kY − Ŷ k2 + kŶ k2 − k1Ȳ k2
= kY − Ŷ k2 + kŶ − 1Ȳ k2 ,
tj.
2
R02 − SR
= kŶ − 1Ȳ k2 .
(48)
To uzavı́rá důkaz prvé části tvrzenı́. Podotkněme však, že toto lze snadněji nahlédnout geometricky. Vı́me, že Ŷ je projekcı́ Y do prostoru M(X), ve kterém ležı́ také 1 a 1Ȳ je projekcı́ Y do
prostoru M(1), který je podprostorem prostoru M(X). To znamená, že 1Ȳ je také projekcı́ Ŷ
do prostoru M(1). Suma sumarum, kY − 1Ȳ k2 je přepona pravoúhlého trojúhelnı́ka, ve kterém
jsou odvěsnami kŶ − 1Ȳ k2 a kY − Ŷ k2 . Aplikacı́ Pythagorovy věty pak dostaneme
kY − Ŷ k2 + kŶ − 1Ȳ k2 = kY − 1Ȳ k2 .
(49)
Připomeňme ještě, že ve výše zmı́něnému pravoúhlému trojúhelnı́ku poměr délky přilehlé odvěsny
ku přeponě dává kosinus přı́slušného úhlu. Pak ovšem dostaneme
"
kŶ − 1Ȳ k
R =
kY − 1Ȳ k
#2
2
= cos2 α,
kde prvá rovnost plyne z (48) a (49). Označı́me-li ještě α úhel mezi Ŷ −1Ȳ a Y −1Ȳ , plyne druhá
z právě provedených úvah. K dokončenı́ si stačı́ vzpomenout, že čtverec kosinu úhlu mezi dvěma
vektory dostaneme jako jejich skalárnı́ součin, pokud tyto vektory majı́ jednotkovou délku, tj.
h
R2 = (Ŷ − 1Ȳ )kŶ − 1Ȳ k−1
iT
· (Y − 1Ȳ )kY − 1Ȳ k−1 .
2
POZNÁMKA 4 Tvrzenı́ 8 bylo uvedeno proto, že v některých pramenech bývajı́ uvedeny alternatı́vnı́ definice koeficientu determinace a na prvnı́ pohled nemusı́ být patrné, zda jsou všechny
ekvivalentnı́.
Je celkem přirozené, že hodnota koeficientu determinace dobře posloužı́ k prvému náhledu
toho, jak model dobře vystihuje data. Na druhé straně bychom nepochybně chtěli pomoci
nějakého statistického testu stanovit, zda mı́ra “vystiženı́” je statisticky signifikantnı́ či nikoliv.
DEFINICE 2 Necht’ R2 je koeficient determinace. Pokud model obsahuje absolutnı́ člen, položme
F =
R2
n−p
·
,
1 − R2 p − 1
pokud absolutnı́ člen v modelu nenı́ mějme
F =
R2
n−p
·
.
2
1−R
p
F se obvykle označuje jako Fisher-Snedecorovo F (v regresi; stejné označenı́ se použı́vá pro
náhodnou veličinu, jejı́ž definici vzápětı́ připomeneme).
51
V dalšı́m lemmatu budeme potřebovat náhodnou veličinu, která bývá označována jako
Fisher-Snedecorovo F`,k . Tato veličina se dostane jako podı́l dvou nezávislých náhodných veličin,
rozdělených dle χ2 -rozdělenı́ a normovaných přı́slušnými stupni volnosti, tj. symbolicky psáno
F`,k =
χ2 (`)
k
· 2 .
`
χ (k)
LEMMA 8 Necht’ fluktuace v modelu (3) jsou rozděleny dle N (0, σ 2 I). Pokud model neobsahuje
absolutnı́ člen a IE Y = 0, potom F je rozděleno jako Fp,n−p , tj. jako Fisher-Snedecorovo F s p a
n − p stupni volnosti. Pokud model absolutnı́ člen obsahuje a IE Y = γ · 1, potom je F rozděleno
jako Fp−1,n−p .
Důkaz. Důkaz bude proveden jen pro druhý přı́pad, nebot’ nutné modifikace pro přı́pad
prvnı́ jsou okamžitě patrné.
Použijeme-li předpoklad, že IE Y = γ1, dostaneme Xβ 0 = γ1. Navı́c
h
i
h
i
Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T − N Y + Y T N Y,
(50)
kde jsme symbolem N označili matici, která má všechny prvky rovné n−1 . Výpočtem ověřı́me, že
N N = N . Vzhledem k tomu, že 1 ∈ M(X), je také X(X T X)−1 X T 1 = 1 a navı́c X(X T X)−1 X T N =
N . To umožňuje ověřit, že
h
X(X T X)−1 X T − N
ih
i
X(X T X)−1 X T − N = X(X T X)−1 X T − N ,
a tedy rank(X(X T X)−1 X T − N ) = tr(X(X T X)−1 X T − N ) = p − 1. Již výše jsme několikrát
použili fakt, že
rank(I − X(X T X)−1 X T ) = tr(I − X(X T X)−1 X T ) = n − p.
Aplikace Fisher-Cochranova lemmatu dává
³
h
i
´
³
h
i
´
L Y T I − X(X T X)−1 X T Y
a
L Y T X(X T X)−1 X T − N Y
s
h
i
= χ2 (n − p, λ(1) )
= χ2 (p − 1, λ(2) )
h
i
λ(1) = µT I − X(X T X)−1 X T µ = [β 0 ]T X T I − X(X T X)−1 X T Xβ 0 = 0
(na tuto rovnost nenı́ třeba hypotézy Xβ 0 = γ1) a
h
i
h
i
λ(2) = µT X(X T X)−1 X T − N µ = [β 0 ]T X T X(X T X)−1 X T − N Xβ 0
h
i
= γ 2 1T X(X T X)−1 X T − N 1 = 0.
Fisher-Cochranovo lemma navı́c umožňuje tvrdit, že jsou tyto dvě kvadratické formy nezávislé.
Pak již stačı́ uvážit rovnost
2
2
R02 − SR
R02 − SR
R02
R2
=
=
.
·
2
2
2
2
2
1 − R2
R0
R0 − R0 + SR
SR
52
K dokončenı́ důkazu pak vezměme v úvahu ten fakt, že Ŷ je projekcı́ Y do prostoru M(X) a
1Ȳ je projekcı́ jak Y tak Ŷ do prostoru M(1). Z něj plyne, že
h
i
2
R02 − SR
= (Ŷ − 1Ȳ )T (Ŷ − 1Ȳ ) = Y T X(X T X)−1 X T − N Y
a podobně
h
i
2
SR
= Y T I − X(X T X)−1 X T Y,
(51)
přičemž poslednı́ a předposlednı́ rovnost se např. snadno ověřı́ užitı́m idempotentnosti přı́slušných
matic.
K důkaz pro model bez absolutnı́ho členu je třeba psát (50) ve tvaru
h
i
Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T Y
a uvědomit si, že např. opět z geometrické představy a z faktu, že nynı́ R02 = Y T Y , plyne, že
2
R02 − SR
= Y T X(X T X)−1 X T Y
a že tato kvadratická forma má χ2 -rozdělenı́ o p stupnı́ch volnosti.
4.4
2
Intervaly a pásy spolehlivosti
Při použitı́ diagnostických grafů, občas však i při jiných procedurách, např. z oblasti základnı́
popisné statistiky, se stane, že kromě přı́mky naznačujı́cı́ regresnı́ vztah jedné veličiny na druhé,
se na obrazovce objevı́ také jakési křivky, a podı́váme-li se do manuálu nalezneme tam vysvětlenı́,
že se jedná o 95% pás či interval spolehlivosti. Samozřejmě, že úroveň spolehlivost může být v
různých počı́tačových knihovnách různá, dokonce někdy i nastavitelná. Obvykle však v manuálu
marně pátráme po vysvětlenı́, jak byly tyto křivky zı́skány. Následujı́cı́ výklad ukazuje, že
záležitost pásu spolehlivosti nenı́ až tak jednoduchá, abychom ji přešli bez podrobnějšı́ho výkladu.
Interval spolehlivosti pro jednotlivé souřadnice vektoru regresnı́ch koeficientů lze nalézt
použitı́m Věty 2. Z nı́ totiž plyne, že intervalem
µ
(LS,n)
β̂i
¶
1
α
α
(LS,n)
− scii tn−p (1 − ), β̂i
+ scii2 tn−p (1 − ) ,
2
2
1
2
je hodnota i-té souřadnice vektoru β 0 pokryta s pravděpodobnostı́ 1 − α. Připomı́náme, že s je
odhad rozptylu reziduı́ (viz např. Lemma 7), cii je i-tý diagonálnı́ prvek matice (X T X)−1 a
tn−p (1 − α2 ) je hornı́ α2 kvantil Studentova t.
Přirozeně, že zajı́mavějšı́ je nalezenı́ “intervalu” spolehlivosti pro všechny souřadnice vektoru
regresnı́ch koeficientů současně. Tvar takového “intervalu” může být různý, v podstatě libovolný.
V šedesátých letech se převážně studovaly rektangulárnı́ intervaly spolehlivosti (viz např. idák
(1967)), v současné době se však častěji uvažujı́ konfidenčnı́ oblasti ve tvaru (rotačnı́ch) elipsoidů.
K sestrojenı́ takového elipsoidu použijeme důsledek 3. Z něj plyne, že pro libovolné α ∈ (0, 1)
padne β̂ (LS,n) do elipsoidu
(
E=
β∈R
¡
p
:
¢T
β − β0)
¡
¢
X T X β − β0) n − p
≤ Fp,n−p (1 − α)
2
p
SR
53
)
(52)
2 je reziduálnı́ součet čtverců a F
s pravděpodobnostı́ 1 − α. Opět připomı́náme že, SR
p,n−p (1 − α)
je α-kvantil Fisher-Snedecorova F o p a n − p stupnı́ch volnosti. Jinými slovy lze tvrdit, že je-li
β̂ (LS,n) odhad regresnı́ch koeficientů, potom s pravděpodobnostı́ 1−α může β 0 být jen z množiny



³
β ∈ Rp :
´T
β̂ (LS,n) − β)


³

´


X T X β̂ (LS,n) − β) n − p
.
≤
F
(1
−
α)
p,n−p
2

p
SR

Podobně můžeme nalézt konfidenčnı́ interval pro hodnotu veličiny Yn+1 v některém bodě
xn+1 . Nejprve pro x ∈ Rp označme d2 (x) = xT (X T X)−1 x a přirozeně předpokládejme, že
Yn+1 = xTn+1 β 0 + En+1 .
Uvědomme si, že En+1 je statisticky nezávislé na β̂ (LS,n) , nebot’ tento odhad byl pořı́zen na
základě prvých n pozorovánı́ či chcete-li, budete-li uvažovat β̂ (LS,n) jako náhodnou veličinu, je
tato závislá jen na E1 , E2 , ..., En . To znamená, že náhodná veličina
³
´
Yn+1 − xTn+1 β̂ (LS,n) = xTn+1 β 0 − β̂ (LS,n) + En+1 ,
2.
má dle výše uvedených výsledků rozdělenı́ N (0, σ 2 (1 + d2 (xn+1 ))) a je statisticky nezávislá s SR
To však implikuje, že
!
Ã
Yn+1 − xTn+1 β̂ (LS,n)
= tn−p
L
1
s(1 + d2 (xn+1 )) 2
a proto interval
µ
1
xTn+1 β̂ (LS,n) − s(1 + d2 (xn+1 )) 2 tn−p (1 −
α
),
2
1
xTn+1 β̂ (LS,n) + s(1 + d2 (xn+1 )) 2 tn−p (1 −
¶
α
)
2
(53)
pokryje Yn+1 s pravděpodobnostı́ 1 − α.
Podobně snadno nalezneme, pro některé pevné xn+1 ∈ Rp , interval spolehlivosti pro xTn+1 β 0 .
Ze vztahu (53) snadno zjistı́me, že interval
µ
xTn+1 β̂ (LS,n)
¶
α
α
− sd(x)tn−p (1 − ), xTn+1 β̂ (LS,n) + sd(x)tn−p (1 − )
2
2
(54)
pokrývá xTn+1 β 0 s pravděpodobnostı́ 1 − α.
Ukážeme si ještě, jak je možné nalézt pás spolehlivosti, který současně, pro všechna x z nějaké
předem zadané oblasti, pokrývá xT β 0 s předem zvolenouu pravděpodobnostı́. Z výše uvedeného
vı́me, že β̂ (LS,n) padne do elipsoidu E (viz (52)) s pravděpodobnostı́ 1 − α. Odtud ihned plyne,
že zvolı́me-li libovolné (ale pevné) x ∈ Rp , bude s pravděpodobnostı́ 1 − α hodnota xT β̂ (LS,n)
mezi hodnotou
L(x) = inf xT β
β∈E
a hodnotou
U (x) = sup xT β.
β∈E
54
Hledejme nejprve výraz pro U (x). Podobně jako již několikrát výše, použijeme Tvrzenı́ 7. To nám
umožnı́ psát matici X T X ve tvaru QDQT , kde Q a D jsou postupně orthogonálnı́ a diagonálnı́
√
matice s kladnými prvky na diagonále. Necht’ symbol D označuje diagonálnı́ matici, která má
na diagonále odmocniny z vlastnı́ch čı́sel matice X T X, a to ve stejném pořadı́ jako stojı́ na
√
¡
¢
diagonále matice D, a položme κ = s2 pFp,n−p (1 − α). Označme ještě ξ(β) = DQT β − β 0 ) .
Dostaneme
p
³
β − β0
´T
³
´
X T X β − β 0 = ξ T (β)ξ(β) =
X
ξk2 (β),
k=1
a z (52) plyne, že pro každé β ∈ E máme
p
X
ξk2 (β) ≤ κ.
(55)
k=1
√
matici inverznı́ k diagonálnı́ matici D, tj. matici majı́cı́ na diagonále
√
převrácené hodnoty prvků stojı́cı́ch na diagonále matice D. Jednoduchým výpočtem nalezneme
Označme symbolem
√1
D
1
1
xT β = xT (β 0 + Q √ ξ) = xT β 0 + xT Q √ ξ,
D
D
(56)
což nám umožnı́ nalezenı́ sup xT β. Uvědomme si, že prvý člen pravé strany (56) (totiž xT β 0 ) je
β∈E
konstantnı́, a tedy maxima výrazu xT β dosáhneme, zmaximalizujeme-li xT Q √1D ξ, samozřejmě
při splněnı́ vedlejšı́ podmı́nky (55). Protože se jedná o skalárnı́ součin dvou vektorů, maxima
dosáhneme pro takové ξ, které bude násobkem vektoru √1D QT x, tj. pro ξ = λ · √1D QT x, kde
λ je třeba vybrat tak, aby platilo (55). Spočteme-li normu vektoru ξ a položı́me-li ji rovnou κ,
dostaneme
λ2 xT QD−1 QT x = λ2 xT (X T X)−1 x = κ
neboli
λ=
√
κ
.
d(x)
√
1
Vypočteme U (x) = xT β 0 + κd(x) = xT β 0 + sd(x)(pFp,n−p (1 − α)) 2 a analogickým postupem
1
též L(x) = xT β 0 − sd(x)(pFp,n−p (1 − α)) 2 . Potom ovšem nerovnosti
1
1
xT β 0 − sd(x)(pFp,n−p (1 − α)) 2 ≤ xT β̂ (LS,n) ≤ xT β 0 + sd(x)(pFp,n−p (1 − α)) 2
platı́ pro všechna x ∈ Rp s pravděpodobnostı́ 1 − α. To znamená, že konfidenčnı́ oblast s dolnı́
a hornı́ mezı́ danou vztahy
1
xT β̂ (LS,n) − sd(x) (p Fp,n−p (1 − α)) 2
a
1
xT β̂ (LS,n) + sd(x) (p Fp,n−p (1 − α)) 2
pokrývá “skutečný” model IE Y = xβ 0 s pravděpodobnostı́ 1 − α. Nenı́ bez zajı́mavosti, že tento
pás je pro každé konkrétnı́ x ∈ Rp širšı́ než interval spolehlivosti daný v (54).
Možná, že stojı́ za explicitnı́ zdůrazněnı́ fakt, který umožnil nalezenı́ pásu spolehlivosti
pro všechna x ∈ Rp naráz. Snadno se nahlédne, že je to skutečnost, že β̂ (LS,n) padne do E
55
s pravděpodobnostı́ 1 − α a to nezávisle na x. Navı́c nalezené hranice tohoto konfidenčnı́ho pásu
(či oblasti, chcete-li) naznačujı́, proč se tento pás (je-li zobrazen na displeji) na okrajı́ch rozšiřuje.
Připomeňme nejprve, že diagonálnı́ prvky projekčnı́ matice (“hat” matice) udávajı́ vzdálenost
každého pozorovánı́ od bodu, jehož souřadnice jsou dány průměry přes sloupce matice plánu.
Dále si uvědomme, že i-tý diagonálnı́ prvek projekčnı́ matice je roven d2 (xi ). Spojenı́ těchto
1
faktů pak implikuje to, že výraz sd(x) (p Fp,n−p (1 − α)) 2 je většı́ “na okrajı́ch” dat a menšı́ v
jejich středu.
4.5
Testovánı́ submodelů
Odhadneme-li některý regresnı́ model, pak jedna z nejpřirozenějšı́ch otázek se bude týkat počtu
regresorů, tj. toho, zda model je dostatečně určen či naopak, zda nenı́ zbytečně přeurčen. Jak
si ukážeme později, je prvý přı́pad, patrně podstatně, nebezpečnějšı́ pro dalšı́ použitı́ modelu
než přı́pad druhý. To může navodit myšlenku, že je lépe zařadit do modelu vı́ce vysvětlujı́cı́ch
proměnných, včetně některých, které nejsou pro vysvětlenı́ veličiny Y signifikantnı́, než se dopustit toho, že některou podstatnou vysvětlujı́cı́ proměnnou vynecháme. Potom ovšem může
některý uživatel přijı́t s dotazem, zda by některý submodel už nebyl stejně dobrý jako model,
který byl navržen námi. Abychom uměli takový dotaz zodpovědět, naučı́me se v tomto odstavci
testovat submodel proti “základnı́mu” modelu. To nám navı́c v závěru odstavce umožnı́ seznámit
se často použı́vaným Chowovým testem, tj. testem posuzujı́cı́m shodnost či rozdı́lnost koeficientů
regresnı́ch modelů odhadnutých pro dva soubory dat. Důkaz Chowova testu bude pak provedem, na rozdı́l od původnı́ práce a na rozdı́l od dalšı́ch monografiı́, do kterých byl půvadnı́ důkaz
opisován, podstatně jednodušeji.
Budeme tedy předpokládat, že data byla generována modelem
Yi = ziT β 0 + Ei ,
i = 1, 2, . . . , n,
(57)
kde matice Z, jejı́ž řádky jsou jako obvykle tvořeny transponovanými vektory ziT , je taková,
že M(Z) ⊂ M(X), tj. prostor generovaný maticı́ plánu “zúženého” modelu je podprostorem
prostoru generovaného maticı́ X. Nejpodstatnějšı́m krokem v právě naznačovaném výkladu je
pak nahlédnout, že rozdı́l projekčnı́ch matic
X(X T X)−1 X T − Z(Z T Z)−1 Z T
je opět projekčnı́ matice. Lze se o tom přesvědčit takto. Z již dřı́ve připomı́nané geometrické
podstaty věci okamžitě plyne, že tento rozdı́l projektuje do podprostoru prostoru M(X), který
je kolmý na podprostor M(Z). Jistě nenı́ těžké nahlédnout, že je-li X(X T X)−1 X T v projekce
vektoru v do M(X), můžeme tuto projekci rozložit na součet vektorů z M(Z) a z podprostoru,
který je kolmý na M(Z). Složky tohoto rozkladu jsou projekcemi vektoru v do odpovı́dajı́cı́ch
podprostorů, tj. do M(Z) a do podprostoru, který je na tento kolmý.
Jiná cesta je čistě formálnı́, tj. provedeme přı́mo znásobenı́ matic a uvědomı́me si, že sloupce
projekčnı́ matice Z(Z T Z)−1 Z T jsou vektory z M(Z) a že tento prostor je dle předpokladu
podprostorem prostoru M(X). Jinými slovy, pokud pomocı́ projekčnı́ matice X(X T X)−1 X T
zprojektujeme sloupce matice Z(Z T Z)−1 Z T do M(X), dostaneme tytéž vektory, tj. vektory,
které jsou sloupci matice Z(Z T Z)−1 Z T . Platı́ tedy
Z(Z T Z)−1 Z T · X(X T X)−1 X T = Z(Z T Z)−1 Z T
56
a protože obě projekčnı́ matice jsou symetrické, máme také
X(X T X)−1 X T · Z(Z T Z)−1 Z T = Z(Z T Z)−1 Z T .
To dále znamená, že
³
X(X T X)−1 X T − Z(Z T Z)−1 Z T
´T ³
· X(X T X)−1 X T − Z(Z T Z)−1 Z T
´
= X(X T X)−1 X T · X(X T X)−1 X T − X(X T X)−1 X T · Z(Z T Z)−1 Z T
−Z(Z T Z)−1 Z T · X(X T X)−1 X T + Z(Z T Z)−1 Z T · Z(Z T Z)−1 Z T
= X(X T X)−1 X T − Z(Z T Z)−1 Z T .
Právě ukončený výklad představuje důkaz následujı́cı́ho tvrzenı́.
TVRZENÍ 9 Necht’ matice Z je taková, že M(Z) ⊂ M(X). Potom rozdı́l projekčnı́ch matic
X(X T X)−1 X T − Z(Z T Z)−1 Z T je opět projekčnı́ matice, tj. tato matice je symetrická a idempotentnı́.
LEMMA 9 Necht’ matice plánů v modelech (4) a (57), X a Z, jsou plné hodnosti p a q a fluk2
’
tuace {Ei }∞
i=1 jsou rozděleny dle N (0, σ I). Dále necht prostor M(Z) je podprostorem prostoru
(LS,n)
(LS,n)
M(X). V rámci tohoto lemmatu necht’ β̂(X) a β̂(Z)
označujı́ odhady zı́skané metodou ne2
2
’
jmenšı́ch čtverců v těchto modelech. Konečně pak necht S(X)
a S(Z)
označujı́ reziduálnı́ součty
(LS,n)
čtverců přı́slušné k β̂(X)
(LS,n)
a β̂(Z)
. Potom statistika
F =
2 − S2
S(Z)
(X) n − p
· 2
p−q
S(X)
má Fisher-Snedecorovo F -rozdělenı́ s p − q a n − p stupni volnosti.
Důkaz. Analogicky jako výše rozložı́me součet čtverců Y T Y takto
³
´
³
´
Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y
+Y T Z(Z T Z)−1 Z T Y.
(58)
Nynı́ použijeme faktu, že matice X(X T X)−1 X T − Z(Z T Z)−1 Z T je idempotentnı́, a budeme
aplikovat Tvrzenı́ 3, tj. zjistı́me, že hodnost této matice je rovna jejı́ stopě a konečně pak,
že je jejı́ hodnost rovna rozdı́lu stop matic X(X T X)−1 X T a Z(Z T Z)−1 Z T . Protože však obě
matice jsou rovněž idempotentnı́, jsou jejich stopy rovny hodnostem těchto matic. Konečně
tedy dostáváme: hodnost matice X(X T X)−1 X T − Z(Z T Z)−1 Z T je p − q. Podobnou úvahou,
kterou jsme ostatně udělali již výše, dostaneme, že hodnost matice I − X(X T X)−1 X T je n − p.
Připomeňme, že jsme předpokládali, že hodnost matice Z je rovna q a máme součet hodnostı́
matic roven (n − p) + (p − q) + q = n. Konečně pak použitı́m Fisher-Cochranova lemmatu
nalezneme, že kvadratické formy
³
´
Y T I − X(X T X)−1 X T Y
³
a
´
Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y
57
jsou nezávislé a majı́ χ2 rozdělenı́ s n − p a p − q stupni volnosti. K dokončenı́ důkazu stačı́
ověřit, že
2
S(X)
=
n ³
X
i=1
´
(LS,n) 2
Yi − XiT β̂(X)
³
³
= Y − X(X T X)−1 X T Y
´T ³
³
= Y T I − X(X T X)−1 X T
³
´T ³
= Y − X β̂ (LS,n) x
Y − X β̂ (LS,n) x
Y − X(X T X)−1 X T Y
´T ³
´
´
´
I − X(X T X)−1 X T Y
´
= Y T I − X(X T X)−1 X T Y = Y T Y − Y T X(X T X)−1 X T Y
a
2
S(Z)
=
n ³
X
i=1
´
(LS,n) 2
Yi − XiT β̂(Z)
³
= Y − X β̂ (LS,n) z
³
= Y − Z(Z T Z)−1 Z T Y
³
´T ³
= Y T I − Z(Z T Z)−1 Z T
³
´T ³
´
Y − X β̂ (LS,n) x
Y − Z(Z T Z)−1 Z T Y
´T ³
´
´
I − Z(Z T Z)−1 Z T Y
´
= Y T I − Z(Z T Z)−1 Z T Y = Y T Y − Y T Z(Z T Z)−1 Z T Y.
Odtud
2
2
S(Z)
− S(X)
= Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T Y
³
´
= Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y.
2
Tı́mto lemmatem jsme uzavřeli základnı́ poznatky o regresnı́ analýze pomocı́ metody minimalizace součtu čtverců, často zkráceně označované jako metoda nejmenšı́ch čtverců či dokonce
jen nejmenšı́ čtverce, a tı́m jsme se připravili na to, abychom uměli interpretovat základnı́
výstupy procedur pro regresnı́ analýzu z většiny počı́tačových knihoven. V dalšı́ kapitolce si
o tom něco málo řekneme. Dřı́ve než se však do toho pustı́me, řekněme si ještě, že s testovánı́m
submodelů úzce souvisı́ jiná úloha, která sice nenı́ po formálnı́ stránce totožná s testovánı́m
submodelů, ale jak uvidı́me myšlenka jejı́ho řešenı́ je naprosto stejná.
V roce 1960 publikoval v časopise Econometrica G. C. Chow článek (Chow (1960)), který
kromě problémů, které my probereme v odstavci Vliv jednoho pozorovánı́, řešil problém testovánı́
shodnosti regresnı́ho modelu (či jeho podmodelu - vše bude jasné z dále uvedeného výkladu) pro
dva soubory dat. Touto úlohou se stal článek známým. loha byla zadána takto. Předpokládejme,
že dva soubory dat majı́ postupně regresnı́ modely, pokud platı́ hypotéza
Y (1) = Z (1) γ (1) + W (1) δ (1) + E (1) ,
Y (2) = Z (2) γ (2) + W (2) δ (2) + E (2) ,
(59)
přı́padně při alternativě jsou části vektorů regresnı́ch koeficientů, totiž γ (1) a γ (2) , stejné, takže
můžeme pro data uvažovat model
Y (1) = Z (1) γ (1) + W (1) δ (1) + E (1) ,
Y (2) = Z (2) γ (1) + W (2) δ (2) + E (2) .
58
(60)
Modely lze přepsat do tvaru

"
Y (1)
Y (2)
#
"
=
Z (1)
0
W (1)
0
Z (2)
0
γ (1)

#  (2)  " (1) #
 γ

E


·

+
(2)
(1)


W
E (2)
 δ

0
δ (2)
a
"
#
Y (1)
Y (2)
"
=
Z (1) W (1)
Z (2)
0
W (2)
0
#

γ (1)

 (1) 
+
·
 δ

"
δ (2)
E (1)
E (2)
#
.
Označme nejprve
"
X
(1)
=
Z (1) W (1)
Z (2)
0
0
W (2)
#
"
a
X
(2)
=
Z (1)
0
W (1)
0
0
Z (2)
0
W (2)
#
.
Protože M(X (1) ) ⊂ M(X (2) ) (připomeňme, že se jedná o prostory generované sloupci matic,
které stojı́ v závorkách za M), může být projekce vektoru (Y (1) , Y (2) )T do prostoru M(X (1) )
zı́skána jako postupná projekce do prostoru M(X (2) ) a následně do M(X (1) ). Potom ovšem
reziduálnı́ součet čtverců v modelu (60) může být rozložen na reziduálnı́ součet čtverců v modelu
(59) a součet čtverců, který je s nı́m nezávislý. Podobně jako výše, použitı́m Fisher-Cochranova
lemmatu pak dostaneme následujı́cı́ tvrzenı́.
2 a R2 jsou reziduálnı́ součty čtverců v modelech (60) a (59) a necht’
TVRZENÍ 10 Necht’ R(1)
(2)
q a p − q jsou počty souřadnic vektorů γ (1) a δ (1) (vektor γ (2) má stejný počet souřadnic jako
γ (1) ; stejně to platı́ o δ (1) a δ (2) ). Potom statistika
2 − R2
R(1)
(2) n − 2p
·
F =
2
q
R(2)
má za hypotézy (tj. v modelu (59)) Fisher-Snedecorovo Fq,n−2p .
4.6
Výběr modelu
Z výše uvedeného lze tušit, že jednı́m z problémů regresnı́ analýzy, je problém vhodné volby
vysvětlujı́cı́ch proměnných, které mı́nı́me zařadit do modelu. Tento problém bývá označován,
jako problém výběru modelu (někdy je však stejný termı́n použit k označenı́ situace, kdy různé
metody odhadu regresnı́ch koeficientů dajı́ rozdı́lné výsledky, někdy dokonce značně rozdı́lné, a
my “musı́me” vybrat jeden z nich např. pro predikci). Přirozeně, že někdy nastává situace, že
máme tak málo pozorovánı́ i vysvětlujı́cı́ch proměnných, že jsme rádi, že nějaký model dáme
vůbec dohromady a zcela “vynecháme” úvahy o optimalitě nalezeného modelu.
Z toho, co jsme si zatı́m vyložili plyne, že diagnostickými prostředky použitelnými pro řešenı́
tohoto problému jsou studentizované odhady regresnı́ch koeficientů, respektive odpovı́dajı́cı́
pravděpodobnosti, označované jako P -values, (viz výklad o výstupech z počı́tače), a koeficient
determinace. Koeficient determinace je však rostoucı́ či přinejmenšı́m neklesajı́cı́ funkcı́ počtu
vysvětlujı́cı́ch proměnných a tedy bez “zabudovánı́” nějaké penalizace, nelze pomoci něho nalézt
jakýsi “objektivně” optimálnı́ model. Nicméně intuitivně cı́tı́me a výše uvedené výsledky to
59
potvrzujı́, že bychom neměli “zatěžovat” model zbytečnými a k vysvětlenı́ dat nepřispı́vajı́cı́mi
vysvětlujı́cı́mi veličinami. Jinými slovy to znamená, že jsme ochotni připustit, že bychom měli
být nějakým způsobem penalizováni za to, pokud bychom zvolili zbytečně komplikovaný model.
Nı́že si ukážeme, jak je zbytečné přeurčenı́ modelu automaticky penalizováno zvětšenı́m
rozptylu odhadu regresnı́ch koeficientů. Vzhledem k tomu, že však neznáme dolnı́ hranici rozptylu
odhadů regresnı́ch koeficientů, tuto penalizaci vlastně nemůžeme brát na vědomı́. To implikuje
závěr, že penalizace za zbytečně bohatý model musı́ být explicitnı́, tak aby mohla ovlivnit výběr
modelu.
V monografiı́ch věnovaných regresnı́ analýze lze přirozeně nalézt celou škálu nápadů, často
podložených přı́močarou heuristikou či dokonce i “objektivizujı́cı́” teoriı́, jak penalizovat neopodstatněnou komplikovanost modelu. Z těchto kritériı́ je patrně nejznámějšı́ kritérium Cp zavedené
C. L. Mallowsem (Mallows (1973)). Statistika, kterou C. L. Mallows navrhl, má tvar
Cp =
Y T (I − P ) Y
+ 2p − n,
σ̂ 2
(61)
kde σ̂ 2 je odhad rozptylu v “širšı́m” (či “většı́m”, chcete-li) modelu. Obvykle tento model
zahrnuje všechny “rozumné” vysvětlujı́cı́ proměnné, často zahrnuje dokonce všechny dostupné
vysvětlujı́cı́ proměnné. Jeho dimenzi označı́me proto pmax , zatı́mco dimenzi “aktuálnı́ho” modelu
jsme v (61) označili p. Heuristika, která stojı́ v pozadı́ tohoto kritéria, je snadno akceptovatelná.
Abychom to nahlédli, přepı́šme kriterium (61) do tvaru
Cp =
(n − p) · σ̂p2
Y T (I − P ) Y n − p
·
+
2p
−
n
=
+ 2p − n,
n−p
σ̂ 2
σ̂ 2
kde σ̂p2 jsme označili odhad rozptylu reziduı́ v “aktuálnı́m” modelu, tj. v modelu dimenze p. Je-li
nynı́ “aktuálnı́” model téměř tak dobrý jako ten s dimenzı́ pmax , tj. je-li σ̂p2 ≈ σ̂ 2 , pak
Cp ≈ n − p + 2p − n = p.
Jiné kriterium, které bývá často použı́váno navrhl Akaike (Akaike (1974) a (1981)), a je
založeno na Kullback-Leiblerově vzdálenosti (Kullback (1959)). Zadáno je následujı́cı́m vztahem
³
AIC = ln
´
Y T I − X(X T X)−1 X T Y
n
+
2p
,
n
kde p (a tı́m i X) je vybráno tak, aby AIC bylo minimálnı́.
Snadno se nahlédne z těchto dvou uvedených přı́kladů, že se jedná vždy o stejnou myšlenku,
totiž použitı́ součtu čtverců reziduı́ plus uplatněnı́ nějaké penalizace, která je monotonı́ funkcı́
počtu vysvětlujı́cı́ch proměnných. Upravı́me-li takto koeficient determinace dostaneme dalšı́
populárnm kritérium - upravený koeficient determinace (adjusted R2 ), viz např. Zvára (1989).
Slovo upravený však bohužel nevystihuje obsah anglického slova “adjusted”, které napovı́dá, že
jde o charakteristiku, která je adjustovaná, tj. přizpůsobená, aretovaná k danému modelu 6 . Jejı́
definice pak napovı́dá, že je adjustovaná k počtu vysvětlujı́cı́ch proměnných. Ve statistických
knihovnách bývá označována jako R2 -adjusted a je zadána vztahem
2
Radjusted
= 1 − (1 − R2 )
S2 n − 1
n−1
= 1 − R2 ·
.
n−p
R0 n − p
6
Bylo by asi lépe použı́t označenı́ adjustovaný koeficient determinace, ale to by určitě někteřı́ jazykovı́ experti
nepřenesli přes srdce.
60
Snadno se nahlédne, např. z druhého vyjádřenı́ upraveného koeficientu determinace, že je tento
2 tak dimenzi modelu p. Vzhledem
nepřı́mo úměrný jak velikosti reziduálnı́ho součtu čtverců SR
k tomu, že se jej snažı́me maximalizovat, hledejme model s co nejmenšı́m reziduálnı́m součtem
čtverců při co nejmenšı́m počtu vysvětlujı́cı́ch proměnných. Je evidentnı́, že pokud začneme s
malým počtem vysvětlujı́cı́ch proměnných, pak pokles reziduálnı́ho součtu čtverců, přidáme2
li dalšı́ regresor, může být tak velký, že vliv tohoto poklesu na Radjusted
převážı́ nad vlivem
2
nárůstu dimenze p a Radjusted bude vzrůstat. Nepochybně však po jistém počtu kroků, vliv
nárůstu dimenze modelu, pokud budeme mı́t k dispozici dostatečný počet regresorů, převážı́
2 a R2
nad poklesem SR
adjusted začne klesat.
Snad již na tomto mı́stě stojı́ za to zdůraznit, že výběr vhodného modelu nenı́ zdaleka
jednoduchá a přı́močará záležitost, nebot’ pro p-dimenzionálnı́ data je přirozeně 2p možnostı́ jak
vybrat regresory do modelu. Navı́c je dobré trvale držet na paměti, že podurčenı́ modelu vede
vždy k závažným nedostatkům (jak ukáže jeden z následujı́cı́ch odstavců), zatı́mco přeurčenı́
modelu v přı́padě statického regresnı́ho modelu, tj. modelu pro průřezová data, vede pouze k
poklesu eficience odhadů a jak dále naznačı́me, lze dokonce tento pokles eliminovat vhodnou
transformacı́ regresorů za cenu maličko komplikovanějšı́ interpretace modelu). To napovı́dá, že
2
je lepšı́ se rozhodnout pro takový soubor regresorů, pro který sice Radjusted
nedosahuje přesně
maxima, ale který téměř jistě zaručuje to, že jsme nevynechali žádný důležitý regresor, tj. tento
soubor vysvětlujı́cı́ch proměnných nevede k podurčenı́ modelu. Na druhé straně je však patrně
užitečné si vždy uvědokit, že přeurčenı́ modelu přece jenom zvyšuje rozptyl odhadů regresnı́ch
koeficientů a to se může projevit na přesnosti predikce, která může tento fakt, tj. to, že odhady
koeficientů mohou být méně přesné, ještě nepřı́jemně zesı́lit. Ostatně to nı́že uvidı́me na přı́kladě
o kombinovánı́ předpovědı́ ekonomického růstu ve Spojeném královstvı́.
Na závěr tohoto odstavce zmiňme ještě to, že některé statistické knihovny nabı́zejı́ procedury na automatizovaný výběr regresorů, obvykle označovaný jako “stepwise” s možnostı́
výběru toho, zda kroková procedura bude postupovat nahoru, tj. od žádného regresoru, či dolu,
tj. od všech dostupných. Rovnou řekněme, že autorovy zkušenosti s těmito postupy jsou mı́rně
řečeno rozporuplné. Skoro nejhoršı́ na těchto postupech je to, že nenı́ obvykle zcela jasně řečeno,
jaká je filosofie za nimi, tj. dle jakého pravidla nakonec vyberou model. Abychom lépe nahlédli
danou situaci, předpokládejme např., že budeme postupovat ze zdola a každý dalšı́ regresor
bude “včleněn” do modelu, pokud bude mı́t vhodnou velikost P -value a bude nejvı́ce, ze všech
ještě “nezařazených” regresorů, zvětšovat koeficient determinace. Je okamžitě vidět, že hodnota
koeficientu determinace po dvou krocı́ch může být menšı́ než maximálnı́ hodnota tohoto koeficientu pro model obsahujı́cı́ dva regresory. A to jsme nechali stranou to, že vybı́rat model jen
dle koeficientu determinace je riskantnı́. Nicméně nikdy nenı́ na škodu vyzkoušet vše, co nám
daný package nabı́zı́.
5
5.1
VÝSTUPY Z POČTAČOVÝCH KNIHOVEN
Tabulky výsledků
Regresnı́ analýza je jednou z nejpoužı́vanějšı́ch technik pro zpracovánı́ dat a proto ji lze nalézt
patrně ve všech statistický knihovnách programů. Dnes již dokonce i většina tabulkových procesorů (“spreadsheetů”, jako je např. EXCEL) umožňuje výpočet základnı́ch výsledků v regresi. Výsledky zı́skané pomocı́ subroutin nabı́zených v tabulkových procesorech je však nutné
61
považovat pouze za předběžné a orientačnı́, nebot’ tyto subroutiny obvykle nedovolujı́ provést ani
nejzákladnějšı́ diagnostiku typu normálnı́ graf (“normal graph”) či indexový graf (“index plot”).
Na druhé straně ani řada komerčně dodávaných knihoven nenabı́zı́ provedenı́ regresnı́ analýzy
dat v tom rozsahu, ve kterém je ji nutné provést, máme-li mı́t naději, že závěry, které učinı́me
nejsou zavádějı́cı́. Neumožňujı́ totiž např. jednoduše provést testy normality či heteroskedasticity a obvykle se omezujı́ na grafické “podpůrné” prostředky, o kterých si povı́me nı́že. Na druhé
straně, tyto knihovny často nabı́zejı́ v jiných partiı́ch než je určena k odhadu regresnı́ho modelu
proceduryt, které je možné použı́t k doplněnı́ diagnostiky výsledků. Jedná se např. o testy dobré
shody, nalezenı́ vlastnı́ch čı́sel matice atd. Ještě se o těchto možnostech zmı́nı́me tam, kde to
bude na mı́stě.
Nynı́ si krátce povı́me, které nejzákladnějšı́ údaje se obvykle objevı́, ve formě nějaké tabulky
(jedné či vı́ce) po aplikaci přı́slušné regresnı́ procedury na data a jak se tyto zinterpretujı́.
Pomineme-li to, že jsou obvykle nabı́zeny výsledky popisné statistiky, tj. jako odhady střednı́ch
hodnot, rozptylu či kovariančnı́ matice dat, je vždy poskytnuta informace o odhadech regresnı́ch
koeficientů, jejich vzájemných vztazı́ch a základnı́ údaje o spolehlivosti či adekvátnost modelu
jako celku. Ačkoliv se jedná o nejzákladnějšı́ údaje o odhadnutém modelu, i jejich interpretace
může skrývat nebezpečı́ mylných závěrů. Upozornı́me na toto nebezpečı́ v těch mı́stech dalšı́ho
textu, která k tomu budou mı́t nejblı́že (např. o použitı́ kovariančnı́ matice dat ve FarrarGlauberově testu na kolinearitu (Farrar a Glauber (1967)), který bez verifikace - a to dosti
přı́sné - na normalitu může dát, a obvykle dá, zavádějı́cı́ výsledky).
Ve formě tabulek uvedeme nynı́ přı́klad nejzákladnějšı́ch výsledků regresnı́ analýzy pro
data, která byla uvedena v úvodu skript jako přı́klad 3, “Data o sportovnı́m klubu”.
Nejzákladnějšı́ údaje o výsledcı́ch regresnı́ analýzy mohou vypadat tedy následovně (a obvykle se lišı́ od nı́že uvedeného jen formou, nikoliv obsahem):
Tabulka 1
Odhad střednı́ch hodnot a rozptylů
Střednı́ hodnota
Rozptyl
Váha
367.5
84.5
Puls
166.5
34.1
Sı́la
64.0
8.9
Zčas
188.0
26.7
Cčas
70.0
10.3
Tabulka 2
Diagonálnı́ prvky projekčnı́ matice
1
0.24
16
0.23
2
0.12
17
0.24
3
0.09
18
0.22
4
0.07
19
0.04
5
0.09
20
0.11
6
0.11
21
0.11
7
0.08
22
0.12
8
0.22
23
0.51
62
9
0.14
24
0.14
10
0.12
25
0.07
11
0.21
26
0.08
12
0.09
27
0.16
13
0.29
28
0.38
14
0.16
29
0.16
15
0.07
30
0.19
Tabulka 3
Kovariančnı́ matice dat (pravá hornı́ část)
a korelačnı́ matice (levá dolnı́ část, na diagonále by byly jedničky)
Cčas
Váha
Puls
Sı́la
Zčas
Cčas
4824.55
0.798
0.501
0.445
0.848
Váha
1963.94
1255.14
0.420
0.737
0.643
Puls
277.97
118.81
63.77
0.060
0.539
Sı́la
1081.80
913.94
16.88
1226.66
0.400
Zčas
594.07
229.78
43.40
141.33
101.71
Tabulka 4
Výsledná tabulka odhadů regresnı́ch koeficientů
Variable
Estimate
Intercept
Váha
Puls
Sı́la
Zčas
-3.61
1.26
-0.52
-0.50
3.90
Standard
error
56.10
0.28
0.86
0.24
0.74
t-value
P -value
-0.06
4.41
-0.60
-2.05
5.21
0.949
0.000
0.548
0.050
0.000
Tabulka 5
Kovariančnı́ matice odhadů regresnı́ch koeficientů
Intercept
Váha
Puls
Sı́la
Zčas
3147.50
6.62
-30.89
-7.73
-11.23
0.08
-0.08
-0.05
-0.07
0.74
0.08
-0.23
0.06
-0.00
0.55
Tabulka 6
Tabulka shrnujı́cı́ základnı́ údaje o kvalitě modelu
Sum of squares
Degrees of freedom
Scale estimate
Coefficient of determination (R squared)
The F-value (with 4 and 25 df )
P-value
Median of absolute values of all residuals
Interquantile of all residua (0.250)
(i.e. 2 ∗ α of residuals have been cut away)
=
=
=
=
=
=
=
=
20551.361
25
28.671
0.853
36.299
0.000
19.307
38.615
Věnujme se nynı́ analýze alespoň některých výše uvedených tabulek.
O tom, o čem vypovı́dajı́ odhady střednı́ch hodnot, rozptylů, kovariančnı́ a korelačnı́ matice
63
nenı́ patrně čtenáře těchto skript nutné poučovat. K některým “subtilnějšı́m” otázkám spojeným
s těmito údaji se vrátı́me později. Proto se nebudeme Tabulkou 1 a 3 zabývat. Upřesněme jen, že
k odhadům střednı́ch hodnot a rozptylů byl použit medián a mediánová absolutnı́ odchylka (median absolute deviation); protože druhý z použitých odhadů nenı́ v obecném povědomı́ dovolı́me
si připomenout, že je definován vztahem
µ
σ̂M AD
= 1.483 · med
1≤i≤n
¶
|zi − med (zi )|
1≤i≤n
,
kde faktor “1.483” je použit proto, aby bylo dosaženo nestrannosti v normálnı́m rozdělenı́.
Tabulka 2 obsahuje diagonálnı́ prvky matice X(X T X)−1 X T , tj. “hat” matice. Co tyto prvky
udávajı́, se snadno nahlédne z nı́že uvedené rovnosti, viz (62). Pokud je v modelu absolutnı́ člen,
tj. je-li prvý sloupec matice X tvořen jedničkami, je prvý sloupec (a tedy také řádek) matice
(X T X)−1 roven vektoru nx̄, kde
x̄ = (1,
Snadno se ověřı́, že
n
n
n
1X
1X
1X
xi2 ,
xi3 , . . . ,
xip )T .
n i=1
n i=1
n i=1
nx̄(X T X)−1 = (1, 0, 0, . . . , 0),
nebot’ X T X(X T X)−1 = In , kde In označuje opět jednotkovou matici typu n × n. To ovšem
znamená, že
1
(62)
(xi − x̄)T (X T X)−1 (xi − x̄) = xTi (X T X)−1 xi − .
n
Připomeňme si, že k úspěšné verifikaci (62), je třeba mı́t na paměti, že vektor xi má prvou
souřadnici rovnou jedničce. To indikuje, že diagonálnı́ prvky udávajı́ vzdálenost, v metrice dané
tensorem (X T X)−1 , od x̄, tj. vzdálenost jednotlivých pozorovánı́ od “těžiště oblaku dat”. Znovu
podotkněme, že vzdálenost je měřena nikoliv v euklidovské metrice, ale v riemanovské, tj. oproti
euklidovské, ve které je přı́slušným tensorem jednotková matice I, je zde použita metrika “adaptovaná” k datům.
Často se uvádějı́ přibližná pravidla, udávajı́cı́ jaká ještě může být hodnota i-tého diagonálnı́ho
prvku projekčnı́ matice, aniž bychom považovali i-té pozorovánı́ za odlehlé (leverage point) a
tı́m vlivné. V monografii Chatterjee, Hadi (1988) je např. uvedena následujı́cı́ tabulka udávajı́cı́
aproximace 95% kvantilů pro diagonálnı́ prvky projekčnı́ matice za předpokladu, že řádky matice plánu (tj. matice X) byly generovány standardnı́m normálnı́m rozdělenı́m (předpokládá se,
že n − p > 30).
Tabulka 7
Přibližné 95% kvantily pro diagonálnı́ prvky projekčnı́ matice
Je-li p většı́ než
Aproximace kvantilu
2
2.5p
n
2.0p
n
1.5p
n
6
12
64
Obecně lze však řı́ci, že hodnoty udávané touto aproximacı́ přeceňujı́ skutečné hodnoty
kvantilů.
V článku´Belsley, Kuh a Welsch (1980) je totiž ukázáno, že pokud jsou řádky matice
³
X̃ = I − n−1 11T X nezávislé a rozdělené dle p-rozměrného normálnı́ho rozdělenı́, je
Ã
n − p hii − n−1
L
p − 1 1 − hii
!
≈ Fp−1,n−p ,
kde hii = xTi (X T X)−1 xi . I při předpokladu, že řádky matice X jsou nezávislé p-rozměrné
normálně rozdělené náhodné veličiny, řádky matice x̃ nejsou nikdy zcela nezávislé. Nicméně pro
rostoucı́ počet pozorovánı́ závislost mezi nimi klesá. Můžeme tedy považovat tento výsledek za
aplikovatelný. Odtud snadno dostaneme
hkritická
(α)
ii
=
Fp−1,n−k +
n−p
p−1
n−p
(p−1)·n
+ Fp−1,n−p
.
(63)
Následujı́cı́ tabulky ukazujı́ srovnánı́ aproximacı́.
Tabulka 8
Srovnánı́ aproximace kvantilů dané vztahem (63) a Tabulkou 7.
(Prvá aproximace - dle Tabulky 7 - je označena jako A1, druhá - dle (63) - jako A2).
Dimenze modelu p = 3
Dimenze modelu p = 6
Počet
pozorovánı́
A1
A2
Počet
pozorovánı́
A1
A2
40
60
80
100
150
0.1547
0.1034
0.0776
0.0621
0.0414
0.1875
0.1250
0.0938
0.0750
0.0500
40
60
80
100
150
0.2743
0.1865
0.1410
0.1133
0.0760
0.3750
0.2500
0.1875
0.1500
0.1000
Dimenze modelu p = 7
Dimenze modelu p = 10
Počet
pozorovánı́
A1
A2
Počet
pozorovánı́
A1
A2
70
100
130
160
190
0.1814
0.1282
0.0991
0.0808
0.0681
0.2000
0.1400
0.1077
0.0875
0.0737
100
130
160
200
240
0.1699
0.1317
0.1075
0.0863
0.0721
0.2000
0.1538
0.1250
0.1000
0.0833
Dimenze modelu p = 14
Dimenze modelu p = 16
Počet
pozorovánı́
A1
A2
Počet
pozorovánı́
A1
A2
140
180
220
280
340
0.1599
0.1252
0.1029
0.0811
0.0670
0.2000
0.1556
0.1273
0.1000
0.0824
160
200
250
300
400
0.1563
0.1258
0.1010
0.0844
0.0635
0.1500
0.1200
0.0960
0.0800
0.0600
65
Dimenze modelu p = 20
Dimenze modelu p = 24
Počet
pozorovánı́
A1
A2
Počet
pozorovánı́
A1
A2
200
250
300
400
500
0.1506
0.1211
0.1013
0.0763
0.0611
0.1500
0.1200
0.1000
0.0750
0.0600
250
300
400
500
600
0.1405
0.1176
0.0886
0.0711
0.0593
0.1440
0.1200
0.0900
0.0720
0.0600
Z Tabulky 8 je vidět, že jednoduchá aproximace udaná v Tabulce 7 opravdu přeceňuje
kvantily diagonálnı́ch prvků až na přı́pady, kdy dimenze modelu je mezi 16 a 24. Protože zejména
pro malé dimenze modelu a malý počet pozorovánı́ jsou hodnoty aproximacı́ dosti odlišné a
protože se lze domnı́vat, že vztah (63) je blı́že skutečné hodnotě, je patrně lépe použı́t přı́mo
tento vztah.
Nynı́ vysvětlı́me obsah Tabulek 4, 5 a 6. Prvá z nich kromě jmen vysvětlujı́cı́ch proměnných,
tak jak je zvolı́me na začátku zpracovánı́ dat, shrnuje (ve druhém sloupci) odhady regresnı́ch
(LS,n)
koeficientů, tj. β̂i
, i = 1, 2, . . . , p, a ve třetı́m odhady rozptylů nebo směrodatných odchylek těchto odhadů, tj. bud’ diagonálnı́ prvky matice s2 (X T X)−1 nebo, a to daleko častěji,
jejich druhé odmocniny. Je třeba se podı́vat do manuálu, dodaného ke statistické knihovně,
kterou právě použı́váme. V našem přı́padě jsou ve třetı́m sloupci směrodatné odchylky odhadů.
V předposlednı́m sloupci jsou udány studentizované odhady regresnı́ch koeficientů, tj. hodnoty uvedené ve druhém sloupci jsou vyděleny směrodatnými odchylkami odhadů koeficientů, a
konečně pak v poslednı́m sloupci jsou shromážděny pravděpodobnosti toho, že náhodná veličina,
která má Studentovo rozdělenı́ o n − p stupnı́ch volnosti překročı́ hodnotu studentizovaného
odhadu přı́slušného koeficientu, tj. hodnotu uvedenou ve čtvrtém sloupci. Jedná se tedy o
pravděpodobnost
µ
¶
−1
(LS,n)
P t(n−p) (ω) > s−1 cii 2 β̂i
−1
(LS,n)
,
kde s−1 cii 2 β̂i
je přı́slušné čı́slo uvedené v předposlednı́m sloupci Tabulky 4 a i = 1, 2, . . . , p.
Z Věty 2 vı́me, že při nulové hypotéze, tj. hypotéze, že přı́slušný regresnı́ koeficient je nulový,
je studentizovaný odhad tohoto koeficientu rozdělen dle Studentova t o n − p stupnı́ch volnosti.
To znamená, že by neměla výše uvedená pravděpodobnost, pokud hypotéza platı́, být přı́liš malá.
Konečně tedy, pokud je v poslednı́m sloupci “dostatečně” malé čı́slo, zamı́tneme hypotézu, že
přı́slušný koeficient v modelu je nulový. Z uvedeného plyne, že právě použité slovo “dostatečně”
se vztahuje k hladině významnosti, na které se rozhodneme zmı́něnou hypotézu testovat. Pokud
např. zvolı́me hladinu významnosti rovnou 5%, pak zamı́tneme hypotézu o nulovosti koeficientu
v přı́padě, že tato pravděpodobnost (tj. čı́slo v poslednı́m sloupci) je menšı́ než 0.05.
Občas se setkáme s tı́m, že právě uvedená tabulka obsahuje ještě dalšı́ informaci Některé
statistické knihovny (např. STATISTICA) vypisujı́ totiž ještě dva dalšı́ sloupce, a to vsunuté
hned za sloupec jmen vysvětlujı́cı́ch proměnných. V nich je uvedena informace podobná informaci uvedené v druhém a třetı́m sloupci výše popisované tabulky. Jedná se o odhady regresnı́ch
koeficientů a odhady jejich rozptylů, ale nikoliv pro originálnı́ (tj. původnı́) data, ale pro normalizovaná data, která majı́ všechny proměnné transformovány tak, že majı́ nulový průměr a
66
jednotkový výběrový rozptyl. Pro takto normalizovaná data je potom uveden odhad modelu bez
absolutnı́ho členu. Mějme model (4), tj.
p
X
Yi =
xij βj0 + Ei .
(64)
j=1
Vysčı́tánı́m přes i, tj. všech řádků matice X, a následným vydělenı́m čı́slem n, dostaneme
p
X
Ȳ =
x̄j βj0 + Ē,
(65)
j=1
kde Ȳ , x̄j a Ē jsou průměry vysvětlované a vysvětlujı́cı́ch veličin a průměr náhodných fluktuacı́.
Nynı́ odečteme (65) od (64) a dostaneme
Yi − Ȳ =
p
X
(xij − x̄j )βj0 + Ei − Ē.
j=1
a konečně vydělenı́m výběrovými rozptyly7 dostaneme
p
X
xij − x̄j βj0 sj
Ei − Ē
Yi − Ȳ
=
+
.
sY
sj
sY
sY
j=1
Připomeňme si, že uvažujeme model s deterministickými nosiči a že tedy rozptyl vysvětlované
proměnné je shodný s rozptylem náhodných fluktuacı́. Poslednı́ rovnost lze přepsat do tvaru
Ỹi =
p
X
x̃ij β̃j0 + Ẽi ,
i = 1, 2, . . . , n.
j=1
Nynı́ se snadno nahlédne, proč je uveden právě model bez absolutnı́ho členu. Pokud je totiž
xi1 = 1 pro i = 1, 2, ..., n, je xi1 − x̄1 = 0.
Z poslednı́ho vztahu je patrné, proč je tato informace uváděna. V regresnı́m modelu (4)
ovlivňujı́ jednotlivé vysvětlujı́cı́ proměnné hodnotu vysvětlované proměnné nejen skrze velikost
přı́slušného regresnı́ho koeficientu, ale také tı́m jakou majı́ absolutnı́ velikost. Někdy je však
užitečné mı́t představu o tom, jak moc by ta či ona vysvětlujı́cı́ veličina ovlivnila vysvětlovanou
veličinu, kdyby všechny byly stejně “variabilnı́”, tj. kdyby měly stejný rozptyl. Proto normalizace
na jednotkový rozptyl. Normalizace na nulový průměr nenı́ podstatná v právě popsaném smyslu
vlivu absolutnı́ velikosti vysvětlujı́cı́ch veličin na vysvětlovanou veličinu či alespoň nikoliv přı́mo,
ale může hrát také podstatnou (zkreslujı́cı́) roli. Z přı́kladu o jasu hvězd, který byl uveden na
začátku skript, je vidět, že právě provedená studentizace bude mı́t zavádějı́cı́ výsledky, nebot’
dı́ky čtyřem odlehlým pozorovánı́m, budou průměry jednotlivých souřadnic napozorovaných dat
ležet téměř mimo “hlavnı́” oblak dat, na rozdı́l od mediánů, které by posunuly pozorovánı́ tak, že
by počátek souřadného systému ležel uprostřed “hlavnı́ho” oblaku dat. Jestliže však posuneme
data tak, že počátek souřadné soustavy bude mimo hlavnı́ “oblak” dat a pak “vnutı́me” datům
model bez absolutnı́ho členu, bude tento model vypadat tak jakoby počátek byl jeden bod a
7
Samozřejmě pokud uvažujeme model s pevnými nosiči, je toto trochu násilné. Na druhé straně, můžeme to
považovat za jakousi transformaci nosičů, která je znormuje na stejnou “velikost”.
67
data druhý bod určujı́cı́ regresnı́ přı́mku. V přı́padě vı́cerozměrných dat bude situace poněkud
složitějšı́, ale neadekvátnost modelu bude stejně zřejmá.
Vidı́me tedy, že je podstatné, co zvolı́me za “těžiště” dat, zda např. průměry všech veličin, jak
je tomu v knihovně STATISTICA, či mediány, či úplně něco jiného. Přirozeně pokud budou data
“dostatečně homogennı́” nebude volba např. mezi průměry a mediány moc ovlivňovat konečný
výsledek. V přı́padě, kdy data však budou “nezanedbatelně znečištěna” (kontaminována) nějakými
chybami v zápise či pozorovánı́mi, která do nich fakticky nepatřı́, či něčı́m jiným, může být
výsledek velmi podivný. Modernı́ statistika, která se, alespoň v rozumné mı́ře snažı́ zabezpečit
proti kontaminaci dat, proto doporučuje interpretovat tuto informaci v kontextu s celou škálou
dalšı́ch, zejména diagnostických informacı́.
Tabulka 5 uvádı́ odhad kovariančnı́ matice odhadů, tj. s2 (X T X)−1 . Jedná, až na faktor s2 ,
o inverznı́ matici k X T X, která je, opět až na faktor n−1 , odhadem kovariančnı́ matice dat,
samozřejmě bez vysvětlované proměnné. Proto tato tabulka nepřinášı́ mnoho nové informace a
nemá pro interpretaci výsledků regresnı́ analýzy zásadnı́ význam.
Poslednı́ tabulka pak shrnuje celkovou informaci o adekvátnosti modelu. Znovu však zdůrazněme,
že se jedná pouze o prvnı́ a orientačnı́ informaci. Nenı́ totiž obtı́žné najı́t soubory dat, pro které
tyto charakteristiky byly “výborné”, ale model byl odhadnut zcela špatně (správný model jsme
bud’ znali, protože data byla simulována, nebo jsme jinou metodou odhadli model, který, po
vyloučenı́ malého počtu bodů - jednoho či dvou, vykazoval řádově menšı́ součet čtverců reziduı́,
nikoliv však nutně vyššı́ koeficient determinace). K tomu abychom dospěli k přesvědčenı́, že
odhadnutý model je adekvátnı́, je nutné provést alespoň několik dalšı́ch diagnostických vyšetřenı́.
O těch si budeme povı́dat v některé z dalšı́ch kapitol. Půjde převážně o aposteriornı́ diagnostiku.
V Tabulce 6 je udán, kromě jiného, také odhad parametru měřı́tka, či chcete-li odhad
směrodatné odchylky (scale estimate). Častěji však bývá udáván odhad rozptylu reziduı́ (variance estimate), někdy bývá uvedeno obojı́. To, co je ve výpise udáno, lze zjistit obvykle v
manuálu. Někdy se však ani při pečlivém čtenı́ manuálu prostě nedá zjistit, či spı́še nedá dospět
k naprosté jistotě, co daná knihovna vlastně nabı́zı́ a pak je to prostě třeba zkusit na datech, u
kterých, dı́ky tomu, že jsme je nejprve zpracovali pomoci softwaru, který známe, vı́me, co má
vyjı́t. Právě popsané situace vznikajı́ tı́m, že “softwaráři”, kteřı́ knihovny připravujı́ a pı́šı́ k nim
manuály, obvykle použı́vajı́ názvoslovı́, které nenı́ (zcela) totožné s názvoslovı́m použı́vaným v
běžných statistických monografiı́ch.
Dřı́ve než pokročı́me dále, zastavme se ještě u jedné položky Tabulky 6. I v této tabulce,
podobně jako v tabulce s odhady regresnı́ch koeficientů, je uvedena P -value. Tato P -value udává
pravděpodobnost, že náhodná veličina rozdělená jako Fisher-Snedecorovo F s p − 1 (přı́padně p)
a n − p stupni volnosti překročı́ hodnotu F uvedenou na pátém řádku Tabulky 6, přičemž je tato
pravděpodobnost vyčı́slena při platnosti hypotézy, že IE Y = γ · 1, je-li v modelu absolutnı́ člen,
či IE Y = 0, je-li model bez absolutnı́ho členu (viz Lemma 8). To znamená, že pokud hodnota
na šestém řádku Tabulky 6 je menšı́ než zvolená hladina významnosti, zamı́tneme hypotézu,
že vysvětlovaná proměnná je nezávislá na vysvětlujı́cı́ch faktorech a akceptujeme odhadnutý
model. Uvědomme si však, že to nenı́ potvrzenı́ platnosti modelu, nebot’ se jedná o statistický
test a tedy jeho výrok řı́ká, že je patrně vhodné zamı́tnout hypotézu, že je vysvětlovaná veličina
nezávislá na vysvětlujı́cı́ch. Snadno si ale umı́me představit, že modelů popisujı́cı́ch závislost
mezi těmito (náhodnými) veličinami může být nespočet.
68
Většina statistických počı́tačových knihoven, ne-li všechny, nabı́zı́ vyčı́slenı́ dalšı́ch charakteristik “vhodnosti” modelu či testů toho, zda předpoklady, za kterých jsme výše v tomto textu
odvozovali optimalitu odhadu β̂ (LS,n) , jsou (alespoň přibližně) splněny. Jednı́m z nejznámějšı́ch
testů je nepochybně Durbin-Watsonova statistika, testujı́cı́ nezávislost náhodných fluktuacı́ mezi
sebou. Často jsou však k dispozici i různé typy statistik dobré shody (byt’ je uživatel musı́ hledat
v jiných oddı́lech než v regresi), různé typy diagnostických grafů atd. Všechny tyto možnosti
budeme diskutovat později.
Nynı́ se však ještě na moment zastavme u problému, který má mnoho společného s právě
popisovanými tabulkami. Někdy se totiž stane, že výsledky v Tabulce 4 indikujı́, že je do
modelu zahrnuto několik vysvětlujı́cı́ch proměnných, které nejsou signifikantnı́ pro vysvětlenı́
vysvětlované veličiny. Jejich P -hodnoty jsou totiž (značně) velké. Vypustı́me-li však tyto proměnné
a přepočı́táme-li model, klesne povážlivě koeficient determinace. Takový model nás přirozeně
neuspokojı́ a my se rozhodneme některou vyloučenou proměnnou do modelu vrátit. S podivem zjistı́me, že nynı́ má tato proměnná P -hodnotu velmi malou, což signalizuje, že v modelu
patrně hraje signifikantnı́ roli. Vysvětlenı́ je samozřejmě prosté. Ve verzi modelu, se kterou
jsme začali naši analýzu, bylo několik proměnných, které byly vı́ce či méně, nicméně dostatečně
lineárně závislé, tak aby se “přetahovaly ve snaze vysvětlit” Y . Jednou z nejčastěji se objevujı́cı́ch
situacı́, kdy tento “jev” nastává, je situace, kdy variabilita některé vysvětlujı́cı́ proměnné malá
ve srovnánı́ s variabilitou vysvětlované proměnné. Potom tato vysvětlujı́cı́ proměnná “soupeřı́
o vliv” s absolutnı́m členem. Problém bývá označován v regresnı́ analýze jako problém kolinearity (či multikolinearity) a budeme jej studovat později. Ted’ si však dovolme si ještě jednu, v
podstatě technickou poznámku.
Někdy se stane, že při regresnı́ analýze provedené pomocı́ některé statistické počı́tačové
knihovny narazı́me na “záhadu”, která je evidentně podivná už na prvnı́ pohled, ale jen na
ten, jak ihned uvidı́me. Stane se totiž, že výsledky Tabulky 4 napovı́dajı́, že absolutnı́ člen je
v modelu nevýznamný. Po zmenšenı́ počtu vysvětlujı́cı́ch proměnných o absolutnı́ člen dojde
nutně ke zvýšenı́ hodnoty reziduálnı́ho součtu čtverců a tedy intuitivně cı́tı́me, že i ke zhoršenı́
determinace modelu. Přesto však se hodnota koeficientu determinace zvýšı́. Jak je to možné?
Odpověd’ je skryta v Definici 1. V prvém přı́padě totiž počı́tač vyčı́slil koeficient determinace
vůči nulové hypotéze IE Y = γ · 1, v druhém přı́padě tak učinil vůči hypotéze IE Y = 0. To
P
ovšem implikuje, že za R02 bylo v prvém přı́padě vzata suma ni=1 (Yi − Ȳ )2 , v druhém přı́padě
P
to byla suma ni=1 Yi2 , která je vždy, a někdy může být dokonce podstatně, většı́ než ta prvnı́.
Vliv tohoto faktu na hodnotu koeficientu determinace je nynı́ již snadno nahlédnutelný.
Ne ve všech učebnicı́ch regerse se zdůrazňuje fakt, že je patrně vhodnějšı́ počı́tat vždy, pokud
proti tomu nejsou opravdu závažné důvody, model s absolutnı́m členem a to i v přı́padě, že se dle
studentizovaných statistik jevı́ jako nevýznamný. Toto doporučenı́ vycházı́ z faktu, že absolutnı́
člen hraje trochu jinou úlohu v modelu než ostatnı́ regresnı́ koeficienty, které udávajı́ sklon
regresnı́ nadroviny. Pokusme se to blı́že vysvětlit.
Předpokládejme, že naše data jsou umı́stěna daleko od počátku. Uvědomı́me-li si, že absolutnı́ člen je souřadnicı́ bodu, ve kterém regresnı́ nadrovina protı́ná y-novou osu, tj. osu na
kterou nanášı́me hodnoty vysvětlované proměnné, snadno nahlédneme, že malá změna ve sklonu
regresnı́ nadroviny způsobı́ velkou změnu absolutnı́ho členu. Na druhé straně malá změna ve
sklonu regresnı́ nadroviny způsobı́ jen malou změnu v predikcı́ch učiněných v oblasti dat nebo
69
v jejich blı́zkém okolı́. Zde je třeba mı́t na paměti to, že smyslplné predikce lze provádět pouze
v té oblasti faktorového prostoru, kterou pokrývala “trénovacı́” data, tj. data, ze kterých jsme
odhadovali model. Odtud je vidět, že všechny úvahy o signifikantnosti absolutnı́ho členu jsou
podmı́něné polohou dat ve faktorovém prostoru. Na druhé straně, obvykle chceme, aby naše
závěry byly v jistém smyslu invariantnı́. Např. pokud jen posuneme data ve faktorovém prostoru a neprovedeme nějaké jejich otočenı́, patrně opodstatněně očekáváme, že predikce provedené
pomocı́ modelů na původnı́ch a posunutých datech se budou lišit právě je tı́m posunutı́m. To
však vı́ce méně vyžaduje, aby začleněnı́ absolutnı́ho členu do modelu bylo nezávislé na posunutı́
dat. To implikuje, že úvahy o signifikantnosti absolutnı́ho členu majı́ tedy smysl pouze tehdy,
pokud je tato poloha v jakémsi smyslu “absolutnı́”. Pak ovšem zase naopak ztrácejı́ smysl úvahy
o invarianci odhadu a to může mı́t dalekosáhlé důsledky pro volbu odhadu, tj. můžeme pak dát
přednost jinému odhadu než je odhad metodou nejmenšı́ch čtverců.
Dřı́ve než uzavřeme tento odstavec, dovolı́me se dotknout jednoho problému, který svou
svůdnostı́ připomı́ná Skyllu (či Charibdu). Jednoduše a snad i výstižně by se tento problém dal
označit jako unáhlené závěry vyvozené ze znaménka odhadů regresnı́ch koeficientů. Ačkoliv po
krátké diskuzi snadno nahlédneme, jak zavádějı́cı́ mohou být úvahy opřené o znaménko odhadu
přı́slušného regresnı́ho koeficientu, stále se ještě objevujı́ a to i v jinak docela seriznı́ch článcı́ch.
O co se jedná?
Problém je patrně, kromě jiného, v tom, že v řadě učebnı́ch textů o regresnı́ analýze nenı́ bud’
vůbec, či je jen velmi povrchně diskutována otázka, jak interpretovat výsledky regresnı́ analýzy.
Toto opomenutı́ pak způsobı́, že se můžeme setkat s výroky typu: “Znaménka odhadů regresnı́ch
koeficientů vyšla v souladu s našimi představami o kauzálnı́ch souvislostech, nebot’ nárůst hladiny
δ-terfendinu (jedna z vysvětlujı́cı́ch proměnných) by měl negativně ovlivňovat adrenergnı́ stimulaci (vysvětlovaná proměnná) pacienta”. Při takovéto interpretaci výsledků regresnı́ analýzy
je však zcela opominut fakt, že uvolňovánı́ δ-terfendinu je spojeno s úbytkem κ-histaminu a
η-proteinu (jiné dvě vysvětlujı́cı́ proměnné), v řeči statistiky, jedna z vysvětlujı́cı́ch proměnných
je téměř nepřı́mo úměrná dalšı́m dvěma. Tudı́ž nárůst hladiny δ-terfendinu vyvolá, až na statistické odchylky, pokles κ-histaminu a η-proteinu a celkový dopad na adrenergnı́ stimulaci může
být pozitivnı́, tj. zcela jiný než napovı́dajı́ jednotlivá znaménka (či velikosti) odhadů regresnı́ch
koeficientů. Jinými slovy, při interpretaci výsledků regresnı́ analýzy je třeba posuzovat model
komplexně, tj. je nutné vzı́t v úvahu rovněž vzájemnou závislost (a jejı́ mı́ru, či stupeň, chcete-li)
mezi vysvětlujı́cı́mi proměnnými, a to bohužel u každého jednotlivého subjektu. Vysvětleme to
podrobněji.
Prvnı́ domněnka, která nás napadne bude to, že právě popsaná situace je důsledkem (vysoké)
korelovanosti některých vysvětlujı́cı́ch proměnných. Tuto vysokou korelovanost jsme vyjádřili
slovy “téměř nepřı́mo úměrné”. Odtud je jen krok k dohadu, že tato korelovanost by se měla
projevit v kolinearitě. O té se budeme bavit později podrobně a proto nynı́ jen krátce vysvětleme,
že kolinearita je právě označenı́ pro situaci, kdy jsou některé vysvětlujı́cı́ proměnné téměř
lineárně závislé. Zdůrazněme ještě jednou, že se jedná o situaci, kdy jsou regresory téměř
lineárně závislé, přičemž důraz je jak na slově téměř, tak na slově lineárně. K prvnı́mu z těchto
dvou slov znovu připomeňme, že např. pro dvourozměrné normálnı́ rozdělenı́ “vrstevnice na hustotě” budou výrazněji eliptického tvaru s možnostı́ alespoň náznaku jakési intervalové predikce
jedné souřadnice při znalosti té druhé až pro absolutnı́ hodnoty korelačnı́ho koeficientu alespoň
70
0.6 či spı́še 0.8. Podobně druhé slovo je důležité, nebot’ kolinearita, jak ostatně název napovı́dá,
bude indikována jen při lineárnı́m vztahu mezi regresory. Ostatně si je lehké představit, že např.
ve chvı́li, kdy se budeme domnı́vat, že vysvětlovaná proměnná je polynomiálně závislá na některé
vysvětlujı́cı́ proměnné, prostě zařadı́me do matice plánu sloupce představujı́cı́ vyššı́ mocniny této
vysvětlujı́cı́ proměnné. Pokud bude variabilita této proměnné v datech dosti vysoká, nezpůsobı́
to kolinearitu, ale výše zmı́něný problém to dokáže vyvolat zcela perfektně. Ve výše citovaném
přı́kladě by naprosto analogická situace vznikla pokud by např. κ-histamin byl (téměř) kvadraticky závislý na δ-terfendin a podobně η-protein (téměř) závislý na δ-terfendin ve třetı́ mocnině.
Problém tedy je v tom, že kolinearita nemusı́ být indikována z toho důvodu, protože tam
prostě nenı́. Navı́c výše zmı́něná téměř nepřı́má úměrnost může mı́t u každého pacienta jiný
průběh a tudı́ž v celém souboru dat o n pacientech tuto téměř nepřı́mou úměrnost prostě
nezjistı́me. Snadno si lze představit, že pokud bude většı́ nepřı́má úměrnost mezi δ-terfendinem
a κ-histaminen “kompenzována” menšı́ nepřı́mou úměrnostı́ mezi δ-terfendinem a η-proteinem
u jednoho subjektu (pacienta) a u jiného tomu bude naopak, nebudou prostě data žádnou kolinearitu vykazovat, ale výše uvedený efekt bude opět bez problému fungovat. Proto je třeba
přistupovat k interpretaci odhadů regresnı́ch koeficientů a dokonce i jejich znamének
velmi obezřetně. Zejména vyvozovánı́ jakýchkoliv kauzálnı́ch, či “skoro” kauzálnı́ch
závěrů je velmi riskantnı́.
Na závěr ještě poznamenejme, že pokud však jsou naše představy o kauzalitě založeny na
dobře obhajitelných úvahách (např. rozloha mı́stnosti je patrně přı́mo úměrná délce jejich stěn),
pak samozřejmě můžeme tyto “představy” použı́t jako “diagnostickou” informaci pro posouzenı́
adekvátnosti modelu. Na druhé straně, je pojem kauzality třeba brát, vzhledem k vývoji vědy
a zejména filosofie vědy v druhé polovině dvacátého stoletı́, s náležitou rezervou a opatrnostı́.
To znamená, pokud jsou naše představy o kauzalitě spı́še hypotézami, které si snažı́me empirickou studiı́ potvrdit, nejsou výše uvedené úvahy o “správném” znaménku odhadů regresnı́ch
koeficientů vůbec namı́stě.
5.2
Grafy reziduı́
Jednı́m z běžně použı́vaných nástrojů diagnostiky jsou grafické metody. Je zřejmé, že na rozdı́l
od testů, které na předem zvolené hladině jednoznačně otestujı́ např. hypotézu o normalitě či
homoskedasticitě reziduı́, grafické medoty spı́še napovı́dajı́ cosi o porušenı́ těchto hypotéz. Jejich
výhodou je však to, že jsou snadno dostupné v mnoha statistických knihovnách, obvykle na jedno
kliknutı́ myši, a navı́c to, že často tvar grafu či poloha bodů na grafu indikujı́, které body jsou
atypické, přı́padně co je důvodem porušenı́ předpokladu. Konečně pak někdy napovědı́ možný
způsob nápravy situace. Poznamenejme však, že přirozeně problém nenı́ zda použı́vat raději
grafické metody či rigiroznı́ testy. Měli bychom využı́vat obojı́ !
Nynı́ si dovolı́me popsat některé nejběžněji použı́vané grafické metody. Dřı́ve však než se do
toho pustı́me, připomeňme, že jsme předpokládali, že data jsou generována modelem
Yi = xTi β 0 + Ei ,
i = 1, 2, . . . , n,
(66)
ve kterém posloupnost {Ei }∞
i=1 je posloupnostı́ nezávislých stejně rozdělených náhodných veličin.
Ač je to samozřejmé, připomeňme, že z toho, že veličiny Ei , i = 1, 2, . . . jsou stejně rozdělené
71
plyne, že majı́ stejný rozptyl. Situaci, kdy všechny náhodné fluktuace majı́ stejný rozptyl,
řı́káme homoskedasticita a opačné, tj. takové, kdy rozptyl všech náhodných fluktuacı́ nenı́
stejný, heteroskedasticita. Často, a hned poznamenejme, že až přı́liš často a mnohdy evidentně
neoprávněně, předpokládáme, že se fluktuace řı́dı́ normálnı́m rozdělenı́m. Normalita reziduı́, jejich homoskedasticita, vzájemná nezávislost a nezávislost s regresory, pokud je adekvátnějšı́ tyto
pokládat za náhodné, jsou základnı́mi předpoklady pro úspěšné provedenı́ regresnı́ analýzy pomocı́ nejmenšı́ch čtverců. Grafické metody jsou jednou z možnostı́ jak ověřit prvé dva z těchto
předpokladů.
Mezi nejznámějšı́ grafické nástroje patřı́ následujı́cı́ dva typy grafů. Prvnı́ typ je založen na
myšlence, která řı́ká: Pokud majı́ všechny náhodné fluktuace stejný rozptyl nesmı́ graf, ve kterém
vyneseme rezidua proti některé jiné veličině, např. indexu pozorovánı́ (index plot), některé
vysvětlujı́cı́ proměnné či některé jiné charakteristice jednotlivého pozorovánı́ vykazovat žádnou
pravidelnost. Pokud dojde k nějaké “pravidelnosti”, např. rezidua budou vı́ce rozptýlena pro
vyššı́ hodnoty indexů, je pravděpodobné, že hypotéza o homoskedasticitě nenı́ namı́stě. Podobně,
pokud vyneseme rezidua proti některé vysvětlujı́cı́ proměnné a objevı́me nějakou pravidelnost,
je lépe nepředpokládat homoskedasticitu.
Někdy se doporučuje vynášet rezidua proti vyhlazeným (či chcete-li, vyrovnaným) hodnotám vysvětlované proměnné. Za tı́mto doporučenı́m stojı́ myšlenka, že se tı́m posoudı́ vliv
všech vysvětlujı́cı́ch proměnných na velikost rozptylu náhodných fluktuacı́ najednou. Přitom
vliv jednotlivých vysvětlujı́cı́ch proměnných je zvážen ve stejném poměru v jakém se podı́lejı́ na
predikovánı́ střednı́ hodnoty vysvětlované proměnné.
Druhý typ grafu je konstruován tak, že se vynášejı́ rezidua proti kvantilům toho rozdělenı́,
o kterém se domnı́váme, že se jı́m řı́dı́ náhodné fluktuace v našem modelu. Abychom nahlédli
heuristiku druhého typu grafů, stačı́ si uvědomit, že pokud bychom stáli před úkolem odhadnutı́
α-kvantilu pro jednorozměrná data o rozsahu n postupovali bychom takto. Seřadili bychom
pozorovánı́ dle velikosti a za odhad α-kvantilu bychom vzali pozorovánı́ stojı́cı́ na k-tém mı́stě v
této uspořádané řadě, pro k = [n · α], kde [n · α] je největšı́ celé čı́slo, které je menšı́ n · α. Podle
Glivenkovy věty (Glivenko (1933), Rao (1978)) konverguje tento odhad α-kvantilu k teoretické
hodnotě α-kvantilu. To znamená, že pokud jsou rezidua rozdělena normálně a jestliže je seřadı́me
dle velikosti, měla by tato uspořádaná rezidua být přibližně rovna odpovı́dajı́cı́m kvantilům
normálnı́ho rozdělenı́. Vyneseme-li tedy do grafu uspořádaná rezidua proti kvantilům normálnı́ho
rozdělenı́, měl by takový graf tvořit přibližně přı́mku. Pokud tedy obdržı́me cosi, co je značně
odlišné od přı́mky, je nerozumné trvat na hypotéze normality.
Na závěr této kapitoly se ještě zmiňme o grafu, který se svým charakterem vymyká z běžných
grafů reziduı́. Umožňuje totiž graficky nahlédnout vliv jednoho pozorovánı́, který budeme studovat nı́že. Graf bývá ve statistických knihovnách označován jako Residuals and deleted residuals
a bývá v něm pro každý bod vyneseno vždy jeho rezı́duum v modelu budovaném na základě
všech dat proti rezı́duu tohoto bodu, ale v modelu, který byl odhadnut na základě dat, ze
kterých byl právě tento bod vyloučen. Přirozeně heuristika, která je za tı́mto grafem je snadno
pochopitelná. Je-li přı́slušný bod vlivný, pak modely odhadnuté na základě všech bodů a na
základě dat neobsahujı́cı́ch tento bod budou (podstatně) odlišné, ve smyslu velikosti rezidua pro
tento bod, tj. ve smyslu vysvětlovánı́ funkčnı́ hodnoty modelu v tomto bodě, a tedy přı́slušný
body v grafu ležı́ daleko od hlavnı́ diagonály. Pokud se tedy na displeji objevı́ body, které jsou
72
(velmi) daleko od hlavnı́ diagonály, je možné pojmout podezřenı́, že tyto body jsou vlivné či
atypické, a je třeba jim věnovat dalšı́ pozornost. Na druhé straně, snadno si domyslı́me i slabiny
tohoto grafu. Vypuštěnı́ jednoho bodu z dat může mı́t docela podstatný vliv na odhady hodnot
regresnı́ch koeficientů, což se může, ale ve vı́cerozměrném přı́padě také nemusı́, projevit na hodnotách reziduı́. Přirozeně však se tato změna reziduı́ může týkat daleko vı́ce jiných bodů, než
právě toho, který byl z dat vypuštěn. Nezbývá tedy než znova apelovat na to, že žádný diagnostický prostředek by neměl být použı́ván slově, ale k vytvořenı́ si představy o “oprávněnosti”
modelu by měly být využity všechny diagnostické prostředky, které jsou v té knihovně, kterou
použı́váme, k dispozici. Toto tvrzenı́ jistě platı́ i naopak: neměli bychom použı́vat knihovnu,
která nenabı́zı́ slušnou škálu diagnostických nástrojů, viz např. tabulkové procesory.
6
OVĚŘOVÁNÍ ZÁKLADNÍCH PŘEDPOKLADŮ
Jak jsme uvedli na konci prvnı́ kapitoly, považujeme za základnı́ předpoklady regresnı́ analýzy
splněnı́ podmı́nek A, tj. nulovost střednı́ hodnoty náhodných fluktuacı́, jejich homoskedasticitu
a vzájemnou nezávislost, a dále pak jejich normalitu a přı́padně nezávislost na vysvětlujı́cı́ch
proměnných. V této kapitole se naučı́me testovat, přirozeně aposteriorně na základě reziduı́,
jejich splněnı́. Pokud je v modelu intercept, a výše jsme uvedli argumenty, doporučujı́cı́ jej v
modelu vždy podržet, jedna z normálnı́ch rovnic zaručuje nulovost průměru reziduı́. To znamená,
že co se týká předpokladu o nulovosti střednı́ hodnoty náhodných fluktuacı́, nenı́ co testovat.
Budeme se tedy věnovat vyšetřovánı́ dalšı́ch předpokladů.
6.1
Homoskedasticita a heteroskedasticita
Jak plyne z názvu tohoto odstavce, budeme si nynı́ povı́dat o homoskedasticitě a heteroskedasticitě, jejich testovánı́, přı́padně modelovánı́. Při odvozovánı́ dosud uvedených výsledků jsme
předpokládali homoskedasticitu. Zdálo by se tedy logické nejprve uvést testy homoskedasticity,
poté popsat nejběžnějšı́ modely heteroskedasticity a konečně pak jejı́ vliv na β̂ (LS,n) . Vzhledem k
tomu, že přinejmenšı́m některé testy homoscedasticity vyžadujı́ popsánı́ alternativy, tj. popsánı́
modelu heteroskedasticity, začneme vlastně od konce, totiž popisem modelů heteroskedasticity.
Dnes se často v rámci teorie časových řad a dynamické verze regresnı́ho modelu tyto modely rozptylu označujı́ jako modely volatility. Dřı́ve však než se budeme věnovat těmto modelům,
pokusme se zamyslet nad tı́m, kdy může být předpoklad o homoskedasticitě (evidentně) porušen.
6.1.1
Přı́klady situacı́ s heteroskedastickými fluktuacemi
Jednı́m z typických přı́kladů z mikroekonomie, kdy je téměř evidentnı́, že předpoklad homoskedasticity je přinejmenšı́m diskutabilnı́, je model výdajů domácnostı́. Zdá se přirozené,
že ty domácnosti, které majı́ menšı́ přı́jmy, budou mı́t také menšı́ rozptyl ve svých výdajı́ch,
neboli stojı́-li výdaje domácnosti at’ už v roli vysvětlované či vysvětlujı́cı́ veličiny, je velikost
náhodných fluktuacı́ závislá od této veličiny, viz Prais, Houthakker (1955) nebo Theil (1971) .
Jinými slovy rozptyl náhodných fluktuacı́ nenı́ nezávislý od (indexu) pozorovánı́.
Kromě právě zmı́něného přı́kladu bývá v literatuře nejčastěji připomı́nána situace, kdy naše
data vznikla jako zprůměrované hodnoty, např. přes vı́ce jedinců, přes některé teritorium, v
73
průběhu některého časového intervalu a pod., a dále pak model, ve kterém jsou regresnı́ koeficienty náhodné. Přirozeně se předpokládá malá odchylka od jakési jejich střednı́ hodnoty, malá
v porovnánı́ s hodnotou těchto koeficientů. Krátce popišme oba přı́klady.
Předpokládejme, že dat jsou rozdělena do K skupin, v každé skupině je nk jedinců, celkový
P
počet jedinců je tedy n = K
k=1 nk a platı́ model
Yi = xTi β 0 + Ei , i = 1, 2, ..., n,
(67)
ve kterém IE EE T = σIn , kde jako obvykle E = (E1 , E2 , ..., En )T a kde jedinci s indexem
i, n1 + n2 + ... + nk−1 < i ≤ n1 + n2 + ... + nk patřı́ do k-té skupiny. Nynı́ předpokládejme, že
máme k dispozici pouze průměry přes jednotlivé skupiny, tj. jsou nám přı́stupné pouze hodnoty
Ȳk , x̄k , k = 1, 2, ..., K, kde
1
nk
Ȳk =
i=n1 +n
2 +...+nk
X
Yi
x̄k =
i=n1 +n2 +...+nk−1
1
nk
i=n1 +n
2 +...+nk
X
xi ,
i=n1 +n2 +...+nk−1
kde v poslednı́m výraze je samozřejmě naznačená operace mı́něna po složkách přı́slušných vektorů. Z (67) plyne
Ȳk = x̄Tk β 0 + Ēk , k = 1, 2, ..., K,
(68)
kde samozřejmě
Ēk =
1
nk
i=n1 +n
2 +...+nk
X
Ei
i=n1 +n2 +...+nk−1
je nepřı́stupné měřenı́ a představuje jakési “zprůměrované” náhodné fluktuace. Je patrné, že
IE Ēk = 0, ale

2
i=n1 +n
2 +...+nk
X
1
IE Ēk2 = 2 IE 
nk
i=n
Ei  =
1 +n2 +...+nk−1
σ2
nk σ 2
=
,
nk
n2k
neboli fluktuace v modelu (68) jsou heteroskedastické. Naštěstı́ IE Ēk Ēj = 0 pro k 6= j (dı́ky
tomu, že v přı́slušných sumách vystupujı́ nekorelované náhodné veličiny) a tedy
(
T
IE Ē Ē = diag
σ2 σ2
σ2
, , ...,
n1 n2
nK
)
,
kde diag {a, b, ..., c} označuje diagonálnı́ matici s uvedenými prvky na diagonále. To znamená,
že zobecněný odhad metodou nejmenšı́ch čtverců bude mı́t jednoduchý tvar
β̂
(GLS,n)
=

à !−1
K
X
σ2

k=1
nk
−1
à !−1
K
 X
σ2
x̄k x̄Tk

k=1
nk
Ȳk x̄k =
(K
X
nk x̄k x̄Tk
k=1
)−1 K
X
nk Ȳk x̄k .
k=1
Protože počty jedinců nk v jednotlivých třı́dách jsou obvykle známé, je možné tento odhad přı́mo
vyčı́slit. Poněkud jiná situace nastává v přı́padě, kdy předpokládáme, že regresnı́ koeficienty
fluktuujı́, poněkud a samozřejmě ne přı́liš, okolo jakési své střednı́ hodnoty.
Předpokládejme tedy model
Yi = xTi β(i) + Ei , i = 1, 2, ..., n,
74
(69)
n
on
0 = β 0 +V
p
kde β(i)
je posloupnost náhodných vektorů. Poprvé byl
(i) s tı́m, že V(i) ∈ R a V(i)
i=1
takový model studován v práci Hildreth a Houck (1968), kde autoři předpokládali, že vektory
V(i) jsou nezávislé a stejně rozdělené a s navzájem nezávislými souřadnicemi, které majı́ nulové
střednı́ hodnoty a pozitivnı́ rozptyly αj , j = 1, 2, ..., p. Potom můžeme model (69) přepsat do
tvaru
³
´
Yi = xTi β 0 + V(i) + Ei = xTi β 0 + Ui , i = 1, 2, ..., n,
P
kde ovšem Ui = Ei + xTi V(i) a tedy IE Ui = 0, ale σi2 = IE Ui2 = pj=1 αj x2ij . Položı́meª
©
li tedy U = (U1 , U2 , ..., Un )T , máme IE U U T = diag σ12 , σ22 , ..., σn2 . Jinými slovy kovariančnı́
matice náhodných fluktuacı́ je diagonálnı́, ale nenı́ úměrná jednotkové matici. V obou uvedených
přı́kladech tedy opět nenı́ rozptyl náhodné fluktuace i-tého pozorovánı́ nezávislý od indexu i.
Povšimněme si, a v textu jsme to záměrně zdůraznili, že to co jsme rozuměli na začátku
výkladu v těchto skriptech pod homoskedasticitou byla konstantnost rozptylu náhodných fluktuacı́. Z té samozřejmě plyne, v přı́padě modelu s deterministickými vysvětlujı́cı́mi proměnnými,
i konstantnost rozptylu vysvětlované veličiny. V přı́padě modelu s náhodnými vysvětlujı́cı́mi
veličinami, však toto neplatı́ a i v přı́padě, že bude zachována homoskedasticita náhodných
fluktuacı́, bude mı́t vysvětlovaná proměnná obecně rozptyl závislý na indexu i. To však nebude
na závadu eficientnosti odhadu β̂ (LS,n) , pokud tyto vysvětlujı́cı́ proměnné budou nekorelované
s náhodnými fluktuacemi; vše si vysvětlı́me nı́že, v odstavci o instrumentálnı́ch proměnných.
Pokud bychom ve výše uvedených přı́kladech aplikovali odhad β̂ (LS,n) , nedostaneme eficientnı́
odhady regresnı́ch koeficientů. Na druhé straně, přı́má aplikace odhadu β̂ (GLS,n) nenı́ (obvykle)
možná, nebot’ nejsou známé hodnoty σi2 . K jejich vyčı́slenı́ bychom potřebovali znát vektor α, což
je ovšem nerealistický předpoklad. Běžně se tato situace řešı́ tak, že neznámé parametry, v našem
přı́padě souřadnice vektoru α, odhadneme a dosadı́me do vztahu pro β̂ (GLS,n) . Mluvı́me potom
o estimated generalized least squares estimator, česky patrně (kostrbatě) zobecněném odhadu
metodou nejmenšı́ch čtverců s odhadnutými parametry. Tento odhad bude v dalšı́m označován
jako β̂ (EGLS,n) .
Dřı́ve než postoupı́me dále, poznamenejme ještě, že pokud je kovariančnı́ matice náhodných
fluktuacı́ diagonálnı́, ale nenı́ úměrná jednotkové matici, mluvı́me často o váženém odhadu
metodou nejmenšı́ch čtverců. Snadno se totiž nahlédne, že β̂ (GLS,n) je běžným odhadem metodou
nejmenšı́ch čtverců v modelu
Yi
xT
Ei
= i β 0 + , i = 1, 2, ..., n.
σi
σi
σi
Popišme nynı́ alespoň nejběžněji studované modely pro rozptyl náhodných fluktuacı́.
6.1.2
Modely heteroskedasticity
Je naprosto přirozené, že v přı́padě, kdy pojmeme podezřenı́, že náhodné fluktuace v regresnı́m
modelu nejsou homoskedastické (a přı́padně se toto podezřenı́ potvrdı́ některým nı́že uvedeným
testem), se pokusı́me složitějšı́ kovariančnı́ strukturu náhodných fluktuacı́ namodelovat a odhadnout parametry navrženého modelu. Nejjednoduššı́m se přirozeně jevı́ použı́tı́ některého regresnı́ho modelu, ve kterém “ještě jednou” použijeme informaci, která je obsažena ve zpracovávaných datech k namodelovánı́ zmı́něné kovariančnı́ struktury. Obecně se může stát, že relevantnı́ vysvětlujı́cı́ proměnné pro model kovariančnı́ struktury náhodných fluktuacı́ budou různé
75
od relevantnı́ch vysvětlujı́cı́ proměnných v původnı́m regresnı́m modelu. Toto bude formálně reflektováno v nı́že uvedených vztazı́ch, byt’ samozřejmě ve většině aplikacı́ se bude jednat o ty
samé proměnné.
Dřı́ve než se budeme věnovat jednotlivým modelům heteroskedasticity připomeňme, že v přı́padě
heteroskedasticity, pokud chceme dosáhnout eficientnı́ho dohadu, musı́me použı́t zobecněný
odhad β̂ (GLS,n) . To implikuje, že pokud bychom nebyli schopni odhadnout kovariančnı́ matici Σ,
nemůžeme v tomto úsilı́ uspět. Na druhé straně, za docela obecných podmı́nek můžeme, podobně
jako jsme to provedli výše, dokázat asymptotickou normalitu odhadu β̂ (GLS,n) , tj. ukázat, že
L
´
³√
n(β̂ (GLS,n) − β 0 ) → N (0, Q−1 V Q−1 ),
kde se předpokládá, že existuje regulárnı́ matice Q jakožto limita výrazů n1 xT x a matice V
jakožto limita výrazů n1 xT Σx. A za určitých podmı́nek (viz např. Eicker (1967), White (1980)
P
nebo Nicholls, Pagan (1983)) lze ukázat, že V̂ = n1 ni=1 ri2 xi xTi (kde ri = Yi − xTi β̂ (LS,n) ) je
konsistentnı́m odhadem V . To znamená, že budemeli chtı́t např. testovat hypotézu, že Cβ 0 = κ,
kde C je matice typu (` × p) a plné hodnosti, a κ ∈ R` , můžeme použı́t toho, že
Ã
L [C(β̂
·
(LS,n)
0 T
− β )]
³
T
C X X
´−1
T
³
T
X ΣX X X
´−1
T
C
!
¸−1
[C(β̂
(LS,n)
0
− β )]
→ χ2 (`).
Jinými slovy to znamená, že některé hypotézy o regresnı́ch koeficientech je možné testovat bez
toho, že bychom odhadli matici Σ (tj. bez bližšı́ specifikace kovariančnı́ sktuktury náhodných
fluktuacı́).
Směrodatná odchylka jako lineárnı́ funkce vysvětlujı́cı́ch proměnných
Uvažujme lineárnı́ regresnı́ model
Yi = xTi β 0 + Ei i = 1, 2, ..., n
(70)
s kovariančnı́ strukturou náhodných fluktuacı́ danou následovně:
³
IE Ei = 0,
IE Ei Ej = 0,
IE Ei2 = ziT α
´2
i 6= j = 1, 2, ...n.,
(71)
kde {zi }ni=1 je posloupnost nenáhodných s-rozměrných vektorů a α ∈ Rs je vektor regresnı́ch
koeficientů popisujı́cı́ kovariančnı́ strukturu náhodných fluktuacı́. Jak jsme už podotkli výše,
posloupnost {zi }ni=1 může, ale nemusı́ být různá od posloupnosti {xi }ni=1 . Často navı́c předpokládáme,
že náhodné veličiny Ei , i = 1, 2, ..., n jsou nezávislé či že n
jejich rozdělenı́ je stejného
typu, tj. lišı́
o
T
T
T
T
se pouze velikostı́ rozptylu. Protože Σ = IE EE = diag z1 α, z2 α, ..., zn α , máme
β̂ (GLS,n) =
à n
X
!−1 n
X
i=1
i=1
(zi α)−2 xi xTi
(zi α)−2 xi Yi .
Je ovšem nerealistické předpokládat, že budeme znát vektor α, jinými slovy to znamená, že je
třeba odhadnout tento vektor a použı́t odhad β̂ (EGLS,n) . K návrhu vhodného odhadu pro α
může vést následujı́cı́ úvaha. Předpokládejme nadále, že typ rozdělenı́ velčin Ei , i = 1, 2, ..., n je
pro všechny stejný. Z (71) pak plyne, že studentizované veličiny σ1−1 E1 , σ2−1 E2 , ..., σn−1 En jsou
76
stejně rozdělené a tedy IE σi−1 Ei = c, i = 1, 2, ...n, kde c ∈ R+ . Toto neznamená nic jiného než,
že IE σi Ei = cσi , i = 1, 2, ...n, a tedy můžeme psát
|ri | = ziT α + Vi ,
(72)
kde ri = Yi −xTi β̂ (LS,n) a Vi , i = 1, 2, ..., n je vhodná posloupnost náhodných veličin (je okamžitě
vidět, že Vi = |ri | − IE |Ei |). Odtud
³
cα̂(LS,n) = Z T Z
´−1
Z T |r|,
kde Z = (z1 , z2 , ...zn )T a r = (r1 , r2 , ..., rn )T a konečně
β̂
(EGLS,n)
=
à n
X
(zi α̂
(LS,n) −2
)
xi xTi
!−1 n
X
(zi α̂(LS,n) )−2 xi Yi
i=1
=
à n
X
(czi α̂
i=1
(LS,n) −2
)
xi xTi
!−1 n
X
(czi α̂(LS,n) )−2 xi Yi .
i=1
(73)
i=1
Problémy ovšem nastanou pokud chceme odhadnout kovariančnı́ matici tohoto odhadu, nebot’
tam se projevı́ fakt, že neznáme a ani jednoduše neumı́me odhadnout c. Dalšı́ problémem je
samozřejmě to, že cα̂(LS,n) ani zdaleka nemusı́ být dobrým odhadem cα. Protože i v přı́padě
heteroskedasticity může být β̂ (LS,n) konsistentnı́m odhadem (viz poznámka v důkaze Lemmatu
2), bude, v přı́padě konsistentnosti odhadu β̂ (LS,n) , |ri | konvergovat v distribuci k |Ei | a to
stejnoměrně pro i = 1, 2, ..., n (podrobnějšı́ diskuzi lze nalézt např. v pracech Harvey (1974) či
Theil (1971) ). To znamená, že asymptoticky budou mı́t náhodné fluktuace Vi nulovou střednı́
hodnotu a rozptyl
IE Vi2 = IE |Ei |2 − (IE |Ei |)2 = σi2 (1 − c2 ) = (ziT α)2 (1 − c2 ).
Poslednı́ vztah naznačuje, že fluktuace Vi jsou “asymptoticky heteroskedastické” a tedy bychom
k odhadu měli použı́t α̂(GLS,n) . Pokud budeme předpokládat, že v modelu (70) jsou náhodné
fluktuace nezávislé,
budou Vi , i = 1, 2, ..., n také, alespoň asymptoticky,
nezávislé. Potom bude
n
o
T
2
2
T
2
2
T
2
2
ΣV = diag (z1 α) (1 − c ), (z2 α) (1 − c ), ..., (zn α) (1 − c ) a tedy
α̂
(GLS,n)
=
à n
X
(zi α̂
(LS,n) −2
)
zi ziT
i=1
a konečně
β̂
(EGLS,n)
=
à n
X
(zi α̂
!−1 n
X
(zi α̂(LS,n) )−2 zi ri
i=1
(GLS,n) −2
)
xi xTi
i=1
!−1 n
X
(zi α̂(GLS,n) )−2 xi Yi .
(74)
i=1
Ačkoliv jsme ve vztazı́ch (73) a (74) formálně nerozlišili, že se jedná o dva různé odhady, je
jasné, v čem spočı́vá jejich odlišnost. Vlastnosti těchto odhadů nebyly dosud plně prostudovány
a ačkoliv je (téměř) zřejmé, že asymptoticky budou ekvivalentnı́, lze tušit, že pro konečný výběr
dat, může patrně estimátor ze vztahu (74) dávat lepšı́ výsledky než ten ze vztahu (73).
Dalšı́ možnostı́, jak se vypořádat s heteroskedasticitou náhodných fluktuacı́, je použı́t maximálně
věrohodný odhad pro β a α. Obvykle se v tom přı́padě předpokládá normálnı́ rozdělenı́ náhodných
77
fluktuacı́. Derivace logaritmu věrohodnostnı́ funkce však vede na nelineárnı́ rovnice a je nutná
numerická maximalizace. To jistě v době rozvinuté počı́tačové techniky nenı́ zásadnı́ problém.
Problémem spı́še je fakt, že předpoklad normality fluktuacı́ je nesmı́rně silný, nebot’ i při
malých odchylkách od tohoto předpokladu se změnı́, přirozeně k horšı́mu, vlastnosti statistik
(optimálnı́ch při předpokladu normality) daleko vı́ce než jsme ochotni připustit. Jeden takový
přı́klad, který byl znám už R. A. Fisherovi v roce 1922, si připomeneme v kapitole věnované
kolinearitě. Proto se nebudeme touto alternativou podrobněji zabývat.
Rozptyl jako lineárnı́ funkce vysvětlujı́cı́ch proměnných
Budeme opět uvažovat lineárnı́ regresnı́ model (70) tentokrát však s kovariančnı́ strukturou
náhodných fluktuacı́ danou takto:
IE Ei = 0,
IE Ei Ej = 0,
IE Ei2 = σi2 = ziT α
i 6= j = 1, 2, ...n.,
kde {zi }ni=1 je posloupnost nenáhodných s-rozměrných vektorů a α ∈ Rs je vektor regresnı́ch
koeficientů popisujı́cı́ kovariančnı́ strukturu náhodných fluktuacı́.
Podobně jako výše můžeme psát
ri2 = ziT α + Vi ,
(75)
kde opět ri = Yi −xTi β̂ (LS,n) a Vi , i = 1, 2, ..., n je vhodná posloupnost náhodných veličin. Odtud
³
α̂(LS,n) = Z T Z
´−1
Z T r2 ,
kde Z = (z1 , z2 , ...zn )T a r2 = (r12 , r22 , ..., rn2 )T . Problémem je, že tento odhad je vychýlený, dı́ky
tomu, že náhodné veličiny Vi nemajı́ v tomto přı́padě ani asymptoticky nulovou střednı́ hodnotu,
jsou heteroskedastické a korelované. O vychýlenı́ odhadu α̂(LS,n) si lze udělat snadno představu.
Pro vektor reziduı́ máme
³
´
r = Y − X β̂ (LS,n) = I − X(X T X)−1 X T Y
³
= I − X(X T X)−1 X T
neboli ri =
ovšem
Pn
j=1 mij Ej ,
´³
´
³
´
Xβ 0 + E = I − X(X T X)−1 X T E,
(76)
kde jsme mij označili i, j-tý prvek matice I − X(X T X)−1 X T . Potom
IE ri2 =
n
X
m2ij IE Ej2 =
j=1
n
X
m2ij zjT α
(77)
j=1
a tedy
IE r2 = M̃ Zα,
(78)
kde jsme symbolem M̃ označili matici, která má na i, j-tém mı́stě m2ij . Z posledně uvedeného
vztahu plyne
³
IE α̂(LS,n) = Z T Z
Odtud vyplývá, že vychýlenı́ odhadu
³
α̂(LS,n)
´−1
Z T M̃ Zα.
·³
je rovno
ZT Z
´−1
´−1
¸
Z T M̃ Z
− I α. Protože obvykle
ZT Z
Z T M̃ Z 6= I, nenı́ odhad α̂(LS,n) obvykle nevychýleným odhadem. Jako nevychýlené
odhady bývajı́ navrhovány
³
α̂(1) = Z T M̃ M̃ Z
78
´−1
Z T M̃ r2 ,
viz Hildreth a Houck (1968), nebo
³
α̂(2) = Z T M̃ Z
´−1
Z T r2 ,
viz Froehlich (1973). Ze tvaru odhadu α̂(1) je zřejmé, že se jedná o odhad metodou nejmenšı́ch
pro model
r2 = M̃ Zα + W,
(79)
pro jehož návrh byl inspiracı́ vztah (78) a ve kterém máme IE W = 0. Druhý odhad je
MINQUE (minimum quadratic unbiased estimator) odhadem, viz opět Froehlich (1973). Jak
jsme již podotkli výše, náhodné fluktuace v modelu (75) jsou heteroskedastické. To může být
inspiracı́ k modifikovat odhadů α̂(1) a α̂(2) , podobně jako byl odhad β̂ (LS,n) modifikován na
β̂ (GLS,n) . Ukažme si jak to lze provést pro α̂(1) .
Předpokládejme, že vektor náhodných fluktuacı́ má nulovou střednı́ hodnotu a kovariančnı́
matici Φ, o které budeme předpokládat, že je diagonálnı́, přičemž na diagonále stojı́ σ12 , σ22 , ..., σn2
tj. je porušena pouze homoskedasticita reziduı́, nikoliv jejech nekorelovanost. Užijeme-li nynı́
P
vztah ri = n`=1 mi` E` (viz (76) ) a vztah (77) (kde namı́sto zjT α budeme psát σj2 ) nalezneme
½³
IE
= IE
= IE
Ã
n
 X

mi` E`
mik Ek −
k=1
`=1
( n
X
n
X
mi` E`
`=1
n
X
n
X
mik Ek
mjs Es
+
`=1
−
`=1
=3
n
X
`=1
n
X
n
X
n
X
n
X
!Ã n
X
n
X
m2i` σ`2
´T ¾
n
X
n
X
n
X
m2i` σ`2 +
n
X
mi` E`
n
X
m2i` σ`2
+2
n
X
n
X
n
X
m2is σs2
mik Ek
)
n
X

m2ir σr2
r=1
r=1
mi` mj` σ`2
m2i` σ`2 +
`=1
m2ir σr2
!T 

m2ir σr2
`=1
n
X
n
X
r=1
k=1
`=1
s=1
mi` mj` σ`2
mjr Er −
`=1
m2ik σk2
n
X
n
X
r=1
k=1
`=1
rj2
mjs Es
mjr Er −
`=1
m2ir σr2 −
n
X
− IE
r=1
mjr Er
r=1
m2i` m2j` σ`4 + 2
rj2
s=1
mjs Es
`=1
m2i` σ`2
´³
m2i` σ`2
r=1
m2i` m2j` σ`4
n
X
n
X
s=1
s=1
=3
− IE
ri2
`=1
k=1
−
n
X
ri2
n
X
mik mjk σk2
k=1
n
X
n
X
m2i` σ`2
r=1
`=1
h
mik mjk σk2 = 3 M̃ Φ2 M̃
k=1
m2ir σr2
i
ij
+ 2 [M ΦM ]2ij .
Označme tuto matici Ψ. Nahradı́me-li nynı́ matici Φ např. odhadem Z α̂(LS,n) (či jiným výše
uvedeným odhadem pro α) a označı́me-li odhad takto zı́skaný odhad matice Ψ jako Ψ̂, dostaneme
³
α̂(1)EG = Z T M̃ Ψ̂−1 M̃ Z
´−1
Z T M̃ Ψ̂−1 r2 ,
kde jsme hornı́m indexem EG naznačili, že se jedná o zobecněný odhad metodou nejmenšı́ch
čtverců s odhadnutou kovariančnı́ maticı́.
Rozsáhlejšı́ diskuzi tohoto modelu heteroskedasticity lze najı́t např. v práci Harvey (1974),
Amemiya (1977) nebo Raj, Srivastava a Upadhyaya (1980) a v referencı́ch tam uvedených.
79
Rozptyl jako jiná funkce vysvětlujı́cı́ch proměnných
Z dalšı́ch modelů heteroskedasticity jsou často ještě studovány modely, ve kterých jsou rozptyl
či směrodatná odchylka vysvětlované veličiny úměrné některé mocnině jejı́ střednı́ hodnoty, tj.
modely, které mohou být psány např. následovně
h
IE Ei = 0,
IE Ei Ej = 0,
IE Ei2
i1
2
³
= σi = xTi α
´r
i 6= j = 1, 2, ...n,
kde r je obvykle některé (celé) kladné čı́slo, viz např. Amemiya (1973) či Battese a Bonyhady
(1981). Je ihned patrné, že pro r = 2 dostáváme speciálnı́ přı́pad modelu, který byl diskutován
v této kapitole jako prvnı́.
Podobně modelům s exponenciálnı́ závislosti rozptylu na vhodně vybraných vysvětlujı́cı́ch
veličinách se dostalo značné popularity. Formálnı́ vyjádřenı́ může vypadat např.
³
IE Ei = 0,
IE Ei Ej = 0,
IE Ei2 = σi2 = exp ziT α
´r
i 6= j = 1, 2, ...n.
Podrobnou diskuzi těchto modelů lze nalézt např. v pracech Just a Pope (1978), Griffiths
a Anderson (1982) či Kmenta (1986). Podotkněme ještě, že se těmto modelům často řı́ká
multiplikativnı́ modely heteroskedasticity, což bývá nepřı́liš přesvědčivě zdůvodňováno tı́m, že
historicky byl neprve studován logaritmus rozptylu vysvětlované veličiny jako násobek jejı́ střednı́
hodnoty.
6.1.3
Testy homoskedasticity
Jak název tohoto odstavce napovı́dá, budou dále vysvětleny testy, ve kterých bude hypotézou
vždy model, ve kterém jsou náhodné fluktuace homoskedastické. nı́že popsané testy obvykle
nejsou běžně nabı́zeny v komerčně dostupných statistických knihovnách a tak je na uživateli,
aby si je doprogramoval sám, což některé statistické knihovny to dovolujı́ přı́mo v rámci této
knihovny. Autor tohoto textu vı́ pouze o jedné knihovně, která nabı́zı́ test tohoto druhu, totiž
Whiteův test. Jedná se o knihovnu E-views (přı́padně TSP). Navı́c Whiteův test ve skutečnosti
testuje nezávislost regresorů a náhodných fluktuacı́, tj. testuje o něco silnějšı́ předpoklad než je
homoskedasticita. Podrobněji tyto problémy prodiskutujeme až se budeme zabývat Whiteovým
testem. Popis všech testů lze nalézt bud’ v nı́že uváděných originálnı́ch článcı́ch, kde lze nalézt
i důkazy následujı́cı́ch tvrzenı́ nebo v Judge a kol. (1980), kde je také “jen” popisný text.
Dřı́ve než se pustı́me do popisu jednotlivých testů, poznamenejme ještě, že testovánı́ homoskedasticity (či chcete-li, heteroskedasticity, což znovu připomı́náme je situace opačná k
homoskedasticitě, tj. situace, kdy je v modelu (66) alespoň pro jedno i IE Ei 6= σ 2 = IE E1 ) má
docela bohatou historii. Tomto ohledu je zajı́mavý článek Cook, Weisberg (1983).
Breusch-Paganův test (Breusch, Pagan (1979)) Breusch-Paganův test předpokládá, že
rozptyl jednotlivých náhodných fluktuacı́ se řı́dı́ modelem (dnes poněkud mdně použı́vaná terminologie by řekla modelem volatility, byt’ tento termı́n předpokládá (implicitně) spı́še závislost
na čase)
σi2 = h(ziT α),
kde h je některá, dostatečně hladká funkce, zi ∈ Rk , z technických důvodů majı́cı́ prvnı́ souřadnici
rovnou 1 a α = (α1 , α̃T )T ∈ Rk . Jak je okamžitě vidět, model pro rozptyly náhodných fluktuacı́
80
je založen opět na lineárnı́ regresi, která je “modifikována” některou (hladkou) funkcı́ h. Vektory
zi , (i = 1, 2, . . . , n) jsou vlastně hodnoty regresorů pro i-té pozorovánı́, tj. souřadnice těchto vektorů jsou právě ty charakteristické vlastnosti (atributy) pozorovánı́, o kterých máme podezřenı́,
že mohou ovlivňovat velikost rozptylu náhodných fluktuacı́. Vektor α je pak vybrán tak, aby
zvážil vliv těchto charakteristických atributů. Podobně je vybrána funkce h, přı́klady probı́rané
v různých článcı́ch jsou např. h(v) = v, h(v) = v 2 či h(v) = exp(v). Je přirozené, že jak volba
vektorů zi ’s, tak volba regresnı́ch koeficientů α, a samozřejmě také volba funkce h, (podstatně)
ovlivnı́ výsledek testu, co se týče jeho sı́ly. Nicméně, jak je vidět z podstaty problému, nelze,
přinejmenšı́m ne jednoduše, dát nějaké obecné doporučenı́ či návod, jak tyto zvolit. Ostatně
jako mnoho jiných věcı́ ovlivňujı́cı́ch solidnı́ zpracovánı́ dat, konec konců počı́naje samotným
výběrem modelu a jeho odhadu, je i tato volba značně závislá na zkušenosti a invenci toho, kdo
data zpracovává.
Teoretické závěry, kterých Breusch a Pagan (1979) dosáhli, řı́kajı́, že za nulové hypotézy,
kterou je homoskedasticita, což v našem formalizmu znamená α̃ = 0, existuje lokálně nejsilnějšı́
test založený na statistice
q T Z(Z T Z)−1 Z T q
η=
,
2s4
kde q T = (q1 , q2 , . . . , qn ), qi = ri2 (β̂ (LS,n) ) − s2 , Z = (z1 , z2 , . . . , zn )T a s2 =
H0 má statistika η asymptoticky rozdělenı́ χ2 (k − 1). Navı́c statistika
q T Z(Z T Z)−1 Z T q
η∗ =
n−1
Pn
i=1
³
ri2 (β̂ (LS,n) ) − s2
2
SR
n−p .
Při platnosti
´2
je s η asymptoticky ekvivalentnı́, tj. je asymptoticky také rozdělena jako χ2 (k − 1), ale je méně
zranitelná odchylkami ve špičatosti σµ44 rozdělenı́. Jejı́ výpočet je však poněkud složitějšı́ než
výpočet statistiky η. Ve skutečnosti je to tak, že statistiky η a η ∗ majı́ za Podmı́nek A (viz začátek
skript) asymptotické rozdělenı́ rovné χ2 (k − 1), nicméně jejich chovánı́ je nejlépe prostudováno
při předpokladu normality fluktuacı́, a proto se vı́, že pro situaci šikmého rozdělenı́ je chovánı́
statistiky η ∗ lepšı́ ve smyslu těsnějšı́ (asymptotické) aproximace pomocı́ χ2 (k − 1).
Bartlettův test (Bartlett (1937), Kendall, Stuart (1973)) Necht’ jsou data rozdělena do m
skupin dat, přičemž i-tá obsahuje ni pozorovánı́ yij , tj. i = 1, 2, . . . , m, j = 1, 2, . . . , ni . Potom
statistika
P
2
(n − m)ln(σ̂ 2 ) − m
i=1 (ni − 1)ln(σ̂i i)
i hP
h
m+
,
m
1
1
−
1 + 31 (m − 1) ·
i=1 ni −1
n−m
P
P
P
P
ni
−1
m
2
2
i
kde (ni −1)σ̂i2 = nj=1
(yij − ȳi )2 , n = m
i=1 (ni −1)σ̂i a ȳi = ni
i=1 ni , (n− m)σ̂ =
j=1 yij ,
2
2
2
2
má asymptoticky χ (m−1) distribuci za předpokladu, že σ1 = σ2 = . . . = σm . Ačkoliv to nebylo
explicite řečeno, Bartlettův test jako (jakousi “minimálnı́”) alternativu předpokládá, že alespoň
v jedné skupině je rozptyl jiný než v ostatnı́ch, což implicitně znamená, že přı́slušná data pro
regresnı́ analýzu byla nějak smysluplně rozdělena do skupin, např. máme data, kde pro stejný
vektor regresorů byla opakovaně měřena či pozorována vysvětlovaná veličina Y .
Goldfeld-Quandtův test (Goldfeld, Quand (1965), (1972)) Předpokládejme, že data byla
“přeindexována” tak, že
2
σi2 ≥ σi−1
pro i = 2, 3, . . . , n.
81
(80)
Goldfeld-Quandtův test je založen na následujı́cı́ch krocı́ch:
• Vynecháme r pozorovánı́, jejichž rozptyly stojı́ na centrálnı́ch mı́stech v posloupnosti (80),
r je předem zvolené čı́slo obvykle celé čı́slo blı́zké k n3 .
• Aplikujeme regresnı́ model na prvnı́ch a poslednı́ch
• Vyčı́slı́me R̃2 =
S22
,
S12
n−r
2
pozorovánı́.
kde S12 a S22 jsou reziduálnı́ součty čtverců v prvé a druhé skupině.
• Porovnáme statistiku R̃2 s kvantily rozdělenı́ F s
je dimenze modelu.
n−r−2p
2
a
n−r−2p
2
stupni volnosti, kde p
Je zřejmé, že rozdělenı́ pozorovánı́ do skupin má za cı́l “oddělit” od sebe dvě skupiny pozorovánı́ tak, aby se (značně) podpořila možnost toho, že rozptyl fluktuacı́ u pozorovánı́ v těchto
skupinách se bude lišit pokud neplatı́ hypotéza o homoskedasticitě. Samozřejmě, že rovněž podstatným předpokladem pro dobré fungovánı́ testu je nezávislost náhodných fluktuacı́ u jednotlivých pozorovánı́, která by měla být tedy nejdřı́ve otestována např. Durbin-Watsonovým
testem.
Okamžitě nás jistě napadne, že lze provést rozdělenı́ do jiných (přirozeně nestejně početných)
skupin. Pak bude rozdělenı́ statistiky R̃2 opět Fisher-Snedecorovo, ale s jinými stupni volnosti.
Szroeterova třı́da testů (Szroeter (1978)) Pokusme se, podobně jako u Goldfeld-Quandtova
testu, přečı́slovat pozorovánı́ tak, že
2
σi2 ≥ σi−1
a položme
P
h̃ = Pi∈A
pro i = 2, 3, . . . , n,
hi ri2 (β̂ (LS,n) )
2 (LS,n) )
i∈A ri (β̂
,
(81)
(82)
kde A je některá neprázdná podmnožina indexů a hi , i = 1, 2, . . . , n jsou čı́sla splňujı́cı́ hi ≤ hj
pro i < j, jakési testové váhy jednotlivých reziduı́. Hypotéza homoskedasticity zamı́tne pokud
h̃ > c.
Kritická hodnota c přirozeně závisı́ na tom, jak zvolı́me vektor vah h a jak definujeme množinu
A.
n+r
Např. zvolı́me-li hi = −1 pro i = 1, 2, . . . , n−r
2 a hi = 1 pro i = 2 + 1, . . . , n a množina
A bude obsahovat všechny indexy, bude test (82) při platnosti hypotézy, že všechna data jsou
generována modelem (4) a že rozptyl fluktuacı́ nenı́ ovlivňován těmi faktory, na které jsme
měli podezřenı́ a dle kterých jsme vlastně rozdělili či přeindexovali data, viz (81) nebo (80),
asymptoticky v pravděpodobnosti ekvivalentnı́ Goldfeld-Quandtovu testu.
Szroeterův návrh byl tento:
·
µ
π(i − p)
hi = 2 1 − cos
n−p+1
¶¸
i = p + 1, . . . , n
a A = {p + 1, p + 2, . . . , n}. Kritické hodnoty pro tuto možnost lze odvodit od tzv. von Neumannova r (von Nemann (1941)), spočı́taného pro n − p + 1 pozorovánı́.
82
Dalšı́ možnost, jak zvolit vektor vah je následujı́cı́
·
µ
hi = 2 1 − cos
πi
n+1
¶¸
i = 1, 2, . . . , n.
(83)
Výhodou této volby je to, že kritické hodnoty pro A = {1, 2, . . . , n} jsou totožné s kritickými
hodnotami pro Durbin-Watsonovu statistiku (Durbin, Watson (1952)), o které bude řeč později.
Pro tuto chvı́li pouze poznamenejme, že zadáme-li h dle (83), potom pokud je h̃ většı́ než
4 − dL (kde dL je tzv. dolnı́ kritická hodnota D-W statistiky a může být nalezena např. v
knize Kmenta (1986)), zamı́tneme hypotézu o homoskedasticitě, je-li h̃ < 4 − dU , kde dU je
hornı́ kritická hodnota D-W statistiky, nezamı́tneme hypotézu o homoskedasticitě. Pokud je
4 − dU < h̃ < 4 − dL , považujeme test za nerozhodujı́cı́. V již dřı́ve citované monografii Judge a
spol. (1980) lze nalézt i jiné návrhy pro volbu hi .
Whiteův test (White (1980), Judge a spol. (1980)) Originálnı́ nápad jak testovat homoskedasticitu pocházı́ od H. White a spočı́vá v tom, že porovnáme dva odhady matice n−1 σ 2 X T X,
totiž
n
1 T
1X
X X s2 a
Xi XiT ri2 ,
(84)
n
n i=1
kde (připomı́náme) Xi je i-tý řádek matice X, uvažovaný stejně jako výše jako sloupcový vektor,
1 Pn
T LS 2
T
s2 = n−p
i=1 (Yi − Xi β̂ ) a ri = Yi − Xi β. Snadno se nahlédne, že v přı́padě nezávislosti
fluktuacı́ ei a vektoru Xi , matice v (84) (přibližně) rovny v tom smyslu, že konvergujı́ ke stejné
limitě, nebot’ potom přibližně
n
1X
Xi XiT ri2 = IE
n i=1
=
emp {X1
· X1T r12 } = IE
emp {X1
· X1T } IE
2
emp {r1 }
n
n
1X
1
1X
Xi · XiT ·
ri2 ≈ X T X · s2 ,
n i=1
n i=1
n
(85)
kde subindex emp naznačuje, že se jedná o střednı́ hodnotu vzhledem k empirické distribučnı́
funkci. V řadě monografiı́ se trvdı́, že pokud neplatı́ hypotéza homoskedasticity, potom až
na velmi speciálnı́ přı́pady heteroskedasticity, budou tyto dva odhady divergovat pro n →
∞. Na druhé straně, to jaké přı́pady heteroskedasticity ještě projdou, lze snadno vystopovat
z (85). Např. předpokládejme, že každá z náhodných veličin představujı́cı́ch fluktuace v regresnı́m modelu bude rozdělena dle některého rozdělenı́ vybraného z předem daného konečného
počtu typů rozdělenı́; omezme se však - bez újmy na obecnosti - na přı́pad dvou typů. Nynı́,
z důvodu zjednodušenı́ dalšı́ho zápisu, přeuspořádáme naše pozorovánı́ tak, aby na začátku
byla ta pozorovánı́, která majı́ náhodné fluktuace rozděleny dle prvnı́ho typu rozdělenı́ (jejich
počet označme mn ) a dále jsou ta ostatnı́ (jejich počet pak je n − mn ). Připomeňme, že jsme
předpokládali (viz (14))
1 T
lim
X X = Q,
n→∞ n
a předpokládejme tedy, že také odpovı́dajı́cı́ části matic konvergujı́ k matici Q, tj.
lim
mn →∞
mn
1 X
Xi XiT = Q
mn i=1
lim
a
n−mn →∞
83
1
n − mn
n
X
i=mn +1
Xi XiT = Q.
Pak máme (podobně jako výše)

mn
n
1X
1
1 X
1
Xi XiT ri2 =
mn
Xi XiT ri2 + (n − mn )
n i=1
n
mn i=1
n − mn
=
=
≈
1n
mn IE
n
mn
Q IE
n
1n
mn IE
n
emp {X1
2
emp {r1 } +

emp {X1
· X1T } IE
n
X
Xi XiT ri2
i=mn +1
emp {Xmn +1
T
· Xm
r2
}
n +1 mn +1
2
emp {r1 }
emp {Xmn +1
T
· Xm
} IE
n +1
n − mn
Q IE
n
½
2
emp {rmn +1 } = Q
mn
1 
1 X
1
≈ Q mn
ri2 + n − mn

n
mn i=1
n − mn

o
· X1T r12 } + (n − mn )IE
+ (n − mn )IE


mn
IE
n
n
X
i=mn +1
ri2
2
emp {r1 } +



=Q
2
emp {rmn +1 }
n − mn
IE
n
o
¾
2
emp {rmn +1 }
n
1X
1
ri2 ≈ X T X · s2 .
n i=1
n
Je zřejmé, že označı́me-li σ12 a σ22 postupně rozptyly prvého a druhého typu výše zmı́něných
rozdělenı́ fluktuacı́ a budou-li poměry počtů fluktuacı́ řı́dı́cı́ch se prvnı́m a druhým typem
rozdělenı́ stabilnı́, tj. bude-li např.
n→∞
mn
= λ,
n
λ ∈ [0, 1]
bude navı́c s2 (silně) konvergovat k λ · σ12 + (1 − λ) · σ22 . Z toho je patrné, že Whiteův test spı́še
odhalı́ závislost mezi regresory a fluktuacemi než porušenı́ homoskedasticity.
Navı́c nedostatkem tohoto testu je fakt, že zjišt’ovánı́ konvergence či divergence odhadů pro
jeden soubor dat je patrně myslitelné jen pro dosti rozsáhlé soubory. Test je např. nabı́zen
v E View a TSP, a pokud je autorovi tohoto textu známo nenı́ založen na zkoumánı́ konvergence
či divergence, ale prostě na porovnánı́ výrazů uvedených v (84). Proto je třeba brát závěry
z tohoto testu s jistou opatrnostı́.
6.1.4
Závěr
Z toho, co už bylo řečeno plyne, že při zpracovánı́ dat, může nastat situace, kdy pojmeme
podezřenı́, že fluktuace v regresnı́m modelu jsou korelovány, pro různá pozorovánı́, tj. cov(Ei , Ej ) 6=
0 pro i 6= j. V tom přı́padě použijeme Durbin-Watsonův test, o kterém jsme se výše už zmı́nili, a
o kterém pojednáme podrobně později. Poznamenejme však, že na rozdı́l od Durbin-Watsonova
testu, který je robustnı́ proti heteroskedasticitě, jsou testy na heteroskedasticitu v přı́padě korelovanosti fluktuacı́ obvykle velmi slabé, pokud je nepovažujeme za zcela nevyhovujı́cı́, a mohou
dát (a obvykle dávajı́) zavádějı́cı́ výsledky.
Podobně, dojde-li k podurčenı́ modelu, výše uvedené testy obvykle indikujı́ heteroskedasticitu, byt’ po doplněnı́ dalšı́ch vysvětlujı́cı́ch proměnných by test bez problémů “prošel”.
Obecně sice platı́, že porušenı́ homoskedasticity může, pokud je značné, podstatně snı́žit
eficienci odhadu β̂ (LS,n) . Vzhledem k tomu však, že i při heteroskedastických náhodných fluktuakcı́ch je odhad β̂ (LS,n) stále ještě konsistentnı́ a pokud budou přı́slušné individuálnı́ rozptyly
stějnoměrně ohraničeny a fluktuace budou nezávislé, dokonce asymptoticky normálnı́, lze v přı́padě,
že indexový graf neindikuje podezřenı́ na heteroskedasticitu, použı́t β̂ (LS,n) .
84
6.2
Normalita náhodných fluktuacı́
Test na “alespoň přibližné ověřenı́” předpokladu normality fluktuacı́ je patrně důležitějšı́ než
výše uvedené testy na homoskedasticitu. Z následujı́cı́ho přı́kladu okamžitě pochopı́me proč.
Označme Φ0 standardnı́ normálnı́ rozdělenı́ a položme
PΦ0 (²) = {Q ∈ M(X) : Q = (1 − τ )Φ0 + τ H, H ∈ M(X), τ ∈ (0, ²) } .
Potom Studentovo rozdělenı́ s 9 stupni volnosti je prvkem “okolı́” PΦ0 (²) pro ² ≥ 0.028 a
se 3 stupni volnosti pro ² ≥ 0.078. To jinými slovy znamená, že v prvém přı́padě stačı́, aby
se dva třicetiprvkové náhodné výběry lišily v jednom pozorovánı́ a jeden výběr může být ze
standardnı́ho normálnı́ho rozdělenı́, zatı́mco ten druhý ze Studentova. Pro druhý přı́pad stačı́,
aby se 50-ti prvkové výběry lišily ve čtyřech pozorovánı́ch. To se na prvnı́ pohled může zdát jako
vysoká kontaminace, nicméně např. v Hampel a kol. (1986) lze nalézt řadu přı́kladů (reálných
dat), ukazujı́cı́ch, že 10% kontaminace nenı́ jev nikterak ojedinělý, spı́še naopak.
Na druhé straně, už v roce 1922 Sir Ronald Aylmer Fisher ukázal, že asymptotická eficience
průměru x je při Studentově tk rovna 1−6/[k(k +1)]. Pro odhad rozptylu sn dostaneme hodnotu
asymptotické eficience rovnou 1 − 12/[k(k + 1)]. To znamená, že pro t9 a t3 je asymptotická efficience průměru x postupně rovna 93 % a 50 %, a eficience rozptylu je pro tyto dva přı́pady 83 %
a 0 %. To napovı́dá, že vlastnosti těch statistik, které byly odvozeny jako optimálnı́ pro normálnı́
rozdělenı́, se mohou značně zhoršovat v přı́padě, kdy data byla generována rozdělenı́m, které,
jak napovı́dá prvnı́ část přı́kladu, prakticky nejsme schopni rozlišit od normálnı́ho. Podotkněme,
že přı́padná skepse, která by snad mohla být inspirována tı́mto přı́kladem nenı́ na mı́stě, nebot’
napřı́klad eficience 6%-nı́ho usekaného průměrů neklesne pod 96% pro hodnoty ² ∈ (0, 0.3).
Takovým odhadům se řı́ká robustnı́ a dnes je jich pro regresnı́ analýzu známo vı́ce než je třeba
k solidnı́ analýze dat. Také si o nich později v závěru těchto a zejména v dalšı́m dı́le skript něco
povı́me. Jak jsme už řekli výše důvodem, proč zde probı́ráme metodu nejmenšı́ch čtverců a k
nı́ náležejı́cı́ diagnostické prostředky tak podrobně, je ten fakt, že tuto metodu použı́vá stále
mnoho uživatelů a chceme-li se naučit zodpovědně naučit posuzovat jejich výsledky a závěry,
musı́me tuto metodu dobře ovládat.
Dřı́ve než se pustı́me do vlastnı́ho výkladu uved’me alespoň některé citace pracı́ týkajı́cı́ch
se testovánı́ normality reziduı́. Mezi ty, které bývajı́ často v různých učebnı́ch textech uváděny
patřı́ např. Pearson a kol. (1977), Locke a Spurrier (1977), Saniga a Miles (1979), Bera
a Jarque (1981) či Kiefer a Salmon (1983) (mnoho dalšı́ch referencı́ lze nalézt v Judge a
kol. (1980)). Je asi užitečné poznamenat, že lze ukázat, že za určitých podmı́nek (White,
MacDonald (1980)) běžné testy na normalitu majı́ asymptoticky stejné vlastnosti, uplatnı́me-li
je na rezidua z regresnı́ analýzy provedenou metodou nejmenšı́ch čtverců, jako kdybychom je
aplikovali na soubor nezávislých pozorovánı́. Ještě se k tomu vrátı́me v závěru tohoto výkladu.
Dřı́ve byl v učebnicı́ch a monografiı́ch zdůrazňován fakt, že rezı́dua jsou mezi sebou závislá,
byt’ tato závislost slábne se stoupajı́cı́m počtem pozorovánı́, a bylo doporučováno použitı́ BLUS
reziduı́ r̃ (Theil (1965)), tj. reziduı́, která jsou:
• lineárnı́mi funkcemi vysvětlované proměnné Y (uvědomme si, že
³
´
r(β̂ (LS,n) ) = I − X(X T X)−1 X T Y
85
jsou lineárně závislá na Y ),
• jsou nevychýlená,
• jsou homoskedastická a nekorelovaná,
a
• minimalizujı́
h
i
IE (r̃ − r̂)T (r̃ − r̂) ,
kde r̂ je zadáno v (87).
Samozřejmě, že bez nějakého algoritmu, který by vedl k vyčı́slenı́ BLUS reziduı́, by jejich použitı́
bylo vı́ce méně jen teoretickou možnostı́. Tady je tedy “návod”, jak z běžných reziduı́ r(β̂ (LS,n) )
vypočı́tat BLUS rezidua (viz Judge a kol. (1980), str. 173, vztah (5.5.12))
#
" H
X
dh
qh qhT r̂0 ,
1
+
d
h
h=1
r̃ = r̂ − X (1) [X (0) ]−1
(86)
kde
r(β̂ (LS,n) ) = Y − X · β̂ (LS,n) = (r̂0T , r̂T )T , r̂0 ∈ Rp , r̂ ∈ Rn−p
(87)
a X = (X (0)T , X (1)T )T a X (0) je typu (p × p), a předpokládáme, že je regulárnı́ (to může
vyžadovat přečı́slovánı́ řádků matice X), a konečně d21 , d22 , . . . , d2p a q1 , q2 , . . . , qp jsou vlastnı́
čı́sla a vlastnı́ vektory matice X (0) (X T X)−1 X (0)T . Taková matice má p vlastnı́ch kladných čı́sel,
z nichž H čı́sel je (ostře) menšı́ch než jedna. Tato čı́sla a vektory se objevujı́ v (86). Konečně
pak seřadı́me jednotlivé souřadnice tohoto vektoru r̃ dle velikosti, tj.
r̃(1) ≤ r̃(2) ≤ . . . ≤ r̃(n−p)
a nalezneme Shapiro-Wilkovu statistiku
³P
W =
h
i=1 ai,n−p
h
r̃(n−p−i+1) − r̃(i)
Pn−p ³
i=1
´2
r̃i − ˜r̃
i´2
,
n−p−1
1 Pn−p
kde h = n−p
(pro sudé či liché n − p), ˜r̃ = n−p
i=1 r̃i a ai,n−p jsou koeficienty
2 nebo h =
2
tabelované v Shapiro, Wilk (1965). Tam lze nalézt také kritické hodnoty pro statistiku W .
Jak už jsme se výše zmı́nili, existujı́ výsledky napovı́dajı́cı́, že lze použı́t i běžná, tj. nikterak
neupravovaná rezidua a že výsledek může být lepšı́ než s BLUS reziduı́ (např. Huang, Bolch
(1974)). Ačkoliv jednoznačné doporučenı́ lze jen těžko dát, faktem zůstává, že se mnohé testy
určené k testovánı́ normality jednorozměrných dat, která jsou považována za realizaci posloupnosti nezávislých náhodných veličin, často použı́vajı́ i v regresi (bez dalšı́ch úprav). Připomeňme
proto, že se často použı́vá test na šikmost a špičatost, který je založený na studentizované
výběrové šikmosti a špičatosti. Tyto jsou zadány vztahy
δ=
m3
s3
(šikmost) a
86
γ=
m4
s4
(špičatost),
kde ms je s-tý výběrový centrálnı́ moment
ms =
n
1X
(zi − z̄)s
n i=1
a kde z̄ označuje průměr naměřených (napozorovaných) hodnot. Pro střednı́ hodnoty a rozptyly
těchto statistik lze odvodit formulky
IE δ = 0
a
var(δ)
a
6(n − 2)
(n + 1)(n + 3)
a
IE γ = 3 −
var(γ) =
6
n+1
24n(n − 2)(n − 3)
.
(n + 1)2 (n + 3)(n + 5)
Nenı́ přı́liš obtı́žné dokázat, že δ a γ jsou asymptoticky nekorelované. Odpovı́dajı́cı́ testy jsou
tedy založeny na veličinách
T3 =
δ
1
2
var (δ)
a T4 =
γ − IE γ
1
var 2 (γ)
.
Konečně pak kritické hodnoty se najdou v práci Mulholland (1977) (pro rozsahy výběru menšı́
nebo rovné 25) a v článku Pearson a Hartley (1956, 1972). Nápady na zlepšenı́ těchto testů lze
nalézt v knize Anděl (1993) či v práci D’Agostino a kol. (1990).
6.3
Nezávislost náhodných fluktuacı́
Jednı́m z předpokladů, se kterým jsme začali náš výklad regresnı́ analýzy, byla nezávislost
náhodných fluktuacı́ u jednotlivých pozorovánı́. Nicméně lze jednoduše ukázat, že i v přı́padě,
kdy “naivně” použijeme odhad nejmenšı́ch čtverců ač právě zmı́něný předpoklad je porušen,
dostaneme nestranný a konsistentnı́ odhad regresnı́ch koeficientů. Obvykle se však uvádı́, že
může dojı́t ke značné ztrátě eficience odhadu. To je pravda a dokonce byly provedeny (numerické) studie ukazujı́cı́, jak mnoho z eficience ztratı́me. Autoři si však neuvědomujı́, že ztráta eficience, jdoucı́ na vrub kontaminace dat je (typicky) vždy většı́, než ztráta způsobená vzájemnou
závislostı́ fluktuacı́ (viz např. Hampel a kol. (1986) ). Proto je nutné brát návrhy na korigovánı́
závislosti fluktuacı́ (viz Cochrane, Orcutt (1949) nebo Prais, Winsten (1954)) s jistou rezervou.
Povı́me si o tom později, patrně v dalšı́m dı́le skript.
Snadno nahlédneme, že i v přı́padě, že v modelu (4) jsou náhodné fluktuace statisticky
striktně nezávislé, jsou rezidua vždy slabě korelována - a tedy také závislá. Závislost reziduı́
plyne např. ze vztahu
IE (Y − X β̂ (LS,n) )(Y − X β̂ (LS,n) ) = IE (Y − X(X T X)−1 X T Y )(Y − X(X T X)−1 X T Y )T
h
ih
= IE Y − X(X T X)−1 X T (Xβ 0 + E)
h
i
h
iT
Y − X(X T X)−1 X T (Xβ 0 + E)
i
h
i
= IE Ip − X(X T X)−1 X T EE T Ip − X(X T X)−1 X T = σ 2 Ip − X(X T X)−1 X T ,
ukazujı́cı́ však mna druhé straně, že za dosti obecných podmı́nek jsou rezidua alespoň asymptoticky nezávislá. Test, jež bude dále vyložen, však nespoléhá na tuto “pouze” asymptotickou
nezávislost a je zkonstruován tak, aby rozhodoval o závislosti či nezávislosti teoretických náhodných
87
fluktuacı́. Navrhli jej v roce 1952 J. Durbin a G. S. Watson a je částečně založen na výsledcı́ch
článku T. W. Andersona (1948) a částečně na excelentnı́m triku, který dále popı́šeme. Anderson zjistil, že pokud předpokládáme, že vektor náhodných fluktuacı́ je rozdělen bud’ (hypotéza)
dle n-rozměrného normálnı́ho rozdělenı́ s kovariančnı́ maticı́ Ψ−1 nebo (alternativa) dle téhož
rozdělenı́, ale s kovariančnı́ maticı́ Θ−1 a pokud vektor regresnı́ch koeficientů je vlastnı́m vektorem matice Ψ a Θ , pak statistika
z(r(β̂ (LS,n) )) =
rT (β̂ (LS,n) ) Θ r(β̂ (LS,n) )
rT (β̂ (LS,n) ) Ψ r(β̂ (LS,n)
posloužı́ jako základ ke konstrukci nejsilnějšı́ho testu pro testovánı́ této hypotézy proti jisté
třı́dě alternativ, přirozeně zahrnujı́cı́ výše uvedenou alternativu. Tento výsledek se zdál poněkud
nepraktický, nebot’ jak dále uvidı́me, statistika z závisı́ na matici plánu X a tedy i kritické
hodnoty přı́slušného testu budou také závislé na X. Avšak Durbinovi a Watsonovi se v roce
1952 podařilo tuto nesnáz překonat. Nejprve poznamenejme, že studovali tuto statistiku pro
speciálnı́ přı́pad, kdy hypotézou je nezávislost, tj. matice Ψ = I. Durbin a Watson rovněž
pozměnili označenı́ kovariančnı́ matice při alternativě z Θ na A a protože (veškerá) literatura
věnovaná této problematice se přidržuje jejich značenı́, učinı́me tak i my. Budeme tedy nadále
psát
rT A r
z(r) = T ,
(88)
r r
r označuje běžná rezidua z analýzy pomocı́ nejmenšı́ch čtverců r(β̂ (LS,n) ). Vezmeme-li v úvahu,
že
β̂ (LS,n) = (X T X)−1 X T Y,
dostaneme
h
i
r(β̂ (LS,n) ) = Y − X(X T X)−1 X T Y = In − X(X T X)−1 X T Y
h
i
h
i
= In − X(X T X)−1 X T [X β 0 + E] = In − X(X T X)−1 X T E.
Pro zjednodušenı́ zápisu označme M = In − X(X T X)−1 X T . Pak máme
rT (β̂ (LS,n) ) A r(β̂ (LS,n) ) = E T M T A M E = E T M A M E,
přičemž poslednı́ rovnost plyne ze symetrie matice M . Jak jsme ukázali výše pro libovolnou
reálnou symetrickou matici existuje ortogonálnı́ matice, která ji diagonalizuje po vynásobenı́
zleva a zprava (viz Tvrzenı́ 7). Pro projekčnı́ matici M označme tuto matici L, tj. L bude matice,
pro kterou bude platit LT · L = In a označı́me-li D diagonálnı́ matici majı́cı́ na diagonále vlastnı́
čı́sla matice M , máme navı́c
LT M L = D.
Připomeňme, že dı́ky tomu, že L je ortogonálnı́ a tedy regulárnı́, je levá inversnı́ matice rovna
pravé a tedy také L LT = In . Navı́c, dı́ky tomu, že matice L je složena z vlastnı́ch vektorů
matice M (viz opět Tvrzenı́ 7) a matice M je projekčnı́ maticı́ do prostoru M(M ) (tj. do
lineárnı́ho prostoru generované sloupci matice M ) je tato matice idempotentnı́ (tj. M · M = M )
a to implikuje, že D obsahuje jen nuly a jedničky. Protože navı́c rank(D) = rank(M ) = n − p,
88
můžeme přeuspořádat sloupce matice L tak, že (0 zastupuje nulové matice s přı́slušným počtem
řádků a sloupců)


..
 In−p . 0 
T
L M L =  .......... .
..
0
. 0
Nynı́ můžeme psát
LT M A M L = LT M L · LT A L · LT M L

 
 

..
..
..
I
.
0
B
.
B
I
.
0
3   n−p

  1
 n−p
=  ..........  ·  ..........  ·  .......... ,
..
..
..
. 0
0
. 0
B2 . B4
0


..
 B1 . B3 
kde  . . . . . . . . . .  je přı́slušné dělenı́ reálné symetrické matice LT A L. Necht’ N1 je ortogonálnı́
.
B2 .. B4
matice, která diagonalizuje B1 , tj. (prázdná mı́sta representujı́ nuly)



ν1
ν2
N1T B1 N1 = 
"
Potom N =
N1 0
0 Ip
..

,
.
(89)
νn−p
#
je ortogonálnı́, tak že H = L · N je také ortogonálnı́. Odtud
H T M H = N T LT M L N
"
=N
T
In−p 0
0
0
#
"
N=
In−p 0
0
0
#
a
HT M A M H = HT M H · HT A H HT M H


..
ν
.
1


..

ν2
. 0 


..
..


.
.
=
.
..




νn−p .
 ....................... 
..
0
. 0
Položı́me-li konečně ξ = H T E, máme dı́ky ortogonalitě matice H
z(β̂ (LS,n) ) =
rT (β̂ (LS,n) ) A r(β̂ (LS,n) )
rT (β̂ (LS,n,`) ) r(β̂ (LS,n) )
=
(90)
E = H ξ a tedy
ET M T A M E
ET M T A M E
=
ET M T M E
ET M E
P
n−p
2
ξT H T M T A M H ξ
i=1 νi ξi
=
=
P
n−p 2 .
ξT H T M H ξ
i=1 ξi
(91)
Vztah (91) je možné využı́t k nalezenı́ kritických hodnot pro statistiku z(r), použijeme-li následujı́cı́
lemma, dokázané Durbinem a Watsonem a formalizujı́cı́ vlastně geniálnı́ trik, umožňujı́cı́ konstrukci celého testu.
89
LEMMA 10 (Durbin and Watson (1952)) Jsou-li r a E n × 1 vektory takové, že r = M · E,
T
kde M = In −X(X T X)−1 X T a z = rrTArr (viz (88)), kde A je reálná symetrická matice, potom:
(a) Existuje ortogonálnı́ transformace E = H ξ taková, že
Pn−p
νi ξi2
z = Pi=1
n−p 2
i=1 ξi
kde ν1 , ν2 , . . . , νn−p jsou ta vlastnı́ čı́sla matice M A, která jsou nenulová.
(b) Je-li n − p − s sloupců matice X lineárnı́mi kombinacemi n − p − s vlastnı́ch vektorů
matice A, potom n − p − s čı́sel ν’s je rovno vlastnı́m čı́slům odpovı́dajı́cı́m těmto vlastnı́m
vektorům; po přečı́slovánı́ ostatnı́ch vlastnı́ch čı́sel tak, že
ν1 ≤ ν2 ≤ · · · ≤ νs
a
λ1 ≤ λ2 ≤ · · · ≤ λs+p ,
kde λ’s jsou vlastnı́ čı́sla matice A, dostaneme
λt ≤ νt ≤ λt+p ,
t = 1, 2, . . . , s.
Část (a) byla vlastně již dokázána výše, zbytek lze nalézt v Durbin a Watson (1952) (důkaz
části (b) je poměrně dlouhý ač přı́močarý a je založen na faktu, že M je projekčnı́ matice a tedy je
rozložitelná na součin M1 ·M2 ·. . .·Mp p maticı́ typu In −u·uT , kde u ∈ Rn (viz Durbin and Watson
(1952)). Poznamenejme ještě, že jak plyne z (89) a (90) ν’s jsou vlastnı́ čı́sla matice B1 právě
tak jako (nenulová) vlastnı́ čı́sla matice M T A M , nebot’ N1 a H diagonalizujı́ B1 a M T A M .
Protože vlastnı́ čı́sla součinu matic nezávisı́ na pořadı́ násobenı́ matic (pokud to jde znásobit, viz
např. Macdufee (1946)), ν’s jsou také vlastnı́mi čı́sly matice M M T A = M 2 A = M A, přičemž
poslednı́ rovnost platı́ dı́ky tomu, že matice M je projekčnı́ a tudı́ž idempotentnı́.
Připomeňme ještě, že v článku von Neumann (1941) je možné nalézt vztah pro čı́sla λi ’s,
totiž
½
µ
¶¾
π(i − 1)
λi = 2 1 − cos
,
i = 1, 2, . . . , n.
n
Obvykle se traduje, že kritické hodnoty pro Durbin-Watsonův test byly nalezeny pomocı́
statistik
Pn−p
2
(LS,n)
i=1 λi ξi
zL (β̂
)= P
n−p 2
i=1 ξi
a
Pn−p
λi+p ξi2
zU (β̂ (LS,n) ) = i=1
Pn−p 2 .
i=1 ξi
Z výše uvedeného lemmatu nepochybně plyne
zL (β̂ (LS,n) ) ≤ z(β̂ (LS,n) ) ≤ zU (β̂ (LS,n) ).
a tedy by to bylo principiálně možné. Durbin s Watsonem však použili přı́mo aproximace distribučnı́ funkce statistiky
rT A r
.
(92)
rT r
90
K aproximaci použili normálnı́ distribuci, pro velká n − p (viz také Anderson (1948)), nebo
beta-distribuci pro střednı́ hodnoty n − p. Nejprve nalezli pomocı́ předchozı́ho lemmatu hornı́
a dolnı́ hranice pro momenty a ty pak použili pro konstrukci “dolnı́” a “hornı́” distribučnı́
funkce a následné aproximace kritických hodnot. Jejich úvahy byly založeny na dvou faktech. Za
prvé, ortogonálnı́ transformace vektoru, jehož složky jsou normálně rozdělené a jsou nezávislé
dává vektor, který má složky opět normálně rozdělené se stejnými parametry a které jsou i
nadále nezávislé. Za druhé, při předpokladu normality a nezávislosti složek vektoru E, statistika
z(β̂ (LS,n) ) a jejı́ jmenovatel rT (β̂ (LS,n) ) · r(β̂ (LS,n) ) jsou statisticky nezávislé (Pitman (1937), von
Neumann (1941)) a tedy (pro libovolné s ∈ N ) máme
n
IE
os
rT (β̂ (LS,n) ) A r(β̂ (LS,n) )
n
os
z(β̂ (LS,n) )
= IE
n
IE
os
rT (β̂ (LS,n) ) r(β̂ (LS,n) )
.
Konečně pak máme
n
IE
os
z(β̂ (LS,n) )
n
=
IE
IE
rT (β̂ (LS,n) ) A r(β̂ (LS,n) )
n
os
os
rT (β̂ (LS,n) ) r(β̂ (LS,n) )
a Durbin-Watsonovo lemma pak dovoluje nalézt hornı́ a dolnı́ hranici pro momenty statistiky z.
Budeme-li specifikovat alternativu k nezávislosti Ei ’s jako autoregresnı́ proces, tj.
Ei = θEi−1 + Vi , i = 2, 3, . . . , n, |θ| < 1
budeme-li předpokládat, že {Vi }∞
i=1 je posloupnost nezávislých a stejně rozdělených náhodných
veličin - podrobně budou autoregresnı́ procesy probrány v dalšı́m dı́le skript, přı́mý výpočet
dává (prázdná mı́sta opět reprezentujı́ nuly)

1
−θ

−θ
1
+ θ2
−θ



−θ
1 + θ2 −θ
Aθ = 
..
..
..

.
.
.


−θ 1 + θ2 −θ

−θ
1





.




Okamžitě je vidět, že θ = 1 a θ = −1 představujı́ dva limitnı́ přı́pady, které sice již nejsou
akceptovatelné z hlediska teorie pravděpodobnosti v tom smyslu, že nenı́ zaručena stacionarita
posloupnosti náhodných fluktuacı́, ale z hlediska budovánı́ našeho testu je můžeme přijmout.
Pro prvnı́ dostaneme


1 −1
 −1

2 −1




−1 2 −1




A1 = 
..
..
..

.
.
.




a
z(β̂ (LS,n) ) =
−1
Pn−1
i=1

2 −1 
−1 1
[ri (β̂ (LS,n) ) − ri+1 (β̂ (LS,n) )]2
Pn
2 (LS,n) )
i=1 ri (β̂
91
(93)
=2−
2
Pn−1
i=1
ri (β̂ (LS,n) ) ri+1 (β̂ (LS,n) ) + r12 (β̂ (LS,n) ) + rn2 (β̂ (LS,n) )
Pn
2 (LS,n) )
i=1 ri (β̂
≈ 2(1 − ρ̂).
Uvažujeme-li druhou krajnı́ možnost, totiž θ = −1, dostaneme
z(β̂ (LS,n) ) ≈ 2(1 + ρ̂).
To umožňuje zverifikovat, že statistiky, které vyjdou at’ už z jednoho či druhého extrému, jsou
schopny se vypořádat současně jak s pozitivnı́ tak negativnı́ závislostı́ mezi po sobě následujı́cı́mi
náhodnými fluktuacemi, tj. jak s přı́padem θ > 0 tak s θ < 0, nebot’ obě obsahujı́ koeficient
korelace. Historické důvody vedly k tomu, že se označenı́ Durbin-Watsonova statistika vžilo pro
(93) (viz např. Kmenta (1986), Judge a kol. (1980) nebo Zvára (1989)), avšak důsledek toho je,
že je nutné užı́vat nejen kritické hodnoty implikované “dolnı́” a “hornı́” statistikou zL (β̂ (LS,n) )
a zU (β̂ (LS,n) ) (ve smyslu, který byl výše podrobně popsán) a které můžeme např. označit zL
a zU , ale i kritické hodnoty, které jsou zrcadlovým obrazem těchto prvých. To znamená, že
zamı́tneme hypotézu o nezávislosti reziduı́ pokud z(β̂ (LS,n) ) < zL nebo z(β̂ (LS,n) ) > 4 − zL ,
a naopak nezamı́tneme tuto hypotézu pokud z(β̂ (LS,n) ) ∈ (zU , 4 − zU ). V ostatnı́ch přı́padech je
výsledek “nerozhodnutý” (bohužel).
Pokud chceme rozhodnout i v takovém přı́padě, nezbývá než vypočı́tat přesné kritické hodnoty, které jsou přirozeně závislé na matici plánu X. Postup je následujı́cı́. Nejprve se vypočı́tá
střednı́ hodnota IE z(r(β̂ (LS,n) )) a rozptyl var(z(r(β̂ (LS,n) ))) dle následujı́cı́ch vztahů:
IE z(r(β̂ (LS,n) )) =
2(n − 1) − tr(X T AX(X T X)−1 )
n−p
a
var(z(r(β̂ (LS,n) )))
=
n
h
i
o
2
Q∗ − 2(n − 1) − tr(X T AX(X T X)−1 ) IE z(r(β̂ (LS,n) )) .
(n − p)(n − p + 2)
Výraz pro Q∗ je poněkud složitějšı́, totiž
h
i2
2(3n − 4) − 2tr(X T A2 X(X T X)−1 ) + tr( X T AX(X T X)−1 ),
nicméně s pomocı́ dnešnı́ výpočetnı́ techniky nenı́ nepřekonatelnou překážkou. Potom se vyřešı́
rovnice
IE z(r(β̂ (LS,n) )) = a + bIE z ∗
a
var(z(r(β̂ (LS,n) ))) = b2 var(z ∗ ).
Hodnoty IE z ∗ a var(z ∗ ) se najdou v tabulkách např. v článku Judge a kol. (1982).
nalezenı́ přesné kritické hodnoty
∗
zC
= a + bzU .
92
Zbývá
Povšimněme si ještě, že zatı́mco matice Aθ je pro θ ∈ (−1, 1) regulárnı́, matice A1 už regulárnı́
nenı́ (snadno se to nahlédne z rozkladu matice A(θ), který vypadá takto.
Aθ = PθT · Pθ ,
kde
 √




Pθ = 





1 − θ2
−θ
1
−θ
1
..
.




,




..
.
−θ
1
−θ
1
a kde Pθ je evidentně singulárnı́ pro |θ| = 1).
6.4
6.4.1
Nezávislost vysvětlujı́cı́ch proměnných a náhodných fluktuacı́
vod a přı́klady situacı́ porušenı́ nezávislosti
V modelu, ve kterém předpokládáme, že je některá vysvětlujı́cı́ proměnná statisticky závislá
s náhodnými fluktuacemi, nelze zaručit, že bude odhad β̂ (LS,n) obecně nestranný a konsistentnı́.
Tento fakt nebývá v některých učebnicı́ch regresnı́ analýzy zdůrazněn a může vést k nevhodné
aplikaci metody nejmenšı́ch čtverců. Snaha o vypořádánı́ se s touto situacı́ vedla vlastně k rozvinutı́ celé jedné partie teorie regresnı́ analýzy, totiž k teorii instrumentálnı́ch proměnných (instrumental variables).
Budeme uvažovat model
Yi = XiT β 0 + Ei ,
i = 1, 2, . . . , n,
(94)
kde použitı́ velkého pı́smena pro nosiče Xi naznačuje, jak plyne z úmluvy na začátku skript,
že budeme uvažovat náhodné nosiče (vysvětlujı́cı́ proměnné). Již na samém začátku tohoto
textu (viz text pod vztahem (1)) jsme předeslali, že pokud máme náhodné nosiče, obvykle
předpokládáme, že tyto nosiče a náhodné fluktuace v jednom řádku modelu (94) jsou nekorelované, tj. IE {Xi Ei } = 0. Předpokládejme,
tak nenı́, tj. IE {Xi Ei } = IE {X1 E1 } 6= 0,
½ že tomu ¾
a že posloupnost vektorů {Zi }∞
i=1 =
³
XiT , Ei
´T ∞
je posloupnostı́ nezávislých a stejně
i=1
rozdělených náhodných
n
o vektorů. Bez podstatné újmy na obecnosti předpokládejme, že matT
ice Q = IE Xi Xi je regulárnı́. Výše jsme si řekli, že pokud by byla singulárnı́, obvykle
vypustı́me některý sloupec matice X a v tom pokračujeme tak dlouho, až dosáhneme regularity
matice Q. Aplikace silného zákona velkých čı́sel dává
n
1 T
1X
X X = lim
Xi XiT = Q s.j.,
n→∞ n
n→∞ n
i=1
lim
což je ekvivalentnı́ s
µ
lim
n→∞
Podobně
1 T
X X
n
¶−1
= Q−1
s.j..
n
1 T
1X
X E = lim
Xi Ei = IE {X1 E1 }
n→∞ n
n→∞ n
i=1
lim
93
s.j. .
To ovšem implikuje
µ
lim
n→∞
1 T
X X
n
¶−1
1 T
X E = Q−1 IE {X1 E1 }
n
s.j. .
Konečně pak dostaneme vztah
³
β̂ (LS,n) = β 0 + X T X
µ
0
=β +
1 T
X X
n
¶−1
1 T
X E = β0 +
n
´−1
µ
XT E
1 T
X X
n
¶−1
n
1X
Xi Ei ,
n i=1
(95)
který napovı́dá, že
lim β̂ (LS,n) = β 0 + Q−1 IE {X1 E1 }
n→∞
s.j.,
(96)
tj. napovı́dá, že β̂ (LS,n) nenı́ konsistentnı́m odhadem. Diskuze nestrannosti nenı́ tak jednoduchá,
ale spočtenı́m střednı́ hodnoty ve vztahu (95) dostaneme
(µ
IE β̂
(LS,n)
0
= β + IE
1 T
X X
n
¶−1
n
1X
Xi Ei ,
n i=1
)
.
Doplnı́me-li tedy výše použı́vané předpoklady např. o to, že kXi k = O(1)½(což z hlediska aplikacı́
¾
nenı́ silný předpoklad), zjistı́me, že β̂ (LS,n) nenı́ ani nestranný, nebot’ IE
³
XT X
´−1
XT E
6= 0.
S daty, pro která je lépe předpokládat, že adekvátnı́m modelem pro ně je model, ve kterém
jsou náhodné fluktuace statisticky závislé na některé vysvětlujı́cı́ proměnné, se můžeme setkat
poměrně často. Jedna možnost je, že ze samé podstaty situace toto plyne, že např. rozptyl či jiná
charakteristika (např.šikmost) náhodných fluktuacı́ je ovlivněna velikostı́ vysvětlujı́cı́ proměnné.
Snad nejčastěji uváděným přı́kladem modelu, ve kterém jsou vysvětlujı́cı́ veličiny a náhodné
fluktuace závislé, je model s nekonečným počtem zpožděnı́ vysvětlujı́cı́ veličiny. Tento model
bude však podrobněji probrán patrně až v dalšı́m dı́le skript. Uvažujme tedy jednoduchý model
s geometrickou strukturou regresnı́ch koeficientů
Yi = β
∞
X
λj−1 xi−j+1 + Ei .
(97)
j=1
Je okamžitě vidět, že pro tento tvar modelu neumı́me přı́mo nalézt odhady parametrů. Použijme
tedy tento postup. Pro i − 1 pišme
λYi−1 = β
∞
X
λj xi−j + Ei .
(98)
j=1
Odečteme-li (98) od (97), dostaneme
Yi = λYi−1 + βxi + Ei − λEi−1 .
Dostali jsme tedy model
Yi = λYi−1 + βxi + Ui ,
94
(99)
ve kterém vysvětlujı́cı́ proměnná Yi−1 je korelovaná s Ui , tj. s náhodnou veličinou representujı́cı́
fluktuaci v modelu.
Budeme-li uvažovat model, který počı́tá s náhodnými chybami měřenı́ u vysvětlujı́cı́ch proměnných,
zjistı́me, že se opět nevyhneme závislosti mezi nosiči a disturbancemi. Probereme tento model pro
jednoduchý přı́pad jedné vysvětlujı́cı́ proměnné. Zobecněnı́ na vı́ce proměnných bude probráno
v následujı́cı́ kapitole.
Budeme tedy uvažovat model
Yi = α + βχi + Ui
(100)
a
Xi = χi + Vi ,
(101)
pro i = 1, 2, . . . , n. Jinými slovy to znamená, že předpokládáme, že vysvětlovaná veličina Yi je
lineárně závislá na vysvětlujı́cı́ veličině χi a absolutnı́m členu α, ale naše měřenı́ veličiny χi je
zatı́ženo náhodnou chybou Vi , takže registrujeme namı́sto nı́ veličinu Xi . Povšimněme si, že to,
zda Ui representuje také chybu měřenı́ veličiny Yi , či také náhodnou fluktuaci (přı́padně pouze
náhodnou fluktuaci) a veličina Yi (přirozeně včetně této fluktuace) je měřena přesně, je v tomto
kontextu irelevantnı́. Vysvětleme ještě, že tı́m, že řekneme, že je veličina Yi měřena přesně,
mı́nı́me to, že chyba jejı́ho měřenı́ je (podstatně) menšı́ než chyba měřenı́ veličiny χi , přı́padně
podstatně menšı́ než náhodné fluktuace vstupujı́cı́ do modelu.
Pro zajı́mavost uved’me, že patrně nejznámějšı́m modelem tohoto typu v ekonomii je Friedmanova hypotéza stálého důchodu (Friedman (1957)), kde Yi představuje (pozorovanou) spotřebu
v obdobı́ i a χi důchod v tomtéž obdobı́, a předpokládáme, že spotřeba je lineárně závislá na
stálém důchodu, zatı́mco my pozorujeme momentálnı́ důchod Xi . Podotkněme však, že se dnes
má za prokázané, že empirická data tuto hypotézu přı́liš nepodpořila.
Po dosazenı́ z (101) do (100), zı́skáme nový model
Yi = α + β(Xi − Vi ) + Ui = α + βXi + Ui − βVi = α + βXi + Zi ,
kde jsme Zi označily jakési “nové” disturbance v modelu. Snadno se však pro ně nalezne
IE {Xi · Zi } = IE {(χi + Vi )(Ui − βVi )} = −βIE Vi2 .
Jak už bylo výše konstatováno, vztah (96) ukazuje, že odhad metodou nejmenšı́ch čtverců koeficientů α a β nenı́ v tomto přı́padě nestranný ani konsistentnı́ a detailnějšı́ analýza ukáže, že
dojde k podceněnı́ β.
V závěru těchto skrip bude jeden paragraf věnován také systému simultánı́ch rovnic. Ukážeme
si tam, že tyto rovnice popisujı́ rovněž situaci, kdy náhodné fluktuace v modelu jsou korelovány
s vysvětlujı́cı́mi proměnnými a tedy přı́má aplikace metody nejmenšı́ch čtverců vede k odhadům,
které nejsou obecně ani konsistentnı́ ani nestranné.
Čtenář se nynı́ přirozeně zeptá, jak danou situaci rozpoznat, tj. jak zjistit, zda nosiče a
náhodné fluktuace jsou (ne)závislé a jak postupovat v přı́padě, že bude hypotéza o nezávislosti
zamı́tnuta. Odpověd’ na prvou otázku nabı́zı́ Hausmanův test, k řešenı́ problému závislosti fluktuacı́ na vysvětlujı́cı́ch proměnných pak byla vyvinuta metoda instrumentálnı́ch proměnných.
Bylo by nepochybně logické věnovat se nejprve Hausmanovu testu a poté vyložit, alespoň
95
v základech, teorii instrumentálnı́ch proměnných. Vzhledem k tomu, že však Hausmanův test
využı́vá odhadu regresnı́ch koeficientů, který byl pořı́zen metodou instrumentálnı́ch proměnných,
vyložı́me nejprve tuto metodu.
6.4.2
Instrumentálnı́ proměnné
Představme si, že odhad metodou nejmenšı́ch čtverců mohl být odvozen také následujı́cı́m,
poněkud intuitivnı́m způsobem. Vztah (7) znásobı́me zleva výrazem n1 X T a dostaneme
1 T
1
1
X Y = X T Xβ 0 + X T E.
n
n
n
Budeme-li předpokládat, že
1 T
X E=0
n→∞ n
lim
v pravděpodobnosti,
budou mı́t výrazy
1 T
1 T
X Y
a
X Xβ 0
n
n
stejnou limitu v pravděpodobnosti. To může vést k návrhu odhadu
µ
β̂ =
1 T
X X
n
¶−1
³
´−1
1 T
X Y = XT X
X T Y = β̂ (LS,n)
n
a k vyšetřovánı́ jeho vlastnostı́. Předpokládejme, že máme k dispozici matici Z takovou, že
lim
n→∞
1 T
Z E=0
n
a znásobenı́m vztahu (7) zleva výrazem
1 T
nZ
v pravděpodobnosti,
(102)
odvod’me
1 T
1
1
Z Y = Z T Xβ 0 + Z T E.
n
n
n
Nynı́ zjišt’ujeme, že výrazy
1 T
Z Y
n
1 T
Z Xβ 0
n
a
majı́ také stejnou limitu v pravděpodobnosti. “Analogicky” jako v přı́padě odhadu metodou
nejmenšı́ch čtverců, zaved’me odhad
µ
β̂
IP
=
1 T
Z X
n
¶−1
³
´−1
1 T
Z Y = ZT X
Z T Y.
n
(103)
Tomuto odhadu budeme řı́kat odhad metodou instrumentálnı́ch proměnných. Podobně jako výše
pro odhad metodou nejmenšı́ch čtverců pro něj nalezneme alternativnı́ vyjádřenı́
β̂
IP
³
T
= Z X
´−1
Z
T
³
T
´
0
µ
0
X β +E =β +
1 T
Z X
n
¶−1
1 T
Z E,
n
(104)
které ukazuje, že odhad β̂ IP je konsistentnı́ . Opět s nestrannostı́ je to poněkud komplikovanějšı́,
ale lze nalézt (slabé) předpoklady, za kterých platı́. Lze přirozeně tušit, že odhad β̂ IP bude tı́m
96
lepšı́ (ve smyslu eficience), čı́m vı́ce bude Z a X korelováno (myšleno po sloupcı́ch), tj. pokud
Z T X dobře nahradı́ X T X a Z T Y nahradı́ X T Y , samozřejmě při zachovánı́ podmı́nky (102).
V některých monografiı́ch je vyložena trochu obecnějšı́ inspirace vedoucı́ k zavedenı́ metody
instrumentálnı́ch proměnných. Vyjádřı́me-li náhodné fluktuace jako E = Y − Xβ 0 , vidı́me, že
(102) je ekvivalentnı́
1
lim Z T (Y − Xβ 0 ) = 0 v pravděpodobnosti.
(105)
n→∞ n
Mohli bychom tedy studovat odhad, který by “minimalizoval” Z T (Y −Xβ) (úvozovky naznačujı́
fakt, že na pravé straně vztahu (105) stojı́ nulový vektor a tedy to, že Z T (Y − Xβ) bude
minimálnı́ je třeba uvést na pravou mı́ru). Lze to udělat napřı́klad takto. Zvolı́me některou
pozitivně definitnı́ matici W a budeme minimalizovat kvadratickou formu
(Y − Xβ)T ZW Z T (Y − Xβ).
(106)
Z výše odvozeného tvrzenı́ o spektrálnı́m rozkladu pozitivně definitnı́ matice vyplývá existence
matice S takové, že ZW Z T = S T S a uvažujeme-li nynı́ transformované veličiny
Ỹ = SY
a
X̃ = SX
budeme mı́t Ỹ − X̃β = S(Y − Xβ), tj. (Ỹ − X̃β)T (Ỹ − X̃β) = (Y − Xβ)T ZW Z T (Y − Xβ)
a z výše uvedené teorie plyne, že minimum se nabývá pro
³
β̂ IP = (X̃ T X̃)−1 X̃ T Y = X T ZW Z T X
´−1
X T ZW Z T Y.
Právě “odvozený” odhad připomı́ná zobecněný odhad metodou nejmenšı́ch čtverců, který je
diskutován na jiném mı́stě těchto skript. Pokud bude matice Z T X regulárnı́ a tedy invertovatelná, dostaneme
³
β̂ IP = X T ZW Z T X
´−1
³
³
X T ZW Z T Y = Z T X
= ZT X
´−1
´−1
³
W −1 X T Z
³
W −1 W Z T Y = Z T X
´−1
´−1
X T ZW Z T Y
Z T Y,
tj. dojdeme k odhadu (103), a navı́c zjistı́me, že postup je nezávislý na volbě matice W .
Věnujme se ještě na chvı́li modelu s nekonečným počtem zpožděnı́ vysvětlujı́cı́ veličiny, který
vedl ke vztahu (99). Položı́me-li totiž




Y =
Y2
Y3
..
.



,

Yn
dojdeme k odhadu

Y1
Y2
..
.



X=
X2
X3
..
.






a
Yn−1 Xn
"
λ̂
β̂
#



Z=
X1
X2
..
.
X2
X3
..
.



,

Xn−1 Xn
³
= ZT X
´−1
Z T Y.
Je jasné, že podmı́nka (102) je splněna a navı́c odhad má naději být dosti eficientnı́, nebot’
instrumentálnı́ proměnná X je patrně dosti korelována s Y , viz Liviatan (1963).
Čtenáře, který se chce o metodě instrumentálnı́ch proměnných dovědět vı́ce odkazujeme
na monografii Bowden, Turkington (1984). Dovolme si ještě připomenout, že se v některých
97
učebnicı́ch spojuje vybudovánı́ teorie instrumentálnı́ch proměnných právě s modelem s nekonečným
počtem zpožděnı́ vysvětlujı́cı́ veličiny. Zdá se však, že se tato metoda objevila daleko dřı́ve než
byl studován tento model, totiž již v práci Working (1927), viz také Goldberger (1972). Nynı́
se již budeme moci věnovat výkladu testu, který napovı́, zda je vhodné použı́t metodu instrumentálnı́ch proměnných, či zda vystačı́me s metodou nejmenšı́ch čtverců aplikovanou na původnı́
data.
6.4.3
Hausmanův test nezávislosti regresorů a náhodných fluktuacı́
Test byl navržen J. Hausmanem v roce 1978 a lze jej nalézt např. v monografii Greene (1993)
a samozřejmě také v původnı́m článku Hausman (1978). Protože byl test původně určen pro
to, aby rozpoznal zda se jedná o měřenı́ vysvětlujı́cı́ch proměnných s chybami, často je uváděn
jako Specification test for measurement error, nicméně jak snadno nahlédnete z nı́že uvedeného
výkladu, ve skutečnosti se opravdu testuje, který model je adekvátnějšı́ pro daná data.
Heuristika, která vedla k zavedenı́ testu byla následujı́cı́:
Jestliže jsou vysvětlujı́cı́ proměnné nezávislé na náhodných fluktuacı́ch (to budeme označovat
ve zbývajı́cı́ části této kapitoly jako hypotézu H0 ), jsou oba odhady β̂ (LS,n) i β̂ IP konsistentı́mi
odhady β 0 . Prvnı́ z nich je samozřejmě eficientnı́, zatı́mco druhý tuto vlastnost obecně nemá.
Uvědomme si však, že obvykle uváděné tvrzenı́, že β̂ IP je neeficientnı́ nenı́ tak zcela správné,
nebot’ obecně i β̂ (LS,n) je instrumentálnı́m odhadem vzhledem k tomu, že jsme nezakázali volbu
Z = X, byt’ je to čistě akademická možnost.
Na druhé straně pokud náhodné fluktuace a vysvětlujı́cı́ proměnné jsou statisticky závislé,
je prvnı́ odhad (pokud platı́ např. (14) ) nutně vychýlený, zatı́mco ten druhý, pokud je Z
zvolena tak, aby platilo (102), je konsistentnı́. Potom ovšem za platnosti hypotézy H0 je vektor
q = β̂ (LS,n) − β̂ IP konsistentnı́m odhadem nulového vektoru. Pokud tato hypotéza neplatı́ bude
norma tohoto vektoru obecně nenulová. Založı́me-li tedy test na některé kvadratické formě
W = q T Aq bude jejı́ hodnota malá v přı́padě platnosti hypotézy H0 , ale velká v opačném
přı́padě.
J. Hausmanovi se podařilo ukázat, že pokud za A zvolı́me [V1 − V0 ]−1 , kde V0 a V1 jsou po
řadě n-násobky odhadů asymptotické kovariančnı́ matice odhadů β̂ (LS,n) a β̂ IP , je L(W ) ≈ χ2 (p).
Naznačı́me si jak lze vést důkaz tohoto výsledku.
Nejprve připomeňme, že pod asymptotickou covariančnı́ maticı́ odhadu β̂ (n) se rozumı́ covariančnı́ matice př
ı́slušného´asymptotického rozdělenı́ normovaného vektoru β̂ (n) − β 0 , tj. ob√ ³ (n)
√
vykle vektoru n β̂ − β 0 , nebot’ obvykle dáváme přednost n-konsistentnı́m odhadům. V
předcházejı́cı́m textu jsme v přı́padě odhadu β̂ (LS,n) užı́vali pro tuto asymptotickou kovariančnı́
matici označenı́ Q (viz (15) ).
Vzhledem k (104) máme
³
´−1
³
´−1
β̂ IP − β 0 = Z T X
Odtud
³
β̂ IP − β 0
´³
β̂ IP − β 0
´T
= ZT X
a konečně
n · varas (β̂
IP
)=σ
2
³
T
Z X
´−1
T
³
T
Z Z X Z
´−1
·
=σ
98
2
T
Z T E.
³
Z T EE T Z X T Z
³
T
X Z Z Z
´−1
T
´−1
Z X
¸−1
³
= σ 2 X̂ T X̂
´−1
,
kde subindex as naznačuje, že se jedná o asymptotickou covariančnı́ matici a kde X̂ je projekce
³
´−1
matice X pomocı́ projekčnı́ matice Z Z T Z
Z T . Odhadem asymptotické kovariančnı́ mat³
´
³
´−1
√
ice vektoru n β̂ IP − β 0 tedy může být s2 X̂ T X̂
. Protože dále je n · varas (β̂ (LS,n) ) =
σ 2 (X T X)−1 , máme
nq T
·³
X̂ T X̂
´−1
W =
√ ³ IP
n β̂ − β̂ (LS,n)
´T ·³
³
− XT X
s2
X̂ T X̂
´−1
³
− XT X
=
´−1 ¸−1
q
´−1 ¸−1 √ ³
n β̂ IP − β̂ (LS,n)
´
.
s2
V Lemmatu 2 jsme ukázali, že pokud jsou fluktuace mezi sebou vzájemně nezávislé, stejně
rozdělené
a majı́ nulovou
střednı́ hodnotu a konečný pozitivnı́ rozptyl, a platı́-li navı́c (15), pak
´
√ ³ (LS,n)
0
je n β̂
− β asymptoticky normálnı́ s nulovou střednı́ hodnotou a covariančnı́ maticı́
2
−1
σ Q . Důkaz vycházel ze vztahu (18). Nynı́ ze vztahu (18) a (104) dostaneme
"µ
β̂ IP − β̂ (LS,n) =
1 T
Z X
n
¶−1
1 T
Z −
n
µ
1 T
X X
n
¶−1
#
1 T
X E
n
a tedy
n·varas (β̂
IP
− β̂
(LS,n)
(·
=σ
2
T
³
)=σ
T
X Z Z Z
2
·³
´−1
T
Z X
´−1
¸−1
T
Z X
³
T
T
Z − X X
³
T
− X X
´−1
X
T
¸ ·³
)
´−1
X
T
= σ2
T
Z X
·³
´−1
X̂ T X̂
³
T
T
Z − X X
´−1
³
− XT X
´−1
´−1 ¸
X
T
¸T
.
Zopakovánı́m důkazu Lemmatu 2 (s malými modifikacemi) při předpokladu, že existuje limita
"µ
lim
n→∞
1 T
X̂ X̂
n
¶−1
µ
−
1 T
X X
n
¶−1 #
= QZX ,
´
√ ³
kde QZX je regulárnı́ matice, bychom nalezli, že vektor ζ = n β̂ IP − β̂ (LS,n) je asymptoticky normálně rozdělen s nulovým vektorem střednı́ch hodnot a s asymptotickou kovariančnı́
maticı́ σ 2 QZX . Vzhledem k tomu, že matice QZX je symetrická a pozitivně definitnı́, existuje
ortogonálnı́ (nikoliv nutně ortonormálnı́) matice P tak, že
P T QZX P = I
(107)
a tudı́ž náhodný vektor ξ = σ1 P T ζ je asymptoticky rozdělen dle p-rozměrného normálnı́ho
rozdělenı́ s nulovým vektorem střednı́ch hodnot a s jednotkovou kovariančnı́ maticı́. To ovšem
implikuje, že statistika ξ T ξ je asymptoticky rozdělena dle χ2 (p). Invertovánı́m vzhatu (107)
−1 = I a tedy konečně
dostaneme [P −1 ]T Q−1
ZX P
³
β̂ IP − β̂ (LS,n)
´T ·³
X̂ T X̂
´−1
W =
³
− XT X
s2
99
´−1 ¸−1 ³
β̂ IP − β̂ (LS,n)
´
=
´T ·³
´−1 ¸−1 √ ³
´
´−1 ³
√ ³ IP
1 T
1 T
(LS,n)
IP − β̂ (LS,n)
X
X
n β̂ − β̂
X̂
X̂
−
n
β̂
n
n
s2
1 T −1
−1
ζ QZX ζ = ξ T [P −1 ]T Q−1
ξ = ξ T ξ.
ZX P
σ2
V přı́padě, že se jedná o jednoduchou regresi, pak je Hausmanův test ekvivalentnı́ testu
významnosti koeficientu γ v modelu
≈
Yi = β0 + β1 xi + γ ûi + ²i , i = 1, 2.....
kde ûi , i = 1, 2, ... jsou rezidua zı́skaná po projekci vysvětlujı́cı́ veličiny x na instrumentálnı́
veličinu z, která je v tomto přı́padě přirozeně skalárnı́.
6.4.4
Závěr
Z výše uvedeného textu je zřejmé, že metoda instrumentálnı́ch proměnných nemá nepochybně
charakter “kuchařky”, tj. nepředstavuje návod, co a jak by se mělo udělat, zejména nedává
návod, jak zvolit instrumenty. To může způsobit, že jsou instrumenty zvoleny tak, že eficience
odhadu je velmi malá neboli rozptyl odhadu β̂ IP je značný a tedy konkrétnı́ hodnoty odhadů
regresnı́ch koeficientů metodou instrumentálnı́ch proměnných, tj. složky vektoru β̂ IP , mohou být
velmi vzdáleny skutečným hodnotám regresnı́ch koeficientů. Pochopitelně, že předpokládáme,
že jsme v situaci, kdy regresory a náhodné fluktuace jsou opravdu závislé a použitı́ metody
instrumentálnı́ch proměnných je namı́stě. Předpokládejme dále, že dı́ky závislosti regresorů a
náhodných fluktuacı́ je odhad metodou nejmenšı́ch čtverců značně vychýlen (mluvı́me stále
o konkrétnı́ čı́selné hodnotě odhadu pro některá data). Je-li tento odhad vychýlen “stejným
směrem” jako odhad metodou instrumentálnı́ch proměnných, lze si představit, že jejich rozdı́l
bude malý a Hausmanův test nebude indikovat vhodnost použitı́ instrumentálnı́ch proměnných.
Lze si snadno představit i opačnou situaci, totiž že regresory a náhodné fluktuace jsou
nezávislé, ale dı́ky špatné volbě instrumentů bude odhad β̂ IP značně vychýlený. Hausmanův
test však počı́tá s tı́m, že právě tento odhad je nevychýlený a pokud je rozdı́l tohoto odhadu
a odhadu metodou nejmenšı́ch čtverců velký, indikuje vychýlenost tohoto druhého odhadu, a
tedy také závislost regresorů a náhodných fluktuacı́.
Z toho, co bylo právě řečeno plyne, že je třeba volbě instrumentů věnovat mimořádnou pozornost a pokusit se najı́t takové, které jsou opravdu co nejvı́ce korelovány s regresory. Zprávou,
která nás však nepotěšı́ je to, že ani to nemusı́ postačit. Stačı́ si totiž uvědomit, že odhad pomoci
instrumentálnı́ch proměnných je odhadem pořı́zeným vlastně jinou metodou než jsou nejmenšı́
čtverce aplikované na původnı́ data. Pak již stačı́ vzı́t v úvahu výsledek prezentovaný např. ve
Vı́šek (1997 d, e), který řı́ká, že bez ohledu na počet pozorovánı́ mohou dva konzistentnı́ odhady
dávat dva velmi odlišné výsledky, nebot’ každý z těchto odhadů “dává přednost” reprezentaci
(či chcete-li, vysvětlenı́) dat pomoci jiného regresnı́ho modelu. K tomu, aby nenastal tento na
prvnı́ pohled podivný jev bychom potřebovali stejnoměrnou konvergenci všech konsistentnı́ch
odhadů ve všech regresnı́ch modelech, a to je evidentně přı́liš silný požadavek. Proto je třeba k
použitı́ instrumentálnı́ch proměnných přistupovat se stejnou opatrnostı́ jako k použitı́ robustnı́ch
metod, o kterých se velice krátce zmı́nı́me na konci skript. Nepochybně však o metodě instrumentálnı́ch proměnných platı́ totéž co o robustnı́ch metodách. To, že je nezbytné je použı́vat
100
s (alespoň určitou dávkou) opatrnosti, by nás nemělo zrazovat od jejich použitı́, nebot’ pokud
je nepoužijeme a situace bude taková, že by je bylo namı́stě použı́t, dá nám metoda nejmenšı́ch
čtverců zavádějı́cı́ výsledky.
7
ÚVAHY O SENSITIVITĚ MODELU
V této kapitole se budeme věnovat studiu situacı́, které se obvykle shrnujı́ pod pojem sensitivita
(či chcete-li citlivost) modelu a rozumı́ se tı́m to, jaké změny ve vlastnostech odhadu (metodou
nejmenšı́ch čtverců) se objevı́, pokud bude např. do modelu zařazen jiný než “správný” počet
vysvětlujı́cı́ch veličin, jaký vliv na odhad může mı́t jedno, či vı́ce (vlivných) pozorovánı́, jak
může to či ono kritérium ovlivnit výběr “optimálnı́ho” modelu atd. (viz např. Chatterjee, Hadi
(1988) ). Nejprve se budeme věnovat situaci, kdy je model podurčen, či přeurčen. Co tı́m bude
rozumněno bude ihned patrné z formálnı́ho zadánı́ situace.
7.1
Efekt podurčenı́
Situacı́, kdy budeme mluvit o podurčenı́ (underfitting), budeme rozumět to, že do matice plánu
nezahrneme všechny regresory, které by “tam měly být”. Formálně to znamená, že budeme
předpokládat, že náhodné veličiny {Yn }∞
n=1 jsou rozděleny dle modelu
(1)
Yi = [xi ]T β (1) + Ei ,
i = 1, 2, . . . ,
(108)
avšak ve skutečnosti budou tyto generovány modelem
(1)
(2)
Yi = [xi ]T β (1) + [xi ]T β (2) + Ei ,
i = 1, 2, . . . ,
(109)
(1)
kde, podobně jako výše, X (1) bude označovat matici jejı́ž i-tý řádek je roven [xi ]T (podobně pro
X (2) ). Oba přı́pady, tj. jak model ((108), tak (109)) budou uvažovány s pevnými (tj. nestochastickými) nosiči. Tuto situaci, tj. když si myslı́me, že data lze vysvětlit “menšı́m” modelem (108)
ač vhodným by byl (109), budeme označovat jako podurčenı́ modelu.
Nejprve si připravı́me pomocné technické tvrzenı́.
TVRZENÍ 11 Necht’ t ∈ Rn je náhodný vektor s navzájem nezávislými stejně rozdělenými
souřadnicemi. Předpokládejme, že existuje IE (t1 − IE t1 )2 = σ02 ∈ (0, ∞) a Q necht’ je čtvercová
matice typu n × n. Potom
IE tT Qt = σ02 tr(Q) + µT Qµ,
kde µ = IE t.
Důkaz. Výpočtem se ověřı́, že
IE tT Qt = IE
= IE
n X
n
X
n
(t − µ)T Q(t − µ) + tT Qµ + µT Qt − µT Qµ
qij (t − µ)i (t − µ)j + µT Qµ = σ02
i=1 j=1
n X
n
X
o
δij qij + µT Qµ,
i=1 j=1
kde δij je Kroneckerovo δ, tj. δij = 1 pro i = j a δij = 0 pro i 6= j.
101
2
VĚTA 3 Necht’ náhodné veličiny {Yi }∞
i=1 jsou generovány modelem (109). Potom odhad
³
β̂ LS(1) = [X (1) ]T X (1)
´−1
[X (1) ]T Y
je nestranným odhadem β (1) pouze tehdy, je-li β (2) = 0 nebo je-li [X (1) ]T X (2) = 0. Podobně
2
reziduálnı́ součet čtverců SR(1)
=
·
Pn
³
³
i=1
(1)
Yi − [xi ]T β̂ LS(1)
pouze tehdy, když I − X (1) [X (1) ]T X (1)
´−1
´2
je nestranným odhadem (n − p)σ 2
¸
[X (1) ]T X (2) β (2) = 0.
Důkaz. Snadno ověřı́me, že střednı́ hodnota odhadu β̂ LS(1) je
³
IE β̂ LS(1) = [X (1) ]T X (1)
³
= [X (1) ]T X (1)
´−1
³
´−1
[X (1) ]T IE Y
´
³
[X (1) ]T X (1) β (1) + X (2) β (2) = β (1) + [X (1) ]T X (1)
´−1
[X (1) ]T X (2) β (2) .
Pokud chceme dosáhnout nestrannosti, pak rozumně připadajı́ v úvahu jen dvě možnosti:
• bud’ β (2) = 0
• nebo [X (1) ]T X (2) = 0.
Jejich diskuzi provedeme v následujı́cı́ poznámce. Nynı́ označı́me symbolem P (1) projekčnı́
³
matici přı́slušnou k matici plánu X (1) , tj. P (1) = X (1) [X (1) ]T X (1)
předpřipravené technické tvrzenı́. Dostaneme
n
2
IE SR(1)
= IE
³
´
Y T I − P (1) Y
³
= σ 2 tr(I − P (1) ) + X (1) β (1) + X (2) β (2)
´T ³
I − P (1)
³
´−1
[X (1) ]T , a použijeme
o
´³
´
X (1) β (1) + X (2) β (2) ,
´
= σ 2 (n − p) + [β (2) ]T [X (2) ] I − P (1) X (2) β (2)
= σ 2 (n − p) +
n³
´
I − P (1) X (2) β (2)
oT ³
´
I − P (1) X (2) β (2) .
2
POZNÁMKA 5 Pokud bude β (2) = 0 nebo X (2) = 0, model (109) splývá s modelem (108)
a tedy těžko mluvit o podurčenı́. Zbývá tedy možnost [X (1) ]T X (2) = 0, což můžeme dokonce docela dobře zařı́dit, aby platilo. Vezmeme-li totiž namı́sto vysvětlujı́cı́ch proměnných obsažených
v matici X (2) přı́slušné vektory reziduı́, které dostaneme při projekci těchto veličin do prostoru M(X (1) ), dosáhneme toho, že [X (1) ]T X̃ (2) = 0 (kde X̃ (2) označuje matici poskládánou
z přı́slušných vektorů reziduı́), a navı́c model je pak, co do schopnosti vysvětlenı́ veličiny Y ,
ekvivalentnı́ modelu (109).
2
Dosáhnout nestrannosti odhadu
modelu je poněkud obtı́žnějšı́. Výše uvedené
´
³ σ v podurčeném
(2)
(2)
(1)
X β = 0 pro všechna β (2) (nebot’ β (2) neznáme).
vztahy napovı́dajı́, že musı́ platit I − P
³
´
³
´
To znamená, že I − P (1) X (2) musı́ být nulové. To je ekvivalentnı́ s X (2) ⊥ I − P (1) , ale to
znamená, že X (2) ⊂ M(X (1) ). Pak je ovšem rozšı́řenı́ modelu o X (2) pouze formálnı́. Zbývá tedy
β (2) = 0, ale pak je rozšı́řenı́ modelu o X (2) opět jen formálnı́. Navı́c je celý postup kontroverznı́
už na prvnı́ pohled. Pokud totiž chceme úpravou X (2) na X̃ (2) zajistit nestrannost β̂ LS(1) vlastně
připouštı́me, že platı́ model (109). Pak je ovšem nesmyslné odhadovat model (108).
102
7.2
Efekt přeurčenı́
V tomto odstavci uvažujme situaci, která je v jistém smyslu symetrická či chcete-li opačná
k té, kterou jsme studovali v předchozı́m odstavci. V takové situaci budeme přirozeně mluvit o
přeurčenı́ modelu (overfitting). Předpřipravme si opět nejprve pomocné tvrzenı́.
TVRZENÍ 12 Necht’ sloupce matice X (1) jsou lineárně nezávislé na sloupcı́ch matice X (2) ,
která je plné hodnosti, pak
W = [X (2) ]T (I − P (1) )X (2)
je regulárnı́.
Důkaz. Je-li W singulárnı́, pak lze nalézt (alespoň jeden) vektor v 6= 0 tak, že W v = 0, tj.
také v T W v = 0. Dosadı́me-li za W , dostaneme
³
0 = v T W v = v T [X (2) ]T (I − P (1) )X (2) v = (I − P (1) )X (2) v
³
´T ³
´
(I − P (1) )X (2) v .
´
Potom ovšem také (I − P (1) )X (2) v = 0. Předpokládali jsme však, že X (2) má plnou hodnost
a tedy jeho sloupce jsou lineárně nezávislé. To implikuje
fakt,
že bez ohledu na to, který vektor
³
´
(2)
(1)
v byl vybrán, je X v 6= 0. Pak ovšem máme I − P
⊥X (2) v, tj. X (2) v ⊂ M(X (1) ), a to
znamená, že alespoň jeden ze sloupců matice X (1) lze vyjádřit jako kombinaci sloupců z X (2) .
Došli jsme tedy ke sporu s předpoklady tvrzenı́.
2
Abychom mohli vyslovit přehledně dalšı́ větu budeme potřebovat některá dalšı́ označenı́.
Necht’
·
¸
β̂ LS(1,2) =
³
X (1) , X (2)
´T ³
X (1) , X (2)
´ −1 ³
X (1) , X (2)
´T
Y
a připomeňme, že jsme v předchozı́ větě označili
³
β̂ LS(1) = [X (1) ]T X (1)
´−1
[X (1) ]T Y.
Dále pak označme β̂ (1) a β̂ (2) ty části odhadu β̂ LS(1,2) , které odpovı́dajı́ β (1) a β (2) , tj. β̂ (1)
obsahuje prvnı́ch p souřadnic vektoru β̂ LS(1,2) zatı́mco β̂ (2) obsahuje zbytek. Konečně necht’
³
A = [X (1) ]T X (1)
tvrzenı́.
´−1
[X (1) ]T X (2) a připomeňme, že matice W byla zavedena v předchozı́m
’
VĚTA 4 Necht’ náhodné veličiny {Yi }∞
i=1 jsou generovány modelem (108). Necht dále matice
(1)
(2)
(1)
X a X v modelu (109) jsou typů (n×p) a (n×q) a necht’ matice (X , xd) je plné hodnosti.
Pak máme
β̂ (1) = β̂ LS(1) − Aβ̂ (2)
a
³
´
β̂ (2) = W −1 [X (2) ]T I − P (1) Y.
Dále
IE β̂ (1) = β (1) ,
IE β̂ (2) = 0,
kde
σ̂ 2 =
Y T (I − P ) Y
n−p−q
103
a
IE σ̂ 2 = σ 2 ,
a
³
P = X
(1)
,X
(2)
´ ·³
X
(1)
,X
(2)
´T ³
X
(1)
,X
(2)
´¸−1 ³
X (1) , X (2)
´T
.
Konečně pak


 [X (1) ]T X (1) + AW −1 AT


−AW −1 

var(β̂ LS(1,2) ) = σ 2 
.

−W −1 AT
W −1
Důkaz. Pišme normálnı́ rovnice ve tvaru
[X (1) ]T X (1) β̂ (1) + [X (1) ]T X (2) β̂ (2) = [X (1) ]T Y
(110)
[X (2) ]T X (1) β̂ (1) + [X (2) ]T X (2) β̂ (2) = [X (2) ]T Y.
(111)
a
S přihlédnutı́m k výše zavedenému označenı́, dostaneme z (110)
β̂ (1) = β̂ LS(1) − Aβ̂ (2)
a tedy
(112)
³
´
[X (2) ]T X (2) β̂ (2) = [X (2) ]T Y − [X (2) ]T X (1) β̂ LS(1) − Aβ̂ (2) .
Dosadı́me-li nynı́ za matici A, dojdeme k
³
[X (2) ]T X (2) β̂ (2) − [X (2) ]T X (1) [X (1) ]T X (1)
´−1
[X (1) ]T X (2) β̂ (2)
= [X (2) ]T Y − [X (2) ]T X (1) β̂ LS(1) .
Odtud
³
´
³
´
[X (2) ]T I − P (1) X (2) β̂ (2) = [X (2) ]T I − P (1) Y
a tedy
³
´
β̂ (2) = W −1 [X (2) ]T I − P (1) Y.
(113)
Snadno ověřı́me, že
IE β̂ (2) = IE
³
n
³
´
W −1 [X (2) ]T I − P (1) Y
o
³
´
= W −1 [X (2) ]T I − P (1) X (1) β (1) = 0,
´
nebot’ I − P (1) X (1) = 0. Poslednı́ rovnost plyne z faktu, že projekce matice do podprostoru,
který sama generuje dá právě tuto matici. To však implikuje to, že IE β̂ (1) = β (1) (viz (112)).
Spočteme-li střednı́ hodnotu reziduálnı́ho součtu čtverců
2
IE SR
= IE Y T (I − P ) (I − P ) Y = IE Y T (I − P ) Y
n
= IE
³
³
tr Y T (I − P ) Y
´o
n
= IE
´
³
tr Y Y T (I − P )
´o
= tr IE Y Y T (I − P ) = σ 2 tr (I − P ) = σ 2 (n − p − q),
104
2 je nestranným odhadem rozptylu reziduı́. Ze vztahu (113)
zjistı́me, že σ̂ 2 = (n − p − q)−1 SR
vyplývá, že
³
´
³
´
³
var(β̂ (2) ) = W −1 [X (2) ]T I − P (1) var(Y ) I − P (1)
´T
X (2) W −1
= σ 2 W −1 [X (2) ]T I − P (1) [X (2) ]T W −1 = σ 2 W −1
a
cov(β̂ LS(1) , β̂ (2) ) = cov
½³
[X (1) ]T X (1)
³
= σ 2 [X (1) ]T X (1)
´−1
³
´−1
´
¾
[X (1) ]T Y, W −1 [X (2) ]T I − P (1) Y
³
´
[X (1) ]T I − P (1) X (2) W −1 = 0,
³
´
kde jsme opět použili faktu, že [X (1) ]T I − P (1) = 0. Nakonec spočteme rozptyl odhadu β̂ (1)
var(β̂ (1) ) = var(β̂ LS(1) − Aβ̂ (2) )
= var(β̂
LS(1)
) + Avar(β̂
(2)
T
)A = σ
2
½³
[X
(1) T
] X
(1)
´−1
¾
+ AW
−1
T
A
a jeho kovarianci s odhadem β̂ (2)
cov(β̂ (1) , β̂ (2) ) = cov(β̂ LS(1) − Aβ̂ (2) , β̂ (2) ) = −σ 2 AW −1 .
2
POZNÁMKA 6 Vzhledem k tomu, že rozdı́l kovariančnı́ch matic var(β̂ (1) ) a var(β̂ LS(1) ) je
roven σ 2 AW −1 AT , což je semidefinitnı́ matice, bude “rozptyl” odhadu regresnı́ch koeficientů
v přeurčeném modelu alespoň tak velký jako v modelu správném. Navı́c je tento odhad, právě tak
jako odhad σ̂ 2 , nestranný. Již výše jsme naznačili, že lze, co se týká matematické stránky věci,
bez problémů zařı́dit, aby
var(β̂ (1) ) = var(β̂ LS(1) )
a to tak, že dosáhneme nulovosti matice A. Ukázali jsme, že stačı́ nahradit matici X (2) maticı́
X̃ (2) , která bude složena z reziduı́, které zı́skáme po projekci sloupců matice X (2) do prostoru
generovaného maticı́ X (1) , tj.
³
´
X̃ (2) = I − P (1) X (2)
³
(připomı́náme, že P (1) = X (1) [X (1) ]T X (1)
´−1
[X (1) ]T ). Snadno se ověřı́, že nový model
Y = X (1) β (1) + X̃ (2) β (2) + E
³
´
³
´
bude přirozeně ekvivalentnı́ modelu (109), nebot’ M( X (1) , X (2) ) = M( X (1) , X̃ (2) ). To znamená, že v přı́padě, kdy si nejsme moc jisti, zda je užitečné zařadit do modelu dalšı́ vysvětlujı́cı́
proměnné, můžeme se zabezpečit proti zvětšenı́ rozptylu odhadů regresnı́ch koeficientů právě popsaným postupem. Může se však přirozeně stát, že nový model půjde (poněkud) hůře interpretovat
než ten původnı́. Interpretace modelu, tedy přesněji interpretace výsledků regresnı́ analýzy však
nenı́ nikdy zcela jednoduchá a vyžaduje určité zkušenosti, které se spı́še než čtenı́m skript zı́skajı́
zpracovávánı́m souborů dat. Nicméně se pokusı́me v těchto skriptech uvést na pravou mı́ru alespoň nejběžněji se objevujı́cı́ špatné interpretace výsledků.
105
7.3
Vliv jednoho pozorovánı́
Na závěr této kapitoly si povı́me něco o charakteristice, která byla použı́vána jako diagnostický
nástroj snad od samého počátku budovánı́ regresnı́ analýzy. Je snadno pochopitelné, že současně
s rozšiřovánı́m našich vědomostı́ o regresnı́m modelu, respektive o vlastnostech odhadu jeho
koeficientů, byla snaha nalézt jednoduché nástroje na rozpoznánı́ vlivných bodů, tj. bodů, které
nejvı́ce ovlivňujı́ výsledky regresnı́ analýzy.
TVRZENÍ 13 Označme odhad pořı́zený metodou nejmenšı́ch čtverců pro data, ze kterých bylo
vypuštěno `-té pozorovánı́, symbolem β̂ (LS,n,`) . Potom platı́
³
β̂ (LS,n) − β̂ (LS,n,`) = X { ` }T X { ` }
´−1
´
³
x` Y` − xT` β̂ (LS,n) ,
(114)
kde X { ` } je matice, která vznikne z matice X po vypuštěnı́ xT` , tj. `-tého řádku a kde jsme
předpokládali, že tato matice je také plné hodnosti.
Důkaz. Normálnı́ rovnice, ze kterých vyčı́slujeme odhady β̂ (LS,n) a β̂ (LS,n,`) majı́ tvar
p X
n
X
(LS,n)
xij xik β̂k
=
k=1 i=1
a
p
n
X
X
n
X
xij Yi
j = 1, 2, . . . , p
i=1
(LS,n,`)
xij xik β̂k
n
X
=
k=1 i=1,i6=`
xij Yi
j = 1, 2, . . . , p.
i=1,i6=`
Jejich porovnánı́m dostaneme
p
n
X
X
³
xij xik
(LS,n)
β̂k
−
(LS,n,`)
β̂k
´
= x`j Y` −
p
X
(LS,n)
x`k β̂k
j = 1, 2, . . . , p,
k=1
k=1 i=1,i6=`
nebo ekvivalentně pomocı́ maticového formalizmu
³
´
³
´
X { ` }T X { ` } β̂ (LS,n) − β̂ (LS,n,`) = x` Y` − xT` β̂ (LS,n) .
2
POZNÁMKA 7 Právě dokázané tvrzenı́ usnadňuje nalezenı́ “nejvlivnějšı́ho” pozorovánı́. Potvrzuje
totiž intuitivnı́ doměnku, že nejvlivnějšı́ bod bude mezi těmi, které majı́ velká rezidua a současně
jsou daleko od počátku (nenechme se mást tı́m, že ve vztahu vystupuje x` a nikoliv nějaká
standardizovaná hodnota; o standardizaci se postará X { ` }T X { ` } ). Samozřejmě tento postup,
hledajı́cı́ bod, jehož vypuštěnı́ maximalizuje normu rozdı́lu β̂ (LS,n) − β̂ (LS,n,`) , nevezme v úvahu
globálnı́ vztahy mezi pozorovánı́mi, nebot’ ty se mohou navzájem “maskovat”. Jinými slovy, pokud
mezi daty bude vı́ce vlivných bodů tvořı́cı́ch skupinu, musı́me použı́t analogii (114) odvozenou pro
odhad β̂ (LS,n,J ) , tj. pro odhad pořı́zený pro data, ze kterých jsme vyloučili pozorovánı́ s indexy,
které jsou ve zvolené indexové množině J . Poměrně snadno lze nalézt i asymptotické rozdělenı́
pro rozdı́l
´
√ ³ (LS,n)
nλ β̂
− β̂ (LS,n,Jk ) ,
kde Jk je k-člená podskupina indexů z {1, 2, . . . , n}, pro počet vyloučených bodů k jdoucı́ch do
nekonečna současně se zvyšujı́cı́m se počtem pozorovánı́ n (např. nk → λ ∈ (0, 1) pro n → ∞),
viz Vı́šek (1997 a).
106
POZNÁMKA 8 Dřı́ve se v literatuře často připomı́nalo, že pro výpočet matice
³
X { ` }T X { ` }
´−1
, může být výhodné použı́t vztahu
³
X { ` }T X { ` }
´−1
³
= XT X
´−1
³
+
XT X
´−1
³
x` xT` X T X
1 − xT` (X T X)−1 x`
´−1
,
který plyne z obecné rovnosti
³
A + BDC T
´−1
³
= A−1 − A−1 B D−1 + C T A−1 B
´−1
C T A−1 ,
kterou snadno ověřı́me vynásobenı́m maticı́ A + BDC T . V současné době, kdy máme k dispozici výkonnou výpočetnı́ techniku, může mı́t tato možnost význam snad jen v přı́padě, kdy
zpracováváme stovky či tisı́ce dat.
7.4
Kolinearita
Při úvahách o tom, jak dalece je regresnı́ model, přı́padně metoda nejmenšı́ch čtverců citlivá na
různé situace, bychom měli také prostudovat situaci, kdy matice X T X je “na pokraji singularity”. Výraz na pokraji singularity naznačuje, že matice X T X je stále ještě regulárnı́, nicméně
jejı́ regularita je v jistém smyslu již tak problematická, že může být počátkem potı́žı́ při zpracovánı́ dat. Připomeňme, že v tom přı́padě mluvı́me o matici X jako špatně podmı́něné a např.
inverze matice X T X, kterou potřebujeme k výpočtu odhadu metodou nejmenšı́ch čtverců,
může způsobit (výpočetnı́) potı́že. Nı́že však uvidı́me, že to nejsou jediné potı́že, které může
špatná podmı́něnost matice X způsobit. Nastane-li právě popsaná situace, mluvı́me o kolinearitě (collinearity) či multikolinearitě matice plánu. Jinými slovy, kolinearitou či multikolinearitou budeme rozumět pouze situaci, kdy alespoň jeden ze sloupců matice X je skoro lineárnı́
kombinacı́ těch ostatnı́ch. Slovı́čko “skoro” se v tomto kontextu špatně formalizuje a tak se o
to nebudeme ani pokoušet a raději uvedeme nějaké diagnostické nástroje, které to rozpoznajı́.
Dřı́ve než tak však učinı́me, uvedeme jednu poznámku a připravı́me si jeden technický nástroj.
POZNÁMKA 9 Některé publikace věnované regresnı́ analýze zahrnujı́ pod pojem kolinearita
také situaci, kdy nosiče jsou opravdu lineárně závislé, tj. kdy matice plánu nenı́ plné hodnosti
(a mluvı́ o perfektnı́ kolinearitě). Na druhé straně to v praxi, až snad na přı́pady, kdy se bránı́me
z vı́ce či častěji však méně pochopitelných důvodů ke změně matice plánu, vede k vyloučenı́
některého sloupce z matice, čı́mž jsou přı́slušné problémy vyřešeny. Nebudeme tedy situaci, kdy
je matice X neúplné hodnosti jako kolinearitu vnı́mat, tj. budeme nadále předpokládat, že matice
X T X je regulárnı́. Jak však uvidı́me, řešenı́ problému kolinearity, tak jak si o něm budeme dále
povı́dat, se ukáže býti schopno řešit i situaci “plné” lineárnı́ závislosti nosičů.
Nynı́ si konečně “předpřı́pravı́me” výše slı́bený pomocný technický nástroj.
TVRZENÍ 14 Necht’ matice A typu (n × m), n ≥ m, má hodnost r ≤ m. Potom existujı́
matice P, S a Q typů (n × m), (m × m) a (m × m) a platı́:
• Matice S je diagonálnı́,
107
• A = P SQT ,
• P T P = Im
a
• QT Q = QQT = Im .
Tomuto rozkladu, tj. rovnosti A = P SQT , se často řı́ká singulárnı́ rozklad matice.
Důkaz. Definujme Q = (q1 , q2 , . . . , qm ), kde qi , i = 1, 2, . . . , m jsou vlastnı́ ortogonálnı́
vektory matice AT A s vlastnı́mi čı́sly λ1 ≥ λ2 ≥ . . . ≥ λm ≥ 0. Poslednı́ nerovnost plyne
z faktu, že matice AT A je nutně pozitivně semidefinitnı́. Existence takových vektorů plyne z
Tvrzenı́ 6. Bez újmy na obecnosti předpokládejme, že vektory majı́ jednotkovou délku. Ttak je
lze samozřejmě vždy zvolit. Z předpokladu, že hodnost matice A je r plyne, že prvnı́ch r vlastnı́ch
√
n
čı́sel je nenulových a můžeme tedy položit si = λi a pi = s−1
i Aqi ∈ R pro i = 1, 2, . . . , r.
Potom dostaneme
1 T T
sj
qi A Aqj = qiT qj = δij .
pTi pj =
si sj
si
Dále doplnı́me matici P ∗ = (p1 , p2 , . . . , pr ) dalšı́mi ortogonálnı́mi vektory jednotkové délky na
matici P typu (n × m), libovolně. Z volby matice Q plyne, že QT Q = Im . Protože matice Q je
regulárnı́ a inverznı́ matice je jen jedna, je také QQT = Im , a tedy
A = AQQT = (s1 p1 , s2 p2 , . . . , sm pm )QT = P SQT ,
kde jsme využili fakt, že sr+1 , . . . , sm = 0.
2
’
Vrat me se nynı́ ke kolinearitě. Jaké jsou jejı́ zdroje (či přı́činy, chcete-li) a jak ji můžeme
rozpoznat? Jestliže už vı́me, že naše data vykazujı́ kolinearitu, a to ve stupni, který by mohl
z důvodů, které si dále ukážeme, ovlivnit jejich zpracovánı́, co bychom měli podniknout? Na
tyto otázky nynı́ postupně odpovı́me.
7.4.1
Zdroje a rozpoznánı́ kolinearity
Jako zdroj kolinearity bývá nejčastěji uváděna jedna z následujı́cı́ch přı́čin:
• způsob sběru dat,
• omezenı́ v populaci, ze které byla data vybı́rána,
• špatná specifikace modelu.
Zastavme se na chvı́li u jednotlivých přı́čin kolinearity. Prvnı́ z nich upozorňuje na to, že
občas určité rysy některé metody sběru dat mohou vést k tomu, že vlastně “vtiskneme” datům
kolinearitu sami. Např. se omezı́me na ty prvky v nějaké širšı́ populaci, které současně splňujı́ to
a to, a pokud jsou tato omezenı́ zvolena tak nešt’astně, že představujı́ nadrovinu ve faktorovém
prostoru, budou data vykazovat kolinearitu.
Druhá řı́čina je velmi podobná té prvnı́, ale s tı́m rozdı́lem, že vlastně v celé populaci existuje
takový typ vazby, jaký byl v předchozı́m přı́padě “nešt’astně” vybrán jako selektivnı́ pravidlo pro
108
sběr dat. Pak je samozřejmě zbytečné shromažd’ovat o jednotlivých přı́padech všechny položky,
naopak některé položky, které dı́ky lineárnı́ vazbě vlastně “plynou” z hodnot jiných vysvětlujı́cı́ch
proměnných (jiných položek) nenı́ třeba shromažd’ovat.
Konečně pak třetı́ přı́čina je přeurčenı́ modelu, o kterém jsme si povı́dali již dřı́ve. Podrobnou
diskuzi ke všem těmto bodům uvádějı́ práce Mason a kol. (1975) či Gunst (1983). Přı́klad dat
vykazujı́cı́ch kolinearitu z důvodu uvedeného jako prvnı́ lze nalétz v Marquart, Snee (1975).
Nynı́ si něco povı́me o způsobech, jak kolinearitu rozpoznat. Prvnı́, a jak se hned ukáže
zavádějı́cı́ nápad, vezme v úvahu to, že pokud matice plánu X nenı́ plné hodnosti, má matice
X T X nulový determinant. Napadne nás tedy, že čı́m bude matice X hůře podmı́něna, tı́m bude
jejı́ determinant menšı́. Mohli bychom se tedy pokusit rozpoznat kolinearitu pomoci velikosti
jejı́ho determinantu. Je-li však matice X T X “pouze” špatně podmı́něna, tj. sloupce v matici X
jsou “téměř” lineárně závislé, je determinant matice nenulový a může být, vynásobı́me-li např.
všechny prvky matice X stejným čı́slem, “udělán” libovolně velkým či libovolně malým, aniž
by se cokoliv změnilo na “stupni” závislosti mezi sloupci matice X. Totéž platı́ i o vlastnı́ch
čı́slech, jejichž hodnota může být takto zvětšena či zmenšena dle libosti. Naštěstı́ je okamžitě
patrné, že zmı́něné úpravy matice nic nezměnı́ na poměru vlastnı́ch čı́sel, tj. jinými slovy, poměr
kterýchkoliv dvou pevně zvolených vlastnı́ch čı́sel je hodnota absolutnı́, nezměnitelná násobenı́m
matice. Mohli bychom tedy tento poměr, např. poměr největšı́ho ku nejmenšı́mu vlastnı́mu čı́slu
matice X T X, použı́vat jako čı́selnou charakteristiku podmı́něnosti této matice. Je-li totiž matice
singulárnı́, je alespoň jedno vlastnı́ čı́slo nulové. Je-li tedy matice “na pokraji singularity”,
je alespoň jedno vlastnı́ čı́slo (výrazně) menšı́ než to největšı́, byt’ samozřejmě i to nejmenšı́
může být značně veliké. Z jakýchsi historických důvodů (viz singulárnı́ rozklad matice) se však
použı́vá odmocnina poměru vlastnı́ch čı́sel. Připomeňme, že dı́ky tomu, že předpokládáme plnou
hodnost matice X, je matice X T X positivně definitnı́ a tedy má všechna vlastnı́ čı́sla kladná.
√
Předpokládejme, že je očı́slujeme λ1 ≥ λ2 ≥ . . . ≥ λp > 0 a položı́me si = λi , 1 ≤ i ≤ p.
DEFINICE 3 j-tým indexem podmı́něnosti matice X budeme rozumět veličinu
s1
ηj = ,
j = 1, 2, . . . , p.
sj
Index podmı́něnosti, tentokrát bez přı́vlastku j-tý, matice X bude
s1
κ(X) = ηp = .
sp
TVRZENÍ 15 Necht’ P SQT je singulárnı́ rozklad matice X. Potom pro j = 1, 2, . . . , p máme
(LS,n)
var(β̂j
) = σ2
p
X
2
s−2
i qij ,
(115)
i=1
kde qij je i, j-tý prvek matice Q.
Důkaz. Několikrát jsme v předchozı́m textu použili to, že var(β̂ (LS,n) ) = σ 2 (X T X)−1 . Matici
X T X můžeme psát jako QS 2 QT a tedy, uvědomı́me-li si, že matice Q je inverznı́ ke QT a matice
S je diagonálnı́, máme
h
(X T X)−1 = QS 2 QT
i−1
= QS −2 QT =
p
X
i=1
109
T
s−2
i qi qi ,
kde jsme symbolicky psali S −2 namı́sto S −1 S −1 . Poslednı́ rovnost se snadno ověřı́, jestliže
rozepı́šeme přı́slušný součin pomocı́ sumacı́.
2
Ze vztahu (115) je ihned patrné, jaké jsou důsledky toho, je-li alespoň jedno si dosti malé.
(LS,n)
Je vidět, že rozptyl var(β̂k
) může být značně velký. Jak jsme připoměli výše, absolutnı́
velikost čı́sel si lze ovlivnit znásobenı́m matice X. To znamená, že lze tı́mto ovlivnit rovněž
rozptyl odhadu regresnı́ch koeficientů. To samozřejmě souhlası́ s intuitivnı́ představou, že čı́m
jsou body, ve kterých se uskutečnilo pozorovánı́ vı́ce vzdáleny od sebe, tı́m je odhad přesnějšı́.
Povšimněme si však, že to nic neměnı́ na relativnı́ přesnosti predikce hodnoty vysvětlované
proměnné v některém bodě x ∈ Rp , samozřejmě za předpokladu, že je celý výpočet prováděn
na dostatečný počet desetinných mı́st tak, aby se kdesi cestou hodně malé čı́slo nepovažovalo za
nulu.
Navı́c (115) naznačuje, že pokud je jedno si malé ve srovnánı́ s ostatnı́mi čı́sly sk , bude mı́t
i-tý člen v součtu (115) mimořádnou váhu a může “destabilizovat” odhad.
Nastane-li situace, kdy κ(X) > 100 mluvı́ se zpravidla o silné kolinearitě a patrně jediná
pomoc je některý sloupec matice X vypustit. Je-li κ(X) > κ, kde κ ∈ (10, 30) je jakási kritická,
ale v podstatě individuálnı́ hodnota dle vkusu a zkušenostı́ toho či onoho zpracovatele dat,
použije se obvykle některá metoda na potlačenı́ kolinearity.
7.4.2
Hřebenová regrese
A. E. Hoerl a R. W.Kennard navrhli v roce 1970 jeden z možných způsobů, (Hoerl a Kennard
(1970 a, b)) jak se vyrovnat s nepřı́jemným vlivem kolinearity. Jejich návrhu se začalo řı́kat
ridge regression, česky se pomalu ujı́má hřebenová regrese, nebot’ název, jak v angličtině tak
v češtině, zachycuje ten fakt, že se v matici “zvedne” uměle diagonála, tj. vytvořı́ se jakýsi
(horský) hřeben, a tı́m se (poněkud) potlačı́ kolinearita.
Vysvětleme si nynı́ podrobněji, v čem spočı́vá návrh pánů Hoerla a Kennarda. Ukažeme
nejprve, že matice X T X + δI, kde δ je (malé) pozitivnı́ čı́slo, je vždy regulárnı́, a tedy pozitivně
definitnı́. Protože matice X T X je symetrická, plyne z Tvrzenı́ 7, že X T X = QS 2 QT , kde S 2 je
diagonálnı́ matice majı́cı́ na diagonále vlastnı́ čı́sla matice X T X a QT Q = QQT = I. Vzhledem
k tomu, že navı́c předpokládáme, že X T X je regulárnı́ a tedy pozitivně definitnı́ jsou prvky
na diagonále matice S 2 kladné, byt’ patrně malé. Uvědomme, že matici X T X + δI můžeme
psát jako Q(S 2 + δI)QT , nebot’ QQT = I. Je však evidentnı́, že matice Q(S 2 + δI)QT je
regulárnı́. Každý
³ z činitelů´ v tomto součinu je totiž také regulárnı́. Poslednı́ rovnost však ihned
implikuje, že X T X + δI Q = Q(S 2 + δI), neboli, že čı́sla na diagonále matice S 2 + δI jsou
vlastnı́mi čı́sly matice X T X + δI. To však znamená, že velikost těchto čı́sel a jejich poměrů
můžeme měnit pomocı́ volby čı́sla δ, můžeme také měnit index podmı́něnosti této matice. A
to je hlavnı́ myšlenka hřebenové regrese, totiž umělá změna poměru vlastnı́ch čı́sel matice jejı́ž
inverzi hledáme.
Po těchto předběžných úvahách, studujme nynı́ namı́sto odhadu β̂ (LS,n) = (X T X)−1 X T Y
odhad
³
´−1
β̂ (R,δ,n) = X T X + δI
X T Y.
³
TVRZENÍ 16 Vychýlenı́ odhadu β̂ (R,δ,n) je −δ X T X + δI
110
´−1
β 0 a matice střednı́ch kvadrat-
ický odchylek (MSE) má tvar
³
X T X + δI
´−1 h
σ 2 X T X + δ 2 β 0 [β 0 ]T
i³
X T X + δI
´−1
.
Důkaz. Snadno se ověřı́, že vychýlenı́ odhadu β̂ (R,δ,n) je
h
i
³
IE β̂ (R,δ,n) − β 0 = X T X + δI
³
= X T X + δI
´−1 h
´−1
X T Xβ 0 − β 0
i
³
X T X − X T X − δI β 0 = −δ X T X + δI
´−1
β0.
Výpočtem můžeme ověřit, že pro každý náhodný vektor Z je matice střednı́ch kvadratických
odchylek ( MSE(Z) ) od pevného vektoru h rovna
n
(Z − h)(Z − h)T
IE
o
n
= IE
(Z − IE Z + IE Z − h)(Z − IE Z + IE Z − h)T
o
= var(Z) + (IE Z − h)(IE Z − h)T .
Navı́c je okamžitě patrné, že
³
IE β̂ (R,δ,n) = X T X + δI
³
a tedy β̂ (R,δ,n) − IE β̂ (R,δ,n) = X T X + δI
var(β̂
(R,δ,n)
½³
´−1
X T Xβ 0
³
X T (Y − Xβ 0 ) = X T X + δI
T
) = IE
X X + δI
³
´−1
= σ 2 X T X + δI
´−1
´−1
T
T
³
T
X E · E X X X + δI
³
X T X X T X + δI
´−1
´−1
X T E. Odtud
´−1 ¾
.
Konečně pak
³
MSE(β̂ (R,δ,n) ) = X T X + δI
´−1 h
σ 2 X T X + δ 2 β 0 [β 0 ]T
i³
X T X + δI
´−1
.
2
LEMMA 11 Necht’ model (4) má plnou hodnost a necht’ IE E = 0 a IE E · E T = σ 2 I, σ 2 ∈
2
(0, ∞). Konečně necht’ 0 < δ < 2 kβσ0 k2 . Potom
var(β̂ (LS,n) ) − MSE(β̂ (R,δ,n) )
je pozitivně definitnı́.
Důkaz. Připravı́me si nejprve následujı́cı́ pomocné tvrzenı́.
TVRZENÍ 17 Necht’ C je pozitivně definitnı́ matice, řekněme typu (n×n). Potom pro libovolný
vektor a ∈ Rn je aT Ca ≤ 1 právě tehdy, pokud je C −1 − aT a pozitivně semidefinitnı́ matice.
Pokud má platit ostrá nerovnost aT Ca < 1 je nutné a stačı́, aby matice C −1 − aT a byla pozitivně
definitnı́.
111
Důkaz. Vı́me, že C lze psát jako QDQT , kde Q je regulárnı́ ortogonálnı́ matice a D je
diagonálnı́ s kladnými prvky na diagonále. Fakticky jde o vlastnı́ čı́sla matice C. To znamená,
−1 je také
že C −1 = QD−1 QT , kde D−1 je diagonálnı́ matice majı́cı́ na diagonále d−1
ii , tj. C
pozitivně definitnı́. Dokazované tvrzenı́ tedy platı́ pro a = 0.
Matice C může být ovšem také psána jako Q̃Q̃T , kde Q̃ je rovněž regulárnı́. Potom aT Ca ≤ 1
je ekvivalentnı́ s kQ̃ak ≤ 1. Z jednoduché geometrické úvahy plyne, že rozdı́l projekčnı́ch matic
Q̃(Q̃T Q̃)−1 Q̃T − Q̃a(aT Q̃T Q̃a)−1 aT Q̃T ,
je rovněž projekčnı́ maticı́ (viz Tvrzenı́ 9). nebot’ M(Qa) ⊂ M(Q).
Platı́-li nynı́ kQ̃ak ≤ 1, pak pro libovolné λ ∈ Rn je
λT Q̃a(aT Q̃T Q̃a)−1 aT Q̃T λ =
To ovšem řı́ká, že
λT Q̃aaT Q̃T λ
≥ λT Q̃aaT Q̃T λ.
aT Q̃T Q̃a
n
o
0 ≤ λT Q̃(Q̃T Q̃)−1 Q̃T − Q̃a(aT Q̃T Q̃a)−1 aT Q̃T λ
n
o
≤ λT Q̃(Q̃T Q̃)−1 Q̃T − Q̃aaT Q̃T λ
a tedy pro τ = Q̃T λ, dostaneme
³
´
τ T (Q̃T Q̃)−1 − aaT τ ≥ 0,
což však znamená, že je pozitivně semidefinitnı́ také
(Q̃T Q̃)−1 − aaT = C −1 − aaT .
Dokazujme nynı́ opačné tvrzenı́. Necht’ C −1 − aaT je pozitivně semidefinitnı́. Pak pro vektor
ξ = Q̃T Q̃a, at’ už je nulový či nikoliv, je
³
´
³
´
³
´
0 ≤ ξ T C −1 − aaT ξ = ξ T (Q̃T Q̃)−1 − aaT ξ = aT Q̃T Q̃ (Q̃T Q̃)−1 − aaT Q̃T Q̃a
= aT Q̃T Q̃(Q̃T Q̃)−1 Q̃T Q̃a − aT Q̃T Q̃aaT Q̃T Q̃a.
Nynı́ využijeme toho, že vektor Q̃a ležı́ v prostoru M(Q̃), tj. Q̃(Q̃T Q̃)−1 Q̃T Q̃a = Q̃a a tedy
máme
0 ≤ aT Q̃T Q̃(Q̃T Q̃)−1 Q̃T Q̃a − aT Q̃T Q̃aaT Q̃T Q̃a = aT Q̃T Q̃a − aT Q̃T Q̃aaT Q̃T Q̃a
= kQ̃ak2 − kQ̃ak4 = kQ̃ak2 (1 − kQ̃ak2 ).
Poslednı́ nerovnost implikuje to, že kQ̃ak2 ≤ 1, neboli aT Q̃T Q̃a = aT Ca ≤ 1. Důkaz tvrzenı́
s ostrými nerovnostmi je založen na faktu, že pro matici
·
F =
A B
C D
¸
,
kde A a D jsou regulárnı́, máme
|F | = |A| · |D − CA−1 B| = |D| · |A − BD−1 C|,
112
(116)
kde |F |, |A|, atd. je determinant matice F, A, atd.. Poslednı́ rovnost se ověřı́ takto:
¯ ¯
¯
¯ I
|F | = ¯¯
¯
¯ I
= ¯¯
0
¯ ¯
¯
0 ¯¯ ¯¯ I
0 ¯¯ ¯¯ A B ¯¯
·¯
·
¯
0 D
0 D−1 ¯ ¯ C D ¯
¯ ¯
¯
¯
¯ ¯
¯
0 ¯¯ ¯¯ A
B ¯¯ ¯¯ I 0 ¯¯ ¯¯ A − BD−1 C 0 ¯¯
· ¯ −1
=
·
.
¯
D
D C I ¯ ¯ 0 D ¯ ¯
D−1 C
I ¯
Využijeme-li jak prvou, tak druhou rovnost z (116), dostaneme
¯ −1
¯ C
¯
¯ aT
¯
a ¯¯
= |C −1 |(1 − aT Ca) = |C −1 − aaT |.
1 ¯
To však dokazuje to, že C −1 − aaT je singulárnı́ právě když 1 = aT Ca. Konečně pak z faktu,
že pozitivně semidefinitnı́ matice je pozitivně definitnı́ právě tehdy, je-li regulárnı́ plyne druhé
tvrzenı́.
2
Důkaz lemmatu 10. Připomeňme, že výraz pro kovariančnı́ matici odhadu metodou nejmenšı́ch čtverců vypadá takto var(β̂ (LS,n) ) = σ 2 (X T X)−1 . Aplikacı́ Tvrzenı́ 6 dostaneme
var(β̂ (LS,n) ) − MSE(β̂ (R,δ,n) )
³
= X T X + δI
´−1 h
σ 2 (X T X + δI)(X T X)−1 (X T X + δI)
−σ 2 X T X − δ 2 β 0 [β 0 ]T
³
= X T X + δI
i³
X T X + δI
´−1 h
σ 2 (2δI + δ 2 (X T X)−1 ) − δ 2 β 0 [β 0 ]T
i³
´−1
X T X + δI
´−1
.
(117)
Je-li tedy δ ∈ (0, 2σ 2 kβ 0 k−2 ), potom pro C = 12 Iδσ −2 máme [β 0 ]T 21 Iδσ −2 β 0 = 12 δσ −2 kβ 0 k2 < 1
a tedy dle Tvrzenı́ 7 je 2Iσ 2 δ −1 − β 0 [β 0 ]T pozitivně definitnı́. Pak ovšem i 2Iσ 2 δ − δ 2 β 0 [β 0 ]T je
pro δ > 0 pozitivně definitnı́ a tedy také matice
σ 2 (2δI + δ 2 (X T X)−1 ) − δ 2 β 0 [β 0 ]T
je pozitivně definitnı́, což ovšem ihned implikuje, že i (117) je pozitivně definitnı́.
2
TVRZENÍ 18 Necht’ P SQT je singulárnı́ rozklad matice X. Potom
var(β̂
(R,δ,n)
)=σ
2
p
X
"
i=1
si
2
si + δ
#2
qi qiT .
Důkaz. Podobně jako výše pišme X T X = QS 2 QT a tedy
³
X T X + δI
´−1
= Q(S 2 +
δI)−1 QT . Potom
³
β̂ (R,δ,n) = X T X + δI
´−1
X T Y = Q(S + δI)−1 QT QSP T Y = Q(S + δI)−1 SP T Y,
a konečně tedy
var(β̂ (R,δ,n) ) = Q(S + δI)−1 SP T var(Y ) P S(S + δI)−1 QT
2
−1 2
= σ Q(S + δI)
−1
S (S + δI)
T
Q =σ
2
p
X
i=1
Ã
si
2
si + δ
!2
qi qiT .
2
113
POZNÁMKA 10 Bude-li matice X T X špatně podmı́něná, nalezne se mezi jejı́mi vlastnı́mi
čı́sly některé dosti malé, v porovnánı́ s ostatnı́mi. To znamená, že pro toto vlastnı́ čı́slo (řekněme
2
−1 může být opět naopak malé.
i-té) bude s−1
i , které vystupuje v (115), dosti velké, avšak si (si +δ)
Vzhledem k tomu, že samozřejmě neznáme ani σ 2 ani kβ 0 k, nenı́ jasné, jak velké může
být zvoleno δ. Existujı́ v podstatě dvě možnosti, jak se s tı́mto problémem vypořádat. Jednou
z možnostı́ je vypočı́tat β̂ (R,δ,n) jako funkci δ pro různé hodnoty δ a vynést grafy jednotlivých
složek vektoru β̂ (R,δ,n) v závislosti na δ. Poté se doporučuje zvolit δ takové, od kterého počı́naje
se už grafy “stabilizujı́”. Jinou možnostı́ je zvolit nějak δ, vypočı́tat odhad β̂ (R,δ,n) a σ̂ 2 , a poté
vždy překontrolovat, zda δ < 2σ̂ 2 kβ̂ (R,δ,n) k−2 .
Alternativou hřebenových odhadů je nalezenı́ hlavnı́ch komponent matice X T X a vybudovánı́ regresnı́ho modelu na těchto komponentách. O tom si povı́me v dalšı́m odstavci.
7.4.3
Odhady s lineárnı́mi ohraničujı́cı́mi podmı́nkami
Je pochopitelné, že pokud pomocı́ např. faktorové analýzy či analýzy hlavnı́ch komponent
použité pro X T X by se ukázalo, že “variabilita” dat majı́cı́ch za kovariančnı́ matici právě X T X
je vysvětlitelná pouze r faktory, znamená to, že p − r sloupců matice X je “téměř” závislých
na některých r. To odpovı́dá přibližně situaci, kdy dimenze prostoru M(X) je r a nalezneme
matici K tak, že M(X) ∩ M(K) = ∅ a M(X ∪ K) = p a hledáme odhad modelu
Y = Xβ + E,
Kβ = 0,
(118)
kde K je typu ((p − r) × p). Opět lze ukázat, že, označı́me-li β̂ (C,n) odhad regresnı́ch koeficientů
v tomto modelu metodou nejmenšı́ch čtverců (kde hornı́ index C naznačuje, že jde o odhad
s omezenı́mi - constraints), je
var(β̂ (LS,n) ) − MSE(β̂ (C,n) )
(119)
pozitivně definitnı́, opět samozřejmě za určitých podmı́nek na si , viz Zvára (1989).
Namı́sto toho, abychom uvedli přesný důkaz tohoto tvrzenı́, ukážeme, jak takový odhad
s lineárnı́mi omezenı́mi vypočı́tat. Nejprve budeme studovat jednoduchý přı́klad, kdy omezenı́
jsou
(LS,n)
β̂1
= 0,
(120)
tj. model bude bez absolutnı́ho členu, a
p
X
(n)
β̂j
j=1
=
p
X
(n)
β̂j
= 1.
(121)
j=2
Tato úloha patrně pocházı́ z oblasti kombinovánı́ předpovědı́ časových řad, např. kombinovánı́
predikcı́ velikosti hrubého národnı́ho produktu, které byly vytvořeny různými agenturami. Vhodná
kombinace je hledána pomocı́ lineárnı́ho regresnı́ho modelu, vytvořeného tak, že predikovaná
řada, jejı́ž hodnoty až do současnosti známe, se zprojektuje na matici plánu, jejı́ž sloupce
jsou tvořeny právě řadami předpovědı́ predikovaného procesu, které v minulosti vydávali různı́
“prediktoři”.
114
Připravme si však nejprve technický nástroj. Poměrně snadno se ověři, že
³
IE
Ŷt+1 − Yt+1
´2
"
=σ
2
µh
T
Xt+1
X
(t)
iT
X
(t)
#
¶−1
Xt+1 + 1 ,
(122)
kde jsme hornı́m indexem (t) u X (t) naznačili, že se jedná o matici plánu (která je složena
z předpovědı́ jednotlivých předpovı́datelů, na mı́stě sloupců) pro obdobı́ 1, 2, ...t. Dále pak Yt+1
a Ŷt+1 jsou hodnoty předpovı́daného procesu a jeho odhadu v obdobı́ t + 1 a konečně Xt+1 je
vektor předpovědı́ jednotlivých předpovı́datelů na obdobı́ t+1. Zapišme výše uvedená ohraničenı́
na koeficienty regresnı́ho modelu maticově. Dostaneme
Cβ = κ,
(123)
kde c11 = 1, c1i = 0 pro i = 2, 3, ..., p, c21 = 0, c2i = 1 pro i = 2, 3, ..., p a κ = (0, 1)T . Nalezněme
odhad regresnı́ch koeficientů v modelu (118) a označme predikci zı́skanou pomocı́ tohoto odhadu
jako Ỹt+1 . Potom máme
³
IE
µh
−
X (t)
iT
X (t)
¶−1
Ỹt+1 − Yt+1
"
CT C
µh
X (t)
iT
´2
(
=σ
X (t)
2
¶−1
"µ
T
Xt+1
h
X
#−1
CT
(t)
iT
µh
X
X (t)
C
iT
(t)
¶−1
X (t)
¶−1



 Xt+1 + 1 . (124)

To, že rozdı́l výrazů v (122) a (124) je nezáporný, plyne z faktu, že matice
µh
X
(t)
iT
X
(t)
"
¶−1
C
T
µh
C
X
(t)
iT
X
(t)
#−1
¶−1
C
T
µh
C
X
(t)
iT
X
(t)
¶−1
je pozitivně semidefinitnı́ (byt’ zlepšenı́ je řádu 1t ; podrobnějšı́ diskuzi lze nalézt v Clemen (1986)).
Vyložme si nynı́, jak se naleznou výše zmı́něné odhady regresnı́ch koeficientů pro speciálnı́
ohraničenı́ daná v (123). Pak si uvedeme data a ukážeme, jak je velký zisk - ve smyslu součtu
čtverců chyb předpovědı́, použijeme-li obyčejné nejmenšı́ čtverce, tj. bez omezenı́, či odhad
splňujı́cı́ (120) a (121).
Tak jako obvykle, budeme předpokládat, že matice plánu obsahuje v prvnı́m sloupci samé
jedničky, ve druhém prvnı́ vysvětlujı́cı́ proměnnou, atd. . Nynı́ ztransformujeme data následujı́cı́m
způsobem. Necht’ pro i = 1, 2, . . . , n a j = 1, 2, . . . , p − 2
Ỹi = Yi − Xi2 ,
X̃ij = Xi,j+2 − Xi2
a nalezneme β̂ (LS,n) pro model Ỹ = X̃ β̃ + E. Konečně pak definujme vzájemně jednoznačnou
P
transformaci T z Rp−2 na podprostor Rp zadaný podmı́nkou β̂1 = 0 a pj=1 β̂j = 1
T1 (β̃) = β̂1 = 0, T2 (β̃) = β̂2 = 1 −
p−2
X
β̃j ,
Tj (β̃) = β̂j = β̃j−2 , j =, 3, 4, . . . , p.
j=1
Potom ovšem
Pp
j=1 β̂j
= 1, tj. omezenı́ (121) je splněno. Dále (připomı́náme, že β̂1 = 0)
n
X
(Yi −
i=1
XiT β̂)2
=
n
X
(Yi − Xi2 β̂2 −
i=1
p
X
j=3
115
Xij β̂j )2
(125)
=
n
X
(Yi − Xi2 (1 −
i=1
p−2
X
β̃j ) −
j=1
p−2
X
2
Xi,j+2 β̃j ) =
j=1
=
n
X
n
X
p−2
X
i=1
j=1
(Yi − Xi2 −
X̃ij β̃j )2
(Ỹi − X̃iT β̃)2 ,
(126)
i=1
tj. vektory β̂ ∗ a β̃ ∗ , které minimalizujı́ sumy (125) a (126) si navzájem odpovı́dajı́, tj. β̂ ∗ = T (β̃ ∗ ).
Řešenı́ úlohy s omezenı́mi (120) a (121) nalezneme tedy snadno takto: Namı́sto původnı́ matice
plánu vezmeme matici, kterou dostaneme tak, že vynecháme prvnı́ sloupec, pokud byl tvořen
jedničkami, tj. pokud se počı́talo s absolutnı́m členem, a upravı́me data tak, že vezmeme druhou
vysvětlujı́cı́ proměnnou, odečteme od nı́ tu prvnı́ a nově vzniklou proměnnou považujeme za
novou prvnı́ vysvětlujı́cı́ proměnnou atd. až po p−2-hou novou vysvětlujı́cı́ proměnnou. Podobně
od vysvětlované proměnné odečteme prvnı́ vysvětlujı́cı́ a tuto transformovanou proměnnou
budeme uvažovat jako novou vysvětlovanou proměnnou. Nakonec vypočteme normálnı́ (chceteli běžný) odhad metodou nejmenšı́ch čtverců a ten pak ztransformujeme zpět pomocı́ výše
naznačené transformace T (β̃).
Nynı́ se budeme věnovat výše slibenému přı́kladu o vývoji hrubého národnı́ho důchodu ve
Spojeném královstvı́. Data byla publikována v článku Holden a Peel (1989) a popisujı́ tedy růst
hrubého národnı́ho produktu v U. K. a to od 1977/1 do 1985/2, přičemž růst byl přepočı́tán
k cenám z roku 1988. Zkratky v následujı́cı́ch tabulkách naznačujı́, že jednotlivé předpovědi byly
vytvořeny těmito agenturami:
• HCT - Henley Centre for Forecasting,
• LBS - London Business School,
• NI - National Institute of Economic and Social Research,
• OECD - Organization for Economic Co-operation and Development
a
• PD - Phillips and Drew.
V následujı́cı́ tabulce jsou uvedena data, tak jak byla publikována článku v Holden a Peel (1989)
a to na tři desetinná mı́sta, pokud ovšem v přı́slušném sloupci se neobjevilo alespoň jedno čı́slo
udané na vı́ce platných cifer.
TABULKA 9
Ekonomický růst ve Spojeném královstvı́
Pořadı́
Obdobı́
HCF
LBS
NI
OECD
PD
Růst
1
1977/1
2.5875
2.650
1.270
1.125
-0.400
1.76899
2
1977/2
3.0375
2.360
3.310
1.000
1.000
3.62319
3
1977/3
3.4500
2.240
3.150
1.875
1.500
3.40205
4
1977/4
3.0750
2.050
2.570
1.500
-0.400
2.76075
5
1978/1
3.1000
3.470
3.460
2.875
-3.000
2.04499
6
1978/2
2.9125
3.340
1.470
2.000
2.200
3.39661
116
Ekonomický růst ve Spojeném královstvı́ (pokračovánı́)
Pořadı́
Obdobı́
HCF
LBS
NI
OECD
PD
Růst
7
1978/3
3.2125
1.660
0.830
2.125
3.000
2.79163
8
1978/4
3.1375
2.820
2.620
1.750
4.500
2.58706
9
1979/1
2.7000
3.160
2.960
1.875
3.500
2.30461
10
1979/2
1.9250
3.100
1.980
1.500
0.900
-2.70532
11
1979/3
0.3375
-0.930
1.100
2.625
-0.400
-3.68575
12
1979/4
-0.1375
-0.100
0.820
1.000
0.800
-5.04364
13
1980/1
-1.9000
-0.980
1.850
-1.625
1.500
-3.91773
14
1980/2
-1.0125
-0.040
0.470
-0.500
-3.700
-2.58193
15
1980/3
-0.6375
-0.200
1.600
2.750
-2.600
-0.50352
16
1980/4
-0.5500
1.980
1.130
-1.000
-5.000
2.04290
17
1981/1
1.4000
2.270
-0.050
-1.000
-5.600
1.63099
18
1981/2
-0.4500
2.480
-0.230
-1.250
-4.500
2.34455
19
1981/3
0.5500
2.560
0.150
-0.250
-2.400
1.31579
20
1981/4
1.4500
2.470
0.530
0.750
-0.500
1.10111
21
1982/1
-1.7500
2.790
0.310
1.000
1.000
3.10932
22
1982/2
1.6375
3.020
1.090
1.750
1.800
2.49004
23
1982/3
1.9375
2.910
0.860
1.750
1.200
4.09591
24
1982/4
2.2875
2.180
1.850
1.625
0.400
4.05940
25
1983/1
1.6250
2.210
1.780
1.500
1.300
3.11285
26
1983/2
2.1375
2.120
1.250
1.625
2.400
2.62390
27
1983/3
2.5125
2.920
1.200
2.375
3.000
2.69714
28
1983/4
2.0875
2.430
1.100
2.250
3.400
2.66413
29
1984/1
2.5000
2.360
1.980
2.250
1.700
3.30189
30
1984/2
2.2500
4.050
3.050
1.750
3.900
4.92424
31
1984/3
2.1000
2.220
3.740
2.750
2.710
3.45794
32
1984/4
2.3500
2.180
2.950
2.000
2.980
2.78035
33
1985/1
2.8300
3.400
1.360
3.630
2.810
2.37442
34
1985/2
2.4500
2.600
1.350
2.880
2.740
1.35379
Data byla zpracována takto. Počı́naje čtvrtletı́m 1982/1 byly konstruovány kombinované předpovědi
hrubého národnı́ho důchodu a to tı́mto způsobem. Na základě dat až do tohoto čtvrtletı́, tj. na
základě t prvých řádků TABULKY 9, a byl vypočten β̂ (LS,t) a β̂ (C,t) , kde veličina “Růst” figurovala jako vysvětlovaná a veličiny “HCF”, “LBS”, “NI”, “OECD” a “PD” jako vysvětlujı́cı́.
To odpovı́dá myšlence, že na základě dat z minulosti, kdy už známe vývoj veličiny “Růst” se
naučı́me “co nejlépe kombinovat” předpovědi jednotlivých předpovı́datelů a ve chvı́li, kdy tito
předpovı́datelé uvolnı́ pro veřejnost svoje předpovědi na dalšı́ čtvrtletı́, vytvořı́me kombinované
předpovědi
xTt+1 β̂ (LS,t)
a
xTt+1 β̂ (C,t) .
117
Na konci každého čtvrtletı́, např. t + 1, kdy už známe Yt+1 , posoudı́me “kvalitu” předpovědi,
např. pomocı́ čtverců
(Yt+1 − xTt+1 β̂ (LS,t) )2
a
(Yt+1 − xTt+1 β̂ (C,t) )2 .
(127)
Dı́ky tomu, že v našem přı́padě už známe data pro celé obdobı́ 1977/1 až 1985/2, můžeme to
udělat naráz pro t = 21, 22, . . . , 33. Jak plyne z hlavičky tabulky byly uvažovány i modely, které
splňujı́ pouze jedno z omezenı́ (120) a (121). Poznamenejme ještě, že Tabulka 10 uvádı́ výsledky
zı́skané pro přı́pad, kdy byly vzaty v úvahu všechny předpovědi, tj. HCF, LBS, NI, OECD a PD.
TABLE 10
Postupné součty čtverců chyb předpovědı́
Obdobı́
1982/2
1982/3
1982/4
1983/1
1983/2
1983/3
1983/4
1984/1
1984/2
1984/3
1984/4
1985/1
1985/2
Kumulativnı́ součty
S interceptem
Bez interceptu
Bez
S
Bez
S
omezenı́ omezenı́mi omezenı́ omezenı́mi
0.073
0.310
0.000
0.457
3.527
1.304
2.076
1.269
9.739
5.012
7.250
4.697
12.356
6.236
9.406
5.825
13.328
6.236
9.515
5.825
13.370
7.012
9.748
6.620
13.691
7.077
9.763
6.704
15.099
7.741
11.121
7.282
15.708
9.312
14.081
8.752
18.479
12.556
19.705
12.553
18.997
12.710
20.253
12.978
21.240
15.418
21.803
14.653
22.444
17.910
23.574
16.709
Následujı́cı́ tabulka uvádı́ hodnoty sum čtverců chyb pro všechny možné dvojice předpovědı́.
Je ihned patrné, že v Tabulce 10 se projevil efekt přeurčenı́ modelu, o kterém jsme si povı́dali
výše. Je ihned patrné, že efekt přeurčenı́ způsobil to, že rozptyly odhadů jednotlivých koeficientů jsou v přeurčeném modelu většı́ než v modelu, který by měl “právě tolik vysvětlujı́cı́ch
proměnných, kolik by měl mı́t”. To způsobilo to, že i předpověd’ nalezená pomocı́ přeurčeného
modelu, má většı́ rozptyl než ta vytvořená modelem, který má dostatečný počet vysvětlujı́cı́ch
proměnných, ale nikoliv zbytečně mnoho. V našem přı́kladě výsledky uvedené v Tabulkách 10
a 11 ukazujı́, že model obsahujı́cı́ jako vysvětlujı́cı́ proměnné všechny předpovědi, je přeurčený.
Ostatně, součtu čtverců chyb jednotlivých předpovědı́ ukážou, že všechny modely obsahujı́cı́ vı́ce
jak jeden regresor jsou v tomto přı́padě přeurčené. To však necvhme pro tuto chvı́li stranou,
nebot’ to nic nezměnı́ na tom, co chceme demostrovat.
Abychom předešli nedorozuměnı́, co Tabulka 11 zachycuje, dodejme jen, že vlastně každý
řádek této tabulky je hypotetickým poslednı́m řádkem tabulky analogické k Tabulce 10, ale
vytvořené vždy pro jednu dvojici předpovědı́. To znamená, že v následujı́cı́ tabulce jsou shromážděny
118
kumulativnı́ součty čtverců (127) přes všechna výše uvedená obdobı́, tj.
33
X
(Yt+1 − xTt+1 β̂ (LS,t) )2
33
X
a
t=21
(Yt+1 − xTt+1 β̂ (C,t) )2 .
t=21
TABLE 11
Kumulativnı́ součty čtverců chyb předpovědı́
Předpovědi,
S omezenı́mi
Bez omezenı́
které byly
kombinovány
Bez
interceptu
S
interceptem
Bez
interceptu
S
interceptem
HCF, LBS
HCF, NI
HCF, OECD
HCF, PD
LBS, NI
LBS, OECD
LBS, PD
NI,OECD
NI, PD
OECD, PD
23.55
52.85
57.01
48.99
30.39
13.19
13.93
35.57
37.86
36.43
35.76
63.61
81.87
82.45
30.39
30.78
31.44
47.25
31.44
47.25
25.02
62.35
75.80
55.79
21.81
19.12
15.79
49.06
53.64
56.04
28.84
66.98
84.77
87.67
22.52
23.71
23.29
49.61
51.63
41.69
Tabulka 11 dokumentuje, že zisk z uplatněnı́ omezenı́ (120) a (121) může být značný. Ještě
většı́ho zisku se dosáhne při použitı́ některé robustnı́ metody odhadu regresnı́ho modelu (viz
Vı́šek (1997 b)), ale o tom si povı́me později (patrně až v dalšı́m dı́le skript).
Uved’me nynı́ obecné řešenı́ úlohy odhadu regresnı́ch koeficientů při lineárnı́ch omezenı́ch.
Uvažujme matici C typu (` × p), rank(C) = ` a hledejme
β̂
(C,n)
= arg min
( n
X
)
(Yi −
XiT β)2 ,
p
β ∈R , C ·β =κ .
(128)
i=1
LEMMA 12 Necht’ C je typu (` × p), rank(C) = `, κ ∈ R` . Potom pro všechny Y ∈ Rn
a všechny matice typu (n × p) existuje Ỹ ∈ Rn a matice X̃ typu (n × (p − `)) a vzájemně
jednoznačné zobrazenı́
T : Rp−` → {β ∈ Rp , Cβ = κ}
takové, že pro libovolné λ ∈ Rp−` máme
Ỹ − X̃λ = Y − XT (λ).
Důkaz. Důsledkem toho, že rank(C) = `, je existence matice C̃ typu (p − ` × p) takové, že
= (C T , C̃ T )T je regulárnı́ a C C̃ T = 0. Předpokládejme, že β ∗ ∈ Rp je některý vektor takový,
že Cβ ∗ = κ a položme pro každé λ ∈ Rp−`
C∗
T (λ) = C̃ T λ + β ∗ .
Snadno ověřı́me, že
C · T (λ) = C · (C̃ T λ + β ∗ ) = κ.
119
Nynı́ ukážeme, že zobrazenı́ T (λ) je prosté. Necht’ λ1 , λ2 ∈ Rp−` a předpokládejme, že T (λ1 ) =
T (λ2 ). Potom máme
C̃ T (λ1 − λ2 ) = 0
(129)
a protože rank(C̃) = p − `, existuje p − ` nezávislých řádků matice C̃ T tvořı́cı́ch regulárnı́ matici
T typu (p − `) × (p − `). Pro tuto matici máme C̃ T (λ − λ ) = 0, nebot’ tato soustava rovnic
C̃R
2
R 1
je podsoustavou (129). To však znamená, že λ1 = λ2 .
Rovněž snadno se dokáže, že zobrazenı́ T (λ) je na množinu S = {β ∈ Rp , Cβ = κ}. Je-li
totiž β̄ ∈ S, pak C(β̄ − β ∗ ) = 0 a tedy β̄ − β ∗ ⊥C, což znamená, že β̄ − β ∗ ∈ M(C̃ T ) a tedy
existuje λ ∈ Rp−` tak, že C̃ T · λ = β̄ − β ∗ , neboli β̄ = C̃ T · λ + β ∗ .
Zbývá ověřit, že pro libovolné λ ∈ Rp−` máme pro Ỹ = Y − Xβ ∗ a X̃ = X C̃ T
Ỹ − X̃λ = Y − Xβ ∗ − X C̃ T λ = Y − X(C̃ T λ + β ∗ ) = Y − XT (λ).
2
POZNÁMKA 11 Lemma 12 vlastně řı́ká, že
β̂ (C,n) = T ( arg min
λ∈Rp−`
n
X
(Ỹi − X̃iT λ)2 ).
i=1
Navı́c z jeho důkazu plyne návod, jak přı́slušnou transformaci nalézt.
Bude-li důvod považovat omezenı́ C · β = κ za náhodná (viz (128)), budeme moci psát pro
libovolné δ 6= 0
·
¸ ·
¸
·
¸
Y
X
E
=
β+
0
δC
δκ
a tedy
β̂ (C,n) = (X T X + δC T C)−1 X T Y.
(130)
To ukazuje, že podobným způsobem, jakým byly nalezeny ve Tvrzenı́ 16 a v Lemmatu 11
vlastnosti hřebenového odhadu, bylo by možné dokázat výše zmı́něné vlastnosti odhadu β̂ (C,n) .
Nenı́ rovněž bez zajı́mavosti, že k odhadu téměř shodnému s odhadem (130), totiž k odhadu
β̂ = (X T X + Σ−1 )−1 (X T Y + Σ−1 µ),
dojdeme, pokud nalezneme aposteriornı́ střednı́ hodnotu pro β, při předpokladu, že apriornı́
rozdělenı́ regresnı́ch koeficientů β při pevném rozptylu fluktuacı́ σ 2 bylo mnoharozměrné normálnı́
s parametry µ a σ 2 Σ, tj.
2
q(β|σ ) =
const
p
σ2
µ
¶
1
exp − 2 (β − µ)T Σ−1 (β − µ)
2σ
a apriornı́ rozdělenı́ rozptylu náhodných fluktuacı́ σ 2 bylo
q(σ 2 ) = σ −2(d−1) cd Γ−1 (d)exp(−cσ −2 ),
tj. γ-rozdělenı́ s parametry c a d. Pokud navı́c, např. při malé apriornı́ informaci o β, položı́me
µ = 0, dostaneme přı́mo (130).
120
7.4.4
Alternativnı́ indikátory kolinearity a jejich záludnosti
Některé knihovny (a je jich pohřı́chu patrně většina) nenabı́zejı́ přı́mo (a automaticky) vyčı́slenı́
indexu podmı́něnosti. Lze si však obvykle snadno pomoci použitı́m subroutin pro faktorovou
analýzu. Namı́sto indexu podmı́něnosti nabı́zı́ např. knihovna STATISTICA tabulku koeficientů determinace, kde vždy jedna z vysvětlujı́cı́ch proměnných hraje roli vysvětlované a je
vysvětlována všemi ostatnı́mi. Přı́slušná tabulka je v knihovně STATISTCA označena Redundancy. V této tabulce jsou kromě zmiňovaných koeficientů determinace uvedeny také jejich
doplňky do jedničky. Je to patrně proto, že převrácená hodnota doplňku j-tého koeficientu determinace je, až na faktor σ 2 , rozptylem odhadu j-tého regresnı́ho koeficientu a bývá v literatuře
označována jako VIF (variance inflation factor, viz např. Marquart a Snee (1975)). a některé
prameny doporučujı́ tento diagnostický prostředek, at’ už zmiňované koeficienty determinace či
VIF, jako dosti spolehlivý diagnostický prostředek pro odhalenı́ kolinearity, např. Montgomery,
Peck (1982). Podı́vejme se na věc trochu podrobněji.
Intuitivně cı́tı́me, že pokud bude koeficient determinace pro některou vysvětlujı́cı́ proměnnou
vysoký, může vzniknout podezřenı́ na kolinearitu. Obvykle to je opravdu tak, ale poněkud paradoxně v přı́padě, kdy v modelu, nynı́ myslı́me model pro “původnı́”, tj. celá data, je rozptyl
náhodných fluktuacı́ velmi malý, může nastat situace, kdy zmı́něná tabulka (velmi) vysokými
hodnotami přı́slušných koeficientů determinace indikuje zdánlivě značný stupeň kolinearity (viz
Tabulka 14), ale index podmı́něnosti je ještě v mezı́ch, kdy se nenabádá k vyloučenı́ některého
sloupce matice X, nejvýše se doporučuje použitı́ některé metody, která se umı́ vyrovnat s kolinearitou, např. hřebenová regrese.
Tady je numerický přı́klad takové situace. Využı́vá část dat, která byla použita o několik
stránek zpět k ilustraci efektivnosti omezenı́, která “naložı́me” na koeficienty regresnı́ho modelu
a jejich odhady. Proto jen připomeňme, že ta část dat, kterou dále použijeme, popisuje ekonomický růst (GDP) ve Velké Británii v letech 1977/1 až 1984/2, (tj. po čtvrtletı́ch). Na rozdı́l
od dat dřı́ve použitých, proměnné označené jako LBS (London Business School) a OECD (Organization for Economic Cooperation and Development) jsou upravené předpovědi ekonomického
růstu učiněné těmito institucemi a proměnná DEC označuje dekomposici LBS a OECD na
vektor representujı́cı́ informaci, která byla v době, kdy byly vytvářeny zmı́něné předpovědi,
společná oběma výše uvedeným institucı́m. Slovo upravené naznačuje, že jednak byly všechny
hodnoty přepočı́tány k cenám z roku 1988 a jednak, že byly předpovědi modifikovány tak, aby
představovaly projekci GDP, tj. aby se minimalizoval součet čtverců reziduı́ mezi předpovı́danou
veličinou a předpovědı́. Na vysvětlenou jenom dodejme, že data v této podobě byla připravena
pro vytvářenı́ předpovědi nikoliv pomocı́ lineárnı́ kombinace, tak jak jsme to udělali o několik
stranek zpět, ale pomoci metody dekomposice, jejı́ž popis lze nalézt např. ve Vı́šek (1997 c).)
Tabulka 12
Data popisujı́cı́ ekonomický vývoj (GDP) ve Velké Británii
Obdobı́
LBS
OECD
DEC
GDP
1977/1
1977/2
1977/3
2.437
1.982
1.793
1.531
1.461
1.952
1.600
1.393
1.860
1.769
3.623
3.402
121
Tabulka 12
Data popisujı́cı́ ekonomický vývoj (GDP) ve Velké Británii (pokračovánı́)
Obdobı́
1977/4
1978/1
1978/2
1978/3
1978/4
1979/1
1979/2
1979/3
1979/4
1980/1
1980/2
1980/3
1980/4
1981/1
1981/2
1981/3
1981/4
1982/1
1982/2
1982/3
1982/4
1983/1
1983/2
1983/3
1983/4
1984/1
1984/2
LBS
1.495
3.723
3.519
.883
2.703
3.237
3.143
-3.180
-1.878
-3.259
-1.784
-2.035
1.385
1.840
2.170
2.295
2.154
2.656
3.017
2.844
1.699
1.746
1.605
2.860
2.091
1.982
4.633
OECD
1.741
2.512
2.022
2.092
1.882
1.952
1.741
2.372
1.461
-.011
.620
2.442
.339
.339
.199
.760
1.321
1.461
1.882
1.882
1.812
1.741
1.812
2.232
2.162
2.162
1.882
DEC
1.665
2.647
2.083
1.946
1.918
2.049
2.105
2.195
1.507
-.095
.574
2.196
.343
.406
.262
.869
1.408
1.481
1.951
1.850
1.681
1.669
1.750
2.264
2.129
2.085
1.967
GDP
2.761
2.045
3.397
2.792
2.587
2.305
-2.705
-3.686
-5.044
-3.918
-2.582
-0.504
2.043
1.631
2.345
1.316
1.101
3.109
2.490
4.096
4.059
3.113
2.624
2.697
2.664
3.302
4.924
(Tato část dat byla vybrána proto, že na nich nastává popisovaný efekt nejvýrazněji.)
Tabulka 13
Odhady regresnı́ch koeficientů v modelu
GDP = β0 + β1 · LBS + β2 · OECD + β3 · DEC + náhodné f luktuace
a jejich charakteristiky. β̃ označujı́ koeficienty ve studentizovaném modelu
(viz výše text o automatickém studentizovánı́ dat),
zatı́mco β̂ jsou odhady koeficintů pro data tak, jak jsou uvedena v Tabulce 12.
q
q
β̃
β0
β1
β2
β3
1.30
4.81
-4.93
var(
ˆ β̃)
.0009
.0049
.0050
β̂
0.0042
1.680
18.030
-18.720
var(
ˆ β̂)
0.0042
.0011
.0184
.0193
tβ̂ (26)
0.98
1490.56
979.79
-970.78
P-hodnoty
0.337
0.000
0.000
0.000
Koeficient determinace modelu R2 vyšel roven .99998, Fisher-Snedecorovo F = 79750 a odhad
rozptylu náhodných fluktuacı́ pak s2 = .00901. Výše zmiňované koeficienty determinace v modelech, kde vždy jedna z vysvětlujı́cı́ch proměnných je postavena do role vysvětlované a všechny
ostatnı́ vysvětlujı́cı́ hrajı́ dále roli vysvětlujı́cı́ch, vyšly následovně.
122
Tabulka 14
Koeficienty determinace (tabulka bývá často označována jako “Redundancy”).
β1
β2
β2
.455749
.982717
.983803
Hodnoty koeficientů determinace u druhé a třetı́ proměnné napovı́dajı́, že jsou tyto téměř
nahraditelné kombinacı́ vždy těch zbývajı́cı́ch dvou. Vyjměme tedy z modelu např. druhou
proměnnou (tj. OECD). Budeme tedy odhadovat dále koeficienty a jejich charakteristiky v
modelu
GDP = β0∗ + β1∗ · LBS + β3∗ · DEC + náhodné f luktuace.
Přı́slušné odhady jsou v následujı́cı́ tabulce.
Tabulka 15
Odhady regresnı́ch koeficientů a jejich charakteristik.
q
q
β̃
β0∗
β1∗
β3∗
.774
.000
var(
ˆ β̃)
.130
.130
β̂
.000
1.000
-.000
var(
ˆ β̂)
.799
.167
.492
tβ̂ (26)
.000
5.968
-.000
P-hodnoty
.999
.000
.999
Hodnota koeficientu determinace tohoto nového modelu je 0.5988, což je sice jen nepatrně
pod onou magickou hodnotou 0.6, která bývá v monografiı́ch uváděna jako přijatelná pro modely
z technických oblasti, ale na druhé straně je jistě zarážejı́cı́, že to nynı́ vypadá tak, že poslednı́
vysvětlujı́cı́ proměnná nenı́ pro model signifikantnı́, ač P -hodnoty v Tabulce 13 naznačovaly
pravý opak. Navı́c odhad rozptylu náhodných fluktuacı́ v tomto novém modelu je s2 = 1.698.
Porovnáme-li toto čı́slo s velikostı́ dat uvedených v Tabulce 12, dojdeme k závěru, že tento model
nenı́ patrně právě nejvhodnějšı́. Pro úplnost Fisher-Snedecorovo F je rovno 20.146. Spočteme-li
si pro původnı́ data (uvedená v Tabulce 12) vlastnı́ čı́sla matice X T X dostaneme 2.1335, 0.8581
a 0.0083, což znamená, že index podmı́něnosti vyjde
s
κ=
λmax
=
λmin
r
2.1335
= 16.03,
0.0083
a to je hodnota, která napovı́dá, že se nejedná o kolinearitu vyžadujı́cı́ vyloučenı́ některé vysvětlujı́cı́
proměnné z matice plánu, ale o takový stupeň, kdy je možné řešit situaci použitı́m např.
hřebenové regrese, o které jsme mluvili výše.
Prakticky v každé ekonometrické monografii, obsahujı́cı́ také pasáž o regresi, nalezneme dalšı́
testy na kolinearitu, např. založené na kovariančnı́ či korelačnı́ matici, viz např. Kumar (1975),
Willan a Watts (1978), Belsley, Kuh and Welsch (1980) nebo Friedman (1982). Přı́klad uvedený práci v Leamer (1983) ukazuje, že si na ně mohou uživatelé udělat různé názory. Jako
přı́klad častého problematického použitı́ takového testu uved’me aplikaci Farrar-Glauberovy
statistiky (viz Farrar and Glauber (1967)) bez verifikace přı́slušného předpokladů, totiž normality vysvětlujı́cı́ch proměnných a nezávislosti jednotlivých řádků matice plánu, tj. nezávislosti
123
vektorových náhodných veličin, jejichž realizace vytvořily řádky matice plánu. Navı́c je třeba
si uvědomit to, co vlastně bylo implicitně řečeno v předchozı́ větě, totiž že pokud použijeme
korelačnı́ matici dat k testu na kolinearitu, v podstatě přijmeme předpoklad, že matice plánu
nenı́ nestochastická, neboli začneme uvažovat v rámci modelu s náhodnými nosiči Xij i =
1, 2, . . . , n, j = 1, 2, . . . , p (s náhodnými vysvětlujı́cı́mi proměnnými). Potom je však třeba mı́t
na paměti, že β̂ (LS,n) je nestranným odhadem pouze tehdy, jsou-li tyto nosiče statisticky nezávislé
na náhodných fluktuacı́ch E a v odstavci věnovanému instrumentálnı́m proměnným jsme ukázali,
proč tomu tak je. To, možná trochu paradoxně znamená, že když se rozhodneme použı́t korelačnı́
matici dat k testu na kolinearitu, měli bychom nejprve otestovat nezávislost nosičů a reziduı́ a
následně také normalitu rozdělenı́ nosičů, nebot’ pokud je tato narušena test může dát naprosto
zavádějı́cı́ výsledky.
Jak plyne z výše uvedeného je Farrar-Glauberův test, založen na determinantu výběrové
korelačnı́ matice. Vzhledem k tomu, že výběrový korelačnı́ koeficient, podobně jako všechny
ostatnı́ “klasické” výběrové charakteristiky, je citlivý na odlehlá pozorovánı́, vykazuje determinant výběrové korelačnı́ matice také značnou citlivost na odlehlá pozorovánı́ a z toho plynoucı́
nespolehlivost indikace kolinearity.
7.4.5
Alternativnı́ řešenı́ problému kolinearity
Uved’me nynı́ výše slı́bený přı́klad, ukazujı́cı́, že rozšı́řenı́ dat o dalšı́ pozorovánı́ může (přirozeně)
odstranit kolinearitu. Současně tento přı́klad ukazuje, že někdy lze podezřenı́ na kolinearitu pojmout přı́mo na základě odhadů regresnı́ch koeficientů. Jedná se totiž o přı́pad, kdy na rozdı́l od
diskuze uvedené v kapitole věnované výstupům z počı́tače, kde jsme varovali před unáhlenými
úsudky učiněnými na základě znamének odhadů, jsme si “téměř” jisti tı́m, jaké znaménko by
přı́slušný koeficient (a tedy i jeho odhad) měl mı́t. Data byla uvedena v Montgomery, Askin
(1981) a popisujı́ požadavek na dodávky elektrické energie do jednotlivých domácnostı́ ve
špičkách o vı́kendech (vztaženo na jednu hodinu odběru) (y) a to v závislosti na rozloze domu
(x1 ), na přı́jmu domácnosti (x2 ), na kapacitě klimatizačnı́ho agregátu umı́stěného v domě (x3 ),
na hodnotě spotřebitelského indexu, který si stanovuje dodavatelská firma na základě součtu
přı́konů hlavnı́ch spotřebičů (x4 ) a na typickém počtu lidı́ obývajı́cı́ch dům o vı́kendech (x5 ).
Data vypadajı́ takto:
Tabulka 16.
Data o požadavcı́ch na dodávky elektrické energie pro domácnosti
Pořadı́
1
2
3
4
5
6
7
8
9
y
7.518
3.579
5.910
4.790
4.997
2.242
7.427
4.533
5.990
x1
3.164
1.929
2.613
2.337
2.757
1.398
3.366
2.378
2.881
x2
34.990
21.446
28.731
25.058
30.358
15.464
37.267
25.939
32.362
124
x3
7.0
1.5
6.5
4.0
4.0
1.0
5.0
3.0
3.5
x4
7.789
5.251
6.325
5.733
6.216
3.113
9.415
6.142
7.700
x5
4
5
3
4
1
6
1
2
5
Tabulka 16.
Data o požadavcı́ch na dodávky elektrické energie pro domácnosti
(pokračovánı́)
Pořadı́
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
y
4.101
1.685
4.560
4.657
3.151
2.976
2.867
2.662
4.363
2.991
2.766
5.323
6.553
3.736
6.796
4.496
2.831
5.495
6.656
2.349
6.824
5.354
5.802
4.790
6.283
3.400
6.083
5.740
3.599
5.010
4.625
4.385
4.505
3.958
6.071
4.571
6.849
2.610
5.829
4.755
2.646
x1
2.098
1.178
2.360
2.236
1.771
1.852
1.823
1.578
2.117
2.052
1.715
2.333
2.887
1.972
2.886
1.874
1.408
2.526
2.821
1.328
2.856
2.223
2.489
2.455
2.720
2.201
2.694
2.456
1.772
2.253
2.398
1.598
1.868
2.036
2.598
2.204
3.313
1.685
2.379
2.286
1.512
x2
22.395
12.531
25.784
25.152
19.106
20.677
20.037
18.154
23.951
22.069
18.324
25.942
32.236
22.123
32.161
21.070
15.957
27.687
31.145
14.160
31.812
24.788
26.661
27.203
29.524
23.424
29.096
27.076
19.177
24.535
25.949
17.604
20.614
22.277
27.924
24.587
30.016
18.485
26.341
25.327
17.351
125
x3
2.5
0.0
4.0
2.5
1.0
1.0
1.5
0.5
2.5
1.5
1.5
5.0
5.5
2.0
6.0
3.0
1.5
4.5
5.5
0.5
6.0
5.0
6.0
3.0
5.5
1.0
5.0
3.5
2.0
5.0
2.5
3.5
3.0
2.5
5.5
2.0
6.5
1.0
3.5
3.0
1.0
x4
5.222
2.575
5.536
6.208
5.213
4.659
4.453
3.978
6.236
4.892
3.960
5.038
7.815
4.432
7.039
5.254
2.967
6.481
7.284
3.652
7.186
5.965
6.862
6.007
6.715
5.625
6.949
6.143
4.864
4.975
6.947
3.914
4.817
5.581
6.233
6.073
6.054
3.677
7.345
5.230
3.824
x5
1
1
2
2
3
1
3
4
1
4
5
1
3
5
4
1
6
2
4
4
1
3
4
5
4
1
2
7
1
2
3
4
6
1
2
2
1
2
4
5
1
Tabulka 16.
Data o požadavcı́ch na dodávky elektrické energie pro domácnosti
(pokračovánı́)
51
52
53
54
55
56
57
58
59
60
4.279
3.701
4.561
4.707
4.541
3.891
6.394
6.528
2.925
5.059
2.246
1.819
2.288
2.320
2.276
1.994
3.454
3.490
1.936
4.061
24.612
19.754
25.720
25.444
25.439
22.150
27.855
31.998
21.215
22.962
2.0
2.5
3.0
3.0
3.0
2.0
4.0
5.0
1.0
3.0
5.950
4.522
6.313
5.579
6.113
5.316
7.215
7.145
4.506
5.854
2
1
4
4
3
4
2
2
4
1
Původně bylo shromážděno jen 40 pozorovánı́ a provedena klasická regresnı́ analýza. Výsledky
byly následujı́cı́.
Tabulka 17.
Výsledky regresnı́ analýzy pro data o spotřebě elektrické energie.
(40 domácnostı́)
Variable
Estimate
intercept
x1
x2
x3
x4
x5
-.04160
-2.49756
.26947
.41430
.37931
.03035
Standard
error
.253137
1.026253
.089492
.039236
.089459
.023183
t-value
P -value
-.16434
-2.43367
3.01115
10.55908
4.24012
1.30919
.870438
.020354
.004882
.000000
.000162
.199248
Sum of squares
Degrees of freedom
Scale estimate
Coefficient of determination (R squared)
The F-value (with 5 and 34 df )
P-value
=
=
=
=
=
=
8.160
34
0.240
0.979
313.918
0.000
Model je dobře determinován a i odhad velikosti rozptylu fluktuacı́ se zdá být přijatelný
vzhledem k hodnotám, kterých nabývá vysvětlovaná veličina. Hodnota P -value pro absolutnı́
člen sice signalizuje, že je možná tento v modelu zbytečný, a jistě bychom dovedli nalézt i
věcné argumenty, proč by tam neměl být, např. že pokud rozloha domu bude nulová, nebude
v domě klimatizace, nikdo nebude na vı́kend doma atd., odběr elektrické energie bude nulový.
Právě tak lze snést řadu argumentů, že tomu tak nebude. Např. lednička či ohřı́vače vody se
obvykle nevypı́najı́, alespoň v domácnostech s vyššı́mi přı́jmy, ani když nikdo na vı́kend nenı́
doma. Vzhledem k tomu, co bylo řečeno o úloze absolutnı́ho členu výše, ponecháme jej v modelu. Nevýznamným se rovněž zdá být počet lidı́ v domě v době vı́kendu. To si samozřejmě lze
126
vysvětlit tak, že zvýšenı́ spotřeby elektrické energie při zvýšenı́ počtu lidı́ v domě nebude až tak
veliké. Ovšem i opak může být pravdou. Mohli bychom tedy model akceptovat. Prohlédněme
si jej ale pozorněji. Patrně každý by (racionálně) očekával, že při většı́ rozloze domu, bude
požadavek na dodávky elektrické energie většı́. To koliduje se záporným znaménkem u odhadu
přı́slušného regresnı́ho koeficientu. Ačkoliv jsme to již dřı́ve připoměli, tato úvaha nenı́ v rozporu s varovánı́m o unáhlené a zcestně jednostranné interpretaci znamének odhadů regresnı́ch
koeficientů, na kterou jsme upozorňovali v kapitole o výstupech ze statistických počı́tačových
knihoven, nebot’ tady znaménko “neobjevujeme”, či nezjišt’ujeme, chcete-li, ale máme o něm
dosti oprávněné a proirnı́ představy. Vzhledem k výše uvedené diskuzi o signifikantnosti absolutnı́ho členu a počtu lidı́ v domě ještě podotkněme, že přepočı́táme-li model po vyloučenı́
této vysvětlujı́cı́ veličiny, záporné znaménko u “rozlohy domu” se nezměnı́, jen se nepatrně
změnı́ hodnota odhadu, totiž na −2.634; podobně vyloučı́me-li absolutnı́ člen dojde ke změně
na −2.541. To může vést k podezřenı́, že něco nenı́ s modelem v pořáku, a jednou z přı́čin
by mohla být kolinearite vysvětlujı́cı́ch proměnných. Spočteme tedy vlastnı́ čı́sla matice X T X a
dostaneme pořadě 3.69689, 0.983788, 0.266574, 0.049994 a 0.002752. Odtud odmocnina z poměru
největšı́ho a nejmenšı́ho z nich je 36.65. To ukazuje (jak jsme ostatně uvedli výše) na takový
stupeň kolinearity, který patrně nelze jen tak ignorovat.
Spočteme-li však hřebenovou regresi, např. pro δ = 0.1 (to je defaultová hodnota nabı́zená
STATISTICOU), zmizı́ sice “nepatřičné” minusové znaménko u rozlohy domu, ale tato vysvětlujı́cı́
proměnná se stane statisticky nevýznamnou. Významnými zůstanou pouze kapacita klimaσ̂ 2
tizačnı́ho agregátu a hodnota spotřebitelského indexu. Ačkoliv je (LS,n)
= 0.712 > 0.1 a
kβ̂
k2
tedy je patrně splněna podmı́nka z Lemmatu 11, zdá se být tento model podivný, nebot’ jak
počet lidı́ trávı́cı́ch v domě vı́kend, tak zejména rozloha domu by patrně měly hrát roli pro
velikost spotřeby elektrické energie.
Ačkoliv pro vyššı́ hodnoty δ se stanou významnými téměř všechny vysvětlujı́cı́ proměnné,
autoři dat (Montgomery, Askin (1981) ) zvolili jinou cestu, obávajı́ce se možná přı́lišného
vychýlenı́ odhadu β̂ (R,δ,n) . Vzhledem k tomu, že nelze nikdy vyloučit možnost, že kolinerita
nastala dı́ky náhodně “jednostraně”, či chcete-lii “vychýleně”, pořı́zeným datům, a vzhledem
k tomu, že rozšı́řenı́ dat nebylo ekonomicky až tak náročné jako by mohly být důsleky špatně
odhadnutého modelu, zvolili cestu pořı́zenı́ dalšı́ch dat, tj. soubor byl rozšı́řen na takový, jaký
je uveden v Tabulce 16. Analýza provedená pro tato data dává tyto hodnoty.
Tabulka 18.
Výsledky regresnı́ analýzy pro data o spotřebě elektrické energie.
(60 domácnostı́)
Variable
Estimate
intercept
x1
x2
x3
x4
x5
-.039315
.407674
.003333
.437516
.375983
.044368
Standard
error
.229760
.121617
.025156
.036150
.076869
.022014
127
t-value
P -value
-.17111
3.35211
.13248
12.10284
4.89121
2.01544
.864774
.001470
.895094
.000000
.000009
.048848
Sum of squares
Degrees of freedom
Scale estimate
Coefficient of determination (R squared)
The F-value (with 5 and 54 df )
P-value
=
=
=
=
=
=
14.418
54
0.267
0.968
328.221
0.000
Odhad koeficientu pro “rozlohu domu” se zdá nynı́, alespoň co do znaménka, rozumnějšı́, než
pro data obsahujı́cı́ jen 40 domácnostı́. Vlastnı́ čı́sla matice X T X majı́ nynı́ hodnoty 3.478789, 0.985613, 0.304462,
a 0.045914 a tedy koeficient podmı́něnosti má hodnotu 8.70, což je hodnota, kterou lze považovat
za ještě přijatelnou, tj. dovolujı́cı́ “ignorovat” kolinearitu.
Právě probraný přı́klad ukazuje, že regresnı́ analýza vyžaduje nebrat žádná předem stanovená,
doporučená či zaběhaná kriteria zcela dogmaticky, tj. bez jakékoliv pochybnosti či vyjı́mky. Je
spı́še třeba zamýšlet se na vhodnostı́ modelu ze všech možných stanovisek a zkoumat jeho akceptovatelnost vzhledem ke všem informacı́m, i k těm, které se nám nepodařilo či které jsme
nechtěli do modelu začlenit.
7.4.6
Závěr
Na konci tohoto odstavce se ještě jednou zopakujme, co jsme již výše naznačili. Řekli jsme
si, že v některých učebnicı́ch se doporučuje k rozeznánı́ kolinearity “test” na nulovost determinantu čtverce matice plánu, tj. matice X T X a ukázali jsme si hned v úvodu odstavce, že
vynásobenı́m všech dat, které máme k dispozici stejným čı́slem nezměnı́me regresnı́ model, ale
determinant matice plánu může být změněn na libovolně velký. Aby toto bylo uvedeno na
“pravou mı́ru” doporučujı́ některé z těchto učebnic nejprve normovat data tak, že je posuneme
pomocı́ průměrů sloupců a vydělı́me odhadem směrodatné odchylky (viz předchozı́ odstavec o
Farrar-Glauberově testu). Podotkněme, že některé texty předpokládajı́ od samého začátku, že
data jsou normována právě naznačeným způsobem, viz Montgomery, Peck (1982). Snadno se
nahlédne, jak toto může (neblaze) ovlivnit zpracovánı́ dat, pokud tato budou obsahovat nějaké
odlehlé (či chcete-li, atypické) údaje. Nehledě na to, že pak vlastně posuzujeme podmı́něnost
jiné matice. Ostatně jsme si to již ukazovali v odstavci 5.1 (viz text zhruba jeden a půl stránky za
Tabulkou 8). Je až s podivem, jak některé texty, týkajı́cı́ se regrenı́ analýzy realizované pomoci
metody nejmenšı́ch čtverců, zcela opomı́jejı́ nebezpečı́ vyplývajı́cı́ z veliké citlivosti této metody
na kontaminaci (znečištěnı́) dat, např. odlehlými pozorovánı́mi. Autoři těchto textu si bud’ nejsou vědomi či poceňujı́ toto nebezpečı́ a dopady, které může mı́t na zpracovánı́ dat, ačkoliv
v pracech věnovaných robustnı́ regresnı́ analýze bylo již uvedeno mnoho přı́kladů osvětlujı́cı́ch
zejména záludnost této situace. Lze totiž poměrně snadno nalézt přı́klady dat, které projdou
klasickou regresnı́ analýzou i běžnými diagnostickými vyšetřenı́mi aniž by vzbudily i jen náznak
podezřenı́ na to, že je cosi v nepořádku, viz např. Hampel a kol. (1986), Rousseeuw, Leroy
(1987) či Vı́šek, J. Á (1996 b, c), (1997 d).
Na úplný závěr ještě poznamenejme, že vzhledem k tomu, že matice X T X je vlastně, až
na násobek, odhadem kovariančnı́ matice vysvětlujı́cı́ch proměnných a je citlivá na odlehlá pozorovánı́. To znamená, že při výpočtu vlastnı́ch čı́sel matice X T X, tj. při hledánı́ κ(X), se nevy128
hneme problému vlivných bodů. Pomoci si můžeme, aplikujeme-li některou robustnı́ metodu na
odhad kovariančnı́ matice (viz opět Hampel a kol. (1986), Lopuhaa̋ (1989)).
8
NĚKTERÉ SPECIÁLNÍ TYPY REGRESNÍHO MODELU
Jak název této kapitoly napovı́dá, probereme v nı́ některé typy regresnı́ch modelů, které se
vymykajı́ běžnému regresnı́mu modelu. Nejprve si všimneme zobecněného regresnı́ho modelu,
poté modelu, ve kterém vysvětlovaná proměnná nenı́ spojitého typu. V dalšı́ch odstavcı́ch se
budeme věnovat naopak přı́padu, kdy regresory budou diskrétnı́ či chcete-li, kvalitativnı́, (což
nenı́ úplně totéž, ale nenı́ to přı́liš odlišné), přı́padně, kdy tyto budou měřeny s nějakou náhodnou
chybou.
8.1
Zobecněný regresnı́ model
Je patrné, že pokud budou naše data představovat záznam některých časových řad , ale nejen
v tomto přı́padě, nemusı́ být dodržen předpoklad nezávislosti fluktuacı́ mezi jednotlivými řádky
v modelu (4). Ke zpracovánı́ takových dat budeme potřebovat zobecněnı́ základnı́ho regresnı́ho
modelu. V této kapitole budeme tedy předpokládat, že platı́
Podmı́nky A∗ Pro každé pevné n ∈ N je posloupnost {Ei }ni=1 posloupnostı́ stejně rozdělených
náhodných veličin s nulovou střednı́ hodnotou a kovariančnı́ maticı́ Σ, která je regulárnı́.
³
TVRZENÍ 19 Platı́-li Podmı́nky A∗ , potom β̂ (LS,n) = X T Σ−1 X
´−1
X T Σ−1 Y .
Důkaz. K důkazu použijeme spektrálnı́ rozklad matice a budeme psát Σ = QT Q, kde Q je
regulárnı́. Zinvertovánı́m dostaneme Σ−1 = Q−1 [Q−1 ]T . Necht’
Ỹ = [Q−1 ]T Y
X̃ = [Q−1 ]T X
Ẽ = [Q−1 ]T E.
a
Z původnı́ho modelu
Y = Xβ + E
znásobenı́m zleva maticı́ [Q−1 ]T dostaneme
Ỹ = X̃β + Ẽ,
s IE Ẽ · Ẽ T = IE [Q−1 ]T E · E T [Q−1 ] = I. Nynı́ již se snadno ověřı́, že odhad metodou nejmenšı́ch
čtverců bude dán vztahem
³
β̂ (LS,n) = X̃ T X̃
´−1
³
X̃ T Ỹ = X T Q−1 [Q−1 ]T X
³
= X T Σ−1 X
´−1
´−1
X T Σ−1 Y.
X T Q−1 [Q−1 ]T Y
(131)
2
POZNÁMKA 12 Odhad (131) se v literatuře někdy označuje jako Aitkenův, častěji však
jako zobecněný odhad metodou nejmenšı́ch čtverců. Budeme jej proto označovat β̂ (GLS,n) , a to
zejména tam, kde bude třeba zdůraznit, že přı́slušná kovariančnı́ matice Σ 6= σ 2 I. Odhad má za
předpokladů, které byly uváděny výše pro β̂ (LS,n) všechny dobré (i méně dobré) vlastnosti odhadu
nejmenšı́ch čtverců.
129
Nynı́ si ujasněme, co se stane pokud odhadneme β 0 pomocı́ běžného odhadu nejmenšı́ch
čtverců (Ordinary Least Squares). Následujı́cı́ vztahy ukazujı́
³
XT X
IE
´−1
³
XT Y = XT X
´−1
X T Xβ 0 = β 0
a
³
XT X
´−1
³
XT Y = XT X
= β0 +
´−1
³
X T β0 + X T X
´−1
³
´
³
X T Y − Xβ 0 = β 0 + X T X
n ³ T ´−1 T
X X
X E = β0 +
n
µ
1 T
X X
n
¶−1
´−1
XT E
1 T
X E,
n
že pokud budeme ignorovat závislost mezi náhodnými fluktuacemi, odhad bude stále ještě nestranný a konsistentnı́. Lze však očekávat a snadno se to ověřı́, že nebude nejlepšı́, tj. eficientnı́.
K nalezenı́ eficientnı́ho odhadu potřebujeme znát matici Σ, či alespoň jejı́ “spolehlivý” odhad.
Z následujı́cı́ úvahy je ihned patrné, že pokud nebudeme v jednotlivých bodech faktorového
prostoru opakovat pozorovánı́ a matice Σ bude zcela obecná neznámá matice, nelze v zobecněném
regresnı́m modelu regresnı́ koeficienty eficientně odhadnout. Museli bychom totiž odhadnout
(LS,n)
2 , k, j = 1, 2, . . . , n, tj., vzhledem k symetrii matice Σ, n(n+1) + p
β̂j
, j = 1, 2, . . . , p a σkj
2
parametrů modelu z n·(p+1) napozorovaných čı́sel. A to je nemožné. Východiskem může být to,
že se snı́žı́ počet odhadovaných parametrů, např. tı́m, že budeme předpokládat speciálnı́ strukturu matice Σ. To je ekvivalentnı́ předpokladu, že závislost mezi jednotlivými řádky v modelu
(4) bude některého jednoduchého typu. Budeme-li např. uvažovat model s markovskými fluktuacemi, tj. bude IE Ei Ei−1 = σ∗2 , i = 2, 3, . . . , n a IE Ei Ej = 0 pro |i − j| > 1, což zapsáno ve
tvaru matice dává
 2

σ σ∗2 0 . . . 0 0
 σ2 σ2 σ2 . . . 0
0 
 ∗

∗


2
2
0
σ
σ
.
.
.
0
0


∗
T

IE E · E =  0 0 σ 2 . . . 0 0 
,
∗

..
..
..
.. 
 ..

 .
.
.
.
. 
0
0
0
. . . σ∗2 σ 2
budeme odhadovat pouze 2 + p parametrů. Později se setkáme s dalšı́mi situacemi, ve kterých
specifický tvar matice Σ umožnı́ použı́t výsledky této kapitoly.
Snadno se nahlédne, že po formálnı́ stránce, bychom vlastně nepotřebovali předpoklad o stejném
rozdělenı́ jednotlivých náhodných fluktuacı́. Ztı́žilo by to však odhad matice Σ.
8.2
Model s diskrétnı́ vysvětlovanou proměnnou
Poměrně často se můžeme setkat s daty, kde vysvětlovaná proměnná nemá spojitý charakter
a nabývá jen diskrétnı́ch hodnot. Uved’me si nejprve několik přı́kladů situacı́, které “produkujı́”
taková data.
Vysvětlovaná proměnná:
• popisuje nula-jedničkový stav něčeho či někoho, např. zaměstnaný-nezaměstnaný, plavecneplavec, kuřák-nekuřák, gramotný-negramotný, tekutý-pevný, prodejný-neprodejný, funkčnı́nefunkčnı́ atd.,
130
• je čı́tacı́ho charakteru, např. počet přihlášek telefonu, počet uchazečů o studium, počet
patentů, počet zákaznı́ků atd.,
• je vlastně zakdovaná ryze kvalitativnı́ proměnná, např. souhlası́ bez výhrad, souhlası́ s
výhradami, nevı́, nesouhlası́, zásadně nesouhlası́ či výborně připraven, velmi dobře připraven,
dobře připraven, špatně připraven, velmi špatně připraven, zcela nepřipraven atd.,
• je sice v podstatě spojitého charakteru, ale je obvykle udávána jen jako diskrétnı́, např.
počet odpracovaných hodin, vzdálenost v kilometrech, přı́kon v kilowatech atd..
Z matematického hlediska je zřejmé, že pokud budeme umět posoudit situaci tj. provést
diskuzi problémů, které vyvstávajı́ při použitı́ klasického regresnı́ho modelu a navrhnout jejich řešenı́ pro přı́pad, kdy vysvětlovaná veličina je binárnı́, je úloha téměř vyřešena. Modely
s vysvětlujı́cı́ veličinou, která nabývá konečného počtu hodnot jsou vlastně “jen” (přı́močarým)
zobecněnı́m tohoto binárnı́ho modelu
8.2.1
Problémy s použitı́m klasického regresnı́ho modelu pro binárnı́ vysvětlovanou
veličinu
Uvažujme na chvı́li jednoduchou situaci, kdy vysvětlovaná proměnná bude nabývat hodnoty nula
a jedna, kdujı́cı́ skutečnost, zda daná domácnost vlastnı́ auto či auto nevlastnı́. Předpokládejme,
že toto závisı́ jen od výše disponibilnı́ho přı́jmu. To sice nenı́ zcela raealistické, ale pro naše
účely to bude po formálnı́ stránce výhodné, a na podstatě dále uvedené diskuze by přı́tomnost
vı́ce vysvětlujı́cı́ch proměnných nic nezměnila. Pokusme se tedy popsat uvedenou závislost
jednoduchým regresnı́m modelem
Yi = β1 + xi2 β2 + Ei ,
i = 1, 2, ..., n.
Protože
IE Yi = β1 + xi2 lβ2
a současně
IE Yi = 1 · P (Yi = 1) + 0 · P (Yi = 0) = P (Yi = 1),
máme P (Yi = 1) = β1 +xi2 β2 . Proto se takový model obvykle označuje jako lineárnı́ pravděpodobnostnı́
model. Je evidentnı́, že model se bude potýkat hned s několika problémy najednou. Za prvé,
vzhledem k tomu, že Yi , i = 1, 2, ..., n nabývá jen hodnoty 0 nebo 1, musı́ Ei být rovno bud’
−β1 − xi2 β2 , pokud Yi = 0, nebo 1 − β1 − xi2 β2 v přı́padě, že Yi = 1. Pokud navı́c budeme chtı́t,
aby IE Ei = 0, musı́ být
P (Ei = −β1 − xi2 β2 ) = 1 − β1 − xi2 β2
a
P (Ei = 1 − β1 − xi2 β2 ) = β1 + xi2 β2 .
Potom ovšem
varEi = (β1 + xi2 β2 ) (1 − β1 − xi2 β2 ) ,
131
což znamená, že model vykazuje heteroskedasticitu. Dalšı́m problémem je to, že β1 + xi2 β2
musı́ být nezáporné, ale ne většı́ než jedna, a to pro všechny (povolené) hodnoty xi2 . To
představuje omezenı́ na koeficienty a jejich odhady, samozřejmě, řekněme alespoň při daných
datech. To obecně převede lineárnı́ problém odhadu regresnı́ch koeficientů na problém kvadratický. Tı́m obecně ztratı́ platnost všechna tvrzenı́ dokázaná pro klasický linearnı́ regresnı́ model,
tj. např. nelze pomocı́ studentizovaných odhadů testovat jejich signifikantnost ani pomoci FisherSnedecorova F posoudit determinovanost modelu.
8.2.2
Model s binárnı́ možnostı́ výběru
Abychom se vyhnuli výše uvedeným problémům s tı́m, že náhodné fluktuace jsou binárnı́, a z
toho plynoucı́m problémům s heteroskedasticitou, obvykle konstruujeme model pro binárnı́ výběr
pomocı́ užitků jednotlivých variant výběru pro danou domácnost, firmu atd.. Necht’ tedy po řadě
Ui1 a Ui2 jsou užitky z prvnı́ a druhé volby pro i-tou domácnost, firmu, subjekt, atd.. Dále necht’
zi1 a zi2 jsou vektory charakterizujı́cı́ výhodnost prvé a druhé alternativy, tak jak jsou vnı́mány
i-tým subjektem, a wi necht’ je vektor socio-ekonomických charakteristik i-tého subjektu. Potom,
předpokládáme-li linearitu, můžeme psát
T
Uij = αj + zij
δ + wiT γj + Vij ,
i = 1, 2, ..., n, j = 1, 2.
Dále budeme předpokládat, že Yi bude rovno jedné, pokud subjekt i zvolı́ prvnı́ alternativu
a rovno nule v opačném přı́padě. Upozorněme na tomto mı́stě, že pro dva různé subjekty je
fakt “rozhodnutı́ se pro prvnı́ alternativu” obecně popsán dvěma různými jevy, řekněme Ai a
Aj z nějaké základnı́ σ-algebry A; v některých textech o probitové analýze docházı́ ke zmatkům
v okamžiku, kdy autoři rozlišujı́ mezi pravděpodobnostmi Pi pro různé subjekty subindexem i viz (132) nı́že, ale zmı́něný fakt formalizujı́ náhodným jevem, řekněme A, bez rozlišenı́ pomoci
indexu. Protože i-tý subjekt zvolı́ prvnı́ alternativu tehdy, bude-li tato pro něj výhodnějšı́ než
druhá, tj. pokud Ui1 > Ui2 , máme (prvnı́ rovnost je zavedenı́m dále použı́vaného označenı́)
Pi = P (Yi = 1) = P (Ui1 > Ui2 )
³
(132)
´
T
T
= P Vi1 − Vi2 < α2 − α1 + (zi2
− zi1
)δ + wiT (γ2 − γ1 ) = F (xTi β),
T − z T , w T ) a β T = (α − α , δ T , γ T − γ T ). Pı́smenem F jsme označili distribučnı́
kde xTi = (1, zi2
2
1
2
1
i1
i
funkci rozdı́lu Vi1 − Vi2 . Nejběžněji studované modely jsou ty, kde funkce F byla zvolena:
lineárnı́ pravděpodobnostnı́ model
F (xTi β) = xTi β,
probitový model
F (xTi β) =
logitový model
F (xTi β) =
R xTi β
−∞
2
t
√1 e− 2
2π
dt,
1
1+e
−xT β
i
Prvnı́ variantu jsme již výše diskutovali a ukázali, že nepatřı́ ke št’astným volbám. Druhá
varianta representuje přı́pad, kdy za F zvolı́me standardnı́ normálnı́ distribuci. Ve třetı́ variantě
byla zvolena logistická distribučnı́ funkce.
Při této přı́ležitosti upozorněme na to, že některé monografie věnované regresnı́ analýze či
ekonometrii, užı́vajı́ ještě pojmu logistický model, přičemž některé tı́m mı́nı́ to, co jsme výše
132
označili, ve shodě s drtivou většinou autorů, jako logitový model, některé tı́m rozumějı́ model
časové řady s logistickým trendem. To je asi třeba mı́t na paměti při čtenı́ aplikačnı́ch studiı́,
ve kterých bez bližšı́ specifikace autor pravı́, že použije logistický model pro zpracovánı́ dat.
Z kontextu by však mělo být jasné, o co jde.
Než postoupı́me dále ve výkladu, uvědomme si ještě, že P (Yi = 1) = F (xTi β), i = 1, 2, ..., n
představujı́ teoretické pravděpodobnosti (označme je Pi ), zatı́mco my máme k dispozici jejich
výběrové “protějšky” (řekněme πi ). Vlastně se tedy pokoušı́me odhadnout regresnı́ koeficienty
v modelu
πi = Pi + Ei = F (xTi β) + Ei , i = 1, 2, ..., n.
(133)
V dalšı́m výkladu bude π označovat vektor výběrových pravděpodobnostı́ (π1 , π2 , ..., πn )T .
8.2.3
Odhady parametrů v lineárnı́m pravděpodobnostnı́m modelu
Výše jsme diskutovali potı́že, které s sebou přinášı́ použitı́ lineárnı́ho pravděpodobnostnı́ho modelu a naznačili jsme, že model s binárnı́ možnostı́ výběru by mohl pomoci řešit tyto problémy,
a to v přı́padě, že za funkci F nezvolı́me identitu, nebot’ jinak se opět dostaneme k lineárnı́mu
pravděpodobnostnı́mu modelu. Pokud bychom však z nějakých důvodů potřebovali přeci jenom
odhadnout parametry β v lineárnı́m pravděpodobnostnı́m modelu, pak lze postupovat v podstatě dvěma způsoby. Oba však předpokládajı́ (dostatečně krát provedené) opakovánı́ pozorovánı́
(měřenı́) v jednotlivých bodech faktorového prostoru.
Prvnı́ z nich vezme do úvahy to, že model vykazuje heteroskedasticitu, a prostě aplikuje
Aitkenův odhad, ve kterém použije namı́sto neznámé kovariančnı́ matice Σ jejı́ odhad. Jinými
slovy, nejprve odhadneme pomoci běžného odhadu metodou nejmenšı́ch čtverců regresnı́ koeficienty β, spočteme rezidua a odhadneme kovariančnı́ matici Σ. Ačkoliv odhad regresnı́ch
koeficientů je neeficientnı́, je nevychýlený, jak jsme si ostatně ukázali v kapitole věnované
zobecněnému odhadu metodou nejmenšı́ch čtverců. To umožňuje nestranně odhadnout matici Σ
a spočı́tat ve druhém kroku β̂ (EGLS,n) (estimated generalized least squares). Tento přı́stup ovšem
nevyřešı́ ten problém, že potřebujeme omezit hodnotu výrazu XiT β̂ (LS,n) na interval [0, 1]. Proto
je patrně obecně přijatelnějšı́ druhý postup spočı́vajı́cı́ v tom, že vyčı́slı́me odhad s omezenı́mi
danými přı́slušnými nerovnostmi.
Budeme tedy předpokládat, že jsme, podobně jako výše provedli (neeficientnı́) odhad regresnı́ch koeficientů a spočetli na základě reziduı́ odhad kovariančnı́ matice Σ. V druhém kroku
pak budeme řešit úlohu (srovnej se (133) )
β̂ (C,n) = arg min (π − Xβ)T Σ̂−1 (π − Xβ)
β∈Rp
při vedlejšı́ch podmı́nkách
Xβ ≤ 1
(134)
Xβ ≥ 0.
(135)
a
Připomı́náme, že symbolem 1 jsme v Tvrzenı́ 8 označili vektor majı́cı́ všechny souřadnice rovné
jedné. Na druhé straně jsme však v předchozı́m textu pro nulový vektor běžně užı́vali symbol
133
0 a nikoliv 0, nebot’ z kontextu bylo zřejmé o co jde. Přidrželi jsme se proto tohoto označenı́
i nynı́.
V některých přı́padech, a tyto nemusı́ být tak ojedinělé, jak by se na prvnı́ pohled mohlo
zdát, budeme a priori znát body faktorového prostoru, ve ktrých bude v budoucnu požadována
predikce přı́slušných pravděpodobnostı́. Necht’ tyto body jsou označeny maticı́ X̃ (typu (p × m),
řekněme). Pak se ovšem naše úloha rozšı́řı́ ještě o omezenı́
X̃β ≤ 1
(136)
X̃β ≥ 0.
(137)
a
Kombinace obou párů omezenı́ dá
·
W
−W
¸
·
β≤
kde
"
W =
X
X̃
1
0
¸
,
(138)
#
.
Můžeme tedy např. uvažovat Lagrageovou funkci
L(β, λ1 , λ2 ) = (π − Xβ)T Σ̂−1 (π − Xβ) + 2λT1 (1 − W β) + 2λT2 W β,
kde λ1 a λ2 jsou vektory Lagrangeových multiplikátorů (oba z Rn+m ). Budeme tedy řešit soustavu
−X T Σ̂−1 (π − Xβ) − W λ1 + W λ2 ,
1 − W β ≥ 0,
λT1 (1 − W β) = 0,
W β ≥ 0 a λT2 W β = 0.
Označı́me-li u1 = 1 − W β a u2 = W β, lze úlohu přepsat na
X T Σ̂−1 π = W λ2 − W λ1 + X T Σ̂−1 Xβ,
1 = W β + u1 ,
0 = −W β + u2 ,
λT1 u1 = 0,
λT2 u2 = 0
při podmı́nkách nezápornosti
λ1 ≥ 0,
λ2 ≥ 0,
u1 ≥ 0 a u2 ≥ 0.
Vzhledem k linearitě systému rovnic, lze tuto úlohu řešit pomoci simplexové metody, pro kterou
je dnes již poměrně snadno dostupný software.
134
8.2.4
Odhady parametrů v probitovém a logitovém modelu
Dřı́ve než se pustı́me do studia možnostı́ odhadu regresnı́ch koeficientů pro probitový a logitový
model, vrat’me se krátce k důvodům, které vedly k tomu, že byly vybrány právě tyto dvě
distribučnı́ funkce. Za touto volbou stojı́ zhruba tato logika. Předpokládáme, že se i-tý subjekt
(domácnost, firma, agent atd.) tı́m spı́še rozhodne pro variantu Ai (což jsme formalizovali jako
Yi = 1), čı́m většı́ bude hodnota výrazu xTi β 0 , kde ovšem β 0 neznáme a chceme je odhadnout.
Pokud je hodnota tohoto výrazu implicitně závislá na mnoha nezávislých a v podstatě náhodných
faktorech, či chcete-li jevech, jejichž vliv se agreguje, pak centrálnı́ limitnı́ věta, aplikovaná
značně neformálně, napovı́dá, že rozdělenı́ “veličiny” Zi = xTi β 0 je přibližně normálnı́ a tedy
pravděpodobnost toho, že rozhodnutı́ bude ve prospěch varianty Ai je rovna Φ(xTi β 0 ), kde jsme
použili symbol Φ pro distribučnı́ funkci standardnı́ho normálnı́ho rozdělenı́. Volba logistické
distribučnı́ funkce pak souvisı́ s faktem, že tato docela slušně aproximuje normálnı́ distribuci a
je jednoduchá z technického hlediska. V některých monografiı́ch se při tomto zdůvodněnı́ tvrdı́,
že logistická d. f. aproximuje standarnı́ normálnı́ velmi dobře a tento argument je stále znova
přejı́mán dalšı́mi autory, aniž by skutečně ověřili, jak “daleko” od sebe tyto distribuce skutečně
jsou; uved’me tedy pro pořádek, že
max |Φ(t) − Flogistická (t)| = 0.1174
t∈R
a toto maximum nastává v bodech t = 1.3246 a t = −1.3246. Podobně jako výše budeme
předpokládat, že máme opakovaná pozorovánı́ v jednotlivých bodech faktorového prostoru. Ostatně jinak bychom nebyli schopni odhadnout kovariančnı́ matici Σ, jak jsme již výše několikrát
připoměli, ale také regresnı́ model (133) by trochu “ztrácel na lesku”, nebot’ by bylo podivné
odhadovat pravděpodobnost Pi nějakou hodnotou πi vypočı́tanou na základě jednoho pozorovánı́.
V dalšı́m výkladu rozlišı́me dva přı́pady, totiž
• máme k dispozici dostatečné množstvı́ opakovánı́
a
• máme k dispozici jen několik opakovánı́.
Přirozeně je na uživateli posoudit, kdy je vhodnějšı́, pro daná data, použı́t ten či onen přı́stup.
Postup pro přı́pad, kdy je k dispozici dostatečné množstvı́ opakovánı́
Studujme nejprve probitový model. Připomeňme, že uvažujeme model
πi = Pi + Ei = Φ(xTi β) + Ei ,
i = 1, 2, ..., n,
(139)
kde πi je odhad teoretické pravděpodobnosti, že se i-tý subjekt rozhodne pro variantu Ai .
Odhad πi je založen na ni opakovánı́ch pozorovánı́ i-tého subjektu, tj. na opakovánı́ch pozorovánı́ v i-tém bodě faktorového prostoru, řečeno v terminologii, kterou jsme použı́vali pro
“klasický” regresnı́ model. Protože jistě zvolı́me konsistentnı́ odhad πi , bude Ei konvergovat
v pravděpodobnosti k nule pro ni → ∞. Vzhledem k tomu, co bylo řečeno výše, totiž, že
předpokládáme, že Pi je pravděpodobnost toho, že se i-tý subjekt rozhodne pro variantu Ai ,
135
je přirozené předpokládat, že πi bude maximálně věrohodný odhad této pravděpodobnosti, tj.
počet přı́padů, kdy se v ni pozorovánı́ch i-tý subjekt rozhodl pro variantu Ai . Potom ovšem
πi =
ni
X
yik
k=1
ni
,
kde yik je k-tá realizace Bernoulliovské náhodné veličiny Yi nabývajı́cı́ hodnoty 1 v přı́padě,
kdy se i-tý subjekt rozhodne pro variantu Ai a 0 v přı́padě, kdy se rozhodne pro doplněk této
varianty. Jinými slovy, zcela v souladu s výše v této kapitole vedenými úvahami Yi je náhodná
veličina, která nabývá hodnoty 1 s pravděpodobnostı́ Pi a hodnoty 0 s pravděpodobnostı́ 1 − Pi .
Odtud plyne, že
Pi (1 − Pi )
.
IE Ei = 0
a
var(Ei ) =
ni
Podotkněme ještě, že v některých monografiı́ch se právě uvedené vztahy “deklarujı́” bez specifikace typu odhadů πi teoretických pravděpodobnostı́ Pi . Je sice pravda, že podobný výsledek
dostaneme pro většinu akceptovatelných odhadů pravděpodobnostı́ Pi , ale obecně to nemusı́
√
platit. V podstatě to předpokládá, že odhad πi je nestranný a ni -konsistentnı́, tj.
√
ni (πi − Pi ) = Op (1).
Model (139) lze přepsat do tvaru
Φ−1 (πi ) = Φ−1 (Pi + Ei ),
kde si pro několik dalšı́ch okamžiků odpustı́me neustálé opakovánı́ “pro i = 1, 2, ..., n”. Rozvinutı́m pomoci Taylorovy řady dostaneme
Φ−1 (πi ) = Φ−1 (Pi ) + Ei
dΦ−1 (Pi )
+ Ri ,
dPi
kde Ri = O(1) · Ei2 a tedy Ri nejen konverguje k nule v pravděpodobnosti, ale je přirozeně (opět
v pravděpodobnosti) řádově menšı́ než druhý člen pravé strany poslednı́ rovnosti. Konečně tedy
Φ−1 (πi ) ≈ Φ−1 (Pi ) + Ei
1
,
φ(Φ−1 (Pi ))
(140)
kde jsme symbolem φ(t) označili hustotu standardnı́ho normálnı́ho rozdělenı́. Vzhledem k tomu,
že Φ−1 (Pi ) = xTi β 0 , můžeme pro ξi = Φ−1 (πi ) uvažovat model
ξi = xTi β 0 + Vi ,
kde ξi bývá označováno jako “napozorovaný” probit a xTi β 0 je “skutečný” (ve smyslu anglosaského true) probit. Nynı́ pokud odhad πi pravděpodobnosti Pi byl nestranný, máme z
(140)
Ei
Vi ≈
φ(Φ−1 (Pi ))
a tedy
IE Vi ≈ 0
a
var(Vi ) ≈
136
Pi (1 − Pi )
.
ni (φ(Φ−1 (Pi )))2
(141)
Odhadneme-li tedy β 0 pomoci
³
β̂ (LS,n) = X T Σ̂−1 X
´−1
X T Σ̂−1 ξ,
kde Σ̂ je odhad kovariančnı́ matice náhodných fluktuacı́ Vi . Vzhledem k tomu, že obvykle
předpokládáme (statistickou) nezávislost subjektů, tj. také statistickou nezávislost jevů i-tý
subjekt se rozhodl pro variantu Ai a j-tý subjekt se rozhodl pro variantu Aj , budou i náhodné
fluktuace Ei statisticky nezávislé, a konečně pak totéž lze předpokládat o fluktuacı́ch Vi . To
znamená, že odhad kovariančnı́ matice Σ bude diagonálnı́ s tı́m, že na diagonále budou stát
právě odhady rozptylů uvedené v (141). Samozřejmě se nabı́zejı́ i jiné odhady, jak jsme ostatně výše zmı́nili. Např. můžeme, pokud jsme si jisti tı́m, že Pi = φ(xTi β 0 ), použı́t odhad
P̃i = Φ(ξˆi ) = Φ(xTi (X T X)−1 X T ξ).
Pro logitový model lze postupovat obdobně. Připomeňme, že tento model předpokládá, že
Pi = P (Ai |xi ) =
což implikuje
µ
Pi
ln
1 − Pi
1
,
1 + exp{xTi β 0 }
¶
= xTi β 0 .
Vzhledem k tomu, že jsme předpokládali regresnı́ model (139), máme
πi
Pi + Ei
=
.
1−π
1 − Pi − Ei
Rozvineme-li pravou stranu pomoci Taylorova rozvoje v bodě
Pi
1−Pi
a vezmeme-li v úvahu, že
Pi
Ei
Ei
Pi + Ei
−
=
≈
,
1 − Pi − Ei 1 − Pi
(1 − Pi − Ei )(1 − Pi )
(1 − Pi )2
dostaneme
µ
πi
ln
1 − πi
¶
µ
Pi
= ln
1 − Pi
¶
+
Ei
+ Ri ,
Pi (1 − Pi )
kde podobně jako výše Ri = Op (Ei2 ), tj. konverguje za dosti obecných podmı́nek v pravděpodobnosti
k nule pro ni → ∞. Máme tedy
µ
ln
³
Položı́me-li tedy ζi = ln
πi
1−πi
πi
1 − πi
¶
≈ xTi β 0 +
Ei
.
Pi (1 − Pi )
´
a budeme-li uvažovat model
ζi = xTi β 0 + Ui ,
budeme mı́t Ui ≈
Ei
Pi (1−Pi )
a tedy
IE Ui ≈ 0
a
var(Ui ) =
1
.
ni Pi (1 − Pi )
Dalšı́ postup je naprosto shodný s postupem pro probitový model.
137
Postup pro přı́pad, kdy je k dispozici jen několik opakovánı́
Připomeňme, že jsme výše ukázali, že v právě diskutovaných modelech se nevyhnutelně setkáme
s heteroskedasticitou. Máme-li však k dispozici jen malý počet opakovánı́, přı́padně jen jedno,
v i-tém bodě faktorového prostoru, nejsme schopni odhadnout rozptyl vysvětlované veličiny
v tomto bodě a tedy ani kovarinčnı́ matici Σ. Znamená to, že se nejsme schopni vyrovnat
s heteroskedasticitou pomoci zobecněného odhadu nejmenšı́ch čtverců. Alternatı́vnı́ možnostı́
je použitı́ maximálně věrohodného odhadu. To samozřejmě ovšem znamená, že podstatným
způsobem “vstoupı́ do hry” a priornı́ informace o rozdělenı́ F (pozor, zde se nejedná o rozdělenı́
náhodných fluktuacı́ Ei v modelu (133), ale o distribučnı́ funkci F popisujı́cı́ závislost Pi na
xTi β 0 ).
Dřı́ve než začneme s vlastnı́m výkladem připomeňme znovu na jednu formálnı́ věc. V předchozı́
pasáži jsme označovali pomoci ni počet opakovánı́ pozorovánı́ v i-tém bodě faktorového prostoru a mylně by se mohlo zdát, že Yi označovalo počet přı́padů ze zmı́něných ni opakovánı́,
kdy se i-tý subjekt rozhodl pro prvnı́ alternativu. Ve skutečnosti jsme ale předpokládali, že
to, co vstupuje do diskutovaných regresnı́ch modelů, jsou probity (tj. Φ−1 (πi )), přı́padně logπi
) a Yi označovalo náhodnou veličinu nabývajı́cı́ hodnotu 1 pro přı́pad, kdy se i-tý
ity (tj. 1−π
i
subjekt rozhodl pro prvnı́ alternativu. Odtud plyne, že pokud bylo pozorovánı́ na i-tém subjektu ni -krát opakováno, máme ni realizacı́ veličiny Yi , které jsme označili yi1 , yi2 , ..., yini (což
je posloupnost nul a jedniček), a počet přı́padů, kdy se i-tý subjekt rozhodl pro prvnı́ variantu
P i
je nj=1
yij . Protože toto čı́slo budeme dále potřebonat v následujı́cı́m odstavci diskutujı́cı́m
použitı́ probitového a logitového modelu, označme je mi . Uvědomme si ještě, že všechna tato
pozorovánı́ (měřenı́) byla provedena ve stejném bodě faktorového prostoru, jak jsme už jednou
výše zdůraznili, tj. xi1 = xi2 = ... = xini . Vrátı́me-li se tedy k tomu, že jsme předpokládali,
že do diskutovaných regresnı́ch modelů vstupujı́ probity a logity, máme jakási “původnı́” data
vlastně sdružena do oněch K skupin, v matici plánu vystupuje přı́slušný bod xi jen jednou,
matice má K řádků (a p sloupců) a jako vysvětlovaná veličina vystupuje napozorovaný probit
P
či logit. Celkový počet pozorovánı́ je pak n = K
i=1 ni .
Vzhledem k tomu, že jsme předpokládali, že Pi = P (Yi = 1) je pravděpodobnost, že se i-tý
subjekt rozhodne pro prvnı́ alternativu (a 1 − Pi = P (Yi = 0)), máme věrohodnostnı́ funkci
`=
K
Y
PiYi (1 − Pi )1−Yi =
K
Y
³
´1−Yi
[F (xTi β)]Yi 1 − F (xTi β)
i=1
i=1
a konečně logaritmus věrohodnostnı́ funkce bude
ln ` =
K n
X
o
Yi ln(F (xTi β)) + (1 − Yi )ln(1 − F (xTi β)) ,
(142)
i=1
kde volbou F = Φ, přı́padně F = Flogistická specifikujeme situaci pro probitový či logitový model.
Hledánı́ extrému je pak numerická záležitost a může být provedeno např. Newton-Raphsonovou
metodou, tj. budeme počı́tat iterativně odhady

β̂(r+1)
−1 "
¯
∂ 2 ln ` ¯¯

= β̂(r) − 
¯
∂β∂β T ¯β=β̂
(r)
138
¯
#
∂ln ` ¯¯
,
∂β ¯β=β̂(r)
kde dolnı́ index (r) označuje krok v iterativnı́m procesu. Odhady budeme “opakovat” tak dlouho
až se tyto stabilizujı́. O odhadu zı́skaném touto cestou je známo, že má asymptoticky normálnı́
rozdělenı́ (Judge a kol. (1980)), tj.

´
√ ³
n β̂ − β 0 → N 0, lim
n→∞
"
1
∂ 2 ln `
− IE
n
∂β∂β T
#−1 
,
kde se samozřejmě musı́ předpokládat, že naznačená limita existuje. Podotkněme ješte, že uvedená střednı́ hodnota (v kovariančnı́ matici) musı́ být uvažována vzhledem ke “skutečnému
rozdělenı́” G, tj. nikoliv vůči F . To může způsobit, že asymptotický rozptyl odhadu β̂(r) může
být (podstatně) většı́ než bychom očekávali.
Jinou možnostı́ je použı́t metodu skrovánı́, viz např. Judge a kol. (1980).
Někdy mohou nastat potı́že se stanovenı́m počátečnı́ho odhadu pro iterativnı́ proces. Obvykle
je však možno použı́t i dosti hrubý odhad, nebot’ je známo, že např. pro probitový a logitový
model tato volba nehraje asymptoticky žádnou roli, viz Dhrymes (1978). Je přirozené, že z numerického hlediska však volba počátečnı́ho odhadu hraje podstatnou roli. Bohužel však neexistuje
spolehlivé doporučenı́, jak v tomto přı́padě postupovat.
8.2.5
Diskuze k použitı́ probitového a logitového modelu
Pro alespoň částečnou úplnost dodejme, že model
πi = F (xTi β) + Ei , i = 1, 2, ..., K
byl studován i pro jiná rozdělenı́ F než jen Φ a Flogistická , viz např. Zellner, Lee (1965), nicméně
oblı́benost probitového a logitopvého modelu daleko převyšuje jiné aplikace. U probitového modelu jde patrně o to, že za modelem je alespoň jakási heuristika a také pro oblı́benost normálnı́ho
rozdělenı́. U logitového modelu hraje jistě roli jeho technická jednoduchost při zpracovánı́.
Přı́klady (a to dosti obsáhlé) použitı́ probitového a logitového modelu lze nalézt v pracech
McFadden, D. (1976), Hensher, Johnson (1981) nebo Amemiya (1981).
Výše jsme se zmı́nili, jak je třeba s opatrnostı́ interpretovat odhady regresnı́ch koeficientů,
dokonce jejich znaménka, viz závěr kapitoly Výstupy z počı́tačových knihoven. Zde k tomu ještě
přistupuje to, že i když budou např. regresory nezávislé a tedy potı́ž, na kterou jsme v právě
připomenuté kapitole upozorňovali (a která měla své kořeny právě ve vysokém stupni lineárnı́
závislosti mezi vysvětlujı́cı́mi proměnnými), odpadne, velikost odhadů regresnı́ch koeficientů
neindikuje velikost změny vysvětlované veličiny (tj. přı́slušné
pravděpodobnosti
Pi ), ale spı́še
³
´
Pi
−1
změny Φ (Pi ) pro probitový model, a velikosti změny ln 1−Pi pro logitový model. Snadno se
nahlédne, že přı́slušným indikátorem velikosti
odhadované pravděpodobnosti v závislosti
³ změny
´
T
na změně j-té souřadnice bodu xi bude f xi β βj , kde f je hustota přı́slušná k F .
Ukažme si nynı́, jak by se otestovala hypotéza H0 : β20 = β30 = ... = βp0 = 0 proti alternativě
H1 : β 0 = β̂, kde β̂ je odhad pořı́zený některou metodou popsanou výše v této kapitole. Učiňme
tak pro jednoduchý přı́pad, kdy bylo provedeno n opakovaných měřenı́ na jednom subjektu, tj.
v některém bodě x ∈ Rp a kdy se v m přı́padech tento rozhodl pro prvnı́ variantu. Uvědomme
si, že při hypotéze H0 máme xT β = x1 β1 a označme γ = F (x1 β1 ) (kde dolnı́ index 1 označuje
139
vyjı́mečně prvnı́ souřadnici bodů x a β). Potom (uvědomme si, že xi = x pro i = 1, 2, ..., n)
ln ` (H0 ) = arg max
γ∈R
n n
X
yi ln(F (xTi β)) + (1 − yi )ln(1 − F (xTi β))
o
i=1
= arg max {mlnγ + (n − m)ln(1 − γ)} = mln
γ∈R
m
n−m
+ (n − m)ln(
).
n
n
Označme ještě hodnotu logaritmu věrohodnostnı́ funkce pro hypotézu H1 , kterou dostaneme
dosadı́me-li odhad β̂ do (142), symbolem ln`(H1 ). Za přı́slušnou testovou statistiku vezmeme
pak logaritmus věrohosnostnı́ho poměru, tj.
−2 [ln`(H0 ) − ln`(H1 )] ,
(143)
která má asymptoticky rozdělenı́ χ2 (p − 1).
Pokud by bylo provedeno pozorovánı́ (měřenı́) na K subjektech, na každém ni -krát právě
uvedené úvahy by se zkomplikovaly, a to nejen po formálnı́ stránce, ale i po stránce věcné.
Patrně bychom totiž chtěli mı́t vı́ce “parametrů” γ, ale nulová hypotéza H0 striktně vzato ve
formalizmu, který jsme použı́vali v odstavci “Postup pro přı́pad, kdy je k dispozici dostatečné
množstvı́ opakovánı́”, popisuje situaci, kdy Pi = const, i = 1, 2, ..., K.
Uživatelé probitových a logitových modelů se také často zajı́majı́ o analogii koeficientu determinace pro tyto modely. Odkazujeme proto na práci Amemiya (1981), (1981) ve které je
podrobnějšı́ diskuze k tomuto tématu. Zde jen uved’me, že patrně nejběžněji použı́vané statistiky jsou bud’ χ2 uvedená v (143) nebo “pseudo-R2 ” definovaný jako
ρ2 = 1 −
ln`(H0 )
.
ln`(H1 )
Jak vyplývá z výše uvedeného výkladu a diskuze, jsou probitové a logitové modely vlastně
jakousi “berličku” pro data, pro která nenı́ regresnı́ model přı́mo určen. Ostatně v některých
statistických knihovnách jsou probitové a logitové modely začleněny do nelineárnı́ch odhadů,
nelineárnı́ regrese či majı́ svůj speciálnı́ oddı́l. Proto bývá také studována jejich výkonnost ve
srovnánı́ s jinými metodami, např. s diskriminačnı́ analýzou, viz Press, Wilson (1978) nebo
Amemiya, Powell (1980) nebo regresnı́mi stromy, viz Breiman a kol. (1984).
8.3
Model s kategoriálnı́mi vysvětlujı́cı́mi proměnnými
Často se stává, že některá proměnná v datech má charakter kategoriálnı́ nebo kvalitativnı́
proměnné, jako je např. sex, rasa, věková kategorie, státnı́ přı́slušnost, přı́slušnost k některé
politické straně, barva, druh materiálu, způsob zpracovánı́, doba vzniku, osobnı́ preference atd.
Jedna z možnostı́ by zajisté byla rozdělit data na vı́ce souborů dle této kategoriálnı́ proměnné a
zpracovat každý soubor samostatně. Na druhé straně, pokud se budeme domnı́vat, že vysvětlovaná
veličina byla generována jakýmsi “mechanizmem’, který je společný pro všechna data v souboru
a pouze pro jednotlivé kategorie obsahoval jiný absolutnı́ člen, můžeme data zpracovat naráz,
což povede k tomu, že informace o těch koeficientech, které jsou společné pro všechny kategorie
bude lépe využita. Znamená to tedy, že potřebujeme formálně zapsat model, který automaticky
zvolı́ pro dané pozorovánı́ absolutnı́ člen dle přı́slušnosti daného pozorovánı́ (daného jedince) k té
140
či oné kategorii. Předpokládejme, že naše data obsahujı́ kategoriálnı́ proměnnou (pro jednoduchost pouze jednu; zobecněnı́ na vı́ce kategoriálnı́ch proměnných je přı́močaré), která nabývá K
hodnot (stavů). Regresnı́ model pak můžeme psát ve tvaru
Yi = Zγ + Xβ 0 + Ei , i = 1, 2, ..., n,
kde Z je matice typu (n × K) a platı́, že zik = 1 pokud i-té pozorovánı́ patřı́ do k-té kategorie,
k = 1, 2, ..., K). Pokud bychom všechna pozorovánı́ patřı́cı́ do prvnı́ kategorie umı́stili na začátek
dat, za ně umı́stili všechna pozorovánı́ patřı́cı́ do druhé kategorie, atd. a pokud označı́me `k počet
pozorovánı́ patřı́cı́ch do k-té kategorie, bude matice plánu vypadat takto



















[Z, X] = 


















1 0 0 . . . 0 x1,1
1 0 0 . . . 0 x2,1
.. ..
.. .. ..
. .
. . .
1 0 0 . . . 0 x`1 ,1
x1,2
x2,2
..
.
. . . x1,p
. . . x2,p
..
.
x`1 ,2
...
0 1 0 . . . 0 x`1 +1,1
0 1 0 . . . 0 x`1 +2,1
.. .. ..
.. ..
. . .
. .
0 1 0 . . . 0 x`1 +`2 ,1
.. .. ..
.. ..
. . .
. .
.. .. ..
.. ..
. . .
. .
.. .. ..
.. ..
. . .
. .
x`1 +1,2
x`1 +2,2
..
.
...
...
x`1 +`2 ,2
..
.
..
.
..
.
...
0 0 0 . . . 1 x`1 +`2 +...+`K−1 +1,1
0 0 0 . . . 1 x`1 +`2 +...+`K−1 +2,1
.. .. ..
.. ..
. . .
. .
0 0 0 . . . 1 x`1 +`2 +...+`K ,1
x`1 +`2 +...+`K−1 +1,2 . . .
x`1 +`2 +...+`K−1 +2,2 . . .
..
.
x`1 +`2 +...+`K ,2








x`1 ,p



x`1 +1,p


x`1 +2,p


..

.



x`1 +`2 ,p
.

..


.

..


.


..

.


x`1 +`2 +...+`K−1 +1,p 

x`1 +`2 +...+`K−1 +2,p 


..

.

. . . x`1 +`2 +...+`K ,p
Odhad regresnı́ch koeficientů lze provést pomocı́ běžného odhadu metodou nejmenšı́ch čtverců,
který bude vypadat takto
"
γ̂ (LS,n)
β̂ (LS,n)
#
³
´−1
= [Z, X]T [Z, X]
[Z, X]T Y.
(144)
Ještě jednou připomı́náme, že, jak je ostatně zřejmé z tvaru matice plánu, pro každou kategorii pozorovánı́ je jakoby odhadnut “samostatně” absolutnı́ člen zatı́mco odhady ostatnı́ch
koeficientů modelu jsou “společné”. Slovo jakoby a úvozovky u slov samostatně a společně
naznačujı́, že při odhadu absolutnı́ho členu pro jednu, řekněme k-tou kategorii, je ve skutečnosti
zprostředkovaně využita i informace obsažená v pozorovánı́ch z jiných kategoriı́, (viz (144).
Komplikovanějšı́ by byla situace, kdy by bylo adekvátnějšı́ předpokládat, že přı́slušnost jednotlivého pozorovánı́ do k-té kategorie je náhodný jev, tj. že matice Z je náhodná. Naštěstı́ se
s takovou situacı́ setkáme jen velmi zřı́dka. Na druhé straně, v takovém přı́padě lze postupovat
standardnı́m postupem, který aplikujeme v modelu s náhodnými vysvětlujı́cı́mi proměnnými.
Již výše bylo vysvětleno, v odstavci věnovanému instrumentálnı́m proměnným, jak je třeba v
141
takovém přı́padě postupovat. “Jediným” problémem, který je v tom přı́padě totiž třeba posoudit, je to zda náhodné fluktuace a ty vysvětlujı́cı́ proměnné, které považujeme za náhodné, jsou
(asymptoticky) korelovány či nikoliv. Slovo jediným je dáno do úvozovek, nebot’ se sice opravdu
jedná jen o jediný problém, ale za to dosti podstatný a nikoliv snadno testovatelný. Na druhé
straně, vzhledem k tomu, že konstanta je vždy nezávislá (a tedy také nekorelovaná) s jakoukoliv
náhodnou veličinou, máme naději, že pokud nastane právě diskutovaná situace, pak, pokud bude
přı́slušná kategoriálnı́ veličina nabývat jen malého počtu hodnot, bude (alespoň asymptoticky)
nekorelovaná s náhodnými fluktuacemi.
Někdy se můžeme setkat se situacı́, kdy jsou mezi vysvětlujı́cı́mi proměnnými kvalitativnı́,
tak jak jsme si o tom povı́dali v této kapitole, ale kvalitativnı́ veličina (znak) nabývá tolika
hodnot, že patrně nelze pro každou odhadnout absolutnı́ člen, nebot’ by vlastně jeho hodnota
byla odhadnuta z několika málo pozorovánı́. V takovém přı́padě patrně nezbývá, než zkusit
“něco” jiného než regresnı́ model. Jednou méně známou, ale patrně velmi efektivnı́ variantou
je použitı́ regresnı́ch stromů (regression trees), viz Breiman a kol. (1984). Myšlenka je velmi
jednoduchá, totiž rozdělit data na dvě (či vı́ce částı́) dle kvalitativnı́ (kategoriálnı́) veličiny a to
tak, aby co nejvı́ce poklesla variabilita vysvětlované veličiny v obou třı́dách. Jak jsme řekli,
myšlenka je to velmi jednoduchá a snadno akceptovatelná, provedenı́ je značně komplikované.
Uvědomme si, že pokud přı́slušná kategoriálnı́ proměnná nabývá k “hodnot” (stavů), lze data
rozdělit do dvou skupin 2k−1 − 1 způsoby. Navı́c kategoriálnı́ch proměnných může být vı́ce,
v datech mohou chybět některé údaje (missing values) atd. Proto také bývá software pro tuto
metodu značně drahý.
8.4
Vysvětlujı́cı́ proměnné měřené s náhodnými chybami
Na samém začátku skript jsme diskutovali, co by znamenalo to, kdybychom náhodné fluktuace vysvětlované veličiny interpretovali jako chyby měřenı́. Řekli jsme, že pak bychom museli
posoudit, zda nenı́ adekvátnı́ uvažovat o tom, že také (některé) vysvětlujı́cı́ proměnné mohou být měřeny s nezanedbatelnou (náhodnou) chybou. Poznamenali jsme, že pak je třeba
uvažovat o jiném tvaru regresnı́ho modelu a jiném přı́stupu k odhadu jeho parametrů (koeficientů). Jednoduchý model této situace jsme si už ukázali v jednom z předchozı́ch odstavců.
Nynı́ si ukážeme obecnějšı́ tvar takového modelu. Podobně jako dřı́ve budeme předpokládat, že
vysvětlovaná proměnná lineárně závisı́ na sadě vysvětlujı́cı́ch proměnných, tedy přesněji řečeno
na skutečných hodnotách těchto vysvětlujı́cı́ch proměnných
Y = Zγ 0 + X ∗ β 0 + V,
(145)
kde Z představuje tu část matice plánu, která zahrnuje ty vysvětlujı́cı́ proměnné, jejichž chyba
měřenı́ je malá ve srovnánı́ s rozptylem náhodných fluktuacı́. V matici X ∗ jsou zahrnuty skutečné
hodnoty těch regresorů, jejichž měřenı́ je zatı́ženo nezanedbatelnou chybou, tj. v matici X ∗ jsou
hodnoty, které nám však nejsou přı́stupny. My máme k dispozici pouze matici X naměřených
hodnot těchto regresorů, tj. hodnot, které jsou zatı́ženy (značnou) chybou měřenı́. Formálně to
znamená, že
X = X ∗ + U.
(146)
142
Přirozeně, že stejně jako pro náhodné fluktuace E předpokládáme, že IE U = 0 a navı́c IE Ui V T =
0, kde Ui je i-tý řádek matice U , tj. na pravé straně poslednı́ rovnosti stojı́ matice nul. Symboly
γ 0 a β 0 jsme označili vektory regresnı́ch koeficientů a V jsou samozřejmě náhodné fluktuace.
Jestliže (146) dosadı́me do (145), dostaneme
Y = Zγ 0 + Xβ 0 + E = W δ 0 + E
(W = (Z, X), δ 0 = (γ 0 , β 0 ) a E = V − U β 0 ). Zcela analogicky jako při studiu klasického
regresnı́ho modelu budeme předpokládat, že existujı́ regulárnı́ matice Qzz , Qzx a Qxx tak, že
lim
n→∞
1 T
Z Z = Qzz ,
n
1 T
Z X = Qzx
n
1
lim X T X = Qxx
n→∞ n
lim
n→∞
(147)
v pravděpodobnosti,
(148)
v pravděpodobnosti
(149)
(viz (14)) a navı́c, že
lim
n→∞
1 T
U U = Σuu
n
v pravděpodobnosti.
Nenı́ těžké zjistit, že běžný či chcete-li naivnı́ odhad metodou nejmenšı́ch čtverců
"
δ̂ =
γ̂ (n)
β̂ (n)
#
³
= WTW
´−1
³
WTY = WTW
´−1
³
´
³
W T W δ0 + E = δ0 + W T W
´−1
WTE
(150)
může být obecně vychýlený a nenı́ konsistentnı́, nebot’
lim
n→∞
1
1 T
X E = lim U T (V − U β 0 ) = −Σuu β 0
n→∞
n
n
v pravděpodobnosti.
Poznamenejme ještě, že z toho, jak jsme zavedli matice Q (viz (147), (148) a (149)) máme
1
lim W T W =
n→∞ n
a
1
lim W T E =
n→∞ n
·
·
¸
Qzz Qzx
QTzx Qxx
0
−Σuu β 0
v pravděpodobnosti
(151)
¸
v pravděpodobnosti.
(152)
Vztah (152) by mohl svádět k tomu, že vektor γ 0 bude odhadnut nestranně. Snadno však
nahlédneme ze vztahu (150), že při výpočtu γ̂ (n) figuruje celý vektor stojı́cı́ na pravé straně
vztahu (152). Potom tedy dostaneme
"
lim
n→∞
γ̂ (n) − γ 0
β̂ (n) − β 0
#
·
=
−1
0
−1
T
Q−1
zz Qzx (Qxx − Qzx Qzz Qzx ) Σuu β
−1
0
−(Qxx − QTzx Q−1
zz Qzx ) Σuu β
¸
.
(153)
Proto ani ta část vektoru regresnı́ch koeficientů, která odpovı́dá těm regresorům, které jsou
měřeny “přesně”, nenı́ odhadnuta nestranně.
Bez přijetı́ dalšı́ch předpokladů, specifikujı́cı́ poněkud vı́ce celou situaci se bohužel dá jen
těžko něco usoudit o velikosti a směru vychýlenı́ odhadů γ̂ (n) a β̂ (n) . Pokud však např. nastane
přı́pad, že je s chybami měřena jen jedna vysvětlujı́cı́ proměnná, pak Σuu = σu2 (řekněme)
143
2
2
a (Qxx − QTzx Q−1
zz Qzx ) = σx (1 − Rxz ) (kde poslednı́ rovnost zavedla označenı́ pro rozptyl veličiny
2 ) jsou
x a pro koeficient mnohonásobné korelace mezi x a Z). Protože jak σu2 tak σx2 (1 − Rxz
nezáporné, je vychýlenı́ odhadu koeficientu β 0 vždy negativnı́, tj. dojde k podceněnı́. Jak však
můžeme nahlédnout z (153), vychýlenı́ odhadu koeficientu γ 0 závisı́ na Q−1
zz Qzx a nelze je tedy
bez znalosti této matice vı́ce popsat. Pokud je však náš model extrémně jednoduchý, tj. obsahuje
pouze jednu vysvětlujı́cı́, tj. Z = 0, která je měřena s náhodnými chybami, pak vychýlenı́ odhadu
koeficientu β 0 je dáno vztahem
³
lim
n→∞
8.5
´
β̂ (n) − β 0 = −
β 0 σu2
σx2
v pravděpodobnosti.
Aproximace nepřı́stupných vysvětlujı́cı́ch veličin
Model (145) je formálně podobný modelu modelu, ve kterém vystupujı́ vysvětlujı́cı́ proměnné,
které nemůžeme přı́mo měřit, ale jsme o nich přesvědčeni, že jsou relevantnı́ pro vysvětlenı́
veličiny Y . Přı́kladem může být situace, kdy se budeme snažit vysvětlit výši přı́jmu fyzických
osob na základě různých faktorů. Jednı́m z faktorů bude nepochybně úroveň vzdělánı́, kterého
dotyčný(á) dosáhl. Okamžitě nám však bude jasné, že úroveň vzdělánı́ bude závislá nejen
od počtu let strávených ve školnı́ch lavicı́ch, ale také od typu a hlavně kvality školy, kterou
navštěvoval. To bychom mohli ještě nějak zohlednit, ale jednak by to bylo obtı́žné, tedy přinejmenšı́m
technicky komplikované, jednak by to stále ještě nevystihlo všechny problémy, které jsou s úrovnı́
vzdělánı́ spojeni. Někdo dalšı́ by totiž mohl namı́tnou, že je třeba vzı́t v úvahu to, jakých známek
dotyčný dosáhl (což už by ani nemuselo být zjistitelné), ale pak přijde dalšı́ a řekne, že přeci
na té škole byli různě přı́snı́ examinátoři atd. Často v takovém přı́padě “rezignujeme” a prostě
nahradı́me veličinu, o které cı́tı́me, že je relevantnı́, veličinou, která ji (vı́ce či méně) dobře aproximujeme. Anglosaské literatuře se mluvı́ o proxy variables a v poslednı́ době se toto označenı́,
totiž proxy proměnné začalo ujı́mat i u nás. Jazykový puristi asi budou proteslovat, ale pokud
autor toho či onoho textu na jeho začátku přesně vymezı́, co čı́m bude označovat, nenı́ toto slova
právě z těch, které by v češtině znělo nelibozvučně. Často se tedy uvažuje model
Y = zγ 0 + xβ 0 + E,
(154)
o kterém jsme si vědomi, že veličina x je aproximacı́ veličiny x∗ , tj. platı́
x = x∗ + u,
kde u ovšem nenı́ náhodná chyba měřenı́ a ani ji nelze dost dobře za náhodnou považovat, v
tom smyslu, že ji nejsme schopni popsat v termı́nech náhodné veličiny. Potom před námi stojı́
problém (dilema), zda uvažovat model (154) či model
Y = zγ 0 + Ẽ,
(155)
s tı́m, že vzhledem k tomu, co bylo řečeno o vztahu x a x∗ nejsme schopni posoudit “těsnost”
aproximace. V literatuře lze nalézt studie diskutujı́cı́ tento problém (viz např. Aigner (1974),
Maddala (1977)), ale závěry jsou často dosti sporné. Problematičnost totiž spočı́vá v tom, že
144
každá taková studie musı́ chtě nechtě nakonec udělat nějaké předpoklady o veličině u a navı́c musı́
zvolit některé kriterium pro hodnocenı́ odhadu z toho či onoho modelu. Obvykle je to vychýlenı́
či rychlost konsistence, přı́padně jejı́ ztráta. Např. B. T. McCallum (1972) a M. R. Wickens
(1972) nezávisle dokázali, že pokud o u předpokládáme, že je to náhodná veličina nezávislá jak
na x∗ tak na E, potom je odhad z modelu (154) vždy méně vychýlen než odhad z modelu (155)
(vzhledem k tomu, co bylo řečeno výše, se o modelu (155) předpokládá, že je podurčen a tedy
přı́slušný odhad je obecně vychýlený - viz odstavec o podurčenı́ modelu). Na druhé straně nenı́
jasné, jak dalece může být model (154) špatně specifikován. Máme na mysli to, co anglosaská
literatura označuje slovem misspecified a pro co patrně nemáme ještě ustálený technický termı́n;
znamená to, že do podurčeného modelu (155) sice přidáme dalšı́ vysvětlujı́cı́ veličiny, ale tyto
jsou (téměř) irelevantnı́ pro vysvětlenı́ veličiny Y . To sice nezhoršı́ ani vychýlenı́ modelu ani to
nevede ke ztrátě konsistence, ale může to znamenat takové zvýšenı́ rozptylu odhadů koeficientů,
že to napřı́klad může (podstatně) poškodit kvalitu následné predikce.
9
9.1
MODEL S VÍCEROZMĚRNOU VYSVĚTLOVANOU PROMĚNNOU
Zdánlivě nesouvisejı́cı́ rovnice
Až dosud jsme uvažovali regresnı́ model, ve kterém byla vysvětlovaná veličina jednorozměrná.
Naprosto přı́močarým zobecněnı́m tohoto modelu je model uvažujı́cı́ soubor M regresnı́ch rovnic
typu (3), které spolu (na prvnı́ pohled) nesouvisejı́. Odtud název (angl. seemingly unrelated
equations). Budeme tedy uvažovat pro j = 1, 2, . . . , M model
(j)T
Yij = xi
β(j) + Eij ,
i = 1, 2, . . . , n.
(156)
Označı́me-li Y(j) = (Y1j , Y2j , . . . , Ynj )T ∈ Rn (tj. Yij označuje i-té pozorovánı́ v j-tém regresnı́m
(j)T
modelu), matice X (j) je typu (n × p(j) ) a je evidentně složena z řádků xi
(β1(j) , β2(j) , . . . , βp(j) (j) ) ∈ Rp(j) , dostaneme
Y(j) = X (j) β(j) + E(j) ,
j = 1, 2, . . . , M.
, a konečně β(j) =
(157)
Přirozeně budeme předpokládat zobecněnı́ Podmı́nek A, tj. jako obvykle
n
IE E(j) = 0
ale navı́c
a
n
IE
IE
o
T
2
E(j) E(j)
= σjj
I,
(158)
o
T
2
E(j) E(k)
= σjk
I.
(159)
Znamená to tedy, že nadále předpokládáme, že náhodné fluktuace pro různé řádky jsou nezávislé,
a to jak uvnitř jednoho modelu, např. j-tého (viz (158)), tak pro různé modely, např. j-tý a ktý, zatı́mco fluktuace ve stejném řádku pro různé modely majı́ obecně nenulovou korelaci (viz
(159)). Zavedený formalizmus je na prvnı́ pohled poněkud zvláštnı́ a nejednotný, co se týká
vysvětlované a vysvětlujı́cı́ proměnné. V paragrafu věnovanému simultánı́m rovnicı́m se pak
ukáže, proč byl zvolen právě takto. Pro studium simultánı́ch rovnic budeme totiž potřebovat
složitějšı́ formalizmus a bylo by proto nelogické, abychom se pro každý dalšı́ odstavec učili
novému označenı́, nekonzistentnı́mu s tı́m z odstavce předchozı́ho. Proto bylo již nynı́ zavedeno
145
označenı́, které, po malém doplněnı́, bude vyhovovat i pro dalšı́ výklad. Navı́c takto snadněji
ověřı́me, že systém zdánlivě nesouvisejı́cı́ch rovnic je opravdu speciálnı́m přı́padem systému
simultánı́ch rovnic.
³
´−1
Opět snadno ověřı́me, že “naivnı́” odhad β̂(j) = [X (j) ]T X (j)
[X (j) ]T Y(j) , je nestranný
³
IE β̂(j) = [X (j) ]T X (j)
´−1
[X (j) ]T X (j) β(j) = β(j)
a vzhledem k tomu, že
³
β̂(j) = β(j) + β̂(j) − β(j) = β(j) + [X (j) ]T X (j)
µ
´−1
³
[X (j) ]T Y(j) − X (j) β(j)
´
¶
1 (j) T (j) −1 1 (j) T
[X ] X
[X ] E(j) ,
(160)
n
n
vidı́me, že si tento odhad podržı́ i konsistenci. Jediným problémem je tedy eficience. Přirozeně, že
nás napadne přepsat maticový model (157) do jakési “supermaticové” podoby a použı́t Aitkenova
odhadu. Dostaneme
= β(j) +





Y(1)
Y(2)
..
.


 
 
=
 

Y(M )
X (1)
0
...
0
0
X (2) . . .
0
..
..
..
.
.
.
0
0
. . . X (M )
 
β(1)
 
  β(2)
· .
  .
.



E(1)
E(2)
..
.
 
 
+
 
β(M )



.

E(M )
Jestliže se tedy přidržı́me “nápovědy”, kterou poskytuje právě uvedený zápis a označı́me-li
T , Y T , . . . , Y T )T ∈ RM ·n , X blokovou matici, která má na diagonále bloky X (j) , j =
Y = (Y(1)
(2)
(M )
1, 2, . . . , M (tj. je typu (n · M ×
PM
PM
j=1 p(j) )
), za vektor regresnı́ch koeficientů vezmeme β 0 =
p
T , β T , . . . , β T )T ∈ R j=1 (j) a konečně pak pro náhodné fluktuace budeme psát E =
(β(1)
(2)
(M )
T , E T , . . . , E T )T ∈ RM ·n , dostaneme opět model
(E(1)
(2)
(M )
Y = Xβ 0 + E
stejně jako v (4). Na rozdı́l od (4) však nynı́ i = 1, 2, . . . , M · n a kovariančnı́ matice nenı́
diagonálnı́, ale

n
IE
T
E(1) E(1)
o


n
o

n
o  IE E E T

(2) (1)
Σ = IE E · E T = 

..

.

n
o

T
E(M ) E(1)
IE

2 I
σ11
 2
 σ I
21
=

..

.
n
T
E(1) E(2)
IE
n
IE
n
IE
T
E(2) E(2)
..
.
o
n
...
o
T
E(M ) E(2)
2 I
σ12
...
2 I
σ1M
2 I
σ22
..
.
...
2 I
σ2M
..
.
IE
T
E(1) E(M
)
o 


o 
T
IE E(2) E(M ) 



..

.

n
o 
n
...
o
. . . IE
T
E(M ) E(M
)



.


2 I σ2 I . . . σ2
σM
MM I
M2
1
Abychom se snadněji zorientovali v této nové problematice, věnujme se nejprve jednoduchému
přı́kladu, kdy M = 2 a X (1) = X (2) . Pro ten máme
"
Σ=
2 I σ2 I
σ11
12
2 I σ2 I
σ21
22
146
#
.
Označme
"
σ (11) σ (12)
σ (21) σ (22)
#
"
inverznı́ maticı́ k
"
Znásobenı́m matic se snadno ověřı́, že potom je matice
2
2
σ11
σ12
#
2
2
σ21
σ22
σ (1,1) I σ (1,2) I
σ (2,1) I σ (2,2) I
.
#
inverznı́ k matici Σ.
Potom (dı́ky tomu, že X (1) = X (2) )

X T Σ−1 X = 

=
T 
X (1)
0
0
X (1)
σ (11) X (1)T
σ (12) X (1)T
σ (21) X (1)T
σ (22) X (1)T
 
·
 ·
σ (11) I σ (12) I
σ (21) I σ (22) I

X (1)
0
0
X (1)

=
 
·
X (1)
0
0
X (1)


σ (11) X (1)T X (1) σ (12) X (1)T X (2)
σ (21) X (1)T X (1) σ (22) X (1)T X (1)

.
Konečně tedy

β̂ (LS,n) = 
σ (11) X (1)T X (1) σ (12) X (1)T X (1)
σ (21) X (1)T X (1)
σ (22) X (1)T X (1)
−1 

·
σ (11) X (1)T Y (1) + σ (12) X (1)T Y (2)
σ (21) X (1)T Y (1)
+
σ (22) X (1)T Y (2)

.
Rozdělme β̂ (LS,n) na dva stejně velké bloky β̂ (1) a β̂ (2) . Dostaneme normálnı́ rovnice
σ (11) X (1)T X (1) β̂ (1) + σ (12) X (1)T X (1) β̂ (2) = σ (11) X (1)T Y(1) + σ (12) X (1)T Y(2)
a
σ (21) X (1)T X (1) β̂ (1) + σ (22) X (1)T X (1) β̂ (2) = σ (12) X (1)T Y(1) + σ (22) X (1)T Y(2) .
Po jednoduché úpravě, totiž znásobenı́ druhé rovnice čı́slem [σ (22) ]−1 · σ (12) a sečtenı́ s prvnı́,
dostaneme
!
Ã
!
Ã
(12) ]2
(12) ]2
[σ
[σ
X (1)T X (1) β̂ (1) = σ (11) − (22)
X (1)T Y(1) ,
σ (11) − (22)
σ
σ
tj.
³
´−1
³
´−1
β̂ (1) = X (1)T X (1)
X (1)T Y(1) .
Stejně tak pro β̂ (2) nalezneme
β̂ (2) = X (2)T X (2)
X (2)T Y(2) .
Zjistili jsme tedy, že pro tento jednoduchý přı́pad jsou “obyčejné” odhady nejmenšı́ch čtverců
shodné s Aitkenovým odhadem.
Jestliže však matice plánu pro jednotlivé modely nejsou totožné, nezbývá než jednotlivé
parametry kovariančnı́ matice Σ odhadnout. Vzhledem k tomu, že jsme předpokládali, že máme
2 je kovariancı́ náhodných
pro každý model n pozorovánı́, je to proveditelné. Připomeňme, že σjk
fluktuacı́ z j-té a k-té rovnice v (156). Tuto kovarianci můžeme odhadnout napřı́klad statistikou
2
σ̂jk
=
n
1 X
(j)
(k)
ri (β̂(j) )ri (β̂(k) ),
∗
n − p i=1
147
n
o
(`)
(`)T
kde jsme označili p∗ = max p(j) , p(k) a ri (β̂(`) ) = Yi(`) − Xi

2 I
σ̂11

 2
 σ̂ I
Σ̂ =  21.

..

2 I
σ̂12
...
2 I
σ̂1M
2 I
σ̂22
..
.
...
2 I
σ̂2M
..
.
· β̂(`) . Potom položı́me







2 I σ̂ 2 I . . . σ̂ 2
σ̂M
1
M2
MM I
a konečně
³
ˆ
β̂ (LS,n) = X T Σ̂−1 X
´−1
X T Σ̂−1 Y.
V monografii Kmenta (1986) se lze přesvědčit, že tento dvoustupňový odhad metodou nejmenšı́ch
čtverců je asymptoticky ekvivalentnı́ maximálně věrohodnému odhadu při předpokladu normality fluktuacı́ . Maximálně věrohodný odhad přirozeně představuje alternativu k nejmenšı́m
čtvercům. Vzhledem k tomu, že věrohodnostnı́ funkce má tvar
L=−
1
1
n·M
log(2π) − log|Σ| − (Y − Xβ)T Σ−1 (Y − Xβ),
2
2
2
(kde opět |Σ| označuje determinant matice Σ), dostaneme
µ
β̂
(M L,n)
a
= X
T
h
(M L,n)
Σ̂




Σ̂(M L,n) = 
2 I
σ̃11
2 I
σ̃21
..
.
i−1
¶−1
X
2 I
σ̃12
2 I
σ̃22
..
.
h
X T Σ̂(M L,n)
...
...
2 I
σ̃1M
2 I
σ̃2M
..
.
i−1
Y



,

2 I σ̃ 2 I . . . σ̃ 2
σ̃M
1
M2
MM I
kde
´ ³
´
1³
(M L,n) T
(M L,n)
Y(j) − x(j) β̂(j)
Y(k) − x(k) β̂(k)
, j, k = 1, 2, . . . , M.
n
(Diskuzi k tomuto postupu lze nalézt v Judge a kol. (1980) nebo Kmenta (1986).)
2
σ̃jk
=
9.2
Simultánı́ rovnice
Pro výklad simultánı́ch rovnic (simultaneous equations) budeme potřebovat poněkud rozšı́řit
dosud zavedená označenı́. Připomeňme, že jsme všechny vektory uvažovali jako sloupcové a proto
jsme pro skalárnı́ součin i-tého řádku matice plánu X a vektoru regresnı́ch koeficientů psali xTi β,
nebot’ jsme i-tý řádek matice plánu (po “vytrženı́” z matice) považovali za sloupcový vektor.
Pro obecnou matici A typu m×q budeme tedy jejı́ i-tý řádek označovat tak jak jsme jej dosud
označovali, totiž Ai , přı́padně ai , pokud A je nenáhodná, Ai , ai ∈ Rq , a jejı́ j-tý sloupec A(j) tj.
vektor z Rm , což jsme dosud nepotřebovali, ale v předchozı́m odstavci jsme označenı́ konsistentnı́
s tı́mto vlastně již zavedli a použı́vali, viz (157). Podobné označenı́ podržı́me i pro vektory
v přı́padě, kdy β(j) bude označovat vektor regresnı́ch koeficientů v j-tém regresnı́m modelu v
nějaké soustavě modelů (viz opět (157) ). Konečně pak budeme symbolem β{j} označovat vektor,
který vznikne z vektoru β(j) po vyjmutı́ j-té souřadnice.
Zbývá zavést označenı́ pro matici, ze které vyjmeme j-tý sloupec. Připomı́náme, že jsme
výše, v kapitole věnované vlivu jednoho pozorovánı́, označovali matici, která vznikne z matice A
148
po vyjmutı́ `-tého řádku symbolem A{ ` } . Označı́me tedy matici, ze které vyjmeme `-tý sloupec
symbolem A{|`|} . Zavedené označenı́ je patrně dosti názorné a snadno zapamatovatelné, přesto
v dalšı́m textu občas připomeneme, co který symbol znamená.
Přidržme se osvědčeného pedagogického pravidla, že nejnázorněji se nová teorie, jejı́ motivace
a postupy, osvětlı́ přı́kladem.
Necht’ tedy Q, P, X označuje postupně rovnovážné vyměňované množstvı́ zbožı́, jeho rovnovážnou
cenu a důchod (přı́jem) spotřebitelů a sestavme poptávkovou a nabı́dkovou rovnici
Q = f1 (P, X)
(poptávka)
Q = f2 (P )
(nabı́dka).
a
Navı́c snadno akceptovatelná představa, že poptávka klesá s rostoucı́ cenou a roste s rostoucı́mi
1
důchody, a podobně, že nabı́dka roste s rostoucı́ cenou, napovı́dá, že lze očekávat, že ∂f
∂P ≤
∂f2
1
0, ∂f
∂X ≥ 0 a ∂P ≤ 0. Za f1 a f2 lze přirozeně zvolit (téměř libovolnou) hladkou funkci, avšak
pro jednoduchost ukážeme řešenı́ pouze pro lineárnı́ funkce. Nenı́ snad však třeba se ani pouštět
do diskuze o tom, že přinejmenšı́m zobecněnı́ na polynomiálnı́ funkce f1 a f2 by bylo v podstatě
přı́močaré. Pro lineárnı́ funkce f1 a f2 , dostaneme pro i = 1, 2, . . . , n
Qi = β11 + γ11 Pi + β12 Xi + Ei1
(poptávka)
(161)
a
Qi = β21 + γ21 Pi + Ei2
(nabı́dka).
(162)
Vzhledem k tomu, co bylo výše uvedeno o parciálnı́ch derivacı́ch, mělo by po odhadnutı́ koeficientů vyjı́t γ̂11 ≤ 0, β̂12 ≥ 0 a γ̂21 ≥ 0. Důvodem toho, proč jsme zvolili označenı́ koeficientů
v (161) a (162) na prvnı́ pohled trochu zvláštně, je zachovánı́ konsistence s nı́že použı́vaným
značenı́m v obecném tvaru simultánı́ch rovnic. Předpokládejme, že pro náhodné fluktuace, které
jsou nynı́ reprezentovány dvourozměrnými vektory {Ei }∞
i=1 ) platı́
·
IE Ei = IE
Ei1
Ei2
¸
·
=
0
0
¸
n
a
IE
Ei ·
EiT
"
o
=
2
2
σ11
σ12
2
2
σ12
σ22
#
.
(163)
Rovnice (161) a (162) byly, právě tak jako rovnice v kterémkoliv složitějšı́m systému simultánı́ch rovnic budou, sestaveny na základě našı́ představy o jakýchsi kauzálnı́ch souvislostech,
byt’ tyto představy, když je podrobı́me trochu fundovanějšı́ filosofické kritice, co se týká kauzality,
se mohou ukázat jako neudržitelné, zejména proto, že sám pojem kauzality utrpěl v poslednı́ch
několika desetiletı́ch vážné trhliny. Pokud si však nebudeme namlouvat, ostatně obvykle mylně,
že modelem (161) a (162) cosi “objektivně” vysvětlujeme, ale, podobně jako je tomu při jiném
modelovánı́, spokojı́me se s tı́m, že se nám podařı́ najı́t fungujı́cı́, tj. predikce schopný model,
je konec konců jedno, jak jsme k němu dospěli. Zdá se přirozené, že rovnovážné vyměňované
množstvı́ zbožı́ Q a jeho rovnovážnou cenu P budeme uvažovat jako vysvětlované proměnné
a důchod spotřebitelů X za vysvětlujı́cı́ proměnnou. Samozřejmě, že se budeme snažit dostat
soustavu regresnı́ch rovnic, z nichž každá bude jednı́m regresnı́m modelem, tak jak jsme tento
149
model dosud studovali. Za tı́m účelem budeme muset soustavu (161) a (162) přepočı́tat tak, aby
vysvětlované proměnné byly na levé straně a vysvětlujı́cı́ na pravé. Nakonec dostaneme
Qi =
γ11 β21 − β11 γ21
−γ21 Ei1 + γ11 Ei2
β12 γ21
−
Xi +
γ11 − γ21
γ11 − γ21
γ11 − γ21
(164)
β12
−Ei1 + Ei2
−β11 + β21
−
Xi +
.
γ11 − γ21
γ11 − γ21
γ11 − γ21
(165)
a
Pi =
Soustava rovnic (161) a (162) (a také (164) a (165)) je označována jako systém simultánı́ch
rovnic (z ihned patrného důvodu), přičemž o rovnicı́ch (161) a (162) obvykle mluvı́me jako o
strukturálnı́ch na rozdı́l od (164) a (165), o nichž často řı́káme, že jsou v redukovaném tvaru.
Často však mluvı́me přı́mo o redukovaných rovnicı́ch.
Vztahy (164) a (165) nám napomohou se snadno přesvědčit o tom, že cena P a náhodné
fluktuace E nejsou nezávislé. Dostaneme totiž
IE {Pi Ei1 } =
2 + σ2
−σ11
12
γ11 − γ21
pro i = 1, 2, . . . , n
IE {Pi Ei2 } =
2 + σ2
−σ12
22
γ11 − γ21
pro i = 1, 2, . . . , n.
a
To indikuje, že pokud bychom odhadli γ11 , γ21 a β11 , β12 , β21 z (161) a (162), nebudou tyto
odhady konsistentnı́, a obecně ani nestranné. Připomeňme, že v odstavci věnovaném instrumentálnı́m proměnným jsme ukázali, proč tomu tak je.
Na druhé straně pokud odhadneme regresnı́ koeficienty v systému redukovaných rovnic,
dostaneme nestranné a konsistentnı́ odhady. Snadno ověřı́me, že koeficienty z redukovaných
rovnic a koeficienty ze struktyrálnı́ch rovnic jsou svázány vztahy
π11 =
γ11 β21 − β11 γ21
,
γ11 − γ21
π21 =
π12 = −
−β11 + β21
γ11 − γ21
a
π22 = −
β12 γ21
,
γ11 − γ21
β12
.
γ11 − γ21
(166)
(167)
To znamená, že se můžeme pokusit přepočı́tat nestranné a konsistentnı́ odhady koeficientů πij
na koeficienty βij a γij . Přirozeně, že se to nemusı́ vždy podařit. Bude totiž záležet na počtu
těch a oněch koeficientů, přı́padně na hodnosti přı́slušného systému rovnic.
Spočteme-li ale kovarianci mezi náhodnými fluktuacemi z rovnice (164) a (165), dostaneme
½
IE
−Ei1 + Ei2 −γ21 Ei1 + γ11 Ei2
·
γ11 − γ21
γ11 − γ21
¾
=
2 γ − σ 2 (γ − γ ) + γ σ 2
σ1,1
21
21
11 2,2
1,2 11
.
(γ11 − γ21 )2
To napovı́dá, že pokud použijeme běžný odhad nejmenšı́ch čtverců, odhad koeficietů π nebude
eficientnı́. Chceme-li tedy dosáhnout eficientnı́ch odhadů, musı́me pro odhad koeficientů v (164)
a (165) použı́t Aitkenova odhadu.
Zkusı́me nynı́ nahlédnout situaci při odhadovánı́ koeficientů ve strukturálnı́ch rovnicı́ch
obecně. Na právě uvedený přı́klad se budeme odkazovat jako na ilustraci.
Je zřejmé, že lze simultánı́ rovnice psát obecně ve tvaru (strukturálnı́ forma)
γg1 Yi1 + γg2 Yi2 + . . . + γgG YiG + βg1 xi1 + βg2 xi2 + . . . + βgp xip = Eig ,
150
(168)
kde g = 1, 2, . . . , G a i = 1, 2, . . . , n, přičemž {Ei }∞
i=1 je posloupnost nezávislých stejně rozdělených
G-rozměrných vektorů, jejichž rozdělenı́ je N (0, Σ) se

2
σ11

 σ2

Σ =  .21
 ..

2
σ12
...
2
σ1G
2
σ22
..
.
...
2
σ2G
..
.




.


2
2
2
σG1
σG2
. . . σGG
Nynı́ je možné nahlédnout, že jsme zvolili indexy koeficientů v rovnicı́ch (161) a (162) tak, aby
to vyhovovalo nynı́ probı́ranému obecnějšı́mu přı́kladu. Uvědomme si prosı́m, že, jak jsme výše
poznamenali, sestavujeme obvykle jednotlivé rovnice simultánı́ho systému tak, aby odpovı́dali
našim představám o kauzálnı́ch, at’ už čistě deterministických či částečně náhodných, souvislostech. Jinými slovy to znamená, že systém rovnic ve strukturálnı́m tvaru sestavujeme obvykle
(vždy ?) pro jednu z vysvětlovaných proměnných
Y(g) = (Y1g , Y2g , . . . , Yng )T ,
g = 1, 2, . . . , M.
(169)
Proto lze bez újmy na obecnost předpokládat, že tato veličina vstupuje do této rovnice s
koeficientem 1, tj. např. máme γgg = 1. Odtud plyne, že v každé ze strukturálnı́ch rovnic
odhadujeme (nejvýše) G − 1 + p parametrů. V našem přı́kladě je G = 2 a p = 2 (nesmı́me
zapomenout na absolutnı́ člen), a protože je γ12 = −1, γ22 = −1 a β22 = 0, máme v prvé
rovnici G − 1 + p = 2 − 1 + 2 = 3 = počet odhadovaných koeficientů a ve druhé 3 > 2 =
počet odhadovaných koeficientů. Dohromady však v prvé a druhé rovnici budeme odhadovat 5
parametrů, zatı́mco z redukovaných rovnic budeme mı́t pouze 4 údaje a čtyři vztahy pro koeficienty, viz (166) a (167). Odtud je zřejmé, že koeficienty βij a γij ze strukturálnı́ch rovnic (161) a
(162) nebudou jednoznačně určeny. Později provedeme tuto úvahu pro obecnou soustavu rovnic.
Nejprve si však na obecné úrovni ujasněme vztahy mezi koeficienty ze strukturálnı́ch a redukovaných rovnic. Přepišme rovnice (168) do maticového tvaru
ΓYi + Bxi = Ei ,
(170)
kde




Γ=
γ11
γ21
..
.
γ12
γ22
..
.
...
...
γ1G
γ2G
..
.









a
B=
γG1 γG2 . . . γGG
β11
β21
..
.
β12
β22
..
.
...
...
β1p
β2p
..
.



,

βG1 βG2 . . . βGp
a dále jsme označili Yi = (Yi1 , Yi2 , . . . , YiG )T , xi = (xi1 , xi2 , . . . , xip )T a Ei = (Ei1 , Ei2 , . . . , EiG )T .
V dalšı́m výkladu mějme na paměti, že Γ a B jsou typu (G × G) a (G × p). Položı́me-li
n
Y = YiT
n
on
i=1
což je matice typu (n × G), a jako obvykle X = xTi
n
a konečně E = EiT
on
i=1
,
on
i=1
(171)
, (stejně jako výše matice typu (n × p))
(opět matice typu (n × G)), dostaneme
Y · ΓT + X · B T = E.
151
(172)
Ze vztahu (170) je vidět, že můžeme psát redukovaný tvar simultánı́ch rovnic také následovně.
Yi = Πxi + Vi = −Γ−1 Bxi + Γ−1 Ei ,
i = 1, 2, . . . , n.
(173)
Matice Π je typu (G × p), Vi ∈ RG a platı́
Π = −Γ−1 B,
a
Vi = −Γ−1 Ei .
(174)
Pro koeficienty πij se obvykle užı́vá označenı́ neomezené, ve smyslu anglického slova unrestricted,
, zatı́mco koeficienty γij a βij se označujı́ jako omezené (restricted). Přirozeně, že i redukovaný
systém rovnic lze napsat ve zcela “čisté” maticové podobě, podobně jako tomu bylo u strukturálnı́ho tvaru simultánı́ch rovnic, viz (172). Dostaneme rovnice
Y = X · ΠT + V,
(175)
n
kde matice Y je zadána v (171), matice X je běžná matice plánu a V = ViT
on
i=1
.
Podle toho, jakého je matice Γ typu, se v ekonometrické literatuře rozlišujı́ typy soustav
rovnic:
Γ
Γ
Γ
-
diagonálnı́
blok-diagonálnı́
triangulárnı́
−→
−→
−→
Γ
Γ
-
blok-triangulárnı́
úplná (obecná) matice
−→
−→
9.2.1
zdánlivě nesouvisejı́cı́ rovnice,
neintegrovaná struktura, (nonintegrated structure),
triangulárnı́ (trojúhelnı́ková) struktura
rekursivnı́ systém rovnic,
blok-triangulárnı́ struktura,
integrovaná struktura
(general interdependent system).
Problém identifikace
Jak už jsme naznačili výše, poté co spočteme z redukovaného tvaru simultánı́ch rovnic odhady
koeficientů π, rádi bychom je převedli na odhady koeficientů γ a β, nebot’ pro ty máme obvykle
ekonomickou interpretaci. A jak jsme také výše viděli, je otázka, zda je to možné. Ze vztahu (174)
doslova spočteme, že obecně máme G2 +G·p koeficientů γ a β a jen G·p koeficientů π . Vzhledem
k tomu, že však ze strukturálnı́ho tvaru simultánı́ch rovnic může být apriori zřejmé, že některé γ
a β jsou nulové, může dojı́t k situaci, že transformace z π na γ a β bude jednoznačná. V takovém
přı́padě, tj. když je vazba mezi π na jedné straně a γ a β na straně druhé jednoznačná, mluvı́me
o přesné identifikaci. Je-li počet koeficientů γ a β menšı́ než počet koeficientů π, řı́káme, že
došlo k přeurčenı́, v opačném přı́padě, kdy je méně koeficientů π než koeficientů γ a β, mluvı́me
o podurčenı́. Často se v literatuře použı́vá tato terminologie i v přı́padě, kdy mluvı́me o jedné
ze simultánı́ch rovnic. O celé soustavě pak řı́káme, že je identifikovaná, pokud nastala přesná
identifikace nebo došlo k přeurčenı́. Obecně jsme nalezli vztah mezi mezi koeficienty π na jedné
straně a γ a β na straně druhé ve vztahu (174), který v dalšı́m výkladu použijeme k analýze
identifikovanosti koeficientů γ a β. Ještě jednou se vrat’me k našemu přı́kladu ze začátku tohoto
odstavce, nebot’ ten nám napovı́, jak postupovat v obecné situaci.
Výše jsme uvedli vztahy, vyjadřujı́cı́ koeficienty π pomoci korficientů β a γ, (viz (153) a
(167)). Ty bychom mohli převést na vztahy, vyjadřujı́cı́ koeficienty β a γ pomoci korficientů π.
152
Alternatı́vnı́ možnost je přirozeně odvodit ze simultánı́ch rovnic takové vztahy přı́mo. Vrátı́me-li
se k redukovaným rovnicı́m (164) a (165) a přepı́šeme-li je do tvaru
Qi = π11 + π12 Xi + V1i
a
Pi = π21 + π22 Xi + V2i ,
a konečně pak dosadı́me-li z nich do (161) a (162), dostaneme
π11 + π12 Xi + V1i = β11 + γ11 (π21 + π22 Xi + V2i ) + β12 Xi + E1i
(poptávka)
(176)
(nabı́dka).
(177)
a
π11 + π12 Xi + V1i = β21 + γ21 (π21 + π22 Xi + V2i ) + E2i
Porovnánı́m koeficientů u přı́slušných proměnných dostaneme
π11 = β11 + γ11 π21
a
π12 = γ11 π22 + β12
(178)
π12 = γ21 π22 .
(179)
a
π11 = β21 + γ21 π21
a
Tı́mto postupem nakonec zı́skáme vztahy
β21 = π11 −
π12 π21
π22
a
γ21 =
π12
,
π22
(180)
což znamená, že koeficienty γ a β nabı́dkové rovnice jsou přesně určeny koeficienty π. Pro
koeficienty poptávkové rovniceβ11 , β12 a γ11 analogicky zjistı́me, že nejsou jednoznačně určeny
koeficienty π, tj. poptávková rovnice je podurčena (později si ukážeme, jak lze tuto situaci řešit).
Nynı́ se již pust’me do analýzy obecného systému simultánı́ch rovnic.
Z (174) plyne vztah
ΓΠ = −B,
tj.





γ11
γ21
..
.
γ12
γ22
..
.
...
...
γ1G
γ2G
..
.
γG1 γG2 . . . γGG
 
 
 
·
 
π11
π21
..
.
π12
π22
..
.
...
...
π1p
π2p
..
.
πG1 πG2 . . . πGp






 = −


β11
β21
..
.
β12
β22
..
.
...
...
β1p
β2p
..
.



.

βG1 βG2 . . . βGp
Pro g = 1, 2, . . . , G postupně označme γ(g) = (γg1 , γg2 , . . . , γgG )T a β(g) = (βg1 , βg2 , . . . , βgp )T .
Pak máme
T
T
γ(g)
Π = −β(g)
.
Abychom zjednodušili analýzu identifikovanosti koeficientů γ a β zaved’me ještě toto označenı́:
8 proměnných v g-té rovnici, tj. počet nenulových koefiG∆
g necht’ označuje počet endogenı́ch
∗
= G − G∆
cientů γ v g-té rovnici a G∆∆
g . Podobně necht’ pg necht’ je rovno počtu exogenı́ch
g
8
Endogenı́ a exogenı́ veličiny byly zavedeny v úvodu skript a krátce řečeno: endogenı́ jsou ty, které jsou modelem
určovány, vysvětlovány, a exogenı́ jsou pak ty, které do modelu vstupujı́ z vnějšku.
153
(tj. předdeterminovaných) proměnných v g-té rovnici, které majı́ nenulový koeficient, tj. počet
∗
nenulových β v g-té rovnici, a p∗∗
g = p − pg . Věnujme se nynı́ jedné, řekněme g-té simultánı́
rovnici. Bez ztráty obecnosti předpokládejme, že jsme přerovnali souřadnice vektorů γ(g) a β(g)
T = (γ T , 0T
a řádky matice Π, že γ(g)
g∆ g∆∆ ), kde dolnı́ indexy u γg∆ a 0g∆∆ napovı́dajı́, že tyto
∆
∆∆
T = (β T , 0T ) je rozdělen na úseky o p∗ a p∗∗
vektory majı́ Gg a Gg souřadnic. Podobně β(g)
g∗ g∗∗
g
g
souřadnicı́ch. Nakonec rozdělme matici Π na bloky
·
Π=
Potom platı́
·
T
(γg∆
, 0Tg∆∆ )
·
Π∆∗
Π∆∗∗
Π∆∆∗ Π∆∆∗∗
Π∆∗
Π∆∗∗
Π∆∆∗ Π∆∆∗∗
¸
.
¸
T
= −(βg∗
, 0Tg∗∗ ).
Přepı́šeme-li poslednı́ vztah “po řádcı́ch”, dostaneme
T
T
γg∆
Π∆∗ = −βg∗
(181)
T
γg∆
Π∆∗∗ = 0Tg∗∗ .
(182)
a
Tyto vztahy napovı́dajı́, že pokud bude vztah (182) určovat právě všechny koeficienty γ, pak je
budeme moci dosadit do rovnic (181), kterých je právě tolik, kolik je koeficientů β, a budeme
hotovi. Již výše jsme ukázali, že je přijatelné předpokládat, že jedno γ je v každé rovnici rovno
∗∗
∆
1, tj. máme G∆
g − 1 koeficientů γ v g-té rovnici. Pak je tedy nutné, aby pg ≥ Gg − 1. Tomuto
se obvykle řı́ká podmı́nka na počet parametrů. To znamená, že k tomu, aby (181) jednoznačně
∗∗
∆
určovalo γg∆ , je třeba, aby matice Π∆∗∗ , která je typu (G∆
g − 1 × pg ), měla hodnost Gg − 1,
∆
což lze splnit, pokud je p∗∗
g ≥ Gg − 1. Tomuto se řı́ká podmı́nka na hodnost. Dokončı́me-li právě
provedené úvahy pro všechny eventuality, dostaneme tabulku
Tabulka 17
Vzájemné vztahy počtů koeficientů γ, hodnosti matice Π∆∗∗
a identifikovanosti koeficientů γ a β.
∆
p∗∗
g > Gg − 1
rank(Π∆∗∗ ) = G∆
g −1
přeurčenı́
∆
p∗∗
g = Gg − 1
rank(Π∆∗∗ ) = G∆
g −1
přesná identifikace
∆
p∗∗
g ≥ Gg − 1
rank(Π∆∗∗ ) < G∆
g −1
podurčenı́
∆
p∗∗
g < Gg − 1
rank(Π∆∗∗ ) libovolný
podurčenı́
Zkusme vztahy zachycené v této tabulce aplikovat na náš přı́klad. V něm vystupujı́ dvě endogenı́ veličiny, rovnovážné vyměňované množstvı́ zbožı́ Q a jeho rovnovážná cenu P , a rovněž dvě
exogenı́, absolutnı́ člen a důchod spotřebitelů X. Pro rovnici (161), ve které majı́ obě endogenı́
právě tak jako obě exogenı́ veličiny (obecně) nenulové koeficienty, tedy máme G∆
1 −1 = 1 a
∗
∗∗
∆
∗∗
p = 2, neboli p = 0. To znamená, že G1 − 1 > p a z Tabulky 2 pak plyne, že prvnı́ rovnice
(tj. poptávka) je podurčená. Nenı́ přirozeně ani třeba zjišt’ovat hodnost matice Π∆∗∗ . Pro rovnici
154
∗
∗∗
(162) máme opět G∆
2 − 1 = 1, ale p2 = 1, nebot’ Y v rovnici nevystupuje, neboli p2 = 1. Nynı́
ovšem potřebujeme nalézt hodnost matice Π∆∗∗ . Matice Π vypadá takto
·
Π=
π11 π12
π21 π22
¸
=
£
Π∆∗ Π∆∗∗
¤
,
∗
přičemž připomeňme, že G∆
2 − 1 = 1 a p2 = 1. Je zřejmé, že matice Π∆∗ má hodnost 1 a tedy
∆
rank(Π∆∗ ) = p∗∗
2 = G2 − 1,
což znamená, že rovnice (162) je přesně identifikována. Specifikace obecných výsledků tedy vedla
ke stejným závěrům jako výše provedená analýza pro náš konkrétnı́ přı́klad.
9.2.2
Identifikace pomocı́ omezenı́ na kovariančnı́ matici náhodných fluktuacı́
Výše uvedená analýza ukazuje, že mohou nastat v podstatě dva přı́pady. Bud’ jsou koeficienty
β a γ jednoznačně určeny koeficienty π (což zahrnuje i přı́pad přeurčenı́) nebo ne. V přı́padě,
že dojde k podurčenı́ koeficientů β a γ, napadne nás, zda by nebylo možné zvolit dodatečně
např. nějaká dalšı́ omezenı́ na koeficienty, přı́padně zadat nějaké dalšı́ vztahy mezi přı́slušnými
veličinami tak, abychom dosáhli identifikace. Ukázku toho, jak to udělat si předvedeme na našem
přı́kladě, ve kterém stanovı́me dodatečnou podmı́nku nekorelovanosti náhodných fluktuacı́ v
rovnicı́ch (161) a (162), tj.
IE Ei1 Ei2 = 0.
Výše jsme nalezli vzájemný vztah koeficientů γ a β ze strukturálnı́ch rovnic (161) a (162)
a koeficientů π z redukovaných rovnic (164) a (165)
π11 = β11 + γ11 π21
a
π12 = γ11 π22 + β12
(183)
π12 = γ21 π22 .
(184)
a
π11 = β21 + γ21 π21
a
K těmto vztahům přidáme tedy požadavek nekorelovanosti šumu. Ze vztahů (164) a (165) máme
Vi1 =
−γ21 Ei1 + γ11 Ei2
γ11 − γ21
a
Vi2 =
−Ei1 + Ei2
.
γ11 − γ21
(185)
Z (163) nynı́ plyne, že pro i = 1, 2, . . . , n
IE Vi1 = 0
a
IE Vi2 = 0
(186)
Označme ještě
2
cov(Vij , Vik ) = σ(V
)jk .
(187)
2
Hodnoty kovariancı́ σ(V
)jk můžeme odhadnout z reziduı́ po aplikaci např. nejmenšı́ch čtverců na
2
redukované rovnice (164) a (165). Označme tyto odhady jako σ̂(V
)jk . Ze vztahu (185) nalezneme
Ei1 = Vi1 − γ11 Vi2
a
Ei2 = Vi1 − γ21 Vi2 ,
což znamená, že dodatečně stanovená podmı́nka má tvar
IE (Vi1 − γ11 Vi2 ) (Vi1 − γ21 Vi2 ) = 0
155
a tedy
2
2
2
2
σ(V
)11 − γ11 σ(V )12 − γ21 σ(V )21 + γ11 γ21 σ(V )22 = 0.
Konečně pak ze vztahu (180) plyne
γ21 =
a tedy pro γ11 máme
γ11 =
π12
π22
2
2
π12 σ(V
)12 − π22 σ(V )11
2
2
π12 σ(V
)22 − π22 σ(V )12
.
Dospěli jsme tedy k závěru, že pro výpočet koeficientů β a γ v poptávkové rovnici (viz (161))
z koeficientů π je třeba řešit soustavu rovnic
β11 = π11 − γ11 π21 ,
β21 = π11 − γ21 π21
(tyto vztahy plynou z levých rovnostı́ v (183) a (184) ) a
γ11 =
2
2
π12 σ̂(V
)12 − π22 σ̂(V )11
2
2
π12 σ̂(V
)22 − π22 σ̂(V )12
.
Vidı́me, že všechny koeficienty jsou již nynı́ přesně identifikovány.
9.2.3
Dvoustupňový odhad metodou nejmenšı́ch čtverců
Dřı́ve než se pustı́me do vlastnı́ho výkladu dvoustupňového odhadu, připomeňme, že jsme výše
pro g-tý sloupec matice Y (viz (171) a (172)) ) zavedli označenı́ Y(g) , tj. Y(g) = (Y1g , Y2g , . . . , Yng )T
(g = 1, 2, . . . , G) (viz (169)) a podobně pro g-tý sloupec matice E (viz opět (172) ) E(g) . Položme
ještě γ(g) = (γg1 , γg2 , . . . , γgG )T a β(g) = (βg1 , βg2 , . . . , βgp )T . Toto označenı́ vektorů regresnı́ch
koeficientů γ a β je ostatně ve shodě s označenı́m použı́vaným v celých skriptech, pouze přibyl index naznačujı́cı́ čı́slo simultánı́ rovnice. Konečně pak označme Y {|g|} (pro g = 1, 2, . . . , G) matici,
jejı́ž i-tý řádek je roven Yi1 , Yi2 , . . . , Yi,g−1 , Yi,g+1 , . . . , YiG (kde jsme, tak jak jsme to výše slibovali, použili “čárku” mezi indexy, abychom předešli přı́padnému nedorozuměnı́), tj. matice Y {|g|}
se dostane z matice Y (viz opět (171) ) vypuštěnı́m g-tého sloupce. Konečně pak připomeňme,
že jsme uvedli, že symbolem γ{g} budeme označovat vektor, který dostaneme z vektoru γ(g) po
vypuštěnı́ g-té souřadnice, tj. γ{g} = (γg1 , γg2 , . . . , γg,g−1 , γg,g+1 , . . . , γgG )T . Ještě připomeňme,
že jsme předpokládali, že v každé simultánı́ rovnici je jeden koeficient γ roven 1. Snadno se
nahlédne, že tento předpoklad neubı́rá na obecnosti našim úvahám, nebot’ pokud by tomu tak
nebylo prostě bychom jednı́m koeficientem γ celou rovnici vydělili. Můžeme tedy předpokládat,
že γgg = 1. Uvědomme si, že to současně znamená, že potřebujeme odhadnout jenom γ{g} a β(g)
(pro g = 1, 2, . . . , G).
Nynı́ se již pust’me do výkladu dvojstupňového odhadu koeficientů. Nejprve se vrat’me zpátky
ke vztahu (168), tj. k obecnému tvaru simultánı́ch rovnic
γg1 Yi1 + γg2 Yi2 + . . . + γgG YiG + βg1 xi1 + βg2 xi2 + . . . + βgp xip = Eig ,
opět pro g = 1, 2, . . . , G a i = 1, 2, . . . , n. Uvažujme prvnı́ rovnici. Jak jsme již výše konstaovali,
můžeme předpokládat, že γ11 = 1. To znamená, že můžeme tuto rovnici psát s pomocı́ označenı́,
která jsme právě zavedli, ve tvaru
Y(1) + Y {|1|} · γ{1} + X · β(1) = E(1) .
156
(188)
Analogicky jako pro vektory regresnı́ch koeficientů γ a β, označme π(g) = (πg1 , πg2 , . . . , πgp )T , g =
1, 2, . . . , G a V(g) g-tý sloupec matice V (viz (175) ). Rovnice (175) ted’ můžeme převést na tvar
(Y(1) , Y(2) , . . . , Y(G) ) = X · (π(1) , π(2) , . . . , π(G) ) + (V(1) , V(2) , . . . , V(G) )
(189)
přı́padně
Y(g) = X · π(g) + V(g)
pro g = 1, 2, . . . , G.
(190)
Konečně označme symbolem V {|g|} matici, kterou zı́skáme z matice V (viz (175) ) vynechánı́m
g-tého sloupce (g = 1, 2, . . . , G), viz zavedenı́ matice Y {|g|} . Ze vztahu (189) dostaneme po
vynechánı́ vztahu pro Y(1)
Y {|1|} − V {|1|} = X · (π(2) , π(3) , . . . , π(G) ).
(191)
Modifikacı́ rovnic (188) dostaneme
³
´
Y(1) = − Y {|1|} − V {|1|} γ{1} − X · β(1) + E(1) − V {|1|} γ{1}
³
´
∗
= − Y {|1|} − V {|1|} γ{1} − X · β(1) + E(1)
,
(192)
∗ . Dı́ky tomu, že Y {|1|} − V {|1|} závisı́
přičemž pro E(1) − V {|1|} γ{1} jsme použili označenı́ E(1)
jen od matice plánu X a od regresnı́ch koeficientů z redukovaných rovnic π(2) , π(3) , . . . , π(G) (viz
∗ . Navı́c je IE V {|1|} = 0 dı́ky pravé rovnosti v (174). Z (174) také
(191)), je nekorelované s E(1)
ihned plyne, že Vi a Vj jsou pro i 6= j nekorelované vektory, majı́cı́ zajisté korelované souřadnice
∗ má nekorelované
“uvnitř” jednoho vektoru, tj. pro pevné i. To ihned implikuje, že vektor E(1)
souřadnice. To znamená, že (192) představuje regresnı́ model, který splňuje všechny podmı́nky
pro použitı́ běžných nejmenšı́ch čtverců (OLS). Jediným problémem, který je třeba vyřešit, je to,
že matice Y {|1|} −V {|1|} nenı́ dostupná “měřenı́”. Přirozeně totiž neznáme V {|1|} ). Nicméně matici
Y {|1|} − V {|1|} můžeme odhadnout, a to pomocı́ X · (π̂(2) , π̂(3) , . . . , π̂(G) ), kde π̂(2) , π̂(3) , . . . , π̂(G)
jsou odhady regresnı́ch koeficientů z redukovaných rovnic (189) (či (190), chcete-li. Označme
X · (π̂(2) , π̂(3) , . . . , π̂(G) ) jako Ŷ {|1|} . Z výše uvedené teorie vı́me, že
lim Ŷ {|1|} lim
n→∞
³
n→∞
a
³
lim
n→∞
´
Y {|1|} − V̂ {|1|} = lim X · (π̂(2) , π̂(3) , . . . , π̂(G) ) = Y {|1|} − V {|1|} s. j.
n→∞
´
h
³
´
E(1) − V̂ {|1|} γ{1} = lim E(1) − Y {|1|} − X · (π̂(2) , π̂(3) , . . . , π̂(G) ) γ{1}
³
n→∞
i
´
= E(1) − Y {|1|} − X · (π(2) , π(3) , . . . , π(G) ) γ{1} = E(1) − V {|1|} γ{1} s. j..
To dokazuje, že
Ŷ {|1|}
a
E(1) − V̂ {|1|} γ{1}
∗∗ = E
{|1|} γ
jsou asymptoticky nekorelované a položı́me-li E(1)
(1) − V̂
{1} , dostaneme z
∗∗
Y(1) = −Ŷ {|1|} γ{1} − X · β(1) + E(1)
,
(193)
konsistentnı́, byt’ obecně nikoliv nestranné odhady pro γ{1} a β(1) . Těmto odhadům se, celkem
z evidentnı́ch důvodů, řı́ká dvoustupňové.
157
V tomto momentě může padnout otázka, proč jsme se smažili odvodit toto dvojstupňové
schéma výpočtu odhadů regresnı́ch koeficientů, když výše prezentované úvahy naznačujı́, že bychom mohli použı́t převedenı́ strukturálnı́ch rovnic na redukované, vypočı́tat odhady koeficientů
π a ty pak přepočı́tat na koeficienty β a γ. Odpověd’ je vlastně skryta v samotné otázce. Při
právě popsaném postupu jde o přepočı́távánı́ koeficientů, které bude vždy “šito na mı́ru’ tomu
či onomu systému simultánı́ch rovnic. Výhodou dvojstupňového algoritmu je to, že odhady
můžeme vyčı́slit aniž bychom přepočı́távali strukturové rovnice na redukované a naopak po
vyčı́slenı́ odhadů pro koeficienty π přepočı́távali tyto zpět na odhady koeficientů γ a β. Stačı́
totiž vyřešit rovnice (189), dosadit do rovnic (193) a opět vypočı́tat odhady pro koeficienty γ a
β. To jsou všechno standarnı́, pro všechny simultánı́ systémy stejné operace proveditelné (snad)
ve všech statistických knihovnách.
9.2.4
Trojstupňový odhad metodou nejmenšı́ch čtverců
Naprosto stejná filozofie, která stála v pozadı́ dvojstupňového algoritmu, vede k odvozenı́ algoritmu trojstupňového, který umožňuje vyčı́slenı́ všech odhadů koeficientů β a γ bez toho, abychom je zı́skávali převodem z koeficientů π. Nı́že uvedené úvahy jsou tedy mı́rným zobecněnı́m
úvah z předchozı́ho odstavce.
Soustavu simultánı́ch rovnic budeme tedy psát ve tvaru (viz (188) )
Y(1) + Y {|1|} · γ{1} + X · β(1) = E(1) ,
Y(2) + Y {|2|} · γ{2} + X · β(2) = E(2) ,
..
..
..
..
.
.
.
.
(194)
Y(G) + Y {|G|} · γ{G} + X · β(G) = E(g) .
K nı́ přı́slušná soustava redukovaných rovnic (190) má tvar
Y(1) = X · π(1 + V(1) ,
Y(2) = X · π(2) + V(2) ,
..
..
..
.
.
.
Y(G) = X · π(g) + V(G) .
Z posledně uvedené soustavy vypočteme V̂ {|g|} pro g = 1, 2, . . . , G a položı́me Ŷ {|g|} = Y {|g|} −
V̂ {|g|} opět pro g = 1, 2, . . . , G. Konečně pak namı́sto soustavy (194) budeme uvažovat soustavu
158
∗
Y(1) = −Ŷ {|1|} · γ{1} − X · β(1) + E(1)
,
∗
Y(2) = −Ŷ {|2|} · γ{2} − X · β(2) + E(2)
,
..
.
..
.
..
.
(195)
..
.
∗
Y(G) = −Ŷ {|G|} · γ{G} − X · β(G) + E(g)
,
{|g|} · γ
∗ =E
kde podobně jako výše označı́me E(g)
(g) + V̂
{g} pro g = 1, 2, . . . , G. Po té, co zjistı́me,
∗
∗
∗
∗
jsou nekorelované
a E`(g)
jsou nekorelované pro k 6= ` a g 6= h (dokonce i Ek(g)
a E`(h)
že sice Ek(g)
∗
∗
pro k 6= `), ale Ek(g) a Ek(h) korelované jsou pro libovolnou dvojice g a h, dojdeme samozřejmě k
závěru, že na soustavu (195) je třeba nahlı́žet jako na soustavu zdánlivě nesouvisejı́cı́ch rovnic.
Vypočteme tedy nejprve “naivnı́” odhady, řekněme γ̃{g} a β̃(g) a spočteme odhady kovariancı́
³
σ̂gh =
Y(g) + Y {|g|} · γ̃{g} + X · β̃(g)
´T ³
Y(h) + Y {|h|} · γ̃{h} + X · β̃(h)
ϑ
kde
n
∗
∆
∗
ϑ = max n − G∆
g + 1 − pg , n − G h + 1 − ph
´
,
o
∗
∆
∗
a kde, v souladu s označenı́m užı́vaným v odstavci o problému identifikace, G∆
g , pg , Gh a ph ,
označuje postupně skutečný počet endogenı́ch a exogenı́ch veličin v g-té a h-té rovnici soustavy
(195). Odhad kovariančnı́ matice Σ má tedy tvar

2 I
σ̂11

 σ̂ 2 I

Σ̂ =  21.

..

2 I
σ̂12
...
2 I
σ̂1G
2 I
σ̂22
..
.
...
2 I
σ̂2G
..
.




,


2 I σ̂ 2 I . . . σ̂ 2 I
σ̂G1
G2
GG
kde všechny jednotkové matice I jsou typu (n × n), a spočteme Aitkenův odhad (viz (131) ),
což je v našem přı́padě už třetı́ použitı́ nejmenšı́ch čtverců. Odtud přirozeně název metody. Pro
odhady koeficientů tedy můžeme užı́t vztahu


γ̂
β̂
³
T ,Y T ,...,Y T
kde Y = Y(1)
(2)
(G)




Z=


´T

³
´−1
 = Z T Σ̂−1 Z
Z T Σ̂−1 Y,
,
Ŷ {|1|}
0
..
.
0
0
...
0
X
0
...
0
Ŷ {|2|} . . .
..
.
0
..
.
0
..
.
X ...
..
.
0
..
.
0
0
0
. . . Ŷ {|G|}




,


... X
kde všechny submatice Ŷ {|g|} jsou typu (n × G − 1) (pro g = 1, 2, . . . , G) a X je typu (n × p),
³
T , γT , . . . , γT
a kde γ̂ a β̂ jsou tedy odhady vektorů γ{1}
{2}
{G}
159
´T
³
T , βT , . . . , βT
a β(1)
(2)
(G)
´T
.
10
ANALÝZA VARIANCE
Analýza variance je jednou z tradičnı́ch statistických disciplı́n a patrně byla studována dřı́ve
než regresnı́ analýza. V této kapitole však ukážeme, že ji lze interpretovat jako speciálnı́ přı́pad
regresnı́ analýzy. Zdůrazněme hned na samém začátku, že jsme řekli lze interpretovat, nebot’
náš výklad nemá v žádném přı́padě ukázat, či snad dokonce dokázat, že analýza variance je
speciálnı́m přı́padem regrese. Jejı́ filozofie je zcela svébytná a také jejı́ značenı́ se ustálilo zcela
odlišně od formalizmu regresnı́ analýzy a to naneštěstı́ tak, že je to mı́sty zavádějı́cı́ pro ty, kdo
majı́ “zažité” značenı́ v regresi. Nicméně vzhledem k ustálenosti a názornosti značenı́, které je
v analýze variance použı́váno, přidržı́me se tohoto značenı́ pokud to bude možné. K usnadněnı́
pak čtenı́ textu budeme na tyto odlišnosti občas upozorňovat. Jak bude možné nahlédnout z nı́že
uvedeného textu, některé partie této teorie, zejména jednoduché a dvojné třı́děnı́, představujı́
krásný přı́klad aplikace vı́cenásobného regresnı́ho modelu, takže lze výsledky těchto partiı́ zı́skat
okamžitě specifikacı́ obecnějšı́ch výsledků z regrese pro tyto speciálnı́ modely. Proto byla tato
partie zařazena do textu skript, aby napověděla skutečnou šı́ři použitelnosti (či snad lépe, pokud
nejsme jazykovı́ puristi, aplikability9 ) regresnı́ho schematu.
10.1
Jednoduché třı́děnı́
Jak je tradičnı́ v analýze variance zvykem budeme uvažovat model
Yij = µ + αi + Eij
pro
i = 1, 2, . . . , I,
j = 1, 2, . . . , Ji ,
(196)
a budeme předpokládat, že je splněna okrajová podmı́nka
I
X
Ji αi = 0.
(197)
i=1
Bez této okrajové podmı́nky (197), bychom měli v modelu přı́liš mnoho parametrů. Odhadovali
bychom totiž I souřadnic vektoru α a hodnotu µ, tj. I + 1 parametrů, zatı́mco matice plánu,
která je uvedena na dalšı́ straně, má hodnost I. Máme tedy dvě možnosti:
• bud’ vypustit jeden parametr, např. µ
• nebo uvalit na odhadované parametry nějakou vazebnı́ podmı́nku, např. (197).
Z historických důvodů, ale i z důvodu jekési “symetrie” modelu se dala přednost druhé variantě.
Model (196) můžeme alternativně psát ve tvaru
IE Yij = µ + αi
pro
i = 1, 2, . . . , I,
j = 1, 2, . . . , Ji .
Definujme
Ỹ = (Y11 , Y12 , . . . , Y1J1 , Y21 , Y22 , . . . , Y2J2 , . . . , YI1 , YI2 , . . . , YIJI )T ,
9
Přičemž ovšem druhé z těchto dvou slov je patrně poněkud obecnějšı́.
160
(198)




















X=



















1 1 0 ............
1 1 0 ............
.. .. ..
. . .
1 1 0 ............
0
0
..
.
1 0 1 ............
1 0 1 ............
.. .. ..
. . .
1 0 1 ............
0
0
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
0
0
..
.
..
.
..
.
1 0 0 ............
1 0 0 ............
.. .. ..
. . .
1 0 0 ............
1
1
..
.




















,



















1
vodorovné čáry přes celou šı́ři matice naznačujı́ vždy konec bloku. Upřesněme, že prvý blok
(majı́cı́ jedničky ve druhém sloupci) má J1 řádků, druhý J2 řádků atd., tj. celá matice má
P
n = I`=1 J` řádků a I + 1 sloupců, a konečně β 0 = (µ, α1 , α2 , . . . , αI )T . Vektor regresnı́ch
koeficientů budeme dále psát ve tvaru β 0 = (β0 , β1 , β2 , . . . , βI )T a podobně souřadnice vektoru
X` budeme čı́slovat od nuly, tj. (X`0 , X`1 , X`2 , . . . , X`I ) pro ` = 1, 2, . . . , n. Nynı́ můžeme psát
regresnı́ model
Ỹ = X · β 0 + E.
Vektor náhodných fluktuacı́ je přirozeně tohoto tvaru E = (E11 , E12 , . . . , E1J1 , E21 , E22 , . . . , E2J2 ,
. . . , EI1 , EI2 , . . . , EIJI )T . Nenı́ obtı́žné ověřit, že




T
X X=




n J1 J2
J1 J1 0
J2 0 J2
..
..
..
.
.
.
JI 0 0
kde

. . . JI
... 0 


... 0 
.. 

. 
a
. . . JI




,



JI ȲI
J
Ȳ =



T
X Ỹ = 



nȲ
J1 Ȳ1
J2 Ȳ2
..
.
I X
i
1X
Yij
n i=1 j=1
a
Ȳi =
Ji
1 X
Yij .
Ji j=1
Podobně snadno nalezneme normálnı́ rovnice
nβ0
+ J1 β1 + J2 β2 + . . . + JI βI
J1 β0 + J1 β1 +
J2 β0 +
..
.
JI βI +
0
..
.
0
0
+...+
0
+ J2 β2 + . . . +
0
..
..
.
.
+
0
+ . . . + JI βI
161
=
nȲ
= J1 Ȳ1
= J2 Ȳ2 .
..
.
= JI ȲI
(199)
Vezmeme-li v úvahu okrajovou podmı́nku (197)
J1 β1 + J2 β2 + . . . + JI βI = 0,
dostaneme z prvnı́ rovnice v soustavě (199)
β̂0 = Ȳ
(200)
a to umožnı́ přepsat normálnı́ rovnice do tvaru (vynechánı́m prvnı́ z nich a uplatněnı́m znalosti
o β̂0 )
J1 β1 +
0
+...+
0
= J1 (Ȳ1 − Ȳ )
0
..
.
0
+ J2 β2 + . . . +
0
..
..
.
.
+
0
+ . . . + JI βI
= J2 (Ȳ2 − Ȳ )
.
..
.
= JI (ȲI − Ȳ )
Pak již nenı́ těžké ověřit, že
β̂i = Ȳi − Ȳ pro i = 1, 2, . . . , I.
(201)
Nynı́ z (200) a (201) plyne, že pro ` = 1, 2, . . . , n a pro všechna k taková, že ` = J1 +J2 +. . .+Jh +k
a 0 < k ≤ Jh+1 predikce vysvětlované proměnné je
Ŷ`k = X`T β̂ (LS,n) = X`1 β0 + X`k βk = Ȳi ,
Reziduálnı́ součet čtverců pro hypotézu H : “správným” modelem je (196), je tedy
2
SH
=
Ji
I X
X
¡
Yij − Ȳi
¢2
.
i=1 j=1
Jeho alternativnı́ zápis může být
³
´
Ỹ T I − X(X T X)−1 X T Ỹ ,
(202)
ostaně jsme to již dřı́ve několikrát udělali, viz např. (50) či (51) (Ỹ je zavedeno ve (198) ).
Budeme-li předpokládat alternativu A ve tvaru
Yij = µ + Eij
pro
i = 1, 2, . . . , I,
j = 1, 2, . . . , Ji ,
tj. budeme předpokládat α1 = α2 = . . . = αI = 0, úvahami podobnými výše uvedeným, či
přı́mou minimalizacı́ přı́slušného součtu čtverců, nalezneme β̂0 = µ̂ = Ȳ a přı́slušný reziduálnı́
součet čtverců
2
SA
=
Ji
I X
X
¡
Yij − Ȳ
¢2
=
I
X
¡
Ji Yij − Ȳ
¢2
= Ỹ T (I − N ) Ỹ .
Matice N (podobně jako výše) má všechny prvky stejné, rovné
Opět použijeme rozklad součtu čtverců
³
(203)
i=1
i=1 j=1
´
³
1
n.
´
Ỹ T Ỹ = Ỹ T I − X(X T X)−1 X T Ỹ + Ỹ T X(X T X)−1 X T − N Ỹ + Ỹ T N Ỹ
162
(204)
neboli
Ji
I X
X
Yij2
=
i=1 j=1
Ji
I X
X
¡
Yij − Ȳi
¢2
+
i=1 j=1
I
X
¡
Ji Ȳi − Ȳ
¢2
+ nȲ 2 .
i=1
Použitı́m Fisher-Cochranova lemmatu (viz Lemma 6) pro právě nalezený rozklad součtu čtverců,
zjistı́me, že za předpokladu, že Ỹ je rozděleno normálně, tj. fluktuace Eij v (196) jsou rozděleny
normálně, má
2
SH
=
Ji
I X
X
¡
Yij − Ȳi
¢2
i=1 j=1
³
´
= Ỹ T I − X(X T X)−1 X T Ỹ
χ2 rozdělenı́ s n − I stupni volnosti, nebot’ matice X má hodnost I. Analogickou úvahou se
ukáže, že za stejných podmı́nek má rozdı́l součtu čtverců
2
2
SA
− SH
=
I
X
¡
Ji Ȳi − Ȳ
¢2
³
´
= Ỹ T X(X T X)−1 X T − N Ỹ
i=1
2
také rozdělenı́ χ2 o I − 1 stupnı́ch volnosti. Navı́c z Fisher-Cochranova lemmatu plyne, že SH
2 − S 2 jsou statisticky nezávislé, tj.
a SA
H
PI
F =
i=1 Ji
¡
Ȳi − Ȳ
I −1
¢2
· PI
i=1
n−I
PJi ¡
j=1
Yij − Ȳi
¢2
je rozděleno jako FI−1,n−I , tj. Fisher-Snedecorovo F o I − 1 a n − I stupnı́ch volnosti. Proto,
podobně jako v kapitole o testovánı́ submodelu, je možné test o platnosti hypotézy H proti
alternativě A založit na této statistice.
Pro úplnost uved’me, že klasické práce věnované analýze třı́děnı́ (Scheffe (1959), Draper,
Smith (1966),(1981), Anděl, J. (1978), Rao (1978)) uvádějı́ přı́slušné součty čtverců (viz (204))
obvykle v následujı́cı́ tabulce (tato byla v podstatě převzata z Draper, Smith (1966)).
Tabulka 18
Rozklad součtu čtverců pro jednoduché třı́děnı́.
Zdroj
Mezi třı́dami
Uvnitř třı́d
Suma
čtverců
2 =
SA
2 =
SH
PI
i=1 Ji
PI
i=1
Ȳi − Ȳ
PJi ¡
j=1
¢2
Yij − Ȳi
¢2
nȲ 2
Průměrná hodnota
Celkem
¡
Stupně
volnosti
PI
i=1
PJi
2
j=1 Yij
Střednı́
čtverce
I −1
s2A =
n−I
s2H =
2
SA
I−1
2
SH
n−I
1
PI
i=1 Ji
=n
Rovněž poměrně často bývá poslednı́ tabulka uváděna však ve tvaru (např. Rao (1978))
163
Tabulka 18 a
Zdroj
Mezi třı́dami
Uvnitř třı́d
Suma
čtverců
2 =
SA
2 =
SH
10.2
i=1 Ji
PI
i=1
PI
Centrovaný součet
PI
i=1
¡
Stupně
volnosti
Ȳi − Ȳ
¢2
PJi ¡
Yij − Ȳi
j=1
PJi
j=1 (Yij
¢2
− Ȳ )2
Střednı́
čtverce
I −1
s2A =
n−I
s2H =
2
SA
I−1
2
SH
n−I
n−1
Dvojné třı́děnı́
Pro jednoduchost budeme uvažovat model se stejným počtem jednotek v každé buňce dvojného
třı́děnı́. Model, který nepředpokládá stejný počet pozorovánı́ v každé buňce je sice touto cestou
také zvládnutelný, ale po formálnı́ stránce se celá věc stane nepřehlednou. Budeme tedy studovat
model
IE Yijk = µ + αi + βj + γij pro
i = 1, 2, . . . , I
j = 1, 2, . . . , J,
(205)
k = 1, 2, . . . , K.
To znamená, že předpokládáme, že model má I řádků, J sloupců a K jednotek v každé buňce.
Snadno se opět nahlédne, že bez zadánı́ okrajových podmı́nek, které zkompenzujı́ “nadbytek”
parametrů v modelu, bychom nemohli parametry modelu jednoznačně odhadnout. Tyto okrajové
podmı́nky budou mı́t tvar
I
X
αi = 0
a
i=1
J
X
βj = 0,
j=1
a dále pak pro všechna j = 1, 2, . . . , J
I
X
γij = 0.
i=1
Konečně pro všechna i = 1, 2, . . . , I
J
X
γij = 0.
j=1
Vysvětlovaná veličina má přirozeně opět tvar
Ỹ = (Y11 , Y112 , . . . , Y11K , Y121 , Y122 , . . . , Y12K , . . . , Y1J1 , Y1J2 , . . . , Y1JK ,
Y211 , . . . , YIJ1 , YIJ2 , . . . , YIJK )T .
(206)
Matice plánu je poněkud komplikovaná X a je uvedena na dalšı́ stránce. Má všechny bloky
(ve svislém směru) o K řádcı́ch, což znamená, že celá matice má n = IJK řádků. Ve vodorovném směru má prvý blok jeden sloupec (pro absolutnı́ člen µ), druh blok má I sloupců, třetı́
má J sloupců atd., až poslednı́ pak IJ sloupců. Vodorovné plné čáry přes celou šı́ři matice
a svislé čáry přes výšku bloků opět naznačujı́ oddělenı́ vodorovných, přı́padně svislých bloků.
Jak vzápětı́ uvidı́me, k zı́skánı́ reziduálnı́ho součtu čtverců použijeme jiný model, který je s
164
tı́mto modelem ekvivalentnı́, ale který umožnı́ nalezenı́ tohoto součtu snadněji. Proto vektor
regresnı́ch koeficientů nebudeme ani podrobně popisovat.
Věnujme se na okamžik matici plánu. Ta je značně “redundantnı́, nebot’ prvý sloupec ve
druhém bloku (ve vodorovném směru, tj. v bloku, který odpovı́dá parametrům α v (205) ) je
stejný jako součet prvnı́ho, (I + 1)-nı́ho, 2I + 1-nı́ho, ...,[(J − 1)I + 1]-nı́ho sloupce v poslednı́m
bloku (tj. v bloku, který odpovı́dá parametrům γ). Podobně pro druhý sloupec druhého bloku
zjistı́me, že je roven součtu druhého, (I + 2)-hého, (2I + 2)-hého,...,[(J − 1)I + 2]-hého sloupce
v poslednı́m bloku, atd. Konečně pak snadno ověřı́me, že prvnı́ sloupec třetı́ho bloku, tj. bloku,
který odpovı́dá parametrům β, je součtem prvého, druhého,..., I-tého sloupce v poslednı́m bloku.
Navı́c prvnı́ sloupec matice, tj. sloupec odpovı́dajı́cı́ absolutnı́mu členu), je např. součtem všech
sloupců poslednı́ho bloku. Odtud plyne, že hodnost matice X je I · J a že můžeme z modelu
vypustit prvý, druhý a třetı́ blok sloupců, tj. model, který bude mı́t stejnou vysvětlovanou
veličinu Ỹ jaká je zadaná v (206) a matici X̃, která bude obsahovat pouze sloupce poslednı́ho
bloku matice X, bude ekvivalentně vysvětlovat veličinu Ỹ jako model se širšı́ maticı́ plánu X.
Ani v tomto přı́padě nenı́ třeba vektor regresnı́ch koeficientů přesně specifikovat.
Tento alternativnı́ model, jehož matice plánu je však plné hodnosti, umožnı́ snadněji nalézt
minimum součtu čtverců
I X
J X
K
X
(Yijk − γij )2 .
i=1 j=1 k=1
Matice X̃ T X̃ má pro tento model překvapivě jednoduchý tvar právě tak jako X̃ T Ỹ , jmenovitě





X̃ T X̃ = 



K
0
0
K ...
..
.
..
.
0
0
...
0

 PK
k=1 Y11k

 P

K

k=1 Y12k

T
X̃ Ỹ = 
..


.

PK
0 


a
.. 

. 

... K





.



k=1 YIJk
To samozřejmě vede k jednoduchým normálnı́m rovnicı́m









K
0
0
K ...
..
.
..
.
0
0
...
0
 
 
γ11

0 
  γ12
 
·
.. 
  .
.   ..
 
... K
γJK

 PK
k=1 Y11k
  P
 
K
 
k=1 Y12k
 
=
..
 
 
.
 
PK





,



k=1 YIJk
ze kterých okamžitě najdeme
γij =
1
K
PK
k=1 Yijk
= Ȳij ,
i = 1, 2, . . . , I,
j = 1, 2, . . . , J,
k = 1, 2, . . . , K.
Reziduálnı́ součet čtverců pro hypotézu, že data se řı́dı́ modelem (205) je tedy roven
2
SH
=
I X
J X
K
X
¡
Yijk − Ȳij
i=1 j=1 k=1
167
¢2
.
Stejně jako v předchozı́m odstavci použijeme Fisher-Cochranovo lemma, které po úvahách
podobných těm, které jsme provedli v předchozı́m odstavci potvrdı́, že tento součet čtverců
má, samozřejmě opět za předpokladu, že náhodné fluktuace E jsou normálně rozdělené, χ2
rozdělenı́ o I · J · (K − 1) stupnı́ch volnosti. Ostatně tento výsledek má krásnou mnemotechniku,
nebot’ počet stupňů volnosti lze interpretovat tak, že jde o I · J · K čtverců, ale v každé buňce,
kterých je I · J padne jeden stupeň volnosti na průměr Ȳij .
Jako alternativu budeme uvažovat model
IE Yijk = µ + αi + βj pro
i = 1, 2, . . . , I,
j = 1, 2, . . . , J,
k = 1, 2, . . . , K.
(207)
jehož okrajové podmı́nky majı́ tvar
I
X
αi = 0
a
i=1
J
X
βj = 0.
(208)
j=1
Z toho plyne, že budeme minimalizovat
I X
J X
K
X
(Yijk − αi − βj )2 .
i=1 j=1 k=1
Vysvětlovaná proměnná je přirozeně stejná jako při hypotéze (viz (206) ) a matice plánu je rovna
prvnı́m třem blokům matice X (viz předchozı́ strana). Opět snadno nalezneme















T
X̃ X̃ = 














n
J · K J · K ... J · K I · K I · K ... I · K








J ·K
0
J · K ...
0
K
K
...
K 

..
..
..
..
..
..
.. 

.
.
.
.
.
.
. 


J ·K
0
0
... J · K
K
K
...
K 
,

......................................................... 

I ·K
K
K
...
K
I ·K
0
...
0 



I ·K
K
K
...
K
0
I · K ...
0 

..
..
..
..
..
..
.. 

.
.
.
.
.
.
. 

.........................................................
J ·K J ·K
0
...
0
K
K
...
K
I ·K
K
K
...
168
K
0
0
... I · K
 PI PJ PK
i=1
j=1
k=1 Yijk

P
P
J
K


j=1
k=1 Y1jk

P
P

J
K

j=1
k=1 Y2jk


..


.


P
P
J
K
X̃ T Ỹ = 
j=1
k=1 YIjk


P
P

I
K

i=1
k=1 Yi1k

P
P

I
K

i=1
k=1 Yi2k



..

.

PI PK







































β̃ = 












a


α1 









.












α2 
..
.
αI
β1
β2
..
.
βJ
k=1 YiJk
i=1
µ
Normálnı́ rovnice sice vypadajı́ na prvnı́ pohled trochu komplikované
nµ + J · K
PI
i=1 αi
J · Kµ + J · Kαi + K
I · Kµ + K
PJ
+I ·K
PI
i=1 αi
PJ
j=1 βj
=
j=1 βj
=
+ I · Kβj
=
PI
i=1
PJ
j=1
PJ
PK
PI
PK
j=1
i=1
PK
k=1 Yijk
k=1 Yijk
pro i = 1, 2, . . . , I
k=1 Yijk
pro j = 1, 2, . . . , J,
ale vezmeme-li v úvahu okrajovou podmı́nku (208), zredukujı́ se na
nµ
PI
=
i=1
J · Kµ + J · Kαi =
I · Kµ + I · Kβj
PJ
PK
PJ
PK
PI
PK
j=1
=
j=1
i=1
k=1 Yijk ,
k=1 Yijk
pro i = 1, 2, . . . , I,
k=1 Yijk
pro j = 1, 2, . . . , J.
Pak již snadno nalezneme odhady parametrů
α̂i = Ȳi· − Ȳ
=
PJ PK
1 PI
i=1
j=1
k=1 Yijk ,
n
P
P
J
K
1
j=1
k=1 Yijk − Ȳ
J·K
β̂j
=
1
I·K
µ̂
=
Ȳ
=
= Ȳ·j − Ȳ
PI
i=1
PK
k=1 Yijk
− Ȳ
pro i = 1, 2, . . . , I,
pro j = 1, 2, . . . , J.
Reziduálnı́ součet čtverců pro alternativu, že správným modelem je (207), je tedy
2
SA
=
I X
J X
K
X
¡
Yijk − Ȳi· − Ȳ·j + Ȳ
¢2
.
i=1 j=1 k=1
Naprosto stejně jako v předchozı́m paragrafu použitı́m Fisher-Cochranova lemmatu ukážeme,
2 − S 2 má χ2 o I · J · K − I − J + 1 − I · J · (K − 1) = (I − 1)(J − 1)
že rozdı́l součtů čtverců SA
H
2 . To znamená, že statistika
stupnı́ch volnosti a je nezávislý se součtem čtverců SH
2 − S2
SA
I · J(K − 1)
H
·
2
(I − 1)(J − 1)
SH
(209)
je přı́hodná k testovánı́ hypotézy H proti alternativě A.
Snadno si lze představit testovánı́ jiných alternativ, např. můžeme testovat přı́padnou představu
o tom, že data nezávisı́ na efektu od řádků, tj.
IE Yijk = µ + βj pro i = 1, 2, . . . , I, j = 1, 2, . . . , J, k = 1, 2, . . . , K.
169
Upozorněme však na to, že se v některých monografiı́ch tato alternativa k základnı́mu modelu
presentuje jako αi = 0 pro i = 1, 2, . . . , I, ale opomene se řı́ci, že pokud má být řádkový efekt
nulový znamená to také γij = 0 pro i = 1, 2, . . . , I a j = 1, 2, . . . , J.
Stejně jako v předchozı́m paragrafu vytvořı́me tabulky součtů čtverců
Tabulka 19
Rozklad součtu čtverců pro dvojné třı́děnı́.
Zdroj
Suma
čtverců
Řádky
J ·K
Sloupce
I ·K
Interakce
K
Reziduálnı́
PI
¡
PJ
¡
i=1
Ȳ·j − Ȳ
j=1
PI
PJ
¡
PI
PJ
PK
i=1
j=1
i=1
j=1
Ȳi· − Ȳ
¢2
¢2
Ȳij − Ȳi· − Ȳ·j + Ȳ
¡
Yijk − Ȳij
k=1
¢2
PI
Celkem
i=1
PJ
¢2
I −1
s2r
J −1
s2c
IJ(K − 1)
2
SH
n−I
s2rc =
s2
1
PK
2
k=1 Yijk
j=1
Střednı́
čtverce
(I − 1)(J − 1)
nȲ 2
Průměrná hodnota
Stupně
volnosti
IJK = n
Upozorněme rovněž, že jestliže se ve druhém a třetı́m řádku právě uvedené tabulky mluvı́
o “Řádcı́ch” a “Sloupcı́ch”, zdálo by se přirozené mluvit ve čtvrtém o “Buňkách”, tak jak to
ostatně dělá anglicky psaná literatura. V české literatuře se však z jakýchsi historických důvodů
ustálil název “Interakce”. Některé prameny opět uvádějı́ alternativnı́ tabulku
Tabulka 19 a
Zdroj
Suma
čtverců
Řádky
J ·K
Sloupce
I ·K
Interakce
Reziduálnı́
Centrovaný součet
K
PI
¡
PJ
¡
i=1
j=1
PI
PJ
¡
PI
PJ
PK
PI
PJ
PK
i=1
i=1
i=1
Ȳ·j − Ȳ
¢2
¢2
Ȳij − Ȳi· − Ȳ·j + Ȳ
j=1
j=1
Ȳi· − Ȳ
j=1
k=1
¡
Yijk − Ȳij
k=1 (Yijk
¢2
Stupně
volnosti
Střednı́
čtverce
I −1
s2r
J −1
s2c
(I − 1)(J − 1)
¢2
− Ȳ )2
IJ(K − 1)
s2rc =
2
SH
n−I
s2
n−1
Podobně jako jsme výše odvodili test alternativy A : mezi řádky a sloupci nejsou interakce,
tj. γij = 0 pro všechna i a j, totiž (viz (209) )
F =
2 − S2
I · J(K − 1)
SA
H
·
(I − 1)(J − 1)
SH
170
=
K
PI
i=1
¡
PJ
Ȳij − Ȳi· − Ȳ·j + Ȳ
(I − 1)(J − 1)
¢2
j=1
2
I · J · (K − 1)
· PI
i=1
¡
PJi PK
k=1
j=1
Yijk − Ȳij
src
¢2 = 2 ,
s
našli bychom testy dalšı́ch alternativ k základnı́mu modelu:
• IE Yijk nezávisı́ na i
F =
JK
¡
PI
Ȳi· − Ȳ
(I − 1)
¢2
i=1
I · J · (K − 1)
· PI
i=1
PJ
j=1
¡
PK
k=1
Yijk − Ȳij
¢2 =
s2r
s2
s I − 1 a I · J · (K − 1) stupni volnosti,
• IE Yijk nezávisı́ na j
F =
IK
¡
PJ
Ȳ·j − Ȳ
(J − 1)
¢2
j=1
s2
I · J · (K − 1)
· PI
i=1
PJ
j=1
¡
PK
k=1
Yijk − Ȳij
c
¢2 = 2
s
s J − 1 a I · J · (K − 1) stupni volnosti,
• IE Yijk nezávisı́ ani na i ani na j
PI
i=1
F =
PJ
j=1
¡
PK
k=1
× PI
=
K
PI
i=1
PJ
¡
¢2
P
P
Yijk − Ȳij − Ii=1 Jj=1
IJ(K − 1) − IJK + 1
I · J · (K − 1)
i=1
PJ
j=1
Ȳij − Ȳ
IJ − 1
k=1
¢2
j=1
¡
PK
· PI
Yijk − Ȳij
i=1
PK
¡
k=1
Yijk − Ȳ
j=1
×
¢2
I · J · (K − 1)
PJ
¢2
PK
¡
k=1
Yijk − Ȳij
¢2
s IJ − 1 a I · J · (K − 1) stupni volnosti.
11
NĚKTERÉ NETRADIČNÍ METODY REGRESNÍ ANALÝZY
Již na začátku skript jsme se zmı́nili, že metoda L1 , tj. metoda minimalizujı́cı́ součet absolutnı́ch hodnot reziduı́ byla použita o vı́ce než stopadesát let dřı́ve než byla publikována metoda
nejmenšı́ch čtverců. To dokládá, že alternativnı́ metody k metodě nejmenšı́ch čtverců nejsou
“vymyšlenostı́” poslednı́ch let. Metoda L1 je všeobecně považována za velmi robustnı́ a je často
uváděna jako přı́klad metody, která si je schopna úspěšně poradit s (jakoukoliv) kontaminacı́
dat. Odhadem polohy dat pořı́zeným metodou L1 je medián a snadno se přesvědčı́me, že tento
odhad je schopen překonat i 50% kontaminaci dat, v tom smyslu, že teprve změna vı́ce než 50%
dat může podstatně změnit hodnotu mediánu. Někteřı́ autoři pak z tohoto faktu usoudı́, že se
metoda L1 dokáže vyrovnat i s (velmi) vysokou kontaminacı́ dat také v regresnı́m schematu.
Bohužel opak je pravdou. Metoda L1 si sice umı́ poradit s odlehlými hodnotami ve vysvětlované
proměnné (tzv. outliery), ale neumı́ se vyrovnat s body, které jsou odlehlé ve faktorovém prostoru (tzv. leverage pointy). Důvody k tomuto chovánı́ lze snadno nahlédnout, napı́šeme-li si
normálnı́ rovnice pro tuto metodu. Jejich tvar je
∂
Pn
i=1 |Yi
∂β`
− xTi β|
= −2
n
X
xi` sign(Yi − xTi β),
i=1
171
` = 1, 2, ..., p.
Je vidět, že pokud dojde k tomu, že některý bod má podstatně většı́ některou souřadnici než jiné
body, bude jeho vliv na řešenı́ normálnı́ch rovnic podstatně většı́ než vliv ostatnı́ch bodů. To
znamená, že i jeden jediný bod (velmi) vzdálený od ostatnı́ch bodů ve faktorovém prostoru může
podstatně ovlivnit (přı́padně zcela “zničit”) závěry regresnı́ analýzy provedené pomocı́ metody
L1 . Přirozeně, že můžete namı́tnout, že jeden bod hodně vzdálený ve faktorovém prostoru bude
nápadný a bude mu věnována při analýze dat mimořádná pozornost. Problém nastává, jde-li o
opakované automatizované zpracovánı́ dat (viz např. digitalizovaný přenos řeči pomoci auotregresnı́ch modelů segmentů zvukového signálu), či je-li v datech vı́ce vlivných bodů, takže se
navzájem maskujı́ a to se jim bude dařit zejména pokud půjde o vı́cerozměrná data (řekněme
p > 7). Proto byl s velkým zaujetı́m studován problém nalezenı́ metody (či metod), která by si
byla schopna poradit s vysokou kontaminacı́ (nejlépa s 50%) a to jakéhokoliv typu, tj. tvořenou
jak outliery tak leverage pointy. Řekněme rovnou, že právě zmı́něný problém dokázal vzdorovat
soustředěnému “ataku” armády statistiků téměř deset let. Dnes však známe a máme implementovánu, což je také velmi podstatné, celou řadu metod, jejichž mı́ru robustnosti lze dokonce volit
nastavenı́m některého parametru metody od nuly do 50%.
Jednı́m z nejlépe prostudovaných a “vyzkoušených” odhadů tohoto typu je patrně odhad
metodou nejmenšı́ch usekaných čtverců (the least trimmed squares), který je zadán takto (viz
Hampel a kol. (1986)). Necht’ pro libovolné β ∈ Rp a i = 1, 2, ..., n je ri (β) = Yi − xTi β a
2 (β) necht’ jsou tedy pořádkové statistiky přı́slušné ke čtvercům reziduı́. Potom položme pro
r(i)
h, n2 ≤ h ≤ n
β̂ (LT S,n) = arg min
β∈Rp
h
X
2
r(i)
(β).
i=1
Autor těchto skript nabı́zı́ těm, kdo by si chtěli vyzkoušet, jak tento odhad funguje, program,
který je snadné použı́t na výpočet tohoto odhadu. Současně si dovolme upozornit, že často
docházı́ k záměně tohoto odhadu s odhadem, kterému se řı́ká odhad metodou usekaných nejmenšı́ch čtverců (the trimmed least squares) a který nemusı́, a obvykle nemá zdaleka tak dobré
vlastnosti jako odhad β̂ (LT S,n) . Jak ale pořadı́ slov v názvu obou odhadů naznačuje, tento druhý
odhad předpokládá, že nejprve podle nějakého předem daného pravidla usekáme některá pozorovánı́ a pak uplatnı́me na zbytek dat metodu nejmenšı́ch čtverců, zatı́mco prvnı́ odhad vlastně
sám, ale zase pouze implicitně napovı́dá, která pozorovánı́ majı́ být “usekána”.
Jednou z námitek, které stále jěště vznášejı́ “skalnı́” zastánci metody nejmenšı́ch čtverců, je
námitka týkajı́cı́ se malé eficience robustnı́ch metod zejména v přı́padě, kdy platı́ předpoklady
pro aplikaci nejmenšı́ch čtverců. Tato námitka je lichá. Ztráta na eficienci robustnı́ch metod je
obvykle daleko menšı́ než ztráta na eficienci nejmenšı́ch čtverců i při dosti malé kontaminaci
dat.
Otázka, která každeho čtenáře napadne po přečtenı́ několika poslednı́ch řádek je: Proč jsme
tedy na tolika stránkách vykládali všechny možné vlastnosti a triky spojené s metodou nejmenšı́ch
čtverců ?
Odpověd’ je nasnadě. Stále mnoho uživatelů aplikuje nejmenšı́ čtverce a chceme-li být schopni
sledovat jejich výklad a rozumět jejich závěrům, musı́me znát dobře tuto klasickou metodu, byt’
vı́me, že může snadno selhat i při dosti malé kontaminaci, ale hned dodejme, také obvykle dosti
malé pozornosti uživatele k vlivným bodů. Navı́c stále mnoho, patrně dokonce drtivá většina,
172
statistických softwarových knihoven nabı́zı́ žel jen nejmenšı́ čtverce. Ne poslednı́m a určitě ne
nejmenšı́m důvodem pak je to, že metoda nejmenšı́ch čtverců je geometricky názorná a má
nejlépe vypracovanou teorii, včetně sofistikovaných triků, které ji napomáhajı́, dostane-li se do
potı́žı́ (např. hřebenová regrese).
Je zřejmé, že ani v přı́padě, že si osvojı́me řadu robustnı́ch metod a budeme mı́t k tomu
přı́ležitost v dalšı́m dı́le skript, “nezavrhneme” metodu nejmenšı́ch čtverců jako nemodernı́
a zastaralou, nebot’ takovou opravdu nenı́. Jen potom budeme aplikovat vı́ce metod, včetně
nejmenšı́ch čtverců a ze shody (přibližné) či neshody (signifikantnı́, viz např. Rubio a kol.
(1992)) jejich výsledků budeme usuzovat na přı́tomnost, přı́padně velikost a původ, kontaminace. Poslednı́ věta je ostatně doporučenı́, či chcete-li teze, modernı́ statistiky (přelomu druhého
a třetı́ho tisı́ciletı́):
Aplikujte tolik metod regresnı́ analýzy, kolik jich máte k dispozici na svém
počı́tači, vždy však alespoň dvě nebo tři, a vzájemně porovnejte jejich výsledky.
Pokud se tyto (statisticky významně, a na to dnes již existujı́ testy - viz Rubio a kol. (1992)) lišı́, je třeba věnovat datům zvláštnı́ pozornost. Přı́činou je obvykle kontaminace dat, tj. data nepředstavujı́ “jednu populaci”, ale jsou nesourodá.
Často Vám může mnoho napovědět “klasická” diagnostika, o které jsme si povı́dali
výše. Pokud se Vám podařı́ nalézt “podsoubor” dat, na kterém už budou různé
metody dávat přibližně stejné řešenı́ a na kterém klasické diagnostické prostředky
neobjevı́ nic podezřelého, máte vyhráno. Nicméně vysvětlenı́, či chcete-li potvrzenı́
toho, že “zbytek” dat je kontaminace, přı́padně proč, hledejte vždy ve spolupráci s
odbornı́kem z té oblast, ze které pocházejı́ data, nejlépe s tı́m, kdo data naměřil či
jinak shromáždil či Vás o zpracovánı́ požádal.
173
12
Literatura
174
Reference
[1] Aigner, D. J. (1974): MSE dominance of least squares with errors of observation. Journal
of Econometrics 2, 365–372.
[2] Akaike, H. (1974): A new look at the statistical model identification. IEEE Transactions
on Automatic Control 19, 716 - 723.
[3] Akaike, H. (1981): Likelihood of a model and information criteria. Journal of Econometrics
16, 3 - 14.
[4] Amemiya, T. (1973): Regression analysis when the variance of the dependent variable is
proportional to the square of its expectation. Journal of American Statistical Association
68, 928–934.
[5] Amemiya, T. (1977): A note on a heteroscedastic model. Journal of Econometrics 6, 365-370.
and “Corrigenda”. Jouranl of Econometrics 8, 275.
[6] Amemiya, T. (1981): Qualitative response model: A survey. Journal of Economic Literature
19, 1483 - 1536.
[7] Amemiya, T., Powell, J. (1980): A comparison of the logit model and normal discriminant
analysis when independent variables are binary. Technical Report No. 320, Institute for
Mathematical Studies in the Social Sciences, Encina Hall, Stanford University, Stanford,
California.
[8] Anděl, J. (1978): Matematická statistika. Praha, Bratislava: SNTL & ALFA.
[9] Anděl, J. (1993): Statistické metody, MATFYZPRESS, Praha, 1993.
[10] Anderson, T. W. (1948): On the theory of testing serial correlation. Skandinavisk Aktuarietidskrift 31, 88-116.
[11] Bartlett, M. S. (1937): Properties of sufficiency and statistical tests. Proceedings of the
Royal Society, Series A 160, 268 - 282.
[12] Bates, J. M., Granger, C. W. J. (1969): The combination of forecasts. Operational Research
Quarterly, 20, 451-468.
[13] Battese, G. E., Bonyhady, B. P. (1981): Estimation of household expenditure functions:
An application of a class of heteroscedastic regression models. The Economic Record 57,
80–85.
[14] Belsley, D. A., Kuh, E., Welsch, R. E. (1980): Regression Diagnostics: Identifying Influential
Data and Sources of Collinearity. New York: J. Wiley & Sons.
[15] Bera, A. K., Jarque, C. M. (1981): An efficient large-sample test for normality of observations and regression residuals. Australian National University Working Papers in Econometrics No. 40, Cambera.
173
[16] Berndt, E. (1990): The Practice of Econometrics. Reading, Mass.,Addison-Wesley, 1990.
[17] Boscovisch, R. J. (1757): De litteraria expeditione per pontificiam ditionem, et synopsis
amplioris operis, ac habentur plura eius ex exemplaria etiam sensorum impressa. Boloniensi
Scientiarum et Artium Instituto Atque Academia Commentarii 4, 353-396.
[18] Bowden, R. J., Turkington, D. A. (1984): Instrumental Variables. Cambridge: Cambridge
University Press.
[19] Bradley, E. L. (1973): Equivalence of maximum likelihood and weighted least squares estimates in the exponential family. Journal of American Statistical Association 768, 199 200.
[20] Breiman, L., Friedman, J. H., Olshen, R. A., Stone, C. J. (1984): Classification and Regression Trees. Belmont, California: Wadsworth International Group.
[21] Breusch, T. S., Pagan, A. R. (1979): A simple test for heteroscedasticity and random coefficient variation. Econometrica 47, 1287 -1294.
[22] Charnes, A., Frome, E. L., Yu, P. L. (1976): The equivalence of generalized least squares and
maximum likelihood estimates in the exponential family. Journal of American Statistical
Association 71, 169 - 171.
[23] Chatterjee, S., Hadi, A. S. (1988): Sensitivity Analysis in Linear Regression. New York: J.
Wiley & Sons.
[24] Chatterjee, S., Price, B. (1977): Regression Analysis by Example. New York: J. Wiley &
Sons.
[25] Chow, G. C. (1960): Tests of equality between sets of coefficients in two linear regressions.
Econometrica 28, 591 - 605.
[26] Clemen, R. T. (1986): Linear constraints and efficiency of combined forecasts. Journal of
Forecasting 6, 31 - 38.
[27] Cochrane, D., Orcutt, G. H. (1949): Application of least squares regression to relationships
containing autocorrelated error terms. Journal of the American Statistical Association, 44,
32 - 61.
[28] Cook, R. D., Weisberg, S. (1983): Diagnostics of heteroscedasticity in regression. Biometrika
70, 1 - 10.
[29] D’Agostino, R. B., Belanger, A., D’Agostino, R. B. Jr. (1990): A suggestion for using
powerful and informative tests of normality. American Statisticians 44, 316 - 321.
[30] Dhrymes, P. J.(1978): Introductory Econometrics. Springer-Verlag, New York.
[31] Draper, N. R., Smith, H. (1981): Applied Regression Analysis. New York: J.Wiley & Sons,
2nd edition (1st edition 1966).
174
[32] Durbin, J., Watson, G. S. (1952): Testing for serial correlation in least squares regression.
I. Biometrika 37, 409-428.
[33] Eicker, F. (1967): Limit theorems for regression with unequal and dependent errors. In
Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, L.
Le Cam, J. Neyman, eds., Berkeley: University of California Press.
[34] Farrar, D. E., Glauber, R. R. (1967): Multicollinearity in regression analysis: The problem
revisited. Review of Economics and Statistics 49, 92-107.
[35] Fisher, R. A. (1922): On the mathematical foundations of theoretical statistics. Philos.
Trans. Roy. Soc. London Ser. A 222, pp. 309–368.
[36] Friedman, M. (1957): A Theory of the Consumption Function. Princeton: Princeton University Press.
[37] Friedman, R. (1982): Multicollinearity and ridge regression. Allgemeines Statistisches
Archiv 66, 120 - 128.
[38] Froehlich, B. R. (1973): Some estimators for a random coefficient regression model. Journal
of the American Satistical Association 68, 329–334.
[39] Frome, E. L., Kutner, M. H., Beauchamp, J. J. (1973): Regression analysis of Poissondistributed data. Journal of American Statistical Association 68, 935 - 940.
[40] Galilei, G. (1632): Dialogo dei masimi sistemi.
[41] Galton F. (1886): Regression towards mediocrity in hereditary stature. Journal of the
Antropological Institute 15, 246–263.
[42] Gauss F. C. (1809): Theoria molus corporum celestium. Hamburg: Perthes et Besser.
[43] Glivenko, V. I. (1933): Sulla determinazione empirica delle leggi di probabilita. Giorn.
Inst.Ital. Attuari 4, 92.
[44] Goldberger, A. S. (1972): Structural equation methods in the social sciences. Econometrica
40, 979 - 1001.
[45] Goldfeld, S. M., Quand, R. E. (1965): Some tests for homoscedasticity. Journal of American
Statiststical Association 60, 539 - 547.
[46] Goldfeld, S. M., Quand, R. E. (1972): Nonlinear Methods in Econometrics. North-Holland,
Amsterdam.
[47] Granger, C. W. J. (1969): Ivestigating casual relations by econometric models and crossspectral methods. Econometrica 37, 424 - 438.
[48] Greene, W.H. (1993): Econometric Analysis, New York. Macmillam Press.
175
[49] Griffiths, W. E., Anderson, J. R. (1982): Using time-series and cross-section data to estimate a production function with positive and negative marginal risks. Journal of American
Statistical Association 77, 529–536.
[50] Gunst, R. F. (1983): Regression analysis with multicollinear predictor variables: The problem revisted. Review of Economic Statistics 49, 92 - 107.
[51] Hampel, F.R., Ronchetti, E.M., Rousseeuw, P.J., Stahel, W.A. (1986): Robust Statistics –
The Approach Based on Influence Functions. New York: J.Wiley & Sons.
[52] Hand, D. J., Daly, F., Lunn, A. D., McConway, K. J., Ostrowski, E. (1994): Handbook of
Small Data Sets. London: Chapman & Hall.
[53] Harvey, A. C. (1974): Estimation of parameters in a heteroscedastic regression model. European Meeting of the Econometric Society, Grenoble, France.
[54] Hausman, J. (1978): Specification test in econometrics. Econometrica, 46, 1978, 1251 1271.
[55] Hensher, D., Johnson, L. (1981): Applied Discrete-Choice Modelling. New York: Halsted.
[56] Hettmansperger, T. P., Sheather, S. J. (1992): A Cautionary Note on the Method of Least
Median Squares. The American Statistician 46, 79–83.
[57] Hewitt, E., Stromberg, K. (1965): Real and Abstract Analysis. Berlin: Springer - Verlag.
[58] Hildreth, C., Houck, J. P. (1968): Some estimators for a linear model with random coefficients. Journal of the American Statistical Association 63, 584 –595.
[59] Hoerl, A. E., Kennard, R. W. (1970): Ridge regression: Biased estimation for nonorthogonal
problems. Technometrics 12, 55 - 68.
[60] Hoerl, A. E., Kennard, R. W. (1970): Ridge regression: Application to nonorthogonal problems. Technometrics 12, 69 - 82.
[61] Huang, H. C., Bolch, B. W. (1974): On the testing of regression disturbances for normality.
Journal of American Statistical Association 69, 330 - 335.
[62] Humphreys, R. M. (1978): Studies of luminous stars in nearby galaxies. I. Supergiants and
0 stars in the milky way. Astrophysical Jouranal Supplemant Series 38, 309–350.
[63] Judge, G. G., Griffiths, W. E., Hill, R. C., Ltkepohl, H., Lee, T. Ch (1982): Introduction to
the Theory and Practice of Econometrics. New York: J.Wiley & Sons.
[64] Judge, G. G., Griffiths, W. E., Hill, R. C., Ltkepohl, H., Lee, T. Ch (1985): The Theory and
Practice of Econometrics. New York: J.Wiley & Sons (second edition).
[65] Just, R. E., Pope, R. D. (1978): Stochastic specification on production function and Economic implications. Journal of Econometrics 7, 67–86.
176
[66] Kendall, M. G., Stuart, A. (1973): The Advanced Theory of Statistics. Vol. 2. Inference and
Relationship. New York: Hafner.
[67] Kiefer, N. M., Salmon, M. (1983): Testing normality in econometric models. Economics
Letters 11, 123 - 128.
[68] Kmenta, J. (1986): Elements of Econometrics. New York: Macmillan Publishing Company.
[69] Kuhn, T. S. (1965): Structure of Scientific Revolution. Chicago: University of Chicago Press,
Phoenix Broks 159.
[70] Kullback, S. (1959): Information Theory and Statistics. New York: J. Wiley & Sons.
[71] Kumar, T. K. (1975): Multicollinearity in regression analysis. Review of Econometrics and
Statistics, 57, 365 - 366.
[72] Laplace, P. S. (1793): Sur quelques points du systeme du mode. Memoires de l’Academie
Royale des Sciences de Paris, 1-87.
[73] Leamer, E: (1983): Model choice and specification analysis. In Handbook of Econometrics,
Vol. I, 285 - 331. Z. Griliches and M. Intriligator, eds. Amsterdam, North Holand.
[74] Legendre, A. M. (1805): Nouvelles méthodes pour la détermination des orbites des comètes.
Paris: Courcier.
[75] Liviatan, N. (1963): Consistent estimator of distributed lags. International Economic Review, 4, 44 - 52.
[76] Locke, C., Spurrier, J. S. (1977): The use of U-statistics for testing normality against alternative with both tails heavy or both tails light. Biometrika 64, 638 - 640.
[77] Lopuha, H. P. (1989): Estimation of location and covariance with high breakdown point.
Ph D Thesis. Technical University of Delft.
[78] Mallows, C. L. (1973): Some comments on Cp . Technometrics 15, 661 - 676.
[79] Marquart, D. W. (1970): Genaralized inverses, ridge regression, biased linear estimation
and nonlinear estimation. Technometrics 12, 591 - 612.
[80] Marquart, D. W., Snee, R. D. (1975): Ridge regression in practice. American Statistician
29, 3 - 20.
[81] Mason, R. L., Gunst, R. F., Hess, J. L. (1989): Statistical Design and Analysis of Experiments, New York: J.Wiley & Sons.
[82] Mason, R. L., Gunst, R. F., Webster, J. T. (1975): Regression analysis and problems of
multicollinearity. Communication in Statistics 4, 277 - 292.
[83] McCallum, B. T. (1972): Relative asymptotic bias from errors of observation and measurement. Econometrica 40, 757–758.
177
[84] McFadden, D. (1976): Quantal choice analysis : A survey. Annals of Economic and Social
Measurement 5, 363 - 390.
[85] Montgomery, D. C., Askin, R. G. (1981): Problems of nonnormality and multicollinerityfor
forecasting methods based on the leat squares. AIIE Transactions 13, 102 - 115.
[86] Montgomery, D. C., Peck, E. A. (1982): Introduction to Linear Regression Analysis. New
York: J.Wiley & Sons.
√
[87] Mulholland, H. P. (1977): On the null distribution of b1 for samples of size at most 25
with tables. Biometrika 64, 401 - 409.
[88] von Neumann, J. (1941): Distribution of the ratio of the mean-square successive difference
to the variance. Annals of Mathematical Statistics 12, 367 - 395.
[89] Nicholls, D. F., Pagan, A. R. (1983): Heteroscedasticity in models with lagged dependent
variables. Econometrica 51, 1233–1242.
[90] Pearson, E. S., D’Agostino, R. B., Bowman, K. O. (1977): Tests for departure from normality: Comparison of powers. Biometrika 64, 231 - 246.
[91] Pearson, E. S., Hartley, H. O. (1956, 1972): Biometrika Tables for Statisticians I., II. Cambridge University Press.
[92] Pitman, E. J. G. (1937): The ‘closest’ estimates of statistical parameters. Proc. Camb. Phil.
Soc. 33, 212-222.
[93] Prais, S. J., Houthakker, H. S. (1955): The Analysis of Family Budgets. New York: Cambridge University Press.
[94] Prais, S. J., Winsten, C. B. (1954): Trend estimators and serial correlation. Cowless Commission Discussion Paper No 383, Chicago.
[95] Press, S., Wilson, S. (1978): Choosing between logistic regression and discriminant analysis.
Journal of the American Statistical Association 23, 699 - 705.
[96] Prigogine, I., Stengers, I. (1977): La Nouvelle Alliance. SCIENTIA, 1977, issues 5-12.
[97] Prigogine, I., Stengers, I. (1984): Out of Chaos. London: William Heinemann Ltd.
[98] Raj, B., Srivastava, V., Upadhyaya, S. (1980): The efficiency of estimating a random coefficient model. Journal of Econometrics 12, 285–299.
[99] Rao, R. C.. (1978): Lineárnı́ metody statistické indukce a jejich aplikace. Praha: Academia.
[100] Rao, R. C., Zhao, LC. (1992): On the consistency of M -estimate in linear model obtained
through an estimating equation. Statistics & Probability Letters 14, 79 - 84.
[101] Rousseeuw, P.J., Leroy, A.M. (1987): Robust Regression and Outlier Detection. New York:
J.Wiley & Sons.
178
[102] Rubio, A., Aguilar, L., Všek, J. Á. (1992): Testing for difference between models. Computational Statistics 8, 57 - 70.
[103] Ruppert, D., Carroll, R. J. (1980): Trimmed least squares estimation in linear model. J.
Americal Statist. Ass., 75 (372), pp. 828–838.
[104] Saniga, E. M., Miles, J. A. (1979): Power of some standard goodness-of-fit tests of normality
against asymmetric stable alternatives. Journal of the American Statistical Ass. 74, 861 865.
[105] Scheffe, H. (1959): The Analysis of Variance. New York: J.Wiley & Sons.
[106] Schwarz, G. (1978): Estimating the dimension of model. The Annals of Statistics, 6, 461
- 464.
[107] Shapiro, S. S., Wilk, M. B. (1965): An analysis of variance test for normality(complete
samples). Biometrika 52, 591 - 611.
[108] Šidák, Z. (1967): Rectangular confidence regions for the means of multivariate normal
distributions. J. Amer. Statist. Assoc. 62, pp. 626–633.
[109] Štěpán, J. (1987): Teorie pravděpodobnosti. Praha: Academia.
[110] Szroeter, J. (1978): A class of parametric tests of heteroscedasticity in linear econometric
models. Econometrica 46, 1311 - 1328.
[111] Theil, H. (1965): The analysis of disturbance in regression analysis. J. Amer. Statist. Assoc.
60, 1067 - 1079.
[112] Theil, H. (1971): Principles of Econometrics. New York: J.Wiley & Sons.
[113] Vandaele, W. (1978): Participation in illegitimate activities: Erlich revisted. In Deterrence
and incapacitation, Blumstein,A., Cohen, J., Nagin, D., eds. Washington. D. C.: National
Academy of Sciences, 270 - 335.
[114] Vı́šek, J. Á (1996 a): Sensitivity analysis of M -estimates. Annals of the Institute of Statistical Mathematics 48(1996), 469-495.
[115] Vı́šek, J. Á (1996 b): On the coefficient o determination: Simple but ... . Bulletin 5/1996
of the Czech Econometric Society, 117 - 124.
[116] Vı́šek, J. Á (1996 c): On high breakdown point estimation. Preprint. Computational Statistics (1996) 11:137-146, Berlin.
[117] Vı́šek, J. Á (1997 a): Data subsample influence in M -estimation of the non-linear regression
model. Preprint.
[118] Vı́šek, J. Á (19967 b): Robust constrained combination of forecasts. Working paper presented on The Econometric Society European Meeting, Bogazi University, Istanbul 25 - 29
August, 1996.
179
[119] Vı́šek, J. Á (1997 c): Combining the forecasts by their decomposition. Proceedings of the
Mathematical Methods in Economics, Ostrava, September 9 - 11, 1997, pp. 188 - 193.
[120] Vı́šek, J. Á (1997 d): On the diversity of estimates. Submitted to Computational Statistics
and Data Analysis.
[121] Vı́šek, J. Á (1997 e): Contamination level and sensitivity of robust tests. Handbook of
Statistics, volume 15, 633 - 642, eds. G. S. Maddala & C. R. Rao.
[122] White, H. (1980): A heteroskedasticity-consistent covariance matrix estimator and a direct
test for heteroscedasticity. Econometrica 48, 817 - 838.
[123] White, H., MacDonald, G. M. (1980): Some large-sample tests for non-normality in the
linear regression model. Journal of the American Statistical Association 75, 16 - 28.
[124] Wickens, M. R. (1972): A note on the use of proxy variables. Econometrica 40, 759–761.
[125] Willan, A. R., Watts, D. G. (1978): Meaningful multicollinearity measures. Technometrics
20, 407 - 411.
[126] Working, E. J. (1927): What do statistical demend curves show. Quarterly Journal of
Economics 39, 503 - 545.
[127] Zellner, A., Lee, T. H. (1965): Joint Estimation of relationships involving discrete random
variables. Econometrica 33, 382 - 394.
[128] Zv ara, K. (1989): Regresnı́ analýza (Regression Analysis – in Czech). Praha: Academia.
180
13
Autorský rejstřı́k
181
Index
Aguilar, L. 171
Aigner,D. J. 144
Akaike, H. 60, 87
Amemiya, T 79, 80, 139, 140
Anderson, J. R. 80
Anderson, T. W. 91, 95
Anděl, J. 51, 97, 131, 163
Askin, R. G. 124
Bartlett, M. S. 81
Belanger, A. 87
Belsley, D. A. 123
Bera, A. K. 85
Berndt, E. 19, 49, 51
Beuchamp, J. J. 36
Bohr, N. 7
Bolch, B. W. 86
bonyhady, B. P. 80
Boscovitch, R. J. 10
Bowden, R. J. 97
Bowman, K. O. 85
Bradley, E. L. 36
Breiman, L. 142
Breusch, T. S. 80, 81
Carroll, R. J. 15
Charnes, A. 36
Chatterjee, S. 16, 17, 64, 101
Cramer, H. 30, 31
Chow, G. C. 58
Clemen, R. T. 115
Cochran, W. G. 87
Cook, R. D. 80
D’Agostino, R. B. 85
Daly, F. 19
Dhrymes, P. J. 139
Draper, N. R. 163
Durbin, J. 83, 88, 90
Eicker, F. 76
Farrar, D. E. 123, 124
Fisher, R. A. 44, 85
Friedman, J. 142
Friedman, M. 95
Friedman, R. 123
Froehlich, B. R. 79
Frome, E. L. 36
Galilei, G. 8, 10
Galton, F. 10
Gauss, C. F. 10, 24
Glauber, R. R. 123, 124
Glivenko, V. I. 72
Gődel, K. 8
Goldberger, A. S. 99
Goldfeld, S. M. 81
Granger, C. W. J. 12
Greene, W. H. 98
Griffiths, W. E. 25, 80, 83, 85, 86, 92, 139, 148
Gunst, R. F. 13, 109
Hadi, A. S. 16, 17, 64, 101
Hand, D. J. 19
Hampel, F. R. 85, 87, 128, 129
Hartley, H. O. 87
Harvey, A. C. 77, 79
Hausman, J. 98
Hensher, D. 139
Hess, J. L. 14
Hettmansperger, T. P. 14
Hewitt, E. 13
Hill, R. C. 25, 80, 83, 85, 86, 92, 139, 148
Hoerl, A. E. 67
Huang, H. C. 95
Humphreys, R. M. 22
Jarque, C. M. 85
Johnson, L. 139
Judge, G. G. 25, 80, 83, 85, 86, 92, 139, 148
Just, R. E. 80
Kant, I. 8
181
Kennard, R. W. 110
Kendall, M. G. 81
Kiefer, N. M. 85
Kmenta, J. 19, 80, 83, 92, 148
Kuh, E. 123
Kuhn, T. S. 24
Kullback, S. 60
Kumar, T. K. 123
Kutner, M. H. 36
Laplace, P. S. 10
Leamer, E. 123
Lee, T. C. 25, 80, 83, 85, 86, 92, 139, 148
Legendre, A. M. 10
Leroy, A. M. 14, 128
Liviatan, N. 97
Locke,C. 85
Lopuhaa̋, H. P. 129
Lunn, A. D. 19
Lűtkepohl, H. 25, 80, 83, 85, 86, 92, 139, 148
MacDonald, G. M. 85
Mallows, C. L. 60
Mason, R. L. 14, 109
McCllum, B. T. 145
McConway, K. 19
McFaden, D. 139
Miles, J. A. 85
Montgomery, D. C. 121
Mulholland, H. P. 87
von Neumann, J. 82, 90, 91
Olshen, R. A. 142
Orcutt, G. H. 87
Ostrowski, E. 19
Pagan, A. R. 79, 80, 81
Pearson, E. S. 85, 87
Peck, E. A. 121, 128
Pitman, E. J. G. 91
Popper, K. 8
Powell, J. 140
Prais, S. J. 73, 87
Press, S. 140
Price, B. 18
Prigogine, I. 8, 9
Quand, R. E. 81
Raj, B. 79
Rao, R. C. 27, 28, 30, 36, 72, 163
Ronchetti, E. M. 85, 87, 128, 129
Rousseeuw, P. J. 15, 85, 87, 128, 129
Rubio, A. M. 171
Ruppert, D. 15
Salmon, M. 85
Saniga, E. M. 85
Scheffe, H. 163
Shapiro, S. S. 86
Sheather, S. J. 14
Smith, H. 163
Snee, R. D. 109
Spurrier, J. S. 85
Srivastava, V. 79
Stahel, W. A. 85, 87, 128, 129
Stone, C. J. 142
Stromberg, K. 13
Stengers, I. 8, 9
Stuart, A. 81
Szroeter, J. 82
Šidák, Z. 53
Štěpán, J. 27, 28
Theil, H. 73, 77, 86
Turkington, D. A. 97
Upadhyaya, S. 79
Vandaele, W. 19
Varadarajan 28
Vı́šek, J. Á. 106, 119, 121, 128, 171
Watson, G. S. 83, 88, 90
Watts, D. G. 123
Webster, J. T. 109
Weisberg, S. 80
Welsch, R. E. 123
White, H. 76, 83
182
Wickens, M. R. 145
Wilk, M. B. 86
Willan, A. R. 123
Wilson, S. 140
Winsten, C. B. 87
Working, E. J. 98
Yu, P. L. 36
Zellner, A. 139
Zhao, LC. 28
Zvára, K. 25, 61, 92, 114
183
14
Věcný rejstřı́k
184
Index
absolutnı́ člen 21, 69, 70
Aitkenův odhad 74, 130, 159
analýza variance 160
dvojné třı́děnı́ 160, 164
jednoduché třı́děnı́ 160
normálnı́ rovnice 161
okrajová podmı́nka 160, 164
testovánı́ submodelu 163
rozklad součtu čtverců
pro jednoduché třı́děnı́ 163
pro dvojné třı́děnı́ 169
nadbytek parametrů v modelu 164
analýza
diskriminačnı́ 140
faktorová 114
hlavnı́ch komponent 114
CAPM (capital asset pricing model) 50
data
homogennı́ 68
normalizovaná 66
diagnostické nástroje 69, 106
dolnı́ Rao-Cramerovy hranice 30
Durbin-Watsonovo lemma 90
Durbin-Watsonova statistika 90, 92
dolnı́ kritická hodnota D-W 83
hornı́ kritická hodnota D-W 83
efekt
podurčenı́ 101
přeurčenı́ 103
faktory 11
faktorový prostor 11
Feller-Lindebergova věta 28
Fisher-Cochranovo lemma 45, 52
Fisher-Snedecorovo F 52
fluktuace, nezávislost 129
graf
diagnostický 69
stabilizace 114
reziduı́ 71
proti indexu (index plot) 72
proti normálnı́m kvantilům (normal plot)
72
proti predikované střednı́ hodnotě vysvětlované
proměnné 72
heteroskedasticita 72, 80
hladina významnosti 68
homoskedasticita 72, 80
hřebenová regrese (ridge regression) 110
hypotéza
Friedmanova, stálého důchodu 95
chyby předpovědi 118
instrumentálnı́ proměnné 93
interkvantil 63
interval spolehlivosti 53
kauzalita 11
koeficient determinace 49, 63
upravený (adjusted) 61
velikost 51
kolinearita 25, 65, 69, 107
(multikolinearita)
definice 107
determinant matice plánu 109
diagnostické nástroje 107
poměr vlastnı́ch čı́sel 107
kombinovánı́ předpovědı́ časových řad 114
kritérium
Akaikeho 60
Mallowsovo Cp 60
Kroneckerovo δ 101
kvadratická forma 44
kvalita předpovědi 118
matice
determinant 112
diagonálnı́ 40
184
idempotentnı́ 38, 57
Ocamova břitva 24
index podmı́něnosti 109
odhad
interval spolehlivosti 53
Aitkenův 74, 130, 159
korelačnı́ 63
asymptoticky normálnı́ 26
kovariančnı́ 63
dvoustupový 148, 156, 158
odhadů regresnı́ch koeficientů 63
trojstupový 158
nulový determinant 109
inkonsistence β̂ (LS,n) 94
pás spolehlivosti 53
invariance 70
plánu (designová) 20, 21
konsistentnı́ 26
kolinearita 25, 65, 69, 107
kvadratický 42
plná hodnost 25, 106
lineárnı́ 13, 26
poměr vlastnı́ch čı́sel 109
maximálně věrohodný 30, 148
pozitivně definitnı́ 39
metodou nejmenšı́ch čtverců 22, 24, 55, 74
pozitivně semidefinitnı́ 39, 108
naivnı́ 143
projekčnı́ (hat) 36
nejlepšı́ nestranný 30
diagonálnı́ prvky 62, 64
nestranný 26, 42
rozdı́l projekčnı́ch matic 56, 57
rozptylu 46, 68
singulárnı́ rozklad 108, 109
střednı́ kvadratická odchylka 68, 110
spektrálnı́ rozklad 41
studentizované, regresnı́ch koeficientů 46
vlastnı́ čı́slo 39
studentizovaný 66
vlastnı́ vektor 39
vychýlenı́ 110
medián 63, 64
omezenı́
mediánová absolutnı́ odchylka 64
lineárnı́ 114
metoda nejmenšı́ch čtverců 22, 24, 58
náhodná 120
model
P -hodnoty 69
adekvátnost 68
pás spolehlivosti 53
interpretace 105
pákový efekt 25, 106
s geometrickou strukturou regresnı́ch koeplná hodnost 24
ficientů 94
podmı́nka okrajová 160, 164
s náhodnými chybami měřenı́ u vysvětlujı́cı́ch
podurčenı́ modelu 101
proměnných 95, 142
pozorovánı́
s nekonečným počtem zpožděnı́ 97
leverage points (pákový bod) 22, 30
multikolinearita - viz kolinearita
odlehlá (outliers) 22, 30
nejmenšı́ čtverce 22, 24, 58, 143
vlivný bod 22, 106
nezávislost
předpoklad
statistická 12
nezávislosti fluktuacı́ 129
náhodných fluktuacı́ 87
normality reziduı́ 46, 47, 49
normalita fluktuacı́ 30, 85
přeurčenı́ modelu 101
šikmost 87
Pythagorova věta 51
špičatost 42, 87
regresnı́ model 11
nosiče 11
absolutnı́ člen (intercept) 21
pevné 67
185
role absolutnı́ho členu 69
signifikantnost absolutnı́ho členu 70
binárnı́ 131
fluktuace (náhodné) 12, 14, 20, 130
interpretace 105
interval spolehlivosti 53
koeficienty 12, 22, 63
koeficient determinace 49, 63
upravený (adjusted) 61
kolinearita 25, 65, 69, 107
definice 107
kvalita 118
lineárnı́ 13, 21
lineárnı́ pravděpodobnostnı́ 131
logitový 137
maticový zápis 22
normalita fluktuacı́ 30, 85
P -hodnoty 69
parametry 12
pás spolehlivosti 53
penalizace za bohatý model 60
Akaikeho kritérium 60
Mallowsovo kritérium Cp 60
pevné nosiče 67
podurčenı́ modelu 101
probitový 135
přeurčenı́ modelu 103
regresory 11
spolehlivost, adekvátnost 62
submodel 56
šum 12
testovánı́ submodelů 56, 58, 131
výběr 59
zobecněný 129, 130
reziduálnı́ součet čtverců 42, 47, 49, 57, 69
reziduum 21
BLUS 86
heteroskedasticita 72, 80
homoskedasticita 72, 80
nezávislost náhodných fluktuacı́ 129
normalita 46, 47, 49
volatilita 80
rovnice
normálnı́ 147
simultánı́ 11, 95, 148
analýza identifikovanosti koeficientů 153
neomezené (unrestricted) 152
odhad dvoustupový 148, 156, 158
odhad trojstupový 158
omezené (restricted) 152
podmı́nka na počet parametrů 154
podmı́nka na hodnost matice 154
podmı́nka identifikovatelnosti koeficientů
pomocı́ omezenı́ 155
problém identifikace 152, 159
redukovaný tvar 148
strukturálnı́ tvar 148
typy soustav rovnic 152
zdánlivě nesouvisejı́cı́ 145, 159
rozptyl 62
reziduı́ 63
Shapiro-Wilkova statistika 86
silný zákon velkých čı́sel 27
simultánı́ rovnice 11, 95, 148
Sluckého věta 28
Studentovo t 47
střednı́ hodnoty 62
stupně volnosti 63
šikmost 87
špičatost 42, 87
test
Bartlettův 82
Breusch-Paganův 81
Chowův 58
Durbin-Watsonův 83
Farrar-Glauberův 62
Goldfeld-Quandtův 82
heteroskedasticity, v přı́padě korelovanosti
fluktuacı́ 84
Shapiro-Wilkův 86
Szroeterova třı́da 82
Whiteův 82
testovánı́
shodnosti regresnı́ch modelů 58
186
submodelů 56, 58
těžiště dat 68
veličina
endogenı́ 11
exogenı́ 11
koncová 11
lagged endogenous 11
posunuté endogenı́ 11
predeterminovaná 11
proxy 144
výstupnı́ 11
vysvětlovaná 11
vysvětlujı́cı́ 11
absolutnı́ velikost 67
diskrétnı́ 130
kvalitativnı́ 130
měřené s chybami 95, 142
náhodné 14
nepřı́stupná 144
vypuštěnı́ 69
vlastnı́ čı́slo 39
vlastnı́ vektor 39
vlivný bod 22, 106
volatilita 80
vypuštěnı́ proměnných 69
výstupy z počı́tačových knihoven 61
změna
ve sklonu regresnı́ nadroviny 69
v predikci 69
zobecněný odhad metodou nejmenšı́ch čtverců
74
s odhadnutými parametry 75
187