1 Predmluva 4 2 ´UVOD DO REGRESNÍ ANAL´YZY 9 3

Transkript

Obsah
1 Předmluva
4
2 ÚVOD DO REGRESNÍ ANALÝZY
9
3 LINERNÍ REGRESNÍ MODEL
3.1 Odhad regresnı́ch koeficientů . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Odhad rozptylu náhodných fluktuacı́ . . . . . . . . . . . . . . . . . . . . . . . . .
19
19
35
4 DIAGNOSTIKA ODHADU REGRESNÍHO MODELU
4.1 Rozdělenı́ kvadratických forem . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Rozdělenı́ odhadu rozptylu náhodných fluktuacı́ a studentizovaných odhadů regresnı́ch koeficientů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Koeficient determinace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Intervaly a pásy spolehlivosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 Testovánı́ submodelů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6 Výběr modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
43
5 VÝSTUPY Z POČTAČOVÝCH KNIHOVEN
5.1 Tabulky výsledků . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Grafy reziduı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
60
70
6 OVĚŘOVÁNÍ ZÁKLADNÍCH PŘEDPOKLADŮ
6.1 Homoskedasticita a heteroskedasticita . . . . . . . . . . . . . . . . .
6.1.1 Přı́klady situacı́ s heteroskedastickými fluktuacemi . . . . . .
6.1.2 Modely heteroskedasticity . . . . . . . . . . . . . . . . . . . .
6.1.3 Testy homoskedasticity . . . . . . . . . . . . . . . . . . . . .
6.1.4 Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Normalita náhodných fluktuacı́ . . . . . . . . . . . . . . . . . . . . .
6.3 Nezávislost náhodných fluktuacı́ . . . . . . . . . . . . . . . . . . . .
6.4 Nezávislost vysvětlujı́cı́ch proměnných a náhodných fluktuacı́ . . . .
6.4.1 vod a přı́klady situacı́ porušenı́ nezávislosti . . . . . . . . . .
6.4.2 Instrumentálnı́ proměnné . . . . . . . . . . . . . . . . . . . .
6.4.3 Hausmanův test nezávislosti regresorů a náhodných fluktuacı́
6.4.4 Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
72
72
72
74
79
83
84
86
92
92
95
97
99
.
.
.
.
.
.
.
100
100
102
105
106
107
109
113
7 ÚVAHY O SENSITIVITĚ MODELU
7.1 Efekt podurčenı́ . . . . . . . . . . . . . . .
7.2 Efekt přeurčenı́ . . . . . . . . . . . . . . .
7.3 Vliv jednoho pozorovánı́ . . . . . . . . . .
7.4 Kolinearita . . . . . . . . . . . . . . . . .
7.4.1 Zdroje a rozpoznánı́ kolinearity . .
7.4.2 Hřebenová regrese . . . . . . . . .
7.4.3 Odhady s lineárnı́mi ohraničujı́cı́mi
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
podmı́nkami
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
48
52
55
58
7.4.4
7.4.5
7.4.6
Alternativnı́ indikátory kolinearity a jejich záludnosti . . . . . . . . . . . 120
Alternativnı́ řešenı́ problému kolinearity . . . . . . . . . . . . . . . . . . . 123
Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
8 NĚKTERÉ SPECIÁLNÍ TYPY REGRESNÍHO MODELU
128
8.1 Zobecněný regresnı́ model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
8.2 Model s diskrétnı́ vysvětlovanou proměnnou . . . . . . . . . . . . . . . . . . . . . 129
8.2.1 Problémy s použitı́m klasického regresnı́ho modelu pro binárnı́ vysvětlovanou
veličinu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
8.2.2 Model s binárnı́ možnostı́ výběru . . . . . . . . . . . . . . . . . . . . . . . 131
8.2.3 Odhady parametrů v lineárnı́m pravděpodobnostnı́m modelu . . . . . . . 132
8.2.4 Odhady parametrů v probitovém a logitovém modelu . . . . . . . . . . . 134
8.2.5 Diskuze k použitı́ probitového a logitového modelu . . . . . . . . . . . . . 138
8.3 Model s kategoriálnı́mi vysvětlujı́cı́mi proměnnými . . . . . . . . . . . . . . . . . 139
8.4 Vysvětlujı́cı́ proměnné měřené s náhodnými chybami . . . . . . . . . . . . . . . . 141
8.5 Aproximace nepřı́stupných vysvětlujı́cı́ch veličin . . . . . . . . . . . . . . . . . . . 143
9 MODEL S VÍCEROZMĚRNOU VYSVĚTLOVANOU PROMĚNNOU
9.1 Zdánlivě nesouvisejı́cı́ rovnice . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Simultánı́ rovnice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1 Problém identifikace . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.2 Identifikace pomocı́ omezenı́ na kovariančnı́ matici náhodných fluktuacı́
9.2.3 Dvoustupňový odhad metodou nejmenšı́ch čtverců . . . . . . . . . . . .
9.2.4 Trojstupňový odhad metodou nejmenšı́ch čtverců . . . . . . . . . . . . .
.
.
.
.
.
.
144
144
147
151
154
155
157
10 ANALÝZA VARIANCE
159
10.1 Jednoduché třı́děnı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
10.2 Dvojné třı́děnı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
11 NĚKTERÉ NETRADIČNÍ METODY REGRESNÍ ANALÝZY
171
12 Literatura
174
13 Autorský rejstřı́k
181
14 Věcný rejstřı́k
184
4
1
Předmluva
Zpracovánı́ dat, at’ už jsou numerického či kategoriálnı́ charakteru, se stalo v modernı́ vědě jednou
ze standarnı́ch metod vyhodnocovánı́ informace. Zpracovánı́ samo je pak obvykle založeno na
nějaké našı́ představě o charakteru dat, či chcete-li o mechanizmu, který generoval daná data.
Zmı́něná představa je zpravidla formalizována do nějaké vědecké, či se tak alespoň tvářı́cı́,
teorie. Konečně pak výsledky zpracovánı́ jsou pokládány za objektivnı́ zjištěnı́ o světě, který
nás obklopuje a který se takto pokoušı́me pochopit a (naivně) ovládnout. Celý tento postup
je obklopen, či spı́še “proniknut” celou řadou mýtů a zavádějı́cı́ch představ, které majı́ své
historické kořeny v renesanci a osvı́cenectvı́, a své ideové a možná, že by bylo přesnějšı́ řı́ci
ideologické, kořeny v pýše člověka, coby pána přı́rody. Někdy jdou představy těch, kteřı́ toto
zpracovánı́ aplikujı́ až tak daleko, že každé jiné zpracovánı́ informace pokládajı́ přinejmenšı́m
za druhořadé, ne-li rovnou za bezcenné. Dodejme rovnou, že obvykle jsou to ti, kteřı́ nekriticky
obdivujı́ vědecké poznánı́ a neuvědomujı́ si ani reálné možnosti modernı́ vědy, na straně jedné,
ani jejı́ nepřekročitelné hranice, na straně druhé.
Skripta, která máte před sebou, jsou výkladem jedné z metod zpracovánı́ dat, a dodejme,
že jedné z nejefektivnějšı́ch, totiž regresnı́ analýzy. Jako taková nabı́dnou propracovanou teorii,
či přesněji řečeno, jejı́ část, kterou bychom dnes mohli nazvat snad klasickou částı́ regresnı́
analýzy. Tato je téměř výhradně založena na metodě nejmenšı́ch čtverců a zhruba po třech
desetiletı́ch budovánı́ robustnı́ statistiky, je již současné době menšı́ částı́ teorie regrese. Důvody,
proč se této klasické teorii budeme věnovat, jsou následujı́cı́. Mezi uživateli je mimo jakoukoliv
pochybnost stále nejvı́ce známa a nejvı́ce užı́vána, ač se snadno prokáže, že metoda nejmenšı́ch
čtverců je jednou z nejnáchylnějšı́ch k “vyprodukovánı́” zavádějı́cı́ch výsledků. Tı́m spı́še je
třeba si ji osvojit tak, abychom včas rozpoznali, kdy k něčemu takovému může dojı́t. Dalšı́m
důvodem je pak to, že jsou jejı́ výsledky velmi často chybně interpretovány a to i v přı́padě, že
jejı́ výsledky jsou korektnı́. Tı́m spı́še je třeba si ji osvojit tak, abychom včas rozpoznali, kdy k
něčemu takovému došlo a uměli to uvést na pravou mı́ru. Dalšı́m důvodem je nepochybně také to,
že nabı́zı́ snadno akceptovatelnou geometrickou interpretaci (ted’ mluvı́me o interpretaci metody
nikoliv o interpretaci výsledků, aby bylo jasno). Pochopenı́ této interpretace metody nejmenšı́ch
čtverců nás snad nejlépe vyzbrojı́ k rozpoznánı́ výhod i nevýhod jiných metod odhadu regresnı́ch
koeficientů. Konečně pak komplexnost této klasické teorie, zejména pak jejı́ rozsáhlé diagnostické
partie napovı́dajı́ a zkušenosti to potvrzujı́, že bez zevrubné a eficientnı́ aposteriornı́ diagnostiky
nenı́ naděje na spolehlivost odhadnutého modelu solidně podepřena. To nám umožnı́ postavit
se kriticky k těm metodám, obvykle ad hoc vyvinutých na základě zdánlivě rozumné heuristiky,
1 které takovýto “doprovodný” aparát nenabı́zejı́ či jej alespoň neumožňujı́ převzı́t z klasické
regrese.
Dřı́ve než se však pustı́me do vlastnı́ho výkladu, vrat’me se alespoň velmi stručně k tomu,
1
V průběhu dalšı́ho výkladu bude několikrát použito slovo heuristika, které nepatřı́ mezi nejběžněji použı́vaná
slova každodennı́ češtiny. Upřesněme proto, co budeme tı́mto slovem rozumět. Tı́mto slovem budeme označovat
jakýsi soubor idejı́ a představ, či “rozumových” argumentů, které cosi vysvětlujı́, obvykle důvody, proč určitou
teorii či jejı́ část vytvářı́me právě tak, jak pak dále následuje. Nejde tedy jen o filozofické představy, ale o cosi
širšı́ho, založeného na “racionálnı́m” přı́stupu ke světu, což však, právě dı́ky té “zřejmé racionalitě” se může
ukázat v rámci formalizované teorie inkonsistentnı́, liché či zavádějı́cı́. Vzpomeňme jen toho, že vzhledem k tomu,
že mezi každými dvěma racionálnı́mi čı́sly je iracionálnı́ a každými dvěma iracionálnı́mi je racionálnı́, “zdravý”
rozum (někdy též označovaný jako “selský”) usoudı́, že je jich stejné množstvı́.
5
co bylo řečeno na začátku, totiž k některým mýtům, či chcete-li k filozofii, která stojı́ v pozadı́
zpracovánı́ dat, zejména v pozadı́ interpretace výsledků.
Renesance přinesla lidstvu osvobozenı́ od mnoha dogmat, která jej do té doby svazovala,
ale z dnešnı́ho pohledu jsme již schopni zřetelně nahlédnout, že nastolila mnohá jiná dogmata,
která žel Bohu stále ještě přežı́vajı́. Jednı́m z nich je nekritický obdiv k vědě, který je však pro ni
obvykle medvědı́ službou. Mějme vždy na paměti, byt’ budeme stát v tváři v tvář nejúžasnějšı́m
metodám, které modernı́ věda nabı́zı́, že je tato jen a jen výtvorem lidského ducha a zasluhuje
si náš obdiv, nikoliv však nekritický. Navı́c omezenost jejı́ch možnosti je vı́c než patrná. Stačı́ si
uvědomit, že na řadu velmi závažných, ne-li nejpodstatnějšı́ch problémů lidského života, věda
nemá a ani nemůže mı́t uspokojivou odpověd’. Jsou to např. otázky po smyslu lidského života,
po tom, odkud se bere láska, touha či naděje. Odpovědi na tyto otázky musı́me hledat jinde,
např. v teologii, která však zase přirozeně neumı́ tak dobře předpovı́dat, jaký že bude např.
hrubý národnı́ důchod v přı́štı́m čtvrtletı́.
Renesance však přinesla ještě dalšı́ představy, které se dnes jevı́ již jen těžko udržitelné
(z hlediska modernı́ filozofie vědy), ale které ještě stále ovlivňujı́ pohled modernı́ho člověka
na to, co to vlastně věda je. Jednou z nich je představa, že za abstrakcı́, kterou učinı́me
na základě pozorovánı́ (mnoha) opakovánı́ téhož jevu, často navozeného pevně danými okolnostmi, např. upuštěný kámen vždy padá k zemi, stojı́ jakási entita (gravitace), kterou sice
nemůžeme “na vlastnı́ oči” vidět (tak jak nemůžeme např. vidět vzduch), ale která, podobně
jako vzduch objektivně existuje a projevuje se nějakou kauzálnı́ zákonitostı́ (viz výše zmı́něná
představa o mechanizmu, který generoval data). Tato zákonitost je pak popsána teoriı́, přičemž
za ideálnı́ se považuje matematicky zformalizovaná teorie. K jejı́ verifikaci se pak použije pokus,
ve kterém se zkoumané objekty zachovajı́ tak, jak to “předpovı́” tato teorie. Renesačnı́ věda pak
předpokládala, že svět se vlastně skládá z (konečného) počtu takových zákonitostı́, či chcete-li
principů, které byly jednoznačně do světa vepsány jeho původnı́m hybatelem či se (po velkém
třesku2 ) samy od sebe nějak objektivně ustavily.
Pokusme se poněkud hlouběji proniknout do toho, co bylo právě řečeno. Již v 18. stoletı́
napsal Immanuel Kant, že Galileo Galilei podrobil přı́rodu výslechu a idealizoval ji, to jest
zmrzačil ji tak, až byla ochotna hovořit jazykem, který od nı́ chtěl slyšet, tj. jazykem matematiky.
Až přiznala, že se odjakživa řı́dı́ oněmi jednoduchými principy, tj. zákonitostmi. Galileo Galilei
nenaslouchal přı́rodě jako žák učiteli, naslouchal ji jako soudce útrpného práva. (Viz Prigogine
a Stengers (1977).) Zamyslı́me-li se nad celou věcı́, snadno nahlédneme onu “troufalost”, která
si myslı́, že vysvětlenı́, zejména kauzálnı́ vysvětlenı́, které jsme tou či onou teoriı́ podali, je
jediné možné. Ostatně již Karl R. Popper v Bı́dě historicismu (Popper (1957)) naznačil, že
všichni ti, kteřı́ si myslı́, že našli jediné možné zákonité, pokud možno deterministicky kauzálnı́
vysvětlenı́ trpı́ jen nedostatkem fantazie (ne-li i něčı́m horšı́m)3 . Je naprosto jasné, že výše
uvedené abstrakce (jako je např. gravitace) jsou nesmı́rně užitečné, nebot’ dovolujı́ popsat určitý
jev naráz a nikoliv v jeho jednotlivostech. Na druhé straně, uznánı́ či přijmutı́ objektivnı́ existence
takové entity (jako např. gravitace) vyžaduje přinejmenšı́m velice rozsáhlou diskuzi o tom, co
to je objektivnı́ existence, ale spı́še to prostě vyžaduje určitý krok vı́ry.
2
Ten samozřejmě renesance ještě nepředpokládala, proto ty závorky.
Prosı́m vzpomeňte si na Karla Rainmunda Poppera vždy, kdykoliv Vás někdo bude přesvědčovat, že jedině
on má pravdu; trpı́ jen (snad jen) nedostatkem představivosti.
3
6
V pracech Ilji Prigogina a Isabely Stengersové (viz např. Prigogine a Stengers (1984)) pak
zvı́davý čtenář může také nalézt diskuzi k tomu, že podobné, často velmi nezřetelné a tudı́ž
špatně rozpoznatelné kroky vı́ry si vyžadujı́ i ty “nejprimitivnějšı́” počátky zkoumánı́ světa,
které učinı́me už ve svém ranném dětstvı́. Jejich práce diskutujı́ rovněž “sklon” vědeckých
teoriı́ ke kauzalitě. Touha po dosaženı́ teorie majı́cı́ charakter kauzálnı́ch souvislostı́ má svoje
kořeny rovněž v renesanci. Problematičnost tohoto pojmu začala být zřejmá v modernı́ fyzice
a odvı́jı́ se od pracı́ Nielse Bohra. Zdánlivě tato problematika souvisı́ s neřešitelnou a vlastně
v podstaě zavádějı́cı́ otázkou o deterministickém či indeterministickém charakteru světa. Ve
skutečnosti však jedná o otázku adekvátnosti (akceptovatelnosti, výhodnosti atd.) kauzálnı́ho či
pravděpodobnostnı́ho popisu světa. Zdůrazněme, že to zda zvolı́me pro popis světa kauzálnı́ teorii
či teorii využı́vajı́cı́ pravděpodobnostnı́ formalizmus, či jiný nástroj na formalizaci neurčitosti
a nejistoty, nikterak nevypovı́dá o tom, zda si myslı́me, že svět je deterministický či nikoliv.
Jak jsme totiž ukázali výše, názor, že naše teorie vysvětlujı́ jaký svět “ve skutečnosti” je, je
jen těžko udržitelný. Tato problematika je úzce svázána s výsledky Kurta Gdela o neúplnosti
bezesporných axiomatických systémů. Jeho výsledky patrně napovı́dajı́, že pravděpodobnostnı́
popis světa je inherentně vložen do našeho racionálnı́ho uvažovánı́ zakotveného v matamatice
tak, jak se historicky vyvinula.
Výše jsme řekli, že renesančnı́m ideálem “vysvětlujı́cı́” teorie byla matematicky formalizovaná teorie. To patrně platı́ i dnes. Právě naznačená diskuze naznačila, že cı́lem budovánı́ (formalizovaných) teoriı́ dost dobře nemůže být objektivnı́, jednoznačné vysvětlenı́ světa. Spokojı́meli se však se skromnějšı́m cı́lem, totiž s nalezenı́m nástroje na funkčnı́ predikci, bude jedno,
zda takových nástrojů bude vı́ce či jen jeden. Hlavně, když bude dávat spolehlivé předpovědi
či návody, chcete-li, jak např. urovnat válečné konflikty, zvýšit úrodu a zmı́rnit hlad mnoha
národů. Samozřejmě, že pak formalizovanějšı́ teorie má většı́ cenu než jakési vágnı́ závěry, nebot’
má většı́ naději dát efektivnějšı́ předpovědi. Je nutné si však uvědomit, že každá taková teorie
se opı́rá o zkušenost. Čı́m je tato zkušenost důvěryhodnějšı́, tj. čı́m jsou data, která jsme použili
spolehlivějšı́ a přesnějšı́, tı́m může být i výsledek formalizovanějšı́. Každý, kdo v životě prováděl
nějaké výpočty, si je vědom toho, že nemá obvykle cenu udávat výsledek na deset desetinných
mı́st, byla-li data měřena s přesnostı́ na jedno desetinné mı́sto.
Jednı́m z dalšı́ch mýtů, který dosud přežil a který je “úspěšně použı́ván” je výše zmı́něný
mýtus ověřovacı́ho pokusu. Je až zarážejı́cı́, že často i vědečtı́ pracovnı́ci, kterým se dostalo
alespoň elementárnı́ho statistického vzdělánı́, si neuvědomujı́, že ověřovacı́ pokus nenı́ nic vı́ce ani
nic méně než testovánı́ hypotézy. To bud’ hypotézu zamı́tne nebo nezamı́tne, ale nikdy nepotvrdı́
- kromě učebnicových akademických přı́padů, kdy hypotéza a alternativa jsou komplementárnı́.
Konečný, neodvolatený verdikt o teorii může být jen zamı́tavý, totiž když předpověd’ selže.
Jinak si lze vždy představit, že jiná data (jiné okolnosti, chcete-li to řı́ci jinak) mohou naši teorii
(hypotézu) docela dobře vyvrátit. Čı́sla 3, 5, 7, 11, 13 jsou sice lichá čı́sla a prvočı́sla, ale to ještě
neznamená, že jiná čı́sla teorii o tom, že všechna lichá čı́sla jsou prvočı́sla, nemohou vyvrátit.
Závěrem této krátké exkurze do filozofie (matematického) modelovánı́ si dovolme ještě jednu
poznámku. Ta ostatně rovněž souvisı́ s charakterem vědeckých teoriı́, tak jak byl výše diskutován.
V souvislosti s tı́m, že mnohdy se stále má za to, že teorie je jakýmsi objektivnı́m obrazem světa,
často oproštěného od spousty nepodstatných věcı́ a okolnostı́, interpretuje se to, co “vyšlo” po
aplikaci některé teorie jako jakési objektivnı́ zjištěnı́. To co “vyšlo”, je pokládáno za cosi, co
7
stojı́ kdesi za daty, či chcete-li, co je nějak v nich ukryto a k čemu jsme se právě pomoci našich
matematických nástrojů dopracovali. Podobně jako když oloupeme šlupky z cibule, najdeme jejı́
jádro. Potom závěry analýzy dat prezentujeme tak, že to tak objektivně vyšlo. Ačkoliv to tak
možná na prvnı́ pohled vypadá, ve skutečnosti tomu tak nenı́. Abychom to nahlédli vrat’me se
ještě krátce k výše uvedené diskuzi.
Uvědomme si, že výše zmı́něná abstrakce provedená na základě opakovánı́ mnoha podobných
jevů je věc provedená některým subjektem, tj. badatelem. Na tomto mı́stě prosı́m čtenáře, aby
se oprostil od marxismem pěstovaného pejorativnı́ho nádechu slova subjektivnı́, nebot’ dokud
bude věda prováděna jednotlivými muži a ženami, bude vždy subjektivnı́ v tom smyslu, že
odpovědnost za výše naznačenou abstrakci, právě tak jako za vytvořenı́ teorie a jejı́ přı́padnou
aplikaci nese (postupně) ten, kdo ji provedl, vymyslel a přı́padně rozhodl aplikovat. Nanejvýše
může dojı́t k “zobjektivozovánı́” tohoto postupu tı́m, že se na něm shodne vı́ce odbornı́ků z
dané oblasti. Ani to však nezměnı́ charakter výsledku na objektivnı́ či správný či udržitelný
(přı́padně si čtenář může doplnit jiné vznešené slovo). Stačı́ vzpomenout “zobjektivizovaný”
názor mnoha středověkých odbornı́ků o geocentrické podstatě našeho planetárnı́ho systému.
Podobně při analýze dat volba metody a interpretace výsledků je zcela na zodpovědnosti toho,
kdo ji použil a výsledky interpretoval. Prohlásı́li někdo, že cosi objektivně vyšlo bud’ se bojı́ nést
odpovědnost za výsledek nebo cosi nalhává sobě a ostatnı́m.
Na závěr předmluvy ještě uved’me dvě technické poznámky.
Předně dodejme, že předkládaná skripta již sama o sobě představujı́ takový objem textu,
který je na samé hranici možnostı́ býti vyložen v jednom semestru. Proto nebylo možno do skript
zařadit dalšı́ partie, které jsou sice úzce svázány s regresnı́ analýzou (robustnı́ regrese, dynamický
model spolu s alespoň krátkou exkurzı́ do časových řad, atd.), ale které jsou stejně přednášeny až
v rámci výběrové přednášky, navazujı́cı́ na tu, pro kterou jsou určena tato skripta. Proto autor
plánuje napsat dalšı́ dı́l skript (v průběhu jednoho až dvou let), který (přinejmenšı́m) pokryje
právě zmı́něné partie.
Mezi připomı́nkami těch, kteřı́ rukopis skript četli se někdy objevila ta, že text je přı́liš
zatı́žen vsuvkami umı́stěnými v závorkách. Ostatně je známo, že některé časopisy bud’ zcela
nebo téměř odmı́tajı́ text, ve kterém jsou závorky. To je přı́stup nepochybně extrémnı́ a poněkud
nerozumný. Je sice pravda, že to, co je umı́stěno v závorkách, lze vždy vyjádřit dalšı́ větou
umı́stěnou kdesi dále v textu, či vedlejšı́ větou, ale je to (prakticky) vždy za cenu většı́ho mı́sta.
Např. závorky u slova prakticky v předchozı́ větě dávajı́ tušit, že je to celé mı́něno s jakousi
pravděpodobnostı́, tj. platı́ to maličko slaběji, než by to platilo bez těch závorek. Podobný
přı́klad z nı́že uvedeného textu, totiž : “Naprosto přı́močarým zobecněnı́m tohoto modelu je
model uvažujı́cı́ soubor M regresnı́ch rovnic typu (3), které spolu (na prvnı́ pohled) nesouvisejı́
(odtud název).” demonstruje, že čeština (tedy alespoň psaný jazyk) pomocı́ závorek rozvinula
cosi, co možná řada jiných jazyků nemá. Pokud by totiž ono na prvnı́ pohled nebylo v závorce,
znamenalo by to sdělenı́, že rovnice spolu opravdu nesouvisejı́, dokonce evidentně nesouvisejı́, jak
je vidět na prvnı́ pohled. Takto naopak věta řı́ká, že se na prvnı́ pohled zdá, že spolu nesouvisejı́,
ale nenı́ to pravda, rovnice spolu nějak souvisejı́. Všimli jste si kolik mı́sta navı́c jsme potřebovali.
Samozřejmě, že to někdy činı́ čtenı́ textu méně plynulé, což však také může znamenat, že to
čtenáře donutı́ přečı́st si danou větu dvakrát a tı́m vypadnout z “polospánku”, do kterého upadá,
je-li text přı́liš plynulý. Na druhé straně, někdy je třeba, aby čtenář plynule sledoval lı́nii úvah,
8
nebot’ jinak nedojde ke stejnému závěru jako autor. (Někteřı́ autoři, zejména ve “společenskovědnı́” oblasti tento princip využı́vajı́ tak obratně, že čtenář pak jen těžko hledá bod, ve ktrém
autor učinil “krok stranou” a tı́m došel právě k tomu, k čemu chtěl dojı́t.) Přirozeně jako
všechny nástroje usnadňujı́cı́ sdělovánı́ informacı́, tak i tento musı́ mı́t svoji mı́ru. Ostatně žádný
extrémismus nenı́ nikdy ku prospěchu věci. Proto byly některé závorky (a trofám si řı́ci, že vı́ce
než polovina, tj. ty které šly bez většı́ spotřeby mı́sta) odstraněny.
Poděkovánı́. Autor skript by rád poděkoval všem, kteřı́ mu ke skriptům dodali nějaké
připomı́nky, zejména recenzentovi doc. ing. Igoru Vajdovi, DrSc., který skripta přečetl velmi
pozorně a navrhl řadu zlepšenı́. Za všechny přı́padné nedostatky však nesu odpovědnost toliko
já, a prosı́m proto o čtenářovu shovı́vavost. Velice ocenı́m všechny dalšı́ připomı́nky, zejména
týkajı́cı́ se obsahu a těch mı́st, kde jsou vyjadřována stanoviska k vhodnosti, použitelnosti atd.
toho či onoho postupu.
V Praze, 25. řı́jna 1997
9
2
ÚVOD DO REGRESNÍ ANALÝZY
Je naprosto přirozené, že ti, kdo se rozhodli seznámit se statistickým zpracovánı́m dat, se
v základnı́ch učebnicı́ch nejprve setkávajı́ s úlohami, ve kterých se odhadujı́ parametry rozdělenı́
náhodných veličin, přı́padně se testujı́ některé jednoduché hypotézy o nich. Se skutečně zajı́mavými
statistickými postupy se však setkajı́ až ve chvı́li, kdy dojde na úlohy, snažı́cı́ se postihnout
vzájemné vztahy náhodných veličin. Různých metod, které analyzujı́ strukturu vztahů mezi
náhodnými veličinami je přirozeně velké množstvı́ a každá z nich má za sebou historii, která
napovı́dá, proč byla taková metoda budována, tj. jaké byly původnı́ důvody pro jejı́ navrženı́,
jaká byla motivace, či chcete-li inspirace, autorů. Namátkou jmenujme např. analýzu variance, zpracovánı́ kontingenčnı́ch tabulek či diskriminačnı́ a shlukovou analýzu. Některé postupy
vznikly přirozeně zcela “mimo” statistiku, např. faktorová analýza, a byly statistiky teprve rozvinuty, přı́padně “dovybaveny” vhodným teoretickým aparátem. Historické záznamy dokládajı́
mimo jakoukoliv pochybnost, že pokusy o nalezenı́ vzájemného vztahu náhodných veličin existovaly od samých počátků budovánı́ teorie pravděpodobnosti (Galilei (1632), Boscovitch (a Maire)
(1757), Laplace (1793), Legendre (1805), Gauss (1809)). Skripta, které právě začı́náte studovat,
jsou věnována jedné z nejefektivnějšı́ch metod analýzy mnoharozměrných (či vı́cerozměrných,
jak chcete4 ) dat. Regresnı́ analýza, ač se to může zdát překvapivé, odvozuje svůj název od anglického slova regression. V roce 1885 totiž Sir Francis Galton publikoval výsledek svých studiı́ o
vztahu výšky otců a synů v článku “Regression towards mediocrity in hereditary stature”. Jak
napovı́dá název článku, zjistil, že je pravděpodobnějšı́ jev, že výška syna bude blı́že populačnı́mu
průměru než výška otce, než jev opačný, totiž že výška syna se bude od průměrné výšky mužů lišit
vı́ce než se lišı́ výška jeho otce. Ostatně, když už toto zjištěnı́ vı́me, připadá nám zcela přirozené,
nebot’ pokud by taková tendence neplatila, docházelo by k neomezené fluktuaci výšek mužů, tj.
dnes už by mezi námi museli žı́t jak obři tak trpaslı́ci. Odhad koeficientů modelu byla pořı́zen,
podobně jako je tomu i v převážné většině přı́padů dnes, metodou nejmenšı́ch čtverců (the least
squares), která v té době byla již téměř sto let známa, viz Adrien Marie Legendre (1805) a Carl
Friedrich Gauss (1809). Ačkoliv v době, kdy Sir Francis Galton psal svůj článek byla známa i jiná
metoda odhadu parametrů, totiž metoda minimalizujı́cı́ součet absolutnı́ch odchylek, je celkem
přirozené, že byla použita metoda nejmenšı́ch čtverců, nebot’ je jednoduchá a dává explicitnı́
vztah pro vyčı́slenı́ odhadů na základě analyzovaných dat. Naopak metoda minimalizujı́cı́ součet
absolutnı́ch odchylek (Galileo Galilei (1632), Roger Joseph (či Rodjer Josef) Boscovich (1757),
Pierre Simon Laplace (1793)), která je dnes použı́vána alternativně k metodě nejmenšı́ch čtverců,
vyžaduje, při většı́m počtu dat, nasazenı́ výkonné výpočetnı́ techniky. Na rozdı́l od nejmenšı́ch
čtverců však jejı́ výsledky lépe “vzdorujı́” kontaminacı́ dat, nebot’ v rámci dnes použı́vaných
pojmů je tato metoda robustnı́ alespoň proti odlehlým pozorovánı́m ve vysvětlované proměnné
a “navzdory” obecně panujı́cı́ domněnce či předsudku o jejı́ malé eficienci lze ukázat, že pokud
data generovaná byt’ přesně normálnı́m modelem obsahujı́ na každých 1000 pozorovánı́ dvě
poškozená (kontaminovaná) pozorovánı́, je tato metoda výkonnějšı́ (eficientnějšı́ - pro ty, kdo
4
Někdy jsou vedeny zdánlivě učené diskuze o tom, zda užı́vat to či ono slovo. Je celkem přirozené, že se takové
diskuze objevujı́, nebot’ některé vědnı́ obory by patrně jinak neměly co dělat. Je však přinejmenšı́m překvapivé,
že se takové diskuze objevujı́ dokonce i v matematice, kde definice přesně vymezujı́, o čem je řeč a tedy, až snad
na přı́pady extrémě necitlivého použitı́ některých slov, je celkem jedno, jaké slovnı́ označenı́ je zvoleno.
10
nejsou jazykovými puristy) než metoda nejmenšı́ch čtverců. Tato metoda býva z pochopitelných
důvodů označována jako L1 a podobně jako několik neznámých pojmů použitých v předchozı́
větě bude diskutována nı́že.
Obrat’me nynı́ naši pozornost na to, jaké cı́le si klade regresnı́ analýza. Něco bylo vlastně
již řečeno výše, totiž že regresnı́ analýza patřı́ mezi metody studujı́cı́ strukturu vzájemných
závislostı́ mezi jednotlivými veličinami. Mnohdy jsou však ambice této metody charakterizovány
snahou o nalezenı́ nástroje na predikci hodnoty jedné náhodné veličiny za předpokladu, že již
známe hodnoty několika jiných náhodných veličin či nenáhodných vysvětlujı́cı́ch faktorů. Někdy
se označuje tento druhý cı́l za vı́ce ambiciznı́ a implicitně se tı́m mı́nı́, že ten prvý je jakoby lehčı́
“podčástı́” toho druhého. Obecně však každý z těchto cı́lů vyžaduje jiné řešenı́, jak ostatně dále
uvidı́me. Teorie, která je v učebnicı́ch a monografiı́ch obvykle vykládána, vede k řešenı́ prvého
cı́le, ale nemusı́ být vždy řešenı́m toho druhého.
Dřı́ve než budeme pokračovat ve výkladu zaved’me alespoň nejzákladnějšı́, zcela standardnı́
označenı́. Označme tedy symbolem N množinu všech přirozených čı́sel, R reálnou přı́mku, R+ jejı́
kladnou část, Rp p-rozměrný Euklidovský prostor, Rn,k (některý) k-rozměrný podprostor prostoru Rn a konečně pak (Ω, A, P ) základnı́ pravděpodobnostnı́ prostor. Regresnı́ model budeme
uvažovat ve tvaru:
Yi = g(Xi , β 0 ) + Ei ,
i = 1, 2, . . . , n
(1)
pro všechna n ∈ N , kde g(x, β) bude některá hladká funkce, g : Rq ×Rp → R (q, p ∈ N ). Posloup’
nost {Xi }∞
i=1 bude bud deterministická posloupnost q-rozměrných vektorů (v tom přı́padě
∞
budeme psát {xi }i=1 ) či posloupnost (nezávislých a stejně rozdělených) náhodných veličin, tj.
Xi (ω) : Ω → Rq , které jsou navı́c nezávislé od posloupnosti {Ei }∞
i=1 , Ei (ω) : Ω → R, což je
jiná posloupnost, obvykle stejně rozdělených, nikoliv však nutně nezávislých, náhodných veličin.
Poslednı́ předpoklad nebývá v některých textech jasně zdůrazněn, ale jak uvidı́me později, jeho
narušenı́ má vážné důsledky. Veličina Yi stojı́cı́ na levé straně rovnosti (1) bývá označována
jako závisle proměnná, veličiny Xi jako nezávisle proměnné a Ei jako fluktuace. Nı́že uvedená
diskuze týkajı́cı́ se interpretace výsledků regresnı́ analýzy ale naznačı́, že je patrně lepšı́ použı́vat
pojmy jako vysvětlovaná veličina (pro Yi ) a vysvětlujı́cı́ veličiny pro Xi . Toto “názvoslovı́” totiž
nesvádı́ k domněnce, že odhadnuty model můžeme použı́t k predikci pro jakékoliv hodnoty
nezávisle proměnných. V dalšı́m textu se ještě k tomuto problému vrátı́me. Pro veličiny Yi , Xi
a Ei bývá uváděna i celá řada jiných termı́nů, které se snažı́ napovědět charakter těchto veličin
vzhledem k některým častým použitı́m či interpretacı́m regresnı́ho modelu. Např. Xi jsou někdy
označovány jako nosiče, regresory či jako faktory a přı́slušný Rq jako faktorový prostor. Také
v tomto textu budeme občas tato různá “pojmenovánı́” použı́vat, abychom si na ně přivykli
a nečinily nám potı́že při čtenı́ různých pramenů. Pro ty, kteřı́ se někdy v budoucnu budou
věnovat ekonomickým aplikacı́m, poznamenejme, že se ještě setkajı́ s rozlišenı́m, často sporným,
charakteru veličin vstupujı́cı́ch do modelu a narazı́ na pojmy endogenı́ (česky snad koncová či
výstupnı́), označujı́cı́ veličiny zpravidla na “levé” straně modelu, tj. v roli Yi a predeterminovaná
(česky snad předurčená, ale spı́še vstupnı́) veličina, stojı́cı́ch v roli Xi . Druhý typ veličin pak
bývá ještě dělen na posunuté endogenı́ (lagged endogenous) a exogenı́ (česky asi vnějšı́ či mimo
model určené; nechme však nadále překlady jazykozpytcům, v matematickém textu, ostatně
jsme to již výše zmı́nili, jde o jednoznačnost, která je zajištěna formalizmem a nenı́ naštěstı́
11
závislá na názvech). Povšimněme si, že rozlišenı́ na exogenı́ a endogenı́ souvisı́ opět s pojmem
kauzality. Jak jsme uvedli výše, byl tento protagonistou renesančnı́ho paradigmatu vědeckého
poznánı́ a žel Bohu stále ještě v mnoha vědnı́ch disciplı́nách přežı́vá. Nenı́ bez zajı́mavosti, že do
ekonomie, či spı́še do ekonometrie byl “ve statistické modifikaci” zaveden C. W. J. Grangerem
na konci šedesátých let, tj. v době, kdy filosofie vědy naopak začala uvažovat a vážně diskutovat
o jeho problematičnosti. Samozřejmě, že nenı́ těžké ukázat přı́klady - a to i z každodennı́ho
života, které demostrujı́ jeho problematičnost.
Grangerova definice a test, Granger (1969), se opı́rajı́ o pojem statistické nezávislosti a v
tomto duchu je třeba je interpretovat. Uživatelé to však zpravidla (bohorovně) přehlı́žejı́ a jednajı́
s tı́mto pojmem jako by šlo o běžný pojem přı́činné souvislosti. Jaké to může mı́t následky
si snadno představı́me, uvážı́me-li např., že se mnohá (politická) rozhodnutı́ odvı́jejı́ spı́še od
vědeckých hypotéz vyslovených na základě právě popsaného způsobu interpretace výsledků než
od historicky ověřených postupů.
Vrat’me se však ke vztahu (1) a dokončeme vysvětlenı́ jednotlivých veličin v něm vystupujı́cı́ch. Vektor β 0 = (β10 , β20 , . . . , βp0 )T bude označován jako vektor regresnı́ch parametrů,
pokud budeme mluvit o nelineárnı́ regresi, a jako regresnı́ch koeficientů, v lineárnı́ regresi.
Konečně pak hornı́ index “T ” označuje transpozici vektoru či matice. V převážné části dalšı́ho
textu budeme uvažovat model s pevnými (deterministickými) vysvětlujı́cı́mi proměnnými. Exkurze
do modelu s náhodnými vysvětlujı́cı́mi proměnnými budou jen občasné. Za náhodný bude tedy v
modelu považován pouze šum (či chcete-li fluktuace nebo náhodné fluktuace) , který je representovaný (jsou representovány) posloupnostı́ náhodných veličin {Ei }∞
i=1 . Náhodnost disturbancı́
samozřejmě má za následek to, že i vysvětlovaná veličina Y je náhodná.
Prvnı́m cı́lem regresnı́ analýzy, jak už bylo ostatně konstatováno výše, je popis struktury
dat (či chcete-li, vysvětlenı́ dat). Po té, co jsme zavedli označenı́ pro regresnı́ model, můžeme
tento cı́l specifikovat jako odhad modelu ve statistickém smyslu. Jinými slovy to znamená, že na
základě dat, která z hlediska druhého cı́le regresnı́ analýzy, totiž predikce, můžeme považovat za
trénovacı́ soubor, chceme nejprve odhadnout charakter (tvar) funkce g(x, β) a následně odhadnout β 0 . Analýza dat tedy může začı́t v podstatě testem, zda g(x, β) je lineárnı́ či nikoliv, nebo se
prostě na základě zkušenostı́ (fyzikálnı́ch, sociálnı́ch, demografických, ekonomických či jiných)
či okolnostı́ rozhodneme pro některou funkci g(x, β) (či typ funkce). Obvykle je tvar funkce
(alespoň) “tušený” a proto se často omezujeme na odhad vektoru β 0 .
Tak jako v drtivé většině statistické literatury budeme odhad pořı́zený některou odhadovacı́
metodou označovat β̂. Navı́c indexy, dole či nahoře, budou napovı́dat, jakou metodou byl
odhad vyčı́slen, či na základě kolika pozorovánı́ byl zkonstruován, atd.. Tak např. β̂ (LS,n) bude
naznačovat, že se jedná o odhad pořı́zený metodou nejmenšı́ch čtverců na základě dat o rozsahu
(LS,n)
n. Rovněž zcela standardně jak jsme na to zvyklı́, β̂i
bude označovat i-tou složku (souřadnici,
(LS,n)
koordinátu) vektoru β̂
. Podrobnějšı́ vysvětlenı́ či rozšı́řenı́ označenı́ a symbolů bude vždy
uvedeno v mı́stech, kde to budeme potřebovat tak, aby nebylo nutné je držet dlouho a bez užitku
v paměti.
Výše uvedené bezprostředně napovı́dá, že pokud uvažujeme model s náhodnými nosiči předpokládáme,
že pro naše data Dn existuje ω0 ∈ Ω tak, že hodnoty náhodných veličin {Yi (ω)}ni=1 a {Xi (ω)}ni=1
12
jsou v bodě ω0 rovny datům Dn , tj.

y1 , x11 , · · · , x1p

 y2 , x21 , · · · , x2p
Dn = 
..
..

.
.

yn , xn1 , · · · , xnp


Y1 (ω0 ), X11 (ω0 ), · · · , X1p (ω0 )
 
  Y2 (ω0 ), X21 (ω0 ), · · · , X2p (ω0 )
=
..
..
 
.
.
 
Yn (ω0 ), Xn1 (ω0 ), · · · , Xnp (ω0 )



 .


(2)
Z právě uvedeného a také ostatně z (1) okamžitě plyne, že k regresnı́mu modelu patřı́ samozřejmě
∞
i posloupnosti náhodných veličin {Yi (ω)}∞
i=1 a {Xi (ω)}i=1 , přı́padně, když uvažujeme pevné
∞
nosiče, pouze prvá posloupnost {Yi (ω)}i=1 . Na druhé straně však patrně neexistuje text věnovaný
regresnı́ analýze, který by pod odhadem modelu rozuměl také odhad těchto veličin, byt’ přirozeně
diagnostické partie teorie regresnı́ analýzy studujı́ např. postupy umožňujı́cı́ posoudit, zda
charakter reziduı́ nekoliduje s předpokládaným charakterem fluktuacı́; takové postupy budeme
studovat později. Na druhé straně je však třeba připustit, že nás v regresnı́m modelu obvykle
zajı́má pouze vektor β 0 a tedy ostatnı́ neznámé “části” modelu mohou být vnı́mány jen jako
rušivé parametry, které nejsou odhadovány.
Jak jsme již předeslali výše, v našem výkladu se omezı́me převážně na lineárnı́ regresnı́ model
s pevnými, tj. deterministicky danými nosiči. Dostaneme model
Yi = xTi β 0 + Ei ,
i = 1, 2, . . . , n.
(3)
Na prvnı́ pohled se omezenı́ na linearnı́ model může zdát drastické, ale nenı́ tomu tak. Stačı́
si uvědomit, že většina funkcı́ g(x, β) uvažovaných v modelu (1) se předpokládá být spojitými
v x. Uvážı́me-li pak, že lze mezi nosiče dodat vyššı́ mocniny vysvětlujı́cı́ch veličin jako nové
vysvětlujı́cı́ veličiny, což nenı́ na újmu odhadu modelu pokud máme k dispozici rozumné množstvı́
dat, a vezmeme-li v úvahu Stone-Weierstrassovu větu o tom, že při omezenı́ se na kompaktnı́
nosič je systém všech polynomů hustý ve třı́dě spojitých funkcı́ (Hewitt a Stromberg (1965)), je
zřejmé, že teoreticky pomocı́ lineárnı́ho regresnı́ho modelu můžeme aproximovat velmi širokou
třı́du regresnı́ch závislostı́. Přirozeně toto má, někdy praktická, omezenı́, vyplývajı́cı́ např. z
potı́žı́ s kolinearitou, počtem pozorovánı́, “přı́lišnou” determinacı́ modelu, tj. chcete-li, přı́lišným
potlačenı́m náhodnosti, atd.
Podotkněme ještě, že toto omezenı́ se na linárnı́ model, vydávajı́ některé monografie za
důvod k omezenı́ se na lineárnı́ odhady. Toto druhé omezenı́ je zcela účelové, totiž aby bylo
možno prohlásit, že odhad metodou nejmenšı́ch čtverců je velice dobrý at’ už jsou fluktuace
v modelu rozděleny normálně či nikoliv. Zdůrazněme proto, že omezenı́ se na třı́du lineárnı́ch
odhadů vektoru β 0 je drastické a odhad metodou nejmenšı́ch čtverců je opravdu dobrý jen v
přı́padě, podařı́-li se nalézt model, ve kterém rozdělenı́ reziduı́ je téměř normálnı́. Podrobněji
budeme diskutovat tento problém v závěru skript.
Pro náhodné veličiny, jako je např. vysvětlovaná proměnná Y či fluktuace E, budeme použı́vat
zpravidla velká pı́smena. Ostatně to již naznačil zápis (2). Výjimku budou tvořit rezidua v regresnı́m modelu, ale ta popı́šeme podrobněji o několik řádků nı́že. Výjimka bude učiněna proto,
aby nemohlo dojı́t k záměně s označenı́m pro reálnou přı́mku. Někdy ten fakt, že se jedná
o náhodné veličiny naznačı́me ještě zápisem Y (ω) či E(ω). Pro realizace náhodných veličin
budeme užı́vat malá pı́smenka, tj. v našem přı́kladě y a e. Pro matice budeme důsledně použı́vat
13
velká pı́smena. Navı́c charakter dané entity, kromě toho, že bude patrný z jejı́ho slovnı́ho popisu,
bude často také zřejmý z toho, že bude uvedeno, do které množiny patřı́, např. Y ∈ Rn .
Jak jsme už uvedli výše, budeme v převážné části tohoto textu předpokládat, že matice plánu
je deterministická, tj. omezı́me se na model s pevnými nosiči. Model s náhodnými vysvětlujı́cı́mi
proměnnými je obdobný, někdy “jednoduššı́”, někdy “komplikovanějšı́” než model s pevnými
nosiči. Předpoklady pro obdobná tvrzenı́ v obou modelech jsou analogické, kromě toho, že v
modelu s náhodnými nosiči je třeba předpokládat nezávislost nosičů a fluktuacı́. Jak už jsme výše
řekli, toto nebývá v učebnicı́ch regresnı́ analýzy zdůrazněno, ač pokud tento předpoklad neplatı́,
běžné odhady, a to nejen metodou nejmenšı́ch čtverců, nejsou obecně konsistentnı́ a je třeba
užı́t jiných postupů, např. instrumentálnı́ch proměnných, kterým bude věnován jeden odstavec
dalšı́ho textu. Přitom je zřejmé, že někdy bude charakter dat takový, že model s náhodnými
nosiči bude adakvátnějšı́. Přı́kladem může posloužit právě situace, kdy náhodné fluktuace jsou
evidentně závislé na některé vysvětlujı́cı́ proměnné.
Na druhé straně, jak uvidı́me později při diskuzi o výpisech z statistických počı́tačových
knihovem, většina z nich nabı́zı́ i v rámci regresnı́ analýzy “základnı́” popisnou analýzu dat, tj.
např. průměry a rozptyly jednotlivých veličin, jejich kovariančnı́ matici, atd. Tyto charakteristiky, až na ty, které se týkajı́ vysvětlované proměnné, ovšem striktně vzato postrádajı́ smysl,
pokud uvažujeme model s pevnými nosiči.
A nynı́ uved’me některé přı́klady datových souborů, které lze zpracovat regresnı́ analýzou.
Přı́klad 1 Data o spalovacı́ch motorech. Data zachycujı́ (potenciálnı́) závislost počtu
otáček motoru (y) na časovánı́ zážehu (x1 ), bohatosti palivové směsi (x2 ), teplotě této směsi při
nasávanı́ (x3 ) a teplotě spalin při výfuku (x4 ) (Mason, Gunst, Hess (1989) nebo Hettmansperger,
Sheather (1992)).)
Data vypadajı́ takto:
Data o spalovacı́ch motorech
Pořadı́
Časovánı́
zážehu
Bohatost
směsi
Teplota
směsi
Teplota
spalin
Počet
otáček
1
2
3
4
5
6
7
8
9
10
11
12
13
13.3
13.3
13.4
12.7
14.4
14.4
14.5
14.2
12.2
12.2
12.2
12.0
12.9
13.9
14.1
15.2
13.8
13.6
13.8
13.9
13.7
14.8
15.3
14.9
15.2
15.4
31
30
32
31
31
30
32
31
36
35
36
37
36
697
697
700
669
631
638
643
629
724
739
722
743
723
84.4
84.1
88.4
84.2
89.8
84.0
83.7
84.1
90.5
90.1
89.4
90.2
93.8
14
Data o spalovacı́ch motorech (pokračovánı́)
Pořadı́
Časovánı́
zážehu
Bohatost
směsi
Teplota
směsi
Teplota
spalin
Počet
otáček
14
15
16
12.7
12.9
12.7
16.1
15.1
15.9
35
36
37
649
721
696
93.0
93.3
93.1
Model odhadnutý pro výše zmı́něnou závislost vypadá takto:
y = 12.01 + 1.10 · x1 + 2.19 · x2 + 0.93 · x3 + 0.002 · x4 + f luktuace
Skripta, která máte před sebou Vám umožnı́ nahlédnout, jak se takový model odhadne z dat, jak
se posoudı́, že má tento model naději být spolehlivý a použitelný např. pro predikci. Nabı́dnou
Vám možnost nahlédnout různá úskalı́, na která při zpracovánı́ dat můžete narazit aniž byste si
jich třeba na prvnı́ pohled byli vědomi, a naučı́ Vás jak se těmto úskalı́m vyhnout či je zdolat.
Jednı́m z takových úskalı́ mohou být vlivné body, které je třeba rozpoznat a zjistit, zda jejich
vliv na výsledek regresnı́ analýzy je přı́nosný nebo naopak destruktivnı́.
Přı́klad 2 Data o slanosti vody v průlivu “North Carolina Pamlico”. Data zaznamenávajı́ slanost vody (y) v jednom z průlivů v Severnı́ Karolině v závislosti na slanosti, která
byla naměřena před čtrnácti dny (označeno jako Posunutá slanost; x1 ), na střı́dánı́ dvoutýdennı́ch
obdobı́, o nichž si experimentátoři mysleli, že mohou být signifikantnı́ (označeno Trend; x2 ) a
na prouděnı́ vody průlivem (označeno Průtok; x3 ) (Ruppert, Carroll (1980) nebo Rousseeuw,
Leroy (1987)). Data jsou uvedena v následujı́cı́ tabulce:
Data o slanosti vody v průlivu “North Carolina Pamlico”
Pořadı́
Posunutá
slanost
Trend
Průtok
Slanost
vody
1
2
3
4
5
6
7
8
9
10
11
12
13
14
8.2
7.6
4.6
4.3
5.9
5.0
6.5
8.3
10.1
13.2
12.6
10.4
10.8
13.1
4
5
0
1
2
3
4
5
0
1
2
3
4
5
23.01
23.87
26.42
24.87
29.90
24.20
23.22
21.86
22.27
23.83
25.14
22.43
21.79
22.38
7.6
7.7
4.3
5.9
5.0
6.5
8.3
8.2
13.2
12.6
10.4
10.8
13.1
12.3
15
Data o slanosti vody v průlivu “North Carolina Pamlico” (pokračovánı́)
Pořadı́
Posunutá
slanost
Trend
Průtok
Slanost
vody
15
16
17
18
19
20
21
22
23
24
25
26
27
28
13.3
10.4
10.5
7.7
10.0
12.0
12.1
13.6
15.0
13.5
11.5
12.0
13.0
14.1
0
1
2
3
0
1
4
5
0
1
2
3
4
5
23.93
33.44
24.86
22.69
21.79
22.04
21.03
21.01
25.87
26.29
22.93
21.31
20.77
21.39
10.4
10.5
7.7
9.5
12.0
12.6
13.6
14.1
13.5
11.5
12.0
13.0
14.1
15.1
Po odhadnutı́ přı́slušných koeficientů v modelu dostaneme:
y = 9.590 + 0.777 · x1 − 0.026 · x2 − 0.295 · x3 + f luktuace.
Zvláštnı́ na těchto datech je to, že jednou proměnnou na pravé straně rovnice, tj. vysvětlujı́cı́
proměnnou je vlastně jen posunutá ta proměnná, kterou se odhadovaný model snažı́ vysvětlit
pomocı́ jiných proměnných. O tom, zda je vůbec možné něco takového provést, aniž by zklamaly
běžně použı́vané metody, budeme ve skriptech také diskutovat.
Přı́klad 3 Data o sportovnı́m klubu. Data zaznamenávajı́ časy dosažené v běhu na jednu
mı́li (y) jako proměnnou, která má být vysvětlena, a váhu běžců (x1 ), jejich zbytkový puls po
určité době doběhnutı́ do cı́le (x2 ) při zkušebnı́m běhu na čtvrt mı́le (x3 ) a sı́lu pažı́ a nohou (x4 )
(Chatterjee, Hadi (1988)). Data vypadajı́ takto:
Data o sportovnı́m klubu
Pořadı́
Váha
Puls
Sı́la
Zkušebnı́
běh
Čas
1
2
3
4
5
6
7
8
217
141
152
153
180
193
162
180
67
52
58
56
66
71
65
80
260
190
203
183
170
178
160
170
91
66
68
70
77
82
74
84
481
292
338
357
396
429
345
469
16
Data o sportovnı́m klubu (pokračovánı́)
Pořadı́
Váha
Puls
Sı́la
Zkušebnı́
běh
Čas
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
205
168
232
146
173
155
212
138
147
197
165
125
161
132
257
236
149
161
198
245
141
177
77
74
65
68
51
64
66
70
54
76
59
58
52
62
64
72
57
57
59
70
63
53
188
170
220
158
243
198
220
180
150
228
188
160
190
163
313
225
173
173
220
218
193
183
83
79
72
68
56
59
77
62
75
88
70
66
69
59
96
84
68
65
62
69
60
75
425
358
393
346
279
311
401
267
404
442
368
295
391
264
487
481
374
309
367
469
252
338
Odhad modelu pro tato data je následujı́cı́:
y = −3.619 + 1.268 · x1 − 0.525 · x2 − 0.505 · x3 + 3.903 · x4 + f luktuace.
Může matematická analýza přinést nějaká překvapenı́ oproti běžnému očekávánı́ ? Patrně ano,
nebot’ se ukáže, že ani proměnnou puls ani sı́la pažı́ a nohou nenı́ třeba použı́t k vysvětlenı́
celkového času.
Přı́klad 4 Demografická data. Data popisujı́ (možnou) závislost hrubého národnı́ho
důchodu na hlavu v roce 1957 (y) na dětské úmrtnosti (průměrný počet úmrtı́ na 1000 živě
narozených dětı́ - x1 ), počtu obyvatel na jednoho lékaře (x2 ), hustotě osı́dlenı́ (počet obyvatel
na km2 - x3 ), počtu obyvatel na 1000 ha zemědělsky využı́vané půdy (x4 ), procentu gramotného
obyvatelstva staršı́ho 15 let (x5 ), a na počtu studentů na vysokých školách na 105 obyvatel (x6 ),
a to ve 49 zemı́ch světa (Chatterjee, Hadi (1988)). Tady jsou data (na dalšı́ straně):
17
Demografická data
Pořadı́
Země
x1
x2
x3
x4
x5
x6
y
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
Australia
Austria
Barbados
Belgium
British Guiana
Bulgaria
Canada
Chile
Costa Rica
Cyprus
Czechoslovakia
Denmark
El Salvador
Finland
France
Guatemala
Hong Kong
Hungary
Iceland
India
Ireland
Italy
Jamaica
Japan
Luxembourg
Malaya
Malta
Mauritius
Mexico
Netherlands
New Zeland
Nicaragua
Norway
Panama
Poland
Portugal
Puerto Rico
Romania
Singapore
Spain
Sweden
Switzerland
19.5
37.5
60.4
35.4
67.1
45.1
27.3
127.9
78.9
29.9
31.0
23.7
76.3
21.0
27.4
91.9
41.5
47.6
22.4
225.0
30.5
48.7
58.7
37.7
31.5
68.9
38.3
69.5
77.7
16.5
22.8
71.7
20.2
54.8
74.7
77.5
52.4
75.7
32.3
43.5
16.6
21.1
860
695
3000
819
3900
740
900
1700
2600
1400
620
830
5400
16001
1014
6400
3300
650
840
5200
1000
746
4300
930
910
6400
980
4500
1700
900
700
2800
946
3200
1100
1394
2200
788
2800
1000
1089
765
1
84
548
301
3
72
2
11
24
62
108
107
127
13
83
36
3082
108
2
138
40
164
143
254
123
54
1041
352
18
346
9
10
11
15
96
100
271
78
2904
61
17
133
21
1720
7121
5257
192
1380
257
1164
948
1042
1821
1434
1497
1512
1288
1365
98143
1370
79
2279
598
2323
3410
7563
2286
2980
8050
4711
296
4855
170
824
3420
838
1411
1087
4030
1248
108214
1347
1705
2320
98.5
98.5
91.1
96.7
74.0
85.0
97.5
80.1
79.4
60.5
97.5
98.5
39.4
98.5
96.4
29.4
57.5
97.5
98.5
19.3
98.5
87.5
77.0
98.0
96.5
38.4
57.6
51.8
50.0
98.5
98.5
38.4
98.5
65.7
95.0
55.9
81.0
89.0
50.0
87.0
88.5
98.5
856
546
24
536
27
456
645
257
326
78
398
570
89
529
667
135
176
258
445
220
362
362
42
750
36
475
142
14
258
923
839
110
258
371
351
272
1192
226
437
258
401
398
1316
670
200
1196
235
365
1947
379
357
467
680
1057
219
794
943
189
272
490
572
73
550
516
316
306
1388
356
377
225
262
836
1310
160
1130
329
475
224
563
360
400
293
1380
1428
18
Demografická data. (pokračovánı́)
Pořadı́
Země
x1
x2
x3
x4
x5
x6
y
43
44
45
46
47
48
49
Taiwan
Trinidad
United Kingdom
United States
USSR
West Germany
Yugoslavia
30.5
45.4
24.1
26.4
35.0
33.8
100.0
1500
2300
935
780
578
798
1637
305
168
217
20
10
217
73
10446
4383
2677
399
339
3631
1215
54.0
73.8
98.5
98.0
95.0
98.5
77.0
329
61
460
1983
539
528
524
161
423
1189
2577
600
927
265
Odhadnutý model vypadá takto
y = 112.89 − 3.62 · x1 + 0.01 · x2 − 0.19 · x3 + 0.003 · x4 + 5.57 · x5 + 0.69 · x6 + f luktuace.
Některé velmi malé koeficienty u některých vysvětlujı́cı́ch proměnných napovı́dajı́, že byly zařazeny
do modelu patrně zbytečně. I to se v dalšı́m textu naučı́me posoudit, právě tak jako zda celý
model je adekvátnı́ či nikoliv.
Přı́klad 5 Data o výdajı́ch na školstvı́. Data vypovı́dajı́ o (možné) závislosti výdajů
na školstvı́ v 50 státech v U.S.A. (y) na procentu obyvatel státu bydlı́cı́ch v urbanistických
centrech (x1 ), osobnı́m přı́jmu na jednoho obyvatele (x2 ) a procentu obyvatel mladšı́ch 18 let
(x3 ) (Chatterjee, Price (1977)). Vzhledem k tomu, že dalšı́ poměrně rozsáhlá data by zbytečně
plýtvala mı́stem, odkazujeme čtenáře na původnı́ zdroj, přı́padně na autora těchto skript, který
má tato (a mnohá dalšı́ data) na magnetickém nosiči.
Model pořı́zený z těchto dat je následujı́cı́
y = −556.57 − 0.0043 · x1 + 0.072 · x2 + 1.55 · x3 + f luktuace.
Značně velká hodnota absolutnı́ho členu v modelu oproti hodnotám koeficientů u vysvětlujı́cı́ch
proměnných svádı́ k tomu si myslet, že vlastně vysvětlujı́cı́ proměnné nic nevysvětlujı́. Je tomu
opravdu tak ? Zodpovědět takovou otázku se také dále naučı́me.
Přı́klad 6 Data o kriminalitě v U.S.A. Data obsahujı́ údaje o výši kriminality ve 47
státech Spojených států (y), o procentu mužů mezi 18 a 28 roky věku (x1 ), údaje o vzdělanosti
obyvatelstva (x2 ), o výdajı́ch na policii (x3 ) a údaje o přı́jmu na jednoho obyvatele (x4 ) (Vandaele (1978)nebo Hand a ostat. (1994) ).
Data by opět zabı́rala dosti velké mı́sto a tak
odkazujeme na původnı́ zdroj či autora skript, který je kterémukoliv zájemci rád okopı́ruje.
Odhadneme-li opět model, dostaneme
y = −424.92 + 0.76 · x1 + 1.66 · x2 + 1.30 · x3 + 0.64 · x4 + f luktuace.
Dalšı́ přı́klady může zvı́davý čtenář nalézt např. v monografii Berndt (1990) či Kmenta
(1986).
19
V závěru úvodu si dovolme připomenout jednu interpretačnı́ záležitost. V některých učebnicı́ch
jsou náhodné fluktuace Ei interpretovány jako chyby měřenı́ vysvětlované veličiny Yi . To je však
interpretace jen omezeně udržitelná. Pokud bychom předpokládali situaci, že jak vysvětlovaná,
tak vysvětlujı́cı́ proměnné jsou měřeny (zhruba) se stejnou přesnostı́, pak by tento fakt vyžadoval,
aby byl zahrnut do našich úvah. Takový model probereme nı́že a uvidı́me, že k jeho zvládnutı́
je potřeba poněkud jiný přı́stup než k modelu (3). Slovo “omezeně”, užité o několik řádků výše
naznačuje, že tato interpretace je udržitelná za předpokladu, že by přesnost měřenı́ vysvětlujı́cı́ch
veličin xi byla mnohem přesnějšı́ než přesnost měřenı́ Yi . Daleko přirozenějšı́ interpretace či
chcete-li aplikace modelu je ta, kdy předpokládáme, že na veličinu Yi majı́ (náhodný) vliv
ještě dalšı́ faktory, které ale bud’ nenı́ snadné modelovat nebo je úmyslně nechceme, z nějakého
důvodu, popsat explicite, či jsou tyto “náhodné výkyvy” tak malé, že je lépe je nemodelovat.
Dřı́ve než se pustı́me do vlastnı́ho výkladu regresnı́ analýzy, poznamenejme ještě, že koncepce
skript je taková, aby zhruba ve své prvé polovině prokázala, že regresnı́ analýza je postavena
na solidnı́ matematice a jejı́ teorie je dobře propracovaná. Druhá část skript, patrně však menšı́
polovina, je mı́sty psána již jen přehledově, byt’ některé partie, viz např. kapitola věnovaná
Durbin-Watsonově statistce, jsou naopak podrobnějšı́ než mnohé monografie a popisujı́ dokonce
historii vývoje té či oné oblasti regresnı́ analýzy. A právě partie věnovaná Durbin-Watsonově
statistce ukazuje, že i dnes stojı́ za to alespoň občas nahlédnout do původnı́ch pramenů, nebot’ se
stává, že přı́slušné partie jsou opisovány z monografie do monografie, včetně zkreslenı́, kterého
se dopustil autor té prvé. Dı́ky tomu se pak může do povědomı́ široké veřejnosti dostal poněkud
zkreslený obraz o původnı́m výsledku. V citovaném přı́padě se např. traduje naprosto heuristika, která stojı́ za Durbin-Watsonovou statistikou, která neodpovı́dá heuristice, která vysvı́tá z
postupu, který Durbin a Watson použili. statist
3
3.1
LINERNÍ REGRESNÍ MODEL
Odhad regresnı́ch koeficientů
Budeme tedy nadále uvažovat model
i = 1, 2, . . . , n
(4)
pro všechna přirozená n, a to s pevně zadanými nosiči x1 , x2 , . . . , xn , kde transponovaný vektor
xTi = xi1 , xi2 , . . . , xip tvořı́ i-tý řádek matice plánu

x11 , x12 , · · · , x1p

 x21 , x22 , · · · , x2p
X=
..
..

.
.

xn1 , xn2 , · · · , xnp



.


(5)
Při studiu lineárnı́ho regresnı́ho modelu se někdy prvnı́ souřadnice vektoru regresnı́ch koeficientů uvažuje společná všem pozorovánı́m. Jinými slovy, nenásobı́me tento koeficient žádnou
vysvětlujı́cı́ proměnnou a označujeme jej jako absolutnı́ člen, v anglické literatuře (a nynı́ často
i v české) intercept. Toto druhé označenı́ použijeme v přı́padě, když budeme potřebovat šetřit
20
mı́stem, např. v tabulkách. Model je pak často zapisován ve tvaru
Yi = α + xTi β 0 + Ei ,
či
Yi = α +
k
X
xij βj0 + Ei ,
i = 1, 2, . . . , n
i = 1, 2, . . . , n,
j=1
kde k = p − 1. My však budeme v celých skriptech dávat přednost zápisu (4), z čehož plyne, že
pokud budeme uvažovat model s absolutnı́m členem, musı́me mı́t xi1 = 1, i = 1, 2, . . . , n. To však
neznamená, že by tento zápis naznačoval, že absolutnı́ člen a zbývajı́cı́ regresnı́ koeficienty, ze
zřejmého důvodu někdy označované slopes, majı́ v modelu stejné postavenı́. Později se vrátı́me k
diskuzi, proč má absolutnı́ člen zvláštnı́ mı́sto v modelu a proč je dobře s nı́m počı́tat i v přı́padě,
kdy rutinnı́ postup při regresnı́ analýze naznačuje, že by mohl být tento parametr statisticky
nevýznamný.
Matice X bývá často označována jako o designová matice. Znovu připomı́náme, že v dalšı́m
výkladu budeme mı́t na mysli, byt’ toto budeme pro jistotu občas opakovat, zejména situaci, kdy
platı́ podmı́nky:
Podmı́nky A Posloupnost {Ei }∞
i=1 je posloupnostı́ nekorelovaných náhodných veličin s
nulovou střednı́ hodnotou a konečným kladným rozptylem σ 2 , který je stejný pro všechny tyto
veličiny.
Podmı́nky A lze pomoci již zavedeného formalizmu přepsat následovně:
1.
IE Ei = 0,
i = 1, 2, ...
2.
IE Ei2 = σ 2 , i = 1, 2, ... σ 2 ∈ (0, ∞),
3.
IE Ei Ej = 0 i = 1, 2, ... i < j,
kde symbol IE označuje střednı́ hodnotu. Někdy jsou jednotlivé podmı́nky (z výše uvedených) označovány “jmény”. Mluvı́me pak o podmı́nce homoskedasticity, řı́kajı́cı́, že všechny
rozptyly jsou stejné (to je podmı́nka čı́slo 2), či o podmı́nce nekorelovanosti (to je podmı́nka
čı́slo 3). Později budeme někdy předpokládat, že všechny veličiny Ei majı́ stejné a to normálnı́
rozdělenı́. Potom samozřejmě z předpokladu nekorelovanosti dostaneme jejich nezávislost.
V celém tomto učebnı́m textu budeme pro zachovánı́ jednoduchosti, pořádku a vyloučenı́
přı́padných omylů všechny vektory uvažovat jako sloupcové. To znamená, že pokud vyjmeme
některý, řekněme `-tý, řádek z matice plánu X budeme jej považovat nikoliv za řádek, ale za
sloupcový vektor x` . Pro sloupce matice zavedeme, až to budeme potřebovat, jiné symboly než
x` .
Pro každé β ∈ Rp definujme rezidua
ri (β) = yi − xTi β
i = 1, 2, . . . , n.
Opět se bude jednat bud’ o čı́sla, ri (β), vzešlá z některé numerické analýzy nebo o náhodné
veličiny ri (β, ω), které jsou náhodné proto, že Y je náhodná veličina a xi a β jsou deterministicky
21
dané, nebo i Xi jsou náhodné veličiny, pak ri (β) = Yi − Xi β nebo ri (β̂ (n) ) = Yi − Xi β̂ (n) , tj. i
β̂ (n) je náhodné, nebo konečně, což bude náš nejčastějšı́ přı́pad,
ri (β̂ (LS,n) ) = Yi − xTi β̂ (LS,n)
i = 1, 2, . . . , n,
(6)
tj. Y a β̂ (LS,n) jsou náhodné a xi deterministické. Jednotlivé eventuality budou opět snadno
rozlišitelné z kontextu. Budeme-li se napřı́klad bavit o vlastnostech LS-odhadu a jeho reziduı́,
bude zřejmé, že jde o eventualitu (6). Připomeňme, že fluktuace Ei v modelu (4) nejsou nic vı́ce
ani méně než ri (β 0 , ω).
Po přepsánı́ modelu (4) do maticového zápisu, dostaneme
Y = Xβ 0 + E,
(7)
kde Y = (Y1 , Y2 , . . . , Yn )T , X a β 0 jsou již dřı́ve popsaná matice plánu a vektor regresnı́ch
koeficientů a konečně E = (E1 , E2 , . . . , En )T je vektor náhodných fluktuacı́. Tento zápis je
přirozeně přehlednějšı́, byt’ poněkud méně “samovysvětlujı́cı́” svůj význam než (4). Budeme jej
však přesto použı́vat alternativně se zápisem (4), nebot’ v některých přı́padech zjednodušı́ a
zpřehlednı́ prováděné úpravy výrazů.
Odhad regresnı́ch koeficientů metodou nejmenšı́ch čtverců definuje pak jako
β̂ (LS,n) (ω) = arg min
β∈Rp
n
X
(Yi − xTi β)2 = arg min (Y − Xβ)T (Y − Xβ),
β∈Rp
i=1
(8)
kde “arg min” znamená, že za odhad považujeme takovou hodnotu argumentu, v našem přı́padě
β ∈ Rp , která přı́slušný výraz, který následuje za “arg min”, minimalizuje. Podobně pro “arg max”.
Heuristika, jistě nikoliv jediná, stojı́cı́ za metodou LS se opı́rá o myšlenku, že malá rezidua jsou
nepodstatná a tedy je umocněnı́m na druhou ještě zmenšı́me a nebereme je přı́liš v úvahu.
Na druhé straně velká rezidua jsou závažná a umocněnı́m na druhou je ještě zvětšı́me, čı́mž
“donutı́me” minimalizačnı́ proces vzı́t tato velká rezidua velmi vážně. To je samozřejmě velice
dobře akceptovatelná myšlenka, nebot’ vede k tomu, že metoda LS je citlivá na odlehlá pozorovánı́ ve vysvětlujı́cı́ proměnné (taková pozorovánı́ bývajı́ označována jako outliers) i na
odlehlá pozorovánı́ ve vysvětlujı́cı́ch proměnných (taková pozorovánı́ bývajı́ označována jako
leverage points, a patrně neexistuje uspokojivý český překlad). Snad by bylo možné mluvit o
odlehlých bodech u prvé skupiny a o pákových bodech ve druhé skupině, pokud bychom použili
otrockého překladu. Samozřejmě se nabı́zı́ srovnánı́ s pákovým efektem, který je znám v ekonomii.
Obě skupiny pozorovánı́ se z pochopitelných důvodů často označujı́ jako vlivné body. Důvody,
proč tato pozorovánı́ jsou vlivná snadno nahlédneme z normálnı́ch rovnic, které za chvı́li uvedeme.
Výše uvedená idea má však i své čertovo kopýtko a nepochybně lze se stejnou samozřejmostı́
obhajovat i zcela opačný požadavek, totiž že by metoda odhadu parametrů neměla být citlivá
na velká rezidua, pokud by jich bylo jen několik. To, že citlivost na vlivné body může být někdy,
např. při automatizovaném zpracovánı́ dat, probı́hajı́cı́m bez důkladného dozoru zpracovatele,
sebevražedná, snad nejlépe ukazuje následujı́cı́ obrázek presentujı́cı́ data, která popisujı́ závislost
mezi povrchovou teplotou hvězdy a jejı́m jasem (Humphreys (1978)).
22
A
A
Závislost jasu hvězdy na jejı́ povrchové teplotě.
(Plná čára naznačuje odhad modelu pořı́zený pomocı́ LS.)
Obr. 1
Nenı́ třeba mı́t sebemenšı́ matematické vzdělánı́ k tomu, aby nás napadlo, že čtyři body
ležı́cı́ v levém hornı́m rohu obrázku jsou “nekonsistentnı́” s ostatnı́mi pozorovánı́mi a opravdu
při dalšı́m zkoumánı́ se ukázala fyzikálnı́ odlišnost těchto objektů od všech ostatnı́ch. Vyloučı́meli tyto body ze souboru, dostaneme toto.
Závislost jasu hvězdy na jejı́ povrchové teplotě.
(Plná čára naznačuje odhad modelu pořı́zený pomocı́ LS po vyloučenı́ výše diskutovaných bodů.)
Obr. 2
Z tohoto přı́kladu se zdá, že vizuálnı́ analýza dat může mnohdy podstatně napomoci při
jejich zpracovánı́. To je jistě pravda, ale jako každý postup má i tento svá ohraničenı́. Snadno
23
lze nalézt vı́cerozměrná data, ve kterých jsou vlivná pozorovánı́ tak dobře zamaskována, že ani
dobrý grafický editor, umožňujı́cı́ např. trojrozměrné zobrazenı́ dat a jejich otáčenı́ v prostoru,
tuto kontaminaci dat nenalezne. (Tento termı́n, zamaskována se při zpracovánı́ dat opravdu
použı́vá, tj. nejde o metaforu. Z těchto důvodů je vhodné použı́t při zpracovávánı́ dat také
některé diagnostické prostředky, přı́padně jiné odhady modelu než jen LS. Vrátı́me se k těmto
problémům později.
Dřı́ve než postoupı́me dále poctivě přiznejme, že důvod k zavedenı́ LS, alespoň pro Carla
Friedricha Gausse, byla numerická proveditelnost výše naznačené minimalizace, tj. technická
jednoduchost metody. V práci z roku 1809 napsal: “Ale ze všech těchto principů je metoda
nejmenšı́ch čtverců principem nejzákladnějšı́m. Všechny ostatnı́ nás zavádějı́ do mnohem komplikovanějšı́ch výpočtů.” Možná, že se některému čtenáři bude zdát divné, že je technická jednoduchost nadřazena “objektivitě” (či “správnosti” či “pravdivosti”, přı́padně si doplňte jiné vznešené
slovo). Připomeňme však, že jednoduchost teorie je obecně přijı́maným kritériem při porovnávánı́
teoriı́ či dávánı́ přednosti jinak stejně dobře fungujı́cı́m teoriı́m, viz Ocamova břitva, Kuhn
(1965). Navı́c, před masovým rozšı́řenı́m relativně levné a nepochybně výkonné počı́tačové
techniky, byla jednoduchost výpočtu vlastně podmı́nkou aplikovatelnosti metody.
Začněme nynı́ s budovánı́m vlastnı́ teorie. Snadno se nahlédne, že vždy existuje řešenı́
problému (8). Ukazuje to následujı́cı́ lemma. Dřı́ve než ji však vyslovı́me, zaved’me ještě jedno
označenı́. Symbolem M(A) budeme označovat vektorový podprostor prostoru Rn , který je generován sloupci matice A. Dimenze podprostoru i typ matice vyplyne z kontextu. Ještě jednou
zdůrazněme, že M(A) je generován sloupci matice A. Ostatně tvar regresnı́ho modelu, ve
kterém kombinujeme pomocı́ vektoru regresnı́ch koeficientů β sloupce matice X napovı́dá, že
se budeme zajı́mat o prostory generované sloupci přı́slušných matic. Je sice pravda, že prostoty
M(A) a M(AT ) majı́ mnoho společného (např. hodnost), ale jinak se jedná o různé prostory.
LEMMA 1 Necht’ Y ∈ Rn a k necht’ je dimense podprostoru generovaného sloupci matice
plánu. Potom existuje právě jeden vektor U ∈ M(X) = Rn,k takový, že Y = U + Z a Z⊥M(X),
kde “⊥” označuje fakt, že vektor Z je kolmý k podprostoru M(X).
Důkaz. Necht’ {u1 , u2 , . . . , uk } a {u1 , u2 , . . . , uk . . . , un } jsou ortogonálnı́ báze M(X) a Rn .
Pak
n
Y =
X
i=1
αi ui ,
P
P
pro některá reálná α1 , α2 , . . . , αn . Položme U = ki=1 αi ui a Z = ni=k+1 αi ui . Pak Z⊥M(X)
a Y = U + Z. Tı́m je dokázána existence vektorů U a Z. Necht’ dále Y = U1 + Z1 a Y =
U2 + Z2 , U1 , U2 ∈ M(X), Z1 , Z2 ⊥M(X). Pak U1 − U2 = Z1 − Z2 a navı́c U1 − U2 ∈ M(X)
a Z1 − Z2 ⊥M(X), a tedy U1 − U2 ⊥Z1 − Z2 , tj. U1 − U2 = 0 = Z1 − Z2 . Tı́m je ukázána
jednoznačnost rozkladu.
2
Nynı́ necht’ U ∈ M(X) je vektor z předchozı́ho lemmatu. Pro libovolný jiný vektor W ∈
M(X) pak máme
(Y − W )T (Y − W ) = [(Y − U ) − (U − W )]T [(Y − U ) − (U − W )]
= (Y − U )T (Y − U ) + (U − W )T (U − W ) ≥ (Y − U )T (Y − U ).
24
K řešenı́ (8) tedy stačı́ nalézt β ∈ Rk tak, aby lineárnı́ kombinace sloupců matice plánu, která
vystupuje v (8) jako Xβ, byla rovna U , tj. U = X β̂ (LS,n) . To vždy lze provést a navı́c pokud
k = p, tj. pokud je dimenze prostoru M(X) rovna p. V tom přı́padě mluvı́me o tom, že matice
X je plné hodnosti či že model je plné hodnosti. Sloupce matice X pak tvořı́ bázi přı́slušného
podprostoru a β̂ (LS,n) je určeno jednoznačně. Připomeňme, že p označuje počet sloupců matice
X. Vzhledem k tomu, že nynı́ již vı́me, že řešenı́ problému (8) vždy existuje můžeme je hledat
tak, že vypočteme parciálnı́ derivace funkcionálu (Y − Xβ)T (Y − Xβ) dle β` a položı́me je rovné
nule. Takto vzniklé soustavě rovnic se často řı́ká normálnı́ rovnice. Protože
∂
Pp
j=1 xij βj
∂β`
máme
∂
Pn
i=1 (Yi
− xTi β)2
∂β`
= −2
= xi` ,
n
X
(Yi − xTi β)xi` .
i=1
Normálnı́ rovnice tedy majı́ tvar
n
X
(Yi − xTi β)xi` = 0
pro
` = 1, 2, . . . , p,
(9)
i=1
či v maticovém zápise
X T (Y − Xβ) = 0.
(10)
β̂ (LS,n) = (X T X)−1 X T Y,
(11)
Je-li k = p dostaneme
pokud k < p, pak
β̂ (LS,n) = (X T X)− X T Y,
kde (X T X)− je některá levá pseudoinverse matice X T X, což (znovu) indikuje, že v tomto
přı́padě β̂ (LS,n) nenı́ určeno jednoznačně. Nadále budeme pro jednoduchost předpokládat, že
matice plánu je plné hodnosti. Ostatně pokud by matice plánu nebyla plné hodnosti prostě
některý z jejı́ch sloupců vyloučı́me. Tento postup nenı́ možný, či je alespoň problematický, v
přı́padě, že se jedná o náhodné nosiče nebo uvažujeme matici X závislou na nějakých parametrech, přičemž pouze pro některou “konstelaci” parametrů dojde ke ztrátě plné hodnosti modelu. V dalšı́m však přijmeme předpoklady, které (alespoň asymptoticky) tuto možnost vyloučı́.
Nicméně v literatuře lze nalézt diskuzi takových situacı́, Judge a kol. (1980), Zvára (1989)).
Potı́že výpočetnı́ho rázu a zhoršenı́ kvality odhadu (ve smyslu velkého rozptylu) mohou nastat v přı́padě, že matice X T X je sice regulárnı́ a tedy (X T X)−1 existuje, ale je tzv. špatně
podmı́něna, tj. je na “pokraji” singularity. V takovém přı́padě jsou jejı́ sloupce “téměř” lineárně
závislé a mluvı́me o problému kolinearity, ke kterému se rovněž později vrátı́me. Formálně se
výše naznačené vyloučenı́ některého sloupce (či sloupců) matice X v přı́padě, že tato nenı́ plné
hodnosti, provede takto:
Necht’ V1 , V2 , . . . , Vk , Vk+1 , . . . , Vp jsou sloupce matice X, přičemž prvnı́ch k je lineárně nezávislých,
ostatnı́ jsou na nich závislé, jinými slovy jsou lineárnı́mi kombinacemi těch prvnı́ch k. Formálně
to znamená, že existuje matice Λ taková, že
(Vk+1 , . . . , Vp ) = (V1 , V2 , . . . , Vk ) · Λ.
25
Pak ale
Xβ 0 = (V1 , V2 , . . . , Vk )(β1 , β2 , . . . , βk )T + (V1 , V2 , . . . , Vk )Λ(βk+1 , βk+2 , . . . , βp )T
= (V1 , V2 , . . . , Vk )(γ10 , γ20 , . . . , γk0 )T ,
kde γ 0 = (γ10 , γ20 , . . . , γk0 )T = (β1 , β2 , . . . , βk )T + Λ(βk+1 , βk+2 , . . . , βp )T , odkud
opravdu potřebujeme pouze k parametrů.
Odhad β̂ (n) označujeme jako lineárnı́, pokud β̂ (n) = LY kde L je některá, na Y
nezávislá, (p × n)-rozměrná matice. Pochopitelně, že bude L = L(X), tj. slovy,
funkcı́ vysvětlujı́cı́ch proměnných. Jinak by byl odhad β̂ (n) dosti podivný, nebot’
úvahu informaci nesenou vysvětlujı́cı́mi proměnnými.
je vidět, že
samozřejmě
matice L je
by nebral v
LEMMA 2 Necht’ posloupnost {Ei }∞
i=1 je posloupnostı́ nezávislých a stejně rozdělených náhodných
veličin s nulovou střednı́ hodnotou a konečným kladným rozptylem σ 2 . Potom je β̂ (LS,n) nejlepšı́m
nestranným lineárnı́m odhadem parametru β 0 . Pokud navı́c existuje h(n) : N → R tak, že
(X T X)−1 = O(h−1 (n))
(12)
X T X = o(h2 (n)),
(13)
a
potom β̂ (LS,n) je silně konsistentnı́m odhadem. Zesı́lı́me-li ještě (12) na
lim
n→∞
1 T
X X = Q,
n
(14)
kde Q je některá regulárnı́ matice, potom
√
n(β̂ (LS,n) − β 0 )
(15)
je asymptoticky normálnı́ N (0, Σ), kde Σ = σ 2 Q−1 .
Dřı́ve než pustı́me do důkazu tohoto lemmatu, učinı́me dvě technické poznámky.
Pozorný čtenář dosud uvedeného textu již nahlédl, že je třeba odlišovat β̂ (n) jako statistiku
(tj. náhodnou veličinu) a β̂ (n) jako hodnotu odhadu pro některá data. Rozlišenı́ vyplyne z kontextu. Ve statistické literatuře se tyto dvě entity obvykle ani formálně nerozlišujı́ a je docela
možné, že někdy méně pozornı́ čtenáři tento rozdı́l ani nezaznamenajı́. Proto si občas dovolı́me,
bude-li to vhodné, naznačit označenı́m β̂ (n) (ω), že se jedná o tu prvnı́ možnost, tj. o odhad
jako náhodnou veličinu. To znamená jinými slovy, že β̂ (LS,n) (ω) je nalezen jako nějaká formule
zahrnujı́cı́ Yi a Xi , i = 1, 2, . . . , n, viz (11), metodou nejmenšı́ch čtverců na základě počátečnı́ho
∞
úseku délky n ∈ N posloupnostı́ náhodných veličin {Yi (ω)}∞
i=1 a {Xi (ω)}i=1 a bude použı́ván
k teoretickým úvahám (např. k důkazu konsistence odhadu), zatı́mco β̂ (LS,n) je vyčı́slen pro
některá konkrétnı́ data, tj. pro deterministické posloupnosti {Yi (ω0 )}ni=1 a {Xi (ω0 )}ni=1 , kde ω0
je některý bod z Ω.
Zdůrazňujeme však ještě jednou, že ve většině přı́padů budeme “(ω)” vynechávat, nebot’
rozlišenı́ mezi β̂ (n) (ω) a β̂ bude naprosto zřejmé z kontextu. Budeme-li např. mluvit o konsistenci
26
či asymptotické normalitě β̂, bude zřejmé, že máme na mysli odhad jako náhodnou veličinu, tj.
β̂(ω), a nikoliv čı́selnou hodnotu odhadu pro některá data.
Druhá poznámka je určena čtenáři, který se snad poprvé v životě setkává s tvrzenı́m o
asymptotickém rozdělenı́ některého odhadu. Jak plyne z Lemmatu 2 (tedy až jej dokážeme) je
odhad β̂ (LS,n) silně konsistentnı́. To je důvod proč se ve vztahu (15) objevuje násobenı́ faktorem
√
n. Bez této normalizace by samozřejmě naznačený rozdı́l při n → ∞ konvergoval k nule.
Důkaz Lemmatu 2. Necht’ L je některá (p×n)-rozměrná matice, L∗ = (X T X)−1 X T a β̃ (n) =
LY . Pak z požadavku nestrannosti, který musı́ platit pro libovolné β ∈ Rp , nebot’ neznáme
hodnotu β 0 , plyne, že pro všechna β ∈ Rp
IEβ β̃ (n) = LIEβ Y = LXβ = β
(16)
LX = I,
(17)
a tudı́ž
kde I je (p × p)-rozměrná jednotková matice a dolnı́ index u střednı́ hodnoty naznačuje, že tato
je počı́tána “v modelu”, ve kterém je vektor regresnı́ch koeficientů roven β. Abychom uzavřeli
důkaz prvé části tvrzenı́ lemmatu, potřebujeme dokázat, že pro libovolné λ ∈ Rp je
λT cov{β̂ (LS,n) }λ ≤ λT cov{β̃ (n) }λ,
kde cov{·} označuje přı́slušnou kovariančnı́ matici. Snadno se ověřı́, že (viz (16) a (17))
λT cov{β̃ (n) }λ = λT IE {(LY − β)T (LY − β)}λ
= λT IE {(LY − LXβ)T (LY − LXβ)}λ = λT LIE {(Y − Xβ)T (Y − Xβ)}LT λ
= λT Lσ 2 ILT λ = σ 2 λT LLT λ.
Podobně
λT cov{β̂ (LS,n) }λ = σ 2 λT L∗ (L∗ )T λ = σ 2 λT (X T X)−1 λ.
Nynı́
λT LLT λ = λT (L − L∗ + L∗ )(L − L∗ + L∗ )T λ
= λT (L − L∗ )(L − L∗ )T λ + λT L∗ (L∗ )T λ,
nebot’
(L − L∗ )(L∗ )T = (L − (X T X)−1 X T )X(X T X)−1 = LX(X T X)−1 − (X T X)−1 = 0
a tedy také L∗ (L − L∗ )T = 0. Vzhledem k tomu, že L∗ (L∗ )T = (X T X)−1 a (L − L∗ )(L − L∗ )T
jsou pozitivně semidefinitnı́, je důkaz prvé části lemmatu dokončen.
K důkazu druhé části použijeme Kolmogorův silný zákon velkých čı́sel (viz např. Rao (1978),
těpán (1987)) . Odhad β̂ (LS,n) můžeme totiž psát jako
(X T X)−1 X T Y = β 0 + nh(n) · (X T X)−1
1
1
1
X T E = β0 + (
X T X)−1
X T E, (18)
nh(n)
nh(n)
nh(n)
27
kde E = (E1 , E2 , . . . , En )T . Uvažujme nejprve pro libovolné `, 1 ≤ ` ≤ p náhodnou veličinu
Zn(`) =
(1)
(2)
n
1 X
xi` Ei
nh(n) i=1
(p)
a Zn = (Zn , Zn , . . . , Zn )T . Protože var{xi` Ei } = x2i` σ 2 , máme
var(Zn(`) ) =
n
n
X
X
1
1
2
var{x
E
}
=
σ
x2 → 0
i` i
n2 h2 (n) i=1
n2 h2 (n) i=1 i`
as n → ∞,
a tedy dle (13) Zn → 0 s. j.. Použitı́m Sluckého věty (viz opět Rao (1978), těpán (1987)) nebo
prostě přı́mo ověřenı́m konvergence s. j. pro transformaci β 0 + n · (X T X)−1 Zn při platnosti (12),
dokončı́me důkaz.
Dřı́ve než postoupı́me k důkazu poslednı́ části věty upozorněme, že v některých monografiı́ch
se podrobně diskutuje charakter posloupnosti matic n1 X T X pro n → ∞ a žádá se, aby byla
ohraničena v pravděpodobnosti. Všimněme si, že pro důkaz konsistence β̂ (LS,n) potřebujeme
naopak to aby n1 X T X nebyla přı́liš “malá”.
Rovněž si povšimněme, že porušenı́ předpokladu homoskedasticity nemusı́ vést ke ztrátě
konsistence, nebot’ prostě stačı́, aby
n
X
1
σ 2 x2 → 0
n2 h2 (n) i=1 i i`
as n → ∞,
pochopitelně při zachovánı́ (12). V článku Rao a Zhao (1992) lze nalézt zajı́mavý nápad studovat
namı́sto konsistence odhadu β̂ (LS,n) pro původnı́ data, ohraničenost v pravděpodobnosti odhadu
β̂ (LS,n) pro data transformovaná následujı́cı́m způsobem.
Protože předpokládáme, že matice X T X je symetrická (a reálná) lze ji psát jako QQT , kde
Q je čtvercová matice (typu p × p) a protože navı́c předpokládáme, že X T X je regulárnı́, je
regulárnı́ také matice Q. Toto vše bude dokázáno nı́že, viz Důsledek 2. To znamená, že existuje
Q−1 a tedy můžeme namı́sto modelu (4) studovat model
Yi = x̃Ti β (n) + Ei ,
i = 1, 2, . . . , n,
³
kde x̃i = xTi Q−1 a β (n) = Qβ 0 . Nynı́ stačı́ předpokládat, že X T X
´−1
(19)
= o(1) a ukázat, že v
modelu (19) je β̂ (LS,n) = Op (1). Rao a Zhao provedli důkaz v rámci studia M -odhadů, avšak
předpoklady, za kterých výsledek platı́, jsou splněny i pro odhad metodou nejmenšı́ch čtverců.
Důkaz je však komplikovaný a proto zájemce odkazujeme na původnı́ článek.
K důkazu poslednı́ části lemmatu pak využijeme Varadarajanovu a Feller-Lindebergovu větu
(opět Rao (1978), těpán (1987)).
Ze vztahu (18) snadno odvodı́me, že
√
1
n(β̂ (LS,n) − β 0 ) = n · (X T X)−1 √ X T E.
n
Zkoumejme nejprve pro libovolné κ ∈ Rp náhodnou veličinu Sn = κT √1n
σ 2 n1 κT X T Xκ.
Pn
i=1 xi Ei . Jejı́
κ ∈ Rp podařı́
střednı́ hodnota je rovna nule a rozptyl
Pokud se nám pro libovolné
dokázat, že Sn má asymptoticky normálnı́ rozdělenı́ s nulovou střednı́ hodnotou a rozptylem
28
P
σ 2 κQκ, pak z Varadarajanovy věty plyne, že √1n ni=1 xi Ei má asymptoticky normálnı́ rozdělenı́
s nulovým vektorem střednı́ch hodnot a kovariančnı́ maticı́ σ 2 Q.
Konkretizacı́ Feller-Lindebergovy podmı́nky pro Sn a ε > 0, dostaneme výraz
σ
−2
T
T
−1
[κ X Xκ]
n Z
X
1
T
T
T
2
i=1 |κ xi z|>εσ[κ X Xκ]
(κT xi z)2 dFEi (z),
(20)
kde FEi (z) označuje distribučnı́ funkci náhodné veličiny Ei . Dı́ky předpokladu o stejném rozdělenı́
všech Ei , jsou všechny tyto distribučnı́ funkce stejné. Pišme tedy namı́sto FEi (z) prostě F (z).
Je třeba dokázat, že tento výraz konverguje k nule pro n → ∞. Zvolme některé pevné τ > 0 a
nalezněme dostatečně velké K > 1 takové, že
Z
z 2 dF (z) < τ σ 2 .
|z|>K
Snadno se nahlédne, že v i-tém integrálu ve výraze (20) integrujeme přes oblast
1
εσ[κT X T Xκ] 2
.
|κT xi |
|z| >
Na druhé straně z předpokladu (14) plyne, že κT X T Xκ je, počı́naje od některého n0 , většı́ než
εσ 2 κT Qκ
1
T
, počı́naje řekněme některým n1 > n0
2 nκ Qκ a rovněž z (14) máme pro δ <
4K 2
¯
¯
¯1 T T
¯
¯ κ X Xκ − κT Qκ¯ < δ,
¯n
¯
což implikuje pro i > n1 a n > n1
¯
¯
¯1 T
¯
¯ κ xi xT κ¯ < 2δ.
i ¯
¯n
Protože však n1 < ∞, existuje n2 > n1 tak, že pro n > n2
¯
¯
¯
¯1 T
¯ κ xi xT κ¯ < 2δ
i ¯
¯n
pro všechna i ∈ N . Pak ovšem pro n > n2 máme
"
(
max
1
εσ[κT X T Xκ] 2
1≤i≤n
tj.
(
"
min
1≤i≤n
Odtud plyne
σ −2 [κT X T Xκ]−1
≤σ
)#2
|κT xi |
−2
T
<
1
εσ[κT X T Xκ] 2
|κT xi |
4δ
1
< 2,
εσ 2 κT Qκ
K
)#2
> K 2.
n Z
X
1
T
T
T
2
i=1 |κ xi z|>εσ[κ X Xκ]
T
−1
[κ X Xκ]
n Z
X
i=1 |z|>K
(κT xi z)2 dF (z)
Z
= σ −2 [κT X T Xκ]−1
|z|>K
z 2 dF (z) ·
n
X
i=1
29
(κT xi z)2 dF (z)
κT xi xTi κ ≤ τ.
Protože ε i τ byla libovolná kladná čı́sla, dokázali jsme platnost Feller-Lindebergovy podmı́nky
pro Sn . Protože rovněž κ bylo libovolné, použitı́m Varadarajanovy věty, jak jsme už ostatně
P
výše uvedli, dostaneme, že asymptotické rozdělenı́ náhodné veličiny √1n ni=1 xi Ei je normálnı́ s
nulovým vektorem střednı́ch hodnot a kovariančnı́ maticı́ σ 2 Q.
P
P
Potom ovšem náhodná veličina n·(X T X)−1 √1n ni=1 xi Ei = ( n1 X T X)−1 √1n ni=1 xi Ei asymptoticky normálnı́ rozdělenı́ s nulovým vektorem střednı́ch hodnot a kovariančnı́ maticı́ σ 2 Q−1 .
2
Nynı́ jsme dospěli do stádia, ve kterém si budeme moci názorně zdůvodnit to, co jsme výše
již jednou naznačili, totiž že omezenı́ na lineárnı́ odhad je drastické. Připomeňme, že Lemma 2
ukazuje, že β̂ (LS,n) je nejlepšı́m nestranným lineárnı́m odhadem. Normálnı́ rovnice (9) přepı́šeme
do tvaru
n
X
(Yi − xTi β)xi = 0.
(21)
i=1
Bez újmy na obecnosti předpokládejme, že jsme data posunuli ve faktorovém prostoru tak, že
ležı́ okolo počátku. Ostatně jak plyne z tvaru β̂ (LS,n) , je tento invariantnı́ k lineárnı́ transformaci
dat a odhad pro původnı́ data lze zı́skat z odhadu pro posunutá data prostě inverznı́ transformacı́. Z (21) je patrné, že pozorovánı́, které bude mı́t velké hodnoty x-ových souřadnic, tj.
bude “leverage pointem”, dostane většı́ váhu v normálnı́ch rovnicı́ch a vı́ce ovlivnı́ jejich řešenı́.
Podobně degradujı́cı́ vliv bude mı́t pozorovánı́ se značně odlehlou y-ovou souřadnicı́ (outlier),
nebot’ u něho bude v (21) zase veliký prvnı́ součinitel. Celkový efekt bude potom takový, jaký
je naznačen na obrázku 1. To však znamená, že i nejlepšı́ mezi lineárnı́mi odhady dá poněkud
překvapivý výsledek.
Jsme-li však v situaci, kdy nemáme pochybnosti o tom, že fluktuace jsou, alespoň přibližně,
normálně rozděleny a následně to ověřı́me normálnı́m grafem, přı́padně testem na normalitu
reziduı́, který bude také popsán nı́že, pak z následujı́cı́ věty plyne, že β̂ (LS,n) je dokonce nejlepšı́ 5
mezi všemi nestrannými odhady.
2
2
VĚTA 1 Necht’ {Ei }∞
i=1 je posloupnost nezávislých normálně rozdělených (N (0, σ ), σ ∈ (0, ∞))
náhodných veličin. Označme β̂ (M L,n) maximálně věrohodný odhad β 0 . Potom β̂ (LS,n) = β̂ (M L,n)
a β̂ (LS,n) dosahuje dolnı́ Rao-Cramerovy hranice rozptylu, tj. je nejlepšı́m nestranným odhadem β 0 . Naopak, je-li β̂ (LS,n) nejlepšı́ nestranný odhad dosahujı́cı́ dolnı́ Rao-Cramerovy hranice
2
(LS,n) = β̂ (M L,n) .
rozptylu, pak přı́slušné rozdělenı́ fluktuacı́ {Ei }∞
i=1 je N (0, σi ) a β̂
Důkaz. Vzhledem k tomu, že v předcházejı́cı́m textu již byla nestrannost dokázána, budeme
dokazovat jen zbývajı́cı́ část tvrzenı́ věty.
Snadno se rozpomeneme, že použitı́ metody maximálnı́ věrohodnosti vždy předpokládáme,
že přı́slušná náhodná veličina, v naše přı́padě Yi , má rozdělenı́ určitého typu s neznámými
parametry, v naše přı́padě N (xTi β, σ 2 ), a snažı́me se nalézt hodnoty parametrů tak, aby se
maximalizovala věrohodnostnı́ funkce. V právě dokazovaném přı́padě, vzhledem k předpokladu
normality, máme
)
(
(Yi − xTi β)2
1
.
exp −
f (Yi , β) = √
2σ 2
σ 2π
5
Odhad je nejlepšı́ ve smyslu minimálnı́ho rozptylu. Pro jiné kritérium by byl (obecně) nejlepšı́m jiný odhad.
Např. L1 -odhad by byl nejlepšı́m v přı́padě, že by kritériem byl střednı́ absolutnı́ vychýlenı́ odhadu.
30
Tvar věrohodnostnı́ funkce je tedy následujı́cı́
n
Y
`n (Y, β) =
(
i=1
)
1
(Y − xTi β)2
√ exp(− i
) .
2σ 2
σ 2π
Zlogaritmovánı́m dostaneme
n
√
1 X
log`n (Y, β) = −n log(σ 2π) − 2
(Yi − xTi β)2 .
2σ i=1
Nynı́
β̂ (M L,n) = argmax {log`n (Y, β)}
β∈Rp
(
= argmax
−
β∈Rp
= arg min
β∈Rp
( n
X
n
X
)
xTi β)2
(Yi −
i=1
)
(Yi − xTi β)2
= β̂ (LS,n) .
i=1
β̂ (LS,n)
Dále ukážeme, že
dosahuje dolnı́ Rao-Cramerovy hranice. Rao-Cramerova věta bývá
uváděna v učebnicı́ch a základnı́ch kursech statistiky obvykle pro jednorozměrný parametr.
Proto krátce zopakujeme jejı́ důkaz pro vı́cerozměrný parametr.
Předpokládáme-li, že statistika Tn (y, x) je nestranným odhadem β, potom IEβ Tn (y, x) = β
pro všechna β ∈ Rp (připomı́náme, že dolnı́ index “β ” u symbolu střednı́ hodnoty naznačuje, že
střednı́ hodnota je počı́tána v modelu, který předpokládá jako “skutečnou” hodnotu regresnı́ch
koeficientů právě β). Označme hustotu náhodné veličiny Y při hodnotách parametrů modelu
rovných X a β symbolem pn (y, X, β). Potom máme
(1)
(2)
βj − βj
Z
n
o
Tnj (y, x) pn (y, X, β (1) ) − pn (y, X, β (2) ) dµ(y)
=
j = 1, 2, . . . . , p,
kde µ(y) je přı́slušná σ-konečná mı́ra, vůči které byla nalezena hustota pravděpodobnosti (jako
Radon-Nikodymova derivace odpovı́dajı́cı́ pravděpodobnostnı́ mı́ry). Pro jednoduchost předpokládejme,
že nosič hustoty pravděpodobnosti pn (y, X, β) je celá přı́mka. Ostatně výsledek těchto úvah
budeme aplikovat na normálnı́ rozdělenı́, kde toto je, právě tak jako dalšı́, nı́že použité předpoklady
jsou, oprávněné. Dřı́ve než budeme pokračovat dále, připomeneme (či uvědomı́me) si, jak je
definována parciálnı́ derivace funkce vı́ce proměnných, řekněme f (t), kde t = (t1 , t2 , . . . , tp )T .
Parciálnı́ derivacı́ v bodě t0 rozumı́me limitu, pokud existuje
(0)
lim
∆→0
(0)
(0)
=
(1)
(1)
(0)
(0)
(0)
(0)
f (t1 , t2 , . . . , tj + ∆, . . . , tp ) − f (t1 , t2 , . . . , tj , . . . , t0p )
∆
(1)
lim(0)
(1)
f (t(1) ) − f (t(0)
(1)
(0)
tj − tj
tj →tj
,
(1)
kde (t1 , t2 , . . . , tj , . . . , tp ) = (t01 , t02 , . . . , t0j + ∆, . . . , t0p ). Nynı́ máme
(1)
(1)
Z
(2)
βj − βj
(2)
β` − β`
=
Tnj (y, x)
pn (y, X, β (1) ) − pn (y, X, β (2) )
(1)
(2)
pn (y, X, β (2) )(β` − β` )
31
pn (y, X, β (2) )dµ(y),
1 ≤ j, ` ≤ p.
Pokud existujı́ přı́slušné parciálnı́ derivace, a pokud lze prohodit integraci a limitudostaneme
(1)
(2)
(mějme na paměti, že βj − βj = 0 pro j 6= `)
Z
δj` =
Tnj (y, x)
∂log pn (y, X, β)
pn (y, X, β)dµ(y)
∂β`
j, ` = 1, 2, . . . , p.
(22)
Poznamenejme, že pro normálnı́ rozdělenı́ parciálnı́ derivace existujı́ a prohozenı́ intedrace a
n (y,X,β)
derivovánı́ lze provést. Necht’ nynı́ τ (β) je pozitivně semidefinitnı́ matice a označme ∂log p∂β
vektor parciálnı́ch derivacı́ a necht’ ξ je vektor zadaný rovnostı́
·
ξ=
∂β
¸T
τ (β).
Znásobı́me-li nynı́ vztah (22) pro každé j, ` = 1, 2, . . . , p čı́slem τ`k (β) a sečteme toto přes `,
dostaneme
p
X
Z
δj` τ (β)`k =
Tnj (y, x)
`=1
p ½
X
∂β`
`=1
¾
pn (y, X, β)τ`k (β) dµ(y),
takže v maticovém zápise můžeme psát
·
Z
τ (β) =
Tn (y, x)
∂β
Z
=
Z
¸T
τ (β)pn (y, X, β)dµ(y)
Tn (y, x) [ξ − IEβ ξ]T pn (y, X, β)dµ(y),
Tn (y, x)ξ T pn (y, X, β)dµ(y) =
kde poslednı́ rovnost plyne z předpokladu, že
·
IEβ ξ = IEβ
∂β
¸T
τ (β) = 0,
který platı́ např. je-li hustota pn (y, X, β) nulová na “okrajı́ch” svého nosiče. Vzhledem k tomu, že
budeme v dalšı́m aplikovat nalezené vztahy na normálnı́ hustotu, bude toto splněno. Z poslednı́ho
vztahu však rovněž plyne, že
Z
[Tn (y, x) − IEβ Tn (y, x)] · [ξ − IEβ ξ]T pn (y, X, β)dµ(y),
τ (β) =
což se snadno ověřı́ přı́mým výpočtem. Potom pro libovolné λ ∈ Rp máme
Z
λT τ (β)λ =
λT [Tn (y, x) − IEβ Tn (y, x)] · [ξ − IEβ ξ]T λpn (y, X, β)dµ(y)
n
o
≤ var λT Tn (y, x) var
(·
∂β
)
¸T
τ (β)λ ,
(23)
kde jsme použili Schwarzovu nerovnost. Protože ve Schwarzově nerovnosti nastává rovnost právě
když náhodná veličina “v prvé varianci” je skoro jistě lineárně závislá na náhodné veličině “ve
druhé varianci”, znamená to, že rovnost nastane pokud pro libovolné λ ∈ Rp
·
λT Tn (y, x) = τ (β) ·
¸T
+ γ(β)
∂β
32
λ
skoro jistě. Dřı́ve než budeme pokračovat, připomeňme si (či uvědomme si), co který symbol
znamená. τ (β) je pozitivně semidefinitnı́ matice typu (p × p) a γ(β) ∈ Rp . Z libovolnosti λ pak
plyne, že
Tn (y, x) = τ (β) ·
+ γ(β),
(24)
∂β
kde navı́c τ (β) a γ(β) musı́ být takové, aby IEβ Tn (Y, x) = β a Tn (y, x) nesmı́ samozřejmě
záviset na β. Je-li nynı́
·
1
pn (y, X, β) = √
σ 2π
máme
Tn (y, x) = τ (β)
)
(
¸n Y
n
i=1
(Yi − xTi β)2
) ,
exp(−
2σ 2
o
n n
X
(Yi − xTi β)xi + γ(β),
i=1
tj.
Tn (y, x) = τ (β)
n
X
Yi xi − τ (β)
i=1
n
X
xi xTi β + γ(β).
(25)
i=1
Protože Tn (y, x) nesmı́ záviset na β, musı́ poslednı́ dva členy v (25) být konstantnı́ (tj. nezávislé
P
na β), neboli je třeba, aby γ(β) = τ (β) ni=1 xi xTi β + a, a ∈ Rp . Pak ovšem máme
Tn (y, x) = τ (β)
n
X
Yi xi + a
i=1
a protože β = IEβ Tn (Y, x) = τ (β)
je konečně τ (β) =
³P
n
T
i=1 xi xi
´−1
Pn
P
IE Yi xi + a = τ (β) ni=1 xi xTi β + a pro libovolné β ∈ Rp ,
i=1
³
´−1
T
= X X
³
T
Tn (Y, x) = X X
a a = 0. Dostali jsme
n
´−1 X
³
Yi xi = X T X
´−1
X T Y,
i=1
³
jinými slovy X T X
´−1
X T Y dosahuje dolnı́ Rao-Cramerovy hranice rozptylu. Necht’ nynı́ naopak
³
Tn (Y, x) = X T X
´−1
XT Y
(26)
je nejlepšı́m nestranným odhadem dosahujı́cı́m dolnı́ Rao-Cramerovu hranici rozptylu. Potom,
jak už bylo řečeno výše (viz (24))
Tn (y, x) = τ (β) ·
+ γ(β).
∂β
Připomeňme, že τ (β) je matice typu (p × p) a γ(β) ∈ Rp . Pro jednoduchost předpokládejme, že
τ je regulárnı́. Pokud by tomu tak nebylo, museli bychom použı́t pseudoinverze a úvahy by se
poněkud zkomplikovaly, nicméně by vedly nakonec ke stejnému závěru. Potom
= [τ (β)]−1 [Tn (y, x) − γ(β)]
∂β
a integrovánı́m dostaneme
log pn (y, X, β) = κ(β)Tn (y, x) − δ(β) + U (y),
33
(27)
kde jsme označili κ(β) vektor z Rp , jehož matice parciálnı́ch derivacı́ je rovna [τ (β)]−1 , δ(β) je
funkce jejı́ž parciálnı́ derivace jsou rovny [τ (β)]−1 γ(β) a U (y) je integračnı́ konstanta (konstanta
vůči proměnné přes kterou se integrovalo a tou bylo β). Po dosazenı́ z (26) do (27) dostaneme
³
log pn (y, X, β) = κ(β) X T X
´−1
X T y − δ(β) + U (y).
Zde snadno nahlédneme, co se stane pokud matice τ (β) nenı́ regulárnı́. Potom κ(β) nenı́ určeno
jednoznačně a musı́me provést reparametrizaci regresnı́ch koeficientů. Protože κ(β) ∈ Rp , exisT
tuje pro libovolnou regulárnı́ matici A typu (p × p) β̄ tak, že κ(β) = β̄ T A, a zvolı́me-li A = Xσ2X ,
dostaneme
log pn (y, X, β̄) = σ −2 β̄ T X T y + δ̄(β̄) + U (y),
kde δ̄(β̄) je funkce odpovı́dajı́cı́ δ(β) po provedenı́ reparametrizace a transformace regresnı́ch
koeficientů pomocı́ matice A a změně znaménka. Potom máme
pn (y, X, β̄) = exp(σ −2 β̄ T X T y) · exp(δ̄(β̄) + U (y)).
Doplněnı́m σ −2 β̄ T X T y na “čtverec” − 2σ1 2 (y − X β̄)T (y − X β̄) nalezneme
pn (y, X, β̄) = exp{−
1
(y − X β̄)T (y − X β̄)} · exp(δ̃(β̄) + Ũ (y)),
2σ 2
kde
δ̃(β̄) = δ̄(β̄) +
1 T T
β̄ X X β̄
2σ 2
a
Ũ (y) = U (y) +
1 T
y y.
2σ 2
Nynı́ uplatnı́me okrajové podmı́nky, které v našem přı́padě řı́kajı́, že pro všechna β̄ ∈ Rp a
všechny matice X typu (n × p) musı́ platit
Z
Z ³
pn (y, X, β̄)dµ(y) = 1
a
β̄ =
XT X
´−1
X T ypn (y, X, β̄)dµ(y).
(28)
Provedeme transformaci y − X β̄ = z a dostaneme z druhého vztahu v (28)
Z ³
β̄ =
XT X
´−1
Z
X T z p̃n (z, X, β̄)dµ(z) + β̄
p̃n (z, X, β̄)dµ(z).
Protože předchozı́ vztah musı́ platit pro všechna β̄ ∈ Rp , máme
Z ³
XT X
tj.
³
T
X X
´−1
´−1
Z
X
T
z exp{−
X T z p̃n (z, X, β̄)dµ(z) = 0,
1 T
z z + Ũ (z + X β̄)} · exp{δ̄(β̄)}dµ(z) = 0,
2σ 2
což znovu připomı́náme musı́ platit pro všechna β̄ ∈ Rp , tj.
Z
z exp{−
1 T
z z + Ũ (z + xβ̄)}dµ(z) = 0
2σ 2
34
(29)
a tedy Ũ ≡ 0. Protože navı́c pro všechna β̄ musı́ platit i prvnı́ vztah v (28)
n
p̃n (z, X, β̄) = (2πσ)− 2 exp{−
a konečně
n
pn (y, X, β̄) = (2πσ)− 2 exp{−
zT z
}
2σ 2
(y − Xβ)T (y − Xβ)
}.
2σ 2
2
V dalšı́m odstavci se budeme věnovat odhadu rozptylu reziduı́, tj. odhadu poslednı́ho parametru
regresnı́ho modelu, který ještě neumı́me odhadovat. Než však otevřeme tuto kapitolu, připomeňme
si ještě jednou, co jsme vlastně dokázali v předchozı́ větě. V některých textech o regresnı́ analýze
se totiž výsledek předchozı́ věty interpretuje tak, že normálnı́ rozdělenı́ fluktuacı́ je ekvivalentnı́
s rovnostı́ odhadů metodou nejmenšı́ch čtverců a metodou maximálnı́ věrohodnosti. Toto ovšem
nenı́ pravda. Uvažme následujı́cı́ přı́klad. Necht’ Y1 , Y2 , ..., Yn majı́ Poissonovo rozdělenı́ s koeficienty λ1 , λ2 , ..., λn , tj.
λk
P (Yi = k) = i e−λi i = 1, 2, ..., n
k!
T
0
a necht’ λi = xi β . (To implicitně předpokládá, že vysvětlovaná veličina nabývá pouze hodnot
rovných přirozeným čı́slům. Jak dalece je pak vhodné pro ni uvažovat lineárnı́ regresnı́ model, je
samozřejmě věcı́ diskuze. Nechme však tento problém pro tento okamžik stranou, vrátı́me se k
němu později, v kapitole věnované právě situaci, kdy vysvětlovaná veličina nabývá diskrétnı́ch
hodnot.) Podobně jako výše věrohodnostnı́ funkce má pro obecné β tvar
n
Y
`n (Y, β) =
(
i=1
[xTi β]Yi −xT β 0
e i
Yi !
)
a jejı́ logaritmus je
log`n (Y, β) =
n ³
X
´
Yi log(xTi β) − xTi β − log(Yi !) .
i=1
Vzhledem k tomu, že výraz
Pn
i=1 log(Yi !)
log`n (Y, β) =
je nezávislý na vektoru β, stačı́ maximalizovat
n ³
X
´
Yi log(xTi β) − xTi β .
i=1
Snadno ověřı́me, že
(
n
xij
∂log`n (Y, β) X
Yi T − xij
=
∂βj
xi β
i=1
)
a tedy normálnı́ rovnice majı́ tvar
n
X
i=1
Yi xij =
n
X
xij XiT β,
j = 1, 2, ..., p.
i=1
Po přepsánı́ do maticového tvaru dostaneme
X T Y = X T Xβ
35
a konečně
³
β̂ (M L,n) = X T X
´−1
X T Y.
To znamená, že β̂ (M L,n) = β̂ (LS,n) . Prvnı́, co by nás mohlo napadnout, je to, že podstatné bylo
to, že jsme ve Větě 1 předpokládali, že β̂ (LS,n) dosahuje dolnı́ Rao-Cramerovy hranice rozptylu,
a že to v tomto přı́kladě nemusı́ platit.
Pro jednoduchost předpokládejme, že xTi β 0 = λ, tj. střednı́ hodnota všech veličin Y1 , Y2 , ..., Yn
je stejná. To je speciálnı́ přı́pad námi vyšetřované situace. Pokud tedy zjistı́me, že v tomto
přı́padě maximálně věrohodný odhad dosahuje dolnı́ Rao-Cramerovy hranice rozptylu, pak naše
domněnka, že tento předpoklad, totiž dosaženı́ této hranice, byl podstatný, nebyla na mı́stě.
Snadno spočteme, že IE Yi = λ a var(Yi ) = λ pro i = 1, 2, ..., n. Podobně jednoduchý výpočet
ukáže, že Fischerova informace je rovna λ−1 . Vzhledem k tomu, že maximálně věrohodným
P
odhadem parametru λ pro n pozorovánı́ je n−1 ni=1 Yi , je jeho rozptyl roven n−1 λ a dolnı́
Rao-Cramerova hranice rozptylu je pro n pozorovánı́ rovněž n−1 λ. Jinými slovy maximálně
věrohodný odhad dosahuje dolnı́ Rao-Cramerovy hranice.
Podstatným předpokladem je totiž to, že vysvětlovaná veličina Y je spojitého typu. To
umožňuje psát (28) v tom tvaru, v jakém byl tento vztah zapsán, a dokázat, že z (29) plyne
Ũ ≡ 0 (srovnej Rao (1978), přı́klad 10.1 v kapitole 5). Podrobnějšı́ diskuzi o ekvivalenci odhadu
zı́skaného metodou nejmenšı́ch čtverců a maximálně věrohodného odhadu, a to i v přı́padě, kdy
je porušen předpoklad o homoskedasticitě, tj. předpoklad označený jako “2.” v Podmı́nkách
A, lze nalézt v práci Charnes et al. (1976), kde jsou zobecněny původnı́ výsledky z práce
Bradley (1973). Dalšı́ podrobnosti o regresnı́ch modelech, ve kterých se předpokládá, že náhodné
fluktuace a tudı́ž také vysvětlovaná veličina, jsou rozděleny dle Poissonova rozdělenı́ lze zı́skat
v práci Frome et al. (1973).
3.2
Odhad rozptylu náhodných fluktuacı́
Dřı́ve než budeme pokračovat ve výkladu, připomeňme, že, jak plyne z výše uvedeného, je
Ŷ = X β̂ (LS,n) = X(X T X)−1 X T Y
(30)
projekcı́ Y do prostoru M(X), tj. do prostoru generovaného sloupci matice plánu. Proto se
matice X(X T X)−1 X T často označuje jako projekčnı́ matice . V literatuře se také část mluvı́ o
této matici jako o “hat” matici, patrně dle “hat” nad Y .
LEMMA 3 Rezidua r(β̂ (n) ) = Y − Ŷ a projekce Ŷ jsou navzájem kolmé a tedy nekorelované.
Je-li navı́c rozdělenı́ Ei normálnı́ N (0, σ 2 ) 0 < σ 2 < ∞, pak jsou rezidua r(β̂ (n) ) a projekce Ŷ
nezávislé. Konečně pak
³
´
L(r(β̂ (n) )) = N (0, σ 2 I − X(X T X)−1 X T )
(31)
L(Ŷ ) = N (0, σ 2 X(X T X)−1 X T ),
(32)
a
kde “L” značı́ rozdělenı́ té náhodné veličiny, která je uvedena v závorkách (pı́smeno L je od
slova Law).
36
Důkaz. Snadno ověřı́me, že
(Y − Ŷ )T Ŷ = Y T Ŷ − Ŷ T Ŷ = Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T X(X T X)−1 X T Y
= Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T Y = 0,
kde jsme využili faktu, že matice X(X T X)−1 X T je symetrická a idempotentnı́. Z (30) dále
máme IEβ 0 Ŷ = Xβ 0 a
IEβ 0 (Ŷ − Xβ 0 )(Ŷ − Xβ 0 )T = IEβ 0
n
X(X T X)−1 X T (Y − Xβ 0 )(Y − Xβ 0 )T X(X T X)−1 X T
o
= σ 2 X(X T X)−1 X T .
Podobně
IEβ 0 (Y − Ŷ ) = IEβ 0 (I − X(X T X)−1 X T )Y = (I − X(X T X)−1 X T )Xβ 0 = 0
a jednoduchý obdobný výpočet dá
IEβ 0 (Y − Ŷ )(Y − Ŷ )T
n
o
(I − X(X T X)−1 X T )Y − (I − X(X T X)−1 X T )Xβ 0 ×
= IEβ 0
n
× (I − X(X T X)−1 X T )Y − (I − X(X T X)−1 X T )Xβ 0
oT
= IEβ 0 (I − X(X T X)−1 X T )(Y − Xβ 0 )(Y − Xβ 0 )T (I − X(X T X)−1 X T )
= σ 2 (I − X(X T X)−1 X T ),
kde jsme použili fakt, že (I − X(X T X)−1 X T )X = 0. Protože rezidua r(β̂ (n) ) a projekce Ŷ
jsou lineárnı́ transformacı́ Y , jsou samozřejmě také normálně rozdělena a výše uvedené výpočty
udávajı́ parametry těchto rozdělenı́. Tı́m je dokázáno (31) a (32). Konečně pak z nekorelovanosti
a z normality plyne nezávislost.
2
DŮSLEDEK 1 Za předpokladu Lemmatu 3 je β̂ (LS,n) nezávislý na vektoru reziduı́ r(β̂ (n) ).
Důkaz. Vzhledem k tomu, že (X T X)−1 X T X = I, máme dle (30)
β̂ (LS,n) = (X T X)−1 X T Y = (X T X)−1 X T X(X T X)−1 X T Y = (X T X)−1 X T Ŷ .
2
Nynı́ vyslovı́me několik tvrzenı́, která budeme potřebovat při vyšetřovánı́ odhadu rozptylu
reziduı́.
TVRZENÍ 1 Necht’ {Ei }∞
i=1 je posloupnost nezávislých stejně rozdělených náhodných veličin s
2
IE Ei = 0, varEi = σ ∈ (0, ∞), IE |Ei |3 < ∞ a IE Ei4 = σ 4 (γ + 3) (kde poslednı́ vztah vlastně
definuje hodnotu γ). Potom pro všechny symetrické matice A máme
(
T
2
IE (E AE) = σ
4
γ
n
X
)
a2ii
2
2
+ (tr(A)) + 2tr(A ) ,
i=1
“tr” znamená stopa (trace) a aii je i-tý diagonálnı́ prvek matice A. Navı́c γ ≥ −2.
37
Důkaz.

n X
n X
n X
n
X
IE (E T AE)2 = IE
=
n
X
a2ii IE Ei4 +
i=1
= σ 4 (γ + 3)

n X
X


Ei aij Ej Ek ak` E`
i=1 j=1 k=1 `=1
aii ajj IE Ei2 Ej2 + 2
i=1 j6=i
n
X
n X
X

a2ij IE Ei2 IE Ej2
i=1 j6=i
Ã
a2ii + σ 4 tr(A)tr(A) −
i=1
n
X
!
Ã
a2ii + 2σ 4 tr(A2 ) −
i=1
n
X
!
a2ii .
i=1
Konečně pak
n
o
0 ≤ var (Ei − IE Ei )2 = IE (Ei − IE Ei )4 − IE 2 (Ei − IE Ei )2
= µ4 − σ 4 = σ 4 (γ + 2).
©
ª
Rovnost by nastala pouze tehdy, když by var (Ei − IE Ei )2 = 0, tj. když Ei = 0 s. j., ale to
vzhledem k předpokladu σ 2 ∈ (0, ∞) nenı́ možné.
2
TVRZENÍ 2
tr (M1 · M2 ) = tr (M2 · M1 ) .
Důkaz.
m X
n
X
(1)
(2)
mkj · mjk =
k=1 j=1
n X
m
X
(2)
(1)
mjk · mkj .
j=1 k=1
2
TVRZENÍ 3 Necht’ A je idempotentnı́ matice, tj. A · A = A. Potom rank(A) = tr(A), kde
“rank” znamená hodnost.
Důkaz.Pro rank(A) = 0 je tvrzenı́ zřejmé. Necht’ rank(A) = r 6= 0, A necht’ je typu (n × n) a
B (typu (n × r)) necht’ má za sloupce bázi prostoru M(A), tj. prostoru generovaného sloupci
matice A. Nepochybně sloupce matice A jsou lineárnı́mi kombinacemi sloupců matice B, tj.
existuje matice C taková, že A = B · C. Potom B T B i CC T jsou regulárnı́, nebot’ obě jsou typu
(r × r) a kdyby jejich hodnost byla menšı́ než r, pak by také B (přı́padně C) mělo hodnost
menšı́ než r. Toto se snadno nahlédne takto: Pokud B T B nenı́ regulárnı́, pak existuje λ ∈ Rr ,
λ 6= 0 tak, že B T Bλ = 0. Pak ale také λT B T Bλ = 0, tj. (Bλ)T Bλ = 0. Potom ovšem Bλ = 0
a tedy rank(B) < r a to je spor. Stejně se to ukáže pro C. Pokud by totiž rank(C) byl menšı́
než r, pak by také rank(A) < r. Tento fakt okamžitě plyne z toho, že dimenze prostoru M(A)
je stejná jako dimenze M(AT ).
Položme D = B(B T B)−1 , E = C T (CC T )−1 . Potom DT B = Ir a CE = Ir . Dále pak máme
A = A · A = B · C · B · C = B · C a tedy po znásobenı́ zleva maticı́ DT a zprava E dostaneme
DT BCBCE = DT BCE
a tedy
Ir CBIr = Ir Ir .
38
Konečně pak
CB = Ir .
Nynı́
tr(A) = tr(BC) = tr(CB) = tr(Ir ) = r,
kde jsme využili předchozı́ tvrzenı́ a naznačovali jsme rozměr jednotkové matice.
2
TVRZENÍ 4 Je-li A pozitivně definitnı́ (semidefinitnı́), potom vlastnı́ čı́sla jsou kladná (nezáporná).
Důkaz. Připomeňme, že vlastnı́ vektory a vlastnı́ čı́sla jsou zadány rovnostı́
A · q = λq,
q 6= 0
a tedy
λkqk2 = λq T q = q T Aq > 0 (≥ 0).
TVRZENÍ 5 Necht’ A je symetrická matice. Potom vlastnı́ čı́sla jsou reálná a vlastnı́ vektory
lze zvolit reálné.
Důkaz. Necht’ q je vlastnı́ vektor, r a s necht’ je jeho reálná a imaginárnı́ část. Podobně necht’
λ je vlastnı́ čı́slo přı́slušné ke q, τ a κ necht’ je jeho reálná a imaginárnı́ část. Konečně pak necht’
v tomto důkaze i značı́ imaginárnı́ jednotku. Připomeňme, že z definice vlastnı́ho vektoru plyne,
že kqk2 > 0. Potom máme
A(r + is) = (τ + iκ)(r + is)
a porovnánı́m reálných a imaginárnı́ch části dostaneme
Ar = τ r − κs
(33)
As = τ s + κr.
(34)
a
Po vynásobenı́ zleva vztahu (33) sT a vztahu (34) rT , dostaneme
sT Ar = τ sT r − κsT s
a
rT As = τ rT s + κrT r
a odečtenı́m prvnı́ rovnosti od druhé zı́skáme dı́ky symetrii matice A rovnost
0 = κ(rT r + sT s) = κkqk2 ,
odkud plyne, že κ = 0, nebot’ kqk2 > 0. Pokud vektory r a s řešı́ vztahy (33) a (34), pak je řešı́
také r a 0.
2
TVRZENÍ 6 Necht’ matice A je typu (n × n). Potom pro libovolný vektor Z ∈ Rn , existuje
vlastnı́ vektor q ∈ M(Z, AZ, A2 Z, . . .).
39
n
o
Důkaz. Položme k0 = min k : Ak Z + bk−1 Ak−1 Z + . . . + b0 Z = 0, b ∈ Rk , kde b = (b0 , b1 , . . . ,
bk−1 )T . Nepochybně množina na nı́ž je hledáno minimum je neprázdná, nebot’ vektory Z, AZ, A2 Z,
A3 Z, . . . mohou obsahovat nejvýše n nezávislých. Odtud k0 ≤ n. Dále ukážeme, že lze psát
Ak0 Z + bk0 −1 Ak0 −1 Z + . . . + b0 Z = (A − µ1 I)(A − µ2 I) · . . . · (A − µk0 I)Z
(35)
pro libovolný vektor Z ∈ Rn . Aby to opravdu šlo, je třeba ukázat, že existujı́ µ1 , µ2 , . . . , µk0
(obecně komplexnı́ čı́sla) tak, že platı́ následujı́cı́ vztahy, které dostaneme roznásobenı́m pravé
strany (35) a porovnánı́m koeficientů u stejných mocnin matice A,
µ1 + µ2 + . . . + µk0 = bk0 −1 ,
k0 X
X
µi µj = bk0 −2 ,
i=1 j6=i
k0 X X
X
µi µj µ` = bk0 −3
i=1 j6=i `6=i,`6=j
atd. až
µ1 · µ2 · . . . · µk0 = b0 .
To, že takováto soustava rovnic má řešenı́ µ1 , µ2 , . . . , µk0 plyne okamžitě z faktu, že stejná
soustava vznikne, roznásobı́me-li pravou stranu rovnosti
tk0 + bk0 −1 tk0 −1 + . . . + b0 = (t − µ1 )(t − µ2 ) · . . . · (t − µk0 )
a porovnáme koeficienty na pravé a levé straně. Na druhé straně, to že pravá strana této rovnosti
je rozkladem levé, plyne ze známé věty o počtu kořenů polynomu. Tento počet je vždy roven
stupni polynomu a kořeny mohou být komplexnı́.
Potom ovšem
q = (A − µ2 I)(A − µ3 I) · . . . · (A − µk0 I)Z 6= 0,
(36)
nebot’ jinak by k0 nebylo minimem. Pak máme (A − µ1 I)q = 0 a tedy Aq = µ1 q, a nepochybně
q ∈ M(Z, AZ, A2 Z, . . .).
2
Povšimněme si, že vektor q je ovšem obecně komplexnı́.
TVRZENÍ 7 (Spektrálnı́ rozklad matice.) Necht’ A je reálná symetrická matice typu (m × m).
Potom existuje ortogonálnı́ reálná matice Q taková,že
QT AQ = Λ = diag {λ1 , λ2 , . . . , λm } ,
kde λ1 , λ2 , . . . , λm jsou vlastnı́ čı́sla matice A, diag {λ1 , λ2 , . . . , λm } značı́ diagonálnı́ matici typu
m × m s prvky λ1 , λ2 , . . . , λm na diagonále a
QT Q = Im .
Potom také QQT = Im , a konečně A = QΛQT .
40
Důkaz. Předpokládejme, že jsme již našli s ortogonálnı́ch vlastnı́ch vektorů matice A, tj. qiT qj =
δij pro 1 ≤ i, j ≤ s. Pokud s < m, necht’ Z⊥M(q1 , q2 , . . . , qs ). Pro libovolné r ∈ N dále máme
Z T Ar qi = Z T Ar−1 λi qi = Z T λri qi = 0
pro
1 ≤ i ≤ s.
Tedy M(Z, AZ, A2 Z, . . .)⊥M(q1 , q2 , . . . , qs ). Dle Tvrzenı́ 6 existuje
qs+1 ∈ M(Z, ZA, ZA2 , . . .),
tj. existuje dalšı́ vlastnı́ vektor, který je ortogonálnı́ k q1 , q2 , . . . , qs . Existuje tedy ortogonálnı́
matice Q, tj. QT Q = Im , tak, že
AQ = QΛ,
kde Λ je diagonálnı́ matice vlastnı́ch čı́sel. Tedy QT AQ = Λ. Pak ovšem i QQT = Im , nebot’ pro
regulárnı́ matici je levá a pravá inverze totožná, a tedy A = QΛQT .
Nynı́ ukážeme, že Q může být zvolena reálná. Necht’ do konce důkazu značı́ i opět imaginárnı́
jednotku. Z předchozı́ho tvrzenı́ vı́me, že vlastnı́ čı́sla symetrické matice jsou reálná a vlastnı́
vektory lze zvolit reálné. Pokud tedy matice A je navı́c symetrická, dostali jsme při hledánı́
prvnı́ho vlastnı́ho vektoru nějaké reálné vlastnı́ čı́slo λ1 a tento vektor, řekněme q1 jsme zvolili
reálný. Po nalezenı́ vlastnı́ho vektoru q2 kolmého ke q1 výše naznačenou indukcı́ dostaneme
obecně komplexnı́ vlastnı́ vektor q2 s vlastnı́m čı́slem λ2 , které je reálné. Označme reálnou
(R)
(I)
složku vektoru q2 symbolem q2 a imaginárnı́ složkou q2 a dostaneme
(R)
q1T (q2
(R)
Odtud q1T q2
(I)
(R)
+ iq2 ) = q1T q2
(I)
+ iq1T q2 = 0.
= 0. Navı́c faktu, že λ2 je reálné plyne, že rovněž
(R)
Aq2
(R)
= λ2 q2 ,
tj. q2 lze zvolit reálné. Indukcı́ se důkaz uzavře.
2
Povšimněme si, že pro důkaz toho, že v předchozı́m tvrzenı́ lze pro symetrickou matici zvolit
přı́slušné vlastnı́ vektory reálné, nelze použı́t Tvrzenı́ 5 přı́mo, nebot’ pak nenı́ zřejmé, zda zůstane
zachována jejich vzájemná ortogonalita.
POZNÁMKA 1 Všimněme si, že
A=
m
X
λi qi qiT .
i=1
Tomuto se řı́ká spektrálnı́ rozklad matice A.
DŮSLEDEK 2 Snadno nahlédneme, že
√
√
A = (Q Λ)D(Q Λ)T ,
np
o
√
p
p
Λ = diag
|λ1 |, |λ2 |, . . . , |λn | a kde D je diagonálnı́ matice s prvky 1,-1, nebo 0
p
√
na diagonále, tj. A = Q̃DQ̃T . Pokud A je (semi)pozitivnı́, pak samozřejmě |λi | = λi pro
všechna i a D nepotřebujeme, tj. A lze psát jako QQT , kde ovšem v přı́padě, že matice A je
semipozitivnı́ a nenı́ regulárnı́, matice Q má hodnost menšı́ než n.
kde
41
Důkaz je v podstatě zřejmý. Stačı́ si uvědomit, že diagonálnı́ matici mohu psát jako součin
třı́ diagonálnı́ch, z nichž jedna “zajišt’uje” znaménka, a dalšı́ dvě majı́ na diagonále odmocniny
absolutnı́ch hodnot diagonálnı́ch prvků původnı́ diagonálnı́ matice. Všimněme si, že dokonce
zmı́něné matice mohou být násobeny v libovolném pořadı́.
POZNÁMKA 2 Podle Tvrzenı́ 1 je γ = τ − 3, kde τ je špičatost
τ=
µ4
,
σ4
a kde µ4 je čtvrtý centrálnı́ model a σ 4 je (samozřejmě) druhá mocnina rozptylu. Někdy se za
špičatost bere hodnota γ; potom je tato nulová pro standardnı́ normálnı́ rozdělenı́.
2 reziduálnı́ součet čtverců, tj.
LEMMA 4 Označme SR
2
SR
h
= r(β̂
(LS,n)
iT
)
r(β̂
(LS,n)
)=
n
X
(Yi − xTi β̂ (LS,n) )2
i=1
2 . Předpokládejme dále, že σ 2 ∈ (0, ∞). Pokud špičatost γ = 0 nebo
a položme s2 = (n − p)−1 SR
diagonálnı́ prvky projekčnı́ matice X(X T X)−1 X T jsou konstantnı́, je s2 nejlepšı́m nestranným
odhadem rozptylu reziduı́ σ 2 mezi všemi nestrannými kvadratickými odhady.
Důkaz. Pišme
h
iT
IE s2 = (n − p)−1 IE r(β̂ (LS,n) )
µ
h
r(β̂ (LS,n) ) = IE (n − p)−1 tr
iT ¶
= (n − p)−1 IE tr r(β̂ (LS,n) ) r(β̂ (LS,n) )
µ
µh
iT
(β̂ (LS,n) )
h
¶
r(β̂ (LS,n) )
iT ¶
= (n − p)−1 tr IE r(β̂ (LS,n) ) r(β̂ (LS,n) )
³
´
= (n − p)−1 tr var(r(β̂ (LS,n) )) ,
kde var(r(β̂ (LS,n) )) je kovariančnı́ matice vektoru reziduı́ r(β̂ (LS,n) ) a poslednı́ rovnost platı́ dı́ky
tomu, že IE r(β̂ (LS,n) ) = IE (Y − X β̂ (LS,n) ) = 0, nebot’ β̂ (LS,n) je nestranným odhadem β 0 .
Protože
var(r(β̂ (LS,n) )) = σ 2 (I − X(X T X)−1 X T )
(viz Lemma 3), potřebujeme nalézt tr(I − X(X T X)−1 X T ). Vzhledem k tomu, že projekčnı́
matice X(X T X)−1 X T má hodnost p a je idempotentnı́ je tr(X(X T X)−1 X T ) = p a tedy tr(I −
X(X T X)−1 X T ) = n − p (viz Tvrzenı́ 3). Tı́m je ukázána nestrannost. To ovšem také znamená,
2 je nestranným odhadem (n − p)σ 2 .
že (n − p)s2 = SR
Nynı́ hledejme jiný nestranný kvadratický odhad veličiny (n−p)σ 2 , tj. odhad ve tvaru Y T AY ,
2 má také
kde A je některá pozitivně semidefinitnı́, tj. také symetrická matice. Připomeňme, že SR
2 = Y T (I − X(X T X)−1 X T )Y ,
tento tvar, nebot’ r(β̂ (LS,n) ) = (I − X(X T X)−1 X T )Y a tedy SR
kde matice I − X(X T X)−1 X T je idempotentnı́ a tedy pozitivně semidefinitnı́. Poznamenejme
ještě, že jsme se omezili na pozitivně semidefinitnı́ matice, abychom pro libovolné Y ∈ Rn měli
Y T AY ≥ 0, nebot’ jinak by to byl poněkud podivný odhad σ 2 . Z požadavku nestrannosti plyne,
že
h
i
³
h
i´
(n − p)σ 2 = IEβ 0 Y T AY = IE tr(AY Y T ) = tr AIE Y Y T
42
h
i
= tr A(Xβ 0 [β 0 ]T X T + σ 2 I) = [β 0 ]T X T AXβ 0 + σ 2 tr(A),
(37)
nebot’
i
h
h
IE Y Y T = IE (Xβ 0 + E)(Xβ 0 + E)T = IE Xβ 0 [β 0 ]T X + EXβ 0 + Xβ 0 E T + EE T
i
= Xβ 0 [β 0 ]T X + σ 2 I.
Protože výsledek ve vztahu (37) nesmı́ záviset na hodnotě β 0 (které neznáme), je nutně X T AX =
0 a tr(A) = n − p. Protože matice A je pozitivně semidefinitnı́, je možné ji psát jako QQT . Pak
ovšem X T QQT X = 0 a tedy také QT X = 0 a konečně QQT X = 0, tj. AX = 0. To však
okamžitě implikuje
Y T AY = (Xβ 0 + E)T A(Xβ 0 + E) = E T AE.
Nynı́
n
o
var Y T AY
"
=σ
4
γ
n
o
= var E T AE = IE (E T AE)2 − IE 2 (E T AE)
n
X
#
a2ii
2
+ (tr(A)) + 2tr(A ) − σ 4 (n − p)2
i=1
"
= σ4 γ
n
X
2
#
a2ii + 2tr(A2 ) ,
(38)
i=1
kde aii , i = 1, 2, . . . , n jsou diagonálnı́ prvky matice A. Označme M = I − X(X T X)−1 X T a
pišme A = M + D. Pak
tr(D) = 0
(39)
a protože M X = 0, je rovněž DX = 0 a samozřejmě D = DT . Odtud
h
i
M D = I − X(X T X)−1 X T D = D.
Dále
A2 = (M + D)(M + D) = M + M D + DM + D2 = M + 2D + D2 ,
tj. tr(A2 ) = n−p+2tr(D)+tr(D2 ) = n−p+tr(D2 ), nebot’ tr(D) = 0. Budeme-li nynı́ pokračovat
v (38), dostaneme
(
T
var(Y AY ) = σ
4
γ
n h
X
m2ii
2
)
i
+ 2mii dii + dii
2
+ 2(n − p) + 2tr(D )
i=1
(
=σ
4
γ
n
X
)
m2ii
+ 2(n − p) + σ 4 c,
(40)
i=1
kde opět mii a dii , i = 1, 2, . . . , n jsou diagonálnı́ prvky matic M a D. Prvnı́ člen v (40)
představuje var(Y T M Y ) a je nezávislý na volbě matice D. Konečně pak
c=γ
n n
X
o
d2ii + 2mii dii + 2tr(D2 ).
i=1
Stačı́ tedy zkoumat to, jaká volba matice D vede k minimu v (40).
43
Pokud γ = 0 (což nastane např. jsou-li rezidua normálně rozdělena) nastane minimum pokud
tr(D2 ) = 0. Protože však
n
D
P
2
o
k`
=
n
X
dkj dj` ,
j=1
P
plyne z tr(D2 ) = nk=1 nj=1 d2kj = 0 také D = 0.
Pokud je mii = const = m (a tedy m = n−p
n ), je
c=γ
( n
X
i=1
d2ii
(n − p)tr(D)
+2
n
)
+2
n X
n
X
d2ij ,
i=1 j=1
kde ovšem tr(D) = 0 (viz (39)) a tedy
c = (γ + 2)
n
X
d2ii + 4
i=1
n X
n
X
d2ij .
i=1 j=i+1
Protože γ ≥ −2 je prvnı́ i druhý člen pravé strany poslednı́ho výrazu nezáporný a tedy minimum
nastane opět pro D = 0. Pak ovšem A = M .
2
Dřı́ve než postoupı́me k výkladu otevı́rajı́cı́mu cestu k interpretaci a základnı́ diagnostice
výsledků regresnı́ analýzy, shrňme některá fakta, se kterými jsme se již seznámili.
Na začátku této kapitoly jsme uvedli Podmı́nky A, při platnosti kterých je odhad metodou
nejmenšı́ch čtverců nejlepšı́m nestranným lineárnı́m odhadem, tj. tento odhad má nejmenšı́
rozptyl mezi všemi lineárnı́mi odhady. Ukázali jsme však také, že omezenı́ se na lineárnı́ odhady
je drastické. Nechceme-li se tedy omezit na třı́du lineárnı́ch odhadů a chceme-li, aby náš odhad,
tj. odhad metodou nejmenšı́ch čtverců byl akceptovatelný i v rámci třı́dy všech nestranných
odhadů, musı́me jej použı́vat jen v přı́padech, kdy náhodné fluktuace v modelu jsou rozděleny
normálně. Budeme tedy i normalitu disturbancı́ považovat za jeden ze základnı́ch předpokladů
regresnı́ analýzy prováděné metodou nejmenšı́ch čtverců.
Jak jsme se již zmı́nili v úvodu, v přı́padě, kdy vysvětlujı́cı́ proměnné jsou náhodné veličiny,
může statistická závislost mezi nimi a fluktuacemi způsobit, že odhad metodou nejmenšı́ch
čtverců bude vychýlený a nekonsistentnı́. Pokud budeme tedy realizovat regresnı́ analýzu v
situaci, kdy je adekvátnějšı́ považovat vysvětlujı́cı́ proměnné za náhodné veličiny než za deterministicky dané vektory, měli bychom k základnı́m předpokladům regresnı́ analýzy dodat
předpoklad o statistické nezávislosti vysvětlujı́cı́ch proměnných a náhodných fluktuacı́. A diagnostikovat jeho splněnı́.
4
4.1
DIAGNOSTIKA ODHADU REGRESNÍHO MODELU
Rozdělenı́ kvadratických forem
Kvadratickou formou se rozumı́ QF : Rn → R, která má tvar QF (t) = tT At, kde A je některá
symetrická matice typu (n × n) a t ∈ Rn (pro některé n ∈ N ).
LEMMA 5 Každou kvadratickou formu lze převést na kvadratickou formu obsahujı́cı́ jen čtverce
proměnných.
44
POZNÁMKA 3 Uvedené lemma přirozeně neřı́ká, že obecně lze kvadratickou formu transformavat tak, aby byla součtem čtverců původnı́ch proměnných, naopak transformovaná kvadratická
forma bude obsahovat proměnné v jiné souřadné soustavě.
Důkaz (Lemmatu 5). Z Důsledeku 2 okamžitě plyne, že
QF (t) = tT At = tT QDQT t,
kde diagonálnı́ matice D má na diagonále jedničky, minus jedničky nebo nuly. Přirozeně počet
nenulových diagonálnı́ch prvků je roven hodnosti matice A. Navı́c Tvrzenı́ 7 a Důsledek 2
napovı́dajı́, že matice Q byla zkonstruována z vlastnı́ch vektorů matice A, tj. Q = q1 , q2 , . . . , q` , 0, . . . , 0),
kde ` je hodnost matice A. Definujme nové proměnné vztahem z = QT t. Potom
T 2
T 2
T 2
QF (z) = z T Dz = +
− (q1 t) +
− (q2 t) +
− ... +
− (q` t) .
2
LEMMA 6 (Fisher-Cochran) Necht’ t(ω) ∈ Rn a L(ti ) = N (µi , 1) i = 1, 2, . . . , n. Dále necht’
QFi (t) = tT (ω)Ai t(ω), i = 1, 2, . . . , k, rank(Ai ) = ni . Označme ještě µ = (µ1 , µ2 , . . . , µn )T , a
necht’
tT (ω)t(ω) = QF1 (t) + QF2 (t) + . . . + QFk (t).
(41)
Potom QFi (t) jsou navzájem nezávislé a L(QFi (t)) = χ2 (ni , κi ) s κi = µT Ai µ, právě když
Pk
Pn
Pk
2
i=1 ni = n. Potom navı́c
i=1 µi =
j=1 κj .
Důkaz. Aplikujeme-li předchozı́ lemma dostaneme
T
2
T
2
T
2
QFi = +
− (q(i)1 t) +
− (q(i)2 t) +
− ... +
− (q(i)ni t) ,
kde Ai = Q(i) D(i) QT(i) s
n
o
n
Q(i) = q(i)1 , q(i)2 , . . . , q(i)ni
a
o
D(i) = diag d(i)1 , d(i)2 , . . . , d(i)ni , 0, . . . , 0 ,
kde “diag” bylo opět použito pro diagonálnı́ matici, která má na diagonále prvky, které jsou
vyjmenované v závorce. V našem přı́padě to jsou d(i)j = +
− 1. Dı́ky tomu, že předpokládáme,
T t) = N (ν , τ 2 ) pro některá ν a τ 2 . Nynı́ budeme
že vektor t je normálně rozdělen, máme L(q(i)j
ij ij
ij
ij
P
předpokládat, že ki=1 ni = n a ukážeme, že kvadratické formy jsou nezávislé a majı́ přı́slušná
χ2 rozdělenı́. Označme
Q = (q(1)1 , q(1)2 , . . . , q(1)n1 , q(2)1 , . . . , q(2)n2 , . . . , q(k)1 , . . . , q(k)nk )
a
n
D = diag
o
+
− 1, +
− 1, . . . , +
− 1 ,
kde byla znaménka přirozeně vybrána tak, aby to odpovı́dalo “polaritě” diagonálnı́ch prvků v
maticı́ch D(1) , D(2) , . . . , D(k) , tj. znaménkům vlastnı́ch čı́sel odpovı́dajı́cı́ch vlastnı́ch vektorů.
Potom máme
tT t =
k
X
tT Q(i) D(i) QT(i) t = tT QDQT t.
i=1
45
(42)
Vztah (42) musı́ přirozeně platit pro všechna t ∈ Rn , nebot’ normálně rozdělená náhodná veličina
může nabývat libovolné hodnoty. To implikuje In = QDQT a také rank(Q) = n, tj. Q je
regulárnı́. Rozpomeneme-li se, že regulárnı́ matice má stejnou pravou a levou inverznı́ matici,
£
¤T
¡
¢T
¡
¢T
dostáváme I = Q · Q−1 = Q−1 · QT a to řı́ká, že Q−1 je inverznı́ maticı́ ke QT , tj.
(QT )−1 = (Q−1 )T . Konečně tedy D = Q−1 In (Q−1 )T . Z toho plyne, že D je pozitivně definitnı́
a konečně D = In . To však implikuje, že In = QQT a tedy Q je orthogonálnı́ a pak také
QT Q = In . Proved’me transformaci náhodných veličin z(ω) = QT t(ω) a využijme předpokladu
L(ti ) = N (µi , 1). Z orthogonality matice Q a normality t okamžitě zjistı́me, že z(ω) má nezávislé
souřadnice a
L(z) = N (QT µ, I).
Necht’ j, 1 ≤ j ≤ k je libovolné. Snadno nahlédneme, že
T
T
T
QFj (t) = (q(j)1
t)2 + (q(j)2
t)2 + . . . + (q(j)n
t)2 = Σ(j) zl2 ,
j
(43)
kde z kontextu je patrné, přes které vybrané souřadnice vektoru z se sčı́tá v poslednı́ sumě.
Snadno se rovněž ověřı́,a patrně je to vidět na prvnı́ pohled, že pro kvadratické formy QFj (t) a
QFk (t) pro j 6= k, jsou souřadnice vstupujı́cı́ do sum Σ(j) zl2 a Σ(k) zl2 různé. To ovšem implikuje
nezávislost těchto kvadratických forem. Konečně pak ze vztahu z (43) plyne, že L(QFj (t)) =
χ2 (nj , κj ), kde
κj =
nj
X
T
(q(j)`
µ)2 = µT Q(j) D(j) QT(j) = µT A(j) µ
`=1
a tedy
k
X
j=1
κj =
nj
k X
X
T
(q(j)`
µ)2 = µT QQT µ = µT Iµ.
j=1 `=1
Dokazujme nynı́ tvrzenı́ opačným směrem, tj. předpokládejme, že QF(j) (t), 1 ≤ j ≤ k jsou
P
P
nezávislé a majı́ χ2 (nj , κj ) rozdělenı́. Potom ovšem má jejich součet χ2 ( kj=1 nj , kj=1 κj ) .
Vzhledem k tomu, že na levé straně (41) stojı́ tT (ω)t(ω), má při předpokladech tohoto lemmatu
P
χ2 (n, κ) a tedy kj=1 nj = n.
2
4.2
Rozdělenı́ odhadu rozptylu náhodných fluktuacı́ a studentizovaných odhadů
regresnı́ch koeficientů
LEMMA 7 Necht’ {Ei }∞
i=1 je posloupnost nezávislých normálně rozdělených náhodných veličin
2 · σ −2 ) = χ2 (n − p).
s IE Ei = 0, IE Ei2 = σ 2 ∈ (0, ∞). Potom L(SR
Důkaz. Předpokládaná normalita fluktuacı́ implikuje normalitu vysvětlované veličiny, tj.
L(Y ) = N (Xβ 0 , σ 2 I). Snadno se ověřı́ rovnost
n
σ −2 Y T Y = σ −2 (Y − Ŷ + Ŷ )T (Y − Ŷ + Ŷ ) = σ −2 (Y − Ŷ )T (Y − Ŷ ) + Ŷ T Ŷ
n
= σ −2 Y T (I − X(X T X)−1 X T )Y + Y T X(X T X)−1 X T Y
o
o
2.
kde prvnı́ člen druhého řádku reprezentuje Y T (I − X(X T X)−1 X T )Y = (Y − Ŷ )T (Y − Ŷ ) = SR
Položme A1 = I − X(X T X)−1 X T a A2 = X(X T X)−1 X T a ověřme, že rank(A1 ) = n − p
46
a rank(A2 ) = p. Argumenty pro toto tvrzenı́ jsou následujı́cı́: Obě matice jsou projekčnı́ a
tedy idempotentnı́, A2 má evidentně hodnost p, nebot’ jsme předpokládali plnou hodnost u
matice plánu X; pak je ovšem trace(A2 ) = p a tedy A1 má stopu rovnou n − p; konečně pak
rank(A1 ) = n − p. Aplikace Fisher-Cochranova lemmatu na kvadratické formy zadané maticemi
2 σ −2 je rozdělen dle χ2 (n − p) a
A1 a A2 pak dává tento výsledek: Reziduálnı́ součet čtverců SR
je nezávislý na kvadratické formě σ −2 Ŷ T Ŷ .
2
VĚTA 2 Necht’ {Ei }∞
i=1 je opět posloupnost nezávislých normálně rozdělených náhodných veličin
s IE Ei = 0 a var(Ei ) = σ 2 ∈ 0, ∞). Potom L(β̂ (LS,n) − β 0 ) = N (0, σ 2 (X T X)−1 ). Položme
−1
³
(LS,n)
t̂i (ω) = s−1 cii 2 β̂i
´
(ω) − βi0 ,
i
h
kde cii = (X T X)−1
volnosti).
ii
. Potom L(t̂i ) = tn−p (tj. t̂i je rozděleno jako Studentovo t o n−p stupnı́ch
Důkaz. Použijeme-li základnı́ vztah zadávajı́cı́ lineárnı́ model (viz (1)) a dosadı́me-li jej do
“vzorce” pro odhad metodou nejmenšı́ch čtverců, dostaneme
β̂ (LS,n) = (X T X)−1 X T Y = (X T X)−1 X T (Xβ 0 + E)
= β 0 + (X T X)−1 X T E,
tj. β̂ (LS,n) − β 0 = (X T X)−1 X T E, a tedy L(β̂ (LS,n) − β 0 ) = N (0, Σ), kde
³
Σ = IE
½h
= IE
T
−1
(X X)
= (X T X)−1 X T IE
µ
To znamená, že L
−1
(X X)
½h
= IE
T
β̂ (LS,n) − β 0 )
−1
σ −1 cii 2
T
X Y −β
T
0
0
´³
ih
ih
X (Y − Xβ )
−
βi0
´¶
−1
T
−1
(X X)
(Y − Xβ 0 )(Y − Xβ 0 )T
(LS,n)
β̂i
T
(X X)
n
³
´T
β̂ (LS,n) − β 0 )
oh
T
X Y −β
0
T
iT ¾
0
iT ¾
X (Y − Xβ )
(X T X)−1 X T
iT
= σ 2 (X T X)−1 .
= N (0, 1). Důsledek 1 řı́ká, že β̂ (LS,n) nezávislý na
reziduı́ch r(β̂ (n) ) = Y − Ŷ . Uvážı́me-li, že reziduálnı́ součet čtverců je naopak čtvercem normy
h
iT
2 = r(β̂ (n) )
2 jsou nezávislé. Navı́c dle
vektoru reziduı́, tj. SR
r(β̂ (n) ), zjistı́me, že β̂ (LS,n) a SR
2 ) = χ2 (n − p). Dokončenı́ důkazu plyne okamžitě z definice Studentova
Lemmatu 7 je L(σ −2 SR
t rozdělenı́ o n − p stupnı́ch volnosti, které může být symbolicky zapsáno jako
N (0, 1)
[(n −
p)−1 χ2 (n
1
− p)]− 2
.
2
Poznamenejme, že v právě dokázané větě jsme mohli, dı́ky předpokladu o normalitě náhodných
fluktuacı́, vyslovit tvrzenı́ o rozdělenı́ rozdı́lu β̂ (LS,n) −β 0 bez jakékoliv normalizace (na rozdı́l od
tvrzenı́ z Lemmatu 2). To přirozeně neznamená, že by rozdı́l β̂ (LS,n) −β 0 při splněnı́ předpokladů
předchozı́ věty nekonvergoval k 0 ∈ Rp , tj. nebyl konsistentnı́. Naopak odtud plyne, že kovariančnı́ matice odhadu β̂ (LS,n) konverguje k nulové matici.
47
DŮSLEDEK 3 Za předpokladů předchozı́ věty má náhodná veličina
³
´T
³
β̂ (LS,n) − β 0 )
´
X T X β̂ (LS,n) − β 0 ) n − p
2
p
SR
(44)
Fisher-Snedecorovo rozdělenı́ Fp,n−p .
Důkaz. Použitı́m Tvrzenı́ 7 nalezneme orthogonálnı́ matici L a diagonálnı́ matici D tak,
že D = LT (X T X)−1 L, a vı́me, že na diagonále matice D stojı́ vlastnı́ čı́sla matice (X T X)−1 .
Orthogonalita matice L umožňuje přepsat tento vztah do tvaru
LD−1 LT = X T X.
(45)
Pozitivnı́ definitnost matice (X T X)−1 implikuje navı́c to, že jsou všechna jejı́ čı́sla kladná. Necht’
tedy matice D̃ je diagonálnı́ matice, která má na diagonále převrácené hodnoty odmocnin z
těchto čı́sel (v pořadı́ odpovı́dajı́cı́m matici
D, přirozeně).
Pak ovšem D̃T LT (X T X)−1 LD̃ = Ip .
³
´
Označme H = LD̃ a položme ξ = H T β̂ (LS,n) − β 0 ) . Je zřejmé, že střednı́ hodnota vektoru ξ
je nulová a úpravou výše uvedených vztahů dostaneme
³
Σξ = IE ξξ T = IE H T β̂ (LS,n) − β 0
´³
β̂ (LS,n) − β 0
´T
H
σ 2 H T (X T X)−1 H = σ 2 Ip .
To ovšem napovı́dá, že souřadnice vektoru σ −1 ξ jsou nekorelované a každá je rozdělena dle
N (0, 1). To pak implikuje, že náhodná veličina σ −2 ξ T ξ je rozdělena dle χ2 (p) a navı́c, jak bylo
2 , přičemž rovněž z důkazu předchozı́
např. ukázáno v důkaze předchozı́ věty, je nezávislá na SR
2 ) = χ2 (n − p). Pokud se nám podařı́ ukázat, že
věty vı́me, že L(σ −2 SR
³
σ −2 ξ T ξ = β̂ (LS,n) − β 0
´T
³
´
(X T X) β̂ (LS,n) − β 0 ,
bude důkaz téměř dokončen. Provedeme to s použitı́m (45).
³
σ −2 ξ T ξ = σ −2 β̂ (LS,n) − β 0
³
= σ −2 β̂ (LS,n) − β 0
³
= β̂ (LS,n) − β 0
³
= β̂ (LS,n) − β 0
³
´T
´T
³
HH T β̂ (LS,n) − β 0
³
H · Ip · H T β̂ (LS,n) − β 0
´
´
³
H · H T (X T X)−1 H · H T β̂ (LS,n) − β 0
³
´
LD̃D̃T LT (X T X)−1 LD̃D̃T LT β̂ (LS,n) − β 0
= β̂ (LS,n) − β 0
³
´T
´T
´T
³
LD−1 DD−1 LT β̂ (LS,n) − β 0
= β̂ (LS,n) − β 0
´T
³
´
´
´
(X T X) β̂ (LS,n) − β 0 .
K úplnému dokončenı́ důkazu stačı́ připomenout definici Fisher-Snedecorova Fp,n−p , která může
být symbolicky vyjádřena takto
χ2 (p) (n − p)
.
χ2 (n − p)
p
2
48
4.3
Koeficient determinace
Po té, co odhadneme některý regresnı́ model, je třeba posoudit, zda tento je či nenı́ “statisticky relevantnı́” pro vysvětlenı́ dat. Výše uvedená teorie nám umožňuje, sice za dosti silného
předpokladu normality disturbancı́, nicméně umožňuje, otestovat signifikantnost jednotlivých
koeficientů modelu. A až budeme mluvit o výstupech z přı́slušných softwarových produktů
připomeneme si tuto možnost.
Na druhé straně bychom rádi posoudili odhad modelu jako celek. Patrně nenı́ sporu o tom,
že hlavnı́ informacı́ o tom, zda model byl navržen rozumně v sobě nesou rezidua. Budeme
předpokládat, přičemž nechme na okamžik stranou jak dalece je to realistické, že jsou tato
rozdělena normálně. Připomeňme si ze základnı́ho kurzu statistiky, že součet čtverců nezávislých
stejně normálně rozdělených náhodných veličin je jednou ze (dvou) složek postačujı́cı́ statistiky.
To je důvod, proč je jedna z nejjednoduššı́ch charakteristik “adekvátnosti” modelu, totiž koeficient determinace, založen na součtu čtverců reziduı́. Později ukážeme, že jeho role by neměla být
přeceňována. Podobně jako jiné statistické testy, i tento hypotézu o adekvátnosti modelu “pouze”
nezamı́tá, tj. pokud je hodnota koeficientu determinace vysoká (a projde-li přı́slušným testem)
řı́ká to, že daný model nelze zamı́tnout, ale je to ještě daleko závěru, že model je rozumný. Abychom nabyli alespoň rozumného stupně vı́ry v to, že náš odhad modelu je přijatelný, je nezbytné
přinejmenšı́m provést řadu dalšı́ch testů a aposteriornı́ch diagnostických úkonů. Ani pak však
bez použitı́ cele škály robustnı́ch procedůr nemůžeme zaručit, že nelze nalézt, v jakémsi smyslu
- např. ve smyslu velikosti součtu čtverců reziduı́ “většiny” pozorovánı́, (mnohem) lepšı́ model.
DEFINICE 1 Necht’ model obsahuje absolutnı́ člen. Pak položme R02 =
P
Ȳ = n−1 ni=1 Yi . Koeficientem determinace rozumı́me
R2 =
2
R02 − SR
.
R02
Pokud model neobsahuje absolutnı́ člen, položme R02 =
opět rozumı́me (46).
Pn
i=1 (Yi
− Ȳ )2 , kde
(46)
Pn
2
i=1 Yi .
Koeficientem determinace pak
Heuristika stojı́cı́ v podazı́ definice koeficientu determinace je zřejmá a velmi přı́močará.
Pokud je totiž náš model “adekvátnı́” (“relevantnı́”, “rozumný” atd. jak sami chcete) pro
vysvětlenı́ dat, je reziduálnı́ součet čtverců malý v porovnánı́ s R02 a tedy hodnota koeficientu
determinace je blı́zká k 1. Jestliže tedy náš model dobře “vystihne” variabilitu vysvětlované
proměnné, tj. rezidua budou mı́t jen malou variabilitu, je koeficient determinace vysoký. V
opačném přı́padě, je-li model “neadekvátnı́”, bude reziduálnı́ součet čtverců srovnatelný s R02 a
koeficient determinace bude blı́zko k nule. Nenechme se však mýlit, že lze jednotně, tj. pro různé
oblasti použitı́ regresnı́ho modelu udat, co to znamená, že je koeficient determinace dostatečně
velký. Často se uvádı́, že technické či přı́rodovědné modely či obecněji modely v exaktnı́ch
vědách, by měly mı́t R2 > 0.6. V humanitnı́ch oborech jsou však často akceptovány i modely s
R2 = 0.2. V ekonomické literatuře, tj. v oboru který ležı́ někde mezi “exaktnı́mi” a humanitnı́mi,
naleznete např. výrok: “William F. Sharpe [1985, p. 167] notes that for an individual company
a typical R2 measure from a Capital Asset Pricing Model equation is about 0.3 but that as one
diversifies across companies” assets into a larger portfolio, the R2 measure increases, owing to
the reduction of specific risk through diversification” (viz Berndt (1990), p. 40).
49
Zamysleme se nad touto situaci ještě při trochu jiném úhlu pohledu. R2 totiž představuje
(mnohonásobný) korelačnı́ koeficient mezi vysvětlovanou a vysvětlujı́cı́mi proměnnými; nejlépe
je to vidět při jednoduché regresi, viz např. Anděl (1978). Ani mezi statistiky však nenı́ obecně
známo, že pokud pro dvourozměrnou normálně rozdělenou náhodnou veličinu budeme kreslit množinu bodů, ve kterých je sdružená hustota rovna některému pevně zvolenému čı́slu,
dostaneme elipsu výrazněji se lišı́cı́ od kružnice až právě pro hodnoty ρ = 0.6 či 0.7. To napovı́dá,
že vazba mezi vysvětlovanou a vysvětlujı́cı́mi proměnnými je dosti slabá, je-li R2 < 0.6.
Naznačená heuristika rovněž napovı́dá, proč je koeficient determinace počı́tán jednou tak, že
porovnáváme naš model s modelem
Yi = Ȳ + Ei ,
i = 1, 2, . . . , n
a podruhé porovnáváme odhadnutý model s modelem
Yi = Ei ,
i = 1, 2, . . . , n
(viz rovněž Lemma 8).
V dalšı́m textu budeme uvažovat model s absolutnı́m členem, pro model bez absolutnı́ho
členu by se uváděná tvrzenı́ snadno modifikovala. Upozorněme snad ještě na “záludnost”, která
vzniká tı́m, že některé počı́tačové statistické knihovny počı́tajı́ R2 automaticky dle prvnı́ či
druhé definice v závislosti od toho, zda byl odhadován model s absolutnı́m členem či bez absolutnı́ho členu. Pak občas nastává “absurdnı́” situace, kdy model s absolutnı́m členem se zdá být
hůře determinován než model bez něj. Ještě se o takovýchto “naschválech” zmı́nı́me až budeme
diskutovat výstupy z počı́tačových knihoven.
TVRZENÍ 8 Pro koeficient determinace platı́
R2 =
kY − 1Ȳ k2
(Y − 1Ȳ )T (Y − 1Ȳ )
=
,
2
R0
kY − 1Ȳ kkŶ − 1Ȳ k
kde 1 = (1, 1, . . . , 1)T .
Důkaz. Položme ν = (n−1 , n−1 , . . . , n−1 )T a 1 = (1, 1, . . . , 1)T . Pak máme
R02 = kY − 1Ȳ k2 =
n n
X
o
Yi2 − 2Ȳ Yi + Ȳ 2 = kY k2 − k1Ȳ k2
(47)
i=1
a
³
kŶ − 1Ȳ k2 = kX(X T X)−1 X T Y − 1ν T Y k2
= Y T X(X T X)−1 X T − 1ν T
´³
´
X(X T X)−1 X T − 1ν T Y
= Y T X(X T X)−1 X T X(X T X)−1 X T Y − 2Y T X(X T X)−1 X T 1ν T Y + nȲ 2
= kŶ k2 − 2Y T 1νY + nȲ 2 = kŶ k2 − k1Ȳ k2 .
Při úpravách jsme použili fakt, že X(X T X)−1 X T 1 = 1. Ten plyne z toho, že 1 ∈ M(X) a tedy
projekce vektoru 1 je opět vektor 1. Navı́c
kY k2 = (Y − Ŷ )T (Y − Ŷ ) + Ŷ T Ŷ = kY − Ŷ k2 + kŶ k2
50
a konečně
kY − 1Ȳ k2 = kY k2 − k1Ȳ k2 = kY − Ŷ k2 + kŶ k2 − k1Ȳ k2
= kY − Ŷ k2 + kŶ − 1Ȳ k2 ,
tj.
2
R02 − SR
= kŶ − 1Ȳ k2 .
(48)
To uzavı́rá důkaz prvé části tvrzenı́. Podotkněme však, že toto lze snadněji nahlédnout geometricky. Vı́me, že Ŷ je projekcı́ Y do prostoru M(X), ve kterém ležı́ také 1 a 1Ȳ je projekcı́ Y do
prostoru M(1), který je podprostorem prostoru M(X). To znamená, že 1Ȳ je také projekcı́ Ŷ
do prostoru M(1). Suma sumarum, kY − 1Ȳ k2 je přepona pravoúhlého trojúhelnı́ka, ve kterém
jsou odvěsnami kŶ − 1Ȳ k2 a kY − Ŷ k2 . Aplikacı́ Pythagorovy věty pak dostaneme
kY − Ŷ k2 + kŶ − 1Ȳ k2 = kY − 1Ȳ k2 .
(49)
Připomeňme ještě, že ve výše zmı́něnému pravoúhlému trojúhelnı́ku poměr délky přilehlé odvěsny
ku přeponě dává kosinus přı́slušného úhlu. Pak ovšem dostaneme
"
kŶ − 1Ȳ k
R =
kY − 1Ȳ k
#2
2
= cos2 α,
kde prvá rovnost plyne z (48) a (49). Označı́me-li ještě α úhel mezi Ŷ −1Ȳ a Y −1Ȳ , plyne druhá
z právě provedených úvah. K dokončenı́ si stačı́ vzpomenout, že čtverec kosinu úhlu mezi dvěma
vektory dostaneme jako jejich skalárnı́ součin, pokud tyto vektory majı́ jednotkovou délku, tj.
h
R2 = (Ŷ − 1Ȳ )kŶ − 1Ȳ k−1
iT
· (Y − 1Ȳ )kY − 1Ȳ k−1 .
2
POZNÁMKA 4 Tvrzenı́ 8 bylo uvedeno proto, že v některých pramenech bývajı́ uvedeny alternatı́vnı́ definice koeficientu determinace a na prvnı́ pohled nemusı́ být patrné, zda jsou všechny
ekvivalentnı́.
Je celkem přirozené, že hodnota koeficientu determinace dobře posloužı́ k prvému náhledu
toho, jak model dobře vystihuje data. Na druhé straně bychom nepochybně chtěli pomoci
nějakého statistického testu stanovit, zda mı́ra “vystiženı́” je statisticky signifikantnı́ či nikoliv.
DEFINICE 2 Necht’ R2 je koeficient determinace. Pokud model obsahuje absolutnı́ člen, položme
F =
R2
n−p
·
,
1 − R2 p − 1
pokud absolutnı́ člen v modelu nenı́ mějme
F =
R2
n−p
·
.
2
1−R
p
F se obvykle označuje jako Fisher-Snedecorovo F (v regresi; stejné označenı́ se použı́vá pro
náhodnou veličinu, jejı́ž definici vzápětı́ připomeneme).
51
V dalšı́m lemmatu budeme potřebovat náhodnou veličinu, která bývá označována jako
Fisher-Snedecorovo F`,k . Tato veličina se dostane jako podı́l dvou nezávislých náhodných veličin,
rozdělených dle χ2 -rozdělenı́ a normovaných přı́slušnými stupni volnosti, tj. symbolicky psáno
F`,k =
χ2 (`)
k
· 2 .
`
χ (k)
LEMMA 8 Necht’ fluktuace v modelu (3) jsou rozděleny dle N (0, σ 2 I). Pokud model neobsahuje
absolutnı́ člen a IE Y = 0, potom F je rozděleno jako Fp,n−p , tj. jako Fisher-Snedecorovo F s p a
n − p stupni volnosti. Pokud model absolutnı́ člen obsahuje a IE Y = γ · 1, potom je F rozděleno
jako Fp−1,n−p .
Důkaz. Důkaz bude proveden jen pro druhý přı́pad, nebot’ nutné modifikace pro přı́pad
prvnı́ jsou okamžitě patrné.
Použijeme-li předpoklad, že IE Y = γ1, dostaneme Xβ 0 = γ1. Navı́c
h
i
h
i
Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T − N Y + Y T N Y,
(50)
kde jsme symbolem N označili matici, která má všechny prvky rovné n−1 . Výpočtem ověřı́me, že
N N = N . Vzhledem k tomu, že 1 ∈ M(X), je také X(X T X)−1 X T 1 = 1 a navı́c X(X T X)−1 X T N =
N . To umožňuje ověřit, že
h
X(X T X)−1 X T − N
ih
i
X(X T X)−1 X T − N = X(X T X)−1 X T − N ,
a tedy rank(X(X T X)−1 X T − N ) = tr(X(X T X)−1 X T − N ) = p − 1. Již výše jsme několikrát
použili fakt, že
rank(I − X(X T X)−1 X T ) = tr(I − X(X T X)−1 X T ) = n − p.
Aplikace Fisher-Cochranova lemmatu dává
³
h
i
´
³
h
i
´
L Y T I − X(X T X)−1 X T Y
a
L Y T X(X T X)−1 X T − N Y
s
h
i
= χ2 (n − p, λ(1) )
= χ2 (p − 1, λ(2) )
h
i
λ(1) = µT I − X(X T X)−1 X T µ = [β 0 ]T X T I − X(X T X)−1 X T Xβ 0 = 0
(na tuto rovnost nenı́ třeba hypotézy Xβ 0 = γ1) a
h
i
h
i
λ(2) = µT X(X T X)−1 X T − N µ = [β 0 ]T X T X(X T X)−1 X T − N Xβ 0
h
i
= γ 2 1T X(X T X)−1 X T − N 1 = 0.
Fisher-Cochranovo lemma navı́c umožňuje tvrdit, že jsou tyto dvě kvadratické formy nezávislé.
Pak již stačı́ uvážit rovnost
2
2
R02 − SR
R02 − SR
R02
R2
=
=
.
·
2
2
2
2
2
1 − R2
R0
R0 − R0 + SR
SR
52
K dokončenı́ důkazu pak vezměme v úvahu ten fakt, že Ŷ je projekcı́ Y do prostoru M(X) a
1Ȳ je projekcı́ jak Y tak Ŷ do prostoru M(1). Z něj plyne, že
h
i
2
R02 − SR
= (Ŷ − 1Ȳ )T (Ŷ − 1Ȳ ) = Y T X(X T X)−1 X T − N Y
a podobně
h
i
2
SR
= Y T I − X(X T X)−1 X T Y,
(51)
přičemž poslednı́ a předposlednı́ rovnost se např. snadno ověřı́ užitı́m idempotentnosti přı́slušných
matic.
K důkaz pro model bez absolutnı́ho členu je třeba psát (50) ve tvaru
h
i
Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T Y
a uvědomit si, že např. opět z geometrické představy a z faktu, že nynı́ R02 = Y T Y , plyne, že
2
R02 − SR
= Y T X(X T X)−1 X T Y
a že tato kvadratická forma má χ2 -rozdělenı́ o p stupnı́ch volnosti.
4.4
2
Intervaly a pásy spolehlivosti
Při použitı́ diagnostických grafů, občas však i při jiných procedurách, např. z oblasti základnı́
popisné statistiky, se stane, že kromě přı́mky naznačujı́cı́ regresnı́ vztah jedné veličiny na druhé,
se na obrazovce objevı́ také jakési křivky, a podı́váme-li se do manuálu nalezneme tam vysvětlenı́,
že se jedná o 95% pás či interval spolehlivosti. Samozřejmě, že úroveň spolehlivost může být v
různých počı́tačových knihovnách různá, dokonce někdy i nastavitelná. Obvykle však v manuálu
marně pátráme po vysvětlenı́, jak byly tyto křivky zı́skány. Následujı́cı́ výklad ukazuje, že
záležitost pásu spolehlivosti nenı́ až tak jednoduchá, abychom ji přešli bez podrobnějšı́ho výkladu.
Interval spolehlivosti pro jednotlivé souřadnice vektoru regresnı́ch koeficientů lze nalézt
použitı́m Věty 2. Z nı́ totiž plyne, že intervalem
µ
(LS,n)
β̂i
¶
1
α
α
(LS,n)
− scii tn−p (1 − ), β̂i
+ scii2 tn−p (1 − ) ,
2
2
1
2
je hodnota i-té souřadnice vektoru β 0 pokryta s pravděpodobnostı́ 1 − α. Připomı́náme, že s je
odhad rozptylu reziduı́ (viz např. Lemma 7), cii je i-tý diagonálnı́ prvek matice (X T X)−1 a
tn−p (1 − α2 ) je hornı́ α2 kvantil Studentova t.
Přirozeně, že zajı́mavějšı́ je nalezenı́ “intervalu” spolehlivosti pro všechny souřadnice vektoru
regresnı́ch koeficientů současně. Tvar takového “intervalu” může být různý, v podstatě libovolný.
V šedesátých letech se převážně studovaly rektangulárnı́ intervaly spolehlivosti (viz např. idák
(1967)), v současné době se však častěji uvažujı́ konfidenčnı́ oblasti ve tvaru (rotačnı́ch) elipsoidů.
K sestrojenı́ takového elipsoidu použijeme důsledek 3. Z něj plyne, že pro libovolné α ∈ (0, 1)
padne β̂ (LS,n) do elipsoidu
(
E=
β∈R
¡
p
:
¢T
β − β0)
¡
¢
X T X β − β0) n − p
≤ Fp,n−p (1 − α)
2
p
SR
53
)
(52)
2 je reziduálnı́ součet čtverců a F
s pravděpodobnostı́ 1 − α. Opět připomı́náme že, SR
p,n−p (1 − α)
je α-kvantil Fisher-Snedecorova F o p a n − p stupnı́ch volnosti. Jinými slovy lze tvrdit, že je-li
β̂ (LS,n) odhad regresnı́ch koeficientů, potom s pravděpodobnostı́ 1−α může β 0 být jen z množiny



³
β ∈ Rp :
´T
β̂ (LS,n) − β)


³

´


X T X β̂ (LS,n) − β) n − p
.
≤
F
(1
−
α)
p,n−p
2

p
SR

Podobně můžeme nalézt konfidenčnı́ interval pro hodnotu veličiny Yn+1 v některém bodě
xn+1 . Nejprve pro x ∈ Rp označme d2 (x) = xT (X T X)−1 x a přirozeně předpokládejme, že
Yn+1 = xTn+1 β 0 + En+1 .
Uvědomme si, že En+1 je statisticky nezávislé na β̂ (LS,n) , nebot’ tento odhad byl pořı́zen na
základě prvých n pozorovánı́ či chcete-li, budete-li uvažovat β̂ (LS,n) jako náhodnou veličinu, je
tato závislá jen na E1 , E2 , ..., En . To znamená, že náhodná veličina
³
´
Yn+1 − xTn+1 β̂ (LS,n) = xTn+1 β 0 − β̂ (LS,n) + En+1 ,
2.
má dle výše uvedených výsledků rozdělenı́ N (0, σ 2 (1 + d2 (xn+1 ))) a je statisticky nezávislá s SR
To však implikuje, že
!
Ã
Yn+1 − xTn+1 β̂ (LS,n)
= tn−p
L
1
s(1 + d2 (xn+1 )) 2
a proto interval
µ
1
xTn+1 β̂ (LS,n) − s(1 + d2 (xn+1 )) 2 tn−p (1 −
α
),
2
1
xTn+1 β̂ (LS,n) + s(1 + d2 (xn+1 )) 2 tn−p (1 −
¶
α
)
2
(53)
pokryje Yn+1 s pravděpodobnostı́ 1 − α.
Podobně snadno nalezneme, pro některé pevné xn+1 ∈ Rp , interval spolehlivosti pro xTn+1 β 0 .
Ze vztahu (53) snadno zjistı́me, že interval
µ
xTn+1 β̂ (LS,n)
¶
α
α
− sd(x)tn−p (1 − ), xTn+1 β̂ (LS,n) + sd(x)tn−p (1 − )
2
2
(54)
pokrývá xTn+1 β 0 s pravděpodobnostı́ 1 − α.
Ukážeme si ještě, jak je možné nalézt pás spolehlivosti, který současně, pro všechna x z nějaké
předem zadané oblasti, pokrývá xT β 0 s předem zvolenouu pravděpodobnostı́. Z výše uvedeného
vı́me, že β̂ (LS,n) padne do elipsoidu E (viz (52)) s pravděpodobnostı́ 1 − α. Odtud ihned plyne,
že zvolı́me-li libovolné (ale pevné) x ∈ Rp , bude s pravděpodobnostı́ 1 − α hodnota xT β̂ (LS,n)
mezi hodnotou
L(x) = inf xT β
β∈E
a hodnotou
U (x) = sup xT β.
β∈E
54
Hledejme nejprve výraz pro U (x). Podobně jako již několikrát výše, použijeme Tvrzenı́ 7. To nám
umožnı́ psát matici X T X ve tvaru QDQT , kde Q a D jsou postupně orthogonálnı́ a diagonálnı́
√
matice s kladnými prvky na diagonále. Necht’ symbol D označuje diagonálnı́ matici, která má
na diagonále odmocniny z vlastnı́ch čı́sel matice X T X, a to ve stejném pořadı́ jako stojı́ na
√
¡
¢
diagonále matice D, a položme κ = s2 pFp,n−p (1 − α). Označme ještě ξ(β) = DQT β − β 0 ) .
Dostaneme
p
³
β − β0
´T
³
´
X T X β − β 0 = ξ T (β)ξ(β) =
X
ξk2 (β),
k=1
a z (52) plyne, že pro každé β ∈ E máme
p
X
ξk2 (β) ≤ κ.
(55)
k=1
√
matici inverznı́ k diagonálnı́ matici D, tj. matici majı́cı́ na diagonále
√
převrácené hodnoty prvků stojı́cı́ch na diagonále matice D. Jednoduchým výpočtem nalezneme
Označme symbolem
√1
D
1
1
xT β = xT (β 0 + Q √ ξ) = xT β 0 + xT Q √ ξ,
D
D
(56)
což nám umožnı́ nalezenı́ sup xT β. Uvědomme si, že prvý člen pravé strany (56) (totiž xT β 0 ) je
β∈E
konstantnı́, a tedy maxima výrazu xT β dosáhneme, zmaximalizujeme-li xT Q √1D ξ, samozřejmě
při splněnı́ vedlejšı́ podmı́nky (55). Protože se jedná o skalárnı́ součin dvou vektorů, maxima
dosáhneme pro takové ξ, které bude násobkem vektoru √1D QT x, tj. pro ξ = λ · √1D QT x, kde
λ je třeba vybrat tak, aby platilo (55). Spočteme-li normu vektoru ξ a položı́me-li ji rovnou κ,
dostaneme
λ2 xT QD−1 QT x = λ2 xT (X T X)−1 x = κ
neboli
λ=
√
κ
.
d(x)
√
1
Vypočteme U (x) = xT β 0 + κd(x) = xT β 0 + sd(x)(pFp,n−p (1 − α)) 2 a analogickým postupem
1
též L(x) = xT β 0 − sd(x)(pFp,n−p (1 − α)) 2 . Potom ovšem nerovnosti
1
1
xT β 0 − sd(x)(pFp,n−p (1 − α)) 2 ≤ xT β̂ (LS,n) ≤ xT β 0 + sd(x)(pFp,n−p (1 − α)) 2
platı́ pro všechna x ∈ Rp s pravděpodobnostı́ 1 − α. To znamená, že konfidenčnı́ oblast s dolnı́
a hornı́ mezı́ danou vztahy
1
xT β̂ (LS,n) − sd(x) (p Fp,n−p (1 − α)) 2
a
1
xT β̂ (LS,n) + sd(x) (p Fp,n−p (1 − α)) 2
pokrývá “skutečný” model IE Y = xβ 0 s pravděpodobnostı́ 1 − α. Nenı́ bez zajı́mavosti, že tento
pás je pro každé konkrétnı́ x ∈ Rp širšı́ než interval spolehlivosti daný v (54).
Možná, že stojı́ za explicitnı́ zdůrazněnı́ fakt, který umožnil nalezenı́ pásu spolehlivosti
pro všechna x ∈ Rp naráz. Snadno se nahlédne, že je to skutečnost, že β̂ (LS,n) padne do E
55
s pravděpodobnostı́ 1 − α a to nezávisle na x. Navı́c nalezené hranice tohoto konfidenčnı́ho pásu
(či oblasti, chcete-li) naznačujı́, proč se tento pás (je-li zobrazen na displeji) na okrajı́ch rozšiřuje.
Připomeňme nejprve, že diagonálnı́ prvky projekčnı́ matice (“hat” matice) udávajı́ vzdálenost
každého pozorovánı́ od bodu, jehož souřadnice jsou dány průměry přes sloupce matice plánu.
Dále si uvědomme, že i-tý diagonálnı́ prvek projekčnı́ matice je roven d2 (xi ). Spojenı́ těchto
1
faktů pak implikuje to, že výraz sd(x) (p Fp,n−p (1 − α)) 2 je většı́ “na okrajı́ch” dat a menšı́ v
jejich středu.
4.5
Testovánı́ submodelů
Odhadneme-li některý regresnı́ model, pak jedna z nejpřirozenějšı́ch otázek se bude týkat počtu
regresorů, tj. toho, zda model je dostatečně určen či naopak, zda nenı́ zbytečně přeurčen. Jak
si ukážeme později, je prvý přı́pad, patrně podstatně, nebezpečnějšı́ pro dalšı́ použitı́ modelu
než přı́pad druhý. To může navodit myšlenku, že je lépe zařadit do modelu vı́ce vysvětlujı́cı́ch
proměnných, včetně některých, které nejsou pro vysvětlenı́ veličiny Y signifikantnı́, než se dopustit toho, že některou podstatnou vysvětlujı́cı́ proměnnou vynecháme. Potom ovšem může
některý uživatel přijı́t s dotazem, zda by některý submodel už nebyl stejně dobrý jako model,
který byl navržen námi. Abychom uměli takový dotaz zodpovědět, naučı́me se v tomto odstavci
testovat submodel proti “základnı́mu” modelu. To nám navı́c v závěru odstavce umožnı́ seznámit
se často použı́vaným Chowovým testem, tj. testem posuzujı́cı́m shodnost či rozdı́lnost koeficientů
regresnı́ch modelů odhadnutých pro dva soubory dat. Důkaz Chowova testu bude pak provedem, na rozdı́l od původnı́ práce a na rozdı́l od dalšı́ch monografiı́, do kterých byl půvadnı́ důkaz
opisován, podstatně jednodušeji.
Budeme tedy předpokládat, že data byla generována modelem
Yi = ziT β 0 + Ei ,
i = 1, 2, . . . , n,
(57)
kde matice Z, jejı́ž řádky jsou jako obvykle tvořeny transponovanými vektory ziT , je taková,
že M(Z) ⊂ M(X), tj. prostor generovaný maticı́ plánu “zúženého” modelu je podprostorem
prostoru generovaného maticı́ X. Nejpodstatnějšı́m krokem v právě naznačovaném výkladu je
pak nahlédnout, že rozdı́l projekčnı́ch matic
X(X T X)−1 X T − Z(Z T Z)−1 Z T
je opět projekčnı́ matice. Lze se o tom přesvědčit takto. Z již dřı́ve připomı́nané geometrické
podstaty věci okamžitě plyne, že tento rozdı́l projektuje do podprostoru prostoru M(X), který
je kolmý na podprostor M(Z). Jistě nenı́ těžké nahlédnout, že je-li X(X T X)−1 X T v projekce
vektoru v do M(X), můžeme tuto projekci rozložit na součet vektorů z M(Z) a z podprostoru,
který je kolmý na M(Z). Složky tohoto rozkladu jsou projekcemi vektoru v do odpovı́dajı́cı́ch
podprostorů, tj. do M(Z) a do podprostoru, který je na tento kolmý.
Jiná cesta je čistě formálnı́, tj. provedeme přı́mo znásobenı́ matic a uvědomı́me si, že sloupce
projekčnı́ matice Z(Z T Z)−1 Z T jsou vektory z M(Z) a že tento prostor je dle předpokladu
podprostorem prostoru M(X). Jinými slovy, pokud pomocı́ projekčnı́ matice X(X T X)−1 X T
zprojektujeme sloupce matice Z(Z T Z)−1 Z T do M(X), dostaneme tytéž vektory, tj. vektory,
které jsou sloupci matice Z(Z T Z)−1 Z T . Platı́ tedy
Z(Z T Z)−1 Z T · X(X T X)−1 X T = Z(Z T Z)−1 Z T
56
a protože obě projekčnı́ matice jsou symetrické, máme také
X(X T X)−1 X T · Z(Z T Z)−1 Z T = Z(Z T Z)−1 Z T .
To dále znamená, že
³
X(X T X)−1 X T − Z(Z T Z)−1 Z T
´T ³
· X(X T X)−1 X T − Z(Z T Z)−1 Z T
´
= X(X T X)−1 X T · X(X T X)−1 X T − X(X T X)−1 X T · Z(Z T Z)−1 Z T
−Z(Z T Z)−1 Z T · X(X T X)−1 X T + Z(Z T Z)−1 Z T · Z(Z T Z)−1 Z T
= X(X T X)−1 X T − Z(Z T Z)−1 Z T .
Právě ukončený výklad představuje důkaz následujı́cı́ho tvrzenı́.
TVRZENÍ 9 Necht’ matice Z je taková, že M(Z) ⊂ M(X). Potom rozdı́l projekčnı́ch matic
X(X T X)−1 X T − Z(Z T Z)−1 Z T je opět projekčnı́ matice, tj. tato matice je symetrická a idempotentnı́.
LEMMA 9 Necht’ matice plánů v modelech (4) a (57), X a Z, jsou plné hodnosti p a q a fluk2
’
tuace {Ei }∞
i=1 jsou rozděleny dle N (0, σ I). Dále necht prostor M(Z) je podprostorem prostoru
(LS,n)
(LS,n)
M(X). V rámci tohoto lemmatu necht’ β̂(X) a β̂(Z)
označujı́ odhady zı́skané metodou ne2
2
’
jmenšı́ch čtverců v těchto modelech. Konečně pak necht S(X)
a S(Z)
označujı́ reziduálnı́ součty
(LS,n)
čtverců přı́slušné k β̂(X)
(LS,n)
a β̂(Z)
. Potom statistika
F =
2 − S2
S(Z)
(X) n − p
· 2
p−q
S(X)
má Fisher-Snedecorovo F -rozdělenı́ s p − q a n − p stupni volnosti.
Důkaz. Analogicky jako výše rozložı́me součet čtverců Y T Y takto
³
´
³
´
Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y
+Y T Z(Z T Z)−1 Z T Y.
(58)
Nynı́ použijeme faktu, že matice X(X T X)−1 X T − Z(Z T Z)−1 Z T je idempotentnı́, a budeme
aplikovat Tvrzenı́ 3, tj. zjistı́me, že hodnost této matice je rovna jejı́ stopě a konečně pak,
že je jejı́ hodnost rovna rozdı́lu stop matic X(X T X)−1 X T a Z(Z T Z)−1 Z T . Protože však obě
matice jsou rovněž idempotentnı́, jsou jejich stopy rovny hodnostem těchto matic. Konečně
tedy dostáváme: hodnost matice X(X T X)−1 X T − Z(Z T Z)−1 Z T je p − q. Podobnou úvahou,
kterou jsme ostatně udělali již výše, dostaneme, že hodnost matice I − X(X T X)−1 X T je n − p.
Připomeňme, že jsme předpokládali, že hodnost matice Z je rovna q a máme součet hodnostı́
matic roven (n − p) + (p − q) + q = n. Konečně pak použitı́m Fisher-Cochranova lemmatu
nalezneme, že kvadratické formy
³
´
Y T I − X(X T X)−1 X T Y
³
a
´
Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y
57
jsou nezávislé a majı́ χ2 rozdělenı́ s n − p a p − q stupni volnosti. K dokončenı́ důkazu stačı́
ověřit, že
2
S(X)
=
n ³
X
i=1
´
(LS,n) 2
Yi − XiT β̂(X)
³
³
= Y − X(X T X)−1 X T Y
´T ³
³
= Y T I − X(X T X)−1 X T
³
´T ³
= Y − X β̂ (LS,n) x
Y − X β̂ (LS,n) x
Y − X(X T X)−1 X T Y
´T ³
´
´
´
I − X(X T X)−1 X T Y
´
= Y T I − X(X T X)−1 X T Y = Y T Y − Y T X(X T X)−1 X T Y
a
2
S(Z)
=
n ³
X
i=1
´
(LS,n) 2
Yi − XiT β̂(Z)
³
= Y − X β̂ (LS,n) z
³
= Y − Z(Z T Z)−1 Z T Y
³
´T ³
= Y T I − Z(Z T Z)−1 Z T
³
´T ³
´
Y − X β̂ (LS,n) x
Y − Z(Z T Z)−1 Z T Y
´T ³
´
´
I − Z(Z T Z)−1 Z T Y
´
= Y T I − Z(Z T Z)−1 Z T Y = Y T Y − Y T Z(Z T Z)−1 Z T Y.
Odtud
2
2
S(Z)
− S(X)
= Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T Y
³
´
= Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y.
2
Tı́mto lemmatem jsme uzavřeli základnı́ poznatky o regresnı́ analýze pomocı́ metody minimalizace součtu čtverců, často zkráceně označované jako metoda nejmenšı́ch čtverců či dokonce
jen nejmenšı́ čtverce, a tı́m jsme se připravili na to, abychom uměli interpretovat základnı́
výstupy procedur pro regresnı́ analýzu z většiny počı́tačových knihoven. V dalšı́ kapitolce si
o tom něco málo řekneme. Dřı́ve než se však do toho pustı́me, řekněme si ještě, že s testovánı́m
submodelů úzce souvisı́ jiná úloha, která sice nenı́ po formálnı́ stránce totožná s testovánı́m
submodelů, ale jak uvidı́me myšlenka jejı́ho řešenı́ je naprosto stejná.
V roce 1960 publikoval v časopise Econometrica G. C. Chow článek (Chow (1960)), který
kromě problémů, které my probereme v odstavci Vliv jednoho pozorovánı́, řešil problém testovánı́
shodnosti regresnı́ho modelu (či jeho podmodelu - vše bude jasné z dále uvedeného výkladu) pro
dva soubory dat. Touto úlohou se stal článek známým. loha byla zadána takto. Předpokládejme,
že dva soubory dat majı́ postupně regresnı́ modely, pokud platı́ hypotéza
Y (1) = Z (1) γ (1) + W (1) δ (1) + E (1) ,
Y (2) = Z (2) γ (2) + W (2) δ (2) + E (2) ,
(59)
přı́padně při alternativě jsou části vektorů regresnı́ch koeficientů, totiž γ (1) a γ (2) , stejné, takže
můžeme pro data uvažovat model
Y (1) = Z (1) γ (1) + W (1) δ (1) + E (1) ,
Y (2) = Z (2) γ (1) + W (2) δ (2) + E (2) .
58
(60)
Modely lze přepsat do tvaru

"
Y (1)
Y (2)
#
"
=
Z (1)
0
W (1)
0
Z (2)
0
γ (1)

#  (2)  " (1) #
 γ

E


·

+
(2)
(1)


W
E (2)
 δ

0
δ (2)
a
"
#
Y (1)
Y (2)
"
=
Z (1) W (1)
Z (2)
0
W (2)
0
#

γ (1)

 (1) 
+
·
 δ

"
δ (2)
E (1)
E (2)
#
.
Označme nejprve
"
X
(1)
=
Z (1) W (1)
Z (2)
0
0
W (2)
#
"
a
X
(2)
=
Z (1)
0
W (1)
0
0
Z (2)
0
W (2)
#
.
Protože M(X (1) ) ⊂ M(X (2) ) (připomeňme, že se jedná o prostory generované sloupci matic,
které stojı́ v závorkách za M), může být projekce vektoru (Y (1) , Y (2) )T do prostoru M(X (1) )
zı́skána jako postupná projekce do prostoru M(X (2) ) a následně do M(X (1) ). Potom ovšem
reziduálnı́ součet čtverců v modelu (60) může být rozložen na reziduálnı́ součet čtverců v modelu
(59) a součet čtverců, který je s nı́m nezávislý. Podobně jako výše, použitı́m Fisher-Cochranova
lemmatu pak dostaneme následujı́cı́ tvrzenı́.
2 a R2 jsou reziduálnı́ součty čtverců v modelech (60) a (59) a necht’
TVRZENÍ 10 Necht’ R(1)
(2)
q a p − q jsou počty souřadnic vektorů γ (1) a δ (1) (vektor γ (2) má stejný počet souřadnic jako
γ (1) ; stejně to platı́ o δ (1) a δ (2) ). Potom statistika
2 − R2
R(1)
(2) n − 2p
·
F =
2
q
R(2)
má za hypotézy (tj. v modelu (59)) Fisher-Snedecorovo Fq,n−2p .
4.6
Výběr modelu
Z výše uvedeného lze tušit, že jednı́m z problémů regresnı́ analýzy, je problém vhodné volby
vysvětlujı́cı́ch proměnných, které mı́nı́me zařadit do modelu. Tento problém bývá označován,
jako problém výběru modelu (někdy je však stejný termı́n použit k označenı́ situace, kdy různé
metody odhadu regresnı́ch koeficientů dajı́ rozdı́lné výsledky, někdy dokonce značně rozdı́lné, a
my “musı́me” vybrat jeden z nich např. pro predikci). Přirozeně, že někdy nastává situace, že
máme tak málo pozorovánı́ i vysvětlujı́cı́ch proměnných, že jsme rádi, že nějaký model dáme
vůbec dohromady a zcela “vynecháme” úvahy o optimalitě nalezeného modelu.
Z toho, co jsme si zatı́m vyložili plyne, že diagnostickými prostředky použitelnými pro řešenı́
tohoto problému jsou studentizované odhady regresnı́ch koeficientů, respektive odpovı́dajı́cı́
pravděpodobnosti, označované jako P -values, (viz výklad o výstupech z počı́tače), a koeficient
determinace. Koeficient determinace je však rostoucı́ či přinejmenšı́m neklesajı́cı́ funkcı́ počtu
vysvětlujı́cı́ch proměnných a tedy bez “zabudovánı́” nějaké penalizace, nelze pomoci něho nalézt
jakýsi “objektivně” optimálnı́ model. Nicméně intuitivně cı́tı́me a výše uvedené výsledky to
59
potvrzujı́, že bychom neměli “zatěžovat” model zbytečnými a k vysvětlenı́ dat nepřispı́vajı́cı́mi
vysvětlujı́cı́mi veličinami. Jinými slovy to znamená, že jsme ochotni připustit, že bychom měli
být nějakým způsobem penalizováni za to, pokud bychom zvolili zbytečně komplikovaný model.
Nı́že si ukážeme, jak je zbytečné přeurčenı́ modelu automaticky penalizováno zvětšenı́m
rozptylu odhadu regresnı́ch koeficientů. Vzhledem k tomu, že však neznáme dolnı́ hranici rozptylu
odhadů regresnı́ch koeficientů, tuto penalizaci vlastně nemůžeme brát na vědomı́. To implikuje
závěr, že penalizace za zbytečně bohatý model musı́ být explicitnı́, tak aby mohla ovlivnit výběr
modelu.
V monografiı́ch věnovaných regresnı́ analýze lze přirozeně nalézt celou škálu nápadů, často
podložených přı́močarou heuristikou či dokonce i “objektivizujı́cı́” teoriı́, jak penalizovat neopodstatněnou komplikovanost modelu. Z těchto kritériı́ je patrně nejznámějšı́ kritérium Cp zavedené
C. L. Mallowsem (Mallows (1973)). Statistika, kterou C. L. Mallows navrhl, má tvar
Cp =
Y T (I − P ) Y
+ 2p − n,
σ̂ 2
(61)
kde σ̂ 2 je odhad rozptylu v “širšı́m” (či “většı́m”, chcete-li) modelu. Obvykle tento model
zahrnuje všechny “rozumné” vysvětlujı́cı́ proměnné, často zahrnuje dokonce všechny dostupné
vysvětlujı́cı́ proměnné. Jeho dimenzi označı́me proto pmax , zatı́mco dimenzi “aktuálnı́ho” modelu
jsme v (61) označili p. Heuristika, která stojı́ v pozadı́ tohoto kritéria, je snadno akceptovatelná.
Abychom to nahlédli, přepı́šme kriterium (61) do tvaru
Cp =
(n − p) · σ̂p2
Y T (I − P ) Y n − p
·
+
2p
−
n
=
+ 2p − n,
n−p
σ̂ 2
σ̂ 2
kde σ̂p2 jsme označili odhad rozptylu reziduı́ v “aktuálnı́m” modelu, tj. v modelu dimenze p. Je-li
nynı́ “aktuálnı́” model téměř tak dobrý jako ten s dimenzı́ pmax , tj. je-li σ̂p2 ≈ σ̂ 2 , pak
Cp ≈ n − p + 2p − n = p.
Jiné kriterium, které bývá často použı́váno navrhl Akaike (Akaike (1974) a (1981)), a je
založeno na Kullback-Leiblerově vzdálenosti (Kullback (1959)). Zadáno je následujı́cı́m vztahem
³
AIC = ln
´
Y T I − X(X T X)−1 X T Y
n
+
2p
,
n
kde p (a tı́m i X) je vybráno tak, aby AIC bylo minimálnı́.
Snadno se nahlédne z těchto dvou uvedených přı́kladů, že se jedná vždy o stejnou myšlenku,
totiž použitı́ součtu čtverců reziduı́ plus uplatněnı́ nějaké penalizace, která je monotonı́ funkcı́
počtu vysvětlujı́cı́ch proměnných. Upravı́me-li takto koeficient determinace dostaneme dalšı́
populárnm kritérium - upravený koeficient determinace (adjusted R2 ), viz např. Zvára (1989).
Slovo upravený však bohužel nevystihuje obsah anglického slova “adjusted”, které napovı́dá, že
jde o charakteristiku, která je adjustovaná, tj. přizpůsobená, aretovaná k danému modelu 6 . Jejı́
definice pak napovı́dá, že je adjustovaná k počtu vysvětlujı́cı́ch proměnných. Ve statistických
knihovnách bývá označována jako R2 -adjusted a je zadána vztahem
2
Radjusted
= 1 − (1 − R2 )
S2 n − 1
n−1
= 1 − R2 ·
.
n−p
R0 n − p
6
Bylo by asi lépe použı́t označenı́ adjustovaný koeficient determinace, ale to by určitě někteřı́ jazykovı́ experti
nepřenesli přes srdce.
60
Snadno se nahlédne, např. z druhého vyjádřenı́ upraveného koeficientu determinace, že je tento
2 tak dimenzi modelu p. Vzhledem
nepřı́mo úměrný jak velikosti reziduálnı́ho součtu čtverců SR
k tomu, že se jej snažı́me maximalizovat, hledejme model s co nejmenšı́m reziduálnı́m součtem
čtverců při co nejmenšı́m počtu vysvětlujı́cı́ch proměnných. Je evidentnı́, že pokud začneme s
malým počtem vysvětlujı́cı́ch proměnných, pak pokles reziduálnı́ho součtu čtverců, přidáme2
li dalšı́ regresor, může být tak velký, že vliv tohoto poklesu na Radjusted
převážı́ nad vlivem
2
nárůstu dimenze p a Radjusted bude vzrůstat. Nepochybně však po jistém počtu kroků, vliv
nárůstu dimenze modelu, pokud budeme mı́t k dispozici dostatečný počet regresorů, převážı́
2 a R2
nad poklesem SR
adjusted začne klesat.
Snad již na tomto mı́stě stojı́ za to zdůraznit, že výběr vhodného modelu nenı́ zdaleka
jednoduchá a přı́močará záležitost, nebot’ pro p-dimenzionálnı́ data je přirozeně 2p možnostı́ jak
vybrat regresory do modelu. Navı́c je dobré trvale držet na paměti, že podurčenı́ modelu vede
vždy k závažným nedostatkům (jak ukáže jeden z následujı́cı́ch odstavců), zatı́mco přeurčenı́
modelu v přı́padě statického regresnı́ho modelu, tj. modelu pro průřezová data, vede pouze k
poklesu eficience odhadů a jak dále naznačı́me, lze dokonce tento pokles eliminovat vhodnou
transformacı́ regresorů za cenu maličko komplikovanějšı́ interpretace modelu). To napovı́dá, že
2
je lepšı́ se rozhodnout pro takový soubor regresorů, pro který sice Radjusted
nedosahuje přesně
maxima, ale který téměř jistě zaručuje to, že jsme nevynechali žádný důležitý regresor, tj. tento
soubor vysvětlujı́cı́ch proměnných nevede k podurčenı́ modelu. Na druhé straně je však patrně
užitečné si vždy uvědokit, že přeurčenı́ modelu přece jenom zvyšuje rozptyl odhadů regresnı́ch
koeficientů a to se může projevit na přesnosti predikce, která může tento fakt, tj. to, že odhady
koeficientů mohou být méně přesné, ještě nepřı́jemně zesı́lit. Ostatně to nı́že uvidı́me na přı́kladě
o kombinovánı́ předpovědı́ ekonomického růstu ve Spojeném královstvı́.
Na závěr tohoto odstavce zmiňme ještě to, že některé statistické knihovny nabı́zejı́ procedury na automatizovaný výběr regresorů, obvykle označovaný jako “stepwise” s možnostı́
výběru toho, zda kroková procedura bude postupovat nahoru, tj. od žádného regresoru, či dolu,
tj. od všech dostupných. Rovnou řekněme, že autorovy zkušenosti s těmito postupy jsou mı́rně
řečeno rozporuplné. Skoro nejhoršı́ na těchto postupech je to, že nenı́ obvykle zcela jasně řečeno,
jaká je filosofie za nimi, tj. dle jakého pravidla nakonec vyberou model. Abychom lépe nahlédli
danou situaci, předpokládejme např., že budeme postupovat ze zdola a každý dalšı́ regresor
bude “včleněn” do modelu, pokud bude mı́t vhodnou velikost P -value a bude nejvı́ce, ze všech
ještě “nezařazených” regresorů, zvětšovat koeficient determinace. Je okamžitě vidět, že hodnota
koeficientu determinace po dvou krocı́ch může být menšı́ než maximálnı́ hodnota tohoto koeficientu pro model obsahujı́cı́ dva regresory. A to jsme nechali stranou to, že vybı́rat model jen
dle koeficientu determinace je riskantnı́. Nicméně nikdy nenı́ na škodu vyzkoušet vše, co nám
daný package nabı́zı́.
5
5.1
VÝSTUPY Z POČTAČOVÝCH KNIHOVEN
Tabulky výsledků
Regresnı́ analýza je jednou z nejpoužı́vanějšı́ch technik pro zpracovánı́ dat a proto ji lze nalézt
patrně ve všech statistický knihovnách programů. Dnes již dokonce i většina tabulkových procesorů (“spreadsheetů”, jako je např. EXCEL) umožňuje výpočet základnı́ch výsledků v regresi. Výsledky zı́skané pomocı́ subroutin nabı́zených v tabulkových procesorech je však nutné
61
považovat pouze za předběžné a orientačnı́, nebot’ tyto subroutiny obvykle nedovolujı́ provést ani
nejzákladnějšı́ diagnostiku typu normálnı́ graf (“normal graph”) či indexový graf (“index plot”).
Na druhé straně ani řada komerčně dodávaných knihoven nenabı́zı́ provedenı́ regresnı́ analýzy
dat v tom rozsahu, ve kterém je ji nutné provést, máme-li mı́t naději, že závěry, které učinı́me
nejsou zavádějı́cı́. Neumožňujı́ totiž např. jednoduše provést testy normality či heteroskedasticity a obvykle se omezujı́ na grafické “podpůrné” prostředky, o kterých si povı́me nı́že. Na druhé
straně, tyto knihovny často nabı́zejı́ v jiných partiı́ch než je určena k odhadu regresnı́ho modelu
proceduryt, které je možné použı́t k doplněnı́ diagnostiky výsledků. Jedná se např. o testy dobré
shody, nalezenı́ vlastnı́ch čı́sel matice atd. Ještě se o těchto možnostech zmı́nı́me tam, kde to
bude na mı́stě.
Nynı́ si krátce povı́me, které nejzákladnějšı́ údaje se obvykle objevı́, ve formě nějaké tabulky
(jedné či vı́ce) po aplikaci přı́slušné regresnı́ procedury na data a jak se tyto zinterpretujı́.
Pomineme-li to, že jsou obvykle nabı́zeny výsledky popisné statistiky, tj. jako odhady střednı́ch
hodnot, rozptylu či kovariančnı́ matice dat, je vždy poskytnuta informace o odhadech regresnı́ch
koeficientů, jejich vzájemných vztazı́ch a základnı́ údaje o spolehlivosti či adekvátnost modelu
jako celku. Ačkoliv se jedná o nejzákladnějšı́ údaje o odhadnutém modelu, i jejich interpretace
může skrývat nebezpečı́ mylných závěrů. Upozornı́me na toto nebezpečı́ v těch mı́stech dalšı́ho
textu, která k tomu budou mı́t nejblı́že (např. o použitı́ kovariančnı́ matice dat ve FarrarGlauberově testu na kolinearitu (Farrar a Glauber (1967)), který bez verifikace - a to dosti
přı́sné - na normalitu může dát, a obvykle dá, zavádějı́cı́ výsledky).
Ve formě tabulek uvedeme nynı́ přı́klad nejzákladnějšı́ch výsledků regresnı́ analýzy pro
data, která byla uvedena v úvodu skript jako přı́klad 3, “Data o sportovnı́m klubu”.
Nejzákladnějšı́ údaje o výsledcı́ch regresnı́ analýzy mohou vypadat tedy následovně (a obvykle se lišı́ od nı́že uvedeného jen formou, nikoliv obsahem):
Tabulka 1
Odhad střednı́ch hodnot a rozptylů
Střednı́ hodnota
Rozptyl
Váha
367.5
84.5
Puls
166.5
34.1
Sı́la
64.0
8.9
Zčas
188.0
26.7
Cčas
70.0
10.3
Tabulka 2
Diagonálnı́ prvky projekčnı́ matice
1
0.24
16
0.23
2
0.12
17
0.24
3
0.09
18
0.22
4
0.07
19
0.04
5
0.09
20
0.11
6
0.11
21
0.11
7
0.08
22
0.12
8
0.22
23
0.51
62
9
0.14
24
0.14
10
0.12
25
0.07
11
0.21
26
0.08
12
0.09
27
0.16
13
0.29
28
0.38
14
0.16
29
0.16
15
0.07
30
0.19
Tabulka 3
Kovariančnı́ matice dat (pravá hornı́ část)
a korelačnı́ matice (levá dolnı́ část, na diagonále by byly jedničky)
Cčas
Váha
Puls
Sı́la
Zčas
Cčas
4824.55
0.798
0.501
0.445
0.848
Váha
1963.94
1255.14
0.420
0.737
0.643
Puls
277.97
118.81
63.77
0.060
0.539
Sı́la
1081.80
913.94
16.88
1226.66
0.400
Zčas
594.07
229.78
43.40
141.33
101.71
Tabulka 4
Výsledná tabulka odhadů regresnı́ch koeficientů
Variable
Estimate
Intercept
Váha
Puls
Sı́la
Zčas
-3.61
1.26
-0.52
-0.50
3.90
Standard
error
56.10
0.28
0.86
0.24
0.74
t-value
P -value
-0.06
4.41
-0.60
-2.05
5.21
0.949
0.000
0.548
0.050
0.000
Tabulka 5
Kovariančnı́ matice odhadů regresnı́ch koeficientů
Intercept
Váha
Puls
Sı́la
Zčas
3147.50
6.62
-30.89
-7.73
-11.23
0.08
-0.08
-0.05
-0.07
0.74
0.08
-0.23
0.06
-0.00
0.55
Tabulka 6
Tabulka shrnujı́cı́ základnı́ údaje o kvalitě modelu
Sum of squares
Degrees of freedom
Scale estimate
Coefficient of determination (R squared)
The F-value (with 4 and 25 df )
P-value
Median of absolute values of all residuals
Interquantile of all residua (0.250)
(i.e. 2 ∗ α of residuals have been cut away)
=
=
=
=
=
=
=
=
20551.361
25
28.671
0.853
36.299
0.000
19.307
38.615
Věnujme se nynı́ analýze alespoň některých výše uvedených tabulek.
O tom, o čem vypovı́dajı́ odhady střednı́ch hodnot, rozptylů, kovariančnı́ a korelačnı́ matice
63
nenı́ patrně čtenáře těchto skript nutné poučovat. K některým “subtilnějšı́m” otázkám spojeným
s těmito údaji se vrátı́me později. Proto se nebudeme Tabulkou 1 a 3 zabývat. Upřesněme jen, že
k odhadům střednı́ch hodnot a rozptylů byl použit medián a mediánová absolutnı́ odchylka (median absolute deviation); protože druhý z použitých odhadů nenı́ v obecném povědomı́ dovolı́me
si připomenout, že je definován vztahem
µ
σ̂M AD
= 1.483 · med
1≤i≤n
¶
|zi − med (zi )|
1≤i≤n
,
kde faktor “1.483” je použit proto, aby bylo dosaženo nestrannosti v normálnı́m rozdělenı́.
Tabulka 2 obsahuje diagonálnı́ prvky matice X(X T X)−1 X T , tj. “hat” matice. Co tyto prvky
udávajı́, se snadno nahlédne z nı́že uvedené rovnosti, viz (62). Pokud je v modelu absolutnı́ člen,
tj. je-li prvý sloupec matice X tvořen jedničkami, je prvý sloupec (a tedy také řádek) matice
(X T X)−1 roven vektoru nx̄, kde
x̄ = (1,
Snadno se ověřı́, že
n
n
n
1X
1X
1X
xi2 ,
xi3 , . . . ,
xip )T .
n i=1
n i=1
n i=1
nx̄(X T X)−1 = (1, 0, 0, . . . , 0),
nebot’ X T X(X T X)−1 = In , kde In označuje opět jednotkovou matici typu n × n. To ovšem
znamená, že
1
(62)
(xi − x̄)T (X T X)−1 (xi − x̄) = xTi (X T X)−1 xi − .
n
Připomeňme si, že k úspěšné verifikaci (62), je třeba mı́t na paměti, že vektor xi má prvou
souřadnici rovnou jedničce. To indikuje, že diagonálnı́ prvky udávajı́ vzdálenost, v metrice dané
tensorem (X T X)−1 , od x̄, tj. vzdálenost jednotlivých pozorovánı́ od “těžiště oblaku dat”. Znovu
podotkněme, že vzdálenost je měřena nikoliv v euklidovské metrice, ale v riemanovské, tj. oproti
euklidovské, ve které je přı́slušným tensorem jednotková matice I, je zde použita metrika “adaptovaná” k datům.
Často se uvádějı́ přibližná pravidla, udávajı́cı́ jaká ještě může být hodnota i-tého diagonálnı́ho
prvku projekčnı́ matice, aniž bychom považovali i-té pozorovánı́ za odlehlé (leverage point) a
tı́m vlivné. V monografii Chatterjee, Hadi (1988) je např. uvedena následujı́cı́ tabulka udávajı́cı́
aproximace 95% kvantilů pro diagonálnı́ prvky projekčnı́ matice za předpokladu, že řádky matice plánu (tj. matice X) byly generovány standardnı́m normálnı́m rozdělenı́m (předpokládá se,
že n − p > 30).
Tabulka 7
Přibližné 95% kvantily pro diagonálnı́ prvky projekčnı́ matice
Je-li p většı́ než
Aproximace kvantilu
2
2.5p
n
2.0p
n
1.5p
n
6
12
64
Obecně lze však řı́ci, že hodnoty udávané touto aproximacı́ přeceňujı́ skutečné hodnoty
kvantilů.
V článku´Belsley, Kuh a Welsch (1980) je totiž ukázáno, že pokud jsou řádky matice
³
X̃ = I − n−1 11T X nezávislé a rozdělené dle p-rozměrného normálnı́ho rozdělenı́, je
Ã
n − p hii − n−1
L
p − 1 1 − hii
!
≈ Fp−1,n−p ,
kde hii = xTi (X T X)−1 xi . I při předpokladu, že řádky matice X jsou nezávislé p-rozměrné
normálně rozdělené náhodné veličiny, řádky matice x̃ nejsou nikdy zcela nezávislé. Nicméně pro
rostoucı́ počet pozorovánı́ závislost mezi nimi klesá. Můžeme tedy považovat tento výsledek za
aplikovatelný. Odtud snadno dostaneme
hkritická
(α)
ii
=
Fp−1,n−k +
n−p
p−1
n−p
(p−1)·n
+ Fp−1,n−p
.
(63)
Následujı́cı́ tabulky ukazujı́ srovnánı́ aproximacı́.
Tabulka 8
Srovnánı́ aproximace kvantilů dané vztahem (63) a Tabulkou 7.
(Prvá aproximace - dle Tabulky 7 - je označena jako A1, druhá - dle (63) - jako A2).
Dimenze modelu p = 3
Počet
pozorovánı́
A1
A2
Počet
pozorovánı́
A1
A2
40
60
80
100
150
0.1547
0.1034
0.0776
0.0621
0.0414
0.1875
0.1250
0.0938
0.0750
0.0500
40
60
80
100
150
0.2743
0.1865
0.1410
0.1133
0.0760
0.3750
0.2500
0.1875
0.1500
0.1000
Počet
pozorovánı́
A1
A2
Počet
pozorovánı́
A1
A2
70
100
130
160
190
0.1814
0.1282
0.0991
0.0808
0.0681
0.2000
0.1400
0.1077
0.0875
0.0737
100
130
160
200
240
0.1699
0.1317
0.1075
0.0863
0.0721
0.2000
0.1538
0.1250
0.1000
0.0833
Počet
pozorovánı́
A1
A2
Počet
pozorovánı́
A1
A2
140
180
220
280
340
0.1599
0.1252
0.1029
0.0811
0.0670
0.2000
0.1556
0.1273
0.1000
0.0824
160
200
250
300
400
0.1563
0.1258
0.1010
0.0844
0.0635
0.1500
0.1200
0.0960
0.0800
0.0600
65
Počet
pozorovánı́
A1
A2
Počet
pozorovánı́
A1
A2
200
250
300
400
500
0.1506
0.1211
0.1013
0.0763
0.0611
0.1500
0.1200
0.1000
0.0750
0.0600
250
300
400
500
600
0.1405
0.1176
0.0886
0.0711
0.0593
0.1440
0.1200
0.0900
0.0720
0.0600
Z Tabulky 8 je vidět, že jednoduchá aproximace udaná v Tabulce 7 opravdu přeceňuje
kvantily diagonálnı́ch prvků až na přı́pady, kdy dimenze modelu je mezi 16 a 24. Protože zejména
pro malé dimenze modelu a malý počet pozorovánı́ jsou hodnoty aproximacı́ dosti odlišné a
protože se lze domnı́vat, že vztah (63) je blı́že skutečné hodnotě, je patrně lépe použı́t přı́mo
tento vztah.
Nynı́ vysvětlı́me obsah Tabulek 4, 5 a 6. Prvá z nich kromě jmen vysvětlujı́cı́ch proměnných,
tak jak je zvolı́me na začátku zpracovánı́ dat, shrnuje (ve druhém sloupci) odhady regresnı́ch
(LS,n)
koeficientů, tj. β̂i
, i = 1, 2, . . . , p, a ve třetı́m odhady rozptylů nebo směrodatných odchylek těchto odhadů, tj. bud’ diagonálnı́ prvky matice s2 (X T X)−1 nebo, a to daleko častěji,
jejich druhé odmocniny. Je třeba se podı́vat do manuálu, dodaného ke statistické knihovně,
kterou právě použı́váme. V našem přı́padě jsou ve třetı́m sloupci směrodatné odchylky odhadů.
V předposlednı́m sloupci jsou udány studentizované odhady regresnı́ch koeficientů, tj. hodnoty uvedené ve druhém sloupci jsou vyděleny směrodatnými odchylkami odhadů koeficientů, a
konečně pak v poslednı́m sloupci jsou shromážděny pravděpodobnosti toho, že náhodná veličina,
která má Studentovo rozdělenı́ o n − p stupnı́ch volnosti překročı́ hodnotu studentizovaného
odhadu přı́slušného koeficientu, tj. hodnotu uvedenou ve čtvrtém sloupci. Jedná se tedy o
pravděpodobnost
µ
¶
−1
(LS,n)
P t(n−p) (ω) > s−1 cii 2 β̂i
−1
(LS,n)
,
kde s−1 cii 2 β̂i
je přı́slušné čı́slo uvedené v předposlednı́m sloupci Tabulky 4 a i = 1, 2, . . . , p.
Z Věty 2 vı́me, že při nulové hypotéze, tj. hypotéze, že přı́slušný regresnı́ koeficient je nulový,
je studentizovaný odhad tohoto koeficientu rozdělen dle Studentova t o n − p stupnı́ch volnosti.
To znamená, že by neměla výše uvedená pravděpodobnost, pokud hypotéza platı́, být přı́liš malá.
Konečně tedy, pokud je v poslednı́m sloupci “dostatečně” malé čı́slo, zamı́tneme hypotézu, že
přı́slušný koeficient v modelu je nulový. Z uvedeného plyne, že právě použité slovo “dostatečně”
se vztahuje k hladině významnosti, na které se rozhodneme zmı́něnou hypotézu testovat. Pokud
např. zvolı́me hladinu významnosti rovnou 5%, pak zamı́tneme hypotézu o nulovosti koeficientu
v přı́padě, že tato pravděpodobnost (tj. čı́slo v poslednı́m sloupci) je menšı́ než 0.05.
Občas se setkáme s tı́m, že právě uvedená tabulka obsahuje ještě dalšı́ informaci Některé
statistické knihovny (např. STATISTICA) vypisujı́ totiž ještě dva dalšı́ sloupce, a to vsunuté
hned za sloupec jmen vysvětlujı́cı́ch proměnných. V nich je uvedena informace podobná informaci uvedené v druhém a třetı́m sloupci výše popisované tabulky. Jedná se o odhady regresnı́ch
koeficientů a odhady jejich rozptylů, ale nikoliv pro originálnı́ (tj. původnı́) data, ale pro normalizovaná data, která majı́ všechny proměnné transformovány tak, že majı́ nulový průměr a
66
jednotkový výběrový rozptyl. Pro takto normalizovaná data je potom uveden odhad modelu bez
absolutnı́ho členu. Mějme model (4), tj.
p
X
Yi =
xij βj0 + Ei .
(64)
j=1
Vysčı́tánı́m přes i, tj. všech řádků matice X, a následným vydělenı́m čı́slem n, dostaneme
p
X
Ȳ =
x̄j βj0 + Ē,
(65)
j=1
kde Ȳ , x̄j a Ē jsou průměry vysvětlované a vysvětlujı́cı́ch veličin a průměr náhodných fluktuacı́.
Nynı́ odečteme (65) od (64) a dostaneme
Yi − Ȳ =
p
X
(xij − x̄j )βj0 + Ei − Ē.
j=1
a konečně vydělenı́m výběrovými rozptyly7 dostaneme
p
X
xij − x̄j βj0 sj
Ei − Ē
Yi − Ȳ
=
+
.
sY
sj
sY
sY
j=1
Připomeňme si, že uvažujeme model s deterministickými nosiči a že tedy rozptyl vysvětlované
proměnné je shodný s rozptylem náhodných fluktuacı́. Poslednı́ rovnost lze přepsat do tvaru
Ỹi =
p
X
x̃ij β̃j0 + Ẽi ,
i = 1, 2, . . . , n.
j=1
Nynı́ se snadno nahlédne, proč je uveden právě model bez absolutnı́ho členu. Pokud je totiž
xi1 = 1 pro i = 1, 2, ..., n, je xi1 − x̄1 = 0.
Z poslednı́ho vztahu je patrné, proč je tato informace uváděna. V regresnı́m modelu (4)
ovlivňujı́ jednotlivé vysvětlujı́cı́ proměnné hodnotu vysvětlované proměnné nejen skrze velikost
přı́slušného regresnı́ho koeficientu, ale také tı́m jakou majı́ absolutnı́ velikost. Někdy je však
užitečné mı́t představu o tom, jak moc by ta či ona vysvětlujı́cı́ veličina ovlivnila vysvětlovanou
veličinu, kdyby všechny byly stejně “variabilnı́”, tj. kdyby měly stejný rozptyl. Proto normalizace
na jednotkový rozptyl. Normalizace na nulový průměr nenı́ podstatná v právě popsaném smyslu
vlivu absolutnı́ velikosti vysvětlujı́cı́ch veličin na vysvětlovanou veličinu či alespoň nikoliv přı́mo,
ale může hrát také podstatnou (zkreslujı́cı́) roli. Z přı́kladu o jasu hvězd, který byl uveden na
začátku skript, je vidět, že právě provedená studentizace bude mı́t zavádějı́cı́ výsledky, nebot’
dı́ky čtyřem odlehlým pozorovánı́m, budou průměry jednotlivých souřadnic napozorovaných dat
ležet téměř mimo “hlavnı́” oblak dat, na rozdı́l od mediánů, které by posunuly pozorovánı́ tak, že
by počátek souřadného systému ležel uprostřed “hlavnı́ho” oblaku dat. Jestliže však posuneme
data tak, že počátek souřadné soustavy bude mimo hlavnı́ “oblak” dat a pak “vnutı́me” datům
model bez absolutnı́ho členu, bude tento model vypadat tak jakoby počátek byl jeden bod a
7
Samozřejmě pokud uvažujeme model s pevnými nosiči, je toto trochu násilné. Na druhé straně, můžeme to
považovat za jakousi transformaci nosičů, která je znormuje na stejnou “velikost”.
67
data druhý bod určujı́cı́ regresnı́ přı́mku. V přı́padě vı́cerozměrných dat bude situace poněkud
složitějšı́, ale neadekvátnost modelu bude stejně zřejmá.
Vidı́me tedy, že je podstatné, co zvolı́me za “těžiště” dat, zda např. průměry všech veličin, jak
je tomu v knihovně STATISTICA, či mediány, či úplně něco jiného. Přirozeně pokud budou data
“dostatečně homogennı́” nebude volba např. mezi průměry a mediány moc ovlivňovat konečný
výsledek. V přı́padě, kdy data však budou “nezanedbatelně znečištěna” (kontaminována) nějakými
chybami v zápise či pozorovánı́mi, která do nich fakticky nepatřı́, či něčı́m jiným, může být
výsledek velmi podivný. Modernı́ statistika, která se, alespoň v rozumné mı́ře snažı́ zabezpečit
proti kontaminaci dat, proto doporučuje interpretovat tuto informaci v kontextu s celou škálou
dalšı́ch, zejména diagnostických informacı́.
Tabulka 5 uvádı́ odhad kovariančnı́ matice odhadů, tj. s2 (X T X)−1 . Jedná, až na faktor s2 ,
o inverznı́ matici k X T X, která je, opět až na faktor n−1 , odhadem kovariančnı́ matice dat,
samozřejmě bez vysvětlované proměnné. Proto tato tabulka nepřinášı́ mnoho nové informace a
nemá pro interpretaci výsledků regresnı́ analýzy zásadnı́ význam.
Poslednı́ tabulka pak shrnuje celkovou informaci o adekvátnosti modelu. Znovu však zdůrazněme,
že se jedná pouze o prvnı́ a orientačnı́ informaci. Nenı́ totiž obtı́žné najı́t soubory dat, pro které
tyto charakteristiky byly “výborné”, ale model byl odhadnut zcela špatně (správný model jsme
bud’ znali, protože data byla simulována, nebo jsme jinou metodou odhadli model, který, po
vyloučenı́ malého počtu bodů - jednoho či dvou, vykazoval řádově menšı́ součet čtverců reziduı́,
nikoliv však nutně vyššı́ koeficient determinace). K tomu abychom dospěli k přesvědčenı́, že
odhadnutý model je adekvátnı́, je nutné provést alespoň několik dalšı́ch diagnostických vyšetřenı́.
O těch si budeme povı́dat v některé z dalšı́ch kapitol. Půjde převážně o aposteriornı́ diagnostiku.
V Tabulce 6 je udán, kromě jiného, také odhad parametru měřı́tka, či chcete-li odhad
směrodatné odchylky (scale estimate). Častěji však bývá udáván odhad rozptylu reziduı́ (variance estimate), někdy bývá uvedeno obojı́. To, co je ve výpise udáno, lze zjistit obvykle v
manuálu. Někdy se však ani při pečlivém čtenı́ manuálu prostě nedá zjistit, či spı́še nedá dospět
k naprosté jistotě, co daná knihovna vlastně nabı́zı́ a pak je to prostě třeba zkusit na datech, u
kterých, dı́ky tomu, že jsme je nejprve zpracovali pomoci softwaru, který známe, vı́me, co má
vyjı́t. Právě popsané situace vznikajı́ tı́m, že “softwaráři”, kteřı́ knihovny připravujı́ a pı́šı́ k nim
manuály, obvykle použı́vajı́ názvoslovı́, které nenı́ (zcela) totožné s názvoslovı́m použı́vaným v
běžných statistických monografiı́ch.
Dřı́ve než pokročı́me dále, zastavme se ještě u jedné položky Tabulky 6. I v této tabulce,
podobně jako v tabulce s odhady regresnı́ch koeficientů, je uvedena P -value. Tato P -value udává
pravděpodobnost, že náhodná veličina rozdělená jako Fisher-Snedecorovo F s p − 1 (přı́padně p)
a n − p stupni volnosti překročı́ hodnotu F uvedenou na pátém řádku Tabulky 6, přičemž je tato
pravděpodobnost vyčı́slena při platnosti hypotézy, že IE Y = γ · 1, je-li v modelu absolutnı́ člen,
či IE Y = 0, je-li model bez absolutnı́ho členu (viz Lemma 8). To znamená, že pokud hodnota
na šestém řádku Tabulky 6 je menšı́ než zvolená hladina významnosti, zamı́tneme hypotézu,
že vysvětlovaná proměnná je nezávislá na vysvětlujı́cı́ch faktorech a akceptujeme odhadnutý
model. Uvědomme si však, že to nenı́ potvrzenı́ platnosti modelu, nebot’ se jedná o statistický
test a tedy jeho výrok řı́ká, že je patrně vhodné zamı́tnout hypotézu, že je vysvětlovaná veličina
nezávislá na vysvětlujı́cı́ch. Snadno si ale umı́me představit, že modelů popisujı́cı́ch závislost
mezi těmito (náhodnými) veličinami může být nespočet.
68
Většina statistických počı́tačových knihoven, ne-li všechny, nabı́zı́ vyčı́slenı́ dalšı́ch charakteristik “vhodnosti” modelu či testů toho, zda předpoklady, za kterých jsme výše v tomto textu
odvozovali optimalitu odhadu β̂ (LS,n) , jsou (alespoň přibližně) splněny. Jednı́m z nejznámějšı́ch
testů je nepochybně Durbin-Watsonova statistika, testujı́cı́ nezávislost náhodných fluktuacı́ mezi
sebou. Často jsou však k dispozici i různé typy statistik dobré shody (byt’ je uživatel musı́ hledat
v jiných oddı́lech než v regresi), různé typy diagnostických grafů atd. Všechny tyto možnosti
budeme diskutovat později.
Nynı́ se však ještě na moment zastavme u problému, který má mnoho společného s právě
popisovanými tabulkami. Někdy se totiž stane, že výsledky v Tabulce 4 indikujı́, že je do
modelu zahrnuto několik vysvětlujı́cı́ch proměnných, které nejsou signifikantnı́ pro vysvětlenı́
vysvětlované veličiny. Jejich P -hodnoty jsou totiž (značně) velké. Vypustı́me-li však tyto proměnné
a přepočı́táme-li model, klesne povážlivě koeficient determinace. Takový model nás přirozeně
neuspokojı́ a my se rozhodneme některou vyloučenou proměnnou do modelu vrátit. S podivem zjistı́me, že nynı́ má tato proměnná P -hodnotu velmi malou, což signalizuje, že v modelu
patrně hraje signifikantnı́ roli. Vysvětlenı́ je samozřejmě prosté. Ve verzi modelu, se kterou
jsme začali naši analýzu, bylo několik proměnných, které byly vı́ce či méně, nicméně dostatečně
lineárně závislé, tak aby se “přetahovaly ve snaze vysvětlit” Y . Jednou z nejčastěji se objevujı́cı́ch
situacı́, kdy tento “jev” nastává, je situace, kdy variabilita některé vysvětlujı́cı́ proměnné malá
ve srovnánı́ s variabilitou vysvětlované proměnné. Potom tato vysvětlujı́cı́ proměnná “soupeřı́
o vliv” s absolutnı́m členem. Problém bývá označován v regresnı́ analýze jako problém kolinearity (či multikolinearity) a budeme jej studovat později. Ted’ si však dovolme si ještě jednu, v
podstatě technickou poznámku.
Někdy se stane, že při regresnı́ analýze provedené pomocı́ některé statistické počı́tačové
knihovny narazı́me na “záhadu”, která je evidentně podivná už na prvnı́ pohled, ale jen na
ten, jak ihned uvidı́me. Stane se totiž, že výsledky Tabulky 4 napovı́dajı́, že absolutnı́ člen je
v modelu nevýznamný. Po zmenšenı́ počtu vysvětlujı́cı́ch proměnných o absolutnı́ člen dojde
nutně ke zvýšenı́ hodnoty reziduálnı́ho součtu čtverců a tedy intuitivně cı́tı́me, že i ke zhoršenı́
determinace modelu. Přesto však se hodnota koeficientu determinace zvýšı́. Jak je to možné?
Odpověd’ je skryta v Definici 1. V prvém přı́padě totiž počı́tač vyčı́slil koeficient determinace
vůči nulové hypotéze IE Y = γ · 1, v druhém přı́padě tak učinil vůči hypotéze IE Y = 0. To
P
ovšem implikuje, že za R02 bylo v prvém přı́padě vzata suma ni=1 (Yi − Ȳ )2 , v druhém přı́padě
P
to byla suma ni=1 Yi2 , která je vždy, a někdy může být dokonce podstatně, většı́ než ta prvnı́.
Vliv tohoto faktu na hodnotu koeficientu determinace je nynı́ již snadno nahlédnutelný.
Ne ve všech učebnicı́ch regerse se zdůrazňuje fakt, že je patrně vhodnějšı́ počı́tat vždy, pokud
proti tomu nejsou opravdu závažné důvody, model s absolutnı́m členem a to i v přı́padě, že se dle
studentizovaných statistik jevı́ jako nevýznamný. Toto doporučenı́ vycházı́ z faktu, že absolutnı́
člen hraje trochu jinou úlohu v modelu než ostatnı́ regresnı́ koeficienty, které udávajı́ sklon
regresnı́ nadroviny. Pokusme se to blı́že vysvětlit.
Předpokládejme, že naše data jsou umı́stěna daleko od počátku. Uvědomı́me-li si, že absolutnı́ člen je souřadnicı́ bodu, ve kterém regresnı́ nadrovina protı́ná y-novou osu, tj. osu na
kterou nanášı́me hodnoty vysvětlované proměnné, snadno nahlédneme, že malá změna ve sklonu
regresnı́ nadroviny způsobı́ velkou změnu absolutnı́ho členu. Na druhé straně malá změna ve
sklonu regresnı́ nadroviny způsobı́ jen malou změnu v predikcı́ch učiněných v oblasti dat nebo
69
v jejich blı́zkém okolı́. Zde je třeba mı́t na paměti to, že smyslplné predikce lze provádět pouze
v té oblasti faktorového prostoru, kterou pokrývala “trénovacı́” data, tj. data, ze kterých jsme
odhadovali model. Odtud je vidět, že všechny úvahy o signifikantnosti absolutnı́ho členu jsou
podmı́něné polohou dat ve faktorovém prostoru. Na druhé straně, obvykle chceme, aby naše
závěry byly v jistém smyslu invariantnı́. Např. pokud jen posuneme data ve faktorovém prostoru a neprovedeme nějaké jejich otočenı́, patrně opodstatněně očekáváme, že predikce provedené
pomocı́ modelů na původnı́ch a posunutých datech se budou lišit právě je tı́m posunutı́m. To
však vı́ce méně vyžaduje, aby začleněnı́ absolutnı́ho členu do modelu bylo nezávislé na posunutı́
dat. To implikuje, že úvahy o signifikantnosti absolutnı́ho členu majı́ tedy smysl pouze tehdy,
pokud je tato poloha v jakémsi smyslu “absolutnı́”. Pak ovšem zase naopak ztrácejı́ smysl úvahy
o invarianci odhadu a to může mı́t dalekosáhlé důsledky pro volbu odhadu, tj. můžeme pak dát
přednost jinému odhadu než je odhad metodou nejmenšı́ch čtverců.
Dřı́ve než uzavřeme tento odstavec, dovolı́me se dotknout jednoho problému, který svou
svůdnostı́ připomı́ná Skyllu (či Charibdu). Jednoduše a snad i výstižně by se tento problém dal
označit jako unáhlené závěry vyvozené ze znaménka odhadů regresnı́ch koeficientů. Ačkoliv po
krátké diskuzi snadno nahlédneme, jak zavádějı́cı́ mohou být úvahy opřené o znaménko odhadu
přı́slušného regresnı́ho koeficientu, stále se ještě objevujı́ a to i v jinak docela seriznı́ch článcı́ch.
O co se jedná?
Problém je patrně, kromě jiného, v tom, že v řadě učebnı́ch textů o regresnı́ analýze nenı́ bud’
vůbec, či je jen velmi povrchně diskutována otázka, jak interpretovat výsledky regresnı́ analýzy.
Toto opomenutı́ pak způsobı́, že se můžeme setkat s výroky typu: “Znaménka odhadů regresnı́ch
koeficientů vyšla v souladu s našimi představami o kauzálnı́ch souvislostech, nebot’ nárůst hladiny
δ-terfendinu (jedna z vysvětlujı́cı́ch proměnných) by měl negativně ovlivňovat adrenergnı́ stimulaci (vysvětlovaná proměnná) pacienta”. Při takovéto interpretaci výsledků regresnı́ analýzy
je však zcela opominut fakt, že uvolňovánı́ δ-terfendinu je spojeno s úbytkem κ-histaminu a
η-proteinu (jiné dvě vysvětlujı́cı́ proměnné), v řeči statistiky, jedna z vysvětlujı́cı́ch proměnných
je téměř nepřı́mo úměrná dalšı́m dvěma. Tudı́ž nárůst hladiny δ-terfendinu vyvolá, až na statistické odchylky, pokles κ-histaminu a η-proteinu a celkový dopad na adrenergnı́ stimulaci může
být pozitivnı́, tj. zcela jiný než napovı́dajı́ jednotlivá znaménka (či velikosti) odhadů regresnı́ch
koeficientů. Jinými slovy, při interpretaci výsledků regresnı́ analýzy je třeba posuzovat model
komplexně, tj. je nutné vzı́t v úvahu rovněž vzájemnou závislost (a jejı́ mı́ru, či stupeň, chcete-li)
mezi vysvětlujı́cı́mi proměnnými, a to bohužel u každého jednotlivého subjektu. Vysvětleme to
podrobněji.
Prvnı́ domněnka, která nás napadne bude to, že právě popsaná situace je důsledkem (vysoké)
korelovanosti některých vysvětlujı́cı́ch proměnných. Tuto vysokou korelovanost jsme vyjádřili
slovy “téměř nepřı́mo úměrné”. Odtud je jen krok k dohadu, že tato korelovanost by se měla
projevit v kolinearitě. O té se budeme bavit později podrobně a proto nynı́ jen krátce vysvětleme,
že kolinearita je právě označenı́ pro situaci, kdy jsou některé vysvětlujı́cı́ proměnné téměř
lineárně závislé. Zdůrazněme ještě jednou, že se jedná o situaci, kdy jsou regresory téměř
lineárně závislé, přičemž důraz je jak na slově téměř, tak na slově lineárně. K prvnı́mu z těchto
dvou slov znovu připomeňme, že např. pro dvourozměrné normálnı́ rozdělenı́ “vrstevnice na hustotě” budou výrazněji eliptického tvaru s možnostı́ alespoň náznaku jakési intervalové predikce
jedné souřadnice při znalosti té druhé až pro absolutnı́ hodnoty korelačnı́ho koeficientu alespoň
70
0.6 či spı́še 0.8. Podobně druhé slovo je důležité, nebot’ kolinearita, jak ostatně název napovı́dá,
bude indikována jen při lineárnı́m vztahu mezi regresory. Ostatně si je lehké představit, že např.
ve chvı́li, kdy se budeme domnı́vat, že vysvětlovaná proměnná je polynomiálně závislá na některé
vysvětlujı́cı́ proměnné, prostě zařadı́me do matice plánu sloupce představujı́cı́ vyššı́ mocniny této
vysvětlujı́cı́ proměnné. Pokud bude variabilita této proměnné v datech dosti vysoká, nezpůsobı́
to kolinearitu, ale výše zmı́něný problém to dokáže vyvolat zcela perfektně. Ve výše citovaném
přı́kladě by naprosto analogická situace vznikla pokud by např. κ-histamin byl (téměř) kvadraticky závislý na δ-terfendin a podobně η-protein (téměř) závislý na δ-terfendin ve třetı́ mocnině.
Problém tedy je v tom, že kolinearita nemusı́ být indikována z toho důvodu, protože tam
prostě nenı́. Navı́c výše zmı́něná téměř nepřı́má úměrnost může mı́t u každého pacienta jiný
průběh a tudı́ž v celém souboru dat o n pacientech tuto téměř nepřı́mou úměrnost prostě
nezjistı́me. Snadno si lze představit, že pokud bude většı́ nepřı́má úměrnost mezi δ-terfendinem
a κ-histaminen “kompenzována” menšı́ nepřı́mou úměrnostı́ mezi δ-terfendinem a η-proteinem
u jednoho subjektu (pacienta) a u jiného tomu bude naopak, nebudou prostě data žádnou kolinearitu vykazovat, ale výše uvedený efekt bude opět bez problému fungovat. Proto je třeba
přistupovat k interpretaci odhadů regresnı́ch koeficientů a dokonce i jejich znamének
velmi obezřetně. Zejména vyvozovánı́ jakýchkoliv kauzálnı́ch, či “skoro” kauzálnı́ch
závěrů je velmi riskantnı́.
Na závěr ještě poznamenejme, že pokud však jsou naše představy o kauzalitě založeny na
dobře obhajitelných úvahách (např. rozloha mı́stnosti je patrně přı́mo úměrná délce jejich stěn),
pak samozřejmě můžeme tyto “představy” použı́t jako “diagnostickou” informaci pro posouzenı́
adekvátnosti modelu. Na druhé straně, je pojem kauzality třeba brát, vzhledem k vývoji vědy
a zejména filosofie vědy v druhé polovině dvacátého stoletı́, s náležitou rezervou a opatrnostı́.
To znamená, pokud jsou naše představy o kauzalitě spı́še hypotézami, které si snažı́me empirickou studiı́ potvrdit, nejsou výše uvedené úvahy o “správném” znaménku odhadů regresnı́ch
koeficientů vůbec namı́stě.
5.2
Grafy reziduı́
Jednı́m z běžně použı́vaných nástrojů diagnostiky jsou grafické metody. Je zřejmé, že na rozdı́l
od testů, které na předem zvolené hladině jednoznačně otestujı́ např. hypotézu o normalitě či
homoskedasticitě reziduı́, grafické medoty spı́še napovı́dajı́ cosi o porušenı́ těchto hypotéz. Jejich
výhodou je však to, že jsou snadno dostupné v mnoha statistických knihovnách, obvykle na jedno
kliknutı́ myši, a navı́c to, že často tvar grafu či poloha bodů na grafu indikujı́, které body jsou
atypické, přı́padně co je důvodem porušenı́ předpokladu. Konečně pak někdy napovědı́ možný
způsob nápravy situace. Poznamenejme však, že přirozeně problém nenı́ zda použı́vat raději
grafické metody či rigiroznı́ testy. Měli bychom využı́vat obojı́ !
Nynı́ si dovolı́me popsat některé nejběžněji použı́vané grafické metody. Dřı́ve však než se do
toho pustı́me, připomeňme, že jsme předpokládali, že data jsou generována modelem
i = 1, 2, . . . , n,
(66)
ve kterém posloupnost {Ei }∞
i=1 je posloupnostı́ nezávislých stejně rozdělených náhodných veličin.
Ač je to samozřejmé, připomeňme, že z toho, že veličiny Ei , i = 1, 2, . . . jsou stejně rozdělené
71
plyne, že majı́ stejný rozptyl. Situaci, kdy všechny náhodné fluktuace majı́ stejný rozptyl,
řı́káme homoskedasticita a opačné, tj. takové, kdy rozptyl všech náhodných fluktuacı́ nenı́
stejný, heteroskedasticita. Často, a hned poznamenejme, že až přı́liš často a mnohdy evidentně
neoprávněně, předpokládáme, že se fluktuace řı́dı́ normálnı́m rozdělenı́m. Normalita reziduı́, jejich homoskedasticita, vzájemná nezávislost a nezávislost s regresory, pokud je adekvátnějšı́ tyto
pokládat za náhodné, jsou základnı́mi předpoklady pro úspěšné provedenı́ regresnı́ analýzy pomocı́ nejmenšı́ch čtverců. Grafické metody jsou jednou z možnostı́ jak ověřit prvé dva z těchto
předpokladů.
Mezi nejznámějšı́ grafické nástroje patřı́ následujı́cı́ dva typy grafů. Prvnı́ typ je založen na
myšlence, která řı́ká: Pokud majı́ všechny náhodné fluktuace stejný rozptyl nesmı́ graf, ve kterém
vyneseme rezidua proti některé jiné veličině, např. indexu pozorovánı́ (index plot), některé
vysvětlujı́cı́ proměnné či některé jiné charakteristice jednotlivého pozorovánı́ vykazovat žádnou
pravidelnost. Pokud dojde k nějaké “pravidelnosti”, např. rezidua budou vı́ce rozptýlena pro
vyššı́ hodnoty indexů, je pravděpodobné, že hypotéza o homoskedasticitě nenı́ namı́stě. Podobně,
pokud vyneseme rezidua proti některé vysvětlujı́cı́ proměnné a objevı́me nějakou pravidelnost,
je lépe nepředpokládat homoskedasticitu.
Někdy se doporučuje vynášet rezidua proti vyhlazeným (či chcete-li, vyrovnaným) hodnotám vysvětlované proměnné. Za tı́mto doporučenı́m stojı́ myšlenka, že se tı́m posoudı́ vliv
všech vysvětlujı́cı́ch proměnných na velikost rozptylu náhodných fluktuacı́ najednou. Přitom
vliv jednotlivých vysvětlujı́cı́ch proměnných je zvážen ve stejném poměru v jakém se podı́lejı́ na
predikovánı́ střednı́ hodnoty vysvětlované proměnné.
Druhý typ grafu je konstruován tak, že se vynášejı́ rezidua proti kvantilům toho rozdělenı́,
o kterém se domnı́váme, že se jı́m řı́dı́ náhodné fluktuace v našem modelu. Abychom nahlédli
heuristiku druhého typu grafů, stačı́ si uvědomit, že pokud bychom stáli před úkolem odhadnutı́
α-kvantilu pro jednorozměrná data o rozsahu n postupovali bychom takto. Seřadili bychom
pozorovánı́ dle velikosti a za odhad α-kvantilu bychom vzali pozorovánı́ stojı́cı́ na k-tém mı́stě v
této uspořádané řadě, pro k = [n · α], kde [n · α] je největšı́ celé čı́slo, které je menšı́ n · α. Podle
Glivenkovy věty (Glivenko (1933), Rao (1978)) konverguje tento odhad α-kvantilu k teoretické
hodnotě α-kvantilu. To znamená, že pokud jsou rezidua rozdělena normálně a jestliže je seřadı́me
dle velikosti, měla by tato uspořádaná rezidua být přibližně rovna odpovı́dajı́cı́m kvantilům
normálnı́ho rozdělenı́. Vyneseme-li tedy do grafu uspořádaná rezidua proti kvantilům normálnı́ho
rozdělenı́, měl by takový graf tvořit přibližně přı́mku. Pokud tedy obdržı́me cosi, co je značně
odlišné od přı́mky, je nerozumné trvat na hypotéze normality.
Na závěr této kapitoly se ještě zmiňme o grafu, který se svým charakterem vymyká z běžných
grafů reziduı́. Umožňuje totiž graficky nahlédnout vliv jednoho pozorovánı́, který budeme studovat nı́že. Graf bývá ve statistických knihovnách označován jako Residuals and deleted residuals
a bývá v něm pro každý bod vyneseno vždy jeho rezı́duum v modelu budovaném na základě
všech dat proti rezı́duu tohoto bodu, ale v modelu, který byl odhadnut na základě dat, ze
kterých byl právě tento bod vyloučen. Přirozeně heuristika, která je za tı́mto grafem je snadno
pochopitelná. Je-li přı́slušný bod vlivný, pak modely odhadnuté na základě všech bodů a na
základě dat neobsahujı́cı́ch tento bod budou (podstatně) odlišné, ve smyslu velikosti rezidua pro
tento bod, tj. ve smyslu vysvětlovánı́ funkčnı́ hodnoty modelu v tomto bodě, a tedy přı́slušný
body v grafu ležı́ daleko od hlavnı́ diagonály. Pokud se tedy na displeji objevı́ body, které jsou
72
(velmi) daleko od hlavnı́ diagonály, je možné pojmout podezřenı́, že tyto body jsou vlivné či
atypické, a je třeba jim věnovat dalšı́ pozornost. Na druhé straně, snadno si domyslı́me i slabiny
tohoto grafu. Vypuštěnı́ jednoho bodu z dat může mı́t docela podstatný vliv na odhady hodnot
regresnı́ch koeficientů, což se může, ale ve vı́cerozměrném přı́padě také nemusı́, projevit na hodnotách reziduı́. Přirozeně však se tato změna reziduı́ může týkat daleko vı́ce jiných bodů, než
právě toho, který byl z dat vypuštěn. Nezbývá tedy než znova apelovat na to, že žádný diagnostický prostředek by neměl být použı́ván slově, ale k vytvořenı́ si představy o “oprávněnosti”
modelu by měly být využity všechny diagnostické prostředky, které jsou v té knihovně, kterou
použı́váme, k dispozici. Toto tvrzenı́ jistě platı́ i naopak: neměli bychom použı́vat knihovnu,
která nenabı́zı́ slušnou škálu diagnostických nástrojů, viz např. tabulkové procesory.
6
OVĚŘOVÁNÍ ZÁKLADNÍCH PŘEDPOKLADŮ
Jak jsme uvedli na konci prvnı́ kapitoly, považujeme za základnı́ předpoklady regresnı́ analýzy
splněnı́ podmı́nek A, tj. nulovost střednı́ hodnoty náhodných fluktuacı́, jejich homoskedasticitu
a vzájemnou nezávislost, a dále pak jejich normalitu a přı́padně nezávislost na vysvětlujı́cı́ch
proměnných. V této kapitole se naučı́me testovat, přirozeně aposteriorně na základě reziduı́,
jejich splněnı́. Pokud je v modelu intercept, a výše jsme uvedli argumenty, doporučujı́cı́ jej v
modelu vždy podržet, jedna z normálnı́ch rovnic zaručuje nulovost průměru reziduı́. To znamená,
že co se týká předpokladu o nulovosti střednı́ hodnoty náhodných fluktuacı́, nenı́ co testovat.
Budeme se tedy věnovat vyšetřovánı́ dalšı́ch předpokladů.
6.1
Homoskedasticita a heteroskedasticita
Jak plyne z názvu tohoto odstavce, budeme si nynı́ povı́dat o homoskedasticitě a heteroskedasticitě, jejich testovánı́, přı́padně modelovánı́. Při odvozovánı́ dosud uvedených výsledků jsme
předpokládali homoskedasticitu. Zdálo by se tedy logické nejprve uvést testy homoskedasticity,
poté popsat nejběžnějšı́ modely heteroskedasticity a konečně pak jejı́ vliv na β̂ (LS,n) . Vzhledem k
tomu, že přinejmenšı́m některé testy homoscedasticity vyžadujı́ popsánı́ alternativy, tj. popsánı́
modelu heteroskedasticity, začneme vlastně od konce, totiž popisem modelů heteroskedasticity.
Dnes se často v rámci teorie časových řad a dynamické verze regresnı́ho modelu tyto modely rozptylu označujı́ jako modely volatility. Dřı́ve však než se budeme věnovat těmto modelům,
pokusme se zamyslet nad tı́m, kdy může být předpoklad o homoskedasticitě (evidentně) porušen.
6.1.1
Přı́klady situacı́ s heteroskedastickými fluktuacemi
Jednı́m z typických přı́kladů z mikroekonomie, kdy je téměř evidentnı́, že předpoklad homoskedasticity je přinejmenšı́m diskutabilnı́, je model výdajů domácnostı́. Zdá se přirozené,
že ty domácnosti, které majı́ menšı́ přı́jmy, budou mı́t také menšı́ rozptyl ve svých výdajı́ch,
neboli stojı́-li výdaje domácnosti at’ už v roli vysvětlované či vysvětlujı́cı́ veličiny, je velikost
náhodných fluktuacı́ závislá od této veličiny, viz Prais, Houthakker (1955) nebo Theil (1971) .
Jinými slovy rozptyl náhodných fluktuacı́ nenı́ nezávislý od (indexu) pozorovánı́.
Kromě právě zmı́něného přı́kladu bývá v literatuře nejčastěji připomı́nána situace, kdy naše
data vznikla jako zprůměrované hodnoty, např. přes vı́ce jedinců, přes některé teritorium, v
73
průběhu některého časového intervalu a pod., a dále pak model, ve kterém jsou regresnı́ koeficienty náhodné. Přirozeně se předpokládá malá odchylka od jakési jejich střednı́ hodnoty, malá
v porovnánı́ s hodnotou těchto koeficientů. Krátce popišme oba přı́klady.
Předpokládejme, že dat jsou rozdělena do K skupin, v každé skupině je nk jedinců, celkový
P
počet jedinců je tedy n = K
k=1 nk a platı́ model
Yi = xTi β 0 + Ei , i = 1, 2, ..., n,
(67)
ve kterém IE EE T = σIn , kde jako obvykle E = (E1 , E2 , ..., En )T a kde jedinci s indexem
i, n1 + n2 + ... + nk−1 < i ≤ n1 + n2 + ... + nk patřı́ do k-té skupiny. Nynı́ předpokládejme, že
máme k dispozici pouze průměry přes jednotlivé skupiny, tj. jsou nám přı́stupné pouze hodnoty
Ȳk , x̄k , k = 1, 2, ..., K, kde
1
nk
Ȳk =
i=n1 +n
2 +...+nk
X
Yi
x̄k =
i=n1 +n2 +...+nk−1
1
nk
i=n1 +n
2 +...+nk
X
xi ,
i=n1 +n2 +...+nk−1
kde v poslednı́m výraze je samozřejmě naznačená operace mı́něna po složkách přı́slušných vektorů. Z (67) plyne
Ȳk = x̄Tk β 0 + Ēk , k = 1, 2, ..., K,
(68)
kde samozřejmě
Ēk =
1
nk
i=n1 +n
2 +...+nk
X
Ei
i=n1 +n2 +...+nk−1
je nepřı́stupné měřenı́ a představuje jakési “zprůměrované” náhodné fluktuace. Je patrné, že
IE Ēk = 0, ale

2
i=n1 +n
2 +...+nk
X
1
IE Ēk2 = 2 IE 
nk
i=n
Ei  =
1 +n2 +...+nk−1
σ2
nk σ 2
=
,
nk
n2k
neboli fluktuace v modelu (68) jsou heteroskedastické. Naštěstı́ IE Ēk Ēj = 0 pro k 6= j (dı́ky
tomu, že v přı́slušných sumách vystupujı́ nekorelované náhodné veličiny) a tedy
(
T
IE Ē Ē = diag
σ2 σ2
σ2
, , ...,
n1 n2
nK
)
,
kde diag {a, b, ..., c} označuje diagonálnı́ matici s uvedenými prvky na diagonále. To znamená,
že zobecněný odhad metodou nejmenšı́ch čtverců bude mı́t jednoduchý tvar
β̂
(GLS,n)
=

Ã !−1
K
X
σ2

k=1
nk
−1
Ã !−1
K
 X
σ2
x̄k x̄Tk

k=1
nk
Ȳk x̄k =
(K
X
nk x̄k x̄Tk
k=1
)−1 K
X
nk Ȳk x̄k .
k=1
Protože počty jedinců nk v jednotlivých třı́dách jsou obvykle známé, je možné tento odhad přı́mo
vyčı́slit. Poněkud jiná situace nastává v přı́padě, kdy předpokládáme, že regresnı́ koeficienty
fluktuujı́, poněkud a samozřejmě ne přı́liš, okolo jakési své střednı́ hodnoty.
Předpokládejme tedy model
Yi = xTi β(i) + Ei , i = 1, 2, ..., n,
74
(69)
n
on
0 = β 0 +V
p
kde β(i)
je posloupnost náhodných vektorů. Poprvé byl
(i) s tı́m, že V(i) ∈ R a V(i)
i=1
takový model studován v práci Hildreth a Houck (1968), kde autoři předpokládali, že vektory
V(i) jsou nezávislé a stejně rozdělené a s navzájem nezávislými souřadnicemi, které majı́ nulové
střednı́ hodnoty a pozitivnı́ rozptyly αj , j = 1, 2, ..., p. Potom můžeme model (69) přepsat do
tvaru
³
´
Yi = xTi β 0 + V(i) + Ei = xTi β 0 + Ui , i = 1, 2, ..., n,
P
kde ovšem Ui = Ei + xTi V(i) a tedy IE Ui = 0, ale σi2 = IE Ui2 = pj=1 αj x2ij . Položı́meª
©
li tedy U = (U1 , U2 , ..., Un )T , máme IE U U T = diag σ12 , σ22 , ..., σn2 . Jinými slovy kovariančnı́
matice náhodných fluktuacı́ je diagonálnı́, ale nenı́ úměrná jednotkové matici. V obou uvedených
přı́kladech tedy opět nenı́ rozptyl náhodné fluktuace i-tého pozorovánı́ nezávislý od indexu i.
Povšimněme si, a v textu jsme to záměrně zdůraznili, že to co jsme rozuměli na začátku
výkladu v těchto skriptech pod homoskedasticitou byla konstantnost rozptylu náhodných fluktuacı́. Z té samozřejmě plyne, v přı́padě modelu s deterministickými vysvětlujı́cı́mi proměnnými,
i konstantnost rozptylu vysvětlované veličiny. V přı́padě modelu s náhodnými vysvětlujı́cı́mi
veličinami, však toto neplatı́ a i v přı́padě, že bude zachována homoskedasticita náhodných
fluktuacı́, bude mı́t vysvětlovaná proměnná obecně rozptyl závislý na indexu i. To však nebude
na závadu eficientnosti odhadu β̂ (LS,n) , pokud tyto vysvětlujı́cı́ proměnné budou nekorelované
s náhodnými fluktuacemi; vše si vysvětlı́me nı́že, v odstavci o instrumentálnı́ch proměnných.
Pokud bychom ve výše uvedených přı́kladech aplikovali odhad β̂ (LS,n) , nedostaneme eficientnı́
odhady regresnı́ch koeficientů. Na druhé straně, přı́má aplikace odhadu β̂ (GLS,n) nenı́ (obvykle)
možná, nebot’ nejsou známé hodnoty σi2 . K jejich vyčı́slenı́ bychom potřebovali znát vektor α, což
je ovšem nerealistický předpoklad. Běžně se tato situace řešı́ tak, že neznámé parametry, v našem
přı́padě souřadnice vektoru α, odhadneme a dosadı́me do vztahu pro β̂ (GLS,n) . Mluvı́me potom
o estimated generalized least squares estimator, česky patrně (kostrbatě) zobecněném odhadu
metodou nejmenšı́ch čtverců s odhadnutými parametry. Tento odhad bude v dalšı́m označován
jako β̂ (EGLS,n) .
Dřı́ve než postoupı́me dále, poznamenejme ještě, že pokud je kovariančnı́ matice náhodných
fluktuacı́ diagonálnı́, ale nenı́ úměrná jednotkové matici, mluvı́me často o váženém odhadu
metodou nejmenšı́ch čtverců. Snadno se totiž nahlédne, že β̂ (GLS,n) je běžným odhadem metodou
nejmenšı́ch čtverců v modelu
Yi
xT
Ei
= i β 0 + , i = 1, 2, ..., n.
σi
σi
σi
Popišme nynı́ alespoň nejběžněji studované modely pro rozptyl náhodných fluktuacı́.
6.1.2
Modely heteroskedasticity
Je naprosto přirozené, že v přı́padě, kdy pojmeme podezřenı́, že náhodné fluktuace v regresnı́m
modelu nejsou homoskedastické (a přı́padně se toto podezřenı́ potvrdı́ některým nı́že uvedeným
testem), se pokusı́me složitějšı́ kovariančnı́ strukturu náhodných fluktuacı́ namodelovat a odhadnout parametry navrženého modelu. Nejjednoduššı́m se přirozeně jevı́ použı́tı́ některého regresnı́ho modelu, ve kterém “ještě jednou” použijeme informaci, která je obsažena ve zpracovávaných datech k namodelovánı́ zmı́něné kovariančnı́ struktury. Obecně se může stát, že relevantnı́ vysvětlujı́cı́ proměnné pro model kovariančnı́ struktury náhodných fluktuacı́ budou různé
75
od relevantnı́ch vysvětlujı́cı́ proměnných v původnı́m regresnı́m modelu. Toto bude formálně reflektováno v nı́že uvedených vztazı́ch, byt’ samozřejmě ve většině aplikacı́ se bude jednat o ty
samé proměnné.
Dřı́ve než se budeme věnovat jednotlivým modelům heteroskedasticity připomeňme, že v přı́padě
heteroskedasticity, pokud chceme dosáhnout eficientnı́ho dohadu, musı́me použı́t zobecněný
odhad β̂ (GLS,n) . To implikuje, že pokud bychom nebyli schopni odhadnout kovariančnı́ matici Σ,
nemůžeme v tomto úsilı́ uspět. Na druhé straně, za docela obecných podmı́nek můžeme, podobně
jako jsme to provedli výše, dokázat asymptotickou normalitu odhadu β̂ (GLS,n) , tj. ukázat, že
L
´
³√
n(β̂ (GLS,n) − β 0 ) → N (0, Q−1 V Q−1 ),
kde se předpokládá, že existuje regulárnı́ matice Q jakožto limita výrazů n1 xT x a matice V
jakožto limita výrazů n1 xT Σx. A za určitých podmı́nek (viz např. Eicker (1967), White (1980)
P
nebo Nicholls, Pagan (1983)) lze ukázat, že V̂ = n1 ni=1 ri2 xi xTi (kde ri = Yi − xTi β̂ (LS,n) ) je
konsistentnı́m odhadem V . To znamená, že budemeli chtı́t např. testovat hypotézu, že Cβ 0 = κ,
kde C je matice typu (` × p) a plné hodnosti, a κ ∈ R` , můžeme použı́t toho, že
Ã
L [C(β̂
·
(LS,n)
0 T
− β )]
³
T
C X X
´−1
T
³
T
X ΣX X X
´−1
T
C
!
¸−1
[C(β̂
(LS,n)
0
− β )]
→ χ2 (`).
Jinými slovy to znamená, že některé hypotézy o regresnı́ch koeficientech je možné testovat bez
toho, že bychom odhadli matici Σ (tj. bez bližšı́ specifikace kovariančnı́ sktuktury náhodných
fluktuacı́).
Směrodatná odchylka jako lineárnı́ funkce vysvětlujı́cı́ch proměnných
Uvažujme lineárnı́ regresnı́ model
Yi = xTi β 0 + Ei i = 1, 2, ..., n
(70)
s kovariančnı́ strukturou náhodných fluktuacı́ danou následovně:
³
IE Ei = 0,
IE Ei Ej = 0,
IE Ei2 = ziT α
´2
i 6= j = 1, 2, ...n.,
(71)
kde {zi }ni=1 je posloupnost nenáhodných s-rozměrných vektorů a α ∈ Rs je vektor regresnı́ch
koeficientů popisujı́cı́ kovariančnı́ strukturu náhodných fluktuacı́. Jak jsme už podotkli výše,
posloupnost {zi }ni=1 může, ale nemusı́ být různá od posloupnosti {xi }ni=1 . Často navı́c předpokládáme,
že náhodné veličiny Ei , i = 1, 2, ..., n jsou nezávislé či že n
jejich rozdělenı́ je stejného
typu, tj. lišı́
o
T
T
T
T
se pouze velikostı́ rozptylu. Protože Σ = IE EE = diag z1 α, z2 α, ..., zn α , máme
β̂ (GLS,n) =
Ã n
X
!−1 n
X
i=1
i=1
(zi α)−2 xi xTi
(zi α)−2 xi Yi .
Je ovšem nerealistické předpokládat, že budeme znát vektor α, jinými slovy to znamená, že je
třeba odhadnout tento vektor a použı́t odhad β̂ (EGLS,n) . K návrhu vhodného odhadu pro α
může vést následujı́cı́ úvaha. Předpokládejme nadále, že typ rozdělenı́ velčin Ei , i = 1, 2, ..., n je
pro všechny stejný. Z (71) pak plyne, že studentizované veličiny σ1−1 E1 , σ2−1 E2 , ..., σn−1 En jsou
76
stejně rozdělené a tedy IE σi−1 Ei = c, i = 1, 2, ...n, kde c ∈ R+ . Toto neznamená nic jiného než,
že IE σi Ei = cσi , i = 1, 2, ...n, a tedy můžeme psát
|ri | = ziT α + Vi ,
(72)
kde ri = Yi −xTi β̂ (LS,n) a Vi , i = 1, 2, ..., n je vhodná posloupnost náhodných veličin (je okamžitě
vidět, že Vi = |ri | − IE |Ei |). Odtud
³
cα̂(LS,n) = Z T Z
´−1
Z T |r|,
kde Z = (z1 , z2 , ...zn )T a r = (r1 , r2 , ..., rn )T a konečně
β̂
(EGLS,n)
=
Ã n
X
(zi α̂
(LS,n) −2
)
xi xTi
!−1 n
X
(zi α̂(LS,n) )−2 xi Yi
i=1
=
Ã n
X
(czi α̂
i=1
(LS,n) −2
)
xi xTi
!−1 n
X
(czi α̂(LS,n) )−2 xi Yi .
i=1
(73)
i=1
Problémy ovšem nastanou pokud chceme odhadnout kovariančnı́ matici tohoto odhadu, nebot’
tam se projevı́ fakt, že neznáme a ani jednoduše neumı́me odhadnout c. Dalšı́ problémem je
samozřejmě to, že cα̂(LS,n) ani zdaleka nemusı́ být dobrým odhadem cα. Protože i v přı́padě
heteroskedasticity může být β̂ (LS,n) konsistentnı́m odhadem (viz poznámka v důkaze Lemmatu
2), bude, v přı́padě konsistentnosti odhadu β̂ (LS,n) , |ri | konvergovat v distribuci k |Ei | a to
stejnoměrně pro i = 1, 2, ..., n (podrobnějšı́ diskuzi lze nalézt např. v pracech Harvey (1974) či
Theil (1971) ). To znamená, že asymptoticky budou mı́t náhodné fluktuace Vi nulovou střednı́
hodnotu a rozptyl
IE Vi2 = IE |Ei |2 − (IE |Ei |)2 = σi2 (1 − c2 ) = (ziT α)2 (1 − c2 ).
Poslednı́ vztah naznačuje, že fluktuace Vi jsou “asymptoticky heteroskedastické” a tedy bychom
k odhadu měli použı́t α̂(GLS,n) . Pokud budeme předpokládat, že v modelu (70) jsou náhodné
fluktuace nezávislé,
budou Vi , i = 1, 2, ..., n také, alespoň asymptoticky,
nezávislé. Potom bude
n
o
T
2
2
T
2
2
T
2
2
ΣV = diag (z1 α) (1 − c ), (z2 α) (1 − c ), ..., (zn α) (1 − c ) a tedy
α̂
(GLS,n)
=
Ã n
X
(zi α̂
(LS,n) −2
)
zi ziT
i=1
a konečně
β̂
(EGLS,n)
=
Ã n
X
(zi α̂
!−1 n
X
(zi α̂(LS,n) )−2 zi ri
i=1
(GLS,n) −2
)
xi xTi
i=1
!−1 n
X
(zi α̂(GLS,n) )−2 xi Yi .
(74)
i=1
Ačkoliv jsme ve vztazı́ch (73) a (74) formálně nerozlišili, že se jedná o dva různé odhady, je
jasné, v čem spočı́vá jejich odlišnost. Vlastnosti těchto odhadů nebyly dosud plně prostudovány
a ačkoliv je (téměř) zřejmé, že asymptoticky budou ekvivalentnı́, lze tušit, že pro konečný výběr
dat, může patrně estimátor ze vztahu (74) dávat lepšı́ výsledky než ten ze vztahu (73).
Dalšı́ možnostı́, jak se vypořádat s heteroskedasticitou náhodných fluktuacı́, je použı́t maximálně
věrohodný odhad pro β a α. Obvykle se v tom přı́padě předpokládá normálnı́ rozdělenı́ náhodných
77
fluktuacı́. Derivace logaritmu věrohodnostnı́ funkce však vede na nelineárnı́ rovnice a je nutná
numerická maximalizace. To jistě v době rozvinuté počı́tačové techniky nenı́ zásadnı́ problém.
Problémem spı́še je fakt, že předpoklad normality fluktuacı́ je nesmı́rně silný, nebot’ i při
malých odchylkách od tohoto předpokladu se změnı́, přirozeně k horšı́mu, vlastnosti statistik
(optimálnı́ch při předpokladu normality) daleko vı́ce než jsme ochotni připustit. Jeden takový
přı́klad, který byl znám už R. A. Fisherovi v roce 1922, si připomeneme v kapitole věnované
kolinearitě. Proto se nebudeme touto alternativou podrobněji zabývat.
Rozptyl jako lineárnı́ funkce vysvětlujı́cı́ch proměnných
Budeme opět uvažovat lineárnı́ regresnı́ model (70) tentokrát však s kovariančnı́ strukturou
náhodných fluktuacı́ danou takto:
IE Ei = 0,
IE Ei Ej = 0,
IE Ei2 = σi2 = ziT α
i 6= j = 1, 2, ...n.,
kde {zi }ni=1 je posloupnost nenáhodných s-rozměrných vektorů a α ∈ Rs je vektor regresnı́ch
koeficientů popisujı́cı́ kovariančnı́ strukturu náhodných fluktuacı́.
Podobně jako výše můžeme psát
ri2 = ziT α + Vi ,
(75)
kde opět ri = Yi −xTi β̂ (LS,n) a Vi , i = 1, 2, ..., n je vhodná posloupnost náhodných veličin. Odtud
³
α̂(LS,n) = Z T Z
´−1
Z T r2 ,
kde Z = (z1 , z2 , ...zn )T a r2 = (r12 , r22 , ..., rn2 )T . Problémem je, že tento odhad je vychýlený, dı́ky
tomu, že náhodné veličiny Vi nemajı́ v tomto přı́padě ani asymptoticky nulovou střednı́ hodnotu,
jsou heteroskedastické a korelované. O vychýlenı́ odhadu α̂(LS,n) si lze udělat snadno představu.
Pro vektor reziduı́ máme
³
´
r = Y − X β̂ (LS,n) = I − X(X T X)−1 X T Y
³
= I − X(X T X)−1 X T
neboli ri =
ovšem
Pn
j=1 mij Ej ,
´³
´
³
´
Xβ 0 + E = I − X(X T X)−1 X T E,
(76)
kde jsme mij označili i, j-tý prvek matice I − X(X T X)−1 X T . Potom
IE ri2 =
n
X
m2ij IE Ej2 =
j=1
n
X
m2ij zjT α
(77)
j=1
a tedy
IE r2 = M̃ Zα,
(78)
kde jsme symbolem M̃ označili matici, která má na i, j-tém mı́stě m2ij . Z posledně uvedeného
vztahu plyne
³
IE α̂(LS,n) = Z T Z
Odtud vyplývá, že vychýlenı́ odhadu
³
α̂(LS,n)
´−1
Z T M̃ Zα.
·³
je rovno
ZT Z
´−1
´−1
¸
Z T M̃ Z
− I α. Protože obvykle
ZT Z
Z T M̃ Z 6= I, nenı́ odhad α̂(LS,n) obvykle nevychýleným odhadem. Jako nevychýlené
odhady bývajı́ navrhovány
³
α̂(1) = Z T M̃ M̃ Z
78
´−1
Z T M̃ r2 ,
viz Hildreth a Houck (1968), nebo
³
α̂(2) = Z T M̃ Z
´−1
Z T r2 ,
viz Froehlich (1973). Ze tvaru odhadu α̂(1) je zřejmé, že se jedná o odhad metodou nejmenšı́ch
pro model
r2 = M̃ Zα + W,
(79)
pro jehož návrh byl inspiracı́ vztah (78) a ve kterém máme IE W = 0. Druhý odhad je
MINQUE (minimum quadratic unbiased estimator) odhadem, viz opět Froehlich (1973). Jak
jsme již podotkli výše, náhodné fluktuace v modelu (75) jsou heteroskedastické. To může být
inspiracı́ k modifikovat odhadů α̂(1) a α̂(2) , podobně jako byl odhad β̂ (LS,n) modifikován na
β̂ (GLS,n) . Ukažme si jak to lze provést pro α̂(1) .
Předpokládejme, že vektor náhodných fluktuacı́ má nulovou střednı́ hodnotu a kovariančnı́
matici Φ, o které budeme předpokládat, že je diagonálnı́, přičemž na diagonále stojı́ σ12 , σ22 , ..., σn2
tj. je porušena pouze homoskedasticita reziduı́, nikoliv jejech nekorelovanost. Užijeme-li nynı́
P
vztah ri = n`=1 mi` E` (viz (76) ) a vztah (77) (kde namı́sto zjT α budeme psát σj2 ) nalezneme
½³
IE
= IE
= IE
Ã
n
 X

mi` E`
mik Ek −
k=1
`=1
( n
X
n
X
mi` E`
`=1
n
X
n
X
mik Ek
mjs Es
+
`=1
−
`=1
=3
n
X
`=1
n
X
n
X
n
X
n
X
!Ã n
X
n
X
m2i` σ`2
´T ¾
n
X
n
X
n
X
m2i` σ`2 +
n
X
mi` E`
n
X
m2i` σ`2
+2
n
X
n
X
n
X
m2is σs2
mik Ek
)
n
X

m2ir σr2
r=1
r=1
mi` mj` σ`2
m2i` σ`2 +
`=1
m2ir σr2
!T 

m2ir σr2
`=1
n
X
n
X
r=1
k=1
`=1
s=1
mi` mj` σ`2
mjr Er −
`=1
m2ik σk2
n
X
n
X
r=1
k=1
`=1
rj2
mjs Es
mjr Er −
`=1
m2ir σr2 −
n
X
− IE
r=1
mjr Er
r=1
m2i` m2j` σ`4 + 2
rj2
s=1
mjs Es
`=1
m2i` σ`2
´³
m2i` σ`2
r=1
m2i` m2j` σ`4
n
X
n
X
s=1
s=1
=3
− IE
ri2
`=1
k=1
−
n
X
ri2
n
X
mik mjk σk2
k=1
n
X
n
X
m2i` σ`2
r=1
`=1
h
mik mjk σk2 = 3 M̃ Φ2 M̃
k=1
m2ir σr2
i
ij
+ 2 [M ΦM ]2ij .
Označme tuto matici Ψ. Nahradı́me-li nynı́ matici Φ např. odhadem Z α̂(LS,n) (či jiným výše
uvedeným odhadem pro α) a označı́me-li odhad takto zı́skaný odhad matice Ψ jako Ψ̂, dostaneme
³
α̂(1)EG = Z T M̃ Ψ̂−1 M̃ Z
´−1
Z T M̃ Ψ̂−1 r2 ,
kde jsme hornı́m indexem EG naznačili, že se jedná o zobecněný odhad metodou nejmenšı́ch
čtverců s odhadnutou kovariančnı́ maticı́.
Rozsáhlejšı́ diskuzi tohoto modelu heteroskedasticity lze najı́t např. v práci Harvey (1974),
Amemiya (1977) nebo Raj, Srivastava a Upadhyaya (1980) a v referencı́ch tam uvedených.
79
Rozptyl jako jiná funkce vysvětlujı́cı́ch proměnných
Z dalšı́ch modelů heteroskedasticity jsou často ještě studovány modely, ve kterých jsou rozptyl
či směrodatná odchylka vysvětlované veličiny úměrné některé mocnině jejı́ střednı́ hodnoty, tj.
modely, které mohou být psány např. následovně
h
IE Ei = 0,
IE Ei Ej = 0,
IE Ei2
i1
2
³
= σi = xTi α
´r
i 6= j = 1, 2, ...n,
kde r je obvykle některé (celé) kladné čı́slo, viz např. Amemiya (1973) či Battese a Bonyhady
(1981). Je ihned patrné, že pro r = 2 dostáváme speciálnı́ přı́pad modelu, který byl diskutován
v této kapitole jako prvnı́.
Podobně modelům s exponenciálnı́ závislosti rozptylu na vhodně vybraných vysvětlujı́cı́ch
veličinách se dostalo značné popularity. Formálnı́ vyjádřenı́ může vypadat např.
³
IE Ei = 0,
IE Ei Ej = 0,
IE Ei2 = σi2 = exp ziT α
´r
i 6= j = 1, 2, ...n.
Podrobnou diskuzi těchto modelů lze nalézt např. v pracech Just a Pope (1978), Griffiths
a Anderson (1982) či Kmenta (1986). Podotkněme ještě, že se těmto modelům často řı́ká
multiplikativnı́ modely heteroskedasticity, což bývá nepřı́liš přesvědčivě zdůvodňováno tı́m, že
historicky byl neprve studován logaritmus rozptylu vysvětlované veličiny jako násobek jejı́ střednı́
hodnoty.
6.1.3
Testy homoskedasticity
Jak název tohoto odstavce napovı́dá, budou dále vysvětleny testy, ve kterých bude hypotézou
vždy model, ve kterém jsou náhodné fluktuace homoskedastické. nı́že popsané testy obvykle
nejsou běžně nabı́zeny v komerčně dostupných statistických knihovnách a tak je na uživateli,
aby si je doprogramoval sám, což některé statistické knihovny to dovolujı́ přı́mo v rámci této
knihovny. Autor tohoto textu vı́ pouze o jedné knihovně, která nabı́zı́ test tohoto druhu, totiž
Whiteův test. Jedná se o knihovnu E-views (přı́padně TSP). Navı́c Whiteův test ve skutečnosti
testuje nezávislost regresorů a náhodných fluktuacı́, tj. testuje o něco silnějšı́ předpoklad než je
homoskedasticita. Podrobněji tyto problémy prodiskutujeme až se budeme zabývat Whiteovým
testem. Popis všech testů lze nalézt bud’ v nı́že uváděných originálnı́ch článcı́ch, kde lze nalézt
i důkazy následujı́cı́ch tvrzenı́ nebo v Judge a kol. (1980), kde je také “jen” popisný text.
Dřı́ve než se pustı́me do popisu jednotlivých testů, poznamenejme ještě, že testovánı́ homoskedasticity (či chcete-li, heteroskedasticity, což znovu připomı́náme je situace opačná k
homoskedasticitě, tj. situace, kdy je v modelu (66) alespoň pro jedno i IE Ei 6= σ 2 = IE E1 ) má
docela bohatou historii. Tomto ohledu je zajı́mavý článek Cook, Weisberg (1983).
Breusch-Paganův test (Breusch, Pagan (1979)) Breusch-Paganův test předpokládá, že
rozptyl jednotlivých náhodných fluktuacı́ se řı́dı́ modelem (dnes poněkud mdně použı́vaná terminologie by řekla modelem volatility, byt’ tento termı́n předpokládá (implicitně) spı́še závislost
na čase)
σi2 = h(ziT α),
kde h je některá, dostatečně hladká funkce, zi ∈ Rk , z technických důvodů majı́cı́ prvnı́ souřadnici
rovnou 1 a α = (α1 , α̃T )T ∈ Rk . Jak je okamžitě vidět, model pro rozptyly náhodných fluktuacı́
80
je založen opět na lineárnı́ regresi, která je “modifikována” některou (hladkou) funkcı́ h. Vektory
zi , (i = 1, 2, . . . , n) jsou vlastně hodnoty regresorů pro i-té pozorovánı́, tj. souřadnice těchto vektorů jsou právě ty charakteristické vlastnosti (atributy) pozorovánı́, o kterých máme podezřenı́,
že mohou ovlivňovat velikost rozptylu náhodných fluktuacı́. Vektor α je pak vybrán tak, aby
zvážil vliv těchto charakteristických atributů. Podobně je vybrána funkce h, přı́klady probı́rané
v různých článcı́ch jsou např. h(v) = v, h(v) = v 2 či h(v) = exp(v). Je přirozené, že jak volba
vektorů zi ’s, tak volba regresnı́ch koeficientů α, a samozřejmě také volba funkce h, (podstatně)
ovlivnı́ výsledek testu, co se týče jeho sı́ly. Nicméně, jak je vidět z podstaty problému, nelze,
přinejmenšı́m ne jednoduše, dát nějaké obecné doporučenı́ či návod, jak tyto zvolit. Ostatně
jako mnoho jiných věcı́ ovlivňujı́cı́ch solidnı́ zpracovánı́ dat, konec konců počı́naje samotným
výběrem modelu a jeho odhadu, je i tato volba značně závislá na zkušenosti a invenci toho, kdo
data zpracovává.
Teoretické závěry, kterých Breusch a Pagan (1979) dosáhli, řı́kajı́, že za nulové hypotézy,
kterou je homoskedasticita, což v našem formalizmu znamená α̃ = 0, existuje lokálně nejsilnějšı́
test založený na statistice
q T Z(Z T Z)−1 Z T q
η=
,
2s4
kde q T = (q1 , q2 , . . . , qn ), qi = ri2 (β̂ (LS,n) ) − s2 , Z = (z1 , z2 , . . . , zn )T a s2 =
H0 má statistika η asymptoticky rozdělenı́ χ2 (k − 1). Navı́c statistika
q T Z(Z T Z)−1 Z T q
η∗ =
n−1
Pn
i=1
³
ri2 (β̂ (LS,n) ) − s2
2
SR
n−p .
Při platnosti
´2
je s η asymptoticky ekvivalentnı́, tj. je asymptoticky také rozdělena jako χ2 (k − 1), ale je méně
zranitelná odchylkami ve špičatosti σµ44 rozdělenı́. Jejı́ výpočet je však poněkud složitějšı́ než
výpočet statistiky η. Ve skutečnosti je to tak, že statistiky η a η ∗ majı́ za Podmı́nek A (viz začátek
skript) asymptotické rozdělenı́ rovné χ2 (k − 1), nicméně jejich chovánı́ je nejlépe prostudováno
při předpokladu normality fluktuacı́, a proto se vı́, že pro situaci šikmého rozdělenı́ je chovánı́
statistiky η ∗ lepšı́ ve smyslu těsnějšı́ (asymptotické) aproximace pomocı́ χ2 (k − 1).
Bartlettův test (Bartlett (1937), Kendall, Stuart (1973)) Necht’ jsou data rozdělena do m
skupin dat, přičemž i-tá obsahuje ni pozorovánı́ yij , tj. i = 1, 2, . . . , m, j = 1, 2, . . . , ni . Potom
statistika
P
2
(n − m)ln(σ̂ 2 ) − m
i=1 (ni − 1)ln(σ̂i i)
i hP
h
m+
,
m
1
1
−
1 + 31 (m − 1) ·
i=1 ni −1
n−m
P
P
P
P
ni
−1
m
2
2
i
kde (ni −1)σ̂i2 = nj=1
(yij − ȳi )2 , n = m
i=1 (ni −1)σ̂i a ȳi = ni
i=1 ni , (n− m)σ̂ =
j=1 yij ,
2
2
2
2
má asymptoticky χ (m−1) distribuci za předpokladu, že σ1 = σ2 = . . . = σm . Ačkoliv to nebylo
explicite řečeno, Bartlettův test jako (jakousi “minimálnı́”) alternativu předpokládá, že alespoň
v jedné skupině je rozptyl jiný než v ostatnı́ch, což implicitně znamená, že přı́slušná data pro
regresnı́ analýzu byla nějak smysluplně rozdělena do skupin, např. máme data, kde pro stejný
vektor regresorů byla opakovaně měřena či pozorována vysvětlovaná veličina Y .
Goldfeld-Quandtův test (Goldfeld, Quand (1965), (1972)) Předpokládejme, že data byla
“přeindexována” tak, že
2
σi2 ≥ σi−1
pro i = 2, 3, . . . , n.
81
(80)
Goldfeld-Quandtův test je založen na následujı́cı́ch krocı́ch:
• Vynecháme r pozorovánı́, jejichž rozptyly stojı́ na centrálnı́ch mı́stech v posloupnosti (80),
r je předem zvolené čı́slo obvykle celé čı́slo blı́zké k n3 .
• Aplikujeme regresnı́ model na prvnı́ch a poslednı́ch
• Vyčı́slı́me R̃2 =
S22
,
S12
n−r
2
pozorovánı́.
kde S12 a S22 jsou reziduálnı́ součty čtverců v prvé a druhé skupině.
• Porovnáme statistiku R̃2 s kvantily rozdělenı́ F s
je dimenze modelu.
n−r−2p
2
a
n−r−2p
2
stupni volnosti, kde p
Je zřejmé, že rozdělenı́ pozorovánı́ do skupin má za cı́l “oddělit” od sebe dvě skupiny pozorovánı́ tak, aby se (značně) podpořila možnost toho, že rozptyl fluktuacı́ u pozorovánı́ v těchto
skupinách se bude lišit pokud neplatı́ hypotéza o homoskedasticitě. Samozřejmě, že rovněž podstatným předpokladem pro dobré fungovánı́ testu je nezávislost náhodných fluktuacı́ u jednotlivých pozorovánı́, která by měla být tedy nejdřı́ve otestována např. Durbin-Watsonovým
testem.
Okamžitě nás jistě napadne, že lze provést rozdělenı́ do jiných (přirozeně nestejně početných)
skupin. Pak bude rozdělenı́ statistiky R̃2 opět Fisher-Snedecorovo, ale s jinými stupni volnosti.
Szroeterova třı́da testů (Szroeter (1978)) Pokusme se, podobně jako u Goldfeld-Quandtova
testu, přečı́slovat pozorovánı́ tak, že
2
σi2 ≥ σi−1
a položme
P
h̃ = Pi∈A
pro i = 2, 3, . . . , n,
hi ri2 (β̂ (LS,n) )
2 (LS,n) )
i∈A ri (β̂
,
(81)
(82)
kde A je některá neprázdná podmnožina indexů a hi , i = 1, 2, . . . , n jsou čı́sla splňujı́cı́ hi ≤ hj
pro i < j, jakési testové váhy jednotlivých reziduı́. Hypotéza homoskedasticity zamı́tne pokud
h̃ > c.
Kritická hodnota c přirozeně závisı́ na tom, jak zvolı́me vektor vah h a jak definujeme množinu
A.
n+r
Např. zvolı́me-li hi = −1 pro i = 1, 2, . . . , n−r
2 a hi = 1 pro i = 2 + 1, . . . , n a množina
A bude obsahovat všechny indexy, bude test (82) při platnosti hypotézy, že všechna data jsou
generována modelem (4) a že rozptyl fluktuacı́ nenı́ ovlivňován těmi faktory, na které jsme
měli podezřenı́ a dle kterých jsme vlastně rozdělili či přeindexovali data, viz (81) nebo (80),
asymptoticky v pravděpodobnosti ekvivalentnı́ Goldfeld-Quandtovu testu.
Szroeterův návrh byl tento:
·
µ
π(i − p)
hi = 2 1 − cos
n−p+1
¶¸
i = p + 1, . . . , n
a A = {p + 1, p + 2, . . . , n}. Kritické hodnoty pro tuto možnost lze odvodit od tzv. von Neumannova r (von Nemann (1941)), spočı́taného pro n − p + 1 pozorovánı́.
82
Dalšı́ možnost, jak zvolit vektor vah je následujı́cı́
·
µ
hi = 2 1 − cos
πi
n+1
¶¸
i = 1, 2, . . . , n.
(83)
Výhodou této volby je to, že kritické hodnoty pro A = {1, 2, . . . , n} jsou totožné s kritickými
hodnotami pro Durbin-Watsonovu statistiku (Durbin, Watson (1952)), o které bude řeč později.
Pro tuto chvı́li pouze poznamenejme, že zadáme-li h dle (83), potom pokud je h̃ většı́ než
4 − dL (kde dL je tzv. dolnı́ kritická hodnota D-W statistiky a může být nalezena např. v
knize Kmenta (1986)), zamı́tneme hypotézu o homoskedasticitě, je-li h̃ < 4 − dU , kde dU je
hornı́ kritická hodnota D-W statistiky, nezamı́tneme hypotézu o homoskedasticitě. Pokud je
4 − dU < h̃ < 4 − dL , považujeme test za nerozhodujı́cı́. V již dřı́ve citované monografii Judge a
spol. (1980) lze nalézt i jiné návrhy pro volbu hi .
Whiteův test (White (1980), Judge a spol. (1980)) Originálnı́ nápad jak testovat homoskedasticitu pocházı́ od H. White a spočı́vá v tom, že porovnáme dva odhady matice n−1 σ 2 X T X,
totiž
n
1 T
1X
X X s2 a
Xi XiT ri2 ,
(84)
n
n i=1
kde (připomı́náme) Xi je i-tý řádek matice X, uvažovaný stejně jako výše jako sloupcový vektor,
1 Pn
T LS 2
T
s2 = n−p
i=1 (Yi − Xi β̂ ) a ri = Yi − Xi β. Snadno se nahlédne, že v přı́padě nezávislosti
fluktuacı́ ei a vektoru Xi , matice v (84) (přibližně) rovny v tom smyslu, že konvergujı́ ke stejné
limitě, nebot’ potom přibližně
n
1X
Xi XiT ri2 = IE
n i=1
=
emp {X1
· X1T r12 } = IE
emp {X1
· X1T } IE
2
emp {r1 }
n
n
1X
1
1X
Xi · XiT ·
ri2 ≈ X T X · s2 ,
n i=1
n i=1
n
(85)
kde subindex emp naznačuje, že se jedná o střednı́ hodnotu vzhledem k empirické distribučnı́
funkci. V řadě monografiı́ se trvdı́, že pokud neplatı́ hypotéza homoskedasticity, potom až
na velmi speciálnı́ přı́pady heteroskedasticity, budou tyto dva odhady divergovat pro n →
∞. Na druhé straně, to jaké přı́pady heteroskedasticity ještě projdou, lze snadno vystopovat
z (85). Např. předpokládejme, že každá z náhodných veličin představujı́cı́ch fluktuace v regresnı́m modelu bude rozdělena dle některého rozdělenı́ vybraného z předem daného konečného
počtu typů rozdělenı́; omezme se však - bez újmy na obecnosti - na přı́pad dvou typů. Nynı́,
z důvodu zjednodušenı́ dalšı́ho zápisu, přeuspořádáme naše pozorovánı́ tak, aby na začátku
byla ta pozorovánı́, která majı́ náhodné fluktuace rozděleny dle prvnı́ho typu rozdělenı́ (jejich
počet označme mn ) a dále jsou ta ostatnı́ (jejich počet pak je n − mn ). Připomeňme, že jsme
předpokládali (viz (14))
1 T
lim
X X = Q,
n→∞ n
a předpokládejme tedy, že také odpovı́dajı́cı́ části matic konvergujı́ k matici Q, tj.
lim
mn →∞
mn
1 X
Xi XiT = Q
mn i=1
lim
a
n−mn →∞
83
1
n − mn
n
X
i=mn +1
Xi XiT = Q.
Pak máme (podobně jako výše)

mn
n
1X
1
1 X
1
Xi XiT ri2 =
mn
Xi XiT ri2 + (n − mn )
n i=1
n
mn i=1
n − mn
=
=
≈
1n
mn IE
n
mn
Q IE
n
1n
mn IE
n
emp {X1
2
emp {r1 } +

emp {X1
· X1T } IE
n
X
Xi XiT ri2
i=mn +1
emp {Xmn +1
T
· Xm
r2
}
n +1 mn +1
2
emp {r1 }
emp {Xmn +1
T
· Xm
} IE
n +1
n − mn
Q IE
n
½
2
emp {rmn +1 } = Q
mn
1 
1 X
1
≈ Q mn
ri2 + n − mn

n
mn i=1
n − mn

o
· X1T r12 } + (n − mn )IE
+ (n − mn )IE


mn
IE
n
n
X
i=mn +1
ri2
2
emp {r1 } +



=Q
2
emp {rmn +1 }
n − mn
IE
n
o
¾
2
emp {rmn +1 }
n
1X
1
ri2 ≈ X T X · s2 .
n i=1
n
Je zřejmé, že označı́me-li σ12 a σ22 postupně rozptyly prvého a druhého typu výše zmı́něných
rozdělenı́ fluktuacı́ a budou-li poměry počtů fluktuacı́ řı́dı́cı́ch se prvnı́m a druhým typem
rozdělenı́ stabilnı́, tj. bude-li např.
n→∞
mn
= λ,
n
λ ∈ [0, 1]
bude navı́c s2 (silně) konvergovat k λ · σ12 + (1 − λ) · σ22 . Z toho je patrné, že Whiteův test spı́še
odhalı́ závislost mezi regresory a fluktuacemi než porušenı́ homoskedasticity.
Navı́c nedostatkem tohoto testu je fakt, že zjišt’ovánı́ konvergence či divergence odhadů pro
jeden soubor dat je patrně myslitelné jen pro dosti rozsáhlé soubory. Test je např. nabı́zen
v E View a TSP, a pokud je autorovi tohoto textu známo nenı́ založen na zkoumánı́ konvergence
či divergence, ale prostě na porovnánı́ výrazů uvedených v (84). Proto je třeba brát závěry
z tohoto testu s jistou opatrnostı́.
6.1.4
Závěr
Z toho, co už bylo řečeno plyne, že při zpracovánı́ dat, může nastat situace, kdy pojmeme
podezřenı́, že fluktuace v regresnı́m modelu jsou korelovány, pro různá pozorovánı́, tj. cov(Ei , Ej ) 6=
0 pro i 6= j. V tom přı́padě použijeme Durbin-Watsonův test, o kterém jsme se výše už zmı́nili, a
o kterém pojednáme podrobně později. Poznamenejme však, že na rozdı́l od Durbin-Watsonova
testu, který je robustnı́ proti heteroskedasticitě, jsou testy na heteroskedasticitu v přı́padě korelovanosti fluktuacı́ obvykle velmi slabé, pokud je nepovažujeme za zcela nevyhovujı́cı́, a mohou
dát (a obvykle dávajı́) zavádějı́cı́ výsledky.
Podobně, dojde-li k podurčenı́ modelu, výše uvedené testy obvykle indikujı́ heteroskedasticitu, byt’ po doplněnı́ dalšı́ch vysvětlujı́cı́ch proměnných by test bez problémů “prošel”.
Obecně sice platı́, že porušenı́ homoskedasticity může, pokud je značné, podstatně snı́žit
eficienci odhadu β̂ (LS,n) . Vzhledem k tomu však, že i při heteroskedastických náhodných fluktuakcı́ch je odhad β̂ (LS,n) stále ještě konsistentnı́ a pokud budou přı́slušné individuálnı́ rozptyly
stějnoměrně ohraničeny a fluktuace budou nezávislé, dokonce asymptoticky normálnı́, lze v přı́padě,
že indexový graf neindikuje podezřenı́ na heteroskedasticitu, použı́t β̂ (LS,n) .
84
6.2
Normalita náhodných fluktuacı́
Test na “alespoň přibližné ověřenı́” předpokladu normality fluktuacı́ je patrně důležitějšı́ než
výše uvedené testy na homoskedasticitu. Z následujı́cı́ho přı́kladu okamžitě pochopı́me proč.
Označme Φ0 standardnı́ normálnı́ rozdělenı́ a položme
PΦ0 (²) = {Q ∈ M(X) : Q = (1 − τ )Φ0 + τ H, H ∈ M(X), τ ∈ (0, ²) } .
Potom Studentovo rozdělenı́ s 9 stupni volnosti je prvkem “okolı́” PΦ0 (²) pro ² ≥ 0.028 a
se 3 stupni volnosti pro ² ≥ 0.078. To jinými slovy znamená, že v prvém přı́padě stačı́, aby
se dva třicetiprvkové náhodné výběry lišily v jednom pozorovánı́ a jeden výběr může být ze
standardnı́ho normálnı́ho rozdělenı́, zatı́mco ten druhý ze Studentova. Pro druhý přı́pad stačı́,
aby se 50-ti prvkové výběry lišily ve čtyřech pozorovánı́ch. To se na prvnı́ pohled může zdát jako
vysoká kontaminace, nicméně např. v Hampel a kol. (1986) lze nalézt řadu přı́kladů (reálných
dat), ukazujı́cı́ch, že 10% kontaminace nenı́ jev nikterak ojedinělý, spı́še naopak.
Na druhé straně, už v roce 1922 Sir Ronald Aylmer Fisher ukázal, že asymptotická eficience
průměru x je při Studentově tk rovna 1−6/[k(k +1)]. Pro odhad rozptylu sn dostaneme hodnotu
asymptotické eficience rovnou 1 − 12/[k(k + 1)]. To znamená, že pro t9 a t3 je asymptotická efficience průměru x postupně rovna 93 % a 50 %, a eficience rozptylu je pro tyto dva přı́pady 83 %
a 0 %. To napovı́dá, že vlastnosti těch statistik, které byly odvozeny jako optimálnı́ pro normálnı́
rozdělenı́, se mohou značně zhoršovat v přı́padě, kdy data byla generována rozdělenı́m, které,
jak napovı́dá prvnı́ část přı́kladu, prakticky nejsme schopni rozlišit od normálnı́ho. Podotkněme,
že přı́padná skepse, která by snad mohla být inspirována tı́mto přı́kladem nenı́ na mı́stě, nebot’
napřı́klad eficience 6%-nı́ho usekaného průměrů neklesne pod 96% pro hodnoty ² ∈ (0, 0.3).
Takovým odhadům se řı́ká robustnı́ a dnes je jich pro regresnı́ analýzu známo vı́ce než je třeba
k solidnı́ analýze dat. Také si o nich později v závěru těchto a zejména v dalšı́m dı́le skript něco
povı́me. Jak jsme už řekli výše důvodem, proč zde probı́ráme metodu nejmenšı́ch čtverců a k
nı́ náležejı́cı́ diagnostické prostředky tak podrobně, je ten fakt, že tuto metodu použı́vá stále
mnoho uživatelů a chceme-li se naučit zodpovědně naučit posuzovat jejich výsledky a závěry,
musı́me tuto metodu dobře ovládat.
Dřı́ve než se pustı́me do vlastnı́ho výkladu uved’me alespoň některé citace pracı́ týkajı́cı́ch
se testovánı́ normality reziduı́. Mezi ty, které bývajı́ často v různých učebnı́ch textech uváděny
patřı́ např. Pearson a kol. (1977), Locke a Spurrier (1977), Saniga a Miles (1979), Bera
a Jarque (1981) či Kiefer a Salmon (1983) (mnoho dalšı́ch referencı́ lze nalézt v Judge a
kol. (1980)). Je asi užitečné poznamenat, že lze ukázat, že za určitých podmı́nek (White,
MacDonald (1980)) běžné testy na normalitu majı́ asymptoticky stejné vlastnosti, uplatnı́me-li
je na rezidua z regresnı́ analýzy provedenou metodou nejmenšı́ch čtverců, jako kdybychom je
aplikovali na soubor nezávislých pozorovánı́. Ještě se k tomu vrátı́me v závěru tohoto výkladu.
Dřı́ve byl v učebnicı́ch a monografiı́ch zdůrazňován fakt, že rezı́dua jsou mezi sebou závislá,
byt’ tato závislost slábne se stoupajı́cı́m počtem pozorovánı́, a bylo doporučováno použitı́ BLUS
reziduı́ r̃ (Theil (1965)), tj. reziduı́, která jsou:
• lineárnı́mi funkcemi vysvětlované proměnné Y (uvědomme si, že
³
´
r(β̂ (LS,n) ) = I − X(X T X)−1 X T Y
85
jsou lineárně závislá na Y ),
• jsou nevychýlená,
• jsou homoskedastická a nekorelovaná,
a
• minimalizujı́
h
i
IE (r̃ − r̂)T (r̃ − r̂) ,
kde r̂ je zadáno v (87).
Samozřejmě, že bez nějakého algoritmu, který by vedl k vyčı́slenı́ BLUS reziduı́, by jejich použitı́
bylo vı́ce méně jen teoretickou možnostı́. Tady je tedy “návod”, jak z běžných reziduı́ r(β̂ (LS,n) )
vypočı́tat BLUS rezidua (viz Judge a kol. (1980), str. 173, vztah (5.5.12))
#
" H
X
dh
qh qhT r̂0 ,
1
+
d
h
h=1
r̃ = r̂ − X (1) [X (0) ]−1
(86)
kde
r(β̂ (LS,n) ) = Y − X · β̂ (LS,n) = (r̂0T , r̂T )T , r̂0 ∈ Rp , r̂ ∈ Rn−p
(87)
a X = (X (0)T , X (1)T )T a X (0) je typu (p × p), a předpokládáme, že je regulárnı́ (to může
vyžadovat přečı́slovánı́ řádků matice X), a konečně d21 , d22 , . . . , d2p a q1 , q2 , . . . , qp jsou vlastnı́
čı́sla a vlastnı́ vektory matice X (0) (X T X)−1 X (0)T . Taková matice má p vlastnı́ch kladných čı́sel,
z nichž H čı́sel je (ostře) menšı́ch než jedna. Tato čı́sla a vektory se objevujı́ v (86). Konečně
pak seřadı́me jednotlivé souřadnice tohoto vektoru r̃ dle velikosti, tj.
r̃(1) ≤ r̃(2) ≤ . . . ≤ r̃(n−p)
a nalezneme Shapiro-Wilkovu statistiku
³P
W =
h
i=1 ai,n−p
h
r̃(n−p−i+1) − r̃(i)
Pn−p ³
i=1
´2
r̃i − ˜r̃
i´2
,
n−p−1
1 Pn−p
kde h = n−p
(pro sudé či liché n − p), ˜r̃ = n−p
i=1 r̃i a ai,n−p jsou koeficienty
2 nebo h =
2
tabelované v Shapiro, Wilk (1965). Tam lze nalézt také kritické hodnoty pro statistiku W .
Jak už jsme se výše zmı́nili, existujı́ výsledky napovı́dajı́cı́, že lze použı́t i běžná, tj. nikterak
neupravovaná rezidua a že výsledek může být lepšı́ než s BLUS reziduı́ (např. Huang, Bolch
(1974)). Ačkoliv jednoznačné doporučenı́ lze jen těžko dát, faktem zůstává, že se mnohé testy
určené k testovánı́ normality jednorozměrných dat, která jsou považována za realizaci posloupnosti nezávislých náhodných veličin, často použı́vajı́ i v regresi (bez dalšı́ch úprav). Připomeňme
proto, že se často použı́vá test na šikmost a špičatost, který je založený na studentizované
výběrové šikmosti a špičatosti. Tyto jsou zadány vztahy
δ=
m3
s3
(šikmost) a
86
γ=
m4
s4
(špičatost),
kde ms je s-tý výběrový centrálnı́ moment
ms =
n
1X
(zi − z̄)s
n i=1
a kde z̄ označuje průměr naměřených (napozorovaných) hodnot. Pro střednı́ hodnoty a rozptyly
těchto statistik lze odvodit formulky
IE δ = 0
a
var(δ)
a
6(n − 2)
(n + 1)(n + 3)
a
IE γ = 3 −
var(γ) =
6
n+1
24n(n − 2)(n − 3)
.
(n + 1)2 (n + 3)(n + 5)
Nenı́ přı́liš obtı́žné dokázat, že δ a γ jsou asymptoticky nekorelované. Odpovı́dajı́cı́ testy jsou
tedy založeny na veličinách
T3 =
δ
1
2
var (δ)
a T4 =
γ − IE γ
1
var 2 (γ)
.
Konečně pak kritické hodnoty se najdou v práci Mulholland (1977) (pro rozsahy výběru menšı́
nebo rovné 25) a v článku Pearson a Hartley (1956, 1972). Nápady na zlepšenı́ těchto testů lze
nalézt v knize Anděl (1993) či v práci D’Agostino a kol. (1990).
6.3
Nezávislost náhodných fluktuacı́
Jednı́m z předpokladů, se kterým jsme začali náš výklad regresnı́ analýzy, byla nezávislost
náhodných fluktuacı́ u jednotlivých pozorovánı́. Nicméně lze jednoduše ukázat, že i v přı́padě,
kdy “naivně” použijeme odhad nejmenšı́ch čtverců ač právě zmı́něný předpoklad je porušen,
dostaneme nestranný a konsistentnı́ odhad regresnı́ch koeficientů. Obvykle se však uvádı́, že
může dojı́t ke značné ztrátě eficience odhadu. To je pravda a dokonce byly provedeny (numerické) studie ukazujı́cı́, jak mnoho z eficience ztratı́me. Autoři si však neuvědomujı́, že ztráta eficience, jdoucı́ na vrub kontaminace dat je (typicky) vždy většı́, než ztráta způsobená vzájemnou
závislostı́ fluktuacı́ (viz např. Hampel a kol. (1986) ). Proto je nutné brát návrhy na korigovánı́
závislosti fluktuacı́ (viz Cochrane, Orcutt (1949) nebo Prais, Winsten (1954)) s jistou rezervou.
Povı́me si o tom později, patrně v dalšı́m dı́le skript.
Snadno nahlédneme, že i v přı́padě, že v modelu (4) jsou náhodné fluktuace statisticky
striktně nezávislé, jsou rezidua vždy slabě korelována - a tedy také závislá. Závislost reziduı́
plyne např. ze vztahu
IE (Y − X β̂ (LS,n) )(Y − X β̂ (LS,n) ) = IE (Y − X(X T X)−1 X T Y )(Y − X(X T X)−1 X T Y )T
h
ih
= IE Y − X(X T X)−1 X T (Xβ 0 + E)
h
i
h
iT
Y − X(X T X)−1 X T (Xβ 0 + E)
i
h
i
= IE Ip − X(X T X)−1 X T EE T Ip − X(X T X)−1 X T = σ 2 Ip − X(X T X)−1 X T ,
ukazujı́cı́ však mna druhé straně, že za dosti obecných podmı́nek jsou rezidua alespoň asymptoticky nezávislá. Test, jež bude dále vyložen, však nespoléhá na tuto “pouze” asymptotickou
nezávislost a je zkonstruován tak, aby rozhodoval o závislosti či nezávislosti teoretických náhodných
87
fluktuacı́. Navrhli jej v roce 1952 J. Durbin a G. S. Watson a je částečně založen na výsledcı́ch
článku T. W. Andersona (1948) a částečně na excelentnı́m triku, který dále popı́šeme. Anderson zjistil, že pokud předpokládáme, že vektor náhodných fluktuacı́ je rozdělen bud’ (hypotéza)
dle n-rozměrného normálnı́ho rozdělenı́ s kovariančnı́ maticı́ Ψ−1 nebo (alternativa) dle téhož
rozdělenı́, ale s kovariančnı́ maticı́ Θ−1 a pokud vektor regresnı́ch koeficientů je vlastnı́m vektorem matice Ψ a Θ , pak statistika
z(r(β̂ (LS,n) )) =
rT (β̂ (LS,n) ) Θ r(β̂ (LS,n) )
rT (β̂ (LS,n) ) Ψ r(β̂ (LS,n)
posloužı́ jako základ ke konstrukci nejsilnějšı́ho testu pro testovánı́ této hypotézy proti jisté
třı́dě alternativ, přirozeně zahrnujı́cı́ výše uvedenou alternativu. Tento výsledek se zdál poněkud
nepraktický, nebot’ jak dále uvidı́me, statistika z závisı́ na matici plánu X a tedy i kritické
hodnoty přı́slušného testu budou také závislé na X. Avšak Durbinovi a Watsonovi se v roce
1952 podařilo tuto nesnáz překonat. Nejprve poznamenejme, že studovali tuto statistiku pro
speciálnı́ přı́pad, kdy hypotézou je nezávislost, tj. matice Ψ = I. Durbin a Watson rovněž
pozměnili označenı́ kovariančnı́ matice při alternativě z Θ na A a protože (veškerá) literatura
věnovaná této problematice se přidržuje jejich značenı́, učinı́me tak i my. Budeme tedy nadále
psát
rT A r
z(r) = T ,
(88)
r r
r označuje běžná rezidua z analýzy pomocı́ nejmenšı́ch čtverců r(β̂ (LS,n) ). Vezmeme-li v úvahu,
že
β̂ (LS,n) = (X T X)−1 X T Y,
dostaneme
h
i
r(β̂ (LS,n) ) = Y − X(X T X)−1 X T Y = In − X(X T X)−1 X T Y
h
i
h
i
= In − X(X T X)−1 X T [X β 0 + E] = In − X(X T X)−1 X T E.
Pro zjednodušenı́ zápisu označme M = In − X(X T X)−1 X T . Pak máme
rT (β̂ (LS,n) ) A r(β̂ (LS,n) ) = E T M T A M E = E T M A M E,
přičemž poslednı́ rovnost plyne ze symetrie matice M . Jak jsme ukázali výše pro libovolnou
reálnou symetrickou matici existuje ortogonálnı́ matice, která ji diagonalizuje po vynásobenı́
zleva a zprava (viz Tvrzenı́ 7). Pro projekčnı́ matici M označme tuto matici L, tj. L bude matice,
pro kterou bude platit LT · L = In a označı́me-li D diagonálnı́ matici majı́cı́ na diagonále vlastnı́
čı́sla matice M , máme navı́c
LT M L = D.
Připomeňme, že dı́ky tomu, že L je ortogonálnı́ a tedy regulárnı́, je levá inversnı́ matice rovna
pravé a tedy také L LT = In . Navı́c, dı́ky tomu, že matice L je složena z vlastnı́ch vektorů
matice M (viz opět Tvrzenı́ 7) a matice M je projekčnı́ maticı́ do prostoru M(M ) (tj. do
lineárnı́ho prostoru generované sloupci matice M ) je tato matice idempotentnı́ (tj. M · M = M )
a to implikuje, že D obsahuje jen nuly a jedničky. Protože navı́c rank(D) = rank(M ) = n − p,
88
můžeme přeuspořádat sloupce matice L tak, že (0 zastupuje nulové matice s přı́slušným počtem
řádků a sloupců)


..
 In−p . 0 
T
L M L =  .......... .
..
0
. 0
Nynı́ můžeme psát
LT M A M L = LT M L · LT A L · LT M L

 
 

..
..
..
I
.
0
B
.
B
I
.
0
3   n−p

  1
 n−p
=  ..........  ·  ..........  ·  .......... ,
..
..
..
. 0
0
. 0
B2 . B4
0


..
 B1 . B3 
kde  . . . . . . . . . .  je přı́slušné dělenı́ reálné symetrické matice LT A L. Necht’ N1 je ortogonálnı́
.
B2 .. B4
matice, která diagonalizuje B1 , tj. (prázdná mı́sta representujı́ nuly)



ν1
ν2
N1T B1 N1 = 
"
Potom N =
N1 0
0 Ip
..

,
.
(89)
νn−p
#
je ortogonálnı́, tak že H = L · N je také ortogonálnı́. Odtud
H T M H = N T LT M L N
"
=N
T
In−p 0
0
0
#
"
N=
In−p 0
0
0
#
a
HT M A M H = HT M H · HT A H HT M H


..
ν
.
1


..

ν2
. 0 


..
..


.
.
=
.
..




νn−p .
 ....................... 
..
0
. 0
Položı́me-li konečně ξ = H T E, máme dı́ky ortogonalitě matice H
z(β̂ (LS,n) ) =
rT (β̂ (LS,n) ) A r(β̂ (LS,n) )
rT (β̂ (LS,n,`) ) r(β̂ (LS,n) )
=
(90)
E = H ξ a tedy
ET M T A M E
ET M T A M E
=
ET M T M E
ET M E
P
n−p
2
ξT H T M T A M H ξ
i=1 νi ξi
=
=
P
n−p 2 .
ξT H T M H ξ
i=1 ξi
(91)
Vztah (91) je možné využı́t k nalezenı́ kritických hodnot pro statistiku z(r), použijeme-li následujı́cı́
lemma, dokázané Durbinem a Watsonem a formalizujı́cı́ vlastně geniálnı́ trik, umožňujı́cı́ konstrukci celého testu.
89
LEMMA 10 (Durbin and Watson (1952)) Jsou-li r a E n × 1 vektory takové, že r = M · E,
T
kde M = In −X(X T X)−1 X T a z = rrTArr (viz (88)), kde A je reálná symetrická matice, potom:
(a) Existuje ortogonálnı́ transformace E = H ξ taková, že
Pn−p
νi ξi2
z = Pi=1
n−p 2
i=1 ξi
kde ν1 , ν2 , . . . , νn−p jsou ta vlastnı́ čı́sla matice M A, která jsou nenulová.
(b) Je-li n − p − s sloupců matice X lineárnı́mi kombinacemi n − p − s vlastnı́ch vektorů
matice A, potom n − p − s čı́sel ν’s je rovno vlastnı́m čı́slům odpovı́dajı́cı́m těmto vlastnı́m
vektorům; po přečı́slovánı́ ostatnı́ch vlastnı́ch čı́sel tak, že
ν1 ≤ ν2 ≤ · · · ≤ νs
a
λ1 ≤ λ2 ≤ · · · ≤ λs+p ,
kde λ’s jsou vlastnı́ čı́sla matice A, dostaneme
λt ≤ νt ≤ λt+p ,
t = 1, 2, . . . , s.
Část (a) byla vlastně již dokázána výše, zbytek lze nalézt v Durbin a Watson (1952) (důkaz
části (b) je poměrně dlouhý ač přı́močarý a je založen na faktu, že M je projekčnı́ matice a tedy je
rozložitelná na součin M1 ·M2 ·. . .·Mp p maticı́ typu In −u·uT , kde u ∈ Rn (viz Durbin and Watson
(1952)). Poznamenejme ještě, že jak plyne z (89) a (90) ν’s jsou vlastnı́ čı́sla matice B1 právě
tak jako (nenulová) vlastnı́ čı́sla matice M T A M , nebot’ N1 a H diagonalizujı́ B1 a M T A M .
Protože vlastnı́ čı́sla součinu matic nezávisı́ na pořadı́ násobenı́ matic (pokud to jde znásobit, viz
např. Macdufee (1946)), ν’s jsou také vlastnı́mi čı́sly matice M M T A = M 2 A = M A, přičemž
poslednı́ rovnost platı́ dı́ky tomu, že matice M je projekčnı́ a tudı́ž idempotentnı́.
Připomeňme ještě, že v článku von Neumann (1941) je možné nalézt vztah pro čı́sla λi ’s,
totiž
½
µ
¶¾
π(i − 1)
λi = 2 1 − cos
,
i = 1, 2, . . . , n.
n
Obvykle se traduje, že kritické hodnoty pro Durbin-Watsonův test byly nalezeny pomocı́
statistik
Pn−p
2
(LS,n)
i=1 λi ξi
zL (β̂
)= P
n−p 2
i=1 ξi
a
Pn−p
λi+p ξi2
zU (β̂ (LS,n) ) = i=1
Pn−p 2 .
i=1 ξi
Z výše uvedeného lemmatu nepochybně plyne
zL (β̂ (LS,n) ) ≤ z(β̂ (LS,n) ) ≤ zU (β̂ (LS,n) ).
a tedy by to bylo principiálně možné. Durbin s Watsonem však použili přı́mo aproximace distribučnı́ funkce statistiky
rT A r
.
(92)
rT r
90
K aproximaci použili normálnı́ distribuci, pro velká n − p (viz také Anderson (1948)), nebo
beta-distribuci pro střednı́ hodnoty n − p. Nejprve nalezli pomocı́ předchozı́ho lemmatu hornı́
a dolnı́ hranice pro momenty a ty pak použili pro konstrukci “dolnı́” a “hornı́” distribučnı́
funkce a následné aproximace kritických hodnot. Jejich úvahy byly založeny na dvou faktech. Za
prvé, ortogonálnı́ transformace vektoru, jehož složky jsou normálně rozdělené a jsou nezávislé
dává vektor, který má složky opět normálně rozdělené se stejnými parametry a které jsou i
nadále nezávislé. Za druhé, při předpokladu normality a nezávislosti složek vektoru E, statistika
z(β̂ (LS,n) ) a jejı́ jmenovatel rT (β̂ (LS,n) ) · r(β̂ (LS,n) ) jsou statisticky nezávislé (Pitman (1937), von
Neumann (1941)) a tedy (pro libovolné s ∈ N ) máme
n
IE
os
rT (β̂ (LS,n) ) A r(β̂ (LS,n) )
n
os
z(β̂ (LS,n) )
= IE
n
IE
os
rT (β̂ (LS,n) ) r(β̂ (LS,n) )
.
Konečně pak máme
n
IE
os
z(β̂ (LS,n) )
n
=
IE
IE
rT (β̂ (LS,n) ) A r(β̂ (LS,n) )
n
os
os
rT (β̂ (LS,n) ) r(β̂ (LS,n) )
a Durbin-Watsonovo lemma pak dovoluje nalézt hornı́ a dolnı́ hranici pro momenty statistiky z.
Budeme-li specifikovat alternativu k nezávislosti Ei ’s jako autoregresnı́ proces, tj.
Ei = θEi−1 + Vi , i = 2, 3, . . . , n, |θ| < 1
budeme-li předpokládat, že {Vi }∞
i=1 je posloupnost nezávislých a stejně rozdělených náhodných
veličin - podrobně budou autoregresnı́ procesy probrány v dalšı́m dı́le skript, přı́mý výpočet
dává (prázdná mı́sta opět reprezentujı́ nuly)

1
−θ

−θ
1
+ θ2
−θ



−θ
1 + θ2 −θ
Aθ = 
..
..
..

.
.
.


−θ 1 + θ2 −θ

−θ
1





.




Okamžitě je vidět, že θ = 1 a θ = −1 představujı́ dva limitnı́ přı́pady, které sice již nejsou
akceptovatelné z hlediska teorie pravděpodobnosti v tom smyslu, že nenı́ zaručena stacionarita
posloupnosti náhodných fluktuacı́, ale z hlediska budovánı́ našeho testu je můžeme přijmout.
Pro prvnı́ dostaneme


1 −1
 −1

2 −1




−1 2 −1




A1 = 
..
..
..

.
.
.




a
z(β̂ (LS,n) ) =
−1
Pn−1
i=1

2 −1 
−1 1
[ri (β̂ (LS,n) ) − ri+1 (β̂ (LS,n) )]2
Pn
2 (LS,n) )
i=1 ri (β̂
91
(93)
=2−
2
Pn−1
i=1
ri (β̂ (LS,n) ) ri+1 (β̂ (LS,n) ) + r12 (β̂ (LS,n) ) + rn2 (β̂ (LS,n) )
Pn
2 (LS,n) )
i=1 ri (β̂
≈ 2(1 − ρ̂).
Uvažujeme-li druhou krajnı́ možnost, totiž θ = −1, dostaneme
z(β̂ (LS,n) ) ≈ 2(1 + ρ̂).
To umožňuje zverifikovat, že statistiky, které vyjdou at’ už z jednoho či druhého extrému, jsou
schopny se vypořádat současně jak s pozitivnı́ tak negativnı́ závislostı́ mezi po sobě následujı́cı́mi
náhodnými fluktuacemi, tj. jak s přı́padem θ > 0 tak s θ < 0, nebot’ obě obsahujı́ koeficient
korelace. Historické důvody vedly k tomu, že se označenı́ Durbin-Watsonova statistika vžilo pro
(93) (viz např. Kmenta (1986), Judge a kol. (1980) nebo Zvára (1989)), avšak důsledek toho je,
že je nutné užı́vat nejen kritické hodnoty implikované “dolnı́” a “hornı́” statistikou zL (β̂ (LS,n) )
a zU (β̂ (LS,n) ) (ve smyslu, který byl výše podrobně popsán) a které můžeme např. označit zL
a zU , ale i kritické hodnoty, které jsou zrcadlovým obrazem těchto prvých. To znamená, že
zamı́tneme hypotézu o nezávislosti reziduı́ pokud z(β̂ (LS,n) ) < zL nebo z(β̂ (LS,n) ) > 4 − zL ,
a naopak nezamı́tneme tuto hypotézu pokud z(β̂ (LS,n) ) ∈ (zU , 4 − zU ). V ostatnı́ch přı́padech je
výsledek “nerozhodnutý” (bohužel).
Pokud chceme rozhodnout i v takovém přı́padě, nezbývá než vypočı́tat přesné kritické hodnoty, které jsou přirozeně závislé na matici plánu X. Postup je následujı́cı́. Nejprve se vypočı́tá
střednı́ hodnota IE z(r(β̂ (LS,n) )) a rozptyl var(z(r(β̂ (LS,n) ))) dle následujı́cı́ch vztahů:
IE z(r(β̂ (LS,n) )) =
2(n − 1) − tr(X T AX(X T X)−1 )
n−p
a
var(z(r(β̂ (LS,n) )))
=
n
h
i
o
2
Q∗ − 2(n − 1) − tr(X T AX(X T X)−1 ) IE z(r(β̂ (LS,n) )) .
(n − p)(n − p + 2)
Výraz pro Q∗ je poněkud složitějšı́, totiž
h
i2
2(3n − 4) − 2tr(X T A2 X(X T X)−1 ) + tr( X T AX(X T X)−1 ),
nicméně s pomocı́ dnešnı́ výpočetnı́ techniky nenı́ nepřekonatelnou překážkou. Potom se vyřešı́
rovnice
IE z(r(β̂ (LS,n) )) = a + bIE z ∗
a
var(z(r(β̂ (LS,n) ))) = b2 var(z ∗ ).
Hodnoty IE z ∗ a var(z ∗ ) se najdou v tabulkách např. v článku Judge a kol. (1982).
nalezenı́ přesné kritické hodnoty
∗
zC
= a + bzU .
92
Zbývá
Povšimněme si ještě, že zatı́mco matice Aθ je pro θ ∈ (−1, 1) regulárnı́, matice A1 už regulárnı́
nenı́ (snadno se to nahlédne z rozkladu matice A(θ), který vypadá takto.
Aθ = PθT · Pθ ,
kde
 √




Pθ = 





1 − θ2
−θ
1
−θ
1
..
.




,




..
.
−θ
1
−θ
1
a kde Pθ je evidentně singulárnı́ pro |θ| = 1).
6.4
6.4.1
Nezávislost vysvětlujı́cı́ch proměnných a náhodných fluktuacı́
vod a přı́klady situacı́ porušenı́ nezávislosti
V modelu, ve kterém předpokládáme, že je některá vysvětlujı́cı́ proměnná statisticky závislá
s náhodnými fluktuacemi, nelze zaručit, že bude odhad β̂ (LS,n) obecně nestranný a konsistentnı́.
Tento fakt nebývá v některých učebnicı́ch regresnı́ analýzy zdůrazněn a může vést k nevhodné
aplikaci metody nejmenšı́ch čtverců. Snaha o vypořádánı́ se s touto situacı́ vedla vlastně k rozvinutı́ celé jedné partie teorie regresnı́ analýzy, totiž k teorii instrumentálnı́ch proměnných (instrumental variables).
Budeme uvažovat model
Yi = XiT β 0 + Ei ,
i = 1, 2, . . . , n,
(94)
kde použitı́ velkého pı́smena pro nosiče Xi naznačuje, jak plyne z úmluvy na začátku skript,
že budeme uvažovat náhodné nosiče (vysvětlujı́cı́ proměnné). Již na samém začátku tohoto
textu (viz text pod vztahem (1)) jsme předeslali, že pokud máme náhodné nosiče, obvykle
předpokládáme, že tyto nosiče a náhodné fluktuace v jednom řádku modelu (94) jsou nekorelované, tj. IE {Xi Ei } = 0. Předpokládejme,
tak nenı́, tj. IE {Xi Ei } = IE {X1 E1 } 6= 0,
½ že tomu ¾
a že posloupnost vektorů {Zi }∞
i=1 =
³
XiT , Ei
´T ∞
je posloupnostı́ nezávislých a stejně
i=1
rozdělených náhodných
n
o vektorů. Bez podstatné újmy na obecnosti předpokládejme, že matT
ice Q = IE Xi Xi je regulárnı́. Výše jsme si řekli, že pokud by byla singulárnı́, obvykle
vypustı́me některý sloupec matice X a v tom pokračujeme tak dlouho, až dosáhneme regularity
matice Q. Aplikace silného zákona velkých čı́sel dává
n
1 T
1X
X X = lim
Xi XiT = Q s.j.,
n→∞ n
n→∞ n
i=1
lim
což je ekvivalentnı́ s
µ
lim
n→∞
Podobně
1 T
X X
n
¶−1
= Q−1
s.j..
n
1 T
1X
X E = lim
Xi Ei = IE {X1 E1 }
n→∞ n
n→∞ n
i=1
lim
93
s.j. .
To ovšem implikuje
µ
lim
n→∞
1 T
X X
n
¶−1
1 T
X E = Q−1 IE {X1 E1 }
n
s.j. .
Konečně pak dostaneme vztah
³
β̂ (LS,n) = β 0 + X T X
µ
0
=β +
1 T
X X
n
¶−1
1 T
X E = β0 +
n
´−1
µ
XT E
1 T
X X
n
¶−1
n
1X
Xi Ei ,
n i=1
(95)
který napovı́dá, že
lim β̂ (LS,n) = β 0 + Q−1 IE {X1 E1 }
n→∞
s.j.,
(96)
tj. napovı́dá, že β̂ (LS,n) nenı́ konsistentnı́m odhadem. Diskuze nestrannosti nenı́ tak jednoduchá,
ale spočtenı́m střednı́ hodnoty ve vztahu (95) dostaneme
(µ
IE β̂
(LS,n)
0
= β + IE
1 T
X X
n
¶−1
n
1X
Xi Ei ,
n i=1
)
.
Doplnı́me-li tedy výše použı́vané předpoklady např. o to, že kXi k = O(1)½(což z hlediska aplikacı́
¾
nenı́ silný předpoklad), zjistı́me, že β̂ (LS,n) nenı́ ani nestranný, nebot’ IE
³
XT X
´−1
XT E
6= 0.
S daty, pro která je lépe předpokládat, že adekvátnı́m modelem pro ně je model, ve kterém
jsou náhodné fluktuace statisticky závislé na některé vysvětlujı́cı́ proměnné, se můžeme setkat
poměrně často. Jedna možnost je, že ze samé podstaty situace toto plyne, že např. rozptyl či jiná
charakteristika (např.šikmost) náhodných fluktuacı́ je ovlivněna velikostı́ vysvětlujı́cı́ proměnné.
Snad nejčastěji uváděným přı́kladem modelu, ve kterém jsou vysvětlujı́cı́ veličiny a náhodné
fluktuace závislé, je model s nekonečným počtem zpožděnı́ vysvětlujı́cı́ veličiny. Tento model
bude však podrobněji probrán patrně až v dalšı́m dı́le skript. Uvažujme tedy jednoduchý model
s geometrickou strukturou regresnı́ch koeficientů
Yi = β
∞
X
λj−1 xi−j+1 + Ei .
(97)
j=1
Je okamžitě vidět, že pro tento tvar modelu neumı́me přı́mo nalézt odhady parametrů. Použijme
tedy tento postup. Pro i − 1 pišme
λYi−1 = β
∞
X
λj xi−j + Ei .
(98)
j=1
Odečteme-li (98) od (97), dostaneme
Yi = λYi−1 + βxi + Ei − λEi−1 .
Dostali jsme tedy model
Yi = λYi−1 + βxi + Ui ,
94
(99)
ve kterém vysvětlujı́cı́ proměnná Yi−1 je korelovaná s Ui , tj. s náhodnou veličinou representujı́cı́
fluktuaci v modelu.
Budeme-li uvažovat model, který počı́tá s náhodnými chybami měřenı́ u vysvětlujı́cı́ch proměnných,
zjistı́me, že se opět nevyhneme závislosti mezi nosiči a disturbancemi. Probereme tento model pro
jednoduchý přı́pad jedné vysvětlujı́cı́ proměnné. Zobecněnı́ na vı́ce proměnných bude probráno
v následujı́cı́ kapitole.
Budeme tedy uvažovat model
Yi = α + βχi + Ui
(100)
a
Xi = χi + Vi ,
(101)
pro i = 1, 2, . . . , n. Jinými slovy to znamená, že předpokládáme, že vysvětlovaná veličina Yi je
lineárně závislá na vysvětlujı́cı́ veličině χi a absolutnı́m členu α, ale naše měřenı́ veličiny χi je
zatı́ženo náhodnou chybou Vi , takže registrujeme namı́sto nı́ veličinu Xi . Povšimněme si, že to,
zda Ui representuje také chybu měřenı́ veličiny Yi , či také náhodnou fluktuaci (přı́padně pouze
náhodnou fluktuaci) a veličina Yi (přirozeně včetně této fluktuace) je měřena přesně, je v tomto
kontextu irelevantnı́. Vysvětleme ještě, že tı́m, že řekneme, že je veličina Yi měřena přesně,
mı́nı́me to, že chyba jejı́ho měřenı́ je (podstatně) menšı́ než chyba měřenı́ veličiny χi , přı́padně
podstatně menšı́ než náhodné fluktuace vstupujı́cı́ do modelu.
Pro zajı́mavost uved’me, že patrně nejznámějšı́m modelem tohoto typu v ekonomii je Friedmanova hypotéza stálého důchodu (Friedman (1957)), kde Yi představuje (pozorovanou) spotřebu
v obdobı́ i a χi důchod v tomtéž obdobı́, a předpokládáme, že spotřeba je lineárně závislá na
stálém důchodu, zatı́mco my pozorujeme momentálnı́ důchod Xi . Podotkněme však, že se dnes
má za prokázané, že empirická data tuto hypotézu přı́liš nepodpořila.
Po dosazenı́ z (101) do (100), zı́skáme nový model
Yi = α + β(Xi − Vi ) + Ui = α + βXi + Ui − βVi = α + βXi + Zi ,
kde jsme Zi označily jakési “nové” disturbance v modelu. Snadno se však pro ně nalezne
IE {Xi · Zi } = IE {(χi + Vi )(Ui − βVi )} = −βIE Vi2 .
Jak už bylo výše konstatováno, vztah (96) ukazuje, že odhad metodou nejmenšı́ch čtverců koeficientů α a β nenı́ v tomto přı́padě nestranný ani konsistentnı́ a detailnějšı́ analýza ukáže, že
dojde k podceněnı́ β.
V závěru těchto skrip bude jeden paragraf věnován také systému simultánı́ch rovnic. Ukážeme
si tam, že tyto rovnice popisujı́ rovněž situaci, kdy náhodné fluktuace v modelu jsou korelovány
s vysvětlujı́cı́mi proměnnými a tedy přı́má aplikace metody nejmenšı́ch čtverců vede k odhadům,
které nejsou obecně ani konsistentnı́ ani nestranné.
Čtenář se nynı́ přirozeně zeptá, jak danou situaci rozpoznat, tj. jak zjistit, zda nosiče a
náhodné fluktuace jsou (ne)závislé a jak postupovat v přı́padě, že bude hypotéza o nezávislosti
zamı́tnuta. Odpověd’ na prvou otázku nabı́zı́ Hausmanův test, k řešenı́ problému závislosti fluktuacı́ na vysvětlujı́cı́ch proměnných pak byla vyvinuta metoda instrumentálnı́ch proměnných.
Bylo by nepochybně logické věnovat se nejprve Hausmanovu testu a poté vyložit, alespoň
95
v základech, teorii instrumentálnı́ch proměnných. Vzhledem k tomu, že však Hausmanův test
využı́vá odhadu regresnı́ch koeficientů, který byl pořı́zen metodou instrumentálnı́ch proměnných,
vyložı́me nejprve tuto metodu.
6.4.2
Instrumentálnı́ proměnné
Představme si, že odhad metodou nejmenšı́ch čtverců mohl být odvozen také následujı́cı́m,
poněkud intuitivnı́m způsobem. Vztah (7) znásobı́me zleva výrazem n1 X T a dostaneme
1 T
1
1
X Y = X T Xβ 0 + X T E.
n
n
n
Budeme-li předpokládat, že
1 T
X E=0
n→∞ n
lim
v pravděpodobnosti,
budou mı́t výrazy
1 T
1 T
X Y
a
X Xβ 0
n
n
stejnou limitu v pravděpodobnosti. To může vést k návrhu odhadu
µ
β̂ =
1 T
X X
n
¶−1
³
´−1
1 T
X Y = XT X
X T Y = β̂ (LS,n)
n
a k vyšetřovánı́ jeho vlastnostı́. Předpokládejme, že máme k dispozici matici Z takovou, že
lim
n→∞
1 T
Z E=0
n
a znásobenı́m vztahu (7) zleva výrazem
1 T
nZ
(102)
odvod’me
1 T
1
1
Z Y = Z T Xβ 0 + Z T E.
n
n
n
Nynı́ zjišt’ujeme, že výrazy
1 T
Z Y
n
1 T
Z Xβ 0
n
a
majı́ také stejnou limitu v pravděpodobnosti. “Analogicky” jako v přı́padě odhadu metodou
nejmenšı́ch čtverců, zaved’me odhad
µ
β̂
IP
=
1 T
Z X
n
¶−1
³
´−1
1 T
Z Y = ZT X
Z T Y.
n
(103)
Tomuto odhadu budeme řı́kat odhad metodou instrumentálnı́ch proměnných. Podobně jako výše
pro odhad metodou nejmenšı́ch čtverců pro něj nalezneme alternativnı́ vyjádřenı́
β̂
IP
³
T
= Z X
´−1
Z
T
³
T
´
0
µ
0
X β +E =β +
1 T
Z X
n
¶−1
1 T
Z E,
n
(104)
které ukazuje, že odhad β̂ IP je konsistentnı́ . Opět s nestrannostı́ je to poněkud komplikovanějšı́,
ale lze nalézt (slabé) předpoklady, za kterých platı́. Lze přirozeně tušit, že odhad β̂ IP bude tı́m
96
lepšı́ (ve smyslu eficience), čı́m vı́ce bude Z a X korelováno (myšleno po sloupcı́ch), tj. pokud
Z T X dobře nahradı́ X T X a Z T Y nahradı́ X T Y , samozřejmě při zachovánı́ podmı́nky (102).
V některých monografiı́ch je vyložena trochu obecnějšı́ inspirace vedoucı́ k zavedenı́ metody
instrumentálnı́ch proměnných. Vyjádřı́me-li náhodné fluktuace jako E = Y − Xβ 0 , vidı́me, že
(102) je ekvivalentnı́
1
lim Z T (Y − Xβ 0 ) = 0 v pravděpodobnosti.
(105)
n→∞ n
Mohli bychom tedy studovat odhad, který by “minimalizoval” Z T (Y −Xβ) (úvozovky naznačujı́
fakt, že na pravé straně vztahu (105) stojı́ nulový vektor a tedy to, že Z T (Y − Xβ) bude
minimálnı́ je třeba uvést na pravou mı́ru). Lze to udělat napřı́klad takto. Zvolı́me některou
pozitivně definitnı́ matici W a budeme minimalizovat kvadratickou formu
(Y − Xβ)T ZW Z T (Y − Xβ).
(106)
Z výše odvozeného tvrzenı́ o spektrálnı́m rozkladu pozitivně definitnı́ matice vyplývá existence
matice S takové, že ZW Z T = S T S a uvažujeme-li nynı́ transformované veličiny
Ỹ = SY
a
X̃ = SX
budeme mı́t Ỹ − X̃β = S(Y − Xβ), tj. (Ỹ − X̃β)T (Ỹ − X̃β) = (Y − Xβ)T ZW Z T (Y − Xβ)
a z výše uvedené teorie plyne, že minimum se nabývá pro
³
β̂ IP = (X̃ T X̃)−1 X̃ T Y = X T ZW Z T X
´−1
X T ZW Z T Y.
Právě “odvozený” odhad připomı́ná zobecněný odhad metodou nejmenšı́ch čtverců, který je
diskutován na jiném mı́stě těchto skript. Pokud bude matice Z T X regulárnı́ a tedy invertovatelná, dostaneme
³
β̂ IP = X T ZW Z T X
´−1
³
³
X T ZW Z T Y = Z T X
= ZT X
´−1
´−1
³
W −1 X T Z
³
W −1 W Z T Y = Z T X
´−1
´−1
X T ZW Z T Y
Z T Y,
tj. dojdeme k odhadu (103), a navı́c zjistı́me, že postup je nezávislý na volbě matice W .
Věnujme se ještě na chvı́li modelu s nekonečným počtem zpožděnı́ vysvětlujı́cı́ veličiny, který
vedl ke vztahu (99). Položı́me-li totiž




Y =
Y2
Y3
..
.



,

Yn
dojdeme k odhadu

Y1
Y2
..
.



X=
X2
X3
..
.






a
Yn−1 Xn
"
λ̂
β̂
#



Z=
X1
X2
..
.
X2
X3
..
.



,

Xn−1 Xn
³
= ZT X
´−1
Z T Y.
Je jasné, že podmı́nka (102) je splněna a navı́c odhad má naději být dosti eficientnı́, nebot’
instrumentálnı́ proměnná X je patrně dosti korelována s Y , viz Liviatan (1963).
Čtenáře, který se chce o metodě instrumentálnı́ch proměnných dovědět vı́ce odkazujeme
na monografii Bowden, Turkington (1984). Dovolme si ještě připomenout, že se v některých
97
učebnicı́ch spojuje vybudovánı́ teorie instrumentálnı́ch proměnných právě s modelem s nekonečným
počtem zpožděnı́ vysvětlujı́cı́ veličiny. Zdá se však, že se tato metoda objevila daleko dřı́ve než
byl studován tento model, totiž již v práci Working (1927), viz také Goldberger (1972). Nynı́
se již budeme moci věnovat výkladu testu, který napovı́, zda je vhodné použı́t metodu instrumentálnı́ch proměnných, či zda vystačı́me s metodou nejmenšı́ch čtverců aplikovanou na původnı́
data.
6.4.3
Hausmanův test nezávislosti regresorů a náhodných fluktuacı́
Test byl navržen J. Hausmanem v roce 1978 a lze jej nalézt např. v monografii Greene (1993)
a samozřejmě také v původnı́m článku Hausman (1978). Protože byl test původně určen pro
to, aby rozpoznal zda se jedná o měřenı́ vysvětlujı́cı́ch proměnných s chybami, často je uváděn
jako Specification test for measurement error, nicméně jak snadno nahlédnete z nı́že uvedeného
výkladu, ve skutečnosti se opravdu testuje, který model je adekvátnějšı́ pro daná data.
Heuristika, která vedla k zavedenı́ testu byla následujı́cı́:
Jestliže jsou vysvětlujı́cı́ proměnné nezávislé na náhodných fluktuacı́ch (to budeme označovat
ve zbývajı́cı́ části této kapitoly jako hypotézu H0 ), jsou oba odhady β̂ (LS,n) i β̂ IP konsistentı́mi
odhady β 0 . Prvnı́ z nich je samozřejmě eficientnı́, zatı́mco druhý tuto vlastnost obecně nemá.
Uvědomme si však, že obvykle uváděné tvrzenı́, že β̂ IP je neeficientnı́ nenı́ tak zcela správné,
nebot’ obecně i β̂ (LS,n) je instrumentálnı́m odhadem vzhledem k tomu, že jsme nezakázali volbu
Z = X, byt’ je to čistě akademická možnost.
Na druhé straně pokud náhodné fluktuace a vysvětlujı́cı́ proměnné jsou statisticky závislé,
je prvnı́ odhad (pokud platı́ např. (14) ) nutně vychýlený, zatı́mco ten druhý, pokud je Z
zvolena tak, aby platilo (102), je konsistentnı́. Potom ovšem za platnosti hypotézy H0 je vektor
q = β̂ (LS,n) − β̂ IP konsistentnı́m odhadem nulového vektoru. Pokud tato hypotéza neplatı́ bude
norma tohoto vektoru obecně nenulová. Založı́me-li tedy test na některé kvadratické formě
W = q T Aq bude jejı́ hodnota malá v přı́padě platnosti hypotézy H0 , ale velká v opačném
přı́padě.
J. Hausmanovi se podařilo ukázat, že pokud za A zvolı́me [V1 − V0 ]−1 , kde V0 a V1 jsou po
řadě n-násobky odhadů asymptotické kovariančnı́ matice odhadů β̂ (LS,n) a β̂ IP , je L(W ) ≈ χ2 (p).
Naznačı́me si jak lze vést důkaz tohoto výsledku.
Nejprve připomeňme, že pod asymptotickou covariančnı́ maticı́ odhadu β̂ (n) se rozumı́ covariančnı́ matice př
ı́slušnéhoásymptotického rozdělenı́ normovaného vektoru β̂ (n) − β 0 , tj. ob√ ³ (n)
√
vykle vektoru n β̂ − β 0 , nebot’ obvykle dáváme přednost n-konsistentnı́m odhadům. V
předcházejı́cı́m textu jsme v přı́padě odhadu β̂ (LS,n) užı́vali pro tuto asymptotickou kovariančnı́
matici označenı́ Q (viz (15) ).
Vzhledem k (104) máme
³
´−1
³
´−1
β̂ IP − β 0 = Z T X
Odtud
³
β̂ IP − β 0
´³
β̂ IP − β 0
´T
= ZT X
a konečně
n · varas (β̂
IP
)=σ
2
³
T
Z X
´−1
T
³
T
Z Z X Z
´−1
·
=σ
98
2
T
Z T E.
³
Z T EE T Z X T Z
³
T
X Z Z Z
´−1
T
´−1
Z X
¸−1
³
= σ 2 X̂ T X̂
´−1
,
kde subindex as naznačuje, že se jedná o asymptotickou covariančnı́ matici a kde X̂ je projekce
³
´−1
matice X pomocı́ projekčnı́ matice Z Z T Z
Z T . Odhadem asymptotické kovariančnı́ mat³
´
³
´−1
√
ice vektoru n β̂ IP − β 0 tedy může být s2 X̂ T X̂
. Protože dále je n · varas (β̂ (LS,n) ) =
σ 2 (X T X)−1 , máme
nq T
·³
X̂ T X̂
´−1
W =
√ ³ IP
n β̂ − β̂ (LS,n)
´T ·³
³
− XT X
s2
X̂ T X̂
´−1
³
− XT X
=
´−1 ¸−1
q
´−1 ¸−1 √ ³
n β̂ IP − β̂ (LS,n)
´
.
s2
V Lemmatu 2 jsme ukázali, že pokud jsou fluktuace mezi sebou vzájemně nezávislé, stejně
rozdělené
a majı́ nulovou
střednı́ hodnotu a konečný pozitivnı́ rozptyl, a platı́-li navı́c (15), pak
´
√ ³ (LS,n)
0
je n β̂
− β asymptoticky normálnı́ s nulovou střednı́ hodnotou a covariančnı́ maticı́
2
−1
σ Q . Důkaz vycházel ze vztahu (18). Nynı́ ze vztahu (18) a (104) dostaneme
"µ
β̂ IP − β̂ (LS,n) =
1 T
Z X
n
¶−1
1 T
Z −
n
µ
1 T
X X
n
¶−1
#
1 T
X E
n
a tedy
n·varas (β̂
IP
− β̂
(LS,n)
(·
=σ
2
T
³
)=σ
T
X Z Z Z
2
·³
´−1
T
Z X
´−1
¸−1
T
Z X
³
T
T
Z − X X
³
T
− X X
´−1
X
T
¸ ·³
)
´−1
X
T
= σ2
T
Z X
·³
´−1
X̂ T X̂
³
T
T
Z − X X
´−1
³
− XT X
´−1
´−1 ¸
X
T
¸T
.
Zopakovánı́m důkazu Lemmatu 2 (s malými modifikacemi) při předpokladu, že existuje limita
"µ
lim
n→∞
1 T
X̂ X̂
n
¶−1
µ
−
1 T
X X
n
¶−1 #
= QZX ,
´
√ ³
kde QZX je regulárnı́ matice, bychom nalezli, že vektor ζ = n β̂ IP − β̂ (LS,n) je asymptoticky normálně rozdělen s nulovým vektorem střednı́ch hodnot a s asymptotickou kovariančnı́
maticı́ σ 2 QZX . Vzhledem k tomu, že matice QZX je symetrická a pozitivně definitnı́, existuje
ortogonálnı́ (nikoliv nutně ortonormálnı́) matice P tak, že
P T QZX P = I
(107)
a tudı́ž náhodný vektor ξ = σ1 P T ζ je asymptoticky rozdělen dle p-rozměrného normálnı́ho
rozdělenı́ s nulovým vektorem střednı́ch hodnot a s jednotkovou kovariančnı́ maticı́. To ovšem
implikuje, že statistika ξ T ξ je asymptoticky rozdělena dle χ2 (p). Invertovánı́m vzhatu (107)
−1 = I a tedy konečně
dostaneme [P −1 ]T Q−1
ZX P
³
β̂ IP − β̂ (LS,n)
´T ·³
X̂ T X̂
´−1
W =
³
− XT X
s2
99
´−1 ¸−1 ³
β̂ IP − β̂ (LS,n)
´
=
´T ·³
´−1 ¸−1 √ ³
´
´−1 ³
√ ³ IP
1 T
1 T
(LS,n)
IP − β̂ (LS,n)
X
X
n β̂ − β̂
X̂
X̂
−
n
β̂
n
n
s2
1 T −1
−1
ζ QZX ζ = ξ T [P −1 ]T Q−1
ξ = ξ T ξ.
ZX P
σ2
V přı́padě, že se jedná o jednoduchou regresi, pak je Hausmanův test ekvivalentnı́ testu
významnosti koeficientu γ v modelu
≈
Yi = β0 + β1 xi + γ ûi + ²i , i = 1, 2.....
kde ûi , i = 1, 2, ... jsou rezidua zı́skaná po projekci vysvětlujı́cı́ veličiny x na instrumentálnı́
veličinu z, která je v tomto přı́padě přirozeně skalárnı́.
6.4.4
Závěr
Z výše uvedeného textu je zřejmé, že metoda instrumentálnı́ch proměnných nemá nepochybně
charakter “kuchařky”, tj. nepředstavuje návod, co a jak by se mělo udělat, zejména nedává
návod, jak zvolit instrumenty. To může způsobit, že jsou instrumenty zvoleny tak, že eficience
odhadu je velmi malá neboli rozptyl odhadu β̂ IP je značný a tedy konkrétnı́ hodnoty odhadů
regresnı́ch koeficientů metodou instrumentálnı́ch proměnných, tj. složky vektoru β̂ IP , mohou být
velmi vzdáleny skutečným hodnotám regresnı́ch koeficientů. Pochopitelně, že předpokládáme,
že jsme v situaci, kdy regresory a náhodné fluktuace jsou opravdu závislé a použitı́ metody
instrumentálnı́ch proměnných je namı́stě. Předpokládejme dále, že dı́ky závislosti regresorů a
náhodných fluktuacı́ je odhad metodou nejmenšı́ch čtverců značně vychýlen (mluvı́me stále
o konkrétnı́ čı́selné hodnotě odhadu pro některá data). Je-li tento odhad vychýlen “stejným
směrem” jako odhad metodou instrumentálnı́ch proměnných, lze si představit, že jejich rozdı́l
bude malý a Hausmanův test nebude indikovat vhodnost použitı́ instrumentálnı́ch proměnných.
Lze si snadno představit i opačnou situaci, totiž že regresory a náhodné fluktuace jsou
nezávislé, ale dı́ky špatné volbě instrumentů bude odhad β̂ IP značně vychýlený. Hausmanův
test však počı́tá s tı́m, že právě tento odhad je nevychýlený a pokud je rozdı́l tohoto odhadu
a odhadu metodou nejmenšı́ch čtverců velký, indikuje vychýlenost tohoto druhého odhadu, a
tedy také závislost regresorů a náhodných fluktuacı́.
Z toho, co bylo právě řečeno plyne, že je třeba volbě instrumentů věnovat mimořádnou pozornost a pokusit se najı́t takové, které jsou opravdu co nejvı́ce korelovány s regresory. Zprávou,
která nás však nepotěšı́ je to, že ani to nemusı́ postačit. Stačı́ si totiž uvědomit, že odhad pomoci
instrumentálnı́ch proměnných je odhadem pořı́zeným vlastně jinou metodou než jsou nejmenšı́
čtverce aplikované na původnı́ data. Pak již stačı́ vzı́t v úvahu výsledek prezentovaný např. ve
Vı́šek (1997 d, e), který řı́ká, že bez ohledu na počet pozorovánı́ mohou dva konzistentnı́ odhady
dávat dva velmi odlišné výsledky, nebot’ každý z těchto odhadů “dává přednost” reprezentaci
(či chcete-li, vysvětlenı́) dat pomoci jiného regresnı́ho modelu. K tomu, aby nenastal tento na
prvnı́ pohled podivný jev bychom potřebovali stejnoměrnou konvergenci všech konsistentnı́ch
odhadů ve všech regresnı́ch modelech, a to je evidentně přı́liš silný požadavek. Proto je třeba k
použitı́ instrumentálnı́ch proměnných přistupovat se stejnou opatrnostı́ jako k použitı́ robustnı́ch
metod, o kterých se velice krátce zmı́nı́me na konci skript. Nepochybně však o metodě instrumentálnı́ch proměnných platı́ totéž co o robustnı́ch metodách. To, že je nezbytné je použı́vat
100
s (alespoň určitou dávkou) opatrnosti, by nás nemělo zrazovat od jejich použitı́, nebot’ pokud
je nepoužijeme a situace bude taková, že by je bylo namı́stě použı́t, dá nám metoda nejmenšı́ch
čtverců zavádějı́cı́ výsledky.
7
ÚVAHY O SENSITIVITĚ MODELU
V této kapitole se budeme věnovat studiu situacı́, které se obvykle shrnujı́ pod pojem sensitivita
(či chcete-li citlivost) modelu a rozumı́ se tı́m to, jaké změny ve vlastnostech odhadu (metodou
nejmenšı́ch čtverců) se objevı́, pokud bude např. do modelu zařazen jiný než “správný” počet
vysvětlujı́cı́ch veličin, jaký vliv na odhad může mı́t jedno, či vı́ce (vlivných) pozorovánı́, jak
může to či ono kritérium ovlivnit výběr “optimálnı́ho” modelu atd. (viz např. Chatterjee, Hadi
(1988) ). Nejprve se budeme věnovat situaci, kdy je model podurčen, či přeurčen. Co tı́m bude
rozumněno bude ihned patrné z formálnı́ho zadánı́ situace.
7.1
Efekt podurčenı́
Situacı́, kdy budeme mluvit o podurčenı́ (underfitting), budeme rozumět to, že do matice plánu
nezahrneme všechny regresory, které by “tam měly být”. Formálně to znamená, že budeme
předpokládat, že náhodné veličiny {Yn }∞
n=1 jsou rozděleny dle modelu
(1)
Yi = [xi ]T β (1) + Ei ,
i = 1, 2, . . . ,
(108)
avšak ve skutečnosti budou tyto generovány modelem
(1)
(2)
Yi = [xi ]T β (1) + [xi ]T β (2) + Ei ,
i = 1, 2, . . . ,
(109)
(1)
kde, podobně jako výše, X (1) bude označovat matici jejı́ž i-tý řádek je roven [xi ]T (podobně pro
X (2) ). Oba přı́pady, tj. jak model ((108), tak (109)) budou uvažovány s pevnými (tj. nestochastickými) nosiči. Tuto situaci, tj. když si myslı́me, že data lze vysvětlit “menšı́m” modelem (108)
ač vhodným by byl (109), budeme označovat jako podurčenı́ modelu.
Nejprve si připravı́me pomocné technické tvrzenı́.
TVRZENÍ 11 Necht’ t ∈ Rn je náhodný vektor s navzájem nezávislými stejně rozdělenými
souřadnicemi. Předpokládejme, že existuje IE (t1 − IE t1 )2 = σ02 ∈ (0, ∞) a Q necht’ je čtvercová
matice typu n × n. Potom
IE tT Qt = σ02 tr(Q) + µT Qµ,
kde µ = IE t.
Důkaz. Výpočtem se ověřı́, že
IE tT Qt = IE
= IE
n X
n
X
n
(t − µ)T Q(t − µ) + tT Qµ + µT Qt − µT Qµ
qij (t − µ)i (t − µ)j + µT Qµ = σ02
i=1 j=1
n X
n
X
o
δij qij + µT Qµ,
i=1 j=1
kde δij je Kroneckerovo δ, tj. δij = 1 pro i = j a δij = 0 pro i 6= j.
101
2
VĚTA 3 Necht’ náhodné veličiny {Yi }∞
i=1 jsou generovány modelem (109). Potom odhad
³
β̂ LS(1) = [X (1) ]T X (1)
´−1
[X (1) ]T Y
je nestranným odhadem β (1) pouze tehdy, je-li β (2) = 0 nebo je-li [X (1) ]T X (2) = 0. Podobně
2
reziduálnı́ součet čtverců SR(1)
=
·
Pn
³
³
i=1
(1)
Yi − [xi ]T β̂ LS(1)
pouze tehdy, když I − X (1) [X (1) ]T X (1)
´−1
´2
je nestranným odhadem (n − p)σ 2
¸
[X (1) ]T X (2) β (2) = 0.
Důkaz. Snadno ověřı́me, že střednı́ hodnota odhadu β̂ LS(1) je
³
IE β̂ LS(1) = [X (1) ]T X (1)
³
= [X (1) ]T X (1)
´−1
³
´−1
[X (1) ]T IE Y
´
³
[X (1) ]T X (1) β (1) + X (2) β (2) = β (1) + [X (1) ]T X (1)
´−1
[X (1) ]T X (2) β (2) .
Pokud chceme dosáhnout nestrannosti, pak rozumně připadajı́ v úvahu jen dvě možnosti:
• bud’ β (2) = 0
• nebo [X (1) ]T X (2) = 0.
Jejich diskuzi provedeme v následujı́cı́ poznámce. Nynı́ označı́me symbolem P (1) projekčnı́
³
matici přı́slušnou k matici plánu X (1) , tj. P (1) = X (1) [X (1) ]T X (1)
předpřipravené technické tvrzenı́. Dostaneme
n
2
IE SR(1)
= IE
³
´
Y T I − P (1) Y
³
= σ 2 tr(I − P (1) ) + X (1) β (1) + X (2) β (2)
´T ³
I − P (1)
³
´−1
[X (1) ]T , a použijeme
o
´³
´
X (1) β (1) + X (2) β (2) ,
´
= σ 2 (n − p) + [β (2) ]T [X (2) ] I − P (1) X (2) β (2)
= σ 2 (n − p) +
n³
´
I − P (1) X (2) β (2)
oT ³
´
I − P (1) X (2) β (2) .
2
POZNÁMKA 5 Pokud bude β (2) = 0 nebo X (2) = 0, model (109) splývá s modelem (108)
a tedy těžko mluvit o podurčenı́. Zbývá tedy možnost [X (1) ]T X (2) = 0, což můžeme dokonce docela dobře zařı́dit, aby platilo. Vezmeme-li totiž namı́sto vysvětlujı́cı́ch proměnných obsažených
v matici X (2) přı́slušné vektory reziduı́, které dostaneme při projekci těchto veličin do prostoru M(X (1) ), dosáhneme toho, že [X (1) ]T X̃ (2) = 0 (kde X̃ (2) označuje matici poskládánou
z přı́slušných vektorů reziduı́), a navı́c model je pak, co do schopnosti vysvětlenı́ veličiny Y ,
ekvivalentnı́ modelu (109).
2
Dosáhnout nestrannosti odhadu
modelu je poněkud obtı́žnějšı́. Výše uvedené
´
³ σ v podurčeném
(2)
(2)
(1)
X β = 0 pro všechna β (2) (nebot’ β (2) neznáme).
vztahy napovı́dajı́, že musı́ platit I − P
³
´
³
´
To znamená, že I − P (1) X (2) musı́ být nulové. To je ekvivalentnı́ s X (2) ⊥ I − P (1) , ale to
znamená, že X (2) ⊂ M(X (1) ). Pak je ovšem rozšı́řenı́ modelu o X (2) pouze formálnı́. Zbývá tedy
β (2) = 0, ale pak je rozšı́řenı́ modelu o X (2) opět jen formálnı́. Navı́c je celý postup kontroverznı́
už na prvnı́ pohled. Pokud totiž chceme úpravou X (2) na X̃ (2) zajistit nestrannost β̂ LS(1) vlastně
připouštı́me, že platı́ model (109). Pak je ovšem nesmyslné odhadovat model (108).
102
7.2
Efekt přeurčenı́
V tomto odstavci uvažujme situaci, která je v jistém smyslu symetrická či chcete-li opačná
k té, kterou jsme studovali v předchozı́m odstavci. V takové situaci budeme přirozeně mluvit o
přeurčenı́ modelu (overfitting). Předpřipravme si opět nejprve pomocné tvrzenı́.
TVRZENÍ 12 Necht’ sloupce matice X (1) jsou lineárně nezávislé na sloupcı́ch matice X (2) ,
která je plné hodnosti, pak
W = [X (2) ]T (I − P (1) )X (2)
je regulárnı́.
Důkaz. Je-li W singulárnı́, pak lze nalézt (alespoň jeden) vektor v 6= 0 tak, že W v = 0, tj.
také v T W v = 0. Dosadı́me-li za W , dostaneme
³
0 = v T W v = v T [X (2) ]T (I − P (1) )X (2) v = (I − P (1) )X (2) v
³
´T ³
´
(I − P (1) )X (2) v .
´
Potom ovšem také (I − P (1) )X (2) v = 0. Předpokládali jsme však, že X (2) má plnou hodnost
a tedy jeho sloupce jsou lineárně nezávislé. To implikuje
fakt,
že bez ohledu na to, který vektor
³
´
(2)
(1)
v byl vybrán, je X v 6= 0. Pak ovšem máme I − P
⊥X (2) v, tj. X (2) v ⊂ M(X (1) ), a to
znamená, že alespoň jeden ze sloupců matice X (1) lze vyjádřit jako kombinaci sloupců z X (2) .
Došli jsme tedy ke sporu s předpoklady tvrzenı́.
2
Abychom mohli vyslovit přehledně dalšı́ větu budeme potřebovat některá dalšı́ označenı́.
Necht’
·
¸
β̂ LS(1,2) =
³
X (1) , X (2)
´T ³
X (1) , X (2)
´ −1 ³
X (1) , X (2)
´T
Y
a připomeňme, že jsme v předchozı́ větě označili
³
β̂ LS(1) = [X (1) ]T X (1)
´−1
[X (1) ]T Y.
Dále pak označme β̂ (1) a β̂ (2) ty části odhadu β̂ LS(1,2) , které odpovı́dajı́ β (1) a β (2) , tj. β̂ (1)
obsahuje prvnı́ch p souřadnic vektoru β̂ LS(1,2) zatı́mco β̂ (2) obsahuje zbytek. Konečně necht’
³
A = [X (1) ]T X (1)
tvrzenı́.
´−1
[X (1) ]T X (2) a připomeňme, že matice W byla zavedena v předchozı́m
’
VĚTA 4 Necht’ náhodné veličiny {Yi }∞
i=1 jsou generovány modelem (108). Necht dále matice
(1)
(2)
(1)
X a X v modelu (109) jsou typů (n×p) a (n×q) a necht’ matice (X , xd) je plné hodnosti.
Pak máme
β̂ (1) = β̂ LS(1) − Aβ̂ (2)
a
³
´
β̂ (2) = W −1 [X (2) ]T I − P (1) Y.
Dále
IE β̂ (1) = β (1) ,
IE β̂ (2) = 0,
kde
σ̂ 2 =
Y T (I − P ) Y
n−p−q
103
a
IE σ̂ 2 = σ 2 ,
a
³
P = X
(1)
,X
(2)
´ ·³
X
(1)
,X
(2)
´T ³
X
(1)
,X
(2)
´¸−1 ³
X (1) , X (2)
´T
.
Konečně pak


 [X (1) ]T X (1) + AW −1 AT


−AW −1 

var(β̂ LS(1,2) ) = σ 2 
.

−W −1 AT
W −1
Důkaz. Pišme normálnı́ rovnice ve tvaru
[X (1) ]T X (1) β̂ (1) + [X (1) ]T X (2) β̂ (2) = [X (1) ]T Y
(110)
[X (2) ]T X (1) β̂ (1) + [X (2) ]T X (2) β̂ (2) = [X (2) ]T Y.
(111)
a
S přihlédnutı́m k výše zavedenému označenı́, dostaneme z (110)
β̂ (1) = β̂ LS(1) − Aβ̂ (2)
a tedy
(112)
³
´
[X (2) ]T X (2) β̂ (2) = [X (2) ]T Y − [X (2) ]T X (1) β̂ LS(1) − Aβ̂ (2) .
Dosadı́me-li nynı́ za matici A, dojdeme k
³
[X (2) ]T X (2) β̂ (2) − [X (2) ]T X (1) [X (1) ]T X (1)
´−1
[X (1) ]T X (2) β̂ (2)
= [X (2) ]T Y − [X (2) ]T X (1) β̂ LS(1) .
Odtud
³
´
³
´
[X (2) ]T I − P (1) X (2) β̂ (2) = [X (2) ]T I − P (1) Y
a tedy
³
´
β̂ (2) = W −1 [X (2) ]T I − P (1) Y.
(113)
IE β̂ (2) = IE
³
n
³
´
W −1 [X (2) ]T I − P (1) Y
o
³
´
= W −1 [X (2) ]T I − P (1) X (1) β (1) = 0,
´
nebot’ I − P (1) X (1) = 0. Poslednı́ rovnost plyne z faktu, že projekce matice do podprostoru,
který sama generuje dá právě tuto matici. To však implikuje to, že IE β̂ (1) = β (1) (viz (112)).
Spočteme-li střednı́ hodnotu reziduálnı́ho součtu čtverců
2
IE SR
= IE Y T (I − P ) (I − P ) Y = IE Y T (I − P ) Y
n
= IE
³
³
tr Y T (I − P ) Y
ó
n
= IE
´
³
tr Y Y T (I − P )
ó
= tr IE Y Y T (I − P ) = σ 2 tr (I − P ) = σ 2 (n − p − q),
104
2 je nestranným odhadem rozptylu reziduı́. Ze vztahu (113)
zjistı́me, že σ̂ 2 = (n − p − q)−1 SR
vyplývá, že
³
´
³
´
³
var(β̂ (2) ) = W −1 [X (2) ]T I − P (1) var(Y ) I − P (1)
´T
X (2) W −1
= σ 2 W −1 [X (2) ]T I − P (1) [X (2) ]T W −1 = σ 2 W −1
a
cov(β̂ LS(1) , β̂ (2) ) = cov
½³
[X (1) ]T X (1)
³
= σ 2 [X (1) ]T X (1)
´−1
³
´−1
´
¾
[X (1) ]T Y, W −1 [X (2) ]T I − P (1) Y
³
´
[X (1) ]T I − P (1) X (2) W −1 = 0,
³
´
kde jsme opět použili faktu, že [X (1) ]T I − P (1) = 0. Nakonec spočteme rozptyl odhadu β̂ (1)
var(β̂ (1) ) = var(β̂ LS(1) − Aβ̂ (2) )
= var(β̂
LS(1)
) + Avar(β̂
(2)
T
)A = σ
2
½³
[X
(1) T
] X
(1)
´−1
¾
+ AW
−1
T
A
a jeho kovarianci s odhadem β̂ (2)
cov(β̂ (1) , β̂ (2) ) = cov(β̂ LS(1) − Aβ̂ (2) , β̂ (2) ) = −σ 2 AW −1 .
2
POZNÁMKA 6 Vzhledem k tomu, že rozdı́l kovariančnı́ch matic var(β̂ (1) ) a var(β̂ LS(1) ) je
roven σ 2 AW −1 AT , což je semidefinitnı́ matice, bude “rozptyl” odhadu regresnı́ch koeficientů
v přeurčeném modelu alespoň tak velký jako v modelu správném. Navı́c je tento odhad, právě tak
jako odhad σ̂ 2 , nestranný. Již výše jsme naznačili, že lze, co se týká matematické stránky věci,
bez problémů zařı́dit, aby
var(β̂ (1) ) = var(β̂ LS(1) )
a to tak, že dosáhneme nulovosti matice A. Ukázali jsme, že stačı́ nahradit matici X (2) maticı́
X̃ (2) , která bude složena z reziduı́, které zı́skáme po projekci sloupců matice X (2) do prostoru
generovaného maticı́ X (1) , tj.
³
´
X̃ (2) = I − P (1) X (2)
³
(připomı́náme, že P (1) = X (1) [X (1) ]T X (1)
´−1
[X (1) ]T ). Snadno se ověřı́, že nový model
Y = X (1) β (1) + X̃ (2) β (2) + E
³
´
³
´
bude přirozeně ekvivalentnı́ modelu (109), nebot’ M( X (1) , X (2) ) = M( X (1) , X̃ (2) ). To znamená, že v přı́padě, kdy si nejsme moc jisti, zda je užitečné zařadit do modelu dalšı́ vysvětlujı́cı́
proměnné, můžeme se zabezpečit proti zvětšenı́ rozptylu odhadů regresnı́ch koeficientů právě popsaným postupem. Může se však přirozeně stát, že nový model půjde (poněkud) hůře interpretovat
než ten původnı́. Interpretace modelu, tedy přesněji interpretace výsledků regresnı́ analýzy však
nenı́ nikdy zcela jednoduchá a vyžaduje určité zkušenosti, které se spı́še než čtenı́m skript zı́skajı́
zpracovávánı́m souborů dat. Nicméně se pokusı́me v těchto skriptech uvést na pravou mı́ru alespoň nejběžněji se objevujı́cı́ špatné interpretace výsledků.
105
7.3
Vliv jednoho pozorovánı́
Na závěr této kapitoly si povı́me něco o charakteristice, která byla použı́vána jako diagnostický
nástroj snad od samého počátku budovánı́ regresnı́ analýzy. Je snadno pochopitelné, že současně
s rozšiřovánı́m našich vědomostı́ o regresnı́m modelu, respektive o vlastnostech odhadu jeho
koeficientů, byla snaha nalézt jednoduché nástroje na rozpoznánı́ vlivných bodů, tj. bodů, které
nejvı́ce ovlivňujı́ výsledky regresnı́ analýzy.
TVRZENÍ 13 Označme odhad pořı́zený metodou nejmenšı́ch čtverců pro data, ze kterých bylo
vypuštěno `-té pozorovánı́, symbolem β̂ (LS,n,`) . Potom platı́
³
β̂ (LS,n) − β̂ (LS,n,`) = X { ` }T X { ` }
´−1
´
³
x` Y` − xT` β̂ (LS,n) ,
(114)
kde X { ` } je matice, která vznikne z matice X po vypuštěnı́ xT` , tj. `-tého řádku a kde jsme
předpokládali, že tato matice je také plné hodnosti.
Důkaz. Normálnı́ rovnice, ze kterých vyčı́slujeme odhady β̂ (LS,n) a β̂ (LS,n,`) majı́ tvar
p X
n
X
(LS,n)
xij xik β̂k
=
k=1 i=1
a
p
n
X
X
n
X
xij Yi
j = 1, 2, . . . , p
i=1
(LS,n,`)
xij xik β̂k
n
X
=
k=1 i=1,i6=`
xij Yi
j = 1, 2, . . . , p.
i=1,i6=`
Jejich porovnánı́m dostaneme
p
n
X
X
³
xij xik
(LS,n)
β̂k
−
(LS,n,`)
β̂k
´
= x`j Y` −
p
X
(LS,n)
x`k β̂k
j = 1, 2, . . . , p,
k=1
k=1 i=1,i6=`
nebo ekvivalentně pomocı́ maticového formalizmu
³
´
³
´
X { ` }T X { ` } β̂ (LS,n) − β̂ (LS,n,`) = x` Y` − xT` β̂ (LS,n) .
2
POZNÁMKA 7 Právě dokázané tvrzenı́ usnadňuje nalezenı́ “nejvlivnějšı́ho” pozorovánı́. Potvrzuje
totiž intuitivnı́ doměnku, že nejvlivnějšı́ bod bude mezi těmi, které majı́ velká rezidua a současně
jsou daleko od počátku (nenechme se mást tı́m, že ve vztahu vystupuje x` a nikoliv nějaká
standardizovaná hodnota; o standardizaci se postará X { ` }T X { ` } ). Samozřejmě tento postup,
hledajı́cı́ bod, jehož vypuštěnı́ maximalizuje normu rozdı́lu β̂ (LS,n) − β̂ (LS,n,`) , nevezme v úvahu
globálnı́ vztahy mezi pozorovánı́mi, nebot’ ty se mohou navzájem “maskovat”. Jinými slovy, pokud
mezi daty bude vı́ce vlivných bodů tvořı́cı́ch skupinu, musı́me použı́t analogii (114) odvozenou pro
odhad β̂ (LS,n,J ) , tj. pro odhad pořı́zený pro data, ze kterých jsme vyloučili pozorovánı́ s indexy,
které jsou ve zvolené indexové množině J . Poměrně snadno lze nalézt i asymptotické rozdělenı́
pro rozdı́l
´
√ ³ (LS,n)
nλ β̂
− β̂ (LS,n,Jk ) ,
kde Jk je k-člená podskupina indexů z {1, 2, . . . , n}, pro počet vyloučených bodů k jdoucı́ch do
nekonečna současně se zvyšujı́cı́m se počtem pozorovánı́ n (např. nk → λ ∈ (0, 1) pro n → ∞),
viz Vı́šek (1997 a).
106
POZNÁMKA 8 Dřı́ve se v literatuře často připomı́nalo, že pro výpočet matice
³
X { ` }T X { ` }
´−1
, může být výhodné použı́t vztahu
³
X { ` }T X { ` }
´−1
³
= XT X
´−1
³
+
XT X
´−1
³
x` xT` X T X
1 − xT` (X T X)−1 x`
´−1
,
který plyne z obecné rovnosti
³
A + BDC T
´−1
³
= A−1 − A−1 B D−1 + C T A−1 B
´−1
C T A−1 ,
kterou snadno ověřı́me vynásobenı́m maticı́ A + BDC T . V současné době, kdy máme k dispozici výkonnou výpočetnı́ techniku, může mı́t tato možnost význam snad jen v přı́padě, kdy
zpracováváme stovky či tisı́ce dat.
7.4
Kolinearita
Při úvahách o tom, jak dalece je regresnı́ model, přı́padně metoda nejmenšı́ch čtverců citlivá na
různé situace, bychom měli také prostudovat situaci, kdy matice X T X je “na pokraji singularity”. Výraz na pokraji singularity naznačuje, že matice X T X je stále ještě regulárnı́, nicméně
jejı́ regularita je v jistém smyslu již tak problematická, že může být počátkem potı́žı́ při zpracovánı́ dat. Připomeňme, že v tom přı́padě mluvı́me o matici X jako špatně podmı́něné a např.
inverze matice X T X, kterou potřebujeme k výpočtu odhadu metodou nejmenšı́ch čtverců,
může způsobit (výpočetnı́) potı́že. Nı́že však uvidı́me, že to nejsou jediné potı́že, které může
špatná podmı́něnost matice X způsobit. Nastane-li právě popsaná situace, mluvı́me o kolinearitě (collinearity) či multikolinearitě matice plánu. Jinými slovy, kolinearitou či multikolinearitou budeme rozumět pouze situaci, kdy alespoň jeden ze sloupců matice X je skoro lineárnı́
kombinacı́ těch ostatnı́ch. Slovı́čko “skoro” se v tomto kontextu špatně formalizuje a tak se o
to nebudeme ani pokoušet a raději uvedeme nějaké diagnostické nástroje, které to rozpoznajı́.
Dřı́ve než tak však učinı́me, uvedeme jednu poznámku a připravı́me si jeden technický nástroj.
POZNÁMKA 9 Některé publikace věnované regresnı́ analýze zahrnujı́ pod pojem kolinearita
také situaci, kdy nosiče jsou opravdu lineárně závislé, tj. kdy matice plánu nenı́ plné hodnosti
(a mluvı́ o perfektnı́ kolinearitě). Na druhé straně to v praxi, až snad na přı́pady, kdy se bránı́me
z vı́ce či častěji však méně pochopitelných důvodů ke změně matice plánu, vede k vyloučenı́
některého sloupce z matice, čı́mž jsou přı́slušné problémy vyřešeny. Nebudeme tedy situaci, kdy
je matice X neúplné hodnosti jako kolinearitu vnı́mat, tj. budeme nadále předpokládat, že matice
X T X je regulárnı́. Jak však uvidı́me, řešenı́ problému kolinearity, tak jak si o něm budeme dále
povı́dat, se ukáže býti schopno řešit i situaci “plné” lineárnı́ závislosti nosičů.
Nynı́ si konečně “předpřı́pravı́me” výše slı́bený pomocný technický nástroj.
TVRZENÍ 14 Necht’ matice A typu (n × m), n ≥ m, má hodnost r ≤ m. Potom existujı́
matice P, S a Q typů (n × m), (m × m) a (m × m) a platı́:
• Matice S je diagonálnı́,
107
• A = P SQT ,
• P T P = Im
a
• QT Q = QQT = Im .
Tomuto rozkladu, tj. rovnosti A = P SQT , se často řı́ká singulárnı́ rozklad matice.
Důkaz. Definujme Q = (q1 , q2 , . . . , qm ), kde qi , i = 1, 2, . . . , m jsou vlastnı́ ortogonálnı́
vektory matice AT A s vlastnı́mi čı́sly λ1 ≥ λ2 ≥ . . . ≥ λm ≥ 0. Poslednı́ nerovnost plyne
z faktu, že matice AT A je nutně pozitivně semidefinitnı́. Existence takových vektorů plyne z
Tvrzenı́ 6. Bez újmy na obecnosti předpokládejme, že vektory majı́ jednotkovou délku. Ttak je
lze samozřejmě vždy zvolit. Z předpokladu, že hodnost matice A je r plyne, že prvnı́ch r vlastnı́ch
√
n
čı́sel je nenulových a můžeme tedy položit si = λi a pi = s−1
i Aqi ∈ R pro i = 1, 2, . . . , r.
Potom dostaneme
1 T T
sj
qi A Aqj = qiT qj = δij .
pTi pj =
si sj
si
Dále doplnı́me matici P ∗ = (p1 , p2 , . . . , pr ) dalšı́mi ortogonálnı́mi vektory jednotkové délky na
matici P typu (n × m), libovolně. Z volby matice Q plyne, že QT Q = Im . Protože matice Q je
regulárnı́ a inverznı́ matice je jen jedna, je také QQT = Im , a tedy
A = AQQT = (s1 p1 , s2 p2 , . . . , sm pm )QT = P SQT ,
kde jsme využili fakt, že sr+1 , . . . , sm = 0.
2
’
Vrat me se nynı́ ke kolinearitě. Jaké jsou jejı́ zdroje (či přı́činy, chcete-li) a jak ji můžeme
rozpoznat? Jestliže už vı́me, že naše data vykazujı́ kolinearitu, a to ve stupni, který by mohl
z důvodů, které si dále ukážeme, ovlivnit jejich zpracovánı́, co bychom měli podniknout? Na
tyto otázky nynı́ postupně odpovı́me.
7.4.1
Zdroje a rozpoznánı́ kolinearity
Jako zdroj kolinearity bývá nejčastěji uváděna jedna z následujı́cı́ch přı́čin:
• způsob sběru dat,
• omezenı́ v populaci, ze které byla data vybı́rána,
• špatná specifikace modelu.
Zastavme se na chvı́li u jednotlivých přı́čin kolinearity. Prvnı́ z nich upozorňuje na to, že
občas určité rysy některé metody sběru dat mohou vést k tomu, že vlastně “vtiskneme” datům
kolinearitu sami. Např. se omezı́me na ty prvky v nějaké širšı́ populaci, které současně splňujı́ to
a to, a pokud jsou tato omezenı́ zvolena tak nešt’astně, že představujı́ nadrovinu ve faktorovém
prostoru, budou data vykazovat kolinearitu.
Druhá řı́čina je velmi podobná té prvnı́, ale s tı́m rozdı́lem, že vlastně v celé populaci existuje
takový typ vazby, jaký byl v předchozı́m přı́padě “nešt’astně” vybrán jako selektivnı́ pravidlo pro
108
sběr dat. Pak je samozřejmě zbytečné shromažd’ovat o jednotlivých přı́padech všechny položky,
naopak některé položky, které dı́ky lineárnı́ vazbě vlastně “plynou” z hodnot jiných vysvětlujı́cı́ch
proměnných (jiných položek) nenı́ třeba shromažd’ovat.
Konečně pak třetı́ přı́čina je přeurčenı́ modelu, o kterém jsme si povı́dali již dřı́ve. Podrobnou
diskuzi ke všem těmto bodům uvádějı́ práce Mason a kol. (1975) či Gunst (1983). Přı́klad dat
vykazujı́cı́ch kolinearitu z důvodu uvedeného jako prvnı́ lze nalétz v Marquart, Snee (1975).
Nynı́ si něco povı́me o způsobech, jak kolinearitu rozpoznat. Prvnı́, a jak se hned ukáže
zavádějı́cı́ nápad, vezme v úvahu to, že pokud matice plánu X nenı́ plné hodnosti, má matice
X T X nulový determinant. Napadne nás tedy, že čı́m bude matice X hůře podmı́něna, tı́m bude
jejı́ determinant menšı́. Mohli bychom se tedy pokusit rozpoznat kolinearitu pomoci velikosti
jejı́ho determinantu. Je-li však matice X T X “pouze” špatně podmı́něna, tj. sloupce v matici X
jsou “téměř” lineárně závislé, je determinant matice nenulový a může být, vynásobı́me-li např.
všechny prvky matice X stejným čı́slem, “udělán” libovolně velkým či libovolně malým, aniž
by se cokoliv změnilo na “stupni” závislosti mezi sloupci matice X. Totéž platı́ i o vlastnı́ch
čı́slech, jejichž hodnota může být takto zvětšena či zmenšena dle libosti. Naštěstı́ je okamžitě
patrné, že zmı́něné úpravy matice nic nezměnı́ na poměru vlastnı́ch čı́sel, tj. jinými slovy, poměr
kterýchkoliv dvou pevně zvolených vlastnı́ch čı́sel je hodnota absolutnı́, nezměnitelná násobenı́m
matice. Mohli bychom tedy tento poměr, např. poměr největšı́ho ku nejmenšı́mu vlastnı́mu čı́slu
matice X T X, použı́vat jako čı́selnou charakteristiku podmı́něnosti této matice. Je-li totiž matice
singulárnı́, je alespoň jedno vlastnı́ čı́slo nulové. Je-li tedy matice “na pokraji singularity”,
je alespoň jedno vlastnı́ čı́slo (výrazně) menšı́ než to největšı́, byt’ samozřejmě i to nejmenšı́
může být značně veliké. Z jakýchsi historických důvodů (viz singulárnı́ rozklad matice) se však
použı́vá odmocnina poměru vlastnı́ch čı́sel. Připomeňme, že dı́ky tomu, že předpokládáme plnou
hodnost matice X, je matice X T X positivně definitnı́ a tedy má všechna vlastnı́ čı́sla kladná.
√
Předpokládejme, že je očı́slujeme λ1 ≥ λ2 ≥ . . . ≥ λp > 0 a položı́me si = λi , 1 ≤ i ≤ p.
DEFINICE 3 j-tým indexem podmı́něnosti matice X budeme rozumět veličinu
s1
ηj = ,
j = 1, 2, . . . , p.
sj
Index podmı́něnosti, tentokrát bez přı́vlastku j-tý, matice X bude
s1
κ(X) = ηp = .
sp
TVRZENÍ 15 Necht’ P SQT je singulárnı́ rozklad matice X. Potom pro j = 1, 2, . . . , p máme
(LS,n)
var(β̂j
) = σ2
p
X
2
s−2
i qij ,
(115)
i=1
kde qij je i, j-tý prvek matice Q.
Důkaz. Několikrát jsme v předchozı́m textu použili to, že var(β̂ (LS,n) ) = σ 2 (X T X)−1 . Matici
X T X můžeme psát jako QS 2 QT a tedy, uvědomı́me-li si, že matice Q je inverznı́ ke QT a matice
S je diagonálnı́, máme
h
(X T X)−1 = QS 2 QT
i−1
= QS −2 QT =
p
X
i=1
109
T
s−2
i qi qi ,
kde jsme symbolicky psali S −2 namı́sto S −1 S −1 . Poslednı́ rovnost se snadno ověřı́, jestliže
rozepı́šeme přı́slušný součin pomocı́ sumacı́.
2
Ze vztahu (115) je ihned patrné, jaké jsou důsledky toho, je-li alespoň jedno si dosti malé.
(LS,n)
Je vidět, že rozptyl var(β̂k
) může být značně velký. Jak jsme připoměli výše, absolutnı́
velikost čı́sel si lze ovlivnit znásobenı́m matice X. To znamená, že lze tı́mto ovlivnit rovněž
rozptyl odhadu regresnı́ch koeficientů. To samozřejmě souhlası́ s intuitivnı́ představou, že čı́m
jsou body, ve kterých se uskutečnilo pozorovánı́ vı́ce vzdáleny od sebe, tı́m je odhad přesnějšı́.
Povšimněme si však, že to nic neměnı́ na relativnı́ přesnosti predikce hodnoty vysvětlované
proměnné v některém bodě x ∈ Rp , samozřejmě za předpokladu, že je celý výpočet prováděn
na dostatečný počet desetinných mı́st tak, aby se kdesi cestou hodně malé čı́slo nepovažovalo za
nulu.
Navı́c (115) naznačuje, že pokud je jedno si malé ve srovnánı́ s ostatnı́mi čı́sly sk , bude mı́t
i-tý člen v součtu (115) mimořádnou váhu a může “destabilizovat” odhad.
Nastane-li situace, kdy κ(X) > 100 mluvı́ se zpravidla o silné kolinearitě a patrně jediná
pomoc je některý sloupec matice X vypustit. Je-li κ(X) > κ, kde κ ∈ (10, 30) je jakási kritická,
ale v podstatě individuálnı́ hodnota dle vkusu a zkušenostı́ toho či onoho zpracovatele dat,
použije se obvykle některá metoda na potlačenı́ kolinearity.
7.4.2
Hřebenová regrese
A. E. Hoerl a R. W.Kennard navrhli v roce 1970 jeden z možných způsobů, (Hoerl a Kennard
(1970 a, b)) jak se vyrovnat s nepřı́jemným vlivem kolinearity. Jejich návrhu se začalo řı́kat
ridge regression, česky se pomalu ujı́má hřebenová regrese, nebot’ název, jak v angličtině tak
v češtině, zachycuje ten fakt, že se v matici “zvedne” uměle diagonála, tj. vytvořı́ se jakýsi
(horský) hřeben, a tı́m se (poněkud) potlačı́ kolinearita.
Vysvětleme si nynı́ podrobněji, v čem spočı́vá návrh pánů Hoerla a Kennarda. Ukažeme
nejprve, že matice X T X + δI, kde δ je (malé) pozitivnı́ čı́slo, je vždy regulárnı́, a tedy pozitivně
definitnı́. Protože matice X T X je symetrická, plyne z Tvrzenı́ 7, že X T X = QS 2 QT , kde S 2 je
diagonálnı́ matice majı́cı́ na diagonále vlastnı́ čı́sla matice X T X a QT Q = QQT = I. Vzhledem
k tomu, že navı́c předpokládáme, že X T X je regulárnı́ a tedy pozitivně definitnı́ jsou prvky
na diagonále matice S 2 kladné, byt’ patrně malé. Uvědomme, že matici X T X + δI můžeme
psát jako Q(S 2 + δI)QT , nebot’ QQT = I. Je však evidentnı́, že matice Q(S 2 + δI)QT je
regulárnı́. Každý
³ z činitelů´ v tomto součinu je totiž také regulárnı́. Poslednı́ rovnost však ihned
implikuje, že X T X + δI Q = Q(S 2 + δI), neboli, že čı́sla na diagonále matice S 2 + δI jsou
vlastnı́mi čı́sly matice X T X + δI. To však znamená, že velikost těchto čı́sel a jejich poměrů
můžeme měnit pomocı́ volby čı́sla δ, můžeme také měnit index podmı́něnosti této matice. A
to je hlavnı́ myšlenka hřebenové regrese, totiž umělá změna poměru vlastnı́ch čı́sel matice jejı́ž
inverzi hledáme.
Po těchto předběžných úvahách, studujme nynı́ namı́sto odhadu β̂ (LS,n) = (X T X)−1 X T Y
odhad
³
´−1
β̂ (R,δ,n) = X T X + δI
X T Y.
³
TVRZENÍ 16 Vychýlenı́ odhadu β̂ (R,δ,n) je −δ X T X + δI
110
´−1
β 0 a matice střednı́ch kvadrat-
ický odchylek (MSE) má tvar
³
X T X + δI
´−1 h
σ 2 X T X + δ 2 β 0 [β 0 ]T
i³
X T X + δI
´−1
.
Důkaz. Snadno se ověřı́, že vychýlenı́ odhadu β̂ (R,δ,n) je
h
i
³
IE β̂ (R,δ,n) − β 0 = X T X + δI
³
= X T X + δI
´−1 h
´−1
X T Xβ 0 − β 0
i
³
X T X − X T X − δI β 0 = −δ X T X + δI
´−1
β0.
Výpočtem můžeme ověřit, že pro každý náhodný vektor Z je matice střednı́ch kvadratických
odchylek ( MSE(Z) ) od pevného vektoru h rovna
n
(Z − h)(Z − h)T
IE
o
n
= IE
(Z − IE Z + IE Z − h)(Z − IE Z + IE Z − h)T
o
= var(Z) + (IE Z − h)(IE Z − h)T .
Navı́c je okamžitě patrné, že
³
IE β̂ (R,δ,n) = X T X + δI
³
a tedy β̂ (R,δ,n) − IE β̂ (R,δ,n) = X T X + δI
var(β̂
(R,δ,n)
½³
´−1
X T Xβ 0
³
X T (Y − Xβ 0 ) = X T X + δI
T
) = IE
X X + δI
³
´−1
= σ 2 X T X + δI
´−1
´−1
T
T
³
T
X E · E X X X + δI
³
X T X X T X + δI
´−1
´−1
X T E. Odtud
´−1 ¾
.
Konečně pak
³
MSE(β̂ (R,δ,n) ) = X T X + δI
´−1 h
σ 2 X T X + δ 2 β 0 [β 0 ]T
i³
X T X + δI
´−1
.
2
LEMMA 11 Necht’ model (4) má plnou hodnost a necht’ IE E = 0 a IE E · E T = σ 2 I, σ 2 ∈
2
(0, ∞). Konečně necht’ 0 < δ < 2 kβσ0 k2 . Potom
var(β̂ (LS,n) ) − MSE(β̂ (R,δ,n) )
je pozitivně definitnı́.
Důkaz. Připravı́me si nejprve následujı́cı́ pomocné tvrzenı́.
TVRZENÍ 17 Necht’ C je pozitivně definitnı́ matice, řekněme typu (n×n). Potom pro libovolný
vektor a ∈ Rn je aT Ca ≤ 1 právě tehdy, pokud je C −1 − aT a pozitivně semidefinitnı́ matice.
Pokud má platit ostrá nerovnost aT Ca < 1 je nutné a stačı́, aby matice C −1 − aT a byla pozitivně
definitnı́.
111
Důkaz. Vı́me, že C lze psát jako QDQT , kde Q je regulárnı́ ortogonálnı́ matice a D je
diagonálnı́ s kladnými prvky na diagonále. Fakticky jde o vlastnı́ čı́sla matice C. To znamená,
−1 je také
že C −1 = QD−1 QT , kde D−1 je diagonálnı́ matice majı́cı́ na diagonále d−1
ii , tj. C
pozitivně definitnı́. Dokazované tvrzenı́ tedy platı́ pro a = 0.
Matice C může být ovšem také psána jako Q̃Q̃T , kde Q̃ je rovněž regulárnı́. Potom aT Ca ≤ 1
je ekvivalentnı́ s kQ̃ak ≤ 1. Z jednoduché geometrické úvahy plyne, že rozdı́l projekčnı́ch matic
Q̃(Q̃T Q̃)−1 Q̃T − Q̃a(aT Q̃T Q̃a)−1 aT Q̃T ,
je rovněž projekčnı́ maticı́ (viz Tvrzenı́ 9). nebot’ M(Qa) ⊂ M(Q).
Platı́-li nynı́ kQ̃ak ≤ 1, pak pro libovolné λ ∈ Rn je
λT Q̃a(aT Q̃T Q̃a)−1 aT Q̃T λ =
To ovšem řı́ká, že
λT Q̃aaT Q̃T λ
≥ λT Q̃aaT Q̃T λ.
aT Q̃T Q̃a
n
o
0 ≤ λT Q̃(Q̃T Q̃)−1 Q̃T − Q̃a(aT Q̃T Q̃a)−1 aT Q̃T λ
n
o
≤ λT Q̃(Q̃T Q̃)−1 Q̃T − Q̃aaT Q̃T λ
a tedy pro τ = Q̃T λ, dostaneme
³
´
τ T (Q̃T Q̃)−1 − aaT τ ≥ 0,
což však znamená, že je pozitivně semidefinitnı́ také
(Q̃T Q̃)−1 − aaT = C −1 − aaT .
Dokazujme nynı́ opačné tvrzenı́. Necht’ C −1 − aaT je pozitivně semidefinitnı́. Pak pro vektor
ξ = Q̃T Q̃a, at’ už je nulový či nikoliv, je
³
´
³
´
³
´
0 ≤ ξ T C −1 − aaT ξ = ξ T (Q̃T Q̃)−1 − aaT ξ = aT Q̃T Q̃ (Q̃T Q̃)−1 − aaT Q̃T Q̃a
= aT Q̃T Q̃(Q̃T Q̃)−1 Q̃T Q̃a − aT Q̃T Q̃aaT Q̃T Q̃a.
Nynı́ využijeme toho, že vektor Q̃a ležı́ v prostoru M(Q̃), tj. Q̃(Q̃T Q̃)−1 Q̃T Q̃a = Q̃a a tedy
máme
0 ≤ aT Q̃T Q̃(Q̃T Q̃)−1 Q̃T Q̃a − aT Q̃T Q̃aaT Q̃T Q̃a = aT Q̃T Q̃a − aT Q̃T Q̃aaT Q̃T Q̃a
= kQ̃ak2 − kQ̃ak4 = kQ̃ak2 (1 − kQ̃ak2 ).
Poslednı́ nerovnost implikuje to, že kQ̃ak2 ≤ 1, neboli aT Q̃T Q̃a = aT Ca ≤ 1. Důkaz tvrzenı́
s ostrými nerovnostmi je založen na faktu, že pro matici
·
F =
A B
C D
¸
,
kde A a D jsou regulárnı́, máme
|F | = |A| · |D − CA−1 B| = |D| · |A − BD−1 C|,
112
(116)
kde |F |, |A|, atd. je determinant matice F, A, atd.. Poslednı́ rovnost se ověřı́ takto:
¯ ¯
¯
¯ I
|F | = ¯¯
¯
¯ I
= ¯¯
0
¯ ¯
¯
0 ¯¯ ¯¯ I
0 ¯¯ ¯¯ A B ¯¯
·¯
·
¯
0 D
0 D−1 ¯ ¯ C D ¯
¯ ¯
¯
¯
¯ ¯
¯
0 ¯¯ ¯¯ A
B ¯¯ ¯¯ I 0 ¯¯ ¯¯ A − BD−1 C 0 ¯¯
· ¯ −1
=
·
.
¯
D
D C I ¯ ¯ 0 D ¯ ¯
D−1 C
I ¯
Využijeme-li jak prvou, tak druhou rovnost z (116), dostaneme
¯ −1
¯ C
¯
¯ aT
¯
a ¯¯
= |C −1 |(1 − aT Ca) = |C −1 − aaT |.
1 ¯
To však dokazuje to, že C −1 − aaT je singulárnı́ právě když 1 = aT Ca. Konečně pak z faktu,
že pozitivně semidefinitnı́ matice je pozitivně definitnı́ právě tehdy, je-li regulárnı́ plyne druhé
tvrzenı́.
2
Důkaz lemmatu 10. Připomeňme, že výraz pro kovariančnı́ matici odhadu metodou nejmenšı́ch čtverců vypadá takto var(β̂ (LS,n) ) = σ 2 (X T X)−1 . Aplikacı́ Tvrzenı́ 6 dostaneme
var(β̂ (LS,n) ) − MSE(β̂ (R,δ,n) )
³
= X T X + δI
´−1 h
σ 2 (X T X + δI)(X T X)−1 (X T X + δI)
−σ 2 X T X − δ 2 β 0 [β 0 ]T
³
= X T X + δI
i³
X T X + δI
´−1 h
σ 2 (2δI + δ 2 (X T X)−1 ) − δ 2 β 0 [β 0 ]T
i³
´−1
X T X + δI
´−1
.
(117)
Je-li tedy δ ∈ (0, 2σ 2 kβ 0 k−2 ), potom pro C = 12 Iδσ −2 máme [β 0 ]T 21 Iδσ −2 β 0 = 12 δσ −2 kβ 0 k2 < 1
a tedy dle Tvrzenı́ 7 je 2Iσ 2 δ −1 − β 0 [β 0 ]T pozitivně definitnı́. Pak ovšem i 2Iσ 2 δ − δ 2 β 0 [β 0 ]T je
pro δ > 0 pozitivně definitnı́ a tedy také matice
σ 2 (2δI + δ 2 (X T X)−1 ) − δ 2 β 0 [β 0 ]T
je pozitivně definitnı́, což ovšem ihned implikuje, že i (117) je pozitivně definitnı́.
2
TVRZENÍ 18 Necht’ P SQT je singulárnı́ rozklad matice X. Potom
var(β̂
(R,δ,n)
)=σ
2
p
X
"
i=1
si
2
si + δ
#2
qi qiT .
Důkaz. Podobně jako výše pišme X T X = QS 2 QT a tedy
³
X T X + δI
´−1
= Q(S 2 +
δI)−1 QT . Potom
³
β̂ (R,δ,n) = X T X + δI
´−1
X T Y = Q(S + δI)−1 QT QSP T Y = Q(S + δI)−1 SP T Y,
a konečně tedy
var(β̂ (R,δ,n) ) = Q(S + δI)−1 SP T var(Y ) P S(S + δI)−1 QT
2
−1 2
= σ Q(S + δI)
−1
S (S + δI)
T
Q =σ
2
p
X
i=1
Ã
si
2
si + δ
!2
qi qiT .
2
113
POZNÁMKA 10 Bude-li matice X T X špatně podmı́něná, nalezne se mezi jejı́mi vlastnı́mi
čı́sly některé dosti malé, v porovnánı́ s ostatnı́mi. To znamená, že pro toto vlastnı́ čı́slo (řekněme
2
−1 může být opět naopak malé.
i-té) bude s−1
i , které vystupuje v (115), dosti velké, avšak si (si +δ)
Vzhledem k tomu, že samozřejmě neznáme ani σ 2 ani kβ 0 k, nenı́ jasné, jak velké může
být zvoleno δ. Existujı́ v podstatě dvě možnosti, jak se s tı́mto problémem vypořádat. Jednou
z možnostı́ je vypočı́tat β̂ (R,δ,n) jako funkci δ pro různé hodnoty δ a vynést grafy jednotlivých
složek vektoru β̂ (R,δ,n) v závislosti na δ. Poté se doporučuje zvolit δ takové, od kterého počı́naje
se už grafy “stabilizujı́”. Jinou možnostı́ je zvolit nějak δ, vypočı́tat odhad β̂ (R,δ,n) a σ̂ 2 , a poté
vždy překontrolovat, zda δ < 2σ̂ 2 kβ̂ (R,δ,n) k−2 .
Alternativou hřebenových odhadů je nalezenı́ hlavnı́ch komponent matice X T X a vybudovánı́ regresnı́ho modelu na těchto komponentách. O tom si povı́me v dalšı́m odstavci.
7.4.3
Odhady s lineárnı́mi ohraničujı́cı́mi podmı́nkami
Je pochopitelné, že pokud pomocı́ např. faktorové analýzy či analýzy hlavnı́ch komponent
použité pro X T X by se ukázalo, že “variabilita” dat majı́cı́ch za kovariančnı́ matici právě X T X
je vysvětlitelná pouze r faktory, znamená to, že p − r sloupců matice X je “téměř” závislých
na některých r. To odpovı́dá přibližně situaci, kdy dimenze prostoru M(X) je r a nalezneme
matici K tak, že M(X) ∩ M(K) = ∅ a M(X ∪ K) = p a hledáme odhad modelu
Y = Xβ + E,
Kβ = 0,
(118)
kde K je typu ((p − r) × p). Opět lze ukázat, že, označı́me-li β̂ (C,n) odhad regresnı́ch koeficientů
v tomto modelu metodou nejmenšı́ch čtverců (kde hornı́ index C naznačuje, že jde o odhad
s omezenı́mi - constraints), je
var(β̂ (LS,n) ) − MSE(β̂ (C,n) )
(119)
pozitivně definitnı́, opět samozřejmě za určitých podmı́nek na si , viz Zvára (1989).
Namı́sto toho, abychom uvedli přesný důkaz tohoto tvrzenı́, ukážeme, jak takový odhad
s lineárnı́mi omezenı́mi vypočı́tat. Nejprve budeme studovat jednoduchý přı́klad, kdy omezenı́
jsou
(LS,n)
β̂1
= 0,
(120)
tj. model bude bez absolutnı́ho členu, a
p
X
(n)
β̂j
j=1
=
p
X
(n)
β̂j
= 1.
(121)
j=2
Tato úloha patrně pocházı́ z oblasti kombinovánı́ předpovědı́ časových řad, např. kombinovánı́
predikcı́ velikosti hrubého národnı́ho produktu, které byly vytvořeny různými agenturami. Vhodná
kombinace je hledána pomocı́ lineárnı́ho regresnı́ho modelu, vytvořeného tak, že predikovaná
řada, jejı́ž hodnoty až do současnosti známe, se zprojektuje na matici plánu, jejı́ž sloupce
jsou tvořeny právě řadami předpovědı́ predikovaného procesu, které v minulosti vydávali různı́
“prediktoři”.
114
Připravme si však nejprve technický nástroj. Poměrně snadno se ověři, že
³
IE
Ŷt+1 − Yt+1
´2
"
=σ
2
µh
T
Xt+1
X
(t)
iT
X
(t)
#
¶−1
Xt+1 + 1 ,
(122)
kde jsme hornı́m indexem (t) u X (t) naznačili, že se jedná o matici plánu (která je složena
z předpovědı́ jednotlivých předpovı́datelů, na mı́stě sloupců) pro obdobı́ 1, 2, ...t. Dále pak Yt+1
a Ŷt+1 jsou hodnoty předpovı́daného procesu a jeho odhadu v obdobı́ t + 1 a konečně Xt+1 je
vektor předpovědı́ jednotlivých předpovı́datelů na obdobı́ t+1. Zapišme výše uvedená ohraničenı́
na koeficienty regresnı́ho modelu maticově. Dostaneme
Cβ = κ,
(123)
kde c11 = 1, c1i = 0 pro i = 2, 3, ..., p, c21 = 0, c2i = 1 pro i = 2, 3, ..., p a κ = (0, 1)T . Nalezněme
odhad regresnı́ch koeficientů v modelu (118) a označme predikci zı́skanou pomocı́ tohoto odhadu
jako Ỹt+1 . Potom máme
³
IE
µh
−
X (t)
iT
X (t)
¶−1
Ỹt+1 − Yt+1
"
CT C
µh
X (t)
iT
´2
(
=σ
X (t)
2
¶−1
"µ
T
Xt+1
h
X
#−1
CT
(t)
iT
µh
X
X (t)
C
iT
(t)
¶−1
X (t)
¶−1



 Xt+1 + 1 . (124)

To, že rozdı́l výrazů v (122) a (124) je nezáporný, plyne z faktu, že matice
µh
X
(t)
iT
X
(t)
"
¶−1
C
T
µh
C
X
(t)
iT
X
(t)
#−1
¶−1
C
T
µh
C
X
(t)
iT
X
(t)
¶−1
je pozitivně semidefinitnı́ (byt’ zlepšenı́ je řádu 1t ; podrobnějšı́ diskuzi lze nalézt v Clemen (1986)).
Vyložme si nynı́, jak se naleznou výše zmı́něné odhady regresnı́ch koeficientů pro speciálnı́
ohraničenı́ daná v (123). Pak si uvedeme data a ukážeme, jak je velký zisk - ve smyslu součtu
čtverců chyb předpovědı́, použijeme-li obyčejné nejmenšı́ čtverce, tj. bez omezenı́, či odhad
splňujı́cı́ (120) a (121).
Tak jako obvykle, budeme předpokládat, že matice plánu obsahuje v prvnı́m sloupci samé
jedničky, ve druhém prvnı́ vysvětlujı́cı́ proměnnou, atd. . Nynı́ ztransformujeme data následujı́cı́m
způsobem. Necht’ pro i = 1, 2, . . . , n a j = 1, 2, . . . , p − 2
Ỹi = Yi − Xi2 ,
X̃ij = Xi,j+2 − Xi2
a nalezneme β̂ (LS,n) pro model Ỹ = X̃ β̃ + E. Konečně pak definujme vzájemně jednoznačnou
P
transformaci T z Rp−2 na podprostor Rp zadaný podmı́nkou β̂1 = 0 a pj=1 β̂j = 1
T1 (β̃) = β̂1 = 0, T2 (β̃) = β̂2 = 1 −
p−2
X
β̃j ,
Tj (β̃) = β̂j = β̃j−2 , j =, 3, 4, . . . , p.
j=1
Potom ovšem
Pp
j=1 β̂j
= 1, tj. omezenı́ (121) je splněno. Dále (připomı́náme, že β̂1 = 0)
n
X
(Yi −
i=1
XiT β̂)2
=
n
X
(Yi − Xi2 β̂2 −
i=1
p
X
j=3
115
Xij β̂j )2
(125)
=
n
X
(Yi − Xi2 (1 −
i=1
p−2
X
β̃j ) −
j=1
p−2
X
2
Xi,j+2 β̃j ) =
j=1
=
n
X
n
X
p−2
X
i=1
j=1
(Yi − Xi2 −
X̃ij β̃j )2
(Ỹi − X̃iT β̃)2 ,
(126)
i=1
tj. vektory β̂ ∗ a β̃ ∗ , které minimalizujı́ sumy (125) a (126) si navzájem odpovı́dajı́, tj. β̂ ∗ = T (β̃ ∗ ).
Řešenı́ úlohy s omezenı́mi (120) a (121) nalezneme tedy snadno takto: Namı́sto původnı́ matice
plánu vezmeme matici, kterou dostaneme tak, že vynecháme prvnı́ sloupec, pokud byl tvořen
jedničkami, tj. pokud se počı́talo s absolutnı́m členem, a upravı́me data tak, že vezmeme druhou
vysvětlujı́cı́ proměnnou, odečteme od nı́ tu prvnı́ a nově vzniklou proměnnou považujeme za
novou prvnı́ vysvětlujı́cı́ proměnnou atd. až po p−2-hou novou vysvětlujı́cı́ proměnnou. Podobně
od vysvětlované proměnné odečteme prvnı́ vysvětlujı́cı́ a tuto transformovanou proměnnou
budeme uvažovat jako novou vysvětlovanou proměnnou. Nakonec vypočteme normálnı́ (chceteli běžný) odhad metodou nejmenšı́ch čtverců a ten pak ztransformujeme zpět pomocı́ výše
naznačené transformace T (β̃).
Nynı́ se budeme věnovat výše slibenému přı́kladu o vývoji hrubého národnı́ho důchodu ve
Spojeném královstvı́. Data byla publikována v článku Holden a Peel (1989) a popisujı́ tedy růst
hrubého národnı́ho produktu v U. K. a to od 1977/1 do 1985/2, přičemž růst byl přepočı́tán
k cenám z roku 1988. Zkratky v následujı́cı́ch tabulkách naznačujı́, že jednotlivé předpovědi byly
vytvořeny těmito agenturami:
• HCT - Henley Centre for Forecasting,
• LBS - London Business School,
• NI - National Institute of Economic and Social Research,
• OECD - Organization for Economic Co-operation and Development
a
• PD - Phillips and Drew.
V následujı́cı́ tabulce jsou uvedena data, tak jak byla publikována článku v Holden a Peel (1989)
a to na tři desetinná mı́sta, pokud ovšem v přı́slušném sloupci se neobjevilo alespoň jedno čı́slo
udané na vı́ce platných cifer.
TABULKA 9
Ekonomický růst ve Spojeném královstvı́
Pořadı́
Obdobı́
HCF
LBS
NI
OECD
PD
Růst
1
1977/1
2.5875
2.650
1.270
1.125
-0.400
1.76899
2
1977/2
3.0375
2.360
3.310
1.000
1.000
3.62319
3
1977/3
3.4500
2.240
3.150
1.875
1.500
3.40205
4
1977/4
3.0750
2.050
2.570
1.500
-0.400
2.76075
5
1978/1
3.1000
3.470
3.460
2.875
-3.000
2.04499
6
1978/2
2.9125
3.340
1.470
2.000
2.200
3.39661
116
Ekonomický růst ve Spojeném královstvı́ (pokračovánı́)
Pořadı́
Obdobı́
HCF
LBS
NI
OECD
PD
Růst
7
1978/3
3.2125
1.660
0.830
2.125
3.000
2.79163
8
1978/4
3.1375
2.820
2.620
1.750
4.500
2.58706
9
1979/1
2.7000
3.160
2.960
1.875
3.500
2.30461
10
1979/2
1.9250
3.100
1.980
1.500
0.900
-2.70532
11
1979/3
0.3375
-0.930
1.100
2.625
-0.400
-3.68575
12
1979/4
-0.1375
-0.100
0.820
1.000
0.800
-5.04364
13
1980/1
-1.9000
-0.980
1.850
-1.625
1.500
-3.91773
14
1980/2
-1.0125
-0.040
0.470
-0.500
-3.700
-2.58193
15
1980/3
-0.6375
-0.200
1.600
2.750
-2.600
-0.50352
16
1980/4
-0.5500
1.980
1.130
-1.000
-5.000
2.04290
17
1981/1
1.4000
2.270
-0.050
-1.000
-5.600
1.63099
18
1981/2
-0.4500
2.480
-0.230
-1.250
-4.500
2.34455
19
1981/3
0.5500
2.560
0.150
-0.250
-2.400
1.31579
20
1981/4
1.4500
2.470
0.530
0.750
-0.500
1.10111
21
1982/1
-1.7500
2.790
0.310
1.000
1.000
3.10932
22
1982/2
1.6375
3.020
1.090
1.750
1.800
2.49004
23
1982/3
1.9375
2.910
0.860
1.750
1.200
4.09591
24
1982/4
2.2875
2.180
1.850
1.625
0.400
4.05940
25
1983/1
1.6250
2.210
1.780
1.500
1.300
3.11285
26
1983/2
2.1375
2.120
1.250
1.625
2.400
2.62390
27
1983/3
2.5125
2.920
1.200
2.375
3.000
2.69714
28
1983/4
2.0875
2.430
1.100
2.250
3.400
2.66413
29
1984/1
2.5000
2.360
1.980
2.250
1.700
3.30189
30
1984/2
2.2500
4.050
3.050
1.750
3.900
4.92424
31
1984/3
2.1000
2.220
3.740
2.750
2.710
3.45794
32
1984/4
2.3500
2.180
2.950
2.000
2.980
2.78035
33
1985/1
2.8300
3.400
1.360
3.630
2.810
2.37442
34
1985/2
2.4500
2.600
1.350
2.880
2.740
1.35379
Data byla zpracována takto. Počı́naje čtvrtletı́m 1982/1 byly konstruovány kombinované předpovědi
hrubého národnı́ho důchodu a to tı́mto způsobem. Na základě dat až do tohoto čtvrtletı́, tj. na
základě t prvých řádků TABULKY 9, a byl vypočten β̂ (LS,t) a β̂ (C,t) , kde veličina “Růst” figurovala jako vysvětlovaná a veličiny “HCF”, “LBS”, “NI”, “OECD” a “PD” jako vysvětlujı́cı́.
To odpovı́dá myšlence, že na základě dat z minulosti, kdy už známe vývoj veličiny “Růst” se
naučı́me “co nejlépe kombinovat” předpovědi jednotlivých předpovı́datelů a ve chvı́li, kdy tito
předpovı́datelé uvolnı́ pro veřejnost svoje předpovědi na dalšı́ čtvrtletı́, vytvořı́me kombinované
předpovědi
xTt+1 β̂ (LS,t)
a
xTt+1 β̂ (C,t) .
117
Na konci každého čtvrtletı́, např. t + 1, kdy už známe Yt+1 , posoudı́me “kvalitu” předpovědi,
např. pomocı́ čtverců
(Yt+1 − xTt+1 β̂ (LS,t) )2
a
(Yt+1 − xTt+1 β̂ (C,t) )2 .
(127)
Dı́ky tomu, že v našem přı́padě už známe data pro celé obdobı́ 1977/1 až 1985/2, můžeme to
udělat naráz pro t = 21, 22, . . . , 33. Jak plyne z hlavičky tabulky byly uvažovány i modely, které
splňujı́ pouze jedno z omezenı́ (120) a (121). Poznamenejme ještě, že Tabulka 10 uvádı́ výsledky
zı́skané pro přı́pad, kdy byly vzaty v úvahu všechny předpovědi, tj. HCF, LBS, NI, OECD a PD.
TABLE 10
Postupné součty čtverců chyb předpovědı́
Obdobı́
1982/2
1982/3
1982/4
1983/1
1983/2
1983/3
1983/4
1984/1
1984/2
1984/3
1984/4
1985/1
1985/2
Kumulativnı́ součty
S interceptem
Bez interceptu
Bez
S
Bez
S
omezenı́ omezenı́mi omezenı́ omezenı́mi
0.073
0.310
0.000
0.457
3.527
1.304
2.076
1.269
9.739
5.012
7.250
4.697
12.356
6.236
9.406
5.825
13.328
6.236
9.515
5.825
13.370
7.012
9.748
6.620
13.691
7.077
9.763
6.704
15.099
7.741
11.121
7.282
15.708
9.312
14.081
8.752
18.479
12.556
19.705
12.553
18.997
12.710
20.253
12.978
21.240
15.418
21.803
14.653
22.444
17.910
23.574
16.709
Následujı́cı́ tabulka uvádı́ hodnoty sum čtverců chyb pro všechny možné dvojice předpovědı́.
Je ihned patrné, že v Tabulce 10 se projevil efekt přeurčenı́ modelu, o kterém jsme si povı́dali
výše. Je ihned patrné, že efekt přeurčenı́ způsobil to, že rozptyly odhadů jednotlivých koeficientů jsou v přeurčeném modelu většı́ než v modelu, který by měl “právě tolik vysvětlujı́cı́ch
proměnných, kolik by měl mı́t”. To způsobilo to, že i předpověd’ nalezená pomocı́ přeurčeného
modelu, má většı́ rozptyl než ta vytvořená modelem, který má dostatečný počet vysvětlujı́cı́ch
proměnných, ale nikoliv zbytečně mnoho. V našem přı́kladě výsledky uvedené v Tabulkách 10
a 11 ukazujı́, že model obsahujı́cı́ jako vysvětlujı́cı́ proměnné všechny předpovědi, je přeurčený.
Ostatně, součtu čtverců chyb jednotlivých předpovědı́ ukážou, že všechny modely obsahujı́cı́ vı́ce
jak jeden regresor jsou v tomto přı́padě přeurčené. To však necvhme pro tuto chvı́li stranou,
nebot’ to nic nezměnı́ na tom, co chceme demostrovat.
Abychom předešli nedorozuměnı́, co Tabulka 11 zachycuje, dodejme jen, že vlastně každý
řádek této tabulky je hypotetickým poslednı́m řádkem tabulky analogické k Tabulce 10, ale
vytvořené vždy pro jednu dvojici předpovědı́. To znamená, že v následujı́cı́ tabulce jsou shromážděny
118
kumulativnı́ součty čtverců (127) přes všechna výše uvedená obdobı́, tj.
33
X
(Yt+1 − xTt+1 β̂ (LS,t) )2
33
X
a
t=21
(Yt+1 − xTt+1 β̂ (C,t) )2 .
t=21
TABLE 11
Kumulativnı́ součty čtverců chyb předpovědı́
Předpovědi,
S omezenı́mi
Bez omezenı́
které byly
kombinovány
Bez
interceptu
S
interceptem
Bez
interceptu
S
interceptem
HCF, LBS
HCF, NI
HCF, OECD
HCF, PD
LBS, NI
LBS, OECD
LBS, PD
NI,OECD
NI, PD
OECD, PD
23.55
52.85
57.01
48.99
30.39
13.19
13.93
35.57
37.86
36.43
35.76
63.61
81.87
82.45
30.39
30.78
31.44
47.25
31.44
47.25
25.02
62.35
75.80
55.79
21.81
19.12
15.79
49.06
53.64
56.04
28.84
66.98
84.77
87.67
22.52
23.71
23.29
49.61
51.63
41.69
Tabulka 11 dokumentuje, že zisk z uplatněnı́ omezenı́ (120) a (121) může být značný. Ještě
většı́ho zisku se dosáhne při použitı́ některé robustnı́ metody odhadu regresnı́ho modelu (viz
Vı́šek (1997 b)), ale o tom si povı́me později (patrně až v dalšı́m dı́le skript).
Uved’me nynı́ obecné řešenı́ úlohy odhadu regresnı́ch koeficientů při lineárnı́ch omezenı́ch.
Uvažujme matici C typu (` × p), rank(C) = ` a hledejme
β̂
(C,n)
= arg min
( n
X
)
(Yi −
XiT β)2 ,
p
β ∈R , C ·β =κ .
(128)
i=1
LEMMA 12 Necht’ C je typu (` × p), rank(C) = `, κ ∈ R` . Potom pro všechny Y ∈ Rn
a všechny matice typu (n × p) existuje Ỹ ∈ Rn a matice X̃ typu (n × (p − `)) a vzájemně
jednoznačné zobrazenı́
T : Rp−` → {β ∈ Rp , Cβ = κ}
takové, že pro libovolné λ ∈ Rp−` máme
Ỹ − X̃λ = Y − XT (λ).
Důkaz. Důsledkem toho, že rank(C) = `, je existence matice C̃ typu (p − ` × p) takové, že
= (C T , C̃ T )T je regulárnı́ a C C̃ T = 0. Předpokládejme, že β ∗ ∈ Rp je některý vektor takový,
že Cβ ∗ = κ a položme pro každé λ ∈ Rp−`
C∗
T (λ) = C̃ T λ + β ∗ .
C · T (λ) = C · (C̃ T λ + β ∗ ) = κ.
119
Nynı́ ukážeme, že zobrazenı́ T (λ) je prosté. Necht’ λ1 , λ2 ∈ Rp−` a předpokládejme, že T (λ1 ) =
T (λ2 ). Potom máme
C̃ T (λ1 − λ2 ) = 0
(129)
a protože rank(C̃) = p − `, existuje p − ` nezávislých řádků matice C̃ T tvořı́cı́ch regulárnı́ matici
T typu (p − `) × (p − `). Pro tuto matici máme C̃ T (λ − λ ) = 0, nebot’ tato soustava rovnic
C̃R
2
R 1
je podsoustavou (129). To však znamená, že λ1 = λ2 .
Rovněž snadno se dokáže, že zobrazenı́ T (λ) je na množinu S = {β ∈ Rp , Cβ = κ}. Je-li
totiž β̄ ∈ S, pak C(β̄ − β ∗ ) = 0 a tedy β̄ − β ∗ ⊥C, což znamená, že β̄ − β ∗ ∈ M(C̃ T ) a tedy
existuje λ ∈ Rp−` tak, že C̃ T · λ = β̄ − β ∗ , neboli β̄ = C̃ T · λ + β ∗ .
Zbývá ověřit, že pro libovolné λ ∈ Rp−` máme pro Ỹ = Y − Xβ ∗ a X̃ = X C̃ T
Ỹ − X̃λ = Y − Xβ ∗ − X C̃ T λ = Y − X(C̃ T λ + β ∗ ) = Y − XT (λ).
2
POZNÁMKA 11 Lemma 12 vlastně řı́ká, že
β̂ (C,n) = T ( arg min
λ∈Rp−`
n
X
(Ỹi − X̃iT λ)2 ).
i=1
Navı́c z jeho důkazu plyne návod, jak přı́slušnou transformaci nalézt.
Bude-li důvod považovat omezenı́ C · β = κ za náhodná (viz (128)), budeme moci psát pro
libovolné δ 6= 0
·
¸ ·
¸
·
¸
Y
X
E
=
β+
0
δC
δκ
a tedy
β̂ (C,n) = (X T X + δC T C)−1 X T Y.
(130)
To ukazuje, že podobným způsobem, jakým byly nalezeny ve Tvrzenı́ 16 a v Lemmatu 11
vlastnosti hřebenového odhadu, bylo by možné dokázat výše zmı́něné vlastnosti odhadu β̂ (C,n) .
Nenı́ rovněž bez zajı́mavosti, že k odhadu téměř shodnému s odhadem (130), totiž k odhadu
β̂ = (X T X + Σ−1 )−1 (X T Y + Σ−1 µ),
dojdeme, pokud nalezneme aposteriornı́ střednı́ hodnotu pro β, při předpokladu, že apriornı́
rozdělenı́ regresnı́ch koeficientů β při pevném rozptylu fluktuacı́ σ 2 bylo mnoharozměrné normálnı́
s parametry µ a σ 2 Σ, tj.
2
q(β|σ ) =
const
p
σ2
µ
¶
1
exp − 2 (β − µ)T Σ−1 (β − µ)
2σ
a apriornı́ rozdělenı́ rozptylu náhodných fluktuacı́ σ 2 bylo
q(σ 2 ) = σ −2(d−1) cd Γ−1 (d)exp(−cσ −2 ),
tj. γ-rozdělenı́ s parametry c a d. Pokud navı́c, např. při malé apriornı́ informaci o β, položı́me
µ = 0, dostaneme přı́mo (130).
120
7.4.4
Alternativnı́ indikátory kolinearity a jejich záludnosti
Některé knihovny (a je jich pohřı́chu patrně většina) nenabı́zejı́ přı́mo (a automaticky) vyčı́slenı́
indexu podmı́něnosti. Lze si však obvykle snadno pomoci použitı́m subroutin pro faktorovou
analýzu. Namı́sto indexu podmı́něnosti nabı́zı́ např. knihovna STATISTICA tabulku koeficientů determinace, kde vždy jedna z vysvětlujı́cı́ch proměnných hraje roli vysvětlované a je
vysvětlována všemi ostatnı́mi. Přı́slušná tabulka je v knihovně STATISTCA označena Redundancy. V této tabulce jsou kromě zmiňovaných koeficientů determinace uvedeny také jejich
doplňky do jedničky. Je to patrně proto, že převrácená hodnota doplňku j-tého koeficientu determinace je, až na faktor σ 2 , rozptylem odhadu j-tého regresnı́ho koeficientu a bývá v literatuře
označována jako VIF (variance inflation factor, viz např. Marquart a Snee (1975)). a některé
prameny doporučujı́ tento diagnostický prostředek, at’ už zmiňované koeficienty determinace či
VIF, jako dosti spolehlivý diagnostický prostředek pro odhalenı́ kolinearity, např. Montgomery,
Peck (1982). Podı́vejme se na věc trochu podrobněji.
Intuitivně cı́tı́me, že pokud bude koeficient determinace pro některou vysvětlujı́cı́ proměnnou
vysoký, může vzniknout podezřenı́ na kolinearitu. Obvykle to je opravdu tak, ale poněkud paradoxně v přı́padě, kdy v modelu, nynı́ myslı́me model pro “původnı́”, tj. celá data, je rozptyl
náhodných fluktuacı́ velmi malý, může nastat situace, kdy zmı́něná tabulka (velmi) vysokými
hodnotami přı́slušných koeficientů determinace indikuje zdánlivě značný stupeň kolinearity (viz
Tabulka 14), ale index podmı́něnosti je ještě v mezı́ch, kdy se nenabádá k vyloučenı́ některého
sloupce matice X, nejvýše se doporučuje použitı́ některé metody, která se umı́ vyrovnat s kolinearitou, např. hřebenová regrese.
Tady je numerický přı́klad takové situace. Využı́vá část dat, která byla použita o několik
stránek zpět k ilustraci efektivnosti omezenı́, která “naložı́me” na koeficienty regresnı́ho modelu
a jejich odhady. Proto jen připomeňme, že ta část dat, kterou dále použijeme, popisuje ekonomický růst (GDP) ve Velké Británii v letech 1977/1 až 1984/2, (tj. po čtvrtletı́ch). Na rozdı́l
od dat dřı́ve použitých, proměnné označené jako LBS (London Business School) a OECD (Organization for Economic Cooperation and Development) jsou upravené předpovědi ekonomického
růstu učiněné těmito institucemi a proměnná DEC označuje dekomposici LBS a OECD na
vektor representujı́cı́ informaci, která byla v době, kdy byly vytvářeny zmı́něné předpovědi,
společná oběma výše uvedeným institucı́m. Slovo upravené naznačuje, že jednak byly všechny
hodnoty přepočı́tány k cenám z roku 1988 a jednak, že byly předpovědi modifikovány tak, aby
představovaly projekci GDP, tj. aby se minimalizoval součet čtverců reziduı́ mezi předpovı́danou
veličinou a předpovědı́. Na vysvětlenou jenom dodejme, že data v této podobě byla připravena
pro vytvářenı́ předpovědi nikoliv pomocı́ lineárnı́ kombinace, tak jak jsme to udělali o několik
stranek zpět, ale pomoci metody dekomposice, jejı́ž popis lze nalézt např. ve Vı́šek (1997 c).)
Tabulka 12
Data popisujı́cı́ ekonomický vývoj (GDP) ve Velké Británii
Obdobı́
LBS
OECD
DEC
GDP
1977/1
1977/2
1977/3
2.437
1.982
1.793
1.531
1.461
1.952
1.600
1.393
1.860
1.769
3.623
3.402
121
Tabulka 12
Data popisujı́cı́ ekonomický vývoj (GDP) ve Velké Británii (pokračovánı́)
Obdobı́
1977/4
1978/1
1978/2
1978/3
1978/4
1979/1
1979/2
1979/3
1979/4
1980/1
1980/2
1980/3
1980/4
1981/1
1981/2
1981/3
1981/4
1982/1
1982/2
1982/3
1982/4
1983/1
1983/2
1983/3
1983/4
1984/1
1984/2
LBS
1.495
3.723
3.519
.883
2.703
3.237
3.143
-3.180
-1.878
-3.259
-1.784
-2.035
1.385
1.840
2.170
2.295
2.154
2.656
3.017
2.844
1.699
1.746
1.605
2.860
2.091
1.982
4.633
OECD
1.741
2.512
2.022
2.092
1.882
1.952
1.741
2.372
1.461
-.011
.620
2.442
.339
.339
.199
.760
1.321
1.461
1.882
1.882
1.812
1.741
1.812
2.232
2.162
2.162
1.882
DEC
1.665
2.647
2.083
1.946
1.918
2.049
2.105
2.195
1.507
-.095
.574
2.196
.343
.406
.262
.869
1.408
1.481
1.951
1.850
1.681
1.669
1.750
2.264
2.129
2.085
1.967
GDP
2.761
2.045
3.397
2.792
2.587
2.305
-2.705
-3.686
-5.044
-3.918
-2.582
-0.504
2.043
1.631
2.345
1.316
1.101
3.109
2.490
4.096
4.059
3.113
2.624
2.697
2.664
3.302
4.924
(Tato část dat byla vybrána proto, že na nich nastává popisovaný efekt nejvýrazněji.)
Tabulka 13
Odhady regresnı́ch koeficientů v modelu
GDP = β0 + β1 · LBS + β2 · OECD + β3 · DEC + náhodné f luktuace
a jejich charakteristiky. β̃ označujı́ koeficienty ve studentizovaném modelu
(viz výše text o automatickém studentizovánı́ dat),
zatı́mco β̂ jsou odhady koeficintů pro data tak, jak jsou uvedena v Tabulce 12.
q
q
β̃
β0
β1
β2
β3
1.30
4.81
-4.93
var(
ˆ β̃)
.0009
.0049
.0050
β̂
0.0042
1.680
18.030
-18.720
var(
ˆ β̂)
0.0042
.0011
.0184
.0193
tβ̂ (26)
0.98
1490.56
979.79
-970.78
P-hodnoty
0.337
0.000
0.000
0.000
Koeficient determinace modelu R2 vyšel roven .99998, Fisher-Snedecorovo F = 79750 a odhad
rozptylu náhodných fluktuacı́ pak s2 = .00901. Výše zmiňované koeficienty determinace v modelech, kde vždy jedna z vysvětlujı́cı́ch proměnných je postavena do role vysvětlované a všechny
ostatnı́ vysvětlujı́cı́ hrajı́ dále roli vysvětlujı́cı́ch, vyšly následovně.
122
Tabulka 14
Koeficienty determinace (tabulka bývá často označována jako “Redundancy”).
β1
β2
β2
.455749
.982717
.983803
Hodnoty koeficientů determinace u druhé a třetı́ proměnné napovı́dajı́, že jsou tyto téměř
nahraditelné kombinacı́ vždy těch zbývajı́cı́ch dvou. Vyjměme tedy z modelu např. druhou
proměnnou (tj. OECD). Budeme tedy odhadovat dále koeficienty a jejich charakteristiky v
modelu
GDP = β0∗ + β1∗ · LBS + β3∗ · DEC + náhodné f luktuace.
Přı́slušné odhady jsou v následujı́cı́ tabulce.
Tabulka 15
Odhady regresnı́ch koeficientů a jejich charakteristik.
q
q
β̃
β0∗
β1∗
β3∗
.774
.000
var(
ˆ β̃)
.130
.130
β̂
.000
1.000
-.000
var(
ˆ β̂)
.799
.167
.492
tβ̂ (26)
.000
5.968
-.000
P-hodnoty
.999
.000
.999
Hodnota koeficientu determinace tohoto nového modelu je 0.5988, což je sice jen nepatrně
pod onou magickou hodnotou 0.6, která bývá v monografiı́ch uváděna jako přijatelná pro modely
z technických oblasti, ale na druhé straně je jistě zarážejı́cı́, že to nynı́ vypadá tak, že poslednı́
vysvětlujı́cı́ proměnná nenı́ pro model signifikantnı́, ač P -hodnoty v Tabulce 13 naznačovaly
pravý opak. Navı́c odhad rozptylu náhodných fluktuacı́ v tomto novém modelu je s2 = 1.698.
Porovnáme-li toto čı́slo s velikostı́ dat uvedených v Tabulce 12, dojdeme k závěru, že tento model
nenı́ patrně právě nejvhodnějšı́. Pro úplnost Fisher-Snedecorovo F je rovno 20.146. Spočteme-li
si pro původnı́ data (uvedená v Tabulce 12) vlastnı́ čı́sla matice X T X dostaneme 2.1335, 0.8581
a 0.0083, což znamená, že index podmı́něnosti vyjde
s
κ=
λmax
=
λmin
r
2.1335
= 16.03,
0.0083
a to je hodnota, která napovı́dá, že se nejedná o kolinearitu vyžadujı́cı́ vyloučenı́ některé vysvětlujı́cı́
proměnné z matice plánu, ale o takový stupeň, kdy je možné řešit situaci použitı́m např.
hřebenové regrese, o které jsme mluvili výše.
Prakticky v každé ekonometrické monografii, obsahujı́cı́ také pasáž o regresi, nalezneme dalšı́
testy na kolinearitu, např. založené na kovariančnı́ či korelačnı́ matici, viz např. Kumar (1975),
Willan a Watts (1978), Belsley, Kuh and Welsch (1980) nebo Friedman (1982). Přı́klad uvedený práci v Leamer (1983) ukazuje, že si na ně mohou uživatelé udělat různé názory. Jako
přı́klad častého problematického použitı́ takového testu uved’me aplikaci Farrar-Glauberovy
statistiky (viz Farrar and Glauber (1967)) bez verifikace přı́slušného předpokladů, totiž normality vysvětlujı́cı́ch proměnných a nezávislosti jednotlivých řádků matice plánu, tj. nezávislosti
123
vektorových náhodných veličin, jejichž realizace vytvořily řádky matice plánu. Navı́c je třeba
si uvědomit to, co vlastně bylo implicitně řečeno v předchozı́ větě, totiž že pokud použijeme
korelačnı́ matici dat k testu na kolinearitu, v podstatě přijmeme předpoklad, že matice plánu
nenı́ nestochastická, neboli začneme uvažovat v rámci modelu s náhodnými nosiči Xij i =
1, 2, . . . , n, j = 1, 2, . . . , p (s náhodnými vysvětlujı́cı́mi proměnnými). Potom je však třeba mı́t
na paměti, že β̂ (LS,n) je nestranným odhadem pouze tehdy, jsou-li tyto nosiče statisticky nezávislé
na náhodných fluktuacı́ch E a v odstavci věnovanému instrumentálnı́m proměnným jsme ukázali,
proč tomu tak je. To, možná trochu paradoxně znamená, že když se rozhodneme použı́t korelačnı́
matici dat k testu na kolinearitu, měli bychom nejprve otestovat nezávislost nosičů a reziduı́ a
následně také normalitu rozdělenı́ nosičů, nebot’ pokud je tato narušena test může dát naprosto
zavádějı́cı́ výsledky.
Jak plyne z výše uvedeného je Farrar-Glauberův test, založen na determinantu výběrové
korelačnı́ matice. Vzhledem k tomu, že výběrový korelačnı́ koeficient, podobně jako všechny
ostatnı́ “klasické” výběrové charakteristiky, je citlivý na odlehlá pozorovánı́, vykazuje determinant výběrové korelačnı́ matice také značnou citlivost na odlehlá pozorovánı́ a z toho plynoucı́
nespolehlivost indikace kolinearity.
7.4.5
Alternativnı́ řešenı́ problému kolinearity
Uved’me nynı́ výše slı́bený přı́klad, ukazujı́cı́, že rozšı́řenı́ dat o dalšı́ pozorovánı́ může (přirozeně)
odstranit kolinearitu. Současně tento přı́klad ukazuje, že někdy lze podezřenı́ na kolinearitu pojmout přı́mo na základě odhadů regresnı́ch koeficientů. Jedná se totiž o přı́pad, kdy na rozdı́l od
diskuze uvedené v kapitole věnované výstupům z počı́tače, kde jsme varovali před unáhlenými
úsudky učiněnými na základě znamének odhadů, jsme si “téměř” jisti tı́m, jaké znaménko by
přı́slušný koeficient (a tedy i jeho odhad) měl mı́t. Data byla uvedena v Montgomery, Askin
(1981) a popisujı́ požadavek na dodávky elektrické energie do jednotlivých domácnostı́ ve
špičkách o vı́kendech (vztaženo na jednu hodinu odběru) (y) a to v závislosti na rozloze domu
(x1 ), na přı́jmu domácnosti (x2 ), na kapacitě klimatizačnı́ho agregátu umı́stěného v domě (x3 ),
na hodnotě spotřebitelského indexu, který si stanovuje dodavatelská firma na základě součtu
přı́konů hlavnı́ch spotřebičů (x4 ) a na typickém počtu lidı́ obývajı́cı́ch dům o vı́kendech (x5 ).
Data vypadajı́ takto:
Tabulka 16.
Data o požadavcı́ch na dodávky elektrické energie pro domácnosti
Pořadı́
1
2
3
4
5
6
7
8
9
y
7.518
3.579
5.910
4.790
4.997
2.242
7.427
4.533
5.990
x1
3.164
1.929
2.613
2.337
2.757
1.398
3.366
2.378
2.881
x2
34.990
21.446
28.731
25.058
30.358
15.464
37.267
25.939
32.362
124
x3
7.0
1.5
6.5
4.0
4.0
1.0
5.0
3.0
3.5
x4
7.789
5.251
6.325
5.733
6.216
3.113
9.415
6.142
7.700
x5
4
5
3
4
1
6
1
2
5
Tabulka 16.
(pokračovánı́)
Pořadı́
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
y
4.101
1.685
4.560
4.657
3.151
2.976
2.867
2.662
4.363
2.991
2.766
5.323
6.553
3.736
6.796
4.496
2.831
5.495
6.656
2.349
6.824
5.354
5.802
4.790
6.283
3.400
6.083
5.740
3.599
5.010
4.625
4.385
4.505
3.958
6.071
4.571
6.849
2.610
5.829
4.755
2.646
x1
2.098
1.178
2.360
2.236
1.771
1.852
1.823
1.578
2.117
2.052
1.715
2.333
2.887
1.972
2.886
1.874
1.408
2.526
2.821
1.328
2.856
2.223
2.489
2.455
2.720
2.201
2.694
2.456
1.772
2.253
2.398
1.598
1.868
2.036
2.598
2.204
3.313
1.685
2.379
2.286
1.512
x2
22.395
12.531
25.784
25.152
19.106
20.677
20.037
18.154
23.951
22.069
18.324
25.942
32.236
22.123
32.161
21.070
15.957
27.687
31.145
14.160
31.812
24.788
26.661
27.203
29.524
23.424
29.096
27.076
19.177
24.535
25.949
17.604
20.614
22.277
27.924
24.587
30.016
18.485
26.341
25.327
17.351
125
x3
2.5
0.0
4.0
2.5
1.0
1.0
1.5
0.5
2.5
1.5
1.5
5.0
5.5
2.0
6.0
3.0
1.5
4.5
5.5
0.5
6.0
5.0
6.0
3.0
5.5
1.0
5.0
3.5
2.0
5.0
2.5
3.5
3.0
2.5
5.5
2.0
6.5
1.0
3.5
3.0
1.0
x4
5.222
2.575
5.536
6.208
5.213
4.659
4.453
3.978
6.236
4.892
3.960
5.038
7.815
4.432
7.039
5.254
2.967
6.481
7.284
3.652
7.186
5.965
6.862
6.007
6.715
5.625
6.949
6.143
4.864
4.975
6.947
3.914
4.817
5.581
6.233
6.073
6.054
3.677
7.345
5.230
3.824
x5
1
1
2
2
3
1
3
4
1
4
5
1
3
5
4
1
6
2
4
4
1
3
4
5
4
1
2
7
1
2
3
4
6
1
2
2
1
2
4
5
1
Tabulka 16.
(pokračovánı́)
51
52
53
54
55
56
57
58
59
60
4.279
3.701
4.561
4.707
4.541
3.891
6.394
6.528
2.925
5.059
2.246
1.819
2.288
2.320
2.276
1.994
3.454
3.490
1.936
4.061
24.612
19.754
25.720
25.444
25.439
22.150
27.855
31.998
21.215
22.962
2.0
2.5
3.0
3.0
3.0
2.0
4.0
5.0
1.0
3.0
5.950
4.522
6.313
5.579
6.113
5.316
7.215
7.145
4.506
5.854
2
1
4
4
3
4
2
2
4
1
Původně bylo shromážděno jen 40 pozorovánı́ a provedena klasická regresnı́ analýza. Výsledky
byly následujı́cı́.
Tabulka 17.
Výsledky regresnı́ analýzy pro data o spotřebě elektrické energie.
(40 domácnostı́)
Variable
Estimate
intercept
x1
x2
x3
x4
x5
-.04160
-2.49756
.26947
.41430
.37931
.03035
Standard
error
.253137
1.026253
.089492
.039236
.089459
.023183
t-value
P -value
-.16434
-2.43367
3.01115
10.55908
4.24012
1.30919
.870438
.020354
.004882
.000000
.000162
.199248
Sum of squares
Degrees of freedom
Scale estimate
P-value
=
=
=
=
=
=
8.160
34
0.240
0.979
313.918
0.000
Model je dobře determinován a i odhad velikosti rozptylu fluktuacı́ se zdá být přijatelný
vzhledem k hodnotám, kterých nabývá vysvětlovaná veličina. Hodnota P -value pro absolutnı́
člen sice signalizuje, že je možná tento v modelu zbytečný, a jistě bychom dovedli nalézt i
věcné argumenty, proč by tam neměl být, např. že pokud rozloha domu bude nulová, nebude
v domě klimatizace, nikdo nebude na vı́kend doma atd., odběr elektrické energie bude nulový.
Právě tak lze snést řadu argumentů, že tomu tak nebude. Např. lednička či ohřı́vače vody se
obvykle nevypı́najı́, alespoň v domácnostech s vyššı́mi přı́jmy, ani když nikdo na vı́kend nenı́
doma. Vzhledem k tomu, co bylo řečeno o úloze absolutnı́ho členu výše, ponecháme jej v modelu. Nevýznamným se rovněž zdá být počet lidı́ v domě v době vı́kendu. To si samozřejmě lze
126
vysvětlit tak, že zvýšenı́ spotřeby elektrické energie při zvýšenı́ počtu lidı́ v domě nebude až tak
veliké. Ovšem i opak může být pravdou. Mohli bychom tedy model akceptovat. Prohlédněme
si jej ale pozorněji. Patrně každý by (racionálně) očekával, že při většı́ rozloze domu, bude
požadavek na dodávky elektrické energie většı́. To koliduje se záporným znaménkem u odhadu
přı́slušného regresnı́ho koeficientu. Ačkoliv jsme to již dřı́ve připoměli, tato úvaha nenı́ v rozporu s varovánı́m o unáhlené a zcestně jednostranné interpretaci znamének odhadů regresnı́ch
koeficientů, na kterou jsme upozorňovali v kapitole o výstupech ze statistických počı́tačových
knihoven, nebot’ tady znaménko “neobjevujeme”, či nezjišt’ujeme, chcete-li, ale máme o něm
dosti oprávněné a proirnı́ představy. Vzhledem k výše uvedené diskuzi o signifikantnosti absolutnı́ho členu a počtu lidı́ v domě ještě podotkněme, že přepočı́táme-li model po vyloučenı́
této vysvětlujı́cı́ veličiny, záporné znaménko u “rozlohy domu” se nezměnı́, jen se nepatrně
změnı́ hodnota odhadu, totiž na −2.634; podobně vyloučı́me-li absolutnı́ člen dojde ke změně
na −2.541. To může vést k podezřenı́, že něco nenı́ s modelem v pořáku, a jednou z přı́čin
by mohla být kolinearite vysvětlujı́cı́ch proměnných. Spočteme tedy vlastnı́ čı́sla matice X T X a
dostaneme pořadě 3.69689, 0.983788, 0.266574, 0.049994 a 0.002752. Odtud odmocnina z poměru
největšı́ho a nejmenšı́ho z nich je 36.65. To ukazuje (jak jsme ostatně uvedli výše) na takový
stupeň kolinearity, který patrně nelze jen tak ignorovat.
Spočteme-li však hřebenovou regresi, např. pro δ = 0.1 (to je defaultová hodnota nabı́zená
STATISTICOU), zmizı́ sice “nepatřičné” minusové znaménko u rozlohy domu, ale tato vysvětlujı́cı́
proměnná se stane statisticky nevýznamnou. Významnými zůstanou pouze kapacita klimaσ̂ 2
tizačnı́ho agregátu a hodnota spotřebitelského indexu. Ačkoliv je (LS,n)
= 0.712 > 0.1 a
kβ̂
k2
tedy je patrně splněna podmı́nka z Lemmatu 11, zdá se být tento model podivný, nebot’ jak
počet lidı́ trávı́cı́ch v domě vı́kend, tak zejména rozloha domu by patrně měly hrát roli pro
velikost spotřeby elektrické energie.
Ačkoliv pro vyššı́ hodnoty δ se stanou významnými téměř všechny vysvětlujı́cı́ proměnné,
autoři dat (Montgomery, Askin (1981) ) zvolili jinou cestu, obávajı́ce se možná přı́lišného
vychýlenı́ odhadu β̂ (R,δ,n) . Vzhledem k tomu, že nelze nikdy vyloučit možnost, že kolinerita
nastala dı́ky náhodně “jednostraně”, či chcete-lii “vychýleně”, pořı́zeným datům, a vzhledem
k tomu, že rozšı́řenı́ dat nebylo ekonomicky až tak náročné jako by mohly být důsleky špatně
odhadnutého modelu, zvolili cestu pořı́zenı́ dalšı́ch dat, tj. soubor byl rozšı́řen na takový, jaký
je uveden v Tabulce 16. Analýza provedená pro tato data dává tyto hodnoty.
Tabulka 18.
Výsledky regresnı́ analýzy pro data o spotřebě elektrické energie.
(60 domácnostı́)
Variable
Estimate
intercept
x1
x2
x3
x4
x5
-.039315
.407674
.003333
.437516
.375983
.044368
Standard
error
.229760
.121617
.025156
.036150
.076869
.022014
127
t-value
P -value
-.17111
3.35211
.13248
12.10284
4.89121
2.01544
.864774
.001470
.895094
.000000
.000009
.048848
Sum of squares
Degrees of freedom
Scale estimate
P-value
=
=
=
=
=
=
14.418
54
0.267
0.968
328.221
0.000
Odhad koeficientu pro “rozlohu domu” se zdá nynı́, alespoň co do znaménka, rozumnějšı́, než
pro data obsahujı́cı́ jen 40 domácnostı́. Vlastnı́ čı́sla matice X T X majı́ nynı́ hodnoty 3.478789, 0.985613, 0.304462,
a 0.045914 a tedy koeficient podmı́něnosti má hodnotu 8.70, což je hodnota, kterou lze považovat
za ještě přijatelnou, tj. dovolujı́cı́ “ignorovat” kolinearitu.
Právě probraný přı́klad ukazuje, že regresnı́ analýza vyžaduje nebrat žádná předem stanovená,
doporučená či zaběhaná kriteria zcela dogmaticky, tj. bez jakékoliv pochybnosti či vyjı́mky. Je
spı́še třeba zamýšlet se na vhodnostı́ modelu ze všech možných stanovisek a zkoumat jeho akceptovatelnost vzhledem ke všem informacı́m, i k těm, které se nám nepodařilo či které jsme
nechtěli do modelu začlenit.
7.4.6
Závěr
Na konci tohoto odstavce se ještě jednou zopakujme, co jsme již výše naznačili. Řekli jsme
si, že v některých učebnicı́ch se doporučuje k rozeznánı́ kolinearity “test” na nulovost determinantu čtverce matice plánu, tj. matice X T X a ukázali jsme si hned v úvodu odstavce, že
vynásobenı́m všech dat, které máme k dispozici stejným čı́slem nezměnı́me regresnı́ model, ale
determinant matice plánu může být změněn na libovolně velký. Aby toto bylo uvedeno na
“pravou mı́ru” doporučujı́ některé z těchto učebnic nejprve normovat data tak, že je posuneme
pomocı́ průměrů sloupců a vydělı́me odhadem směrodatné odchylky (viz předchozı́ odstavec o
Farrar-Glauberově testu). Podotkněme, že některé texty předpokládajı́ od samého začátku, že
data jsou normována právě naznačeným způsobem, viz Montgomery, Peck (1982). Snadno se
nahlédne, jak toto může (neblaze) ovlivnit zpracovánı́ dat, pokud tato budou obsahovat nějaké
odlehlé (či chcete-li, atypické) údaje. Nehledě na to, že pak vlastně posuzujeme podmı́něnost
jiné matice. Ostatně jsme si to již ukazovali v odstavci 5.1 (viz text zhruba jeden a půl stránky za
Tabulkou 8). Je až s podivem, jak některé texty, týkajı́cı́ se regrenı́ analýzy realizované pomoci
metody nejmenšı́ch čtverců, zcela opomı́jejı́ nebezpečı́ vyplývajı́cı́ z veliké citlivosti této metody
na kontaminaci (znečištěnı́) dat, např. odlehlými pozorovánı́mi. Autoři těchto textu si bud’ nejsou vědomi či poceňujı́ toto nebezpečı́ a dopady, které může mı́t na zpracovánı́ dat, ačkoliv
v pracech věnovaných robustnı́ regresnı́ analýze bylo již uvedeno mnoho přı́kladů osvětlujı́cı́ch
zejména záludnost této situace. Lze totiž poměrně snadno nalézt přı́klady dat, které projdou
klasickou regresnı́ analýzou i běžnými diagnostickými vyšetřenı́mi aniž by vzbudily i jen náznak
podezřenı́ na to, že je cosi v nepořádku, viz např. Hampel a kol. (1986), Rousseeuw, Leroy
(1987) či Vı́šek, J. Á (1996 b, c), (1997 d).
Na úplný závěr ještě poznamenejme, že vzhledem k tomu, že matice X T X je vlastně, až
na násobek, odhadem kovariančnı́ matice vysvětlujı́cı́ch proměnných a je citlivá na odlehlá pozorovánı́. To znamená, že při výpočtu vlastnı́ch čı́sel matice X T X, tj. při hledánı́ κ(X), se nevy128
hneme problému vlivných bodů. Pomoci si můžeme, aplikujeme-li některou robustnı́ metodu na
odhad kovariančnı́ matice (viz opět Hampel a kol. (1986), Lopuhaa̋ (1989)).
8
NĚKTERÉ SPECIÁLNÍ TYPY REGRESNÍHO MODELU
Jak název této kapitoly napovı́dá, probereme v nı́ některé typy regresnı́ch modelů, které se
vymykajı́ běžnému regresnı́mu modelu. Nejprve si všimneme zobecněného regresnı́ho modelu,
poté modelu, ve kterém vysvětlovaná proměnná nenı́ spojitého typu. V dalšı́ch odstavcı́ch se
budeme věnovat naopak přı́padu, kdy regresory budou diskrétnı́ či chcete-li, kvalitativnı́, (což
nenı́ úplně totéž, ale nenı́ to přı́liš odlišné), přı́padně, kdy tyto budou měřeny s nějakou náhodnou
chybou.
8.1
Zobecněný regresnı́ model
Je patrné, že pokud budou naše data představovat záznam některých časových řad , ale nejen
v tomto přı́padě, nemusı́ být dodržen předpoklad nezávislosti fluktuacı́ mezi jednotlivými řádky
v modelu (4). Ke zpracovánı́ takových dat budeme potřebovat zobecněnı́ základnı́ho regresnı́ho
modelu. V této kapitole budeme tedy předpokládat, že platı́
Podmı́nky A∗ Pro každé pevné n ∈ N je posloupnost {Ei }ni=1 posloupnostı́ stejně rozdělených
náhodných veličin s nulovou střednı́ hodnotou a kovariančnı́ maticı́ Σ, která je regulárnı́.
³
TVRZENÍ 19 Platı́-li Podmı́nky A∗ , potom β̂ (LS,n) = X T Σ−1 X
´−1
X T Σ−1 Y .
Důkaz. K důkazu použijeme spektrálnı́ rozklad matice a budeme psát Σ = QT Q, kde Q je
regulárnı́. Zinvertovánı́m dostaneme Σ−1 = Q−1 [Q−1 ]T . Necht’
Ỹ = [Q−1 ]T Y
X̃ = [Q−1 ]T X
Ẽ = [Q−1 ]T E.
a
Z původnı́ho modelu
Y = Xβ + E
znásobenı́m zleva maticı́ [Q−1 ]T dostaneme
Ỹ = X̃β + Ẽ,
s IE Ẽ · Ẽ T = IE [Q−1 ]T E · E T [Q−1 ] = I. Nynı́ již se snadno ověřı́, že odhad metodou nejmenšı́ch
čtverců bude dán vztahem
³
β̂ (LS,n) = X̃ T X̃
´−1
³
X̃ T Ỹ = X T Q−1 [Q−1 ]T X
³
= X T Σ−1 X
´−1
´−1
X T Σ−1 Y.
X T Q−1 [Q−1 ]T Y
(131)
2
POZNÁMKA 12 Odhad (131) se v literatuře někdy označuje jako Aitkenův, častěji však
jako zobecněný odhad metodou nejmenšı́ch čtverců. Budeme jej proto označovat β̂ (GLS,n) , a to
zejména tam, kde bude třeba zdůraznit, že přı́slušná kovariančnı́ matice Σ 6= σ 2 I. Odhad má za
předpokladů, které byly uváděny výše pro β̂ (LS,n) všechny dobré (i méně dobré) vlastnosti odhadu
nejmenšı́ch čtverců.
129
Nynı́ si ujasněme, co se stane pokud odhadneme β 0 pomocı́ běžného odhadu nejmenšı́ch
čtverců (Ordinary Least Squares). Následujı́cı́ vztahy ukazujı́
³
XT X
IE
´−1
³
XT Y = XT X
´−1
X T Xβ 0 = β 0
a
³
XT X
´−1
³
XT Y = XT X
= β0 +
´−1
³
X T β0 + X T X
´−1
³
´
³
X T Y − Xβ 0 = β 0 + X T X
n ³ T ´−1 T
X X
X E = β0 +
n
µ
1 T
X X
n
¶−1
´−1
XT E
1 T
X E,
n
že pokud budeme ignorovat závislost mezi náhodnými fluktuacemi, odhad bude stále ještě nestranný a konsistentnı́. Lze však očekávat a snadno se to ověřı́, že nebude nejlepšı́, tj. eficientnı́.
K nalezenı́ eficientnı́ho odhadu potřebujeme znát matici Σ, či alespoň jejı́ “spolehlivý” odhad.
Z následujı́cı́ úvahy je ihned patrné, že pokud nebudeme v jednotlivých bodech faktorového
prostoru opakovat pozorovánı́ a matice Σ bude zcela obecná neznámá matice, nelze v zobecněném
regresnı́m modelu regresnı́ koeficienty eficientně odhadnout. Museli bychom totiž odhadnout
(LS,n)
2 , k, j = 1, 2, . . . , n, tj., vzhledem k symetrii matice Σ, n(n+1) + p
β̂j
, j = 1, 2, . . . , p a σkj
2
parametrů modelu z n·(p+1) napozorovaných čı́sel. A to je nemožné. Východiskem může být to,
že se snı́žı́ počet odhadovaných parametrů, např. tı́m, že budeme předpokládat speciálnı́ strukturu matice Σ. To je ekvivalentnı́ předpokladu, že závislost mezi jednotlivými řádky v modelu
(4) bude některého jednoduchého typu. Budeme-li např. uvažovat model s markovskými fluktuacemi, tj. bude IE Ei Ei−1 = σ∗2 , i = 2, 3, . . . , n a IE Ei Ej = 0 pro |i − j| > 1, což zapsáno ve
tvaru matice dává
 2

σ σ∗2 0 . . . 0 0
 σ2 σ2 σ2 . . . 0
0 
 ∗

∗


2
2
0
σ
σ
.
.
.
0
0


∗
T

IE E · E =  0 0 σ 2 . . . 0 0 
,
∗

..
..
..
.. 
 ..

 .
.
.
.
. 
0
0
0
. . . σ∗2 σ 2
budeme odhadovat pouze 2 + p parametrů. Později se setkáme s dalšı́mi situacemi, ve kterých
specifický tvar matice Σ umožnı́ použı́t výsledky této kapitoly.
Snadno se nahlédne, že po formálnı́ stránce, bychom vlastně nepotřebovali předpoklad o stejném
rozdělenı́ jednotlivých náhodných fluktuacı́. Ztı́žilo by to však odhad matice Σ.
8.2
Model s diskrétnı́ vysvětlovanou proměnnou
Poměrně často se můžeme setkat s daty, kde vysvětlovaná proměnná nemá spojitý charakter
a nabývá jen diskrétnı́ch hodnot. Uved’me si nejprve několik přı́kladů situacı́, které “produkujı́”
taková data.
Vysvětlovaná proměnná:
• popisuje nula-jedničkový stav něčeho či někoho, např. zaměstnaný-nezaměstnaný, plavecneplavec, kuřák-nekuřák, gramotný-negramotný, tekutý-pevný, prodejný-neprodejný, funkčnı́nefunkčnı́ atd.,
130
• je čı́tacı́ho charakteru, např. počet přihlášek telefonu, počet uchazečů o studium, počet
patentů, počet zákaznı́ků atd.,
• je vlastně zakdovaná ryze kvalitativnı́ proměnná, např. souhlası́ bez výhrad, souhlası́ s
výhradami, nevı́, nesouhlası́, zásadně nesouhlası́ či výborně připraven, velmi dobře připraven,
dobře připraven, špatně připraven, velmi špatně připraven, zcela nepřipraven atd.,
• je sice v podstatě spojitého charakteru, ale je obvykle udávána jen jako diskrétnı́, např.
počet odpracovaných hodin, vzdálenost v kilometrech, přı́kon v kilowatech atd..
Z matematického hlediska je zřejmé, že pokud budeme umět posoudit situaci tj. provést
diskuzi problémů, které vyvstávajı́ při použitı́ klasického regresnı́ho modelu a navrhnout jejich řešenı́ pro přı́pad, kdy vysvětlovaná veličina je binárnı́, je úloha téměř vyřešena. Modely
s vysvětlujı́cı́ veličinou, která nabývá konečného počtu hodnot jsou vlastně “jen” (přı́močarým)
zobecněnı́m tohoto binárnı́ho modelu
8.2.1
Problémy s použitı́m klasického regresnı́ho modelu pro binárnı́ vysvětlovanou
veličinu
Uvažujme na chvı́li jednoduchou situaci, kdy vysvětlovaná proměnná bude nabývat hodnoty nula
a jedna, kdujı́cı́ skutečnost, zda daná domácnost vlastnı́ auto či auto nevlastnı́. Předpokládejme,
že toto závisı́ jen od výše disponibilnı́ho přı́jmu. To sice nenı́ zcela raealistické, ale pro naše
účely to bude po formálnı́ stránce výhodné, a na podstatě dále uvedené diskuze by přı́tomnost
vı́ce vysvětlujı́cı́ch proměnných nic nezměnila. Pokusme se tedy popsat uvedenou závislost
jednoduchým regresnı́m modelem
Yi = β1 + xi2 β2 + Ei ,
i = 1, 2, ..., n.
Protože
IE Yi = β1 + xi2 lβ2
a současně
IE Yi = 1 · P (Yi = 1) + 0 · P (Yi = 0) = P (Yi = 1),
máme P (Yi = 1) = β1 +xi2 β2 . Proto se takový model obvykle označuje jako lineárnı́ pravděpodobnostnı́
model. Je evidentnı́, že model se bude potýkat hned s několika problémy najednou. Za prvé,
vzhledem k tomu, že Yi , i = 1, 2, ..., n nabývá jen hodnoty 0 nebo 1, musı́ Ei být rovno bud’
−β1 − xi2 β2 , pokud Yi = 0, nebo 1 − β1 − xi2 β2 v přı́padě, že Yi = 1. Pokud navı́c budeme chtı́t,
aby IE Ei = 0, musı́ být
P (Ei = −β1 − xi2 β2 ) = 1 − β1 − xi2 β2
a
P (Ei = 1 − β1 − xi2 β2 ) = β1 + xi2 β2 .
Potom ovšem
varEi = (β1 + xi2 β2 ) (1 − β1 − xi2 β2 ) ,
131
což znamená, že model vykazuje heteroskedasticitu. Dalšı́m problémem je to, že β1 + xi2 β2
musı́ být nezáporné, ale ne většı́ než jedna, a to pro všechny (povolené) hodnoty xi2 . To
představuje omezenı́ na koeficienty a jejich odhady, samozřejmě, řekněme alespoň při daných
datech. To obecně převede lineárnı́ problém odhadu regresnı́ch koeficientů na problém kvadratický. Tı́m obecně ztratı́ platnost všechna tvrzenı́ dokázaná pro klasický linearnı́ regresnı́ model,
tj. např. nelze pomocı́ studentizovaných odhadů testovat jejich signifikantnost ani pomoci FisherSnedecorova F posoudit determinovanost modelu.
8.2.2
Model s binárnı́ možnostı́ výběru
Abychom se vyhnuli výše uvedeným problémům s tı́m, že náhodné fluktuace jsou binárnı́, a z
toho plynoucı́m problémům s heteroskedasticitou, obvykle konstruujeme model pro binárnı́ výběr
pomocı́ užitků jednotlivých variant výběru pro danou domácnost, firmu atd.. Necht’ tedy po řadě
Ui1 a Ui2 jsou užitky z prvnı́ a druhé volby pro i-tou domácnost, firmu, subjekt, atd.. Dále necht’
zi1 a zi2 jsou vektory charakterizujı́cı́ výhodnost prvé a druhé alternativy, tak jak jsou vnı́mány
i-tým subjektem, a wi necht’ je vektor socio-ekonomických charakteristik i-tého subjektu. Potom,
předpokládáme-li linearitu, můžeme psát
T
Uij = αj + zij
δ + wiT γj + Vij ,
i = 1, 2, ..., n, j = 1, 2.
Dále budeme předpokládat, že Yi bude rovno jedné, pokud subjekt i zvolı́ prvnı́ alternativu
a rovno nule v opačném přı́padě. Upozorněme na tomto mı́stě, že pro dva různé subjekty je
fakt “rozhodnutı́ se pro prvnı́ alternativu” obecně popsán dvěma různými jevy, řekněme Ai a
Aj z nějaké základnı́ σ-algebry A; v některých textech o probitové analýze docházı́ ke zmatkům
v okamžiku, kdy autoři rozlišujı́ mezi pravděpodobnostmi Pi pro různé subjekty subindexem i viz (132) nı́že, ale zmı́něný fakt formalizujı́ náhodným jevem, řekněme A, bez rozlišenı́ pomoci
indexu. Protože i-tý subjekt zvolı́ prvnı́ alternativu tehdy, bude-li tato pro něj výhodnějšı́ než
druhá, tj. pokud Ui1 > Ui2 , máme (prvnı́ rovnost je zavedenı́m dále použı́vaného označenı́)
Pi = P (Yi = 1) = P (Ui1 > Ui2 )
³
(132)
´
T
T
= P Vi1 − Vi2 < α2 − α1 + (zi2
− zi1
)δ + wiT (γ2 − γ1 ) = F (xTi β),
T − z T , w T ) a β T = (α − α , δ T , γ T − γ T ). Pı́smenem F jsme označili distribučnı́
kde xTi = (1, zi2
2
1
2
1
i1
i
funkci rozdı́lu Vi1 − Vi2 . Nejběžněji studované modely jsou ty, kde funkce F byla zvolena:
lineárnı́ pravděpodobnostnı́ model
F (xTi β) = xTi β,
probitový model
F (xTi β) =
logitový model
F (xTi β) =
R xTi β
−∞
2
t
√1 e− 2
2π
dt,
1
1+e
−xT β
i
Prvnı́ variantu jsme již výše diskutovali a ukázali, že nepatřı́ ke št’astným volbám. Druhá
varianta representuje přı́pad, kdy za F zvolı́me standardnı́ normálnı́ distribuci. Ve třetı́ variantě
byla zvolena logistická distribučnı́ funkce.
Při této přı́ležitosti upozorněme na to, že některé monografie věnované regresnı́ analýze či
ekonometrii, užı́vajı́ ještě pojmu logistický model, přičemž některé tı́m mı́nı́ to, co jsme výše
132
označili, ve shodě s drtivou většinou autorů, jako logitový model, některé tı́m rozumějı́ model
časové řady s logistickým trendem. To je asi třeba mı́t na paměti při čtenı́ aplikačnı́ch studiı́,
ve kterých bez bližšı́ specifikace autor pravı́, že použije logistický model pro zpracovánı́ dat.
Z kontextu by však mělo být jasné, o co jde.
Než postoupı́me dále ve výkladu, uvědomme si ještě, že P (Yi = 1) = F (xTi β), i = 1, 2, ..., n
představujı́ teoretické pravděpodobnosti (označme je Pi ), zatı́mco my máme k dispozici jejich
výběrové “protějšky” (řekněme πi ). Vlastně se tedy pokoušı́me odhadnout regresnı́ koeficienty
v modelu
πi = Pi + Ei = F (xTi β) + Ei , i = 1, 2, ..., n.
(133)
V dalšı́m výkladu bude π označovat vektor výběrových pravděpodobnostı́ (π1 , π2 , ..., πn )T .
8.2.3
Odhady parametrů v lineárnı́m pravděpodobnostnı́m modelu
Výše jsme diskutovali potı́že, které s sebou přinášı́ použitı́ lineárnı́ho pravděpodobnostnı́ho modelu a naznačili jsme, že model s binárnı́ možnostı́ výběru by mohl pomoci řešit tyto problémy,
a to v přı́padě, že za funkci F nezvolı́me identitu, nebot’ jinak se opět dostaneme k lineárnı́mu
pravděpodobnostnı́mu modelu. Pokud bychom však z nějakých důvodů potřebovali přeci jenom
odhadnout parametry β v lineárnı́m pravděpodobnostnı́m modelu, pak lze postupovat v podstatě dvěma způsoby. Oba však předpokládajı́ (dostatečně krát provedené) opakovánı́ pozorovánı́
(měřenı́) v jednotlivých bodech faktorového prostoru.
Prvnı́ z nich vezme do úvahy to, že model vykazuje heteroskedasticitu, a prostě aplikuje
Aitkenův odhad, ve kterém použije namı́sto neznámé kovariančnı́ matice Σ jejı́ odhad. Jinými
slovy, nejprve odhadneme pomoci běžného odhadu metodou nejmenšı́ch čtverců regresnı́ koeficienty β, spočteme rezidua a odhadneme kovariančnı́ matici Σ. Ačkoliv odhad regresnı́ch
koeficientů je neeficientnı́, je nevychýlený, jak jsme si ostatně ukázali v kapitole věnované
zobecněnému odhadu metodou nejmenšı́ch čtverců. To umožňuje nestranně odhadnout matici Σ
a spočı́tat ve druhém kroku β̂ (EGLS,n) (estimated generalized least squares). Tento přı́stup ovšem
nevyřešı́ ten problém, že potřebujeme omezit hodnotu výrazu XiT β̂ (LS,n) na interval [0, 1]. Proto
je patrně obecně přijatelnějšı́ druhý postup spočı́vajı́cı́ v tom, že vyčı́slı́me odhad s omezenı́mi
danými přı́slušnými nerovnostmi.
Budeme tedy předpokládat, že jsme, podobně jako výše provedli (neeficientnı́) odhad regresnı́ch koeficientů a spočetli na základě reziduı́ odhad kovariančnı́ matice Σ. V druhém kroku
pak budeme řešit úlohu (srovnej se (133) )
β̂ (C,n) = arg min (π − Xβ)T Σ̂−1 (π − Xβ)
β∈Rp
při vedlejšı́ch podmı́nkách
Xβ ≤ 1
(134)
Xβ ≥ 0.
(135)
a
Připomı́náme, že symbolem 1 jsme v Tvrzenı́ 8 označili vektor majı́cı́ všechny souřadnice rovné
jedné. Na druhé straně jsme však v předchozı́m textu pro nulový vektor běžně užı́vali symbol
133
0 a nikoliv 0, nebot’ z kontextu bylo zřejmé o co jde. Přidrželi jsme se proto tohoto označenı́
i nynı́.
V některých přı́padech, a tyto nemusı́ být tak ojedinělé, jak by se na prvnı́ pohled mohlo
zdát, budeme a priori znát body faktorového prostoru, ve ktrých bude v budoucnu požadována
predikce přı́slušných pravděpodobnostı́. Necht’ tyto body jsou označeny maticı́ X̃ (typu (p × m),
řekněme). Pak se ovšem naše úloha rozšı́řı́ ještě o omezenı́
X̃β ≤ 1
(136)
X̃β ≥ 0.
(137)
a
Kombinace obou párů omezenı́ dá
·
W
−W
¸
·
β≤
kde
"
W =
X
X̃
1
0
¸
,
(138)
#
.
Můžeme tedy např. uvažovat Lagrageovou funkci
L(β, λ1 , λ2 ) = (π − Xβ)T Σ̂−1 (π − Xβ) + 2λT1 (1 − W β) + 2λT2 W β,
kde λ1 a λ2 jsou vektory Lagrangeových multiplikátorů (oba z Rn+m ). Budeme tedy řešit soustavu
−X T Σ̂−1 (π − Xβ) − W λ1 + W λ2 ,
1 − W β ≥ 0,
λT1 (1 − W β) = 0,
W β ≥ 0 a λT2 W β = 0.
Označı́me-li u1 = 1 − W β a u2 = W β, lze úlohu přepsat na
X T Σ̂−1 π = W λ2 − W λ1 + X T Σ̂−1 Xβ,
1 = W β + u1 ,
0 = −W β + u2 ,
λT1 u1 = 0,
λT2 u2 = 0
při podmı́nkách nezápornosti
λ1 ≥ 0,
λ2 ≥ 0,
u1 ≥ 0 a u2 ≥ 0.
Vzhledem k linearitě systému rovnic, lze tuto úlohu řešit pomoci simplexové metody, pro kterou
je dnes již poměrně snadno dostupný software.
134
8.2.4
Odhady parametrů v probitovém a logitovém modelu
Dřı́ve než se pustı́me do studia možnostı́ odhadu regresnı́ch koeficientů pro probitový a logitový
model, vrat’me se krátce k důvodům, které vedly k tomu, že byly vybrány právě tyto dvě
distribučnı́ funkce. Za touto volbou stojı́ zhruba tato logika. Předpokládáme, že se i-tý subjekt
(domácnost, firma, agent atd.) tı́m spı́še rozhodne pro variantu Ai (což jsme formalizovali jako
Yi = 1), čı́m většı́ bude hodnota výrazu xTi β 0 , kde ovšem β 0 neznáme a chceme je odhadnout.
Pokud je hodnota tohoto výrazu implicitně závislá na mnoha nezávislých a v podstatě náhodných
faktorech, či chcete-li jevech, jejichž vliv se agreguje, pak centrálnı́ limitnı́ věta, aplikovaná
značně neformálně, napovı́dá, že rozdělenı́ “veličiny” Zi = xTi β 0 je přibližně normálnı́ a tedy
pravděpodobnost toho, že rozhodnutı́ bude ve prospěch varianty Ai je rovna Φ(xTi β 0 ), kde jsme
použili symbol Φ pro distribučnı́ funkci standardnı́ho normálnı́ho rozdělenı́. Volba logistické
distribučnı́ funkce pak souvisı́ s faktem, že tato docela slušně aproximuje normálnı́ distribuci a
je jednoduchá z technického hlediska. V některých monografiı́ch se při tomto zdůvodněnı́ tvrdı́,
že logistická d. f. aproximuje standarnı́ normálnı́ velmi dobře a tento argument je stále znova
přejı́mán dalšı́mi autory, aniž by skutečně ověřili, jak “daleko” od sebe tyto distribuce skutečně
jsou; uved’me tedy pro pořádek, že
max |Φ(t) − Flogistická (t)| = 0.1174
t∈R
a toto maximum nastává v bodech t = 1.3246 a t = −1.3246. Podobně jako výše budeme
předpokládat, že máme opakovaná pozorovánı́ v jednotlivých bodech faktorového prostoru. Ostatně jinak bychom nebyli schopni odhadnout kovariančnı́ matici Σ, jak jsme již výše několikrát
připoměli, ale také regresnı́ model (133) by trochu “ztrácel na lesku”, nebot’ by bylo podivné
odhadovat pravděpodobnost Pi nějakou hodnotou πi vypočı́tanou na základě jednoho pozorovánı́.
V dalšı́m výkladu rozlišı́me dva přı́pady, totiž
• máme k dispozici dostatečné množstvı́ opakovánı́
a
• máme k dispozici jen několik opakovánı́.
Přirozeně je na uživateli posoudit, kdy je vhodnějšı́, pro daná data, použı́t ten či onen přı́stup.
Postup pro přı́pad, kdy je k dispozici dostatečné množstvı́ opakovánı́
Studujme nejprve probitový model. Připomeňme, že uvažujeme model
πi = Pi + Ei = Φ(xTi β) + Ei ,
i = 1, 2, ..., n,
(139)
kde πi je odhad teoretické pravděpodobnosti, že se i-tý subjekt rozhodne pro variantu Ai .
Odhad πi je založen na ni opakovánı́ch pozorovánı́ i-tého subjektu, tj. na opakovánı́ch pozorovánı́ v i-tém bodě faktorového prostoru, řečeno v terminologii, kterou jsme použı́vali pro
“klasický” regresnı́ model. Protože jistě zvolı́me konsistentnı́ odhad πi , bude Ei konvergovat
v pravděpodobnosti k nule pro ni → ∞. Vzhledem k tomu, co bylo řečeno výše, totiž, že
předpokládáme, že Pi je pravděpodobnost toho, že se i-tý subjekt rozhodne pro variantu Ai ,
135
je přirozené předpokládat, že πi bude maximálně věrohodný odhad této pravděpodobnosti, tj.
počet přı́padů, kdy se v ni pozorovánı́ch i-tý subjekt rozhodl pro variantu Ai . Potom ovšem
πi =
ni
X
yik
k=1
ni
,
kde yik je k-tá realizace Bernoulliovské náhodné veličiny Yi nabývajı́cı́ hodnoty 1 v přı́padě,
kdy se i-tý subjekt rozhodne pro variantu Ai a 0 v přı́padě, kdy se rozhodne pro doplněk této
varianty. Jinými slovy, zcela v souladu s výše v této kapitole vedenými úvahami Yi je náhodná
veličina, která nabývá hodnoty 1 s pravděpodobnostı́ Pi a hodnoty 0 s pravděpodobnostı́ 1 − Pi .
Odtud plyne, že
Pi (1 − Pi )
.
IE Ei = 0
a
var(Ei ) =
ni
Podotkněme ještě, že v některých monografiı́ch se právě uvedené vztahy “deklarujı́” bez specifikace typu odhadů πi teoretických pravděpodobnostı́ Pi . Je sice pravda, že podobný výsledek
dostaneme pro většinu akceptovatelných odhadů pravděpodobnostı́ Pi , ale obecně to nemusı́
√
platit. V podstatě to předpokládá, že odhad πi je nestranný a ni -konsistentnı́, tj.
√
ni (πi − Pi ) = Op (1).
Model (139) lze přepsat do tvaru
Φ−1 (πi ) = Φ−1 (Pi + Ei ),
kde si pro několik dalšı́ch okamžiků odpustı́me neustálé opakovánı́ “pro i = 1, 2, ..., n”. Rozvinutı́m pomoci Taylorovy řady dostaneme
Φ−1 (πi ) = Φ−1 (Pi ) + Ei
dΦ−1 (Pi )
+ Ri ,
dPi
kde Ri = O(1) · Ei2 a tedy Ri nejen konverguje k nule v pravděpodobnosti, ale je přirozeně (opět
v pravděpodobnosti) řádově menšı́ než druhý člen pravé strany poslednı́ rovnosti. Konečně tedy
Φ−1 (πi ) ≈ Φ−1 (Pi ) + Ei
1
,
φ(Φ−1 (Pi ))
(140)
kde jsme symbolem φ(t) označili hustotu standardnı́ho normálnı́ho rozdělenı́. Vzhledem k tomu,
že Φ−1 (Pi ) = xTi β 0 , můžeme pro ξi = Φ−1 (πi ) uvažovat model
ξi = xTi β 0 + Vi ,
kde ξi bývá označováno jako “napozorovaný” probit a xTi β 0 je “skutečný” (ve smyslu anglosaského true) probit. Nynı́ pokud odhad πi pravděpodobnosti Pi byl nestranný, máme z
(140)
Ei
Vi ≈
φ(Φ−1 (Pi ))
a tedy
IE Vi ≈ 0
a
var(Vi ) ≈
136
Pi (1 − Pi )
.
ni (φ(Φ−1 (Pi )))2
(141)
Odhadneme-li tedy β 0 pomoci
³
β̂ (LS,n) = X T Σ̂−1 X
´−1
X T Σ̂−1 ξ,
kde Σ̂ je odhad kovariančnı́ matice náhodných fluktuacı́ Vi . Vzhledem k tomu, že obvykle
předpokládáme (statistickou) nezávislost subjektů, tj. také statistickou nezávislost jevů i-tý
subjekt se rozhodl pro variantu Ai a j-tý subjekt se rozhodl pro variantu Aj , budou i náhodné
fluktuace Ei statisticky nezávislé, a konečně pak totéž lze předpokládat o fluktuacı́ch Vi . To
znamená, že odhad kovariančnı́ matice Σ bude diagonálnı́ s tı́m, že na diagonále budou stát
právě odhady rozptylů uvedené v (141). Samozřejmě se nabı́zejı́ i jiné odhady, jak jsme ostatně výše zmı́nili. Např. můžeme, pokud jsme si jisti tı́m, že Pi = φ(xTi β 0 ), použı́t odhad
P̃i = Φ(ξî ) = Φ(xTi (X T X)−1 X T ξ).
Pro logitový model lze postupovat obdobně. Připomeňme, že tento model předpokládá, že
Pi = P (Ai |xi ) =
což implikuje
µ
Pi
ln
1 − Pi
1
,
1 + exp{xTi β 0 }
¶
= xTi β 0 .
Vzhledem k tomu, že jsme předpokládali regresnı́ model (139), máme
πi
Pi + Ei
=
.
1−π
1 − Pi − Ei
Rozvineme-li pravou stranu pomoci Taylorova rozvoje v bodě
Pi
1−Pi
a vezmeme-li v úvahu, že
Pi
Ei
Ei
Pi + Ei
−
=
≈
,
1 − Pi − Ei 1 − Pi
(1 − Pi − Ei )(1 − Pi )
(1 − Pi )2
dostaneme
µ
πi
ln
1 − πi
¶
µ
Pi
= ln
1 − Pi
¶
+
Ei
+ Ri ,
Pi (1 − Pi )
kde podobně jako výše Ri = Op (Ei2 ), tj. konverguje za dosti obecných podmı́nek v pravděpodobnosti
k nule pro ni → ∞. Máme tedy
µ
ln
³
Položı́me-li tedy ζi = ln
πi
1−πi
πi
1 − πi
¶
≈ xTi β 0 +
Ei
.
Pi (1 − Pi )
´
a budeme-li uvažovat model
ζi = xTi β 0 + Ui ,
budeme mı́t Ui ≈
Ei
Pi (1−Pi )
a tedy
IE Ui ≈ 0
a
var(Ui ) =
1
.
ni Pi (1 − Pi )
Dalšı́ postup je naprosto shodný s postupem pro probitový model.
137
Postup pro přı́pad, kdy je k dispozici jen několik opakovánı́
Připomeňme, že jsme výše ukázali, že v právě diskutovaných modelech se nevyhnutelně setkáme
s heteroskedasticitou. Máme-li však k dispozici jen malý počet opakovánı́, přı́padně jen jedno,
v i-tém bodě faktorového prostoru, nejsme schopni odhadnout rozptyl vysvětlované veličiny
v tomto bodě a tedy ani kovarinčnı́ matici Σ. Znamená to, že se nejsme schopni vyrovnat
s heteroskedasticitou pomoci zobecněného odhadu nejmenšı́ch čtverců. Alternatı́vnı́ možnostı́
je použitı́ maximálně věrohodného odhadu. To samozřejmě ovšem znamená, že podstatným
způsobem “vstoupı́ do hry” a priornı́ informace o rozdělenı́ F (pozor, zde se nejedná o rozdělenı́
náhodných fluktuacı́ Ei v modelu (133), ale o distribučnı́ funkci F popisujı́cı́ závislost Pi na
xTi β 0 ).
Dřı́ve než začneme s vlastnı́m výkladem připomeňme znovu na jednu formálnı́ věc. V předchozı́
pasáži jsme označovali pomoci ni počet opakovánı́ pozorovánı́ v i-tém bodě faktorového prostoru a mylně by se mohlo zdát, že Yi označovalo počet přı́padů ze zmı́něných ni opakovánı́,
kdy se i-tý subjekt rozhodl pro prvnı́ alternativu. Ve skutečnosti jsme ale předpokládali, že
to, co vstupuje do diskutovaných regresnı́ch modelů, jsou probity (tj. Φ−1 (πi )), přı́padně logπi
) a Yi označovalo náhodnou veličinu nabývajı́cı́ hodnotu 1 pro přı́pad, kdy se i-tý
ity (tj. 1−π
i
subjekt rozhodl pro prvnı́ alternativu. Odtud plyne, že pokud bylo pozorovánı́ na i-tém subjektu ni -krát opakováno, máme ni realizacı́ veličiny Yi , které jsme označili yi1 , yi2 , ..., yini (což
je posloupnost nul a jedniček), a počet přı́padů, kdy se i-tý subjekt rozhodl pro prvnı́ variantu
P i
je nj=1
yij . Protože toto čı́slo budeme dále potřebonat v následujı́cı́m odstavci diskutujı́cı́m
použitı́ probitového a logitového modelu, označme je mi . Uvědomme si ještě, že všechna tato
pozorovánı́ (měřenı́) byla provedena ve stejném bodě faktorového prostoru, jak jsme už jednou
výše zdůraznili, tj. xi1 = xi2 = ... = xini . Vrátı́me-li se tedy k tomu, že jsme předpokládali,
že do diskutovaných regresnı́ch modelů vstupujı́ probity a logity, máme jakási “původnı́” data
vlastně sdružena do oněch K skupin, v matici plánu vystupuje přı́slušný bod xi jen jednou,
matice má K řádků (a p sloupců) a jako vysvětlovaná veličina vystupuje napozorovaný probit
P
či logit. Celkový počet pozorovánı́ je pak n = K
i=1 ni .
Vzhledem k tomu, že jsme předpokládali, že Pi = P (Yi = 1) je pravděpodobnost, že se i-tý
subjekt rozhodne pro prvnı́ alternativu (a 1 − Pi = P (Yi = 0)), máme věrohodnostnı́ funkci
`=
K
Y
PiYi (1 − Pi )1−Yi =
K
Y
³
´1−Yi
[F (xTi β)]Yi 1 − F (xTi β)
i=1
i=1
a konečně logaritmus věrohodnostnı́ funkce bude
ln ` =
K n
X
o
Yi ln(F (xTi β)) + (1 − Yi )ln(1 − F (xTi β)) ,
(142)
i=1
kde volbou F = Φ, přı́padně F = Flogistická specifikujeme situaci pro probitový či logitový model.
Hledánı́ extrému je pak numerická záležitost a může být provedeno např. Newton-Raphsonovou
metodou, tj. budeme počı́tat iterativně odhady

β̂(r+1)
−1 "
¯
∂ 2 ln ` ¯¯

= β̂(r) − 
¯
∂β∂β T ¯β=β̂
(r)
138
¯
#
∂ln ` ¯¯
,
∂β ¯β=β̂(r)
kde dolnı́ index (r) označuje krok v iterativnı́m procesu. Odhady budeme “opakovat” tak dlouho
až se tyto stabilizujı́. O odhadu zı́skaném touto cestou je známo, že má asymptoticky normálnı́
rozdělenı́ (Judge a kol. (1980)), tj.

´
√ ³
n β̂ − β 0 → N 0, lim
n→∞
"
1
∂ 2 ln `
− IE
n
∂β∂β T
#−1 
,
kde se samozřejmě musı́ předpokládat, že naznačená limita existuje. Podotkněme ješte, že uvedená střednı́ hodnota (v kovariančnı́ matici) musı́ být uvažována vzhledem ke “skutečnému
rozdělenı́” G, tj. nikoliv vůči F . To může způsobit, že asymptotický rozptyl odhadu β̂(r) může
být (podstatně) většı́ než bychom očekávali.
Jinou možnostı́ je použı́t metodu skrovánı́, viz např. Judge a kol. (1980).
Někdy mohou nastat potı́že se stanovenı́m počátečnı́ho odhadu pro iterativnı́ proces. Obvykle
je však možno použı́t i dosti hrubý odhad, nebot’ je známo, že např. pro probitový a logitový
model tato volba nehraje asymptoticky žádnou roli, viz Dhrymes (1978). Je přirozené, že z numerického hlediska však volba počátečnı́ho odhadu hraje podstatnou roli. Bohužel však neexistuje
spolehlivé doporučenı́, jak v tomto přı́padě postupovat.
8.2.5
Diskuze k použitı́ probitového a logitového modelu
Pro alespoň částečnou úplnost dodejme, že model
πi = F (xTi β) + Ei , i = 1, 2, ..., K
byl studován i pro jiná rozdělenı́ F než jen Φ a Flogistická , viz např. Zellner, Lee (1965), nicméně
oblı́benost probitového a logitopvého modelu daleko převyšuje jiné aplikace. U probitového modelu jde patrně o to, že za modelem je alespoň jakási heuristika a také pro oblı́benost normálnı́ho
rozdělenı́. U logitového modelu hraje jistě roli jeho technická jednoduchost při zpracovánı́.
Přı́klady (a to dosti obsáhlé) použitı́ probitového a logitového modelu lze nalézt v pracech
McFadden, D. (1976), Hensher, Johnson (1981) nebo Amemiya (1981).
Výše jsme se zmı́nili, jak je třeba s opatrnostı́ interpretovat odhady regresnı́ch koeficientů,
dokonce jejich znaménka, viz závěr kapitoly Výstupy z počı́tačových knihoven. Zde k tomu ještě
přistupuje to, že i když budou např. regresory nezávislé a tedy potı́ž, na kterou jsme v právě
připomenuté kapitole upozorňovali (a která měla své kořeny právě ve vysokém stupni lineárnı́
závislosti mezi vysvětlujı́cı́mi proměnnými), odpadne, velikost odhadů regresnı́ch koeficientů
neindikuje velikost změny vysvětlované veličiny (tj. přı́slušné
pravděpodobnosti
Pi ), ale spı́še
³
´
Pi
−1
změny Φ (Pi ) pro probitový model, a velikosti změny ln 1−Pi pro logitový model. Snadno se
nahlédne, že přı́slušným indikátorem velikosti
odhadované pravděpodobnosti v závislosti
³ změny
´
T
na změně j-té souřadnice bodu xi bude f xi β βj , kde f je hustota přı́slušná k F .
Ukažme si nynı́, jak by se otestovala hypotéza H0 : β20 = β30 = ... = βp0 = 0 proti alternativě
H1 : β 0 = β̂, kde β̂ je odhad pořı́zený některou metodou popsanou výše v této kapitole. Učiňme
tak pro jednoduchý přı́pad, kdy bylo provedeno n opakovaných měřenı́ na jednom subjektu, tj.
v některém bodě x ∈ Rp a kdy se v m přı́padech tento rozhodl pro prvnı́ variantu. Uvědomme
si, že při hypotéze H0 máme xT β = x1 β1 a označme γ = F (x1 β1 ) (kde dolnı́ index 1 označuje
139
vyjı́mečně prvnı́ souřadnici bodů x a β). Potom (uvědomme si, že xi = x pro i = 1, 2, ..., n)
ln ` (H0 ) = arg max
γ∈R
n n
X
yi ln(F (xTi β)) + (1 − yi )ln(1 − F (xTi β))
o
i=1
= arg max {mlnγ + (n − m)ln(1 − γ)} = mln
γ∈R
m
n−m
+ (n − m)ln(
).
n
n
Označme ještě hodnotu logaritmu věrohodnostnı́ funkce pro hypotézu H1 , kterou dostaneme
dosadı́me-li odhad β̂ do (142), symbolem ln`(H1 ). Za přı́slušnou testovou statistiku vezmeme
pak logaritmus věrohosnostnı́ho poměru, tj.
−2 [ln`(H0 ) − ln`(H1 )] ,
(143)
která má asymptoticky rozdělenı́ χ2 (p − 1).
Pokud by bylo provedeno pozorovánı́ (měřenı́) na K subjektech, na každém ni -krát právě
uvedené úvahy by se zkomplikovaly, a to nejen po formálnı́ stránce, ale i po stránce věcné.
Patrně bychom totiž chtěli mı́t vı́ce “parametrů” γ, ale nulová hypotéza H0 striktně vzato ve
formalizmu, který jsme použı́vali v odstavci “Postup pro přı́pad, kdy je k dispozici dostatečné
množstvı́ opakovánı́”, popisuje situaci, kdy Pi = const, i = 1, 2, ..., K.
Uživatelé probitových a logitových modelů se také často zajı́majı́ o analogii koeficientu determinace pro tyto modely. Odkazujeme proto na práci Amemiya (1981), (1981) ve které je
podrobnějšı́ diskuze k tomuto tématu. Zde jen uved’me, že patrně nejběžněji použı́vané statistiky jsou bud’ χ2 uvedená v (143) nebo “pseudo-R2 ” definovaný jako
ρ2 = 1 −
ln`(H0 )
.
ln`(H1 )
Jak vyplývá z výše uvedeného výkladu a diskuze, jsou probitové a logitové modely vlastně
jakousi “berličku” pro data, pro která nenı́ regresnı́ model přı́mo určen. Ostatně v některých
statistických knihovnách jsou probitové a logitové modely začleněny do nelineárnı́ch odhadů,
nelineárnı́ regrese či majı́ svůj speciálnı́ oddı́l. Proto bývá také studována jejich výkonnost ve
srovnánı́ s jinými metodami, např. s diskriminačnı́ analýzou, viz Press, Wilson (1978) nebo
Amemiya, Powell (1980) nebo regresnı́mi stromy, viz Breiman a kol. (1984).
8.3
Model s kategoriálnı́mi vysvětlujı́cı́mi proměnnými
Často se stává, že některá proměnná v datech má charakter kategoriálnı́ nebo kvalitativnı́
proměnné, jako je např. sex, rasa, věková kategorie, státnı́ přı́slušnost, přı́slušnost k některé
politické straně, barva, druh materiálu, způsob zpracovánı́, doba vzniku, osobnı́ preference atd.
Jedna z možnostı́ by zajisté byla rozdělit data na vı́ce souborů dle této kategoriálnı́ proměnné a
zpracovat každý soubor samostatně. Na druhé straně, pokud se budeme domnı́vat, že vysvětlovaná
veličina byla generována jakýmsi “mechanizmem’, který je společný pro všechna data v souboru
a pouze pro jednotlivé kategorie obsahoval jiný absolutnı́ člen, můžeme data zpracovat naráz,
což povede k tomu, že informace o těch koeficientech, které jsou společné pro všechny kategorie
bude lépe využita. Znamená to tedy, že potřebujeme formálně zapsat model, který automaticky
zvolı́ pro dané pozorovánı́ absolutnı́ člen dle přı́slušnosti daného pozorovánı́ (daného jedince) k té
140
či oné kategorii. Předpokládejme, že naše data obsahujı́ kategoriálnı́ proměnnou (pro jednoduchost pouze jednu; zobecněnı́ na vı́ce kategoriálnı́ch proměnných je přı́močaré), která nabývá K
hodnot (stavů). Regresnı́ model pak můžeme psát ve tvaru
Yi = Zγ + Xβ 0 + Ei , i = 1, 2, ..., n,
kde Z je matice typu (n × K) a platı́, že zik = 1 pokud i-té pozorovánı́ patřı́ do k-té kategorie,
k = 1, 2, ..., K). Pokud bychom všechna pozorovánı́ patřı́cı́ do prvnı́ kategorie umı́stili na začátek
dat, za ně umı́stili všechna pozorovánı́ patřı́cı́ do druhé kategorie, atd. a pokud označı́me `k počet
pozorovánı́ patřı́cı́ch do k-té kategorie, bude matice plánu vypadat takto



















[Z, X] = 


















1 0 0 . . . 0 x1,1
1 0 0 . . . 0 x2,1
.. ..
.. .. ..
. .
. . .
1 0 0 . . . 0 x`1 ,1
x1,2
x2,2
..
.
. . . x1,p
. . . x2,p
..
.
x`1 ,2
...
0 1 0 . . . 0 x`1 +1,1
0 1 0 . . . 0 x`1 +2,1
.. .. ..
.. ..
. . .
. .
0 1 0 . . . 0 x`1 +`2 ,1
.. .. ..
.. ..
. . .
. .
.. .. ..
.. ..
. . .
. .
.. .. ..
.. ..
. . .
. .
x`1 +1,2
x`1 +2,2
..
.
...
...
x`1 +`2 ,2
..
.
..
.
..
.
...
0 0 0 . . . 1 x`1 +`2 +...+`K−1 +1,1
0 0 0 . . . 1 x`1 +`2 +...+`K−1 +2,1
.. .. ..
.. ..
. . .
. .
0 0 0 . . . 1 x`1 +`2 +...+`K ,1
x`1 +`2 +...+`K−1 +1,2 . . .
x`1 +`2 +...+`K−1 +2,2 . . .
..
.
x`1 +`2 +...+`K ,2








x`1 ,p



x`1 +1,p


x`1 +2,p


..

.



x`1 +`2 ,p
.

..


.

..


.


..

.


x`1 +`2 +...+`K−1 +1,p 

x`1 +`2 +...+`K−1 +2,p 


..

.

. . . x`1 +`2 +...+`K ,p
Odhad regresnı́ch koeficientů lze provést pomocı́ běžného odhadu metodou nejmenšı́ch čtverců,
který bude vypadat takto
"
γ̂ (LS,n)
β̂ (LS,n)
#
³
´−1
= [Z, X]T [Z, X]
[Z, X]T Y.
(144)
Ještě jednou připomı́náme, že, jak je ostatně zřejmé z tvaru matice plánu, pro každou kategorii pozorovánı́ je jakoby odhadnut “samostatně” absolutnı́ člen zatı́mco odhady ostatnı́ch
koeficientů modelu jsou “společné”. Slovo jakoby a úvozovky u slov samostatně a společně
naznačujı́, že při odhadu absolutnı́ho členu pro jednu, řekněme k-tou kategorii, je ve skutečnosti
zprostředkovaně využita i informace obsažená v pozorovánı́ch z jiných kategoriı́, (viz (144).
Komplikovanějšı́ by byla situace, kdy by bylo adekvátnějšı́ předpokládat, že přı́slušnost jednotlivého pozorovánı́ do k-té kategorie je náhodný jev, tj. že matice Z je náhodná. Naštěstı́ se
s takovou situacı́ setkáme jen velmi zřı́dka. Na druhé straně, v takovém přı́padě lze postupovat
standardnı́m postupem, který aplikujeme v modelu s náhodnými vysvětlujı́cı́mi proměnnými.
Již výše bylo vysvětleno, v odstavci věnovanému instrumentálnı́m proměnným, jak je třeba v
141
takovém přı́padě postupovat. “Jediným” problémem, který je v tom přı́padě totiž třeba posoudit, je to zda náhodné fluktuace a ty vysvětlujı́cı́ proměnné, které považujeme za náhodné, jsou
(asymptoticky) korelovány či nikoliv. Slovo jediným je dáno do úvozovek, nebot’ se sice opravdu
jedná jen o jediný problém, ale za to dosti podstatný a nikoliv snadno testovatelný. Na druhé
straně, vzhledem k tomu, že konstanta je vždy nezávislá (a tedy také nekorelovaná) s jakoukoliv
náhodnou veličinou, máme naději, že pokud nastane právě diskutovaná situace, pak, pokud bude
přı́slušná kategoriálnı́ veličina nabývat jen malého počtu hodnot, bude (alespoň asymptoticky)
nekorelovaná s náhodnými fluktuacemi.
Někdy se můžeme setkat se situacı́, kdy jsou mezi vysvětlujı́cı́mi proměnnými kvalitativnı́,
tak jak jsme si o tom povı́dali v této kapitole, ale kvalitativnı́ veličina (znak) nabývá tolika
hodnot, že patrně nelze pro každou odhadnout absolutnı́ člen, nebot’ by vlastně jeho hodnota
byla odhadnuta z několika málo pozorovánı́. V takovém přı́padě patrně nezbývá, než zkusit
“něco” jiného než regresnı́ model. Jednou méně známou, ale patrně velmi efektivnı́ variantou
je použitı́ regresnı́ch stromů (regression trees), viz Breiman a kol. (1984). Myšlenka je velmi
jednoduchá, totiž rozdělit data na dvě (či vı́ce částı́) dle kvalitativnı́ (kategoriálnı́) veličiny a to
tak, aby co nejvı́ce poklesla variabilita vysvětlované veličiny v obou třı́dách. Jak jsme řekli,
myšlenka je to velmi jednoduchá a snadno akceptovatelná, provedenı́ je značně komplikované.
Uvědomme si, že pokud přı́slušná kategoriálnı́ proměnná nabývá k “hodnot” (stavů), lze data
rozdělit do dvou skupin 2k−1 − 1 způsoby. Navı́c kategoriálnı́ch proměnných může být vı́ce,
v datech mohou chybět některé údaje (missing values) atd. Proto také bývá software pro tuto
metodu značně drahý.
8.4
Vysvětlujı́cı́ proměnné měřené s náhodnými chybami
Na samém začátku skript jsme diskutovali, co by znamenalo to, kdybychom náhodné fluktuace vysvětlované veličiny interpretovali jako chyby měřenı́. Řekli jsme, že pak bychom museli
posoudit, zda nenı́ adekvátnı́ uvažovat o tom, že také (některé) vysvětlujı́cı́ proměnné mohou být měřeny s nezanedbatelnou (náhodnou) chybou. Poznamenali jsme, že pak je třeba
uvažovat o jiném tvaru regresnı́ho modelu a jiném přı́stupu k odhadu jeho parametrů (koeficientů). Jednoduchý model této situace jsme si už ukázali v jednom z předchozı́ch odstavců.
Nynı́ si ukážeme obecnějšı́ tvar takového modelu. Podobně jako dřı́ve budeme předpokládat, že
vysvětlovaná proměnná lineárně závisı́ na sadě vysvětlujı́cı́ch proměnných, tedy přesněji řečeno
na skutečných hodnotách těchto vysvětlujı́cı́ch proměnných
Y = Zγ 0 + X ∗ β 0 + V,
(145)
kde Z představuje tu část matice plánu, která zahrnuje ty vysvětlujı́cı́ proměnné, jejichž chyba
měřenı́ je malá ve srovnánı́ s rozptylem náhodných fluktuacı́. V matici X ∗ jsou zahrnuty skutečné
hodnoty těch regresorů, jejichž měřenı́ je zatı́ženo nezanedbatelnou chybou, tj. v matici X ∗ jsou
hodnoty, které nám však nejsou přı́stupny. My máme k dispozici pouze matici X naměřených
hodnot těchto regresorů, tj. hodnot, které jsou zatı́ženy (značnou) chybou měřenı́. Formálně to
znamená, že
X = X ∗ + U.
(146)
142
Přirozeně, že stejně jako pro náhodné fluktuace E předpokládáme, že IE U = 0 a navı́c IE Ui V T =
0, kde Ui je i-tý řádek matice U , tj. na pravé straně poslednı́ rovnosti stojı́ matice nul. Symboly
γ 0 a β 0 jsme označili vektory regresnı́ch koeficientů a V jsou samozřejmě náhodné fluktuace.
Jestliže (146) dosadı́me do (145), dostaneme
Y = Zγ 0 + Xβ 0 + E = W δ 0 + E
(W = (Z, X), δ 0 = (γ 0 , β 0 ) a E = V − U β 0 ). Zcela analogicky jako při studiu klasického
regresnı́ho modelu budeme předpokládat, že existujı́ regulárnı́ matice Qzz , Qzx a Qxx tak, že
lim
n→∞
1 T
Z Z = Qzz ,
n
1 T
Z X = Qzx
n
1
lim X T X = Qxx
n→∞ n
lim
n→∞
(147)
(148)
v pravděpodobnosti
(149)
(viz (14)) a navı́c, že
lim
n→∞
1 T
U U = Σuu
n
v pravděpodobnosti.
Nenı́ těžké zjistit, že běžný či chcete-li naivnı́ odhad metodou nejmenšı́ch čtverců
"
δ̂ =
γ̂ (n)
β̂ (n)
#
³
= WTW
´−1
³
WTY = WTW
´−1
³
´
³
W T W δ0 + E = δ0 + W T W
´−1
WTE
(150)
může být obecně vychýlený a nenı́ konsistentnı́, nebot’
lim
n→∞
1
1 T
X E = lim U T (V − U β 0 ) = −Σuu β 0
n→∞
n
n
Poznamenejme ještě, že z toho, jak jsme zavedli matice Q (viz (147), (148) a (149)) máme
1
lim W T W =
n→∞ n
a
1
lim W T E =
n→∞ n
·
·
¸
Qzz Qzx
QTzx Qxx
0
−Σuu β 0
v pravděpodobnosti
(151)
¸
(152)
Vztah (152) by mohl svádět k tomu, že vektor γ 0 bude odhadnut nestranně. Snadno však
nahlédneme ze vztahu (150), že při výpočtu γ̂ (n) figuruje celý vektor stojı́cı́ na pravé straně
vztahu (152). Potom tedy dostaneme
"
lim
n→∞
γ̂ (n) − γ 0
β̂ (n) − β 0
#
·
=
−1
0
−1
T
Q−1
zz Qzx (Qxx − Qzx Qzz Qzx ) Σuu β
−1
0
−(Qxx − QTzx Q−1
zz Qzx ) Σuu β
¸
.
(153)
Proto ani ta část vektoru regresnı́ch koeficientů, která odpovı́dá těm regresorům, které jsou
měřeny “přesně”, nenı́ odhadnuta nestranně.
Bez přijetı́ dalšı́ch předpokladů, specifikujı́cı́ poněkud vı́ce celou situaci se bohužel dá jen
těžko něco usoudit o velikosti a směru vychýlenı́ odhadů γ̂ (n) a β̂ (n) . Pokud však např. nastane
přı́pad, že je s chybami měřena jen jedna vysvětlujı́cı́ proměnná, pak Σuu = σu2 (řekněme)
143
2
2
a (Qxx − QTzx Q−1
zz Qzx ) = σx (1 − Rxz ) (kde poslednı́ rovnost zavedla označenı́ pro rozptyl veličiny
2 ) jsou
x a pro koeficient mnohonásobné korelace mezi x a Z). Protože jak σu2 tak σx2 (1 − Rxz
nezáporné, je vychýlenı́ odhadu koeficientu β 0 vždy negativnı́, tj. dojde k podceněnı́. Jak však
můžeme nahlédnout z (153), vychýlenı́ odhadu koeficientu γ 0 závisı́ na Q−1
zz Qzx a nelze je tedy
bez znalosti této matice vı́ce popsat. Pokud je však náš model extrémně jednoduchý, tj. obsahuje
pouze jednu vysvětlujı́cı́, tj. Z = 0, která je měřena s náhodnými chybami, pak vychýlenı́ odhadu
koeficientu β 0 je dáno vztahem
³
lim
n→∞
8.5
´
β̂ (n) − β 0 = −
β 0 σu2
σx2
Aproximace nepřı́stupných vysvětlujı́cı́ch veličin
Model (145) je formálně podobný modelu modelu, ve kterém vystupujı́ vysvětlujı́cı́ proměnné,
které nemůžeme přı́mo měřit, ale jsme o nich přesvědčeni, že jsou relevantnı́ pro vysvětlenı́
veličiny Y . Přı́kladem může být situace, kdy se budeme snažit vysvětlit výši přı́jmu fyzických
osob na základě různých faktorů. Jednı́m z faktorů bude nepochybně úroveň vzdělánı́, kterého
dotyčný(á) dosáhl. Okamžitě nám však bude jasné, že úroveň vzdělánı́ bude závislá nejen
od počtu let strávených ve školnı́ch lavicı́ch, ale také od typu a hlavně kvality školy, kterou
navštěvoval. To bychom mohli ještě nějak zohlednit, ale jednak by to bylo obtı́žné, tedy přinejmenšı́m
technicky komplikované, jednak by to stále ještě nevystihlo všechny problémy, které jsou s úrovnı́
vzdělánı́ spojeni. Někdo dalšı́ by totiž mohl namı́tnou, že je třeba vzı́t v úvahu to, jakých známek
dotyčný dosáhl (což už by ani nemuselo být zjistitelné), ale pak přijde dalšı́ a řekne, že přeci
na té škole byli různě přı́snı́ examinátoři atd. Často v takovém přı́padě “rezignujeme” a prostě
nahradı́me veličinu, o které cı́tı́me, že je relevantnı́, veličinou, která ji (vı́ce či méně) dobře aproximujeme. Anglosaské literatuře se mluvı́ o proxy variables a v poslednı́ době se toto označenı́,
totiž proxy proměnné začalo ujı́mat i u nás. Jazykový puristi asi budou proteslovat, ale pokud
autor toho či onoho textu na jeho začátku přesně vymezı́, co čı́m bude označovat, nenı́ toto slova
právě z těch, které by v češtině znělo nelibozvučně. Často se tedy uvažuje model
Y = zγ 0 + xβ 0 + E,
(154)
o kterém jsme si vědomi, že veličina x je aproximacı́ veličiny x∗ , tj. platı́
x = x∗ + u,
kde u ovšem nenı́ náhodná chyba měřenı́ a ani ji nelze dost dobře za náhodnou považovat, v
tom smyslu, že ji nejsme schopni popsat v termı́nech náhodné veličiny. Potom před námi stojı́
problém (dilema), zda uvažovat model (154) či model
Y = zγ 0 + Ẽ,
(155)
s tı́m, že vzhledem k tomu, co bylo řečeno o vztahu x a x∗ nejsme schopni posoudit “těsnost”
aproximace. V literatuře lze nalézt studie diskutujı́cı́ tento problém (viz např. Aigner (1974),
Maddala (1977)), ale závěry jsou často dosti sporné. Problematičnost totiž spočı́vá v tom, že
144
každá taková studie musı́ chtě nechtě nakonec udělat nějaké předpoklady o veličině u a navı́c musı́
zvolit některé kriterium pro hodnocenı́ odhadu z toho či onoho modelu. Obvykle je to vychýlenı́
či rychlost konsistence, přı́padně jejı́ ztráta. Např. B. T. McCallum (1972) a M. R. Wickens
(1972) nezávisle dokázali, že pokud o u předpokládáme, že je to náhodná veličina nezávislá jak
na x∗ tak na E, potom je odhad z modelu (154) vždy méně vychýlen než odhad z modelu (155)
(vzhledem k tomu, co bylo řečeno výše, se o modelu (155) předpokládá, že je podurčen a tedy
přı́slušný odhad je obecně vychýlený - viz odstavec o podurčenı́ modelu). Na druhé straně nenı́
jasné, jak dalece může být model (154) špatně specifikován. Máme na mysli to, co anglosaská
literatura označuje slovem misspecified a pro co patrně nemáme ještě ustálený technický termı́n;
znamená to, že do podurčeného modelu (155) sice přidáme dalšı́ vysvětlujı́cı́ veličiny, ale tyto
jsou (téměř) irelevantnı́ pro vysvětlenı́ veličiny Y . To sice nezhoršı́ ani vychýlenı́ modelu ani to
nevede ke ztrátě konsistence, ale může to znamenat takové zvýšenı́ rozptylu odhadů koeficientů,
že to napřı́klad může (podstatně) poškodit kvalitu následné predikce.
9
9.1
MODEL S VÍCEROZMĚRNOU VYSVĚTLOVANOU PROMĚNNOU
Zdánlivě nesouvisejı́cı́ rovnice
Až dosud jsme uvažovali regresnı́ model, ve kterém byla vysvětlovaná veličina jednorozměrná.
Naprosto přı́močarým zobecněnı́m tohoto modelu je model uvažujı́cı́ soubor M regresnı́ch rovnic
typu (3), které spolu (na prvnı́ pohled) nesouvisejı́. Odtud název (angl. seemingly unrelated
equations). Budeme tedy uvažovat pro j = 1, 2, . . . , M model
(j)T
Yij = xi
β(j) + Eij ,
i = 1, 2, . . . , n.
(156)
Označı́me-li Y(j) = (Y1j , Y2j , . . . , Ynj )T ∈ Rn (tj. Yij označuje i-té pozorovánı́ v j-tém regresnı́m
(j)T
modelu), matice X (j) je typu (n × p(j) ) a je evidentně složena z řádků xi
(β1(j) , β2(j) , . . . , βp(j) (j) ) ∈ Rp(j) , dostaneme
Y(j) = X (j) β(j) + E(j) ,
j = 1, 2, . . . , M.
, a konečně β(j) =
(157)
Přirozeně budeme předpokládat zobecněnı́ Podmı́nek A, tj. jako obvykle
n
IE E(j) = 0
ale navı́c
a
n
IE
IE
o
T
2
E(j) E(j)
= σjj
I,
(158)
o
T
2
E(j) E(k)
= σjk
I.
(159)
Znamená to tedy, že nadále předpokládáme, že náhodné fluktuace pro různé řádky jsou nezávislé,
a to jak uvnitř jednoho modelu, např. j-tého (viz (158)), tak pro různé modely, např. j-tý a ktý, zatı́mco fluktuace ve stejném řádku pro různé modely majı́ obecně nenulovou korelaci (viz
(159)). Zavedený formalizmus je na prvnı́ pohled poněkud zvláštnı́ a nejednotný, co se týká
vysvětlované a vysvětlujı́cı́ proměnné. V paragrafu věnovanému simultánı́m rovnicı́m se pak
ukáže, proč byl zvolen právě takto. Pro studium simultánı́ch rovnic budeme totiž potřebovat
složitějšı́ formalizmus a bylo by proto nelogické, abychom se pro každý dalšı́ odstavec učili
novému označenı́, nekonzistentnı́mu s tı́m z odstavce předchozı́ho. Proto bylo již nynı́ zavedeno
145
označenı́, které, po malém doplněnı́, bude vyhovovat i pro dalšı́ výklad. Navı́c takto snadněji
ověřı́me, že systém zdánlivě nesouvisejı́cı́ch rovnic je opravdu speciálnı́m přı́padem systému
simultánı́ch rovnic.
³
´−1
Opět snadno ověřı́me, že “naivnı́” odhad β̂(j) = [X (j) ]T X (j)
[X (j) ]T Y(j) , je nestranný
³
IE β̂(j) = [X (j) ]T X (j)
´−1
[X (j) ]T X (j) β(j) = β(j)
a vzhledem k tomu, že
³
β̂(j) = β(j) + β̂(j) − β(j) = β(j) + [X (j) ]T X (j)
µ
´−1
³
[X (j) ]T Y(j) − X (j) β(j)
´
¶
1 (j) T (j) −1 1 (j) T
[X ] X
[X ] E(j) ,
(160)
n
n
vidı́me, že si tento odhad podržı́ i konsistenci. Jediným problémem je tedy eficience. Přirozeně, že
nás napadne přepsat maticový model (157) do jakési “supermaticové” podoby a použı́t Aitkenova
odhadu. Dostaneme
= β(j) +





Y(1)
Y(2)
..
.


 
 
=
 

Y(M )
X (1)
0
...
0
0
X (2) . . .
0
..
..
..
.
.
.
0
0
. . . X (M )
 
β(1)
 
  β(2)
· .
  .
.



E(1)
E(2)
..
.
 
 
+
 
β(M )



.

E(M )
Jestliže se tedy přidržı́me “nápovědy”, kterou poskytuje právě uvedený zápis a označı́me-li
T , Y T , . . . , Y T )T ∈ RM ·n , X blokovou matici, která má na diagonále bloky X (j) , j =
Y = (Y(1)
(2)
(M )
1, 2, . . . , M (tj. je typu (n · M ×
PM
PM
j=1 p(j) )
), za vektor regresnı́ch koeficientů vezmeme β 0 =
p
T , β T , . . . , β T )T ∈ R j=1 (j) a konečně pak pro náhodné fluktuace budeme psát E =
(β(1)
(2)
(M )
T , E T , . . . , E T )T ∈ RM ·n , dostaneme opět model
(E(1)
(2)
(M )
Y = Xβ 0 + E
stejně jako v (4). Na rozdı́l od (4) však nynı́ i = 1, 2, . . . , M · n a kovariančnı́ matice nenı́
diagonálnı́, ale

n
IE
T
E(1) E(1)
o


n
o

n
o  IE E E T

(2) (1)
Σ = IE E · E T = 

..

.

n
o

T
E(M ) E(1)
IE

2 I
σ11
 2
 σ I
21
=

..

.
n
T
E(1) E(2)
IE
n
IE
n
IE
T
E(2) E(2)
..
.
o
n
...
o
T
E(M ) E(2)
2 I
σ12
...
2 I
σ1M
2 I
σ22
..
.
...
2 I
σ2M
..
.
IE
T
E(1) E(M
)
o 


o 
T
IE E(2) E(M ) 



..

.

n
o 
n
...
o
. . . IE
T
E(M ) E(M
)



.


2 I σ2 I . . . σ2
σM
MM I
M2
1
Abychom se snadněji zorientovali v této nové problematice, věnujme se nejprve jednoduchému
přı́kladu, kdy M = 2 a X (1) = X (2) . Pro ten máme
"
Σ=
2 I σ2 I
σ11
12
2 I σ2 I
σ21
22
146
#
.
Označme
"
σ (11) σ (12)
σ (21) σ (22)
#
"
inverznı́ maticı́ k
"
Znásobenı́m matic se snadno ověřı́, že potom je matice
2
2
σ11
σ12
#
2
2
σ21
σ22
σ (1,1) I σ (1,2) I
σ (2,1) I σ (2,2) I
.
#
inverznı́ k matici Σ.
Potom (dı́ky tomu, že X (1) = X (2) )

X T Σ−1 X = 

=
T 
X (1)
0
0
X (1)
σ (11) X (1)T
σ (12) X (1)T
σ (21) X (1)T
σ (22) X (1)T
 
·
 ·
σ (11) I σ (12) I
σ (21) I σ (22) I

X (1)
0
0
X (1)

=
 
·
X (1)
0
0
X (1)


σ (11) X (1)T X (1) σ (12) X (1)T X (2)
σ (21) X (1)T X (1) σ (22) X (1)T X (1)

.
Konečně tedy

β̂ (LS,n) = 
σ (11) X (1)T X (1) σ (12) X (1)T X (1)
σ (21) X (1)T X (1)
σ (22) X (1)T X (1)
−1 

·
σ (11) X (1)T Y (1) + σ (12) X (1)T Y (2)
σ (21) X (1)T Y (1)
+
σ (22) X (1)T Y (2)

.
Rozdělme β̂ (LS,n) na dva stejně velké bloky β̂ (1) a β̂ (2) . Dostaneme normálnı́ rovnice
σ (11) X (1)T X (1) β̂ (1) + σ (12) X (1)T X (1) β̂ (2) = σ (11) X (1)T Y(1) + σ (12) X (1)T Y(2)
a
σ (21) X (1)T X (1) β̂ (1) + σ (22) X (1)T X (1) β̂ (2) = σ (12) X (1)T Y(1) + σ (22) X (1)T Y(2) .
Po jednoduché úpravě, totiž znásobenı́ druhé rovnice čı́slem [σ (22) ]−1 · σ (12) a sečtenı́ s prvnı́,
dostaneme
!
Ã
!
Ã
(12) ]2
(12) ]2
[σ
[σ
X (1)T X (1) β̂ (1) = σ (11) − (22)
X (1)T Y(1) ,
σ (11) − (22)
σ
σ
tj.
³
´−1
³
´−1
β̂ (1) = X (1)T X (1)
X (1)T Y(1) .
Stejně tak pro β̂ (2) nalezneme
β̂ (2) = X (2)T X (2)
X (2)T Y(2) .
Zjistili jsme tedy, že pro tento jednoduchý přı́pad jsou “obyčejné” odhady nejmenšı́ch čtverců
shodné s Aitkenovým odhadem.
Jestliže však matice plánu pro jednotlivé modely nejsou totožné, nezbývá než jednotlivé
parametry kovariančnı́ matice Σ odhadnout. Vzhledem k tomu, že jsme předpokládali, že máme
2 je kovariancı́ náhodných
pro každý model n pozorovánı́, je to proveditelné. Připomeňme, že σjk
fluktuacı́ z j-té a k-té rovnice v (156). Tuto kovarianci můžeme odhadnout napřı́klad statistikou
2
σ̂jk
=
n
1 X
(j)
(k)
ri (β̂(j) )ri (β̂(k) ),
∗
n − p i=1
147
n
o
(`)
(`)T
kde jsme označili p∗ = max p(j) , p(k) a ri (β̂(`) ) = Yi(`) − Xi

2 I
σ̂11

 2
 σ̂ I
Σ̂ =  21.

..

2 I
σ̂12
...
2 I
σ̂1M
2 I
σ̂22
..
.
...
2 I
σ̂2M
..
.
· β̂(`) . Potom položı́me







2 I σ̂ 2 I . . . σ̂ 2
σ̂M
1
M2
MM I
a konečně
³
ˆ
β̂ (LS,n) = X T Σ̂−1 X
´−1
X T Σ̂−1 Y.
V monografii Kmenta (1986) se lze přesvědčit, že tento dvoustupňový odhad metodou nejmenšı́ch
čtverců je asymptoticky ekvivalentnı́ maximálně věrohodnému odhadu při předpokladu normality fluktuacı́ . Maximálně věrohodný odhad přirozeně představuje alternativu k nejmenšı́m
čtvercům. Vzhledem k tomu, že věrohodnostnı́ funkce má tvar
L=−
1
1
n·M
log(2π) − log|Σ| − (Y − Xβ)T Σ−1 (Y − Xβ),
2
2
2
(kde opět |Σ| označuje determinant matice Σ), dostaneme
µ
β̂
(M L,n)
a
= X
T
h
(M L,n)
Σ̂




Σ̂(M L,n) = 
2 I
σ̃11
2 I
σ̃21
..
.
i−1
¶−1
X
2 I
σ̃12
2 I
σ̃22
..
.
h
X T Σ̂(M L,n)
...
...
2 I
σ̃1M
2 I
σ̃2M
..
.
i−1
Y



,

2 I σ̃ 2 I . . . σ̃ 2
σ̃M
1
M2
MM I
kde
´ ³
´
1³
(M L,n) T
(M L,n)
Y(j) − x(j) β̂(j)
Y(k) − x(k) β̂(k)
, j, k = 1, 2, . . . , M.
n
(Diskuzi k tomuto postupu lze nalézt v Judge a kol. (1980) nebo Kmenta (1986).)
2
σ̃jk
=
9.2
Simultánı́ rovnice
Pro výklad simultánı́ch rovnic (simultaneous equations) budeme potřebovat poněkud rozšı́řit
dosud zavedená označenı́. Připomeňme, že jsme všechny vektory uvažovali jako sloupcové a proto
jsme pro skalárnı́ součin i-tého řádku matice plánu X a vektoru regresnı́ch koeficientů psali xTi β,
nebot’ jsme i-tý řádek matice plánu (po “vytrženı́” z matice) považovali za sloupcový vektor.
Pro obecnou matici A typu m×q budeme tedy jejı́ i-tý řádek označovat tak jak jsme jej dosud
označovali, totiž Ai , přı́padně ai , pokud A je nenáhodná, Ai , ai ∈ Rq , a jejı́ j-tý sloupec A(j) tj.
vektor z Rm , což jsme dosud nepotřebovali, ale v předchozı́m odstavci jsme označenı́ konsistentnı́
s tı́mto vlastně již zavedli a použı́vali, viz (157). Podobné označenı́ podržı́me i pro vektory
v přı́padě, kdy β(j) bude označovat vektor regresnı́ch koeficientů v j-tém regresnı́m modelu v
nějaké soustavě modelů (viz opět (157) ). Konečně pak budeme symbolem β{j} označovat vektor,
který vznikne z vektoru β(j) po vyjmutı́ j-té souřadnice.
Zbývá zavést označenı́ pro matici, ze které vyjmeme j-tý sloupec. Připomı́náme, že jsme
výše, v kapitole věnované vlivu jednoho pozorovánı́, označovali matici, která vznikne z matice A
148
po vyjmutı́ `-tého řádku symbolem A{ ` } . Označı́me tedy matici, ze které vyjmeme `-tý sloupec
symbolem A{|`|} . Zavedené označenı́ je patrně dosti názorné a snadno zapamatovatelné, přesto
v dalšı́m textu občas připomeneme, co který symbol znamená.
Přidržme se osvědčeného pedagogického pravidla, že nejnázorněji se nová teorie, jejı́ motivace
a postupy, osvětlı́ přı́kladem.
Necht’ tedy Q, P, X označuje postupně rovnovážné vyměňované množstvı́ zbožı́, jeho rovnovážnou
cenu a důchod (přı́jem) spotřebitelů a sestavme poptávkovou a nabı́dkovou rovnici
Q = f1 (P, X)
(poptávka)
Q = f2 (P )
(nabı́dka).
a
Navı́c snadno akceptovatelná představa, že poptávka klesá s rostoucı́ cenou a roste s rostoucı́mi
1
důchody, a podobně, že nabı́dka roste s rostoucı́ cenou, napovı́dá, že lze očekávat, že ∂f
∂P ≤
∂f2
1
0, ∂f
∂X ≥ 0 a ∂P ≤ 0. Za f1 a f2 lze přirozeně zvolit (téměř libovolnou) hladkou funkci, avšak
pro jednoduchost ukážeme řešenı́ pouze pro lineárnı́ funkce. Nenı́ snad však třeba se ani pouštět
do diskuze o tom, že přinejmenšı́m zobecněnı́ na polynomiálnı́ funkce f1 a f2 by bylo v podstatě
přı́močaré. Pro lineárnı́ funkce f1 a f2 , dostaneme pro i = 1, 2, . . . , n
Qi = β11 + γ11 Pi + β12 Xi + Ei1
(poptávka)
(161)
a
Qi = β21 + γ21 Pi + Ei2
(nabı́dka).
(162)
Vzhledem k tomu, co bylo výše uvedeno o parciálnı́ch derivacı́ch, mělo by po odhadnutı́ koeficientů vyjı́t γ̂11 ≤ 0, β̂12 ≥ 0 a γ̂21 ≥ 0. Důvodem toho, proč jsme zvolili označenı́ koeficientů
v (161) a (162) na prvnı́ pohled trochu zvláštně, je zachovánı́ konsistence s nı́že použı́vaným
značenı́m v obecném tvaru simultánı́ch rovnic. Předpokládejme, že pro náhodné fluktuace, které
jsou nynı́ reprezentovány dvourozměrnými vektory {Ei }∞
i=1 ) platı́
·
IE Ei = IE
Ei1
Ei2
¸
·
=
0
0
¸
n
a
IE
Ei ·
EiT
"
o
=
2
2
σ11
σ12
2
2
σ12
σ22
#
.
(163)
Rovnice (161) a (162) byly, právě tak jako rovnice v kterémkoliv složitějšı́m systému simultánı́ch rovnic budou, sestaveny na základě našı́ představy o jakýchsi kauzálnı́ch souvislostech,
byt’ tyto představy, když je podrobı́me trochu fundovanějšı́ filosofické kritice, co se týká kauzality,
se mohou ukázat jako neudržitelné, zejména proto, že sám pojem kauzality utrpěl v poslednı́ch
několika desetiletı́ch vážné trhliny. Pokud si však nebudeme namlouvat, ostatně obvykle mylně,
že modelem (161) a (162) cosi “objektivně” vysvětlujeme, ale, podobně jako je tomu při jiném
modelovánı́, spokojı́me se s tı́m, že se nám podařı́ najı́t fungujı́cı́, tj. predikce schopný model,
je konec konců jedno, jak jsme k němu dospěli. Zdá se přirozené, že rovnovážné vyměňované
množstvı́ zbožı́ Q a jeho rovnovážnou cenu P budeme uvažovat jako vysvětlované proměnné
a důchod spotřebitelů X za vysvětlujı́cı́ proměnnou. Samozřejmě, že se budeme snažit dostat
soustavu regresnı́ch rovnic, z nichž každá bude jednı́m regresnı́m modelem, tak jak jsme tento
149
model dosud studovali. Za tı́m účelem budeme muset soustavu (161) a (162) přepočı́tat tak, aby
vysvětlované proměnné byly na levé straně a vysvětlujı́cı́ na pravé. Nakonec dostaneme
Qi =
γ11 β21 − β11 γ21
−γ21 Ei1 + γ11 Ei2
β12 γ21
−
Xi +
γ11 − γ21
γ11 − γ21
γ11 − γ21
(164)
β12
−Ei1 + Ei2
−β11 + β21
−
Xi +
.
γ11 − γ21
γ11 − γ21
γ11 − γ21
(165)
a
Pi =
Soustava rovnic (161) a (162) (a také (164) a (165)) je označována jako systém simultánı́ch
rovnic (z ihned patrného důvodu), přičemž o rovnicı́ch (161) a (162) obvykle mluvı́me jako o
strukturálnı́ch na rozdı́l od (164) a (165), o nichž často řı́káme, že jsou v redukovaném tvaru.
Často však mluvı́me přı́mo o redukovaných rovnicı́ch.
Vztahy (164) a (165) nám napomohou se snadno přesvědčit o tom, že cena P a náhodné
fluktuace E nejsou nezávislé. Dostaneme totiž
IE {Pi Ei1 } =
2 + σ2
−σ11
12
γ11 − γ21
pro i = 1, 2, . . . , n
IE {Pi Ei2 } =
2 + σ2
−σ12
22
γ11 − γ21
pro i = 1, 2, . . . , n.
a
To indikuje, že pokud bychom odhadli γ11 , γ21 a β11 , β12 , β21 z (161) a (162), nebudou tyto
odhady konsistentnı́, a obecně ani nestranné. Připomeňme, že v odstavci věnovaném instrumentálnı́m proměnným jsme ukázali, proč tomu tak je.
Na druhé straně pokud odhadneme regresnı́ koeficienty v systému redukovaných rovnic,
dostaneme nestranné a konsistentnı́ odhady. Snadno ověřı́me, že koeficienty z redukovaných
rovnic a koeficienty ze struktyrálnı́ch rovnic jsou svázány vztahy
π11 =
γ11 β21 − β11 γ21
,
γ11 − γ21
π21 =
π12 = −
−β11 + β21
γ11 − γ21
a
π22 = −
β12 γ21
,
γ11 − γ21
β12
.
γ11 − γ21
(166)
(167)
To znamená, že se můžeme pokusit přepočı́tat nestranné a konsistentnı́ odhady koeficientů πij
na koeficienty βij a γij . Přirozeně, že se to nemusı́ vždy podařit. Bude totiž záležet na počtu
těch a oněch koeficientů, přı́padně na hodnosti přı́slušného systému rovnic.
Spočteme-li ale kovarianci mezi náhodnými fluktuacemi z rovnice (164) a (165), dostaneme
½
IE
−Ei1 + Ei2 −γ21 Ei1 + γ11 Ei2
·
γ11 − γ21
γ11 − γ21
¾
=
2 γ − σ 2 (γ − γ ) + γ σ 2
σ1,1
21
21
11 2,2
1,2 11
.
(γ11 − γ21 )2
To napovı́dá, že pokud použijeme běžný odhad nejmenšı́ch čtverců, odhad koeficietů π nebude
eficientnı́. Chceme-li tedy dosáhnout eficientnı́ch odhadů, musı́me pro odhad koeficientů v (164)
a (165) použı́t Aitkenova odhadu.
Zkusı́me nynı́ nahlédnout situaci při odhadovánı́ koeficientů ve strukturálnı́ch rovnicı́ch
obecně. Na právě uvedený přı́klad se budeme odkazovat jako na ilustraci.
Je zřejmé, že lze simultánı́ rovnice psát obecně ve tvaru (strukturálnı́ forma)
γg1 Yi1 + γg2 Yi2 + . . . + γgG YiG + βg1 xi1 + βg2 xi2 + . . . + βgp xip = Eig ,
150
(168)
kde g = 1, 2, . . . , G a i = 1, 2, . . . , n, přičemž {Ei }∞
i=1 je posloupnost nezávislých stejně rozdělených
G-rozměrných vektorů, jejichž rozdělenı́ je N (0, Σ) se

2
σ11

 σ2

Σ =  .21
 ..

2
σ12
...
2
σ1G
2
σ22
..
.
...
2
σ2G
..
.




.


2
2
2
σG1
σG2
. . . σGG
Nynı́ je možné nahlédnout, že jsme zvolili indexy koeficientů v rovnicı́ch (161) a (162) tak, aby
to vyhovovalo nynı́ probı́ranému obecnějšı́mu přı́kladu. Uvědomme si prosı́m, že, jak jsme výše
poznamenali, sestavujeme obvykle jednotlivé rovnice simultánı́ho systému tak, aby odpovı́dali
našim představám o kauzálnı́ch, at’ už čistě deterministických či částečně náhodných, souvislostech. Jinými slovy to znamená, že systém rovnic ve strukturálnı́m tvaru sestavujeme obvykle
(vždy ?) pro jednu z vysvětlovaných proměnných
Y(g) = (Y1g , Y2g , . . . , Yng )T ,
g = 1, 2, . . . , M.
(169)
Proto lze bez újmy na obecnost předpokládat, že tato veličina vstupuje do této rovnice s
koeficientem 1, tj. např. máme γgg = 1. Odtud plyne, že v každé ze strukturálnı́ch rovnic
odhadujeme (nejvýše) G − 1 + p parametrů. V našem přı́kladě je G = 2 a p = 2 (nesmı́me
zapomenout na absolutnı́ člen), a protože je γ12 = −1, γ22 = −1 a β22 = 0, máme v prvé
rovnici G − 1 + p = 2 − 1 + 2 = 3 = počet odhadovaných koeficientů a ve druhé 3 > 2 =
počet odhadovaných koeficientů. Dohromady však v prvé a druhé rovnici budeme odhadovat 5
parametrů, zatı́mco z redukovaných rovnic budeme mı́t pouze 4 údaje a čtyři vztahy pro koeficienty, viz (166) a (167). Odtud je zřejmé, že koeficienty βij a γij ze strukturálnı́ch rovnic (161) a
(162) nebudou jednoznačně určeny. Později provedeme tuto úvahu pro obecnou soustavu rovnic.
Nejprve si však na obecné úrovni ujasněme vztahy mezi koeficienty ze strukturálnı́ch a redukovaných rovnic. Přepišme rovnice (168) do maticového tvaru
ΓYi + Bxi = Ei ,
(170)
kde




Γ=
γ11
γ21
..
.
γ12
γ22
..
.
...
...
γ1G
γ2G
..
.









a
B=
γG1 γG2 . . . γGG
β11
β21
..
.
β12
β22
..
.
...
...
β1p
β2p
..
.



,

βG1 βG2 . . . βGp
a dále jsme označili Yi = (Yi1 , Yi2 , . . . , YiG )T , xi = (xi1 , xi2 , . . . , xip )T a Ei = (Ei1 , Ei2 , . . . , EiG )T .
V dalšı́m výkladu mějme na paměti, že Γ a B jsou typu (G × G) a (G × p). Položı́me-li
n
Y = YiT
n
on
i=1
což je matice typu (n × G), a jako obvykle X = xTi
n
a konečně E = EiT
on
i=1
,
on
i=1
(171)
, (stejně jako výše matice typu (n × p))
(opět matice typu (n × G)), dostaneme
Y · ΓT + X · B T = E.
151
(172)
Ze vztahu (170) je vidět, že můžeme psát redukovaný tvar simultánı́ch rovnic také následovně.
Yi = Πxi + Vi = −Γ−1 Bxi + Γ−1 Ei ,
i = 1, 2, . . . , n.
(173)
Matice Π je typu (G × p), Vi ∈ RG a platı́
Π = −Γ−1 B,
a
Vi = −Γ−1 Ei .
(174)
Pro koeficienty πij se obvykle užı́vá označenı́ neomezené, ve smyslu anglického slova unrestricted,
, zatı́mco koeficienty γij a βij se označujı́ jako omezené (restricted). Přirozeně, že i redukovaný
systém rovnic lze napsat ve zcela “čisté” maticové podobě, podobně jako tomu bylo u strukturálnı́ho tvaru simultánı́ch rovnic, viz (172). Dostaneme rovnice
Y = X · ΠT + V,
(175)
n
kde matice Y je zadána v (171), matice X je běžná matice plánu a V = ViT
on
i=1
.
Podle toho, jakého je matice Γ typu, se v ekonometrické literatuře rozlišujı́ typy soustav
rovnic:
Γ
Γ
Γ
-
diagonálnı́
blok-diagonálnı́
triangulárnı́
−→
−→
−→
Γ
Γ
-
blok-triangulárnı́
úplná (obecná) matice
−→
−→
9.2.1
zdánlivě nesouvisejı́cı́ rovnice,
neintegrovaná struktura, (nonintegrated structure),
triangulárnı́ (trojúhelnı́ková) struktura
rekursivnı́ systém rovnic,
blok-triangulárnı́ struktura,
integrovaná struktura
(general interdependent system).
Problém identifikace
Jak už jsme naznačili výše, poté co spočteme z redukovaného tvaru simultánı́ch rovnic odhady
koeficientů π, rádi bychom je převedli na odhady koeficientů γ a β, nebot’ pro ty máme obvykle
ekonomickou interpretaci. A jak jsme také výše viděli, je otázka, zda je to možné. Ze vztahu (174)
doslova spočteme, že obecně máme G2 +G·p koeficientů γ a β a jen G·p koeficientů π . Vzhledem
k tomu, že však ze strukturálnı́ho tvaru simultánı́ch rovnic může být apriori zřejmé, že některé γ
a β jsou nulové, může dojı́t k situaci, že transformace z π na γ a β bude jednoznačná. V takovém
přı́padě, tj. když je vazba mezi π na jedné straně a γ a β na straně druhé jednoznačná, mluvı́me
o přesné identifikaci. Je-li počet koeficientů γ a β menšı́ než počet koeficientů π, řı́káme, že
došlo k přeurčenı́, v opačném přı́padě, kdy je méně koeficientů π než koeficientů γ a β, mluvı́me
o podurčenı́. Často se v literatuře použı́vá tato terminologie i v přı́padě, kdy mluvı́me o jedné
ze simultánı́ch rovnic. O celé soustavě pak řı́káme, že je identifikovaná, pokud nastala přesná
identifikace nebo došlo k přeurčenı́. Obecně jsme nalezli vztah mezi mezi koeficienty π na jedné
straně a γ a β na straně druhé ve vztahu (174), který v dalšı́m výkladu použijeme k analýze
identifikovanosti koeficientů γ a β. Ještě jednou se vrat’me k našemu přı́kladu ze začátku tohoto
odstavce, nebot’ ten nám napovı́, jak postupovat v obecné situaci.
Výše jsme uvedli vztahy, vyjadřujı́cı́ koeficienty π pomoci korficientů β a γ, (viz (153) a
(167)). Ty bychom mohli převést na vztahy, vyjadřujı́cı́ koeficienty β a γ pomoci korficientů π.
152
Alternatı́vnı́ možnost je přirozeně odvodit ze simultánı́ch rovnic takové vztahy přı́mo. Vrátı́me-li
se k redukovaným rovnicı́m (164) a (165) a přepı́šeme-li je do tvaru
Qi = π11 + π12 Xi + V1i
a
Pi = π21 + π22 Xi + V2i ,
a konečně pak dosadı́me-li z nich do (161) a (162), dostaneme
π11 + π12 Xi + V1i = β11 + γ11 (π21 + π22 Xi + V2i ) + β12 Xi + E1i
(poptávka)
(176)
(nabı́dka).
(177)
a
π11 + π12 Xi + V1i = β21 + γ21 (π21 + π22 Xi + V2i ) + E2i
Porovnánı́m koeficientů u přı́slušných proměnných dostaneme
π11 = β11 + γ11 π21
a
π12 = γ11 π22 + β12
(178)
π12 = γ21 π22 .
(179)
a
π11 = β21 + γ21 π21
a
Tı́mto postupem nakonec zı́skáme vztahy
β21 = π11 −
π12 π21
π22
a
γ21 =
π12
,
π22
(180)
což znamená, že koeficienty γ a β nabı́dkové rovnice jsou přesně určeny koeficienty π. Pro
koeficienty poptávkové rovniceβ11 , β12 a γ11 analogicky zjistı́me, že nejsou jednoznačně určeny
koeficienty π, tj. poptávková rovnice je podurčena (později si ukážeme, jak lze tuto situaci řešit).
Nynı́ se již pust’me do analýzy obecného systému simultánı́ch rovnic.
Z (174) plyne vztah
ΓΠ = −B,
tj.





γ11
γ21
..
.
γ12
γ22
..
.
...
...
γ1G
γ2G
..
.
γG1 γG2 . . . γGG
 
 
 
·
 
π11
π21
..
.
π12
π22
..
.
...
...
π1p
π2p
..
.
πG1 πG2 . . . πGp






 = −


β11
β21
..
.
β12
β22
..
.
...
...
β1p
β2p
..
.



.

βG1 βG2 . . . βGp
Pro g = 1, 2, . . . , G postupně označme γ(g) = (γg1 , γg2 , . . . , γgG )T a β(g) = (βg1 , βg2 , . . . , βgp )T .
Pak máme
T
T
γ(g)
Π = −β(g)
.
Abychom zjednodušili analýzu identifikovanosti koeficientů γ a β zaved’me ještě toto označenı́:
8 proměnných v g-té rovnici, tj. počet nenulových koefiG∆
g necht’ označuje počet endogenı́ch
∗
= G − G∆
cientů γ v g-té rovnici a G∆∆
g . Podobně necht’ pg necht’ je rovno počtu exogenı́ch
g
8
Endogenı́ a exogenı́ veličiny byly zavedeny v úvodu skript a krátce řečeno: endogenı́ jsou ty, které jsou modelem
určovány, vysvětlovány, a exogenı́ jsou pak ty, které do modelu vstupujı́ z vnějšku.
153
(tj. předdeterminovaných) proměnných v g-té rovnici, které majı́ nenulový koeficient, tj. počet
∗
nenulových β v g-té rovnici, a p∗∗
g = p − pg . Věnujme se nynı́ jedné, řekněme g-té simultánı́
rovnici. Bez ztráty obecnosti předpokládejme, že jsme přerovnali souřadnice vektorů γ(g) a β(g)
T = (γ T , 0T
a řádky matice Π, že γ(g)
g∆ g∆∆ ), kde dolnı́ indexy u γg∆ a 0g∆∆ napovı́dajı́, že tyto
∆
∆∆
T = (β T , 0T ) je rozdělen na úseky o p∗ a p∗∗
vektory majı́ Gg a Gg souřadnic. Podobně β(g)
g∗ g∗∗
g
g
souřadnicı́ch. Nakonec rozdělme matici Π na bloky
·
Π=
Potom platı́
·
T
(γg∆
, 0Tg∆∆ )
·
Π∆∗
Π∆∗∗
Π∆∆∗ Π∆∆∗∗
Π∆∗
Π∆∗∗
Π∆∆∗ Π∆∆∗∗
¸
.
¸
T
= −(βg∗
, 0Tg∗∗ ).
Přepı́šeme-li poslednı́ vztah “po řádcı́ch”, dostaneme
T
T
γg∆
Π∆∗ = −βg∗
(181)
T
γg∆
Π∆∗∗ = 0Tg∗∗ .
(182)
a
Tyto vztahy napovı́dajı́, že pokud bude vztah (182) určovat právě všechny koeficienty γ, pak je
budeme moci dosadit do rovnic (181), kterých je právě tolik, kolik je koeficientů β, a budeme
hotovi. Již výše jsme ukázali, že je přijatelné předpokládat, že jedno γ je v každé rovnici rovno
∗∗
∆
1, tj. máme G∆
g − 1 koeficientů γ v g-té rovnici. Pak je tedy nutné, aby pg ≥ Gg − 1. Tomuto
se obvykle řı́ká podmı́nka na počet parametrů. To znamená, že k tomu, aby (181) jednoznačně
∗∗
∆
určovalo γg∆ , je třeba, aby matice Π∆∗∗ , která je typu (G∆
g − 1 × pg ), měla hodnost Gg − 1,
∆
což lze splnit, pokud je p∗∗
g ≥ Gg − 1. Tomuto se řı́ká podmı́nka na hodnost. Dokončı́me-li právě
provedené úvahy pro všechny eventuality, dostaneme tabulku
Tabulka 17
Vzájemné vztahy počtů koeficientů γ, hodnosti matice Π∆∗∗
a identifikovanosti koeficientů γ a β.
∆
p∗∗
g > Gg − 1
rank(Π∆∗∗ ) = G∆
g −1
přeurčenı́
∆
p∗∗
g = Gg − 1
rank(Π∆∗∗ ) = G∆
g −1
přesná identifikace
∆
p∗∗
g ≥ Gg − 1
rank(Π∆∗∗ ) < G∆
g −1
podurčenı́
∆
p∗∗
g < Gg − 1
rank(Π∆∗∗ ) libovolný
podurčenı́
Zkusme vztahy zachycené v této tabulce aplikovat na náš přı́klad. V něm vystupujı́ dvě endogenı́ veličiny, rovnovážné vyměňované množstvı́ zbožı́ Q a jeho rovnovážná cenu P , a rovněž dvě
exogenı́, absolutnı́ člen a důchod spotřebitelů X. Pro rovnici (161), ve které majı́ obě endogenı́
právě tak jako obě exogenı́ veličiny (obecně) nenulové koeficienty, tedy máme G∆
1 −1 = 1 a
∗
∗∗
∆
∗∗
p = 2, neboli p = 0. To znamená, že G1 − 1 > p a z Tabulky 2 pak plyne, že prvnı́ rovnice
(tj. poptávka) je podurčená. Nenı́ přirozeně ani třeba zjišt’ovat hodnost matice Π∆∗∗ . Pro rovnici
154
∗
∗∗
(162) máme opět G∆
2 − 1 = 1, ale p2 = 1, nebot’ Y v rovnici nevystupuje, neboli p2 = 1. Nynı́
ovšem potřebujeme nalézt hodnost matice Π∆∗∗ . Matice Π vypadá takto
·
Π=
π11 π12
π21 π22
¸
=
£
Π∆∗ Π∆∗∗
¤
,
∗
přičemž připomeňme, že G∆
2 − 1 = 1 a p2 = 1. Je zřejmé, že matice Π∆∗ má hodnost 1 a tedy
∆
rank(Π∆∗ ) = p∗∗
2 = G2 − 1,
což znamená, že rovnice (162) je přesně identifikována. Specifikace obecných výsledků tedy vedla
ke stejným závěrům jako výše provedená analýza pro náš konkrétnı́ přı́klad.
9.2.2
Identifikace pomocı́ omezenı́ na kovariančnı́ matici náhodných fluktuacı́
Výše uvedená analýza ukazuje, že mohou nastat v podstatě dva přı́pady. Bud’ jsou koeficienty
β a γ jednoznačně určeny koeficienty π (což zahrnuje i přı́pad přeurčenı́) nebo ne. V přı́padě,
že dojde k podurčenı́ koeficientů β a γ, napadne nás, zda by nebylo možné zvolit dodatečně
např. nějaká dalšı́ omezenı́ na koeficienty, přı́padně zadat nějaké dalšı́ vztahy mezi přı́slušnými
veličinami tak, abychom dosáhli identifikace. Ukázku toho, jak to udělat si předvedeme na našem
přı́kladě, ve kterém stanovı́me dodatečnou podmı́nku nekorelovanosti náhodných fluktuacı́ v
rovnicı́ch (161) a (162), tj.
IE Ei1 Ei2 = 0.
Výše jsme nalezli vzájemný vztah koeficientů γ a β ze strukturálnı́ch rovnic (161) a (162)
a koeficientů π z redukovaných rovnic (164) a (165)
π11 = β11 + γ11 π21
a
π12 = γ11 π22 + β12
(183)
π12 = γ21 π22 .
(184)
a
π11 = β21 + γ21 π21
a
K těmto vztahům přidáme tedy požadavek nekorelovanosti šumu. Ze vztahů (164) a (165) máme
Vi1 =
−γ21 Ei1 + γ11 Ei2
γ11 − γ21
a
Vi2 =
−Ei1 + Ei2
.
γ11 − γ21
(185)
Z (163) nynı́ plyne, že pro i = 1, 2, . . . , n
IE Vi1 = 0
a
IE Vi2 = 0
(186)
Označme ještě
2
cov(Vij , Vik ) = σ(V
)jk .
(187)
2
Hodnoty kovariancı́ σ(V
)jk můžeme odhadnout z reziduı́ po aplikaci např. nejmenšı́ch čtverců na
2
redukované rovnice (164) a (165). Označme tyto odhady jako σ̂(V
)jk . Ze vztahu (185) nalezneme
Ei1 = Vi1 − γ11 Vi2
a
Ei2 = Vi1 − γ21 Vi2 ,
což znamená, že dodatečně stanovená podmı́nka má tvar
IE (Vi1 − γ11 Vi2 ) (Vi1 − γ21 Vi2 ) = 0
155
a tedy
2
2
2
2
σ(V
)11 − γ11 σ(V )12 − γ21 σ(V )21 + γ11 γ21 σ(V )22 = 0.
Konečně pak ze vztahu (180) plyne
γ21 =
a tedy pro γ11 máme
γ11 =
π12
π22
2
2
π12 σ(V
)12 − π22 σ(V )11
2
2
π12 σ(V
)22 − π22 σ(V )12
.
Dospěli jsme tedy k závěru, že pro výpočet koeficientů β a γ v poptávkové rovnici (viz (161))
z koeficientů π je třeba řešit soustavu rovnic
β11 = π11 − γ11 π21 ,
β21 = π11 − γ21 π21
(tyto vztahy plynou z levých rovnostı́ v (183) a (184) ) a
γ11 =
2
2
π12 σ̂(V
)12 − π22 σ̂(V )11
2
2
π12 σ̂(V
)22 − π22 σ̂(V )12
.
Vidı́me, že všechny koeficienty jsou již nynı́ přesně identifikovány.
9.2.3
Dvoustupňový odhad metodou nejmenšı́ch čtverců
Dřı́ve než se pustı́me do vlastnı́ho výkladu dvoustupňového odhadu, připomeňme, že jsme výše
pro g-tý sloupec matice Y (viz (171) a (172)) ) zavedli označenı́ Y(g) , tj. Y(g) = (Y1g , Y2g , . . . , Yng )T
(g = 1, 2, . . . , G) (viz (169)) a podobně pro g-tý sloupec matice E (viz opět (172) ) E(g) . Položme
ještě γ(g) = (γg1 , γg2 , . . . , γgG )T a β(g) = (βg1 , βg2 , . . . , βgp )T . Toto označenı́ vektorů regresnı́ch
koeficientů γ a β je ostatně ve shodě s označenı́m použı́vaným v celých skriptech, pouze přibyl index naznačujı́cı́ čı́slo simultánı́ rovnice. Konečně pak označme Y {|g|} (pro g = 1, 2, . . . , G) matici,
jejı́ž i-tý řádek je roven Yi1 , Yi2 , . . . , Yi,g−1 , Yi,g+1 , . . . , YiG (kde jsme, tak jak jsme to výše slibovali, použili “čárku” mezi indexy, abychom předešli přı́padnému nedorozuměnı́), tj. matice Y {|g|}
se dostane z matice Y (viz opět (171) ) vypuštěnı́m g-tého sloupce. Konečně pak připomeňme,
že jsme uvedli, že symbolem γ{g} budeme označovat vektor, který dostaneme z vektoru γ(g) po
vypuštěnı́ g-té souřadnice, tj. γ{g} = (γg1 , γg2 , . . . , γg,g−1 , γg,g+1 , . . . , γgG )T . Ještě připomeňme,
že jsme předpokládali, že v každé simultánı́ rovnici je jeden koeficient γ roven 1. Snadno se
nahlédne, že tento předpoklad neubı́rá na obecnosti našim úvahám, nebot’ pokud by tomu tak
nebylo prostě bychom jednı́m koeficientem γ celou rovnici vydělili. Můžeme tedy předpokládat,
že γgg = 1. Uvědomme si, že to současně znamená, že potřebujeme odhadnout jenom γ{g} a β(g)
(pro g = 1, 2, . . . , G).
Nynı́ se již pust’me do výkladu dvojstupňového odhadu koeficientů. Nejprve se vrat’me zpátky
ke vztahu (168), tj. k obecnému tvaru simultánı́ch rovnic
γg1 Yi1 + γg2 Yi2 + . . . + γgG YiG + βg1 xi1 + βg2 xi2 + . . . + βgp xip = Eig ,
opět pro g = 1, 2, . . . , G a i = 1, 2, . . . , n. Uvažujme prvnı́ rovnici. Jak jsme již výše konstaovali,
můžeme předpokládat, že γ11 = 1. To znamená, že můžeme tuto rovnici psát s pomocı́ označenı́,
která jsme právě zavedli, ve tvaru
Y(1) + Y {|1|} · γ{1} + X · β(1) = E(1) .
156
(188)
Analogicky jako pro vektory regresnı́ch koeficientů γ a β, označme π(g) = (πg1 , πg2 , . . . , πgp )T , g =
1, 2, . . . , G a V(g) g-tý sloupec matice V (viz (175) ). Rovnice (175) ted’ můžeme převést na tvar
(Y(1) , Y(2) , . . . , Y(G) ) = X · (π(1) , π(2) , . . . , π(G) ) + (V(1) , V(2) , . . . , V(G) )
(189)
přı́padně
Y(g) = X · π(g) + V(g)
pro g = 1, 2, . . . , G.
(190)
Konečně označme symbolem V {|g|} matici, kterou zı́skáme z matice V (viz (175) ) vynechánı́m
g-tého sloupce (g = 1, 2, . . . , G), viz zavedenı́ matice Y {|g|} . Ze vztahu (189) dostaneme po
vynechánı́ vztahu pro Y(1)
Y {|1|} − V {|1|} = X · (π(2) , π(3) , . . . , π(G) ).
(191)
Modifikacı́ rovnic (188) dostaneme
³
´
Y(1) = − Y {|1|} − V {|1|} γ{1} − X · β(1) + E(1) − V {|1|} γ{1}
³
´
∗
= − Y {|1|} − V {|1|} γ{1} − X · β(1) + E(1)
,
(192)
∗ . Dı́ky tomu, že Y {|1|} − V {|1|} závisı́
přičemž pro E(1) − V {|1|} γ{1} jsme použili označenı́ E(1)
jen od matice plánu X a od regresnı́ch koeficientů z redukovaných rovnic π(2) , π(3) , . . . , π(G) (viz
∗ . Navı́c je IE V {|1|} = 0 dı́ky pravé rovnosti v (174). Z (174) také
(191)), je nekorelované s E(1)
ihned plyne, že Vi a Vj jsou pro i 6= j nekorelované vektory, majı́cı́ zajisté korelované souřadnice
∗ má nekorelované
“uvnitř” jednoho vektoru, tj. pro pevné i. To ihned implikuje, že vektor E(1)
souřadnice. To znamená, že (192) představuje regresnı́ model, který splňuje všechny podmı́nky
pro použitı́ běžných nejmenšı́ch čtverců (OLS). Jediným problémem, který je třeba vyřešit, je to,
že matice Y {|1|} −V {|1|} nenı́ dostupná “měřenı́”. Přirozeně totiž neznáme V {|1|} ). Nicméně matici
Y {|1|} − V {|1|} můžeme odhadnout, a to pomocı́ X · (π̂(2) , π̂(3) , . . . , π̂(G) ), kde π̂(2) , π̂(3) , . . . , π̂(G)
jsou odhady regresnı́ch koeficientů z redukovaných rovnic (189) (či (190), chcete-li. Označme
X · (π̂(2) , π̂(3) , . . . , π̂(G) ) jako Ŷ {|1|} . Z výše uvedené teorie vı́me, že
lim Ŷ {|1|} lim
n→∞
³
n→∞
a
³
lim
n→∞
´
Y {|1|} − V̂ {|1|} = lim X · (π̂(2) , π̂(3) , . . . , π̂(G) ) = Y {|1|} − V {|1|} s. j.
n→∞
´
h
³
´
E(1) − V̂ {|1|} γ{1} = lim E(1) − Y {|1|} − X · (π̂(2) , π̂(3) , . . . , π̂(G) ) γ{1}
³
n→∞
i
´
= E(1) − Y {|1|} − X · (π(2) , π(3) , . . . , π(G) ) γ{1} = E(1) − V {|1|} γ{1} s. j..
To dokazuje, že
Ŷ {|1|}
a
E(1) − V̂ {|1|} γ{1}
∗∗ = E
{|1|} γ
jsou asymptoticky nekorelované a položı́me-li E(1)
(1) − V̂
{1} , dostaneme z
∗∗
Y(1) = −Ŷ {|1|} γ{1} − X · β(1) + E(1)
,
(193)
konsistentnı́, byt’ obecně nikoliv nestranné odhady pro γ{1} a β(1) . Těmto odhadům se, celkem
z evidentnı́ch důvodů, řı́ká dvoustupňové.
157
V tomto momentě může padnout otázka, proč jsme se smažili odvodit toto dvojstupňové
schéma výpočtu odhadů regresnı́ch koeficientů, když výše prezentované úvahy naznačujı́, že bychom mohli použı́t převedenı́ strukturálnı́ch rovnic na redukované, vypočı́tat odhady koeficientů
π a ty pak přepočı́tat na koeficienty β a γ. Odpověd’ je vlastně skryta v samotné otázce. Při
právě popsaném postupu jde o přepočı́távánı́ koeficientů, které bude vždy “šito na mı́ru’ tomu
či onomu systému simultánı́ch rovnic. Výhodou dvojstupňového algoritmu je to, že odhady
můžeme vyčı́slit aniž bychom přepočı́távali strukturové rovnice na redukované a naopak po
vyčı́slenı́ odhadů pro koeficienty π přepočı́távali tyto zpět na odhady koeficientů γ a β. Stačı́
totiž vyřešit rovnice (189), dosadit do rovnic (193) a opět vypočı́tat odhady pro koeficienty γ a
β. To jsou všechno standarnı́, pro všechny simultánı́ systémy stejné operace proveditelné (snad)
ve všech statistických knihovnách.
9.2.4
Trojstupňový odhad metodou nejmenšı́ch čtverců
Naprosto stejná filozofie, která stála v pozadı́ dvojstupňového algoritmu, vede k odvozenı́ algoritmu trojstupňového, který umožňuje vyčı́slenı́ všech odhadů koeficientů β a γ bez toho, abychom je zı́skávali převodem z koeficientů π. Nı́že uvedené úvahy jsou tedy mı́rným zobecněnı́m
úvah z předchozı́ho odstavce.
Soustavu simultánı́ch rovnic budeme tedy psát ve tvaru (viz (188) )
Y(1) + Y {|1|} · γ{1} + X · β(1) = E(1) ,
Y(2) + Y {|2|} · γ{2} + X · β(2) = E(2) ,
..
..
..
..
.
.
.
.
(194)
Y(G) + Y {|G|} · γ{G} + X · β(G) = E(g) .
K nı́ přı́slušná soustava redukovaných rovnic (190) má tvar
Y(1) = X · π(1 + V(1) ,
Y(2) = X · π(2) + V(2) ,
..
..
..
.
.
.
Y(G) = X · π(g) + V(G) .
Z posledně uvedené soustavy vypočteme V̂ {|g|} pro g = 1, 2, . . . , G a položı́me Ŷ {|g|} = Y {|g|} −
V̂ {|g|} opět pro g = 1, 2, . . . , G. Konečně pak namı́sto soustavy (194) budeme uvažovat soustavu
158
∗
Y(1) = −Ŷ {|1|} · γ{1} − X · β(1) + E(1)
,
∗
Y(2) = −Ŷ {|2|} · γ{2} − X · β(2) + E(2)
,
..
.
..
.
..
.
(195)
..
.
∗
Y(G) = −Ŷ {|G|} · γ{G} − X · β(G) + E(g)
,
{|g|} · γ
∗ =E
kde podobně jako výše označı́me E(g)
(g) + V̂
{g} pro g = 1, 2, . . . , G. Po té, co zjistı́me,
∗
∗
∗
∗
jsou nekorelované
a E`(g)
jsou nekorelované pro k 6= ` a g 6= h (dokonce i Ek(g)
a E`(h)
že sice Ek(g)
∗
∗
pro k 6= `), ale Ek(g) a Ek(h) korelované jsou pro libovolnou dvojice g a h, dojdeme samozřejmě k
závěru, že na soustavu (195) je třeba nahlı́žet jako na soustavu zdánlivě nesouvisejı́cı́ch rovnic.
Vypočteme tedy nejprve “naivnı́” odhady, řekněme γ̃{g} a β̃(g) a spočteme odhady kovariancı́
³
σ̂gh =
Y(g) + Y {|g|} · γ̃{g} + X · β̃(g)
´T ³
Y(h) + Y {|h|} · γ̃{h} + X · β̃(h)
ϑ
kde
n
∗
∆
∗
ϑ = max n − G∆
g + 1 − pg , n − G h + 1 − ph
´
,
o
∗
∆
∗
a kde, v souladu s označenı́m užı́vaným v odstavci o problému identifikace, G∆
g , pg , Gh a ph ,
označuje postupně skutečný počet endogenı́ch a exogenı́ch veličin v g-té a h-té rovnici soustavy
(195). Odhad kovariančnı́ matice Σ má tedy tvar

2 I
σ̂11

 σ̂ 2 I

Σ̂ =  21.

..

2 I
σ̂12
...
2 I
σ̂1G
2 I
σ̂22
..
.
...
2 I
σ̂2G
..
.




,


2 I σ̂ 2 I . . . σ̂ 2 I
σ̂G1
G2
GG
kde všechny jednotkové matice I jsou typu (n × n), a spočteme Aitkenův odhad (viz (131) ),
což je v našem přı́padě už třetı́ použitı́ nejmenšı́ch čtverců. Odtud přirozeně název metody. Pro
odhady koeficientů tedy můžeme užı́t vztahu


γ̂
β̂
³
T ,Y T ,...,Y T
kde Y = Y(1)
(2)
(G)




Z=


´T

³
´−1
 = Z T Σ̂−1 Z
Z T Σ̂−1 Y,
,
Ŷ {|1|}
0
..
.
0
0
...
0
X
0
...
0
Ŷ {|2|} . . .
..
.
0
..
.
0
..
.
X ...
..
.
0
..
.
0
0
0
. . . Ŷ {|G|}




,


... X
kde všechny submatice Ŷ {|g|} jsou typu (n × G − 1) (pro g = 1, 2, . . . , G) a X je typu (n × p),
³
T , γT , . . . , γT
a kde γ̂ a β̂ jsou tedy odhady vektorů γ{1}
{2}
{G}
159
´T
³
T , βT , . . . , βT
a β(1)
(2)
(G)
´T
.
10
ANALÝZA VARIANCE
Analýza variance je jednou z tradičnı́ch statistických disciplı́n a patrně byla studována dřı́ve
než regresnı́ analýza. V této kapitole však ukážeme, že ji lze interpretovat jako speciálnı́ přı́pad
regresnı́ analýzy. Zdůrazněme hned na samém začátku, že jsme řekli lze interpretovat, nebot’
náš výklad nemá v žádném přı́padě ukázat, či snad dokonce dokázat, že analýza variance je
speciálnı́m přı́padem regrese. Jejı́ filozofie je zcela svébytná a také jejı́ značenı́ se ustálilo zcela
odlišně od formalizmu regresnı́ analýzy a to naneštěstı́ tak, že je to mı́sty zavádějı́cı́ pro ty, kdo
majı́ “zažité” značenı́ v regresi. Nicméně vzhledem k ustálenosti a názornosti značenı́, které je
v analýze variance použı́váno, přidržı́me se tohoto značenı́ pokud to bude možné. K usnadněnı́
pak čtenı́ textu budeme na tyto odlišnosti občas upozorňovat. Jak bude možné nahlédnout z nı́že
uvedeného textu, některé partie této teorie, zejména jednoduché a dvojné třı́děnı́, představujı́
krásný přı́klad aplikace vı́cenásobného regresnı́ho modelu, takže lze výsledky těchto partiı́ zı́skat
okamžitě specifikacı́ obecnějšı́ch výsledků z regrese pro tyto speciálnı́ modely. Proto byla tato
partie zařazena do textu skript, aby napověděla skutečnou šı́ři použitelnosti (či snad lépe, pokud
nejsme jazykovı́ puristi, aplikability9 ) regresnı́ho schematu.
10.1
Jednoduché třı́děnı́
Jak je tradičnı́ v analýze variance zvykem budeme uvažovat model
Yij = µ + αi + Eij
pro
i = 1, 2, . . . , I,
j = 1, 2, . . . , Ji ,
(196)
a budeme předpokládat, že je splněna okrajová podmı́nka
I
X
Ji αi = 0.
(197)
i=1
Bez této okrajové podmı́nky (197), bychom měli v modelu přı́liš mnoho parametrů. Odhadovali
bychom totiž I souřadnic vektoru α a hodnotu µ, tj. I + 1 parametrů, zatı́mco matice plánu,
která je uvedena na dalšı́ straně, má hodnost I. Máme tedy dvě možnosti:
• bud’ vypustit jeden parametr, např. µ
• nebo uvalit na odhadované parametry nějakou vazebnı́ podmı́nku, např. (197).
Z historických důvodů, ale i z důvodu jekési “symetrie” modelu se dala přednost druhé variantě.
Model (196) můžeme alternativně psát ve tvaru
IE Yij = µ + αi
pro
i = 1, 2, . . . , I,
j = 1, 2, . . . , Ji .
Definujme
Ỹ = (Y11 , Y12 , . . . , Y1J1 , Y21 , Y22 , . . . , Y2J2 , . . . , YI1 , YI2 , . . . , YIJI )T ,
9
Přičemž ovšem druhé z těchto dvou slov je patrně poněkud obecnějšı́.
160
(198)




















X=



















1 1 0 ............
1 1 0 ............
.. .. ..
. . .
1 1 0 ............
0
0
..
.
1 0 1 ............
1 0 1 ............
.. .. ..
. . .
1 0 1 ............
0
0
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
0
0
..
.
..
.
..
.
1 0 0 ............
1 0 0 ............
.. .. ..
. . .
1 0 0 ............
1
1
..
.




















,



















1
vodorovné čáry přes celou šı́ři matice naznačujı́ vždy konec bloku. Upřesněme, že prvý blok
(majı́cı́ jedničky ve druhém sloupci) má J1 řádků, druhý J2 řádků atd., tj. celá matice má
P
n = I`=1 J` řádků a I + 1 sloupců, a konečně β 0 = (µ, α1 , α2 , . . . , αI )T . Vektor regresnı́ch
koeficientů budeme dále psát ve tvaru β 0 = (β0 , β1 , β2 , . . . , βI )T a podobně souřadnice vektoru
X` budeme čı́slovat od nuly, tj. (X`0 , X`1 , X`2 , . . . , XÌ ) pro ` = 1, 2, . . . , n. Nynı́ můžeme psát
regresnı́ model
Ỹ = X · β 0 + E.
Vektor náhodných fluktuacı́ je přirozeně tohoto tvaru E = (E11 , E12 , . . . , E1J1 , E21 , E22 , . . . , E2J2 ,
. . . , EI1 , EI2 , . . . , EIJI )T . Nenı́ obtı́žné ověřit, že




T
X X=




n J1 J2
J1 J1 0
J2 0 J2
..
..
..
.
.
.
JI 0 0
kde

. . . JI
... 0 


... 0 
.. 

. 
a
. . . JI




,



JI ȲI
J
Ȳ =



T
X Ỹ = 



nȲ
J1 Ȳ1
J2 Ȳ2
..
.
I X
i
1X
Yij
n i=1 j=1
a
Ȳi =
Ji
1 X
Yij .
Ji j=1
Podobně snadno nalezneme normálnı́ rovnice
nβ0
+ J1 β1 + J2 β2 + . . . + JI βI
J1 β0 + J1 β1 +
J2 β0 +
..
.
JI βI +
0
..
.
0
0
+...+
0
+ J2 β2 + . . . +
0
..
..
.
.
+
0
+ . . . + JI βI
161
=
nȲ
= J1 Ȳ1
= J2 Ȳ2 .
..
.
= JI ȲI
(199)
Vezmeme-li v úvahu okrajovou podmı́nku (197)
J1 β1 + J2 β2 + . . . + JI βI = 0,
dostaneme z prvnı́ rovnice v soustavě (199)
β̂0 = Ȳ
(200)
a to umožnı́ přepsat normálnı́ rovnice do tvaru (vynechánı́m prvnı́ z nich a uplatněnı́m znalosti
o β̂0 )
J1 β1 +
0
+...+
0
= J1 (Ȳ1 − Ȳ )
0
..
.
0
+ J2 β2 + . . . +
0
..
..
.
.
+
0
+ . . . + JI βI
= J2 (Ȳ2 − Ȳ )
.
..
.
= JI (ȲI − Ȳ )
Pak již nenı́ těžké ověřit, že
β̂i = Ȳi − Ȳ pro i = 1, 2, . . . , I.
(201)
Nynı́ z (200) a (201) plyne, že pro ` = 1, 2, . . . , n a pro všechna k taková, že ` = J1 +J2 +. . .+Jh +k
a 0 < k ≤ Jh+1 predikce vysvětlované proměnné je
Ŷ`k = X`T β̂ (LS,n) = X`1 β0 + X`k βk = Ȳi ,
Reziduálnı́ součet čtverců pro hypotézu H : “správným” modelem je (196), je tedy
2
SH
=
Ji
I X
X
¡
Yij − Ȳi
¢2
.
i=1 j=1
Jeho alternativnı́ zápis může být
³
´
Ỹ T I − X(X T X)−1 X T Ỹ ,
(202)
ostaně jsme to již dřı́ve několikrát udělali, viz např. (50) či (51) (Ỹ je zavedeno ve (198) ).
Budeme-li předpokládat alternativu A ve tvaru
Yij = µ + Eij
pro
i = 1, 2, . . . , I,
j = 1, 2, . . . , Ji ,
tj. budeme předpokládat α1 = α2 = . . . = αI = 0, úvahami podobnými výše uvedeným, či
přı́mou minimalizacı́ přı́slušného součtu čtverců, nalezneme β̂0 = µ̂ = Ȳ a přı́slušný reziduálnı́
součet čtverců
2
SA
=
Ji
I X
X
¡
Yij − Ȳ
¢2
=
I
X
¡
Ji Yij − Ȳ
¢2
= Ỹ T (I − N ) Ỹ .
Matice N (podobně jako výše) má všechny prvky stejné, rovné
Opět použijeme rozklad součtu čtverců
³
(203)
i=1
i=1 j=1
´
³
1
n.
´
Ỹ T Ỹ = Ỹ T I − X(X T X)−1 X T Ỹ + Ỹ T X(X T X)−1 X T − N Ỹ + Ỹ T N Ỹ
162
(204)
neboli
Ji
I X
X
Yij2
=
i=1 j=1
Ji
I X
X
¡
Yij − Ȳi
¢2
+
i=1 j=1
I
X
¡
Ji Ȳi − Ȳ
¢2
+ nȲ 2 .
i=1
Použitı́m Fisher-Cochranova lemmatu (viz Lemma 6) pro právě nalezený rozklad součtu čtverců,
zjistı́me, že za předpokladu, že Ỹ je rozděleno normálně, tj. fluktuace Eij v (196) jsou rozděleny
normálně, má
2
SH
=
Ji
I X
X
¡
Yij − Ȳi
¢2
i=1 j=1
³
´
= Ỹ T I − X(X T X)−1 X T Ỹ
χ2 rozdělenı́ s n − I stupni volnosti, nebot’ matice X má hodnost I. Analogickou úvahou se
ukáže, že za stejných podmı́nek má rozdı́l součtu čtverců
2
2
SA
− SH
=
I
X
¡
Ji Ȳi − Ȳ
¢2
³
´
= Ỹ T X(X T X)−1 X T − N Ỹ
i=1
2
také rozdělenı́ χ2 o I − 1 stupnı́ch volnosti. Navı́c z Fisher-Cochranova lemmatu plyne, že SH
2 − S 2 jsou statisticky nezávislé, tj.
a SA
H
PI
F =
i=1 Ji
¡
Ȳi − Ȳ
I −1
¢2
· PI
i=1
n−I
PJi ¡
j=1
Yij − Ȳi
¢2
je rozděleno jako FI−1,n−I , tj. Fisher-Snedecorovo F o I − 1 a n − I stupnı́ch volnosti. Proto,
podobně jako v kapitole o testovánı́ submodelu, je možné test o platnosti hypotézy H proti
alternativě A založit na této statistice.
Pro úplnost uved’me, že klasické práce věnované analýze třı́děnı́ (Scheffe (1959), Draper,
Smith (1966),(1981), Anděl, J. (1978), Rao (1978)) uvádějı́ přı́slušné součty čtverců (viz (204))
obvykle v následujı́cı́ tabulce (tato byla v podstatě převzata z Draper, Smith (1966)).
Tabulka 18
Rozklad součtu čtverců pro jednoduché třı́děnı́.
Zdroj
Mezi třı́dami
Uvnitř třı́d
Suma
čtverců
2 =
SA
2 =
SH
PI
i=1 Ji
PI
i=1
Ȳi − Ȳ
PJi ¡
j=1
¢2
Yij − Ȳi
¢2
nȲ 2
Průměrná hodnota
Celkem
¡
Stupně
volnosti
PI
i=1
PJi
2
j=1 Yij
Střednı́
čtverce
I −1
s2A =
n−I
s2H =
2
SA
I−1
2
SH
n−I
1
PI
i=1 Ji
=n
Rovněž poměrně často bývá poslednı́ tabulka uváděna však ve tvaru (např. Rao (1978))
163
Tabulka 18 a
Zdroj
Mezi třı́dami
Uvnitř třı́d
Suma
čtverců
2 =
SA
2 =
SH
10.2
i=1 Ji
PI
i=1
PI
Centrovaný součet
PI
i=1
¡
Stupně
volnosti
Ȳi − Ȳ
¢2
PJi ¡
Yij − Ȳi
j=1
PJi
j=1 (Yij
¢2
− Ȳ )2
Střednı́
čtverce
I −1
s2A =
n−I
s2H =
2
SA
I−1
2
SH
n−I
n−1
Dvojné třı́děnı́
Pro jednoduchost budeme uvažovat model se stejným počtem jednotek v každé buňce dvojného
třı́děnı́. Model, který nepředpokládá stejný počet pozorovánı́ v každé buňce je sice touto cestou
také zvládnutelný, ale po formálnı́ stránce se celá věc stane nepřehlednou. Budeme tedy studovat
model
IE Yijk = µ + αi + βj + γij pro
i = 1, 2, . . . , I
j = 1, 2, . . . , J,
(205)
k = 1, 2, . . . , K.
To znamená, že předpokládáme, že model má I řádků, J sloupců a K jednotek v každé buňce.
Snadno se opět nahlédne, že bez zadánı́ okrajových podmı́nek, které zkompenzujı́ “nadbytek”
parametrů v modelu, bychom nemohli parametry modelu jednoznačně odhadnout. Tyto okrajové
podmı́nky budou mı́t tvar
I
X
αi = 0
a
i=1
J
X
βj = 0,
j=1
a dále pak pro všechna j = 1, 2, . . . , J
I
X
γij = 0.
i=1
Konečně pro všechna i = 1, 2, . . . , I
J
X
γij = 0.
j=1
Vysvětlovaná veličina má přirozeně opět tvar
Ỹ = (Y11 , Y112 , . . . , Y11K , Y121 , Y122 , . . . , Y12K , . . . , Y1J1 , Y1J2 , . . . , Y1JK ,
Y211 , . . . , YIJ1 , YIJ2 , . . . , YIJK )T .
(206)
Matice plánu je poněkud komplikovaná X a je uvedena na dalšı́ stránce. Má všechny bloky
(ve svislém směru) o K řádcı́ch, což znamená, že celá matice má n = IJK řádků. Ve vodorovném směru má prvý blok jeden sloupec (pro absolutnı́ člen µ), druh blok má I sloupců, třetı́
má J sloupců atd., až poslednı́ pak IJ sloupců. Vodorovné plné čáry přes celou šı́ři matice
a svislé čáry přes výšku bloků opět naznačujı́ oddělenı́ vodorovných, přı́padně svislých bloků.
Jak vzápětı́ uvidı́me, k zı́skánı́ reziduálnı́ho součtu čtverců použijeme jiný model, který je s
164
tı́mto modelem ekvivalentnı́, ale který umožnı́ nalezenı́ tohoto součtu snadněji. Proto vektor
regresnı́ch koeficientů nebudeme ani podrobně popisovat.
Věnujme se na okamžik matici plánu. Ta je značně “redundantnı́, nebot’ prvý sloupec ve
druhém bloku (ve vodorovném směru, tj. v bloku, který odpovı́dá parametrům α v (205) ) je
stejný jako součet prvnı́ho, (I + 1)-nı́ho, 2I + 1-nı́ho, ...,[(J − 1)I + 1]-nı́ho sloupce v poslednı́m
bloku (tj. v bloku, který odpovı́dá parametrům γ). Podobně pro druhý sloupec druhého bloku
zjistı́me, že je roven součtu druhého, (I + 2)-hého, (2I + 2)-hého,...,[(J − 1)I + 2]-hého sloupce
v poslednı́m bloku, atd. Konečně pak snadno ověřı́me, že prvnı́ sloupec třetı́ho bloku, tj. bloku,
který odpovı́dá parametrům β, je součtem prvého, druhého,..., I-tého sloupce v poslednı́m bloku.
Navı́c prvnı́ sloupec matice, tj. sloupec odpovı́dajı́cı́ absolutnı́mu členu), je např. součtem všech
sloupců poslednı́ho bloku. Odtud plyne, že hodnost matice X je I · J a že můžeme z modelu
vypustit prvý, druhý a třetı́ blok sloupců, tj. model, který bude mı́t stejnou vysvětlovanou
veličinu Ỹ jaká je zadaná v (206) a matici X̃, která bude obsahovat pouze sloupce poslednı́ho
bloku matice X, bude ekvivalentně vysvětlovat veličinu Ỹ jako model se širšı́ maticı́ plánu X.
Ani v tomto přı́padě nenı́ třeba vektor regresnı́ch koeficientů přesně specifikovat.
Tento alternativnı́ model, jehož matice plánu je však plné hodnosti, umožnı́ snadněji nalézt
minimum součtu čtverců
I X
J X
K
X
(Yijk − γij )2 .
i=1 j=1 k=1
Matice X̃ T X̃ má pro tento model překvapivě jednoduchý tvar právě tak jako X̃ T Ỹ , jmenovitě





X̃ T X̃ = 



K
0
0
K ...
..
.
..
.
0
0
...
0

 PK
k=1 Y11k

 P

K

k=1 Y12k

T
X̃ Ỹ = 
..


.

PK
0 


a
.. 

. 

... K





.



k=1 YIJk
To samozřejmě vede k jednoduchým normálnı́m rovnicı́m









K
0
0
K ...
..
.
..
.
0
0
...
0
 
 
γ11

0 
  γ12
 
·
.. 
  .
.   ..
 
... K
γJK

 PK
k=1 Y11k
  P
 
K
 
k=1 Y12k
 
=
..
 
 
.
 
PK





,



k=1 YIJk
ze kterých okamžitě najdeme
γij =
1
K
PK
k=1 Yijk
= Ȳij ,
i = 1, 2, . . . , I,
j = 1, 2, . . . , J,
k = 1, 2, . . . , K.
Reziduálnı́ součet čtverců pro hypotézu, že data se řı́dı́ modelem (205) je tedy roven
2
SH
=
I X
J X
K
X
¡
Yijk − Ȳij
i=1 j=1 k=1
167
¢2
.
Stejně jako v předchozı́m odstavci použijeme Fisher-Cochranovo lemma, které po úvahách
podobných těm, které jsme provedli v předchozı́m odstavci potvrdı́, že tento součet čtverců
má, samozřejmě opět za předpokladu, že náhodné fluktuace E jsou normálně rozdělené, χ2
rozdělenı́ o I · J · (K − 1) stupnı́ch volnosti. Ostatně tento výsledek má krásnou mnemotechniku,
nebot’ počet stupňů volnosti lze interpretovat tak, že jde o I · J · K čtverců, ale v každé buňce,
kterých je I · J padne jeden stupeň volnosti na průměr Ȳij .
Jako alternativu budeme uvažovat model
IE Yijk = µ + αi + βj pro
i = 1, 2, . . . , I,
j = 1, 2, . . . , J,
k = 1, 2, . . . , K.
(207)
jehož okrajové podmı́nky majı́ tvar
I
X
αi = 0
a
i=1
J
X
βj = 0.
(208)
j=1
Z toho plyne, že budeme minimalizovat
I X
J X
K
X
(Yijk − αi − βj )2 .
i=1 j=1 k=1
Vysvětlovaná proměnná je přirozeně stejná jako při hypotéze (viz (206) ) a matice plánu je rovna
prvnı́m třem blokům matice X (viz předchozı́ strana). Opět snadno nalezneme















T
X̃ X̃ = 














n
J · K J · K ... J · K I · K I · K ... I · K








J ·K
0
J · K ...
0
K
K
...
K 

..
..
..
..
..
..
.. 

.
.
.
.
.
.
. 


J ·K
0
0
... J · K
K
K
...
K 
,

......................................................... 

I ·K
K
K
...
K
I ·K
0
...
0 



I ·K
K
K
...
K
0
I · K ...
0 

..
..
..
..
..
..
.. 

.
.
.
.
.
.
. 

.........................................................
J ·K J ·K
0
...
0
K
K
...
K
I ·K
K
K
...
168
K
0
0
... I · K
 PI PJ PK
i=1
j=1
k=1 Yijk

P
P
J
K


j=1
k=1 Y1jk

P
P

J
K

j=1
k=1 Y2jk


..


.


P
P
J
K
X̃ T Ỹ = 
j=1
k=1 YIjk


P
P

I
K

i=1
k=1 Yi1k

P
P

I
K

i=1
k=1 Yi2k



..

.

PI PK







































β̃ = 












a


α1 









.












α2 
..
.
αI
β1
β2
..
.
βJ
k=1 YiJk
i=1
µ
Normálnı́ rovnice sice vypadajı́ na prvnı́ pohled trochu komplikované
nµ + J · K
PI
i=1 αi
J · Kµ + J · Kαi + K
I · Kµ + K
PJ
+I ·K
PI
i=1 αi
PJ
j=1 βj
=
j=1 βj
=
+ I · Kβj
=
PI
i=1
PJ
j=1
PJ
PK
PI
PK
j=1
i=1
PK
k=1 Yijk
k=1 Yijk
pro i = 1, 2, . . . , I
k=1 Yijk
pro j = 1, 2, . . . , J,
ale vezmeme-li v úvahu okrajovou podmı́nku (208), zredukujı́ se na
nµ
PI
=
i=1
J · Kµ + J · Kαi =
I · Kµ + I · Kβj
PJ
PK
PJ
PK
PI
PK
j=1
=
j=1
i=1
k=1 Yijk ,
k=1 Yijk
pro i = 1, 2, . . . , I,
k=1 Yijk
pro j = 1, 2, . . . , J.
Pak již snadno nalezneme odhady parametrů
α̂i = Ȳi· − Ȳ
=
PJ PK
1 PI
i=1
j=1
k=1 Yijk ,
n
P
P
J
K
1
j=1
k=1 Yijk − Ȳ
J·K
β̂j
=
1
I·K
µ̂
=
Ȳ
=
= Ȳ·j − Ȳ
PI
i=1
PK
k=1 Yijk
− Ȳ
pro i = 1, 2, . . . , I,
pro j = 1, 2, . . . , J.
Reziduálnı́ součet čtverců pro alternativu, že správným modelem je (207), je tedy
2
SA
=
I X
J X
K
X
¡
Yijk − Ȳi· − Ȳ·j + Ȳ
¢2
.
i=1 j=1 k=1
Naprosto stejně jako v předchozı́m paragrafu použitı́m Fisher-Cochranova lemmatu ukážeme,
2 − S 2 má χ2 o I · J · K − I − J + 1 − I · J · (K − 1) = (I − 1)(J − 1)
že rozdı́l součtů čtverců SA
H
2 . To znamená, že statistika
stupnı́ch volnosti a je nezávislý se součtem čtverců SH
2 − S2
SA
I · J(K − 1)
H
·
2
(I − 1)(J − 1)
SH
(209)
je přı́hodná k testovánı́ hypotézy H proti alternativě A.
Snadno si lze představit testovánı́ jiných alternativ, např. můžeme testovat přı́padnou představu
o tom, že data nezávisı́ na efektu od řádků, tj.
IE Yijk = µ + βj pro i = 1, 2, . . . , I, j = 1, 2, . . . , J, k = 1, 2, . . . , K.
169
Upozorněme však na to, že se v některých monografiı́ch tato alternativa k základnı́mu modelu
presentuje jako αi = 0 pro i = 1, 2, . . . , I, ale opomene se řı́ci, že pokud má být řádkový efekt
nulový znamená to také γij = 0 pro i = 1, 2, . . . , I a j = 1, 2, . . . , J.
Stejně jako v předchozı́m paragrafu vytvořı́me tabulky součtů čtverců
Tabulka 19
Rozklad součtu čtverců pro dvojné třı́děnı́.
Zdroj
Suma
čtverců
Řádky
J ·K
Sloupce
I ·K
Interakce
K
Reziduálnı́
PI
¡
PJ
¡
i=1
Ȳ·j − Ȳ
j=1
PI
PJ
¡
PI
PJ
PK
i=1
j=1
i=1
j=1
Ȳi· − Ȳ
¢2
¢2
Ȳij − Ȳi· − Ȳ·j + Ȳ
¡
Yijk − Ȳij
k=1
¢2
PI
Celkem
i=1
PJ
¢2
I −1
s2r
J −1
s2c
IJ(K − 1)
2
SH
n−I
s2rc =
s2
1
PK
2
k=1 Yijk
j=1
Střednı́
čtverce
(I − 1)(J − 1)
nȲ 2
Průměrná hodnota
Stupně
volnosti
IJK = n
Upozorněme rovněž, že jestliže se ve druhém a třetı́m řádku právě uvedené tabulky mluvı́
o “Řádcı́ch” a “Sloupcı́ch”, zdálo by se přirozené mluvit ve čtvrtém o “Buňkách”, tak jak to
ostatně dělá anglicky psaná literatura. V české literatuře se však z jakýchsi historických důvodů
ustálil název “Interakce”. Některé prameny opět uvádějı́ alternativnı́ tabulku
Tabulka 19 a
Zdroj
Suma
čtverců
Řádky
J ·K
Sloupce
I ·K
Interakce
Reziduálnı́
Centrovaný součet
K
PI
¡
PJ
¡
i=1
j=1
PI
PJ
¡
PI
PJ
PK
PI
PJ
PK
i=1
i=1
i=1
Ȳ·j − Ȳ
¢2
¢2
Ȳij − Ȳi· − Ȳ·j + Ȳ
j=1
j=1
Ȳi· − Ȳ
j=1
k=1
¡
Yijk − Ȳij
k=1 (Yijk
¢2
Stupně
volnosti
Střednı́
čtverce
I −1
s2r
J −1
s2c
(I − 1)(J − 1)
¢2
− Ȳ )2
IJ(K − 1)
s2rc =
2
SH
n−I
s2
n−1
Podobně jako jsme výše odvodili test alternativy A : mezi řádky a sloupci nejsou interakce,
tj. γij = 0 pro všechna i a j, totiž (viz (209) )
F =
2 − S2
I · J(K − 1)
SA
H
·
(I − 1)(J − 1)
SH
170
=
K
PI
i=1
¡
PJ
Ȳij − Ȳi· − Ȳ·j + Ȳ
(I − 1)(J − 1)
¢2
j=1
2
I · J · (K − 1)
· PI
i=1
¡
PJi PK
k=1
j=1
Yijk − Ȳij
src
¢2 = 2 ,
s
našli bychom testy dalšı́ch alternativ k základnı́mu modelu:
• IE Yijk nezávisı́ na i
F =
JK
¡
PI
Ȳi· − Ȳ
(I − 1)
¢2
i=1
I · J · (K − 1)
· PI
i=1
PJ
j=1
¡
PK
k=1
Yijk − Ȳij
¢2 =
s2r
s2
s I − 1 a I · J · (K − 1) stupni volnosti,
• IE Yijk nezávisı́ na j
F =
IK
¡
PJ
Ȳ·j − Ȳ
(J − 1)
¢2
j=1
s2
I · J · (K − 1)
· PI
i=1
PJ
j=1
¡
PK
k=1
Yijk − Ȳij
c
¢2 = 2
s
s J − 1 a I · J · (K − 1) stupni volnosti,
• IE Yijk nezávisı́ ani na i ani na j
PI
i=1
F =
PJ
j=1
¡
PK
k=1
× PI
=
K
PI
i=1
PJ
¡
¢2
P
P
Yijk − Ȳij − Ii=1 Jj=1
IJ(K − 1) − IJK + 1
I · J · (K − 1)
i=1
PJ
j=1
Ȳij − Ȳ
IJ − 1
k=1
¢2
j=1
¡
PK
· PI
Yijk − Ȳij
i=1
PK
¡
k=1
Yijk − Ȳ
j=1
×
¢2
I · J · (K − 1)
PJ
¢2
PK
¡
k=1
Yijk − Ȳij
¢2
s IJ − 1 a I · J · (K − 1) stupni volnosti.
11
NĚKTERÉ NETRADIČNÍ METODY REGRESNÍ ANALÝZY
Již na začátku skript jsme se zmı́nili, že metoda L1 , tj. metoda minimalizujı́cı́ součet absolutnı́ch hodnot reziduı́ byla použita o vı́ce než stopadesát let dřı́ve než byla publikována metoda
nejmenšı́ch čtverců. To dokládá, že alternativnı́ metody k metodě nejmenšı́ch čtverců nejsou
“vymyšlenostı́” poslednı́ch let. Metoda L1 je všeobecně považována za velmi robustnı́ a je často
uváděna jako přı́klad metody, která si je schopna úspěšně poradit s (jakoukoliv) kontaminacı́
dat. Odhadem polohy dat pořı́zeným metodou L1 je medián a snadno se přesvědčı́me, že tento
odhad je schopen překonat i 50% kontaminaci dat, v tom smyslu, že teprve změna vı́ce než 50%
dat může podstatně změnit hodnotu mediánu. Někteřı́ autoři pak z tohoto faktu usoudı́, že se
metoda L1 dokáže vyrovnat i s (velmi) vysokou kontaminacı́ dat také v regresnı́m schematu.
Bohužel opak je pravdou. Metoda L1 si sice umı́ poradit s odlehlými hodnotami ve vysvětlované
proměnné (tzv. outliery), ale neumı́ se vyrovnat s body, které jsou odlehlé ve faktorovém prostoru (tzv. leverage pointy). Důvody k tomuto chovánı́ lze snadno nahlédnout, napı́šeme-li si
normálnı́ rovnice pro tuto metodu. Jejich tvar je
∂
Pn
i=1 |Yi
∂β`
− xTi β|
= −2
n
X
xi` sign(Yi − xTi β),
i=1
171
` = 1, 2, ..., p.
Je vidět, že pokud dojde k tomu, že některý bod má podstatně většı́ některou souřadnici než jiné
body, bude jeho vliv na řešenı́ normálnı́ch rovnic podstatně většı́ než vliv ostatnı́ch bodů. To
znamená, že i jeden jediný bod (velmi) vzdálený od ostatnı́ch bodů ve faktorovém prostoru může
podstatně ovlivnit (přı́padně zcela “zničit”) závěry regresnı́ analýzy provedené pomocı́ metody
L1 . Přirozeně, že můžete namı́tnout, že jeden bod hodně vzdálený ve faktorovém prostoru bude
nápadný a bude mu věnována při analýze dat mimořádná pozornost. Problém nastává, jde-li o
opakované automatizované zpracovánı́ dat (viz např. digitalizovaný přenos řeči pomoci auotregresnı́ch modelů segmentů zvukového signálu), či je-li v datech vı́ce vlivných bodů, takže se
navzájem maskujı́ a to se jim bude dařit zejména pokud půjde o vı́cerozměrná data (řekněme
p > 7). Proto byl s velkým zaujetı́m studován problém nalezenı́ metody (či metod), která by si
byla schopna poradit s vysokou kontaminacı́ (nejlépa s 50%) a to jakéhokoliv typu, tj. tvořenou
jak outliery tak leverage pointy. Řekněme rovnou, že právě zmı́něný problém dokázal vzdorovat
soustředěnému “ataku” armády statistiků téměř deset let. Dnes však známe a máme implementovánu, což je také velmi podstatné, celou řadu metod, jejichž mı́ru robustnosti lze dokonce volit
nastavenı́m některého parametru metody od nuly do 50%.
Jednı́m z nejlépe prostudovaných a “vyzkoušených” odhadů tohoto typu je patrně odhad
metodou nejmenšı́ch usekaných čtverců (the least trimmed squares), který je zadán takto (viz
Hampel a kol. (1986)). Necht’ pro libovolné β ∈ Rp a i = 1, 2, ..., n je ri (β) = Yi − xTi β a
2 (β) necht’ jsou tedy pořádkové statistiky přı́slušné ke čtvercům reziduı́. Potom položme pro
r(i)
h, n2 ≤ h ≤ n
β̂ (LT S,n) = arg min
β∈Rp
h
X
2
r(i)
(β).
i=1
Autor těchto skript nabı́zı́ těm, kdo by si chtěli vyzkoušet, jak tento odhad funguje, program,
který je snadné použı́t na výpočet tohoto odhadu. Současně si dovolme upozornit, že často
docházı́ k záměně tohoto odhadu s odhadem, kterému se řı́ká odhad metodou usekaných nejmenšı́ch čtverců (the trimmed least squares) a který nemusı́, a obvykle nemá zdaleka tak dobré
vlastnosti jako odhad β̂ (LT S,n) . Jak ale pořadı́ slov v názvu obou odhadů naznačuje, tento druhý
odhad předpokládá, že nejprve podle nějakého předem daného pravidla usekáme některá pozorovánı́ a pak uplatnı́me na zbytek dat metodu nejmenšı́ch čtverců, zatı́mco prvnı́ odhad vlastně
sám, ale zase pouze implicitně napovı́dá, která pozorovánı́ majı́ být “usekána”.
Jednou z námitek, které stále jěště vznášejı́ “skalnı́” zastánci metody nejmenšı́ch čtverců, je
námitka týkajı́cı́ se malé eficience robustnı́ch metod zejména v přı́padě, kdy platı́ předpoklady
pro aplikaci nejmenšı́ch čtverců. Tato námitka je lichá. Ztráta na eficienci robustnı́ch metod je
obvykle daleko menšı́ než ztráta na eficienci nejmenšı́ch čtverců i při dosti malé kontaminaci
dat.
Otázka, která každeho čtenáře napadne po přečtenı́ několika poslednı́ch řádek je: Proč jsme
tedy na tolika stránkách vykládali všechny možné vlastnosti a triky spojené s metodou nejmenšı́ch
čtverců ?
Odpověd’ je nasnadě. Stále mnoho uživatelů aplikuje nejmenšı́ čtverce a chceme-li být schopni
sledovat jejich výklad a rozumět jejich závěrům, musı́me znát dobře tuto klasickou metodu, byt’
vı́me, že může snadno selhat i při dosti malé kontaminaci, ale hned dodejme, také obvykle dosti
malé pozornosti uživatele k vlivným bodů. Navı́c stále mnoho, patrně dokonce drtivá většina,
172
statistických softwarových knihoven nabı́zı́ žel jen nejmenšı́ čtverce. Ne poslednı́m a určitě ne
nejmenšı́m důvodem pak je to, že metoda nejmenšı́ch čtverců je geometricky názorná a má
nejlépe vypracovanou teorii, včetně sofistikovaných triků, které ji napomáhajı́, dostane-li se do
potı́žı́ (např. hřebenová regrese).
Je zřejmé, že ani v přı́padě, že si osvojı́me řadu robustnı́ch metod a budeme mı́t k tomu
přı́ležitost v dalšı́m dı́le skript, “nezavrhneme” metodu nejmenšı́ch čtverců jako nemodernı́
a zastaralou, nebot’ takovou opravdu nenı́. Jen potom budeme aplikovat vı́ce metod, včetně
nejmenšı́ch čtverců a ze shody (přibližné) či neshody (signifikantnı́, viz např. Rubio a kol.
(1992)) jejich výsledků budeme usuzovat na přı́tomnost, přı́padně velikost a původ, kontaminace. Poslednı́ věta je ostatně doporučenı́, či chcete-li teze, modernı́ statistiky (přelomu druhého
a třetı́ho tisı́ciletı́):
Aplikujte tolik metod regresnı́ analýzy, kolik jich máte k dispozici na svém
počı́tači, vždy však alespoň dvě nebo tři, a vzájemně porovnejte jejich výsledky.
Pokud se tyto (statisticky významně, a na to dnes již existujı́ testy - viz Rubio a kol. (1992)) lišı́, je třeba věnovat datům zvláštnı́ pozornost. Přı́činou je obvykle kontaminace dat, tj. data nepředstavujı́ “jednu populaci”, ale jsou nesourodá.
Často Vám může mnoho napovědět “klasická” diagnostika, o které jsme si povı́dali
výše. Pokud se Vám podařı́ nalézt “podsoubor” dat, na kterém už budou různé
metody dávat přibližně stejné řešenı́ a na kterém klasické diagnostické prostředky
neobjevı́ nic podezřelého, máte vyhráno. Nicméně vysvětlenı́, či chcete-li potvrzenı́
toho, že “zbytek” dat je kontaminace, přı́padně proč, hledejte vždy ve spolupráci s
odbornı́kem z té oblast, ze které pocházejı́ data, nejlépe s tı́m, kdo data naměřil či
jinak shromáždil či Vás o zpracovánı́ požádal.
173
12
Literatura
174
Reference
[1] Aigner, D. J. (1974): MSE dominance of least squares with errors of observation. Journal
of Econometrics 2, 365–372.
[2] Akaike, H. (1974): A new look at the statistical model identification. IEEE Transactions
on Automatic Control 19, 716 - 723.
[3] Akaike, H. (1981): Likelihood of a model and information criteria. Journal of Econometrics
16, 3 - 14.
[4] Amemiya, T. (1973): Regression analysis when the variance of the dependent variable is
proportional to the square of its expectation. Journal of American Statistical Association
68, 928–934.
[5] Amemiya, T. (1977): A note on a heteroscedastic model. Journal of Econometrics 6, 365-370.
and “Corrigenda”. Jouranl of Econometrics 8, 275.
[6] Amemiya, T. (1981): Qualitative response model: A survey. Journal of Economic Literature
19, 1483 - 1536.
[7] Amemiya, T., Powell, J. (1980): A comparison of the logit model and normal discriminant
analysis when independent variables are binary. Technical Report No. 320, Institute for
Mathematical Studies in the Social Sciences, Encina Hall, Stanford University, Stanford,
California.
[8] Anděl, J. (1978): Matematická statistika. Praha, Bratislava: SNTL & ALFA.
[9] Anděl, J. (1993): Statistické metody, MATFYZPRESS, Praha, 1993.
[10] Anderson, T. W. (1948): On the theory of testing serial correlation. Skandinavisk Aktuarietidskrift 31, 88-116.
[11] Bartlett, M. S. (1937): Properties of sufficiency and statistical tests. Proceedings of the
Royal Society, Series A 160, 268 - 282.
[12] Bates, J. M., Granger, C. W. J. (1969): The combination of forecasts. Operational Research
Quarterly, 20, 451-468.
[13] Battese, G. E., Bonyhady, B. P. (1981): Estimation of household expenditure functions:
An application of a class of heteroscedastic regression models. The Economic Record 57,
80–85.
[14] Belsley, D. A., Kuh, E., Welsch, R. E. (1980): Regression Diagnostics: Identifying Influential
Data and Sources of Collinearity. New York: J. Wiley & Sons.
[15] Bera, A. K., Jarque, C. M. (1981): An efficient large-sample test for normality of observations and regression residuals. Australian National University Working Papers in Econometrics No. 40, Cambera.
173
[16] Berndt, E. (1990): The Practice of Econometrics. Reading, Mass.,Addison-Wesley, 1990.
[17] Boscovisch, R. J. (1757): De litteraria expeditione per pontificiam ditionem, et synopsis
amplioris operis, ac habentur plura eius ex exemplaria etiam sensorum impressa. Boloniensi
Scientiarum et Artium Instituto Atque Academia Commentarii 4, 353-396.
[18] Bowden, R. J., Turkington, D. A. (1984): Instrumental Variables. Cambridge: Cambridge
University Press.
[19] Bradley, E. L. (1973): Equivalence of maximum likelihood and weighted least squares estimates in the exponential family. Journal of American Statistical Association 768, 199 200.
[20] Breiman, L., Friedman, J. H., Olshen, R. A., Stone, C. J. (1984): Classification and Regression Trees. Belmont, California: Wadsworth International Group.
[21] Breusch, T. S., Pagan, A. R. (1979): A simple test for heteroscedasticity and random coefficient variation. Econometrica 47, 1287 -1294.
[22] Charnes, A., Frome, E. L., Yu, P. L. (1976): The equivalence of generalized least squares and
maximum likelihood estimates in the exponential family. Journal of American Statistical
Association 71, 169 - 171.
[23] Chatterjee, S., Hadi, A. S. (1988): Sensitivity Analysis in Linear Regression. New York: J.
Wiley & Sons.
[24] Chatterjee, S., Price, B. (1977): Regression Analysis by Example. New York: J. Wiley &
Sons.
[25] Chow, G. C. (1960): Tests of equality between sets of coefficients in two linear regressions.
Econometrica 28, 591 - 605.
[26] Clemen, R. T. (1986): Linear constraints and efficiency of combined forecasts. Journal of
Forecasting 6, 31 - 38.
[27] Cochrane, D., Orcutt, G. H. (1949): Application of least squares regression to relationships
containing autocorrelated error terms. Journal of the American Statistical Association, 44,
32 - 61.
[28] Cook, R. D., Weisberg, S. (1983): Diagnostics of heteroscedasticity in regression. Biometrika
70, 1 - 10.
[29] D’Agostino, R. B., Belanger, A., D’Agostino, R. B. Jr. (1990): A suggestion for using
powerful and informative tests of normality. American Statisticians 44, 316 - 321.
[30] Dhrymes, P. J.(1978): Introductory Econometrics. Springer-Verlag, New York.
[31] Draper, N. R., Smith, H. (1981): Applied Regression Analysis. New York: J.Wiley & Sons,
2nd edition (1st edition 1966).
174
[32] Durbin, J., Watson, G. S. (1952): Testing for serial correlation in least squares regression.
I. Biometrika 37, 409-428.
[33] Eicker, F. (1967): Limit theorems for regression with unequal and dependent errors. In
Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, L.
Le Cam, J. Neyman, eds., Berkeley: University of California Press.
[34] Farrar, D. E., Glauber, R. R. (1967): Multicollinearity in regression analysis: The problem
revisited. Review of Economics and Statistics 49, 92-107.
[35] Fisher, R. A. (1922): On the mathematical foundations of theoretical statistics. Philos.
Trans. Roy. Soc. London Ser. A 222, pp. 309–368.
[36] Friedman, M. (1957): A Theory of the Consumption Function. Princeton: Princeton University Press.
[37] Friedman, R. (1982): Multicollinearity and ridge regression. Allgemeines Statistisches
Archiv 66, 120 - 128.
[38] Froehlich, B. R. (1973): Some estimators for a random coefficient regression model. Journal
of the American Satistical Association 68, 329–334.
[39] Frome, E. L., Kutner, M. H., Beauchamp, J. J. (1973): Regression analysis of Poissondistributed data. Journal of American Statistical Association 68, 935 - 940.
[40] Galilei, G. (1632): Dialogo dei masimi sistemi.
[41] Galton F. (1886): Regression towards mediocrity in hereditary stature. Journal of the
Antropological Institute 15, 246–263.
[42] Gauss F. C. (1809): Theoria molus corporum celestium. Hamburg: Perthes et Besser.
[43] Glivenko, V. I. (1933): Sulla determinazione empirica delle leggi di probabilita. Giorn.
Inst.Ital. Attuari 4, 92.
[44] Goldberger, A. S. (1972): Structural equation methods in the social sciences. Econometrica
40, 979 - 1001.
[45] Goldfeld, S. M., Quand, R. E. (1965): Some tests for homoscedasticity. Journal of American
Statiststical Association 60, 539 - 547.
[46] Goldfeld, S. M., Quand, R. E. (1972): Nonlinear Methods in Econometrics. North-Holland,
Amsterdam.
[47] Granger, C. W. J. (1969): Ivestigating casual relations by econometric models and crossspectral methods. Econometrica 37, 424 - 438.
[48] Greene, W.H. (1993): Econometric Analysis, New York. Macmillam Press.
175
[49] Griffiths, W. E., Anderson, J. R. (1982): Using time-series and cross-section data to estimate a production function with positive and negative marginal risks. Journal of American
Statistical Association 77, 529–536.
[50] Gunst, R. F. (1983): Regression analysis with multicollinear predictor variables: The problem revisted. Review of Economic Statistics 49, 92 - 107.
[51] Hampel, F.R., Ronchetti, E.M., Rousseeuw, P.J., Stahel, W.A. (1986): Robust Statistics –
The Approach Based on Influence Functions. New York: J.Wiley & Sons.
[52] Hand, D. J., Daly, F., Lunn, A. D., McConway, K. J., Ostrowski, E. (1994): Handbook of
Small Data Sets. London: Chapman & Hall.
[53] Harvey, A. C. (1974): Estimation of parameters in a heteroscedastic regression model. European Meeting of the Econometric Society, Grenoble, France.
[54] Hausman, J. (1978): Specification test in econometrics. Econometrica, 46, 1978, 1251 1271.
[55] Hensher, D., Johnson, L. (1981): Applied Discrete-Choice Modelling. New York: Halsted.
[56] Hettmansperger, T. P., Sheather, S. J. (1992): A Cautionary Note on the Method of Least
Median Squares. The American Statistician 46, 79–83.
[57] Hewitt, E., Stromberg, K. (1965): Real and Abstract Analysis. Berlin: Springer - Verlag.
[58] Hildreth, C., Houck, J. P. (1968): Some estimators for a linear model with random coefficients. Journal of the American Statistical Association 63, 584 –595.
[59] Hoerl, A. E., Kennard, R. W. (1970): Ridge regression: Biased estimation for nonorthogonal
problems. Technometrics 12, 55 - 68.
[60] Hoerl, A. E., Kennard, R. W. (1970): Ridge regression: Application to nonorthogonal problems. Technometrics 12, 69 - 82.
[61] Huang, H. C., Bolch, B. W. (1974): On the testing of regression disturbances for normality.
Journal of American Statistical Association 69, 330 - 335.
[62] Humphreys, R. M. (1978): Studies of luminous stars in nearby galaxies. I. Supergiants and
0 stars in the milky way. Astrophysical Jouranal Supplemant Series 38, 309–350.
[63] Judge, G. G., Griffiths, W. E., Hill, R. C., Ltkepohl, H., Lee, T. Ch (1982): Introduction to
the Theory and Practice of Econometrics. New York: J.Wiley & Sons.
[64] Judge, G. G., Griffiths, W. E., Hill, R. C., Ltkepohl, H., Lee, T. Ch (1985): The Theory and
Practice of Econometrics. New York: J.Wiley & Sons (second edition).
[65] Just, R. E., Pope, R. D. (1978): Stochastic specification on production function and Economic implications. Journal of Econometrics 7, 67–86.
176
[66] Kendall, M. G., Stuart, A. (1973): The Advanced Theory of Statistics. Vol. 2. Inference and
Relationship. New York: Hafner.
[67] Kiefer, N. M., Salmon, M. (1983): Testing normality in econometric models. Economics
Letters 11, 123 - 128.
[68] Kmenta, J. (1986): Elements of Econometrics. New York: Macmillan Publishing Company.
[69] Kuhn, T. S. (1965): Structure of Scientific Revolution. Chicago: University of Chicago Press,
Phoenix Broks 159.
[70] Kullback, S. (1959): Information Theory and Statistics. New York: J. Wiley & Sons.
[71] Kumar, T. K. (1975): Multicollinearity in regression analysis. Review of Econometrics and
Statistics, 57, 365 - 366.
[72] Laplace, P. S. (1793): Sur quelques points du systeme du mode. Memoires de l’Academie
Royale des Sciences de Paris, 1-87.
[73] Leamer, E: (1983): Model choice and specification analysis. In Handbook of Econometrics,
Vol. I, 285 - 331. Z. Griliches and M. Intriligator, eds. Amsterdam, North Holand.
[74] Legendre, A. M. (1805): Nouvelles méthodes pour la détermination des orbites des comètes.
Paris: Courcier.
[75] Liviatan, N. (1963): Consistent estimator of distributed lags. International Economic Review, 4, 44 - 52.
[76] Locke, C., Spurrier, J. S. (1977): The use of U-statistics for testing normality against alternative with both tails heavy or both tails light. Biometrika 64, 638 - 640.
[77] Lopuha, H. P. (1989): Estimation of location and covariance with high breakdown point.
Ph D Thesis. Technical University of Delft.
[78] Mallows, C. L. (1973): Some comments on Cp . Technometrics 15, 661 - 676.
[79] Marquart, D. W. (1970): Genaralized inverses, ridge regression, biased linear estimation
and nonlinear estimation. Technometrics 12, 591 - 612.
[80] Marquart, D. W., Snee, R. D. (1975): Ridge regression in practice. American Statistician
29, 3 - 20.
[81] Mason, R. L., Gunst, R. F., Hess, J. L. (1989): Statistical Design and Analysis of Experiments, New York: J.Wiley & Sons.
[82] Mason, R. L., Gunst, R. F., Webster, J. T. (1975): Regression analysis and problems of
multicollinearity. Communication in Statistics 4, 277 - 292.
[83] McCallum, B. T. (1972): Relative asymptotic bias from errors of observation and measurement. Econometrica 40, 757–758.
177
[84] McFadden, D. (1976): Quantal choice analysis : A survey. Annals of Economic and Social
Measurement 5, 363 - 390.
[85] Montgomery, D. C., Askin, R. G. (1981): Problems of nonnormality and multicollinerityfor
forecasting methods based on the leat squares. AIIE Transactions 13, 102 - 115.
[86] Montgomery, D. C., Peck, E. A. (1982): Introduction to Linear Regression Analysis. New
York: J.Wiley & Sons.
√
[87] Mulholland, H. P. (1977): On the null distribution of b1 for samples of size at most 25
with tables. Biometrika 64, 401 - 409.
[88] von Neumann, J. (1941): Distribution of the ratio of the mean-square successive difference
to the variance. Annals of Mathematical Statistics 12, 367 - 395.
[89] Nicholls, D. F., Pagan, A. R. (1983): Heteroscedasticity in models with lagged dependent
variables. Econometrica 51, 1233–1242.
[90] Pearson, E. S., D’Agostino, R. B., Bowman, K. O. (1977): Tests for departure from normality: Comparison of powers. Biometrika 64, 231 - 246.
[91] Pearson, E. S., Hartley, H. O. (1956, 1972): Biometrika Tables for Statisticians I., II. Cambridge University Press.
[92] Pitman, E. J. G. (1937): The ‘closest’ estimates of statistical parameters. Proc. Camb. Phil.
Soc. 33, 212-222.
[93] Prais, S. J., Houthakker, H. S. (1955): The Analysis of Family Budgets. New York: Cambridge University Press.
[94] Prais, S. J., Winsten, C. B. (1954): Trend estimators and serial correlation. Cowless Commission Discussion Paper No 383, Chicago.
[95] Press, S., Wilson, S. (1978): Choosing between logistic regression and discriminant analysis.
Journal of the American Statistical Association 23, 699 - 705.
[96] Prigogine, I., Stengers, I. (1977): La Nouvelle Alliance. SCIENTIA, 1977, issues 5-12.
[97] Prigogine, I., Stengers, I. (1984): Out of Chaos. London: William Heinemann Ltd.
[98] Raj, B., Srivastava, V., Upadhyaya, S. (1980): The efficiency of estimating a random coefficient model. Journal of Econometrics 12, 285–299.
[99] Rao, R. C.. (1978): Lineárnı́ metody statistické indukce a jejich aplikace. Praha: Academia.
[100] Rao, R. C., Zhao, LC. (1992): On the consistency of M -estimate in linear model obtained
through an estimating equation. Statistics & Probability Letters 14, 79 - 84.
[101] Rousseeuw, P.J., Leroy, A.M. (1987): Robust Regression and Outlier Detection. New York:
J.Wiley & Sons.
178
[102] Rubio, A., Aguilar, L., Všek, J. Á. (1992): Testing for difference between models. Computational Statistics 8, 57 - 70.
[103] Ruppert, D., Carroll, R. J. (1980): Trimmed least squares estimation in linear model. J.
Americal Statist. Ass., 75 (372), pp. 828–838.
[104] Saniga, E. M., Miles, J. A. (1979): Power of some standard goodness-of-fit tests of normality
against asymmetric stable alternatives. Journal of the American Statistical Ass. 74, 861 865.
[105] Scheffe, H. (1959): The Analysis of Variance. New York: J.Wiley & Sons.
[106] Schwarz, G. (1978): Estimating the dimension of model. The Annals of Statistics, 6, 461
- 464.
[107] Shapiro, S. S., Wilk, M. B. (1965): An analysis of variance test for normality(complete
samples). Biometrika 52, 591 - 611.
[108] Šidák, Z. (1967): Rectangular confidence regions for the means of multivariate normal
distributions. J. Amer. Statist. Assoc. 62, pp. 626–633.
[109] Štěpán, J. (1987): Teorie pravděpodobnosti. Praha: Academia.
[110] Szroeter, J. (1978): A class of parametric tests of heteroscedasticity in linear econometric
models. Econometrica 46, 1311 - 1328.
[111] Theil, H. (1965): The analysis of disturbance in regression analysis. J. Amer. Statist. Assoc.
60, 1067 - 1079.
[112] Theil, H. (1971): Principles of Econometrics. New York: J.Wiley & Sons.
[113] Vandaele, W. (1978): Participation in illegitimate activities: Erlich revisted. In Deterrence
and incapacitation, Blumstein,A., Cohen, J., Nagin, D., eds. Washington. D. C.: National
Academy of Sciences, 270 - 335.
[114] Vı́šek, J. Á (1996 a): Sensitivity analysis of M -estimates. Annals of the Institute of Statistical Mathematics 48(1996), 469-495.
[115] Vı́šek, J. Á (1996 b): On the coefficient o determination: Simple but ... . Bulletin 5/1996
of the Czech Econometric Society, 117 - 124.
[116] Vı́šek, J. Á (1996 c): On high breakdown point estimation. Preprint. Computational Statistics (1996) 11:137-146, Berlin.
[117] Vı́šek, J. Á (1997 a): Data subsample influence in M -estimation of the non-linear regression
model. Preprint.
[118] Vı́šek, J. Á (19967 b): Robust constrained combination of forecasts. Working paper presented on The Econometric Society European Meeting, Bogazi University, Istanbul 25 - 29
August, 1996.
179
[119] Vı́šek, J. Á (1997 c): Combining the forecasts by their decomposition. Proceedings of the
Mathematical Methods in Economics, Ostrava, September 9 - 11, 1997, pp. 188 - 193.
[120] Vı́šek, J. Á (1997 d): On the diversity of estimates. Submitted to Computational Statistics
and Data Analysis.
[121] Vı́šek, J. Á (1997 e): Contamination level and sensitivity of robust tests. Handbook of
Statistics, volume 15, 633 - 642, eds. G. S. Maddala & C. R. Rao.
[122] White, H. (1980): A heteroskedasticity-consistent covariance matrix estimator and a direct
test for heteroscedasticity. Econometrica 48, 817 - 838.
[123] White, H., MacDonald, G. M. (1980): Some large-sample tests for non-normality in the
linear regression model. Journal of the American Statistical Association 75, 16 - 28.
[124] Wickens, M. R. (1972): A note on the use of proxy variables. Econometrica 40, 759–761.
[125] Willan, A. R., Watts, D. G. (1978): Meaningful multicollinearity measures. Technometrics
20, 407 - 411.
[126] Working, E. J. (1927): What do statistical demend curves show. Quarterly Journal of
Economics 39, 503 - 545.
[127] Zellner, A., Lee, T. H. (1965): Joint Estimation of relationships involving discrete random
variables. Econometrica 33, 382 - 394.
[128] Zv ara, K. (1989): Regresnı́ analýza (Regression Analysis – in Czech). Praha: Academia.
180
13
Autorský rejstřı́k
181
Index
Aguilar, L. 171
Aigner,D. J. 144
Akaike, H. 60, 87
Amemiya, T 79, 80, 139, 140
Anderson, J. R. 80
Anderson, T. W. 91, 95
Anděl, J. 51, 97, 131, 163
Askin, R. G. 124
Bartlett, M. S. 81
Belanger, A. 87
Belsley, D. A. 123
Bera, A. K. 85
Berndt, E. 19, 49, 51
Beuchamp, J. J. 36
Bohr, N. 7
Bolch, B. W. 86
bonyhady, B. P. 80
Boscovitch, R. J. 10
Bowden, R. J. 97
Bowman, K. O. 85
Bradley, E. L. 36
Breiman, L. 142
Breusch, T. S. 80, 81
Carroll, R. J. 15
Charnes, A. 36
Chatterjee, S. 16, 17, 64, 101
Cramer, H. 30, 31
Chow, G. C. 58
Clemen, R. T. 115
Cochran, W. G. 87
Cook, R. D. 80
D’Agostino, R. B. 85
Daly, F. 19
Dhrymes, P. J. 139
Draper, N. R. 163
Durbin, J. 83, 88, 90
Eicker, F. 76
Farrar, D. E. 123, 124
Fisher, R. A. 44, 85
Friedman, J. 142
Friedman, M. 95
Friedman, R. 123
Froehlich, B. R. 79
Frome, E. L. 36
Galilei, G. 8, 10
Galton, F. 10
Gauss, C. F. 10, 24
Glauber, R. R. 123, 124
Glivenko, V. I. 72
Gődel, K. 8
Goldberger, A. S. 99
Goldfeld, S. M. 81
Granger, C. W. J. 12
Greene, W. H. 98
Griffiths, W. E. 25, 80, 83, 85, 86, 92, 139, 148
Gunst, R. F. 13, 109
Hadi, A. S. 16, 17, 64, 101
Hand, D. J. 19
Hampel, F. R. 85, 87, 128, 129
Hartley, H. O. 87
Harvey, A. C. 77, 79
Hausman, J. 98
Hensher, D. 139
Hess, J. L. 14
Hettmansperger, T. P. 14
Hewitt, E. 13
Hill, R. C. 25, 80, 83, 85, 86, 92, 139, 148
Hoerl, A. E. 67
Huang, H. C. 95
Humphreys, R. M. 22
Jarque, C. M. 85
Johnson, L. 139
Judge, G. G. 25, 80, 83, 85, 86, 92, 139, 148
Just, R. E. 80
Kant, I. 8
181
Kennard, R. W. 110
Kendall, M. G. 81
Kiefer, N. M. 85
Kmenta, J. 19, 80, 83, 92, 148
Kuh, E. 123
Kuhn, T. S. 24
Kullback, S. 60
Kumar, T. K. 123
Kutner, M. H. 36
Laplace, P. S. 10
Leamer, E. 123
Lee, T. C. 25, 80, 83, 85, 86, 92, 139, 148
Legendre, A. M. 10
Leroy, A. M. 14, 128
Liviatan, N. 97
Locke,C. 85
Lopuhaa̋, H. P. 129
Lunn, A. D. 19
Lűtkepohl, H. 25, 80, 83, 85, 86, 92, 139, 148
MacDonald, G. M. 85
Mallows, C. L. 60
Mason, R. L. 14, 109
McCllum, B. T. 145
McConway, K. 19
McFaden, D. 139
Miles, J. A. 85
Montgomery, D. C. 121
Mulholland, H. P. 87
von Neumann, J. 82, 90, 91
Olshen, R. A. 142
Orcutt, G. H. 87
Ostrowski, E. 19
Pagan, A. R. 79, 80, 81
Pearson, E. S. 85, 87
Peck, E. A. 121, 128
Pitman, E. J. G. 91
Popper, K. 8
Powell, J. 140
Prais, S. J. 73, 87
Press, S. 140
Price, B. 18
Prigogine, I. 8, 9
Quand, R. E. 81
Raj, B. 79
Rao, R. C. 27, 28, 30, 36, 72, 163
Ronchetti, E. M. 85, 87, 128, 129
Rousseeuw, P. J. 15, 85, 87, 128, 129
Rubio, A. M. 171
Ruppert, D. 15
Salmon, M. 85
Saniga, E. M. 85
Scheffe, H. 163
Shapiro, S. S. 86
Sheather, S. J. 14
Smith, H. 163
Snee, R. D. 109
Spurrier, J. S. 85
Srivastava, V. 79
Stahel, W. A. 85, 87, 128, 129
Stone, C. J. 142
Stromberg, K. 13
Stengers, I. 8, 9
Stuart, A. 81
Szroeter, J. 82
Šidák, Z. 53
Štěpán, J. 27, 28
Theil, H. 73, 77, 86
Turkington, D. A. 97
Upadhyaya, S. 79
Vandaele, W. 19
Varadarajan 28
Vı́šek, J. Á. 106, 119, 121, 128, 171
Watson, G. S. 83, 88, 90
Watts, D. G. 123
Webster, J. T. 109
Weisberg, S. 80
Welsch, R. E. 123
White, H. 76, 83
182
Wickens, M. R. 145
Wilk, M. B. 86
Willan, A. R. 123
Wilson, S. 140
Winsten, C. B. 87
Working, E. J. 98
Yu, P. L. 36
Zellner, A. 139
Zhao, LC. 28
Zvára, K. 25, 61, 92, 114
183
14
Věcný rejstřı́k
184
Index
absolutnı́ člen 21, 69, 70
Aitkenův odhad 74, 130, 159
analýza variance 160
dvojné třı́děnı́ 160, 164
jednoduché třı́děnı́ 160
normálnı́ rovnice 161
okrajová podmı́nka 160, 164
testovánı́ submodelu 163
rozklad součtu čtverců
pro jednoduché třı́děnı́ 163
pro dvojné třı́děnı́ 169
nadbytek parametrů v modelu 164
analýza
diskriminačnı́ 140
faktorová 114
hlavnı́ch komponent 114
CAPM (capital asset pricing model) 50
data
homogennı́ 68
normalizovaná 66
diagnostické nástroje 69, 106
dolnı́ Rao-Cramerovy hranice 30
Durbin-Watsonovo lemma 90
Durbin-Watsonova statistika 90, 92
dolnı́ kritická hodnota D-W 83
hornı́ kritická hodnota D-W 83
efekt
podurčenı́ 101
přeurčenı́ 103
faktory 11
faktorový prostor 11
Feller-Lindebergova věta 28
Fisher-Cochranovo lemma 45, 52
Fisher-Snedecorovo F 52
fluktuace, nezávislost 129
graf
diagnostický 69
stabilizace 114
reziduı́ 71
proti indexu (index plot) 72
proti normálnı́m kvantilům (normal plot)
72
proti predikované střednı́ hodnotě vysvětlované
proměnné 72
heteroskedasticita 72, 80
hladina významnosti 68
homoskedasticita 72, 80
hřebenová regrese (ridge regression) 110
hypotéza
Friedmanova, stálého důchodu 95
chyby předpovědi 118
instrumentálnı́ proměnné 93
interkvantil 63
interval spolehlivosti 53
kauzalita 11
koeficient determinace 49, 63
upravený (adjusted) 61
velikost 51
kolinearita 25, 65, 69, 107
(multikolinearita)
definice 107
determinant matice plánu 109
diagnostické nástroje 107
poměr vlastnı́ch čı́sel 107
kombinovánı́ předpovědı́ časových řad 114
kritérium
Akaikeho 60
Mallowsovo Cp 60
Kroneckerovo δ 101
kvadratická forma 44
kvalita předpovědi 118
matice
determinant 112
diagonálnı́ 40
184
idempotentnı́ 38, 57
Ocamova břitva 24
index podmı́něnosti 109
odhad
Aitkenův 74, 130, 159
korelačnı́ 63
asymptoticky normálnı́ 26
kovariančnı́ 63
dvoustupový 148, 156, 158
odhadů regresnı́ch koeficientů 63
trojstupový 158
nulový determinant 109
inkonsistence β̂ (LS,n) 94
pás spolehlivosti 53
invariance 70
plánu (designová) 20, 21
konsistentnı́ 26
kvadratický 42
plná hodnost 25, 106
lineárnı́ 13, 26
poměr vlastnı́ch čı́sel 109
maximálně věrohodný 30, 148
pozitivně definitnı́ 39
metodou nejmenšı́ch čtverců 22, 24, 55, 74
pozitivně semidefinitnı́ 39, 108
naivnı́ 143
projekčnı́ (hat) 36
nejlepšı́ nestranný 30
diagonálnı́ prvky 62, 64
nestranný 26, 42
rozdı́l projekčnı́ch matic 56, 57
rozptylu 46, 68
singulárnı́ rozklad 108, 109
střednı́ kvadratická odchylka 68, 110
spektrálnı́ rozklad 41
studentizované, regresnı́ch koeficientů 46
vlastnı́ čı́slo 39
studentizovaný 66
vlastnı́ vektor 39
vychýlenı́ 110
medián 63, 64
omezenı́
mediánová absolutnı́ odchylka 64
lineárnı́ 114
metoda nejmenšı́ch čtverců 22, 24, 58
náhodná 120
model
P -hodnoty 69
adekvátnost 68
interpretace 105
pákový efekt 25, 106
s geometrickou strukturou regresnı́ch koeplná hodnost 24
ficientů 94
podmı́nka okrajová 160, 164
s náhodnými chybami měřenı́ u vysvětlujı́cı́ch
podurčenı́ modelu 101
proměnných 95, 142
pozorovánı́
s nekonečným počtem zpožděnı́ 97
leverage points (pákový bod) 22, 30
multikolinearita - viz kolinearita
odlehlá (outliers) 22, 30
nejmenšı́ čtverce 22, 24, 58, 143
vlivný bod 22, 106
nezávislost
předpoklad
statistická 12
nezávislosti fluktuacı́ 129
náhodných fluktuacı́ 87
normality reziduı́ 46, 47, 49
normalita fluktuacı́ 30, 85
přeurčenı́ modelu 101
šikmost 87
Pythagorova věta 51
špičatost 42, 87
regresnı́ model 11
nosiče 11
absolutnı́ člen (intercept) 21
pevné 67
185
role absolutnı́ho členu 69
signifikantnost absolutnı́ho členu 70
binárnı́ 131
fluktuace (náhodné) 12, 14, 20, 130
interpretace 105
koeficienty 12, 22, 63
koeficient determinace 49, 63
upravený (adjusted) 61
definice 107
kvalita 118
lineárnı́ 13, 21
lineárnı́ pravděpodobnostnı́ 131
logitový 137
maticový zápis 22
normalita fluktuacı́ 30, 85
P -hodnoty 69
parametry 12
penalizace za bohatý model 60
Akaikeho kritérium 60
Mallowsovo kritérium Cp 60
pevné nosiče 67
podurčenı́ modelu 101
probitový 135
přeurčenı́ modelu 103
regresory 11
spolehlivost, adekvátnost 62
submodel 56
šum 12
testovánı́ submodelů 56, 58, 131
výběr 59
zobecněný 129, 130
reziduálnı́ součet čtverců 42, 47, 49, 57, 69
reziduum 21
BLUS 86
heteroskedasticita 72, 80
homoskedasticita 72, 80
nezávislost náhodných fluktuacı́ 129
normalita 46, 47, 49
volatilita 80
rovnice
normálnı́ 147
simultánı́ 11, 95, 148
analýza identifikovanosti koeficientů 153
neomezené (unrestricted) 152
odhad dvoustupový 148, 156, 158
odhad trojstupový 158
omezené (restricted) 152
podmı́nka na počet parametrů 154
podmı́nka na hodnost matice 154
podmı́nka identifikovatelnosti koeficientů
pomocı́ omezenı́ 155
problém identifikace 152, 159
redukovaný tvar 148
strukturálnı́ tvar 148
typy soustav rovnic 152
zdánlivě nesouvisejı́cı́ 145, 159
rozptyl 62
reziduı́ 63
Shapiro-Wilkova statistika 86
silný zákon velkých čı́sel 27
simultánı́ rovnice 11, 95, 148
Sluckého věta 28
Studentovo t 47
střednı́ hodnoty 62
stupně volnosti 63
šikmost 87
špičatost 42, 87
test
Bartlettův 82
Breusch-Paganův 81
Chowův 58
Durbin-Watsonův 83
Farrar-Glauberův 62
Goldfeld-Quandtův 82
heteroskedasticity, v přı́padě korelovanosti
fluktuacı́ 84
Shapiro-Wilkův 86
Szroeterova třı́da 82
Whiteův 82
testovánı́
shodnosti regresnı́ch modelů 58
186
submodelů 56, 58
těžiště dat 68
veličina
endogenı́ 11
exogenı́ 11
koncová 11
lagged endogenous 11
posunuté endogenı́ 11
predeterminovaná 11
proxy 144
výstupnı́ 11
vysvětlovaná 11
vysvětlujı́cı́ 11
absolutnı́ velikost 67
diskrétnı́ 130
kvalitativnı́ 130
měřené s chybami 95, 142
náhodné 14
nepřı́stupná 144
vypuštěnı́ 69
vlastnı́ čı́slo 39
vlastnı́ vektor 39
vlivný bod 22, 106
volatilita 80
vypuštěnı́ proměnných 69
výstupy z počı́tačových knihoven 61
změna
ve sklonu regresnı́ nadroviny 69
v predikci 69
zobecněný odhad metodou nejmenšı́ch čtverců
74
s odhadnutými parametry 75
187

1 Predmluva 4 2 ´UVOD DO REGRESNÍ ANAL´YZY 9 3

Transkript

Podobné dokumenty

Cesta kolem Orientu

Praktikum z operacnıch systému˚ Jméno: I. Strucné odpovedi 1

4 • 2014

Itálie 2012 (Dolomity,Lago di Garda, Benátky)