1 Predmluva 4 2 ´UVOD DO REGRESNÍ ANAL´YZY 9 3
Transkript
1 Predmluva 4 2 ´UVOD DO REGRESNÍ ANAL´YZY 9 3
Obsah 1 Předmluva 4 2 ÚVOD DO REGRESNÍ ANALÝZY 9 3 LINERNÍ REGRESNÍ MODEL 3.1 Odhad regresnı́ch koeficientů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Odhad rozptylu náhodných fluktuacı́ . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 35 4 DIAGNOSTIKA ODHADU REGRESNÍHO MODELU 4.1 Rozdělenı́ kvadratických forem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Rozdělenı́ odhadu rozptylu náhodných fluktuacı́ a studentizovaných odhadů regresnı́ch koeficientů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Koeficient determinace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Intervaly a pásy spolehlivosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Testovánı́ submodelů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 Výběr modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 43 5 VÝSTUPY Z POČTAČOVÝCH KNIHOVEN 5.1 Tabulky výsledků . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Grafy reziduı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 60 70 6 OVĚŘOVÁNÍ ZÁKLADNÍCH PŘEDPOKLADŮ 6.1 Homoskedasticita a heteroskedasticita . . . . . . . . . . . . . . . . . 6.1.1 Přı́klady situacı́ s heteroskedastickými fluktuacemi . . . . . . 6.1.2 Modely heteroskedasticity . . . . . . . . . . . . . . . . . . . . 6.1.3 Testy homoskedasticity . . . . . . . . . . . . . . . . . . . . . 6.1.4 Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Normalita náhodných fluktuacı́ . . . . . . . . . . . . . . . . . . . . . 6.3 Nezávislost náhodných fluktuacı́ . . . . . . . . . . . . . . . . . . . . 6.4 Nezávislost vysvětlujı́cı́ch proměnných a náhodných fluktuacı́ . . . . 6.4.1 vod a přı́klady situacı́ porušenı́ nezávislosti . . . . . . . . . . 6.4.2 Instrumentálnı́ proměnné . . . . . . . . . . . . . . . . . . . . 6.4.3 Hausmanův test nezávislosti regresorů a náhodných fluktuacı́ 6.4.4 Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 72 72 74 79 83 84 86 92 92 95 97 99 . . . . . . . 100 100 102 105 106 107 109 113 7 ÚVAHY O SENSITIVITĚ MODELU 7.1 Efekt podurčenı́ . . . . . . . . . . . . . . . 7.2 Efekt přeurčenı́ . . . . . . . . . . . . . . . 7.3 Vliv jednoho pozorovánı́ . . . . . . . . . . 7.4 Kolinearita . . . . . . . . . . . . . . . . . 7.4.1 Zdroje a rozpoznánı́ kolinearity . . 7.4.2 Hřebenová regrese . . . . . . . . . 7.4.3 Odhady s lineárnı́mi ohraničujı́cı́mi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . podmı́nkami . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 48 52 55 58 7.4.4 7.4.5 7.4.6 Alternativnı́ indikátory kolinearity a jejich záludnosti . . . . . . . . . . . 120 Alternativnı́ řešenı́ problému kolinearity . . . . . . . . . . . . . . . . . . . 123 Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 8 NĚKTERÉ SPECIÁLNÍ TYPY REGRESNÍHO MODELU 128 8.1 Zobecněný regresnı́ model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 8.2 Model s diskrétnı́ vysvětlovanou proměnnou . . . . . . . . . . . . . . . . . . . . . 129 8.2.1 Problémy s použitı́m klasického regresnı́ho modelu pro binárnı́ vysvětlovanou veličinu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 8.2.2 Model s binárnı́ možnostı́ výběru . . . . . . . . . . . . . . . . . . . . . . . 131 8.2.3 Odhady parametrů v lineárnı́m pravděpodobnostnı́m modelu . . . . . . . 132 8.2.4 Odhady parametrů v probitovém a logitovém modelu . . . . . . . . . . . 134 8.2.5 Diskuze k použitı́ probitového a logitového modelu . . . . . . . . . . . . . 138 8.3 Model s kategoriálnı́mi vysvětlujı́cı́mi proměnnými . . . . . . . . . . . . . . . . . 139 8.4 Vysvětlujı́cı́ proměnné měřené s náhodnými chybami . . . . . . . . . . . . . . . . 141 8.5 Aproximace nepřı́stupných vysvětlujı́cı́ch veličin . . . . . . . . . . . . . . . . . . . 143 9 MODEL S VÍCEROZMĚRNOU VYSVĚTLOVANOU PROMĚNNOU 9.1 Zdánlivě nesouvisejı́cı́ rovnice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Simultánı́ rovnice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Problém identifikace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.2 Identifikace pomocı́ omezenı́ na kovariančnı́ matici náhodných fluktuacı́ 9.2.3 Dvoustupňový odhad metodou nejmenšı́ch čtverců . . . . . . . . . . . . 9.2.4 Trojstupňový odhad metodou nejmenšı́ch čtverců . . . . . . . . . . . . . . . . . . . 144 144 147 151 154 155 157 10 ANALÝZA VARIANCE 159 10.1 Jednoduché třı́děnı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 10.2 Dvojné třı́děnı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 11 NĚKTERÉ NETRADIČNÍ METODY REGRESNÍ ANALÝZY 171 12 Literatura 174 13 Autorský rejstřı́k 181 14 Věcný rejstřı́k 184 4 1 Předmluva Zpracovánı́ dat, at’ už jsou numerického či kategoriálnı́ charakteru, se stalo v modernı́ vědě jednou ze standarnı́ch metod vyhodnocovánı́ informace. Zpracovánı́ samo je pak obvykle založeno na nějaké našı́ představě o charakteru dat, či chcete-li o mechanizmu, který generoval daná data. Zmı́něná představa je zpravidla formalizována do nějaké vědecké, či se tak alespoň tvářı́cı́, teorie. Konečně pak výsledky zpracovánı́ jsou pokládány za objektivnı́ zjištěnı́ o světě, který nás obklopuje a který se takto pokoušı́me pochopit a (naivně) ovládnout. Celý tento postup je obklopen, či spı́še “proniknut” celou řadou mýtů a zavádějı́cı́ch představ, které majı́ své historické kořeny v renesanci a osvı́cenectvı́, a své ideové a možná, že by bylo přesnějšı́ řı́ci ideologické, kořeny v pýše člověka, coby pána přı́rody. Někdy jdou představy těch, kteřı́ toto zpracovánı́ aplikujı́ až tak daleko, že každé jiné zpracovánı́ informace pokládajı́ přinejmenšı́m za druhořadé, ne-li rovnou za bezcenné. Dodejme rovnou, že obvykle jsou to ti, kteřı́ nekriticky obdivujı́ vědecké poznánı́ a neuvědomujı́ si ani reálné možnosti modernı́ vědy, na straně jedné, ani jejı́ nepřekročitelné hranice, na straně druhé. Skripta, která máte před sebou, jsou výkladem jedné z metod zpracovánı́ dat, a dodejme, že jedné z nejefektivnějšı́ch, totiž regresnı́ analýzy. Jako taková nabı́dnou propracovanou teorii, či přesněji řečeno, jejı́ část, kterou bychom dnes mohli nazvat snad klasickou částı́ regresnı́ analýzy. Tato je téměř výhradně založena na metodě nejmenšı́ch čtverců a zhruba po třech desetiletı́ch budovánı́ robustnı́ statistiky, je již současné době menšı́ částı́ teorie regrese. Důvody, proč se této klasické teorii budeme věnovat, jsou následujı́cı́. Mezi uživateli je mimo jakoukoliv pochybnost stále nejvı́ce známa a nejvı́ce užı́vána, ač se snadno prokáže, že metoda nejmenšı́ch čtverců je jednou z nejnáchylnějšı́ch k “vyprodukovánı́” zavádějı́cı́ch výsledků. Tı́m spı́še je třeba si ji osvojit tak, abychom včas rozpoznali, kdy k něčemu takovému může dojı́t. Dalšı́m důvodem je pak to, že jsou jejı́ výsledky velmi často chybně interpretovány a to i v přı́padě, že jejı́ výsledky jsou korektnı́. Tı́m spı́še je třeba si ji osvojit tak, abychom včas rozpoznali, kdy k něčemu takovému došlo a uměli to uvést na pravou mı́ru. Dalšı́m důvodem je nepochybně také to, že nabı́zı́ snadno akceptovatelnou geometrickou interpretaci (ted’ mluvı́me o interpretaci metody nikoliv o interpretaci výsledků, aby bylo jasno). Pochopenı́ této interpretace metody nejmenšı́ch čtverců nás snad nejlépe vyzbrojı́ k rozpoznánı́ výhod i nevýhod jiných metod odhadu regresnı́ch koeficientů. Konečně pak komplexnost této klasické teorie, zejména pak jejı́ rozsáhlé diagnostické partie napovı́dajı́ a zkušenosti to potvrzujı́, že bez zevrubné a eficientnı́ aposteriornı́ diagnostiky nenı́ naděje na spolehlivost odhadnutého modelu solidně podepřena. To nám umožnı́ postavit se kriticky k těm metodám, obvykle ad hoc vyvinutých na základě zdánlivě rozumné heuristiky, 1 které takovýto “doprovodný” aparát nenabı́zejı́ či jej alespoň neumožňujı́ převzı́t z klasické regrese. Dřı́ve než se však pustı́me do vlastnı́ho výkladu, vrat’me se alespoň velmi stručně k tomu, 1 V průběhu dalšı́ho výkladu bude několikrát použito slovo heuristika, které nepatřı́ mezi nejběžněji použı́vaná slova každodennı́ češtiny. Upřesněme proto, co budeme tı́mto slovem rozumět. Tı́mto slovem budeme označovat jakýsi soubor idejı́ a představ, či “rozumových” argumentů, které cosi vysvětlujı́, obvykle důvody, proč určitou teorii či jejı́ část vytvářı́me právě tak, jak pak dále následuje. Nejde tedy jen o filozofické představy, ale o cosi širšı́ho, založeného na “racionálnı́m” přı́stupu ke světu, což však, právě dı́ky té “zřejmé racionalitě” se může ukázat v rámci formalizované teorie inkonsistentnı́, liché či zavádějı́cı́. Vzpomeňme jen toho, že vzhledem k tomu, že mezi každými dvěma racionálnı́mi čı́sly je iracionálnı́ a každými dvěma iracionálnı́mi je racionálnı́, “zdravý” rozum (někdy též označovaný jako “selský”) usoudı́, že je jich stejné množstvı́. 5 co bylo řečeno na začátku, totiž k některým mýtům, či chcete-li k filozofii, která stojı́ v pozadı́ zpracovánı́ dat, zejména v pozadı́ interpretace výsledků. Renesance přinesla lidstvu osvobozenı́ od mnoha dogmat, která jej do té doby svazovala, ale z dnešnı́ho pohledu jsme již schopni zřetelně nahlédnout, že nastolila mnohá jiná dogmata, která žel Bohu stále ještě přežı́vajı́. Jednı́m z nich je nekritický obdiv k vědě, který je však pro ni obvykle medvědı́ službou. Mějme vždy na paměti, byt’ budeme stát v tváři v tvář nejúžasnějšı́m metodám, které modernı́ věda nabı́zı́, že je tato jen a jen výtvorem lidského ducha a zasluhuje si náš obdiv, nikoliv však nekritický. Navı́c omezenost jejı́ch možnosti je vı́c než patrná. Stačı́ si uvědomit, že na řadu velmi závažných, ne-li nejpodstatnějšı́ch problémů lidského života, věda nemá a ani nemůže mı́t uspokojivou odpověd’. Jsou to např. otázky po smyslu lidského života, po tom, odkud se bere láska, touha či naděje. Odpovědi na tyto otázky musı́me hledat jinde, např. v teologii, která však zase přirozeně neumı́ tak dobře předpovı́dat, jaký že bude např. hrubý národnı́ důchod v přı́štı́m čtvrtletı́. Renesance však přinesla ještě dalšı́ představy, které se dnes jevı́ již jen těžko udržitelné (z hlediska modernı́ filozofie vědy), ale které ještě stále ovlivňujı́ pohled modernı́ho člověka na to, co to vlastně věda je. Jednou z nich je představa, že za abstrakcı́, kterou učinı́me na základě pozorovánı́ (mnoha) opakovánı́ téhož jevu, často navozeného pevně danými okolnostmi, např. upuštěný kámen vždy padá k zemi, stojı́ jakási entita (gravitace), kterou sice nemůžeme “na vlastnı́ oči” vidět (tak jak nemůžeme např. vidět vzduch), ale která, podobně jako vzduch objektivně existuje a projevuje se nějakou kauzálnı́ zákonitostı́ (viz výše zmı́něná představa o mechanizmu, který generoval data). Tato zákonitost je pak popsána teoriı́, přičemž za ideálnı́ se považuje matematicky zformalizovaná teorie. K jejı́ verifikaci se pak použije pokus, ve kterém se zkoumané objekty zachovajı́ tak, jak to “předpovı́” tato teorie. Renesačnı́ věda pak předpokládala, že svět se vlastně skládá z (konečného) počtu takových zákonitostı́, či chcete-li principů, které byly jednoznačně do světa vepsány jeho původnı́m hybatelem či se (po velkém třesku2 ) samy od sebe nějak objektivně ustavily. Pokusme se poněkud hlouběji proniknout do toho, co bylo právě řečeno. Již v 18. stoletı́ napsal Immanuel Kant, že Galileo Galilei podrobil přı́rodu výslechu a idealizoval ji, to jest zmrzačil ji tak, až byla ochotna hovořit jazykem, který od nı́ chtěl slyšet, tj. jazykem matematiky. Až přiznala, že se odjakživa řı́dı́ oněmi jednoduchými principy, tj. zákonitostmi. Galileo Galilei nenaslouchal přı́rodě jako žák učiteli, naslouchal ji jako soudce útrpného práva. (Viz Prigogine a Stengers (1977).) Zamyslı́me-li se nad celou věcı́, snadno nahlédneme onu “troufalost”, která si myslı́, že vysvětlenı́, zejména kauzálnı́ vysvětlenı́, které jsme tou či onou teoriı́ podali, je jediné možné. Ostatně již Karl R. Popper v Bı́dě historicismu (Popper (1957)) naznačil, že všichni ti, kteřı́ si myslı́, že našli jediné možné zákonité, pokud možno deterministicky kauzálnı́ vysvětlenı́ trpı́ jen nedostatkem fantazie (ne-li i něčı́m horšı́m)3 . Je naprosto jasné, že výše uvedené abstrakce (jako je např. gravitace) jsou nesmı́rně užitečné, nebot’ dovolujı́ popsat určitý jev naráz a nikoliv v jeho jednotlivostech. Na druhé straně, uznánı́ či přijmutı́ objektivnı́ existence takové entity (jako např. gravitace) vyžaduje přinejmenšı́m velice rozsáhlou diskuzi o tom, co to je objektivnı́ existence, ale spı́še to prostě vyžaduje určitý krok vı́ry. 2 Ten samozřejmě renesance ještě nepředpokládala, proto ty závorky. Prosı́m vzpomeňte si na Karla Rainmunda Poppera vždy, kdykoliv Vás někdo bude přesvědčovat, že jedině on má pravdu; trpı́ jen (snad jen) nedostatkem představivosti. 3 6 V pracech Ilji Prigogina a Isabely Stengersové (viz např. Prigogine a Stengers (1984)) pak zvı́davý čtenář může také nalézt diskuzi k tomu, že podobné, často velmi nezřetelné a tudı́ž špatně rozpoznatelné kroky vı́ry si vyžadujı́ i ty “nejprimitivnějšı́” počátky zkoumánı́ světa, které učinı́me už ve svém ranném dětstvı́. Jejich práce diskutujı́ rovněž “sklon” vědeckých teoriı́ ke kauzalitě. Touha po dosaženı́ teorie majı́cı́ charakter kauzálnı́ch souvislostı́ má svoje kořeny rovněž v renesanci. Problematičnost tohoto pojmu začala být zřejmá v modernı́ fyzice a odvı́jı́ se od pracı́ Nielse Bohra. Zdánlivě tato problematika souvisı́ s neřešitelnou a vlastně v podstaě zavádějı́cı́ otázkou o deterministickém či indeterministickém charakteru světa. Ve skutečnosti však jedná o otázku adekvátnosti (akceptovatelnosti, výhodnosti atd.) kauzálnı́ho či pravděpodobnostnı́ho popisu světa. Zdůrazněme, že to zda zvolı́me pro popis světa kauzálnı́ teorii či teorii využı́vajı́cı́ pravděpodobnostnı́ formalizmus, či jiný nástroj na formalizaci neurčitosti a nejistoty, nikterak nevypovı́dá o tom, zda si myslı́me, že svět je deterministický či nikoliv. Jak jsme totiž ukázali výše, názor, že naše teorie vysvětlujı́ jaký svět “ve skutečnosti” je, je jen těžko udržitelný. Tato problematika je úzce svázána s výsledky Kurta Gdela o neúplnosti bezesporných axiomatických systémů. Jeho výsledky patrně napovı́dajı́, že pravděpodobnostnı́ popis světa je inherentně vložen do našeho racionálnı́ho uvažovánı́ zakotveného v matamatice tak, jak se historicky vyvinula. Výše jsme řekli, že renesančnı́m ideálem “vysvětlujı́cı́” teorie byla matematicky formalizovaná teorie. To patrně platı́ i dnes. Právě naznačená diskuze naznačila, že cı́lem budovánı́ (formalizovaných) teoriı́ dost dobře nemůže být objektivnı́, jednoznačné vysvětlenı́ světa. Spokojı́meli se však se skromnějšı́m cı́lem, totiž s nalezenı́m nástroje na funkčnı́ predikci, bude jedno, zda takových nástrojů bude vı́ce či jen jeden. Hlavně, když bude dávat spolehlivé předpovědi či návody, chcete-li, jak např. urovnat válečné konflikty, zvýšit úrodu a zmı́rnit hlad mnoha národů. Samozřejmě, že pak formalizovanějšı́ teorie má většı́ cenu než jakési vágnı́ závěry, nebot’ má většı́ naději dát efektivnějšı́ předpovědi. Je nutné si však uvědomit, že každá taková teorie se opı́rá o zkušenost. Čı́m je tato zkušenost důvěryhodnějšı́, tj. čı́m jsou data, která jsme použili spolehlivějšı́ a přesnějšı́, tı́m může být i výsledek formalizovanějšı́. Každý, kdo v životě prováděl nějaké výpočty, si je vědom toho, že nemá obvykle cenu udávat výsledek na deset desetinných mı́st, byla-li data měřena s přesnostı́ na jedno desetinné mı́sto. Jednı́m z dalšı́ch mýtů, který dosud přežil a který je “úspěšně použı́ván” je výše zmı́něný mýtus ověřovacı́ho pokusu. Je až zarážejı́cı́, že často i vědečtı́ pracovnı́ci, kterým se dostalo alespoň elementárnı́ho statistického vzdělánı́, si neuvědomujı́, že ověřovacı́ pokus nenı́ nic vı́ce ani nic méně než testovánı́ hypotézy. To bud’ hypotézu zamı́tne nebo nezamı́tne, ale nikdy nepotvrdı́ - kromě učebnicových akademických přı́padů, kdy hypotéza a alternativa jsou komplementárnı́. Konečný, neodvolatený verdikt o teorii může být jen zamı́tavý, totiž když předpověd’ selže. Jinak si lze vždy představit, že jiná data (jiné okolnosti, chcete-li to řı́ci jinak) mohou naši teorii (hypotézu) docela dobře vyvrátit. Čı́sla 3, 5, 7, 11, 13 jsou sice lichá čı́sla a prvočı́sla, ale to ještě neznamená, že jiná čı́sla teorii o tom, že všechna lichá čı́sla jsou prvočı́sla, nemohou vyvrátit. Závěrem této krátké exkurze do filozofie (matematického) modelovánı́ si dovolme ještě jednu poznámku. Ta ostatně rovněž souvisı́ s charakterem vědeckých teoriı́, tak jak byl výše diskutován. V souvislosti s tı́m, že mnohdy se stále má za to, že teorie je jakýmsi objektivnı́m obrazem světa, často oproštěného od spousty nepodstatných věcı́ a okolnostı́, interpretuje se to, co “vyšlo” po aplikaci některé teorie jako jakési objektivnı́ zjištěnı́. To co “vyšlo”, je pokládáno za cosi, co 7 stojı́ kdesi za daty, či chcete-li, co je nějak v nich ukryto a k čemu jsme se právě pomoci našich matematických nástrojů dopracovali. Podobně jako když oloupeme šlupky z cibule, najdeme jejı́ jádro. Potom závěry analýzy dat prezentujeme tak, že to tak objektivně vyšlo. Ačkoliv to tak možná na prvnı́ pohled vypadá, ve skutečnosti tomu tak nenı́. Abychom to nahlédli vrat’me se ještě krátce k výše uvedené diskuzi. Uvědomme si, že výše zmı́něná abstrakce provedená na základě opakovánı́ mnoha podobných jevů je věc provedená některým subjektem, tj. badatelem. Na tomto mı́stě prosı́m čtenáře, aby se oprostil od marxismem pěstovaného pejorativnı́ho nádechu slova subjektivnı́, nebot’ dokud bude věda prováděna jednotlivými muži a ženami, bude vždy subjektivnı́ v tom smyslu, že odpovědnost za výše naznačenou abstrakci, právě tak jako za vytvořenı́ teorie a jejı́ přı́padnou aplikaci nese (postupně) ten, kdo ji provedl, vymyslel a přı́padně rozhodl aplikovat. Nanejvýše může dojı́t k “zobjektivozovánı́” tohoto postupu tı́m, že se na něm shodne vı́ce odbornı́ků z dané oblasti. Ani to však nezměnı́ charakter výsledku na objektivnı́ či správný či udržitelný (přı́padně si čtenář může doplnit jiné vznešené slovo). Stačı́ vzpomenout “zobjektivizovaný” názor mnoha středověkých odbornı́ků o geocentrické podstatě našeho planetárnı́ho systému. Podobně při analýze dat volba metody a interpretace výsledků je zcela na zodpovědnosti toho, kdo ji použil a výsledky interpretoval. Prohlásı́li někdo, že cosi objektivně vyšlo bud’ se bojı́ nést odpovědnost za výsledek nebo cosi nalhává sobě a ostatnı́m. Na závěr předmluvy ještě uved’me dvě technické poznámky. Předně dodejme, že předkládaná skripta již sama o sobě představujı́ takový objem textu, který je na samé hranici možnostı́ býti vyložen v jednom semestru. Proto nebylo možno do skript zařadit dalšı́ partie, které jsou sice úzce svázány s regresnı́ analýzou (robustnı́ regrese, dynamický model spolu s alespoň krátkou exkurzı́ do časových řad, atd.), ale které jsou stejně přednášeny až v rámci výběrové přednášky, navazujı́cı́ na tu, pro kterou jsou určena tato skripta. Proto autor plánuje napsat dalšı́ dı́l skript (v průběhu jednoho až dvou let), který (přinejmenšı́m) pokryje právě zmı́něné partie. Mezi připomı́nkami těch, kteřı́ rukopis skript četli se někdy objevila ta, že text je přı́liš zatı́žen vsuvkami umı́stěnými v závorkách. Ostatně je známo, že některé časopisy bud’ zcela nebo téměř odmı́tajı́ text, ve kterém jsou závorky. To je přı́stup nepochybně extrémnı́ a poněkud nerozumný. Je sice pravda, že to, co je umı́stěno v závorkách, lze vždy vyjádřit dalšı́ větou umı́stěnou kdesi dále v textu, či vedlejšı́ větou, ale je to (prakticky) vždy za cenu většı́ho mı́sta. Např. závorky u slova prakticky v předchozı́ větě dávajı́ tušit, že je to celé mı́něno s jakousi pravděpodobnostı́, tj. platı́ to maličko slaběji, než by to platilo bez těch závorek. Podobný přı́klad z nı́že uvedeného textu, totiž : “Naprosto přı́močarým zobecněnı́m tohoto modelu je model uvažujı́cı́ soubor M regresnı́ch rovnic typu (3), které spolu (na prvnı́ pohled) nesouvisejı́ (odtud název).” demonstruje, že čeština (tedy alespoň psaný jazyk) pomocı́ závorek rozvinula cosi, co možná řada jiných jazyků nemá. Pokud by totiž ono na prvnı́ pohled nebylo v závorce, znamenalo by to sdělenı́, že rovnice spolu opravdu nesouvisejı́, dokonce evidentně nesouvisejı́, jak je vidět na prvnı́ pohled. Takto naopak věta řı́ká, že se na prvnı́ pohled zdá, že spolu nesouvisejı́, ale nenı́ to pravda, rovnice spolu nějak souvisejı́. Všimli jste si kolik mı́sta navı́c jsme potřebovali. Samozřejmě, že to někdy činı́ čtenı́ textu méně plynulé, což však také může znamenat, že to čtenáře donutı́ přečı́st si danou větu dvakrát a tı́m vypadnout z “polospánku”, do kterého upadá, je-li text přı́liš plynulý. Na druhé straně, někdy je třeba, aby čtenář plynule sledoval lı́nii úvah, 8 nebot’ jinak nedojde ke stejnému závěru jako autor. (Někteřı́ autoři, zejména ve “společenskovědnı́” oblasti tento princip využı́vajı́ tak obratně, že čtenář pak jen těžko hledá bod, ve ktrém autor učinil “krok stranou” a tı́m došel právě k tomu, k čemu chtěl dojı́t.) Přirozeně jako všechny nástroje usnadňujı́cı́ sdělovánı́ informacı́, tak i tento musı́ mı́t svoji mı́ru. Ostatně žádný extrémismus nenı́ nikdy ku prospěchu věci. Proto byly některé závorky (a trofám si řı́ci, že vı́ce než polovina, tj. ty které šly bez většı́ spotřeby mı́sta) odstraněny. Poděkovánı́. Autor skript by rád poděkoval všem, kteřı́ mu ke skriptům dodali nějaké připomı́nky, zejména recenzentovi doc. ing. Igoru Vajdovi, DrSc., který skripta přečetl velmi pozorně a navrhl řadu zlepšenı́. Za všechny přı́padné nedostatky však nesu odpovědnost toliko já, a prosı́m proto o čtenářovu shovı́vavost. Velice ocenı́m všechny dalšı́ připomı́nky, zejména týkajı́cı́ se obsahu a těch mı́st, kde jsou vyjadřována stanoviska k vhodnosti, použitelnosti atd. toho či onoho postupu. V Praze, 25. řı́jna 1997 9 2 ÚVOD DO REGRESNÍ ANALÝZY Je naprosto přirozené, že ti, kdo se rozhodli seznámit se statistickým zpracovánı́m dat, se v základnı́ch učebnicı́ch nejprve setkávajı́ s úlohami, ve kterých se odhadujı́ parametry rozdělenı́ náhodných veličin, přı́padně se testujı́ některé jednoduché hypotézy o nich. Se skutečně zajı́mavými statistickými postupy se však setkajı́ až ve chvı́li, kdy dojde na úlohy, snažı́cı́ se postihnout vzájemné vztahy náhodných veličin. Různých metod, které analyzujı́ strukturu vztahů mezi náhodnými veličinami je přirozeně velké množstvı́ a každá z nich má za sebou historii, která napovı́dá, proč byla taková metoda budována, tj. jaké byly původnı́ důvody pro jejı́ navrženı́, jaká byla motivace, či chcete-li inspirace, autorů. Namátkou jmenujme např. analýzu variance, zpracovánı́ kontingenčnı́ch tabulek či diskriminačnı́ a shlukovou analýzu. Některé postupy vznikly přirozeně zcela “mimo” statistiku, např. faktorová analýza, a byly statistiky teprve rozvinuty, přı́padně “dovybaveny” vhodným teoretickým aparátem. Historické záznamy dokládajı́ mimo jakoukoliv pochybnost, že pokusy o nalezenı́ vzájemného vztahu náhodných veličin existovaly od samých počátků budovánı́ teorie pravděpodobnosti (Galilei (1632), Boscovitch (a Maire) (1757), Laplace (1793), Legendre (1805), Gauss (1809)). Skripta, které právě začı́náte studovat, jsou věnována jedné z nejefektivnějšı́ch metod analýzy mnoharozměrných (či vı́cerozměrných, jak chcete4 ) dat. Regresnı́ analýza, ač se to může zdát překvapivé, odvozuje svůj název od anglického slova regression. V roce 1885 totiž Sir Francis Galton publikoval výsledek svých studiı́ o vztahu výšky otců a synů v článku “Regression towards mediocrity in hereditary stature”. Jak napovı́dá název článku, zjistil, že je pravděpodobnějšı́ jev, že výška syna bude blı́že populačnı́mu průměru než výška otce, než jev opačný, totiž že výška syna se bude od průměrné výšky mužů lišit vı́ce než se lišı́ výška jeho otce. Ostatně, když už toto zjištěnı́ vı́me, připadá nám zcela přirozené, nebot’ pokud by taková tendence neplatila, docházelo by k neomezené fluktuaci výšek mužů, tj. dnes už by mezi námi museli žı́t jak obři tak trpaslı́ci. Odhad koeficientů modelu byla pořı́zen, podobně jako je tomu i v převážné většině přı́padů dnes, metodou nejmenšı́ch čtverců (the least squares), která v té době byla již téměř sto let známa, viz Adrien Marie Legendre (1805) a Carl Friedrich Gauss (1809). Ačkoliv v době, kdy Sir Francis Galton psal svůj článek byla známa i jiná metoda odhadu parametrů, totiž metoda minimalizujı́cı́ součet absolutnı́ch odchylek, je celkem přirozené, že byla použita metoda nejmenšı́ch čtverců, nebot’ je jednoduchá a dává explicitnı́ vztah pro vyčı́slenı́ odhadů na základě analyzovaných dat. Naopak metoda minimalizujı́cı́ součet absolutnı́ch odchylek (Galileo Galilei (1632), Roger Joseph (či Rodjer Josef) Boscovich (1757), Pierre Simon Laplace (1793)), která je dnes použı́vána alternativně k metodě nejmenšı́ch čtverců, vyžaduje, při většı́m počtu dat, nasazenı́ výkonné výpočetnı́ techniky. Na rozdı́l od nejmenšı́ch čtverců však jejı́ výsledky lépe “vzdorujı́” kontaminacı́ dat, nebot’ v rámci dnes použı́vaných pojmů je tato metoda robustnı́ alespoň proti odlehlým pozorovánı́m ve vysvětlované proměnné a “navzdory” obecně panujı́cı́ domněnce či předsudku o jejı́ malé eficienci lze ukázat, že pokud data generovaná byt’ přesně normálnı́m modelem obsahujı́ na každých 1000 pozorovánı́ dvě poškozená (kontaminovaná) pozorovánı́, je tato metoda výkonnějšı́ (eficientnějšı́ - pro ty, kdo 4 Někdy jsou vedeny zdánlivě učené diskuze o tom, zda užı́vat to či ono slovo. Je celkem přirozené, že se takové diskuze objevujı́, nebot’ některé vědnı́ obory by patrně jinak neměly co dělat. Je však přinejmenšı́m překvapivé, že se takové diskuze objevujı́ dokonce i v matematice, kde definice přesně vymezujı́, o čem je řeč a tedy, až snad na přı́pady extrémě necitlivého použitı́ některých slov, je celkem jedno, jaké slovnı́ označenı́ je zvoleno. 10 nejsou jazykovými puristy) než metoda nejmenšı́ch čtverců. Tato metoda býva z pochopitelných důvodů označována jako L1 a podobně jako několik neznámých pojmů použitých v předchozı́ větě bude diskutována nı́že. Obrat’me nynı́ naši pozornost na to, jaké cı́le si klade regresnı́ analýza. Něco bylo vlastně již řečeno výše, totiž že regresnı́ analýza patřı́ mezi metody studujı́cı́ strukturu vzájemných závislostı́ mezi jednotlivými veličinami. Mnohdy jsou však ambice této metody charakterizovány snahou o nalezenı́ nástroje na predikci hodnoty jedné náhodné veličiny za předpokladu, že již známe hodnoty několika jiných náhodných veličin či nenáhodných vysvětlujı́cı́ch faktorů. Někdy se označuje tento druhý cı́l za vı́ce ambiciznı́ a implicitně se tı́m mı́nı́, že ten prvý je jakoby lehčı́ “podčástı́” toho druhého. Obecně však každý z těchto cı́lů vyžaduje jiné řešenı́, jak ostatně dále uvidı́me. Teorie, která je v učebnicı́ch a monografiı́ch obvykle vykládána, vede k řešenı́ prvého cı́le, ale nemusı́ být vždy řešenı́m toho druhého. Dřı́ve než budeme pokračovat ve výkladu zaved’me alespoň nejzákladnějšı́, zcela standardnı́ označenı́. Označme tedy symbolem N množinu všech přirozených čı́sel, R reálnou přı́mku, R+ jejı́ kladnou část, Rp p-rozměrný Euklidovský prostor, Rn,k (některý) k-rozměrný podprostor prostoru Rn a konečně pak (Ω, A, P ) základnı́ pravděpodobnostnı́ prostor. Regresnı́ model budeme uvažovat ve tvaru: Yi = g(Xi , β 0 ) + Ei , i = 1, 2, . . . , n (1) pro všechna n ∈ N , kde g(x, β) bude některá hladká funkce, g : Rq ×Rp → R (q, p ∈ N ). Posloup’ nost {Xi }∞ i=1 bude bud deterministická posloupnost q-rozměrných vektorů (v tom přı́padě ∞ budeme psát {xi }i=1 ) či posloupnost (nezávislých a stejně rozdělených) náhodných veličin, tj. Xi (ω) : Ω → Rq , které jsou navı́c nezávislé od posloupnosti {Ei }∞ i=1 , Ei (ω) : Ω → R, což je jiná posloupnost, obvykle stejně rozdělených, nikoliv však nutně nezávislých, náhodných veličin. Poslednı́ předpoklad nebývá v některých textech jasně zdůrazněn, ale jak uvidı́me později, jeho narušenı́ má vážné důsledky. Veličina Yi stojı́cı́ na levé straně rovnosti (1) bývá označována jako závisle proměnná, veličiny Xi jako nezávisle proměnné a Ei jako fluktuace. Nı́že uvedená diskuze týkajı́cı́ se interpretace výsledků regresnı́ analýzy ale naznačı́, že je patrně lepšı́ použı́vat pojmy jako vysvětlovaná veličina (pro Yi ) a vysvětlujı́cı́ veličiny pro Xi . Toto “názvoslovı́” totiž nesvádı́ k domněnce, že odhadnuty model můžeme použı́t k predikci pro jakékoliv hodnoty nezávisle proměnných. V dalšı́m textu se ještě k tomuto problému vrátı́me. Pro veličiny Yi , Xi a Ei bývá uváděna i celá řada jiných termı́nů, které se snažı́ napovědět charakter těchto veličin vzhledem k některým častým použitı́m či interpretacı́m regresnı́ho modelu. Např. Xi jsou někdy označovány jako nosiče, regresory či jako faktory a přı́slušný Rq jako faktorový prostor. Také v tomto textu budeme občas tato různá “pojmenovánı́” použı́vat, abychom si na ně přivykli a nečinily nám potı́že při čtenı́ různých pramenů. Pro ty, kteřı́ se někdy v budoucnu budou věnovat ekonomickým aplikacı́m, poznamenejme, že se ještě setkajı́ s rozlišenı́m, často sporným, charakteru veličin vstupujı́cı́ch do modelu a narazı́ na pojmy endogenı́ (česky snad koncová či výstupnı́), označujı́cı́ veličiny zpravidla na “levé” straně modelu, tj. v roli Yi a predeterminovaná (česky snad předurčená, ale spı́še vstupnı́) veličina, stojı́cı́ch v roli Xi . Druhý typ veličin pak bývá ještě dělen na posunuté endogenı́ (lagged endogenous) a exogenı́ (česky asi vnějšı́ či mimo model určené; nechme však nadále překlady jazykozpytcům, v matematickém textu, ostatně jsme to již výše zmı́nili, jde o jednoznačnost, která je zajištěna formalizmem a nenı́ naštěstı́ 11 závislá na názvech). Povšimněme si, že rozlišenı́ na exogenı́ a endogenı́ souvisı́ opět s pojmem kauzality. Jak jsme uvedli výše, byl tento protagonistou renesančnı́ho paradigmatu vědeckého poznánı́ a žel Bohu stále ještě v mnoha vědnı́ch disciplı́nách přežı́vá. Nenı́ bez zajı́mavosti, že do ekonomie, či spı́še do ekonometrie byl “ve statistické modifikaci” zaveden C. W. J. Grangerem na konci šedesátých let, tj. v době, kdy filosofie vědy naopak začala uvažovat a vážně diskutovat o jeho problematičnosti. Samozřejmě, že nenı́ těžké ukázat přı́klady - a to i z každodennı́ho života, které demostrujı́ jeho problematičnost. Grangerova definice a test, Granger (1969), se opı́rajı́ o pojem statistické nezávislosti a v tomto duchu je třeba je interpretovat. Uživatelé to však zpravidla (bohorovně) přehlı́žejı́ a jednajı́ s tı́mto pojmem jako by šlo o běžný pojem přı́činné souvislosti. Jaké to může mı́t následky si snadno představı́me, uvážı́me-li např., že se mnohá (politická) rozhodnutı́ odvı́jejı́ spı́še od vědeckých hypotéz vyslovených na základě právě popsaného způsobu interpretace výsledků než od historicky ověřených postupů. Vrat’me se však ke vztahu (1) a dokončeme vysvětlenı́ jednotlivých veličin v něm vystupujı́cı́ch. Vektor β 0 = (β10 , β20 , . . . , βp0 )T bude označován jako vektor regresnı́ch parametrů, pokud budeme mluvit o nelineárnı́ regresi, a jako regresnı́ch koeficientů, v lineárnı́ regresi. Konečně pak hornı́ index “T ” označuje transpozici vektoru či matice. V převážné části dalšı́ho textu budeme uvažovat model s pevnými (deterministickými) vysvětlujı́cı́mi proměnnými. Exkurze do modelu s náhodnými vysvětlujı́cı́mi proměnnými budou jen občasné. Za náhodný bude tedy v modelu považován pouze šum (či chcete-li fluktuace nebo náhodné fluktuace) , který je representovaný (jsou representovány) posloupnostı́ náhodných veličin {Ei }∞ i=1 . Náhodnost disturbancı́ samozřejmě má za následek to, že i vysvětlovaná veličina Y je náhodná. Prvnı́m cı́lem regresnı́ analýzy, jak už bylo ostatně konstatováno výše, je popis struktury dat (či chcete-li, vysvětlenı́ dat). Po té, co jsme zavedli označenı́ pro regresnı́ model, můžeme tento cı́l specifikovat jako odhad modelu ve statistickém smyslu. Jinými slovy to znamená, že na základě dat, která z hlediska druhého cı́le regresnı́ analýzy, totiž predikce, můžeme považovat za trénovacı́ soubor, chceme nejprve odhadnout charakter (tvar) funkce g(x, β) a následně odhadnout β 0 . Analýza dat tedy může začı́t v podstatě testem, zda g(x, β) je lineárnı́ či nikoliv, nebo se prostě na základě zkušenostı́ (fyzikálnı́ch, sociálnı́ch, demografických, ekonomických či jiných) či okolnostı́ rozhodneme pro některou funkci g(x, β) (či typ funkce). Obvykle je tvar funkce (alespoň) “tušený” a proto se často omezujeme na odhad vektoru β 0 . Tak jako v drtivé většině statistické literatury budeme odhad pořı́zený některou odhadovacı́ metodou označovat β̂. Navı́c indexy, dole či nahoře, budou napovı́dat, jakou metodou byl odhad vyčı́slen, či na základě kolika pozorovánı́ byl zkonstruován, atd.. Tak např. β̂ (LS,n) bude naznačovat, že se jedná o odhad pořı́zený metodou nejmenšı́ch čtverců na základě dat o rozsahu (LS,n) n. Rovněž zcela standardně jak jsme na to zvyklı́, β̂i bude označovat i-tou složku (souřadnici, (LS,n) koordinátu) vektoru β̂ . Podrobnějšı́ vysvětlenı́ či rozšı́řenı́ označenı́ a symbolů bude vždy uvedeno v mı́stech, kde to budeme potřebovat tak, aby nebylo nutné je držet dlouho a bez užitku v paměti. Výše uvedené bezprostředně napovı́dá, že pokud uvažujeme model s náhodnými nosiči předpokládáme, že pro naše data Dn existuje ω0 ∈ Ω tak, že hodnoty náhodných veličin {Yi (ω)}ni=1 a {Xi (ω)}ni=1 12 jsou v bodě ω0 rovny datům Dn , tj. y1 , x11 , · · · , x1p y2 , x21 , · · · , x2p Dn = .. .. . . yn , xn1 , · · · , xnp Y1 (ω0 ), X11 (ω0 ), · · · , X1p (ω0 ) Y2 (ω0 ), X21 (ω0 ), · · · , X2p (ω0 ) = .. .. . . Yn (ω0 ), Xn1 (ω0 ), · · · , Xnp (ω0 ) . (2) Z právě uvedeného a také ostatně z (1) okamžitě plyne, že k regresnı́mu modelu patřı́ samozřejmě ∞ i posloupnosti náhodných veličin {Yi (ω)}∞ i=1 a {Xi (ω)}i=1 , přı́padně, když uvažujeme pevné ∞ nosiče, pouze prvá posloupnost {Yi (ω)}i=1 . Na druhé straně však patrně neexistuje text věnovaný regresnı́ analýze, který by pod odhadem modelu rozuměl také odhad těchto veličin, byt’ přirozeně diagnostické partie teorie regresnı́ analýzy studujı́ např. postupy umožňujı́cı́ posoudit, zda charakter reziduı́ nekoliduje s předpokládaným charakterem fluktuacı́; takové postupy budeme studovat později. Na druhé straně je však třeba připustit, že nás v regresnı́m modelu obvykle zajı́má pouze vektor β 0 a tedy ostatnı́ neznámé “části” modelu mohou být vnı́mány jen jako rušivé parametry, které nejsou odhadovány. Jak jsme již předeslali výše, v našem výkladu se omezı́me převážně na lineárnı́ regresnı́ model s pevnými, tj. deterministicky danými nosiči. Dostaneme model Yi = xTi β 0 + Ei , i = 1, 2, . . . , n. (3) Na prvnı́ pohled se omezenı́ na linearnı́ model může zdát drastické, ale nenı́ tomu tak. Stačı́ si uvědomit, že většina funkcı́ g(x, β) uvažovaných v modelu (1) se předpokládá být spojitými v x. Uvážı́me-li pak, že lze mezi nosiče dodat vyššı́ mocniny vysvětlujı́cı́ch veličin jako nové vysvětlujı́cı́ veličiny, což nenı́ na újmu odhadu modelu pokud máme k dispozici rozumné množstvı́ dat, a vezmeme-li v úvahu Stone-Weierstrassovu větu o tom, že při omezenı́ se na kompaktnı́ nosič je systém všech polynomů hustý ve třı́dě spojitých funkcı́ (Hewitt a Stromberg (1965)), je zřejmé, že teoreticky pomocı́ lineárnı́ho regresnı́ho modelu můžeme aproximovat velmi širokou třı́du regresnı́ch závislostı́. Přirozeně toto má, někdy praktická, omezenı́, vyplývajı́cı́ např. z potı́žı́ s kolinearitou, počtem pozorovánı́, “přı́lišnou” determinacı́ modelu, tj. chcete-li, přı́lišným potlačenı́m náhodnosti, atd. Podotkněme ještě, že toto omezenı́ se na linárnı́ model, vydávajı́ některé monografie za důvod k omezenı́ se na lineárnı́ odhady. Toto druhé omezenı́ je zcela účelové, totiž aby bylo možno prohlásit, že odhad metodou nejmenšı́ch čtverců je velice dobrý at’ už jsou fluktuace v modelu rozděleny normálně či nikoliv. Zdůrazněme proto, že omezenı́ se na třı́du lineárnı́ch odhadů vektoru β 0 je drastické a odhad metodou nejmenšı́ch čtverců je opravdu dobrý jen v přı́padě, podařı́-li se nalézt model, ve kterém rozdělenı́ reziduı́ je téměř normálnı́. Podrobněji budeme diskutovat tento problém v závěru skript. Pro náhodné veličiny, jako je např. vysvětlovaná proměnná Y či fluktuace E, budeme použı́vat zpravidla velká pı́smena. Ostatně to již naznačil zápis (2). Výjimku budou tvořit rezidua v regresnı́m modelu, ale ta popı́šeme podrobněji o několik řádků nı́že. Výjimka bude učiněna proto, aby nemohlo dojı́t k záměně s označenı́m pro reálnou přı́mku. Někdy ten fakt, že se jedná o náhodné veličiny naznačı́me ještě zápisem Y (ω) či E(ω). Pro realizace náhodných veličin budeme užı́vat malá pı́smenka, tj. v našem přı́kladě y a e. Pro matice budeme důsledně použı́vat 13 velká pı́smena. Navı́c charakter dané entity, kromě toho, že bude patrný z jejı́ho slovnı́ho popisu, bude často také zřejmý z toho, že bude uvedeno, do které množiny patřı́, např. Y ∈ Rn . Jak jsme už uvedli výše, budeme v převážné části tohoto textu předpokládat, že matice plánu je deterministická, tj. omezı́me se na model s pevnými nosiči. Model s náhodnými vysvětlujı́cı́mi proměnnými je obdobný, někdy “jednoduššı́”, někdy “komplikovanějšı́” než model s pevnými nosiči. Předpoklady pro obdobná tvrzenı́ v obou modelech jsou analogické, kromě toho, že v modelu s náhodnými nosiči je třeba předpokládat nezávislost nosičů a fluktuacı́. Jak už jsme výše řekli, toto nebývá v učebnicı́ch regresnı́ analýzy zdůrazněno, ač pokud tento předpoklad neplatı́, běžné odhady, a to nejen metodou nejmenšı́ch čtverců, nejsou obecně konsistentnı́ a je třeba užı́t jiných postupů, např. instrumentálnı́ch proměnných, kterým bude věnován jeden odstavec dalšı́ho textu. Přitom je zřejmé, že někdy bude charakter dat takový, že model s náhodnými nosiči bude adakvátnějšı́. Přı́kladem může posloužit právě situace, kdy náhodné fluktuace jsou evidentně závislé na některé vysvětlujı́cı́ proměnné. Na druhé straně, jak uvidı́me později při diskuzi o výpisech z statistických počı́tačových knihovem, většina z nich nabı́zı́ i v rámci regresnı́ analýzy “základnı́” popisnou analýzu dat, tj. např. průměry a rozptyly jednotlivých veličin, jejich kovariančnı́ matici, atd. Tyto charakteristiky, až na ty, které se týkajı́ vysvětlované proměnné, ovšem striktně vzato postrádajı́ smysl, pokud uvažujeme model s pevnými nosiči. A nynı́ uved’me některé přı́klady datových souborů, které lze zpracovat regresnı́ analýzou. Přı́klad 1 Data o spalovacı́ch motorech. Data zachycujı́ (potenciálnı́) závislost počtu otáček motoru (y) na časovánı́ zážehu (x1 ), bohatosti palivové směsi (x2 ), teplotě této směsi při nasávanı́ (x3 ) a teplotě spalin při výfuku (x4 ) (Mason, Gunst, Hess (1989) nebo Hettmansperger, Sheather (1992)).) Data vypadajı́ takto: Data o spalovacı́ch motorech Pořadı́ Časovánı́ zážehu Bohatost směsi Teplota směsi Teplota spalin Počet otáček 1 2 3 4 5 6 7 8 9 10 11 12 13 13.3 13.3 13.4 12.7 14.4 14.4 14.5 14.2 12.2 12.2 12.2 12.0 12.9 13.9 14.1 15.2 13.8 13.6 13.8 13.9 13.7 14.8 15.3 14.9 15.2 15.4 31 30 32 31 31 30 32 31 36 35 36 37 36 697 697 700 669 631 638 643 629 724 739 722 743 723 84.4 84.1 88.4 84.2 89.8 84.0 83.7 84.1 90.5 90.1 89.4 90.2 93.8 14 Data o spalovacı́ch motorech (pokračovánı́) Pořadı́ Časovánı́ zážehu Bohatost směsi Teplota směsi Teplota spalin Počet otáček 14 15 16 12.7 12.9 12.7 16.1 15.1 15.9 35 36 37 649 721 696 93.0 93.3 93.1 Model odhadnutý pro výše zmı́něnou závislost vypadá takto: y = 12.01 + 1.10 · x1 + 2.19 · x2 + 0.93 · x3 + 0.002 · x4 + f luktuace Skripta, která máte před sebou Vám umožnı́ nahlédnout, jak se takový model odhadne z dat, jak se posoudı́, že má tento model naději být spolehlivý a použitelný např. pro predikci. Nabı́dnou Vám možnost nahlédnout různá úskalı́, na která při zpracovánı́ dat můžete narazit aniž byste si jich třeba na prvnı́ pohled byli vědomi, a naučı́ Vás jak se těmto úskalı́m vyhnout či je zdolat. Jednı́m z takových úskalı́ mohou být vlivné body, které je třeba rozpoznat a zjistit, zda jejich vliv na výsledek regresnı́ analýzy je přı́nosný nebo naopak destruktivnı́. Přı́klad 2 Data o slanosti vody v průlivu “North Carolina Pamlico”. Data zaznamenávajı́ slanost vody (y) v jednom z průlivů v Severnı́ Karolině v závislosti na slanosti, která byla naměřena před čtrnácti dny (označeno jako Posunutá slanost; x1 ), na střı́dánı́ dvoutýdennı́ch obdobı́, o nichž si experimentátoři mysleli, že mohou být signifikantnı́ (označeno Trend; x2 ) a na prouděnı́ vody průlivem (označeno Průtok; x3 ) (Ruppert, Carroll (1980) nebo Rousseeuw, Leroy (1987)). Data jsou uvedena v následujı́cı́ tabulce: Data o slanosti vody v průlivu “North Carolina Pamlico” Pořadı́ Posunutá slanost Trend Průtok Slanost vody 1 2 3 4 5 6 7 8 9 10 11 12 13 14 8.2 7.6 4.6 4.3 5.9 5.0 6.5 8.3 10.1 13.2 12.6 10.4 10.8 13.1 4 5 0 1 2 3 4 5 0 1 2 3 4 5 23.01 23.87 26.42 24.87 29.90 24.20 23.22 21.86 22.27 23.83 25.14 22.43 21.79 22.38 7.6 7.7 4.3 5.9 5.0 6.5 8.3 8.2 13.2 12.6 10.4 10.8 13.1 12.3 15 Data o slanosti vody v průlivu “North Carolina Pamlico” (pokračovánı́) Pořadı́ Posunutá slanost Trend Průtok Slanost vody 15 16 17 18 19 20 21 22 23 24 25 26 27 28 13.3 10.4 10.5 7.7 10.0 12.0 12.1 13.6 15.0 13.5 11.5 12.0 13.0 14.1 0 1 2 3 0 1 4 5 0 1 2 3 4 5 23.93 33.44 24.86 22.69 21.79 22.04 21.03 21.01 25.87 26.29 22.93 21.31 20.77 21.39 10.4 10.5 7.7 9.5 12.0 12.6 13.6 14.1 13.5 11.5 12.0 13.0 14.1 15.1 Po odhadnutı́ přı́slušných koeficientů v modelu dostaneme: y = 9.590 + 0.777 · x1 − 0.026 · x2 − 0.295 · x3 + f luktuace. Zvláštnı́ na těchto datech je to, že jednou proměnnou na pravé straně rovnice, tj. vysvětlujı́cı́ proměnnou je vlastně jen posunutá ta proměnná, kterou se odhadovaný model snažı́ vysvětlit pomocı́ jiných proměnných. O tom, zda je vůbec možné něco takového provést, aniž by zklamaly běžně použı́vané metody, budeme ve skriptech také diskutovat. Přı́klad 3 Data o sportovnı́m klubu. Data zaznamenávajı́ časy dosažené v běhu na jednu mı́li (y) jako proměnnou, která má být vysvětlena, a váhu běžců (x1 ), jejich zbytkový puls po určité době doběhnutı́ do cı́le (x2 ) při zkušebnı́m běhu na čtvrt mı́le (x3 ) a sı́lu pažı́ a nohou (x4 ) (Chatterjee, Hadi (1988)). Data vypadajı́ takto: Data o sportovnı́m klubu Pořadı́ Váha Puls Sı́la Zkušebnı́ běh Čas 1 2 3 4 5 6 7 8 217 141 152 153 180 193 162 180 67 52 58 56 66 71 65 80 260 190 203 183 170 178 160 170 91 66 68 70 77 82 74 84 481 292 338 357 396 429 345 469 16 Data o sportovnı́m klubu (pokračovánı́) Pořadı́ Váha Puls Sı́la Zkušebnı́ běh Čas 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 205 168 232 146 173 155 212 138 147 197 165 125 161 132 257 236 149 161 198 245 141 177 77 74 65 68 51 64 66 70 54 76 59 58 52 62 64 72 57 57 59 70 63 53 188 170 220 158 243 198 220 180 150 228 188 160 190 163 313 225 173 173 220 218 193 183 83 79 72 68 56 59 77 62 75 88 70 66 69 59 96 84 68 65 62 69 60 75 425 358 393 346 279 311 401 267 404 442 368 295 391 264 487 481 374 309 367 469 252 338 Odhad modelu pro tato data je následujı́cı́: y = −3.619 + 1.268 · x1 − 0.525 · x2 − 0.505 · x3 + 3.903 · x4 + f luktuace. Může matematická analýza přinést nějaká překvapenı́ oproti běžnému očekávánı́ ? Patrně ano, nebot’ se ukáže, že ani proměnnou puls ani sı́la pažı́ a nohou nenı́ třeba použı́t k vysvětlenı́ celkového času. Přı́klad 4 Demografická data. Data popisujı́ (možnou) závislost hrubého národnı́ho důchodu na hlavu v roce 1957 (y) na dětské úmrtnosti (průměrný počet úmrtı́ na 1000 živě narozených dětı́ - x1 ), počtu obyvatel na jednoho lékaře (x2 ), hustotě osı́dlenı́ (počet obyvatel na km2 - x3 ), počtu obyvatel na 1000 ha zemědělsky využı́vané půdy (x4 ), procentu gramotného obyvatelstva staršı́ho 15 let (x5 ), a na počtu studentů na vysokých školách na 105 obyvatel (x6 ), a to ve 49 zemı́ch světa (Chatterjee, Hadi (1988)). Tady jsou data (na dalšı́ straně): 17 Demografická data Pořadı́ Země x1 x2 x3 x4 x5 x6 y 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 Australia Austria Barbados Belgium British Guiana Bulgaria Canada Chile Costa Rica Cyprus Czechoslovakia Denmark El Salvador Finland France Guatemala Hong Kong Hungary Iceland India Ireland Italy Jamaica Japan Luxembourg Malaya Malta Mauritius Mexico Netherlands New Zeland Nicaragua Norway Panama Poland Portugal Puerto Rico Romania Singapore Spain Sweden Switzerland 19.5 37.5 60.4 35.4 67.1 45.1 27.3 127.9 78.9 29.9 31.0 23.7 76.3 21.0 27.4 91.9 41.5 47.6 22.4 225.0 30.5 48.7 58.7 37.7 31.5 68.9 38.3 69.5 77.7 16.5 22.8 71.7 20.2 54.8 74.7 77.5 52.4 75.7 32.3 43.5 16.6 21.1 860 695 3000 819 3900 740 900 1700 2600 1400 620 830 5400 16001 1014 6400 3300 650 840 5200 1000 746 4300 930 910 6400 980 4500 1700 900 700 2800 946 3200 1100 1394 2200 788 2800 1000 1089 765 1 84 548 301 3 72 2 11 24 62 108 107 127 13 83 36 3082 108 2 138 40 164 143 254 123 54 1041 352 18 346 9 10 11 15 96 100 271 78 2904 61 17 133 21 1720 7121 5257 192 1380 257 1164 948 1042 1821 1434 1497 1512 1288 1365 98143 1370 79 2279 598 2323 3410 7563 2286 2980 8050 4711 296 4855 170 824 3420 838 1411 1087 4030 1248 108214 1347 1705 2320 98.5 98.5 91.1 96.7 74.0 85.0 97.5 80.1 79.4 60.5 97.5 98.5 39.4 98.5 96.4 29.4 57.5 97.5 98.5 19.3 98.5 87.5 77.0 98.0 96.5 38.4 57.6 51.8 50.0 98.5 98.5 38.4 98.5 65.7 95.0 55.9 81.0 89.0 50.0 87.0 88.5 98.5 856 546 24 536 27 456 645 257 326 78 398 570 89 529 667 135 176 258 445 220 362 362 42 750 36 475 142 14 258 923 839 110 258 371 351 272 1192 226 437 258 401 398 1316 670 200 1196 235 365 1947 379 357 467 680 1057 219 794 943 189 272 490 572 73 550 516 316 306 1388 356 377 225 262 836 1310 160 1130 329 475 224 563 360 400 293 1380 1428 18 Demografická data. (pokračovánı́) Pořadı́ Země x1 x2 x3 x4 x5 x6 y 43 44 45 46 47 48 49 Taiwan Trinidad United Kingdom United States USSR West Germany Yugoslavia 30.5 45.4 24.1 26.4 35.0 33.8 100.0 1500 2300 935 780 578 798 1637 305 168 217 20 10 217 73 10446 4383 2677 399 339 3631 1215 54.0 73.8 98.5 98.0 95.0 98.5 77.0 329 61 460 1983 539 528 524 161 423 1189 2577 600 927 265 Odhadnutý model vypadá takto y = 112.89 − 3.62 · x1 + 0.01 · x2 − 0.19 · x3 + 0.003 · x4 + 5.57 · x5 + 0.69 · x6 + f luktuace. Některé velmi malé koeficienty u některých vysvětlujı́cı́ch proměnných napovı́dajı́, že byly zařazeny do modelu patrně zbytečně. I to se v dalšı́m textu naučı́me posoudit, právě tak jako zda celý model je adekvátnı́ či nikoliv. Přı́klad 5 Data o výdajı́ch na školstvı́. Data vypovı́dajı́ o (možné) závislosti výdajů na školstvı́ v 50 státech v U.S.A. (y) na procentu obyvatel státu bydlı́cı́ch v urbanistických centrech (x1 ), osobnı́m přı́jmu na jednoho obyvatele (x2 ) a procentu obyvatel mladšı́ch 18 let (x3 ) (Chatterjee, Price (1977)). Vzhledem k tomu, že dalšı́ poměrně rozsáhlá data by zbytečně plýtvala mı́stem, odkazujeme čtenáře na původnı́ zdroj, přı́padně na autora těchto skript, který má tato (a mnohá dalšı́ data) na magnetickém nosiči. Model pořı́zený z těchto dat je následujı́cı́ y = −556.57 − 0.0043 · x1 + 0.072 · x2 + 1.55 · x3 + f luktuace. Značně velká hodnota absolutnı́ho členu v modelu oproti hodnotám koeficientů u vysvětlujı́cı́ch proměnných svádı́ k tomu si myslet, že vlastně vysvětlujı́cı́ proměnné nic nevysvětlujı́. Je tomu opravdu tak ? Zodpovědět takovou otázku se také dále naučı́me. Přı́klad 6 Data o kriminalitě v U.S.A. Data obsahujı́ údaje o výši kriminality ve 47 státech Spojených států (y), o procentu mužů mezi 18 a 28 roky věku (x1 ), údaje o vzdělanosti obyvatelstva (x2 ), o výdajı́ch na policii (x3 ) a údaje o přı́jmu na jednoho obyvatele (x4 ) (Vandaele (1978)nebo Hand a ostat. (1994) ). Data by opět zabı́rala dosti velké mı́sto a tak odkazujeme na původnı́ zdroj či autora skript, který je kterémukoliv zájemci rád okopı́ruje. Odhadneme-li opět model, dostaneme y = −424.92 + 0.76 · x1 + 1.66 · x2 + 1.30 · x3 + 0.64 · x4 + f luktuace. Dalšı́ přı́klady může zvı́davý čtenář nalézt např. v monografii Berndt (1990) či Kmenta (1986). 19 V závěru úvodu si dovolme připomenout jednu interpretačnı́ záležitost. V některých učebnicı́ch jsou náhodné fluktuace Ei interpretovány jako chyby měřenı́ vysvětlované veličiny Yi . To je však interpretace jen omezeně udržitelná. Pokud bychom předpokládali situaci, že jak vysvětlovaná, tak vysvětlujı́cı́ proměnné jsou měřeny (zhruba) se stejnou přesnostı́, pak by tento fakt vyžadoval, aby byl zahrnut do našich úvah. Takový model probereme nı́že a uvidı́me, že k jeho zvládnutı́ je potřeba poněkud jiný přı́stup než k modelu (3). Slovo “omezeně”, užité o několik řádků výše naznačuje, že tato interpretace je udržitelná za předpokladu, že by přesnost měřenı́ vysvětlujı́cı́ch veličin xi byla mnohem přesnějšı́ než přesnost měřenı́ Yi . Daleko přirozenějšı́ interpretace či chcete-li aplikace modelu je ta, kdy předpokládáme, že na veličinu Yi majı́ (náhodný) vliv ještě dalšı́ faktory, které ale bud’ nenı́ snadné modelovat nebo je úmyslně nechceme, z nějakého důvodu, popsat explicite, či jsou tyto “náhodné výkyvy” tak malé, že je lépe je nemodelovat. Dřı́ve než se pustı́me do vlastnı́ho výkladu regresnı́ analýzy, poznamenejme ještě, že koncepce skript je taková, aby zhruba ve své prvé polovině prokázala, že regresnı́ analýza je postavena na solidnı́ matematice a jejı́ teorie je dobře propracovaná. Druhá část skript, patrně však menšı́ polovina, je mı́sty psána již jen přehledově, byt’ některé partie, viz např. kapitola věnovaná Durbin-Watsonově statistce, jsou naopak podrobnějšı́ než mnohé monografie a popisujı́ dokonce historii vývoje té či oné oblasti regresnı́ analýzy. A právě partie věnovaná Durbin-Watsonově statistce ukazuje, že i dnes stojı́ za to alespoň občas nahlédnout do původnı́ch pramenů, nebot’ se stává, že přı́slušné partie jsou opisovány z monografie do monografie, včetně zkreslenı́, kterého se dopustil autor té prvé. Dı́ky tomu se pak může do povědomı́ široké veřejnosti dostal poněkud zkreslený obraz o původnı́m výsledku. V citovaném přı́padě se např. traduje naprosto heuristika, která stojı́ za Durbin-Watsonovou statistikou, která neodpovı́dá heuristice, která vysvı́tá z postupu, který Durbin a Watson použili. statist 3 3.1 LINERNÍ REGRESNÍ MODEL Odhad regresnı́ch koeficientů Budeme tedy nadále uvažovat model Yi = xTi β 0 + Ei , i = 1, 2, . . . , n (4) pro všechna přirozená n, a to s pevně zadanými nosiči x1 , x2 , . . . , xn , kde transponovaný vektor xTi = xi1 , xi2 , . . . , xip tvořı́ i-tý řádek matice plánu x11 , x12 , · · · , x1p x21 , x22 , · · · , x2p X= .. .. . . xn1 , xn2 , · · · , xnp . (5) Při studiu lineárnı́ho regresnı́ho modelu se někdy prvnı́ souřadnice vektoru regresnı́ch koeficientů uvažuje společná všem pozorovánı́m. Jinými slovy, nenásobı́me tento koeficient žádnou vysvětlujı́cı́ proměnnou a označujeme jej jako absolutnı́ člen, v anglické literatuře (a nynı́ často i v české) intercept. Toto druhé označenı́ použijeme v přı́padě, když budeme potřebovat šetřit 20 mı́stem, např. v tabulkách. Model je pak často zapisován ve tvaru Yi = α + xTi β 0 + Ei , či Yi = α + k X xij βj0 + Ei , i = 1, 2, . . . , n i = 1, 2, . . . , n, j=1 kde k = p − 1. My však budeme v celých skriptech dávat přednost zápisu (4), z čehož plyne, že pokud budeme uvažovat model s absolutnı́m členem, musı́me mı́t xi1 = 1, i = 1, 2, . . . , n. To však neznamená, že by tento zápis naznačoval, že absolutnı́ člen a zbývajı́cı́ regresnı́ koeficienty, ze zřejmého důvodu někdy označované slopes, majı́ v modelu stejné postavenı́. Později se vrátı́me k diskuzi, proč má absolutnı́ člen zvláštnı́ mı́sto v modelu a proč je dobře s nı́m počı́tat i v přı́padě, kdy rutinnı́ postup při regresnı́ analýze naznačuje, že by mohl být tento parametr statisticky nevýznamný. Matice X bývá často označována jako o designová matice. Znovu připomı́náme, že v dalšı́m výkladu budeme mı́t na mysli, byt’ toto budeme pro jistotu občas opakovat, zejména situaci, kdy platı́ podmı́nky: Podmı́nky A Posloupnost {Ei }∞ i=1 je posloupnostı́ nekorelovaných náhodných veličin s nulovou střednı́ hodnotou a konečným kladným rozptylem σ 2 , který je stejný pro všechny tyto veličiny. Podmı́nky A lze pomoci již zavedeného formalizmu přepsat následovně: 1. IE Ei = 0, i = 1, 2, ... 2. IE Ei2 = σ 2 , i = 1, 2, ... σ 2 ∈ (0, ∞), 3. IE Ei Ej = 0 i = 1, 2, ... i < j, kde symbol IE označuje střednı́ hodnotu. Někdy jsou jednotlivé podmı́nky (z výše uvedených) označovány “jmény”. Mluvı́me pak o podmı́nce homoskedasticity, řı́kajı́cı́, že všechny rozptyly jsou stejné (to je podmı́nka čı́slo 2), či o podmı́nce nekorelovanosti (to je podmı́nka čı́slo 3). Později budeme někdy předpokládat, že všechny veličiny Ei majı́ stejné a to normálnı́ rozdělenı́. Potom samozřejmě z předpokladu nekorelovanosti dostaneme jejich nezávislost. V celém tomto učebnı́m textu budeme pro zachovánı́ jednoduchosti, pořádku a vyloučenı́ přı́padných omylů všechny vektory uvažovat jako sloupcové. To znamená, že pokud vyjmeme některý, řekněme `-tý, řádek z matice plánu X budeme jej považovat nikoliv za řádek, ale za sloupcový vektor x` . Pro sloupce matice zavedeme, až to budeme potřebovat, jiné symboly než x` . Pro každé β ∈ Rp definujme rezidua ri (β) = yi − xTi β i = 1, 2, . . . , n. Opět se bude jednat bud’ o čı́sla, ri (β), vzešlá z některé numerické analýzy nebo o náhodné veličiny ri (β, ω), které jsou náhodné proto, že Y je náhodná veličina a xi a β jsou deterministicky 21 dané, nebo i Xi jsou náhodné veličiny, pak ri (β) = Yi − Xi β nebo ri (β̂ (n) ) = Yi − Xi β̂ (n) , tj. i β̂ (n) je náhodné, nebo konečně, což bude náš nejčastějšı́ přı́pad, ri (β̂ (LS,n) ) = Yi − xTi β̂ (LS,n) i = 1, 2, . . . , n, (6) tj. Y a β̂ (LS,n) jsou náhodné a xi deterministické. Jednotlivé eventuality budou opět snadno rozlišitelné z kontextu. Budeme-li se napřı́klad bavit o vlastnostech LS-odhadu a jeho reziduı́, bude zřejmé, že jde o eventualitu (6). Připomeňme, že fluktuace Ei v modelu (4) nejsou nic vı́ce ani méně než ri (β 0 , ω). Po přepsánı́ modelu (4) do maticového zápisu, dostaneme Y = Xβ 0 + E, (7) kde Y = (Y1 , Y2 , . . . , Yn )T , X a β 0 jsou již dřı́ve popsaná matice plánu a vektor regresnı́ch koeficientů a konečně E = (E1 , E2 , . . . , En )T je vektor náhodných fluktuacı́. Tento zápis je přirozeně přehlednějšı́, byt’ poněkud méně “samovysvětlujı́cı́” svůj význam než (4). Budeme jej však přesto použı́vat alternativně se zápisem (4), nebot’ v některých přı́padech zjednodušı́ a zpřehlednı́ prováděné úpravy výrazů. Odhad regresnı́ch koeficientů metodou nejmenšı́ch čtverců definuje pak jako β̂ (LS,n) (ω) = arg min β∈Rp n X (Yi − xTi β)2 = arg min (Y − Xβ)T (Y − Xβ), β∈Rp i=1 (8) kde “arg min” znamená, že za odhad považujeme takovou hodnotu argumentu, v našem přı́padě β ∈ Rp , která přı́slušný výraz, který následuje za “arg min”, minimalizuje. Podobně pro “arg max”. Heuristika, jistě nikoliv jediná, stojı́cı́ za metodou LS se opı́rá o myšlenku, že malá rezidua jsou nepodstatná a tedy je umocněnı́m na druhou ještě zmenšı́me a nebereme je přı́liš v úvahu. Na druhé straně velká rezidua jsou závažná a umocněnı́m na druhou je ještě zvětšı́me, čı́mž “donutı́me” minimalizačnı́ proces vzı́t tato velká rezidua velmi vážně. To je samozřejmě velice dobře akceptovatelná myšlenka, nebot’ vede k tomu, že metoda LS je citlivá na odlehlá pozorovánı́ ve vysvětlujı́cı́ proměnné (taková pozorovánı́ bývajı́ označována jako outliers) i na odlehlá pozorovánı́ ve vysvětlujı́cı́ch proměnných (taková pozorovánı́ bývajı́ označována jako leverage points, a patrně neexistuje uspokojivý český překlad). Snad by bylo možné mluvit o odlehlých bodech u prvé skupiny a o pákových bodech ve druhé skupině, pokud bychom použili otrockého překladu. Samozřejmě se nabı́zı́ srovnánı́ s pákovým efektem, který je znám v ekonomii. Obě skupiny pozorovánı́ se z pochopitelných důvodů často označujı́ jako vlivné body. Důvody, proč tato pozorovánı́ jsou vlivná snadno nahlédneme z normálnı́ch rovnic, které za chvı́li uvedeme. Výše uvedená idea má však i své čertovo kopýtko a nepochybně lze se stejnou samozřejmostı́ obhajovat i zcela opačný požadavek, totiž že by metoda odhadu parametrů neměla být citlivá na velká rezidua, pokud by jich bylo jen několik. To, že citlivost na vlivné body může být někdy, např. při automatizovaném zpracovánı́ dat, probı́hajı́cı́m bez důkladného dozoru zpracovatele, sebevražedná, snad nejlépe ukazuje následujı́cı́ obrázek presentujı́cı́ data, která popisujı́ závislost mezi povrchovou teplotou hvězdy a jejı́m jasem (Humphreys (1978)). 22 A A Závislost jasu hvězdy na jejı́ povrchové teplotě. (Plná čára naznačuje odhad modelu pořı́zený pomocı́ LS.) Obr. 1 Nenı́ třeba mı́t sebemenšı́ matematické vzdělánı́ k tomu, aby nás napadlo, že čtyři body ležı́cı́ v levém hornı́m rohu obrázku jsou “nekonsistentnı́” s ostatnı́mi pozorovánı́mi a opravdu při dalšı́m zkoumánı́ se ukázala fyzikálnı́ odlišnost těchto objektů od všech ostatnı́ch. Vyloučı́meli tyto body ze souboru, dostaneme toto. Závislost jasu hvězdy na jejı́ povrchové teplotě. (Plná čára naznačuje odhad modelu pořı́zený pomocı́ LS po vyloučenı́ výše diskutovaných bodů.) Obr. 2 Z tohoto přı́kladu se zdá, že vizuálnı́ analýza dat může mnohdy podstatně napomoci při jejich zpracovánı́. To je jistě pravda, ale jako každý postup má i tento svá ohraničenı́. Snadno 23 lze nalézt vı́cerozměrná data, ve kterých jsou vlivná pozorovánı́ tak dobře zamaskována, že ani dobrý grafický editor, umožňujı́cı́ např. trojrozměrné zobrazenı́ dat a jejich otáčenı́ v prostoru, tuto kontaminaci dat nenalezne. (Tento termı́n, zamaskována se při zpracovánı́ dat opravdu použı́vá, tj. nejde o metaforu. Z těchto důvodů je vhodné použı́t při zpracovávánı́ dat také některé diagnostické prostředky, přı́padně jiné odhady modelu než jen LS. Vrátı́me se k těmto problémům později. Dřı́ve než postoupı́me dále poctivě přiznejme, že důvod k zavedenı́ LS, alespoň pro Carla Friedricha Gausse, byla numerická proveditelnost výše naznačené minimalizace, tj. technická jednoduchost metody. V práci z roku 1809 napsal: “Ale ze všech těchto principů je metoda nejmenšı́ch čtverců principem nejzákladnějšı́m. Všechny ostatnı́ nás zavádějı́ do mnohem komplikovanějšı́ch výpočtů.” Možná, že se některému čtenáři bude zdát divné, že je technická jednoduchost nadřazena “objektivitě” (či “správnosti” či “pravdivosti”, přı́padně si doplňte jiné vznešené slovo). Připomeňme však, že jednoduchost teorie je obecně přijı́maným kritériem při porovnávánı́ teoriı́ či dávánı́ přednosti jinak stejně dobře fungujı́cı́m teoriı́m, viz Ocamova břitva, Kuhn (1965). Navı́c, před masovým rozšı́řenı́m relativně levné a nepochybně výkonné počı́tačové techniky, byla jednoduchost výpočtu vlastně podmı́nkou aplikovatelnosti metody. Začněme nynı́ s budovánı́m vlastnı́ teorie. Snadno se nahlédne, že vždy existuje řešenı́ problému (8). Ukazuje to následujı́cı́ lemma. Dřı́ve než ji však vyslovı́me, zaved’me ještě jedno označenı́. Symbolem M(A) budeme označovat vektorový podprostor prostoru Rn , který je generován sloupci matice A. Dimenze podprostoru i typ matice vyplyne z kontextu. Ještě jednou zdůrazněme, že M(A) je generován sloupci matice A. Ostatně tvar regresnı́ho modelu, ve kterém kombinujeme pomocı́ vektoru regresnı́ch koeficientů β sloupce matice X napovı́dá, že se budeme zajı́mat o prostory generované sloupci přı́slušných matic. Je sice pravda, že prostoty M(A) a M(AT ) majı́ mnoho společného (např. hodnost), ale jinak se jedná o různé prostory. LEMMA 1 Necht’ Y ∈ Rn a k necht’ je dimense podprostoru generovaného sloupci matice plánu. Potom existuje právě jeden vektor U ∈ M(X) = Rn,k takový, že Y = U + Z a Z⊥M(X), kde “⊥” označuje fakt, že vektor Z je kolmý k podprostoru M(X). Důkaz. Necht’ {u1 , u2 , . . . , uk } a {u1 , u2 , . . . , uk . . . , un } jsou ortogonálnı́ báze M(X) a Rn . Pak n Y = X i=1 αi ui , P P pro některá reálná α1 , α2 , . . . , αn . Položme U = ki=1 αi ui a Z = ni=k+1 αi ui . Pak Z⊥M(X) a Y = U + Z. Tı́m je dokázána existence vektorů U a Z. Necht’ dále Y = U1 + Z1 a Y = U2 + Z2 , U1 , U2 ∈ M(X), Z1 , Z2 ⊥M(X). Pak U1 − U2 = Z1 − Z2 a navı́c U1 − U2 ∈ M(X) a Z1 − Z2 ⊥M(X), a tedy U1 − U2 ⊥Z1 − Z2 , tj. U1 − U2 = 0 = Z1 − Z2 . Tı́m je ukázána jednoznačnost rozkladu. 2 Nynı́ necht’ U ∈ M(X) je vektor z předchozı́ho lemmatu. Pro libovolný jiný vektor W ∈ M(X) pak máme (Y − W )T (Y − W ) = [(Y − U ) − (U − W )]T [(Y − U ) − (U − W )] = (Y − U )T (Y − U ) + (U − W )T (U − W ) ≥ (Y − U )T (Y − U ). 24 K řešenı́ (8) tedy stačı́ nalézt β ∈ Rk tak, aby lineárnı́ kombinace sloupců matice plánu, která vystupuje v (8) jako Xβ, byla rovna U , tj. U = X β̂ (LS,n) . To vždy lze provést a navı́c pokud k = p, tj. pokud je dimenze prostoru M(X) rovna p. V tom přı́padě mluvı́me o tom, že matice X je plné hodnosti či že model je plné hodnosti. Sloupce matice X pak tvořı́ bázi přı́slušného podprostoru a β̂ (LS,n) je určeno jednoznačně. Připomeňme, že p označuje počet sloupců matice X. Vzhledem k tomu, že nynı́ již vı́me, že řešenı́ problému (8) vždy existuje můžeme je hledat tak, že vypočteme parciálnı́ derivace funkcionálu (Y − Xβ)T (Y − Xβ) dle β` a položı́me je rovné nule. Takto vzniklé soustavě rovnic se často řı́ká normálnı́ rovnice. Protože ∂ Pp j=1 xij βj ∂β` máme ∂ Pn i=1 (Yi − xTi β)2 ∂β` = −2 = xi` , n X (Yi − xTi β)xi` . i=1 Normálnı́ rovnice tedy majı́ tvar n X (Yi − xTi β)xi` = 0 pro ` = 1, 2, . . . , p, (9) i=1 či v maticovém zápise X T (Y − Xβ) = 0. (10) β̂ (LS,n) = (X T X)−1 X T Y, (11) Je-li k = p dostaneme pokud k < p, pak β̂ (LS,n) = (X T X)− X T Y, kde (X T X)− je některá levá pseudoinverse matice X T X, což (znovu) indikuje, že v tomto přı́padě β̂ (LS,n) nenı́ určeno jednoznačně. Nadále budeme pro jednoduchost předpokládat, že matice plánu je plné hodnosti. Ostatně pokud by matice plánu nebyla plné hodnosti prostě některý z jejı́ch sloupců vyloučı́me. Tento postup nenı́ možný, či je alespoň problematický, v přı́padě, že se jedná o náhodné nosiče nebo uvažujeme matici X závislou na nějakých parametrech, přičemž pouze pro některou “konstelaci” parametrů dojde ke ztrátě plné hodnosti modelu. V dalšı́m však přijmeme předpoklady, které (alespoň asymptoticky) tuto možnost vyloučı́. Nicméně v literatuře lze nalézt diskuzi takových situacı́, Judge a kol. (1980), Zvára (1989)). Potı́že výpočetnı́ho rázu a zhoršenı́ kvality odhadu (ve smyslu velkého rozptylu) mohou nastat v přı́padě, že matice X T X je sice regulárnı́ a tedy (X T X)−1 existuje, ale je tzv. špatně podmı́něna, tj. je na “pokraji” singularity. V takovém přı́padě jsou jejı́ sloupce “téměř” lineárně závislé a mluvı́me o problému kolinearity, ke kterému se rovněž později vrátı́me. Formálně se výše naznačené vyloučenı́ některého sloupce (či sloupců) matice X v přı́padě, že tato nenı́ plné hodnosti, provede takto: Necht’ V1 , V2 , . . . , Vk , Vk+1 , . . . , Vp jsou sloupce matice X, přičemž prvnı́ch k je lineárně nezávislých, ostatnı́ jsou na nich závislé, jinými slovy jsou lineárnı́mi kombinacemi těch prvnı́ch k. Formálně to znamená, že existuje matice Λ taková, že (Vk+1 , . . . , Vp ) = (V1 , V2 , . . . , Vk ) · Λ. 25 Pak ale Xβ 0 = (V1 , V2 , . . . , Vk )(β1 , β2 , . . . , βk )T + (V1 , V2 , . . . , Vk )Λ(βk+1 , βk+2 , . . . , βp )T = (V1 , V2 , . . . , Vk )(γ10 , γ20 , . . . , γk0 )T , kde γ 0 = (γ10 , γ20 , . . . , γk0 )T = (β1 , β2 , . . . , βk )T + Λ(βk+1 , βk+2 , . . . , βp )T , odkud opravdu potřebujeme pouze k parametrů. Odhad β̂ (n) označujeme jako lineárnı́, pokud β̂ (n) = LY kde L je některá, na Y nezávislá, (p × n)-rozměrná matice. Pochopitelně, že bude L = L(X), tj. slovy, funkcı́ vysvětlujı́cı́ch proměnných. Jinak by byl odhad β̂ (n) dosti podivný, nebot’ úvahu informaci nesenou vysvětlujı́cı́mi proměnnými. je vidět, že samozřejmě matice L je by nebral v LEMMA 2 Necht’ posloupnost {Ei }∞ i=1 je posloupnostı́ nezávislých a stejně rozdělených náhodných veličin s nulovou střednı́ hodnotou a konečným kladným rozptylem σ 2 . Potom je β̂ (LS,n) nejlepšı́m nestranným lineárnı́m odhadem parametru β 0 . Pokud navı́c existuje h(n) : N → R tak, že (X T X)−1 = O(h−1 (n)) (12) X T X = o(h2 (n)), (13) a potom β̂ (LS,n) je silně konsistentnı́m odhadem. Zesı́lı́me-li ještě (12) na lim n→∞ 1 T X X = Q, n (14) kde Q je některá regulárnı́ matice, potom √ n(β̂ (LS,n) − β 0 ) (15) je asymptoticky normálnı́ N (0, Σ), kde Σ = σ 2 Q−1 . Dřı́ve než pustı́me do důkazu tohoto lemmatu, učinı́me dvě technické poznámky. Pozorný čtenář dosud uvedeného textu již nahlédl, že je třeba odlišovat β̂ (n) jako statistiku (tj. náhodnou veličinu) a β̂ (n) jako hodnotu odhadu pro některá data. Rozlišenı́ vyplyne z kontextu. Ve statistické literatuře se tyto dvě entity obvykle ani formálně nerozlišujı́ a je docela možné, že někdy méně pozornı́ čtenáři tento rozdı́l ani nezaznamenajı́. Proto si občas dovolı́me, bude-li to vhodné, naznačit označenı́m β̂ (n) (ω), že se jedná o tu prvnı́ možnost, tj. o odhad jako náhodnou veličinu. To znamená jinými slovy, že β̂ (LS,n) (ω) je nalezen jako nějaká formule zahrnujı́cı́ Yi a Xi , i = 1, 2, . . . , n, viz (11), metodou nejmenšı́ch čtverců na základě počátečnı́ho ∞ úseku délky n ∈ N posloupnostı́ náhodných veličin {Yi (ω)}∞ i=1 a {Xi (ω)}i=1 a bude použı́ván k teoretickým úvahám (např. k důkazu konsistence odhadu), zatı́mco β̂ (LS,n) je vyčı́slen pro některá konkrétnı́ data, tj. pro deterministické posloupnosti {Yi (ω0 )}ni=1 a {Xi (ω0 )}ni=1 , kde ω0 je některý bod z Ω. Zdůrazňujeme však ještě jednou, že ve většině přı́padů budeme “(ω)” vynechávat, nebot’ rozlišenı́ mezi β̂ (n) (ω) a β̂ bude naprosto zřejmé z kontextu. Budeme-li např. mluvit o konsistenci 26 či asymptotické normalitě β̂, bude zřejmé, že máme na mysli odhad jako náhodnou veličinu, tj. β̂(ω), a nikoliv čı́selnou hodnotu odhadu pro některá data. Druhá poznámka je určena čtenáři, který se snad poprvé v životě setkává s tvrzenı́m o asymptotickém rozdělenı́ některého odhadu. Jak plyne z Lemmatu 2 (tedy až jej dokážeme) je odhad β̂ (LS,n) silně konsistentnı́. To je důvod proč se ve vztahu (15) objevuje násobenı́ faktorem √ n. Bez této normalizace by samozřejmě naznačený rozdı́l při n → ∞ konvergoval k nule. Důkaz Lemmatu 2. Necht’ L je některá (p×n)-rozměrná matice, L∗ = (X T X)−1 X T a β̃ (n) = LY . Pak z požadavku nestrannosti, který musı́ platit pro libovolné β ∈ Rp , nebot’ neznáme hodnotu β 0 , plyne, že pro všechna β ∈ Rp IEβ β̃ (n) = LIEβ Y = LXβ = β (16) LX = I, (17) a tudı́ž kde I je (p × p)-rozměrná jednotková matice a dolnı́ index u střednı́ hodnoty naznačuje, že tato je počı́tána “v modelu”, ve kterém je vektor regresnı́ch koeficientů roven β. Abychom uzavřeli důkaz prvé části tvrzenı́ lemmatu, potřebujeme dokázat, že pro libovolné λ ∈ Rp je λT cov{β̂ (LS,n) }λ ≤ λT cov{β̃ (n) }λ, kde cov{·} označuje přı́slušnou kovariančnı́ matici. Snadno se ověřı́, že (viz (16) a (17)) λT cov{β̃ (n) }λ = λT IE {(LY − β)T (LY − β)}λ = λT IE {(LY − LXβ)T (LY − LXβ)}λ = λT LIE {(Y − Xβ)T (Y − Xβ)}LT λ = λT Lσ 2 ILT λ = σ 2 λT LLT λ. Podobně λT cov{β̂ (LS,n) }λ = σ 2 λT L∗ (L∗ )T λ = σ 2 λT (X T X)−1 λ. Nynı́ λT LLT λ = λT (L − L∗ + L∗ )(L − L∗ + L∗ )T λ = λT (L − L∗ )(L − L∗ )T λ + λT L∗ (L∗ )T λ, nebot’ (L − L∗ )(L∗ )T = (L − (X T X)−1 X T )X(X T X)−1 = LX(X T X)−1 − (X T X)−1 = 0 a tedy také L∗ (L − L∗ )T = 0. Vzhledem k tomu, že L∗ (L∗ )T = (X T X)−1 a (L − L∗ )(L − L∗ )T jsou pozitivně semidefinitnı́, je důkaz prvé části lemmatu dokončen. K důkazu druhé části použijeme Kolmogorův silný zákon velkých čı́sel (viz např. Rao (1978), těpán (1987)) . Odhad β̂ (LS,n) můžeme totiž psát jako (X T X)−1 X T Y = β 0 + nh(n) · (X T X)−1 1 1 1 X T E = β0 + ( X T X)−1 X T E, (18) nh(n) nh(n) nh(n) 27 kde E = (E1 , E2 , . . . , En )T . Uvažujme nejprve pro libovolné `, 1 ≤ ` ≤ p náhodnou veličinu Zn(`) = (1) (2) n 1 X xi` Ei nh(n) i=1 (p) a Zn = (Zn , Zn , . . . , Zn )T . Protože var{xi` Ei } = x2i` σ 2 , máme var(Zn(`) ) = n n X X 1 1 2 var{x E } = σ x2 → 0 i` i n2 h2 (n) i=1 n2 h2 (n) i=1 i` as n → ∞, a tedy dle (13) Zn → 0 s. j.. Použitı́m Sluckého věty (viz opět Rao (1978), těpán (1987)) nebo prostě přı́mo ověřenı́m konvergence s. j. pro transformaci β 0 + n · (X T X)−1 Zn při platnosti (12), dokončı́me důkaz. Dřı́ve než postoupı́me k důkazu poslednı́ části věty upozorněme, že v některých monografiı́ch se podrobně diskutuje charakter posloupnosti matic n1 X T X pro n → ∞ a žádá se, aby byla ohraničena v pravděpodobnosti. Všimněme si, že pro důkaz konsistence β̂ (LS,n) potřebujeme naopak to aby n1 X T X nebyla přı́liš “malá”. Rovněž si povšimněme, že porušenı́ předpokladu homoskedasticity nemusı́ vést ke ztrátě konsistence, nebot’ prostě stačı́, aby n X 1 σ 2 x2 → 0 n2 h2 (n) i=1 i i` as n → ∞, pochopitelně při zachovánı́ (12). V článku Rao a Zhao (1992) lze nalézt zajı́mavý nápad studovat namı́sto konsistence odhadu β̂ (LS,n) pro původnı́ data, ohraničenost v pravděpodobnosti odhadu β̂ (LS,n) pro data transformovaná následujı́cı́m způsobem. Protože předpokládáme, že matice X T X je symetrická (a reálná) lze ji psát jako QQT , kde Q je čtvercová matice (typu p × p) a protože navı́c předpokládáme, že X T X je regulárnı́, je regulárnı́ také matice Q. Toto vše bude dokázáno nı́že, viz Důsledek 2. To znamená, že existuje Q−1 a tedy můžeme namı́sto modelu (4) studovat model Yi = x̃Ti β (n) + Ei , i = 1, 2, . . . , n, ³ kde x̃i = xTi Q−1 a β (n) = Qβ 0 . Nynı́ stačı́ předpokládat, že X T X ´−1 (19) = o(1) a ukázat, že v modelu (19) je β̂ (LS,n) = Op (1). Rao a Zhao provedli důkaz v rámci studia M -odhadů, avšak předpoklady, za kterých výsledek platı́, jsou splněny i pro odhad metodou nejmenšı́ch čtverců. Důkaz je však komplikovaný a proto zájemce odkazujeme na původnı́ článek. K důkazu poslednı́ části lemmatu pak využijeme Varadarajanovu a Feller-Lindebergovu větu (opět Rao (1978), těpán (1987)). Ze vztahu (18) snadno odvodı́me, že √ 1 n(β̂ (LS,n) − β 0 ) = n · (X T X)−1 √ X T E. n Zkoumejme nejprve pro libovolné κ ∈ Rp náhodnou veličinu Sn = κT √1n σ 2 n1 κT X T Xκ. Pn i=1 xi Ei . Jejı́ κ ∈ Rp podařı́ střednı́ hodnota je rovna nule a rozptyl Pokud se nám pro libovolné dokázat, že Sn má asymptoticky normálnı́ rozdělenı́ s nulovou střednı́ hodnotou a rozptylem 28 P σ 2 κQκ, pak z Varadarajanovy věty plyne, že √1n ni=1 xi Ei má asymptoticky normálnı́ rozdělenı́ s nulovým vektorem střednı́ch hodnot a kovariančnı́ maticı́ σ 2 Q. Konkretizacı́ Feller-Lindebergovy podmı́nky pro Sn a ε > 0, dostaneme výraz σ −2 T T −1 [κ X Xκ] n Z X 1 T T T 2 i=1 |κ xi z|>εσ[κ X Xκ] (κT xi z)2 dFEi (z), (20) kde FEi (z) označuje distribučnı́ funkci náhodné veličiny Ei . Dı́ky předpokladu o stejném rozdělenı́ všech Ei , jsou všechny tyto distribučnı́ funkce stejné. Pišme tedy namı́sto FEi (z) prostě F (z). Je třeba dokázat, že tento výraz konverguje k nule pro n → ∞. Zvolme některé pevné τ > 0 a nalezněme dostatečně velké K > 1 takové, že Z z 2 dF (z) < τ σ 2 . |z|>K Snadno se nahlédne, že v i-tém integrálu ve výraze (20) integrujeme přes oblast 1 εσ[κT X T Xκ] 2 . |κT xi | |z| > Na druhé straně z předpokladu (14) plyne, že κT X T Xκ je, počı́naje od některého n0 , většı́ než εσ 2 κT Qκ 1 T , počı́naje řekněme některým n1 > n0 2 nκ Qκ a rovněž z (14) máme pro δ < 4K 2 ¯ ¯ ¯1 T T ¯ ¯ κ X Xκ − κT Qκ¯ < δ, ¯n ¯ což implikuje pro i > n1 a n > n1 ¯ ¯ ¯1 T ¯ ¯ κ xi xT κ¯ < 2δ. i ¯ ¯n Protože však n1 < ∞, existuje n2 > n1 tak, že pro n > n2 ¯ ¯ ¯ ¯1 T ¯ κ xi xT κ¯ < 2δ i ¯ ¯n pro všechna i ∈ N . Pak ovšem pro n > n2 máme " ( max 1 εσ[κT X T Xκ] 2 1≤i≤n tj. ( " min 1≤i≤n Odtud plyne σ −2 [κT X T Xκ]−1 ≤σ )#2 |κT xi | −2 T < 1 εσ[κT X T Xκ] 2 |κT xi | 4δ 1 < 2, εσ 2 κT Qκ K )#2 > K 2. n Z X 1 T T T 2 i=1 |κ xi z|>εσ[κ X Xκ] T −1 [κ X Xκ] n Z X i=1 |z|>K (κT xi z)2 dF (z) Z = σ −2 [κT X T Xκ]−1 |z|>K z 2 dF (z) · n X i=1 29 (κT xi z)2 dF (z) κT xi xTi κ ≤ τ. Protože ε i τ byla libovolná kladná čı́sla, dokázali jsme platnost Feller-Lindebergovy podmı́nky pro Sn . Protože rovněž κ bylo libovolné, použitı́m Varadarajanovy věty, jak jsme už ostatně P výše uvedli, dostaneme, že asymptotické rozdělenı́ náhodné veličiny √1n ni=1 xi Ei je normálnı́ s nulovým vektorem střednı́ch hodnot a kovariančnı́ maticı́ σ 2 Q. P P Potom ovšem náhodná veličina n·(X T X)−1 √1n ni=1 xi Ei = ( n1 X T X)−1 √1n ni=1 xi Ei asymptoticky normálnı́ rozdělenı́ s nulovým vektorem střednı́ch hodnot a kovariančnı́ maticı́ σ 2 Q−1 . 2 Nynı́ jsme dospěli do stádia, ve kterém si budeme moci názorně zdůvodnit to, co jsme výše již jednou naznačili, totiž že omezenı́ na lineárnı́ odhad je drastické. Připomeňme, že Lemma 2 ukazuje, že β̂ (LS,n) je nejlepšı́m nestranným lineárnı́m odhadem. Normálnı́ rovnice (9) přepı́šeme do tvaru n X (Yi − xTi β)xi = 0. (21) i=1 Bez újmy na obecnosti předpokládejme, že jsme data posunuli ve faktorovém prostoru tak, že ležı́ okolo počátku. Ostatně jak plyne z tvaru β̂ (LS,n) , je tento invariantnı́ k lineárnı́ transformaci dat a odhad pro původnı́ data lze zı́skat z odhadu pro posunutá data prostě inverznı́ transformacı́. Z (21) je patrné, že pozorovánı́, které bude mı́t velké hodnoty x-ových souřadnic, tj. bude “leverage pointem”, dostane většı́ váhu v normálnı́ch rovnicı́ch a vı́ce ovlivnı́ jejich řešenı́. Podobně degradujı́cı́ vliv bude mı́t pozorovánı́ se značně odlehlou y-ovou souřadnicı́ (outlier), nebot’ u něho bude v (21) zase veliký prvnı́ součinitel. Celkový efekt bude potom takový, jaký je naznačen na obrázku 1. To však znamená, že i nejlepšı́ mezi lineárnı́mi odhady dá poněkud překvapivý výsledek. Jsme-li však v situaci, kdy nemáme pochybnosti o tom, že fluktuace jsou, alespoň přibližně, normálně rozděleny a následně to ověřı́me normálnı́m grafem, přı́padně testem na normalitu reziduı́, který bude také popsán nı́že, pak z následujı́cı́ věty plyne, že β̂ (LS,n) je dokonce nejlepšı́ 5 mezi všemi nestrannými odhady. 2 2 VĚTA 1 Necht’ {Ei }∞ i=1 je posloupnost nezávislých normálně rozdělených (N (0, σ ), σ ∈ (0, ∞)) náhodných veličin. Označme β̂ (M L,n) maximálně věrohodný odhad β 0 . Potom β̂ (LS,n) = β̂ (M L,n) a β̂ (LS,n) dosahuje dolnı́ Rao-Cramerovy hranice rozptylu, tj. je nejlepšı́m nestranným odhadem β 0 . Naopak, je-li β̂ (LS,n) nejlepšı́ nestranný odhad dosahujı́cı́ dolnı́ Rao-Cramerovy hranice 2 (LS,n) = β̂ (M L,n) . rozptylu, pak přı́slušné rozdělenı́ fluktuacı́ {Ei }∞ i=1 je N (0, σi ) a β̂ Důkaz. Vzhledem k tomu, že v předcházejı́cı́m textu již byla nestrannost dokázána, budeme dokazovat jen zbývajı́cı́ část tvrzenı́ věty. Snadno se rozpomeneme, že použitı́ metody maximálnı́ věrohodnosti vždy předpokládáme, že přı́slušná náhodná veličina, v naše přı́padě Yi , má rozdělenı́ určitého typu s neznámými parametry, v naše přı́padě N (xTi β, σ 2 ), a snažı́me se nalézt hodnoty parametrů tak, aby se maximalizovala věrohodnostnı́ funkce. V právě dokazovaném přı́padě, vzhledem k předpokladu normality, máme ) ( (Yi − xTi β)2 1 . exp − f (Yi , β) = √ 2σ 2 σ 2π 5 Odhad je nejlepšı́ ve smyslu minimálnı́ho rozptylu. Pro jiné kritérium by byl (obecně) nejlepšı́m jiný odhad. Např. L1 -odhad by byl nejlepšı́m v přı́padě, že by kritériem byl střednı́ absolutnı́ vychýlenı́ odhadu. 30 Tvar věrohodnostnı́ funkce je tedy následujı́cı́ n Y `n (Y, β) = ( i=1 ) 1 (Y − xTi β)2 √ exp(− i ) . 2σ 2 σ 2π Zlogaritmovánı́m dostaneme n √ 1 X log`n (Y, β) = −n log(σ 2π) − 2 (Yi − xTi β)2 . 2σ i=1 Nynı́ β̂ (M L,n) = argmax {log`n (Y, β)} β∈Rp ( = argmax − β∈Rp = arg min β∈Rp ( n X n X ) xTi β)2 (Yi − i=1 ) (Yi − xTi β)2 = β̂ (LS,n) . i=1 β̂ (LS,n) Dále ukážeme, že dosahuje dolnı́ Rao-Cramerovy hranice. Rao-Cramerova věta bývá uváděna v učebnicı́ch a základnı́ch kursech statistiky obvykle pro jednorozměrný parametr. Proto krátce zopakujeme jejı́ důkaz pro vı́cerozměrný parametr. Předpokládáme-li, že statistika Tn (y, x) je nestranným odhadem β, potom IEβ Tn (y, x) = β pro všechna β ∈ Rp (připomı́náme, že dolnı́ index “β ” u symbolu střednı́ hodnoty naznačuje, že střednı́ hodnota je počı́tána v modelu, který předpokládá jako “skutečnou” hodnotu regresnı́ch koeficientů právě β). Označme hustotu náhodné veličiny Y při hodnotách parametrů modelu rovných X a β symbolem pn (y, X, β). Potom máme (1) (2) βj − βj Z n o Tnj (y, x) pn (y, X, β (1) ) − pn (y, X, β (2) ) dµ(y) = j = 1, 2, . . . . , p, kde µ(y) je přı́slušná σ-konečná mı́ra, vůči které byla nalezena hustota pravděpodobnosti (jako Radon-Nikodymova derivace odpovı́dajı́cı́ pravděpodobnostnı́ mı́ry). Pro jednoduchost předpokládejme, že nosič hustoty pravděpodobnosti pn (y, X, β) je celá přı́mka. Ostatně výsledek těchto úvah budeme aplikovat na normálnı́ rozdělenı́, kde toto je, právě tak jako dalšı́, nı́že použité předpoklady jsou, oprávněné. Dřı́ve než budeme pokračovat dále, připomeneme (či uvědomı́me) si, jak je definována parciálnı́ derivace funkce vı́ce proměnných, řekněme f (t), kde t = (t1 , t2 , . . . , tp )T . Parciálnı́ derivacı́ v bodě t0 rozumı́me limitu, pokud existuje (0) lim ∆→0 (0) (0) = (1) (1) (0) (0) (0) (0) f (t1 , t2 , . . . , tj + ∆, . . . , tp ) − f (t1 , t2 , . . . , tj , . . . , t0p ) ∆ (1) lim(0) (1) f (t(1) ) − f (t(0) (1) (0) tj − tj tj →tj , (1) kde (t1 , t2 , . . . , tj , . . . , tp ) = (t01 , t02 , . . . , t0j + ∆, . . . , t0p ). Nynı́ máme (1) (1) Z (2) βj − βj (2) β` − β` = Tnj (y, x) pn (y, X, β (1) ) − pn (y, X, β (2) ) (1) (2) pn (y, X, β (2) )(β` − β` ) 31 pn (y, X, β (2) )dµ(y), 1 ≤ j, ` ≤ p. Pokud existujı́ přı́slušné parciálnı́ derivace, a pokud lze prohodit integraci a limitudostaneme (1) (2) (mějme na paměti, že βj − βj = 0 pro j 6= `) Z δj` = Tnj (y, x) ∂log pn (y, X, β) pn (y, X, β)dµ(y) ∂β` j, ` = 1, 2, . . . , p. (22) Poznamenejme, že pro normálnı́ rozdělenı́ parciálnı́ derivace existujı́ a prohozenı́ intedrace a n (y,X,β) derivovánı́ lze provést. Necht’ nynı́ τ (β) je pozitivně semidefinitnı́ matice a označme ∂log p∂β vektor parciálnı́ch derivacı́ a necht’ ξ je vektor zadaný rovnostı́ · ξ= ∂log pn (y, X, β) ∂β ¸T τ (β). Znásobı́me-li nynı́ vztah (22) pro každé j, ` = 1, 2, . . . , p čı́slem τ`k (β) a sečteme toto přes `, dostaneme p X Z δj` τ (β)`k = Tnj (y, x) `=1 p ½ X ∂log pn (y, X, β) ∂β` `=1 ¾ pn (y, X, β)τ`k (β) dµ(y), takže v maticovém zápise můžeme psát · Z τ (β) = Tn (y, x) ∂log pn (y, X, β) ∂β Z = Z ¸T τ (β)pn (y, X, β)dµ(y) Tn (y, x) [ξ − IEβ ξ]T pn (y, X, β)dµ(y), Tn (y, x)ξ T pn (y, X, β)dµ(y) = kde poslednı́ rovnost plyne z předpokladu, že · IEβ ξ = IEβ ∂log pn (y, X, β) ∂β ¸T τ (β) = 0, který platı́ např. je-li hustota pn (y, X, β) nulová na “okrajı́ch” svého nosiče. Vzhledem k tomu, že budeme v dalšı́m aplikovat nalezené vztahy na normálnı́ hustotu, bude toto splněno. Z poslednı́ho vztahu však rovněž plyne, že Z [Tn (y, x) − IEβ Tn (y, x)] · [ξ − IEβ ξ]T pn (y, X, β)dµ(y), τ (β) = což se snadno ověřı́ přı́mým výpočtem. Potom pro libovolné λ ∈ Rp máme Z λT τ (β)λ = λT [Tn (y, x) − IEβ Tn (y, x)] · [ξ − IEβ ξ]T λpn (y, X, β)dµ(y) n o ≤ var λT Tn (y, x) var (· ∂log pn (y, X, β) ∂β ) ¸T τ (β)λ , (23) kde jsme použili Schwarzovu nerovnost. Protože ve Schwarzově nerovnosti nastává rovnost právě když náhodná veličina “v prvé varianci” je skoro jistě lineárně závislá na náhodné veličině “ve druhé varianci”, znamená to, že rovnost nastane pokud pro libovolné λ ∈ Rp · λT Tn (y, x) = τ (β) · ¸T ∂log pn (y, X, β) + γ(β) ∂β 32 λ skoro jistě. Dřı́ve než budeme pokračovat, připomeňme si (či uvědomme si), co který symbol znamená. τ (β) je pozitivně semidefinitnı́ matice typu (p × p) a γ(β) ∈ Rp . Z libovolnosti λ pak plyne, že ∂log pn (y, X, β) Tn (y, x) = τ (β) · + γ(β), (24) ∂β kde navı́c τ (β) a γ(β) musı́ být takové, aby IEβ Tn (Y, x) = β a Tn (y, x) nesmı́ samozřejmě záviset na β. Je-li nynı́ · 1 pn (y, X, β) = √ σ 2π máme Tn (y, x) = τ (β) ) ( ¸n Y n i=1 (Yi − xTi β)2 ) , exp(− 2σ 2 o n n X (Yi − xTi β)xi + γ(β), i=1 tj. Tn (y, x) = τ (β) n X Yi xi − τ (β) i=1 n X xi xTi β + γ(β). (25) i=1 Protože Tn (y, x) nesmı́ záviset na β, musı́ poslednı́ dva členy v (25) být konstantnı́ (tj. nezávislé P na β), neboli je třeba, aby γ(β) = τ (β) ni=1 xi xTi β + a, a ∈ Rp . Pak ovšem máme Tn (y, x) = τ (β) n X Yi xi + a i=1 a protože β = IEβ Tn (Y, x) = τ (β) je konečně τ (β) = ³P n T i=1 xi xi ´−1 Pn P IE Yi xi + a = τ (β) ni=1 xi xTi β + a pro libovolné β ∈ Rp , i=1 ³ ´−1 T = X X ³ T Tn (Y, x) = X X a a = 0. Dostali jsme n ´−1 X ³ Yi xi = X T X ´−1 X T Y, i=1 ³ jinými slovy X T X ´−1 X T Y dosahuje dolnı́ Rao-Cramerovy hranice rozptylu. Necht’ nynı́ naopak ³ Tn (Y, x) = X T X ´−1 XT Y (26) je nejlepšı́m nestranným odhadem dosahujı́cı́m dolnı́ Rao-Cramerovu hranici rozptylu. Potom, jak už bylo řečeno výše (viz (24)) Tn (y, x) = τ (β) · ∂log pn (y, X, β) + γ(β). ∂β Připomeňme, že τ (β) je matice typu (p × p) a γ(β) ∈ Rp . Pro jednoduchost předpokládejme, že τ je regulárnı́. Pokud by tomu tak nebylo, museli bychom použı́t pseudoinverze a úvahy by se poněkud zkomplikovaly, nicméně by vedly nakonec ke stejnému závěru. Potom ∂log pn (y, X, β) = [τ (β)]−1 [Tn (y, x) − γ(β)] ∂β a integrovánı́m dostaneme log pn (y, X, β) = κ(β)Tn (y, x) − δ(β) + U (y), 33 (27) kde jsme označili κ(β) vektor z Rp , jehož matice parciálnı́ch derivacı́ je rovna [τ (β)]−1 , δ(β) je funkce jejı́ž parciálnı́ derivace jsou rovny [τ (β)]−1 γ(β) a U (y) je integračnı́ konstanta (konstanta vůči proměnné přes kterou se integrovalo a tou bylo β). Po dosazenı́ z (26) do (27) dostaneme ³ log pn (y, X, β) = κ(β) X T X ´−1 X T y − δ(β) + U (y). Zde snadno nahlédneme, co se stane pokud matice τ (β) nenı́ regulárnı́. Potom κ(β) nenı́ určeno jednoznačně a musı́me provést reparametrizaci regresnı́ch koeficientů. Protože κ(β) ∈ Rp , exisT tuje pro libovolnou regulárnı́ matici A typu (p × p) β̄ tak, že κ(β) = β̄ T A, a zvolı́me-li A = Xσ2X , dostaneme log pn (y, X, β̄) = σ −2 β̄ T X T y + δ̄(β̄) + U (y), kde δ̄(β̄) je funkce odpovı́dajı́cı́ δ(β) po provedenı́ reparametrizace a transformace regresnı́ch koeficientů pomocı́ matice A a změně znaménka. Potom máme pn (y, X, β̄) = exp(σ −2 β̄ T X T y) · exp(δ̄(β̄) + U (y)). Doplněnı́m σ −2 β̄ T X T y na “čtverec” − 2σ1 2 (y − X β̄)T (y − X β̄) nalezneme pn (y, X, β̄) = exp{− 1 (y − X β̄)T (y − X β̄)} · exp(δ̃(β̄) + Ũ (y)), 2σ 2 kde δ̃(β̄) = δ̄(β̄) + 1 T T β̄ X X β̄ 2σ 2 a Ũ (y) = U (y) + 1 T y y. 2σ 2 Nynı́ uplatnı́me okrajové podmı́nky, které v našem přı́padě řı́kajı́, že pro všechna β̄ ∈ Rp a všechny matice X typu (n × p) musı́ platit Z Z ³ pn (y, X, β̄)dµ(y) = 1 a β̄ = XT X ´−1 X T ypn (y, X, β̄)dµ(y). (28) Provedeme transformaci y − X β̄ = z a dostaneme z druhého vztahu v (28) Z ³ β̄ = XT X ´−1 Z X T z p̃n (z, X, β̄)dµ(z) + β̄ p̃n (z, X, β̄)dµ(z). Protože předchozı́ vztah musı́ platit pro všechna β̄ ∈ Rp , máme Z ³ XT X tj. ³ T X X ´−1 ´−1 Z X T z exp{− X T z p̃n (z, X, β̄)dµ(z) = 0, 1 T z z + Ũ (z + X β̄)} · exp{δ̄(β̄)}dµ(z) = 0, 2σ 2 což znovu připomı́náme musı́ platit pro všechna β̄ ∈ Rp , tj. Z z exp{− 1 T z z + Ũ (z + xβ̄)}dµ(z) = 0 2σ 2 34 (29) a tedy Ũ ≡ 0. Protože navı́c pro všechna β̄ musı́ platit i prvnı́ vztah v (28) n p̃n (z, X, β̄) = (2πσ)− 2 exp{− a konečně n pn (y, X, β̄) = (2πσ)− 2 exp{− zT z } 2σ 2 (y − Xβ)T (y − Xβ) }. 2σ 2 2 V dalšı́m odstavci se budeme věnovat odhadu rozptylu reziduı́, tj. odhadu poslednı́ho parametru regresnı́ho modelu, který ještě neumı́me odhadovat. Než však otevřeme tuto kapitolu, připomeňme si ještě jednou, co jsme vlastně dokázali v předchozı́ větě. V některých textech o regresnı́ analýze se totiž výsledek předchozı́ věty interpretuje tak, že normálnı́ rozdělenı́ fluktuacı́ je ekvivalentnı́ s rovnostı́ odhadů metodou nejmenšı́ch čtverců a metodou maximálnı́ věrohodnosti. Toto ovšem nenı́ pravda. Uvažme následujı́cı́ přı́klad. Necht’ Y1 , Y2 , ..., Yn majı́ Poissonovo rozdělenı́ s koeficienty λ1 , λ2 , ..., λn , tj. λk P (Yi = k) = i e−λi i = 1, 2, ..., n k! T 0 a necht’ λi = xi β . (To implicitně předpokládá, že vysvětlovaná veličina nabývá pouze hodnot rovných přirozeným čı́slům. Jak dalece je pak vhodné pro ni uvažovat lineárnı́ regresnı́ model, je samozřejmě věcı́ diskuze. Nechme však tento problém pro tento okamžik stranou, vrátı́me se k němu později, v kapitole věnované právě situaci, kdy vysvětlovaná veličina nabývá diskrétnı́ch hodnot.) Podobně jako výše věrohodnostnı́ funkce má pro obecné β tvar n Y `n (Y, β) = ( i=1 [xTi β]Yi −xT β 0 e i Yi ! ) a jejı́ logaritmus je log`n (Y, β) = n ³ X ´ Yi log(xTi β) − xTi β − log(Yi !) . i=1 Vzhledem k tomu, že výraz Pn i=1 log(Yi !) log`n (Y, β) = je nezávislý na vektoru β, stačı́ maximalizovat n ³ X ´ Yi log(xTi β) − xTi β . i=1 Snadno ověřı́me, že ( n xij ∂log`n (Y, β) X Yi T − xij = ∂βj xi β i=1 ) a tedy normálnı́ rovnice majı́ tvar n X i=1 Yi xij = n X xij XiT β, j = 1, 2, ..., p. i=1 Po přepsánı́ do maticového tvaru dostaneme X T Y = X T Xβ 35 a konečně ³ β̂ (M L,n) = X T X ´−1 X T Y. To znamená, že β̂ (M L,n) = β̂ (LS,n) . Prvnı́, co by nás mohlo napadnout, je to, že podstatné bylo to, že jsme ve Větě 1 předpokládali, že β̂ (LS,n) dosahuje dolnı́ Rao-Cramerovy hranice rozptylu, a že to v tomto přı́kladě nemusı́ platit. Pro jednoduchost předpokládejme, že xTi β 0 = λ, tj. střednı́ hodnota všech veličin Y1 , Y2 , ..., Yn je stejná. To je speciálnı́ přı́pad námi vyšetřované situace. Pokud tedy zjistı́me, že v tomto přı́padě maximálně věrohodný odhad dosahuje dolnı́ Rao-Cramerovy hranice rozptylu, pak naše domněnka, že tento předpoklad, totiž dosaženı́ této hranice, byl podstatný, nebyla na mı́stě. Snadno spočteme, že IE Yi = λ a var(Yi ) = λ pro i = 1, 2, ..., n. Podobně jednoduchý výpočet ukáže, že Fischerova informace je rovna λ−1 . Vzhledem k tomu, že maximálně věrohodným P odhadem parametru λ pro n pozorovánı́ je n−1 ni=1 Yi , je jeho rozptyl roven n−1 λ a dolnı́ Rao-Cramerova hranice rozptylu je pro n pozorovánı́ rovněž n−1 λ. Jinými slovy maximálně věrohodný odhad dosahuje dolnı́ Rao-Cramerovy hranice. Podstatným předpokladem je totiž to, že vysvětlovaná veličina Y je spojitého typu. To umožňuje psát (28) v tom tvaru, v jakém byl tento vztah zapsán, a dokázat, že z (29) plyne Ũ ≡ 0 (srovnej Rao (1978), přı́klad 10.1 v kapitole 5). Podrobnějšı́ diskuzi o ekvivalenci odhadu zı́skaného metodou nejmenšı́ch čtverců a maximálně věrohodného odhadu, a to i v přı́padě, kdy je porušen předpoklad o homoskedasticitě, tj. předpoklad označený jako “2.” v Podmı́nkách A, lze nalézt v práci Charnes et al. (1976), kde jsou zobecněny původnı́ výsledky z práce Bradley (1973). Dalšı́ podrobnosti o regresnı́ch modelech, ve kterých se předpokládá, že náhodné fluktuace a tudı́ž také vysvětlovaná veličina, jsou rozděleny dle Poissonova rozdělenı́ lze zı́skat v práci Frome et al. (1973). 3.2 Odhad rozptylu náhodných fluktuacı́ Dřı́ve než budeme pokračovat ve výkladu, připomeňme, že, jak plyne z výše uvedeného, je Ŷ = X β̂ (LS,n) = X(X T X)−1 X T Y (30) projekcı́ Y do prostoru M(X), tj. do prostoru generovaného sloupci matice plánu. Proto se matice X(X T X)−1 X T často označuje jako projekčnı́ matice . V literatuře se také část mluvı́ o této matici jako o “hat” matici, patrně dle “hat” nad Y . LEMMA 3 Rezidua r(β̂ (n) ) = Y − Ŷ a projekce Ŷ jsou navzájem kolmé a tedy nekorelované. Je-li navı́c rozdělenı́ Ei normálnı́ N (0, σ 2 ) 0 < σ 2 < ∞, pak jsou rezidua r(β̂ (n) ) a projekce Ŷ nezávislé. Konečně pak ³ ´ L(r(β̂ (n) )) = N (0, σ 2 I − X(X T X)−1 X T ) (31) L(Ŷ ) = N (0, σ 2 X(X T X)−1 X T ), (32) a kde “L” značı́ rozdělenı́ té náhodné veličiny, která je uvedena v závorkách (pı́smeno L je od slova Law). 36 Důkaz. Snadno ověřı́me, že (Y − Ŷ )T Ŷ = Y T Ŷ − Ŷ T Ŷ = Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T X(X T X)−1 X T Y = Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T Y = 0, kde jsme využili faktu, že matice X(X T X)−1 X T je symetrická a idempotentnı́. Z (30) dále máme IEβ 0 Ŷ = Xβ 0 a IEβ 0 (Ŷ − Xβ 0 )(Ŷ − Xβ 0 )T = IEβ 0 n X(X T X)−1 X T (Y − Xβ 0 )(Y − Xβ 0 )T X(X T X)−1 X T o = σ 2 X(X T X)−1 X T . Podobně IEβ 0 (Y − Ŷ ) = IEβ 0 (I − X(X T X)−1 X T )Y = (I − X(X T X)−1 X T )Xβ 0 = 0 a jednoduchý obdobný výpočet dá IEβ 0 (Y − Ŷ )(Y − Ŷ )T n o (I − X(X T X)−1 X T )Y − (I − X(X T X)−1 X T )Xβ 0 × = IEβ 0 n × (I − X(X T X)−1 X T )Y − (I − X(X T X)−1 X T )Xβ 0 oT = IEβ 0 (I − X(X T X)−1 X T )(Y − Xβ 0 )(Y − Xβ 0 )T (I − X(X T X)−1 X T ) = σ 2 (I − X(X T X)−1 X T ), kde jsme použili fakt, že (I − X(X T X)−1 X T )X = 0. Protože rezidua r(β̂ (n) ) a projekce Ŷ jsou lineárnı́ transformacı́ Y , jsou samozřejmě také normálně rozdělena a výše uvedené výpočty udávajı́ parametry těchto rozdělenı́. Tı́m je dokázáno (31) a (32). Konečně pak z nekorelovanosti a z normality plyne nezávislost. 2 DŮSLEDEK 1 Za předpokladu Lemmatu 3 je β̂ (LS,n) nezávislý na vektoru reziduı́ r(β̂ (n) ). Důkaz. Vzhledem k tomu, že (X T X)−1 X T X = I, máme dle (30) β̂ (LS,n) = (X T X)−1 X T Y = (X T X)−1 X T X(X T X)−1 X T Y = (X T X)−1 X T Ŷ . 2 Nynı́ vyslovı́me několik tvrzenı́, která budeme potřebovat při vyšetřovánı́ odhadu rozptylu reziduı́. TVRZENÍ 1 Necht’ {Ei }∞ i=1 je posloupnost nezávislých stejně rozdělených náhodných veličin s 2 IE Ei = 0, varEi = σ ∈ (0, ∞), IE |Ei |3 < ∞ a IE Ei4 = σ 4 (γ + 3) (kde poslednı́ vztah vlastně definuje hodnotu γ). Potom pro všechny symetrické matice A máme ( T 2 IE (E AE) = σ 4 γ n X ) a2ii 2 2 + (tr(A)) + 2tr(A ) , i=1 “tr” znamená stopa (trace) a aii je i-tý diagonálnı́ prvek matice A. Navı́c γ ≥ −2. 37 Důkaz. n X n X n X n X IE (E T AE)2 = IE = n X a2ii IE Ei4 + i=1 = σ 4 (γ + 3) n X X Ei aij Ej Ek ak` E` i=1 j=1 k=1 `=1 aii ajj IE Ei2 Ej2 + 2 i=1 j6=i n X n X X a2ij IE Ei2 IE Ej2 i=1 j6=i à a2ii + σ 4 tr(A)tr(A) − i=1 n X ! à a2ii + 2σ 4 tr(A2 ) − i=1 n X ! a2ii . i=1 Konečně pak n o 0 ≤ var (Ei − IE Ei )2 = IE (Ei − IE Ei )4 − IE 2 (Ei − IE Ei )2 = µ4 − σ 4 = σ 4 (γ + 2). © ª Rovnost by nastala pouze tehdy, když by var (Ei − IE Ei )2 = 0, tj. když Ei = 0 s. j., ale to vzhledem k předpokladu σ 2 ∈ (0, ∞) nenı́ možné. 2 TVRZENÍ 2 tr (M1 · M2 ) = tr (M2 · M1 ) . Důkaz. m X n X (1) (2) mkj · mjk = k=1 j=1 n X m X (2) (1) mjk · mkj . j=1 k=1 2 TVRZENÍ 3 Necht’ A je idempotentnı́ matice, tj. A · A = A. Potom rank(A) = tr(A), kde “rank” znamená hodnost. Důkaz.Pro rank(A) = 0 je tvrzenı́ zřejmé. Necht’ rank(A) = r 6= 0, A necht’ je typu (n × n) a B (typu (n × r)) necht’ má za sloupce bázi prostoru M(A), tj. prostoru generovaného sloupci matice A. Nepochybně sloupce matice A jsou lineárnı́mi kombinacemi sloupců matice B, tj. existuje matice C taková, že A = B · C. Potom B T B i CC T jsou regulárnı́, nebot’ obě jsou typu (r × r) a kdyby jejich hodnost byla menšı́ než r, pak by také B (přı́padně C) mělo hodnost menšı́ než r. Toto se snadno nahlédne takto: Pokud B T B nenı́ regulárnı́, pak existuje λ ∈ Rr , λ 6= 0 tak, že B T Bλ = 0. Pak ale také λT B T Bλ = 0, tj. (Bλ)T Bλ = 0. Potom ovšem Bλ = 0 a tedy rank(B) < r a to je spor. Stejně se to ukáže pro C. Pokud by totiž rank(C) byl menšı́ než r, pak by také rank(A) < r. Tento fakt okamžitě plyne z toho, že dimenze prostoru M(A) je stejná jako dimenze M(AT ). Položme D = B(B T B)−1 , E = C T (CC T )−1 . Potom DT B = Ir a CE = Ir . Dále pak máme A = A · A = B · C · B · C = B · C a tedy po znásobenı́ zleva maticı́ DT a zprava E dostaneme DT BCBCE = DT BCE a tedy Ir CBIr = Ir Ir . 38 Konečně pak CB = Ir . Nynı́ tr(A) = tr(BC) = tr(CB) = tr(Ir ) = r, kde jsme využili předchozı́ tvrzenı́ a naznačovali jsme rozměr jednotkové matice. 2 TVRZENÍ 4 Je-li A pozitivně definitnı́ (semidefinitnı́), potom vlastnı́ čı́sla jsou kladná (nezáporná). Důkaz. Připomeňme, že vlastnı́ vektory a vlastnı́ čı́sla jsou zadány rovnostı́ A · q = λq, q 6= 0 a tedy λkqk2 = λq T q = q T Aq > 0 (≥ 0). TVRZENÍ 5 Necht’ A je symetrická matice. Potom vlastnı́ čı́sla jsou reálná a vlastnı́ vektory lze zvolit reálné. Důkaz. Necht’ q je vlastnı́ vektor, r a s necht’ je jeho reálná a imaginárnı́ část. Podobně necht’ λ je vlastnı́ čı́slo přı́slušné ke q, τ a κ necht’ je jeho reálná a imaginárnı́ část. Konečně pak necht’ v tomto důkaze i značı́ imaginárnı́ jednotku. Připomeňme, že z definice vlastnı́ho vektoru plyne, že kqk2 > 0. Potom máme A(r + is) = (τ + iκ)(r + is) a porovnánı́m reálných a imaginárnı́ch části dostaneme Ar = τ r − κs (33) As = τ s + κr. (34) a Po vynásobenı́ zleva vztahu (33) sT a vztahu (34) rT , dostaneme sT Ar = τ sT r − κsT s a rT As = τ rT s + κrT r a odečtenı́m prvnı́ rovnosti od druhé zı́skáme dı́ky symetrii matice A rovnost 0 = κ(rT r + sT s) = κkqk2 , odkud plyne, že κ = 0, nebot’ kqk2 > 0. Pokud vektory r a s řešı́ vztahy (33) a (34), pak je řešı́ také r a 0. 2 TVRZENÍ 6 Necht’ matice A je typu (n × n). Potom pro libovolný vektor Z ∈ Rn , existuje vlastnı́ vektor q ∈ M(Z, AZ, A2 Z, . . .). 39 n o Důkaz. Položme k0 = min k : Ak Z + bk−1 Ak−1 Z + . . . + b0 Z = 0, b ∈ Rk , kde b = (b0 , b1 , . . . , bk−1 )T . Nepochybně množina na nı́ž je hledáno minimum je neprázdná, nebot’ vektory Z, AZ, A2 Z, A3 Z, . . . mohou obsahovat nejvýše n nezávislých. Odtud k0 ≤ n. Dále ukážeme, že lze psát Ak0 Z + bk0 −1 Ak0 −1 Z + . . . + b0 Z = (A − µ1 I)(A − µ2 I) · . . . · (A − µk0 I)Z (35) pro libovolný vektor Z ∈ Rn . Aby to opravdu šlo, je třeba ukázat, že existujı́ µ1 , µ2 , . . . , µk0 (obecně komplexnı́ čı́sla) tak, že platı́ následujı́cı́ vztahy, které dostaneme roznásobenı́m pravé strany (35) a porovnánı́m koeficientů u stejných mocnin matice A, µ1 + µ2 + . . . + µk0 = bk0 −1 , k0 X X µi µj = bk0 −2 , i=1 j6=i k0 X X X µi µj µ` = bk0 −3 i=1 j6=i `6=i,`6=j atd. až µ1 · µ2 · . . . · µk0 = b0 . To, že takováto soustava rovnic má řešenı́ µ1 , µ2 , . . . , µk0 plyne okamžitě z faktu, že stejná soustava vznikne, roznásobı́me-li pravou stranu rovnosti tk0 + bk0 −1 tk0 −1 + . . . + b0 = (t − µ1 )(t − µ2 ) · . . . · (t − µk0 ) a porovnáme koeficienty na pravé a levé straně. Na druhé straně, to že pravá strana této rovnosti je rozkladem levé, plyne ze známé věty o počtu kořenů polynomu. Tento počet je vždy roven stupni polynomu a kořeny mohou být komplexnı́. Potom ovšem q = (A − µ2 I)(A − µ3 I) · . . . · (A − µk0 I)Z 6= 0, (36) nebot’ jinak by k0 nebylo minimem. Pak máme (A − µ1 I)q = 0 a tedy Aq = µ1 q, a nepochybně q ∈ M(Z, AZ, A2 Z, . . .). 2 Povšimněme si, že vektor q je ovšem obecně komplexnı́. TVRZENÍ 7 (Spektrálnı́ rozklad matice.) Necht’ A je reálná symetrická matice typu (m × m). Potom existuje ortogonálnı́ reálná matice Q taková,že QT AQ = Λ = diag {λ1 , λ2 , . . . , λm } , kde λ1 , λ2 , . . . , λm jsou vlastnı́ čı́sla matice A, diag {λ1 , λ2 , . . . , λm } značı́ diagonálnı́ matici typu m × m s prvky λ1 , λ2 , . . . , λm na diagonále a QT Q = Im . Potom také QQT = Im , a konečně A = QΛQT . 40 Důkaz. Předpokládejme, že jsme již našli s ortogonálnı́ch vlastnı́ch vektorů matice A, tj. qiT qj = δij pro 1 ≤ i, j ≤ s. Pokud s < m, necht’ Z⊥M(q1 , q2 , . . . , qs ). Pro libovolné r ∈ N dále máme Z T Ar qi = Z T Ar−1 λi qi = Z T λri qi = 0 pro 1 ≤ i ≤ s. Tedy M(Z, AZ, A2 Z, . . .)⊥M(q1 , q2 , . . . , qs ). Dle Tvrzenı́ 6 existuje qs+1 ∈ M(Z, ZA, ZA2 , . . .), tj. existuje dalšı́ vlastnı́ vektor, který je ortogonálnı́ k q1 , q2 , . . . , qs . Existuje tedy ortogonálnı́ matice Q, tj. QT Q = Im , tak, že AQ = QΛ, kde Λ je diagonálnı́ matice vlastnı́ch čı́sel. Tedy QT AQ = Λ. Pak ovšem i QQT = Im , nebot’ pro regulárnı́ matici je levá a pravá inverze totožná, a tedy A = QΛQT . Nynı́ ukážeme, že Q může být zvolena reálná. Necht’ do konce důkazu značı́ i opět imaginárnı́ jednotku. Z předchozı́ho tvrzenı́ vı́me, že vlastnı́ čı́sla symetrické matice jsou reálná a vlastnı́ vektory lze zvolit reálné. Pokud tedy matice A je navı́c symetrická, dostali jsme při hledánı́ prvnı́ho vlastnı́ho vektoru nějaké reálné vlastnı́ čı́slo λ1 a tento vektor, řekněme q1 jsme zvolili reálný. Po nalezenı́ vlastnı́ho vektoru q2 kolmého ke q1 výše naznačenou indukcı́ dostaneme obecně komplexnı́ vlastnı́ vektor q2 s vlastnı́m čı́slem λ2 , které je reálné. Označme reálnou (R) (I) složku vektoru q2 symbolem q2 a imaginárnı́ složkou q2 a dostaneme (R) q1T (q2 (R) Odtud q1T q2 (I) (R) + iq2 ) = q1T q2 (I) + iq1T q2 = 0. = 0. Navı́c faktu, že λ2 je reálné plyne, že rovněž (R) Aq2 (R) = λ2 q2 , tj. q2 lze zvolit reálné. Indukcı́ se důkaz uzavře. 2 Povšimněme si, že pro důkaz toho, že v předchozı́m tvrzenı́ lze pro symetrickou matici zvolit přı́slušné vlastnı́ vektory reálné, nelze použı́t Tvrzenı́ 5 přı́mo, nebot’ pak nenı́ zřejmé, zda zůstane zachována jejich vzájemná ortogonalita. POZNÁMKA 1 Všimněme si, že A= m X λi qi qiT . i=1 Tomuto se řı́ká spektrálnı́ rozklad matice A. DŮSLEDEK 2 Snadno nahlédneme, že √ √ A = (Q Λ)D(Q Λ)T , np o √ p p Λ = diag |λ1 |, |λ2 |, . . . , |λn | a kde D je diagonálnı́ matice s prvky 1,-1, nebo 0 p √ na diagonále, tj. A = Q̃DQ̃T . Pokud A je (semi)pozitivnı́, pak samozřejmě |λi | = λi pro všechna i a D nepotřebujeme, tj. A lze psát jako QQT , kde ovšem v přı́padě, že matice A je semipozitivnı́ a nenı́ regulárnı́, matice Q má hodnost menšı́ než n. kde 41 Důkaz je v podstatě zřejmý. Stačı́ si uvědomit, že diagonálnı́ matici mohu psát jako součin třı́ diagonálnı́ch, z nichž jedna “zajišt’uje” znaménka, a dalšı́ dvě majı́ na diagonále odmocniny absolutnı́ch hodnot diagonálnı́ch prvků původnı́ diagonálnı́ matice. Všimněme si, že dokonce zmı́něné matice mohou být násobeny v libovolném pořadı́. POZNÁMKA 2 Podle Tvrzenı́ 1 je γ = τ − 3, kde τ je špičatost τ= µ4 , σ4 a kde µ4 je čtvrtý centrálnı́ model a σ 4 je (samozřejmě) druhá mocnina rozptylu. Někdy se za špičatost bere hodnota γ; potom je tato nulová pro standardnı́ normálnı́ rozdělenı́. 2 reziduálnı́ součet čtverců, tj. LEMMA 4 Označme SR 2 SR h = r(β̂ (LS,n) iT ) r(β̂ (LS,n) )= n X (Yi − xTi β̂ (LS,n) )2 i=1 2 . Předpokládejme dále, že σ 2 ∈ (0, ∞). Pokud špičatost γ = 0 nebo a položme s2 = (n − p)−1 SR diagonálnı́ prvky projekčnı́ matice X(X T X)−1 X T jsou konstantnı́, je s2 nejlepšı́m nestranným odhadem rozptylu reziduı́ σ 2 mezi všemi nestrannými kvadratickými odhady. Důkaz. Pišme h iT IE s2 = (n − p)−1 IE r(β̂ (LS,n) ) µ h r(β̂ (LS,n) ) = IE (n − p)−1 tr iT ¶ = (n − p)−1 IE tr r(β̂ (LS,n) ) r(β̂ (LS,n) ) µ µh iT (β̂ (LS,n) ) h ¶ r(β̂ (LS,n) ) iT ¶ = (n − p)−1 tr IE r(β̂ (LS,n) ) r(β̂ (LS,n) ) ³ ´ = (n − p)−1 tr var(r(β̂ (LS,n) )) , kde var(r(β̂ (LS,n) )) je kovariančnı́ matice vektoru reziduı́ r(β̂ (LS,n) ) a poslednı́ rovnost platı́ dı́ky tomu, že IE r(β̂ (LS,n) ) = IE (Y − X β̂ (LS,n) ) = 0, nebot’ β̂ (LS,n) je nestranným odhadem β 0 . Protože var(r(β̂ (LS,n) )) = σ 2 (I − X(X T X)−1 X T ) (viz Lemma 3), potřebujeme nalézt tr(I − X(X T X)−1 X T ). Vzhledem k tomu, že projekčnı́ matice X(X T X)−1 X T má hodnost p a je idempotentnı́ je tr(X(X T X)−1 X T ) = p a tedy tr(I − X(X T X)−1 X T ) = n − p (viz Tvrzenı́ 3). Tı́m je ukázána nestrannost. To ovšem také znamená, 2 je nestranným odhadem (n − p)σ 2 . že (n − p)s2 = SR Nynı́ hledejme jiný nestranný kvadratický odhad veličiny (n−p)σ 2 , tj. odhad ve tvaru Y T AY , 2 má také kde A je některá pozitivně semidefinitnı́, tj. také symetrická matice. Připomeňme, že SR 2 = Y T (I − X(X T X)−1 X T )Y , tento tvar, nebot’ r(β̂ (LS,n) ) = (I − X(X T X)−1 X T )Y a tedy SR kde matice I − X(X T X)−1 X T je idempotentnı́ a tedy pozitivně semidefinitnı́. Poznamenejme ještě, že jsme se omezili na pozitivně semidefinitnı́ matice, abychom pro libovolné Y ∈ Rn měli Y T AY ≥ 0, nebot’ jinak by to byl poněkud podivný odhad σ 2 . Z požadavku nestrannosti plyne, že h i ³ h i´ (n − p)σ 2 = IEβ 0 Y T AY = IE tr(AY Y T ) = tr AIE Y Y T 42 h i = tr A(Xβ 0 [β 0 ]T X T + σ 2 I) = [β 0 ]T X T AXβ 0 + σ 2 tr(A), (37) nebot’ i h h IE Y Y T = IE (Xβ 0 + E)(Xβ 0 + E)T = IE Xβ 0 [β 0 ]T X + EXβ 0 + Xβ 0 E T + EE T i = Xβ 0 [β 0 ]T X + σ 2 I. Protože výsledek ve vztahu (37) nesmı́ záviset na hodnotě β 0 (které neznáme), je nutně X T AX = 0 a tr(A) = n − p. Protože matice A je pozitivně semidefinitnı́, je možné ji psát jako QQT . Pak ovšem X T QQT X = 0 a tedy také QT X = 0 a konečně QQT X = 0, tj. AX = 0. To však okamžitě implikuje Y T AY = (Xβ 0 + E)T A(Xβ 0 + E) = E T AE. Nynı́ n o var Y T AY " =σ 4 γ n o = var E T AE = IE (E T AE)2 − IE 2 (E T AE) n X # a2ii 2 + (tr(A)) + 2tr(A ) − σ 4 (n − p)2 i=1 " = σ4 γ n X 2 # a2ii + 2tr(A2 ) , (38) i=1 kde aii , i = 1, 2, . . . , n jsou diagonálnı́ prvky matice A. Označme M = I − X(X T X)−1 X T a pišme A = M + D. Pak tr(D) = 0 (39) a protože M X = 0, je rovněž DX = 0 a samozřejmě D = DT . Odtud h i M D = I − X(X T X)−1 X T D = D. Dále A2 = (M + D)(M + D) = M + M D + DM + D2 = M + 2D + D2 , tj. tr(A2 ) = n−p+2tr(D)+tr(D2 ) = n−p+tr(D2 ), nebot’ tr(D) = 0. Budeme-li nynı́ pokračovat v (38), dostaneme ( T var(Y AY ) = σ 4 γ n h X m2ii 2 ) i + 2mii dii + dii 2 + 2(n − p) + 2tr(D ) i=1 ( =σ 4 γ n X ) m2ii + 2(n − p) + σ 4 c, (40) i=1 kde opět mii a dii , i = 1, 2, . . . , n jsou diagonálnı́ prvky matic M a D. Prvnı́ člen v (40) představuje var(Y T M Y ) a je nezávislý na volbě matice D. Konečně pak c=γ n n X o d2ii + 2mii dii + 2tr(D2 ). i=1 Stačı́ tedy zkoumat to, jaká volba matice D vede k minimu v (40). 43 Pokud γ = 0 (což nastane např. jsou-li rezidua normálně rozdělena) nastane minimum pokud tr(D2 ) = 0. Protože však n D P 2 o k` = n X dkj dj` , j=1 P plyne z tr(D2 ) = nk=1 nj=1 d2kj = 0 také D = 0. Pokud je mii = const = m (a tedy m = n−p n ), je c=γ ( n X i=1 d2ii (n − p)tr(D) +2 n ) +2 n X n X d2ij , i=1 j=1 kde ovšem tr(D) = 0 (viz (39)) a tedy c = (γ + 2) n X d2ii + 4 i=1 n X n X d2ij . i=1 j=i+1 Protože γ ≥ −2 je prvnı́ i druhý člen pravé strany poslednı́ho výrazu nezáporný a tedy minimum nastane opět pro D = 0. Pak ovšem A = M . 2 Dřı́ve než postoupı́me k výkladu otevı́rajı́cı́mu cestu k interpretaci a základnı́ diagnostice výsledků regresnı́ analýzy, shrňme některá fakta, se kterými jsme se již seznámili. Na začátku této kapitoly jsme uvedli Podmı́nky A, při platnosti kterých je odhad metodou nejmenšı́ch čtverců nejlepšı́m nestranným lineárnı́m odhadem, tj. tento odhad má nejmenšı́ rozptyl mezi všemi lineárnı́mi odhady. Ukázali jsme však také, že omezenı́ se na lineárnı́ odhady je drastické. Nechceme-li se tedy omezit na třı́du lineárnı́ch odhadů a chceme-li, aby náš odhad, tj. odhad metodou nejmenšı́ch čtverců byl akceptovatelný i v rámci třı́dy všech nestranných odhadů, musı́me jej použı́vat jen v přı́padech, kdy náhodné fluktuace v modelu jsou rozděleny normálně. Budeme tedy i normalitu disturbancı́ považovat za jeden ze základnı́ch předpokladů regresnı́ analýzy prováděné metodou nejmenšı́ch čtverců. Jak jsme se již zmı́nili v úvodu, v přı́padě, kdy vysvětlujı́cı́ proměnné jsou náhodné veličiny, může statistická závislost mezi nimi a fluktuacemi způsobit, že odhad metodou nejmenšı́ch čtverců bude vychýlený a nekonsistentnı́. Pokud budeme tedy realizovat regresnı́ analýzu v situaci, kdy je adekvátnějšı́ považovat vysvětlujı́cı́ proměnné za náhodné veličiny než za deterministicky dané vektory, měli bychom k základnı́m předpokladům regresnı́ analýzy dodat předpoklad o statistické nezávislosti vysvětlujı́cı́ch proměnných a náhodných fluktuacı́. A diagnostikovat jeho splněnı́. 4 4.1 DIAGNOSTIKA ODHADU REGRESNÍHO MODELU Rozdělenı́ kvadratických forem Kvadratickou formou se rozumı́ QF : Rn → R, která má tvar QF (t) = tT At, kde A je některá symetrická matice typu (n × n) a t ∈ Rn (pro některé n ∈ N ). LEMMA 5 Každou kvadratickou formu lze převést na kvadratickou formu obsahujı́cı́ jen čtverce proměnných. 44 POZNÁMKA 3 Uvedené lemma přirozeně neřı́ká, že obecně lze kvadratickou formu transformavat tak, aby byla součtem čtverců původnı́ch proměnných, naopak transformovaná kvadratická forma bude obsahovat proměnné v jiné souřadné soustavě. Důkaz (Lemmatu 5). Z Důsledeku 2 okamžitě plyne, že QF (t) = tT At = tT QDQT t, kde diagonálnı́ matice D má na diagonále jedničky, minus jedničky nebo nuly. Přirozeně počet nenulových diagonálnı́ch prvků je roven hodnosti matice A. Navı́c Tvrzenı́ 7 a Důsledek 2 napovı́dajı́, že matice Q byla zkonstruována z vlastnı́ch vektorů matice A, tj. Q = q1 , q2 , . . . , q` , 0, . . . , 0), kde ` je hodnost matice A. Definujme nové proměnné vztahem z = QT t. Potom T 2 T 2 T 2 QF (z) = z T Dz = + − (q1 t) + − (q2 t) + − ... + − (q` t) . 2 LEMMA 6 (Fisher-Cochran) Necht’ t(ω) ∈ Rn a L(ti ) = N (µi , 1) i = 1, 2, . . . , n. Dále necht’ QFi (t) = tT (ω)Ai t(ω), i = 1, 2, . . . , k, rank(Ai ) = ni . Označme ještě µ = (µ1 , µ2 , . . . , µn )T , a necht’ tT (ω)t(ω) = QF1 (t) + QF2 (t) + . . . + QFk (t). (41) Potom QFi (t) jsou navzájem nezávislé a L(QFi (t)) = χ2 (ni , κi ) s κi = µT Ai µ, právě když Pk Pn Pk 2 i=1 ni = n. Potom navı́c i=1 µi = j=1 κj . Důkaz. Aplikujeme-li předchozı́ lemma dostaneme T 2 T 2 T 2 QFi = + − (q(i)1 t) + − (q(i)2 t) + − ... + − (q(i)ni t) , kde Ai = Q(i) D(i) QT(i) s n o n Q(i) = q(i)1 , q(i)2 , . . . , q(i)ni a o D(i) = diag d(i)1 , d(i)2 , . . . , d(i)ni , 0, . . . , 0 , kde “diag” bylo opět použito pro diagonálnı́ matici, která má na diagonále prvky, které jsou vyjmenované v závorce. V našem přı́padě to jsou d(i)j = + − 1. Dı́ky tomu, že předpokládáme, T t) = N (ν , τ 2 ) pro některá ν a τ 2 . Nynı́ budeme že vektor t je normálně rozdělen, máme L(q(i)j ij ij ij ij P předpokládat, že ki=1 ni = n a ukážeme, že kvadratické formy jsou nezávislé a majı́ přı́slušná χ2 rozdělenı́. Označme Q = (q(1)1 , q(1)2 , . . . , q(1)n1 , q(2)1 , . . . , q(2)n2 , . . . , q(k)1 , . . . , q(k)nk ) a n D = diag o + − 1, + − 1, . . . , + − 1 , kde byla znaménka přirozeně vybrána tak, aby to odpovı́dalo “polaritě” diagonálnı́ch prvků v maticı́ch D(1) , D(2) , . . . , D(k) , tj. znaménkům vlastnı́ch čı́sel odpovı́dajı́cı́ch vlastnı́ch vektorů. Potom máme tT t = k X tT Q(i) D(i) QT(i) t = tT QDQT t. i=1 45 (42) Vztah (42) musı́ přirozeně platit pro všechna t ∈ Rn , nebot’ normálně rozdělená náhodná veličina může nabývat libovolné hodnoty. To implikuje In = QDQT a také rank(Q) = n, tj. Q je regulárnı́. Rozpomeneme-li se, že regulárnı́ matice má stejnou pravou a levou inverznı́ matici, £ ¤T ¡ ¢T ¡ ¢T dostáváme I = Q · Q−1 = Q−1 · QT a to řı́ká, že Q−1 je inverznı́ maticı́ ke QT , tj. (QT )−1 = (Q−1 )T . Konečně tedy D = Q−1 In (Q−1 )T . Z toho plyne, že D je pozitivně definitnı́ a konečně D = In . To však implikuje, že In = QQT a tedy Q je orthogonálnı́ a pak také QT Q = In . Proved’me transformaci náhodných veličin z(ω) = QT t(ω) a využijme předpokladu L(ti ) = N (µi , 1). Z orthogonality matice Q a normality t okamžitě zjistı́me, že z(ω) má nezávislé souřadnice a L(z) = N (QT µ, I). Necht’ j, 1 ≤ j ≤ k je libovolné. Snadno nahlédneme, že T T T QFj (t) = (q(j)1 t)2 + (q(j)2 t)2 + . . . + (q(j)n t)2 = Σ(j) zl2 , j (43) kde z kontextu je patrné, přes které vybrané souřadnice vektoru z se sčı́tá v poslednı́ sumě. Snadno se rovněž ověřı́,a patrně je to vidět na prvnı́ pohled, že pro kvadratické formy QFj (t) a QFk (t) pro j 6= k, jsou souřadnice vstupujı́cı́ do sum Σ(j) zl2 a Σ(k) zl2 různé. To ovšem implikuje nezávislost těchto kvadratických forem. Konečně pak ze vztahu z (43) plyne, že L(QFj (t)) = χ2 (nj , κj ), kde κj = nj X T (q(j)` µ)2 = µT Q(j) D(j) QT(j) = µT A(j) µ `=1 a tedy k X j=1 κj = nj k X X T (q(j)` µ)2 = µT QQT µ = µT Iµ. j=1 `=1 Dokazujme nynı́ tvrzenı́ opačným směrem, tj. předpokládejme, že QF(j) (t), 1 ≤ j ≤ k jsou P P nezávislé a majı́ χ2 (nj , κj ) rozdělenı́. Potom ovšem má jejich součet χ2 ( kj=1 nj , kj=1 κj ) . Vzhledem k tomu, že na levé straně (41) stojı́ tT (ω)t(ω), má při předpokladech tohoto lemmatu P χ2 (n, κ) a tedy kj=1 nj = n. 2 4.2 Rozdělenı́ odhadu rozptylu náhodných fluktuacı́ a studentizovaných odhadů regresnı́ch koeficientů LEMMA 7 Necht’ {Ei }∞ i=1 je posloupnost nezávislých normálně rozdělených náhodných veličin 2 · σ −2 ) = χ2 (n − p). s IE Ei = 0, IE Ei2 = σ 2 ∈ (0, ∞). Potom L(SR Důkaz. Předpokládaná normalita fluktuacı́ implikuje normalitu vysvětlované veličiny, tj. L(Y ) = N (Xβ 0 , σ 2 I). Snadno se ověřı́ rovnost n σ −2 Y T Y = σ −2 (Y − Ŷ + Ŷ )T (Y − Ŷ + Ŷ ) = σ −2 (Y − Ŷ )T (Y − Ŷ ) + Ŷ T Ŷ n = σ −2 Y T (I − X(X T X)−1 X T )Y + Y T X(X T X)−1 X T Y o o 2. kde prvnı́ člen druhého řádku reprezentuje Y T (I − X(X T X)−1 X T )Y = (Y − Ŷ )T (Y − Ŷ ) = SR Položme A1 = I − X(X T X)−1 X T a A2 = X(X T X)−1 X T a ověřme, že rank(A1 ) = n − p 46 a rank(A2 ) = p. Argumenty pro toto tvrzenı́ jsou následujı́cı́: Obě matice jsou projekčnı́ a tedy idempotentnı́, A2 má evidentně hodnost p, nebot’ jsme předpokládali plnou hodnost u matice plánu X; pak je ovšem trace(A2 ) = p a tedy A1 má stopu rovnou n − p; konečně pak rank(A1 ) = n − p. Aplikace Fisher-Cochranova lemmatu na kvadratické formy zadané maticemi 2 σ −2 je rozdělen dle χ2 (n − p) a A1 a A2 pak dává tento výsledek: Reziduálnı́ součet čtverců SR je nezávislý na kvadratické formě σ −2 Ŷ T Ŷ . 2 VĚTA 2 Necht’ {Ei }∞ i=1 je opět posloupnost nezávislých normálně rozdělených náhodných veličin s IE Ei = 0 a var(Ei ) = σ 2 ∈ 0, ∞). Potom L(β̂ (LS,n) − β 0 ) = N (0, σ 2 (X T X)−1 ). Položme −1 ³ (LS,n) t̂i (ω) = s−1 cii 2 β̂i ´ (ω) − βi0 , i h kde cii = (X T X)−1 volnosti). ii . Potom L(t̂i ) = tn−p (tj. t̂i je rozděleno jako Studentovo t o n−p stupnı́ch Důkaz. Použijeme-li základnı́ vztah zadávajı́cı́ lineárnı́ model (viz (1)) a dosadı́me-li jej do “vzorce” pro odhad metodou nejmenšı́ch čtverců, dostaneme β̂ (LS,n) = (X T X)−1 X T Y = (X T X)−1 X T (Xβ 0 + E) = β 0 + (X T X)−1 X T E, tj. β̂ (LS,n) − β 0 = (X T X)−1 X T E, a tedy L(β̂ (LS,n) − β 0 ) = N (0, Σ), kde ³ Σ = IE ½h = IE T −1 (X X) = (X T X)−1 X T IE µ To znamená, že L −1 (X X) ½h = IE T β̂ (LS,n) − β 0 ) −1 σ −1 cii 2 T X Y −β T 0 0 ´³ ih ih X (Y − Xβ ) − βi0 ´¶ −1 T −1 (X X) (Y − Xβ 0 )(Y − Xβ 0 )T (LS,n) β̂i T (X X) n ³ ´T β̂ (LS,n) − β 0 ) oh T X Y −β 0 T iT ¾ 0 iT ¾ X (Y − Xβ ) (X T X)−1 X T iT = σ 2 (X T X)−1 . = N (0, 1). Důsledek 1 řı́ká, že β̂ (LS,n) nezávislý na reziduı́ch r(β̂ (n) ) = Y − Ŷ . Uvážı́me-li, že reziduálnı́ součet čtverců je naopak čtvercem normy h iT 2 = r(β̂ (n) ) 2 jsou nezávislé. Navı́c dle vektoru reziduı́, tj. SR r(β̂ (n) ), zjistı́me, že β̂ (LS,n) a SR 2 ) = χ2 (n − p). Dokončenı́ důkazu plyne okamžitě z definice Studentova Lemmatu 7 je L(σ −2 SR t rozdělenı́ o n − p stupnı́ch volnosti, které může být symbolicky zapsáno jako N (0, 1) [(n − p)−1 χ2 (n 1 − p)]− 2 . 2 Poznamenejme, že v právě dokázané větě jsme mohli, dı́ky předpokladu o normalitě náhodných fluktuacı́, vyslovit tvrzenı́ o rozdělenı́ rozdı́lu β̂ (LS,n) −β 0 bez jakékoliv normalizace (na rozdı́l od tvrzenı́ z Lemmatu 2). To přirozeně neznamená, že by rozdı́l β̂ (LS,n) −β 0 při splněnı́ předpokladů předchozı́ věty nekonvergoval k 0 ∈ Rp , tj. nebyl konsistentnı́. Naopak odtud plyne, že kovariančnı́ matice odhadu β̂ (LS,n) konverguje k nulové matici. 47 DŮSLEDEK 3 Za předpokladů předchozı́ věty má náhodná veličina ³ ´T ³ β̂ (LS,n) − β 0 ) ´ X T X β̂ (LS,n) − β 0 ) n − p 2 p SR (44) Fisher-Snedecorovo rozdělenı́ Fp,n−p . Důkaz. Použitı́m Tvrzenı́ 7 nalezneme orthogonálnı́ matici L a diagonálnı́ matici D tak, že D = LT (X T X)−1 L, a vı́me, že na diagonále matice D stojı́ vlastnı́ čı́sla matice (X T X)−1 . Orthogonalita matice L umožňuje přepsat tento vztah do tvaru LD−1 LT = X T X. (45) Pozitivnı́ definitnost matice (X T X)−1 implikuje navı́c to, že jsou všechna jejı́ čı́sla kladná. Necht’ tedy matice D̃ je diagonálnı́ matice, která má na diagonále převrácené hodnoty odmocnin z těchto čı́sel (v pořadı́ odpovı́dajı́cı́m matici D, přirozeně). Pak ovšem D̃T LT (X T X)−1 LD̃ = Ip . ³ ´ Označme H = LD̃ a položme ξ = H T β̂ (LS,n) − β 0 ) . Je zřejmé, že střednı́ hodnota vektoru ξ je nulová a úpravou výše uvedených vztahů dostaneme ³ Σξ = IE ξξ T = IE H T β̂ (LS,n) − β 0 ´³ β̂ (LS,n) − β 0 ´T H σ 2 H T (X T X)−1 H = σ 2 Ip . To ovšem napovı́dá, že souřadnice vektoru σ −1 ξ jsou nekorelované a každá je rozdělena dle N (0, 1). To pak implikuje, že náhodná veličina σ −2 ξ T ξ je rozdělena dle χ2 (p) a navı́c, jak bylo 2 , přičemž rovněž z důkazu předchozı́ např. ukázáno v důkaze předchozı́ věty, je nezávislá na SR 2 ) = χ2 (n − p). Pokud se nám podařı́ ukázat, že věty vı́me, že L(σ −2 SR ³ σ −2 ξ T ξ = β̂ (LS,n) − β 0 ´T ³ ´ (X T X) β̂ (LS,n) − β 0 , bude důkaz téměř dokončen. Provedeme to s použitı́m (45). ³ σ −2 ξ T ξ = σ −2 β̂ (LS,n) − β 0 ³ = σ −2 β̂ (LS,n) − β 0 ³ = β̂ (LS,n) − β 0 ³ = β̂ (LS,n) − β 0 ³ ´T ´T ³ HH T β̂ (LS,n) − β 0 ³ H · Ip · H T β̂ (LS,n) − β 0 ´ ´ ³ H · H T (X T X)−1 H · H T β̂ (LS,n) − β 0 ³ ´ LD̃D̃T LT (X T X)−1 LD̃D̃T LT β̂ (LS,n) − β 0 = β̂ (LS,n) − β 0 ³ ´T ´T ´T ³ LD−1 DD−1 LT β̂ (LS,n) − β 0 = β̂ (LS,n) − β 0 ´T ³ ´ ´ ´ (X T X) β̂ (LS,n) − β 0 . K úplnému dokončenı́ důkazu stačı́ připomenout definici Fisher-Snedecorova Fp,n−p , která může být symbolicky vyjádřena takto χ2 (p) (n − p) . χ2 (n − p) p 2 48 4.3 Koeficient determinace Po té, co odhadneme některý regresnı́ model, je třeba posoudit, zda tento je či nenı́ “statisticky relevantnı́” pro vysvětlenı́ dat. Výše uvedená teorie nám umožňuje, sice za dosti silného předpokladu normality disturbancı́, nicméně umožňuje, otestovat signifikantnost jednotlivých koeficientů modelu. A až budeme mluvit o výstupech z přı́slušných softwarových produktů připomeneme si tuto možnost. Na druhé straně bychom rádi posoudili odhad modelu jako celek. Patrně nenı́ sporu o tom, že hlavnı́ informacı́ o tom, zda model byl navržen rozumně v sobě nesou rezidua. Budeme předpokládat, přičemž nechme na okamžik stranou jak dalece je to realistické, že jsou tato rozdělena normálně. Připomeňme si ze základnı́ho kurzu statistiky, že součet čtverců nezávislých stejně normálně rozdělených náhodných veličin je jednou ze (dvou) složek postačujı́cı́ statistiky. To je důvod, proč je jedna z nejjednoduššı́ch charakteristik “adekvátnosti” modelu, totiž koeficient determinace, založen na součtu čtverců reziduı́. Později ukážeme, že jeho role by neměla být přeceňována. Podobně jako jiné statistické testy, i tento hypotézu o adekvátnosti modelu “pouze” nezamı́tá, tj. pokud je hodnota koeficientu determinace vysoká (a projde-li přı́slušným testem) řı́ká to, že daný model nelze zamı́tnout, ale je to ještě daleko závěru, že model je rozumný. Abychom nabyli alespoň rozumného stupně vı́ry v to, že náš odhad modelu je přijatelný, je nezbytné přinejmenšı́m provést řadu dalšı́ch testů a aposteriornı́ch diagnostických úkonů. Ani pak však bez použitı́ cele škály robustnı́ch procedůr nemůžeme zaručit, že nelze nalézt, v jakémsi smyslu - např. ve smyslu velikosti součtu čtverců reziduı́ “většiny” pozorovánı́, (mnohem) lepšı́ model. DEFINICE 1 Necht’ model obsahuje absolutnı́ člen. Pak položme R02 = P Ȳ = n−1 ni=1 Yi . Koeficientem determinace rozumı́me R2 = 2 R02 − SR . R02 Pokud model neobsahuje absolutnı́ člen, položme R02 = opět rozumı́me (46). Pn i=1 (Yi − Ȳ )2 , kde (46) Pn 2 i=1 Yi . Koeficientem determinace pak Heuristika stojı́cı́ v podazı́ definice koeficientu determinace je zřejmá a velmi přı́močará. Pokud je totiž náš model “adekvátnı́” (“relevantnı́”, “rozumný” atd. jak sami chcete) pro vysvětlenı́ dat, je reziduálnı́ součet čtverců malý v porovnánı́ s R02 a tedy hodnota koeficientu determinace je blı́zká k 1. Jestliže tedy náš model dobře “vystihne” variabilitu vysvětlované proměnné, tj. rezidua budou mı́t jen malou variabilitu, je koeficient determinace vysoký. V opačném přı́padě, je-li model “neadekvátnı́”, bude reziduálnı́ součet čtverců srovnatelný s R02 a koeficient determinace bude blı́zko k nule. Nenechme se však mýlit, že lze jednotně, tj. pro různé oblasti použitı́ regresnı́ho modelu udat, co to znamená, že je koeficient determinace dostatečně velký. Často se uvádı́, že technické či přı́rodovědné modely či obecněji modely v exaktnı́ch vědách, by měly mı́t R2 > 0.6. V humanitnı́ch oborech jsou však často akceptovány i modely s R2 = 0.2. V ekonomické literatuře, tj. v oboru který ležı́ někde mezi “exaktnı́mi” a humanitnı́mi, naleznete např. výrok: “William F. Sharpe [1985, p. 167] notes that for an individual company a typical R2 measure from a Capital Asset Pricing Model equation is about 0.3 but that as one diversifies across companies” assets into a larger portfolio, the R2 measure increases, owing to the reduction of specific risk through diversification” (viz Berndt (1990), p. 40). 49 Zamysleme se nad touto situaci ještě při trochu jiném úhlu pohledu. R2 totiž představuje (mnohonásobný) korelačnı́ koeficient mezi vysvětlovanou a vysvětlujı́cı́mi proměnnými; nejlépe je to vidět při jednoduché regresi, viz např. Anděl (1978). Ani mezi statistiky však nenı́ obecně známo, že pokud pro dvourozměrnou normálně rozdělenou náhodnou veličinu budeme kreslit množinu bodů, ve kterých je sdružená hustota rovna některému pevně zvolenému čı́slu, dostaneme elipsu výrazněji se lišı́cı́ od kružnice až právě pro hodnoty ρ = 0.6 či 0.7. To napovı́dá, že vazba mezi vysvětlovanou a vysvětlujı́cı́mi proměnnými je dosti slabá, je-li R2 < 0.6. Naznačená heuristika rovněž napovı́dá, proč je koeficient determinace počı́tán jednou tak, že porovnáváme naš model s modelem Yi = Ȳ + Ei , i = 1, 2, . . . , n a podruhé porovnáváme odhadnutý model s modelem Yi = Ei , i = 1, 2, . . . , n (viz rovněž Lemma 8). V dalšı́m textu budeme uvažovat model s absolutnı́m členem, pro model bez absolutnı́ho členu by se uváděná tvrzenı́ snadno modifikovala. Upozorněme snad ještě na “záludnost”, která vzniká tı́m, že některé počı́tačové statistické knihovny počı́tajı́ R2 automaticky dle prvnı́ či druhé definice v závislosti od toho, zda byl odhadován model s absolutnı́m členem či bez absolutnı́ho členu. Pak občas nastává “absurdnı́” situace, kdy model s absolutnı́m členem se zdá být hůře determinován než model bez něj. Ještě se o takovýchto “naschválech” zmı́nı́me až budeme diskutovat výstupy z počı́tačových knihoven. TVRZENÍ 8 Pro koeficient determinace platı́ R2 = kY − 1Ȳ k2 (Y − 1Ȳ )T (Y − 1Ȳ ) = , 2 R0 kY − 1Ȳ kkŶ − 1Ȳ k kde 1 = (1, 1, . . . , 1)T . Důkaz. Položme ν = (n−1 , n−1 , . . . , n−1 )T a 1 = (1, 1, . . . , 1)T . Pak máme R02 = kY − 1Ȳ k2 = n n X o Yi2 − 2Ȳ Yi + Ȳ 2 = kY k2 − k1Ȳ k2 (47) i=1 a ³ kŶ − 1Ȳ k2 = kX(X T X)−1 X T Y − 1ν T Y k2 = Y T X(X T X)−1 X T − 1ν T ´³ ´ X(X T X)−1 X T − 1ν T Y = Y T X(X T X)−1 X T X(X T X)−1 X T Y − 2Y T X(X T X)−1 X T 1ν T Y + nȲ 2 = kŶ k2 − 2Y T 1νY + nȲ 2 = kŶ k2 − k1Ȳ k2 . Při úpravách jsme použili fakt, že X(X T X)−1 X T 1 = 1. Ten plyne z toho, že 1 ∈ M(X) a tedy projekce vektoru 1 je opět vektor 1. Navı́c kY k2 = (Y − Ŷ )T (Y − Ŷ ) + Ŷ T Ŷ = kY − Ŷ k2 + kŶ k2 50 a konečně kY − 1Ȳ k2 = kY k2 − k1Ȳ k2 = kY − Ŷ k2 + kŶ k2 − k1Ȳ k2 = kY − Ŷ k2 + kŶ − 1Ȳ k2 , tj. 2 R02 − SR = kŶ − 1Ȳ k2 . (48) To uzavı́rá důkaz prvé části tvrzenı́. Podotkněme však, že toto lze snadněji nahlédnout geometricky. Vı́me, že Ŷ je projekcı́ Y do prostoru M(X), ve kterém ležı́ také 1 a 1Ȳ je projekcı́ Y do prostoru M(1), který je podprostorem prostoru M(X). To znamená, že 1Ȳ je také projekcı́ Ŷ do prostoru M(1). Suma sumarum, kY − 1Ȳ k2 je přepona pravoúhlého trojúhelnı́ka, ve kterém jsou odvěsnami kŶ − 1Ȳ k2 a kY − Ŷ k2 . Aplikacı́ Pythagorovy věty pak dostaneme kY − Ŷ k2 + kŶ − 1Ȳ k2 = kY − 1Ȳ k2 . (49) Připomeňme ještě, že ve výše zmı́něnému pravoúhlému trojúhelnı́ku poměr délky přilehlé odvěsny ku přeponě dává kosinus přı́slušného úhlu. Pak ovšem dostaneme " kŶ − 1Ȳ k R = kY − 1Ȳ k #2 2 = cos2 α, kde prvá rovnost plyne z (48) a (49). Označı́me-li ještě α úhel mezi Ŷ −1Ȳ a Y −1Ȳ , plyne druhá z právě provedených úvah. K dokončenı́ si stačı́ vzpomenout, že čtverec kosinu úhlu mezi dvěma vektory dostaneme jako jejich skalárnı́ součin, pokud tyto vektory majı́ jednotkovou délku, tj. h R2 = (Ŷ − 1Ȳ )kŶ − 1Ȳ k−1 iT · (Y − 1Ȳ )kY − 1Ȳ k−1 . 2 POZNÁMKA 4 Tvrzenı́ 8 bylo uvedeno proto, že v některých pramenech bývajı́ uvedeny alternatı́vnı́ definice koeficientu determinace a na prvnı́ pohled nemusı́ být patrné, zda jsou všechny ekvivalentnı́. Je celkem přirozené, že hodnota koeficientu determinace dobře posloužı́ k prvému náhledu toho, jak model dobře vystihuje data. Na druhé straně bychom nepochybně chtěli pomoci nějakého statistického testu stanovit, zda mı́ra “vystiženı́” je statisticky signifikantnı́ či nikoliv. DEFINICE 2 Necht’ R2 je koeficient determinace. Pokud model obsahuje absolutnı́ člen, položme F = R2 n−p · , 1 − R2 p − 1 pokud absolutnı́ člen v modelu nenı́ mějme F = R2 n−p · . 2 1−R p F se obvykle označuje jako Fisher-Snedecorovo F (v regresi; stejné označenı́ se použı́vá pro náhodnou veličinu, jejı́ž definici vzápětı́ připomeneme). 51 V dalšı́m lemmatu budeme potřebovat náhodnou veličinu, která bývá označována jako Fisher-Snedecorovo F`,k . Tato veličina se dostane jako podı́l dvou nezávislých náhodných veličin, rozdělených dle χ2 -rozdělenı́ a normovaných přı́slušnými stupni volnosti, tj. symbolicky psáno F`,k = χ2 (`) k · 2 . ` χ (k) LEMMA 8 Necht’ fluktuace v modelu (3) jsou rozděleny dle N (0, σ 2 I). Pokud model neobsahuje absolutnı́ člen a IE Y = 0, potom F je rozděleno jako Fp,n−p , tj. jako Fisher-Snedecorovo F s p a n − p stupni volnosti. Pokud model absolutnı́ člen obsahuje a IE Y = γ · 1, potom je F rozděleno jako Fp−1,n−p . Důkaz. Důkaz bude proveden jen pro druhý přı́pad, nebot’ nutné modifikace pro přı́pad prvnı́ jsou okamžitě patrné. Použijeme-li předpoklad, že IE Y = γ1, dostaneme Xβ 0 = γ1. Navı́c h i h i Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T − N Y + Y T N Y, (50) kde jsme symbolem N označili matici, která má všechny prvky rovné n−1 . Výpočtem ověřı́me, že N N = N . Vzhledem k tomu, že 1 ∈ M(X), je také X(X T X)−1 X T 1 = 1 a navı́c X(X T X)−1 X T N = N . To umožňuje ověřit, že h X(X T X)−1 X T − N ih i X(X T X)−1 X T − N = X(X T X)−1 X T − N , a tedy rank(X(X T X)−1 X T − N ) = tr(X(X T X)−1 X T − N ) = p − 1. Již výše jsme několikrát použili fakt, že rank(I − X(X T X)−1 X T ) = tr(I − X(X T X)−1 X T ) = n − p. Aplikace Fisher-Cochranova lemmatu dává ³ h i ´ ³ h i ´ L Y T I − X(X T X)−1 X T Y a L Y T X(X T X)−1 X T − N Y s h i = χ2 (n − p, λ(1) ) = χ2 (p − 1, λ(2) ) h i λ(1) = µT I − X(X T X)−1 X T µ = [β 0 ]T X T I − X(X T X)−1 X T Xβ 0 = 0 (na tuto rovnost nenı́ třeba hypotézy Xβ 0 = γ1) a h i h i λ(2) = µT X(X T X)−1 X T − N µ = [β 0 ]T X T X(X T X)−1 X T − N Xβ 0 h i = γ 2 1T X(X T X)−1 X T − N 1 = 0. Fisher-Cochranovo lemma navı́c umožňuje tvrdit, že jsou tyto dvě kvadratické formy nezávislé. Pak již stačı́ uvážit rovnost 2 2 R02 − SR R02 − SR R02 R2 = = . · 2 2 2 2 2 1 − R2 R0 R0 − R0 + SR SR 52 K dokončenı́ důkazu pak vezměme v úvahu ten fakt, že Ŷ je projekcı́ Y do prostoru M(X) a 1Ȳ je projekcı́ jak Y tak Ŷ do prostoru M(1). Z něj plyne, že h i 2 R02 − SR = (Ŷ − 1Ȳ )T (Ŷ − 1Ȳ ) = Y T X(X T X)−1 X T − N Y a podobně h i 2 SR = Y T I − X(X T X)−1 X T Y, (51) přičemž poslednı́ a předposlednı́ rovnost se např. snadno ověřı́ užitı́m idempotentnosti přı́slušných matic. K důkaz pro model bez absolutnı́ho členu je třeba psát (50) ve tvaru h i Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T Y a uvědomit si, že např. opět z geometrické představy a z faktu, že nynı́ R02 = Y T Y , plyne, že 2 R02 − SR = Y T X(X T X)−1 X T Y a že tato kvadratická forma má χ2 -rozdělenı́ o p stupnı́ch volnosti. 4.4 2 Intervaly a pásy spolehlivosti Při použitı́ diagnostických grafů, občas však i při jiných procedurách, např. z oblasti základnı́ popisné statistiky, se stane, že kromě přı́mky naznačujı́cı́ regresnı́ vztah jedné veličiny na druhé, se na obrazovce objevı́ také jakési křivky, a podı́váme-li se do manuálu nalezneme tam vysvětlenı́, že se jedná o 95% pás či interval spolehlivosti. Samozřejmě, že úroveň spolehlivost může být v různých počı́tačových knihovnách různá, dokonce někdy i nastavitelná. Obvykle však v manuálu marně pátráme po vysvětlenı́, jak byly tyto křivky zı́skány. Následujı́cı́ výklad ukazuje, že záležitost pásu spolehlivosti nenı́ až tak jednoduchá, abychom ji přešli bez podrobnějšı́ho výkladu. Interval spolehlivosti pro jednotlivé souřadnice vektoru regresnı́ch koeficientů lze nalézt použitı́m Věty 2. Z nı́ totiž plyne, že intervalem µ (LS,n) β̂i ¶ 1 α α (LS,n) − scii tn−p (1 − ), β̂i + scii2 tn−p (1 − ) , 2 2 1 2 je hodnota i-té souřadnice vektoru β 0 pokryta s pravděpodobnostı́ 1 − α. Připomı́náme, že s je odhad rozptylu reziduı́ (viz např. Lemma 7), cii je i-tý diagonálnı́ prvek matice (X T X)−1 a tn−p (1 − α2 ) je hornı́ α2 kvantil Studentova t. Přirozeně, že zajı́mavějšı́ je nalezenı́ “intervalu” spolehlivosti pro všechny souřadnice vektoru regresnı́ch koeficientů současně. Tvar takového “intervalu” může být různý, v podstatě libovolný. V šedesátých letech se převážně studovaly rektangulárnı́ intervaly spolehlivosti (viz např. idák (1967)), v současné době se však častěji uvažujı́ konfidenčnı́ oblasti ve tvaru (rotačnı́ch) elipsoidů. K sestrojenı́ takového elipsoidu použijeme důsledek 3. Z něj plyne, že pro libovolné α ∈ (0, 1) padne β̂ (LS,n) do elipsoidu ( E= β∈R ¡ p : ¢T β − β0) ¡ ¢ X T X β − β0) n − p ≤ Fp,n−p (1 − α) 2 p SR 53 ) (52) 2 je reziduálnı́ součet čtverců a F s pravděpodobnostı́ 1 − α. Opět připomı́náme že, SR p,n−p (1 − α) je α-kvantil Fisher-Snedecorova F o p a n − p stupnı́ch volnosti. Jinými slovy lze tvrdit, že je-li β̂ (LS,n) odhad regresnı́ch koeficientů, potom s pravděpodobnostı́ 1−α může β 0 být jen z množiny ³ β ∈ Rp : ´T β̂ (LS,n) − β) ³ ´ X T X β̂ (LS,n) − β) n − p . ≤ F (1 − α) p,n−p 2 p SR Podobně můžeme nalézt konfidenčnı́ interval pro hodnotu veličiny Yn+1 v některém bodě xn+1 . Nejprve pro x ∈ Rp označme d2 (x) = xT (X T X)−1 x a přirozeně předpokládejme, že Yn+1 = xTn+1 β 0 + En+1 . Uvědomme si, že En+1 je statisticky nezávislé na β̂ (LS,n) , nebot’ tento odhad byl pořı́zen na základě prvých n pozorovánı́ či chcete-li, budete-li uvažovat β̂ (LS,n) jako náhodnou veličinu, je tato závislá jen na E1 , E2 , ..., En . To znamená, že náhodná veličina ³ ´ Yn+1 − xTn+1 β̂ (LS,n) = xTn+1 β 0 − β̂ (LS,n) + En+1 , 2. má dle výše uvedených výsledků rozdělenı́ N (0, σ 2 (1 + d2 (xn+1 ))) a je statisticky nezávislá s SR To však implikuje, že ! à Yn+1 − xTn+1 β̂ (LS,n) = tn−p L 1 s(1 + d2 (xn+1 )) 2 a proto interval µ 1 xTn+1 β̂ (LS,n) − s(1 + d2 (xn+1 )) 2 tn−p (1 − α ), 2 1 xTn+1 β̂ (LS,n) + s(1 + d2 (xn+1 )) 2 tn−p (1 − ¶ α ) 2 (53) pokryje Yn+1 s pravděpodobnostı́ 1 − α. Podobně snadno nalezneme, pro některé pevné xn+1 ∈ Rp , interval spolehlivosti pro xTn+1 β 0 . Ze vztahu (53) snadno zjistı́me, že interval µ xTn+1 β̂ (LS,n) ¶ α α − sd(x)tn−p (1 − ), xTn+1 β̂ (LS,n) + sd(x)tn−p (1 − ) 2 2 (54) pokrývá xTn+1 β 0 s pravděpodobnostı́ 1 − α. Ukážeme si ještě, jak je možné nalézt pás spolehlivosti, který současně, pro všechna x z nějaké předem zadané oblasti, pokrývá xT β 0 s předem zvolenouu pravděpodobnostı́. Z výše uvedeného vı́me, že β̂ (LS,n) padne do elipsoidu E (viz (52)) s pravděpodobnostı́ 1 − α. Odtud ihned plyne, že zvolı́me-li libovolné (ale pevné) x ∈ Rp , bude s pravděpodobnostı́ 1 − α hodnota xT β̂ (LS,n) mezi hodnotou L(x) = inf xT β β∈E a hodnotou U (x) = sup xT β. β∈E 54 Hledejme nejprve výraz pro U (x). Podobně jako již několikrát výše, použijeme Tvrzenı́ 7. To nám umožnı́ psát matici X T X ve tvaru QDQT , kde Q a D jsou postupně orthogonálnı́ a diagonálnı́ √ matice s kladnými prvky na diagonále. Necht’ symbol D označuje diagonálnı́ matici, která má na diagonále odmocniny z vlastnı́ch čı́sel matice X T X, a to ve stejném pořadı́ jako stojı́ na √ ¡ ¢ diagonále matice D, a položme κ = s2 pFp,n−p (1 − α). Označme ještě ξ(β) = DQT β − β 0 ) . Dostaneme p ³ β − β0 ´T ³ ´ X T X β − β 0 = ξ T (β)ξ(β) = X ξk2 (β), k=1 a z (52) plyne, že pro každé β ∈ E máme p X ξk2 (β) ≤ κ. (55) k=1 √ matici inverznı́ k diagonálnı́ matici D, tj. matici majı́cı́ na diagonále √ převrácené hodnoty prvků stojı́cı́ch na diagonále matice D. Jednoduchým výpočtem nalezneme Označme symbolem √1 D 1 1 xT β = xT (β 0 + Q √ ξ) = xT β 0 + xT Q √ ξ, D D (56) což nám umožnı́ nalezenı́ sup xT β. Uvědomme si, že prvý člen pravé strany (56) (totiž xT β 0 ) je β∈E konstantnı́, a tedy maxima výrazu xT β dosáhneme, zmaximalizujeme-li xT Q √1D ξ, samozřejmě při splněnı́ vedlejšı́ podmı́nky (55). Protože se jedná o skalárnı́ součin dvou vektorů, maxima dosáhneme pro takové ξ, které bude násobkem vektoru √1D QT x, tj. pro ξ = λ · √1D QT x, kde λ je třeba vybrat tak, aby platilo (55). Spočteme-li normu vektoru ξ a položı́me-li ji rovnou κ, dostaneme λ2 xT QD−1 QT x = λ2 xT (X T X)−1 x = κ neboli λ= √ κ . d(x) √ 1 Vypočteme U (x) = xT β 0 + κd(x) = xT β 0 + sd(x)(pFp,n−p (1 − α)) 2 a analogickým postupem 1 též L(x) = xT β 0 − sd(x)(pFp,n−p (1 − α)) 2 . Potom ovšem nerovnosti 1 1 xT β 0 − sd(x)(pFp,n−p (1 − α)) 2 ≤ xT β̂ (LS,n) ≤ xT β 0 + sd(x)(pFp,n−p (1 − α)) 2 platı́ pro všechna x ∈ Rp s pravděpodobnostı́ 1 − α. To znamená, že konfidenčnı́ oblast s dolnı́ a hornı́ mezı́ danou vztahy 1 xT β̂ (LS,n) − sd(x) (p Fp,n−p (1 − α)) 2 a 1 xT β̂ (LS,n) + sd(x) (p Fp,n−p (1 − α)) 2 pokrývá “skutečný” model IE Y = xβ 0 s pravděpodobnostı́ 1 − α. Nenı́ bez zajı́mavosti, že tento pás je pro každé konkrétnı́ x ∈ Rp širšı́ než interval spolehlivosti daný v (54). Možná, že stojı́ za explicitnı́ zdůrazněnı́ fakt, který umožnil nalezenı́ pásu spolehlivosti pro všechna x ∈ Rp naráz. Snadno se nahlédne, že je to skutečnost, že β̂ (LS,n) padne do E 55 s pravděpodobnostı́ 1 − α a to nezávisle na x. Navı́c nalezené hranice tohoto konfidenčnı́ho pásu (či oblasti, chcete-li) naznačujı́, proč se tento pás (je-li zobrazen na displeji) na okrajı́ch rozšiřuje. Připomeňme nejprve, že diagonálnı́ prvky projekčnı́ matice (“hat” matice) udávajı́ vzdálenost každého pozorovánı́ od bodu, jehož souřadnice jsou dány průměry přes sloupce matice plánu. Dále si uvědomme, že i-tý diagonálnı́ prvek projekčnı́ matice je roven d2 (xi ). Spojenı́ těchto 1 faktů pak implikuje to, že výraz sd(x) (p Fp,n−p (1 − α)) 2 je většı́ “na okrajı́ch” dat a menšı́ v jejich středu. 4.5 Testovánı́ submodelů Odhadneme-li některý regresnı́ model, pak jedna z nejpřirozenějšı́ch otázek se bude týkat počtu regresorů, tj. toho, zda model je dostatečně určen či naopak, zda nenı́ zbytečně přeurčen. Jak si ukážeme později, je prvý přı́pad, patrně podstatně, nebezpečnějšı́ pro dalšı́ použitı́ modelu než přı́pad druhý. To může navodit myšlenku, že je lépe zařadit do modelu vı́ce vysvětlujı́cı́ch proměnných, včetně některých, které nejsou pro vysvětlenı́ veličiny Y signifikantnı́, než se dopustit toho, že některou podstatnou vysvětlujı́cı́ proměnnou vynecháme. Potom ovšem může některý uživatel přijı́t s dotazem, zda by některý submodel už nebyl stejně dobrý jako model, který byl navržen námi. Abychom uměli takový dotaz zodpovědět, naučı́me se v tomto odstavci testovat submodel proti “základnı́mu” modelu. To nám navı́c v závěru odstavce umožnı́ seznámit se často použı́vaným Chowovým testem, tj. testem posuzujı́cı́m shodnost či rozdı́lnost koeficientů regresnı́ch modelů odhadnutých pro dva soubory dat. Důkaz Chowova testu bude pak provedem, na rozdı́l od původnı́ práce a na rozdı́l od dalšı́ch monografiı́, do kterých byl půvadnı́ důkaz opisován, podstatně jednodušeji. Budeme tedy předpokládat, že data byla generována modelem Yi = ziT β 0 + Ei , i = 1, 2, . . . , n, (57) kde matice Z, jejı́ž řádky jsou jako obvykle tvořeny transponovanými vektory ziT , je taková, že M(Z) ⊂ M(X), tj. prostor generovaný maticı́ plánu “zúženého” modelu je podprostorem prostoru generovaného maticı́ X. Nejpodstatnějšı́m krokem v právě naznačovaném výkladu je pak nahlédnout, že rozdı́l projekčnı́ch matic X(X T X)−1 X T − Z(Z T Z)−1 Z T je opět projekčnı́ matice. Lze se o tom přesvědčit takto. Z již dřı́ve připomı́nané geometrické podstaty věci okamžitě plyne, že tento rozdı́l projektuje do podprostoru prostoru M(X), který je kolmý na podprostor M(Z). Jistě nenı́ těžké nahlédnout, že je-li X(X T X)−1 X T v projekce vektoru v do M(X), můžeme tuto projekci rozložit na součet vektorů z M(Z) a z podprostoru, který je kolmý na M(Z). Složky tohoto rozkladu jsou projekcemi vektoru v do odpovı́dajı́cı́ch podprostorů, tj. do M(Z) a do podprostoru, který je na tento kolmý. Jiná cesta je čistě formálnı́, tj. provedeme přı́mo znásobenı́ matic a uvědomı́me si, že sloupce projekčnı́ matice Z(Z T Z)−1 Z T jsou vektory z M(Z) a že tento prostor je dle předpokladu podprostorem prostoru M(X). Jinými slovy, pokud pomocı́ projekčnı́ matice X(X T X)−1 X T zprojektujeme sloupce matice Z(Z T Z)−1 Z T do M(X), dostaneme tytéž vektory, tj. vektory, které jsou sloupci matice Z(Z T Z)−1 Z T . Platı́ tedy Z(Z T Z)−1 Z T · X(X T X)−1 X T = Z(Z T Z)−1 Z T 56 a protože obě projekčnı́ matice jsou symetrické, máme také X(X T X)−1 X T · Z(Z T Z)−1 Z T = Z(Z T Z)−1 Z T . To dále znamená, že ³ X(X T X)−1 X T − Z(Z T Z)−1 Z T ´T ³ · X(X T X)−1 X T − Z(Z T Z)−1 Z T ´ = X(X T X)−1 X T · X(X T X)−1 X T − X(X T X)−1 X T · Z(Z T Z)−1 Z T −Z(Z T Z)−1 Z T · X(X T X)−1 X T + Z(Z T Z)−1 Z T · Z(Z T Z)−1 Z T = X(X T X)−1 X T − Z(Z T Z)−1 Z T . Právě ukončený výklad představuje důkaz následujı́cı́ho tvrzenı́. TVRZENÍ 9 Necht’ matice Z je taková, že M(Z) ⊂ M(X). Potom rozdı́l projekčnı́ch matic X(X T X)−1 X T − Z(Z T Z)−1 Z T je opět projekčnı́ matice, tj. tato matice je symetrická a idempotentnı́. LEMMA 9 Necht’ matice plánů v modelech (4) a (57), X a Z, jsou plné hodnosti p a q a fluk2 ’ tuace {Ei }∞ i=1 jsou rozděleny dle N (0, σ I). Dále necht prostor M(Z) je podprostorem prostoru (LS,n) (LS,n) M(X). V rámci tohoto lemmatu necht’ β̂(X) a β̂(Z) označujı́ odhady zı́skané metodou ne2 2 ’ jmenšı́ch čtverců v těchto modelech. Konečně pak necht S(X) a S(Z) označujı́ reziduálnı́ součty (LS,n) čtverců přı́slušné k β̂(X) (LS,n) a β̂(Z) . Potom statistika F = 2 − S2 S(Z) (X) n − p · 2 p−q S(X) má Fisher-Snedecorovo F -rozdělenı́ s p − q a n − p stupni volnosti. Důkaz. Analogicky jako výše rozložı́me součet čtverců Y T Y takto ³ ´ ³ ´ Y T Y = Y T I − X(X T X)−1 X T Y + Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y +Y T Z(Z T Z)−1 Z T Y. (58) Nynı́ použijeme faktu, že matice X(X T X)−1 X T − Z(Z T Z)−1 Z T je idempotentnı́, a budeme aplikovat Tvrzenı́ 3, tj. zjistı́me, že hodnost této matice je rovna jejı́ stopě a konečně pak, že je jejı́ hodnost rovna rozdı́lu stop matic X(X T X)−1 X T a Z(Z T Z)−1 Z T . Protože však obě matice jsou rovněž idempotentnı́, jsou jejich stopy rovny hodnostem těchto matic. Konečně tedy dostáváme: hodnost matice X(X T X)−1 X T − Z(Z T Z)−1 Z T je p − q. Podobnou úvahou, kterou jsme ostatně udělali již výše, dostaneme, že hodnost matice I − X(X T X)−1 X T je n − p. Připomeňme, že jsme předpokládali, že hodnost matice Z je rovna q a máme součet hodnostı́ matic roven (n − p) + (p − q) + q = n. Konečně pak použitı́m Fisher-Cochranova lemmatu nalezneme, že kvadratické formy ³ ´ Y T I − X(X T X)−1 X T Y ³ a ´ Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y 57 jsou nezávislé a majı́ χ2 rozdělenı́ s n − p a p − q stupni volnosti. K dokončenı́ důkazu stačı́ ověřit, že 2 S(X) = n ³ X i=1 ´ (LS,n) 2 Yi − XiT β̂(X) ³ ³ = Y − X(X T X)−1 X T Y ´T ³ ³ = Y T I − X(X T X)−1 X T ³ ´T ³ = Y − X β̂ (LS,n) x Y − X β̂ (LS,n) x Y − X(X T X)−1 X T Y ´T ³ ´ ´ ´ I − X(X T X)−1 X T Y ´ = Y T I − X(X T X)−1 X T Y = Y T Y − Y T X(X T X)−1 X T Y a 2 S(Z) = n ³ X i=1 ´ (LS,n) 2 Yi − XiT β̂(Z) ³ = Y − X β̂ (LS,n) z ³ = Y − Z(Z T Z)−1 Z T Y ³ ´T ³ = Y T I − Z(Z T Z)−1 Z T ³ ´T ³ ´ Y − X β̂ (LS,n) x Y − Z(Z T Z)−1 Z T Y ´T ³ ´ ´ I − Z(Z T Z)−1 Z T Y ´ = Y T I − Z(Z T Z)−1 Z T Y = Y T Y − Y T Z(Z T Z)−1 Z T Y. Odtud 2 2 S(Z) − S(X) = Y T X(X T X)−1 X T Y − Y T X(X T X)−1 X T Y ³ ´ = Y T X(X T X)−1 X T − Z(Z T Z)−1 Z T Y. 2 Tı́mto lemmatem jsme uzavřeli základnı́ poznatky o regresnı́ analýze pomocı́ metody minimalizace součtu čtverců, často zkráceně označované jako metoda nejmenšı́ch čtverců či dokonce jen nejmenšı́ čtverce, a tı́m jsme se připravili na to, abychom uměli interpretovat základnı́ výstupy procedur pro regresnı́ analýzu z většiny počı́tačových knihoven. V dalšı́ kapitolce si o tom něco málo řekneme. Dřı́ve než se však do toho pustı́me, řekněme si ještě, že s testovánı́m submodelů úzce souvisı́ jiná úloha, která sice nenı́ po formálnı́ stránce totožná s testovánı́m submodelů, ale jak uvidı́me myšlenka jejı́ho řešenı́ je naprosto stejná. V roce 1960 publikoval v časopise Econometrica G. C. Chow článek (Chow (1960)), který kromě problémů, které my probereme v odstavci Vliv jednoho pozorovánı́, řešil problém testovánı́ shodnosti regresnı́ho modelu (či jeho podmodelu - vše bude jasné z dále uvedeného výkladu) pro dva soubory dat. Touto úlohou se stal článek známým. loha byla zadána takto. Předpokládejme, že dva soubory dat majı́ postupně regresnı́ modely, pokud platı́ hypotéza Y (1) = Z (1) γ (1) + W (1) δ (1) + E (1) , Y (2) = Z (2) γ (2) + W (2) δ (2) + E (2) , (59) přı́padně při alternativě jsou části vektorů regresnı́ch koeficientů, totiž γ (1) a γ (2) , stejné, takže můžeme pro data uvažovat model Y (1) = Z (1) γ (1) + W (1) δ (1) + E (1) , Y (2) = Z (2) γ (1) + W (2) δ (2) + E (2) . 58 (60) Modely lze přepsat do tvaru " Y (1) Y (2) # " = Z (1) 0 W (1) 0 Z (2) 0 γ (1) # (2) " (1) # γ E · + (2) (1) W E (2) δ 0 δ (2) a " # Y (1) Y (2) " = Z (1) W (1) Z (2) 0 W (2) 0 # γ (1) (1) + · δ " δ (2) E (1) E (2) # . Označme nejprve " X (1) = Z (1) W (1) Z (2) 0 0 W (2) # " a X (2) = Z (1) 0 W (1) 0 0 Z (2) 0 W (2) # . Protože M(X (1) ) ⊂ M(X (2) ) (připomeňme, že se jedná o prostory generované sloupci matic, které stojı́ v závorkách za M), může být projekce vektoru (Y (1) , Y (2) )T do prostoru M(X (1) ) zı́skána jako postupná projekce do prostoru M(X (2) ) a následně do M(X (1) ). Potom ovšem reziduálnı́ součet čtverců v modelu (60) může být rozložen na reziduálnı́ součet čtverců v modelu (59) a součet čtverců, který je s nı́m nezávislý. Podobně jako výše, použitı́m Fisher-Cochranova lemmatu pak dostaneme následujı́cı́ tvrzenı́. 2 a R2 jsou reziduálnı́ součty čtverců v modelech (60) a (59) a necht’ TVRZENÍ 10 Necht’ R(1) (2) q a p − q jsou počty souřadnic vektorů γ (1) a δ (1) (vektor γ (2) má stejný počet souřadnic jako γ (1) ; stejně to platı́ o δ (1) a δ (2) ). Potom statistika 2 − R2 R(1) (2) n − 2p · F = 2 q R(2) má za hypotézy (tj. v modelu (59)) Fisher-Snedecorovo Fq,n−2p . 4.6 Výběr modelu Z výše uvedeného lze tušit, že jednı́m z problémů regresnı́ analýzy, je problém vhodné volby vysvětlujı́cı́ch proměnných, které mı́nı́me zařadit do modelu. Tento problém bývá označován, jako problém výběru modelu (někdy je však stejný termı́n použit k označenı́ situace, kdy různé metody odhadu regresnı́ch koeficientů dajı́ rozdı́lné výsledky, někdy dokonce značně rozdı́lné, a my “musı́me” vybrat jeden z nich např. pro predikci). Přirozeně, že někdy nastává situace, že máme tak málo pozorovánı́ i vysvětlujı́cı́ch proměnných, že jsme rádi, že nějaký model dáme vůbec dohromady a zcela “vynecháme” úvahy o optimalitě nalezeného modelu. Z toho, co jsme si zatı́m vyložili plyne, že diagnostickými prostředky použitelnými pro řešenı́ tohoto problému jsou studentizované odhady regresnı́ch koeficientů, respektive odpovı́dajı́cı́ pravděpodobnosti, označované jako P -values, (viz výklad o výstupech z počı́tače), a koeficient determinace. Koeficient determinace je však rostoucı́ či přinejmenšı́m neklesajı́cı́ funkcı́ počtu vysvětlujı́cı́ch proměnných a tedy bez “zabudovánı́” nějaké penalizace, nelze pomoci něho nalézt jakýsi “objektivně” optimálnı́ model. Nicméně intuitivně cı́tı́me a výše uvedené výsledky to 59 potvrzujı́, že bychom neměli “zatěžovat” model zbytečnými a k vysvětlenı́ dat nepřispı́vajı́cı́mi vysvětlujı́cı́mi veličinami. Jinými slovy to znamená, že jsme ochotni připustit, že bychom měli být nějakým způsobem penalizováni za to, pokud bychom zvolili zbytečně komplikovaný model. Nı́že si ukážeme, jak je zbytečné přeurčenı́ modelu automaticky penalizováno zvětšenı́m rozptylu odhadu regresnı́ch koeficientů. Vzhledem k tomu, že však neznáme dolnı́ hranici rozptylu odhadů regresnı́ch koeficientů, tuto penalizaci vlastně nemůžeme brát na vědomı́. To implikuje závěr, že penalizace za zbytečně bohatý model musı́ být explicitnı́, tak aby mohla ovlivnit výběr modelu. V monografiı́ch věnovaných regresnı́ analýze lze přirozeně nalézt celou škálu nápadů, často podložených přı́močarou heuristikou či dokonce i “objektivizujı́cı́” teoriı́, jak penalizovat neopodstatněnou komplikovanost modelu. Z těchto kritériı́ je patrně nejznámějšı́ kritérium Cp zavedené C. L. Mallowsem (Mallows (1973)). Statistika, kterou C. L. Mallows navrhl, má tvar Cp = Y T (I − P ) Y + 2p − n, σ̂ 2 (61) kde σ̂ 2 je odhad rozptylu v “širšı́m” (či “většı́m”, chcete-li) modelu. Obvykle tento model zahrnuje všechny “rozumné” vysvětlujı́cı́ proměnné, často zahrnuje dokonce všechny dostupné vysvětlujı́cı́ proměnné. Jeho dimenzi označı́me proto pmax , zatı́mco dimenzi “aktuálnı́ho” modelu jsme v (61) označili p. Heuristika, která stojı́ v pozadı́ tohoto kritéria, je snadno akceptovatelná. Abychom to nahlédli, přepı́šme kriterium (61) do tvaru Cp = (n − p) · σ̂p2 Y T (I − P ) Y n − p · + 2p − n = + 2p − n, n−p σ̂ 2 σ̂ 2 kde σ̂p2 jsme označili odhad rozptylu reziduı́ v “aktuálnı́m” modelu, tj. v modelu dimenze p. Je-li nynı́ “aktuálnı́” model téměř tak dobrý jako ten s dimenzı́ pmax , tj. je-li σ̂p2 ≈ σ̂ 2 , pak Cp ≈ n − p + 2p − n = p. Jiné kriterium, které bývá často použı́váno navrhl Akaike (Akaike (1974) a (1981)), a je založeno na Kullback-Leiblerově vzdálenosti (Kullback (1959)). Zadáno je následujı́cı́m vztahem ³ AIC = ln ´ Y T I − X(X T X)−1 X T Y n + 2p , n kde p (a tı́m i X) je vybráno tak, aby AIC bylo minimálnı́. Snadno se nahlédne z těchto dvou uvedených přı́kladů, že se jedná vždy o stejnou myšlenku, totiž použitı́ součtu čtverců reziduı́ plus uplatněnı́ nějaké penalizace, která je monotonı́ funkcı́ počtu vysvětlujı́cı́ch proměnných. Upravı́me-li takto koeficient determinace dostaneme dalšı́ populárnm kritérium - upravený koeficient determinace (adjusted R2 ), viz např. Zvára (1989). Slovo upravený však bohužel nevystihuje obsah anglického slova “adjusted”, které napovı́dá, že jde o charakteristiku, která je adjustovaná, tj. přizpůsobená, aretovaná k danému modelu 6 . Jejı́ definice pak napovı́dá, že je adjustovaná k počtu vysvětlujı́cı́ch proměnných. Ve statistických knihovnách bývá označována jako R2 -adjusted a je zadána vztahem 2 Radjusted = 1 − (1 − R2 ) S2 n − 1 n−1 = 1 − R2 · . n−p R0 n − p 6 Bylo by asi lépe použı́t označenı́ adjustovaný koeficient determinace, ale to by určitě někteřı́ jazykovı́ experti nepřenesli přes srdce. 60 Snadno se nahlédne, např. z druhého vyjádřenı́ upraveného koeficientu determinace, že je tento 2 tak dimenzi modelu p. Vzhledem nepřı́mo úměrný jak velikosti reziduálnı́ho součtu čtverců SR k tomu, že se jej snažı́me maximalizovat, hledejme model s co nejmenšı́m reziduálnı́m součtem čtverců při co nejmenšı́m počtu vysvětlujı́cı́ch proměnných. Je evidentnı́, že pokud začneme s malým počtem vysvětlujı́cı́ch proměnných, pak pokles reziduálnı́ho součtu čtverců, přidáme2 li dalšı́ regresor, může být tak velký, že vliv tohoto poklesu na Radjusted převážı́ nad vlivem 2 nárůstu dimenze p a Radjusted bude vzrůstat. Nepochybně však po jistém počtu kroků, vliv nárůstu dimenze modelu, pokud budeme mı́t k dispozici dostatečný počet regresorů, převážı́ 2 a R2 nad poklesem SR adjusted začne klesat. Snad již na tomto mı́stě stojı́ za to zdůraznit, že výběr vhodného modelu nenı́ zdaleka jednoduchá a přı́močará záležitost, nebot’ pro p-dimenzionálnı́ data je přirozeně 2p možnostı́ jak vybrat regresory do modelu. Navı́c je dobré trvale držet na paměti, že podurčenı́ modelu vede vždy k závažným nedostatkům (jak ukáže jeden z následujı́cı́ch odstavců), zatı́mco přeurčenı́ modelu v přı́padě statického regresnı́ho modelu, tj. modelu pro průřezová data, vede pouze k poklesu eficience odhadů a jak dále naznačı́me, lze dokonce tento pokles eliminovat vhodnou transformacı́ regresorů za cenu maličko komplikovanějšı́ interpretace modelu). To napovı́dá, že 2 je lepšı́ se rozhodnout pro takový soubor regresorů, pro který sice Radjusted nedosahuje přesně maxima, ale který téměř jistě zaručuje to, že jsme nevynechali žádný důležitý regresor, tj. tento soubor vysvětlujı́cı́ch proměnných nevede k podurčenı́ modelu. Na druhé straně je však patrně užitečné si vždy uvědokit, že přeurčenı́ modelu přece jenom zvyšuje rozptyl odhadů regresnı́ch koeficientů a to se může projevit na přesnosti predikce, která může tento fakt, tj. to, že odhady koeficientů mohou být méně přesné, ještě nepřı́jemně zesı́lit. Ostatně to nı́že uvidı́me na přı́kladě o kombinovánı́ předpovědı́ ekonomického růstu ve Spojeném královstvı́. Na závěr tohoto odstavce zmiňme ještě to, že některé statistické knihovny nabı́zejı́ procedury na automatizovaný výběr regresorů, obvykle označovaný jako “stepwise” s možnostı́ výběru toho, zda kroková procedura bude postupovat nahoru, tj. od žádného regresoru, či dolu, tj. od všech dostupných. Rovnou řekněme, že autorovy zkušenosti s těmito postupy jsou mı́rně řečeno rozporuplné. Skoro nejhoršı́ na těchto postupech je to, že nenı́ obvykle zcela jasně řečeno, jaká je filosofie za nimi, tj. dle jakého pravidla nakonec vyberou model. Abychom lépe nahlédli danou situaci, předpokládejme např., že budeme postupovat ze zdola a každý dalšı́ regresor bude “včleněn” do modelu, pokud bude mı́t vhodnou velikost P -value a bude nejvı́ce, ze všech ještě “nezařazených” regresorů, zvětšovat koeficient determinace. Je okamžitě vidět, že hodnota koeficientu determinace po dvou krocı́ch může být menšı́ než maximálnı́ hodnota tohoto koeficientu pro model obsahujı́cı́ dva regresory. A to jsme nechali stranou to, že vybı́rat model jen dle koeficientu determinace je riskantnı́. Nicméně nikdy nenı́ na škodu vyzkoušet vše, co nám daný package nabı́zı́. 5 5.1 VÝSTUPY Z POČTAČOVÝCH KNIHOVEN Tabulky výsledků Regresnı́ analýza je jednou z nejpoužı́vanějšı́ch technik pro zpracovánı́ dat a proto ji lze nalézt patrně ve všech statistický knihovnách programů. Dnes již dokonce i většina tabulkových procesorů (“spreadsheetů”, jako je např. EXCEL) umožňuje výpočet základnı́ch výsledků v regresi. Výsledky zı́skané pomocı́ subroutin nabı́zených v tabulkových procesorech je však nutné 61 považovat pouze za předběžné a orientačnı́, nebot’ tyto subroutiny obvykle nedovolujı́ provést ani nejzákladnějšı́ diagnostiku typu normálnı́ graf (“normal graph”) či indexový graf (“index plot”). Na druhé straně ani řada komerčně dodávaných knihoven nenabı́zı́ provedenı́ regresnı́ analýzy dat v tom rozsahu, ve kterém je ji nutné provést, máme-li mı́t naději, že závěry, které učinı́me nejsou zavádějı́cı́. Neumožňujı́ totiž např. jednoduše provést testy normality či heteroskedasticity a obvykle se omezujı́ na grafické “podpůrné” prostředky, o kterých si povı́me nı́že. Na druhé straně, tyto knihovny často nabı́zejı́ v jiných partiı́ch než je určena k odhadu regresnı́ho modelu proceduryt, které je možné použı́t k doplněnı́ diagnostiky výsledků. Jedná se např. o testy dobré shody, nalezenı́ vlastnı́ch čı́sel matice atd. Ještě se o těchto možnostech zmı́nı́me tam, kde to bude na mı́stě. Nynı́ si krátce povı́me, které nejzákladnějšı́ údaje se obvykle objevı́, ve formě nějaké tabulky (jedné či vı́ce) po aplikaci přı́slušné regresnı́ procedury na data a jak se tyto zinterpretujı́. Pomineme-li to, že jsou obvykle nabı́zeny výsledky popisné statistiky, tj. jako odhady střednı́ch hodnot, rozptylu či kovariančnı́ matice dat, je vždy poskytnuta informace o odhadech regresnı́ch koeficientů, jejich vzájemných vztazı́ch a základnı́ údaje o spolehlivosti či adekvátnost modelu jako celku. Ačkoliv se jedná o nejzákladnějšı́ údaje o odhadnutém modelu, i jejich interpretace může skrývat nebezpečı́ mylných závěrů. Upozornı́me na toto nebezpečı́ v těch mı́stech dalšı́ho textu, která k tomu budou mı́t nejblı́že (např. o použitı́ kovariančnı́ matice dat ve FarrarGlauberově testu na kolinearitu (Farrar a Glauber (1967)), který bez verifikace - a to dosti přı́sné - na normalitu může dát, a obvykle dá, zavádějı́cı́ výsledky). Ve formě tabulek uvedeme nynı́ přı́klad nejzákladnějšı́ch výsledků regresnı́ analýzy pro data, která byla uvedena v úvodu skript jako přı́klad 3, “Data o sportovnı́m klubu”. Nejzákladnějšı́ údaje o výsledcı́ch regresnı́ analýzy mohou vypadat tedy následovně (a obvykle se lišı́ od nı́že uvedeného jen formou, nikoliv obsahem): Tabulka 1 Odhad střednı́ch hodnot a rozptylů Střednı́ hodnota Rozptyl Váha 367.5 84.5 Puls 166.5 34.1 Sı́la 64.0 8.9 Zčas 188.0 26.7 Cčas 70.0 10.3 Tabulka 2 Diagonálnı́ prvky projekčnı́ matice 1 0.24 16 0.23 2 0.12 17 0.24 3 0.09 18 0.22 4 0.07 19 0.04 5 0.09 20 0.11 6 0.11 21 0.11 7 0.08 22 0.12 8 0.22 23 0.51 62 9 0.14 24 0.14 10 0.12 25 0.07 11 0.21 26 0.08 12 0.09 27 0.16 13 0.29 28 0.38 14 0.16 29 0.16 15 0.07 30 0.19 Tabulka 3 Kovariančnı́ matice dat (pravá hornı́ část) a korelačnı́ matice (levá dolnı́ část, na diagonále by byly jedničky) Cčas Váha Puls Sı́la Zčas Cčas 4824.55 0.798 0.501 0.445 0.848 Váha 1963.94 1255.14 0.420 0.737 0.643 Puls 277.97 118.81 63.77 0.060 0.539 Sı́la 1081.80 913.94 16.88 1226.66 0.400 Zčas 594.07 229.78 43.40 141.33 101.71 Tabulka 4 Výsledná tabulka odhadů regresnı́ch koeficientů Variable Estimate Intercept Váha Puls Sı́la Zčas -3.61 1.26 -0.52 -0.50 3.90 Standard error 56.10 0.28 0.86 0.24 0.74 t-value P -value -0.06 4.41 -0.60 -2.05 5.21 0.949 0.000 0.548 0.050 0.000 Tabulka 5 Kovariančnı́ matice odhadů regresnı́ch koeficientů Intercept Váha Puls Sı́la Zčas 3147.50 6.62 -30.89 -7.73 -11.23 0.08 -0.08 -0.05 -0.07 0.74 0.08 -0.23 0.06 -0.00 0.55 Tabulka 6 Tabulka shrnujı́cı́ základnı́ údaje o kvalitě modelu Sum of squares Degrees of freedom Scale estimate Coefficient of determination (R squared) The F-value (with 4 and 25 df ) P-value Median of absolute values of all residuals Interquantile of all residua (0.250) (i.e. 2 ∗ α of residuals have been cut away) = = = = = = = = 20551.361 25 28.671 0.853 36.299 0.000 19.307 38.615 Věnujme se nynı́ analýze alespoň některých výše uvedených tabulek. O tom, o čem vypovı́dajı́ odhady střednı́ch hodnot, rozptylů, kovariančnı́ a korelačnı́ matice 63 nenı́ patrně čtenáře těchto skript nutné poučovat. K některým “subtilnějšı́m” otázkám spojeným s těmito údaji se vrátı́me později. Proto se nebudeme Tabulkou 1 a 3 zabývat. Upřesněme jen, že k odhadům střednı́ch hodnot a rozptylů byl použit medián a mediánová absolutnı́ odchylka (median absolute deviation); protože druhý z použitých odhadů nenı́ v obecném povědomı́ dovolı́me si připomenout, že je definován vztahem µ σ̂M AD = 1.483 · med 1≤i≤n ¶ |zi − med (zi )| 1≤i≤n , kde faktor “1.483” je použit proto, aby bylo dosaženo nestrannosti v normálnı́m rozdělenı́. Tabulka 2 obsahuje diagonálnı́ prvky matice X(X T X)−1 X T , tj. “hat” matice. Co tyto prvky udávajı́, se snadno nahlédne z nı́že uvedené rovnosti, viz (62). Pokud je v modelu absolutnı́ člen, tj. je-li prvý sloupec matice X tvořen jedničkami, je prvý sloupec (a tedy také řádek) matice (X T X)−1 roven vektoru nx̄, kde x̄ = (1, Snadno se ověřı́, že n n n 1X 1X 1X xi2 , xi3 , . . . , xip )T . n i=1 n i=1 n i=1 nx̄(X T X)−1 = (1, 0, 0, . . . , 0), nebot’ X T X(X T X)−1 = In , kde In označuje opět jednotkovou matici typu n × n. To ovšem znamená, že 1 (62) (xi − x̄)T (X T X)−1 (xi − x̄) = xTi (X T X)−1 xi − . n Připomeňme si, že k úspěšné verifikaci (62), je třeba mı́t na paměti, že vektor xi má prvou souřadnici rovnou jedničce. To indikuje, že diagonálnı́ prvky udávajı́ vzdálenost, v metrice dané tensorem (X T X)−1 , od x̄, tj. vzdálenost jednotlivých pozorovánı́ od “těžiště oblaku dat”. Znovu podotkněme, že vzdálenost je měřena nikoliv v euklidovské metrice, ale v riemanovské, tj. oproti euklidovské, ve které je přı́slušným tensorem jednotková matice I, je zde použita metrika “adaptovaná” k datům. Často se uvádějı́ přibližná pravidla, udávajı́cı́ jaká ještě může být hodnota i-tého diagonálnı́ho prvku projekčnı́ matice, aniž bychom považovali i-té pozorovánı́ za odlehlé (leverage point) a tı́m vlivné. V monografii Chatterjee, Hadi (1988) je např. uvedena následujı́cı́ tabulka udávajı́cı́ aproximace 95% kvantilů pro diagonálnı́ prvky projekčnı́ matice za předpokladu, že řádky matice plánu (tj. matice X) byly generovány standardnı́m normálnı́m rozdělenı́m (předpokládá se, že n − p > 30). Tabulka 7 Přibližné 95% kvantily pro diagonálnı́ prvky projekčnı́ matice Je-li p většı́ než Aproximace kvantilu 2 2.5p n 2.0p n 1.5p n 6 12 64 Obecně lze však řı́ci, že hodnoty udávané touto aproximacı́ přeceňujı́ skutečné hodnoty kvantilů. V článku´Belsley, Kuh a Welsch (1980) je totiž ukázáno, že pokud jsou řádky matice ³ X̃ = I − n−1 11T X nezávislé a rozdělené dle p-rozměrného normálnı́ho rozdělenı́, je à n − p hii − n−1 L p − 1 1 − hii ! ≈ Fp−1,n−p , kde hii = xTi (X T X)−1 xi . I při předpokladu, že řádky matice X jsou nezávislé p-rozměrné normálně rozdělené náhodné veličiny, řádky matice x̃ nejsou nikdy zcela nezávislé. Nicméně pro rostoucı́ počet pozorovánı́ závislost mezi nimi klesá. Můžeme tedy považovat tento výsledek za aplikovatelný. Odtud snadno dostaneme hkritická (α) ii = Fp−1,n−k + n−p p−1 n−p (p−1)·n + Fp−1,n−p . (63) Následujı́cı́ tabulky ukazujı́ srovnánı́ aproximacı́. Tabulka 8 Srovnánı́ aproximace kvantilů dané vztahem (63) a Tabulkou 7. (Prvá aproximace - dle Tabulky 7 - je označena jako A1, druhá - dle (63) - jako A2). Dimenze modelu p = 3 Dimenze modelu p = 6 Počet pozorovánı́ A1 A2 Počet pozorovánı́ A1 A2 40 60 80 100 150 0.1547 0.1034 0.0776 0.0621 0.0414 0.1875 0.1250 0.0938 0.0750 0.0500 40 60 80 100 150 0.2743 0.1865 0.1410 0.1133 0.0760 0.3750 0.2500 0.1875 0.1500 0.1000 Dimenze modelu p = 7 Dimenze modelu p = 10 Počet pozorovánı́ A1 A2 Počet pozorovánı́ A1 A2 70 100 130 160 190 0.1814 0.1282 0.0991 0.0808 0.0681 0.2000 0.1400 0.1077 0.0875 0.0737 100 130 160 200 240 0.1699 0.1317 0.1075 0.0863 0.0721 0.2000 0.1538 0.1250 0.1000 0.0833 Dimenze modelu p = 14 Dimenze modelu p = 16 Počet pozorovánı́ A1 A2 Počet pozorovánı́ A1 A2 140 180 220 280 340 0.1599 0.1252 0.1029 0.0811 0.0670 0.2000 0.1556 0.1273 0.1000 0.0824 160 200 250 300 400 0.1563 0.1258 0.1010 0.0844 0.0635 0.1500 0.1200 0.0960 0.0800 0.0600 65 Dimenze modelu p = 20 Dimenze modelu p = 24 Počet pozorovánı́ A1 A2 Počet pozorovánı́ A1 A2 200 250 300 400 500 0.1506 0.1211 0.1013 0.0763 0.0611 0.1500 0.1200 0.1000 0.0750 0.0600 250 300 400 500 600 0.1405 0.1176 0.0886 0.0711 0.0593 0.1440 0.1200 0.0900 0.0720 0.0600 Z Tabulky 8 je vidět, že jednoduchá aproximace udaná v Tabulce 7 opravdu přeceňuje kvantily diagonálnı́ch prvků až na přı́pady, kdy dimenze modelu je mezi 16 a 24. Protože zejména pro malé dimenze modelu a malý počet pozorovánı́ jsou hodnoty aproximacı́ dosti odlišné a protože se lze domnı́vat, že vztah (63) je blı́že skutečné hodnotě, je patrně lépe použı́t přı́mo tento vztah. Nynı́ vysvětlı́me obsah Tabulek 4, 5 a 6. Prvá z nich kromě jmen vysvětlujı́cı́ch proměnných, tak jak je zvolı́me na začátku zpracovánı́ dat, shrnuje (ve druhém sloupci) odhady regresnı́ch (LS,n) koeficientů, tj. β̂i , i = 1, 2, . . . , p, a ve třetı́m odhady rozptylů nebo směrodatných odchylek těchto odhadů, tj. bud’ diagonálnı́ prvky matice s2 (X T X)−1 nebo, a to daleko častěji, jejich druhé odmocniny. Je třeba se podı́vat do manuálu, dodaného ke statistické knihovně, kterou právě použı́váme. V našem přı́padě jsou ve třetı́m sloupci směrodatné odchylky odhadů. V předposlednı́m sloupci jsou udány studentizované odhady regresnı́ch koeficientů, tj. hodnoty uvedené ve druhém sloupci jsou vyděleny směrodatnými odchylkami odhadů koeficientů, a konečně pak v poslednı́m sloupci jsou shromážděny pravděpodobnosti toho, že náhodná veličina, která má Studentovo rozdělenı́ o n − p stupnı́ch volnosti překročı́ hodnotu studentizovaného odhadu přı́slušného koeficientu, tj. hodnotu uvedenou ve čtvrtém sloupci. Jedná se tedy o pravděpodobnost µ ¶ −1 (LS,n) P t(n−p) (ω) > s−1 cii 2 β̂i −1 (LS,n) , kde s−1 cii 2 β̂i je přı́slušné čı́slo uvedené v předposlednı́m sloupci Tabulky 4 a i = 1, 2, . . . , p. Z Věty 2 vı́me, že při nulové hypotéze, tj. hypotéze, že přı́slušný regresnı́ koeficient je nulový, je studentizovaný odhad tohoto koeficientu rozdělen dle Studentova t o n − p stupnı́ch volnosti. To znamená, že by neměla výše uvedená pravděpodobnost, pokud hypotéza platı́, být přı́liš malá. Konečně tedy, pokud je v poslednı́m sloupci “dostatečně” malé čı́slo, zamı́tneme hypotézu, že přı́slušný koeficient v modelu je nulový. Z uvedeného plyne, že právě použité slovo “dostatečně” se vztahuje k hladině významnosti, na které se rozhodneme zmı́něnou hypotézu testovat. Pokud např. zvolı́me hladinu významnosti rovnou 5%, pak zamı́tneme hypotézu o nulovosti koeficientu v přı́padě, že tato pravděpodobnost (tj. čı́slo v poslednı́m sloupci) je menšı́ než 0.05. Občas se setkáme s tı́m, že právě uvedená tabulka obsahuje ještě dalšı́ informaci Některé statistické knihovny (např. STATISTICA) vypisujı́ totiž ještě dva dalšı́ sloupce, a to vsunuté hned za sloupec jmen vysvětlujı́cı́ch proměnných. V nich je uvedena informace podobná informaci uvedené v druhém a třetı́m sloupci výše popisované tabulky. Jedná se o odhady regresnı́ch koeficientů a odhady jejich rozptylů, ale nikoliv pro originálnı́ (tj. původnı́) data, ale pro normalizovaná data, která majı́ všechny proměnné transformovány tak, že majı́ nulový průměr a 66 jednotkový výběrový rozptyl. Pro takto normalizovaná data je potom uveden odhad modelu bez absolutnı́ho členu. Mějme model (4), tj. p X Yi = xij βj0 + Ei . (64) j=1 Vysčı́tánı́m přes i, tj. všech řádků matice X, a následným vydělenı́m čı́slem n, dostaneme p X Ȳ = x̄j βj0 + Ē, (65) j=1 kde Ȳ , x̄j a Ē jsou průměry vysvětlované a vysvětlujı́cı́ch veličin a průměr náhodných fluktuacı́. Nynı́ odečteme (65) od (64) a dostaneme Yi − Ȳ = p X (xij − x̄j )βj0 + Ei − Ē. j=1 a konečně vydělenı́m výběrovými rozptyly7 dostaneme p X xij − x̄j βj0 sj Ei − Ē Yi − Ȳ = + . sY sj sY sY j=1 Připomeňme si, že uvažujeme model s deterministickými nosiči a že tedy rozptyl vysvětlované proměnné je shodný s rozptylem náhodných fluktuacı́. Poslednı́ rovnost lze přepsat do tvaru Ỹi = p X x̃ij β̃j0 + Ẽi , i = 1, 2, . . . , n. j=1 Nynı́ se snadno nahlédne, proč je uveden právě model bez absolutnı́ho členu. Pokud je totiž xi1 = 1 pro i = 1, 2, ..., n, je xi1 − x̄1 = 0. Z poslednı́ho vztahu je patrné, proč je tato informace uváděna. V regresnı́m modelu (4) ovlivňujı́ jednotlivé vysvětlujı́cı́ proměnné hodnotu vysvětlované proměnné nejen skrze velikost přı́slušného regresnı́ho koeficientu, ale také tı́m jakou majı́ absolutnı́ velikost. Někdy je však užitečné mı́t představu o tom, jak moc by ta či ona vysvětlujı́cı́ veličina ovlivnila vysvětlovanou veličinu, kdyby všechny byly stejně “variabilnı́”, tj. kdyby měly stejný rozptyl. Proto normalizace na jednotkový rozptyl. Normalizace na nulový průměr nenı́ podstatná v právě popsaném smyslu vlivu absolutnı́ velikosti vysvětlujı́cı́ch veličin na vysvětlovanou veličinu či alespoň nikoliv přı́mo, ale může hrát také podstatnou (zkreslujı́cı́) roli. Z přı́kladu o jasu hvězd, který byl uveden na začátku skript, je vidět, že právě provedená studentizace bude mı́t zavádějı́cı́ výsledky, nebot’ dı́ky čtyřem odlehlým pozorovánı́m, budou průměry jednotlivých souřadnic napozorovaných dat ležet téměř mimo “hlavnı́” oblak dat, na rozdı́l od mediánů, které by posunuly pozorovánı́ tak, že by počátek souřadného systému ležel uprostřed “hlavnı́ho” oblaku dat. Jestliže však posuneme data tak, že počátek souřadné soustavy bude mimo hlavnı́ “oblak” dat a pak “vnutı́me” datům model bez absolutnı́ho členu, bude tento model vypadat tak jakoby počátek byl jeden bod a 7 Samozřejmě pokud uvažujeme model s pevnými nosiči, je toto trochu násilné. Na druhé straně, můžeme to považovat za jakousi transformaci nosičů, která je znormuje na stejnou “velikost”. 67 data druhý bod určujı́cı́ regresnı́ přı́mku. V přı́padě vı́cerozměrných dat bude situace poněkud složitějšı́, ale neadekvátnost modelu bude stejně zřejmá. Vidı́me tedy, že je podstatné, co zvolı́me za “těžiště” dat, zda např. průměry všech veličin, jak je tomu v knihovně STATISTICA, či mediány, či úplně něco jiného. Přirozeně pokud budou data “dostatečně homogennı́” nebude volba např. mezi průměry a mediány moc ovlivňovat konečný výsledek. V přı́padě, kdy data však budou “nezanedbatelně znečištěna” (kontaminována) nějakými chybami v zápise či pozorovánı́mi, která do nich fakticky nepatřı́, či něčı́m jiným, může být výsledek velmi podivný. Modernı́ statistika, která se, alespoň v rozumné mı́ře snažı́ zabezpečit proti kontaminaci dat, proto doporučuje interpretovat tuto informaci v kontextu s celou škálou dalšı́ch, zejména diagnostických informacı́. Tabulka 5 uvádı́ odhad kovariančnı́ matice odhadů, tj. s2 (X T X)−1 . Jedná, až na faktor s2 , o inverznı́ matici k X T X, která je, opět až na faktor n−1 , odhadem kovariančnı́ matice dat, samozřejmě bez vysvětlované proměnné. Proto tato tabulka nepřinášı́ mnoho nové informace a nemá pro interpretaci výsledků regresnı́ analýzy zásadnı́ význam. Poslednı́ tabulka pak shrnuje celkovou informaci o adekvátnosti modelu. Znovu však zdůrazněme, že se jedná pouze o prvnı́ a orientačnı́ informaci. Nenı́ totiž obtı́žné najı́t soubory dat, pro které tyto charakteristiky byly “výborné”, ale model byl odhadnut zcela špatně (správný model jsme bud’ znali, protože data byla simulována, nebo jsme jinou metodou odhadli model, který, po vyloučenı́ malého počtu bodů - jednoho či dvou, vykazoval řádově menšı́ součet čtverců reziduı́, nikoliv však nutně vyššı́ koeficient determinace). K tomu abychom dospěli k přesvědčenı́, že odhadnutý model je adekvátnı́, je nutné provést alespoň několik dalšı́ch diagnostických vyšetřenı́. O těch si budeme povı́dat v některé z dalšı́ch kapitol. Půjde převážně o aposteriornı́ diagnostiku. V Tabulce 6 je udán, kromě jiného, také odhad parametru měřı́tka, či chcete-li odhad směrodatné odchylky (scale estimate). Častěji však bývá udáván odhad rozptylu reziduı́ (variance estimate), někdy bývá uvedeno obojı́. To, co je ve výpise udáno, lze zjistit obvykle v manuálu. Někdy se však ani při pečlivém čtenı́ manuálu prostě nedá zjistit, či spı́še nedá dospět k naprosté jistotě, co daná knihovna vlastně nabı́zı́ a pak je to prostě třeba zkusit na datech, u kterých, dı́ky tomu, že jsme je nejprve zpracovali pomoci softwaru, který známe, vı́me, co má vyjı́t. Právě popsané situace vznikajı́ tı́m, že “softwaráři”, kteřı́ knihovny připravujı́ a pı́šı́ k nim manuály, obvykle použı́vajı́ názvoslovı́, které nenı́ (zcela) totožné s názvoslovı́m použı́vaným v běžných statistických monografiı́ch. Dřı́ve než pokročı́me dále, zastavme se ještě u jedné položky Tabulky 6. I v této tabulce, podobně jako v tabulce s odhady regresnı́ch koeficientů, je uvedena P -value. Tato P -value udává pravděpodobnost, že náhodná veličina rozdělená jako Fisher-Snedecorovo F s p − 1 (přı́padně p) a n − p stupni volnosti překročı́ hodnotu F uvedenou na pátém řádku Tabulky 6, přičemž je tato pravděpodobnost vyčı́slena při platnosti hypotézy, že IE Y = γ · 1, je-li v modelu absolutnı́ člen, či IE Y = 0, je-li model bez absolutnı́ho členu (viz Lemma 8). To znamená, že pokud hodnota na šestém řádku Tabulky 6 je menšı́ než zvolená hladina významnosti, zamı́tneme hypotézu, že vysvětlovaná proměnná je nezávislá na vysvětlujı́cı́ch faktorech a akceptujeme odhadnutý model. Uvědomme si však, že to nenı́ potvrzenı́ platnosti modelu, nebot’ se jedná o statistický test a tedy jeho výrok řı́ká, že je patrně vhodné zamı́tnout hypotézu, že je vysvětlovaná veličina nezávislá na vysvětlujı́cı́ch. Snadno si ale umı́me představit, že modelů popisujı́cı́ch závislost mezi těmito (náhodnými) veličinami může být nespočet. 68 Většina statistických počı́tačových knihoven, ne-li všechny, nabı́zı́ vyčı́slenı́ dalšı́ch charakteristik “vhodnosti” modelu či testů toho, zda předpoklady, za kterých jsme výše v tomto textu odvozovali optimalitu odhadu β̂ (LS,n) , jsou (alespoň přibližně) splněny. Jednı́m z nejznámějšı́ch testů je nepochybně Durbin-Watsonova statistika, testujı́cı́ nezávislost náhodných fluktuacı́ mezi sebou. Často jsou však k dispozici i různé typy statistik dobré shody (byt’ je uživatel musı́ hledat v jiných oddı́lech než v regresi), různé typy diagnostických grafů atd. Všechny tyto možnosti budeme diskutovat později. Nynı́ se však ještě na moment zastavme u problému, který má mnoho společného s právě popisovanými tabulkami. Někdy se totiž stane, že výsledky v Tabulce 4 indikujı́, že je do modelu zahrnuto několik vysvětlujı́cı́ch proměnných, které nejsou signifikantnı́ pro vysvětlenı́ vysvětlované veličiny. Jejich P -hodnoty jsou totiž (značně) velké. Vypustı́me-li však tyto proměnné a přepočı́táme-li model, klesne povážlivě koeficient determinace. Takový model nás přirozeně neuspokojı́ a my se rozhodneme některou vyloučenou proměnnou do modelu vrátit. S podivem zjistı́me, že nynı́ má tato proměnná P -hodnotu velmi malou, což signalizuje, že v modelu patrně hraje signifikantnı́ roli. Vysvětlenı́ je samozřejmě prosté. Ve verzi modelu, se kterou jsme začali naši analýzu, bylo několik proměnných, které byly vı́ce či méně, nicméně dostatečně lineárně závislé, tak aby se “přetahovaly ve snaze vysvětlit” Y . Jednou z nejčastěji se objevujı́cı́ch situacı́, kdy tento “jev” nastává, je situace, kdy variabilita některé vysvětlujı́cı́ proměnné malá ve srovnánı́ s variabilitou vysvětlované proměnné. Potom tato vysvětlujı́cı́ proměnná “soupeřı́ o vliv” s absolutnı́m členem. Problém bývá označován v regresnı́ analýze jako problém kolinearity (či multikolinearity) a budeme jej studovat později. Ted’ si však dovolme si ještě jednu, v podstatě technickou poznámku. Někdy se stane, že při regresnı́ analýze provedené pomocı́ některé statistické počı́tačové knihovny narazı́me na “záhadu”, která je evidentně podivná už na prvnı́ pohled, ale jen na ten, jak ihned uvidı́me. Stane se totiž, že výsledky Tabulky 4 napovı́dajı́, že absolutnı́ člen je v modelu nevýznamný. Po zmenšenı́ počtu vysvětlujı́cı́ch proměnných o absolutnı́ člen dojde nutně ke zvýšenı́ hodnoty reziduálnı́ho součtu čtverců a tedy intuitivně cı́tı́me, že i ke zhoršenı́ determinace modelu. Přesto však se hodnota koeficientu determinace zvýšı́. Jak je to možné? Odpověd’ je skryta v Definici 1. V prvém přı́padě totiž počı́tač vyčı́slil koeficient determinace vůči nulové hypotéze IE Y = γ · 1, v druhém přı́padě tak učinil vůči hypotéze IE Y = 0. To P ovšem implikuje, že za R02 bylo v prvém přı́padě vzata suma ni=1 (Yi − Ȳ )2 , v druhém přı́padě P to byla suma ni=1 Yi2 , která je vždy, a někdy může být dokonce podstatně, většı́ než ta prvnı́. Vliv tohoto faktu na hodnotu koeficientu determinace je nynı́ již snadno nahlédnutelný. Ne ve všech učebnicı́ch regerse se zdůrazňuje fakt, že je patrně vhodnějšı́ počı́tat vždy, pokud proti tomu nejsou opravdu závažné důvody, model s absolutnı́m členem a to i v přı́padě, že se dle studentizovaných statistik jevı́ jako nevýznamný. Toto doporučenı́ vycházı́ z faktu, že absolutnı́ člen hraje trochu jinou úlohu v modelu než ostatnı́ regresnı́ koeficienty, které udávajı́ sklon regresnı́ nadroviny. Pokusme se to blı́že vysvětlit. Předpokládejme, že naše data jsou umı́stěna daleko od počátku. Uvědomı́me-li si, že absolutnı́ člen je souřadnicı́ bodu, ve kterém regresnı́ nadrovina protı́ná y-novou osu, tj. osu na kterou nanášı́me hodnoty vysvětlované proměnné, snadno nahlédneme, že malá změna ve sklonu regresnı́ nadroviny způsobı́ velkou změnu absolutnı́ho členu. Na druhé straně malá změna ve sklonu regresnı́ nadroviny způsobı́ jen malou změnu v predikcı́ch učiněných v oblasti dat nebo 69 v jejich blı́zkém okolı́. Zde je třeba mı́t na paměti to, že smyslplné predikce lze provádět pouze v té oblasti faktorového prostoru, kterou pokrývala “trénovacı́” data, tj. data, ze kterých jsme odhadovali model. Odtud je vidět, že všechny úvahy o signifikantnosti absolutnı́ho členu jsou podmı́něné polohou dat ve faktorovém prostoru. Na druhé straně, obvykle chceme, aby naše závěry byly v jistém smyslu invariantnı́. Např. pokud jen posuneme data ve faktorovém prostoru a neprovedeme nějaké jejich otočenı́, patrně opodstatněně očekáváme, že predikce provedené pomocı́ modelů na původnı́ch a posunutých datech se budou lišit právě je tı́m posunutı́m. To však vı́ce méně vyžaduje, aby začleněnı́ absolutnı́ho členu do modelu bylo nezávislé na posunutı́ dat. To implikuje, že úvahy o signifikantnosti absolutnı́ho členu majı́ tedy smysl pouze tehdy, pokud je tato poloha v jakémsi smyslu “absolutnı́”. Pak ovšem zase naopak ztrácejı́ smysl úvahy o invarianci odhadu a to může mı́t dalekosáhlé důsledky pro volbu odhadu, tj. můžeme pak dát přednost jinému odhadu než je odhad metodou nejmenšı́ch čtverců. Dřı́ve než uzavřeme tento odstavec, dovolı́me se dotknout jednoho problému, který svou svůdnostı́ připomı́ná Skyllu (či Charibdu). Jednoduše a snad i výstižně by se tento problém dal označit jako unáhlené závěry vyvozené ze znaménka odhadů regresnı́ch koeficientů. Ačkoliv po krátké diskuzi snadno nahlédneme, jak zavádějı́cı́ mohou být úvahy opřené o znaménko odhadu přı́slušného regresnı́ho koeficientu, stále se ještě objevujı́ a to i v jinak docela seriznı́ch článcı́ch. O co se jedná? Problém je patrně, kromě jiného, v tom, že v řadě učebnı́ch textů o regresnı́ analýze nenı́ bud’ vůbec, či je jen velmi povrchně diskutována otázka, jak interpretovat výsledky regresnı́ analýzy. Toto opomenutı́ pak způsobı́, že se můžeme setkat s výroky typu: “Znaménka odhadů regresnı́ch koeficientů vyšla v souladu s našimi představami o kauzálnı́ch souvislostech, nebot’ nárůst hladiny δ-terfendinu (jedna z vysvětlujı́cı́ch proměnných) by měl negativně ovlivňovat adrenergnı́ stimulaci (vysvětlovaná proměnná) pacienta”. Při takovéto interpretaci výsledků regresnı́ analýzy je však zcela opominut fakt, že uvolňovánı́ δ-terfendinu je spojeno s úbytkem κ-histaminu a η-proteinu (jiné dvě vysvětlujı́cı́ proměnné), v řeči statistiky, jedna z vysvětlujı́cı́ch proměnných je téměř nepřı́mo úměrná dalšı́m dvěma. Tudı́ž nárůst hladiny δ-terfendinu vyvolá, až na statistické odchylky, pokles κ-histaminu a η-proteinu a celkový dopad na adrenergnı́ stimulaci může být pozitivnı́, tj. zcela jiný než napovı́dajı́ jednotlivá znaménka (či velikosti) odhadů regresnı́ch koeficientů. Jinými slovy, při interpretaci výsledků regresnı́ analýzy je třeba posuzovat model komplexně, tj. je nutné vzı́t v úvahu rovněž vzájemnou závislost (a jejı́ mı́ru, či stupeň, chcete-li) mezi vysvětlujı́cı́mi proměnnými, a to bohužel u každého jednotlivého subjektu. Vysvětleme to podrobněji. Prvnı́ domněnka, která nás napadne bude to, že právě popsaná situace je důsledkem (vysoké) korelovanosti některých vysvětlujı́cı́ch proměnných. Tuto vysokou korelovanost jsme vyjádřili slovy “téměř nepřı́mo úměrné”. Odtud je jen krok k dohadu, že tato korelovanost by se měla projevit v kolinearitě. O té se budeme bavit později podrobně a proto nynı́ jen krátce vysvětleme, že kolinearita je právě označenı́ pro situaci, kdy jsou některé vysvětlujı́cı́ proměnné téměř lineárně závislé. Zdůrazněme ještě jednou, že se jedná o situaci, kdy jsou regresory téměř lineárně závislé, přičemž důraz je jak na slově téměř, tak na slově lineárně. K prvnı́mu z těchto dvou slov znovu připomeňme, že např. pro dvourozměrné normálnı́ rozdělenı́ “vrstevnice na hustotě” budou výrazněji eliptického tvaru s možnostı́ alespoň náznaku jakési intervalové predikce jedné souřadnice při znalosti té druhé až pro absolutnı́ hodnoty korelačnı́ho koeficientu alespoň 70 0.6 či spı́še 0.8. Podobně druhé slovo je důležité, nebot’ kolinearita, jak ostatně název napovı́dá, bude indikována jen při lineárnı́m vztahu mezi regresory. Ostatně si je lehké představit, že např. ve chvı́li, kdy se budeme domnı́vat, že vysvětlovaná proměnná je polynomiálně závislá na některé vysvětlujı́cı́ proměnné, prostě zařadı́me do matice plánu sloupce představujı́cı́ vyššı́ mocniny této vysvětlujı́cı́ proměnné. Pokud bude variabilita této proměnné v datech dosti vysoká, nezpůsobı́ to kolinearitu, ale výše zmı́něný problém to dokáže vyvolat zcela perfektně. Ve výše citovaném přı́kladě by naprosto analogická situace vznikla pokud by např. κ-histamin byl (téměř) kvadraticky závislý na δ-terfendin a podobně η-protein (téměř) závislý na δ-terfendin ve třetı́ mocnině. Problém tedy je v tom, že kolinearita nemusı́ být indikována z toho důvodu, protože tam prostě nenı́. Navı́c výše zmı́něná téměř nepřı́má úměrnost může mı́t u každého pacienta jiný průběh a tudı́ž v celém souboru dat o n pacientech tuto téměř nepřı́mou úměrnost prostě nezjistı́me. Snadno si lze představit, že pokud bude většı́ nepřı́má úměrnost mezi δ-terfendinem a κ-histaminen “kompenzována” menšı́ nepřı́mou úměrnostı́ mezi δ-terfendinem a η-proteinem u jednoho subjektu (pacienta) a u jiného tomu bude naopak, nebudou prostě data žádnou kolinearitu vykazovat, ale výše uvedený efekt bude opět bez problému fungovat. Proto je třeba přistupovat k interpretaci odhadů regresnı́ch koeficientů a dokonce i jejich znamének velmi obezřetně. Zejména vyvozovánı́ jakýchkoliv kauzálnı́ch, či “skoro” kauzálnı́ch závěrů je velmi riskantnı́. Na závěr ještě poznamenejme, že pokud však jsou naše představy o kauzalitě založeny na dobře obhajitelných úvahách (např. rozloha mı́stnosti je patrně přı́mo úměrná délce jejich stěn), pak samozřejmě můžeme tyto “představy” použı́t jako “diagnostickou” informaci pro posouzenı́ adekvátnosti modelu. Na druhé straně, je pojem kauzality třeba brát, vzhledem k vývoji vědy a zejména filosofie vědy v druhé polovině dvacátého stoletı́, s náležitou rezervou a opatrnostı́. To znamená, pokud jsou naše představy o kauzalitě spı́še hypotézami, které si snažı́me empirickou studiı́ potvrdit, nejsou výše uvedené úvahy o “správném” znaménku odhadů regresnı́ch koeficientů vůbec namı́stě. 5.2 Grafy reziduı́ Jednı́m z běžně použı́vaných nástrojů diagnostiky jsou grafické metody. Je zřejmé, že na rozdı́l od testů, které na předem zvolené hladině jednoznačně otestujı́ např. hypotézu o normalitě či homoskedasticitě reziduı́, grafické medoty spı́še napovı́dajı́ cosi o porušenı́ těchto hypotéz. Jejich výhodou je však to, že jsou snadno dostupné v mnoha statistických knihovnách, obvykle na jedno kliknutı́ myši, a navı́c to, že často tvar grafu či poloha bodů na grafu indikujı́, které body jsou atypické, přı́padně co je důvodem porušenı́ předpokladu. Konečně pak někdy napovědı́ možný způsob nápravy situace. Poznamenejme však, že přirozeně problém nenı́ zda použı́vat raději grafické metody či rigiroznı́ testy. Měli bychom využı́vat obojı́ ! Nynı́ si dovolı́me popsat některé nejběžněji použı́vané grafické metody. Dřı́ve však než se do toho pustı́me, připomeňme, že jsme předpokládali, že data jsou generována modelem Yi = xTi β 0 + Ei , i = 1, 2, . . . , n, (66) ve kterém posloupnost {Ei }∞ i=1 je posloupnostı́ nezávislých stejně rozdělených náhodných veličin. Ač je to samozřejmé, připomeňme, že z toho, že veličiny Ei , i = 1, 2, . . . jsou stejně rozdělené 71 plyne, že majı́ stejný rozptyl. Situaci, kdy všechny náhodné fluktuace majı́ stejný rozptyl, řı́káme homoskedasticita a opačné, tj. takové, kdy rozptyl všech náhodných fluktuacı́ nenı́ stejný, heteroskedasticita. Často, a hned poznamenejme, že až přı́liš často a mnohdy evidentně neoprávněně, předpokládáme, že se fluktuace řı́dı́ normálnı́m rozdělenı́m. Normalita reziduı́, jejich homoskedasticita, vzájemná nezávislost a nezávislost s regresory, pokud je adekvátnějšı́ tyto pokládat za náhodné, jsou základnı́mi předpoklady pro úspěšné provedenı́ regresnı́ analýzy pomocı́ nejmenšı́ch čtverců. Grafické metody jsou jednou z možnostı́ jak ověřit prvé dva z těchto předpokladů. Mezi nejznámějšı́ grafické nástroje patřı́ následujı́cı́ dva typy grafů. Prvnı́ typ je založen na myšlence, která řı́ká: Pokud majı́ všechny náhodné fluktuace stejný rozptyl nesmı́ graf, ve kterém vyneseme rezidua proti některé jiné veličině, např. indexu pozorovánı́ (index plot), některé vysvětlujı́cı́ proměnné či některé jiné charakteristice jednotlivého pozorovánı́ vykazovat žádnou pravidelnost. Pokud dojde k nějaké “pravidelnosti”, např. rezidua budou vı́ce rozptýlena pro vyššı́ hodnoty indexů, je pravděpodobné, že hypotéza o homoskedasticitě nenı́ namı́stě. Podobně, pokud vyneseme rezidua proti některé vysvětlujı́cı́ proměnné a objevı́me nějakou pravidelnost, je lépe nepředpokládat homoskedasticitu. Někdy se doporučuje vynášet rezidua proti vyhlazeným (či chcete-li, vyrovnaným) hodnotám vysvětlované proměnné. Za tı́mto doporučenı́m stojı́ myšlenka, že se tı́m posoudı́ vliv všech vysvětlujı́cı́ch proměnných na velikost rozptylu náhodných fluktuacı́ najednou. Přitom vliv jednotlivých vysvětlujı́cı́ch proměnných je zvážen ve stejném poměru v jakém se podı́lejı́ na predikovánı́ střednı́ hodnoty vysvětlované proměnné. Druhý typ grafu je konstruován tak, že se vynášejı́ rezidua proti kvantilům toho rozdělenı́, o kterém se domnı́váme, že se jı́m řı́dı́ náhodné fluktuace v našem modelu. Abychom nahlédli heuristiku druhého typu grafů, stačı́ si uvědomit, že pokud bychom stáli před úkolem odhadnutı́ α-kvantilu pro jednorozměrná data o rozsahu n postupovali bychom takto. Seřadili bychom pozorovánı́ dle velikosti a za odhad α-kvantilu bychom vzali pozorovánı́ stojı́cı́ na k-tém mı́stě v této uspořádané řadě, pro k = [n · α], kde [n · α] je největšı́ celé čı́slo, které je menšı́ n · α. Podle Glivenkovy věty (Glivenko (1933), Rao (1978)) konverguje tento odhad α-kvantilu k teoretické hodnotě α-kvantilu. To znamená, že pokud jsou rezidua rozdělena normálně a jestliže je seřadı́me dle velikosti, měla by tato uspořádaná rezidua být přibližně rovna odpovı́dajı́cı́m kvantilům normálnı́ho rozdělenı́. Vyneseme-li tedy do grafu uspořádaná rezidua proti kvantilům normálnı́ho rozdělenı́, měl by takový graf tvořit přibližně přı́mku. Pokud tedy obdržı́me cosi, co je značně odlišné od přı́mky, je nerozumné trvat na hypotéze normality. Na závěr této kapitoly se ještě zmiňme o grafu, který se svým charakterem vymyká z běžných grafů reziduı́. Umožňuje totiž graficky nahlédnout vliv jednoho pozorovánı́, který budeme studovat nı́že. Graf bývá ve statistických knihovnách označován jako Residuals and deleted residuals a bývá v něm pro každý bod vyneseno vždy jeho rezı́duum v modelu budovaném na základě všech dat proti rezı́duu tohoto bodu, ale v modelu, který byl odhadnut na základě dat, ze kterých byl právě tento bod vyloučen. Přirozeně heuristika, která je za tı́mto grafem je snadno pochopitelná. Je-li přı́slušný bod vlivný, pak modely odhadnuté na základě všech bodů a na základě dat neobsahujı́cı́ch tento bod budou (podstatně) odlišné, ve smyslu velikosti rezidua pro tento bod, tj. ve smyslu vysvětlovánı́ funkčnı́ hodnoty modelu v tomto bodě, a tedy přı́slušný body v grafu ležı́ daleko od hlavnı́ diagonály. Pokud se tedy na displeji objevı́ body, které jsou 72 (velmi) daleko od hlavnı́ diagonály, je možné pojmout podezřenı́, že tyto body jsou vlivné či atypické, a je třeba jim věnovat dalšı́ pozornost. Na druhé straně, snadno si domyslı́me i slabiny tohoto grafu. Vypuštěnı́ jednoho bodu z dat může mı́t docela podstatný vliv na odhady hodnot regresnı́ch koeficientů, což se může, ale ve vı́cerozměrném přı́padě také nemusı́, projevit na hodnotách reziduı́. Přirozeně však se tato změna reziduı́ může týkat daleko vı́ce jiných bodů, než právě toho, který byl z dat vypuštěn. Nezbývá tedy než znova apelovat na to, že žádný diagnostický prostředek by neměl být použı́ván slově, ale k vytvořenı́ si představy o “oprávněnosti” modelu by měly být využity všechny diagnostické prostředky, které jsou v té knihovně, kterou použı́váme, k dispozici. Toto tvrzenı́ jistě platı́ i naopak: neměli bychom použı́vat knihovnu, která nenabı́zı́ slušnou škálu diagnostických nástrojů, viz např. tabulkové procesory. 6 OVĚŘOVÁNÍ ZÁKLADNÍCH PŘEDPOKLADŮ Jak jsme uvedli na konci prvnı́ kapitoly, považujeme za základnı́ předpoklady regresnı́ analýzy splněnı́ podmı́nek A, tj. nulovost střednı́ hodnoty náhodných fluktuacı́, jejich homoskedasticitu a vzájemnou nezávislost, a dále pak jejich normalitu a přı́padně nezávislost na vysvětlujı́cı́ch proměnných. V této kapitole se naučı́me testovat, přirozeně aposteriorně na základě reziduı́, jejich splněnı́. Pokud je v modelu intercept, a výše jsme uvedli argumenty, doporučujı́cı́ jej v modelu vždy podržet, jedna z normálnı́ch rovnic zaručuje nulovost průměru reziduı́. To znamená, že co se týká předpokladu o nulovosti střednı́ hodnoty náhodných fluktuacı́, nenı́ co testovat. Budeme se tedy věnovat vyšetřovánı́ dalšı́ch předpokladů. 6.1 Homoskedasticita a heteroskedasticita Jak plyne z názvu tohoto odstavce, budeme si nynı́ povı́dat o homoskedasticitě a heteroskedasticitě, jejich testovánı́, přı́padně modelovánı́. Při odvozovánı́ dosud uvedených výsledků jsme předpokládali homoskedasticitu. Zdálo by se tedy logické nejprve uvést testy homoskedasticity, poté popsat nejběžnějšı́ modely heteroskedasticity a konečně pak jejı́ vliv na β̂ (LS,n) . Vzhledem k tomu, že přinejmenšı́m některé testy homoscedasticity vyžadujı́ popsánı́ alternativy, tj. popsánı́ modelu heteroskedasticity, začneme vlastně od konce, totiž popisem modelů heteroskedasticity. Dnes se často v rámci teorie časových řad a dynamické verze regresnı́ho modelu tyto modely rozptylu označujı́ jako modely volatility. Dřı́ve však než se budeme věnovat těmto modelům, pokusme se zamyslet nad tı́m, kdy může být předpoklad o homoskedasticitě (evidentně) porušen. 6.1.1 Přı́klady situacı́ s heteroskedastickými fluktuacemi Jednı́m z typických přı́kladů z mikroekonomie, kdy je téměř evidentnı́, že předpoklad homoskedasticity je přinejmenšı́m diskutabilnı́, je model výdajů domácnostı́. Zdá se přirozené, že ty domácnosti, které majı́ menšı́ přı́jmy, budou mı́t také menšı́ rozptyl ve svých výdajı́ch, neboli stojı́-li výdaje domácnosti at’ už v roli vysvětlované či vysvětlujı́cı́ veličiny, je velikost náhodných fluktuacı́ závislá od této veličiny, viz Prais, Houthakker (1955) nebo Theil (1971) . Jinými slovy rozptyl náhodných fluktuacı́ nenı́ nezávislý od (indexu) pozorovánı́. Kromě právě zmı́něného přı́kladu bývá v literatuře nejčastěji připomı́nána situace, kdy naše data vznikla jako zprůměrované hodnoty, např. přes vı́ce jedinců, přes některé teritorium, v 73 průběhu některého časového intervalu a pod., a dále pak model, ve kterém jsou regresnı́ koeficienty náhodné. Přirozeně se předpokládá malá odchylka od jakési jejich střednı́ hodnoty, malá v porovnánı́ s hodnotou těchto koeficientů. Krátce popišme oba přı́klady. Předpokládejme, že dat jsou rozdělena do K skupin, v každé skupině je nk jedinců, celkový P počet jedinců je tedy n = K k=1 nk a platı́ model Yi = xTi β 0 + Ei , i = 1, 2, ..., n, (67) ve kterém IE EE T = σIn , kde jako obvykle E = (E1 , E2 , ..., En )T a kde jedinci s indexem i, n1 + n2 + ... + nk−1 < i ≤ n1 + n2 + ... + nk patřı́ do k-té skupiny. Nynı́ předpokládejme, že máme k dispozici pouze průměry přes jednotlivé skupiny, tj. jsou nám přı́stupné pouze hodnoty Ȳk , x̄k , k = 1, 2, ..., K, kde 1 nk Ȳk = i=n1 +n 2 +...+nk X Yi x̄k = i=n1 +n2 +...+nk−1 1 nk i=n1 +n 2 +...+nk X xi , i=n1 +n2 +...+nk−1 kde v poslednı́m výraze je samozřejmě naznačená operace mı́něna po složkách přı́slušných vektorů. Z (67) plyne Ȳk = x̄Tk β 0 + Ēk , k = 1, 2, ..., K, (68) kde samozřejmě Ēk = 1 nk i=n1 +n 2 +...+nk X Ei i=n1 +n2 +...+nk−1 je nepřı́stupné měřenı́ a představuje jakési “zprůměrované” náhodné fluktuace. Je patrné, že IE Ēk = 0, ale 2 i=n1 +n 2 +...+nk X 1 IE Ēk2 = 2 IE nk i=n Ei = 1 +n2 +...+nk−1 σ2 nk σ 2 = , nk n2k neboli fluktuace v modelu (68) jsou heteroskedastické. Naštěstı́ IE Ēk Ēj = 0 pro k 6= j (dı́ky tomu, že v přı́slušných sumách vystupujı́ nekorelované náhodné veličiny) a tedy ( T IE Ē Ē = diag σ2 σ2 σ2 , , ..., n1 n2 nK ) , kde diag {a, b, ..., c} označuje diagonálnı́ matici s uvedenými prvky na diagonále. To znamená, že zobecněný odhad metodou nejmenšı́ch čtverců bude mı́t jednoduchý tvar β̂ (GLS,n) = à !−1 K X σ2 k=1 nk −1 à !−1 K X σ2 x̄k x̄Tk k=1 nk Ȳk x̄k = (K X nk x̄k x̄Tk k=1 )−1 K X nk Ȳk x̄k . k=1 Protože počty jedinců nk v jednotlivých třı́dách jsou obvykle známé, je možné tento odhad přı́mo vyčı́slit. Poněkud jiná situace nastává v přı́padě, kdy předpokládáme, že regresnı́ koeficienty fluktuujı́, poněkud a samozřejmě ne přı́liš, okolo jakési své střednı́ hodnoty. Předpokládejme tedy model Yi = xTi β(i) + Ei , i = 1, 2, ..., n, 74 (69) n on 0 = β 0 +V p kde β(i) je posloupnost náhodných vektorů. Poprvé byl (i) s tı́m, že V(i) ∈ R a V(i) i=1 takový model studován v práci Hildreth a Houck (1968), kde autoři předpokládali, že vektory V(i) jsou nezávislé a stejně rozdělené a s navzájem nezávislými souřadnicemi, které majı́ nulové střednı́ hodnoty a pozitivnı́ rozptyly αj , j = 1, 2, ..., p. Potom můžeme model (69) přepsat do tvaru ³ ´ Yi = xTi β 0 + V(i) + Ei = xTi β 0 + Ui , i = 1, 2, ..., n, P kde ovšem Ui = Ei + xTi V(i) a tedy IE Ui = 0, ale σi2 = IE Ui2 = pj=1 αj x2ij . Položı́meª © li tedy U = (U1 , U2 , ..., Un )T , máme IE U U T = diag σ12 , σ22 , ..., σn2 . Jinými slovy kovariančnı́ matice náhodných fluktuacı́ je diagonálnı́, ale nenı́ úměrná jednotkové matici. V obou uvedených přı́kladech tedy opět nenı́ rozptyl náhodné fluktuace i-tého pozorovánı́ nezávislý od indexu i. Povšimněme si, a v textu jsme to záměrně zdůraznili, že to co jsme rozuměli na začátku výkladu v těchto skriptech pod homoskedasticitou byla konstantnost rozptylu náhodných fluktuacı́. Z té samozřejmě plyne, v přı́padě modelu s deterministickými vysvětlujı́cı́mi proměnnými, i konstantnost rozptylu vysvětlované veličiny. V přı́padě modelu s náhodnými vysvětlujı́cı́mi veličinami, však toto neplatı́ a i v přı́padě, že bude zachována homoskedasticita náhodných fluktuacı́, bude mı́t vysvětlovaná proměnná obecně rozptyl závislý na indexu i. To však nebude na závadu eficientnosti odhadu β̂ (LS,n) , pokud tyto vysvětlujı́cı́ proměnné budou nekorelované s náhodnými fluktuacemi; vše si vysvětlı́me nı́že, v odstavci o instrumentálnı́ch proměnných. Pokud bychom ve výše uvedených přı́kladech aplikovali odhad β̂ (LS,n) , nedostaneme eficientnı́ odhady regresnı́ch koeficientů. Na druhé straně, přı́má aplikace odhadu β̂ (GLS,n) nenı́ (obvykle) možná, nebot’ nejsou známé hodnoty σi2 . K jejich vyčı́slenı́ bychom potřebovali znát vektor α, což je ovšem nerealistický předpoklad. Běžně se tato situace řešı́ tak, že neznámé parametry, v našem přı́padě souřadnice vektoru α, odhadneme a dosadı́me do vztahu pro β̂ (GLS,n) . Mluvı́me potom o estimated generalized least squares estimator, česky patrně (kostrbatě) zobecněném odhadu metodou nejmenšı́ch čtverců s odhadnutými parametry. Tento odhad bude v dalšı́m označován jako β̂ (EGLS,n) . Dřı́ve než postoupı́me dále, poznamenejme ještě, že pokud je kovariančnı́ matice náhodných fluktuacı́ diagonálnı́, ale nenı́ úměrná jednotkové matici, mluvı́me často o váženém odhadu metodou nejmenšı́ch čtverců. Snadno se totiž nahlédne, že β̂ (GLS,n) je běžným odhadem metodou nejmenšı́ch čtverců v modelu Yi xT Ei = i β 0 + , i = 1, 2, ..., n. σi σi σi Popišme nynı́ alespoň nejběžněji studované modely pro rozptyl náhodných fluktuacı́. 6.1.2 Modely heteroskedasticity Je naprosto přirozené, že v přı́padě, kdy pojmeme podezřenı́, že náhodné fluktuace v regresnı́m modelu nejsou homoskedastické (a přı́padně se toto podezřenı́ potvrdı́ některým nı́že uvedeným testem), se pokusı́me složitějšı́ kovariančnı́ strukturu náhodných fluktuacı́ namodelovat a odhadnout parametry navrženého modelu. Nejjednoduššı́m se přirozeně jevı́ použı́tı́ některého regresnı́ho modelu, ve kterém “ještě jednou” použijeme informaci, která je obsažena ve zpracovávaných datech k namodelovánı́ zmı́něné kovariančnı́ struktury. Obecně se může stát, že relevantnı́ vysvětlujı́cı́ proměnné pro model kovariančnı́ struktury náhodných fluktuacı́ budou různé 75 od relevantnı́ch vysvětlujı́cı́ proměnných v původnı́m regresnı́m modelu. Toto bude formálně reflektováno v nı́že uvedených vztazı́ch, byt’ samozřejmě ve většině aplikacı́ se bude jednat o ty samé proměnné. Dřı́ve než se budeme věnovat jednotlivým modelům heteroskedasticity připomeňme, že v přı́padě heteroskedasticity, pokud chceme dosáhnout eficientnı́ho dohadu, musı́me použı́t zobecněný odhad β̂ (GLS,n) . To implikuje, že pokud bychom nebyli schopni odhadnout kovariančnı́ matici Σ, nemůžeme v tomto úsilı́ uspět. Na druhé straně, za docela obecných podmı́nek můžeme, podobně jako jsme to provedli výše, dokázat asymptotickou normalitu odhadu β̂ (GLS,n) , tj. ukázat, že L ´ ³√ n(β̂ (GLS,n) − β 0 ) → N (0, Q−1 V Q−1 ), kde se předpokládá, že existuje regulárnı́ matice Q jakožto limita výrazů n1 xT x a matice V jakožto limita výrazů n1 xT Σx. A za určitých podmı́nek (viz např. Eicker (1967), White (1980) P nebo Nicholls, Pagan (1983)) lze ukázat, že V̂ = n1 ni=1 ri2 xi xTi (kde ri = Yi − xTi β̂ (LS,n) ) je konsistentnı́m odhadem V . To znamená, že budemeli chtı́t např. testovat hypotézu, že Cβ 0 = κ, kde C je matice typu (` × p) a plné hodnosti, a κ ∈ R` , můžeme použı́t toho, že à L [C(β̂ · (LS,n) 0 T − β )] ³ T C X X ´−1 T ³ T X ΣX X X ´−1 T C ! ¸−1 [C(β̂ (LS,n) 0 − β )] → χ2 (`). Jinými slovy to znamená, že některé hypotézy o regresnı́ch koeficientech je možné testovat bez toho, že bychom odhadli matici Σ (tj. bez bližšı́ specifikace kovariančnı́ sktuktury náhodných fluktuacı́). Směrodatná odchylka jako lineárnı́ funkce vysvětlujı́cı́ch proměnných Uvažujme lineárnı́ regresnı́ model Yi = xTi β 0 + Ei i = 1, 2, ..., n (70) s kovariančnı́ strukturou náhodných fluktuacı́ danou následovně: ³ IE Ei = 0, IE Ei Ej = 0, IE Ei2 = ziT α ´2 i 6= j = 1, 2, ...n., (71) kde {zi }ni=1 je posloupnost nenáhodných s-rozměrných vektorů a α ∈ Rs je vektor regresnı́ch koeficientů popisujı́cı́ kovariančnı́ strukturu náhodných fluktuacı́. Jak jsme už podotkli výše, posloupnost {zi }ni=1 může, ale nemusı́ být různá od posloupnosti {xi }ni=1 . Často navı́c předpokládáme, že náhodné veličiny Ei , i = 1, 2, ..., n jsou nezávislé či že n jejich rozdělenı́ je stejného typu, tj. lišı́ o T T T T se pouze velikostı́ rozptylu. Protože Σ = IE EE = diag z1 α, z2 α, ..., zn α , máme β̂ (GLS,n) = à n X !−1 n X i=1 i=1 (zi α)−2 xi xTi (zi α)−2 xi Yi . Je ovšem nerealistické předpokládat, že budeme znát vektor α, jinými slovy to znamená, že je třeba odhadnout tento vektor a použı́t odhad β̂ (EGLS,n) . K návrhu vhodného odhadu pro α může vést následujı́cı́ úvaha. Předpokládejme nadále, že typ rozdělenı́ velčin Ei , i = 1, 2, ..., n je pro všechny stejný. Z (71) pak plyne, že studentizované veličiny σ1−1 E1 , σ2−1 E2 , ..., σn−1 En jsou 76 stejně rozdělené a tedy IE σi−1 Ei = c, i = 1, 2, ...n, kde c ∈ R+ . Toto neznamená nic jiného než, že IE σi Ei = cσi , i = 1, 2, ...n, a tedy můžeme psát |ri | = ziT α + Vi , (72) kde ri = Yi −xTi β̂ (LS,n) a Vi , i = 1, 2, ..., n je vhodná posloupnost náhodných veličin (je okamžitě vidět, že Vi = |ri | − IE |Ei |). Odtud ³ cα̂(LS,n) = Z T Z ´−1 Z T |r|, kde Z = (z1 , z2 , ...zn )T a r = (r1 , r2 , ..., rn )T a konečně β̂ (EGLS,n) = à n X (zi α̂ (LS,n) −2 ) xi xTi !−1 n X (zi α̂(LS,n) )−2 xi Yi i=1 = à n X (czi α̂ i=1 (LS,n) −2 ) xi xTi !−1 n X (czi α̂(LS,n) )−2 xi Yi . i=1 (73) i=1 Problémy ovšem nastanou pokud chceme odhadnout kovariančnı́ matici tohoto odhadu, nebot’ tam se projevı́ fakt, že neznáme a ani jednoduše neumı́me odhadnout c. Dalšı́ problémem je samozřejmě to, že cα̂(LS,n) ani zdaleka nemusı́ být dobrým odhadem cα. Protože i v přı́padě heteroskedasticity může být β̂ (LS,n) konsistentnı́m odhadem (viz poznámka v důkaze Lemmatu 2), bude, v přı́padě konsistentnosti odhadu β̂ (LS,n) , |ri | konvergovat v distribuci k |Ei | a to stejnoměrně pro i = 1, 2, ..., n (podrobnějšı́ diskuzi lze nalézt např. v pracech Harvey (1974) či Theil (1971) ). To znamená, že asymptoticky budou mı́t náhodné fluktuace Vi nulovou střednı́ hodnotu a rozptyl IE Vi2 = IE |Ei |2 − (IE |Ei |)2 = σi2 (1 − c2 ) = (ziT α)2 (1 − c2 ). Poslednı́ vztah naznačuje, že fluktuace Vi jsou “asymptoticky heteroskedastické” a tedy bychom k odhadu měli použı́t α̂(GLS,n) . Pokud budeme předpokládat, že v modelu (70) jsou náhodné fluktuace nezávislé, budou Vi , i = 1, 2, ..., n také, alespoň asymptoticky, nezávislé. Potom bude n o T 2 2 T 2 2 T 2 2 ΣV = diag (z1 α) (1 − c ), (z2 α) (1 − c ), ..., (zn α) (1 − c ) a tedy α̂ (GLS,n) = à n X (zi α̂ (LS,n) −2 ) zi ziT i=1 a konečně β̂ (EGLS,n) = à n X (zi α̂ !−1 n X (zi α̂(LS,n) )−2 zi ri i=1 (GLS,n) −2 ) xi xTi i=1 !−1 n X (zi α̂(GLS,n) )−2 xi Yi . (74) i=1 Ačkoliv jsme ve vztazı́ch (73) a (74) formálně nerozlišili, že se jedná o dva různé odhady, je jasné, v čem spočı́vá jejich odlišnost. Vlastnosti těchto odhadů nebyly dosud plně prostudovány a ačkoliv je (téměř) zřejmé, že asymptoticky budou ekvivalentnı́, lze tušit, že pro konečný výběr dat, může patrně estimátor ze vztahu (74) dávat lepšı́ výsledky než ten ze vztahu (73). Dalšı́ možnostı́, jak se vypořádat s heteroskedasticitou náhodných fluktuacı́, je použı́t maximálně věrohodný odhad pro β a α. Obvykle se v tom přı́padě předpokládá normálnı́ rozdělenı́ náhodných 77 fluktuacı́. Derivace logaritmu věrohodnostnı́ funkce však vede na nelineárnı́ rovnice a je nutná numerická maximalizace. To jistě v době rozvinuté počı́tačové techniky nenı́ zásadnı́ problém. Problémem spı́še je fakt, že předpoklad normality fluktuacı́ je nesmı́rně silný, nebot’ i při malých odchylkách od tohoto předpokladu se změnı́, přirozeně k horšı́mu, vlastnosti statistik (optimálnı́ch při předpokladu normality) daleko vı́ce než jsme ochotni připustit. Jeden takový přı́klad, který byl znám už R. A. Fisherovi v roce 1922, si připomeneme v kapitole věnované kolinearitě. Proto se nebudeme touto alternativou podrobněji zabývat. Rozptyl jako lineárnı́ funkce vysvětlujı́cı́ch proměnných Budeme opět uvažovat lineárnı́ regresnı́ model (70) tentokrát však s kovariančnı́ strukturou náhodných fluktuacı́ danou takto: IE Ei = 0, IE Ei Ej = 0, IE Ei2 = σi2 = ziT α i 6= j = 1, 2, ...n., kde {zi }ni=1 je posloupnost nenáhodných s-rozměrných vektorů a α ∈ Rs je vektor regresnı́ch koeficientů popisujı́cı́ kovariančnı́ strukturu náhodných fluktuacı́. Podobně jako výše můžeme psát ri2 = ziT α + Vi , (75) kde opět ri = Yi −xTi β̂ (LS,n) a Vi , i = 1, 2, ..., n je vhodná posloupnost náhodných veličin. Odtud ³ α̂(LS,n) = Z T Z ´−1 Z T r2 , kde Z = (z1 , z2 , ...zn )T a r2 = (r12 , r22 , ..., rn2 )T . Problémem je, že tento odhad je vychýlený, dı́ky tomu, že náhodné veličiny Vi nemajı́ v tomto přı́padě ani asymptoticky nulovou střednı́ hodnotu, jsou heteroskedastické a korelované. O vychýlenı́ odhadu α̂(LS,n) si lze udělat snadno představu. Pro vektor reziduı́ máme ³ ´ r = Y − X β̂ (LS,n) = I − X(X T X)−1 X T Y ³ = I − X(X T X)−1 X T neboli ri = ovšem Pn j=1 mij Ej , ´³ ´ ³ ´ Xβ 0 + E = I − X(X T X)−1 X T E, (76) kde jsme mij označili i, j-tý prvek matice I − X(X T X)−1 X T . Potom IE ri2 = n X m2ij IE Ej2 = j=1 n X m2ij zjT α (77) j=1 a tedy IE r2 = M̃ Zα, (78) kde jsme symbolem M̃ označili matici, která má na i, j-tém mı́stě m2ij . Z posledně uvedeného vztahu plyne ³ IE α̂(LS,n) = Z T Z Odtud vyplývá, že vychýlenı́ odhadu ³ α̂(LS,n) ´−1 Z T M̃ Zα. ·³ je rovno ZT Z ´−1 ´−1 ¸ Z T M̃ Z − I α. Protože obvykle ZT Z Z T M̃ Z 6= I, nenı́ odhad α̂(LS,n) obvykle nevychýleným odhadem. Jako nevychýlené odhady bývajı́ navrhovány ³ α̂(1) = Z T M̃ M̃ Z 78 ´−1 Z T M̃ r2 , viz Hildreth a Houck (1968), nebo ³ α̂(2) = Z T M̃ Z ´−1 Z T r2 , viz Froehlich (1973). Ze tvaru odhadu α̂(1) je zřejmé, že se jedná o odhad metodou nejmenšı́ch pro model r2 = M̃ Zα + W, (79) pro jehož návrh byl inspiracı́ vztah (78) a ve kterém máme IE W = 0. Druhý odhad je MINQUE (minimum quadratic unbiased estimator) odhadem, viz opět Froehlich (1973). Jak jsme již podotkli výše, náhodné fluktuace v modelu (75) jsou heteroskedastické. To může být inspiracı́ k modifikovat odhadů α̂(1) a α̂(2) , podobně jako byl odhad β̂ (LS,n) modifikován na β̂ (GLS,n) . Ukažme si jak to lze provést pro α̂(1) . Předpokládejme, že vektor náhodných fluktuacı́ má nulovou střednı́ hodnotu a kovariančnı́ matici Φ, o které budeme předpokládat, že je diagonálnı́, přičemž na diagonále stojı́ σ12 , σ22 , ..., σn2 tj. je porušena pouze homoskedasticita reziduı́, nikoliv jejech nekorelovanost. Užijeme-li nynı́ P vztah ri = n`=1 mi` E` (viz (76) ) a vztah (77) (kde namı́sto zjT α budeme psát σj2 ) nalezneme ½³ IE = IE = IE à n X mi` E` mik Ek − k=1 `=1 ( n X n X mi` E` `=1 n X n X mik Ek mjs Es + `=1 − `=1 =3 n X `=1 n X n X n X n X !à n X n X m2i` σ`2 ´T ¾ n X n X n X m2i` σ`2 + n X mi` E` n X m2i` σ`2 +2 n X n X n X m2is σs2 mik Ek ) n X m2ir σr2 r=1 r=1 mi` mj` σ`2 m2i` σ`2 + `=1 m2ir σr2 !T m2ir σr2 `=1 n X n X r=1 k=1 `=1 s=1 mi` mj` σ`2 mjr Er − `=1 m2ik σk2 n X n X r=1 k=1 `=1 rj2 mjs Es mjr Er − `=1 m2ir σr2 − n X − IE r=1 mjr Er r=1 m2i` m2j` σ`4 + 2 rj2 s=1 mjs Es `=1 m2i` σ`2 ´³ m2i` σ`2 r=1 m2i` m2j` σ`4 n X n X s=1 s=1 =3 − IE ri2 `=1 k=1 − n X ri2 n X mik mjk σk2 k=1 n X n X m2i` σ`2 r=1 `=1 h mik mjk σk2 = 3 M̃ Φ2 M̃ k=1 m2ir σr2 i ij + 2 [M ΦM ]2ij . Označme tuto matici Ψ. Nahradı́me-li nynı́ matici Φ např. odhadem Z α̂(LS,n) (či jiným výše uvedeným odhadem pro α) a označı́me-li odhad takto zı́skaný odhad matice Ψ jako Ψ̂, dostaneme ³ α̂(1)EG = Z T M̃ Ψ̂−1 M̃ Z ´−1 Z T M̃ Ψ̂−1 r2 , kde jsme hornı́m indexem EG naznačili, že se jedná o zobecněný odhad metodou nejmenšı́ch čtverců s odhadnutou kovariančnı́ maticı́. Rozsáhlejšı́ diskuzi tohoto modelu heteroskedasticity lze najı́t např. v práci Harvey (1974), Amemiya (1977) nebo Raj, Srivastava a Upadhyaya (1980) a v referencı́ch tam uvedených. 79 Rozptyl jako jiná funkce vysvětlujı́cı́ch proměnných Z dalšı́ch modelů heteroskedasticity jsou často ještě studovány modely, ve kterých jsou rozptyl či směrodatná odchylka vysvětlované veličiny úměrné některé mocnině jejı́ střednı́ hodnoty, tj. modely, které mohou být psány např. následovně h IE Ei = 0, IE Ei Ej = 0, IE Ei2 i1 2 ³ = σi = xTi α ´r i 6= j = 1, 2, ...n, kde r je obvykle některé (celé) kladné čı́slo, viz např. Amemiya (1973) či Battese a Bonyhady (1981). Je ihned patrné, že pro r = 2 dostáváme speciálnı́ přı́pad modelu, který byl diskutován v této kapitole jako prvnı́. Podobně modelům s exponenciálnı́ závislosti rozptylu na vhodně vybraných vysvětlujı́cı́ch veličinách se dostalo značné popularity. Formálnı́ vyjádřenı́ může vypadat např. ³ IE Ei = 0, IE Ei Ej = 0, IE Ei2 = σi2 = exp ziT α ´r i 6= j = 1, 2, ...n. Podrobnou diskuzi těchto modelů lze nalézt např. v pracech Just a Pope (1978), Griffiths a Anderson (1982) či Kmenta (1986). Podotkněme ještě, že se těmto modelům často řı́ká multiplikativnı́ modely heteroskedasticity, což bývá nepřı́liš přesvědčivě zdůvodňováno tı́m, že historicky byl neprve studován logaritmus rozptylu vysvětlované veličiny jako násobek jejı́ střednı́ hodnoty. 6.1.3 Testy homoskedasticity Jak název tohoto odstavce napovı́dá, budou dále vysvětleny testy, ve kterých bude hypotézou vždy model, ve kterém jsou náhodné fluktuace homoskedastické. nı́že popsané testy obvykle nejsou běžně nabı́zeny v komerčně dostupných statistických knihovnách a tak je na uživateli, aby si je doprogramoval sám, což některé statistické knihovny to dovolujı́ přı́mo v rámci této knihovny. Autor tohoto textu vı́ pouze o jedné knihovně, která nabı́zı́ test tohoto druhu, totiž Whiteův test. Jedná se o knihovnu E-views (přı́padně TSP). Navı́c Whiteův test ve skutečnosti testuje nezávislost regresorů a náhodných fluktuacı́, tj. testuje o něco silnějšı́ předpoklad než je homoskedasticita. Podrobněji tyto problémy prodiskutujeme až se budeme zabývat Whiteovým testem. Popis všech testů lze nalézt bud’ v nı́že uváděných originálnı́ch článcı́ch, kde lze nalézt i důkazy následujı́cı́ch tvrzenı́ nebo v Judge a kol. (1980), kde je také “jen” popisný text. Dřı́ve než se pustı́me do popisu jednotlivých testů, poznamenejme ještě, že testovánı́ homoskedasticity (či chcete-li, heteroskedasticity, což znovu připomı́náme je situace opačná k homoskedasticitě, tj. situace, kdy je v modelu (66) alespoň pro jedno i IE Ei 6= σ 2 = IE E1 ) má docela bohatou historii. Tomto ohledu je zajı́mavý článek Cook, Weisberg (1983). Breusch-Paganův test (Breusch, Pagan (1979)) Breusch-Paganův test předpokládá, že rozptyl jednotlivých náhodných fluktuacı́ se řı́dı́ modelem (dnes poněkud mdně použı́vaná terminologie by řekla modelem volatility, byt’ tento termı́n předpokládá (implicitně) spı́še závislost na čase) σi2 = h(ziT α), kde h je některá, dostatečně hladká funkce, zi ∈ Rk , z technických důvodů majı́cı́ prvnı́ souřadnici rovnou 1 a α = (α1 , α̃T )T ∈ Rk . Jak je okamžitě vidět, model pro rozptyly náhodných fluktuacı́ 80 je založen opět na lineárnı́ regresi, která je “modifikována” některou (hladkou) funkcı́ h. Vektory zi , (i = 1, 2, . . . , n) jsou vlastně hodnoty regresorů pro i-té pozorovánı́, tj. souřadnice těchto vektorů jsou právě ty charakteristické vlastnosti (atributy) pozorovánı́, o kterých máme podezřenı́, že mohou ovlivňovat velikost rozptylu náhodných fluktuacı́. Vektor α je pak vybrán tak, aby zvážil vliv těchto charakteristických atributů. Podobně je vybrána funkce h, přı́klady probı́rané v různých článcı́ch jsou např. h(v) = v, h(v) = v 2 či h(v) = exp(v). Je přirozené, že jak volba vektorů zi ’s, tak volba regresnı́ch koeficientů α, a samozřejmě také volba funkce h, (podstatně) ovlivnı́ výsledek testu, co se týče jeho sı́ly. Nicméně, jak je vidět z podstaty problému, nelze, přinejmenšı́m ne jednoduše, dát nějaké obecné doporučenı́ či návod, jak tyto zvolit. Ostatně jako mnoho jiných věcı́ ovlivňujı́cı́ch solidnı́ zpracovánı́ dat, konec konců počı́naje samotným výběrem modelu a jeho odhadu, je i tato volba značně závislá na zkušenosti a invenci toho, kdo data zpracovává. Teoretické závěry, kterých Breusch a Pagan (1979) dosáhli, řı́kajı́, že za nulové hypotézy, kterou je homoskedasticita, což v našem formalizmu znamená α̃ = 0, existuje lokálně nejsilnějšı́ test založený na statistice q T Z(Z T Z)−1 Z T q η= , 2s4 kde q T = (q1 , q2 , . . . , qn ), qi = ri2 (β̂ (LS,n) ) − s2 , Z = (z1 , z2 , . . . , zn )T a s2 = H0 má statistika η asymptoticky rozdělenı́ χ2 (k − 1). Navı́c statistika q T Z(Z T Z)−1 Z T q η∗ = n−1 Pn i=1 ³ ri2 (β̂ (LS,n) ) − s2 2 SR n−p . Při platnosti ´2 je s η asymptoticky ekvivalentnı́, tj. je asymptoticky také rozdělena jako χ2 (k − 1), ale je méně zranitelná odchylkami ve špičatosti σµ44 rozdělenı́. Jejı́ výpočet je však poněkud složitějšı́ než výpočet statistiky η. Ve skutečnosti je to tak, že statistiky η a η ∗ majı́ za Podmı́nek A (viz začátek skript) asymptotické rozdělenı́ rovné χ2 (k − 1), nicméně jejich chovánı́ je nejlépe prostudováno při předpokladu normality fluktuacı́, a proto se vı́, že pro situaci šikmého rozdělenı́ je chovánı́ statistiky η ∗ lepšı́ ve smyslu těsnějšı́ (asymptotické) aproximace pomocı́ χ2 (k − 1). Bartlettův test (Bartlett (1937), Kendall, Stuart (1973)) Necht’ jsou data rozdělena do m skupin dat, přičemž i-tá obsahuje ni pozorovánı́ yij , tj. i = 1, 2, . . . , m, j = 1, 2, . . . , ni . Potom statistika P 2 (n − m)ln(σ̂ 2 ) − m i=1 (ni − 1)ln(σ̂i i) i hP h m+ , m 1 1 − 1 + 31 (m − 1) · i=1 ni −1 n−m P P P P ni −1 m 2 2 i kde (ni −1)σ̂i2 = nj=1 (yij − ȳi )2 , n = m i=1 (ni −1)σ̂i a ȳi = ni i=1 ni , (n− m)σ̂ = j=1 yij , 2 2 2 2 má asymptoticky χ (m−1) distribuci za předpokladu, že σ1 = σ2 = . . . = σm . Ačkoliv to nebylo explicite řečeno, Bartlettův test jako (jakousi “minimálnı́”) alternativu předpokládá, že alespoň v jedné skupině je rozptyl jiný než v ostatnı́ch, což implicitně znamená, že přı́slušná data pro regresnı́ analýzu byla nějak smysluplně rozdělena do skupin, např. máme data, kde pro stejný vektor regresorů byla opakovaně měřena či pozorována vysvětlovaná veličina Y . Goldfeld-Quandtův test (Goldfeld, Quand (1965), (1972)) Předpokládejme, že data byla “přeindexována” tak, že 2 σi2 ≥ σi−1 pro i = 2, 3, . . . , n. 81 (80) Goldfeld-Quandtův test je založen na následujı́cı́ch krocı́ch: • Vynecháme r pozorovánı́, jejichž rozptyly stojı́ na centrálnı́ch mı́stech v posloupnosti (80), r je předem zvolené čı́slo obvykle celé čı́slo blı́zké k n3 . • Aplikujeme regresnı́ model na prvnı́ch a poslednı́ch • Vyčı́slı́me R̃2 = S22 , S12 n−r 2 pozorovánı́. kde S12 a S22 jsou reziduálnı́ součty čtverců v prvé a druhé skupině. • Porovnáme statistiku R̃2 s kvantily rozdělenı́ F s je dimenze modelu. n−r−2p 2 a n−r−2p 2 stupni volnosti, kde p Je zřejmé, že rozdělenı́ pozorovánı́ do skupin má za cı́l “oddělit” od sebe dvě skupiny pozorovánı́ tak, aby se (značně) podpořila možnost toho, že rozptyl fluktuacı́ u pozorovánı́ v těchto skupinách se bude lišit pokud neplatı́ hypotéza o homoskedasticitě. Samozřejmě, že rovněž podstatným předpokladem pro dobré fungovánı́ testu je nezávislost náhodných fluktuacı́ u jednotlivých pozorovánı́, která by měla být tedy nejdřı́ve otestována např. Durbin-Watsonovým testem. Okamžitě nás jistě napadne, že lze provést rozdělenı́ do jiných (přirozeně nestejně početných) skupin. Pak bude rozdělenı́ statistiky R̃2 opět Fisher-Snedecorovo, ale s jinými stupni volnosti. Szroeterova třı́da testů (Szroeter (1978)) Pokusme se, podobně jako u Goldfeld-Quandtova testu, přečı́slovat pozorovánı́ tak, že 2 σi2 ≥ σi−1 a položme P h̃ = Pi∈A pro i = 2, 3, . . . , n, hi ri2 (β̂ (LS,n) ) 2 (LS,n) ) i∈A ri (β̂ , (81) (82) kde A je některá neprázdná podmnožina indexů a hi , i = 1, 2, . . . , n jsou čı́sla splňujı́cı́ hi ≤ hj pro i < j, jakési testové váhy jednotlivých reziduı́. Hypotéza homoskedasticity zamı́tne pokud h̃ > c. Kritická hodnota c přirozeně závisı́ na tom, jak zvolı́me vektor vah h a jak definujeme množinu A. n+r Např. zvolı́me-li hi = −1 pro i = 1, 2, . . . , n−r 2 a hi = 1 pro i = 2 + 1, . . . , n a množina A bude obsahovat všechny indexy, bude test (82) při platnosti hypotézy, že všechna data jsou generována modelem (4) a že rozptyl fluktuacı́ nenı́ ovlivňován těmi faktory, na které jsme měli podezřenı́ a dle kterých jsme vlastně rozdělili či přeindexovali data, viz (81) nebo (80), asymptoticky v pravděpodobnosti ekvivalentnı́ Goldfeld-Quandtovu testu. Szroeterův návrh byl tento: · µ π(i − p) hi = 2 1 − cos n−p+1 ¶¸ i = p + 1, . . . , n a A = {p + 1, p + 2, . . . , n}. Kritické hodnoty pro tuto možnost lze odvodit od tzv. von Neumannova r (von Nemann (1941)), spočı́taného pro n − p + 1 pozorovánı́. 82 Dalšı́ možnost, jak zvolit vektor vah je následujı́cı́ · µ hi = 2 1 − cos πi n+1 ¶¸ i = 1, 2, . . . , n. (83) Výhodou této volby je to, že kritické hodnoty pro A = {1, 2, . . . , n} jsou totožné s kritickými hodnotami pro Durbin-Watsonovu statistiku (Durbin, Watson (1952)), o které bude řeč později. Pro tuto chvı́li pouze poznamenejme, že zadáme-li h dle (83), potom pokud je h̃ většı́ než 4 − dL (kde dL je tzv. dolnı́ kritická hodnota D-W statistiky a může být nalezena např. v knize Kmenta (1986)), zamı́tneme hypotézu o homoskedasticitě, je-li h̃ < 4 − dU , kde dU je hornı́ kritická hodnota D-W statistiky, nezamı́tneme hypotézu o homoskedasticitě. Pokud je 4 − dU < h̃ < 4 − dL , považujeme test za nerozhodujı́cı́. V již dřı́ve citované monografii Judge a spol. (1980) lze nalézt i jiné návrhy pro volbu hi . Whiteův test (White (1980), Judge a spol. (1980)) Originálnı́ nápad jak testovat homoskedasticitu pocházı́ od H. White a spočı́vá v tom, že porovnáme dva odhady matice n−1 σ 2 X T X, totiž n 1 T 1X X X s2 a Xi XiT ri2 , (84) n n i=1 kde (připomı́náme) Xi je i-tý řádek matice X, uvažovaný stejně jako výše jako sloupcový vektor, 1 Pn T LS 2 T s2 = n−p i=1 (Yi − Xi β̂ ) a ri = Yi − Xi β. Snadno se nahlédne, že v přı́padě nezávislosti fluktuacı́ ei a vektoru Xi , matice v (84) (přibližně) rovny v tom smyslu, že konvergujı́ ke stejné limitě, nebot’ potom přibližně n 1X Xi XiT ri2 = IE n i=1 = emp {X1 · X1T r12 } = IE emp {X1 · X1T } IE 2 emp {r1 } n n 1X 1 1X Xi · XiT · ri2 ≈ X T X · s2 , n i=1 n i=1 n (85) kde subindex emp naznačuje, že se jedná o střednı́ hodnotu vzhledem k empirické distribučnı́ funkci. V řadě monografiı́ se trvdı́, že pokud neplatı́ hypotéza homoskedasticity, potom až na velmi speciálnı́ přı́pady heteroskedasticity, budou tyto dva odhady divergovat pro n → ∞. Na druhé straně, to jaké přı́pady heteroskedasticity ještě projdou, lze snadno vystopovat z (85). Např. předpokládejme, že každá z náhodných veličin představujı́cı́ch fluktuace v regresnı́m modelu bude rozdělena dle některého rozdělenı́ vybraného z předem daného konečného počtu typů rozdělenı́; omezme se však - bez újmy na obecnosti - na přı́pad dvou typů. Nynı́, z důvodu zjednodušenı́ dalšı́ho zápisu, přeuspořádáme naše pozorovánı́ tak, aby na začátku byla ta pozorovánı́, která majı́ náhodné fluktuace rozděleny dle prvnı́ho typu rozdělenı́ (jejich počet označme mn ) a dále jsou ta ostatnı́ (jejich počet pak je n − mn ). Připomeňme, že jsme předpokládali (viz (14)) 1 T lim X X = Q, n→∞ n a předpokládejme tedy, že také odpovı́dajı́cı́ části matic konvergujı́ k matici Q, tj. lim mn →∞ mn 1 X Xi XiT = Q mn i=1 lim a n−mn →∞ 83 1 n − mn n X i=mn +1 Xi XiT = Q. Pak máme (podobně jako výše) mn n 1X 1 1 X 1 Xi XiT ri2 = mn Xi XiT ri2 + (n − mn ) n i=1 n mn i=1 n − mn = = ≈ 1n mn IE n mn Q IE n 1n mn IE n emp {X1 2 emp {r1 } + emp {X1 · X1T } IE n X Xi XiT ri2 i=mn +1 emp {Xmn +1 T · Xm r2 } n +1 mn +1 2 emp {r1 } emp {Xmn +1 T · Xm } IE n +1 n − mn Q IE n ½ 2 emp {rmn +1 } = Q mn 1 1 X 1 ≈ Q mn ri2 + n − mn n mn i=1 n − mn o · X1T r12 } + (n − mn )IE + (n − mn )IE mn IE n n X i=mn +1 ri2 2 emp {r1 } + =Q 2 emp {rmn +1 } n − mn IE n o ¾ 2 emp {rmn +1 } n 1X 1 ri2 ≈ X T X · s2 . n i=1 n Je zřejmé, že označı́me-li σ12 a σ22 postupně rozptyly prvého a druhého typu výše zmı́něných rozdělenı́ fluktuacı́ a budou-li poměry počtů fluktuacı́ řı́dı́cı́ch se prvnı́m a druhým typem rozdělenı́ stabilnı́, tj. bude-li např. n→∞ mn = λ, n λ ∈ [0, 1] bude navı́c s2 (silně) konvergovat k λ · σ12 + (1 − λ) · σ22 . Z toho je patrné, že Whiteův test spı́še odhalı́ závislost mezi regresory a fluktuacemi než porušenı́ homoskedasticity. Navı́c nedostatkem tohoto testu je fakt, že zjišt’ovánı́ konvergence či divergence odhadů pro jeden soubor dat je patrně myslitelné jen pro dosti rozsáhlé soubory. Test je např. nabı́zen v E View a TSP, a pokud je autorovi tohoto textu známo nenı́ založen na zkoumánı́ konvergence či divergence, ale prostě na porovnánı́ výrazů uvedených v (84). Proto je třeba brát závěry z tohoto testu s jistou opatrnostı́. 6.1.4 Závěr Z toho, co už bylo řečeno plyne, že při zpracovánı́ dat, může nastat situace, kdy pojmeme podezřenı́, že fluktuace v regresnı́m modelu jsou korelovány, pro různá pozorovánı́, tj. cov(Ei , Ej ) 6= 0 pro i 6= j. V tom přı́padě použijeme Durbin-Watsonův test, o kterém jsme se výše už zmı́nili, a o kterém pojednáme podrobně později. Poznamenejme však, že na rozdı́l od Durbin-Watsonova testu, který je robustnı́ proti heteroskedasticitě, jsou testy na heteroskedasticitu v přı́padě korelovanosti fluktuacı́ obvykle velmi slabé, pokud je nepovažujeme za zcela nevyhovujı́cı́, a mohou dát (a obvykle dávajı́) zavádějı́cı́ výsledky. Podobně, dojde-li k podurčenı́ modelu, výše uvedené testy obvykle indikujı́ heteroskedasticitu, byt’ po doplněnı́ dalšı́ch vysvětlujı́cı́ch proměnných by test bez problémů “prošel”. Obecně sice platı́, že porušenı́ homoskedasticity může, pokud je značné, podstatně snı́žit eficienci odhadu β̂ (LS,n) . Vzhledem k tomu však, že i při heteroskedastických náhodných fluktuakcı́ch je odhad β̂ (LS,n) stále ještě konsistentnı́ a pokud budou přı́slušné individuálnı́ rozptyly stějnoměrně ohraničeny a fluktuace budou nezávislé, dokonce asymptoticky normálnı́, lze v přı́padě, že indexový graf neindikuje podezřenı́ na heteroskedasticitu, použı́t β̂ (LS,n) . 84 6.2 Normalita náhodných fluktuacı́ Test na “alespoň přibližné ověřenı́” předpokladu normality fluktuacı́ je patrně důležitějšı́ než výše uvedené testy na homoskedasticitu. Z následujı́cı́ho přı́kladu okamžitě pochopı́me proč. Označme Φ0 standardnı́ normálnı́ rozdělenı́ a položme PΦ0 (²) = {Q ∈ M(X) : Q = (1 − τ )Φ0 + τ H, H ∈ M(X), τ ∈ (0, ²) } . Potom Studentovo rozdělenı́ s 9 stupni volnosti je prvkem “okolı́” PΦ0 (²) pro ² ≥ 0.028 a se 3 stupni volnosti pro ² ≥ 0.078. To jinými slovy znamená, že v prvém přı́padě stačı́, aby se dva třicetiprvkové náhodné výběry lišily v jednom pozorovánı́ a jeden výběr může být ze standardnı́ho normálnı́ho rozdělenı́, zatı́mco ten druhý ze Studentova. Pro druhý přı́pad stačı́, aby se 50-ti prvkové výběry lišily ve čtyřech pozorovánı́ch. To se na prvnı́ pohled může zdát jako vysoká kontaminace, nicméně např. v Hampel a kol. (1986) lze nalézt řadu přı́kladů (reálných dat), ukazujı́cı́ch, že 10% kontaminace nenı́ jev nikterak ojedinělý, spı́še naopak. Na druhé straně, už v roce 1922 Sir Ronald Aylmer Fisher ukázal, že asymptotická eficience průměru x je při Studentově tk rovna 1−6/[k(k +1)]. Pro odhad rozptylu sn dostaneme hodnotu asymptotické eficience rovnou 1 − 12/[k(k + 1)]. To znamená, že pro t9 a t3 je asymptotická efficience průměru x postupně rovna 93 % a 50 %, a eficience rozptylu je pro tyto dva přı́pady 83 % a 0 %. To napovı́dá, že vlastnosti těch statistik, které byly odvozeny jako optimálnı́ pro normálnı́ rozdělenı́, se mohou značně zhoršovat v přı́padě, kdy data byla generována rozdělenı́m, které, jak napovı́dá prvnı́ část přı́kladu, prakticky nejsme schopni rozlišit od normálnı́ho. Podotkněme, že přı́padná skepse, která by snad mohla být inspirována tı́mto přı́kladem nenı́ na mı́stě, nebot’ napřı́klad eficience 6%-nı́ho usekaného průměrů neklesne pod 96% pro hodnoty ² ∈ (0, 0.3). Takovým odhadům se řı́ká robustnı́ a dnes je jich pro regresnı́ analýzu známo vı́ce než je třeba k solidnı́ analýze dat. Také si o nich později v závěru těchto a zejména v dalšı́m dı́le skript něco povı́me. Jak jsme už řekli výše důvodem, proč zde probı́ráme metodu nejmenšı́ch čtverců a k nı́ náležejı́cı́ diagnostické prostředky tak podrobně, je ten fakt, že tuto metodu použı́vá stále mnoho uživatelů a chceme-li se naučit zodpovědně naučit posuzovat jejich výsledky a závěry, musı́me tuto metodu dobře ovládat. Dřı́ve než se pustı́me do vlastnı́ho výkladu uved’me alespoň některé citace pracı́ týkajı́cı́ch se testovánı́ normality reziduı́. Mezi ty, které bývajı́ často v různých učebnı́ch textech uváděny patřı́ např. Pearson a kol. (1977), Locke a Spurrier (1977), Saniga a Miles (1979), Bera a Jarque (1981) či Kiefer a Salmon (1983) (mnoho dalšı́ch referencı́ lze nalézt v Judge a kol. (1980)). Je asi užitečné poznamenat, že lze ukázat, že za určitých podmı́nek (White, MacDonald (1980)) běžné testy na normalitu majı́ asymptoticky stejné vlastnosti, uplatnı́me-li je na rezidua z regresnı́ analýzy provedenou metodou nejmenšı́ch čtverců, jako kdybychom je aplikovali na soubor nezávislých pozorovánı́. Ještě se k tomu vrátı́me v závěru tohoto výkladu. Dřı́ve byl v učebnicı́ch a monografiı́ch zdůrazňován fakt, že rezı́dua jsou mezi sebou závislá, byt’ tato závislost slábne se stoupajı́cı́m počtem pozorovánı́, a bylo doporučováno použitı́ BLUS reziduı́ r̃ (Theil (1965)), tj. reziduı́, která jsou: • lineárnı́mi funkcemi vysvětlované proměnné Y (uvědomme si, že ³ ´ r(β̂ (LS,n) ) = I − X(X T X)−1 X T Y 85 jsou lineárně závislá na Y ), • jsou nevychýlená, • jsou homoskedastická a nekorelovaná, a • minimalizujı́ h i IE (r̃ − r̂)T (r̃ − r̂) , kde r̂ je zadáno v (87). Samozřejmě, že bez nějakého algoritmu, který by vedl k vyčı́slenı́ BLUS reziduı́, by jejich použitı́ bylo vı́ce méně jen teoretickou možnostı́. Tady je tedy “návod”, jak z běžných reziduı́ r(β̂ (LS,n) ) vypočı́tat BLUS rezidua (viz Judge a kol. (1980), str. 173, vztah (5.5.12)) # " H X dh qh qhT r̂0 , 1 + d h h=1 r̃ = r̂ − X (1) [X (0) ]−1 (86) kde r(β̂ (LS,n) ) = Y − X · β̂ (LS,n) = (r̂0T , r̂T )T , r̂0 ∈ Rp , r̂ ∈ Rn−p (87) a X = (X (0)T , X (1)T )T a X (0) je typu (p × p), a předpokládáme, že je regulárnı́ (to může vyžadovat přečı́slovánı́ řádků matice X), a konečně d21 , d22 , . . . , d2p a q1 , q2 , . . . , qp jsou vlastnı́ čı́sla a vlastnı́ vektory matice X (0) (X T X)−1 X (0)T . Taková matice má p vlastnı́ch kladných čı́sel, z nichž H čı́sel je (ostře) menšı́ch než jedna. Tato čı́sla a vektory se objevujı́ v (86). Konečně pak seřadı́me jednotlivé souřadnice tohoto vektoru r̃ dle velikosti, tj. r̃(1) ≤ r̃(2) ≤ . . . ≤ r̃(n−p) a nalezneme Shapiro-Wilkovu statistiku ³P W = h i=1 ai,n−p h r̃(n−p−i+1) − r̃(i) Pn−p ³ i=1 ´2 r̃i − ˜r̃ i´2 , n−p−1 1 Pn−p kde h = n−p (pro sudé či liché n − p), ˜r̃ = n−p i=1 r̃i a ai,n−p jsou koeficienty 2 nebo h = 2 tabelované v Shapiro, Wilk (1965). Tam lze nalézt také kritické hodnoty pro statistiku W . Jak už jsme se výše zmı́nili, existujı́ výsledky napovı́dajı́cı́, že lze použı́t i běžná, tj. nikterak neupravovaná rezidua a že výsledek může být lepšı́ než s BLUS reziduı́ (např. Huang, Bolch (1974)). Ačkoliv jednoznačné doporučenı́ lze jen těžko dát, faktem zůstává, že se mnohé testy určené k testovánı́ normality jednorozměrných dat, která jsou považována za realizaci posloupnosti nezávislých náhodných veličin, často použı́vajı́ i v regresi (bez dalšı́ch úprav). Připomeňme proto, že se často použı́vá test na šikmost a špičatost, který je založený na studentizované výběrové šikmosti a špičatosti. Tyto jsou zadány vztahy δ= m3 s3 (šikmost) a 86 γ= m4 s4 (špičatost), kde ms je s-tý výběrový centrálnı́ moment ms = n 1X (zi − z̄)s n i=1 a kde z̄ označuje průměr naměřených (napozorovaných) hodnot. Pro střednı́ hodnoty a rozptyly těchto statistik lze odvodit formulky IE δ = 0 a var(δ) a 6(n − 2) (n + 1)(n + 3) a IE γ = 3 − var(γ) = 6 n+1 24n(n − 2)(n − 3) . (n + 1)2 (n + 3)(n + 5) Nenı́ přı́liš obtı́žné dokázat, že δ a γ jsou asymptoticky nekorelované. Odpovı́dajı́cı́ testy jsou tedy založeny na veličinách T3 = δ 1 2 var (δ) a T4 = γ − IE γ 1 var 2 (γ) . Konečně pak kritické hodnoty se najdou v práci Mulholland (1977) (pro rozsahy výběru menšı́ nebo rovné 25) a v článku Pearson a Hartley (1956, 1972). Nápady na zlepšenı́ těchto testů lze nalézt v knize Anděl (1993) či v práci D’Agostino a kol. (1990). 6.3 Nezávislost náhodných fluktuacı́ Jednı́m z předpokladů, se kterým jsme začali náš výklad regresnı́ analýzy, byla nezávislost náhodných fluktuacı́ u jednotlivých pozorovánı́. Nicméně lze jednoduše ukázat, že i v přı́padě, kdy “naivně” použijeme odhad nejmenšı́ch čtverců ač právě zmı́něný předpoklad je porušen, dostaneme nestranný a konsistentnı́ odhad regresnı́ch koeficientů. Obvykle se však uvádı́, že může dojı́t ke značné ztrátě eficience odhadu. To je pravda a dokonce byly provedeny (numerické) studie ukazujı́cı́, jak mnoho z eficience ztratı́me. Autoři si však neuvědomujı́, že ztráta eficience, jdoucı́ na vrub kontaminace dat je (typicky) vždy většı́, než ztráta způsobená vzájemnou závislostı́ fluktuacı́ (viz např. Hampel a kol. (1986) ). Proto je nutné brát návrhy na korigovánı́ závislosti fluktuacı́ (viz Cochrane, Orcutt (1949) nebo Prais, Winsten (1954)) s jistou rezervou. Povı́me si o tom později, patrně v dalšı́m dı́le skript. Snadno nahlédneme, že i v přı́padě, že v modelu (4) jsou náhodné fluktuace statisticky striktně nezávislé, jsou rezidua vždy slabě korelována - a tedy také závislá. Závislost reziduı́ plyne např. ze vztahu IE (Y − X β̂ (LS,n) )(Y − X β̂ (LS,n) ) = IE (Y − X(X T X)−1 X T Y )(Y − X(X T X)−1 X T Y )T h ih = IE Y − X(X T X)−1 X T (Xβ 0 + E) h i h iT Y − X(X T X)−1 X T (Xβ 0 + E) i h i = IE Ip − X(X T X)−1 X T EE T Ip − X(X T X)−1 X T = σ 2 Ip − X(X T X)−1 X T , ukazujı́cı́ však mna druhé straně, že za dosti obecných podmı́nek jsou rezidua alespoň asymptoticky nezávislá. Test, jež bude dále vyložen, však nespoléhá na tuto “pouze” asymptotickou nezávislost a je zkonstruován tak, aby rozhodoval o závislosti či nezávislosti teoretických náhodných 87 fluktuacı́. Navrhli jej v roce 1952 J. Durbin a G. S. Watson a je částečně založen na výsledcı́ch článku T. W. Andersona (1948) a částečně na excelentnı́m triku, který dále popı́šeme. Anderson zjistil, že pokud předpokládáme, že vektor náhodných fluktuacı́ je rozdělen bud’ (hypotéza) dle n-rozměrného normálnı́ho rozdělenı́ s kovariančnı́ maticı́ Ψ−1 nebo (alternativa) dle téhož rozdělenı́, ale s kovariančnı́ maticı́ Θ−1 a pokud vektor regresnı́ch koeficientů je vlastnı́m vektorem matice Ψ a Θ , pak statistika z(r(β̂ (LS,n) )) = rT (β̂ (LS,n) ) Θ r(β̂ (LS,n) ) rT (β̂ (LS,n) ) Ψ r(β̂ (LS,n) posloužı́ jako základ ke konstrukci nejsilnějšı́ho testu pro testovánı́ této hypotézy proti jisté třı́dě alternativ, přirozeně zahrnujı́cı́ výše uvedenou alternativu. Tento výsledek se zdál poněkud nepraktický, nebot’ jak dále uvidı́me, statistika z závisı́ na matici plánu X a tedy i kritické hodnoty přı́slušného testu budou také závislé na X. Avšak Durbinovi a Watsonovi se v roce 1952 podařilo tuto nesnáz překonat. Nejprve poznamenejme, že studovali tuto statistiku pro speciálnı́ přı́pad, kdy hypotézou je nezávislost, tj. matice Ψ = I. Durbin a Watson rovněž pozměnili označenı́ kovariančnı́ matice při alternativě z Θ na A a protože (veškerá) literatura věnovaná této problematice se přidržuje jejich značenı́, učinı́me tak i my. Budeme tedy nadále psát rT A r z(r) = T , (88) r r r označuje běžná rezidua z analýzy pomocı́ nejmenšı́ch čtverců r(β̂ (LS,n) ). Vezmeme-li v úvahu, že β̂ (LS,n) = (X T X)−1 X T Y, dostaneme h i r(β̂ (LS,n) ) = Y − X(X T X)−1 X T Y = In − X(X T X)−1 X T Y h i h i = In − X(X T X)−1 X T [X β 0 + E] = In − X(X T X)−1 X T E. Pro zjednodušenı́ zápisu označme M = In − X(X T X)−1 X T . Pak máme rT (β̂ (LS,n) ) A r(β̂ (LS,n) ) = E T M T A M E = E T M A M E, přičemž poslednı́ rovnost plyne ze symetrie matice M . Jak jsme ukázali výše pro libovolnou reálnou symetrickou matici existuje ortogonálnı́ matice, která ji diagonalizuje po vynásobenı́ zleva a zprava (viz Tvrzenı́ 7). Pro projekčnı́ matici M označme tuto matici L, tj. L bude matice, pro kterou bude platit LT · L = In a označı́me-li D diagonálnı́ matici majı́cı́ na diagonále vlastnı́ čı́sla matice M , máme navı́c LT M L = D. Připomeňme, že dı́ky tomu, že L je ortogonálnı́ a tedy regulárnı́, je levá inversnı́ matice rovna pravé a tedy také L LT = In . Navı́c, dı́ky tomu, že matice L je složena z vlastnı́ch vektorů matice M (viz opět Tvrzenı́ 7) a matice M je projekčnı́ maticı́ do prostoru M(M ) (tj. do lineárnı́ho prostoru generované sloupci matice M ) je tato matice idempotentnı́ (tj. M · M = M ) a to implikuje, že D obsahuje jen nuly a jedničky. Protože navı́c rank(D) = rank(M ) = n − p, 88 můžeme přeuspořádat sloupce matice L tak, že (0 zastupuje nulové matice s přı́slušným počtem řádků a sloupců) .. In−p . 0 T L M L = .......... . .. 0 . 0 Nynı́ můžeme psát LT M A M L = LT M L · LT A L · LT M L .. .. .. I . 0 B . B I . 0 3 n−p 1 n−p = .......... · .......... · .......... , .. .. .. . 0 0 . 0 B2 . B4 0 .. B1 . B3 kde . . . . . . . . . . je přı́slušné dělenı́ reálné symetrické matice LT A L. Necht’ N1 je ortogonálnı́ . B2 .. B4 matice, která diagonalizuje B1 , tj. (prázdná mı́sta representujı́ nuly) ν1 ν2 N1T B1 N1 = " Potom N = N1 0 0 Ip .. , . (89) νn−p # je ortogonálnı́, tak že H = L · N je také ortogonálnı́. Odtud H T M H = N T LT M L N " =N T In−p 0 0 0 # " N= In−p 0 0 0 # a HT M A M H = HT M H · HT A H HT M H .. ν . 1 .. ν2 . 0 .. .. . . = . .. νn−p . ....................... .. 0 . 0 Položı́me-li konečně ξ = H T E, máme dı́ky ortogonalitě matice H z(β̂ (LS,n) ) = rT (β̂ (LS,n) ) A r(β̂ (LS,n) ) rT (β̂ (LS,n,`) ) r(β̂ (LS,n) ) = (90) E = H ξ a tedy ET M T A M E ET M T A M E = ET M T M E ET M E P n−p 2 ξT H T M T A M H ξ i=1 νi ξi = = P n−p 2 . ξT H T M H ξ i=1 ξi (91) Vztah (91) je možné využı́t k nalezenı́ kritických hodnot pro statistiku z(r), použijeme-li následujı́cı́ lemma, dokázané Durbinem a Watsonem a formalizujı́cı́ vlastně geniálnı́ trik, umožňujı́cı́ konstrukci celého testu. 89 LEMMA 10 (Durbin and Watson (1952)) Jsou-li r a E n × 1 vektory takové, že r = M · E, T kde M = In −X(X T X)−1 X T a z = rrTArr (viz (88)), kde A je reálná symetrická matice, potom: (a) Existuje ortogonálnı́ transformace E = H ξ taková, že Pn−p νi ξi2 z = Pi=1 n−p 2 i=1 ξi kde ν1 , ν2 , . . . , νn−p jsou ta vlastnı́ čı́sla matice M A, která jsou nenulová. (b) Je-li n − p − s sloupců matice X lineárnı́mi kombinacemi n − p − s vlastnı́ch vektorů matice A, potom n − p − s čı́sel ν’s je rovno vlastnı́m čı́slům odpovı́dajı́cı́m těmto vlastnı́m vektorům; po přečı́slovánı́ ostatnı́ch vlastnı́ch čı́sel tak, že ν1 ≤ ν2 ≤ · · · ≤ νs a λ1 ≤ λ2 ≤ · · · ≤ λs+p , kde λ’s jsou vlastnı́ čı́sla matice A, dostaneme λt ≤ νt ≤ λt+p , t = 1, 2, . . . , s. Část (a) byla vlastně již dokázána výše, zbytek lze nalézt v Durbin a Watson (1952) (důkaz části (b) je poměrně dlouhý ač přı́močarý a je založen na faktu, že M je projekčnı́ matice a tedy je rozložitelná na součin M1 ·M2 ·. . .·Mp p maticı́ typu In −u·uT , kde u ∈ Rn (viz Durbin and Watson (1952)). Poznamenejme ještě, že jak plyne z (89) a (90) ν’s jsou vlastnı́ čı́sla matice B1 právě tak jako (nenulová) vlastnı́ čı́sla matice M T A M , nebot’ N1 a H diagonalizujı́ B1 a M T A M . Protože vlastnı́ čı́sla součinu matic nezávisı́ na pořadı́ násobenı́ matic (pokud to jde znásobit, viz např. Macdufee (1946)), ν’s jsou také vlastnı́mi čı́sly matice M M T A = M 2 A = M A, přičemž poslednı́ rovnost platı́ dı́ky tomu, že matice M je projekčnı́ a tudı́ž idempotentnı́. Připomeňme ještě, že v článku von Neumann (1941) je možné nalézt vztah pro čı́sla λi ’s, totiž ½ µ ¶¾ π(i − 1) λi = 2 1 − cos , i = 1, 2, . . . , n. n Obvykle se traduje, že kritické hodnoty pro Durbin-Watsonův test byly nalezeny pomocı́ statistik Pn−p 2 (LS,n) i=1 λi ξi zL (β̂ )= P n−p 2 i=1 ξi a Pn−p λi+p ξi2 zU (β̂ (LS,n) ) = i=1 Pn−p 2 . i=1 ξi Z výše uvedeného lemmatu nepochybně plyne zL (β̂ (LS,n) ) ≤ z(β̂ (LS,n) ) ≤ zU (β̂ (LS,n) ). a tedy by to bylo principiálně možné. Durbin s Watsonem však použili přı́mo aproximace distribučnı́ funkce statistiky rT A r . (92) rT r 90 K aproximaci použili normálnı́ distribuci, pro velká n − p (viz také Anderson (1948)), nebo beta-distribuci pro střednı́ hodnoty n − p. Nejprve nalezli pomocı́ předchozı́ho lemmatu hornı́ a dolnı́ hranice pro momenty a ty pak použili pro konstrukci “dolnı́” a “hornı́” distribučnı́ funkce a následné aproximace kritických hodnot. Jejich úvahy byly založeny na dvou faktech. Za prvé, ortogonálnı́ transformace vektoru, jehož složky jsou normálně rozdělené a jsou nezávislé dává vektor, který má složky opět normálně rozdělené se stejnými parametry a které jsou i nadále nezávislé. Za druhé, při předpokladu normality a nezávislosti složek vektoru E, statistika z(β̂ (LS,n) ) a jejı́ jmenovatel rT (β̂ (LS,n) ) · r(β̂ (LS,n) ) jsou statisticky nezávislé (Pitman (1937), von Neumann (1941)) a tedy (pro libovolné s ∈ N ) máme n IE os rT (β̂ (LS,n) ) A r(β̂ (LS,n) ) n os z(β̂ (LS,n) ) = IE n IE os rT (β̂ (LS,n) ) r(β̂ (LS,n) ) . Konečně pak máme n IE os z(β̂ (LS,n) ) n = IE IE rT (β̂ (LS,n) ) A r(β̂ (LS,n) ) n os os rT (β̂ (LS,n) ) r(β̂ (LS,n) ) a Durbin-Watsonovo lemma pak dovoluje nalézt hornı́ a dolnı́ hranici pro momenty statistiky z. Budeme-li specifikovat alternativu k nezávislosti Ei ’s jako autoregresnı́ proces, tj. Ei = θEi−1 + Vi , i = 2, 3, . . . , n, |θ| < 1 budeme-li předpokládat, že {Vi }∞ i=1 je posloupnost nezávislých a stejně rozdělených náhodných veličin - podrobně budou autoregresnı́ procesy probrány v dalšı́m dı́le skript, přı́mý výpočet dává (prázdná mı́sta opět reprezentujı́ nuly) 1 −θ −θ 1 + θ2 −θ −θ 1 + θ2 −θ Aθ = .. .. .. . . . −θ 1 + θ2 −θ −θ 1 . Okamžitě je vidět, že θ = 1 a θ = −1 představujı́ dva limitnı́ přı́pady, které sice již nejsou akceptovatelné z hlediska teorie pravděpodobnosti v tom smyslu, že nenı́ zaručena stacionarita posloupnosti náhodných fluktuacı́, ale z hlediska budovánı́ našeho testu je můžeme přijmout. Pro prvnı́ dostaneme 1 −1 −1 2 −1 −1 2 −1 A1 = .. .. .. . . . a z(β̂ (LS,n) ) = −1 Pn−1 i=1 2 −1 −1 1 [ri (β̂ (LS,n) ) − ri+1 (β̂ (LS,n) )]2 Pn 2 (LS,n) ) i=1 ri (β̂ 91 (93) =2− 2 Pn−1 i=1 ri (β̂ (LS,n) ) ri+1 (β̂ (LS,n) ) + r12 (β̂ (LS,n) ) + rn2 (β̂ (LS,n) ) Pn 2 (LS,n) ) i=1 ri (β̂ ≈ 2(1 − ρ̂). Uvažujeme-li druhou krajnı́ možnost, totiž θ = −1, dostaneme z(β̂ (LS,n) ) ≈ 2(1 + ρ̂). To umožňuje zverifikovat, že statistiky, které vyjdou at’ už z jednoho či druhého extrému, jsou schopny se vypořádat současně jak s pozitivnı́ tak negativnı́ závislostı́ mezi po sobě následujı́cı́mi náhodnými fluktuacemi, tj. jak s přı́padem θ > 0 tak s θ < 0, nebot’ obě obsahujı́ koeficient korelace. Historické důvody vedly k tomu, že se označenı́ Durbin-Watsonova statistika vžilo pro (93) (viz např. Kmenta (1986), Judge a kol. (1980) nebo Zvára (1989)), avšak důsledek toho je, že je nutné užı́vat nejen kritické hodnoty implikované “dolnı́” a “hornı́” statistikou zL (β̂ (LS,n) ) a zU (β̂ (LS,n) ) (ve smyslu, který byl výše podrobně popsán) a které můžeme např. označit zL a zU , ale i kritické hodnoty, které jsou zrcadlovým obrazem těchto prvých. To znamená, že zamı́tneme hypotézu o nezávislosti reziduı́ pokud z(β̂ (LS,n) ) < zL nebo z(β̂ (LS,n) ) > 4 − zL , a naopak nezamı́tneme tuto hypotézu pokud z(β̂ (LS,n) ) ∈ (zU , 4 − zU ). V ostatnı́ch přı́padech je výsledek “nerozhodnutý” (bohužel). Pokud chceme rozhodnout i v takovém přı́padě, nezbývá než vypočı́tat přesné kritické hodnoty, které jsou přirozeně závislé na matici plánu X. Postup je následujı́cı́. Nejprve se vypočı́tá střednı́ hodnota IE z(r(β̂ (LS,n) )) a rozptyl var(z(r(β̂ (LS,n) ))) dle následujı́cı́ch vztahů: IE z(r(β̂ (LS,n) )) = 2(n − 1) − tr(X T AX(X T X)−1 ) n−p a var(z(r(β̂ (LS,n) ))) = n h i o 2 Q∗ − 2(n − 1) − tr(X T AX(X T X)−1 ) IE z(r(β̂ (LS,n) )) . (n − p)(n − p + 2) Výraz pro Q∗ je poněkud složitějšı́, totiž h i2 2(3n − 4) − 2tr(X T A2 X(X T X)−1 ) + tr( X T AX(X T X)−1 ), nicméně s pomocı́ dnešnı́ výpočetnı́ techniky nenı́ nepřekonatelnou překážkou. Potom se vyřešı́ rovnice IE z(r(β̂ (LS,n) )) = a + bIE z ∗ a var(z(r(β̂ (LS,n) ))) = b2 var(z ∗ ). Hodnoty IE z ∗ a var(z ∗ ) se najdou v tabulkách např. v článku Judge a kol. (1982). nalezenı́ přesné kritické hodnoty ∗ zC = a + bzU . 92 Zbývá Povšimněme si ještě, že zatı́mco matice Aθ je pro θ ∈ (−1, 1) regulárnı́, matice A1 už regulárnı́ nenı́ (snadno se to nahlédne z rozkladu matice A(θ), který vypadá takto. Aθ = PθT · Pθ , kde √ Pθ = 1 − θ2 −θ 1 −θ 1 .. . , .. . −θ 1 −θ 1 a kde Pθ je evidentně singulárnı́ pro |θ| = 1). 6.4 6.4.1 Nezávislost vysvětlujı́cı́ch proměnných a náhodných fluktuacı́ vod a přı́klady situacı́ porušenı́ nezávislosti V modelu, ve kterém předpokládáme, že je některá vysvětlujı́cı́ proměnná statisticky závislá s náhodnými fluktuacemi, nelze zaručit, že bude odhad β̂ (LS,n) obecně nestranný a konsistentnı́. Tento fakt nebývá v některých učebnicı́ch regresnı́ analýzy zdůrazněn a může vést k nevhodné aplikaci metody nejmenšı́ch čtverců. Snaha o vypořádánı́ se s touto situacı́ vedla vlastně k rozvinutı́ celé jedné partie teorie regresnı́ analýzy, totiž k teorii instrumentálnı́ch proměnných (instrumental variables). Budeme uvažovat model Yi = XiT β 0 + Ei , i = 1, 2, . . . , n, (94) kde použitı́ velkého pı́smena pro nosiče Xi naznačuje, jak plyne z úmluvy na začátku skript, že budeme uvažovat náhodné nosiče (vysvětlujı́cı́ proměnné). Již na samém začátku tohoto textu (viz text pod vztahem (1)) jsme předeslali, že pokud máme náhodné nosiče, obvykle předpokládáme, že tyto nosiče a náhodné fluktuace v jednom řádku modelu (94) jsou nekorelované, tj. IE {Xi Ei } = 0. Předpokládejme, tak nenı́, tj. IE {Xi Ei } = IE {X1 E1 } 6= 0, ½ že tomu ¾ a že posloupnost vektorů {Zi }∞ i=1 = ³ XiT , Ei ´T ∞ je posloupnostı́ nezávislých a stejně i=1 rozdělených náhodných n o vektorů. Bez podstatné újmy na obecnosti předpokládejme, že matT ice Q = IE Xi Xi je regulárnı́. Výše jsme si řekli, že pokud by byla singulárnı́, obvykle vypustı́me některý sloupec matice X a v tom pokračujeme tak dlouho, až dosáhneme regularity matice Q. Aplikace silného zákona velkých čı́sel dává n 1 T 1X X X = lim Xi XiT = Q s.j., n→∞ n n→∞ n i=1 lim což je ekvivalentnı́ s µ lim n→∞ Podobně 1 T X X n ¶−1 = Q−1 s.j.. n 1 T 1X X E = lim Xi Ei = IE {X1 E1 } n→∞ n n→∞ n i=1 lim 93 s.j. . To ovšem implikuje µ lim n→∞ 1 T X X n ¶−1 1 T X E = Q−1 IE {X1 E1 } n s.j. . Konečně pak dostaneme vztah ³ β̂ (LS,n) = β 0 + X T X µ 0 =β + 1 T X X n ¶−1 1 T X E = β0 + n ´−1 µ XT E 1 T X X n ¶−1 n 1X Xi Ei , n i=1 (95) který napovı́dá, že lim β̂ (LS,n) = β 0 + Q−1 IE {X1 E1 } n→∞ s.j., (96) tj. napovı́dá, že β̂ (LS,n) nenı́ konsistentnı́m odhadem. Diskuze nestrannosti nenı́ tak jednoduchá, ale spočtenı́m střednı́ hodnoty ve vztahu (95) dostaneme (µ IE β̂ (LS,n) 0 = β + IE 1 T X X n ¶−1 n 1X Xi Ei , n i=1 ) . Doplnı́me-li tedy výše použı́vané předpoklady např. o to, že kXi k = O(1)½(což z hlediska aplikacı́ ¾ nenı́ silný předpoklad), zjistı́me, že β̂ (LS,n) nenı́ ani nestranný, nebot’ IE ³ XT X ´−1 XT E 6= 0. S daty, pro která je lépe předpokládat, že adekvátnı́m modelem pro ně je model, ve kterém jsou náhodné fluktuace statisticky závislé na některé vysvětlujı́cı́ proměnné, se můžeme setkat poměrně často. Jedna možnost je, že ze samé podstaty situace toto plyne, že např. rozptyl či jiná charakteristika (např.šikmost) náhodných fluktuacı́ je ovlivněna velikostı́ vysvětlujı́cı́ proměnné. Snad nejčastěji uváděným přı́kladem modelu, ve kterém jsou vysvětlujı́cı́ veličiny a náhodné fluktuace závislé, je model s nekonečným počtem zpožděnı́ vysvětlujı́cı́ veličiny. Tento model bude však podrobněji probrán patrně až v dalšı́m dı́le skript. Uvažujme tedy jednoduchý model s geometrickou strukturou regresnı́ch koeficientů Yi = β ∞ X λj−1 xi−j+1 + Ei . (97) j=1 Je okamžitě vidět, že pro tento tvar modelu neumı́me přı́mo nalézt odhady parametrů. Použijme tedy tento postup. Pro i − 1 pišme λYi−1 = β ∞ X λj xi−j + Ei . (98) j=1 Odečteme-li (98) od (97), dostaneme Yi = λYi−1 + βxi + Ei − λEi−1 . Dostali jsme tedy model Yi = λYi−1 + βxi + Ui , 94 (99) ve kterém vysvětlujı́cı́ proměnná Yi−1 je korelovaná s Ui , tj. s náhodnou veličinou representujı́cı́ fluktuaci v modelu. Budeme-li uvažovat model, který počı́tá s náhodnými chybami měřenı́ u vysvětlujı́cı́ch proměnných, zjistı́me, že se opět nevyhneme závislosti mezi nosiči a disturbancemi. Probereme tento model pro jednoduchý přı́pad jedné vysvětlujı́cı́ proměnné. Zobecněnı́ na vı́ce proměnných bude probráno v následujı́cı́ kapitole. Budeme tedy uvažovat model Yi = α + βχi + Ui (100) a Xi = χi + Vi , (101) pro i = 1, 2, . . . , n. Jinými slovy to znamená, že předpokládáme, že vysvětlovaná veličina Yi je lineárně závislá na vysvětlujı́cı́ veličině χi a absolutnı́m členu α, ale naše měřenı́ veličiny χi je zatı́ženo náhodnou chybou Vi , takže registrujeme namı́sto nı́ veličinu Xi . Povšimněme si, že to, zda Ui representuje také chybu měřenı́ veličiny Yi , či také náhodnou fluktuaci (přı́padně pouze náhodnou fluktuaci) a veličina Yi (přirozeně včetně této fluktuace) je měřena přesně, je v tomto kontextu irelevantnı́. Vysvětleme ještě, že tı́m, že řekneme, že je veličina Yi měřena přesně, mı́nı́me to, že chyba jejı́ho měřenı́ je (podstatně) menšı́ než chyba měřenı́ veličiny χi , přı́padně podstatně menšı́ než náhodné fluktuace vstupujı́cı́ do modelu. Pro zajı́mavost uved’me, že patrně nejznámějšı́m modelem tohoto typu v ekonomii je Friedmanova hypotéza stálého důchodu (Friedman (1957)), kde Yi představuje (pozorovanou) spotřebu v obdobı́ i a χi důchod v tomtéž obdobı́, a předpokládáme, že spotřeba je lineárně závislá na stálém důchodu, zatı́mco my pozorujeme momentálnı́ důchod Xi . Podotkněme však, že se dnes má za prokázané, že empirická data tuto hypotézu přı́liš nepodpořila. Po dosazenı́ z (101) do (100), zı́skáme nový model Yi = α + β(Xi − Vi ) + Ui = α + βXi + Ui − βVi = α + βXi + Zi , kde jsme Zi označily jakési “nové” disturbance v modelu. Snadno se však pro ně nalezne IE {Xi · Zi } = IE {(χi + Vi )(Ui − βVi )} = −βIE Vi2 . Jak už bylo výše konstatováno, vztah (96) ukazuje, že odhad metodou nejmenšı́ch čtverců koeficientů α a β nenı́ v tomto přı́padě nestranný ani konsistentnı́ a detailnějšı́ analýza ukáže, že dojde k podceněnı́ β. V závěru těchto skrip bude jeden paragraf věnován také systému simultánı́ch rovnic. Ukážeme si tam, že tyto rovnice popisujı́ rovněž situaci, kdy náhodné fluktuace v modelu jsou korelovány s vysvětlujı́cı́mi proměnnými a tedy přı́má aplikace metody nejmenšı́ch čtverců vede k odhadům, které nejsou obecně ani konsistentnı́ ani nestranné. Čtenář se nynı́ přirozeně zeptá, jak danou situaci rozpoznat, tj. jak zjistit, zda nosiče a náhodné fluktuace jsou (ne)závislé a jak postupovat v přı́padě, že bude hypotéza o nezávislosti zamı́tnuta. Odpověd’ na prvou otázku nabı́zı́ Hausmanův test, k řešenı́ problému závislosti fluktuacı́ na vysvětlujı́cı́ch proměnných pak byla vyvinuta metoda instrumentálnı́ch proměnných. Bylo by nepochybně logické věnovat se nejprve Hausmanovu testu a poté vyložit, alespoň 95 v základech, teorii instrumentálnı́ch proměnných. Vzhledem k tomu, že však Hausmanův test využı́vá odhadu regresnı́ch koeficientů, který byl pořı́zen metodou instrumentálnı́ch proměnných, vyložı́me nejprve tuto metodu. 6.4.2 Instrumentálnı́ proměnné Představme si, že odhad metodou nejmenšı́ch čtverců mohl být odvozen také následujı́cı́m, poněkud intuitivnı́m způsobem. Vztah (7) znásobı́me zleva výrazem n1 X T a dostaneme 1 T 1 1 X Y = X T Xβ 0 + X T E. n n n Budeme-li předpokládat, že 1 T X E=0 n→∞ n lim v pravděpodobnosti, budou mı́t výrazy 1 T 1 T X Y a X Xβ 0 n n stejnou limitu v pravděpodobnosti. To může vést k návrhu odhadu µ β̂ = 1 T X X n ¶−1 ³ ´−1 1 T X Y = XT X X T Y = β̂ (LS,n) n a k vyšetřovánı́ jeho vlastnostı́. Předpokládejme, že máme k dispozici matici Z takovou, že lim n→∞ 1 T Z E=0 n a znásobenı́m vztahu (7) zleva výrazem 1 T nZ v pravděpodobnosti, (102) odvod’me 1 T 1 1 Z Y = Z T Xβ 0 + Z T E. n n n Nynı́ zjišt’ujeme, že výrazy 1 T Z Y n 1 T Z Xβ 0 n a majı́ také stejnou limitu v pravděpodobnosti. “Analogicky” jako v přı́padě odhadu metodou nejmenšı́ch čtverců, zaved’me odhad µ β̂ IP = 1 T Z X n ¶−1 ³ ´−1 1 T Z Y = ZT X Z T Y. n (103) Tomuto odhadu budeme řı́kat odhad metodou instrumentálnı́ch proměnných. Podobně jako výše pro odhad metodou nejmenšı́ch čtverců pro něj nalezneme alternativnı́ vyjádřenı́ β̂ IP ³ T = Z X ´−1 Z T ³ T ´ 0 µ 0 X β +E =β + 1 T Z X n ¶−1 1 T Z E, n (104) které ukazuje, že odhad β̂ IP je konsistentnı́ . Opět s nestrannostı́ je to poněkud komplikovanějšı́, ale lze nalézt (slabé) předpoklady, za kterých platı́. Lze přirozeně tušit, že odhad β̂ IP bude tı́m 96 lepšı́ (ve smyslu eficience), čı́m vı́ce bude Z a X korelováno (myšleno po sloupcı́ch), tj. pokud Z T X dobře nahradı́ X T X a Z T Y nahradı́ X T Y , samozřejmě při zachovánı́ podmı́nky (102). V některých monografiı́ch je vyložena trochu obecnějšı́ inspirace vedoucı́ k zavedenı́ metody instrumentálnı́ch proměnných. Vyjádřı́me-li náhodné fluktuace jako E = Y − Xβ 0 , vidı́me, že (102) je ekvivalentnı́ 1 lim Z T (Y − Xβ 0 ) = 0 v pravděpodobnosti. (105) n→∞ n Mohli bychom tedy studovat odhad, který by “minimalizoval” Z T (Y −Xβ) (úvozovky naznačujı́ fakt, že na pravé straně vztahu (105) stojı́ nulový vektor a tedy to, že Z T (Y − Xβ) bude minimálnı́ je třeba uvést na pravou mı́ru). Lze to udělat napřı́klad takto. Zvolı́me některou pozitivně definitnı́ matici W a budeme minimalizovat kvadratickou formu (Y − Xβ)T ZW Z T (Y − Xβ). (106) Z výše odvozeného tvrzenı́ o spektrálnı́m rozkladu pozitivně definitnı́ matice vyplývá existence matice S takové, že ZW Z T = S T S a uvažujeme-li nynı́ transformované veličiny Ỹ = SY a X̃ = SX budeme mı́t Ỹ − X̃β = S(Y − Xβ), tj. (Ỹ − X̃β)T (Ỹ − X̃β) = (Y − Xβ)T ZW Z T (Y − Xβ) a z výše uvedené teorie plyne, že minimum se nabývá pro ³ β̂ IP = (X̃ T X̃)−1 X̃ T Y = X T ZW Z T X ´−1 X T ZW Z T Y. Právě “odvozený” odhad připomı́ná zobecněný odhad metodou nejmenšı́ch čtverců, který je diskutován na jiném mı́stě těchto skript. Pokud bude matice Z T X regulárnı́ a tedy invertovatelná, dostaneme ³ β̂ IP = X T ZW Z T X ´−1 ³ ³ X T ZW Z T Y = Z T X = ZT X ´−1 ´−1 ³ W −1 X T Z ³ W −1 W Z T Y = Z T X ´−1 ´−1 X T ZW Z T Y Z T Y, tj. dojdeme k odhadu (103), a navı́c zjistı́me, že postup je nezávislý na volbě matice W . Věnujme se ještě na chvı́li modelu s nekonečným počtem zpožděnı́ vysvětlujı́cı́ veličiny, který vedl ke vztahu (99). Položı́me-li totiž Y = Y2 Y3 .. . , Yn dojdeme k odhadu Y1 Y2 .. . X= X2 X3 .. . a Yn−1 Xn " λ̂ β̂ # Z= X1 X2 .. . X2 X3 .. . , Xn−1 Xn ³ = ZT X ´−1 Z T Y. Je jasné, že podmı́nka (102) je splněna a navı́c odhad má naději být dosti eficientnı́, nebot’ instrumentálnı́ proměnná X je patrně dosti korelována s Y , viz Liviatan (1963). Čtenáře, který se chce o metodě instrumentálnı́ch proměnných dovědět vı́ce odkazujeme na monografii Bowden, Turkington (1984). Dovolme si ještě připomenout, že se v některých 97 učebnicı́ch spojuje vybudovánı́ teorie instrumentálnı́ch proměnných právě s modelem s nekonečným počtem zpožděnı́ vysvětlujı́cı́ veličiny. Zdá se však, že se tato metoda objevila daleko dřı́ve než byl studován tento model, totiž již v práci Working (1927), viz také Goldberger (1972). Nynı́ se již budeme moci věnovat výkladu testu, který napovı́, zda je vhodné použı́t metodu instrumentálnı́ch proměnných, či zda vystačı́me s metodou nejmenšı́ch čtverců aplikovanou na původnı́ data. 6.4.3 Hausmanův test nezávislosti regresorů a náhodných fluktuacı́ Test byl navržen J. Hausmanem v roce 1978 a lze jej nalézt např. v monografii Greene (1993) a samozřejmě také v původnı́m článku Hausman (1978). Protože byl test původně určen pro to, aby rozpoznal zda se jedná o měřenı́ vysvětlujı́cı́ch proměnných s chybami, často je uváděn jako Specification test for measurement error, nicméně jak snadno nahlédnete z nı́že uvedeného výkladu, ve skutečnosti se opravdu testuje, který model je adekvátnějšı́ pro daná data. Heuristika, která vedla k zavedenı́ testu byla následujı́cı́: Jestliže jsou vysvětlujı́cı́ proměnné nezávislé na náhodných fluktuacı́ch (to budeme označovat ve zbývajı́cı́ části této kapitoly jako hypotézu H0 ), jsou oba odhady β̂ (LS,n) i β̂ IP konsistentı́mi odhady β 0 . Prvnı́ z nich je samozřejmě eficientnı́, zatı́mco druhý tuto vlastnost obecně nemá. Uvědomme si však, že obvykle uváděné tvrzenı́, že β̂ IP je neeficientnı́ nenı́ tak zcela správné, nebot’ obecně i β̂ (LS,n) je instrumentálnı́m odhadem vzhledem k tomu, že jsme nezakázali volbu Z = X, byt’ je to čistě akademická možnost. Na druhé straně pokud náhodné fluktuace a vysvětlujı́cı́ proměnné jsou statisticky závislé, je prvnı́ odhad (pokud platı́ např. (14) ) nutně vychýlený, zatı́mco ten druhý, pokud je Z zvolena tak, aby platilo (102), je konsistentnı́. Potom ovšem za platnosti hypotézy H0 je vektor q = β̂ (LS,n) − β̂ IP konsistentnı́m odhadem nulového vektoru. Pokud tato hypotéza neplatı́ bude norma tohoto vektoru obecně nenulová. Založı́me-li tedy test na některé kvadratické formě W = q T Aq bude jejı́ hodnota malá v přı́padě platnosti hypotézy H0 , ale velká v opačném přı́padě. J. Hausmanovi se podařilo ukázat, že pokud za A zvolı́me [V1 − V0 ]−1 , kde V0 a V1 jsou po řadě n-násobky odhadů asymptotické kovariančnı́ matice odhadů β̂ (LS,n) a β̂ IP , je L(W ) ≈ χ2 (p). Naznačı́me si jak lze vést důkaz tohoto výsledku. Nejprve připomeňme, že pod asymptotickou covariančnı́ maticı́ odhadu β̂ (n) se rozumı́ covariančnı́ matice př ı́slušného´asymptotického rozdělenı́ normovaného vektoru β̂ (n) − β 0 , tj. ob√ ³ (n) √ vykle vektoru n β̂ − β 0 , nebot’ obvykle dáváme přednost n-konsistentnı́m odhadům. V předcházejı́cı́m textu jsme v přı́padě odhadu β̂ (LS,n) užı́vali pro tuto asymptotickou kovariančnı́ matici označenı́ Q (viz (15) ). Vzhledem k (104) máme ³ ´−1 ³ ´−1 β̂ IP − β 0 = Z T X Odtud ³ β̂ IP − β 0 ´³ β̂ IP − β 0 ´T = ZT X a konečně n · varas (β̂ IP )=σ 2 ³ T Z X ´−1 T ³ T Z Z X Z ´−1 · =σ 98 2 T Z T E. ³ Z T EE T Z X T Z ³ T X Z Z Z ´−1 T ´−1 Z X ¸−1 ³ = σ 2 X̂ T X̂ ´−1 , kde subindex as naznačuje, že se jedná o asymptotickou covariančnı́ matici a kde X̂ je projekce ³ ´−1 matice X pomocı́ projekčnı́ matice Z Z T Z Z T . Odhadem asymptotické kovariančnı́ mat³ ´ ³ ´−1 √ ice vektoru n β̂ IP − β 0 tedy může být s2 X̂ T X̂ . Protože dále je n · varas (β̂ (LS,n) ) = σ 2 (X T X)−1 , máme nq T ·³ X̂ T X̂ ´−1 W = √ ³ IP n β̂ − β̂ (LS,n) ´T ·³ ³ − XT X s2 X̂ T X̂ ´−1 ³ − XT X = ´−1 ¸−1 q ´−1 ¸−1 √ ³ n β̂ IP − β̂ (LS,n) ´ . s2 V Lemmatu 2 jsme ukázali, že pokud jsou fluktuace mezi sebou vzájemně nezávislé, stejně rozdělené a majı́ nulovou střednı́ hodnotu a konečný pozitivnı́ rozptyl, a platı́-li navı́c (15), pak ´ √ ³ (LS,n) 0 je n β̂ − β asymptoticky normálnı́ s nulovou střednı́ hodnotou a covariančnı́ maticı́ 2 −1 σ Q . Důkaz vycházel ze vztahu (18). Nynı́ ze vztahu (18) a (104) dostaneme "µ β̂ IP − β̂ (LS,n) = 1 T Z X n ¶−1 1 T Z − n µ 1 T X X n ¶−1 # 1 T X E n a tedy n·varas (β̂ IP − β̂ (LS,n) (· =σ 2 T ³ )=σ T X Z Z Z 2 ·³ ´−1 T Z X ´−1 ¸−1 T Z X ³ T T Z − X X ³ T − X X ´−1 X T ¸ ·³ ) ´−1 X T = σ2 T Z X ·³ ´−1 X̂ T X̂ ³ T T Z − X X ´−1 ³ − XT X ´−1 ´−1 ¸ X T ¸T . Zopakovánı́m důkazu Lemmatu 2 (s malými modifikacemi) při předpokladu, že existuje limita "µ lim n→∞ 1 T X̂ X̂ n ¶−1 µ − 1 T X X n ¶−1 # = QZX , ´ √ ³ kde QZX je regulárnı́ matice, bychom nalezli, že vektor ζ = n β̂ IP − β̂ (LS,n) je asymptoticky normálně rozdělen s nulovým vektorem střednı́ch hodnot a s asymptotickou kovariančnı́ maticı́ σ 2 QZX . Vzhledem k tomu, že matice QZX je symetrická a pozitivně definitnı́, existuje ortogonálnı́ (nikoliv nutně ortonormálnı́) matice P tak, že P T QZX P = I (107) a tudı́ž náhodný vektor ξ = σ1 P T ζ je asymptoticky rozdělen dle p-rozměrného normálnı́ho rozdělenı́ s nulovým vektorem střednı́ch hodnot a s jednotkovou kovariančnı́ maticı́. To ovšem implikuje, že statistika ξ T ξ je asymptoticky rozdělena dle χ2 (p). Invertovánı́m vzhatu (107) −1 = I a tedy konečně dostaneme [P −1 ]T Q−1 ZX P ³ β̂ IP − β̂ (LS,n) ´T ·³ X̂ T X̂ ´−1 W = ³ − XT X s2 99 ´−1 ¸−1 ³ β̂ IP − β̂ (LS,n) ´ = ´T ·³ ´−1 ¸−1 √ ³ ´ ´−1 ³ √ ³ IP 1 T 1 T (LS,n) IP − β̂ (LS,n) X X n β̂ − β̂ X̂ X̂ − n β̂ n n s2 1 T −1 −1 ζ QZX ζ = ξ T [P −1 ]T Q−1 ξ = ξ T ξ. ZX P σ2 V přı́padě, že se jedná o jednoduchou regresi, pak je Hausmanův test ekvivalentnı́ testu významnosti koeficientu γ v modelu ≈ Yi = β0 + β1 xi + γ ûi + ²i , i = 1, 2..... kde ûi , i = 1, 2, ... jsou rezidua zı́skaná po projekci vysvětlujı́cı́ veličiny x na instrumentálnı́ veličinu z, která je v tomto přı́padě přirozeně skalárnı́. 6.4.4 Závěr Z výše uvedeného textu je zřejmé, že metoda instrumentálnı́ch proměnných nemá nepochybně charakter “kuchařky”, tj. nepředstavuje návod, co a jak by se mělo udělat, zejména nedává návod, jak zvolit instrumenty. To může způsobit, že jsou instrumenty zvoleny tak, že eficience odhadu je velmi malá neboli rozptyl odhadu β̂ IP je značný a tedy konkrétnı́ hodnoty odhadů regresnı́ch koeficientů metodou instrumentálnı́ch proměnných, tj. složky vektoru β̂ IP , mohou být velmi vzdáleny skutečným hodnotám regresnı́ch koeficientů. Pochopitelně, že předpokládáme, že jsme v situaci, kdy regresory a náhodné fluktuace jsou opravdu závislé a použitı́ metody instrumentálnı́ch proměnných je namı́stě. Předpokládejme dále, že dı́ky závislosti regresorů a náhodných fluktuacı́ je odhad metodou nejmenšı́ch čtverců značně vychýlen (mluvı́me stále o konkrétnı́ čı́selné hodnotě odhadu pro některá data). Je-li tento odhad vychýlen “stejným směrem” jako odhad metodou instrumentálnı́ch proměnných, lze si představit, že jejich rozdı́l bude malý a Hausmanův test nebude indikovat vhodnost použitı́ instrumentálnı́ch proměnných. Lze si snadno představit i opačnou situaci, totiž že regresory a náhodné fluktuace jsou nezávislé, ale dı́ky špatné volbě instrumentů bude odhad β̂ IP značně vychýlený. Hausmanův test však počı́tá s tı́m, že právě tento odhad je nevychýlený a pokud je rozdı́l tohoto odhadu a odhadu metodou nejmenšı́ch čtverců velký, indikuje vychýlenost tohoto druhého odhadu, a tedy také závislost regresorů a náhodných fluktuacı́. Z toho, co bylo právě řečeno plyne, že je třeba volbě instrumentů věnovat mimořádnou pozornost a pokusit se najı́t takové, které jsou opravdu co nejvı́ce korelovány s regresory. Zprávou, která nás však nepotěšı́ je to, že ani to nemusı́ postačit. Stačı́ si totiž uvědomit, že odhad pomoci instrumentálnı́ch proměnných je odhadem pořı́zeným vlastně jinou metodou než jsou nejmenšı́ čtverce aplikované na původnı́ data. Pak již stačı́ vzı́t v úvahu výsledek prezentovaný např. ve Vı́šek (1997 d, e), který řı́ká, že bez ohledu na počet pozorovánı́ mohou dva konzistentnı́ odhady dávat dva velmi odlišné výsledky, nebot’ každý z těchto odhadů “dává přednost” reprezentaci (či chcete-li, vysvětlenı́) dat pomoci jiného regresnı́ho modelu. K tomu, aby nenastal tento na prvnı́ pohled podivný jev bychom potřebovali stejnoměrnou konvergenci všech konsistentnı́ch odhadů ve všech regresnı́ch modelech, a to je evidentně přı́liš silný požadavek. Proto je třeba k použitı́ instrumentálnı́ch proměnných přistupovat se stejnou opatrnostı́ jako k použitı́ robustnı́ch metod, o kterých se velice krátce zmı́nı́me na konci skript. Nepochybně však o metodě instrumentálnı́ch proměnných platı́ totéž co o robustnı́ch metodách. To, že je nezbytné je použı́vat 100 s (alespoň určitou dávkou) opatrnosti, by nás nemělo zrazovat od jejich použitı́, nebot’ pokud je nepoužijeme a situace bude taková, že by je bylo namı́stě použı́t, dá nám metoda nejmenšı́ch čtverců zavádějı́cı́ výsledky. 7 ÚVAHY O SENSITIVITĚ MODELU V této kapitole se budeme věnovat studiu situacı́, které se obvykle shrnujı́ pod pojem sensitivita (či chcete-li citlivost) modelu a rozumı́ se tı́m to, jaké změny ve vlastnostech odhadu (metodou nejmenšı́ch čtverců) se objevı́, pokud bude např. do modelu zařazen jiný než “správný” počet vysvětlujı́cı́ch veličin, jaký vliv na odhad může mı́t jedno, či vı́ce (vlivných) pozorovánı́, jak může to či ono kritérium ovlivnit výběr “optimálnı́ho” modelu atd. (viz např. Chatterjee, Hadi (1988) ). Nejprve se budeme věnovat situaci, kdy je model podurčen, či přeurčen. Co tı́m bude rozumněno bude ihned patrné z formálnı́ho zadánı́ situace. 7.1 Efekt podurčenı́ Situacı́, kdy budeme mluvit o podurčenı́ (underfitting), budeme rozumět to, že do matice plánu nezahrneme všechny regresory, které by “tam měly být”. Formálně to znamená, že budeme předpokládat, že náhodné veličiny {Yn }∞ n=1 jsou rozděleny dle modelu (1) Yi = [xi ]T β (1) + Ei , i = 1, 2, . . . , (108) avšak ve skutečnosti budou tyto generovány modelem (1) (2) Yi = [xi ]T β (1) + [xi ]T β (2) + Ei , i = 1, 2, . . . , (109) (1) kde, podobně jako výše, X (1) bude označovat matici jejı́ž i-tý řádek je roven [xi ]T (podobně pro X (2) ). Oba přı́pady, tj. jak model ((108), tak (109)) budou uvažovány s pevnými (tj. nestochastickými) nosiči. Tuto situaci, tj. když si myslı́me, že data lze vysvětlit “menšı́m” modelem (108) ač vhodným by byl (109), budeme označovat jako podurčenı́ modelu. Nejprve si připravı́me pomocné technické tvrzenı́. TVRZENÍ 11 Necht’ t ∈ Rn je náhodný vektor s navzájem nezávislými stejně rozdělenými souřadnicemi. Předpokládejme, že existuje IE (t1 − IE t1 )2 = σ02 ∈ (0, ∞) a Q necht’ je čtvercová matice typu n × n. Potom IE tT Qt = σ02 tr(Q) + µT Qµ, kde µ = IE t. Důkaz. Výpočtem se ověřı́, že IE tT Qt = IE = IE n X n X n (t − µ)T Q(t − µ) + tT Qµ + µT Qt − µT Qµ qij (t − µ)i (t − µ)j + µT Qµ = σ02 i=1 j=1 n X n X o δij qij + µT Qµ, i=1 j=1 kde δij je Kroneckerovo δ, tj. δij = 1 pro i = j a δij = 0 pro i 6= j. 101 2 VĚTA 3 Necht’ náhodné veličiny {Yi }∞ i=1 jsou generovány modelem (109). Potom odhad ³ β̂ LS(1) = [X (1) ]T X (1) ´−1 [X (1) ]T Y je nestranným odhadem β (1) pouze tehdy, je-li β (2) = 0 nebo je-li [X (1) ]T X (2) = 0. Podobně 2 reziduálnı́ součet čtverců SR(1) = · Pn ³ ³ i=1 (1) Yi − [xi ]T β̂ LS(1) pouze tehdy, když I − X (1) [X (1) ]T X (1) ´−1 ´2 je nestranným odhadem (n − p)σ 2 ¸ [X (1) ]T X (2) β (2) = 0. Důkaz. Snadno ověřı́me, že střednı́ hodnota odhadu β̂ LS(1) je ³ IE β̂ LS(1) = [X (1) ]T X (1) ³ = [X (1) ]T X (1) ´−1 ³ ´−1 [X (1) ]T IE Y ´ ³ [X (1) ]T X (1) β (1) + X (2) β (2) = β (1) + [X (1) ]T X (1) ´−1 [X (1) ]T X (2) β (2) . Pokud chceme dosáhnout nestrannosti, pak rozumně připadajı́ v úvahu jen dvě možnosti: • bud’ β (2) = 0 • nebo [X (1) ]T X (2) = 0. Jejich diskuzi provedeme v následujı́cı́ poznámce. Nynı́ označı́me symbolem P (1) projekčnı́ ³ matici přı́slušnou k matici plánu X (1) , tj. P (1) = X (1) [X (1) ]T X (1) předpřipravené technické tvrzenı́. Dostaneme n 2 IE SR(1) = IE ³ ´ Y T I − P (1) Y ³ = σ 2 tr(I − P (1) ) + X (1) β (1) + X (2) β (2) ´T ³ I − P (1) ³ ´−1 [X (1) ]T , a použijeme o ´³ ´ X (1) β (1) + X (2) β (2) , ´ = σ 2 (n − p) + [β (2) ]T [X (2) ] I − P (1) X (2) β (2) = σ 2 (n − p) + n³ ´ I − P (1) X (2) β (2) oT ³ ´ I − P (1) X (2) β (2) . 2 POZNÁMKA 5 Pokud bude β (2) = 0 nebo X (2) = 0, model (109) splývá s modelem (108) a tedy těžko mluvit o podurčenı́. Zbývá tedy možnost [X (1) ]T X (2) = 0, což můžeme dokonce docela dobře zařı́dit, aby platilo. Vezmeme-li totiž namı́sto vysvětlujı́cı́ch proměnných obsažených v matici X (2) přı́slušné vektory reziduı́, které dostaneme při projekci těchto veličin do prostoru M(X (1) ), dosáhneme toho, že [X (1) ]T X̃ (2) = 0 (kde X̃ (2) označuje matici poskládánou z přı́slušných vektorů reziduı́), a navı́c model je pak, co do schopnosti vysvětlenı́ veličiny Y , ekvivalentnı́ modelu (109). 2 Dosáhnout nestrannosti odhadu modelu je poněkud obtı́žnějšı́. Výše uvedené ´ ³ σ v podurčeném (2) (2) (1) X β = 0 pro všechna β (2) (nebot’ β (2) neznáme). vztahy napovı́dajı́, že musı́ platit I − P ³ ´ ³ ´ To znamená, že I − P (1) X (2) musı́ být nulové. To je ekvivalentnı́ s X (2) ⊥ I − P (1) , ale to znamená, že X (2) ⊂ M(X (1) ). Pak je ovšem rozšı́řenı́ modelu o X (2) pouze formálnı́. Zbývá tedy β (2) = 0, ale pak je rozšı́řenı́ modelu o X (2) opět jen formálnı́. Navı́c je celý postup kontroverznı́ už na prvnı́ pohled. Pokud totiž chceme úpravou X (2) na X̃ (2) zajistit nestrannost β̂ LS(1) vlastně připouštı́me, že platı́ model (109). Pak je ovšem nesmyslné odhadovat model (108). 102 7.2 Efekt přeurčenı́ V tomto odstavci uvažujme situaci, která je v jistém smyslu symetrická či chcete-li opačná k té, kterou jsme studovali v předchozı́m odstavci. V takové situaci budeme přirozeně mluvit o přeurčenı́ modelu (overfitting). Předpřipravme si opět nejprve pomocné tvrzenı́. TVRZENÍ 12 Necht’ sloupce matice X (1) jsou lineárně nezávislé na sloupcı́ch matice X (2) , která je plné hodnosti, pak W = [X (2) ]T (I − P (1) )X (2) je regulárnı́. Důkaz. Je-li W singulárnı́, pak lze nalézt (alespoň jeden) vektor v 6= 0 tak, že W v = 0, tj. také v T W v = 0. Dosadı́me-li za W , dostaneme ³ 0 = v T W v = v T [X (2) ]T (I − P (1) )X (2) v = (I − P (1) )X (2) v ³ ´T ³ ´ (I − P (1) )X (2) v . ´ Potom ovšem také (I − P (1) )X (2) v = 0. Předpokládali jsme však, že X (2) má plnou hodnost a tedy jeho sloupce jsou lineárně nezávislé. To implikuje fakt, že bez ohledu na to, který vektor ³ ´ (2) (1) v byl vybrán, je X v 6= 0. Pak ovšem máme I − P ⊥X (2) v, tj. X (2) v ⊂ M(X (1) ), a to znamená, že alespoň jeden ze sloupců matice X (1) lze vyjádřit jako kombinaci sloupců z X (2) . Došli jsme tedy ke sporu s předpoklady tvrzenı́. 2 Abychom mohli vyslovit přehledně dalšı́ větu budeme potřebovat některá dalšı́ označenı́. Necht’ · ¸ β̂ LS(1,2) = ³ X (1) , X (2) ´T ³ X (1) , X (2) ´ −1 ³ X (1) , X (2) ´T Y a připomeňme, že jsme v předchozı́ větě označili ³ β̂ LS(1) = [X (1) ]T X (1) ´−1 [X (1) ]T Y. Dále pak označme β̂ (1) a β̂ (2) ty části odhadu β̂ LS(1,2) , které odpovı́dajı́ β (1) a β (2) , tj. β̂ (1) obsahuje prvnı́ch p souřadnic vektoru β̂ LS(1,2) zatı́mco β̂ (2) obsahuje zbytek. Konečně necht’ ³ A = [X (1) ]T X (1) tvrzenı́. ´−1 [X (1) ]T X (2) a připomeňme, že matice W byla zavedena v předchozı́m ’ VĚTA 4 Necht’ náhodné veličiny {Yi }∞ i=1 jsou generovány modelem (108). Necht dále matice (1) (2) (1) X a X v modelu (109) jsou typů (n×p) a (n×q) a necht’ matice (X , xd) je plné hodnosti. Pak máme β̂ (1) = β̂ LS(1) − Aβ̂ (2) a ³ ´ β̂ (2) = W −1 [X (2) ]T I − P (1) Y. Dále IE β̂ (1) = β (1) , IE β̂ (2) = 0, kde σ̂ 2 = Y T (I − P ) Y n−p−q 103 a IE σ̂ 2 = σ 2 , a ³ P = X (1) ,X (2) ´ ·³ X (1) ,X (2) ´T ³ X (1) ,X (2) ´¸−1 ³ X (1) , X (2) ´T . Konečně pak [X (1) ]T X (1) + AW −1 AT −AW −1 var(β̂ LS(1,2) ) = σ 2 . −W −1 AT W −1 Důkaz. Pišme normálnı́ rovnice ve tvaru [X (1) ]T X (1) β̂ (1) + [X (1) ]T X (2) β̂ (2) = [X (1) ]T Y (110) [X (2) ]T X (1) β̂ (1) + [X (2) ]T X (2) β̂ (2) = [X (2) ]T Y. (111) a S přihlédnutı́m k výše zavedenému označenı́, dostaneme z (110) β̂ (1) = β̂ LS(1) − Aβ̂ (2) a tedy (112) ³ ´ [X (2) ]T X (2) β̂ (2) = [X (2) ]T Y − [X (2) ]T X (1) β̂ LS(1) − Aβ̂ (2) . Dosadı́me-li nynı́ za matici A, dojdeme k ³ [X (2) ]T X (2) β̂ (2) − [X (2) ]T X (1) [X (1) ]T X (1) ´−1 [X (1) ]T X (2) β̂ (2) = [X (2) ]T Y − [X (2) ]T X (1) β̂ LS(1) . Odtud ³ ´ ³ ´ [X (2) ]T I − P (1) X (2) β̂ (2) = [X (2) ]T I − P (1) Y a tedy ³ ´ β̂ (2) = W −1 [X (2) ]T I − P (1) Y. (113) Snadno ověřı́me, že IE β̂ (2) = IE ³ n ³ ´ W −1 [X (2) ]T I − P (1) Y o ³ ´ = W −1 [X (2) ]T I − P (1) X (1) β (1) = 0, ´ nebot’ I − P (1) X (1) = 0. Poslednı́ rovnost plyne z faktu, že projekce matice do podprostoru, který sama generuje dá právě tuto matici. To však implikuje to, že IE β̂ (1) = β (1) (viz (112)). Spočteme-li střednı́ hodnotu reziduálnı́ho součtu čtverců 2 IE SR = IE Y T (I − P ) (I − P ) Y = IE Y T (I − P ) Y n = IE ³ ³ tr Y T (I − P ) Y ´o n = IE ´ ³ tr Y Y T (I − P ) ´o = tr IE Y Y T (I − P ) = σ 2 tr (I − P ) = σ 2 (n − p − q), 104 2 je nestranným odhadem rozptylu reziduı́. Ze vztahu (113) zjistı́me, že σ̂ 2 = (n − p − q)−1 SR vyplývá, že ³ ´ ³ ´ ³ var(β̂ (2) ) = W −1 [X (2) ]T I − P (1) var(Y ) I − P (1) ´T X (2) W −1 = σ 2 W −1 [X (2) ]T I − P (1) [X (2) ]T W −1 = σ 2 W −1 a cov(β̂ LS(1) , β̂ (2) ) = cov ½³ [X (1) ]T X (1) ³ = σ 2 [X (1) ]T X (1) ´−1 ³ ´−1 ´ ¾ [X (1) ]T Y, W −1 [X (2) ]T I − P (1) Y ³ ´ [X (1) ]T I − P (1) X (2) W −1 = 0, ³ ´ kde jsme opět použili faktu, že [X (1) ]T I − P (1) = 0. Nakonec spočteme rozptyl odhadu β̂ (1) var(β̂ (1) ) = var(β̂ LS(1) − Aβ̂ (2) ) = var(β̂ LS(1) ) + Avar(β̂ (2) T )A = σ 2 ½³ [X (1) T ] X (1) ´−1 ¾ + AW −1 T A a jeho kovarianci s odhadem β̂ (2) cov(β̂ (1) , β̂ (2) ) = cov(β̂ LS(1) − Aβ̂ (2) , β̂ (2) ) = −σ 2 AW −1 . 2 POZNÁMKA 6 Vzhledem k tomu, že rozdı́l kovariančnı́ch matic var(β̂ (1) ) a var(β̂ LS(1) ) je roven σ 2 AW −1 AT , což je semidefinitnı́ matice, bude “rozptyl” odhadu regresnı́ch koeficientů v přeurčeném modelu alespoň tak velký jako v modelu správném. Navı́c je tento odhad, právě tak jako odhad σ̂ 2 , nestranný. Již výše jsme naznačili, že lze, co se týká matematické stránky věci, bez problémů zařı́dit, aby var(β̂ (1) ) = var(β̂ LS(1) ) a to tak, že dosáhneme nulovosti matice A. Ukázali jsme, že stačı́ nahradit matici X (2) maticı́ X̃ (2) , která bude složena z reziduı́, které zı́skáme po projekci sloupců matice X (2) do prostoru generovaného maticı́ X (1) , tj. ³ ´ X̃ (2) = I − P (1) X (2) ³ (připomı́náme, že P (1) = X (1) [X (1) ]T X (1) ´−1 [X (1) ]T ). Snadno se ověřı́, že nový model Y = X (1) β (1) + X̃ (2) β (2) + E ³ ´ ³ ´ bude přirozeně ekvivalentnı́ modelu (109), nebot’ M( X (1) , X (2) ) = M( X (1) , X̃ (2) ). To znamená, že v přı́padě, kdy si nejsme moc jisti, zda je užitečné zařadit do modelu dalšı́ vysvětlujı́cı́ proměnné, můžeme se zabezpečit proti zvětšenı́ rozptylu odhadů regresnı́ch koeficientů právě popsaným postupem. Může se však přirozeně stát, že nový model půjde (poněkud) hůře interpretovat než ten původnı́. Interpretace modelu, tedy přesněji interpretace výsledků regresnı́ analýzy však nenı́ nikdy zcela jednoduchá a vyžaduje určité zkušenosti, které se spı́še než čtenı́m skript zı́skajı́ zpracovávánı́m souborů dat. Nicméně se pokusı́me v těchto skriptech uvést na pravou mı́ru alespoň nejběžněji se objevujı́cı́ špatné interpretace výsledků. 105 7.3 Vliv jednoho pozorovánı́ Na závěr této kapitoly si povı́me něco o charakteristice, která byla použı́vána jako diagnostický nástroj snad od samého počátku budovánı́ regresnı́ analýzy. Je snadno pochopitelné, že současně s rozšiřovánı́m našich vědomostı́ o regresnı́m modelu, respektive o vlastnostech odhadu jeho koeficientů, byla snaha nalézt jednoduché nástroje na rozpoznánı́ vlivných bodů, tj. bodů, které nejvı́ce ovlivňujı́ výsledky regresnı́ analýzy. TVRZENÍ 13 Označme odhad pořı́zený metodou nejmenšı́ch čtverců pro data, ze kterých bylo vypuštěno `-té pozorovánı́, symbolem β̂ (LS,n,`) . Potom platı́ ³ β̂ (LS,n) − β̂ (LS,n,`) = X { ` }T X { ` } ´−1 ´ ³ x` Y` − xT` β̂ (LS,n) , (114) kde X { ` } je matice, která vznikne z matice X po vypuštěnı́ xT` , tj. `-tého řádku a kde jsme předpokládali, že tato matice je také plné hodnosti. Důkaz. Normálnı́ rovnice, ze kterých vyčı́slujeme odhady β̂ (LS,n) a β̂ (LS,n,`) majı́ tvar p X n X (LS,n) xij xik β̂k = k=1 i=1 a p n X X n X xij Yi j = 1, 2, . . . , p i=1 (LS,n,`) xij xik β̂k n X = k=1 i=1,i6=` xij Yi j = 1, 2, . . . , p. i=1,i6=` Jejich porovnánı́m dostaneme p n X X ³ xij xik (LS,n) β̂k − (LS,n,`) β̂k ´ = x`j Y` − p X (LS,n) x`k β̂k j = 1, 2, . . . , p, k=1 k=1 i=1,i6=` nebo ekvivalentně pomocı́ maticového formalizmu ³ ´ ³ ´ X { ` }T X { ` } β̂ (LS,n) − β̂ (LS,n,`) = x` Y` − xT` β̂ (LS,n) . 2 POZNÁMKA 7 Právě dokázané tvrzenı́ usnadňuje nalezenı́ “nejvlivnějšı́ho” pozorovánı́. Potvrzuje totiž intuitivnı́ doměnku, že nejvlivnějšı́ bod bude mezi těmi, které majı́ velká rezidua a současně jsou daleko od počátku (nenechme se mást tı́m, že ve vztahu vystupuje x` a nikoliv nějaká standardizovaná hodnota; o standardizaci se postará X { ` }T X { ` } ). Samozřejmě tento postup, hledajı́cı́ bod, jehož vypuštěnı́ maximalizuje normu rozdı́lu β̂ (LS,n) − β̂ (LS,n,`) , nevezme v úvahu globálnı́ vztahy mezi pozorovánı́mi, nebot’ ty se mohou navzájem “maskovat”. Jinými slovy, pokud mezi daty bude vı́ce vlivných bodů tvořı́cı́ch skupinu, musı́me použı́t analogii (114) odvozenou pro odhad β̂ (LS,n,J ) , tj. pro odhad pořı́zený pro data, ze kterých jsme vyloučili pozorovánı́ s indexy, které jsou ve zvolené indexové množině J . Poměrně snadno lze nalézt i asymptotické rozdělenı́ pro rozdı́l ´ √ ³ (LS,n) nλ β̂ − β̂ (LS,n,Jk ) , kde Jk je k-člená podskupina indexů z {1, 2, . . . , n}, pro počet vyloučených bodů k jdoucı́ch do nekonečna současně se zvyšujı́cı́m se počtem pozorovánı́ n (např. nk → λ ∈ (0, 1) pro n → ∞), viz Vı́šek (1997 a). 106 POZNÁMKA 8 Dřı́ve se v literatuře často připomı́nalo, že pro výpočet matice ³ X { ` }T X { ` } ´−1 , může být výhodné použı́t vztahu ³ X { ` }T X { ` } ´−1 ³ = XT X ´−1 ³ + XT X ´−1 ³ x` xT` X T X 1 − xT` (X T X)−1 x` ´−1 , který plyne z obecné rovnosti ³ A + BDC T ´−1 ³ = A−1 − A−1 B D−1 + C T A−1 B ´−1 C T A−1 , kterou snadno ověřı́me vynásobenı́m maticı́ A + BDC T . V současné době, kdy máme k dispozici výkonnou výpočetnı́ techniku, může mı́t tato možnost význam snad jen v přı́padě, kdy zpracováváme stovky či tisı́ce dat. 7.4 Kolinearita Při úvahách o tom, jak dalece je regresnı́ model, přı́padně metoda nejmenšı́ch čtverců citlivá na různé situace, bychom měli také prostudovat situaci, kdy matice X T X je “na pokraji singularity”. Výraz na pokraji singularity naznačuje, že matice X T X je stále ještě regulárnı́, nicméně jejı́ regularita je v jistém smyslu již tak problematická, že může být počátkem potı́žı́ při zpracovánı́ dat. Připomeňme, že v tom přı́padě mluvı́me o matici X jako špatně podmı́něné a např. inverze matice X T X, kterou potřebujeme k výpočtu odhadu metodou nejmenšı́ch čtverců, může způsobit (výpočetnı́) potı́že. Nı́že však uvidı́me, že to nejsou jediné potı́že, které může špatná podmı́něnost matice X způsobit. Nastane-li právě popsaná situace, mluvı́me o kolinearitě (collinearity) či multikolinearitě matice plánu. Jinými slovy, kolinearitou či multikolinearitou budeme rozumět pouze situaci, kdy alespoň jeden ze sloupců matice X je skoro lineárnı́ kombinacı́ těch ostatnı́ch. Slovı́čko “skoro” se v tomto kontextu špatně formalizuje a tak se o to nebudeme ani pokoušet a raději uvedeme nějaké diagnostické nástroje, které to rozpoznajı́. Dřı́ve než tak však učinı́me, uvedeme jednu poznámku a připravı́me si jeden technický nástroj. POZNÁMKA 9 Některé publikace věnované regresnı́ analýze zahrnujı́ pod pojem kolinearita také situaci, kdy nosiče jsou opravdu lineárně závislé, tj. kdy matice plánu nenı́ plné hodnosti (a mluvı́ o perfektnı́ kolinearitě). Na druhé straně to v praxi, až snad na přı́pady, kdy se bránı́me z vı́ce či častěji však méně pochopitelných důvodů ke změně matice plánu, vede k vyloučenı́ některého sloupce z matice, čı́mž jsou přı́slušné problémy vyřešeny. Nebudeme tedy situaci, kdy je matice X neúplné hodnosti jako kolinearitu vnı́mat, tj. budeme nadále předpokládat, že matice X T X je regulárnı́. Jak však uvidı́me, řešenı́ problému kolinearity, tak jak si o něm budeme dále povı́dat, se ukáže býti schopno řešit i situaci “plné” lineárnı́ závislosti nosičů. Nynı́ si konečně “předpřı́pravı́me” výše slı́bený pomocný technický nástroj. TVRZENÍ 14 Necht’ matice A typu (n × m), n ≥ m, má hodnost r ≤ m. Potom existujı́ matice P, S a Q typů (n × m), (m × m) a (m × m) a platı́: • Matice S je diagonálnı́, 107 • A = P SQT , • P T P = Im a • QT Q = QQT = Im . Tomuto rozkladu, tj. rovnosti A = P SQT , se často řı́ká singulárnı́ rozklad matice. Důkaz. Definujme Q = (q1 , q2 , . . . , qm ), kde qi , i = 1, 2, . . . , m jsou vlastnı́ ortogonálnı́ vektory matice AT A s vlastnı́mi čı́sly λ1 ≥ λ2 ≥ . . . ≥ λm ≥ 0. Poslednı́ nerovnost plyne z faktu, že matice AT A je nutně pozitivně semidefinitnı́. Existence takových vektorů plyne z Tvrzenı́ 6. Bez újmy na obecnosti předpokládejme, že vektory majı́ jednotkovou délku. Ttak je lze samozřejmě vždy zvolit. Z předpokladu, že hodnost matice A je r plyne, že prvnı́ch r vlastnı́ch √ n čı́sel je nenulových a můžeme tedy položit si = λi a pi = s−1 i Aqi ∈ R pro i = 1, 2, . . . , r. Potom dostaneme 1 T T sj qi A Aqj = qiT qj = δij . pTi pj = si sj si Dále doplnı́me matici P ∗ = (p1 , p2 , . . . , pr ) dalšı́mi ortogonálnı́mi vektory jednotkové délky na matici P typu (n × m), libovolně. Z volby matice Q plyne, že QT Q = Im . Protože matice Q je regulárnı́ a inverznı́ matice je jen jedna, je také QQT = Im , a tedy A = AQQT = (s1 p1 , s2 p2 , . . . , sm pm )QT = P SQT , kde jsme využili fakt, že sr+1 , . . . , sm = 0. 2 ’ Vrat me se nynı́ ke kolinearitě. Jaké jsou jejı́ zdroje (či přı́činy, chcete-li) a jak ji můžeme rozpoznat? Jestliže už vı́me, že naše data vykazujı́ kolinearitu, a to ve stupni, který by mohl z důvodů, které si dále ukážeme, ovlivnit jejich zpracovánı́, co bychom měli podniknout? Na tyto otázky nynı́ postupně odpovı́me. 7.4.1 Zdroje a rozpoznánı́ kolinearity Jako zdroj kolinearity bývá nejčastěji uváděna jedna z následujı́cı́ch přı́čin: • způsob sběru dat, • omezenı́ v populaci, ze které byla data vybı́rána, • špatná specifikace modelu. Zastavme se na chvı́li u jednotlivých přı́čin kolinearity. Prvnı́ z nich upozorňuje na to, že občas určité rysy některé metody sběru dat mohou vést k tomu, že vlastně “vtiskneme” datům kolinearitu sami. Např. se omezı́me na ty prvky v nějaké širšı́ populaci, které současně splňujı́ to a to, a pokud jsou tato omezenı́ zvolena tak nešt’astně, že představujı́ nadrovinu ve faktorovém prostoru, budou data vykazovat kolinearitu. Druhá řı́čina je velmi podobná té prvnı́, ale s tı́m rozdı́lem, že vlastně v celé populaci existuje takový typ vazby, jaký byl v předchozı́m přı́padě “nešt’astně” vybrán jako selektivnı́ pravidlo pro 108 sběr dat. Pak je samozřejmě zbytečné shromažd’ovat o jednotlivých přı́padech všechny položky, naopak některé položky, které dı́ky lineárnı́ vazbě vlastně “plynou” z hodnot jiných vysvětlujı́cı́ch proměnných (jiných položek) nenı́ třeba shromažd’ovat. Konečně pak třetı́ přı́čina je přeurčenı́ modelu, o kterém jsme si povı́dali již dřı́ve. Podrobnou diskuzi ke všem těmto bodům uvádějı́ práce Mason a kol. (1975) či Gunst (1983). Přı́klad dat vykazujı́cı́ch kolinearitu z důvodu uvedeného jako prvnı́ lze nalétz v Marquart, Snee (1975). Nynı́ si něco povı́me o způsobech, jak kolinearitu rozpoznat. Prvnı́, a jak se hned ukáže zavádějı́cı́ nápad, vezme v úvahu to, že pokud matice plánu X nenı́ plné hodnosti, má matice X T X nulový determinant. Napadne nás tedy, že čı́m bude matice X hůře podmı́něna, tı́m bude jejı́ determinant menšı́. Mohli bychom se tedy pokusit rozpoznat kolinearitu pomoci velikosti jejı́ho determinantu. Je-li však matice X T X “pouze” špatně podmı́něna, tj. sloupce v matici X jsou “téměř” lineárně závislé, je determinant matice nenulový a může být, vynásobı́me-li např. všechny prvky matice X stejným čı́slem, “udělán” libovolně velkým či libovolně malým, aniž by se cokoliv změnilo na “stupni” závislosti mezi sloupci matice X. Totéž platı́ i o vlastnı́ch čı́slech, jejichž hodnota může být takto zvětšena či zmenšena dle libosti. Naštěstı́ je okamžitě patrné, že zmı́něné úpravy matice nic nezměnı́ na poměru vlastnı́ch čı́sel, tj. jinými slovy, poměr kterýchkoliv dvou pevně zvolených vlastnı́ch čı́sel je hodnota absolutnı́, nezměnitelná násobenı́m matice. Mohli bychom tedy tento poměr, např. poměr největšı́ho ku nejmenšı́mu vlastnı́mu čı́slu matice X T X, použı́vat jako čı́selnou charakteristiku podmı́něnosti této matice. Je-li totiž matice singulárnı́, je alespoň jedno vlastnı́ čı́slo nulové. Je-li tedy matice “na pokraji singularity”, je alespoň jedno vlastnı́ čı́slo (výrazně) menšı́ než to největšı́, byt’ samozřejmě i to nejmenšı́ může být značně veliké. Z jakýchsi historických důvodů (viz singulárnı́ rozklad matice) se však použı́vá odmocnina poměru vlastnı́ch čı́sel. Připomeňme, že dı́ky tomu, že předpokládáme plnou hodnost matice X, je matice X T X positivně definitnı́ a tedy má všechna vlastnı́ čı́sla kladná. √ Předpokládejme, že je očı́slujeme λ1 ≥ λ2 ≥ . . . ≥ λp > 0 a položı́me si = λi , 1 ≤ i ≤ p. DEFINICE 3 j-tým indexem podmı́něnosti matice X budeme rozumět veličinu s1 ηj = , j = 1, 2, . . . , p. sj Index podmı́něnosti, tentokrát bez přı́vlastku j-tý, matice X bude s1 κ(X) = ηp = . sp TVRZENÍ 15 Necht’ P SQT je singulárnı́ rozklad matice X. Potom pro j = 1, 2, . . . , p máme (LS,n) var(β̂j ) = σ2 p X 2 s−2 i qij , (115) i=1 kde qij je i, j-tý prvek matice Q. Důkaz. Několikrát jsme v předchozı́m textu použili to, že var(β̂ (LS,n) ) = σ 2 (X T X)−1 . Matici X T X můžeme psát jako QS 2 QT a tedy, uvědomı́me-li si, že matice Q je inverznı́ ke QT a matice S je diagonálnı́, máme h (X T X)−1 = QS 2 QT i−1 = QS −2 QT = p X i=1 109 T s−2 i qi qi , kde jsme symbolicky psali S −2 namı́sto S −1 S −1 . Poslednı́ rovnost se snadno ověřı́, jestliže rozepı́šeme přı́slušný součin pomocı́ sumacı́. 2 Ze vztahu (115) je ihned patrné, jaké jsou důsledky toho, je-li alespoň jedno si dosti malé. (LS,n) Je vidět, že rozptyl var(β̂k ) může být značně velký. Jak jsme připoměli výše, absolutnı́ velikost čı́sel si lze ovlivnit znásobenı́m matice X. To znamená, že lze tı́mto ovlivnit rovněž rozptyl odhadu regresnı́ch koeficientů. To samozřejmě souhlası́ s intuitivnı́ představou, že čı́m jsou body, ve kterých se uskutečnilo pozorovánı́ vı́ce vzdáleny od sebe, tı́m je odhad přesnějšı́. Povšimněme si však, že to nic neměnı́ na relativnı́ přesnosti predikce hodnoty vysvětlované proměnné v některém bodě x ∈ Rp , samozřejmě za předpokladu, že je celý výpočet prováděn na dostatečný počet desetinných mı́st tak, aby se kdesi cestou hodně malé čı́slo nepovažovalo za nulu. Navı́c (115) naznačuje, že pokud je jedno si malé ve srovnánı́ s ostatnı́mi čı́sly sk , bude mı́t i-tý člen v součtu (115) mimořádnou váhu a může “destabilizovat” odhad. Nastane-li situace, kdy κ(X) > 100 mluvı́ se zpravidla o silné kolinearitě a patrně jediná pomoc je některý sloupec matice X vypustit. Je-li κ(X) > κ, kde κ ∈ (10, 30) je jakási kritická, ale v podstatě individuálnı́ hodnota dle vkusu a zkušenostı́ toho či onoho zpracovatele dat, použije se obvykle některá metoda na potlačenı́ kolinearity. 7.4.2 Hřebenová regrese A. E. Hoerl a R. W.Kennard navrhli v roce 1970 jeden z možných způsobů, (Hoerl a Kennard (1970 a, b)) jak se vyrovnat s nepřı́jemným vlivem kolinearity. Jejich návrhu se začalo řı́kat ridge regression, česky se pomalu ujı́má hřebenová regrese, nebot’ název, jak v angličtině tak v češtině, zachycuje ten fakt, že se v matici “zvedne” uměle diagonála, tj. vytvořı́ se jakýsi (horský) hřeben, a tı́m se (poněkud) potlačı́ kolinearita. Vysvětleme si nynı́ podrobněji, v čem spočı́vá návrh pánů Hoerla a Kennarda. Ukažeme nejprve, že matice X T X + δI, kde δ je (malé) pozitivnı́ čı́slo, je vždy regulárnı́, a tedy pozitivně definitnı́. Protože matice X T X je symetrická, plyne z Tvrzenı́ 7, že X T X = QS 2 QT , kde S 2 je diagonálnı́ matice majı́cı́ na diagonále vlastnı́ čı́sla matice X T X a QT Q = QQT = I. Vzhledem k tomu, že navı́c předpokládáme, že X T X je regulárnı́ a tedy pozitivně definitnı́ jsou prvky na diagonále matice S 2 kladné, byt’ patrně malé. Uvědomme, že matici X T X + δI můžeme psát jako Q(S 2 + δI)QT , nebot’ QQT = I. Je však evidentnı́, že matice Q(S 2 + δI)QT je regulárnı́. Každý ³ z činitelů´ v tomto součinu je totiž také regulárnı́. Poslednı́ rovnost však ihned implikuje, že X T X + δI Q = Q(S 2 + δI), neboli, že čı́sla na diagonále matice S 2 + δI jsou vlastnı́mi čı́sly matice X T X + δI. To však znamená, že velikost těchto čı́sel a jejich poměrů můžeme měnit pomocı́ volby čı́sla δ, můžeme také měnit index podmı́něnosti této matice. A to je hlavnı́ myšlenka hřebenové regrese, totiž umělá změna poměru vlastnı́ch čı́sel matice jejı́ž inverzi hledáme. Po těchto předběžných úvahách, studujme nynı́ namı́sto odhadu β̂ (LS,n) = (X T X)−1 X T Y odhad ³ ´−1 β̂ (R,δ,n) = X T X + δI X T Y. ³ TVRZENÍ 16 Vychýlenı́ odhadu β̂ (R,δ,n) je −δ X T X + δI 110 ´−1 β 0 a matice střednı́ch kvadrat- ický odchylek (MSE) má tvar ³ X T X + δI ´−1 h σ 2 X T X + δ 2 β 0 [β 0 ]T i³ X T X + δI ´−1 . Důkaz. Snadno se ověřı́, že vychýlenı́ odhadu β̂ (R,δ,n) je h i ³ IE β̂ (R,δ,n) − β 0 = X T X + δI ³ = X T X + δI ´−1 h ´−1 X T Xβ 0 − β 0 i ³ X T X − X T X − δI β 0 = −δ X T X + δI ´−1 β0. Výpočtem můžeme ověřit, že pro každý náhodný vektor Z je matice střednı́ch kvadratických odchylek ( MSE(Z) ) od pevného vektoru h rovna n (Z − h)(Z − h)T IE o n = IE (Z − IE Z + IE Z − h)(Z − IE Z + IE Z − h)T o = var(Z) + (IE Z − h)(IE Z − h)T . Navı́c je okamžitě patrné, že ³ IE β̂ (R,δ,n) = X T X + δI ³ a tedy β̂ (R,δ,n) − IE β̂ (R,δ,n) = X T X + δI var(β̂ (R,δ,n) ½³ ´−1 X T Xβ 0 ³ X T (Y − Xβ 0 ) = X T X + δI T ) = IE X X + δI ³ ´−1 = σ 2 X T X + δI ´−1 ´−1 T T ³ T X E · E X X X + δI ³ X T X X T X + δI ´−1 ´−1 X T E. Odtud ´−1 ¾ . Konečně pak ³ MSE(β̂ (R,δ,n) ) = X T X + δI ´−1 h σ 2 X T X + δ 2 β 0 [β 0 ]T i³ X T X + δI ´−1 . 2 LEMMA 11 Necht’ model (4) má plnou hodnost a necht’ IE E = 0 a IE E · E T = σ 2 I, σ 2 ∈ 2 (0, ∞). Konečně necht’ 0 < δ < 2 kβσ0 k2 . Potom var(β̂ (LS,n) ) − MSE(β̂ (R,δ,n) ) je pozitivně definitnı́. Důkaz. Připravı́me si nejprve následujı́cı́ pomocné tvrzenı́. TVRZENÍ 17 Necht’ C je pozitivně definitnı́ matice, řekněme typu (n×n). Potom pro libovolný vektor a ∈ Rn je aT Ca ≤ 1 právě tehdy, pokud je C −1 − aT a pozitivně semidefinitnı́ matice. Pokud má platit ostrá nerovnost aT Ca < 1 je nutné a stačı́, aby matice C −1 − aT a byla pozitivně definitnı́. 111 Důkaz. Vı́me, že C lze psát jako QDQT , kde Q je regulárnı́ ortogonálnı́ matice a D je diagonálnı́ s kladnými prvky na diagonále. Fakticky jde o vlastnı́ čı́sla matice C. To znamená, −1 je také že C −1 = QD−1 QT , kde D−1 je diagonálnı́ matice majı́cı́ na diagonále d−1 ii , tj. C pozitivně definitnı́. Dokazované tvrzenı́ tedy platı́ pro a = 0. Matice C může být ovšem také psána jako Q̃Q̃T , kde Q̃ je rovněž regulárnı́. Potom aT Ca ≤ 1 je ekvivalentnı́ s kQ̃ak ≤ 1. Z jednoduché geometrické úvahy plyne, že rozdı́l projekčnı́ch matic Q̃(Q̃T Q̃)−1 Q̃T − Q̃a(aT Q̃T Q̃a)−1 aT Q̃T , je rovněž projekčnı́ maticı́ (viz Tvrzenı́ 9). nebot’ M(Qa) ⊂ M(Q). Platı́-li nynı́ kQ̃ak ≤ 1, pak pro libovolné λ ∈ Rn je λT Q̃a(aT Q̃T Q̃a)−1 aT Q̃T λ = To ovšem řı́ká, že λT Q̃aaT Q̃T λ ≥ λT Q̃aaT Q̃T λ. aT Q̃T Q̃a n o 0 ≤ λT Q̃(Q̃T Q̃)−1 Q̃T − Q̃a(aT Q̃T Q̃a)−1 aT Q̃T λ n o ≤ λT Q̃(Q̃T Q̃)−1 Q̃T − Q̃aaT Q̃T λ a tedy pro τ = Q̃T λ, dostaneme ³ ´ τ T (Q̃T Q̃)−1 − aaT τ ≥ 0, což však znamená, že je pozitivně semidefinitnı́ také (Q̃T Q̃)−1 − aaT = C −1 − aaT . Dokazujme nynı́ opačné tvrzenı́. Necht’ C −1 − aaT je pozitivně semidefinitnı́. Pak pro vektor ξ = Q̃T Q̃a, at’ už je nulový či nikoliv, je ³ ´ ³ ´ ³ ´ 0 ≤ ξ T C −1 − aaT ξ = ξ T (Q̃T Q̃)−1 − aaT ξ = aT Q̃T Q̃ (Q̃T Q̃)−1 − aaT Q̃T Q̃a = aT Q̃T Q̃(Q̃T Q̃)−1 Q̃T Q̃a − aT Q̃T Q̃aaT Q̃T Q̃a. Nynı́ využijeme toho, že vektor Q̃a ležı́ v prostoru M(Q̃), tj. Q̃(Q̃T Q̃)−1 Q̃T Q̃a = Q̃a a tedy máme 0 ≤ aT Q̃T Q̃(Q̃T Q̃)−1 Q̃T Q̃a − aT Q̃T Q̃aaT Q̃T Q̃a = aT Q̃T Q̃a − aT Q̃T Q̃aaT Q̃T Q̃a = kQ̃ak2 − kQ̃ak4 = kQ̃ak2 (1 − kQ̃ak2 ). Poslednı́ nerovnost implikuje to, že kQ̃ak2 ≤ 1, neboli aT Q̃T Q̃a = aT Ca ≤ 1. Důkaz tvrzenı́ s ostrými nerovnostmi je založen na faktu, že pro matici · F = A B C D ¸ , kde A a D jsou regulárnı́, máme |F | = |A| · |D − CA−1 B| = |D| · |A − BD−1 C|, 112 (116) kde |F |, |A|, atd. je determinant matice F, A, atd.. Poslednı́ rovnost se ověřı́ takto: ¯ ¯ ¯ ¯ I |F | = ¯¯ ¯ ¯ I = ¯¯ 0 ¯ ¯ ¯ 0 ¯¯ ¯¯ I 0 ¯¯ ¯¯ A B ¯¯ ·¯ · ¯ 0 D 0 D−1 ¯ ¯ C D ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ 0 ¯¯ ¯¯ A B ¯¯ ¯¯ I 0 ¯¯ ¯¯ A − BD−1 C 0 ¯¯ · ¯ −1 = · . ¯ D D C I ¯ ¯ 0 D ¯ ¯ D−1 C I ¯ Využijeme-li jak prvou, tak druhou rovnost z (116), dostaneme ¯ −1 ¯ C ¯ ¯ aT ¯ a ¯¯ = |C −1 |(1 − aT Ca) = |C −1 − aaT |. 1 ¯ To však dokazuje to, že C −1 − aaT je singulárnı́ právě když 1 = aT Ca. Konečně pak z faktu, že pozitivně semidefinitnı́ matice je pozitivně definitnı́ právě tehdy, je-li regulárnı́ plyne druhé tvrzenı́. 2 Důkaz lemmatu 10. Připomeňme, že výraz pro kovariančnı́ matici odhadu metodou nejmenšı́ch čtverců vypadá takto var(β̂ (LS,n) ) = σ 2 (X T X)−1 . Aplikacı́ Tvrzenı́ 6 dostaneme var(β̂ (LS,n) ) − MSE(β̂ (R,δ,n) ) ³ = X T X + δI ´−1 h σ 2 (X T X + δI)(X T X)−1 (X T X + δI) −σ 2 X T X − δ 2 β 0 [β 0 ]T ³ = X T X + δI i³ X T X + δI ´−1 h σ 2 (2δI + δ 2 (X T X)−1 ) − δ 2 β 0 [β 0 ]T i³ ´−1 X T X + δI ´−1 . (117) Je-li tedy δ ∈ (0, 2σ 2 kβ 0 k−2 ), potom pro C = 12 Iδσ −2 máme [β 0 ]T 21 Iδσ −2 β 0 = 12 δσ −2 kβ 0 k2 < 1 a tedy dle Tvrzenı́ 7 je 2Iσ 2 δ −1 − β 0 [β 0 ]T pozitivně definitnı́. Pak ovšem i 2Iσ 2 δ − δ 2 β 0 [β 0 ]T je pro δ > 0 pozitivně definitnı́ a tedy také matice σ 2 (2δI + δ 2 (X T X)−1 ) − δ 2 β 0 [β 0 ]T je pozitivně definitnı́, což ovšem ihned implikuje, že i (117) je pozitivně definitnı́. 2 TVRZENÍ 18 Necht’ P SQT je singulárnı́ rozklad matice X. Potom var(β̂ (R,δ,n) )=σ 2 p X " i=1 si 2 si + δ #2 qi qiT . Důkaz. Podobně jako výše pišme X T X = QS 2 QT a tedy ³ X T X + δI ´−1 = Q(S 2 + δI)−1 QT . Potom ³ β̂ (R,δ,n) = X T X + δI ´−1 X T Y = Q(S + δI)−1 QT QSP T Y = Q(S + δI)−1 SP T Y, a konečně tedy var(β̂ (R,δ,n) ) = Q(S + δI)−1 SP T var(Y ) P S(S + δI)−1 QT 2 −1 2 = σ Q(S + δI) −1 S (S + δI) T Q =σ 2 p X i=1 à si 2 si + δ !2 qi qiT . 2 113 POZNÁMKA 10 Bude-li matice X T X špatně podmı́něná, nalezne se mezi jejı́mi vlastnı́mi čı́sly některé dosti malé, v porovnánı́ s ostatnı́mi. To znamená, že pro toto vlastnı́ čı́slo (řekněme 2 −1 může být opět naopak malé. i-té) bude s−1 i , které vystupuje v (115), dosti velké, avšak si (si +δ) Vzhledem k tomu, že samozřejmě neznáme ani σ 2 ani kβ 0 k, nenı́ jasné, jak velké může být zvoleno δ. Existujı́ v podstatě dvě možnosti, jak se s tı́mto problémem vypořádat. Jednou z možnostı́ je vypočı́tat β̂ (R,δ,n) jako funkci δ pro různé hodnoty δ a vynést grafy jednotlivých složek vektoru β̂ (R,δ,n) v závislosti na δ. Poté se doporučuje zvolit δ takové, od kterého počı́naje se už grafy “stabilizujı́”. Jinou možnostı́ je zvolit nějak δ, vypočı́tat odhad β̂ (R,δ,n) a σ̂ 2 , a poté vždy překontrolovat, zda δ < 2σ̂ 2 kβ̂ (R,δ,n) k−2 . Alternativou hřebenových odhadů je nalezenı́ hlavnı́ch komponent matice X T X a vybudovánı́ regresnı́ho modelu na těchto komponentách. O tom si povı́me v dalšı́m odstavci. 7.4.3 Odhady s lineárnı́mi ohraničujı́cı́mi podmı́nkami Je pochopitelné, že pokud pomocı́ např. faktorové analýzy či analýzy hlavnı́ch komponent použité pro X T X by se ukázalo, že “variabilita” dat majı́cı́ch za kovariančnı́ matici právě X T X je vysvětlitelná pouze r faktory, znamená to, že p − r sloupců matice X je “téměř” závislých na některých r. To odpovı́dá přibližně situaci, kdy dimenze prostoru M(X) je r a nalezneme matici K tak, že M(X) ∩ M(K) = ∅ a M(X ∪ K) = p a hledáme odhad modelu Y = Xβ + E, Kβ = 0, (118) kde K je typu ((p − r) × p). Opět lze ukázat, že, označı́me-li β̂ (C,n) odhad regresnı́ch koeficientů v tomto modelu metodou nejmenšı́ch čtverců (kde hornı́ index C naznačuje, že jde o odhad s omezenı́mi - constraints), je var(β̂ (LS,n) ) − MSE(β̂ (C,n) ) (119) pozitivně definitnı́, opět samozřejmě za určitých podmı́nek na si , viz Zvára (1989). Namı́sto toho, abychom uvedli přesný důkaz tohoto tvrzenı́, ukážeme, jak takový odhad s lineárnı́mi omezenı́mi vypočı́tat. Nejprve budeme studovat jednoduchý přı́klad, kdy omezenı́ jsou (LS,n) β̂1 = 0, (120) tj. model bude bez absolutnı́ho členu, a p X (n) β̂j j=1 = p X (n) β̂j = 1. (121) j=2 Tato úloha patrně pocházı́ z oblasti kombinovánı́ předpovědı́ časových řad, např. kombinovánı́ predikcı́ velikosti hrubého národnı́ho produktu, které byly vytvořeny různými agenturami. Vhodná kombinace je hledána pomocı́ lineárnı́ho regresnı́ho modelu, vytvořeného tak, že predikovaná řada, jejı́ž hodnoty až do současnosti známe, se zprojektuje na matici plánu, jejı́ž sloupce jsou tvořeny právě řadami předpovědı́ predikovaného procesu, které v minulosti vydávali různı́ “prediktoři”. 114 Připravme si však nejprve technický nástroj. Poměrně snadno se ověři, že ³ IE Ŷt+1 − Yt+1 ´2 " =σ 2 µh T Xt+1 X (t) iT X (t) # ¶−1 Xt+1 + 1 , (122) kde jsme hornı́m indexem (t) u X (t) naznačili, že se jedná o matici plánu (která je složena z předpovědı́ jednotlivých předpovı́datelů, na mı́stě sloupců) pro obdobı́ 1, 2, ...t. Dále pak Yt+1 a Ŷt+1 jsou hodnoty předpovı́daného procesu a jeho odhadu v obdobı́ t + 1 a konečně Xt+1 je vektor předpovědı́ jednotlivých předpovı́datelů na obdobı́ t+1. Zapišme výše uvedená ohraničenı́ na koeficienty regresnı́ho modelu maticově. Dostaneme Cβ = κ, (123) kde c11 = 1, c1i = 0 pro i = 2, 3, ..., p, c21 = 0, c2i = 1 pro i = 2, 3, ..., p a κ = (0, 1)T . Nalezněme odhad regresnı́ch koeficientů v modelu (118) a označme predikci zı́skanou pomocı́ tohoto odhadu jako Ỹt+1 . Potom máme ³ IE µh − X (t) iT X (t) ¶−1 Ỹt+1 − Yt+1 " CT C µh X (t) iT ´2 ( =σ X (t) 2 ¶−1 "µ T Xt+1 h X #−1 CT (t) iT µh X X (t) C iT (t) ¶−1 X (t) ¶−1 Xt+1 + 1 . (124) To, že rozdı́l výrazů v (122) a (124) je nezáporný, plyne z faktu, že matice µh X (t) iT X (t) " ¶−1 C T µh C X (t) iT X (t) #−1 ¶−1 C T µh C X (t) iT X (t) ¶−1 je pozitivně semidefinitnı́ (byt’ zlepšenı́ je řádu 1t ; podrobnějšı́ diskuzi lze nalézt v Clemen (1986)). Vyložme si nynı́, jak se naleznou výše zmı́něné odhady regresnı́ch koeficientů pro speciálnı́ ohraničenı́ daná v (123). Pak si uvedeme data a ukážeme, jak je velký zisk - ve smyslu součtu čtverců chyb předpovědı́, použijeme-li obyčejné nejmenšı́ čtverce, tj. bez omezenı́, či odhad splňujı́cı́ (120) a (121). Tak jako obvykle, budeme předpokládat, že matice plánu obsahuje v prvnı́m sloupci samé jedničky, ve druhém prvnı́ vysvětlujı́cı́ proměnnou, atd. . Nynı́ ztransformujeme data následujı́cı́m způsobem. Necht’ pro i = 1, 2, . . . , n a j = 1, 2, . . . , p − 2 Ỹi = Yi − Xi2 , X̃ij = Xi,j+2 − Xi2 a nalezneme β̂ (LS,n) pro model Ỹ = X̃ β̃ + E. Konečně pak definujme vzájemně jednoznačnou P transformaci T z Rp−2 na podprostor Rp zadaný podmı́nkou β̂1 = 0 a pj=1 β̂j = 1 T1 (β̃) = β̂1 = 0, T2 (β̃) = β̂2 = 1 − p−2 X β̃j , Tj (β̃) = β̂j = β̃j−2 , j =, 3, 4, . . . , p. j=1 Potom ovšem Pp j=1 β̂j = 1, tj. omezenı́ (121) je splněno. Dále (připomı́náme, že β̂1 = 0) n X (Yi − i=1 XiT β̂)2 = n X (Yi − Xi2 β̂2 − i=1 p X j=3 115 Xij β̂j )2 (125) = n X (Yi − Xi2 (1 − i=1 p−2 X β̃j ) − j=1 p−2 X 2 Xi,j+2 β̃j ) = j=1 = n X n X p−2 X i=1 j=1 (Yi − Xi2 − X̃ij β̃j )2 (Ỹi − X̃iT β̃)2 , (126) i=1 tj. vektory β̂ ∗ a β̃ ∗ , které minimalizujı́ sumy (125) a (126) si navzájem odpovı́dajı́, tj. β̂ ∗ = T (β̃ ∗ ). Řešenı́ úlohy s omezenı́mi (120) a (121) nalezneme tedy snadno takto: Namı́sto původnı́ matice plánu vezmeme matici, kterou dostaneme tak, že vynecháme prvnı́ sloupec, pokud byl tvořen jedničkami, tj. pokud se počı́talo s absolutnı́m členem, a upravı́me data tak, že vezmeme druhou vysvětlujı́cı́ proměnnou, odečteme od nı́ tu prvnı́ a nově vzniklou proměnnou považujeme za novou prvnı́ vysvětlujı́cı́ proměnnou atd. až po p−2-hou novou vysvětlujı́cı́ proměnnou. Podobně od vysvětlované proměnné odečteme prvnı́ vysvětlujı́cı́ a tuto transformovanou proměnnou budeme uvažovat jako novou vysvětlovanou proměnnou. Nakonec vypočteme normálnı́ (chceteli běžný) odhad metodou nejmenšı́ch čtverců a ten pak ztransformujeme zpět pomocı́ výše naznačené transformace T (β̃). Nynı́ se budeme věnovat výše slibenému přı́kladu o vývoji hrubého národnı́ho důchodu ve Spojeném královstvı́. Data byla publikována v článku Holden a Peel (1989) a popisujı́ tedy růst hrubého národnı́ho produktu v U. K. a to od 1977/1 do 1985/2, přičemž růst byl přepočı́tán k cenám z roku 1988. Zkratky v následujı́cı́ch tabulkách naznačujı́, že jednotlivé předpovědi byly vytvořeny těmito agenturami: • HCT - Henley Centre for Forecasting, • LBS - London Business School, • NI - National Institute of Economic and Social Research, • OECD - Organization for Economic Co-operation and Development a • PD - Phillips and Drew. V následujı́cı́ tabulce jsou uvedena data, tak jak byla publikována článku v Holden a Peel (1989) a to na tři desetinná mı́sta, pokud ovšem v přı́slušném sloupci se neobjevilo alespoň jedno čı́slo udané na vı́ce platných cifer. TABULKA 9 Ekonomický růst ve Spojeném královstvı́ Pořadı́ Obdobı́ HCF LBS NI OECD PD Růst 1 1977/1 2.5875 2.650 1.270 1.125 -0.400 1.76899 2 1977/2 3.0375 2.360 3.310 1.000 1.000 3.62319 3 1977/3 3.4500 2.240 3.150 1.875 1.500 3.40205 4 1977/4 3.0750 2.050 2.570 1.500 -0.400 2.76075 5 1978/1 3.1000 3.470 3.460 2.875 -3.000 2.04499 6 1978/2 2.9125 3.340 1.470 2.000 2.200 3.39661 116 Ekonomický růst ve Spojeném královstvı́ (pokračovánı́) Pořadı́ Obdobı́ HCF LBS NI OECD PD Růst 7 1978/3 3.2125 1.660 0.830 2.125 3.000 2.79163 8 1978/4 3.1375 2.820 2.620 1.750 4.500 2.58706 9 1979/1 2.7000 3.160 2.960 1.875 3.500 2.30461 10 1979/2 1.9250 3.100 1.980 1.500 0.900 -2.70532 11 1979/3 0.3375 -0.930 1.100 2.625 -0.400 -3.68575 12 1979/4 -0.1375 -0.100 0.820 1.000 0.800 -5.04364 13 1980/1 -1.9000 -0.980 1.850 -1.625 1.500 -3.91773 14 1980/2 -1.0125 -0.040 0.470 -0.500 -3.700 -2.58193 15 1980/3 -0.6375 -0.200 1.600 2.750 -2.600 -0.50352 16 1980/4 -0.5500 1.980 1.130 -1.000 -5.000 2.04290 17 1981/1 1.4000 2.270 -0.050 -1.000 -5.600 1.63099 18 1981/2 -0.4500 2.480 -0.230 -1.250 -4.500 2.34455 19 1981/3 0.5500 2.560 0.150 -0.250 -2.400 1.31579 20 1981/4 1.4500 2.470 0.530 0.750 -0.500 1.10111 21 1982/1 -1.7500 2.790 0.310 1.000 1.000 3.10932 22 1982/2 1.6375 3.020 1.090 1.750 1.800 2.49004 23 1982/3 1.9375 2.910 0.860 1.750 1.200 4.09591 24 1982/4 2.2875 2.180 1.850 1.625 0.400 4.05940 25 1983/1 1.6250 2.210 1.780 1.500 1.300 3.11285 26 1983/2 2.1375 2.120 1.250 1.625 2.400 2.62390 27 1983/3 2.5125 2.920 1.200 2.375 3.000 2.69714 28 1983/4 2.0875 2.430 1.100 2.250 3.400 2.66413 29 1984/1 2.5000 2.360 1.980 2.250 1.700 3.30189 30 1984/2 2.2500 4.050 3.050 1.750 3.900 4.92424 31 1984/3 2.1000 2.220 3.740 2.750 2.710 3.45794 32 1984/4 2.3500 2.180 2.950 2.000 2.980 2.78035 33 1985/1 2.8300 3.400 1.360 3.630 2.810 2.37442 34 1985/2 2.4500 2.600 1.350 2.880 2.740 1.35379 Data byla zpracována takto. Počı́naje čtvrtletı́m 1982/1 byly konstruovány kombinované předpovědi hrubého národnı́ho důchodu a to tı́mto způsobem. Na základě dat až do tohoto čtvrtletı́, tj. na základě t prvých řádků TABULKY 9, a byl vypočten β̂ (LS,t) a β̂ (C,t) , kde veličina “Růst” figurovala jako vysvětlovaná a veličiny “HCF”, “LBS”, “NI”, “OECD” a “PD” jako vysvětlujı́cı́. To odpovı́dá myšlence, že na základě dat z minulosti, kdy už známe vývoj veličiny “Růst” se naučı́me “co nejlépe kombinovat” předpovědi jednotlivých předpovı́datelů a ve chvı́li, kdy tito předpovı́datelé uvolnı́ pro veřejnost svoje předpovědi na dalšı́ čtvrtletı́, vytvořı́me kombinované předpovědi xTt+1 β̂ (LS,t) a xTt+1 β̂ (C,t) . 117 Na konci každého čtvrtletı́, např. t + 1, kdy už známe Yt+1 , posoudı́me “kvalitu” předpovědi, např. pomocı́ čtverců (Yt+1 − xTt+1 β̂ (LS,t) )2 a (Yt+1 − xTt+1 β̂ (C,t) )2 . (127) Dı́ky tomu, že v našem přı́padě už známe data pro celé obdobı́ 1977/1 až 1985/2, můžeme to udělat naráz pro t = 21, 22, . . . , 33. Jak plyne z hlavičky tabulky byly uvažovány i modely, které splňujı́ pouze jedno z omezenı́ (120) a (121). Poznamenejme ještě, že Tabulka 10 uvádı́ výsledky zı́skané pro přı́pad, kdy byly vzaty v úvahu všechny předpovědi, tj. HCF, LBS, NI, OECD a PD. TABLE 10 Postupné součty čtverců chyb předpovědı́ Obdobı́ 1982/2 1982/3 1982/4 1983/1 1983/2 1983/3 1983/4 1984/1 1984/2 1984/3 1984/4 1985/1 1985/2 Kumulativnı́ součty S interceptem Bez interceptu Bez S Bez S omezenı́ omezenı́mi omezenı́ omezenı́mi 0.073 0.310 0.000 0.457 3.527 1.304 2.076 1.269 9.739 5.012 7.250 4.697 12.356 6.236 9.406 5.825 13.328 6.236 9.515 5.825 13.370 7.012 9.748 6.620 13.691 7.077 9.763 6.704 15.099 7.741 11.121 7.282 15.708 9.312 14.081 8.752 18.479 12.556 19.705 12.553 18.997 12.710 20.253 12.978 21.240 15.418 21.803 14.653 22.444 17.910 23.574 16.709 Následujı́cı́ tabulka uvádı́ hodnoty sum čtverců chyb pro všechny možné dvojice předpovědı́. Je ihned patrné, že v Tabulce 10 se projevil efekt přeurčenı́ modelu, o kterém jsme si povı́dali výše. Je ihned patrné, že efekt přeurčenı́ způsobil to, že rozptyly odhadů jednotlivých koeficientů jsou v přeurčeném modelu většı́ než v modelu, který by měl “právě tolik vysvětlujı́cı́ch proměnných, kolik by měl mı́t”. To způsobilo to, že i předpověd’ nalezená pomocı́ přeurčeného modelu, má většı́ rozptyl než ta vytvořená modelem, který má dostatečný počet vysvětlujı́cı́ch proměnných, ale nikoliv zbytečně mnoho. V našem přı́kladě výsledky uvedené v Tabulkách 10 a 11 ukazujı́, že model obsahujı́cı́ jako vysvětlujı́cı́ proměnné všechny předpovědi, je přeurčený. Ostatně, součtu čtverců chyb jednotlivých předpovědı́ ukážou, že všechny modely obsahujı́cı́ vı́ce jak jeden regresor jsou v tomto přı́padě přeurčené. To však necvhme pro tuto chvı́li stranou, nebot’ to nic nezměnı́ na tom, co chceme demostrovat. Abychom předešli nedorozuměnı́, co Tabulka 11 zachycuje, dodejme jen, že vlastně každý řádek této tabulky je hypotetickým poslednı́m řádkem tabulky analogické k Tabulce 10, ale vytvořené vždy pro jednu dvojici předpovědı́. To znamená, že v následujı́cı́ tabulce jsou shromážděny 118 kumulativnı́ součty čtverců (127) přes všechna výše uvedená obdobı́, tj. 33 X (Yt+1 − xTt+1 β̂ (LS,t) )2 33 X a t=21 (Yt+1 − xTt+1 β̂ (C,t) )2 . t=21 TABLE 11 Kumulativnı́ součty čtverců chyb předpovědı́ Předpovědi, S omezenı́mi Bez omezenı́ které byly kombinovány Bez interceptu S interceptem Bez interceptu S interceptem HCF, LBS HCF, NI HCF, OECD HCF, PD LBS, NI LBS, OECD LBS, PD NI,OECD NI, PD OECD, PD 23.55 52.85 57.01 48.99 30.39 13.19 13.93 35.57 37.86 36.43 35.76 63.61 81.87 82.45 30.39 30.78 31.44 47.25 31.44 47.25 25.02 62.35 75.80 55.79 21.81 19.12 15.79 49.06 53.64 56.04 28.84 66.98 84.77 87.67 22.52 23.71 23.29 49.61 51.63 41.69 Tabulka 11 dokumentuje, že zisk z uplatněnı́ omezenı́ (120) a (121) může být značný. Ještě většı́ho zisku se dosáhne při použitı́ některé robustnı́ metody odhadu regresnı́ho modelu (viz Vı́šek (1997 b)), ale o tom si povı́me později (patrně až v dalšı́m dı́le skript). Uved’me nynı́ obecné řešenı́ úlohy odhadu regresnı́ch koeficientů při lineárnı́ch omezenı́ch. Uvažujme matici C typu (` × p), rank(C) = ` a hledejme β̂ (C,n) = arg min ( n X ) (Yi − XiT β)2 , p β ∈R , C ·β =κ . (128) i=1 LEMMA 12 Necht’ C je typu (` × p), rank(C) = `, κ ∈ R` . Potom pro všechny Y ∈ Rn a všechny matice typu (n × p) existuje Ỹ ∈ Rn a matice X̃ typu (n × (p − `)) a vzájemně jednoznačné zobrazenı́ T : Rp−` → {β ∈ Rp , Cβ = κ} takové, že pro libovolné λ ∈ Rp−` máme Ỹ − X̃λ = Y − XT (λ). Důkaz. Důsledkem toho, že rank(C) = `, je existence matice C̃ typu (p − ` × p) takové, že = (C T , C̃ T )T je regulárnı́ a C C̃ T = 0. Předpokládejme, že β ∗ ∈ Rp je některý vektor takový, že Cβ ∗ = κ a položme pro každé λ ∈ Rp−` C∗ T (λ) = C̃ T λ + β ∗ . Snadno ověřı́me, že C · T (λ) = C · (C̃ T λ + β ∗ ) = κ. 119 Nynı́ ukážeme, že zobrazenı́ T (λ) je prosté. Necht’ λ1 , λ2 ∈ Rp−` a předpokládejme, že T (λ1 ) = T (λ2 ). Potom máme C̃ T (λ1 − λ2 ) = 0 (129) a protože rank(C̃) = p − `, existuje p − ` nezávislých řádků matice C̃ T tvořı́cı́ch regulárnı́ matici T typu (p − `) × (p − `). Pro tuto matici máme C̃ T (λ − λ ) = 0, nebot’ tato soustava rovnic C̃R 2 R 1 je podsoustavou (129). To však znamená, že λ1 = λ2 . Rovněž snadno se dokáže, že zobrazenı́ T (λ) je na množinu S = {β ∈ Rp , Cβ = κ}. Je-li totiž β̄ ∈ S, pak C(β̄ − β ∗ ) = 0 a tedy β̄ − β ∗ ⊥C, což znamená, že β̄ − β ∗ ∈ M(C̃ T ) a tedy existuje λ ∈ Rp−` tak, že C̃ T · λ = β̄ − β ∗ , neboli β̄ = C̃ T · λ + β ∗ . Zbývá ověřit, že pro libovolné λ ∈ Rp−` máme pro Ỹ = Y − Xβ ∗ a X̃ = X C̃ T Ỹ − X̃λ = Y − Xβ ∗ − X C̃ T λ = Y − X(C̃ T λ + β ∗ ) = Y − XT (λ). 2 POZNÁMKA 11 Lemma 12 vlastně řı́ká, že β̂ (C,n) = T ( arg min λ∈Rp−` n X (Ỹi − X̃iT λ)2 ). i=1 Navı́c z jeho důkazu plyne návod, jak přı́slušnou transformaci nalézt. Bude-li důvod považovat omezenı́ C · β = κ za náhodná (viz (128)), budeme moci psát pro libovolné δ 6= 0 · ¸ · ¸ · ¸ Y X E = β+ 0 δC δκ a tedy β̂ (C,n) = (X T X + δC T C)−1 X T Y. (130) To ukazuje, že podobným způsobem, jakým byly nalezeny ve Tvrzenı́ 16 a v Lemmatu 11 vlastnosti hřebenového odhadu, bylo by možné dokázat výše zmı́něné vlastnosti odhadu β̂ (C,n) . Nenı́ rovněž bez zajı́mavosti, že k odhadu téměř shodnému s odhadem (130), totiž k odhadu β̂ = (X T X + Σ−1 )−1 (X T Y + Σ−1 µ), dojdeme, pokud nalezneme aposteriornı́ střednı́ hodnotu pro β, při předpokladu, že apriornı́ rozdělenı́ regresnı́ch koeficientů β při pevném rozptylu fluktuacı́ σ 2 bylo mnoharozměrné normálnı́ s parametry µ a σ 2 Σ, tj. 2 q(β|σ ) = const p σ2 µ ¶ 1 exp − 2 (β − µ)T Σ−1 (β − µ) 2σ a apriornı́ rozdělenı́ rozptylu náhodných fluktuacı́ σ 2 bylo q(σ 2 ) = σ −2(d−1) cd Γ−1 (d)exp(−cσ −2 ), tj. γ-rozdělenı́ s parametry c a d. Pokud navı́c, např. při malé apriornı́ informaci o β, položı́me µ = 0, dostaneme přı́mo (130). 120 7.4.4 Alternativnı́ indikátory kolinearity a jejich záludnosti Některé knihovny (a je jich pohřı́chu patrně většina) nenabı́zejı́ přı́mo (a automaticky) vyčı́slenı́ indexu podmı́něnosti. Lze si však obvykle snadno pomoci použitı́m subroutin pro faktorovou analýzu. Namı́sto indexu podmı́něnosti nabı́zı́ např. knihovna STATISTICA tabulku koeficientů determinace, kde vždy jedna z vysvětlujı́cı́ch proměnných hraje roli vysvětlované a je vysvětlována všemi ostatnı́mi. Přı́slušná tabulka je v knihovně STATISTCA označena Redundancy. V této tabulce jsou kromě zmiňovaných koeficientů determinace uvedeny také jejich doplňky do jedničky. Je to patrně proto, že převrácená hodnota doplňku j-tého koeficientu determinace je, až na faktor σ 2 , rozptylem odhadu j-tého regresnı́ho koeficientu a bývá v literatuře označována jako VIF (variance inflation factor, viz např. Marquart a Snee (1975)). a některé prameny doporučujı́ tento diagnostický prostředek, at’ už zmiňované koeficienty determinace či VIF, jako dosti spolehlivý diagnostický prostředek pro odhalenı́ kolinearity, např. Montgomery, Peck (1982). Podı́vejme se na věc trochu podrobněji. Intuitivně cı́tı́me, že pokud bude koeficient determinace pro některou vysvětlujı́cı́ proměnnou vysoký, může vzniknout podezřenı́ na kolinearitu. Obvykle to je opravdu tak, ale poněkud paradoxně v přı́padě, kdy v modelu, nynı́ myslı́me model pro “původnı́”, tj. celá data, je rozptyl náhodných fluktuacı́ velmi malý, může nastat situace, kdy zmı́něná tabulka (velmi) vysokými hodnotami přı́slušných koeficientů determinace indikuje zdánlivě značný stupeň kolinearity (viz Tabulka 14), ale index podmı́něnosti je ještě v mezı́ch, kdy se nenabádá k vyloučenı́ některého sloupce matice X, nejvýše se doporučuje použitı́ některé metody, která se umı́ vyrovnat s kolinearitou, např. hřebenová regrese. Tady je numerický přı́klad takové situace. Využı́vá část dat, která byla použita o několik stránek zpět k ilustraci efektivnosti omezenı́, která “naložı́me” na koeficienty regresnı́ho modelu a jejich odhady. Proto jen připomeňme, že ta část dat, kterou dále použijeme, popisuje ekonomický růst (GDP) ve Velké Británii v letech 1977/1 až 1984/2, (tj. po čtvrtletı́ch). Na rozdı́l od dat dřı́ve použitých, proměnné označené jako LBS (London Business School) a OECD (Organization for Economic Cooperation and Development) jsou upravené předpovědi ekonomického růstu učiněné těmito institucemi a proměnná DEC označuje dekomposici LBS a OECD na vektor representujı́cı́ informaci, která byla v době, kdy byly vytvářeny zmı́něné předpovědi, společná oběma výše uvedeným institucı́m. Slovo upravené naznačuje, že jednak byly všechny hodnoty přepočı́tány k cenám z roku 1988 a jednak, že byly předpovědi modifikovány tak, aby představovaly projekci GDP, tj. aby se minimalizoval součet čtverců reziduı́ mezi předpovı́danou veličinou a předpovědı́. Na vysvětlenou jenom dodejme, že data v této podobě byla připravena pro vytvářenı́ předpovědi nikoliv pomocı́ lineárnı́ kombinace, tak jak jsme to udělali o několik stranek zpět, ale pomoci metody dekomposice, jejı́ž popis lze nalézt např. ve Vı́šek (1997 c).) Tabulka 12 Data popisujı́cı́ ekonomický vývoj (GDP) ve Velké Británii Obdobı́ LBS OECD DEC GDP 1977/1 1977/2 1977/3 2.437 1.982 1.793 1.531 1.461 1.952 1.600 1.393 1.860 1.769 3.623 3.402 121 Tabulka 12 Data popisujı́cı́ ekonomický vývoj (GDP) ve Velké Británii (pokračovánı́) Obdobı́ 1977/4 1978/1 1978/2 1978/3 1978/4 1979/1 1979/2 1979/3 1979/4 1980/1 1980/2 1980/3 1980/4 1981/1 1981/2 1981/3 1981/4 1982/1 1982/2 1982/3 1982/4 1983/1 1983/2 1983/3 1983/4 1984/1 1984/2 LBS 1.495 3.723 3.519 .883 2.703 3.237 3.143 -3.180 -1.878 -3.259 -1.784 -2.035 1.385 1.840 2.170 2.295 2.154 2.656 3.017 2.844 1.699 1.746 1.605 2.860 2.091 1.982 4.633 OECD 1.741 2.512 2.022 2.092 1.882 1.952 1.741 2.372 1.461 -.011 .620 2.442 .339 .339 .199 .760 1.321 1.461 1.882 1.882 1.812 1.741 1.812 2.232 2.162 2.162 1.882 DEC 1.665 2.647 2.083 1.946 1.918 2.049 2.105 2.195 1.507 -.095 .574 2.196 .343 .406 .262 .869 1.408 1.481 1.951 1.850 1.681 1.669 1.750 2.264 2.129 2.085 1.967 GDP 2.761 2.045 3.397 2.792 2.587 2.305 -2.705 -3.686 -5.044 -3.918 -2.582 -0.504 2.043 1.631 2.345 1.316 1.101 3.109 2.490 4.096 4.059 3.113 2.624 2.697 2.664 3.302 4.924 (Tato část dat byla vybrána proto, že na nich nastává popisovaný efekt nejvýrazněji.) Tabulka 13 Odhady regresnı́ch koeficientů v modelu GDP = β0 + β1 · LBS + β2 · OECD + β3 · DEC + náhodné f luktuace a jejich charakteristiky. β̃ označujı́ koeficienty ve studentizovaném modelu (viz výše text o automatickém studentizovánı́ dat), zatı́mco β̂ jsou odhady koeficintů pro data tak, jak jsou uvedena v Tabulce 12. q q β̃ β0 β1 β2 β3 1.30 4.81 -4.93 var( ˆ β̃) .0009 .0049 .0050 β̂ 0.0042 1.680 18.030 -18.720 var( ˆ β̂) 0.0042 .0011 .0184 .0193 tβ̂ (26) 0.98 1490.56 979.79 -970.78 P-hodnoty 0.337 0.000 0.000 0.000 Koeficient determinace modelu R2 vyšel roven .99998, Fisher-Snedecorovo F = 79750 a odhad rozptylu náhodných fluktuacı́ pak s2 = .00901. Výše zmiňované koeficienty determinace v modelech, kde vždy jedna z vysvětlujı́cı́ch proměnných je postavena do role vysvětlované a všechny ostatnı́ vysvětlujı́cı́ hrajı́ dále roli vysvětlujı́cı́ch, vyšly následovně. 122 Tabulka 14 Koeficienty determinace (tabulka bývá často označována jako “Redundancy”). β1 β2 β2 .455749 .982717 .983803 Hodnoty koeficientů determinace u druhé a třetı́ proměnné napovı́dajı́, že jsou tyto téměř nahraditelné kombinacı́ vždy těch zbývajı́cı́ch dvou. Vyjměme tedy z modelu např. druhou proměnnou (tj. OECD). Budeme tedy odhadovat dále koeficienty a jejich charakteristiky v modelu GDP = β0∗ + β1∗ · LBS + β3∗ · DEC + náhodné f luktuace. Přı́slušné odhady jsou v následujı́cı́ tabulce. Tabulka 15 Odhady regresnı́ch koeficientů a jejich charakteristik. q q β̃ β0∗ β1∗ β3∗ .774 .000 var( ˆ β̃) .130 .130 β̂ .000 1.000 -.000 var( ˆ β̂) .799 .167 .492 tβ̂ (26) .000 5.968 -.000 P-hodnoty .999 .000 .999 Hodnota koeficientu determinace tohoto nového modelu je 0.5988, což je sice jen nepatrně pod onou magickou hodnotou 0.6, která bývá v monografiı́ch uváděna jako přijatelná pro modely z technických oblasti, ale na druhé straně je jistě zarážejı́cı́, že to nynı́ vypadá tak, že poslednı́ vysvětlujı́cı́ proměnná nenı́ pro model signifikantnı́, ač P -hodnoty v Tabulce 13 naznačovaly pravý opak. Navı́c odhad rozptylu náhodných fluktuacı́ v tomto novém modelu je s2 = 1.698. Porovnáme-li toto čı́slo s velikostı́ dat uvedených v Tabulce 12, dojdeme k závěru, že tento model nenı́ patrně právě nejvhodnějšı́. Pro úplnost Fisher-Snedecorovo F je rovno 20.146. Spočteme-li si pro původnı́ data (uvedená v Tabulce 12) vlastnı́ čı́sla matice X T X dostaneme 2.1335, 0.8581 a 0.0083, což znamená, že index podmı́něnosti vyjde s κ= λmax = λmin r 2.1335 = 16.03, 0.0083 a to je hodnota, která napovı́dá, že se nejedná o kolinearitu vyžadujı́cı́ vyloučenı́ některé vysvětlujı́cı́ proměnné z matice plánu, ale o takový stupeň, kdy je možné řešit situaci použitı́m např. hřebenové regrese, o které jsme mluvili výše. Prakticky v každé ekonometrické monografii, obsahujı́cı́ také pasáž o regresi, nalezneme dalšı́ testy na kolinearitu, např. založené na kovariančnı́ či korelačnı́ matici, viz např. Kumar (1975), Willan a Watts (1978), Belsley, Kuh and Welsch (1980) nebo Friedman (1982). Přı́klad uvedený práci v Leamer (1983) ukazuje, že si na ně mohou uživatelé udělat různé názory. Jako přı́klad častého problematického použitı́ takového testu uved’me aplikaci Farrar-Glauberovy statistiky (viz Farrar and Glauber (1967)) bez verifikace přı́slušného předpokladů, totiž normality vysvětlujı́cı́ch proměnných a nezávislosti jednotlivých řádků matice plánu, tj. nezávislosti 123 vektorových náhodných veličin, jejichž realizace vytvořily řádky matice plánu. Navı́c je třeba si uvědomit to, co vlastně bylo implicitně řečeno v předchozı́ větě, totiž že pokud použijeme korelačnı́ matici dat k testu na kolinearitu, v podstatě přijmeme předpoklad, že matice plánu nenı́ nestochastická, neboli začneme uvažovat v rámci modelu s náhodnými nosiči Xij i = 1, 2, . . . , n, j = 1, 2, . . . , p (s náhodnými vysvětlujı́cı́mi proměnnými). Potom je však třeba mı́t na paměti, že β̂ (LS,n) je nestranným odhadem pouze tehdy, jsou-li tyto nosiče statisticky nezávislé na náhodných fluktuacı́ch E a v odstavci věnovanému instrumentálnı́m proměnným jsme ukázali, proč tomu tak je. To, možná trochu paradoxně znamená, že když se rozhodneme použı́t korelačnı́ matici dat k testu na kolinearitu, měli bychom nejprve otestovat nezávislost nosičů a reziduı́ a následně také normalitu rozdělenı́ nosičů, nebot’ pokud je tato narušena test může dát naprosto zavádějı́cı́ výsledky. Jak plyne z výše uvedeného je Farrar-Glauberův test, založen na determinantu výběrové korelačnı́ matice. Vzhledem k tomu, že výběrový korelačnı́ koeficient, podobně jako všechny ostatnı́ “klasické” výběrové charakteristiky, je citlivý na odlehlá pozorovánı́, vykazuje determinant výběrové korelačnı́ matice také značnou citlivost na odlehlá pozorovánı́ a z toho plynoucı́ nespolehlivost indikace kolinearity. 7.4.5 Alternativnı́ řešenı́ problému kolinearity Uved’me nynı́ výše slı́bený přı́klad, ukazujı́cı́, že rozšı́řenı́ dat o dalšı́ pozorovánı́ může (přirozeně) odstranit kolinearitu. Současně tento přı́klad ukazuje, že někdy lze podezřenı́ na kolinearitu pojmout přı́mo na základě odhadů regresnı́ch koeficientů. Jedná se totiž o přı́pad, kdy na rozdı́l od diskuze uvedené v kapitole věnované výstupům z počı́tače, kde jsme varovali před unáhlenými úsudky učiněnými na základě znamének odhadů, jsme si “téměř” jisti tı́m, jaké znaménko by přı́slušný koeficient (a tedy i jeho odhad) měl mı́t. Data byla uvedena v Montgomery, Askin (1981) a popisujı́ požadavek na dodávky elektrické energie do jednotlivých domácnostı́ ve špičkách o vı́kendech (vztaženo na jednu hodinu odběru) (y) a to v závislosti na rozloze domu (x1 ), na přı́jmu domácnosti (x2 ), na kapacitě klimatizačnı́ho agregátu umı́stěného v domě (x3 ), na hodnotě spotřebitelského indexu, který si stanovuje dodavatelská firma na základě součtu přı́konů hlavnı́ch spotřebičů (x4 ) a na typickém počtu lidı́ obývajı́cı́ch dům o vı́kendech (x5 ). Data vypadajı́ takto: Tabulka 16. Data o požadavcı́ch na dodávky elektrické energie pro domácnosti Pořadı́ 1 2 3 4 5 6 7 8 9 y 7.518 3.579 5.910 4.790 4.997 2.242 7.427 4.533 5.990 x1 3.164 1.929 2.613 2.337 2.757 1.398 3.366 2.378 2.881 x2 34.990 21.446 28.731 25.058 30.358 15.464 37.267 25.939 32.362 124 x3 7.0 1.5 6.5 4.0 4.0 1.0 5.0 3.0 3.5 x4 7.789 5.251 6.325 5.733 6.216 3.113 9.415 6.142 7.700 x5 4 5 3 4 1 6 1 2 5 Tabulka 16. Data o požadavcı́ch na dodávky elektrické energie pro domácnosti (pokračovánı́) Pořadı́ 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 y 4.101 1.685 4.560 4.657 3.151 2.976 2.867 2.662 4.363 2.991 2.766 5.323 6.553 3.736 6.796 4.496 2.831 5.495 6.656 2.349 6.824 5.354 5.802 4.790 6.283 3.400 6.083 5.740 3.599 5.010 4.625 4.385 4.505 3.958 6.071 4.571 6.849 2.610 5.829 4.755 2.646 x1 2.098 1.178 2.360 2.236 1.771 1.852 1.823 1.578 2.117 2.052 1.715 2.333 2.887 1.972 2.886 1.874 1.408 2.526 2.821 1.328 2.856 2.223 2.489 2.455 2.720 2.201 2.694 2.456 1.772 2.253 2.398 1.598 1.868 2.036 2.598 2.204 3.313 1.685 2.379 2.286 1.512 x2 22.395 12.531 25.784 25.152 19.106 20.677 20.037 18.154 23.951 22.069 18.324 25.942 32.236 22.123 32.161 21.070 15.957 27.687 31.145 14.160 31.812 24.788 26.661 27.203 29.524 23.424 29.096 27.076 19.177 24.535 25.949 17.604 20.614 22.277 27.924 24.587 30.016 18.485 26.341 25.327 17.351 125 x3 2.5 0.0 4.0 2.5 1.0 1.0 1.5 0.5 2.5 1.5 1.5 5.0 5.5 2.0 6.0 3.0 1.5 4.5 5.5 0.5 6.0 5.0 6.0 3.0 5.5 1.0 5.0 3.5 2.0 5.0 2.5 3.5 3.0 2.5 5.5 2.0 6.5 1.0 3.5 3.0 1.0 x4 5.222 2.575 5.536 6.208 5.213 4.659 4.453 3.978 6.236 4.892 3.960 5.038 7.815 4.432 7.039 5.254 2.967 6.481 7.284 3.652 7.186 5.965 6.862 6.007 6.715 5.625 6.949 6.143 4.864 4.975 6.947 3.914 4.817 5.581 6.233 6.073 6.054 3.677 7.345 5.230 3.824 x5 1 1 2 2 3 1 3 4 1 4 5 1 3 5 4 1 6 2 4 4 1 3 4 5 4 1 2 7 1 2 3 4 6 1 2 2 1 2 4 5 1 Tabulka 16. Data o požadavcı́ch na dodávky elektrické energie pro domácnosti (pokračovánı́) 51 52 53 54 55 56 57 58 59 60 4.279 3.701 4.561 4.707 4.541 3.891 6.394 6.528 2.925 5.059 2.246 1.819 2.288 2.320 2.276 1.994 3.454 3.490 1.936 4.061 24.612 19.754 25.720 25.444 25.439 22.150 27.855 31.998 21.215 22.962 2.0 2.5 3.0 3.0 3.0 2.0 4.0 5.0 1.0 3.0 5.950 4.522 6.313 5.579 6.113 5.316 7.215 7.145 4.506 5.854 2 1 4 4 3 4 2 2 4 1 Původně bylo shromážděno jen 40 pozorovánı́ a provedena klasická regresnı́ analýza. Výsledky byly následujı́cı́. Tabulka 17. Výsledky regresnı́ analýzy pro data o spotřebě elektrické energie. (40 domácnostı́) Variable Estimate intercept x1 x2 x3 x4 x5 -.04160 -2.49756 .26947 .41430 .37931 .03035 Standard error .253137 1.026253 .089492 .039236 .089459 .023183 t-value P -value -.16434 -2.43367 3.01115 10.55908 4.24012 1.30919 .870438 .020354 .004882 .000000 .000162 .199248 Sum of squares Degrees of freedom Scale estimate Coefficient of determination (R squared) The F-value (with 5 and 34 df ) P-value = = = = = = 8.160 34 0.240 0.979 313.918 0.000 Model je dobře determinován a i odhad velikosti rozptylu fluktuacı́ se zdá být přijatelný vzhledem k hodnotám, kterých nabývá vysvětlovaná veličina. Hodnota P -value pro absolutnı́ člen sice signalizuje, že je možná tento v modelu zbytečný, a jistě bychom dovedli nalézt i věcné argumenty, proč by tam neměl být, např. že pokud rozloha domu bude nulová, nebude v domě klimatizace, nikdo nebude na vı́kend doma atd., odběr elektrické energie bude nulový. Právě tak lze snést řadu argumentů, že tomu tak nebude. Např. lednička či ohřı́vače vody se obvykle nevypı́najı́, alespoň v domácnostech s vyššı́mi přı́jmy, ani když nikdo na vı́kend nenı́ doma. Vzhledem k tomu, co bylo řečeno o úloze absolutnı́ho členu výše, ponecháme jej v modelu. Nevýznamným se rovněž zdá být počet lidı́ v domě v době vı́kendu. To si samozřejmě lze 126 vysvětlit tak, že zvýšenı́ spotřeby elektrické energie při zvýšenı́ počtu lidı́ v domě nebude až tak veliké. Ovšem i opak může být pravdou. Mohli bychom tedy model akceptovat. Prohlédněme si jej ale pozorněji. Patrně každý by (racionálně) očekával, že při většı́ rozloze domu, bude požadavek na dodávky elektrické energie většı́. To koliduje se záporným znaménkem u odhadu přı́slušného regresnı́ho koeficientu. Ačkoliv jsme to již dřı́ve připoměli, tato úvaha nenı́ v rozporu s varovánı́m o unáhlené a zcestně jednostranné interpretaci znamének odhadů regresnı́ch koeficientů, na kterou jsme upozorňovali v kapitole o výstupech ze statistických počı́tačových knihoven, nebot’ tady znaménko “neobjevujeme”, či nezjišt’ujeme, chcete-li, ale máme o něm dosti oprávněné a proirnı́ představy. Vzhledem k výše uvedené diskuzi o signifikantnosti absolutnı́ho členu a počtu lidı́ v domě ještě podotkněme, že přepočı́táme-li model po vyloučenı́ této vysvětlujı́cı́ veličiny, záporné znaménko u “rozlohy domu” se nezměnı́, jen se nepatrně změnı́ hodnota odhadu, totiž na −2.634; podobně vyloučı́me-li absolutnı́ člen dojde ke změně na −2.541. To může vést k podezřenı́, že něco nenı́ s modelem v pořáku, a jednou z přı́čin by mohla být kolinearite vysvětlujı́cı́ch proměnných. Spočteme tedy vlastnı́ čı́sla matice X T X a dostaneme pořadě 3.69689, 0.983788, 0.266574, 0.049994 a 0.002752. Odtud odmocnina z poměru největšı́ho a nejmenšı́ho z nich je 36.65. To ukazuje (jak jsme ostatně uvedli výše) na takový stupeň kolinearity, který patrně nelze jen tak ignorovat. Spočteme-li však hřebenovou regresi, např. pro δ = 0.1 (to je defaultová hodnota nabı́zená STATISTICOU), zmizı́ sice “nepatřičné” minusové znaménko u rozlohy domu, ale tato vysvětlujı́cı́ proměnná se stane statisticky nevýznamnou. Významnými zůstanou pouze kapacita klimaσ̂ 2 tizačnı́ho agregátu a hodnota spotřebitelského indexu. Ačkoliv je (LS,n) = 0.712 > 0.1 a kβ̂ k2 tedy je patrně splněna podmı́nka z Lemmatu 11, zdá se být tento model podivný, nebot’ jak počet lidı́ trávı́cı́ch v domě vı́kend, tak zejména rozloha domu by patrně měly hrát roli pro velikost spotřeby elektrické energie. Ačkoliv pro vyššı́ hodnoty δ se stanou významnými téměř všechny vysvětlujı́cı́ proměnné, autoři dat (Montgomery, Askin (1981) ) zvolili jinou cestu, obávajı́ce se možná přı́lišného vychýlenı́ odhadu β̂ (R,δ,n) . Vzhledem k tomu, že nelze nikdy vyloučit možnost, že kolinerita nastala dı́ky náhodně “jednostraně”, či chcete-lii “vychýleně”, pořı́zeným datům, a vzhledem k tomu, že rozšı́řenı́ dat nebylo ekonomicky až tak náročné jako by mohly být důsleky špatně odhadnutého modelu, zvolili cestu pořı́zenı́ dalšı́ch dat, tj. soubor byl rozšı́řen na takový, jaký je uveden v Tabulce 16. Analýza provedená pro tato data dává tyto hodnoty. Tabulka 18. Výsledky regresnı́ analýzy pro data o spotřebě elektrické energie. (60 domácnostı́) Variable Estimate intercept x1 x2 x3 x4 x5 -.039315 .407674 .003333 .437516 .375983 .044368 Standard error .229760 .121617 .025156 .036150 .076869 .022014 127 t-value P -value -.17111 3.35211 .13248 12.10284 4.89121 2.01544 .864774 .001470 .895094 .000000 .000009 .048848 Sum of squares Degrees of freedom Scale estimate Coefficient of determination (R squared) The F-value (with 5 and 54 df ) P-value = = = = = = 14.418 54 0.267 0.968 328.221 0.000 Odhad koeficientu pro “rozlohu domu” se zdá nynı́, alespoň co do znaménka, rozumnějšı́, než pro data obsahujı́cı́ jen 40 domácnostı́. Vlastnı́ čı́sla matice X T X majı́ nynı́ hodnoty 3.478789, 0.985613, 0.304462, a 0.045914 a tedy koeficient podmı́něnosti má hodnotu 8.70, což je hodnota, kterou lze považovat za ještě přijatelnou, tj. dovolujı́cı́ “ignorovat” kolinearitu. Právě probraný přı́klad ukazuje, že regresnı́ analýza vyžaduje nebrat žádná předem stanovená, doporučená či zaběhaná kriteria zcela dogmaticky, tj. bez jakékoliv pochybnosti či vyjı́mky. Je spı́še třeba zamýšlet se na vhodnostı́ modelu ze všech možných stanovisek a zkoumat jeho akceptovatelnost vzhledem ke všem informacı́m, i k těm, které se nám nepodařilo či které jsme nechtěli do modelu začlenit. 7.4.6 Závěr Na konci tohoto odstavce se ještě jednou zopakujme, co jsme již výše naznačili. Řekli jsme si, že v některých učebnicı́ch se doporučuje k rozeznánı́ kolinearity “test” na nulovost determinantu čtverce matice plánu, tj. matice X T X a ukázali jsme si hned v úvodu odstavce, že vynásobenı́m všech dat, které máme k dispozici stejným čı́slem nezměnı́me regresnı́ model, ale determinant matice plánu může být změněn na libovolně velký. Aby toto bylo uvedeno na “pravou mı́ru” doporučujı́ některé z těchto učebnic nejprve normovat data tak, že je posuneme pomocı́ průměrů sloupců a vydělı́me odhadem směrodatné odchylky (viz předchozı́ odstavec o Farrar-Glauberově testu). Podotkněme, že některé texty předpokládajı́ od samého začátku, že data jsou normována právě naznačeným způsobem, viz Montgomery, Peck (1982). Snadno se nahlédne, jak toto může (neblaze) ovlivnit zpracovánı́ dat, pokud tato budou obsahovat nějaké odlehlé (či chcete-li, atypické) údaje. Nehledě na to, že pak vlastně posuzujeme podmı́něnost jiné matice. Ostatně jsme si to již ukazovali v odstavci 5.1 (viz text zhruba jeden a půl stránky za Tabulkou 8). Je až s podivem, jak některé texty, týkajı́cı́ se regrenı́ analýzy realizované pomoci metody nejmenšı́ch čtverců, zcela opomı́jejı́ nebezpečı́ vyplývajı́cı́ z veliké citlivosti této metody na kontaminaci (znečištěnı́) dat, např. odlehlými pozorovánı́mi. Autoři těchto textu si bud’ nejsou vědomi či poceňujı́ toto nebezpečı́ a dopady, které může mı́t na zpracovánı́ dat, ačkoliv v pracech věnovaných robustnı́ regresnı́ analýze bylo již uvedeno mnoho přı́kladů osvětlujı́cı́ch zejména záludnost této situace. Lze totiž poměrně snadno nalézt přı́klady dat, které projdou klasickou regresnı́ analýzou i běžnými diagnostickými vyšetřenı́mi aniž by vzbudily i jen náznak podezřenı́ na to, že je cosi v nepořádku, viz např. Hampel a kol. (1986), Rousseeuw, Leroy (1987) či Vı́šek, J. Á (1996 b, c), (1997 d). Na úplný závěr ještě poznamenejme, že vzhledem k tomu, že matice X T X je vlastně, až na násobek, odhadem kovariančnı́ matice vysvětlujı́cı́ch proměnných a je citlivá na odlehlá pozorovánı́. To znamená, že při výpočtu vlastnı́ch čı́sel matice X T X, tj. při hledánı́ κ(X), se nevy128 hneme problému vlivných bodů. Pomoci si můžeme, aplikujeme-li některou robustnı́ metodu na odhad kovariančnı́ matice (viz opět Hampel a kol. (1986), Lopuhaa̋ (1989)). 8 NĚKTERÉ SPECIÁLNÍ TYPY REGRESNÍHO MODELU Jak název této kapitoly napovı́dá, probereme v nı́ některé typy regresnı́ch modelů, které se vymykajı́ běžnému regresnı́mu modelu. Nejprve si všimneme zobecněného regresnı́ho modelu, poté modelu, ve kterém vysvětlovaná proměnná nenı́ spojitého typu. V dalšı́ch odstavcı́ch se budeme věnovat naopak přı́padu, kdy regresory budou diskrétnı́ či chcete-li, kvalitativnı́, (což nenı́ úplně totéž, ale nenı́ to přı́liš odlišné), přı́padně, kdy tyto budou měřeny s nějakou náhodnou chybou. 8.1 Zobecněný regresnı́ model Je patrné, že pokud budou naše data představovat záznam některých časových řad , ale nejen v tomto přı́padě, nemusı́ být dodržen předpoklad nezávislosti fluktuacı́ mezi jednotlivými řádky v modelu (4). Ke zpracovánı́ takových dat budeme potřebovat zobecněnı́ základnı́ho regresnı́ho modelu. V této kapitole budeme tedy předpokládat, že platı́ Podmı́nky A∗ Pro každé pevné n ∈ N je posloupnost {Ei }ni=1 posloupnostı́ stejně rozdělených náhodných veličin s nulovou střednı́ hodnotou a kovariančnı́ maticı́ Σ, která je regulárnı́. ³ TVRZENÍ 19 Platı́-li Podmı́nky A∗ , potom β̂ (LS,n) = X T Σ−1 X ´−1 X T Σ−1 Y . Důkaz. K důkazu použijeme spektrálnı́ rozklad matice a budeme psát Σ = QT Q, kde Q je regulárnı́. Zinvertovánı́m dostaneme Σ−1 = Q−1 [Q−1 ]T . Necht’ Ỹ = [Q−1 ]T Y X̃ = [Q−1 ]T X Ẽ = [Q−1 ]T E. a Z původnı́ho modelu Y = Xβ + E znásobenı́m zleva maticı́ [Q−1 ]T dostaneme Ỹ = X̃β + Ẽ, s IE Ẽ · Ẽ T = IE [Q−1 ]T E · E T [Q−1 ] = I. Nynı́ již se snadno ověřı́, že odhad metodou nejmenšı́ch čtverců bude dán vztahem ³ β̂ (LS,n) = X̃ T X̃ ´−1 ³ X̃ T Ỹ = X T Q−1 [Q−1 ]T X ³ = X T Σ−1 X ´−1 ´−1 X T Σ−1 Y. X T Q−1 [Q−1 ]T Y (131) 2 POZNÁMKA 12 Odhad (131) se v literatuře někdy označuje jako Aitkenův, častěji však jako zobecněný odhad metodou nejmenšı́ch čtverců. Budeme jej proto označovat β̂ (GLS,n) , a to zejména tam, kde bude třeba zdůraznit, že přı́slušná kovariančnı́ matice Σ 6= σ 2 I. Odhad má za předpokladů, které byly uváděny výše pro β̂ (LS,n) všechny dobré (i méně dobré) vlastnosti odhadu nejmenšı́ch čtverců. 129 Nynı́ si ujasněme, co se stane pokud odhadneme β 0 pomocı́ běžného odhadu nejmenšı́ch čtverců (Ordinary Least Squares). Následujı́cı́ vztahy ukazujı́ ³ XT X IE ´−1 ³ XT Y = XT X ´−1 X T Xβ 0 = β 0 a ³ XT X ´−1 ³ XT Y = XT X = β0 + ´−1 ³ X T β0 + X T X ´−1 ³ ´ ³ X T Y − Xβ 0 = β 0 + X T X n ³ T ´−1 T X X X E = β0 + n µ 1 T X X n ¶−1 ´−1 XT E 1 T X E, n že pokud budeme ignorovat závislost mezi náhodnými fluktuacemi, odhad bude stále ještě nestranný a konsistentnı́. Lze však očekávat a snadno se to ověřı́, že nebude nejlepšı́, tj. eficientnı́. K nalezenı́ eficientnı́ho odhadu potřebujeme znát matici Σ, či alespoň jejı́ “spolehlivý” odhad. Z následujı́cı́ úvahy je ihned patrné, že pokud nebudeme v jednotlivých bodech faktorového prostoru opakovat pozorovánı́ a matice Σ bude zcela obecná neznámá matice, nelze v zobecněném regresnı́m modelu regresnı́ koeficienty eficientně odhadnout. Museli bychom totiž odhadnout (LS,n) 2 , k, j = 1, 2, . . . , n, tj., vzhledem k symetrii matice Σ, n(n+1) + p β̂j , j = 1, 2, . . . , p a σkj 2 parametrů modelu z n·(p+1) napozorovaných čı́sel. A to je nemožné. Východiskem může být to, že se snı́žı́ počet odhadovaných parametrů, např. tı́m, že budeme předpokládat speciálnı́ strukturu matice Σ. To je ekvivalentnı́ předpokladu, že závislost mezi jednotlivými řádky v modelu (4) bude některého jednoduchého typu. Budeme-li např. uvažovat model s markovskými fluktuacemi, tj. bude IE Ei Ei−1 = σ∗2 , i = 2, 3, . . . , n a IE Ei Ej = 0 pro |i − j| > 1, což zapsáno ve tvaru matice dává 2 σ σ∗2 0 . . . 0 0 σ2 σ2 σ2 . . . 0 0 ∗ ∗ 2 2 0 σ σ . . . 0 0 ∗ T IE E · E = 0 0 σ 2 . . . 0 0 , ∗ .. .. .. .. .. . . . . . 0 0 0 . . . σ∗2 σ 2 budeme odhadovat pouze 2 + p parametrů. Později se setkáme s dalšı́mi situacemi, ve kterých specifický tvar matice Σ umožnı́ použı́t výsledky této kapitoly. Snadno se nahlédne, že po formálnı́ stránce, bychom vlastně nepotřebovali předpoklad o stejném rozdělenı́ jednotlivých náhodných fluktuacı́. Ztı́žilo by to však odhad matice Σ. 8.2 Model s diskrétnı́ vysvětlovanou proměnnou Poměrně často se můžeme setkat s daty, kde vysvětlovaná proměnná nemá spojitý charakter a nabývá jen diskrétnı́ch hodnot. Uved’me si nejprve několik přı́kladů situacı́, které “produkujı́” taková data. Vysvětlovaná proměnná: • popisuje nula-jedničkový stav něčeho či někoho, např. zaměstnaný-nezaměstnaný, plavecneplavec, kuřák-nekuřák, gramotný-negramotný, tekutý-pevný, prodejný-neprodejný, funkčnı́nefunkčnı́ atd., 130 • je čı́tacı́ho charakteru, např. počet přihlášek telefonu, počet uchazečů o studium, počet patentů, počet zákaznı́ků atd., • je vlastně zakdovaná ryze kvalitativnı́ proměnná, např. souhlası́ bez výhrad, souhlası́ s výhradami, nevı́, nesouhlası́, zásadně nesouhlası́ či výborně připraven, velmi dobře připraven, dobře připraven, špatně připraven, velmi špatně připraven, zcela nepřipraven atd., • je sice v podstatě spojitého charakteru, ale je obvykle udávána jen jako diskrétnı́, např. počet odpracovaných hodin, vzdálenost v kilometrech, přı́kon v kilowatech atd.. Z matematického hlediska je zřejmé, že pokud budeme umět posoudit situaci tj. provést diskuzi problémů, které vyvstávajı́ při použitı́ klasického regresnı́ho modelu a navrhnout jejich řešenı́ pro přı́pad, kdy vysvětlovaná veličina je binárnı́, je úloha téměř vyřešena. Modely s vysvětlujı́cı́ veličinou, která nabývá konečného počtu hodnot jsou vlastně “jen” (přı́močarým) zobecněnı́m tohoto binárnı́ho modelu 8.2.1 Problémy s použitı́m klasického regresnı́ho modelu pro binárnı́ vysvětlovanou veličinu Uvažujme na chvı́li jednoduchou situaci, kdy vysvětlovaná proměnná bude nabývat hodnoty nula a jedna, kdujı́cı́ skutečnost, zda daná domácnost vlastnı́ auto či auto nevlastnı́. Předpokládejme, že toto závisı́ jen od výše disponibilnı́ho přı́jmu. To sice nenı́ zcela raealistické, ale pro naše účely to bude po formálnı́ stránce výhodné, a na podstatě dále uvedené diskuze by přı́tomnost vı́ce vysvětlujı́cı́ch proměnných nic nezměnila. Pokusme se tedy popsat uvedenou závislost jednoduchým regresnı́m modelem Yi = β1 + xi2 β2 + Ei , i = 1, 2, ..., n. Protože IE Yi = β1 + xi2 lβ2 a současně IE Yi = 1 · P (Yi = 1) + 0 · P (Yi = 0) = P (Yi = 1), máme P (Yi = 1) = β1 +xi2 β2 . Proto se takový model obvykle označuje jako lineárnı́ pravděpodobnostnı́ model. Je evidentnı́, že model se bude potýkat hned s několika problémy najednou. Za prvé, vzhledem k tomu, že Yi , i = 1, 2, ..., n nabývá jen hodnoty 0 nebo 1, musı́ Ei být rovno bud’ −β1 − xi2 β2 , pokud Yi = 0, nebo 1 − β1 − xi2 β2 v přı́padě, že Yi = 1. Pokud navı́c budeme chtı́t, aby IE Ei = 0, musı́ být P (Ei = −β1 − xi2 β2 ) = 1 − β1 − xi2 β2 a P (Ei = 1 − β1 − xi2 β2 ) = β1 + xi2 β2 . Potom ovšem varEi = (β1 + xi2 β2 ) (1 − β1 − xi2 β2 ) , 131 což znamená, že model vykazuje heteroskedasticitu. Dalšı́m problémem je to, že β1 + xi2 β2 musı́ být nezáporné, ale ne většı́ než jedna, a to pro všechny (povolené) hodnoty xi2 . To představuje omezenı́ na koeficienty a jejich odhady, samozřejmě, řekněme alespoň při daných datech. To obecně převede lineárnı́ problém odhadu regresnı́ch koeficientů na problém kvadratický. Tı́m obecně ztratı́ platnost všechna tvrzenı́ dokázaná pro klasický linearnı́ regresnı́ model, tj. např. nelze pomocı́ studentizovaných odhadů testovat jejich signifikantnost ani pomoci FisherSnedecorova F posoudit determinovanost modelu. 8.2.2 Model s binárnı́ možnostı́ výběru Abychom se vyhnuli výše uvedeným problémům s tı́m, že náhodné fluktuace jsou binárnı́, a z toho plynoucı́m problémům s heteroskedasticitou, obvykle konstruujeme model pro binárnı́ výběr pomocı́ užitků jednotlivých variant výběru pro danou domácnost, firmu atd.. Necht’ tedy po řadě Ui1 a Ui2 jsou užitky z prvnı́ a druhé volby pro i-tou domácnost, firmu, subjekt, atd.. Dále necht’ zi1 a zi2 jsou vektory charakterizujı́cı́ výhodnost prvé a druhé alternativy, tak jak jsou vnı́mány i-tým subjektem, a wi necht’ je vektor socio-ekonomických charakteristik i-tého subjektu. Potom, předpokládáme-li linearitu, můžeme psát T Uij = αj + zij δ + wiT γj + Vij , i = 1, 2, ..., n, j = 1, 2. Dále budeme předpokládat, že Yi bude rovno jedné, pokud subjekt i zvolı́ prvnı́ alternativu a rovno nule v opačném přı́padě. Upozorněme na tomto mı́stě, že pro dva různé subjekty je fakt “rozhodnutı́ se pro prvnı́ alternativu” obecně popsán dvěma různými jevy, řekněme Ai a Aj z nějaké základnı́ σ-algebry A; v některých textech o probitové analýze docházı́ ke zmatkům v okamžiku, kdy autoři rozlišujı́ mezi pravděpodobnostmi Pi pro různé subjekty subindexem i viz (132) nı́že, ale zmı́něný fakt formalizujı́ náhodným jevem, řekněme A, bez rozlišenı́ pomoci indexu. Protože i-tý subjekt zvolı́ prvnı́ alternativu tehdy, bude-li tato pro něj výhodnějšı́ než druhá, tj. pokud Ui1 > Ui2 , máme (prvnı́ rovnost je zavedenı́m dále použı́vaného označenı́) Pi = P (Yi = 1) = P (Ui1 > Ui2 ) ³ (132) ´ T T = P Vi1 − Vi2 < α2 − α1 + (zi2 − zi1 )δ + wiT (γ2 − γ1 ) = F (xTi β), T − z T , w T ) a β T = (α − α , δ T , γ T − γ T ). Pı́smenem F jsme označili distribučnı́ kde xTi = (1, zi2 2 1 2 1 i1 i funkci rozdı́lu Vi1 − Vi2 . Nejběžněji studované modely jsou ty, kde funkce F byla zvolena: lineárnı́ pravděpodobnostnı́ model F (xTi β) = xTi β, probitový model F (xTi β) = logitový model F (xTi β) = R xTi β −∞ 2 t √1 e− 2 2π dt, 1 1+e −xT β i Prvnı́ variantu jsme již výše diskutovali a ukázali, že nepatřı́ ke št’astným volbám. Druhá varianta representuje přı́pad, kdy za F zvolı́me standardnı́ normálnı́ distribuci. Ve třetı́ variantě byla zvolena logistická distribučnı́ funkce. Při této přı́ležitosti upozorněme na to, že některé monografie věnované regresnı́ analýze či ekonometrii, užı́vajı́ ještě pojmu logistický model, přičemž některé tı́m mı́nı́ to, co jsme výše 132 označili, ve shodě s drtivou většinou autorů, jako logitový model, některé tı́m rozumějı́ model časové řady s logistickým trendem. To je asi třeba mı́t na paměti při čtenı́ aplikačnı́ch studiı́, ve kterých bez bližšı́ specifikace autor pravı́, že použije logistický model pro zpracovánı́ dat. Z kontextu by však mělo být jasné, o co jde. Než postoupı́me dále ve výkladu, uvědomme si ještě, že P (Yi = 1) = F (xTi β), i = 1, 2, ..., n představujı́ teoretické pravděpodobnosti (označme je Pi ), zatı́mco my máme k dispozici jejich výběrové “protějšky” (řekněme πi ). Vlastně se tedy pokoušı́me odhadnout regresnı́ koeficienty v modelu πi = Pi + Ei = F (xTi β) + Ei , i = 1, 2, ..., n. (133) V dalšı́m výkladu bude π označovat vektor výběrových pravděpodobnostı́ (π1 , π2 , ..., πn )T . 8.2.3 Odhady parametrů v lineárnı́m pravděpodobnostnı́m modelu Výše jsme diskutovali potı́že, které s sebou přinášı́ použitı́ lineárnı́ho pravděpodobnostnı́ho modelu a naznačili jsme, že model s binárnı́ možnostı́ výběru by mohl pomoci řešit tyto problémy, a to v přı́padě, že za funkci F nezvolı́me identitu, nebot’ jinak se opět dostaneme k lineárnı́mu pravděpodobnostnı́mu modelu. Pokud bychom však z nějakých důvodů potřebovali přeci jenom odhadnout parametry β v lineárnı́m pravděpodobnostnı́m modelu, pak lze postupovat v podstatě dvěma způsoby. Oba však předpokládajı́ (dostatečně krát provedené) opakovánı́ pozorovánı́ (měřenı́) v jednotlivých bodech faktorového prostoru. Prvnı́ z nich vezme do úvahy to, že model vykazuje heteroskedasticitu, a prostě aplikuje Aitkenův odhad, ve kterém použije namı́sto neznámé kovariančnı́ matice Σ jejı́ odhad. Jinými slovy, nejprve odhadneme pomoci běžného odhadu metodou nejmenšı́ch čtverců regresnı́ koeficienty β, spočteme rezidua a odhadneme kovariančnı́ matici Σ. Ačkoliv odhad regresnı́ch koeficientů je neeficientnı́, je nevychýlený, jak jsme si ostatně ukázali v kapitole věnované zobecněnému odhadu metodou nejmenšı́ch čtverců. To umožňuje nestranně odhadnout matici Σ a spočı́tat ve druhém kroku β̂ (EGLS,n) (estimated generalized least squares). Tento přı́stup ovšem nevyřešı́ ten problém, že potřebujeme omezit hodnotu výrazu XiT β̂ (LS,n) na interval [0, 1]. Proto je patrně obecně přijatelnějšı́ druhý postup spočı́vajı́cı́ v tom, že vyčı́slı́me odhad s omezenı́mi danými přı́slušnými nerovnostmi. Budeme tedy předpokládat, že jsme, podobně jako výše provedli (neeficientnı́) odhad regresnı́ch koeficientů a spočetli na základě reziduı́ odhad kovariančnı́ matice Σ. V druhém kroku pak budeme řešit úlohu (srovnej se (133) ) β̂ (C,n) = arg min (π − Xβ)T Σ̂−1 (π − Xβ) β∈Rp při vedlejšı́ch podmı́nkách Xβ ≤ 1 (134) Xβ ≥ 0. (135) a Připomı́náme, že symbolem 1 jsme v Tvrzenı́ 8 označili vektor majı́cı́ všechny souřadnice rovné jedné. Na druhé straně jsme však v předchozı́m textu pro nulový vektor běžně užı́vali symbol 133 0 a nikoliv 0, nebot’ z kontextu bylo zřejmé o co jde. Přidrželi jsme se proto tohoto označenı́ i nynı́. V některých přı́padech, a tyto nemusı́ být tak ojedinělé, jak by se na prvnı́ pohled mohlo zdát, budeme a priori znát body faktorového prostoru, ve ktrých bude v budoucnu požadována predikce přı́slušných pravděpodobnostı́. Necht’ tyto body jsou označeny maticı́ X̃ (typu (p × m), řekněme). Pak se ovšem naše úloha rozšı́řı́ ještě o omezenı́ X̃β ≤ 1 (136) X̃β ≥ 0. (137) a Kombinace obou párů omezenı́ dá · W −W ¸ · β≤ kde " W = X X̃ 1 0 ¸ , (138) # . Můžeme tedy např. uvažovat Lagrageovou funkci L(β, λ1 , λ2 ) = (π − Xβ)T Σ̂−1 (π − Xβ) + 2λT1 (1 − W β) + 2λT2 W β, kde λ1 a λ2 jsou vektory Lagrangeových multiplikátorů (oba z Rn+m ). Budeme tedy řešit soustavu −X T Σ̂−1 (π − Xβ) − W λ1 + W λ2 , 1 − W β ≥ 0, λT1 (1 − W β) = 0, W β ≥ 0 a λT2 W β = 0. Označı́me-li u1 = 1 − W β a u2 = W β, lze úlohu přepsat na X T Σ̂−1 π = W λ2 − W λ1 + X T Σ̂−1 Xβ, 1 = W β + u1 , 0 = −W β + u2 , λT1 u1 = 0, λT2 u2 = 0 při podmı́nkách nezápornosti λ1 ≥ 0, λ2 ≥ 0, u1 ≥ 0 a u2 ≥ 0. Vzhledem k linearitě systému rovnic, lze tuto úlohu řešit pomoci simplexové metody, pro kterou je dnes již poměrně snadno dostupný software. 134 8.2.4 Odhady parametrů v probitovém a logitovém modelu Dřı́ve než se pustı́me do studia možnostı́ odhadu regresnı́ch koeficientů pro probitový a logitový model, vrat’me se krátce k důvodům, které vedly k tomu, že byly vybrány právě tyto dvě distribučnı́ funkce. Za touto volbou stojı́ zhruba tato logika. Předpokládáme, že se i-tý subjekt (domácnost, firma, agent atd.) tı́m spı́še rozhodne pro variantu Ai (což jsme formalizovali jako Yi = 1), čı́m většı́ bude hodnota výrazu xTi β 0 , kde ovšem β 0 neznáme a chceme je odhadnout. Pokud je hodnota tohoto výrazu implicitně závislá na mnoha nezávislých a v podstatě náhodných faktorech, či chcete-li jevech, jejichž vliv se agreguje, pak centrálnı́ limitnı́ věta, aplikovaná značně neformálně, napovı́dá, že rozdělenı́ “veličiny” Zi = xTi β 0 je přibližně normálnı́ a tedy pravděpodobnost toho, že rozhodnutı́ bude ve prospěch varianty Ai je rovna Φ(xTi β 0 ), kde jsme použili symbol Φ pro distribučnı́ funkci standardnı́ho normálnı́ho rozdělenı́. Volba logistické distribučnı́ funkce pak souvisı́ s faktem, že tato docela slušně aproximuje normálnı́ distribuci a je jednoduchá z technického hlediska. V některých monografiı́ch se při tomto zdůvodněnı́ tvrdı́, že logistická d. f. aproximuje standarnı́ normálnı́ velmi dobře a tento argument je stále znova přejı́mán dalšı́mi autory, aniž by skutečně ověřili, jak “daleko” od sebe tyto distribuce skutečně jsou; uved’me tedy pro pořádek, že max |Φ(t) − Flogistická (t)| = 0.1174 t∈R a toto maximum nastává v bodech t = 1.3246 a t = −1.3246. Podobně jako výše budeme předpokládat, že máme opakovaná pozorovánı́ v jednotlivých bodech faktorového prostoru. Ostatně jinak bychom nebyli schopni odhadnout kovariančnı́ matici Σ, jak jsme již výše několikrát připoměli, ale také regresnı́ model (133) by trochu “ztrácel na lesku”, nebot’ by bylo podivné odhadovat pravděpodobnost Pi nějakou hodnotou πi vypočı́tanou na základě jednoho pozorovánı́. V dalšı́m výkladu rozlišı́me dva přı́pady, totiž • máme k dispozici dostatečné množstvı́ opakovánı́ a • máme k dispozici jen několik opakovánı́. Přirozeně je na uživateli posoudit, kdy je vhodnějšı́, pro daná data, použı́t ten či onen přı́stup. Postup pro přı́pad, kdy je k dispozici dostatečné množstvı́ opakovánı́ Studujme nejprve probitový model. Připomeňme, že uvažujeme model πi = Pi + Ei = Φ(xTi β) + Ei , i = 1, 2, ..., n, (139) kde πi je odhad teoretické pravděpodobnosti, že se i-tý subjekt rozhodne pro variantu Ai . Odhad πi je založen na ni opakovánı́ch pozorovánı́ i-tého subjektu, tj. na opakovánı́ch pozorovánı́ v i-tém bodě faktorového prostoru, řečeno v terminologii, kterou jsme použı́vali pro “klasický” regresnı́ model. Protože jistě zvolı́me konsistentnı́ odhad πi , bude Ei konvergovat v pravděpodobnosti k nule pro ni → ∞. Vzhledem k tomu, co bylo řečeno výše, totiž, že předpokládáme, že Pi je pravděpodobnost toho, že se i-tý subjekt rozhodne pro variantu Ai , 135 je přirozené předpokládat, že πi bude maximálně věrohodný odhad této pravděpodobnosti, tj. počet přı́padů, kdy se v ni pozorovánı́ch i-tý subjekt rozhodl pro variantu Ai . Potom ovšem πi = ni X yik k=1 ni , kde yik je k-tá realizace Bernoulliovské náhodné veličiny Yi nabývajı́cı́ hodnoty 1 v přı́padě, kdy se i-tý subjekt rozhodne pro variantu Ai a 0 v přı́padě, kdy se rozhodne pro doplněk této varianty. Jinými slovy, zcela v souladu s výše v této kapitole vedenými úvahami Yi je náhodná veličina, která nabývá hodnoty 1 s pravděpodobnostı́ Pi a hodnoty 0 s pravděpodobnostı́ 1 − Pi . Odtud plyne, že Pi (1 − Pi ) . IE Ei = 0 a var(Ei ) = ni Podotkněme ještě, že v některých monografiı́ch se právě uvedené vztahy “deklarujı́” bez specifikace typu odhadů πi teoretických pravděpodobnostı́ Pi . Je sice pravda, že podobný výsledek dostaneme pro většinu akceptovatelných odhadů pravděpodobnostı́ Pi , ale obecně to nemusı́ √ platit. V podstatě to předpokládá, že odhad πi je nestranný a ni -konsistentnı́, tj. √ ni (πi − Pi ) = Op (1). Model (139) lze přepsat do tvaru Φ−1 (πi ) = Φ−1 (Pi + Ei ), kde si pro několik dalšı́ch okamžiků odpustı́me neustálé opakovánı́ “pro i = 1, 2, ..., n”. Rozvinutı́m pomoci Taylorovy řady dostaneme Φ−1 (πi ) = Φ−1 (Pi ) + Ei dΦ−1 (Pi ) + Ri , dPi kde Ri = O(1) · Ei2 a tedy Ri nejen konverguje k nule v pravděpodobnosti, ale je přirozeně (opět v pravděpodobnosti) řádově menšı́ než druhý člen pravé strany poslednı́ rovnosti. Konečně tedy Φ−1 (πi ) ≈ Φ−1 (Pi ) + Ei 1 , φ(Φ−1 (Pi )) (140) kde jsme symbolem φ(t) označili hustotu standardnı́ho normálnı́ho rozdělenı́. Vzhledem k tomu, že Φ−1 (Pi ) = xTi β 0 , můžeme pro ξi = Φ−1 (πi ) uvažovat model ξi = xTi β 0 + Vi , kde ξi bývá označováno jako “napozorovaný” probit a xTi β 0 je “skutečný” (ve smyslu anglosaského true) probit. Nynı́ pokud odhad πi pravděpodobnosti Pi byl nestranný, máme z (140) Ei Vi ≈ φ(Φ−1 (Pi )) a tedy IE Vi ≈ 0 a var(Vi ) ≈ 136 Pi (1 − Pi ) . ni (φ(Φ−1 (Pi )))2 (141) Odhadneme-li tedy β 0 pomoci ³ β̂ (LS,n) = X T Σ̂−1 X ´−1 X T Σ̂−1 ξ, kde Σ̂ je odhad kovariančnı́ matice náhodných fluktuacı́ Vi . Vzhledem k tomu, že obvykle předpokládáme (statistickou) nezávislost subjektů, tj. také statistickou nezávislost jevů i-tý subjekt se rozhodl pro variantu Ai a j-tý subjekt se rozhodl pro variantu Aj , budou i náhodné fluktuace Ei statisticky nezávislé, a konečně pak totéž lze předpokládat o fluktuacı́ch Vi . To znamená, že odhad kovariančnı́ matice Σ bude diagonálnı́ s tı́m, že na diagonále budou stát právě odhady rozptylů uvedené v (141). Samozřejmě se nabı́zejı́ i jiné odhady, jak jsme ostatně výše zmı́nili. Např. můžeme, pokud jsme si jisti tı́m, že Pi = φ(xTi β 0 ), použı́t odhad P̃i = Φ(ξˆi ) = Φ(xTi (X T X)−1 X T ξ). Pro logitový model lze postupovat obdobně. Připomeňme, že tento model předpokládá, že Pi = P (Ai |xi ) = což implikuje µ Pi ln 1 − Pi 1 , 1 + exp{xTi β 0 } ¶ = xTi β 0 . Vzhledem k tomu, že jsme předpokládali regresnı́ model (139), máme πi Pi + Ei = . 1−π 1 − Pi − Ei Rozvineme-li pravou stranu pomoci Taylorova rozvoje v bodě Pi 1−Pi a vezmeme-li v úvahu, že Pi Ei Ei Pi + Ei − = ≈ , 1 − Pi − Ei 1 − Pi (1 − Pi − Ei )(1 − Pi ) (1 − Pi )2 dostaneme µ πi ln 1 − πi ¶ µ Pi = ln 1 − Pi ¶ + Ei + Ri , Pi (1 − Pi ) kde podobně jako výše Ri = Op (Ei2 ), tj. konverguje za dosti obecných podmı́nek v pravděpodobnosti k nule pro ni → ∞. Máme tedy µ ln ³ Položı́me-li tedy ζi = ln πi 1−πi πi 1 − πi ¶ ≈ xTi β 0 + Ei . Pi (1 − Pi ) ´ a budeme-li uvažovat model ζi = xTi β 0 + Ui , budeme mı́t Ui ≈ Ei Pi (1−Pi ) a tedy IE Ui ≈ 0 a var(Ui ) = 1 . ni Pi (1 − Pi ) Dalšı́ postup je naprosto shodný s postupem pro probitový model. 137 Postup pro přı́pad, kdy je k dispozici jen několik opakovánı́ Připomeňme, že jsme výše ukázali, že v právě diskutovaných modelech se nevyhnutelně setkáme s heteroskedasticitou. Máme-li však k dispozici jen malý počet opakovánı́, přı́padně jen jedno, v i-tém bodě faktorového prostoru, nejsme schopni odhadnout rozptyl vysvětlované veličiny v tomto bodě a tedy ani kovarinčnı́ matici Σ. Znamená to, že se nejsme schopni vyrovnat s heteroskedasticitou pomoci zobecněného odhadu nejmenšı́ch čtverců. Alternatı́vnı́ možnostı́ je použitı́ maximálně věrohodného odhadu. To samozřejmě ovšem znamená, že podstatným způsobem “vstoupı́ do hry” a priornı́ informace o rozdělenı́ F (pozor, zde se nejedná o rozdělenı́ náhodných fluktuacı́ Ei v modelu (133), ale o distribučnı́ funkci F popisujı́cı́ závislost Pi na xTi β 0 ). Dřı́ve než začneme s vlastnı́m výkladem připomeňme znovu na jednu formálnı́ věc. V předchozı́ pasáži jsme označovali pomoci ni počet opakovánı́ pozorovánı́ v i-tém bodě faktorového prostoru a mylně by se mohlo zdát, že Yi označovalo počet přı́padů ze zmı́něných ni opakovánı́, kdy se i-tý subjekt rozhodl pro prvnı́ alternativu. Ve skutečnosti jsme ale předpokládali, že to, co vstupuje do diskutovaných regresnı́ch modelů, jsou probity (tj. Φ−1 (πi )), přı́padně logπi ) a Yi označovalo náhodnou veličinu nabývajı́cı́ hodnotu 1 pro přı́pad, kdy se i-tý ity (tj. 1−π i subjekt rozhodl pro prvnı́ alternativu. Odtud plyne, že pokud bylo pozorovánı́ na i-tém subjektu ni -krát opakováno, máme ni realizacı́ veličiny Yi , které jsme označili yi1 , yi2 , ..., yini (což je posloupnost nul a jedniček), a počet přı́padů, kdy se i-tý subjekt rozhodl pro prvnı́ variantu P i je nj=1 yij . Protože toto čı́slo budeme dále potřebonat v následujı́cı́m odstavci diskutujı́cı́m použitı́ probitového a logitového modelu, označme je mi . Uvědomme si ještě, že všechna tato pozorovánı́ (měřenı́) byla provedena ve stejném bodě faktorového prostoru, jak jsme už jednou výše zdůraznili, tj. xi1 = xi2 = ... = xini . Vrátı́me-li se tedy k tomu, že jsme předpokládali, že do diskutovaných regresnı́ch modelů vstupujı́ probity a logity, máme jakási “původnı́” data vlastně sdružena do oněch K skupin, v matici plánu vystupuje přı́slušný bod xi jen jednou, matice má K řádků (a p sloupců) a jako vysvětlovaná veličina vystupuje napozorovaný probit P či logit. Celkový počet pozorovánı́ je pak n = K i=1 ni . Vzhledem k tomu, že jsme předpokládali, že Pi = P (Yi = 1) je pravděpodobnost, že se i-tý subjekt rozhodne pro prvnı́ alternativu (a 1 − Pi = P (Yi = 0)), máme věrohodnostnı́ funkci `= K Y PiYi (1 − Pi )1−Yi = K Y ³ ´1−Yi [F (xTi β)]Yi 1 − F (xTi β) i=1 i=1 a konečně logaritmus věrohodnostnı́ funkce bude ln ` = K n X o Yi ln(F (xTi β)) + (1 − Yi )ln(1 − F (xTi β)) , (142) i=1 kde volbou F = Φ, přı́padně F = Flogistická specifikujeme situaci pro probitový či logitový model. Hledánı́ extrému je pak numerická záležitost a může být provedeno např. Newton-Raphsonovou metodou, tj. budeme počı́tat iterativně odhady β̂(r+1) −1 " ¯ ∂ 2 ln ` ¯¯ = β̂(r) − ¯ ∂β∂β T ¯β=β̂ (r) 138 ¯ # ∂ln ` ¯¯ , ∂β ¯β=β̂(r) kde dolnı́ index (r) označuje krok v iterativnı́m procesu. Odhady budeme “opakovat” tak dlouho až se tyto stabilizujı́. O odhadu zı́skaném touto cestou je známo, že má asymptoticky normálnı́ rozdělenı́ (Judge a kol. (1980)), tj. ´ √ ³ n β̂ − β 0 → N 0, lim n→∞ " 1 ∂ 2 ln ` − IE n ∂β∂β T #−1 , kde se samozřejmě musı́ předpokládat, že naznačená limita existuje. Podotkněme ješte, že uvedená střednı́ hodnota (v kovariančnı́ matici) musı́ být uvažována vzhledem ke “skutečnému rozdělenı́” G, tj. nikoliv vůči F . To může způsobit, že asymptotický rozptyl odhadu β̂(r) může být (podstatně) většı́ než bychom očekávali. Jinou možnostı́ je použı́t metodu skrovánı́, viz např. Judge a kol. (1980). Někdy mohou nastat potı́že se stanovenı́m počátečnı́ho odhadu pro iterativnı́ proces. Obvykle je však možno použı́t i dosti hrubý odhad, nebot’ je známo, že např. pro probitový a logitový model tato volba nehraje asymptoticky žádnou roli, viz Dhrymes (1978). Je přirozené, že z numerického hlediska však volba počátečnı́ho odhadu hraje podstatnou roli. Bohužel však neexistuje spolehlivé doporučenı́, jak v tomto přı́padě postupovat. 8.2.5 Diskuze k použitı́ probitového a logitového modelu Pro alespoň částečnou úplnost dodejme, že model πi = F (xTi β) + Ei , i = 1, 2, ..., K byl studován i pro jiná rozdělenı́ F než jen Φ a Flogistická , viz např. Zellner, Lee (1965), nicméně oblı́benost probitového a logitopvého modelu daleko převyšuje jiné aplikace. U probitového modelu jde patrně o to, že za modelem je alespoň jakási heuristika a také pro oblı́benost normálnı́ho rozdělenı́. U logitového modelu hraje jistě roli jeho technická jednoduchost při zpracovánı́. Přı́klady (a to dosti obsáhlé) použitı́ probitového a logitového modelu lze nalézt v pracech McFadden, D. (1976), Hensher, Johnson (1981) nebo Amemiya (1981). Výše jsme se zmı́nili, jak je třeba s opatrnostı́ interpretovat odhady regresnı́ch koeficientů, dokonce jejich znaménka, viz závěr kapitoly Výstupy z počı́tačových knihoven. Zde k tomu ještě přistupuje to, že i když budou např. regresory nezávislé a tedy potı́ž, na kterou jsme v právě připomenuté kapitole upozorňovali (a která měla své kořeny právě ve vysokém stupni lineárnı́ závislosti mezi vysvětlujı́cı́mi proměnnými), odpadne, velikost odhadů regresnı́ch koeficientů neindikuje velikost změny vysvětlované veličiny (tj. přı́slušné pravděpodobnosti Pi ), ale spı́še ³ ´ Pi −1 změny Φ (Pi ) pro probitový model, a velikosti změny ln 1−Pi pro logitový model. Snadno se nahlédne, že přı́slušným indikátorem velikosti odhadované pravděpodobnosti v závislosti ³ změny ´ T na změně j-té souřadnice bodu xi bude f xi β βj , kde f je hustota přı́slušná k F . Ukažme si nynı́, jak by se otestovala hypotéza H0 : β20 = β30 = ... = βp0 = 0 proti alternativě H1 : β 0 = β̂, kde β̂ je odhad pořı́zený některou metodou popsanou výše v této kapitole. Učiňme tak pro jednoduchý přı́pad, kdy bylo provedeno n opakovaných měřenı́ na jednom subjektu, tj. v některém bodě x ∈ Rp a kdy se v m přı́padech tento rozhodl pro prvnı́ variantu. Uvědomme si, že při hypotéze H0 máme xT β = x1 β1 a označme γ = F (x1 β1 ) (kde dolnı́ index 1 označuje 139 vyjı́mečně prvnı́ souřadnici bodů x a β). Potom (uvědomme si, že xi = x pro i = 1, 2, ..., n) ln ` (H0 ) = arg max γ∈R n n X yi ln(F (xTi β)) + (1 − yi )ln(1 − F (xTi β)) o i=1 = arg max {mlnγ + (n − m)ln(1 − γ)} = mln γ∈R m n−m + (n − m)ln( ). n n Označme ještě hodnotu logaritmu věrohodnostnı́ funkce pro hypotézu H1 , kterou dostaneme dosadı́me-li odhad β̂ do (142), symbolem ln`(H1 ). Za přı́slušnou testovou statistiku vezmeme pak logaritmus věrohosnostnı́ho poměru, tj. −2 [ln`(H0 ) − ln`(H1 )] , (143) která má asymptoticky rozdělenı́ χ2 (p − 1). Pokud by bylo provedeno pozorovánı́ (měřenı́) na K subjektech, na každém ni -krát právě uvedené úvahy by se zkomplikovaly, a to nejen po formálnı́ stránce, ale i po stránce věcné. Patrně bychom totiž chtěli mı́t vı́ce “parametrů” γ, ale nulová hypotéza H0 striktně vzato ve formalizmu, který jsme použı́vali v odstavci “Postup pro přı́pad, kdy je k dispozici dostatečné množstvı́ opakovánı́”, popisuje situaci, kdy Pi = const, i = 1, 2, ..., K. Uživatelé probitových a logitových modelů se také často zajı́majı́ o analogii koeficientu determinace pro tyto modely. Odkazujeme proto na práci Amemiya (1981), (1981) ve které je podrobnějšı́ diskuze k tomuto tématu. Zde jen uved’me, že patrně nejběžněji použı́vané statistiky jsou bud’ χ2 uvedená v (143) nebo “pseudo-R2 ” definovaný jako ρ2 = 1 − ln`(H0 ) . ln`(H1 ) Jak vyplývá z výše uvedeného výkladu a diskuze, jsou probitové a logitové modely vlastně jakousi “berličku” pro data, pro která nenı́ regresnı́ model přı́mo určen. Ostatně v některých statistických knihovnách jsou probitové a logitové modely začleněny do nelineárnı́ch odhadů, nelineárnı́ regrese či majı́ svůj speciálnı́ oddı́l. Proto bývá také studována jejich výkonnost ve srovnánı́ s jinými metodami, např. s diskriminačnı́ analýzou, viz Press, Wilson (1978) nebo Amemiya, Powell (1980) nebo regresnı́mi stromy, viz Breiman a kol. (1984). 8.3 Model s kategoriálnı́mi vysvětlujı́cı́mi proměnnými Často se stává, že některá proměnná v datech má charakter kategoriálnı́ nebo kvalitativnı́ proměnné, jako je např. sex, rasa, věková kategorie, státnı́ přı́slušnost, přı́slušnost k některé politické straně, barva, druh materiálu, způsob zpracovánı́, doba vzniku, osobnı́ preference atd. Jedna z možnostı́ by zajisté byla rozdělit data na vı́ce souborů dle této kategoriálnı́ proměnné a zpracovat každý soubor samostatně. Na druhé straně, pokud se budeme domnı́vat, že vysvětlovaná veličina byla generována jakýmsi “mechanizmem’, který je společný pro všechna data v souboru a pouze pro jednotlivé kategorie obsahoval jiný absolutnı́ člen, můžeme data zpracovat naráz, což povede k tomu, že informace o těch koeficientech, které jsou společné pro všechny kategorie bude lépe využita. Znamená to tedy, že potřebujeme formálně zapsat model, který automaticky zvolı́ pro dané pozorovánı́ absolutnı́ člen dle přı́slušnosti daného pozorovánı́ (daného jedince) k té 140 či oné kategorii. Předpokládejme, že naše data obsahujı́ kategoriálnı́ proměnnou (pro jednoduchost pouze jednu; zobecněnı́ na vı́ce kategoriálnı́ch proměnných je přı́močaré), která nabývá K hodnot (stavů). Regresnı́ model pak můžeme psát ve tvaru Yi = Zγ + Xβ 0 + Ei , i = 1, 2, ..., n, kde Z je matice typu (n × K) a platı́, že zik = 1 pokud i-té pozorovánı́ patřı́ do k-té kategorie, k = 1, 2, ..., K). Pokud bychom všechna pozorovánı́ patřı́cı́ do prvnı́ kategorie umı́stili na začátek dat, za ně umı́stili všechna pozorovánı́ patřı́cı́ do druhé kategorie, atd. a pokud označı́me `k počet pozorovánı́ patřı́cı́ch do k-té kategorie, bude matice plánu vypadat takto [Z, X] = 1 0 0 . . . 0 x1,1 1 0 0 . . . 0 x2,1 .. .. .. .. .. . . . . . 1 0 0 . . . 0 x`1 ,1 x1,2 x2,2 .. . . . . x1,p . . . x2,p .. . x`1 ,2 ... 0 1 0 . . . 0 x`1 +1,1 0 1 0 . . . 0 x`1 +2,1 .. .. .. .. .. . . . . . 0 1 0 . . . 0 x`1 +`2 ,1 .. .. .. .. .. . . . . . .. .. .. .. .. . . . . . .. .. .. .. .. . . . . . x`1 +1,2 x`1 +2,2 .. . ... ... x`1 +`2 ,2 .. . .. . .. . ... 0 0 0 . . . 1 x`1 +`2 +...+`K−1 +1,1 0 0 0 . . . 1 x`1 +`2 +...+`K−1 +2,1 .. .. .. .. .. . . . . . 0 0 0 . . . 1 x`1 +`2 +...+`K ,1 x`1 +`2 +...+`K−1 +1,2 . . . x`1 +`2 +...+`K−1 +2,2 . . . .. . x`1 +`2 +...+`K ,2 x`1 ,p x`1 +1,p x`1 +2,p .. . x`1 +`2 ,p . .. . .. . .. . x`1 +`2 +...+`K−1 +1,p x`1 +`2 +...+`K−1 +2,p .. . . . . x`1 +`2 +...+`K ,p Odhad regresnı́ch koeficientů lze provést pomocı́ běžného odhadu metodou nejmenšı́ch čtverců, který bude vypadat takto " γ̂ (LS,n) β̂ (LS,n) # ³ ´−1 = [Z, X]T [Z, X] [Z, X]T Y. (144) Ještě jednou připomı́náme, že, jak je ostatně zřejmé z tvaru matice plánu, pro každou kategorii pozorovánı́ je jakoby odhadnut “samostatně” absolutnı́ člen zatı́mco odhady ostatnı́ch koeficientů modelu jsou “společné”. Slovo jakoby a úvozovky u slov samostatně a společně naznačujı́, že při odhadu absolutnı́ho členu pro jednu, řekněme k-tou kategorii, je ve skutečnosti zprostředkovaně využita i informace obsažená v pozorovánı́ch z jiných kategoriı́, (viz (144). Komplikovanějšı́ by byla situace, kdy by bylo adekvátnějšı́ předpokládat, že přı́slušnost jednotlivého pozorovánı́ do k-té kategorie je náhodný jev, tj. že matice Z je náhodná. Naštěstı́ se s takovou situacı́ setkáme jen velmi zřı́dka. Na druhé straně, v takovém přı́padě lze postupovat standardnı́m postupem, který aplikujeme v modelu s náhodnými vysvětlujı́cı́mi proměnnými. Již výše bylo vysvětleno, v odstavci věnovanému instrumentálnı́m proměnným, jak je třeba v 141 takovém přı́padě postupovat. “Jediným” problémem, který je v tom přı́padě totiž třeba posoudit, je to zda náhodné fluktuace a ty vysvětlujı́cı́ proměnné, které považujeme za náhodné, jsou (asymptoticky) korelovány či nikoliv. Slovo jediným je dáno do úvozovek, nebot’ se sice opravdu jedná jen o jediný problém, ale za to dosti podstatný a nikoliv snadno testovatelný. Na druhé straně, vzhledem k tomu, že konstanta je vždy nezávislá (a tedy také nekorelovaná) s jakoukoliv náhodnou veličinou, máme naději, že pokud nastane právě diskutovaná situace, pak, pokud bude přı́slušná kategoriálnı́ veličina nabývat jen malého počtu hodnot, bude (alespoň asymptoticky) nekorelovaná s náhodnými fluktuacemi. Někdy se můžeme setkat se situacı́, kdy jsou mezi vysvětlujı́cı́mi proměnnými kvalitativnı́, tak jak jsme si o tom povı́dali v této kapitole, ale kvalitativnı́ veličina (znak) nabývá tolika hodnot, že patrně nelze pro každou odhadnout absolutnı́ člen, nebot’ by vlastně jeho hodnota byla odhadnuta z několika málo pozorovánı́. V takovém přı́padě patrně nezbývá, než zkusit “něco” jiného než regresnı́ model. Jednou méně známou, ale patrně velmi efektivnı́ variantou je použitı́ regresnı́ch stromů (regression trees), viz Breiman a kol. (1984). Myšlenka je velmi jednoduchá, totiž rozdělit data na dvě (či vı́ce částı́) dle kvalitativnı́ (kategoriálnı́) veličiny a to tak, aby co nejvı́ce poklesla variabilita vysvětlované veličiny v obou třı́dách. Jak jsme řekli, myšlenka je to velmi jednoduchá a snadno akceptovatelná, provedenı́ je značně komplikované. Uvědomme si, že pokud přı́slušná kategoriálnı́ proměnná nabývá k “hodnot” (stavů), lze data rozdělit do dvou skupin 2k−1 − 1 způsoby. Navı́c kategoriálnı́ch proměnných může být vı́ce, v datech mohou chybět některé údaje (missing values) atd. Proto také bývá software pro tuto metodu značně drahý. 8.4 Vysvětlujı́cı́ proměnné měřené s náhodnými chybami Na samém začátku skript jsme diskutovali, co by znamenalo to, kdybychom náhodné fluktuace vysvětlované veličiny interpretovali jako chyby měřenı́. Řekli jsme, že pak bychom museli posoudit, zda nenı́ adekvátnı́ uvažovat o tom, že také (některé) vysvětlujı́cı́ proměnné mohou být měřeny s nezanedbatelnou (náhodnou) chybou. Poznamenali jsme, že pak je třeba uvažovat o jiném tvaru regresnı́ho modelu a jiném přı́stupu k odhadu jeho parametrů (koeficientů). Jednoduchý model této situace jsme si už ukázali v jednom z předchozı́ch odstavců. Nynı́ si ukážeme obecnějšı́ tvar takového modelu. Podobně jako dřı́ve budeme předpokládat, že vysvětlovaná proměnná lineárně závisı́ na sadě vysvětlujı́cı́ch proměnných, tedy přesněji řečeno na skutečných hodnotách těchto vysvětlujı́cı́ch proměnných Y = Zγ 0 + X ∗ β 0 + V, (145) kde Z představuje tu část matice plánu, která zahrnuje ty vysvětlujı́cı́ proměnné, jejichž chyba měřenı́ je malá ve srovnánı́ s rozptylem náhodných fluktuacı́. V matici X ∗ jsou zahrnuty skutečné hodnoty těch regresorů, jejichž měřenı́ je zatı́ženo nezanedbatelnou chybou, tj. v matici X ∗ jsou hodnoty, které nám však nejsou přı́stupny. My máme k dispozici pouze matici X naměřených hodnot těchto regresorů, tj. hodnot, které jsou zatı́ženy (značnou) chybou měřenı́. Formálně to znamená, že X = X ∗ + U. (146) 142 Přirozeně, že stejně jako pro náhodné fluktuace E předpokládáme, že IE U = 0 a navı́c IE Ui V T = 0, kde Ui je i-tý řádek matice U , tj. na pravé straně poslednı́ rovnosti stojı́ matice nul. Symboly γ 0 a β 0 jsme označili vektory regresnı́ch koeficientů a V jsou samozřejmě náhodné fluktuace. Jestliže (146) dosadı́me do (145), dostaneme Y = Zγ 0 + Xβ 0 + E = W δ 0 + E (W = (Z, X), δ 0 = (γ 0 , β 0 ) a E = V − U β 0 ). Zcela analogicky jako při studiu klasického regresnı́ho modelu budeme předpokládat, že existujı́ regulárnı́ matice Qzz , Qzx a Qxx tak, že lim n→∞ 1 T Z Z = Qzz , n 1 T Z X = Qzx n 1 lim X T X = Qxx n→∞ n lim n→∞ (147) v pravděpodobnosti, (148) v pravděpodobnosti (149) (viz (14)) a navı́c, že lim n→∞ 1 T U U = Σuu n v pravděpodobnosti. Nenı́ těžké zjistit, že běžný či chcete-li naivnı́ odhad metodou nejmenšı́ch čtverců " δ̂ = γ̂ (n) β̂ (n) # ³ = WTW ´−1 ³ WTY = WTW ´−1 ³ ´ ³ W T W δ0 + E = δ0 + W T W ´−1 WTE (150) může být obecně vychýlený a nenı́ konsistentnı́, nebot’ lim n→∞ 1 1 T X E = lim U T (V − U β 0 ) = −Σuu β 0 n→∞ n n v pravděpodobnosti. Poznamenejme ještě, že z toho, jak jsme zavedli matice Q (viz (147), (148) a (149)) máme 1 lim W T W = n→∞ n a 1 lim W T E = n→∞ n · · ¸ Qzz Qzx QTzx Qxx 0 −Σuu β 0 v pravděpodobnosti (151) ¸ v pravděpodobnosti. (152) Vztah (152) by mohl svádět k tomu, že vektor γ 0 bude odhadnut nestranně. Snadno však nahlédneme ze vztahu (150), že při výpočtu γ̂ (n) figuruje celý vektor stojı́cı́ na pravé straně vztahu (152). Potom tedy dostaneme " lim n→∞ γ̂ (n) − γ 0 β̂ (n) − β 0 # · = −1 0 −1 T Q−1 zz Qzx (Qxx − Qzx Qzz Qzx ) Σuu β −1 0 −(Qxx − QTzx Q−1 zz Qzx ) Σuu β ¸ . (153) Proto ani ta část vektoru regresnı́ch koeficientů, která odpovı́dá těm regresorům, které jsou měřeny “přesně”, nenı́ odhadnuta nestranně. Bez přijetı́ dalšı́ch předpokladů, specifikujı́cı́ poněkud vı́ce celou situaci se bohužel dá jen těžko něco usoudit o velikosti a směru vychýlenı́ odhadů γ̂ (n) a β̂ (n) . Pokud však např. nastane přı́pad, že je s chybami měřena jen jedna vysvětlujı́cı́ proměnná, pak Σuu = σu2 (řekněme) 143 2 2 a (Qxx − QTzx Q−1 zz Qzx ) = σx (1 − Rxz ) (kde poslednı́ rovnost zavedla označenı́ pro rozptyl veličiny 2 ) jsou x a pro koeficient mnohonásobné korelace mezi x a Z). Protože jak σu2 tak σx2 (1 − Rxz nezáporné, je vychýlenı́ odhadu koeficientu β 0 vždy negativnı́, tj. dojde k podceněnı́. Jak však můžeme nahlédnout z (153), vychýlenı́ odhadu koeficientu γ 0 závisı́ na Q−1 zz Qzx a nelze je tedy bez znalosti této matice vı́ce popsat. Pokud je však náš model extrémně jednoduchý, tj. obsahuje pouze jednu vysvětlujı́cı́, tj. Z = 0, která je měřena s náhodnými chybami, pak vychýlenı́ odhadu koeficientu β 0 je dáno vztahem ³ lim n→∞ 8.5 ´ β̂ (n) − β 0 = − β 0 σu2 σx2 v pravděpodobnosti. Aproximace nepřı́stupných vysvětlujı́cı́ch veličin Model (145) je formálně podobný modelu modelu, ve kterém vystupujı́ vysvětlujı́cı́ proměnné, které nemůžeme přı́mo měřit, ale jsme o nich přesvědčeni, že jsou relevantnı́ pro vysvětlenı́ veličiny Y . Přı́kladem může být situace, kdy se budeme snažit vysvětlit výši přı́jmu fyzických osob na základě různých faktorů. Jednı́m z faktorů bude nepochybně úroveň vzdělánı́, kterého dotyčný(á) dosáhl. Okamžitě nám však bude jasné, že úroveň vzdělánı́ bude závislá nejen od počtu let strávených ve školnı́ch lavicı́ch, ale také od typu a hlavně kvality školy, kterou navštěvoval. To bychom mohli ještě nějak zohlednit, ale jednak by to bylo obtı́žné, tedy přinejmenšı́m technicky komplikované, jednak by to stále ještě nevystihlo všechny problémy, které jsou s úrovnı́ vzdělánı́ spojeni. Někdo dalšı́ by totiž mohl namı́tnou, že je třeba vzı́t v úvahu to, jakých známek dotyčný dosáhl (což už by ani nemuselo být zjistitelné), ale pak přijde dalšı́ a řekne, že přeci na té škole byli různě přı́snı́ examinátoři atd. Často v takovém přı́padě “rezignujeme” a prostě nahradı́me veličinu, o které cı́tı́me, že je relevantnı́, veličinou, která ji (vı́ce či méně) dobře aproximujeme. Anglosaské literatuře se mluvı́ o proxy variables a v poslednı́ době se toto označenı́, totiž proxy proměnné začalo ujı́mat i u nás. Jazykový puristi asi budou proteslovat, ale pokud autor toho či onoho textu na jeho začátku přesně vymezı́, co čı́m bude označovat, nenı́ toto slova právě z těch, které by v češtině znělo nelibozvučně. Často se tedy uvažuje model Y = zγ 0 + xβ 0 + E, (154) o kterém jsme si vědomi, že veličina x je aproximacı́ veličiny x∗ , tj. platı́ x = x∗ + u, kde u ovšem nenı́ náhodná chyba měřenı́ a ani ji nelze dost dobře za náhodnou považovat, v tom smyslu, že ji nejsme schopni popsat v termı́nech náhodné veličiny. Potom před námi stojı́ problém (dilema), zda uvažovat model (154) či model Y = zγ 0 + Ẽ, (155) s tı́m, že vzhledem k tomu, co bylo řečeno o vztahu x a x∗ nejsme schopni posoudit “těsnost” aproximace. V literatuře lze nalézt studie diskutujı́cı́ tento problém (viz např. Aigner (1974), Maddala (1977)), ale závěry jsou často dosti sporné. Problematičnost totiž spočı́vá v tom, že 144 každá taková studie musı́ chtě nechtě nakonec udělat nějaké předpoklady o veličině u a navı́c musı́ zvolit některé kriterium pro hodnocenı́ odhadu z toho či onoho modelu. Obvykle je to vychýlenı́ či rychlost konsistence, přı́padně jejı́ ztráta. Např. B. T. McCallum (1972) a M. R. Wickens (1972) nezávisle dokázali, že pokud o u předpokládáme, že je to náhodná veličina nezávislá jak na x∗ tak na E, potom je odhad z modelu (154) vždy méně vychýlen než odhad z modelu (155) (vzhledem k tomu, co bylo řečeno výše, se o modelu (155) předpokládá, že je podurčen a tedy přı́slušný odhad je obecně vychýlený - viz odstavec o podurčenı́ modelu). Na druhé straně nenı́ jasné, jak dalece může být model (154) špatně specifikován. Máme na mysli to, co anglosaská literatura označuje slovem misspecified a pro co patrně nemáme ještě ustálený technický termı́n; znamená to, že do podurčeného modelu (155) sice přidáme dalšı́ vysvětlujı́cı́ veličiny, ale tyto jsou (téměř) irelevantnı́ pro vysvětlenı́ veličiny Y . To sice nezhoršı́ ani vychýlenı́ modelu ani to nevede ke ztrátě konsistence, ale může to znamenat takové zvýšenı́ rozptylu odhadů koeficientů, že to napřı́klad může (podstatně) poškodit kvalitu následné predikce. 9 9.1 MODEL S VÍCEROZMĚRNOU VYSVĚTLOVANOU PROMĚNNOU Zdánlivě nesouvisejı́cı́ rovnice Až dosud jsme uvažovali regresnı́ model, ve kterém byla vysvětlovaná veličina jednorozměrná. Naprosto přı́močarým zobecněnı́m tohoto modelu je model uvažujı́cı́ soubor M regresnı́ch rovnic typu (3), které spolu (na prvnı́ pohled) nesouvisejı́. Odtud název (angl. seemingly unrelated equations). Budeme tedy uvažovat pro j = 1, 2, . . . , M model (j)T Yij = xi β(j) + Eij , i = 1, 2, . . . , n. (156) Označı́me-li Y(j) = (Y1j , Y2j , . . . , Ynj )T ∈ Rn (tj. Yij označuje i-té pozorovánı́ v j-tém regresnı́m (j)T modelu), matice X (j) je typu (n × p(j) ) a je evidentně složena z řádků xi (β1(j) , β2(j) , . . . , βp(j) (j) ) ∈ Rp(j) , dostaneme Y(j) = X (j) β(j) + E(j) , j = 1, 2, . . . , M. , a konečně β(j) = (157) Přirozeně budeme předpokládat zobecněnı́ Podmı́nek A, tj. jako obvykle n IE E(j) = 0 ale navı́c a n IE IE o T 2 E(j) E(j) = σjj I, (158) o T 2 E(j) E(k) = σjk I. (159) Znamená to tedy, že nadále předpokládáme, že náhodné fluktuace pro různé řádky jsou nezávislé, a to jak uvnitř jednoho modelu, např. j-tého (viz (158)), tak pro různé modely, např. j-tý a ktý, zatı́mco fluktuace ve stejném řádku pro různé modely majı́ obecně nenulovou korelaci (viz (159)). Zavedený formalizmus je na prvnı́ pohled poněkud zvláštnı́ a nejednotný, co se týká vysvětlované a vysvětlujı́cı́ proměnné. V paragrafu věnovanému simultánı́m rovnicı́m se pak ukáže, proč byl zvolen právě takto. Pro studium simultánı́ch rovnic budeme totiž potřebovat složitějšı́ formalizmus a bylo by proto nelogické, abychom se pro každý dalšı́ odstavec učili novému označenı́, nekonzistentnı́mu s tı́m z odstavce předchozı́ho. Proto bylo již nynı́ zavedeno 145 označenı́, které, po malém doplněnı́, bude vyhovovat i pro dalšı́ výklad. Navı́c takto snadněji ověřı́me, že systém zdánlivě nesouvisejı́cı́ch rovnic je opravdu speciálnı́m přı́padem systému simultánı́ch rovnic. ³ ´−1 Opět snadno ověřı́me, že “naivnı́” odhad β̂(j) = [X (j) ]T X (j) [X (j) ]T Y(j) , je nestranný ³ IE β̂(j) = [X (j) ]T X (j) ´−1 [X (j) ]T X (j) β(j) = β(j) a vzhledem k tomu, že ³ β̂(j) = β(j) + β̂(j) − β(j) = β(j) + [X (j) ]T X (j) µ ´−1 ³ [X (j) ]T Y(j) − X (j) β(j) ´ ¶ 1 (j) T (j) −1 1 (j) T [X ] X [X ] E(j) , (160) n n vidı́me, že si tento odhad podržı́ i konsistenci. Jediným problémem je tedy eficience. Přirozeně, že nás napadne přepsat maticový model (157) do jakési “supermaticové” podoby a použı́t Aitkenova odhadu. Dostaneme = β(j) + Y(1) Y(2) .. . = Y(M ) X (1) 0 ... 0 0 X (2) . . . 0 .. .. .. . . . 0 0 . . . X (M ) β(1) β(2) · . . . E(1) E(2) .. . + β(M ) . E(M ) Jestliže se tedy přidržı́me “nápovědy”, kterou poskytuje právě uvedený zápis a označı́me-li T , Y T , . . . , Y T )T ∈ RM ·n , X blokovou matici, která má na diagonále bloky X (j) , j = Y = (Y(1) (2) (M ) 1, 2, . . . , M (tj. je typu (n · M × PM PM j=1 p(j) ) ), za vektor regresnı́ch koeficientů vezmeme β 0 = p T , β T , . . . , β T )T ∈ R j=1 (j) a konečně pak pro náhodné fluktuace budeme psát E = (β(1) (2) (M ) T , E T , . . . , E T )T ∈ RM ·n , dostaneme opět model (E(1) (2) (M ) Y = Xβ 0 + E stejně jako v (4). Na rozdı́l od (4) však nynı́ i = 1, 2, . . . , M · n a kovariančnı́ matice nenı́ diagonálnı́, ale n IE T E(1) E(1) o n o n o IE E E T (2) (1) Σ = IE E · E T = .. . n o T E(M ) E(1) IE 2 I σ11 2 σ I 21 = .. . n T E(1) E(2) IE n IE n IE T E(2) E(2) .. . o n ... o T E(M ) E(2) 2 I σ12 ... 2 I σ1M 2 I σ22 .. . ... 2 I σ2M .. . IE T E(1) E(M ) o o T IE E(2) E(M ) .. . n o n ... o . . . IE T E(M ) E(M ) . 2 I σ2 I . . . σ2 σM MM I M2 1 Abychom se snadněji zorientovali v této nové problematice, věnujme se nejprve jednoduchému přı́kladu, kdy M = 2 a X (1) = X (2) . Pro ten máme " Σ= 2 I σ2 I σ11 12 2 I σ2 I σ21 22 146 # . Označme " σ (11) σ (12) σ (21) σ (22) # " inverznı́ maticı́ k " Znásobenı́m matic se snadno ověřı́, že potom je matice 2 2 σ11 σ12 # 2 2 σ21 σ22 σ (1,1) I σ (1,2) I σ (2,1) I σ (2,2) I . # inverznı́ k matici Σ. Potom (dı́ky tomu, že X (1) = X (2) ) X T Σ−1 X = = T X (1) 0 0 X (1) σ (11) X (1)T σ (12) X (1)T σ (21) X (1)T σ (22) X (1)T · · σ (11) I σ (12) I σ (21) I σ (22) I X (1) 0 0 X (1) = · X (1) 0 0 X (1) σ (11) X (1)T X (1) σ (12) X (1)T X (2) σ (21) X (1)T X (1) σ (22) X (1)T X (1) . Konečně tedy β̂ (LS,n) = σ (11) X (1)T X (1) σ (12) X (1)T X (1) σ (21) X (1)T X (1) σ (22) X (1)T X (1) −1 · σ (11) X (1)T Y (1) + σ (12) X (1)T Y (2) σ (21) X (1)T Y (1) + σ (22) X (1)T Y (2) . Rozdělme β̂ (LS,n) na dva stejně velké bloky β̂ (1) a β̂ (2) . Dostaneme normálnı́ rovnice σ (11) X (1)T X (1) β̂ (1) + σ (12) X (1)T X (1) β̂ (2) = σ (11) X (1)T Y(1) + σ (12) X (1)T Y(2) a σ (21) X (1)T X (1) β̂ (1) + σ (22) X (1)T X (1) β̂ (2) = σ (12) X (1)T Y(1) + σ (22) X (1)T Y(2) . Po jednoduché úpravě, totiž znásobenı́ druhé rovnice čı́slem [σ (22) ]−1 · σ (12) a sečtenı́ s prvnı́, dostaneme ! à ! à (12) ]2 (12) ]2 [σ [σ X (1)T X (1) β̂ (1) = σ (11) − (22) X (1)T Y(1) , σ (11) − (22) σ σ tj. ³ ´−1 ³ ´−1 β̂ (1) = X (1)T X (1) X (1)T Y(1) . Stejně tak pro β̂ (2) nalezneme β̂ (2) = X (2)T X (2) X (2)T Y(2) . Zjistili jsme tedy, že pro tento jednoduchý přı́pad jsou “obyčejné” odhady nejmenšı́ch čtverců shodné s Aitkenovým odhadem. Jestliže však matice plánu pro jednotlivé modely nejsou totožné, nezbývá než jednotlivé parametry kovariančnı́ matice Σ odhadnout. Vzhledem k tomu, že jsme předpokládali, že máme 2 je kovariancı́ náhodných pro každý model n pozorovánı́, je to proveditelné. Připomeňme, že σjk fluktuacı́ z j-té a k-té rovnice v (156). Tuto kovarianci můžeme odhadnout napřı́klad statistikou 2 σ̂jk = n 1 X (j) (k) ri (β̂(j) )ri (β̂(k) ), ∗ n − p i=1 147 n o (`) (`)T kde jsme označili p∗ = max p(j) , p(k) a ri (β̂(`) ) = Yi(`) − Xi 2 I σ̂11 2 σ̂ I Σ̂ = 21. .. 2 I σ̂12 ... 2 I σ̂1M 2 I σ̂22 .. . ... 2 I σ̂2M .. . · β̂(`) . Potom položı́me 2 I σ̂ 2 I . . . σ̂ 2 σ̂M 1 M2 MM I a konečně ³ ˆ β̂ (LS,n) = X T Σ̂−1 X ´−1 X T Σ̂−1 Y. V monografii Kmenta (1986) se lze přesvědčit, že tento dvoustupňový odhad metodou nejmenšı́ch čtverců je asymptoticky ekvivalentnı́ maximálně věrohodnému odhadu při předpokladu normality fluktuacı́ . Maximálně věrohodný odhad přirozeně představuje alternativu k nejmenšı́m čtvercům. Vzhledem k tomu, že věrohodnostnı́ funkce má tvar L=− 1 1 n·M log(2π) − log|Σ| − (Y − Xβ)T Σ−1 (Y − Xβ), 2 2 2 (kde opět |Σ| označuje determinant matice Σ), dostaneme µ β̂ (M L,n) a = X T h (M L,n) Σ̂ Σ̂(M L,n) = 2 I σ̃11 2 I σ̃21 .. . i−1 ¶−1 X 2 I σ̃12 2 I σ̃22 .. . h X T Σ̂(M L,n) ... ... 2 I σ̃1M 2 I σ̃2M .. . i−1 Y , 2 I σ̃ 2 I . . . σ̃ 2 σ̃M 1 M2 MM I kde ´ ³ ´ 1³ (M L,n) T (M L,n) Y(j) − x(j) β̂(j) Y(k) − x(k) β̂(k) , j, k = 1, 2, . . . , M. n (Diskuzi k tomuto postupu lze nalézt v Judge a kol. (1980) nebo Kmenta (1986).) 2 σ̃jk = 9.2 Simultánı́ rovnice Pro výklad simultánı́ch rovnic (simultaneous equations) budeme potřebovat poněkud rozšı́řit dosud zavedená označenı́. Připomeňme, že jsme všechny vektory uvažovali jako sloupcové a proto jsme pro skalárnı́ součin i-tého řádku matice plánu X a vektoru regresnı́ch koeficientů psali xTi β, nebot’ jsme i-tý řádek matice plánu (po “vytrženı́” z matice) považovali za sloupcový vektor. Pro obecnou matici A typu m×q budeme tedy jejı́ i-tý řádek označovat tak jak jsme jej dosud označovali, totiž Ai , přı́padně ai , pokud A je nenáhodná, Ai , ai ∈ Rq , a jejı́ j-tý sloupec A(j) tj. vektor z Rm , což jsme dosud nepotřebovali, ale v předchozı́m odstavci jsme označenı́ konsistentnı́ s tı́mto vlastně již zavedli a použı́vali, viz (157). Podobné označenı́ podržı́me i pro vektory v přı́padě, kdy β(j) bude označovat vektor regresnı́ch koeficientů v j-tém regresnı́m modelu v nějaké soustavě modelů (viz opět (157) ). Konečně pak budeme symbolem β{j} označovat vektor, který vznikne z vektoru β(j) po vyjmutı́ j-té souřadnice. Zbývá zavést označenı́ pro matici, ze které vyjmeme j-tý sloupec. Připomı́náme, že jsme výše, v kapitole věnované vlivu jednoho pozorovánı́, označovali matici, která vznikne z matice A 148 po vyjmutı́ `-tého řádku symbolem A{ ` } . Označı́me tedy matici, ze které vyjmeme `-tý sloupec symbolem A{|`|} . Zavedené označenı́ je patrně dosti názorné a snadno zapamatovatelné, přesto v dalšı́m textu občas připomeneme, co který symbol znamená. Přidržme se osvědčeného pedagogického pravidla, že nejnázorněji se nová teorie, jejı́ motivace a postupy, osvětlı́ přı́kladem. Necht’ tedy Q, P, X označuje postupně rovnovážné vyměňované množstvı́ zbožı́, jeho rovnovážnou cenu a důchod (přı́jem) spotřebitelů a sestavme poptávkovou a nabı́dkovou rovnici Q = f1 (P, X) (poptávka) Q = f2 (P ) (nabı́dka). a Navı́c snadno akceptovatelná představa, že poptávka klesá s rostoucı́ cenou a roste s rostoucı́mi 1 důchody, a podobně, že nabı́dka roste s rostoucı́ cenou, napovı́dá, že lze očekávat, že ∂f ∂P ≤ ∂f2 1 0, ∂f ∂X ≥ 0 a ∂P ≤ 0. Za f1 a f2 lze přirozeně zvolit (téměř libovolnou) hladkou funkci, avšak pro jednoduchost ukážeme řešenı́ pouze pro lineárnı́ funkce. Nenı́ snad však třeba se ani pouštět do diskuze o tom, že přinejmenšı́m zobecněnı́ na polynomiálnı́ funkce f1 a f2 by bylo v podstatě přı́močaré. Pro lineárnı́ funkce f1 a f2 , dostaneme pro i = 1, 2, . . . , n Qi = β11 + γ11 Pi + β12 Xi + Ei1 (poptávka) (161) a Qi = β21 + γ21 Pi + Ei2 (nabı́dka). (162) Vzhledem k tomu, co bylo výše uvedeno o parciálnı́ch derivacı́ch, mělo by po odhadnutı́ koeficientů vyjı́t γ̂11 ≤ 0, β̂12 ≥ 0 a γ̂21 ≥ 0. Důvodem toho, proč jsme zvolili označenı́ koeficientů v (161) a (162) na prvnı́ pohled trochu zvláštně, je zachovánı́ konsistence s nı́že použı́vaným značenı́m v obecném tvaru simultánı́ch rovnic. Předpokládejme, že pro náhodné fluktuace, které jsou nynı́ reprezentovány dvourozměrnými vektory {Ei }∞ i=1 ) platı́ · IE Ei = IE Ei1 Ei2 ¸ · = 0 0 ¸ n a IE Ei · EiT " o = 2 2 σ11 σ12 2 2 σ12 σ22 # . (163) Rovnice (161) a (162) byly, právě tak jako rovnice v kterémkoliv složitějšı́m systému simultánı́ch rovnic budou, sestaveny na základě našı́ představy o jakýchsi kauzálnı́ch souvislostech, byt’ tyto představy, když je podrobı́me trochu fundovanějšı́ filosofické kritice, co se týká kauzality, se mohou ukázat jako neudržitelné, zejména proto, že sám pojem kauzality utrpěl v poslednı́ch několika desetiletı́ch vážné trhliny. Pokud si však nebudeme namlouvat, ostatně obvykle mylně, že modelem (161) a (162) cosi “objektivně” vysvětlujeme, ale, podobně jako je tomu při jiném modelovánı́, spokojı́me se s tı́m, že se nám podařı́ najı́t fungujı́cı́, tj. predikce schopný model, je konec konců jedno, jak jsme k němu dospěli. Zdá se přirozené, že rovnovážné vyměňované množstvı́ zbožı́ Q a jeho rovnovážnou cenu P budeme uvažovat jako vysvětlované proměnné a důchod spotřebitelů X za vysvětlujı́cı́ proměnnou. Samozřejmě, že se budeme snažit dostat soustavu regresnı́ch rovnic, z nichž každá bude jednı́m regresnı́m modelem, tak jak jsme tento 149 model dosud studovali. Za tı́m účelem budeme muset soustavu (161) a (162) přepočı́tat tak, aby vysvětlované proměnné byly na levé straně a vysvětlujı́cı́ na pravé. Nakonec dostaneme Qi = γ11 β21 − β11 γ21 −γ21 Ei1 + γ11 Ei2 β12 γ21 − Xi + γ11 − γ21 γ11 − γ21 γ11 − γ21 (164) β12 −Ei1 + Ei2 −β11 + β21 − Xi + . γ11 − γ21 γ11 − γ21 γ11 − γ21 (165) a Pi = Soustava rovnic (161) a (162) (a také (164) a (165)) je označována jako systém simultánı́ch rovnic (z ihned patrného důvodu), přičemž o rovnicı́ch (161) a (162) obvykle mluvı́me jako o strukturálnı́ch na rozdı́l od (164) a (165), o nichž často řı́káme, že jsou v redukovaném tvaru. Často však mluvı́me přı́mo o redukovaných rovnicı́ch. Vztahy (164) a (165) nám napomohou se snadno přesvědčit o tom, že cena P a náhodné fluktuace E nejsou nezávislé. Dostaneme totiž IE {Pi Ei1 } = 2 + σ2 −σ11 12 γ11 − γ21 pro i = 1, 2, . . . , n IE {Pi Ei2 } = 2 + σ2 −σ12 22 γ11 − γ21 pro i = 1, 2, . . . , n. a To indikuje, že pokud bychom odhadli γ11 , γ21 a β11 , β12 , β21 z (161) a (162), nebudou tyto odhady konsistentnı́, a obecně ani nestranné. Připomeňme, že v odstavci věnovaném instrumentálnı́m proměnným jsme ukázali, proč tomu tak je. Na druhé straně pokud odhadneme regresnı́ koeficienty v systému redukovaných rovnic, dostaneme nestranné a konsistentnı́ odhady. Snadno ověřı́me, že koeficienty z redukovaných rovnic a koeficienty ze struktyrálnı́ch rovnic jsou svázány vztahy π11 = γ11 β21 − β11 γ21 , γ11 − γ21 π21 = π12 = − −β11 + β21 γ11 − γ21 a π22 = − β12 γ21 , γ11 − γ21 β12 . γ11 − γ21 (166) (167) To znamená, že se můžeme pokusit přepočı́tat nestranné a konsistentnı́ odhady koeficientů πij na koeficienty βij a γij . Přirozeně, že se to nemusı́ vždy podařit. Bude totiž záležet na počtu těch a oněch koeficientů, přı́padně na hodnosti přı́slušného systému rovnic. Spočteme-li ale kovarianci mezi náhodnými fluktuacemi z rovnice (164) a (165), dostaneme ½ IE −Ei1 + Ei2 −γ21 Ei1 + γ11 Ei2 · γ11 − γ21 γ11 − γ21 ¾ = 2 γ − σ 2 (γ − γ ) + γ σ 2 σ1,1 21 21 11 2,2 1,2 11 . (γ11 − γ21 )2 To napovı́dá, že pokud použijeme běžný odhad nejmenšı́ch čtverců, odhad koeficietů π nebude eficientnı́. Chceme-li tedy dosáhnout eficientnı́ch odhadů, musı́me pro odhad koeficientů v (164) a (165) použı́t Aitkenova odhadu. Zkusı́me nynı́ nahlédnout situaci při odhadovánı́ koeficientů ve strukturálnı́ch rovnicı́ch obecně. Na právě uvedený přı́klad se budeme odkazovat jako na ilustraci. Je zřejmé, že lze simultánı́ rovnice psát obecně ve tvaru (strukturálnı́ forma) γg1 Yi1 + γg2 Yi2 + . . . + γgG YiG + βg1 xi1 + βg2 xi2 + . . . + βgp xip = Eig , 150 (168) kde g = 1, 2, . . . , G a i = 1, 2, . . . , n, přičemž {Ei }∞ i=1 je posloupnost nezávislých stejně rozdělených G-rozměrných vektorů, jejichž rozdělenı́ je N (0, Σ) se 2 σ11 σ2 Σ = .21 .. 2 σ12 ... 2 σ1G 2 σ22 .. . ... 2 σ2G .. . . 2 2 2 σG1 σG2 . . . σGG Nynı́ je možné nahlédnout, že jsme zvolili indexy koeficientů v rovnicı́ch (161) a (162) tak, aby to vyhovovalo nynı́ probı́ranému obecnějšı́mu přı́kladu. Uvědomme si prosı́m, že, jak jsme výše poznamenali, sestavujeme obvykle jednotlivé rovnice simultánı́ho systému tak, aby odpovı́dali našim představám o kauzálnı́ch, at’ už čistě deterministických či částečně náhodných, souvislostech. Jinými slovy to znamená, že systém rovnic ve strukturálnı́m tvaru sestavujeme obvykle (vždy ?) pro jednu z vysvětlovaných proměnných Y(g) = (Y1g , Y2g , . . . , Yng )T , g = 1, 2, . . . , M. (169) Proto lze bez újmy na obecnost předpokládat, že tato veličina vstupuje do této rovnice s koeficientem 1, tj. např. máme γgg = 1. Odtud plyne, že v každé ze strukturálnı́ch rovnic odhadujeme (nejvýše) G − 1 + p parametrů. V našem přı́kladě je G = 2 a p = 2 (nesmı́me zapomenout na absolutnı́ člen), a protože je γ12 = −1, γ22 = −1 a β22 = 0, máme v prvé rovnici G − 1 + p = 2 − 1 + 2 = 3 = počet odhadovaných koeficientů a ve druhé 3 > 2 = počet odhadovaných koeficientů. Dohromady však v prvé a druhé rovnici budeme odhadovat 5 parametrů, zatı́mco z redukovaných rovnic budeme mı́t pouze 4 údaje a čtyři vztahy pro koeficienty, viz (166) a (167). Odtud je zřejmé, že koeficienty βij a γij ze strukturálnı́ch rovnic (161) a (162) nebudou jednoznačně určeny. Později provedeme tuto úvahu pro obecnou soustavu rovnic. Nejprve si však na obecné úrovni ujasněme vztahy mezi koeficienty ze strukturálnı́ch a redukovaných rovnic. Přepišme rovnice (168) do maticového tvaru ΓYi + Bxi = Ei , (170) kde Γ= γ11 γ21 .. . γ12 γ22 .. . ... ... γ1G γ2G .. . a B= γG1 γG2 . . . γGG β11 β21 .. . β12 β22 .. . ... ... β1p β2p .. . , βG1 βG2 . . . βGp a dále jsme označili Yi = (Yi1 , Yi2 , . . . , YiG )T , xi = (xi1 , xi2 , . . . , xip )T a Ei = (Ei1 , Ei2 , . . . , EiG )T . V dalšı́m výkladu mějme na paměti, že Γ a B jsou typu (G × G) a (G × p). Položı́me-li n Y = YiT n on i=1 což je matice typu (n × G), a jako obvykle X = xTi n a konečně E = EiT on i=1 , on i=1 (171) , (stejně jako výše matice typu (n × p)) (opět matice typu (n × G)), dostaneme Y · ΓT + X · B T = E. 151 (172) Ze vztahu (170) je vidět, že můžeme psát redukovaný tvar simultánı́ch rovnic také následovně. Yi = Πxi + Vi = −Γ−1 Bxi + Γ−1 Ei , i = 1, 2, . . . , n. (173) Matice Π je typu (G × p), Vi ∈ RG a platı́ Π = −Γ−1 B, a Vi = −Γ−1 Ei . (174) Pro koeficienty πij se obvykle užı́vá označenı́ neomezené, ve smyslu anglického slova unrestricted, , zatı́mco koeficienty γij a βij se označujı́ jako omezené (restricted). Přirozeně, že i redukovaný systém rovnic lze napsat ve zcela “čisté” maticové podobě, podobně jako tomu bylo u strukturálnı́ho tvaru simultánı́ch rovnic, viz (172). Dostaneme rovnice Y = X · ΠT + V, (175) n kde matice Y je zadána v (171), matice X je běžná matice plánu a V = ViT on i=1 . Podle toho, jakého je matice Γ typu, se v ekonometrické literatuře rozlišujı́ typy soustav rovnic: Γ Γ Γ - diagonálnı́ blok-diagonálnı́ triangulárnı́ −→ −→ −→ Γ Γ - blok-triangulárnı́ úplná (obecná) matice −→ −→ 9.2.1 zdánlivě nesouvisejı́cı́ rovnice, neintegrovaná struktura, (nonintegrated structure), triangulárnı́ (trojúhelnı́ková) struktura rekursivnı́ systém rovnic, blok-triangulárnı́ struktura, integrovaná struktura (general interdependent system). Problém identifikace Jak už jsme naznačili výše, poté co spočteme z redukovaného tvaru simultánı́ch rovnic odhady koeficientů π, rádi bychom je převedli na odhady koeficientů γ a β, nebot’ pro ty máme obvykle ekonomickou interpretaci. A jak jsme také výše viděli, je otázka, zda je to možné. Ze vztahu (174) doslova spočteme, že obecně máme G2 +G·p koeficientů γ a β a jen G·p koeficientů π . Vzhledem k tomu, že však ze strukturálnı́ho tvaru simultánı́ch rovnic může být apriori zřejmé, že některé γ a β jsou nulové, může dojı́t k situaci, že transformace z π na γ a β bude jednoznačná. V takovém přı́padě, tj. když je vazba mezi π na jedné straně a γ a β na straně druhé jednoznačná, mluvı́me o přesné identifikaci. Je-li počet koeficientů γ a β menšı́ než počet koeficientů π, řı́káme, že došlo k přeurčenı́, v opačném přı́padě, kdy je méně koeficientů π než koeficientů γ a β, mluvı́me o podurčenı́. Často se v literatuře použı́vá tato terminologie i v přı́padě, kdy mluvı́me o jedné ze simultánı́ch rovnic. O celé soustavě pak řı́káme, že je identifikovaná, pokud nastala přesná identifikace nebo došlo k přeurčenı́. Obecně jsme nalezli vztah mezi mezi koeficienty π na jedné straně a γ a β na straně druhé ve vztahu (174), který v dalšı́m výkladu použijeme k analýze identifikovanosti koeficientů γ a β. Ještě jednou se vrat’me k našemu přı́kladu ze začátku tohoto odstavce, nebot’ ten nám napovı́, jak postupovat v obecné situaci. Výše jsme uvedli vztahy, vyjadřujı́cı́ koeficienty π pomoci korficientů β a γ, (viz (153) a (167)). Ty bychom mohli převést na vztahy, vyjadřujı́cı́ koeficienty β a γ pomoci korficientů π. 152 Alternatı́vnı́ možnost je přirozeně odvodit ze simultánı́ch rovnic takové vztahy přı́mo. Vrátı́me-li se k redukovaným rovnicı́m (164) a (165) a přepı́šeme-li je do tvaru Qi = π11 + π12 Xi + V1i a Pi = π21 + π22 Xi + V2i , a konečně pak dosadı́me-li z nich do (161) a (162), dostaneme π11 + π12 Xi + V1i = β11 + γ11 (π21 + π22 Xi + V2i ) + β12 Xi + E1i (poptávka) (176) (nabı́dka). (177) a π11 + π12 Xi + V1i = β21 + γ21 (π21 + π22 Xi + V2i ) + E2i Porovnánı́m koeficientů u přı́slušných proměnných dostaneme π11 = β11 + γ11 π21 a π12 = γ11 π22 + β12 (178) π12 = γ21 π22 . (179) a π11 = β21 + γ21 π21 a Tı́mto postupem nakonec zı́skáme vztahy β21 = π11 − π12 π21 π22 a γ21 = π12 , π22 (180) což znamená, že koeficienty γ a β nabı́dkové rovnice jsou přesně určeny koeficienty π. Pro koeficienty poptávkové rovniceβ11 , β12 a γ11 analogicky zjistı́me, že nejsou jednoznačně určeny koeficienty π, tj. poptávková rovnice je podurčena (později si ukážeme, jak lze tuto situaci řešit). Nynı́ se již pust’me do analýzy obecného systému simultánı́ch rovnic. Z (174) plyne vztah ΓΠ = −B, tj. γ11 γ21 .. . γ12 γ22 .. . ... ... γ1G γ2G .. . γG1 γG2 . . . γGG · π11 π21 .. . π12 π22 .. . ... ... π1p π2p .. . πG1 πG2 . . . πGp = − β11 β21 .. . β12 β22 .. . ... ... β1p β2p .. . . βG1 βG2 . . . βGp Pro g = 1, 2, . . . , G postupně označme γ(g) = (γg1 , γg2 , . . . , γgG )T a β(g) = (βg1 , βg2 , . . . , βgp )T . Pak máme T T γ(g) Π = −β(g) . Abychom zjednodušili analýzu identifikovanosti koeficientů γ a β zaved’me ještě toto označenı́: 8 proměnných v g-té rovnici, tj. počet nenulových koefiG∆ g necht’ označuje počet endogenı́ch ∗ = G − G∆ cientů γ v g-té rovnici a G∆∆ g . Podobně necht’ pg necht’ je rovno počtu exogenı́ch g 8 Endogenı́ a exogenı́ veličiny byly zavedeny v úvodu skript a krátce řečeno: endogenı́ jsou ty, které jsou modelem určovány, vysvětlovány, a exogenı́ jsou pak ty, které do modelu vstupujı́ z vnějšku. 153 (tj. předdeterminovaných) proměnných v g-té rovnici, které majı́ nenulový koeficient, tj. počet ∗ nenulových β v g-té rovnici, a p∗∗ g = p − pg . Věnujme se nynı́ jedné, řekněme g-té simultánı́ rovnici. Bez ztráty obecnosti předpokládejme, že jsme přerovnali souřadnice vektorů γ(g) a β(g) T = (γ T , 0T a řádky matice Π, že γ(g) g∆ g∆∆ ), kde dolnı́ indexy u γg∆ a 0g∆∆ napovı́dajı́, že tyto ∆ ∆∆ T = (β T , 0T ) je rozdělen na úseky o p∗ a p∗∗ vektory majı́ Gg a Gg souřadnic. Podobně β(g) g∗ g∗∗ g g souřadnicı́ch. Nakonec rozdělme matici Π na bloky · Π= Potom platı́ · T (γg∆ , 0Tg∆∆ ) · Π∆∗ Π∆∗∗ Π∆∆∗ Π∆∆∗∗ Π∆∗ Π∆∗∗ Π∆∆∗ Π∆∆∗∗ ¸ . ¸ T = −(βg∗ , 0Tg∗∗ ). Přepı́šeme-li poslednı́ vztah “po řádcı́ch”, dostaneme T T γg∆ Π∆∗ = −βg∗ (181) T γg∆ Π∆∗∗ = 0Tg∗∗ . (182) a Tyto vztahy napovı́dajı́, že pokud bude vztah (182) určovat právě všechny koeficienty γ, pak je budeme moci dosadit do rovnic (181), kterých je právě tolik, kolik je koeficientů β, a budeme hotovi. Již výše jsme ukázali, že je přijatelné předpokládat, že jedno γ je v každé rovnici rovno ∗∗ ∆ 1, tj. máme G∆ g − 1 koeficientů γ v g-té rovnici. Pak je tedy nutné, aby pg ≥ Gg − 1. Tomuto se obvykle řı́ká podmı́nka na počet parametrů. To znamená, že k tomu, aby (181) jednoznačně ∗∗ ∆ určovalo γg∆ , je třeba, aby matice Π∆∗∗ , která je typu (G∆ g − 1 × pg ), měla hodnost Gg − 1, ∆ což lze splnit, pokud je p∗∗ g ≥ Gg − 1. Tomuto se řı́ká podmı́nka na hodnost. Dokončı́me-li právě provedené úvahy pro všechny eventuality, dostaneme tabulku Tabulka 17 Vzájemné vztahy počtů koeficientů γ, hodnosti matice Π∆∗∗ a identifikovanosti koeficientů γ a β. ∆ p∗∗ g > Gg − 1 rank(Π∆∗∗ ) = G∆ g −1 přeurčenı́ ∆ p∗∗ g = Gg − 1 rank(Π∆∗∗ ) = G∆ g −1 přesná identifikace ∆ p∗∗ g ≥ Gg − 1 rank(Π∆∗∗ ) < G∆ g −1 podurčenı́ ∆ p∗∗ g < Gg − 1 rank(Π∆∗∗ ) libovolný podurčenı́ Zkusme vztahy zachycené v této tabulce aplikovat na náš přı́klad. V něm vystupujı́ dvě endogenı́ veličiny, rovnovážné vyměňované množstvı́ zbožı́ Q a jeho rovnovážná cenu P , a rovněž dvě exogenı́, absolutnı́ člen a důchod spotřebitelů X. Pro rovnici (161), ve které majı́ obě endogenı́ právě tak jako obě exogenı́ veličiny (obecně) nenulové koeficienty, tedy máme G∆ 1 −1 = 1 a ∗ ∗∗ ∆ ∗∗ p = 2, neboli p = 0. To znamená, že G1 − 1 > p a z Tabulky 2 pak plyne, že prvnı́ rovnice (tj. poptávka) je podurčená. Nenı́ přirozeně ani třeba zjišt’ovat hodnost matice Π∆∗∗ . Pro rovnici 154 ∗ ∗∗ (162) máme opět G∆ 2 − 1 = 1, ale p2 = 1, nebot’ Y v rovnici nevystupuje, neboli p2 = 1. Nynı́ ovšem potřebujeme nalézt hodnost matice Π∆∗∗ . Matice Π vypadá takto · Π= π11 π12 π21 π22 ¸ = £ Π∆∗ Π∆∗∗ ¤ , ∗ přičemž připomeňme, že G∆ 2 − 1 = 1 a p2 = 1. Je zřejmé, že matice Π∆∗ má hodnost 1 a tedy ∆ rank(Π∆∗ ) = p∗∗ 2 = G2 − 1, což znamená, že rovnice (162) je přesně identifikována. Specifikace obecných výsledků tedy vedla ke stejným závěrům jako výše provedená analýza pro náš konkrétnı́ přı́klad. 9.2.2 Identifikace pomocı́ omezenı́ na kovariančnı́ matici náhodných fluktuacı́ Výše uvedená analýza ukazuje, že mohou nastat v podstatě dva přı́pady. Bud’ jsou koeficienty β a γ jednoznačně určeny koeficienty π (což zahrnuje i přı́pad přeurčenı́) nebo ne. V přı́padě, že dojde k podurčenı́ koeficientů β a γ, napadne nás, zda by nebylo možné zvolit dodatečně např. nějaká dalšı́ omezenı́ na koeficienty, přı́padně zadat nějaké dalšı́ vztahy mezi přı́slušnými veličinami tak, abychom dosáhli identifikace. Ukázku toho, jak to udělat si předvedeme na našem přı́kladě, ve kterém stanovı́me dodatečnou podmı́nku nekorelovanosti náhodných fluktuacı́ v rovnicı́ch (161) a (162), tj. IE Ei1 Ei2 = 0. Výše jsme nalezli vzájemný vztah koeficientů γ a β ze strukturálnı́ch rovnic (161) a (162) a koeficientů π z redukovaných rovnic (164) a (165) π11 = β11 + γ11 π21 a π12 = γ11 π22 + β12 (183) π12 = γ21 π22 . (184) a π11 = β21 + γ21 π21 a K těmto vztahům přidáme tedy požadavek nekorelovanosti šumu. Ze vztahů (164) a (165) máme Vi1 = −γ21 Ei1 + γ11 Ei2 γ11 − γ21 a Vi2 = −Ei1 + Ei2 . γ11 − γ21 (185) Z (163) nynı́ plyne, že pro i = 1, 2, . . . , n IE Vi1 = 0 a IE Vi2 = 0 (186) Označme ještě 2 cov(Vij , Vik ) = σ(V )jk . (187) 2 Hodnoty kovariancı́ σ(V )jk můžeme odhadnout z reziduı́ po aplikaci např. nejmenšı́ch čtverců na 2 redukované rovnice (164) a (165). Označme tyto odhady jako σ̂(V )jk . Ze vztahu (185) nalezneme Ei1 = Vi1 − γ11 Vi2 a Ei2 = Vi1 − γ21 Vi2 , což znamená, že dodatečně stanovená podmı́nka má tvar IE (Vi1 − γ11 Vi2 ) (Vi1 − γ21 Vi2 ) = 0 155 a tedy 2 2 2 2 σ(V )11 − γ11 σ(V )12 − γ21 σ(V )21 + γ11 γ21 σ(V )22 = 0. Konečně pak ze vztahu (180) plyne γ21 = a tedy pro γ11 máme γ11 = π12 π22 2 2 π12 σ(V )12 − π22 σ(V )11 2 2 π12 σ(V )22 − π22 σ(V )12 . Dospěli jsme tedy k závěru, že pro výpočet koeficientů β a γ v poptávkové rovnici (viz (161)) z koeficientů π je třeba řešit soustavu rovnic β11 = π11 − γ11 π21 , β21 = π11 − γ21 π21 (tyto vztahy plynou z levých rovnostı́ v (183) a (184) ) a γ11 = 2 2 π12 σ̂(V )12 − π22 σ̂(V )11 2 2 π12 σ̂(V )22 − π22 σ̂(V )12 . Vidı́me, že všechny koeficienty jsou již nynı́ přesně identifikovány. 9.2.3 Dvoustupňový odhad metodou nejmenšı́ch čtverců Dřı́ve než se pustı́me do vlastnı́ho výkladu dvoustupňového odhadu, připomeňme, že jsme výše pro g-tý sloupec matice Y (viz (171) a (172)) ) zavedli označenı́ Y(g) , tj. Y(g) = (Y1g , Y2g , . . . , Yng )T (g = 1, 2, . . . , G) (viz (169)) a podobně pro g-tý sloupec matice E (viz opět (172) ) E(g) . Položme ještě γ(g) = (γg1 , γg2 , . . . , γgG )T a β(g) = (βg1 , βg2 , . . . , βgp )T . Toto označenı́ vektorů regresnı́ch koeficientů γ a β je ostatně ve shodě s označenı́m použı́vaným v celých skriptech, pouze přibyl index naznačujı́cı́ čı́slo simultánı́ rovnice. Konečně pak označme Y {|g|} (pro g = 1, 2, . . . , G) matici, jejı́ž i-tý řádek je roven Yi1 , Yi2 , . . . , Yi,g−1 , Yi,g+1 , . . . , YiG (kde jsme, tak jak jsme to výše slibovali, použili “čárku” mezi indexy, abychom předešli přı́padnému nedorozuměnı́), tj. matice Y {|g|} se dostane z matice Y (viz opět (171) ) vypuštěnı́m g-tého sloupce. Konečně pak připomeňme, že jsme uvedli, že symbolem γ{g} budeme označovat vektor, který dostaneme z vektoru γ(g) po vypuštěnı́ g-té souřadnice, tj. γ{g} = (γg1 , γg2 , . . . , γg,g−1 , γg,g+1 , . . . , γgG )T . Ještě připomeňme, že jsme předpokládali, že v každé simultánı́ rovnici je jeden koeficient γ roven 1. Snadno se nahlédne, že tento předpoklad neubı́rá na obecnosti našim úvahám, nebot’ pokud by tomu tak nebylo prostě bychom jednı́m koeficientem γ celou rovnici vydělili. Můžeme tedy předpokládat, že γgg = 1. Uvědomme si, že to současně znamená, že potřebujeme odhadnout jenom γ{g} a β(g) (pro g = 1, 2, . . . , G). Nynı́ se již pust’me do výkladu dvojstupňového odhadu koeficientů. Nejprve se vrat’me zpátky ke vztahu (168), tj. k obecnému tvaru simultánı́ch rovnic γg1 Yi1 + γg2 Yi2 + . . . + γgG YiG + βg1 xi1 + βg2 xi2 + . . . + βgp xip = Eig , opět pro g = 1, 2, . . . , G a i = 1, 2, . . . , n. Uvažujme prvnı́ rovnici. Jak jsme již výše konstaovali, můžeme předpokládat, že γ11 = 1. To znamená, že můžeme tuto rovnici psát s pomocı́ označenı́, která jsme právě zavedli, ve tvaru Y(1) + Y {|1|} · γ{1} + X · β(1) = E(1) . 156 (188) Analogicky jako pro vektory regresnı́ch koeficientů γ a β, označme π(g) = (πg1 , πg2 , . . . , πgp )T , g = 1, 2, . . . , G a V(g) g-tý sloupec matice V (viz (175) ). Rovnice (175) ted’ můžeme převést na tvar (Y(1) , Y(2) , . . . , Y(G) ) = X · (π(1) , π(2) , . . . , π(G) ) + (V(1) , V(2) , . . . , V(G) ) (189) přı́padně Y(g) = X · π(g) + V(g) pro g = 1, 2, . . . , G. (190) Konečně označme symbolem V {|g|} matici, kterou zı́skáme z matice V (viz (175) ) vynechánı́m g-tého sloupce (g = 1, 2, . . . , G), viz zavedenı́ matice Y {|g|} . Ze vztahu (189) dostaneme po vynechánı́ vztahu pro Y(1) Y {|1|} − V {|1|} = X · (π(2) , π(3) , . . . , π(G) ). (191) Modifikacı́ rovnic (188) dostaneme ³ ´ Y(1) = − Y {|1|} − V {|1|} γ{1} − X · β(1) + E(1) − V {|1|} γ{1} ³ ´ ∗ = − Y {|1|} − V {|1|} γ{1} − X · β(1) + E(1) , (192) ∗ . Dı́ky tomu, že Y {|1|} − V {|1|} závisı́ přičemž pro E(1) − V {|1|} γ{1} jsme použili označenı́ E(1) jen od matice plánu X a od regresnı́ch koeficientů z redukovaných rovnic π(2) , π(3) , . . . , π(G) (viz ∗ . Navı́c je IE V {|1|} = 0 dı́ky pravé rovnosti v (174). Z (174) také (191)), je nekorelované s E(1) ihned plyne, že Vi a Vj jsou pro i 6= j nekorelované vektory, majı́cı́ zajisté korelované souřadnice ∗ má nekorelované “uvnitř” jednoho vektoru, tj. pro pevné i. To ihned implikuje, že vektor E(1) souřadnice. To znamená, že (192) představuje regresnı́ model, který splňuje všechny podmı́nky pro použitı́ běžných nejmenšı́ch čtverců (OLS). Jediným problémem, který je třeba vyřešit, je to, že matice Y {|1|} −V {|1|} nenı́ dostupná “měřenı́”. Přirozeně totiž neznáme V {|1|} ). Nicméně matici Y {|1|} − V {|1|} můžeme odhadnout, a to pomocı́ X · (π̂(2) , π̂(3) , . . . , π̂(G) ), kde π̂(2) , π̂(3) , . . . , π̂(G) jsou odhady regresnı́ch koeficientů z redukovaných rovnic (189) (či (190), chcete-li. Označme X · (π̂(2) , π̂(3) , . . . , π̂(G) ) jako Ŷ {|1|} . Z výše uvedené teorie vı́me, že lim Ŷ {|1|} lim n→∞ ³ n→∞ a ³ lim n→∞ ´ Y {|1|} − V̂ {|1|} = lim X · (π̂(2) , π̂(3) , . . . , π̂(G) ) = Y {|1|} − V {|1|} s. j. n→∞ ´ h ³ ´ E(1) − V̂ {|1|} γ{1} = lim E(1) − Y {|1|} − X · (π̂(2) , π̂(3) , . . . , π̂(G) ) γ{1} ³ n→∞ i ´ = E(1) − Y {|1|} − X · (π(2) , π(3) , . . . , π(G) ) γ{1} = E(1) − V {|1|} γ{1} s. j.. To dokazuje, že Ŷ {|1|} a E(1) − V̂ {|1|} γ{1} ∗∗ = E {|1|} γ jsou asymptoticky nekorelované a položı́me-li E(1) (1) − V̂ {1} , dostaneme z ∗∗ Y(1) = −Ŷ {|1|} γ{1} − X · β(1) + E(1) , (193) konsistentnı́, byt’ obecně nikoliv nestranné odhady pro γ{1} a β(1) . Těmto odhadům se, celkem z evidentnı́ch důvodů, řı́ká dvoustupňové. 157 V tomto momentě může padnout otázka, proč jsme se smažili odvodit toto dvojstupňové schéma výpočtu odhadů regresnı́ch koeficientů, když výše prezentované úvahy naznačujı́, že bychom mohli použı́t převedenı́ strukturálnı́ch rovnic na redukované, vypočı́tat odhady koeficientů π a ty pak přepočı́tat na koeficienty β a γ. Odpověd’ je vlastně skryta v samotné otázce. Při právě popsaném postupu jde o přepočı́távánı́ koeficientů, které bude vždy “šito na mı́ru’ tomu či onomu systému simultánı́ch rovnic. Výhodou dvojstupňového algoritmu je to, že odhady můžeme vyčı́slit aniž bychom přepočı́távali strukturové rovnice na redukované a naopak po vyčı́slenı́ odhadů pro koeficienty π přepočı́távali tyto zpět na odhady koeficientů γ a β. Stačı́ totiž vyřešit rovnice (189), dosadit do rovnic (193) a opět vypočı́tat odhady pro koeficienty γ a β. To jsou všechno standarnı́, pro všechny simultánı́ systémy stejné operace proveditelné (snad) ve všech statistických knihovnách. 9.2.4 Trojstupňový odhad metodou nejmenšı́ch čtverců Naprosto stejná filozofie, která stála v pozadı́ dvojstupňového algoritmu, vede k odvozenı́ algoritmu trojstupňového, který umožňuje vyčı́slenı́ všech odhadů koeficientů β a γ bez toho, abychom je zı́skávali převodem z koeficientů π. Nı́že uvedené úvahy jsou tedy mı́rným zobecněnı́m úvah z předchozı́ho odstavce. Soustavu simultánı́ch rovnic budeme tedy psát ve tvaru (viz (188) ) Y(1) + Y {|1|} · γ{1} + X · β(1) = E(1) , Y(2) + Y {|2|} · γ{2} + X · β(2) = E(2) , .. .. .. .. . . . . (194) Y(G) + Y {|G|} · γ{G} + X · β(G) = E(g) . K nı́ přı́slušná soustava redukovaných rovnic (190) má tvar Y(1) = X · π(1 + V(1) , Y(2) = X · π(2) + V(2) , .. .. .. . . . Y(G) = X · π(g) + V(G) . Z posledně uvedené soustavy vypočteme V̂ {|g|} pro g = 1, 2, . . . , G a položı́me Ŷ {|g|} = Y {|g|} − V̂ {|g|} opět pro g = 1, 2, . . . , G. Konečně pak namı́sto soustavy (194) budeme uvažovat soustavu 158 ∗ Y(1) = −Ŷ {|1|} · γ{1} − X · β(1) + E(1) , ∗ Y(2) = −Ŷ {|2|} · γ{2} − X · β(2) + E(2) , .. . .. . .. . (195) .. . ∗ Y(G) = −Ŷ {|G|} · γ{G} − X · β(G) + E(g) , {|g|} · γ ∗ =E kde podobně jako výše označı́me E(g) (g) + V̂ {g} pro g = 1, 2, . . . , G. Po té, co zjistı́me, ∗ ∗ ∗ ∗ jsou nekorelované a E`(g) jsou nekorelované pro k 6= ` a g 6= h (dokonce i Ek(g) a E`(h) že sice Ek(g) ∗ ∗ pro k 6= `), ale Ek(g) a Ek(h) korelované jsou pro libovolnou dvojice g a h, dojdeme samozřejmě k závěru, že na soustavu (195) je třeba nahlı́žet jako na soustavu zdánlivě nesouvisejı́cı́ch rovnic. Vypočteme tedy nejprve “naivnı́” odhady, řekněme γ̃{g} a β̃(g) a spočteme odhady kovariancı́ ³ σ̂gh = Y(g) + Y {|g|} · γ̃{g} + X · β̃(g) ´T ³ Y(h) + Y {|h|} · γ̃{h} + X · β̃(h) ϑ kde n ∗ ∆ ∗ ϑ = max n − G∆ g + 1 − pg , n − G h + 1 − ph ´ , o ∗ ∆ ∗ a kde, v souladu s označenı́m užı́vaným v odstavci o problému identifikace, G∆ g , pg , Gh a ph , označuje postupně skutečný počet endogenı́ch a exogenı́ch veličin v g-té a h-té rovnici soustavy (195). Odhad kovariančnı́ matice Σ má tedy tvar 2 I σ̂11 σ̂ 2 I Σ̂ = 21. .. 2 I σ̂12 ... 2 I σ̂1G 2 I σ̂22 .. . ... 2 I σ̂2G .. . , 2 I σ̂ 2 I . . . σ̂ 2 I σ̂G1 G2 GG kde všechny jednotkové matice I jsou typu (n × n), a spočteme Aitkenův odhad (viz (131) ), což je v našem přı́padě už třetı́ použitı́ nejmenšı́ch čtverců. Odtud přirozeně název metody. Pro odhady koeficientů tedy můžeme užı́t vztahu γ̂ β̂ ³ T ,Y T ,...,Y T kde Y = Y(1) (2) (G) Z= ´T ³ ´−1 = Z T Σ̂−1 Z Z T Σ̂−1 Y, , Ŷ {|1|} 0 .. . 0 0 ... 0 X 0 ... 0 Ŷ {|2|} . . . .. . 0 .. . 0 .. . X ... .. . 0 .. . 0 0 0 . . . Ŷ {|G|} , ... X kde všechny submatice Ŷ {|g|} jsou typu (n × G − 1) (pro g = 1, 2, . . . , G) a X je typu (n × p), ³ T , γT , . . . , γT a kde γ̂ a β̂ jsou tedy odhady vektorů γ{1} {2} {G} 159 ´T ³ T , βT , . . . , βT a β(1) (2) (G) ´T . 10 ANALÝZA VARIANCE Analýza variance je jednou z tradičnı́ch statistických disciplı́n a patrně byla studována dřı́ve než regresnı́ analýza. V této kapitole však ukážeme, že ji lze interpretovat jako speciálnı́ přı́pad regresnı́ analýzy. Zdůrazněme hned na samém začátku, že jsme řekli lze interpretovat, nebot’ náš výklad nemá v žádném přı́padě ukázat, či snad dokonce dokázat, že analýza variance je speciálnı́m přı́padem regrese. Jejı́ filozofie je zcela svébytná a také jejı́ značenı́ se ustálilo zcela odlišně od formalizmu regresnı́ analýzy a to naneštěstı́ tak, že je to mı́sty zavádějı́cı́ pro ty, kdo majı́ “zažité” značenı́ v regresi. Nicméně vzhledem k ustálenosti a názornosti značenı́, které je v analýze variance použı́váno, přidržı́me se tohoto značenı́ pokud to bude možné. K usnadněnı́ pak čtenı́ textu budeme na tyto odlišnosti občas upozorňovat. Jak bude možné nahlédnout z nı́že uvedeného textu, některé partie této teorie, zejména jednoduché a dvojné třı́děnı́, představujı́ krásný přı́klad aplikace vı́cenásobného regresnı́ho modelu, takže lze výsledky těchto partiı́ zı́skat okamžitě specifikacı́ obecnějšı́ch výsledků z regrese pro tyto speciálnı́ modely. Proto byla tato partie zařazena do textu skript, aby napověděla skutečnou šı́ři použitelnosti (či snad lépe, pokud nejsme jazykovı́ puristi, aplikability9 ) regresnı́ho schematu. 10.1 Jednoduché třı́děnı́ Jak je tradičnı́ v analýze variance zvykem budeme uvažovat model Yij = µ + αi + Eij pro i = 1, 2, . . . , I, j = 1, 2, . . . , Ji , (196) a budeme předpokládat, že je splněna okrajová podmı́nka I X Ji αi = 0. (197) i=1 Bez této okrajové podmı́nky (197), bychom měli v modelu přı́liš mnoho parametrů. Odhadovali bychom totiž I souřadnic vektoru α a hodnotu µ, tj. I + 1 parametrů, zatı́mco matice plánu, která je uvedena na dalšı́ straně, má hodnost I. Máme tedy dvě možnosti: • bud’ vypustit jeden parametr, např. µ • nebo uvalit na odhadované parametry nějakou vazebnı́ podmı́nku, např. (197). Z historických důvodů, ale i z důvodu jekési “symetrie” modelu se dala přednost druhé variantě. Model (196) můžeme alternativně psát ve tvaru IE Yij = µ + αi pro i = 1, 2, . . . , I, j = 1, 2, . . . , Ji . Definujme Ỹ = (Y11 , Y12 , . . . , Y1J1 , Y21 , Y22 , . . . , Y2J2 , . . . , YI1 , YI2 , . . . , YIJI )T , 9 Přičemž ovšem druhé z těchto dvou slov je patrně poněkud obecnějšı́. 160 (198) X= 1 1 0 ............ 1 1 0 ............ .. .. .. . . . 1 1 0 ............ 0 0 .. . 1 0 1 ............ 1 0 1 ............ .. .. .. . . . 1 0 1 ............ 0 0 .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . 0 0 .. . .. . .. . 1 0 0 ............ 1 0 0 ............ .. .. .. . . . 1 0 0 ............ 1 1 .. . , 1 vodorovné čáry přes celou šı́ři matice naznačujı́ vždy konec bloku. Upřesněme, že prvý blok (majı́cı́ jedničky ve druhém sloupci) má J1 řádků, druhý J2 řádků atd., tj. celá matice má P n = I`=1 J` řádků a I + 1 sloupců, a konečně β 0 = (µ, α1 , α2 , . . . , αI )T . Vektor regresnı́ch koeficientů budeme dále psát ve tvaru β 0 = (β0 , β1 , β2 , . . . , βI )T a podobně souřadnice vektoru X` budeme čı́slovat od nuly, tj. (X`0 , X`1 , X`2 , . . . , X`I ) pro ` = 1, 2, . . . , n. Nynı́ můžeme psát regresnı́ model Ỹ = X · β 0 + E. Vektor náhodných fluktuacı́ je přirozeně tohoto tvaru E = (E11 , E12 , . . . , E1J1 , E21 , E22 , . . . , E2J2 , . . . , EI1 , EI2 , . . . , EIJI )T . Nenı́ obtı́žné ověřit, že T X X= n J1 J2 J1 J1 0 J2 0 J2 .. .. .. . . . JI 0 0 kde . . . JI ... 0 ... 0 .. . a . . . JI , JI ȲI J Ȳ = T X Ỹ = nȲ J1 Ȳ1 J2 Ȳ2 .. . I X i 1X Yij n i=1 j=1 a Ȳi = Ji 1 X Yij . Ji j=1 Podobně snadno nalezneme normálnı́ rovnice nβ0 + J1 β1 + J2 β2 + . . . + JI βI J1 β0 + J1 β1 + J2 β0 + .. . JI βI + 0 .. . 0 0 +...+ 0 + J2 β2 + . . . + 0 .. .. . . + 0 + . . . + JI βI 161 = nȲ = J1 Ȳ1 = J2 Ȳ2 . .. . = JI ȲI (199) Vezmeme-li v úvahu okrajovou podmı́nku (197) J1 β1 + J2 β2 + . . . + JI βI = 0, dostaneme z prvnı́ rovnice v soustavě (199) β̂0 = Ȳ (200) a to umožnı́ přepsat normálnı́ rovnice do tvaru (vynechánı́m prvnı́ z nich a uplatněnı́m znalosti o β̂0 ) J1 β1 + 0 +...+ 0 = J1 (Ȳ1 − Ȳ ) 0 .. . 0 + J2 β2 + . . . + 0 .. .. . . + 0 + . . . + JI βI = J2 (Ȳ2 − Ȳ ) . .. . = JI (ȲI − Ȳ ) Pak již nenı́ těžké ověřit, že β̂i = Ȳi − Ȳ pro i = 1, 2, . . . , I. (201) Nynı́ z (200) a (201) plyne, že pro ` = 1, 2, . . . , n a pro všechna k taková, že ` = J1 +J2 +. . .+Jh +k a 0 < k ≤ Jh+1 predikce vysvětlované proměnné je Ŷ`k = X`T β̂ (LS,n) = X`1 β0 + X`k βk = Ȳi , Reziduálnı́ součet čtverců pro hypotézu H : “správným” modelem je (196), je tedy 2 SH = Ji I X X ¡ Yij − Ȳi ¢2 . i=1 j=1 Jeho alternativnı́ zápis může být ³ ´ Ỹ T I − X(X T X)−1 X T Ỹ , (202) ostaně jsme to již dřı́ve několikrát udělali, viz např. (50) či (51) (Ỹ je zavedeno ve (198) ). Budeme-li předpokládat alternativu A ve tvaru Yij = µ + Eij pro i = 1, 2, . . . , I, j = 1, 2, . . . , Ji , tj. budeme předpokládat α1 = α2 = . . . = αI = 0, úvahami podobnými výše uvedeným, či přı́mou minimalizacı́ přı́slušného součtu čtverců, nalezneme β̂0 = µ̂ = Ȳ a přı́slušný reziduálnı́ součet čtverců 2 SA = Ji I X X ¡ Yij − Ȳ ¢2 = I X ¡ Ji Yij − Ȳ ¢2 = Ỹ T (I − N ) Ỹ . Matice N (podobně jako výše) má všechny prvky stejné, rovné Opět použijeme rozklad součtu čtverců ³ (203) i=1 i=1 j=1 ´ ³ 1 n. ´ Ỹ T Ỹ = Ỹ T I − X(X T X)−1 X T Ỹ + Ỹ T X(X T X)−1 X T − N Ỹ + Ỹ T N Ỹ 162 (204) neboli Ji I X X Yij2 = i=1 j=1 Ji I X X ¡ Yij − Ȳi ¢2 + i=1 j=1 I X ¡ Ji Ȳi − Ȳ ¢2 + nȲ 2 . i=1 Použitı́m Fisher-Cochranova lemmatu (viz Lemma 6) pro právě nalezený rozklad součtu čtverců, zjistı́me, že za předpokladu, že Ỹ je rozděleno normálně, tj. fluktuace Eij v (196) jsou rozděleny normálně, má 2 SH = Ji I X X ¡ Yij − Ȳi ¢2 i=1 j=1 ³ ´ = Ỹ T I − X(X T X)−1 X T Ỹ χ2 rozdělenı́ s n − I stupni volnosti, nebot’ matice X má hodnost I. Analogickou úvahou se ukáže, že za stejných podmı́nek má rozdı́l součtu čtverců 2 2 SA − SH = I X ¡ Ji Ȳi − Ȳ ¢2 ³ ´ = Ỹ T X(X T X)−1 X T − N Ỹ i=1 2 také rozdělenı́ χ2 o I − 1 stupnı́ch volnosti. Navı́c z Fisher-Cochranova lemmatu plyne, že SH 2 − S 2 jsou statisticky nezávislé, tj. a SA H PI F = i=1 Ji ¡ Ȳi − Ȳ I −1 ¢2 · PI i=1 n−I PJi ¡ j=1 Yij − Ȳi ¢2 je rozděleno jako FI−1,n−I , tj. Fisher-Snedecorovo F o I − 1 a n − I stupnı́ch volnosti. Proto, podobně jako v kapitole o testovánı́ submodelu, je možné test o platnosti hypotézy H proti alternativě A založit na této statistice. Pro úplnost uved’me, že klasické práce věnované analýze třı́děnı́ (Scheffe (1959), Draper, Smith (1966),(1981), Anděl, J. (1978), Rao (1978)) uvádějı́ přı́slušné součty čtverců (viz (204)) obvykle v následujı́cı́ tabulce (tato byla v podstatě převzata z Draper, Smith (1966)). Tabulka 18 Rozklad součtu čtverců pro jednoduché třı́děnı́. Zdroj Mezi třı́dami Uvnitř třı́d Suma čtverců 2 = SA 2 = SH PI i=1 Ji PI i=1 Ȳi − Ȳ PJi ¡ j=1 ¢2 Yij − Ȳi ¢2 nȲ 2 Průměrná hodnota Celkem ¡ Stupně volnosti PI i=1 PJi 2 j=1 Yij Střednı́ čtverce I −1 s2A = n−I s2H = 2 SA I−1 2 SH n−I 1 PI i=1 Ji =n Rovněž poměrně často bývá poslednı́ tabulka uváděna však ve tvaru (např. Rao (1978)) 163 Tabulka 18 a Zdroj Mezi třı́dami Uvnitř třı́d Suma čtverců 2 = SA 2 = SH 10.2 i=1 Ji PI i=1 PI Centrovaný součet PI i=1 ¡ Stupně volnosti Ȳi − Ȳ ¢2 PJi ¡ Yij − Ȳi j=1 PJi j=1 (Yij ¢2 − Ȳ )2 Střednı́ čtverce I −1 s2A = n−I s2H = 2 SA I−1 2 SH n−I n−1 Dvojné třı́děnı́ Pro jednoduchost budeme uvažovat model se stejným počtem jednotek v každé buňce dvojného třı́děnı́. Model, který nepředpokládá stejný počet pozorovánı́ v každé buňce je sice touto cestou také zvládnutelný, ale po formálnı́ stránce se celá věc stane nepřehlednou. Budeme tedy studovat model IE Yijk = µ + αi + βj + γij pro i = 1, 2, . . . , I j = 1, 2, . . . , J, (205) k = 1, 2, . . . , K. To znamená, že předpokládáme, že model má I řádků, J sloupců a K jednotek v každé buňce. Snadno se opět nahlédne, že bez zadánı́ okrajových podmı́nek, které zkompenzujı́ “nadbytek” parametrů v modelu, bychom nemohli parametry modelu jednoznačně odhadnout. Tyto okrajové podmı́nky budou mı́t tvar I X αi = 0 a i=1 J X βj = 0, j=1 a dále pak pro všechna j = 1, 2, . . . , J I X γij = 0. i=1 Konečně pro všechna i = 1, 2, . . . , I J X γij = 0. j=1 Vysvětlovaná veličina má přirozeně opět tvar Ỹ = (Y11 , Y112 , . . . , Y11K , Y121 , Y122 , . . . , Y12K , . . . , Y1J1 , Y1J2 , . . . , Y1JK , Y211 , . . . , YIJ1 , YIJ2 , . . . , YIJK )T . (206) Matice plánu je poněkud komplikovaná X a je uvedena na dalšı́ stránce. Má všechny bloky (ve svislém směru) o K řádcı́ch, což znamená, že celá matice má n = IJK řádků. Ve vodorovném směru má prvý blok jeden sloupec (pro absolutnı́ člen µ), druh blok má I sloupců, třetı́ má J sloupců atd., až poslednı́ pak IJ sloupců. Vodorovné plné čáry přes celou šı́ři matice a svislé čáry přes výšku bloků opět naznačujı́ oddělenı́ vodorovných, přı́padně svislých bloků. Jak vzápětı́ uvidı́me, k zı́skánı́ reziduálnı́ho součtu čtverců použijeme jiný model, který je s 164 tı́mto modelem ekvivalentnı́, ale který umožnı́ nalezenı́ tohoto součtu snadněji. Proto vektor regresnı́ch koeficientů nebudeme ani podrobně popisovat. Věnujme se na okamžik matici plánu. Ta je značně “redundantnı́, nebot’ prvý sloupec ve druhém bloku (ve vodorovném směru, tj. v bloku, který odpovı́dá parametrům α v (205) ) je stejný jako součet prvnı́ho, (I + 1)-nı́ho, 2I + 1-nı́ho, ...,[(J − 1)I + 1]-nı́ho sloupce v poslednı́m bloku (tj. v bloku, který odpovı́dá parametrům γ). Podobně pro druhý sloupec druhého bloku zjistı́me, že je roven součtu druhého, (I + 2)-hého, (2I + 2)-hého,...,[(J − 1)I + 2]-hého sloupce v poslednı́m bloku, atd. Konečně pak snadno ověřı́me, že prvnı́ sloupec třetı́ho bloku, tj. bloku, který odpovı́dá parametrům β, je součtem prvého, druhého,..., I-tého sloupce v poslednı́m bloku. Navı́c prvnı́ sloupec matice, tj. sloupec odpovı́dajı́cı́ absolutnı́mu členu), je např. součtem všech sloupců poslednı́ho bloku. Odtud plyne, že hodnost matice X je I · J a že můžeme z modelu vypustit prvý, druhý a třetı́ blok sloupců, tj. model, který bude mı́t stejnou vysvětlovanou veličinu Ỹ jaká je zadaná v (206) a matici X̃, která bude obsahovat pouze sloupce poslednı́ho bloku matice X, bude ekvivalentně vysvětlovat veličinu Ỹ jako model se širšı́ maticı́ plánu X. Ani v tomto přı́padě nenı́ třeba vektor regresnı́ch koeficientů přesně specifikovat. Tento alternativnı́ model, jehož matice plánu je však plné hodnosti, umožnı́ snadněji nalézt minimum součtu čtverců I X J X K X (Yijk − γij )2 . i=1 j=1 k=1 Matice X̃ T X̃ má pro tento model překvapivě jednoduchý tvar právě tak jako X̃ T Ỹ , jmenovitě X̃ T X̃ = K 0 0 K ... .. . .. . 0 0 ... 0 PK k=1 Y11k P K k=1 Y12k T X̃ Ỹ = .. . PK 0 a .. . ... K . k=1 YIJk To samozřejmě vede k jednoduchým normálnı́m rovnicı́m K 0 0 K ... .. . .. . 0 0 ... 0 γ11 0 γ12 · .. . . .. ... K γJK PK k=1 Y11k P K k=1 Y12k = .. . PK , k=1 YIJk ze kterých okamžitě najdeme γij = 1 K PK k=1 Yijk = Ȳij , i = 1, 2, . . . , I, j = 1, 2, . . . , J, k = 1, 2, . . . , K. Reziduálnı́ součet čtverců pro hypotézu, že data se řı́dı́ modelem (205) je tedy roven 2 SH = I X J X K X ¡ Yijk − Ȳij i=1 j=1 k=1 167 ¢2 . Stejně jako v předchozı́m odstavci použijeme Fisher-Cochranovo lemma, které po úvahách podobných těm, které jsme provedli v předchozı́m odstavci potvrdı́, že tento součet čtverců má, samozřejmě opět za předpokladu, že náhodné fluktuace E jsou normálně rozdělené, χ2 rozdělenı́ o I · J · (K − 1) stupnı́ch volnosti. Ostatně tento výsledek má krásnou mnemotechniku, nebot’ počet stupňů volnosti lze interpretovat tak, že jde o I · J · K čtverců, ale v každé buňce, kterých je I · J padne jeden stupeň volnosti na průměr Ȳij . Jako alternativu budeme uvažovat model IE Yijk = µ + αi + βj pro i = 1, 2, . . . , I, j = 1, 2, . . . , J, k = 1, 2, . . . , K. (207) jehož okrajové podmı́nky majı́ tvar I X αi = 0 a i=1 J X βj = 0. (208) j=1 Z toho plyne, že budeme minimalizovat I X J X K X (Yijk − αi − βj )2 . i=1 j=1 k=1 Vysvětlovaná proměnná je přirozeně stejná jako při hypotéze (viz (206) ) a matice plánu je rovna prvnı́m třem blokům matice X (viz předchozı́ strana). Opět snadno nalezneme T X̃ X̃ = n J · K J · K ... J · K I · K I · K ... I · K J ·K 0 J · K ... 0 K K ... K .. .. .. .. .. .. .. . . . . . . . J ·K 0 0 ... J · K K K ... K , ......................................................... I ·K K K ... K I ·K 0 ... 0 I ·K K K ... K 0 I · K ... 0 .. .. .. .. .. .. .. . . . . . . . ......................................................... J ·K J ·K 0 ... 0 K K ... K I ·K K K ... 168 K 0 0 ... I · K PI PJ PK i=1 j=1 k=1 Yijk P P J K j=1 k=1 Y1jk P P J K j=1 k=1 Y2jk .. . P P J K X̃ T Ỹ = j=1 k=1 YIjk P P I K i=1 k=1 Yi1k P P I K i=1 k=1 Yi2k .. . PI PK β̃ = a α1 . α2 .. . αI β1 β2 .. . βJ k=1 YiJk i=1 µ Normálnı́ rovnice sice vypadajı́ na prvnı́ pohled trochu komplikované nµ + J · K PI i=1 αi J · Kµ + J · Kαi + K I · Kµ + K PJ +I ·K PI i=1 αi PJ j=1 βj = j=1 βj = + I · Kβj = PI i=1 PJ j=1 PJ PK PI PK j=1 i=1 PK k=1 Yijk k=1 Yijk pro i = 1, 2, . . . , I k=1 Yijk pro j = 1, 2, . . . , J, ale vezmeme-li v úvahu okrajovou podmı́nku (208), zredukujı́ se na nµ PI = i=1 J · Kµ + J · Kαi = I · Kµ + I · Kβj PJ PK PJ PK PI PK j=1 = j=1 i=1 k=1 Yijk , k=1 Yijk pro i = 1, 2, . . . , I, k=1 Yijk pro j = 1, 2, . . . , J. Pak již snadno nalezneme odhady parametrů α̂i = Ȳi· − Ȳ = PJ PK 1 PI i=1 j=1 k=1 Yijk , n P P J K 1 j=1 k=1 Yijk − Ȳ J·K β̂j = 1 I·K µ̂ = Ȳ = = Ȳ·j − Ȳ PI i=1 PK k=1 Yijk − Ȳ pro i = 1, 2, . . . , I, pro j = 1, 2, . . . , J. Reziduálnı́ součet čtverců pro alternativu, že správným modelem je (207), je tedy 2 SA = I X J X K X ¡ Yijk − Ȳi· − Ȳ·j + Ȳ ¢2 . i=1 j=1 k=1 Naprosto stejně jako v předchozı́m paragrafu použitı́m Fisher-Cochranova lemmatu ukážeme, 2 − S 2 má χ2 o I · J · K − I − J + 1 − I · J · (K − 1) = (I − 1)(J − 1) že rozdı́l součtů čtverců SA H 2 . To znamená, že statistika stupnı́ch volnosti a je nezávislý se součtem čtverců SH 2 − S2 SA I · J(K − 1) H · 2 (I − 1)(J − 1) SH (209) je přı́hodná k testovánı́ hypotézy H proti alternativě A. Snadno si lze představit testovánı́ jiných alternativ, např. můžeme testovat přı́padnou představu o tom, že data nezávisı́ na efektu od řádků, tj. IE Yijk = µ + βj pro i = 1, 2, . . . , I, j = 1, 2, . . . , J, k = 1, 2, . . . , K. 169 Upozorněme však na to, že se v některých monografiı́ch tato alternativa k základnı́mu modelu presentuje jako αi = 0 pro i = 1, 2, . . . , I, ale opomene se řı́ci, že pokud má být řádkový efekt nulový znamená to také γij = 0 pro i = 1, 2, . . . , I a j = 1, 2, . . . , J. Stejně jako v předchozı́m paragrafu vytvořı́me tabulky součtů čtverců Tabulka 19 Rozklad součtu čtverců pro dvojné třı́děnı́. Zdroj Suma čtverců Řádky J ·K Sloupce I ·K Interakce K Reziduálnı́ PI ¡ PJ ¡ i=1 Ȳ·j − Ȳ j=1 PI PJ ¡ PI PJ PK i=1 j=1 i=1 j=1 Ȳi· − Ȳ ¢2 ¢2 Ȳij − Ȳi· − Ȳ·j + Ȳ ¡ Yijk − Ȳij k=1 ¢2 PI Celkem i=1 PJ ¢2 I −1 s2r J −1 s2c IJ(K − 1) 2 SH n−I s2rc = s2 1 PK 2 k=1 Yijk j=1 Střednı́ čtverce (I − 1)(J − 1) nȲ 2 Průměrná hodnota Stupně volnosti IJK = n Upozorněme rovněž, že jestliže se ve druhém a třetı́m řádku právě uvedené tabulky mluvı́ o “Řádcı́ch” a “Sloupcı́ch”, zdálo by se přirozené mluvit ve čtvrtém o “Buňkách”, tak jak to ostatně dělá anglicky psaná literatura. V české literatuře se však z jakýchsi historických důvodů ustálil název “Interakce”. Některé prameny opět uvádějı́ alternativnı́ tabulku Tabulka 19 a Zdroj Suma čtverců Řádky J ·K Sloupce I ·K Interakce Reziduálnı́ Centrovaný součet K PI ¡ PJ ¡ i=1 j=1 PI PJ ¡ PI PJ PK PI PJ PK i=1 i=1 i=1 Ȳ·j − Ȳ ¢2 ¢2 Ȳij − Ȳi· − Ȳ·j + Ȳ j=1 j=1 Ȳi· − Ȳ j=1 k=1 ¡ Yijk − Ȳij k=1 (Yijk ¢2 Stupně volnosti Střednı́ čtverce I −1 s2r J −1 s2c (I − 1)(J − 1) ¢2 − Ȳ )2 IJ(K − 1) s2rc = 2 SH n−I s2 n−1 Podobně jako jsme výše odvodili test alternativy A : mezi řádky a sloupci nejsou interakce, tj. γij = 0 pro všechna i a j, totiž (viz (209) ) F = 2 − S2 I · J(K − 1) SA H · (I − 1)(J − 1) SH 170 = K PI i=1 ¡ PJ Ȳij − Ȳi· − Ȳ·j + Ȳ (I − 1)(J − 1) ¢2 j=1 2 I · J · (K − 1) · PI i=1 ¡ PJi PK k=1 j=1 Yijk − Ȳij src ¢2 = 2 , s našli bychom testy dalšı́ch alternativ k základnı́mu modelu: • IE Yijk nezávisı́ na i F = JK ¡ PI Ȳi· − Ȳ (I − 1) ¢2 i=1 I · J · (K − 1) · PI i=1 PJ j=1 ¡ PK k=1 Yijk − Ȳij ¢2 = s2r s2 s I − 1 a I · J · (K − 1) stupni volnosti, • IE Yijk nezávisı́ na j F = IK ¡ PJ Ȳ·j − Ȳ (J − 1) ¢2 j=1 s2 I · J · (K − 1) · PI i=1 PJ j=1 ¡ PK k=1 Yijk − Ȳij c ¢2 = 2 s s J − 1 a I · J · (K − 1) stupni volnosti, • IE Yijk nezávisı́ ani na i ani na j PI i=1 F = PJ j=1 ¡ PK k=1 × PI = K PI i=1 PJ ¡ ¢2 P P Yijk − Ȳij − Ii=1 Jj=1 IJ(K − 1) − IJK + 1 I · J · (K − 1) i=1 PJ j=1 Ȳij − Ȳ IJ − 1 k=1 ¢2 j=1 ¡ PK · PI Yijk − Ȳij i=1 PK ¡ k=1 Yijk − Ȳ j=1 × ¢2 I · J · (K − 1) PJ ¢2 PK ¡ k=1 Yijk − Ȳij ¢2 s IJ − 1 a I · J · (K − 1) stupni volnosti. 11 NĚKTERÉ NETRADIČNÍ METODY REGRESNÍ ANALÝZY Již na začátku skript jsme se zmı́nili, že metoda L1 , tj. metoda minimalizujı́cı́ součet absolutnı́ch hodnot reziduı́ byla použita o vı́ce než stopadesát let dřı́ve než byla publikována metoda nejmenšı́ch čtverců. To dokládá, že alternativnı́ metody k metodě nejmenšı́ch čtverců nejsou “vymyšlenostı́” poslednı́ch let. Metoda L1 je všeobecně považována za velmi robustnı́ a je často uváděna jako přı́klad metody, která si je schopna úspěšně poradit s (jakoukoliv) kontaminacı́ dat. Odhadem polohy dat pořı́zeným metodou L1 je medián a snadno se přesvědčı́me, že tento odhad je schopen překonat i 50% kontaminaci dat, v tom smyslu, že teprve změna vı́ce než 50% dat může podstatně změnit hodnotu mediánu. Někteřı́ autoři pak z tohoto faktu usoudı́, že se metoda L1 dokáže vyrovnat i s (velmi) vysokou kontaminacı́ dat také v regresnı́m schematu. Bohužel opak je pravdou. Metoda L1 si sice umı́ poradit s odlehlými hodnotami ve vysvětlované proměnné (tzv. outliery), ale neumı́ se vyrovnat s body, které jsou odlehlé ve faktorovém prostoru (tzv. leverage pointy). Důvody k tomuto chovánı́ lze snadno nahlédnout, napı́šeme-li si normálnı́ rovnice pro tuto metodu. Jejich tvar je ∂ Pn i=1 |Yi ∂β` − xTi β| = −2 n X xi` sign(Yi − xTi β), i=1 171 ` = 1, 2, ..., p. Je vidět, že pokud dojde k tomu, že některý bod má podstatně většı́ některou souřadnici než jiné body, bude jeho vliv na řešenı́ normálnı́ch rovnic podstatně většı́ než vliv ostatnı́ch bodů. To znamená, že i jeden jediný bod (velmi) vzdálený od ostatnı́ch bodů ve faktorovém prostoru může podstatně ovlivnit (přı́padně zcela “zničit”) závěry regresnı́ analýzy provedené pomocı́ metody L1 . Přirozeně, že můžete namı́tnout, že jeden bod hodně vzdálený ve faktorovém prostoru bude nápadný a bude mu věnována při analýze dat mimořádná pozornost. Problém nastává, jde-li o opakované automatizované zpracovánı́ dat (viz např. digitalizovaný přenos řeči pomoci auotregresnı́ch modelů segmentů zvukového signálu), či je-li v datech vı́ce vlivných bodů, takže se navzájem maskujı́ a to se jim bude dařit zejména pokud půjde o vı́cerozměrná data (řekněme p > 7). Proto byl s velkým zaujetı́m studován problém nalezenı́ metody (či metod), která by si byla schopna poradit s vysokou kontaminacı́ (nejlépa s 50%) a to jakéhokoliv typu, tj. tvořenou jak outliery tak leverage pointy. Řekněme rovnou, že právě zmı́něný problém dokázal vzdorovat soustředěnému “ataku” armády statistiků téměř deset let. Dnes však známe a máme implementovánu, což je také velmi podstatné, celou řadu metod, jejichž mı́ru robustnosti lze dokonce volit nastavenı́m některého parametru metody od nuly do 50%. Jednı́m z nejlépe prostudovaných a “vyzkoušených” odhadů tohoto typu je patrně odhad metodou nejmenšı́ch usekaných čtverců (the least trimmed squares), který je zadán takto (viz Hampel a kol. (1986)). Necht’ pro libovolné β ∈ Rp a i = 1, 2, ..., n je ri (β) = Yi − xTi β a 2 (β) necht’ jsou tedy pořádkové statistiky přı́slušné ke čtvercům reziduı́. Potom položme pro r(i) h, n2 ≤ h ≤ n β̂ (LT S,n) = arg min β∈Rp h X 2 r(i) (β). i=1 Autor těchto skript nabı́zı́ těm, kdo by si chtěli vyzkoušet, jak tento odhad funguje, program, který je snadné použı́t na výpočet tohoto odhadu. Současně si dovolme upozornit, že často docházı́ k záměně tohoto odhadu s odhadem, kterému se řı́ká odhad metodou usekaných nejmenšı́ch čtverců (the trimmed least squares) a který nemusı́, a obvykle nemá zdaleka tak dobré vlastnosti jako odhad β̂ (LT S,n) . Jak ale pořadı́ slov v názvu obou odhadů naznačuje, tento druhý odhad předpokládá, že nejprve podle nějakého předem daného pravidla usekáme některá pozorovánı́ a pak uplatnı́me na zbytek dat metodu nejmenšı́ch čtverců, zatı́mco prvnı́ odhad vlastně sám, ale zase pouze implicitně napovı́dá, která pozorovánı́ majı́ být “usekána”. Jednou z námitek, které stále jěště vznášejı́ “skalnı́” zastánci metody nejmenšı́ch čtverců, je námitka týkajı́cı́ se malé eficience robustnı́ch metod zejména v přı́padě, kdy platı́ předpoklady pro aplikaci nejmenšı́ch čtverců. Tato námitka je lichá. Ztráta na eficienci robustnı́ch metod je obvykle daleko menšı́ než ztráta na eficienci nejmenšı́ch čtverců i při dosti malé kontaminaci dat. Otázka, která každeho čtenáře napadne po přečtenı́ několika poslednı́ch řádek je: Proč jsme tedy na tolika stránkách vykládali všechny možné vlastnosti a triky spojené s metodou nejmenšı́ch čtverců ? Odpověd’ je nasnadě. Stále mnoho uživatelů aplikuje nejmenšı́ čtverce a chceme-li být schopni sledovat jejich výklad a rozumět jejich závěrům, musı́me znát dobře tuto klasickou metodu, byt’ vı́me, že může snadno selhat i při dosti malé kontaminaci, ale hned dodejme, také obvykle dosti malé pozornosti uživatele k vlivným bodů. Navı́c stále mnoho, patrně dokonce drtivá většina, 172 statistických softwarových knihoven nabı́zı́ žel jen nejmenšı́ čtverce. Ne poslednı́m a určitě ne nejmenšı́m důvodem pak je to, že metoda nejmenšı́ch čtverců je geometricky názorná a má nejlépe vypracovanou teorii, včetně sofistikovaných triků, které ji napomáhajı́, dostane-li se do potı́žı́ (např. hřebenová regrese). Je zřejmé, že ani v přı́padě, že si osvojı́me řadu robustnı́ch metod a budeme mı́t k tomu přı́ležitost v dalšı́m dı́le skript, “nezavrhneme” metodu nejmenšı́ch čtverců jako nemodernı́ a zastaralou, nebot’ takovou opravdu nenı́. Jen potom budeme aplikovat vı́ce metod, včetně nejmenšı́ch čtverců a ze shody (přibližné) či neshody (signifikantnı́, viz např. Rubio a kol. (1992)) jejich výsledků budeme usuzovat na přı́tomnost, přı́padně velikost a původ, kontaminace. Poslednı́ věta je ostatně doporučenı́, či chcete-li teze, modernı́ statistiky (přelomu druhého a třetı́ho tisı́ciletı́): Aplikujte tolik metod regresnı́ analýzy, kolik jich máte k dispozici na svém počı́tači, vždy však alespoň dvě nebo tři, a vzájemně porovnejte jejich výsledky. Pokud se tyto (statisticky významně, a na to dnes již existujı́ testy - viz Rubio a kol. (1992)) lišı́, je třeba věnovat datům zvláštnı́ pozornost. Přı́činou je obvykle kontaminace dat, tj. data nepředstavujı́ “jednu populaci”, ale jsou nesourodá. Často Vám může mnoho napovědět “klasická” diagnostika, o které jsme si povı́dali výše. Pokud se Vám podařı́ nalézt “podsoubor” dat, na kterém už budou různé metody dávat přibližně stejné řešenı́ a na kterém klasické diagnostické prostředky neobjevı́ nic podezřelého, máte vyhráno. Nicméně vysvětlenı́, či chcete-li potvrzenı́ toho, že “zbytek” dat je kontaminace, přı́padně proč, hledejte vždy ve spolupráci s odbornı́kem z té oblast, ze které pocházejı́ data, nejlépe s tı́m, kdo data naměřil či jinak shromáždil či Vás o zpracovánı́ požádal. 173 12 Literatura 174 Reference [1] Aigner, D. J. (1974): MSE dominance of least squares with errors of observation. Journal of Econometrics 2, 365–372. [2] Akaike, H. (1974): A new look at the statistical model identification. IEEE Transactions on Automatic Control 19, 716 - 723. [3] Akaike, H. (1981): Likelihood of a model and information criteria. Journal of Econometrics 16, 3 - 14. [4] Amemiya, T. (1973): Regression analysis when the variance of the dependent variable is proportional to the square of its expectation. Journal of American Statistical Association 68, 928–934. [5] Amemiya, T. (1977): A note on a heteroscedastic model. Journal of Econometrics 6, 365-370. and “Corrigenda”. Jouranl of Econometrics 8, 275. [6] Amemiya, T. (1981): Qualitative response model: A survey. Journal of Economic Literature 19, 1483 - 1536. [7] Amemiya, T., Powell, J. (1980): A comparison of the logit model and normal discriminant analysis when independent variables are binary. Technical Report No. 320, Institute for Mathematical Studies in the Social Sciences, Encina Hall, Stanford University, Stanford, California. [8] Anděl, J. (1978): Matematická statistika. Praha, Bratislava: SNTL & ALFA. [9] Anděl, J. (1993): Statistické metody, MATFYZPRESS, Praha, 1993. [10] Anderson, T. W. (1948): On the theory of testing serial correlation. Skandinavisk Aktuarietidskrift 31, 88-116. [11] Bartlett, M. S. (1937): Properties of sufficiency and statistical tests. Proceedings of the Royal Society, Series A 160, 268 - 282. [12] Bates, J. M., Granger, C. W. J. (1969): The combination of forecasts. Operational Research Quarterly, 20, 451-468. [13] Battese, G. E., Bonyhady, B. P. (1981): Estimation of household expenditure functions: An application of a class of heteroscedastic regression models. The Economic Record 57, 80–85. [14] Belsley, D. A., Kuh, E., Welsch, R. E. (1980): Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. New York: J. Wiley & Sons. [15] Bera, A. K., Jarque, C. M. (1981): An efficient large-sample test for normality of observations and regression residuals. Australian National University Working Papers in Econometrics No. 40, Cambera. 173 [16] Berndt, E. (1990): The Practice of Econometrics. Reading, Mass.,Addison-Wesley, 1990. [17] Boscovisch, R. J. (1757): De litteraria expeditione per pontificiam ditionem, et synopsis amplioris operis, ac habentur plura eius ex exemplaria etiam sensorum impressa. Boloniensi Scientiarum et Artium Instituto Atque Academia Commentarii 4, 353-396. [18] Bowden, R. J., Turkington, D. A. (1984): Instrumental Variables. Cambridge: Cambridge University Press. [19] Bradley, E. L. (1973): Equivalence of maximum likelihood and weighted least squares estimates in the exponential family. Journal of American Statistical Association 768, 199 200. [20] Breiman, L., Friedman, J. H., Olshen, R. A., Stone, C. J. (1984): Classification and Regression Trees. Belmont, California: Wadsworth International Group. [21] Breusch, T. S., Pagan, A. R. (1979): A simple test for heteroscedasticity and random coefficient variation. Econometrica 47, 1287 -1294. [22] Charnes, A., Frome, E. L., Yu, P. L. (1976): The equivalence of generalized least squares and maximum likelihood estimates in the exponential family. Journal of American Statistical Association 71, 169 - 171. [23] Chatterjee, S., Hadi, A. S. (1988): Sensitivity Analysis in Linear Regression. New York: J. Wiley & Sons. [24] Chatterjee, S., Price, B. (1977): Regression Analysis by Example. New York: J. Wiley & Sons. [25] Chow, G. C. (1960): Tests of equality between sets of coefficients in two linear regressions. Econometrica 28, 591 - 605. [26] Clemen, R. T. (1986): Linear constraints and efficiency of combined forecasts. Journal of Forecasting 6, 31 - 38. [27] Cochrane, D., Orcutt, G. H. (1949): Application of least squares regression to relationships containing autocorrelated error terms. Journal of the American Statistical Association, 44, 32 - 61. [28] Cook, R. D., Weisberg, S. (1983): Diagnostics of heteroscedasticity in regression. Biometrika 70, 1 - 10. [29] D’Agostino, R. B., Belanger, A., D’Agostino, R. B. Jr. (1990): A suggestion for using powerful and informative tests of normality. American Statisticians 44, 316 - 321. [30] Dhrymes, P. J.(1978): Introductory Econometrics. Springer-Verlag, New York. [31] Draper, N. R., Smith, H. (1981): Applied Regression Analysis. New York: J.Wiley & Sons, 2nd edition (1st edition 1966). 174 [32] Durbin, J., Watson, G. S. (1952): Testing for serial correlation in least squares regression. I. Biometrika 37, 409-428. [33] Eicker, F. (1967): Limit theorems for regression with unequal and dependent errors. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, L. Le Cam, J. Neyman, eds., Berkeley: University of California Press. [34] Farrar, D. E., Glauber, R. R. (1967): Multicollinearity in regression analysis: The problem revisited. Review of Economics and Statistics 49, 92-107. [35] Fisher, R. A. (1922): On the mathematical foundations of theoretical statistics. Philos. Trans. Roy. Soc. London Ser. A 222, pp. 309–368. [36] Friedman, M. (1957): A Theory of the Consumption Function. Princeton: Princeton University Press. [37] Friedman, R. (1982): Multicollinearity and ridge regression. Allgemeines Statistisches Archiv 66, 120 - 128. [38] Froehlich, B. R. (1973): Some estimators for a random coefficient regression model. Journal of the American Satistical Association 68, 329–334. [39] Frome, E. L., Kutner, M. H., Beauchamp, J. J. (1973): Regression analysis of Poissondistributed data. Journal of American Statistical Association 68, 935 - 940. [40] Galilei, G. (1632): Dialogo dei masimi sistemi. [41] Galton F. (1886): Regression towards mediocrity in hereditary stature. Journal of the Antropological Institute 15, 246–263. [42] Gauss F. C. (1809): Theoria molus corporum celestium. Hamburg: Perthes et Besser. [43] Glivenko, V. I. (1933): Sulla determinazione empirica delle leggi di probabilita. Giorn. Inst.Ital. Attuari 4, 92. [44] Goldberger, A. S. (1972): Structural equation methods in the social sciences. Econometrica 40, 979 - 1001. [45] Goldfeld, S. M., Quand, R. E. (1965): Some tests for homoscedasticity. Journal of American Statiststical Association 60, 539 - 547. [46] Goldfeld, S. M., Quand, R. E. (1972): Nonlinear Methods in Econometrics. North-Holland, Amsterdam. [47] Granger, C. W. J. (1969): Ivestigating casual relations by econometric models and crossspectral methods. Econometrica 37, 424 - 438. [48] Greene, W.H. (1993): Econometric Analysis, New York. Macmillam Press. 175 [49] Griffiths, W. E., Anderson, J. R. (1982): Using time-series and cross-section data to estimate a production function with positive and negative marginal risks. Journal of American Statistical Association 77, 529–536. [50] Gunst, R. F. (1983): Regression analysis with multicollinear predictor variables: The problem revisted. Review of Economic Statistics 49, 92 - 107. [51] Hampel, F.R., Ronchetti, E.M., Rousseeuw, P.J., Stahel, W.A. (1986): Robust Statistics – The Approach Based on Influence Functions. New York: J.Wiley & Sons. [52] Hand, D. J., Daly, F., Lunn, A. D., McConway, K. J., Ostrowski, E. (1994): Handbook of Small Data Sets. London: Chapman & Hall. [53] Harvey, A. C. (1974): Estimation of parameters in a heteroscedastic regression model. European Meeting of the Econometric Society, Grenoble, France. [54] Hausman, J. (1978): Specification test in econometrics. Econometrica, 46, 1978, 1251 1271. [55] Hensher, D., Johnson, L. (1981): Applied Discrete-Choice Modelling. New York: Halsted. [56] Hettmansperger, T. P., Sheather, S. J. (1992): A Cautionary Note on the Method of Least Median Squares. The American Statistician 46, 79–83. [57] Hewitt, E., Stromberg, K. (1965): Real and Abstract Analysis. Berlin: Springer - Verlag. [58] Hildreth, C., Houck, J. P. (1968): Some estimators for a linear model with random coefficients. Journal of the American Statistical Association 63, 584 –595. [59] Hoerl, A. E., Kennard, R. W. (1970): Ridge regression: Biased estimation for nonorthogonal problems. Technometrics 12, 55 - 68. [60] Hoerl, A. E., Kennard, R. W. (1970): Ridge regression: Application to nonorthogonal problems. Technometrics 12, 69 - 82. [61] Huang, H. C., Bolch, B. W. (1974): On the testing of regression disturbances for normality. Journal of American Statistical Association 69, 330 - 335. [62] Humphreys, R. M. (1978): Studies of luminous stars in nearby galaxies. I. Supergiants and 0 stars in the milky way. Astrophysical Jouranal Supplemant Series 38, 309–350. [63] Judge, G. G., Griffiths, W. E., Hill, R. C., Ltkepohl, H., Lee, T. Ch (1982): Introduction to the Theory and Practice of Econometrics. New York: J.Wiley & Sons. [64] Judge, G. G., Griffiths, W. E., Hill, R. C., Ltkepohl, H., Lee, T. Ch (1985): The Theory and Practice of Econometrics. New York: J.Wiley & Sons (second edition). [65] Just, R. E., Pope, R. D. (1978): Stochastic specification on production function and Economic implications. Journal of Econometrics 7, 67–86. 176 [66] Kendall, M. G., Stuart, A. (1973): The Advanced Theory of Statistics. Vol. 2. Inference and Relationship. New York: Hafner. [67] Kiefer, N. M., Salmon, M. (1983): Testing normality in econometric models. Economics Letters 11, 123 - 128. [68] Kmenta, J. (1986): Elements of Econometrics. New York: Macmillan Publishing Company. [69] Kuhn, T. S. (1965): Structure of Scientific Revolution. Chicago: University of Chicago Press, Phoenix Broks 159. [70] Kullback, S. (1959): Information Theory and Statistics. New York: J. Wiley & Sons. [71] Kumar, T. K. (1975): Multicollinearity in regression analysis. Review of Econometrics and Statistics, 57, 365 - 366. [72] Laplace, P. S. (1793): Sur quelques points du systeme du mode. Memoires de l’Academie Royale des Sciences de Paris, 1-87. [73] Leamer, E: (1983): Model choice and specification analysis. In Handbook of Econometrics, Vol. I, 285 - 331. Z. Griliches and M. Intriligator, eds. Amsterdam, North Holand. [74] Legendre, A. M. (1805): Nouvelles méthodes pour la détermination des orbites des comètes. Paris: Courcier. [75] Liviatan, N. (1963): Consistent estimator of distributed lags. International Economic Review, 4, 44 - 52. [76] Locke, C., Spurrier, J. S. (1977): The use of U-statistics for testing normality against alternative with both tails heavy or both tails light. Biometrika 64, 638 - 640. [77] Lopuha, H. P. (1989): Estimation of location and covariance with high breakdown point. Ph D Thesis. Technical University of Delft. [78] Mallows, C. L. (1973): Some comments on Cp . Technometrics 15, 661 - 676. [79] Marquart, D. W. (1970): Genaralized inverses, ridge regression, biased linear estimation and nonlinear estimation. Technometrics 12, 591 - 612. [80] Marquart, D. W., Snee, R. D. (1975): Ridge regression in practice. American Statistician 29, 3 - 20. [81] Mason, R. L., Gunst, R. F., Hess, J. L. (1989): Statistical Design and Analysis of Experiments, New York: J.Wiley & Sons. [82] Mason, R. L., Gunst, R. F., Webster, J. T. (1975): Regression analysis and problems of multicollinearity. Communication in Statistics 4, 277 - 292. [83] McCallum, B. T. (1972): Relative asymptotic bias from errors of observation and measurement. Econometrica 40, 757–758. 177 [84] McFadden, D. (1976): Quantal choice analysis : A survey. Annals of Economic and Social Measurement 5, 363 - 390. [85] Montgomery, D. C., Askin, R. G. (1981): Problems of nonnormality and multicollinerityfor forecasting methods based on the leat squares. AIIE Transactions 13, 102 - 115. [86] Montgomery, D. C., Peck, E. A. (1982): Introduction to Linear Regression Analysis. New York: J.Wiley & Sons. √ [87] Mulholland, H. P. (1977): On the null distribution of b1 for samples of size at most 25 with tables. Biometrika 64, 401 - 409. [88] von Neumann, J. (1941): Distribution of the ratio of the mean-square successive difference to the variance. Annals of Mathematical Statistics 12, 367 - 395. [89] Nicholls, D. F., Pagan, A. R. (1983): Heteroscedasticity in models with lagged dependent variables. Econometrica 51, 1233–1242. [90] Pearson, E. S., D’Agostino, R. B., Bowman, K. O. (1977): Tests for departure from normality: Comparison of powers. Biometrika 64, 231 - 246. [91] Pearson, E. S., Hartley, H. O. (1956, 1972): Biometrika Tables for Statisticians I., II. Cambridge University Press. [92] Pitman, E. J. G. (1937): The ‘closest’ estimates of statistical parameters. Proc. Camb. Phil. Soc. 33, 212-222. [93] Prais, S. J., Houthakker, H. S. (1955): The Analysis of Family Budgets. New York: Cambridge University Press. [94] Prais, S. J., Winsten, C. B. (1954): Trend estimators and serial correlation. Cowless Commission Discussion Paper No 383, Chicago. [95] Press, S., Wilson, S. (1978): Choosing between logistic regression and discriminant analysis. Journal of the American Statistical Association 23, 699 - 705. [96] Prigogine, I., Stengers, I. (1977): La Nouvelle Alliance. SCIENTIA, 1977, issues 5-12. [97] Prigogine, I., Stengers, I. (1984): Out of Chaos. London: William Heinemann Ltd. [98] Raj, B., Srivastava, V., Upadhyaya, S. (1980): The efficiency of estimating a random coefficient model. Journal of Econometrics 12, 285–299. [99] Rao, R. C.. (1978): Lineárnı́ metody statistické indukce a jejich aplikace. Praha: Academia. [100] Rao, R. C., Zhao, LC. (1992): On the consistency of M -estimate in linear model obtained through an estimating equation. Statistics & Probability Letters 14, 79 - 84. [101] Rousseeuw, P.J., Leroy, A.M. (1987): Robust Regression and Outlier Detection. New York: J.Wiley & Sons. 178 [102] Rubio, A., Aguilar, L., Všek, J. Á. (1992): Testing for difference between models. Computational Statistics 8, 57 - 70. [103] Ruppert, D., Carroll, R. J. (1980): Trimmed least squares estimation in linear model. J. Americal Statist. Ass., 75 (372), pp. 828–838. [104] Saniga, E. M., Miles, J. A. (1979): Power of some standard goodness-of-fit tests of normality against asymmetric stable alternatives. Journal of the American Statistical Ass. 74, 861 865. [105] Scheffe, H. (1959): The Analysis of Variance. New York: J.Wiley & Sons. [106] Schwarz, G. (1978): Estimating the dimension of model. The Annals of Statistics, 6, 461 - 464. [107] Shapiro, S. S., Wilk, M. B. (1965): An analysis of variance test for normality(complete samples). Biometrika 52, 591 - 611. [108] Šidák, Z. (1967): Rectangular confidence regions for the means of multivariate normal distributions. J. Amer. Statist. Assoc. 62, pp. 626–633. [109] Štěpán, J. (1987): Teorie pravděpodobnosti. Praha: Academia. [110] Szroeter, J. (1978): A class of parametric tests of heteroscedasticity in linear econometric models. Econometrica 46, 1311 - 1328. [111] Theil, H. (1965): The analysis of disturbance in regression analysis. J. Amer. Statist. Assoc. 60, 1067 - 1079. [112] Theil, H. (1971): Principles of Econometrics. New York: J.Wiley & Sons. [113] Vandaele, W. (1978): Participation in illegitimate activities: Erlich revisted. In Deterrence and incapacitation, Blumstein,A., Cohen, J., Nagin, D., eds. Washington. D. C.: National Academy of Sciences, 270 - 335. [114] Vı́šek, J. Á (1996 a): Sensitivity analysis of M -estimates. Annals of the Institute of Statistical Mathematics 48(1996), 469-495. [115] Vı́šek, J. Á (1996 b): On the coefficient o determination: Simple but ... . Bulletin 5/1996 of the Czech Econometric Society, 117 - 124. [116] Vı́šek, J. Á (1996 c): On high breakdown point estimation. Preprint. Computational Statistics (1996) 11:137-146, Berlin. [117] Vı́šek, J. Á (1997 a): Data subsample influence in M -estimation of the non-linear regression model. Preprint. [118] Vı́šek, J. Á (19967 b): Robust constrained combination of forecasts. Working paper presented on The Econometric Society European Meeting, Bogazi University, Istanbul 25 - 29 August, 1996. 179 [119] Vı́šek, J. Á (1997 c): Combining the forecasts by their decomposition. Proceedings of the Mathematical Methods in Economics, Ostrava, September 9 - 11, 1997, pp. 188 - 193. [120] Vı́šek, J. Á (1997 d): On the diversity of estimates. Submitted to Computational Statistics and Data Analysis. [121] Vı́šek, J. Á (1997 e): Contamination level and sensitivity of robust tests. Handbook of Statistics, volume 15, 633 - 642, eds. G. S. Maddala & C. R. Rao. [122] White, H. (1980): A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroscedasticity. Econometrica 48, 817 - 838. [123] White, H., MacDonald, G. M. (1980): Some large-sample tests for non-normality in the linear regression model. Journal of the American Statistical Association 75, 16 - 28. [124] Wickens, M. R. (1972): A note on the use of proxy variables. Econometrica 40, 759–761. [125] Willan, A. R., Watts, D. G. (1978): Meaningful multicollinearity measures. Technometrics 20, 407 - 411. [126] Working, E. J. (1927): What do statistical demend curves show. Quarterly Journal of Economics 39, 503 - 545. [127] Zellner, A., Lee, T. H. (1965): Joint Estimation of relationships involving discrete random variables. Econometrica 33, 382 - 394. [128] Zv ara, K. (1989): Regresnı́ analýza (Regression Analysis – in Czech). Praha: Academia. 180 13 Autorský rejstřı́k 181 Index Aguilar, L. 171 Aigner,D. J. 144 Akaike, H. 60, 87 Amemiya, T 79, 80, 139, 140 Anderson, J. R. 80 Anderson, T. W. 91, 95 Anděl, J. 51, 97, 131, 163 Askin, R. G. 124 Bartlett, M. S. 81 Belanger, A. 87 Belsley, D. A. 123 Bera, A. K. 85 Berndt, E. 19, 49, 51 Beuchamp, J. J. 36 Bohr, N. 7 Bolch, B. W. 86 bonyhady, B. P. 80 Boscovitch, R. J. 10 Bowden, R. J. 97 Bowman, K. O. 85 Bradley, E. L. 36 Breiman, L. 142 Breusch, T. S. 80, 81 Carroll, R. J. 15 Charnes, A. 36 Chatterjee, S. 16, 17, 64, 101 Cramer, H. 30, 31 Chow, G. C. 58 Clemen, R. T. 115 Cochran, W. G. 87 Cook, R. D. 80 D’Agostino, R. B. 85 Daly, F. 19 Dhrymes, P. J. 139 Draper, N. R. 163 Durbin, J. 83, 88, 90 Eicker, F. 76 Farrar, D. E. 123, 124 Fisher, R. A. 44, 85 Friedman, J. 142 Friedman, M. 95 Friedman, R. 123 Froehlich, B. R. 79 Frome, E. L. 36 Galilei, G. 8, 10 Galton, F. 10 Gauss, C. F. 10, 24 Glauber, R. R. 123, 124 Glivenko, V. I. 72 Gődel, K. 8 Goldberger, A. S. 99 Goldfeld, S. M. 81 Granger, C. W. J. 12 Greene, W. H. 98 Griffiths, W. E. 25, 80, 83, 85, 86, 92, 139, 148 Gunst, R. F. 13, 109 Hadi, A. S. 16, 17, 64, 101 Hand, D. J. 19 Hampel, F. R. 85, 87, 128, 129 Hartley, H. O. 87 Harvey, A. C. 77, 79 Hausman, J. 98 Hensher, D. 139 Hess, J. L. 14 Hettmansperger, T. P. 14 Hewitt, E. 13 Hill, R. C. 25, 80, 83, 85, 86, 92, 139, 148 Hoerl, A. E. 67 Huang, H. C. 95 Humphreys, R. M. 22 Jarque, C. M. 85 Johnson, L. 139 Judge, G. G. 25, 80, 83, 85, 86, 92, 139, 148 Just, R. E. 80 Kant, I. 8 181 Kennard, R. W. 110 Kendall, M. G. 81 Kiefer, N. M. 85 Kmenta, J. 19, 80, 83, 92, 148 Kuh, E. 123 Kuhn, T. S. 24 Kullback, S. 60 Kumar, T. K. 123 Kutner, M. H. 36 Laplace, P. S. 10 Leamer, E. 123 Lee, T. C. 25, 80, 83, 85, 86, 92, 139, 148 Legendre, A. M. 10 Leroy, A. M. 14, 128 Liviatan, N. 97 Locke,C. 85 Lopuhaa̋, H. P. 129 Lunn, A. D. 19 Lűtkepohl, H. 25, 80, 83, 85, 86, 92, 139, 148 MacDonald, G. M. 85 Mallows, C. L. 60 Mason, R. L. 14, 109 McCllum, B. T. 145 McConway, K. 19 McFaden, D. 139 Miles, J. A. 85 Montgomery, D. C. 121 Mulholland, H. P. 87 von Neumann, J. 82, 90, 91 Olshen, R. A. 142 Orcutt, G. H. 87 Ostrowski, E. 19 Pagan, A. R. 79, 80, 81 Pearson, E. S. 85, 87 Peck, E. A. 121, 128 Pitman, E. J. G. 91 Popper, K. 8 Powell, J. 140 Prais, S. J. 73, 87 Press, S. 140 Price, B. 18 Prigogine, I. 8, 9 Quand, R. E. 81 Raj, B. 79 Rao, R. C. 27, 28, 30, 36, 72, 163 Ronchetti, E. M. 85, 87, 128, 129 Rousseeuw, P. J. 15, 85, 87, 128, 129 Rubio, A. M. 171 Ruppert, D. 15 Salmon, M. 85 Saniga, E. M. 85 Scheffe, H. 163 Shapiro, S. S. 86 Sheather, S. J. 14 Smith, H. 163 Snee, R. D. 109 Spurrier, J. S. 85 Srivastava, V. 79 Stahel, W. A. 85, 87, 128, 129 Stone, C. J. 142 Stromberg, K. 13 Stengers, I. 8, 9 Stuart, A. 81 Szroeter, J. 82 Šidák, Z. 53 Štěpán, J. 27, 28 Theil, H. 73, 77, 86 Turkington, D. A. 97 Upadhyaya, S. 79 Vandaele, W. 19 Varadarajan 28 Vı́šek, J. Á. 106, 119, 121, 128, 171 Watson, G. S. 83, 88, 90 Watts, D. G. 123 Webster, J. T. 109 Weisberg, S. 80 Welsch, R. E. 123 White, H. 76, 83 182 Wickens, M. R. 145 Wilk, M. B. 86 Willan, A. R. 123 Wilson, S. 140 Winsten, C. B. 87 Working, E. J. 98 Yu, P. L. 36 Zellner, A. 139 Zhao, LC. 28 Zvára, K. 25, 61, 92, 114 183 14 Věcný rejstřı́k 184 Index absolutnı́ člen 21, 69, 70 Aitkenův odhad 74, 130, 159 analýza variance 160 dvojné třı́děnı́ 160, 164 jednoduché třı́děnı́ 160 normálnı́ rovnice 161 okrajová podmı́nka 160, 164 testovánı́ submodelu 163 rozklad součtu čtverců pro jednoduché třı́děnı́ 163 pro dvojné třı́děnı́ 169 nadbytek parametrů v modelu 164 analýza diskriminačnı́ 140 faktorová 114 hlavnı́ch komponent 114 CAPM (capital asset pricing model) 50 data homogennı́ 68 normalizovaná 66 diagnostické nástroje 69, 106 dolnı́ Rao-Cramerovy hranice 30 Durbin-Watsonovo lemma 90 Durbin-Watsonova statistika 90, 92 dolnı́ kritická hodnota D-W 83 hornı́ kritická hodnota D-W 83 efekt podurčenı́ 101 přeurčenı́ 103 faktory 11 faktorový prostor 11 Feller-Lindebergova věta 28 Fisher-Cochranovo lemma 45, 52 Fisher-Snedecorovo F 52 fluktuace, nezávislost 129 graf diagnostický 69 stabilizace 114 reziduı́ 71 proti indexu (index plot) 72 proti normálnı́m kvantilům (normal plot) 72 proti predikované střednı́ hodnotě vysvětlované proměnné 72 heteroskedasticita 72, 80 hladina významnosti 68 homoskedasticita 72, 80 hřebenová regrese (ridge regression) 110 hypotéza Friedmanova, stálého důchodu 95 chyby předpovědi 118 instrumentálnı́ proměnné 93 interkvantil 63 interval spolehlivosti 53 kauzalita 11 koeficient determinace 49, 63 upravený (adjusted) 61 velikost 51 kolinearita 25, 65, 69, 107 (multikolinearita) definice 107 determinant matice plánu 109 diagnostické nástroje 107 poměr vlastnı́ch čı́sel 107 kombinovánı́ předpovědı́ časových řad 114 kritérium Akaikeho 60 Mallowsovo Cp 60 Kroneckerovo δ 101 kvadratická forma 44 kvalita předpovědi 118 matice determinant 112 diagonálnı́ 40 184 idempotentnı́ 38, 57 Ocamova břitva 24 index podmı́něnosti 109 odhad interval spolehlivosti 53 Aitkenův 74, 130, 159 korelačnı́ 63 asymptoticky normálnı́ 26 kovariančnı́ 63 dvoustupový 148, 156, 158 odhadů regresnı́ch koeficientů 63 trojstupový 158 nulový determinant 109 inkonsistence β̂ (LS,n) 94 pás spolehlivosti 53 invariance 70 plánu (designová) 20, 21 konsistentnı́ 26 kolinearita 25, 65, 69, 107 kvadratický 42 plná hodnost 25, 106 lineárnı́ 13, 26 poměr vlastnı́ch čı́sel 109 maximálně věrohodný 30, 148 pozitivně definitnı́ 39 metodou nejmenšı́ch čtverců 22, 24, 55, 74 pozitivně semidefinitnı́ 39, 108 naivnı́ 143 projekčnı́ (hat) 36 nejlepšı́ nestranný 30 diagonálnı́ prvky 62, 64 nestranný 26, 42 rozdı́l projekčnı́ch matic 56, 57 rozptylu 46, 68 singulárnı́ rozklad 108, 109 střednı́ kvadratická odchylka 68, 110 spektrálnı́ rozklad 41 studentizované, regresnı́ch koeficientů 46 vlastnı́ čı́slo 39 studentizovaný 66 vlastnı́ vektor 39 vychýlenı́ 110 medián 63, 64 omezenı́ mediánová absolutnı́ odchylka 64 lineárnı́ 114 metoda nejmenšı́ch čtverců 22, 24, 58 náhodná 120 model P -hodnoty 69 adekvátnost 68 pás spolehlivosti 53 interpretace 105 pákový efekt 25, 106 s geometrickou strukturou regresnı́ch koeplná hodnost 24 ficientů 94 podmı́nka okrajová 160, 164 s náhodnými chybami měřenı́ u vysvětlujı́cı́ch podurčenı́ modelu 101 proměnných 95, 142 pozorovánı́ s nekonečným počtem zpožděnı́ 97 leverage points (pákový bod) 22, 30 multikolinearita - viz kolinearita odlehlá (outliers) 22, 30 nejmenšı́ čtverce 22, 24, 58, 143 vlivný bod 22, 106 nezávislost předpoklad statistická 12 nezávislosti fluktuacı́ 129 náhodných fluktuacı́ 87 normality reziduı́ 46, 47, 49 normalita fluktuacı́ 30, 85 přeurčenı́ modelu 101 šikmost 87 Pythagorova věta 51 špičatost 42, 87 regresnı́ model 11 nosiče 11 absolutnı́ člen (intercept) 21 pevné 67 185 role absolutnı́ho členu 69 signifikantnost absolutnı́ho členu 70 binárnı́ 131 fluktuace (náhodné) 12, 14, 20, 130 interpretace 105 interval spolehlivosti 53 koeficienty 12, 22, 63 koeficient determinace 49, 63 upravený (adjusted) 61 kolinearita 25, 65, 69, 107 definice 107 kvalita 118 lineárnı́ 13, 21 lineárnı́ pravděpodobnostnı́ 131 logitový 137 maticový zápis 22 normalita fluktuacı́ 30, 85 P -hodnoty 69 parametry 12 pás spolehlivosti 53 penalizace za bohatý model 60 Akaikeho kritérium 60 Mallowsovo kritérium Cp 60 pevné nosiče 67 podurčenı́ modelu 101 probitový 135 přeurčenı́ modelu 103 regresory 11 spolehlivost, adekvátnost 62 submodel 56 šum 12 testovánı́ submodelů 56, 58, 131 výběr 59 zobecněný 129, 130 reziduálnı́ součet čtverců 42, 47, 49, 57, 69 reziduum 21 BLUS 86 heteroskedasticita 72, 80 homoskedasticita 72, 80 nezávislost náhodných fluktuacı́ 129 normalita 46, 47, 49 volatilita 80 rovnice normálnı́ 147 simultánı́ 11, 95, 148 analýza identifikovanosti koeficientů 153 neomezené (unrestricted) 152 odhad dvoustupový 148, 156, 158 odhad trojstupový 158 omezené (restricted) 152 podmı́nka na počet parametrů 154 podmı́nka na hodnost matice 154 podmı́nka identifikovatelnosti koeficientů pomocı́ omezenı́ 155 problém identifikace 152, 159 redukovaný tvar 148 strukturálnı́ tvar 148 typy soustav rovnic 152 zdánlivě nesouvisejı́cı́ 145, 159 rozptyl 62 reziduı́ 63 Shapiro-Wilkova statistika 86 silný zákon velkých čı́sel 27 simultánı́ rovnice 11, 95, 148 Sluckého věta 28 Studentovo t 47 střednı́ hodnoty 62 stupně volnosti 63 šikmost 87 špičatost 42, 87 test Bartlettův 82 Breusch-Paganův 81 Chowův 58 Durbin-Watsonův 83 Farrar-Glauberův 62 Goldfeld-Quandtův 82 heteroskedasticity, v přı́padě korelovanosti fluktuacı́ 84 Shapiro-Wilkův 86 Szroeterova třı́da 82 Whiteův 82 testovánı́ shodnosti regresnı́ch modelů 58 186 submodelů 56, 58 těžiště dat 68 veličina endogenı́ 11 exogenı́ 11 koncová 11 lagged endogenous 11 posunuté endogenı́ 11 predeterminovaná 11 proxy 144 výstupnı́ 11 vysvětlovaná 11 vysvětlujı́cı́ 11 absolutnı́ velikost 67 diskrétnı́ 130 kvalitativnı́ 130 měřené s chybami 95, 142 náhodné 14 nepřı́stupná 144 vypuštěnı́ 69 vlastnı́ čı́slo 39 vlastnı́ vektor 39 vlivný bod 22, 106 volatilita 80 vypuštěnı́ proměnných 69 výstupy z počı́tačových knihoven 61 změna ve sklonu regresnı́ nadroviny 69 v predikci 69 zobecněný odhad metodou nejmenšı́ch čtverců 74 s odhadnutými parametry 75 187