gretl – uživatelská příručka

Transkript

gretl – uživatelská příručka
Masarykova Univerzita
Ekonomicko-správní fakulta
gretl – uživatelská příručka
Kolektiv autorů
(Jaroslav Bil, Daniel Němec, Martin Pospiš)
podzim 2009
ii
Obsah
Předmluva
ix
1 Úvod
1.1 Co je Gretl? . . . . . . . . . . .
1.1.1 Instalace Gretlu . . . .
1.1.2 Základy práce v Gretlu
1.2 Import dat . . . . . . . . . . .
1.3 Programovaní v Gretlu . . . . .
1.4 Session koncept . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
2
5
7
2 Jednoduchá lineární regrese
2.1 Načtení dat . . . . . . . . .
2.2 Sestrojení grafu . . . . . . .
2.3 Odhad parametrů . . . . . .
2.4 Elasticita . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
14
15
3 Model vícenásobné regrese
3.1 Vytvoření modelu . . . . . . .
3.2 Statistiky modelu . . . . . . .
3.3 Testování parametrů modelu
3.3.1 Multikolinearita . . .
3.3.2 T–test . . . . . . . . .
3.3.3 F–test . . . . . . . . .
3.4 Nelineární rozšíření modelu .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
22
25
25
28
28
34
4 Testování klasických předpokladů
4.1 Normalita reziduí . . . . . . . . . . . . . . . .
4.2 Heteroskedasticita . . . . . . . . . . . . . . .
4.2.1 Testovaní homoskedasticity . . . . . .
4.2.2 Řešení problémů s heteroskedasticitou
4.3 Autokorelace . . . . . . . . . . . . . . . . . .
4.3.1 Testování a řešení . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
39
40
40
44
45
47
Literatura
51
iv
OBSAH
Seznam tabulek
vi
SEZNAM TABULEK
Seznam obrázků
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
Hlavní okno programu Gretl. . . . . . . .
Import dat prostřednictvím GUI Gretlu. .
Záložky nainstalovaných datových zdrojů.
Zobrazení hodnot proměnné y. . . . . . .
Seznam dostupných příkazů. . . . . . . . .
Seznam výpočetních funkcí. . . . . . . . .
Editor skriptů programu Gretl. . . . . . .
Nástrojová lišta Gretlu. . . . . . . . . . .
Ikonický úložný prostor. . . . . . . . . . .
Ukládání obsahu “session” do souboru. . .
Modelová tabulka v okně Gretlu. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
3
4
4
5
6
6
7
8
8
9
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
Otevření datového souboru. . . . . .
Úprava atributů proměnných. . . . .
Okno k editaci atributů proměnných.
Nastavení proměnných k grafu. . . .
Výsledný graf. . . . . . . . . . . . .
Metoda nejmenších čtverců. . . . . .
Nastavení proměnných modelu. . . .
Okno s výsledkem regrese. . . . . . .
Kovarianční matice regresorů. . . . .
Popisná statistika dat. . . . . . . . .
Tabulka popisné statistiky dat. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
13
13
14
15
16
17
17
18
19
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
Řešení modelu vícenásobné regrese. . . . .
Sestavení modelu. . . . . . . . . . . . . . .
Výsledky sestaveného modelu. . . . . . . .
Sestavení ANOVA tabulky. . . . . . . . .
Analýza rozptylu. . . . . . . . . . . . . . .
Zobrazení korelační matice. . . . . . . . .
Sestavení korelační matice. . . . . . . . .
Korelační matice. . . . . . . . . . . . . . .
Sestavení tabulky konfidenčních intervalů.
Konfidenční intervaly koeficientů. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
23
24
24
25
26
27
27
29
29
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
viii
SEZNAM OBRÁZKŮ
3.11
3.12
3.13
3.14
3.15
3.16
3.17
Výsledky F–testu. . . . . . . . . . . . . . . . . .
Vynechání proměnné. . . . . . . . . . . . . . . .
Výběr proměnné k vynechání. . . . . . . . . . . .
Výsledky redukovaného modelu. . . . . . . . . .
Lineární omezení modelu. . . . . . . . . . . . . .
Výsledky modelu s lineárním omezením. . . . . .
Přidání druhých mocnin vybraných proměnných.
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
Výsledky testů normality reziduí. . . . . . . .
Graf reziduí. . . . . . . . . . . . . . . . . . .
Graf reziduí v závislosti na WAGE. . . . . . .
Graf reziduí v závislosti na EDUC. . . . . . .
Graf reziduí v závislosti na EXPER. . . . . .
Výběr příslušného testu heteroskedasticity. .
Robustní směrodatné chyby. . . . . . . . . . .
Výsledky odhadu metodou WLS s robustními
Nastavení časových řad. . . . . . . . . . . . .
Výběr korelogramu reziduí. . . . . . . . . . .
Nastavení maximálního zpoždění. . . . . . . .
Graf ACF a PACF. . . . . . . . . . . . . . . .
Tabulka korelogramu. . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
31
32
33
34
35
36
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
sm. chybami.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
40
41
41
42
42
43
44
46
47
48
49
49
50
Předmluva
Tento text je založen primárně na anglickém, volně dostupném textu Adkinse
[1], který doprovází učebnici základů ekonometrie trojice Hill, Griffiths a Lim
[2]. Jedná se sice o velmi zkrácený (postupně doplňovaný) český překlad Adkinsonovy příručky, nicméně pro základní orientaci v práci s gretlem je dostačující.
x
Předmluva
Kapitola 1
Úvod
V první kapitole se seznámíme se základy programu Gretl, procesem jeho instalace a s popisem základního uživatelského rozhraní.
1.1
Co je Gretl?
Název programu Gretl je zkratkou vycházející z Gnu Regression, Econometrics
and Time-series Library. Jedná sa o softvérový balíček, který obsahuje užitečné
a jednoduše aplikovatelné nástroje ekonometrické analýzy. Potěšující vlastností
je jeho volná dostupnost, díky které si program můžete stáhnout zdarma z internetové adresy gretl.sourceforge.net.
Gretl je možné rozšírit o množství vzorových datových zdrojů a databází
makroekonomických časových řad. Program využívá při výpočtech plejádu účelových odhadových techník, s kterými se postupně obeznámíme v následujících kapitolách. Samozřejmostí je schopnost vykreslovat data do přehledných
grafů, případně generovat textový výstup do standartních formátů (TXT, RTF),
včetně populárního LATEX.
1.1.1
Instalace Gretlu
Práci s programem Gretl začneme jeho instalací. Po stáhnutí instalačního souboru z internetu nebo fakultního serveru a jeho následným spuštěním se aplikace dotazuje na umístění programu a název složky v seznamu nainstalovaných
programů. Ideální je vše ponechat na přednastavených hodnotách, čím sa vyhneme případným problémům při pozdějším instalování dodatečných modulů a
datových zdrojů. Nahrávání těchto doplňků do Gretlu probíhá stejným triviálním způsobem jako jeho samotná instalace(tedy opakovaným stláčením tlačítka
„Nextÿ).
Jelikož v této příručce využijeme příklady z publikace [2], je užitečné naplnit Gretl daty. Spuštěním souboru “POEdata.exe”, nacházejícím se ve složce
2
Úvod
Obrázek 1.1: Hlavní okno programu Gretl.
“gretl - data files”, začneme instalační proces datového zdroje a s využitím výše
uvedeného postupu se dopracujeme k jeho úspěšnému konci.
1.1.2
Základy práce v Gretlu
Stejných výsledků můžeme v Gretlu dosáhnout třemi způsoby: prostřednictvím
grafického uživatelského rozhraní (GUI), konzole na psaní kódu a systémového
příkazového řádku. Poslední z uvedených možností přeskočíme, neboť ji nebudeme využívat.
1.2
Import dat
Prostředníctvím Gretlu můžeme pracovat s velkým množstvím vysoce kvalitních dat z různých ekonometrických učebnic, tak i reálného makroekonomického
prostředí. Na ukázku načítáme do programu údaje z druhé kapitoly [2], představující výdaje na jídlo (za předpokladu, že datový zdroj „OEdata.exeÿ byl
úspěšne nainstalovaný postupem, který je uvedený v sekci 1.1.1). Datová sada
se skládá z dvou proměnných nazvaných x a y. Proměnná y představuje týdenní
výdaje na jídlo v domácnosti a pod x se skrývá týdenní příjem měřený v $100
jednotkách. Z menu lišty hlavního okna Gretlu vybereme položku Soubor >
Otevřít data > Vzorový soubor [File > Open data > Sample file], jak
je vyobrazené na obrázku 1.2.
1.2 Import dat
3
Obrázek 1.2: Import dat prostřednictvím GUI Gretlu.
Alternativně je možné využít rychlejší způsob, a sice kliknout na tlačítko
„Otevřít datový soubor [open dataset]ÿ
v nástrojové liště. Docílíme tak otevření okna s názvem „Datové soubory [data files]ÿ (obrázek 1.3), které obsahuje
záložky reprezentující datové zdroje už nainstalované do Gretlu. Přejdeme na
záložku „PoEÿ, vybereme datovou sadu pojmenovanou „foodÿ a klikneme na
tlačítko „Otevřít [open]ÿ
ve vrchní části okna. Tato operace nám zabezpečí načtení dat týkajících se výdajů domácností na jídlo do Gretlu. V tomto
okamžiku stačí pro zobrazení hodnot proměnné y vybrat v menu lišty Data >
Ukázat hodnoty [Data > Display values] (obrázek 1.4).
Pokud si přejeme zobrazit hodnoty několika proměnných, označíme příslušné
řádky a zopakujeme právě uvedený postup. Přes rozbalovací menu Data můžeme
navíc data editovat, přidávat další pozorování a v neposlední řadě též určit
strukturu datové sady. Struktura určuje, zda pracujeme s časovými řadami,
průřezovými nebo panelovými daty. Výběr vhodného typu je velmi důležitý,
neboť každá datová struktura má charakteristický rozsah dostupných funkcí
pro její analýzu.
Přes volbu Soubor > Otevřít data > Importovat [File > Open data >
Import] je možné nahrát do Gretlu i data jiných formátů (např. z Excelovského
.xls) bez nutnosti instalace datového zdroje. Rovněž je program schopný exportovat datovou sadu do dalších formátů nebo přes volbu Soubor > Databáze >
Na databázovém serveru [File > Databases > On database server]
zpřístupnit obrovské množství dat z internetu.
4
Úvod
Obrázek 1.3: Záložky nainstalovaných datových zdrojů.
Obrázek 1.4: Zobrazení hodnot proměnné y.
1.3 Programovaní v Gretlu
5
Obrázek 1.5: Seznam dostupných příkazů.
1.3
Programovaní v Gretlu
Gretlovské GUI se vyznačuje rychlostí a jednoduchostí použití, i když k náročnějším úlohám je výhodnější využít konzolu na psaní kódu v jazyce Gretl. Tu si
otevřeme buď prostředníctvím tlačítka na nástrojové liště nebo přes Nástroje
> Konzole gretlu [Tools > Gretl console] v menu. Je důležité mít na zřeteli, že jazyk Gretlu rozlišuje velká a malá písmena, takže názvy příkazů musíme psát tak, jak jsou uvedené v seznamu dostupných příkazů (obrázek 1.5).
Ten získáme stlačením příslušného tlačítka
na nástrojové liště, přes menu
v Nápověda > Popis příkazu > Prostý text [Help > Command reference
> Plain text], případně zadáním příkazu help do konzoly. Podobně nápovědu
k požadovanému příkazu vyvoláme napsáním “help název příkazu” (např. help
arima).
K seznamu dostupných výpočtových funkcí (obrázek 1.6) se dostaneme přes
Nápověda > Popis funkce [Help > Function reference].
Nevýhodou konzole programu Gretl je skutečnost, že umožňuje jen postupné
a jednorázové zadávání příkazů. Toto omezení snadno překonáme v editoru
na psani skriptů, přístupného buď přes menu Soubor > Scriptové soubory
> Nový script [File > Script files > New script] nebo tlačítkem
na
nástrojové liště. Editor (obrázek 1.7) slouží na vytvoření série příkazů (v souhrnu označované jako skript), které jsou následně provedeny v jedné dávce stlačením příslušného tlačítka . Skript může být uložen do samostatného souboru
a spuštěná později.
Pokud si nejsme jisti významem konkrétní funkce, stlačením „záchranného
v okně editoru skriptů se kurzor myši obohatí o otázník a následným
kruhuÿ
kliknutím na text neznámeho příkazu vyskočí okno s nápovědou.
Dobrou zprávou je, že všechny příkazy vykonané přes GUI nebo konzoli
6
Úvod
Obrázek 1.6: Seznam výpočetních funkcí.
Obrázek 1.7: Editor skriptů programu Gretl.
1.4 Session koncept
7
Obrázek 1.8: Nástrojová lišta Gretlu.
Gretlu zůstanou zaznamenané v příkazovém protokole, který nájdeme v menu
Nástroje > Výpis příkazu [Tools > Command log].
Pro zopakovaní uvádíme obrázek 1.8 s popisem tlačítek na nástrojové liště
Gretlu.
1.4
Session koncept
Gretl disponuje schopností ukládat modely, grafy a datové sady do společného,
tzv. ikonického úložného prostoru s názvem „relace [session]ÿ. K tomuto prostoru
(obrázek 1.9) sa dostaneme jako obvykle stlačením příslušného tlačítka na nástrojové liště, a samozřejme též přes menu Zobrazit > Zobrazit ikony [View
> Icon view]. Objekty (modely, grafy atd.) je možné do „relace [session]ÿ přidávat výběrem Soubor > Uložit do relace jako ikonu [File > Save to
session as icon] v menu okna (případně vyvoláním kontextové nabídky stisknutím pravého tlačítka myši), které si přejeme uchovat na pozdější použití. Celý
obsah „relace [session]ÿ následně uložíme přes Soubor > Soubory relace >
Uložit relaci [File > Session files > Save session] z hlavního okna
programu Gretl, jak je vyobrazené na obrázku 1.10.
Vraťme se ještě k úložnému prostoru „icon viewÿ (obrázek 1.9). Z názvů jednotlivých ikon vyplývá, že umožňují zobrazení výsledků modelů a grafů, informace o datech a jejich editaci, náhled na souhrnou statistiku a korelace. Pokud
posuneme kurzor myši na ikonu „Tabulka modelu [Model table]ÿ, sestavíme si
přehlednou tabulku dosažených výsledků (obrázek 1.11), kterou můžeme vyexportovat do různých formátů včetně LATEXu. Podobný postup je možné aplikovat
za účelem vytvoření tabulky grafů.
8
Úvod
Obrázek 1.9: Ikonický úložný prostor.
Obrázek 1.10: Ukládání obsahu “session” do souboru.
1.4 Session koncept
Obrázek 1.11: Modelová tabulka v okně Gretlu.
9
10
Úvod
Kapitola 2
Jednoduchá lineární regrese
Připomeňme, že jednoduchý lineární regresní model je tvaru:
yt = β1 + β2 xt + t ,
kde yt je tzv. závisle proměnná, kterou odhadujeme pomocí parametrů β1 a β2
na základě pozorované veličiny xt a t je vektor reziduí, o němž předpokládáme,
že jeho složky mají identické normální rozdělení s nulovou střední hodnotou a
jsou nezávislé. Ještě doplňme, že odhad modelu je založen na metodě nejmenších
čtverců.
2.1
Načtení dat
Po spuštení Gretlu klikněte na Soubor > Otevřít data > Soubor uživatele
[File > Open data > User file] nebo Vzorový soubor [Sample file].
Následně vyberte vámi zvolený datový soubor, s kterým budete chtít dále pracovat. Dále pak klikněte pravým tlačítkem myši a vyberte “Otevřít [Open]” nebo
klikněte na ikonku nahoře vlevo viz obr. 2.1.
Pak by se vám mělo otevřít následující okno obr. 2.2 s uvedením všech
proměnných, které jsou v datovém souboru uloženy popř. i s jejich popiskem.
Budete-li chtít upravit atributy jednotlivé proměnné (např. jak se má daná
proměnná zobrazovat v grafech), pak klikněte na zvolenou proměnnou pravým
tlačítkem myši a zvolte „Upravit atributy [Edit attributes]ÿ. Alternativní postup vede z hlavního panelu přes Proměnná > Upravit atributy [Variable
> Edit attributes]. Mělo by se vám otevřít následující okno, kde můžete jednotlivé atributy pozměnit či doplnit (obr. 2.3).
2.2
Sestrojení grafu
Pro vytvoření grafu nejdříve klikneme na ikonku dole „graf X-Y [X-Y graph]ÿ,
(třetí zprava). Objeví se nám okno jako na obr. 2.4.
12
Jednoduchá lineární regrese
Obrázek 2.1: Otevření datového souboru.
Obrázek 2.2: Úprava atributů proměnných.
2.2 Sestrojení grafu
Obrázek 2.3: Okno k editaci atributů proměnných.
Obrázek 2.4: Nastavení proměnných k grafu.
13
14
Jednoduchá lineární regrese
Obrázek 2.5: Výsledný graf.
Zvolíme nezávisle proměnnou, kterou chceme vynést na osu X a klikneme na
tlačítko „Vybrat [Choose]ÿ. Následně zvolíme závisle proměnnou(é), kterou(é)
vyneseme na osu Y a klikneme na „Přidat [Add]ÿ. Teď už stačí jen potvrdit
tlačítkem „OKÿ a dostaneme požadovanou regresní přímku (obr. 2.5). Křížkem
jsou vyznačeny jednotlivá data,(najetím kursoru na příslušný datový prvek se
zobrazí jeho časový údaj). V levém horním rohu je pak explicitně vyjádřena
rovnice regresní přímky.
2.3
Odhad parametrů
K odhadu parametrů modelu je třeba vybrat z hlavní nabídky záložku Model >
Obyčejné nejmenší čtverce [Model > Ordinary Least Squares] nebo
kliknout na ikonku “OLS model” vpravo dole.
Poté se vám otevře okno podobné tomu jako v případě vykreslování grafu
(obr. 2.7). Stejným způsobem zadáte závisle a nezávisle proměnné. Implicitně
se vám nastaví do modelu konstantní složka,(budete–li odhadovat model, o
němž víte, že by regresní přímka měla procházet počátkem, bude třeba položku
„constÿ ze seznamu nezávisle proměnných odebrat).
Po odkliknutí „OKÿ se vám otevře následující okno s výsledkem (obr. 2.8),
kde v prvním sloupečku jsou uvedeny odhadnuté koeficienty β1 , β2 modelu, ve
druhém směrodatné odchylky těchto odhadů, ve třetím pak realizace testové
2.4 Elasticita
15
Obrázek 2.6: Metoda nejmenších čtverců.
statistiky a konečně v posledním tzv. p–hodnota, která udává (v procentech
×100) maximální možnou hladinu významnosti, za které by nulová hypotéza
(v tomto případě β1 = −384, 105) byla přijata. Počet hvězdiček jen znázorňuje,
jaká by hladina významnosti měla být, aby nulová hypotéza byla přijata (***
- menší než 1%, ** - 1% až 5%, * - 5% až 10%). Pod tabulkou následuje výčet mnoha dalších z modelu vypočtených statistických údajů. Za zmínku stojí
koeficient determinace, který pro připomenutí ukazuje, jak velký díl výchozí variability hodnot závisle proměnné se nám podařilo vysvětlit uvažovanou regresní
závislostí.
K odhadu rozptylů a kovariancí regresorů, tedy kovarianční matice, stačí zvolit z hlavního menu Analýza > Kovarianční matice regresorů [Analysis
> Coefficient covariance matrix], jak ukazuje obr. 2.9.
2.4
Elasticita
Elasticita křivky je koncept, který je ekonomickou teorií poměrně často využíván. Připomeňme, že vyjadřuje míru citlivosti reakce zkoumané veličiny na
změny jiné veličiny. Pokud bychom z našeho ilustrativního příkladu chtěli zjistit
citlivost průměrné spotřeby ke změně důchodu, známý vztah převedeme do této
podoby:
∆E(C)/E(C)
Y
=
= β2
,
∆Y /Y
E(C)
16
Jednoduchá lineární regrese
Obrázek 2.7: Nastavení proměnných modelu.
2.4 Elasticita
17
Obrázek 2.8: Okno s výsledkem regrese.
Obrázek 2.9: Kovarianční matice regresorů.
18
Jednoduchá lineární regrese
Obrázek 2.10: Popisná statistika dat.
kde E(C) a Y nahradíme jejich průměry. Ty získáme tak, že kursorem vybereme zmíněné proměnné (popř. podržením klávesy „Ctrlÿ a zaklikáním všech
potřebných proměnných) a dále v hlavní nabídce najdeme Zobrazit > Popisné
statistiky [View >Summary statistics] jak je ukázáno na obr. 2.10. Alternativní způsob by byl po zatržení proměnných kliknout pravým tlačítkem myši
a z nabídky vybrat Deskriptivní statistika [Descriptive statistics]’.
Otevře se vám tabulka (obr. 2.11), ve které máte pro zvolené veličiny vypočteny střední hodnoty, mediány (prostřední hodnota ze seřazeného seznamu
prvků), minimální a maximální hodnoty, směrodatné odchylky, variační koeficienty, které vyjadřují míru variability a jsou definované jako podíl směrodatné
odchylky a absolutní hodnoty ze střední hodnoty a nakonec koeficienty šikmosti
a špičatosti.
V našem výpočtu elasticity bysme dostali:
= 0, 932738 ×
13803
= 1.03.
12491
2.4 Elasticita
19
Obrázek 2.11: Tabulka popisné statistiky dat.
20
Jednoduchá lineární regrese
Kapitola 3
Model vícenásobné regrese
Tento model je určitým rozšířením předchozího modelu, které spocívá zejména v tom, že nyní budeme pracovat s více než jednou vysvětlující proměnnou.
Obecný tvar tohoto modelu můžeme zapsat následovně:
yi = β0 + β1 xi1 + · · · + βK xiK
i = 1, 2, . . . , N,
kde index i značí jednotlivá pozorování a index k = 1, 2, . . . , K pak jednotlivé
vysvětlující proměnné, a tedy β0 , β1 , . . . .βK jsou parametry jež odhadujeme.
Tento model oproti předchozímu musíme rovnež obohatit o jeden předpoklad,
že libovolnou z vysvětlujících proměnných nejsme schopni vyjádřit jako nějakou
lineární kombinaci ostatních vysvětlujících proměnných (pak by jsme totiž nemohli jednoznačně určit odhadované parametry, protože by existovala celá řada
kombinací bet, která by stejně kvalitně vysvětlovala veličinu y). O tomto problému se obecně mluví jako o problému multikolinearity,(v dusledku existence
korelací mezi vysvětlujícími proměnnými), a prakticky je jím do určité míry
zatížen každý model.
Ještě dodejme poznámku ke správné interpretaci obdrženého modelu. Jednotlivé odhadnuté parametry β1 , . . . .βK udávájí, jak moc se v průměru změní
odhadovaná veličina y, kdybysme o jednotku zvýšili příslušnou (k βk ) vysvětlující proměnnou xk o jednotku, za předpokladu, že ostatní vysvětlující proměnné
se nezmění.
3.1
Vytvoření modelu
Nejprve opět musíme načíst nějaký datový soubor, s kterým budeme chtít pracovat. Zde uvedený ilustrativní příklad najdete ve vzorových datových souborech
Gretlu v záložce Ramanathan pod názvem data6-4 (Salary and employment
characteristics). Kliknutím na ikonku s „íčkemÿ
zjistíte, že tento datový soubor obsahuje informace o mzdách, úrovni vzdělání, věku a počtem roků jež jsou
zaměstnanci u dané společnosti zaměstnáni.
22
Model vícenásobné regrese
Obrázek 3.1: Řešení modelu vícenásobné regrese.
Když už máme datový soubor načtený, můžeme se pustit do sestavení samotného modelu. Postup se prakticky shoduje s případem jednoduché regrese.
Tedy klikneme buď na ikonu „OLS modelÿ v dolní liště nebo vybereme záložku
Model > Obyčejné nejmenší čtverce [Model > Ordinary Least Squares]
(obr. 3.1). Vyskočí nám již známé okno, kde postupně přidáme závisle proměnnou mzdu (WAGE) a do nezávisle proměnných zbývající proměnné (není nutné
a zpravidla ne i optimální do modelu zahrnout všechny dostupné proměnné).
My pro začátek do modelu zahrneme všechny dostupné proměnné: vliv vzdělání,
věrnosti společnosti a věk, tedy k nezávisle proměnným přidáme veličiny EDUC,
EXPER a AGE (obr. 3.2). Poté klikneme na tlačítko „OKÿ a můžeme se podívat
na obdržené výsledky (obr. 3.3), kterým v této kapitolce věnujeme trošku více
pozornosti.
3.2
Statistiky modelu
K výpočtu jednotlivých statistik se často využívá hodnot, jež jsou obsaženy v
tzv. ANOVA tabulce. Tu získame tak, že z okna s modelem klikneme na záložku
Analýza > ANOVA [Analysis > ANOVA]. Otevře se nám pak následující okno s
analýzou rozptylu. Postup je zachycen na obrázcích 3.4 a 3.5.
V prvním sloupci najdeme postupně součet čtverců regrese, reziduií a nakonec celkový součet čtverců, které jsou v literatuře obvykle značeny jako SSR,
SSE a SST . Připomeňme, že SST vyjadřuje kvadratický součet odchylek od
3.2 Statistiky modelu
Obrázek 3.2: Sestavení modelu.
23
24
Model vícenásobné regrese
Obrázek 3.3: Výsledky sestaveného modelu.
Obrázek 3.4: Sestavení ANOVA tabulky.
3.3 Testování parametrů modelu
25
Obrázek 3.5: Analýza rozptylu.
PN
střední hodnoty z pozorovaných dat, matematicky zapsáno SST = i=1 (Yi −
Ȳ )2 , kde Ȳ značí střední hodnotu. SST se rozkládá na součet SSR a SSE, kde
SSR je kvadratický součet
PN odchylek od střední hodnoty z odhadnutých dat,
matematicky SSR = i=1 (Ŷi − Ȳ )2 , kde Ŷ jsou odhadnuté hodnoty pomocí
modelu. Tedy můžeme říci, že SSR udává, vysvětlenou velikost variability z
původních
dat. Ta nevysvětlená je pak zahrnuta v SSE, kterou vyjádříme jako
PN
SSE = i=1 (Yi − Ŷ )2 . V druhém sloupci jsou pak uvedeny příslušné stupně
volnosti. Jejich vydělením pak obdržíme, zde uváděný „střední kvadrátÿ. Významná je zejména střední chyba reziduí, v literatuře značená jako M SE, jež je
s využitím nestrannosti odhadu modelu pomocí metody nejmenších čtverců zároveň odhadem rozptylu reziduí. Poslední hodnota uvedená v ANOVA tabulce
vyjadřuje odhad rozptylu závisle proměnné. Pod tabulkou pak máme vypočtený
koeficient determinace, o nemž jsme se již zmínili dříve včetně postupu k jeho
určení. Nakonec je tam i uvedena hodnota F-statistiky, ale o ní blíže pojednáme
v následující subkapitole.
Vraťme se ještě k výsledkům našeho modelu. Níže uvedené střední odchylky
jsou získány jednoduše jako odmocniny z rozptylu, získaných např. z ANOVA
tabulky. Je zde však zapotřebí upozornit na nepříliš vhodně zvolený výraz pro
střední chybu reziduí, která je v české verzi značena jako S.CH. regrese (v původní angl. verzi tento problém není). Spíše pro zajímavost ještě stručně vysvětleme co je tzv. adjustovaný koeficient determinace. Jedná se o snahu klasický
koeficient determinace očistit (snížit) od skutečnosti, že se koeficient zlepší jen
v důsledku přidání další vysvětlující proměnné do modelu.
3.3
3.3.1
Testování parametrů modelu
Multikolinearita
V úvodu kapitoly jsme se zmínili o problému kolinearity, který vzniká v důsledku
korelace mezi nezávisle proměnnými. Nejjednodušším způsobem jak zjistit, zda
existuje silná korelace mezi proměnnými je, se podívat na korelační matici. Tu
26
Model vícenásobné regrese
Obrázek 3.6: Zobrazení korelační matice.
v Gretlu získáme, když z hlavní nabídky Gretlu vybereme záložku Zobrazit >
Korelační matice [View > Correlation matrix] (obr. 3.6). Otevře se vám
následující okno (obr. 3.7), kde již známým postupem přes tlačítko „Pridatÿ
vyberete proměnné, z nichž budete chtít sestavit korelační matici. Pak již stačí
odkliknout „OKÿ. V našem případě vidíme, že korelace nejsou příliš významné
(obr. 3.8). Nejsilnější lineární vztah je mezi věkem a délkou zaměstnání, jak by se
dalo i očekávat. Nicméně hodnota 0, 4 není natolik vysoká, aby způsobila větší
problémy s multikolinearitou (dle [3] je hodnota závažná jestliže se vyskytne
korelace v absolutní hodnotě větší než 0, 9). To jak daná míra korelace ovlivní
intervaly spolehlivosti jednotlivých parametrů, závisí taktéž na tom, jak velký
máme datový soubor a na velikosti rozptylu jednotlivých proměnných. Pokud
budeme mít malý datový soubor s vysokou variací jednotlivých proměnných,
pak i menší korelace mohou způsobit nevýznamnost jednotlivých parametrů
modelu a naopak. I když tato metoda zjišťování multikolinearity není zrovna
nejtechničtější, tak její síla spočívá zejména v jednoduchosti, a tedy průhlednosti.
Ještě přidejme jednu menší poznámku, že pokud máme model s více jak dvěmi
nezávisle proměnnými, pak jednotlivé korelace mohou být zkresleny od reality
tím, že při jejich výpočtu nejsme schopni dobře rozlišit vzájemný vztah mezi
dvěma proměnnými od vlivu lineární kombinace ostatních proměnných.
3.3 Testování parametrů modelu
Obrázek 3.7: Sestavení korelační matice.
Obrázek 3.8: Korelační matice.
27
28
Model vícenásobné regrese
3.3.2
T–test
T–testy slouží především ke zkoumání významnosti jednotlivých odhadnutých
koeficientů. To zda nulovou hypotézu, že βi = 0 zamítneme (a tedy řekneme,
že na zvolené hladině významnosti není daný koeficient statisticky nevýznamný) můžeme zjistit třemi způsoby:
• pomocí intervalů spolehlivosti,
• porovnáním testové statistiky s kritickou hodnotou,
• pomocí p–hodnoty.
Intervaly spolehlivosti pro jednotlivé parametry modelu získáme jednoduše
tak, že v okně s výsledkem modelu vybereme Analýza > Konfidenční intervaly koeficientů [Analysis > Confidence intervals for coefficients]. Pokud příslušný interval spolehlivosti obsahuje nulu, pak nulovou hypotézu nemůžeme zamítnout. V našem případe tedy nulové hypotézy, že const = 0
a AGE = 0 nemůžeme na hladině významnosti 95% zamítnout. Ze šířky intervalu také můžeme usuzovat o přesnosti odhadu. Čím je daný interval relativně
vůči své střední hodnotě širší, tím je odhad parametru méně přesný (k tomuto
účelu však lépe poslouží směrodatné odchylky parametrů uvedené ve výsledcích
modelu). Změnu hladiny významnosti provedete kliknutím na ikonku „alfyÿ.
Proč se intervaly spolehlivosti při vyšší hladině významnosti rozšiřují a naopak,
ponecháme na promyšlení čtenáři. Postup s výsledky najdete na obrázcích 3.9
a 3.10.
K stejnému zjištění můžeme dojít porovnáme–li hodnoty realizací testových
statistik s kritickou hodnotou. Jestliže absolutní hodnota testové statistiky bude
větší než kritická hodnota, tedy že se realizuje v kritickém oboru, pak nulovou
hypotézu zamítame. Hodnoty testových statistik pro jednotlivé parametry modelu naleznete ve čtvrtém sloupečku v okně s výsledky modelu a kritickou hodnotu pak na prvním řádku okna konfidenčních intervalů spolehlivosti. Ještě udělejme poznámku, jak postupovat v případě alternetivní jednostranné,(pravo či
levostranné) hypotézy (H1 : βi > 0 βi < 0). Jednoduše kritickou hodnotu najdeme tak, že hladinu významnosti nastavíme na dvojnásobek než požadujeme.
V případě levostranné hypotézy navíc využijeme vlastnosti symetrie studentova
rozdělení (tedy si před kritickou hodnotu přimyslíme znaménko minus).
Na závěr jsme si nechali uživatelsky nejpohodlnější metodu založenou na tzv.
p–hodnotě. O ní jsme již pojednali v předchozí kapitole, tak jen krátce shrneme,
že nulovou hypotézu zamítneme, jestliže je p–hodnota nižší než požadovaná
hladina významnosti.
3.3.3
F–test
F–testy lze formálně využít na testování jakékoli hypotézy, kterou lze zapsat
lineární kombinací regresních koeficientů. My se zde hlavně zaměříme na testování významnosti modelu jako celku a na testování podmodelů, které nám
umožní model co nejlépe specifikovat. Kdyby náš model obsahoval irelevantní
3.3 Testování parametrů modelu
Obrázek 3.9: Sestavení tabulky konfidenčních intervalů.
Obrázek 3.10: Konfidenční intervaly koeficientů.
29
30
Model vícenásobné regrese
Obrázek 3.11: Výsledky F–testu.
(z hlediska vysvětlovací síly) vysvětlující proměnné, pak by to vedlo k výšší
variabilitě odhadnutých parametrů. Naopak kdybychom do modelu nezahrnuly
relevantní proměnné, pak by odhady našich parametrů byly vychýlené. Připomeňme ještě matematickou konstrukci F–statistiky:
F =
(SSEu − SSEr )/(Ru − Rr )
∼ F(Ru −Rr ,N −Ru ) jestliže je H0 pravdivá,
SSu /(N − Ru )
kde N je počet pozorování, R = K + 1 je počet regresorů modelu a indexy r a u
značí, zda se jedná o model omezený (restricted ) nebo neomezený (unrestricted ).
Z této konstrukce je dobře vidět, že statistika nabyde nízkých hodnot, což nepovede k zamítnutí nulové hypotézy, jestliže se součty čtverců reziduí zkoumaných
modelů nebudou výrazněji lišit.
Pokud nás zajímá, jestli náš model celkově dobře vysvěluje chování závisle
proměnné, potom vlastně testujeme nulovou hypotézu H0 : β1 , . . . , βk = 0.
Výsledky tohoto testu včetně p–hodnoty jsou k nálezení v okně modelu popř.
pod ANOVA tabulkou. V našem případě je p–hodnota velice nízká, což nás vede
k jednoznačnému zamítnutí nulové hypotézy (obr. 3.11).
Pusťme se do zajímavějšího zkoumání toho, zda nějaké vysvětlující proměnné nejsou v našem modelu nadbytečné. Z výsledků našeho modelu jako největší
kandidát na vyřazení se jeví parametr AGE. V Gretlu se s tím jednoduše vypořádáme tak, že v okně s modelem najedeme na Testy > Vynechat proměnné
[Tests > Omit variables]. Otevře se nám následující okno, jak je zachyceno
na obr. 3.12 a 3.13.
3.3 Testování parametrů modelu
31
Obrázek 3.12: Vynechání proměnné.
Vybereme proměnnou AGE a přes tlačítko “Přidat” ji dáme do seznamu
proměnných, které budou vynechány. Necháme zatržené políčko Odhadnout redukovaný model (Waldův test sice přinaší stejné výsledky, dokonce je operačně
méně náročný, ale jeho výsledky jsou v Gretlu skromnějšího charakteru). Poté
stačí odkliknout „OKÿ a dostane se nám podrobných informací o výsledcích
testu (obr. 3.14). Tedy nejlepší lineární model, který z dostupných dat můžeme
naestimovat je (můžete si sami vyzkoušet, že odbourání jakékoliv další proměnné
k lepším výsledkům nepovede):
W AGEi = 561 + 143EDU Ci + 42EXP ERi + i
Alternativní přístup, jak sestavit co nejlepší model je ten, že nejprve vytvoříme model s tou(těmi) vysvětlující(mi) proměnnou(-ými), u nichž jsme si
jisti, že budou mít silnou vysvětlovací schopnost a pak postupně model zkoušíme obohacovat o další proměnné, přičemž sledujeme, zda přidání určité nové
proměnné zlepšilo statistiky modelu. K tomu slouží nástroj Přidat proměnné
[Add variables], který najdete hned pod nástrojem Vynechat proměnné. Postup práce je analogický jako při odebírání proměnných, tedy není nutné ho zde
uvádět.
Závěrem se budeme zabývat případem testování složitějších hypotéz. Předpokládejme, že se daná firma chválí tím, že každý dosažený vyšší stupeň vzdělání
(pro jednoduchost budeme předpokládat, že každy další vyšší stupeň vzdělání
je dosažen po třech letech) se u jejich zaměstnanců promítne v nárustu $500
v měsíční mzdě, a že každým rokem jsou zaměstnacům platy navyšovány v
32
Model vícenásobné regrese
Obrázek 3.13: Výběr proměnné k vynechání.
3.3 Testování parametrů modelu
Obrázek 3.14: Výsledky redukovaného modelu.
33
34
Model vícenásobné regrese
Obrázek 3.15: Lineární omezení modelu.
průměru o $50. Naším úkolem bude na základě námi dostupných dat zjistit, zda
chování firmy svědčí o tom, co prohlašuje. Tedy naší nulovou hypotézu, kterou
budeme chtít testovat můžeme zapsat následovně:
H0 : 3 ∗ EDU C = 500, EXP ER = 70
K tomu bude zapotřebí kliknout na Testy > Lineární omezení [Tests > Linear restrictions]. Otevře se vám následující okno (obr. 3.15), do kterého
budeme muset ručně zadat požadovanou testovou hypotézu. Hypotéza se zadává
jako systém rovnic, přičemž by mělo být respektováno to, že na levé straně
rovnice bude nějaká lineární kombinace parametrů a na straně pravé pouze
hodnota. Parametry modelu se zadávají ve formě b[pořadí parametru]. Zde
je nutno si dát pozor, neboť naše β0 odpovídá b[1] atd. . Tedy naší nulovou
hypotézu zapíšeme jako:
3 ∗ b[2] = 500
b[3]
= 70
Pak stačí už jen odkliknout „OKÿ a otevře se nám následující okno (obr. 3.16)
s výsledkem. Vidíme, že i toto na první pohled nadnesené tvrzení nemůžeme na
hladině významnosti 95% (ani 90%) zamítnout.
3.4
Nelineární rozšíření modelu
Zatím jsme zkoumali jen lineární závislosti mezi vysvětlovanou a vysvětlujícími proměnnými. V skutečnosti však může chování závisle proměnné lépe vyjadřovat nějaký jiný funkcionální vztah. Na druhou stranu použitím nějakého
3.4 Nelineární rozšíření modelu
35
Obrázek 3.16: Výsledky modelu s lineárním omezením.
složitého modelu ztratíme jasnou vypovídací schopnost jednotlivých parametrů.
Vyjímku tvoří datové soubory s exponenciálním trendem (v ekonomii je např.
dobrým příkladem Cobb–Douglesova produkční funkce), které po jejich logaritmizaci nabydou lineární podoby, kdy pak při interpratice parametrů stačí
zaměnit slůvko o jednotku s o jeden procetní bod. Krom této log–lineární formy
se v praxi můžeme setkat s tzv. polynomickými modely, kdy obecně jednotlivé
vysvětlující proměnné jsou vyjádřeny ve formě polynomu stupně n (ale většinou
je dostačující použít kvadratickou závislost).
Nyní zkusme náš dosavadní model lépe odhadnout s využitím druhých mocnin vysvětlujících proměnných EDUC a EXPER (u proměnné AGE nemá smysl
uvažovat existenci kvadratického vztahu vzhledem k nevýznamnosti lineárního
vztahu). Tedy náš nový model bude moci být zapsán v následujícím tvaru:
W AGEi = β0 + β1 EDU Ci + β2 EXP ERi + β3 EDU Ci2 + β4 EXP ERi2 + i
Abysme mohli náš nový model sestavit potřebujeme do datového souboru přidat
proměnné EDU Ci2 a EXP ERi2 . V Gretlu to provedeme nejdříve vybráním
požadovaných proměnných a následným najetím kurzoru myši na Přidat >
Druhé mocniny vybraných proměnných [Add > Squares of selected variables], jak to ukazuje následující obrázek 3.17.
Přidání nových proměnných do dosavadního modelu se provede výše popsaným způsobem. Je lepší do modelu proměnné přidávat postupně a přitom
sledovat statistiky modelu (jestliže je model po přidání nové proměnné horší,
tak tuto novou proměnnou do modelu nezahrneme, ale zkusíme přidat další, naopak pokud se náš model vylepší, tak pouze náš model zkoušíme dále obohatit).
Neexistuje však naprosto jednoznačné stanovisko, která by nám vždy řeklo, zda
je nový model lepší nebo horší než ten předchozí. Kromě výsledků, které nám
Gretl při srovnání modelů vypíše je dobré sledovat, jak se mění t–statistiky či
36
Model vícenásobné regrese
Obrázek 3.17: Přidání druhých mocnin vybraných proměnných.
směrodatné odchylky parametrů a hodnotu koeficientu determinace. Může se
stát, že nový model bude lepší vysvětlovací sílu na úkor zhoršení přesnosti odhadů parametrů modelu. Pak závísí především na nás a na požadovaném cíli,
s kterým model budujeme, pro který model se nakonec rozhodneme. Když si
s naším modelem chvilku pohrajete, pak nejlepší forma, které pravděpodobně
dosáhnete bude následující:
W AGEi = 937 + 44EXP ERi + 11EDU Ci2 + i
Z modelu vyplývá, že v daném podniku s délkou zaměstnání roste mzda lineárně,
zatímco s dosaženým vyšším stupněm vzdělání kvadraticky.
Na závěr zkusme ještě obohatit náš uvedený příklad o vlivu vzdělání a věrnosti podniku na průměrnou mzdu. Pro případné zájemce o práci v této firmě by
byla relevantnější informace o kolik procent jim ročně mzda poroste. Proto firma
dodává, že průměrný roční růst mezd je 5%. Zkusme otestovat tuto hypotézu.
Abysme přímo zjistili, jak se každý další rok strávený u této společnosti promítne
v procentním zhodnocení mzdy, musíme náš model odhadnout ve tvaru:
log W AGEi = β0 + β1 EDU Ci + β2 EXP ERi + i
Zlogaritmované hodnoty mezd dostaneme obdobným způsobem jako druhé mocniny tak, že klikneme na Přidat > Logaritmy vybraných proměnných [Add
> Logs of selected variables]. Pak odhadneme výše zmíněný model, na
3.4 Nelineární rozšíření modelu
37
kterém otestujeme hypotézu H0 : β2 = 0.05, kterou v Gretlu zapíšeme jako
b[3] = 0, 051 . V tomto případě již nulovou hypotézu zamítáme.
1V
Gretlu se nepouživá klasická anglická tečková notace nýbrž česká s desetinnou čárkou.
38
Model vícenásobné regrese
Kapitola 4
Testování klasických
předpokladů
V této kapitole si ukážeme některé postupy, které nám poslouží k ověření předpokladů modelu. Pokud některé předpoklady nejsou dodrženy, dochází ke zkreslení
obdržených výsledků. Zaměříme se na testování normality a homoskedasticity
reziduí a v závěru také autokorelace, která bývá spíše spojováná jen s dynamickými modely. V následujících dvou podkapitolách budeme vycházet z lineárního
modelu odhadnutého v předchozí kapitole, který měl následující podobu:
W AGEi = 561 + 143EDU Ci + 42EXP ERi + i
4.1
Normalita reziduí
Dle předpokladů by náhodná složka i , která je pro nás představována rezidui,
měla mít normální rozdělení s nulovou střední hodnotou. Nulové střední hodnoty
bude v případě zahrnutí úrovňové konstaty do modelu vždy dosaženo. Pak pracujeme s dostatečně velkým souborem, tak i s normalitou se nemusíme moc trápit, neboť odhad vektoru parametrů β má asymptoticky normální rozdělení. V
našem případě datový soubor je tvořen 49–ti pozorování, proto ověření normality
bude na místě. Abychom mohli s rezidui pohodlně pracovat, bude vhodné si je
uložit jako další proměnnou. K tomu stačí najet na záložku Uložit > Rezidua
[Save > Residuals]. K otestovaní normality, kdy za nulovou hypotézu bereme,
že rezidua mají normální rozdělení, stačí vybrat Proměnná > Test normality
[Variable > Normality test]. Ukáže se nám okno (obr. 4.1) s výsledky čtyř
různých testů včetně na přednášce uvedeného Jarque-Berova testu, využivajícího koeficientu šikmosti a špičatosti. Vidíme, že nulová hypotéza je zamítnuta
jen v případě Lillieforsova testu. Tedy můžeme říct, že předpoklad normality
reziduí je pro náš model přípustný. Pokud bychom chtěli si Gretlovský výpočet
ověřit ručně, tak potřebné koeficienty získáme z tabulky popisných statistik,
k níž se dostaneme přes Zobrazit > Popisné statistiky [View > Summary
40
Testování klasických předpokladů
Obrázek 4.1: Výsledky testů normality reziduí.
statistics] (mj. zde můžeme ověřit nulovost střední hodnoty reziduí).
Z okna s modelem najetím na Testy > Normalita reziduí [Tests >
Normality of residuals] dostaneme výsledek Doornik-Hansenova testu-jeho
stavbou se zde však zabývat nebudeme.
4.2
4.2.1
Heteroskedasticita
Testovaní homoskedasticity
Jedním z nejjednoduších, i když technicky ne zrovna nejpřesnějších způsobů, je
podívat se čistě na graf reziduí a okem usoudit zda rozptyly můžeme považovat
za homoskedastické. Graf jednoduše dostaneme, když v okně s modelem najedeme na Grafy > Graf reziduí > Podle čísla pozorování [Graphs > Residual graph > Against number of observations]. Pokud bychom chtěli
na grafu něco poupravit, nyní se např. může nabýzet úprava pro lepší znázornění na schodovity tvar. Té bysme docílili kliknutím na graf a z možností vybrali
Editovat [Edit] a v nově otevřeném okně vybrali záložku Čáry [Lines], kde
jako typ čáry zvolíme Kroky [Steps]. Z grafu vidíme (obr. 4.2), že několika
větších výkyvů složka reziduí dosahuje, i když to není až zas tak dramatické.
Pokud by nás zajímala, zda rozptyl závisí na jednotlivých proměnných, pak
stačí myší najet na Grafy > Graf reziduí > V závislosti na WAGE, EDUC,
EXPER [Graphs > Residual graph > Against WAGE, EDUC, EXPER]. Zde vidíme, že se určitá závislost projevuje (obr. 4.3, 4.4 a 4.5).
Nyní se podívejme na jednotlivé testy, které nám Gretl poskytuje. Ty jsou
dostupné v záložce Testy > Heteroskedasticita [Tests > Heteroskedasticity] a kliknutím na příslušný test, který si přejeme provést (obr. 4.6). Whiteův test patří k obecnější testům, kdy za alternativní hypotézu bereme obecně
4.2 Heteroskedasticita
41
Obrázek 4.2: Graf reziduí.
Obrázek 4.3: Graf reziduí v závislosti na WAGE.
42
Testování klasických předpokladů
Obrázek 4.4: Graf reziduí v závislosti na EDUC.
Obrázek 4.5: Graf reziduí v závislosti na EXPER.
4.2 Heteroskedasticita
43
Obrázek 4.6: Výběr příslušného testu heteroskedasticity.
H1 : σi 6= σ, kdy je pak v našem případě2 odhadován model:
ε̂2i = α1 + α2 EDU Ci + α3 EXP ERi + α4 EDU Ci EXP ERi + α5 EDU Ci2 +
+ α6 EXP ERi2 + νi
Pak výsledná statistika N ∗ R2 , kde N je počet pozorování by měla mít za
platnosti nulové hypotézy chí–kvadrát rozdělení se tupni o jeden méně než je
počet parametrů. Whiteův test s dodatkem pouze mocniny provede stejný test
jen s tím rozdílem, že v odhadovaném regresním modelu jsou vynechány smíšené
členy.
Dalším v Gretlu uvedeným a zde posledně zmíněným je Breusch–Paganův
test. V něm by byla obecně pro náš případ alternativní hypotéza brána ve formě
H1 : σi = h(α1 + α2 EDU Ci + α3 EXP ERi ), kdy za funkci h se obvykle bere
funkce exponenciální nebo lineární, jak je tomu v případě Gretlu. Tedy při
výpočtu je odhadován model:
ε̂2i = α1 + α2 EDU Ci + α3 EXP ERi + νi
2 Obecně jsou v regresi pro rozptyl jako nezávisle proměnné brány všechny nezávisle proměnné a jejich kvadráty z původního modelu plus smíšené součiny těchto regresorů.
44
Testování klasických předpokladů
Obrázek 4.7: Robustní směrodatné chyby.
Potřebná statistika je pak stejná jako u Whiteova testu. Všechny tyto modely
naši nulovou hypotézu zamítají, tedy naše dosavadní výsledky jsou zatíženy
tímto porušením předpokladů.
4.2.2
Řešení problémů s heteroskedasticitou
Jedno z uživatelsky příjemných řešení, jak se s heteroskedasticitou vypořádat
spočívá v tzv. robustních odhadech směrodatné odchylky, kdy odhady směrodatných odchylek parametrů jsou získány z variační matice vektoru parametrů.
Gretl nám to jednoduše umožní tak, že v okně, kde specifukujeme model zatrhneme políčko „Robustní směrodatné chyby [Robust standard errors]ÿ viz.
obr. 4.7. Kliknutím na tlačítko „nastavit [configure]ÿ lze vybrat jednu z odhadovacích technik. Všimněme si, že s využitím robustních odhadů získáme vyšší
směrodatné odchylky parametrů, a tedy i širší intervaly spolehlivosti.
Další z používaných metod a v Gretlu implementovaných je tzv. vážená
4.3 Autokorelace
45
metoda nejmenších čtverců. Tu je možné použít v případě, kdy jsme schopni
odhadnout funkční závislost rozptylu na vysvětlujících proměných. Pro jednoduchost se můžeme omezit pouze na možnou existenci lineárního, či v případě
určitého multiplikačního efektu exponenciálního tvaru. S využítím v předchozích kapitolách již zmíněných technik, dospějeme k tomuto nejlepšímu vyjádření
(i když ne zrovna příliš přesvědčivému):
σi2 = −418784 + 112159EDU C + νi
Kvadrát vektoru vah, který Gretl vyžaduje, je roven převrácené hodnotě výše
odhadnutého rozptylu. Nejdříve si tedy uložíme hodnoty odhadnutých rozptylů
tak, že myší najedeme na Uložit > Vyrovnané hodnoty [Save > Predicted
values]. Převrácené hodnoty pak docílíme najetím na Přidat > Definovat
novou proměnnou...[Add > Define new variable...]. Do otevřeného okna
pak zapíšeme vzorec, kterým bude nová proměnná získána - v našem případě
tedy: prevh = 1/sighat.3 Nyní se již můžeme bez potíží pustit ke stanovení
modelu. Vybereme záložku Model > Další lineární modely > Vážené nejmenší čtverce... [Model > Other linear models > Weighted least
squares...]. Otevře se nám podobné okno, jak je tomu u klasického modelu,
jen s tím rozdílem, že zde je navíc políčko pro váhovou proměnou, do které
přiáme zde značenou proměnnou prevh.4 Pak stačí kliknout na „OKÿ. Otevře se
již známé okno s výsledky (obr. 4.8), které mj. nabízí i srovnání určitých hodnot
s klasickým modelem.
4.3
Autokorelace
V lineárním regresním modelu předpokládáme, že jednotlivá pozorování nejsou
mezi sebou korelována. Tento předpoklad může být porušen zejména v případě,
že pracujeme s časovými řadami. Dochází pak k tomu, že složky nevysvětlené
části modelu (jež je obsaženy ve vektoru reziduí) budou mezi sebou korelovány.
Vliv autokorelace, podobně jako heteroskedasticity, způsobí, že odhady parametrů nebudou nejlepší (tj. s minimálním rozptylem), a že odhady směrodatných
odchylek parametrů nebudou konzistentní. Ke zkoumání autokorelace využijeme příklad z kapitoly o jednoduchém lineárním regresním modelu, kde jsme
odhadovali závislost spotřeby na produktu. Náš odhadnutý model dosáhl této
konečné podoby:
Ct = −384 + 0, 93Yt + t .
Aby Gretl mohl autokorelace testovat, je zapotřebí mít nastaveno, že pracujeme s časovými řadami. Toto nastavení můžeme zkontrolovat (bude-li třeba
3 Pojmenování samozřejmě může být různé, zde jsme novou proměnnou nazvali prevh a
vyrovnané hodnoty rozptylu jsme uložili jako sighat.
4 V našem případě Gretl zahlásí chybu, že váhy obsahují záporné hodnoty. U 40–tého pozorování došlo k tomu, že odhadnutá hodnota rozptylu je záporná. Jelikož až na tuto skutečnost
model vykazoval poměrně dobré vlastnosti, tak tento problém byl zde vyřešen hrubou silou,
a to přepsáním hodnoty 40–té proměnné na hodnotu 0. Provede se to pravým kliknutím na
proměnnou prevh a následným kliknutím na Upravit hodnoty.
46
Testování klasických předpokladů
Obrázek 4.8: Výsledky odhadu metodou WLS s robustními sm. chybami.
4.3 Autokorelace
47
Obrázek 4.9: Nastavení časových řad.
upravit) vybráním záložky Data > Struktura souboru dat... [Data > Data
set structure]. V otevřeném okno zatrhneme Časové řady [Time series] a
klikneme na „Forwardÿ. V dalším okně vybereme délku mezi jednotlivými pozorováními (v našem případě se jedná o roční data) a opět odklikneme „Forwardÿ.
V dalším okně zadáme počateční pozorování (v tomto případě rok 1959). V posledním nabídnutém okně už jen odsouhlasíme délku našich pozorování. Uvedený
postup je pro názornost ukázán na následujících obrázcích (obr. 4.9).
4.3.1
Testování a řešení
Jedním z velmi používaných testů je tzv. Durbin-Watsonova statistika, která
slouží k detekci autokorelace prvního řádu (tedy, že jednotlivá rezidua můžeme
simulovat AR(1) procesem). Durbin-Watsonova statistika nám vrátí hodnotu
mezi 0 až 4, přičemž hodnota v okolí dvojky autokorelaci vyvrací. Nízké hodnoty
ukazují na existenci pozitivní korelace mezi rezidui a naopak vysoké hodnoty
poukazují na negativní korelaci. Dolní a horní limity k určení toho, zda případná hodnota značí existenci autokorelace, jsou pak sestrojovány v závislosti
48
Testování klasických předpokladů
Obrázek 4.10: Výběr korelogramu reziduí.
na počtu pozorování. V Gretlu se pří výše uvedeném nastavení hodnota DurbinWatsonova testu zobrazí přímo v okně s modelem. V našem případě hodnota
0,514 jasně signalizuje existenci pozitivní autokorelace. Kdybychom chtěli znát
připadně p-hodnotu testu (ve spornějších případech), pak je zapotřebí myší najet na Testy > Durbin-Watson p-value [Test > Durbin-Watson p-value].
Dalším z užitečných nástrojů k prošetření autokorelace je tzv. korelogram,
který vykreslí vzájemné korelace mezi rezidui až do zvoleného řádu. V Gretlu ho
získáme vybráním položky Grafy > Korelogram reziduí [Graphs > Correlogram]. Otevře se nám okno, kde je potřeba zadat délku zpoždení, do které
chceme autokorelace zkoumat (zvolme např. 6). Poté se již zobrazí okno se spočtenými autokorelacemi (ACF), tak i parciálními autokorelacemi (PACF),jejichž
hodnoty jsou v grafu vyznačeny červeně. Modrými linkami jsou pak vymezeny
intervaly spolehlivosti, jejichž překročení signalizuje zamítnutí hypotézy o nulovosti příslušného koeficientu. V následujícím okně s tabulkou jsou již jen znázorněné hodnoty vyčísleny (navíc hodnoty Ljung-Box Q statistiky, o níž blíže
pojednávat nebudeme). Uvedený postup je pro ilustraci znázorněn na obrázcích 4.10 – 4.13.
Hodnoty získané z korelogramu potvrzují výsledek Durbin-Watsonova testu,
navíc signalizují i výskyt autokorelace druhého řádu. Kromě výše uvedených testových možností Gretl nabízí i další, které naleznete vybráním Testy > Autokorelace [Test > Autocorrelation].
4.3 Autokorelace
49
Obrázek 4.11: Nastavení maximálního zpoždění.
Obrázek 4.12: Graf ACF a PACF.
50
Testování klasických předpokladů
Obrázek 4.13: Tabulka korelogramu.
Podobně jako v případě opravy heteroskedasticity existují pro případ časových řad tzv. HAC (heteroskedasticity autocorrelated consistent) robustní odhady směrodatných odchylek. Ty v Gretlu získáme stejným způsobem, jako v
případě heteroskedasticity, tedy v okně se specifikací modelu je potřeba zatrhnout políčko Robustní směrodatné chyby [Robust standart errors]5 .
5 Tím, že máme v Gretlu nastaveno, že pracujeme s časovou řadou, tak je automaticko
použito HAC odhadů namísto HC odhadů
Literatura
[1] Adkins, L. C. Using gretl for Principles of Econometrics, 3 ed. Version
1.31, July 2009.
[2] Hill, R. C., Griffiths, W. E., and Lim, G. C. Principles of Econometrics, 3 ed. John Wiley & Sons, 2008.
[3] Koop, G. Introduction to Econometrics, 1 ed. John Wiley & Sons, 2008.

Podobné dokumenty

Operační systémy – test č. 1, Windows

Operační systémy – test č. 1, Windows 46. Spusťte NetShell v interaktivním režimu. Vypište nápovědu, přesuňte se do kontextu routing, vypište seznam všeho, co zde lze zjistit, přesuňte se o kontext výše a ukončete NetShell. 47. XP: V N...

Více

Sedlacek_ATOS

Sedlacek_ATOS zákazníka, využivajícího Smart karty (PKCS#11) o šifrování, autentizaci a digitální podpisy, v přístupu k běžným aplikacím, připravenými na PKI.

Více

pokusy, experimenty a hrátky s fyzikou

pokusy, experimenty a hrátky s fyzikou Cíl naší publikace je zřejmý – zvýšit zájem o přírodní vědy. Právě pokusy považujeme za jednu z nejlepších cest, jak tento úkol splnit. Přírodní vědy se dynamicky rozvíjejí a potřebují stále nové m...

Více

rok 2009 - Česká společnost pro kybernetiku a informatiku

rok 2009 - Česká společnost pro kybernetiku a informatiku Počet výstupů: 1, Podíl: plný (100%), Význam: střední, Dosah: český - národní, Náplň: odborná, Místo konání: Praha, Doba konání: 2.2.2009 14:00:00, Jazyky: český Pracujeme-li s realitou jako s mnoh...

Více

1. trichomonas vaginalis

1. trichomonas vaginalis Kultivace vyžaduje inkubaci vaginálních sekretů 3-5 dnů a každodenní mikroskopické přezkoumání. I přesto, je tato metoda standartní kritérium pro diagnózu TV. Je často využívána ve výzkumu, ale ne ...

Více

Přednáška 11

Přednáška 11 Cornwell, Ch., Trumbull, W. N.: Estimating the Economic Model of

Více