Přednáška 11

Transkript

Přednáška 11
5EN306
Aplikované kvantitativní metody I
Přednáška 9
Zuzana Dlouhá
Předmět a struktura kurzu
1. Úvod: struktura empirických výzkumů
2. Tvorba ekonomických modelů: teorie
3. Data: zdroje a typy dat, význam popisných charakteristik
4. Vicenásobná regrese v ekonomické analýze
5. Vicenásobná regrese: DUMMY proměnné a jejich interakce
6. Difference in differences estimator
7. First Differencing a Fixed Effects
8. Instrumentální proměnné, Panelová data
9. Testy robustnosti
10. Úvod do časových řad (zbyde-li čas)
•
témata se prolínají
2
Panelová data (First differencing, Fixed Effects,…)
•
•
•
minule: instrumentální proměnné
identifikační strategie = způsob, jakým výzkumník využívá
napozorovaná data (tedy data negenerována náhodně) k přiblížení se
k reálnému (přirozenému) experimentu
pozorovaná korelace X a Y nemusí nutně znamenat existenci kauzality
z důvodu možné existence nepozorovaných faktorů
Panelová data
• data, u kterých opakovaně pozorujeme charakteristiky statistických
jednotek:
– roční míra nezaměstnanosti každého státu za několik let
– čtvrtletní prodeje každé z poboček Tesca za několik čtvrtletí
– mzda jedince v několika zaměstnáních
• podstata – měříme stále stejnou statistickou jednotku (na rozdíl od
„pooled cross-section data“ – náhodný výběr)
• definice vyrovnaného a nevyrovnaného panelu (balanced /
unbalanced)
• krátký vs. dlouhý panel (práce s krátkými panely je podobnější práci s
průřezovými údaji, práce s dlouhými panely práci s časovými řadami)
• Wooldridge – kap. 13 a 14
3
Unobserved heterogeneity (unobserved effect)
•
•
•
•
•
•
•
•
forma omitted variable bias
problém k řešení: statistické jednotky i (jedinci, domácnosti, firmy,
státy,…) se od sebe můžou lišit o specifické charakteristiky, které jsou
v čase neměnné (nebo téměř neměnné):
– demografické
– geografické atd.
to má vliv na měřenou (závislou) veličinu
úrovňová konstanta pro každou ze statistických jednotek
unobserved effect model nebo fixed effect model (v čase neměnné)
příklad
– crime rate (různé způsoby reportování zločinů v různých státech
USA, lokace)
– mzda vs. vzdělání (různá barva pleti, genetická zátěž, sociální
zázemí apod.)
neměřitelné vlivy (neměřitelný vliv je náhodná složka) tak dělíme na
– v čase neměnné – fixed effects
– v čase proměnlivé – náhodná složka uit
jak bychom to řešili (odhad modelu)?
– přidat regresory?
– binární proměnné?
4
Vymezení problému
•
•
panelová data (datová kostka)
základní model:
yit     t   xit  wit
– je zde problematizován heterogenitou jednotek:
yit     t   xit  ai  uit
– kde wit = ai + uit,
ai = fixní, nepozorovaný efekt (nemění se v čase, ale je jiný
pro každou pozorovanou jednotku) – také
nepozorovaná či individuální heterogenita
uit = idiosynkratická chyba
•
•
•
•
•
ai ovlivňuje Y a může být korelována i s X!
ai jsou konstantní v čase, neměřitelné
i když uit a xit jsou nekorelované, problém, pokud ai a xit korelované, tj.
platí, že E(aixit) ≠ 0
omitted variable bias = heterogeneity bias
pozn.: trend může být definován formou dummies
5
First differencing (první diference)
•
•
•
princip: diference sousedních časových period
ztrácíme jedno období pro každou jednotku (n)
nejjednodušší - pro dvě časové periody
yi  0   0 d 2t  1 xit  ai  uit
Period 2: yi 2  (  0   0 )  1 xi 2  ai  ui 2
Period 1: yi1   0  1 xi1  ai  ui1
First-differencing:
yi 2  yi1   0  1 ( xi 2  xi1 )  ui 2  ui1

•
yi 2   0  1 xi 2  ui 2
fixní efekty jsou odstraněny (stále ale mohou být v čase proměnné
faktory, které v modelu nemáme)
6
First differencing (první diference)
Předpoklady
• Δui není skorelované s Δxi (platí, pokud je uit nekorelovaná s xit v
každém t)
• nenastáva podstatná heterogenita proměnlivá v čase
• homoskedasticita Δui
• pro více časových period neautokorelace Δuit
• Δxi musí mít nějakou variabilitu přes i (problém, pokud x se v čase
nemění nebo se mění o stejnou hodnotu – neodseparujeme od ai) –
příklad?
Nedostatky
• redukce variability x (ztrácíme informaci)
– někdy se dá do určité míry obejít velkým počtem pozorování)
– někdy se používají diference přes delší časové periody
– hodně nízká variabilita (vysoké standardní chyby)
• některé charakteristiky se v čase vůbec nemění, či o konstantu – nelze
je použít (nelze je odseparovat od ai)
• ztráta n pozorování
• stále tu mohou být faktory v čase proměnné
7
First differencing (první diference)
Více časových period
• nezbavíme se faktoru času
• musíme řešit autokorelaci Δuit pro t = 2, 3, …
– pokud je uit neautokorelovaná, pak Δuit autokorelovaná je:
– sousední pozorování náhodné složky ve FD
uit – uit-1 a uit+1 – uit
•
•
pokud uit ~ AR(1) → pak Δuit autokorelované
pokud uit ~ RW → pak Δuit nekorelované
8
First differencing – příklad 1 – mzda
•
•
•
příklad s více nezávislými proměnnými
závislá proměnná:
yit = logaritmus mzdy pracovníka i v čase t
nezávislé proměnné:
xit1 = lokální míra nezaměstnanosti pracovníka i v čase t
xit2 = počet měsíců zkušeností pracovníka i v čase t
xi3 = počet let vzdělání pracovníka i (v čase neměnná!!!)
ai = talent pracovníka i (neměřitelná a zároveň v čase
neměnná)
Δyi2 = δ0 + β1Δxi21 + β2Δxi22 + Δui2
• xi3 – počet let vzdělání + ai – talent pracovníka jsme metodou FD
odstranili!!!
• Δxi22 bude rovna 12 pro skoro všechny pracovníky (méně než 12 pro
nezaměstnané) → nízká variabilita → nepřesně odhadnut koeficient β2
→ vysoké standardní chyby
• významný heterogeneity bias!!!
9
First differencing – příklad 2 – kriminalita
•
•
•
•
míra kriminality: období 1982 a 1987
46 měst USA
míra nezaměstnanosti (v %) a míra kriminality (počet zločinů na 1000
obyvatel)
hledám negativní vztah a významnost!!!
•
rok 1987
po FD
Interpretace
• 15,4 = nárůst kriminality o 15,40 na 1000 obyvatel
• mezi obdobími 1982 až 1987 bez změny nezaměstnanosti
• 2,22 = vzroste-li nezaměstnanost o 1 %, vzroste počet zločinů o 2,22
na 1000 obyvatel
10
First differencing – příklad 3 – školení
Účastníci školení
• měřím kauzální efekt účastníků školení
• nezávislé proměnné – účast na školení, individuální charakteristiky,…
• závislá proměnná – mzdy, produktivita práce,…
• t = 2 … období po absolvování školení
yit     d 2t   progit  ai  uit , t  1, 2
•
•
•
first differencing model:
yi    progi  ui
model OLS:
  ytreat  ycontrol
náhodná složka vit = ai + uit kontroluje v čase neměnné charakteristiky
firem:
• účastník školení: progit = 1
• nezúčastnil se školení: progit = 0
11
Fixed effects model
•
•
•
přístup č. 2 k dohadu panelových dat
Jak odseparovat fixní efekty ai + neztratit pozorování?
uvažujme model:
– zprůměrujme rovnici v čase pro každé i:
kde např.:
•
odečtu obě rovnice od sebe
•
•
•
•
tímto jsme odstranili fixní efekty ai
poslední rovnice je tzv. „time-demeaned“
odhadneme „pooled“ data OLS metodou
tento estimátor se nazývá within-estimátor, protože využívá rozptyl v
čase v rámci (within) průřezových jednotek
pokud bychom odhadli model přímo z průměrů (neodečetli bychom
rovnice mezi sebou) metodou OLS, jednalo by se o betweenestimátor – není nestranný
•
12
Fixed effects model
Předpoklady
• opět striktní exogenita xit
• homoskedasticita uit
• neautokorelace uit (musíme řešit i pro 2 periody)
Nedostatky
• ztratíme proměnné konstantní v čase (wage = f(sex, race,…)
• proměnné konstantní v čase můžeme použít v interakcích
(educ*časová dummy)
• proměnné měnící se o konstantu – neodlišíme od trendu
• jestli do modelu dáme všechny časové dummies, nemůžeme
odhadnout efekt proměnných, jejichž změna v čase je konstantní
(např. počet let zkušeností)
• počet stupňů volnosti je N*T-N-k (tato úprava je nutná, protože navíc
odhadujeme N*průměry)
13
Fixed effects model
Předpoklady
• opět striktní exogenita xit
• homoskedasticita uit
• neautokorelace uit (musíme řešit i pro 2 periody)
Nedostatky
• ztratíme proměnné konstantní v čase (wage = f(sex, race,…))
• proměnné konstantní v čase můžeme použít v interakcích
(educ*časová dummy)
• proměnné měnící se o konstantu – neodlišíme od trendu
• jestli do modelu dáme všechny časové dummies, nemůžeme
odhadnout efekt proměnných, jejichž změna v čase je konstantní
(např. počet let zkušeností)
• počet stupňů volnosti je N*T-N-k (tato úprava je nutná, protože navíc
odhadujeme N*průměry)
Pozitiva
• neztrácíme pozorování
• po FE odhadu můžeme fixní efekty odhadnout:
14
Fixed effects model nebo First difference?
•
když T = 2, FE a FD jsou identické
•
když T > 2, FE je vydatnější než FD, pokud jsou splněny předpoklady
KLRM
•
pokud náhodná složka uit neautokorelovaná, pak lepší FE
•
pokud náhodná složka uit generována RW, pak lepší FD
•
obecně se spíše používají FE, ale je vhodné aplikovat obojí a
porovnávají se výsledky
•
pokud dlouhé časové řady (T velké) a problém s nestacionaritou (hrozí
zdánlivá regrese), pak může být FD lepší variantou (speciálně máme-li
málo jednotek)
•
také závisí, zda nás zajímají odhady ai
15
Fixed Effects – příklad – Cornwell, Trumbull (1994)
•
•
•
•
•
Cornwell, Ch., Trumbull, W. N.: Estimating the Economic Model of
Crime with Panel Data; The Review of Economics and Statistics, Vol.
76, No. 2 (May, 1994), pp. 360-366
k dispozici na stránkách: https://webhosting.vse.cz/figlova/5en306/
cíl: zpřesnit odhady elasticit nabídky zločinů (elasticita – proto použili
log-log model):
‒ Pa – pravděpodobnost zadržení
‒ Pc – pravděpodobnost odsouzení
‒ Pp – pravděpodobnost uvěznění
‒ S – závažnost trestu
logicky odhady elasticit by měli být záporné (zvyšují očekávané
náklady nebo-li znižují očekávaný užitek)
dosavadní výzkum:
‒ Ehrlich (1973) -0,52 Pp; -0,59 S;
‒ Carr-Hill &Stern (1973) -0,59 Pp; -0,17 S
16
Fixed Effects – příklad – Cornwell, Trumbull (1994)
• založeno na maximalizaci očekávaného užitku
• rozhodnutí – porovnání výnosů a nákladů
max
•
•
•
•
•
Yi = zisk ze zločinu (monetární ekvivalent)
E(ui) = očekávaný užitek jedince
Fi = monetární ekvivalent trestu v případě dopadení, předpoklad Yi < Fi
pi = pravděpodobnost potrestání
ui = užitková funkce
17
Fixed Effects – příklad – Cornwell, Trumbull (1994)
Data:
• panelová data
• agregátní za jednotlivé kraje Severní Karolína, N = 90; T = 7
Zdroje:
• FBI's Uniform Crime Reports
• věznice
• probation files of the North Carolina Department of Correction
Motivace:
• města mohou mít specifické kulturní a jiná charakteristiky
Zdroje endogeneity:
• unobserved heterogeneity
• simultaneita
Strategie:
• kontrola fixních efektů jednotlivých oblastí – mnoho důvodů k obavám o
odlišnostech
18
Fixed Effects – příklad – Cornwell, Trumbull (1994)
Model
ALL
BETWEEN (průměry)
Fixed effects model
Rit – podíl zločinů zaznamenaných FBI na populaci
Xit – návratnost z legálních aktivit (mzda, věk, rasa,…)
Pit – pravděpodobnosti (zadržení, odsouzení,…)
αi – fixní efekty (můžou být skorelovány s Xit a Pit)
εi – náhodná složka
Between (průměry) – použít v případě, když Xit a Pit jsou neskorelovány s
nepozorovanou heterogenitou (unobserved heterogeneity)
19
Cornwell, Trumbull – odhad Between model
20
Cornwell, Trumbull – odhad Fixed Effects model
F-test:
fixní efekty
jsou
významné
21
Dummy variable regresssion
• další způsob odhadu fixních efektů
• dummy proměnná pro každé pozorování (každou statistickou jednotku)
• máme N+k parametrů
• oproti FE máme hodně odhadovaných parametrů
• relativně vysoký koeficient determinace
22
Random Effects Model
• předpoklad: ai a X nejsou korelovány: cov(ai, xitj) = 0
• za tohoto předpokladu je náhodná chyba ai + uit nekorelovaná s
vysvětlujícími proměnnými, ale je sériově korelovaná pro pozorování
pocházející z jednoho i:
yit     xit  vit , t  1, 2,..., T
vit  ai  uit
• vysvětlující proměnné jsou exogenní, takže „pooled“ OLS estimátor je
konzistentní
• v tomto případě musíme upravit standardní chyby, protože chyby pro
dané i jsou korelovány v čase (clusterované standardní chyby)
• OLS není kvůli sériové korelaci vydatný
• následujícím způsobem můžeme transformovat model, aby splňoval GM předpoklady:
yit   yi   (1   )   ( xit   xi )  ...  (vit   vi ), t  1, 2,..., T
• parametr λ neznáme, ale můžeme ho odhadnout – RE estimátor
23
Random Effects Model
• pokud je náhodný efekt relativně nevýznamný vzhledem k
idiosynkratické chybě, dá RE estimátor výsledek blízký pooled OLS
estimátoru ( λ → 0)
• pokud je náhodný efekt relativně významný vzhledem k idiosynkratické
chybě, dá RE estimátor výsledek blízký FE estimátoru (λ → 1)
• RE estimátor funguje i pro časově invariantní proměnné
• v ekonomii jsou nepozorované individuální efekty málokdy
nekorelované s vysvětlujícími proměnnými, což svědčí ve prospěch FE
estimátoru
• možno otestovat, jestli máme použít spíše FE nebo RE (Hausmanův
test v Gretlu)
24
Cornwell, Trumbull – odhad Random Effects model
25
Cornwell, Trumbull – odhad Random Effects model
Breusch-Pagan LM test:
• zamítam hypotézu o tom, že efekty nejsou náhodné (tj. efekty jsou
náhodné
Hausman test:
• existuje systematický rozdíl mezi FE a RE odhadem
• RE odhady – nekonzistentní, FE odhady – konzistentní (volím)
26
Random Effects Model
Výhody:
• můžeme do modelu vložit proměnné, které se v čase nemění
• neztrácíme stupně volnosti
Nevýhody:
• přísný a silný předpoklad exogenity ai
• v případě, že ai jsou korelovány s některými vysvětlujícími proměnnými
musíme použít FD anebo FEM
27
Shrnutí předpokladů pro FE estimátor
• máme náhodný výběr z průřezových jednotek
• všechny vysvětlující proměnné se aspoň pro některá i mění v čase a
neexistuje perfektní lineární kombinace mezi vysvětlujícími
proměnnými
• regresory jsou striktně exogenní podmíněně na fixním efektu
• rozptyl idiosynkratických chyb podmíněně na všech regresorech je
konstantní
• neexistuje autokorelace mezi idiosynkratickými chybami
• idiosynkratické chyby mají normální rozdělení podmíněně na všech
regresorech
28
Shrnutí předpokladů pro RE estimátor
• máme náhodný výběr z průřezových jednotek
• neexistuje perfektní lineární kombinace mezi vysvětlujícími
proměnnými
• regresory jsou striktně exogenní
• v tom je obsaženo, že E(ai|Xi) = const
• Rozptyl chyb podmíněně na všech regresorech je konstantní
• v tom je obsaženo, že Var(ai|Xi) = const
• neexistuje autokorelace mezi chybami
• chyby mají normální rozdělení podmíněně na všech regresorech
29

Podobné dokumenty

gretl – uživatelská příručka

gretl – uživatelská příručka Zvolíme nezávisle proměnnou, kterou chceme vynést na osu X a klikneme na tlačítko „Vybrat [Choose]ÿ. Následně zvolíme závisle proměnnou(é), kterou(é) vyneseme na osu Y a klikneme na „Přidat [Add]ÿ....

Více

DIPLOMOV´A PR´ACE Marek Mikoška Modely kointegrovaných

DIPLOMOV´A PR´ACE Marek Mikoška Modely kointegrovaných výsledky dosahuje v analýze ekonomických časových řad, které často obsahujı́ stochastický trend. V práci jsme vycházeli z diplomových pracı́ Bittner (2005) a Juráška (2007). Kromě pr...

Více

Pravděpodobnost

Pravděpodobnost Podmnožina F ⊆ 2Ω se nazývá pole (angl.: field) v Ω, pokud platí následující: Ω ∈ F, pokud A ∈ F, pak Ω − A ∈ F (to jest A0 ∈ F) a pokud A, B ∈ F, pak A ∪ B ∈ F. Pole F ⊆ 2Ω se nazývá σ-algebra v Ω...

Více

Přednáška 12

Přednáška 12 5EN306 Aplikované kvantitativní metody I Přednáška 10

Více

Jak na vysokou dostupnost dat a efektivní disaster recovery

Jak na vysokou dostupnost dat a efektivní disaster recovery softwaru, infrastruktury, dodávky elektrické energie, chyby lidského faktoru či zavirování nebo úmyslného útok zvenčí jsou horšího kalibru, a musíme se na ně připravit předem. V  obou případech je ...

Více

Cviceni ze statistiky

Cviceni ze statistiky příjmu na domácnost. Volte lineární aditivní regresní model. (b) Prostřednictvím testu zjistěte zda je tento model celkově statisticky významný. (c) Prostřednictvím testu zjistěte zda lze regresní ...

Více

Přednáška 7 - Webhosting na VŠE

Přednáška 7 - Webhosting na VŠE 5EN306 Aplikované kvantitativní metody I Přednáška 6

Více

Informace ke kurzu 5EN306 ZS2011

Informace ke kurzu 5EN306 ZS2011 Injury Duration: Evidence from a Natural Experiment, American Economic Review, Vol. 85, No. 3, (Jun., 1995), pp. 322-340 http://www.jstor.org/stable/2118177 26.10 Průběžný test*): obsah Přednáška 1...

Více

Více

Více jednodušší). Dle nařízení by ale od okamžiku účinnosti musela banka najednou změnit praxi, na kterou byl obchodník zvyklý, ledaže by požádal banku písemně o dodržení stávající praxe. To je zbytečná...

Více