fólie B
Transkript
fólie B
Statistika B Obsah: (1) Analýza závislostı́, (2) Časové řady, (3) Indexy Literatura: - Seger & kol. Statistika v hospodářstvı́ ETC Publishing 1998 - Jarošová, Pecáková Přı́klady k předmětu Statistika B VŠE 2000 Software: Statgraphics, Excel Vyučujı́cı́: Martin Šmı́d, [email protected], 777 605 528 Stránky s informacemi: www.klec.cz/st 1 12. Metody zkoumánı́ závislosti Veličiny x a y jsou nezávislé, pokud se x při různých hodnotách y chová stejně (tj. hodnota x neposkytuje žádnou upřesňujı́cı́ informaci o hodnotě y). Veličiny x a y jsou závislé, pokud se y při různých hodnotách x chová různě (tj. hodnoty x napovı́dá něco o hodnotě y). Exaktnı́ definice viz Statistika A. Přı́klady závislých veličin: - množstvı́ spáleného uhlı́ a teplota v mı́stnosti - vzrůst a váha - doba přı́pravy na zkoušku a jejı́ výsledek - kouřenı́ a zdravı́. Přı́klady nezávislých veličin: - barva vlasů topı́cı́ho a teplota v mı́stnosti - inteligence a vzrůst - počet sladkostı́ věnovaných pedagogovi a výsledek zkoušky - dva následujı́cı́ hody kostkou 2 Závislost může být různě silná: - V laboratornı́ch podmı́nkách množstvı́ spáleného paliva téměř přesně určı́ teplotu ohřı́vaného předmětu (silná závislost) - V běžné mı́stnosti teplota nenı́ přesně určena množstvı́m paliva (závisı́ též na dalšı́ch faktorech - středně silná závislost) - V mı́stnosti s dokořán otevřenými okny je teplota ovlivněna kamny jen velmı́ málo (slabá závislost). Pozor, (statistická) závislost nedokazuje přı́činnost (topenı́ sice způsobuje teplo, váha však nezpůsobuje vzrůst). Statistická závislost se zkoumá za pomoci vhodného testu založeného na několikanásobném pozorovánı́ zkoumaných veličin. 3 Závislost kategoriálnı́ch veličin Přı́klady: - kuřák/nekuřák × zdravý/nemocný - pohlavı́ × povolánı́ - bydlı́ v i-tém kraji × pracuje v j-tém sektoru hospodářstvı́ Statistické zjišt’ovánı́ závislosti kateg. veličin. - χ2 testy nezávislosti - kontingenčnı́ koeficienty - trojrozměrné histogramy 4 Kontingenčnı́ tabulka Necht’ může veličina x nabývat hodnot x1, x2, . . . , xr a veličina y hodnot y1, y2, . . . , ys. Všechny výše zmı́něné postupy vycházejı́ z kontingenčnı́ tabulky: proměnné x1 x2 ... xr součet n.j y1 n11 n21 ... nr1 n.1 y2 n12 n22 ... nr2 n.2 ... ... ... ... ... ... ys n1s n2s ... nrs n.s součet ni. n1. n2. ... nr. n nij - sdružené četnosti (počty jedinců s X = xi, Y = yj ) ni·, n·j - marginálnı́ četnosti (součty řádků resp. sloupců). Pro r = s = 2 se tabulka nazývá čtyřpolni. 5 χ2 test nezávislosti Předpoklad: Dosti velký vzorek (doporučuje se aby ni.n.j ≥ 5) Hypotéza H0: Veličiny jsou nezávislé. Statistika: χ2 = ³ ni. n.j ´2 nij − n ni. n.j i=1 j=1 n r X s X ∈ h0, nhi, h = min(r − 1, s − 1). H0 se zamı́tá, pokud χ2 > χ2 (1 − α) (viz statistické (r−1)(s−1) tabulky). Poznámka: Zatı́mco právě zmı́něný test je asymptotı́cký (tj. rozdělenı́ statistiky známe jen přibližně), pro čtyřpolnı́ tabulky existuje přesný test - při jeho použitı́ nenı́ ani třeba, aby ni. n.j ≥ 5. 6 Kontingenčnı́ koeficienty Pearsonův kontingenčnı́ koeficient v u u χ2 GP = t 2 ∈ h0, 1) χ +n Cramérův kontingenčnı́ koeficient s GCr = χ2 ∈ h0, 1i nh Interpretace: Čı́m je hodnota blı́že jedné, tı́m je závislost silnějšı́. Trojrozměrný histogram - grafické znázorněnı́ sdružených četnostı́ nij 7 Domácı́ úkol 1. Náhodný výběr 100 pedagogických pracovnı́ků VŠ měl následujı́cı́ četnosti podle pohlavı́ a pedagogické hodnosti: Pohlavı́ muž žena asistent 2 4 Pedagogická hodnost odb. asistent docent profesor 30 15 8 30 8 3 Lze ze zı́skaných údajů usuzovat, že pedagogická hodnost závisı́ na pohlavı́? Řešenı́ v Statgraphicsu (dále SG): přes Describe|Categorical data|Contingency tables, podokno Chi-Square Test viz obdobný přı́klad ve skriptech. Důležitá poznámka: V SG se mı́sto srovnánı́ testových statistik a kritických hodnot zobrazuje tzv. dosažená hladina - anglicky P-value - která určuje, na jaké nejnižšı́ hladině by se dal test zamı́tnout. Pokud tedy testujeme nějakou hypotézu na hladině 0, 05, zamı́táme ji v přı́padě, že P-value < 0, 05. 8 Závislost kategoriálnı́ a kvantitativnı́ proměnné Přı́klady: - přı́slušnost k určité skupině × výkon, - různé druhy léčby × snı́ženı́ teploty, - různé drůbežárny × snůška vajec. Poznámka: Pokud jsou kategorie jen dvě, stačı́ použı́t t-test, viz Statistika A. ANOVA - analýza rozptylu Závislost jedné kategoriálnı́ a jedné kvantitativnı́ proměnné jednoduché třı́děnı́ Závislost vı́ce kategoriálnı́ch a jedné kvantitatitvnı́ proměnné dvojné, trojné, . . . třı́děnı́, přı́padně s interakcemi 9 Jednoduché třı́děnı́ Vstupnı́ tabulka x součet průměr 1 y11 y12 ... y1n1 y1. ȳ1 2 y21 y22 ... y2n2 y2. ȳ2 yk2 ... ykn2 yk. ȳk y.. ȳ ... k Celkem yk1 Princip metody: Pokud jsou x a y nezávislé, mělo by být chovánı́ y stejné pro každou hodnotu x, průměry ȳi by tedy měly být přibližně stejné. Pokud budou ”přı́liš rozdı́lné” zamı́tneme hypotézu nezávislosti. Zde ukážeme tzv. Scheffého metodu. Poznámka: Někdy nás ještě zajı́mat, které průměry se významně lišı́. Tuto otázku řešı́ tzv. Tukeyova metoda. 10 Vyhodnocenı́ ANOVA Meziskupinový součet čtverců Sy.m = Pk 2 i=1 ni (ȳi − ȳ) Pk Pni Vnitroskupinový součet čtverců Sy.v = i=1 j=1(yij − ȳi)2 Pk Pni Celkový součet čtverců Sy = i=1 j=1(yij − ȳ)2 Platı́: Sy = Sy.m + Sy.v . S Determinačnı́ poměr P 2 = Sy.m ∈ h0, 1i. Udává procento rozy ptylu vysvětlené různostı́ skupin. Veličina P se nazývá korelačnı́ poměr Interpretace: Čı́m je hodnota P 2 blı́že jedné, tı́m většı́ je různost mezi skupinami, tj. tı́m silnějšı́ je závislost y na x. 11 Test nezávislosti v ANOVA Předpoklay: - Stejný rozptyl všech yij - Normálnı́ rozdělenı́ veličin y Výsledná tabulka ANOVA zdroj měnlivosti SS DF MS F meziskupinový Sy.m k−1 Sy.m k−1 Sy.m /(k−1) Sy.v /(n−k) vnitroskupinový Sy.v n−k Sy.v n−k Sy n−1 celkový Test H0: µ1 = · · · = µk versus H1: non H0 Zamı́tá se pokud: F > Fk−1,n−k (1 − α) Domácı́ úkol 4. Předpokládejme náhodný výběr 5 prodejů rodinných domků v několika městech v roce 1985 za následujı́cı́ ceny v 1000 dolarů: Město Boston Indianapolis Rochester San Diago Cena 110, 160, 93, 206, 171 73, 38, 45, 108, 42 88, 66, 112, 47, 52 57, 81, 181, 165, 106 Rozhodněte, zda ceny rodinných domků se v jednotlivých městech významně lišı́. Řešenı́ ve SG: Do databáze vložte data tak, že v jednom sloupci je kategoriálnı́ a v druhém kvalitativnı́ proměnná. Zvolte Oompare|Analysis of Variance|One Way ANOVA. Do pole Factor zadejte sloupec s kat. proměnnou, do pole Dependent variable sloupec s kvant. proměnnou. Výsledná tabulka se zobrazı́ v podokně ANOVA table. Výsledek testu se pozná podle P-value v poslednı́m sloupci této tabulky. 12 13,14,15. Regresnı́ a korelačnı́ analýza Závislost kvantitativnı́ch veličin - korelačnı́ analýza Přı́klady: - váha × výška - střednı́ věk v zemi × hrubý domácı́ produkt zeně - ceny akciı́ v New Yorku × ceny akciı́ v Londýně Statistické zjišt’ovánı́ závislosti veličin: pomocı́ korelačnı́ch koeficientů - párový (Pearsonův) korelačnı́ koeficient Spearmanův korelačnı́ koeficient parciálnı́ korelačnı́ koeficient koeficient mnohonásobné korelace - přı́padně pomocı́ korelačnı́ch grafů. 13 Párový (Pearsonův) korelačnı́ koeficient sxy rxy = q 2 s2 x sy kde ∈ h−1, 1i, n 1 X sxy = (xi − x̄)(yi − ȳ) n i=1 n X 1 s2 (xi − x̄)2, x = n i=1 (výběrová kovariance) n X 1 s2 (yi − ȳ)2 y = n i=1 (výběrové rozptyly) Interpretace: rxy >> 0 − ukazuje na přı́mou lineárnı́ závislost proměnných (typ ”čı́m vı́ce, tı́m vı́ce”) rxy << 0 − ukazuje na nepřı́mou lineárnı́ závislost proměnných (typ ”čı́m vı́ce, tı́m méně”) . rxy = 0 − indikuje nezávislost anebo závislost nenı́ lineárnı́ 14 Test nezávislosti pomocı́ Pearsonova k.k. Předpoklad: Normálně rozdělené veličiny nebo dostatečně velký vzorek. Test H0: ρxy = 0 versus H1: ρxy 6= 0 T =q rxy 2 1 − rxy ³ Zamı́tá se, pokud: |T | > tn−2 1 − √ n−2 α 2 ´ Domácı́ úkol 2. (Logaritmované) přı́růstky indexu pražské burzy PX50 v procentech začátkem ledna 2002 činily 2, 50 0, 23 1, 54 − 0, 82 0, 89 0, 79 0, 83 Zjistěte, zda dva následujı́cı́ přı́růstky na sobě závisejı́. Ve SG se korelačnı́ koeficient vypočı́tá přes Describe|Numeric data|Multiple variable analysis, podokno Correlations, výsledek testu zjistı́me opět podle P-value. 15 Spearmanův korelačnı́ koeficient - Lze použı́t i pro ”značně nenormálně” rozdělená data. - Mı́sto samotných veličin srovnáváme jejich pořadı́ ve vzorku. 6 rS = 1 − n P i=1 (ri − si)2 n(n2 − 1) ∈ h−1, 1i ri pořadı́ xi mezi x1, . . . , xn, si pořadı́ yi mezi y1, . . . , yn rS >> 0 − ukazuje na závislost typu ”čı́m vı́ce, tı́m vı́ce” rS << 0 − ukazuje na závislost typu ”čı́m vı́ce, tı́m méně” . rS = 0 − indikuje nezávislost anebo jiný typ závislosti 16 Test nezávislosti pomocı́ Spearmanova k.k. Test H0: Veličiny jsou nezávislé, H1: Veličiny jsou závislé √ rS T =q n−2 2 1 − rS ´ α Zamı́tá se pokud: |T | > tn−2 1 − 2 (pro n ≥ 10) Poznámka: Pro n < 10 lze Spearmanův k.k. též použı́t, hypotéza H0 se pak zamı́tá pokud |rS | > rS,n(α), hodnoty rS,n(α) jsou tabelovány. ³ Domácı́ úkol 3. Zjistěte, zda a jak souvisejı́ známky vybraných dětı́ z matematiky a z tělocviku (data jsou vymyšlená) Známka/žák matematika tělocvik A 1 3 B 3 1 C 1 1 D 2 1 E 2 3 F 4 2 G 2 2 H 1 4 I 3 2 J 5 2 Ve SG se rS vypočı́tá přes Describe|Numeric data|Multiple variable analysis, podokno Rank correlations, které se dá vyvolat pomocı́ dialogu Tabular options 17 Parciálnı́ korelačnı́ koeficient Motivace. Nejspı́š se dá statisticky dokázat značně většı́ kriminalita mezi přı́slušnı́ky jisté etnické skupiny než mezi přı́slušnı́ky většinové populace, což někoho vede k přesvědčenı́, že národnost ovlivňuje sklon ke kriminalitě. Věc by se možná vysvětlila, pokud by se vzal v úvahu dalšı́ faktor, a to vzdělánı́. Pak by se asi ukázalo, že se kriminalita dá vysvětlit spı́še nevzdělanostı́ než národnostı́. Podobné situace řešı́ statistika pomocı́ koeficientu parciálnı́ korelace rX,Y,Z , který měřı́ korelaci x a y s vyloučenı́m vlivu veličiny Z. Ve SG se rX,Y,Z vypočı́tá přes Describe|Numeric data|Multiple variable analysis, podokno Partial correlations 18 Koeficient mnohonásobné korelace - viz regrese Korelačnı́ grafy - bodové grafy, kdy na osu x vynášı́me hodnoty xi a na osu y hodnoty yi 19 Regresnı́ analýza Motivačnı́ přı́klad. Pomocı́ korelace byla zjištěna statisticky významná závislost mezi podávánı́m jistého léku a následným snı́ženı́m tělesné teploty. Ted’ ale chceme (alespoň přibližně) vědět kolik pilulek máme podat, aby se teplota snı́žila o požadovanou hodnotu. Obecněji: cı́lem regresnı́ analýzy je najı́t funkčnı́ předpis - tzv. regresnı́ funkci - co nejlépe vyjadřujı́cı́ charakter závislosti 20 Matematický model, použı́vaný v regresnı́ analýze Regrese zkoumá závislost vysvětlované proměnné y na vysvětlujı́cı́ch proměnných x1, . . . , xk . Předpokládá se model yi = f (x1,i, . . . , xk,i; β0, β1, . . . , βp) + εi, i = 1, . . . , n, p≥k kde f je funkce a εi jsou náhodné veličiny. Funkce f (x1, . . . , xk ; β0, β1, . . . , βp) se nazývá regresnı́ funkcı́ Hodnoty β0, β1, . . . , βp - se nazývajı́ regresory Veličiny εi se nazývajı́ rezidua. Předpoklad: ε1, . . . , εn nezávislé s rozdělenı́m N(0, σ 2) pro nějakou konstantu σ. 21 Odhad regresorů na základě n pozorovánı́ se provádı́ metodou nejmenšı́ch čtverců MNČ min n X β0 ,...,βp i=1 (yi − f (x1, . . . , xk ; β0, β1, . . . , βp))2 Za odhad parametrů β0, β1, . . . , βi pak vezmeme hodnoty b0, b1 . . . , bp které jsou řešenı́m uvedeného minimalizačnı́ho problému. 22 Některé aplikace - Vzájemná závislost různých makroekonomických veličin je obecně známa. Předpovědi těchto veličin se dělajı́ právě pomocı́ (poněkud zobecněných) metod regresnı́ analýzy. - Banky se chtějı́ výhnout poskytovánı́ úvěrů osobám, které je nesplati. Vědı́, že schopnost splacenı́ úvěru souvisı́ s mnoha charakteristikami věřitele. Pomocı́ regresnı́ analýzy ze svých historických údajů odhadnou závislost mı́ry splacenı́ na těchto charakteristikách a u každého nového žadatele tyto charakteristiky zjišt’ujı́. Pomocı́ předpovědı́ v modelu (viz přı́ště) pak odhadujı́ pravděpodobnou mı́ru splacenı́. - Zdravotnictvı́, psychologie, marketing... 23 Lineárnı́ regrese Regresnı́ funkce má tvar y = β0 + β1x1 + . . . + βk xk Pokud k = 1, mluvı́me o jednoduché regresi, pokud k > 1 jde o vı́cenásobnou regresi. Grafická představa k = 1 - body na grafu, kde jsou zakresleny hodnoty xi a yi prokládáme ”co nejlépe” přı́mkou k = 2 - body na 3D grafu, kde jsou v základnı́ rovině vektory xi a ve svislé dimenzi přı́slušné hodnoty yi prokládáme ”co nejlépe” rovinou. 24 Odhad MNČ v lineárnı́ regresi Odhad MNČ dán vzorcem b = (X 0X)−1X 0y kde b označuje vektor hodnot (b0, b2, . . . , bk ), y označuje vektor obsahujı́cı́ pozorovánı́ (y1, y2, . . . , yn) a X je matice typu n × k + 1 složená ze sloupce jedniček a k sloupců tvořených pozorovánı́mi xij . Pk 0 Důkaz: Hledáme minβ i=1(yi − xi β)2 kde β je vektor parametrů a xi označuje i-tý řádek matice X. Parciálnı́ derivace Pk minimalizované funkce podle j-té proměnné je i=1 xij 2(yi − 0 xi β). Podmı́nka nulovosti všech k parciálnı́ch derivacı́ zapsaná ve vektorovém tvaru znı́ X 0Y = X 0Xβ (této soustavě se řı́ká normálnı́ rovnice). Dosazenı́m se snadno zjistı́, že jim odhad b vyhovuje z čehož vyplývá, že právě on je řešenı́m minimalizačnı́ úlohy MNČ. 25 Ukazatele kvality modelu. Reziduálnı́ součet čtverců P 2 SR = n ŷi = b0 + b1x1 + . . . + bk xk i=1 (yi − ŷi) , Pozn: ten minimalizujeme. Teoretický součet čtverců P 2 ȳ = (y1 + y2 + . . . + yn)/n ST = n i=1(ŷi − ȳi ) , Celkový součet čtverců P 2 Sy = n i=1 (yi − ȳi ) Platı́, že Sy = ST + SR . Koeficient determinace R2 = ST /Sy ∈ h0, 1i. Určuje, jaké procento variability se podařilo regresı́ vysvětlit. Veličina R se nazývá koeficient mnohonásobné korelace. Odhad je tı́m kvalitnějšı́, čı́m menšı́ je SR (neboli čı́m většı́ je ST , neboli ı́m většı́ je R2 ). Za dobré modely jsou považovány ty s R2 ≥ 0, 8. Pozor, v modelech, kde se předpokládá β0 = 0, nenı́ tento koeficient definován (ač ho napřı́klad Excel počı́tá). 26 Celkový F-test o modelu Tabulka podobná ANOVě: zdroj měnlivosti SS DF MS F teoretický ST p−1 ST k ST /(p−1) SR /(n−p) reziduálnı́ SR n−p SR n−k−1 celkový Sy n−1 Test H0: regresnı́ parametry u proměnných jsou nulové H1: non H0 (tj. model má tvar yi = β0 + ²i) Zamı́tá se pokud: F > Fk,n−k−1(1 − α) 27 Odhady a hypotézy o jednotlivých regresorech Přı́pomı́nka: bi označuje bodový odhad parametru βi SR Bodový odhad rozptylu reziduı́ σ 2: s2 = n−k−1 Intervalový odhad µ α α βi ∈ bi − tn−k−1(1− ) s(bi), bi + tn−k−1(1− ) s(bi) 2 2 kde s(bi) je odhad směrodatné odchylky bi ¶ √ Pro zájemce o ”střeva” regresnı́ analýzy: s(bi ) = s vii, vi,i je i-tý prvek diagonály matice (X 0 X)−1 . Test nulovosti regresoru (t-test) H0: βi = 0 versus H1: βi 6= 0, i = 0, 1, . . . , k. ¯ ¯ ¯ bi ¯ Zamı́tá se pokud: |Ti| = ¯ s(b ) ¯ > tn−k−1(1 − α 2) i 28 Polynomiálnı́ regrese Regresnı́ funkce má tvar y = β0 + β1x + β2x2 + . . . + βk xk Z hlediska matematického jde zas jen o vı́cenásobnou regresi, kdy se za druhou záı́vislou proměnnou dosadı́ x2, zda třetı́ x3 atd. Proto to, co platı́ pro vı́cenásobnou regresi, platı́ i pro polynomiálnı́. 29 Jak vybı́rat model? Pro výběr modelu neexistuje jednoznačný vzoreček, jde o ”neexaktnı́” problém. doporučuji přı́hlı́žet k třem kriteriı́m 1. Grafická analýza: jaký tvar má graf dat? Šikmá čára naznačuje lineárnı́ regresi, prohnutá čára kvadratickou (či exponenciálnı́), vodorovná čára konstatnı́ model yi = β0 + ²i 2. Statistické testy: pokud u některého koeficientu vyjde t-test nevýznamně, uvažujte o jeho vyřazenı́ z modelu. Napřı́klad nevýznamnost kvadratického regresoru naznačuje lineárnı́ regresi. 3. Pomocı́ indexu determinace: čı́m většı́ index je, tı́m je model lepšı́. Ale pozor: u složitějšı́ho modelu vyjde vždy většı́, přitom ale složitějšı́ model má i své nevýhody (zejména většı́ nepřesnost odhadů). Proto, abychom se rozhodli pro složitějšı́ model, musı́ být index determinace významně většı́. 30 Regrese ve Statgraphicsu Jednoduchá regrese Relate|Simple Regression Vı́cenásobná regrese Relate|Multiple Regression Polynomiálnı́ regrese Relate|Polynomial Regression Slovnı́ček Statgraphics Dependent variable Independent variable R-squared Intercept Slope tyto slidy závislá proměnná nezávislá proměnná koeficient determinace β0 β1 31 Výsledky regrese ve SG Veličiny SR , ST , Sy Celkový F-test Bodový odhad bi Bodový odhad s2 Veličina s(bi) Testy nulovosti regresorů viz tabulka Analysis of Variance viz P-value v tabulce Analysis of Variance viz přı́slušný řádek druhého sloupce tabulky (Multiple) Regression Analysis druhý řádek sloupce Mean Square tabulky Analysis of Variance, nebot’ s2 = SR /(n − k − 1) viz Standard Error v tabulce (Multiple) Regression Analysis viz P-value v přı́slušných řádcı́ch tabulky (Multiple) Regression Analysis 32 Tipy pro regresi se SG 1. Pokud chcete ve vı́cenásobné regresi ”vyhodit” regresor, stačı́ stisknout tlačı́tko Input Dialog (nejvı́ce vlevo) a vymazat přı́slušnou proměnnou ze seznamu Independent variables. 2. Pokud chcete odhadovat lineárnı́ model bez konstatnı́ho regresoru β0, spust’te vı́cenásobou regresi a v Analysis options odzatrhněte polı́čko Constant in Model. Pozor, v takovém přı́padě má ovšem index determinace jiný význam a nelze jej srovnávat s i. d. z ostatnı́ch regresı́. 3. Pokud chcete odhadovat pouze konstantnı́ model, spust’te polynomiálnı́ regresi a v Analysis options zadejte do pole Order nulu 33 Automatizované metody výběru regresorů Problém: Může být potenciálně mnoho veličin xk , na kterých by mohlo y záviset. Přitom nenı́ pravda, že cı́m vı́ce parametrů, tı́m lepšı́ model, nebot’ s vzrůstajı́cı́m počtem parametrů roste chyba odhadu. Je třeba zvolit ”optimálnı́” počet a složenı́ regresorů. Krokovacı́ metody 1. metoda forward - postupné přidávánı́ přı́nosných regresorů do modelu 2. metoda backward - postupné ubı́ránı́ nepřı́nosných regresorů z modelu Krokovacı́ metody v SG: Nad výsledkem analýzy Multiple Regression klepneme pravým tlačı́tkem myši, vybereme Analysis Options, v tomto dialogu se pak můžeme rozhodnout pro jednu z výše uvedených možnostı́. 34 Problémy při regresnı́ analýze Závislost reziduı́. Porušenı́ předpokladu, že εi jsou nezávislá. Detekce: Grafická analýza reziduı́, Durbin-Watsonova statistika a jiné. Řešenı́: Modifikovaná metoda nejmenšı́ch čtverců (jen ve speciálnı́ch přı́padech), někdy stačı́ použı́t obecnějšı́ model. Nenormalita reziduı́. Porušenı́ předpokladu, že ε1 jsou normálnı́. Detekce: Testy dobré shody a jiné testy. Řešenı́: Metodu nejmenšı́ch čtverců lze použı́t, intervalové odhady a testové statistiky však v takovém přı́padě nedávajı́ přesné výsledky. Při velkém počtu pozorovánı́ ale rozdělenı́ statistik ”t” a ”F ” blı́žı́ k rozdělenı́, jaké by měly při zachovánı́ předpokladu normality. Multikolinearita. Hodnoty xk jsou silně korelované, což má za následek zbytečně hrubé odhady. Detekce: korelačnı́ analýza nezávislých probměnných, Řešenı́: speciálnı́ postupy nebo redukce počtu regresorů. Odlehlá pozorovánı́. Některá pozorovánı́ se do vzorku ”přimı́chala omylem” (napřı́klad pacient s alergiiı́ na zkouaný lék) a majı́ výrazně odlišné hodnoty, což může znehodnotit odhad. Detekce: speciálnı́ metody. Řešenı́: vyřazenı́ odlehlých pozorovánı́ nebo použitı́ jiné metody odhadu (např. tzv. l1 regrese). 35 Zdánlivá regrese (spurious regression). Uvažujme dvě časové řady xi a yi, které obě systematicky rostou, ale jinak nemajı́ nic společného (jejich přı́růstky jsou nezávislé). Je jasné, že regrese xi na yi, vyjde významně. To ale nesmı́ vést k domněnce, že xi ovlivňuje yi. Domácı́ úkol 5. Odhadněte poptávkovou křivku po žvýkačce ”Superžvejk”, máte-li k dispozici výzkum, který zjišt’oval na vzorku 500 lidı́ ochotu koupit tento výrobek při různých cenách. Výsledky výzkumu jsou zaznamenány v následujı́cı́ tabulce cena počet 3 103 4 87 5 70 6 59 7 51 8 49 9 45 10 41 Odhad proved’te nejprve kvadratickou regresı́ (ta předpokládá regresnı́ funkci y = β0 + β1x + βx2, čili je vlastně speciálnı́m přı́padem lineárnı́ regrese s proměnnými x a x2) a otestujte vhodnost vyřazenı́ některého z regresorů. Finálnı́ odhad proved’te podle výsledků tohoto testu. Předpokládejte, že na trhu je 5 miliónů lidı́. 36 Předpověd’ v modelu lineárnı́ regrese Otázka: Jaká hodnoty y nastane pro daná x1, x2, . . . , xk . pokud se hodnoty řı́dı́ modelem lineárnı́ regrese? Odpověd’: y = β0 + β1x1 + . . . + βk xk + ², kde ² ∼ N (0, σ 2) Problém: Neznáme β0, β1, . . . , βk ani σ Řešenı́: Použijeme odhad: ŷ = b0 + b1x1 + . . . + bk xk Lze zkonstruovat i intervalovou předpověd’, pro k = 1 na hladině α to je µ α α ŷ − tn−2(1 − ) sP , ŷ + tn−2(1 − ) sP 2 2 sP ¶ v u u 1 (x − x̄)2 t = s 1 + + Pn 2 n i=1 (xi − x̄) 37 2. Časové řady Situace: máme k dispozici pozorovánı́ nějaké veličiny v časech 1, 2, . . . , n a chceme a. - pochopit ”systém”, kterým se řada řı́dı́ b. - dělat předpovědi do budoucna (tj. pro časy n + 1, n + 2, . . . c. - očistit řadu od ”šumu” d. - odhadnout přı́padné chybějı́cı́ hodnoty (na tomto kursu se neprobı́rá) Metody analýzy časových řad: Existuje mnoho metod, zde probereme - analýzu trendu - metodu klouzavých průměrů - jednoduché exponenciálnı́ vyrovnávánı́ - analýzu sezónnosti Významným souborem (zde neprobı́raných metod) je tzv. BoxovaJenkinsova metodologie. 38 2.1. Modely s trendem Předpokládá se že yt = Tt + ²t kde E²t = 0. K analýze se použı́vá (přı́padně modifikovaných) metod lineárnı́ regrese, kde vysvětlujı́cı́ proměnnou je čas (např. x1 = 1, x2 = 2, . . . , xn = n a vysvětlovanou proměnnou časová řada. Pro odhad budoucı́ho či přı́padného chybějı́cı́ho pozorovánı́ se použije předpověd’ v modelu lineárnı́ regrese (viz předchozı́ slidy), pro ”vyhlazenı́” se použije vzorec ȳt = b0 + b1t (tj. dosazenı́ do regresnı́ přı́mky). 39 Lineárnı́ trend Tt = β0 + β1t, t = 1, . . . , n Odhady β0, β1 MNČ (tj. stejně jako lin. regrese) Kvadratický trend Tt = β0 + β1t + β2t2, Odhady β0, β1, β2 MNČ t = 1, . . . , n Domácı́ úkol 1. (a) Učiňte předpověd’ pro řadu s lineárnı́m trendem pro roky 1981, 1982 a 1983 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 3,38 3,46 5,96 6,29 8,35 8,47 9,35 10,85 12,9 13,4 14,47 16,1 16,19 17,36 18,65 20,17 22,13 22,79 23,88 23,83 (b) Nebyla by řada vystižena lépe modelem s kvadratickým trendem? 40 Exponenciálnı́ trend Tt = α β t β>0 Postup předpovědi/odhadu v čase T : 1. Logaritmujeme obě strany rovnice yt = α β t, čı́mž zı́skáme vztah lnyt = ᾱ + β̄t kde ᾱ = ln α a β̄ = ln β 2. Odhadneme ᾱ, β̄ metodou MNČ (označme ā, b̄ přı́slušné odhady). 3. V logaritmovaném modelu učinı́me předpověd’ ȳT = ā + b̄ T , 4. V původnı́m modelu bude předpověd’ yT = exp ȳT Poznámka: α, β se někdy odhadujı́ metodou vážených nejmenšı́ch čtverců, tj. n X min (lnyt − lna − t lnb)2vt a,b nejčastějšı́ volba vah vt = t=1 yt2 41 Modifikovaný exponenciálnı́ trend Tt = γ + α β t, β > 0, t = 1, . . . , n Odhady α, β, γ metodou částečných součtů n = 3m m X m X bm − 1 S1 = T̂t = mc + ab yt ∼ b−1 t=1 t=1 2m 2m X X bm − 1 m+1 S2 = yt ∼ T̂t = mc + ab b−1 t=m t=m S3 = 3m X yt ∼ t=2m s b= m S3 − S2 S2 − S1 3m X T̂t = mc + ab2m+1 t=2m b−1 a = (S2−S1) b(bm − 1)2 bm − 1 b−1 c= m −1 b S1 − ab b−1 m Parametry lze odhadnout též vhodnou iteračnı́ metodou. 42 Logistický trend Tt = γ 1 + α βt β > 0, γ > 0 −1 −→ 1 1 α = + βt Tt γ γ Odhad podobně jako modif. exp. trend (pokud majı́ S3 − S2 a S2 − S1 stejné znaménko, nebo tzv, diferenčnı́ metodou. Gompertzova křivka Tt = t β γα β>0 ln −→ lnTt = lnγ + β t lnα Odhady α, β, γ metodou částečných součtů Volba trendové složky 1. Dle teoretických předpokladů (např. neomezený růst populace → exponenciálnı́ trend, vývoj firmy → logistická křivka) 43 2. Dle diferencı́ Trend Charakteristika kt lineárnı́ 4t = yt − yt−1 ∼ konst. kvadratický 42 t = yt − 2yt−1 + yt−2 ∼ konst. exponenciálnı́ t ∼ konst. kt = y yt ∼ konst. nebo yt+1 t −yt−1 t−1 logistický 1/yt+1 −1/yt 1/yt −1/yt−1 Gompertzova k. lnyt+1 −lnyt lnyt −lnyt−1 y −y ∼ konst. ∼ konst. Volı́me ten model, u kterého nám připadá kt ”nejkonstatněnšı́”. 44 Exponenciálnı́ vyrovnávánı́ Metoda předpokládajı́cı́ trend, ale přitom zohledňujı́cı́ intuitivnı́ předpoklad, že hodnota časové závisı́ vı́ce na těch hodnotách, které jsou k nı́ blı́že v čase, než na hodnotách, které jsou v čase dále. Model exponenciálnı́ho vyrovnávánı́: Předpokládá lokálnı́ (t.j. v každém čase jiný) trend. yt = Tt + εt, t = 1, 2, . . . , n Pn−1 Odhad parametrů VMNČ min k=0(yn−k − T̂n−k )2 αk α ∈ (0, 1) – vyrovnávacı́ konstanta 45 1. Jednoduché exponenciálnı́ vyrovnávánı́ (Tt = βt) v krátkých úsecı́ch časové řady konstantnı́ trend Odhad parametru β0 metodou VNMČ vycházı́ b0 = (1 − α) n−1 X αk yn−k k=0 tj. předpověd’ pro všechny časy n + 1, n + 2, . . . je rovna bn. 2. Dvojité exponenciálnı́ vyrovnávánı́ (Tn+τ = βn − αnτ ) v krátkých úsecı́ch časové řady lineárnı́ trend (tj. předpověd’ pro t > n bude rovna bn + an(t − n) kde bn, an jsou odhady βn, αn metodou VNMČ). optimálnı́ volba α – minimálnı́ MSE (střednı́ kvadratická odchylka). 46 2.2. Klouzavé průměry Sloužı́ většinou hlavně pro vyhlazenı́ časové řady. 1. Prosté klouzavé průměry m-členné, m = 2p + 1 p 1 X ȳt = yt+i, m i=−p t = p + 1, . . . , n − p 2. Centrované klouzavé průměry m-členné, m = 2p p−1 X 1 yt+i + yt+p) (yt−p + 2 ȳt = 4p i=−p+1 = p−1 X p X 1 1 1 yt+i + yt+i , 2 2p i=−p 2p i=−p+1 t = p + 1, . . . , n − p 3. Vážené klouzavé průměry ȳt = p X i=−p wi yt+i, t = p + 1, . . . , n − p, p X wi = 1 i=−p 47 3.3. Modely se sezónnı́ složkou yij = Tij + Sij + εij , i = 1, . . . , r, j = 1, . . . , s, n = rs I. Model konstantnı́ sezónnosti (aditivnı́) Sij = Sj , s X Sj = 0, i = 1, . . . , r j=1 Odhad sezónnı́ch parametrů metodou empirických sezónnı́ch odchylek: 1. Trendovou složku vyrovnáme pomocı́ klouzavých - prostých s členných klouzavých průměrů, pokud je s liché - centrovaných s + 1 členných klouzavých průměrů, pokud je s sudé (čı́mž se sezónnı́ složka vyrušı́) 2. Určı́me průměrnou sezónnı́ odchylku P Ŝj∗ = ri=1(yij − T̂ij )/r 48 3. Standardizacı́ zı́skáme sezónnı́ rozdı́lové faktory Ps ∗ Ŝj = Ŝj − S̄, kde S̄ = j=1 Ŝj∗/s Předpověd’ v modelu s konstatnı́ sezónnostı́: S = ŷ + S̄ + Ŝ j ŷij ij i kde ŷij je předpověd’ ve vyrovnané řadě. II. Model proporcionálnı́ sezónnosti (multiplikativnı́) Sij = Tij (1 + Sj ), s X (1 + Sj ) = s, i = 1, . . . , r j=1 Odhad sezónnı́ch parametrů metodou empirických sezónnı́ch indexů: 1. Trendovou složku vyrovnáme pomocı́ klouzavých průměrů 2. Určı́me průměrný sezónnı́ index P 1 + Ŝj∗ = ri=1(yij /T̂ij )/r 3. Standardizacı́ zı́skáme sezónnı́ faktory indexnı́ P 1 + Ŝj = s(1 + Ŝj∗)/S̃ kde S̃ = sj=1(1 + Ŝj∗) Předpověd’ v modelu s proporcionálnı́ sezónnostı́: S = ŷ S̃ˆ ŷij ij (1 + Sj ) kde ŷij je předpověd’ ve vyrovnané řadě. 49 Postup při analýze časové řady 1. Sezónnı́ složka a. Vyrovnánı́ řady klouzavými průměry b. Odhad sezónnı́ch parametrů 2. Trendová složka a. Pomocı́ diferencı́ kt nebo pomocı́ MSE (Special|Time series analysis|Forecasting, Tabular Options|Comparison of Models) pro vyrovnanou řadu nejvhodnějšı́ trend b. Odhadnout parametry vyrovnané řady 50 Domácı́ úkol 2. Uvažujme řadu 1/1994 2/1995 3/1995 4/1995 1/1996 2/1996 3/1996 4/1996 1/1997 2/1997 3/1997 4/1997 1/1998 2/1998 3/1998 4/1998 1/1999 2/1999 3/1999 4/1999 10,17 9,17 6,71 5,12 4,5 5,97 3,03 1,07 2,02 3,58 3,26 0,46 3,72 4,98 5,26 4,35 7,67 9,5 10,17 10,57 Proved’te jejı́ analýzu a určete předpovědi na všechna čtyři čtvrtletı́ 2000. 51 Domácı́ úkol 3. Udělejte totéž pro řadu 1/1994 2/1995 3/1995 4/1995 1/1996 2/1996 3/1996 4/1996 1/1997 2/1997 3/1997 4/1997 1/1998 2/1998 3/1998 4/1998 1/1999 2/1999 3/1999 4/1999 13,35 14,2 13,65 14,7 16,8 18,18 17,99 20,94 22,82 23,43 24,09 25,71 27,23 29,48 26,97 31,34 31,82 34,99 33,59 37,1 52 Výsledky regrese ve Excelu V Excelu se regrese spustı́ pomocı́ Nástroje|Analýza dat|Regrese, předtı́m je však potřeba tuto funkci nainstalovat pomocı́ Nástroje|Doplňky|Analytické nástroje. Veličiny SR , ST , Sy Celkový F-test Bodový odhad bi Bodový odhad s2 Veličina s(bi) Testy nulovosti regresorů viz sloupec SS v tabulce ANOVA viz Významnost F v tabulce ANOVA viz přı́slušný řádek sloupce Koeficienty tabulky s výsledky regrese∗ druhý řádek sloupce MS tabulky ANOVA viz Chyba střednı́ hodnoty v tabulce s výsledky regrese viz Hodnota P v přı́slušných řádcı́ch tabulky s výsledky regrese 53 3. Indexy a diference Literatura: Seger a kol.: Statistika v hospodářstvı́ Index podı́l dvou hodnot téhož ukazatele (relativnı́ změna) Diference rozdı́l dvou hodnot téhož ukazatele (absolutnı́ změna) Ukazatele • extenzitnı́ vyjadřujı́ velikost, rozsah, počet, objem (např. velikost tržby Q, objem prodeje q) • intenzitnı́ vyjadřujı́ intenzitu nebo úroveň (např. cena za jednotku p) p = Q/q Jiné členěnı́ • stejnorodý - takový, který má smysl sčı́tat (pro ext.)/průměrovat (pro int.) • nestejnorodý - ostatnı́ (např. produkce různých odvětvı́, ceny různých akciı́) V následujı́cı́m výkladu budeme pracovat se třemi ukazateli: jednotková cena p, množstvı́ q, hodnota Q = p q. Ostatnı́ ukazatele bývajı́ většinou analogické. 54 Typy indexů a diferencı́ 1. indexy množstvı́ - extenzitnı́ ukazatel 2. indexy úrovně - intenzitnı́ ukazatel Jiné členěnı́ a. individuálnı́ - stejnorodý ukazatel jednoduché srovnávajı́ dvě hodnoty téhož ukazatele (např. HDP) složené shrnujı́ dı́lčı́ hodnoty sledovaného ukazatele (např. obrat několika prodejen) b. souhrnné - různorodý ukazatel (index spotřebitelských cen, index průmyslové výroby, index PX-50.) Dalšı́ členěnı́ indexů a diferencı́ i. bazické (pevný základ) xi 4(x)i/B = xi − xB xB (PX-50, index spotřebitelských cen) I(x)i/B = ii. řetězové (pohyblivý základ) xi I(x)i/i−1 = xi−1 4(x)i/i−1 = xi − xi−1 (růst HDP) 55 1. Individuálnı́ indexy a diference Jednoduché - ukázky pro extenzitnı́ veličiny a intenzitnı́ veličinu I(Q) = Q1 Q0 4(Q) = Q1 − Q0 I(q) = q1 q0 4(q) = q1 − q0 I(p) = p1 p0 4(p) = p1 − p0 Složené - ukázky pro extenzitnı́ veličiny a intenzitnı́ veličinu P P P P P Q1 I( Q) = P 4( Q) = Q1 − Q0 Q0 P P q1 I( q) = P q 0 I(p̄) = p̄1 p̄0 P P P 4( q) = q1 − q0 4(p̄) = p̄1 − p̄0 P Qi kde p̄i = P , q i = 0, 1 i 56 Otázka: Co způsobilo změnu průměrné ceny? Byla to změna ve struktuře objemu či změna jednotlivých cen? Odpověd’: Rozklad indexu I(p̄) a diference 4(p̄) 1. Metoda postupných změn P P p1 s0 p 1 s1 I(p̄) = P ·P = ISS (q0 ) IST R (p1 ) p0 s0 p 1 s0 (jako kdyby se nejprve změnila cena a pak struktura) nebo P P p0 s1 p 1 s1 I(p̄) = P ·P = IST R (p0 ) ISS (q1 ) p0 s0 p 0 s1 P P s0 = q0 / q0 s1 = q1 / q1 (jako kdyby se nejprve změnila struktura a pak cena) ISS (q0), ISS (q1 ) indexy stálého složenı́ – relativnı́ změna p̄ vlivem změn hodnot p IST R (p0), IST R (p1 ) indexy struktury – relativnı́ změna p̄ vlivem změny struktury q P P P P 4(p̄) = ( p1s0 − p0 s0) + ( p1 s1 − p1 s0 ) P P P P = ( p0s1 − p0 s0) + ( p1 s1 − p0 s1 ) Nevýhoda: nenı́ realistické, že by se nejprve měnilo jedno a pak teprve druhé 57 2. Metoda rozkladu se zbytkem P P p 1 s0 p0 s1 I(p̄) = P ·P IZ = ISS (q0 ) IST R (p0 ) IZ p 0 s0 p0 s0 IZ – nevysvětlená část P P P P 4(p̄) = ( p1 s0 − p0s0 ) + ( p0s1 − p0 s0 ) + 4Z Nevýhoda: Nevysvětlená část 3. Logaritmická metoda rozkladu I(p̄) = I(p̄) 4(p̄, s) = 4(p̄, p) = 4(p̄,p) 4p̄ · I(p̄) X ln ss1 0 ln pp10 ss10 X ln pp1 0 ln pp10 ss10 4(p̄,s) 4p̄ (p1 s1 − p0 s0 ) (p1 s1 − p0 s0 ) 4(p̄) = 4(p̄, s) + 4(p̄, p) 2. Souhrnné indexy a diference Nestejnorodé ukazatele pi a qi , indexy srovnávajı́ vážené průměry. Paascheho index a diference objemový – změna objemu produkce při cenové hladině odpovı́dajı́cı́ běžnému obdobı́ (jako váhy v indexu sloužı́ podı́ly ceny na součtu cen v běžném obdobı́) cenový – změna cen při stálém objemu produkce odpovı́dajı́cı́mu běžnému obdobı́ (jako váhy v indexu sloužı́ podı́ly objemu na celkovém objemu v běžném obdobı́) P P P P P q1 p 1 / p1 q1 p1 P P P I(q) = = 4(q) = q p − q0 p 1 1 1 P P q0 p 1 / p1 q0 p1 P P P p1 q1 / q1 p1 q1 P P P I(p) = = P p q / q p q 0 1 1 0 1 P 4(p) = P p 1 q1 − P p 0 q1 58 Laspeyresův index a diference (použı́vanějšı́) objemový – změna objemu produkce při cenové hladině odpovı́dajı́cı́ základnı́mu obdobı́ (jako váhy v indexu sloužı́ podı́ly ceny na součtu cen v základnı́m obdobı́) cenový – změna cen při stálém objemu produkce odpovı́dajı́cı́mu základnı́mu obdobı́ (jako váhy v indexu sloužı́ podı́ly ceny na celkovém objemu v běžném obdobı́) P P P q1 p0 q1 p0 − q0 p 0 L 4(q) = L I(q) = P q0 p0 P p1 q0 L I(p) = P p q 0 0 L 4(p) = P p1 q0 − P p 0 q0 Přı́klady použitı́: Index spotřebitelských cen (jako q0 sloužı́ množstvı́ různého zbožı́, spotřebovaná průměrnou domácnostı́), PX-50 (jako q0 sloužı́ zastoupenı́ dané akcie na trhu). 59 Problém: P. index a L. index by měly vypovı́dat o stejné skutečnosti, ale majı́ rozdı́lné hodnoty. Pokus o řešenı́ (nepoužı́vá se): Fisherův index - geometrický průměr Paascheho a Laspeyresova indexu p p F I(q) = P I(q) L I(q) F I(p) = P I(p) L I(p) Analýza rozdı́lnostı́ P. a L. indexu: Bortkiewiczův rozklad R= P I(p) L I(p) = 1 + vI(p) · vI(q) · rI(p)I(q) vI(p) , vI(q) variačnı́ koeficienty rI(p)I(q) korelačnı́ koeficient A = (I(p) − LI(p)) sP A2 Q0 P Q0 vI(p) = L I(p) rI(p)I(q) B = (I(q) − LI(q)) sP B 2 Q0 P Q0 vI(q) = L I(q) P Q0 AB = pP P Q0 A2 Q0 B 2 60 P P Rozklad indexu I( Q) a diference 4( Q) 1. Metoda postupných změn P P P p 1 q0 p1 q1 I( Q) = P ·P = L I(p) P I(q) p q p q 0 0 1 0 P P P p 0 q1 p1 q1 I( Q) = P ·P = L I(q) P I(p) p q p q 0 0 0 1 P 4( Q) = L 4(p) + P 4(q) = L 4(q) + P 4(p) 2. Metoda rozkladu se zbytkem P P P p1 q0 p0 q1 I( Q) = P ·P IZ = LI(p) LI(q) IZ p0 q0 p0 q0 P 4( Q) = L 4(p) + L 4(q) + 4Z 61 3. Logaritmická metoda rozkladu P P Q, p) 4( Q, q) P P P P P I( Q) = I( Q) 4( Q) · I( Q) 4( Q) 4( X ln qq1 P 0 4( Q, q) = p1 q1 (p1 q1 − p0 q0 ) ln p0 q0 X ln pp1 P 0 4( Q, p) = p1 q1 (p1 q1 − p0 q0 ) ln p0 q0 P P P 4( Q) = 4( Q, q) + 4( Q, p) 62