Stáhnout materiál Regresní a korelační analýza

Transkript

Matematická statistika II
přednášky
Ing. Pavla Hošková, Ph.D.
Pef 3. Patro č. 419
[email protected]
Konzultační hodiny:
út
11-12
14:30-15:30
Předmět je zakončen zápočtem a zkouškou
Podmínky pro udělení zápočtu:
- Řádná účast an cvičení (s tolerancí 3 absencí)
- 2 kontrolní testy – výsledky jsou započítávány do výsledné známky u zkoušky
- Vypracování projektu s využitím statistického programu SAS (projekt je oznámkován a známka se započítává
do známky u zkoušky)
Studenti kteří si zvol bakalářskou práci na katedře statistiky, mohou projekt zpracovávat v rámci své bakalářské práce.
Ostatní studenti si sami navrhnou téma, které jim msí vyučující schválit
Zkouška
- Písemná a ústní
- Součástí konečného hodnocení, tzn. Do výsledné známky, jsou započítávány také dílčí známky a to:
o Z předmětu MSI
o Z kontrolních testů
o Z projektu
Cíl předmětu
Prohloubit znalosti ze základního kurzu matematické statistiky, zvládnout samostatné používání metodického aparátu
analýzy datových souborů s využitím statistického softwaru
Obsah předmětu
- Regresní a korelační analýza
- Analýza kategoriálních dat
- Metody analýzy časových řad
Doporučená literatura
Statistika – Kába, Svatošová
Regresní a korelační analýza
Analýza závislostí
Korelační analýza se zabývá vzájemnými (většinou lineárními) závislostmi, kdy se klade důraz především na intenzitu
(sílu) vzájemného vztahu než na zkoumání veličin ve směru příčina – následek.
Regresní analýza se zabývá jednostrannými závislostmi. Jedná se o situaci, kdy proti sobě stojí vysvětlující (nezávisle)
proměnná v úloze „příčin“ a vysvětlovaná (závisle) proměnná v úloze „následků“.
Dává odpovědi na otázky typu: jaký vztah existuje mezi proměnnými X a Y (lineární, kvadratický atd.), lze proměnnou
Y odhadnout pormocí proměnné X a s jakou chybou?
Statistická analýza má v těchto souvislostech následující cíle:
- Poskytnout číselné míry vztahu dvou proměnných podobným způsobem, jako průměr a směrodatná odchylka
popisjící chování jedné proměnné
- Najít vzorce pro optimální predikci proměnné, kterou považujeme za závisle proměnnou
- Ohodnotit chybu predikce
- Ověřovat různé hypotézy o zkoumaném vztahu
Dvourozměrná analýza dat
Základní postup dvourozměrné analýzy je podobný jako v jednorozměrném případě:
- Nejdříve se pokusíme zobrazit data graficky
- Hledáme základní konfigurace a tendence v datech
- Přidáváme numerické charakteristiky různých aspektů dat
- Často se nám podaří vystihnout stručným způsobem základní konfiguraci dat pomocí pravděpodobnostního
modelu
-1-
Christy
přednášky
Bodový graf pro posouzení závislosti Y na X
Hodnoty proměnné Y
200
195
190
185
180
175
170
165
160
160
165
170
175
180
185
190
195
200
205
Hodnoty proměnné X
Korelační tabulka pro znaky X a Y
Y
y1
y2
…
yj
…
ym
ni.
x1
n11
n12
…
n1j
…
n1m
n1.
x2
n21
n22
…
n2j
…
n2m
n2.
nim
.
.
.
ni.
X
.
.
.
xi
…
ni1
…
ni2
…
…
…
nij
…
…
…
…
…
…
.
.
.
xk
…
nk1
nk2
…
nkj
…
nkm
.
.
.
nk.
n.j
n.1
n.2
…
n.j
…
n.m
n..
Cílem regresní a korelační analýzy je popis statistických vlastností vztahu dvou nebo více proměnných.
Dvojrozměrný bodový graf nebo korelační tabulka dávají první představu o rozdělení sledovaných proměnných.
Graf často indikuje překvapivé vlastnosti dat jako nelinearitu vztahu, nehomogenitu nebo přítomnost odlehlých hodnot.
Korelační analýza
Korelace obecně označuje míru stupně závislosti dvou proměnných.
Říká se, že dvě proměnné jsou korelované, jestliže určité hodnoty jedné proměnné mají tendenci se vyskytovat společně
s určitými hodnotami druhé proměnné.
Míra této tendence může sahat od neexistence korelace (všechny hodnoty proměné Y se vyskytují stejně pravděpodobně
s každou hodnotou proměnné X) až po absolutní korelaci (s danou hodnotou proměnné X se vyskytuje právě jedna
hodnota proměnné Y).
Při zkoumání korelačních vzathů má rozhodující význam kvalitativní rozbor podkladových výdajů.
Nemá smysl měřit závislot tam, kde na základě logické úvahy nemůže existovat.
-2-
Christy
přednášky
Často je zbytečné měřit závislost v případech, když je korelace způsobena:
- Formálními vztahy mezi proměnnými
- Nehomogenitou studovaného základního materiálu
- Působením společné příčiny
Formální korelace vzniká např. tehdy, když se zjišťuje korelace procentuálních charakteristik, jež se navzájem
doplňují do 100% (např. korelace procentního zastoupení bílkovin a tuku v potravinách)
Jestliže populace, kterou studujeme, obsahuje subpopulace, pro něž se průměrné hodnoty proměnných X a Y liší,
vypočtené korelační vztahy jsou touto nehomogenitou silěn ovlivněny a jejich hodntoy nepopisují skutečný vztah mezi
uvažovanými proměnnými.
Nehomogenita materiálu se projeví na bodovém grafu tak, že shluky bodů pro subpopulace se budou nacházet
v různých oblastech souřadnicového systému.
Příkladem korelací způsobených společnou příčinou jsou vztahy mezi něterými mírami těla, např. mezi délkou pravé
a levé ruky.
Zdánlivé korelace – jsou způsobené časovým faktorem nebo faktorem modernizace u dvou řad údajů.
Příklad zdánlivé korelace
Počet televizních přístrojů na osobu koreluje s očekávanou délkou života. Ve státech, kde je mnoho televizních
přístrojů, dosahují obyvatelé vysokého věku. Je možné změnou počtu televizních přístrojů dosáhnout prodloužení věku
v oblastech světa, kde je nižší očekávaná délka života?
Podobným korelacím se někdy říká „nesmyslné“ korelace.
Hodnota korelace je vysoká. Nesmyslný by byl závěr o příčinném působení.
Korelační závislost je zdůvodněna proměnnou „národní důchod“, jež je společnou příčinou obou proměnných.
Kromě působení proměnné jako „společné příčiny“ mohou působit matoucí (rušivé) proměnné, které korelují jak s
cílovou proměnnou, tak s proměnnou ovlivňující.
Proměnná v tomto případě znesnadňuje interpretaci, protože nelze rozlišit vliv matoucí a sledované ovlivňující
proměnné na cílovou proměnnou.
Postup pro ověřování kauzálního vztahu
Formální korelace?
ANO NE
Nehomogenita?
ANO NE
Působení třetí veličiny? (zdánlivá korelace)
ANO NE
Kauzální vztah
Závislost příčinná (kauzální)
Při této závislosti jeden jev (příčina) vyvolává existenci (vznik, změnu, zánik apod.) jevu druhého. Jeden jev (příčina)
podmiňuje jev jiný (účinek, následek).
Příčinná závislost jevů má všeobecný charakter, neboť každý jev je příčinou a současně účinkem jevů jiných, takže
existuje všeobecné zřetězení příčin a účinků.
Příčinou souvislostí mezi např. dvěma jevy se rozumí situace, kdy výskyt určiéh jevu souvisí (má za následek,
vyvolává) existenci jiného jevu.
Pearsonův korelační koeficient
- nejdůležitější íra síly vztahu dvou náhodných spojitých proměnných X a Y
Korelační koeficient r počítáme pomocí tzv. Kovariance syx a směrodatných odchylek sx a sy obou proměnných:
-3-
Christy
přednášky
n
r=
s xy
sx s y
=
cov( x, y )
, kde
s xy =
sx s y
∑ (x − x )( y
i =1
i
n
i
− y)
.
Důležité vlastnosti korelačního koeficientu
1. Platí -1 ≤ r ≤ +1
2. Jestliže |r| = 1, leží všechny body na nějaké přímce.
3. Jestliže r = 0, nazýváme X a Y nekorelované proměnné. Dvě náhodné proměnné jsou tím více korelovány, čím
blíže je hodnota r k číslům +1 nebo -1. V tom případě lze vztah obou proměnných dobře vyjádřit přímkou.
4. Jesltiže r < 0, resp. r > 0, tak se Y v průměru zmenšuje, resp. zvětšuje při zvětšování proměnné X. Říkáme, že
je korelace záporná, resp. kladná.
5. Pearsonův korelační koeficient vyjadřuje pouze sílu lieárního vztahu. Špatně měří jiné vztahy, ať jsou jakkoli
silné.
6. Korelační koeficient se nezmění, když změníme jednotky měrení proměnných X a Y.
7. Podobně jako průměr nebo směrodatná odchylka, je korelační koeficient r velmi ovlivněn odlehlými
hodnotami.
8. Korelační koeficient r nerozlišuje mezi závisle a nezávisle porměnnou.
9. Korelační koeficient r není úplnými popisem dat i při velmi silném lineárním vztahu. Pro úplnější popis
potřebujeme znát rovnici přímky, která vyjadřuje tvar vztahu.
10. Pokud jedna z proměnných nemá náhodný charakter (její hodnoty jsou pevně určeny), není vhodné korelační
koeficient použit.
11. Korelace, ať je jakkoli silná, neznamená sama o sobě průkaz příčinného vztahu, tedy toho, že změny proměnné
X skutečně působí změny proměnné Y.
Těsnost závislosti lze podrobně hodnotit zhruba takto:
r < 0,3
těsnost nízká
0,3 ≤ r ≤ 0,5
těsnost mírná
0,5 ≤ r ≤ 0,7
těsnost význačná
0,7 ≤ r < 0,7
těsnost velká
0,9 ≤ r ≤ 1,0
těsnost velmi vysoká
Interpretace hodnot korelačního koeficientu není tak přímočará, jako je tomu u většiny jednorozměrných charakteristik.
Proto se doporučuje dopočítat další charakteristiky, jako jsou parametry proložené přímky nebo směrodatná chyba
odhadu při regresi.
Druhou mocninou koeficientu korelace je koeficient determinace, který udává, jaké procento rozptýlení empirických
hodnot závisle proměnné je důsledkem rozptylu teoretičkých hodnot závisle proměnné odhadnutých na základě regresní
přímky.
Stupnice těsnosti závislosti podle koeficientu determinace je zhruba tato:
r2 < 10 %
těsnost nízká
10 % ≤ r2 < 25 %
těsnost mírná
25 % ≤ r2 < 50 %
těsnost význačná
50 % ≤ r2 < 80 %
těsnost velká
80 % ≤ r2
těsnost velmi vysoká
Koeficient determinace lze také vyjádřit jako poměr vysvětlené vyriability k celkové variabilitě Y:
∑ ( y′ − y )
∑ (y − y)
2
r2 =
i
2
.
i
Poznámka:
rozptyl vyrovnaných hodnot (teoretický rozptyl) – vysvětlená variabilita
s y2′ =
1
( yi′ − y ) 2
∑
n
rozptyl empirických (skutečně zjištěných) hodnot y – celková variabilita
s y2 =
1
( yi − y )2
∑
n
-4-
Christy
přednášky
Příklad
Hodnotíme závislost výšky (cm) a váhy (kg) u 10 studentů.
Student č.
1
2
3
4
5
6
7
8
9
10
součet
x
187
170
180
184
178
180
172
176
186
177
1790
(x − x )(y − y)
y− y
2
-10
3
4
2
0
-8
0
10
-3
0
x−x
8
-9
1
5
-1
1
-7
-3
7
-2
0
y
72
60
73
74
72
70
62
70
80
67
700
16
90
3
20
-2
0
56
0
70
6
259
Dále jsme zjistili:
x = 179
y = 70
s x = 5,329165
s y = 5,53172667
n
s xy =
r=
∑ (x − x )( y
i
i =1
i
− y)
n
=
259
= 25,9
10
25,9
= 0,878577
5,329165 * 5,53172667
r 2 = 0,771898 = 77,19 %
Význam exploračního zobrazení dvourozměrných dat
x1
10
8
13
9
11
14
6
4
12
7
5
y1
8,04
6,95
7,58
8,81
8,33
9,96
7,24
4,26
10,84
4,82
5,68
x2
10
8
13
9
11
14
6
4
12
7
5
y2
9,14
8,14
8,74
8,77
9,26
8,1
6,13
3,1
9,13
7,26
4,74
x3
10
8
13
9
11
14
6
4
12
7
5
y3
7,46
6,77
12,74
7,11
7,81
8,84
6,08
5,39
8,15
6,42
5,73
x4
8
8
8
8
8
8
8
19
8
8
8
y4
6,58
5,76
7,71
8,84
8,47
7,04
5,25
12,5
5,56
7,91
6,89
Základní statistické charakteristiky jsou pro všechny série dat stejné:
x = 9; s x = 3,31; y = 7,5; s y = 2,03 a r = 0,816.
Druhá série
První série
11,5
10,5
10,5
9,5
9,5
8,5
8,5
7,5
7,5
6,5
6,5
5,5
5,5
4,5
4,5
3,5
3,5
2,5
3
5
7
9
11
13
15
3
-5-
5
7
9
11
13
15
Christy
přednášky
Třetí série
Čtvrtá série
13,5
13
12,5
12
11,5
11
10,5
10
9,5
9
8,5
8
7,5
7
6,5
6
5,5
5
4,5
3
5
7
9
11
13
15
7
9
11
13
15
17
19
Spearmanův korelační koeficient pořadí
Používá se u méně rozsáhlých souborů nebo v případě, že chceme získat rychlou představu o intenzitě závislosti.
Koeficient zachycuje monotónní vztahy (ne pouze lineární, ale obecně rostoucí nebo klesající); je rezistentní vůči
odlehlým hodnotám.
Tímto koeficientem měříme sílu vztahu X a Y, když nemůžeme předpokládat linearitu očekávaného vztahu nebo
normální rozdělení proměnných X a Y.
Jestliže rs = 1, resp. rs = -1, párové hodnoty (xi, yi) leží na nějaké vzestupné, resp. klesající funkci.
Koeficient korelace pořadových čísel rs (-1 ≤ rs ≤ 1) se vypočte podle vztahu
n
rs = 1 −
6 * ∑ d i2
i =1
n(n 2 − 1)
,
kde di jsou rozdíly pořadí Rx a Ry hodnot xi a yi vzhledem k ostatním hodnotám seřazeného výběru podle velikosti.
Spearmanův koeficient rs se někdy používá pro odhad Pearsonova korelačního koeficientu r.
Pro dvourozměrně normálně rozdělené proměnné Y a Y platí přibližný vztah ρ = 2 sin (0,523 ρs).
Spearmanův koeficient korelace lze s výhodou uplatnit v situacích, kdy
- potřebujeme rychlý a rezistentní odhad korelačního koeficientu r
- testujeme schopnost zkoumané osoby správně řadit objekty nebo vlastnosti podle určitých hledisek tak, že ji necháme
seřadit tyto objekty nebo vlastnosti a toto seřazení pak srovnáme se standardem,
- testujeme možnost přítomnosti monotónního trendu v časové řadě měření.
Příklad postupu při výpočtu Spearmanova korelačního koeficientu pořadí
x
187
170
180
184
178
180
172
176
186
177
Součet
2
y
Rx
Ry
di = Rx - Ry
di
72
60
73
74
72
70
62
70
80
67
10
1
6,5
8
5
6,5
2
3
9
4
6,5
1
8
9
6,5
4,5
2
4,5
10
3
3,5
0
-1,5
-1
-1,5
2
0
-1,5
-1
1
12,25
0
2,25
1
2,25
4
0
2,25
1
1
26
rs = 1 −
První série
11,5
6 * 26
= 0,84
10 (100 − 1)
Druhá série
10,5
10,5
9,5
9,5
8,5
8,5
7,5
7,5
6,5
6,5
5,5
5,5
4,5
4,5
3,5
2,5
3,5
3
5
r = 0,82; rs = 0,82
7
9
11
13
3
15
5
7
9
11
13
15
r = 0,82; rs = 0,69
-6-
Christy
přednášky
Třetí série
Čtvrtá série
13,5
13
12,5
12
11,5
11
10,5
10
9,5
9
8
8,5
7
7,5
6
6,5
5,5
5
3
5
7
9
11
13
15
4,5
7
r = 0,82; rs = 0,99
9
11
13
15
17
19
r = 0,82; rs = 0,5
Pátá série
Šestá série
10,5
10
9,5
8,5
8
7,5
6
6,5
4
5,5
2
4,5
3,5
0
1,5
3,5
5,5
7,5
9,5
11,5
13,5
15,5
3
r = 0; rs = 0
5
7
9
11
13
15
r = -0,77; rs = -1 monotónní vztah
Odhad a testování korelačního koeficientu
Provádí se za předpokladu, že společné rozdělení obou proměnných lze modelovat dvourozměrným normálním
rozdělením nebo – jinak vyjádřeno – rozdělení obou proměnných je normální a jejich vztah je přibližně lineární.
Testuje se hypotéza o nulové hodnotě korelačního koeficientu základního souboru, tedy
H0: ρyx = 0.
Hypotéza předpokládá, že korelace neexistuje, tzn. veličiny X a Y jsou nezávislé. Alternativní hypotéza je postavena na
existenci korelace, tedy
H1: ρyx ≠ 0.
Test hypotézy se provádí pomocí testového kritéria
t=
r
1− r2
* n − 2,
které má za platnosti H0 Studentovo t-rozdělení
f = n – 2 stupních volnosti.
V případě, že vypočtená hodnota testového kritéria padne do kritického oboru, zamítá se nulová hypotéza a existence
lineární korelační závislosti se považuje za prokázanou.
t f tα ( n −2) ⇒ H 0 se zamítá
Intervalový odhad korelačního koeficientu
V případě, že výběrový soubor má dostatečně velký rozsah (n > 100), lze rozdělení výběrového korelačního koeficientu
aproximovat normálním rozdělením.
Oboustranný interval spolehlivosti je v daném případě možno psát:
P (r − uα * sr ≤ ρ ≤ r + uα * sr ) = 1 − α ,
přičemž
sr =
1− r2
.
n
Ve většině případů (především, kdy n < 100) se však využívá Fisherovy transformace, neboť výběrový koeficient
korelace neodpovídá kritériím bodového odhadu.
Místo výběrového koeficientu korelace r se zavádí transformovaná veličina zr.
r → z r = arctan h(r ) =
1  1+ r 
ln

2 1− r 
-7-
Christy
přednášky
Touto transformací se rozšířil interval hodnot –1 ≤ r ≤ +1 na interval -∞ ≤ zr ≤ +∞. Nová proměnná má přibližně
průměr µzr a směrodatnou odchylku szr
1 1+ r 
,
2 1− r 
s zr =
µ z = ln
r
1
.
n −3
Dvoustranný interval spolehlivosti pro transformovanou veličinu základního souboru má vyjádření:
(
)
P z r − tα ( n− 2) * s z r ≤ µ z r ≤ z r + tα ( n −2 ) * s zr = 1 − α ,
Zpět do měřítka korelačního koeficientu převedeme oba krajní body intervalu pomocí inverzní transformace zr-1:
e2 z − 1
r = 2z
e +1
Získáme tak interval spolehlivosti pro korelační koeficient ρ.
Příklad
n = 30;
r = 0,717078;
t0,05(28) = 2,048
H0: ρyx = 0
t=
H1: ρyx ≠ 0
0,717078
* 30 − 2 = 5,44399
1 − 0,717078 2
t f tα ⇒ H 0 se zamítá
1  1 + 0,717 
ln
 = 0,9016
2  1 − 0,717 
1
1
s zr =
=
= 0,19245
n−3
30 − 3
zr =
0,9016 − 2,048 * 0,19245 ≤ µ z r ≤ 0,9016 + 2,048 * 0,19245
(
)
P 0,468 ≤ µ zr ≤ 1,29574 = 0,95
P(0,4680 ≤ ρ ≤ 0,8606) = 0,95
Regresní analýza
Jde o přesnější popis tvaru vztahu mezi proměnnými X a Y a charakterizování jeho vhodnosti pro predikci hodnot
závisle proměnné pomocí hodnot nezávisle proměnné.
Může jít např. o následující situace:
- Korelační koeficient i graf prokazují lineární vztah mezi spotřebou zemního plynu v bytě v závislosti na
venkovní teplotě. Otázka zní, jak přesně můžeme predikovat spotřebu pomocí teploty.
- Ve sportovním výzkumu máme např. data o rychlosti skokanů na hraně můstku a dosažené délce skoku.
Zajímá nás, jaký je mezi nimi vztah: lze pomocí rychlosti predikovat délku skoku, s jakou přesností, je vztah
lineární?
V regresní analýze obecně analyzujeme vztah mezi jednou proměnnou zvanou cílová nebo závislá proměnná (Y) a
několika dalšími, které nazýváme nezávislé nebo ovlivňující proměnné (X).
Vztah reprezentujeme matematickým modelem, což je rovnice, jež svazuje závisle s nezávisle proměnnou a
pravděpodobnostní předpoklady, které by měl vztah splňovat.
Závisle proměnná se spojena s nezávisle proměnnými funkcí nazývanou regresní funkcí, jež obsahuje několik
neznámých parametrů.
Jestliže tato funkce je lineární v těchto parametrech (nemusí být lineární v proměnných), mluvíme o lineárním
regresním modelu.
Statistické problémy, která nás zajímají v regresní analýze, jsou:
- získání statistických odhadů neznámých parametrů regresní funkce,
- testování hypotéz o těchto parametrech,
- ověřování předpokladů regresního modelu.
-8-
Christy
přednášky
Prokládání dat přímkou
Máme k dispozici uspořádané dvojice číselných údajů (x1, y1), (x2, y2), …, (xn, yn) pro proměnné X a Y.
Jestliže graf ukáže lineární vztah mezi proměnnými, usilujeme o zachycení vztahu tím, že body proložíme přímku.
Hledáme přímku, jež je experimentálním bodům co možná nejblíže (žádná přímka neprotne všechny body).
Snažíme se určit takovou přímku, která bude co nejlépe predikovat y-hodnoty pomocí x-hodnot.
Základní model regresní závislosti s jednou nezávisle proměnnou X vyjadřuje libovolnou hodnotu závisle proměnné Y
jako:
′
yi = f ( xi ) + ei ,
kde f(xi) je tzv. regresní funkce a ei je náhodná (reziduální) odchylka i-tého pozorování proměnné Y.
Reziduální odchylka (chyba predikce) – rozdíl mezi naměřenou a očekávanou hodnotou.
Dobře proložená přímka y = a + b*x minimalizuje velikosti reziduálních hodnot pro hodnoty (xi, yi), kterými přímku
prokládáme.
Pro stanovení parametrů se nejčastěji používá metoda nejmenších čtverců.
Hodnoty parametrů a, b přímky y = a + b*x získáme touto metodou tak, aby součet druhých mocnin reziduálních
hodnot byl minimální vzhledem k parametrům a, b.
sr2 = ∑ ei2 = ∑ ( yi − a − bxi )
2
Minimalizuje sečtené čtverce úseček, které vyznačují vzdálenost bodu od proložené přímky ve směru osy Y.
Výpočet tohoto minima vede k optimálním hodnotám
b = r*
sy
sx
a = y − bx ,
,
kde r je korelace obou proměnných a sx, sy jsou směrodatné odchylky naměřených hodnot proměnných X a Y.
Hodnota yi` je odhad cílové proměnné pomocí regresního vztahu (yi` = a + bxi):
reziduální hodnota = naměřená hodnota y – predikovaná hodnota y`.
Rozptýlenost bodů kolem přímky je charakterizována zbytkovým (reziduálním) rozptylem, případně směrodatnou
chybou odhadu při regresi (lze také posoudit přesnost provedených regresních odhadů jako míru chyby)
s
2
y. x
∑e
=
2
i
n−2
∑ (y
=
i
− y′i ) 2
n−2
.
Jednostranná závislost – proměnná X je nezávisle proměnná a Y pak závisle proměnná.
Oboustranná závislost – nelze přesně rozhodnout, která proměnná je závislá a která nezávislá.
yi′ = a yx + byx xi
xi′ = a xy + bxy yi
Vztahy pro regresi X na Y získáme vhodnou záměnou ve vzorcích (např. bxy = r*sx/sy, kde r je korelační koeficient).
Mezi směrnicemi obou regresních přímek byx a bxy existuje vztah
r = byx * bxy .
-9-
Christy
přednášky
Můžeme tedy nalézt dvě regresní přímky, které se budou protínat v bodě a tvoří jakési nůžky.
Čím větší je korelace, tím více jsou nůžky stisknuty.
13,5
x; y
11,5
9,5
7,5
5,5
3,5
3,5
5,5
7,5
9,5
11,5
13,5
Metoda nejmenších čtverců – postup stanovení parametrů u jednoduché lineární závislosti
yi′ = a + bxi
n
∑(y
i =1
i
− yi′ ) 2 = min
Z podmínky minimálnosti čtverců jsou vyvozeny normální rovnice, ze kterých se jejich řešením vypočtou neznámé
parametry a a b.
2
n
f (a, b) = ∑ [ yi − (a + bxi )] = min
i =1
Má-li tato funkce f(a,b) minimum, musejí se její první parciální derivace podle konstant a a b rovnat nule.
n
∂ f ( a, b) n
= ∑ 2( yi − a − bxi )(0 − 1 − 0) = −2∑ ( yi − a − bxi )
∂a
i =1
i =1
n
∂f (a , b) n
= ∑ 2( y i − a − bx i )(0 − 0 − x i ) = −2∑ (y i − a − bx i ) x i
∂b
i =1
i =1
Tedy platí
n
− 2∑ ( yi − a − bxi ) = 0
i =1
n
− 2∑ ( yi − a − bxi ) xi = 0
i =1
Vynásobením každé z rovnic –1/2, rozvedením součtů a osamostatněním součtů obsahujících yi se získá soustava
normálních rovnic.
n
n
∑ yi = na + b∑ xi
i =1
i =1
n
n
n
i =1
i =1
i =1
∑ xi yi = a∑ xi + b∑ xi2
Řešením soustavy normálních rovnic obdržíme:
n
b=
n
n
n∑ xi yi − ∑ xi ∑ yi
i =1
i =1
i =1


n∑ x −  ∑ xi 
i =1
 i =1 
n
n
2
a = y −b* x
2
i
- 10 -
Christy
přednášky
Jednostranná závislost – proměnná X je nezávisle proměnná a Y pak závisle proměnná.
Oboustranná závislost – nelze přesně rozhodnout, která proměnná je závislá a která nezávislá (sdružené přímky).
yi′ = a yx + byx xi
xi′ = a xy + bxy yi
Vztahy pro regresi X na Y získáme vhodnou záměnou ve vzorcích (např. bxy = r*sx/sy, kde r je korelační koeficient).
Mezi směrnicemi obou regresních přímek byx a bxy existuje vztah
r = byx * bxy .
Můžeme tedy nalézt dvě regresní přímky, které se budou protínat v bodě a tvoří jakési nůžky.
Čím větší je korelace, tím více jsou nůžky stisknuty.
13,5
x; y
11,5
9,5
7,5
5,5
3,5
3,5
5,5
7,5
9,5
11,5
13,5
Maticové vyjádření regresního problému
Lineární (teoretický) model lze zapsat jako y = Xβ + ε,
ve kterém:
y – n-členný náhodný vektor napozorovaných (zjištěných) hodnot vysvětlované proměnné Y,
X – nenáhodná matice typu n x (k+1) zvolených n kombinací hodnot vysvětlujících proměnných,
β – je (k+1)členný vektor neznámých parametrů modelu,
ε – n-členný vektor nepozorovatelné rušivé (náhodné) složky.
Pro lepší představu
 y1 
y 
y =  2
M
 
 yn 
1 x11 L x1k 
1 x
L x2 k 
21
X=
M M
M
M 


1 xn1 L xnk 
β0 
β 
β =  1
M
 
β k 
ε1 
ε 
ε =  2
M
 
ε n 
Z uvedeného zápisu je vidět, že v n lineárních rovnicích je p = k+1 neznámých regresních parametrů a n hodnot
náhodné složky.
Soustavu normálních rovnic pro hledanou funkci y = Xb + ε lze pak v maticovém tvaru vyjádřit takto:
X′Xb = X′y
Za předpokladu, že k matici X`X existuje matice inverzní, dostaneme vektor odhadovaných parametrů podle vztahu
b = (X′X ) X′y.
−1
- 11 -
Christy
přednášky
Maticově lze stanovit i hodnotu korelačního indexu.
1
( yi )2
∑
n
1
2
y′y − ∑ ( yi )
n
b′X′y −
I=
Předpoklady metody nejmenších čtverců
Regresní parametry β mohou nabývat libovolných hodnot. V technické praxi však často existují omezení parametrů,
která vycházejí z jejich fyzikálního smyslu.
Regresní model je lineární v parametrech a platí aditivní vztah y = Xβ + ε.
Vysvětlující proměnné X1, X2, …, Xk jsou nenáhodné a neexistuje mezi nimi funkční lineární závislost.
Pro danou kombinaci hodnot vysvětlujících proměnných jsou hodnoty nepozorovatelné rušivé složky εi normálně
rozdělené, nezávislé náhodné veličiny s nulovými středními hodnotami a se stejným (konstantním) rozptylem σ2.
Neboli vektor hodnot rušivé složky ε má n-rozměrné normální rozdělení N(0, σ2) s vektorem středních hodnot E(ε) = 0
a s kovarianční maticí σ2 E, kde E je jednotková matice.
Náhodné chyby εi mají nulovou střední hodnotu E(εi) = 0, konstantní a konečný rozptyl E(εi2) = σ2. Také podmíněný
rozptyl D(y/x) = σ2 je konstantní a jde o homoskedastický případ.
Náhodné chyby εi jsou vzájemně nekorelované a platí cov (εi, εj) = E(εi, εj) = 0. Pokud mají chyby normální rozdělení,
jsou nezávislé.
cov(ε 1ε 2 ) L cov(ε 1ε n )  σ 2 0 L 0 
 D(ε 1 )


cov(ε ε )
D(ε 2 )
L cov(ε 2ε n )  0 σ 2 L 0 
2 1

cov(ε iε i ) =
=

  M
M
M
M
M
M
M
M 


 
D(ε n )   0
0 L σ 2 
cov(ε nε 1 ) cov(ε nε 2 ) L
Odhady v regresní analýze
Interpolace – předmětem zájmu je některá z použitých kombinací vysvětlujících proměnných
Extrapolace – pozornost je upřena na hodnotu proměnné Y pro předpokládané budoucí nebo výzkumně zajímavé
kombinace hodnot proměnné Y.
Je nutné odlišit dva významově zásadně odlišné případy:
Odhad průměrné hodnoty Y neboli odhad podmíněné střední (očekávané) proměnné Y vzhledem ke
zvolené hodnotě (kombinaci hodnot) vysvětlující proměnné.
Odhad konkrétní hodnoty yì neboli předpověď
yì = a + bxi hodnoty proměnné Y vzhledem
ke zvolené hodnotě (kombinaci hodnot) vysvětlující proměnné.
Pás spolehlivosti kolem regresní přímky
Z rovnice regresní přímky zkoumaného souboru lze určovat teoretickou hodnotu závisle proměnné příslušející určité
skutečné hodnotě nezávisle proměnné.
Avšak skutečné konkrétní hodnoty závisle proměnné jsou více méně rozptýleny kolem stanovené regresní přímky.
Se zvolenou pravděpodobností je možno určit tzv. pás spolehlivosti, v němž se tyto skutečné (empirické) hodnoty
nacházejí jako
yi′ ± t
1−
α
• s y.x .
2
sy.x je směrodatná chyba, která je rovna
n
s y. x =
∑ ei2
i =1
n−2
n
=
∑ ( yi − yi′) 2
i =1
n−2
n
=
n
∑ yi2 − ∑ yi yi′
i =1
i =1
,
n−2
přičemž
∑ yi yi′ = ∑ yi (a yx + byx xi ) = a yx ∑ yi + byx ∑ xi yi .
n
n
n
n
i =1
i =1
i =1
i =1
t
1−
α
jsou 100 (1-α/2)% kvantily Studentova t-rozdělení s (n-2) stupni volnosti
2
- 12 -
Christy
přednášky
Příklad
Pro závislost proměnné Y na proměnné X byla stanovena regresní přímka ve tvaru yì = 4,375 + 0,01994 xi a pomocné
výpočty
∑y
i
∑y
= 117,1
s y. x =
2
i
= 1162,35
∑x y
i
i
= 32005,4
1162,35 − (4,375 • 117,1 + 0,01998 • 32005,4 )
= 1,082
12 − 2
n = 12
t1-α/2 (10) = 2,228
yi (min, max) = 4,375 + 0,01994 xi ± 2,228 * 1,082
Znamená to, že dolní mez pro skutečné hodnoty je
yi (min) = 1,96456 + 0,01994 xi
a horní mez yi (max) = 6,78626 + 0,01994 xi
14
13
12
11
10
9
8
7
6
5
190
210
230
250
270
290
310
330
350
Test významnosti regresního koeficientu
Nulová hypotéza předpokládá, že výběrový koeficient regrese je odhadem regresního koeficientu ZS, o němž se
předpokládá, že má nulovou hodnotu, tzn. že platí H0: βyx = 0.
Testové kritérium má tvar
t=
byx
sbyx
, kde
sbyx =
sy
sx
*
1− r 2
.
n−2
t f tα ( n − 2) ⇒ H 0 se zamítá
V případě, že se zamítá H0, je existence lineární závislosti prokázána a odvozenou regresní funkci lze použít k
provádění regresních odhadů.
Intervalový odhad regresního koeficientu
Oboustranný interval spolehlivosti pro regresní koeficient je vymezen následujícím způsobem:
(
)
P byx − tα ( n − 2 ) * sbyx ≤ β yx ≤ byx + tα ( n − 2) * sbyx = 1 − α .
Příklad - yì = 4,375 + 0,01994 xi
H0: βyx = 0
sbyx
t0,05(10) = 2,228
1,33652
1 − 0,635697 2
=
*
= 0,0076581
42,6027
12 − 2
- 13 -
Christy
přednášky
t=
0,0199429
= 2,60416
0,0076581
t f tα ⇒ H 0 se zamítá
P (0,01994 − 2,228 * 0,0076581 ≤ β yx ≤ 0,01994 + 2,228 * 0,0076581) = 0,95
P (0,00288 ≤ β yx ≤ 0,037 ) = 0,95
Test významnosti regresní přímky
K testování lze použít upravený model analýzy rozptylu.
p – počet parametrů ověřované funkce
Jestliže F > Fα [(p-1); (n-p)], zamítáme H0.
Příslušné součty čtverců se stanoví následujícím způsobem:
2
n
pro variabilitu regrese
S1 = ∑ ( yi′ − y )
i =1
pro variabilitu kolem regrese
2
n
S r = ∑ ( yi − yi′ )
i =1
pro celkovou variabilitu
n
2
S = ∑ ( yi − y )
i =1
Příklad
Pro závislost proměnné Y na proměnné X byla stanovena regresní přímka ve tvaru yì = 4,375 + 0,01994 xi.
xi
268
312
223
203
248
328
303
325
275
218
248
288
celkem
yi
8,7
11,1
8,8
9,3
8,7
10,2
9,3
12,2
11,4
7,6
10,5
9,3
--
yì
9,720109
10,5976
8,822679
8,423821
9,321251
10,91668
10,41811
10,85685
9,85971
8,722964
9,321251
10,11897
--
yi′ − y
yi - yì
0,0015
0,7044
0,8754
1,7809
0,1910
1,3418
0,4353
1,2067
0,0103
1,0720
0,1910
0,1301
7,9404
1,0406
0,2524
0,0005
0,7677
0,3860
0,5136
1,2502
1,8040
2,3725
1,2610
1,3894
0,6707
11,7087
- 14 -
Christy
přednášky
y = 9,75833
S1 = 7,9404
Sr = 11,7087
S = 19,6492
F=
s12 =
S1
7,9404
=
= 7,9404
p −1
2 −1
sr2 =
Sr
11,7087
=
= 1,17087
n − p 12 − 2
s12 7,9404
=
= 6,7816
sr2 1,17087
F0,05 [(2-1); (12-2)] = 4,96
F > Fα [(p-1); (n-p)] ⇒ zamítáme H0
Intervalový odhad regresní přímky
Interval spolehlivosti, který s danou pravděpodobností pokrývá hledanou regresní přímku základního souboru y`j = αyx
+ βyxxj, je určen na základě regresní přímky výběrového souboru yì = ayx + byxxi a je vyjádřen takto:

(x − x )2 ≤ y′ ≤ y′ + u • s 1 + (xi − x )2
P yi′ − u α • s y 1 + i 2
α
j
i
y
1−
1−

sx
s x2
2
2

y′j ( H , D ) = yi′ ± t
1−
sy =
sy
n
α
2
• sy 1+
(xi − x )2
s x2
sx2 – rozptyl proměnné X
sy – směrodatná odchylka proměnné Y
x = 269,92 s x = 42,6027 s y = 1,33652 s y =
y′j ( H , D ) = 4,3754 + 0,1994 xi ± 2,228 • 0,38582
xi
268
312
223
203
248
328
303
325
275
218
248
288

 = 1−α.


yì
9,720
10,598
8,823
8,424
9,321
10,917
10,418
10,857
9,860
8,723
9,321
10,119
1,33652
= 0,38582
12
2
(
xi − 269,92 )
1+
1814,9924
y`j(H)
8,860
9,389
7,544
6,823
8,355
9,463
9,330
9,452
8,994
7,368
8,355
9,185
- 15 -
y`j(D)
10,581
11,806
10,101
10,024
10,288
12,370
11,506
12,262
10,725
10,078
10,288
11,053
Christy
přednášky
Standardním výstupem většiny programů regresní analýzy je závěr Fisherova-Snedecorova F-testu o významnosti
regresní přímky a výsledky Studentova t-testu o významnosti jednotlivých parametrů vektoru β (vektor regresních
parametrů modelu).
F-test určuje zároveň simultánní významnost všech složek vektoru β kromě absolutního členu. Mohou tedy nastat tyto
případy:
- F-test vychází nevýznamný, všechny t-testy vychází rovněž jako nevýznamné. Model se pak považuje za nevhodný,
protože nevystihuje variabilitu proměnné y.
- F-test i všechny t-testy vychází významné. Model se považuje za vhodný k vystižení variability proměnné y. To však
ještě neznamená, že je model navržen správně.
- F-test vychází významný, ale t-testy nevýznamné u některých regresních parametrů. Model je považován za vhodný a
provádí se případné vypouštění těch vysvětlujících proměnných xi, pro které jsou parametry βi nevýznamně odlišné od
nuly.
- F-test sice vychází významný, ale t-testy parametrů β indikují nevýznamnost všech vysvětlujících proměnných. To je
paradox, protože formálně sice model jako celek vyhovuje, ale žádná z vysvětlujících proměnných není sama o sobě
významná. Jde o důsledek multikolinearity.
- 16 -
Christy
přednášky
Hodnocení kvality regresního modelu
Pro hodnocení kvality každého modelu je vždy rozhodujícím kritériem cíl analýzy, a tím i použitelnost výsledků.
Vážné důsledky má nejen volba špatného typu regresního modelu a nedostatky použitých statistických údajů, jakož i
výběr nevhodné metody odhadu parametrů, ale i neoprávněnost některých (někdy nevědomě učiněných) předpokladů a
podmínek.
Potíž je v tom, že nejrůznější vyskytující se narušení modelu, dat, metody či předpokladů bývají vzájemně natolik
propojená, že izolovaný nebo postupný způsob hodnocení různých aspektů úlohy nemusí být dostatečný ani prospěšný.
V této souvislosti nás mohou zajímat různé otázky, např.:
- Jaké máme věcné nebo empirické informace.
- Jakým způsobem byla data pořízena a jaká je jejich kvalita.
- Které jsou rozhodující a méně důležité vysvětlující proměněné.
- Doporučený nebo vyzkoušený typ modelu a regresní funkce.
- Jak jsou splněné podmínky a předpoklady lineárního modelu.
- Jaká je přesnost regresních odhadů.
- Jaké jsou důvody případné nedostatečné přesnosti odhadu.
Regresní diagnostika
Provádí se v případě, kdy nejsou splněny předpoklady o datech a regresním modelu a kdy není metoda nejmenších
čtverců vhodná ke stanovení regresních parametrů.
Regresní diagnostika obsahuje postupy k identifikaci:
- kvality dat pro navržený model,
- kvality modelu pro daná data,
- splnění základních předpokladů metody nejmenších čtverců.
V rámci zvolených postupů lze do regresní diagnostiky zahrnout metody pro průzkumovou analýzu jednotlivých
proměnných, metody pro analýzu vlivných bodů a metody pro odhalení porušení předpokladů MNČ.
Základní rozdíl mezi regresní diagnostikou a klasickými testy spočívá v tom, že u regresní diagnostiky není třeba přesně
formulovat alternativní hypotézu a jsou přitom odhaleny typy odchylek od ideální situace.
- 17 -
Christy
přednášky
Využití průzkumové analýzy
V regresní analýze se využívá těchto metod:
- pro určení statistických zvláštností jednotlivých proměnných nebo reziduí,
- k posouzení „párových“ vztahů mezi všemi sledovanými proměnnými,
- k ověření předpokladů o rozdělení proměnných nebo reziduí.
Mezi základní techniky průzkumové analýzy patří i stanovení volby rozsahu a rozmezí dat, jejich variability a
přítomnosti vybočujících pozorování.
Přes svoji jednoduchost umožňuje průzkumová analýza identifikovat před vlastní regresní analýzou:
- nevhodnost dat (malé rozmezí nebo přítomnost vybočujících bodů),
- nesprávnost navrženého modelu (skryté proměnné – často souvisí s časem nebo pořadím měření),
- multikolinearitu,
- nenormalitu v případě, kdy jsou vysvětlující proměnné náhodné veličiny.
Posouzení kvality dat
- úzce souvisí s užitým regresním modelem
Při posuzování se sleduje především výskyt vlivných bodů, které jsou hlavním zdrojem problémů, jako je zkreslení
odhadů a růst rozptylů až k naprosté nepoužitelnosti regresních odhadů parametrů (ve zvláštních případech však
zlepšují predikční schopnosti modelů).
Vlivné body silně ovlivňují většinu výsledků regrese a lze je rozdělit do tří základních skupin:
- Hrubé chyby, které jsou způsobeny měřenou veličinou – vybočující pozorování – nebo nevhodným nastavením
vysvětlujících proměnných – extrémy. Jsou obyčejně důsledkem chyb při manipulaci s daty.
- Body s vysokým vlivem jsou speciálně vybrané body, které byly přesně změřeny a které obvykle rozšiřují predikční
schopnosti modelu.
- Zdánlivě vlivné body vznikají jako důsledek nesprávně navrženého regresního modelu.
Podle toho, kde se vlivné body vyskytují, lze provést dělení na:
- vybočující pozorování, které se na ose y výrazně liší od ostatních, tzn. takové vysoké či nízké hodnoty yi, které se
zásadně liší od ostatních hodnot vysvětlované proměnné Y
- extrémy, které se liší v hodnotách na ose x nebo v jejich kombinaci (v případě multikolinearity) od ostatních bodů –
představují zásadně odlišnou kombinaci hodnot vysvětlujících proměnných.
Vyskytují se však i body, které jsou jak vybočující, tak i extrémní. O jejich výsledném vlivu však především rozhoduje
to, že jsou extrémy.
K identifikaci vlivných bodů typu vybočujícího pozorování se využívá zejména analýza reziduí a k identifikaci extrémů
pak diagonálních prvků tzv. projekční matice.
Statistická analýza reziduí
Rezidua jsou základní diagnostickým nástrojem, a to nejen při hodnocení kvality regresní funkce a dat, ale i obecněji při
posuzování oprávněnosti předpokladů zvoleného lineárního regresního modelu.
Rezidua lze zjednodušeně charakterizovat jako lineární kombinaci všech chyb.
Lze říci, že jakákoli systematičnost (nenáhodnost) zjištěná u reziduí indikuje nějaký (zatím neidentifikovaný)
nedostatek odhadnutého regresního modelu.
Může to být chybně zvolený typ regresní funkce, nevhodný plán experimentu, nenáhodný výběr, nesprávně zvolené
vysvětlující proměnné, nesplnění předpokladů modelu, špatné představy o modelu, chybná nebo příliš vlivná
pozorování, silná vzájemná závislost vysvětlujících proměnných, ale i jiná narušení regresní úlohy.
Není tak podstatné, zda jde o vybočující pozorování nebo extrémy, ale každopádně obecně velkým problémem odhadů
pořízených MNČ je jejich nesmírná citlivost na pozorování, která se od jiných v něčem důležitém výrazně liší.
- 18 -
Christy
přednášky
Typy reziduí a jejich vlastnosti
Klasická rezidua
Jsou rozdíly mezi skutečnými a odhadnutými hodnotami vysvětlované proměnné Y (yi – yì).
Klasická rezidua jsou korelovaná, s nekonstantním rozptylem, jeví se normálnější a nemusí indikovat silně odchýlené
body.
Predikovaná rezidua
Rezidua počítaná bez i-tého pozorování jsou zbavena vlivu tohoto pozorování.
yì(-i) je vyrovnaná hodnota získaná na základě n-1 pozorování při vypuštění i-tého pozorování.
Odpovídající predikované reziduum je vypočteno jako rozdíl skutečné hodnoty yi a takto odhadnuté hodnoty yì(-i)
ei(-i) = yi - yì(-i).
Predikovaná rezidua jsou korelovaná, mají normální rozdělení s nulovou střední hodnotou a s nestejným rozptylem.
Normovaná rezidua
Soudí se o nich, že jsou to normálně rozdělené veličiny s nulovou střední hodnotou a jednotkovým rozptylem.
K ocenění jejich vlivu se používá pravidla 3σ, tj. hodnoty větší než ± 3σ jsou brány za vybočující.
Rozhodně je však nelze doporučit pro identifikaci odlehlých pozorování (silně vlivné extrémní body), protože snadno
může dojít k vyloučení správných pozorování a zachování chybných značně odlehlých hodnot.
Standardizovaná rezidua
Mají konstantní rozptyl a vzniknou dělením reziduí jejich směrodatnou odchylkou, tzn. mají nulovou střední hodnotu a
jednotkový rozptyl.
Jackknife rezidua
Jsou alternativou ke standardizovaným reziduím. Jejich výpočet je podobný jako u standardizovaných reziduí, místo
směrodatné odchylky reziduí se však použije směrodatná odchylka získaná při vynechání i-tého bodu.
Tato rezidua mají za předpokladu normality chyb Studentovo rozdělení s n – m – 1 stupni volnosti.
Tato rezidua se využívají pro odhalení neznámých příliš vlivných či podezřelých pozorování (vybočujících bodů),
nemusí však být spolehlivá v případě extrémů.
Nekorelovaná rezidua
V konkrétní regresní úloze je možné sestavit jen n – p nekorelovaných reziduí, která vždy existují.
Nekorelovaná rezidua jsou lineární transformací klasických reziduí se stejným reziduálním součtem čtverců.
Rekurzivní rezidua (dopředná nebo zpětná)
Jsou typem nekorelovaných reziduí při využití rekurzivní MNČ, jejímž principem je opakovaný iterativní odhad
parametrů regresního modelu MNČ s tím, že v každé iteraci se postupně přidává do výpočtu jeden bod (řádek xi matice
X a hodnota yi).
Odpovídající rekurzivní rezidua umožňují identifikovat nestabilitu modelu, např. v čase.
Grafická analýza reziduálních hodnot
Pomáhá ověřit kvalitu proložení dat přímkou a odhalit neobvyklé hodnoty (vybočující pozorování, extrém, vlivné
body).
Patří sem tři základní typy grafů:
Typ I: Graf závislosti reziduí ei na indexu i
Typ II: Graf závislosti reziduí ei na proměnné xi
Typ III: Graf závislosti reziduí ei na predikci yì
Nedoporučuje se konstruovat graf závislosti reziduí ei na naměřených hodnotách yi, protože jde o korelované veličiny.
Lze tvrdit, že předpoklad lineárního vztahu je dobře splněn.
- 19 -
Christy
přednášky
Obrázek indikuje, že rozptyl bodů kolem regresní přímky se zvyšuje s rostoucím X.
Konfigurace naznačuje nutnost použití některé nelineární regresní křivky.
Při zobrazení párových hodnot (ti, ei), kde ti je časový okamžik i-tého měření, můžeme dostat konfiguraci, která
upozorňuje na to, že časový faktor by měl být součástí regresního modelu.
Graf obsahuje dva neobvyklé body, jež mohou být klasifikovány jako odlehlá hodnota.
- 20 -
Christy
přednášky
Odlehlý bod je takový, který leží mimo základní konfiguraci bodů v grafu. Údaj může být odlehlý ve směru Y, ve
směru X nebo v obou směrech. Odlehlý údaj ve směru nezávisle proměnné se nazývá vybočující. Bod nazýváme
vlivný, pokud se po jeho odstranění podstatně změní poloha regresní přímky. Body, jež jsou odlehlé ve směru X, jsou
často vlivné. Na obrázku je takovým bodem bod b. Bod a představuje pak vybočující pozorování.
Vlivná pozorování
Vlivné body jsou takové body, jejichž vynecháním dochází k zásadní změně regresních charakteristik (odhadu
parametrů, vyrovnaných hodnot, odhadů kovarianční matice či dalších).
Tyto body je nutné identifikovat, protože jsou-li chybné, dochází ke značnému zkreslení regresních výsledků.
Pro identifikaci vlivných bodů jsou nejvhodnější techniky, které jsou založené na hodnocení důsledků vypuštění i-tého
bodu na regresní charakteristiky (např. grafické znázornění predikovaných reziduí).
Postup při lineární regresní analýze
Postup při vyšetřování a konstrukci lineárního regresního modelu se skládá z těchto fází:
- Návrh modelu – začíná se od nejjednoduššího modelu, kde se nevyskytují žádné interakční členy (vztahy mezi
proměnnými). V případě, kdy je předem známé, že model má obsahovat funkce vysvětlujících proměnných, může být
výchozí model patřičně upraven dle těchto požadavků.
- Předběžná analýza dat – sleduje se proměnlivost jednotlivých proměnných a možné párové vztahy.
- Odhadování parametrů – provádí se klasickou MNČ, stejně jako i určení základních statistických charakteristik.
Následuje test významnosti jednotlivých parametrů pomocí Studentova t-testu a koeficientu korelace.
- Regresní diagnostika – je prováděna identifikace vlivných bodů a ověření, jsou-li splněny předpoklady metody
nejmenších čtverců.
Na základě nalezených vlivných bodů se rozhoduje, zda je nutné tyto body z dat eliminovat, nebo je možné tyto body v
datech ponechat.
Pokud dojde k úpravě dat, je třeba provést znovu regresní diagnostiku se zaměřením na porušení předpokladů MNČ.
- Konstrukce zpřesněného modelu – např. využitím metody vážených nejmenších čtverců, metody zobecněných
nejmenších čtverců, metody podmínkových nejmenších čtverců, metody rozšířených nejmenších čtverců, robustních
metod pro jiná rozdělení dat než normální a data s vybočujícími hodnotami a extrémy.
- Zhodnocení kvality modelu – využitím klasických testů, postupů regresní diagnostiky a doplňkových informací se
provede zhodnocení kvality navrženého lineárního regresního modelu.
- Testování různých hypotéz – ve zvláštních případech, jako je porovnání několika přímek atd., se provádí testování
pomocí dalších testů k ověřování rozličných typů hypotéz.
Nelineární regresní modely
V některých případech vyplyne z úvahy nebo grafického znázornění bodů (xi, yi), že regresní vztah proměnných X a Y
nelze popsat přímkou.
Potom hledáme jiné jednoduché regresní křivky, které dokáží popsat sledovanou závislost.
V některých případech předběžná znalost a teoretický rozbor situace vede k několika možným nelineárním vztahům,
mezi kterými je třeba na základě pozorovaných hodnot vybrat.
Na druhé straně v případě empirických modelů, konstruovaných pouze na základě pozorovaných dat, je vhodné uvážit
možnost použití lineárního modelu, který umožňuje pracovat s postupy známými z lineární regrese a vyhnout se
problémům spojených s aplikací nelineárního modelu. Jde hlavně o případy nedostatečné představy o vhodném modelu
nebo velkého počtu vysvětlujících proměnných.
Je třeba si uvědomit, že na rozdíl od lineárních parametrů mají v modelech vznikajících v nejrůznějších oblastech
technických, chemických či ekonomických aplikací parametry jasný význam a přesnou interpretaci – určují rychlostní
konstanty, materiálové charakteristiky, rychlosti růstu apod.
Vzhledem k průběhu regresních funkcí, kterými je závislost popsána, mohou mít parametry význam pro určení tvaru
regresní funkce – jsou to např. asymptoty, směrnice, inflexní body. Proto jsou často cílem analýzy hodnoty parametrů
(v případě regresního modelu ovšem jejich bodový odhad).
Na druhé straně je třeba při interpretaci odhadů modelových parametrů brát v úvahu, že jde o náhodné veličiny, které
mají nejenom svůj rozptyl, ale bývají často i silně korelované.
Jednoduché nelineární modely tak mohou při zpracování přinášet řadu problémů, a to jak z hlediska správnosti odhadů
parametrů, tak i jejich interpretace.
Často se lze setkat s přeceňováním možností nelineárních modelů.
Modely bývají používány i mimo rozsah své platnosti a předpokládá se, že mohou doplňovat chybějící informace v
datech.
Výsledek nelineární regrese závisí na kvalitě regresního tripletu data – model – kritérium regrese. Jejich správné
zadání vede k odhadům parametrů vyhovujícím po stránce formální, fyzikální i statistické (příp. jiné).
- 21 -
Christy
přednášky
Nejpoužívanější typy jednorovnicových regresních modelů
Zcela lineární model
Je určitě správný v případě vícerozměrného normálního rozdělení uvažovaných náhodných veličin, ale lineární
zjednodušení bývá úspěšné ve všech úlohách s větším počtem vysvětlujících proměnných, nenabízí-li teorie daného
vědního oboru jiné rozumné alternativy.
Ve zcela lineárním modelu se předpokládá součtový vliv všech činitelů a regresní funkcí je rovnice nadroviny
Y = β0 + β1X1 + … + βkXk + ε,
ve které β0 je absolutní člen a β1, β2, …, βk jsou strukturní parametry nebo též (dílčí) regresní koeficienty.
Například parametr β1 je interpretován jako očekávaná změna veličiny Y při jednotkovém růstu veličiny X1 za
předpokladu už uvažovaného, a tudíž statisticky konstantního vlivu vysvětlujících proměnných X2, X3, …, Xk
(analogicky je hodnocen význam ostatních dílčích regresních koeficientů).
Model regresní přímky Y = β0 + β1X1 + ε je speciální případ pro jednu vysvětlující proměnnou a model regresní
roviny Y = β0 + β1X1 + β2X2 + ε je speciální případ pro dvě vysvětlující proměnné.
Racionální celistvé a lomené funkce
Velmi často se používá regresní model, který je lineární z hlediska všech parametrů, ale nelineární z hlediska
vysvětlujících proměnných. Oblíbené jsou především modely s jednou vysvětlující proměnnou.
V této skupině je asi nejznámější model regresní paraboly s-tého stupně
Y = β0 + β1X1 + β2X2 + … + βsXs + ε
a zvláště regresní parabola druhého stupně, kdy s = 2. Častý je i model regresní hyperboly s-tého stupně
Y = β0 + β1X-1 + β2X-2 + … + βsX-s + ε
a její speciální případ, kdy s = 1.
Model lineární v parametrech
Zobecněním předchozích dvou a dalších případů je model, který je lineární z hlediska všech parametrů
Y = β0 + β1f1 + … + βRfr + ε,
ve kterém f1 = f1(X1, X2, …, Xk), f2 = f2(X1, X2, …, Xk), …, fR = fR(X1, X2, …, Xk) jsou libovolné, ale známé
funkce (tzv. regresory) vysvětlujících proměnných, neobsahující žádné další neznámé parametry.
Předpokládá se, že každá z k vysvětlujících proměnných je v regresním modelu zastoupená aspoň jedním z R regresorů,
takže R ≥ k.
Používání pojmu regresor místo již zavedeného pojmu vysvětlující proměnná není formálně nutná, ale je to výhodné
pro odlišení souboru původních (zvolených nebo zjištěných) hodnot proměnných od uměle vytvořených (vypočtených)
hodnot regresorů.
Ve zcela lineárním modelu je každá vysvětlující proměnná zastoupena právě jedním regresorem (R = k) a pro racionální
celistvou nebo lomenou funkci s jednou vysvětlující proměnnou je k = 1, ale R = s.
Modely převoditelné transformací na lineární model
Pro exponenciální, mocninné, různě kombinované a další regresní funkce je rozumnější předpokládat obecně součinový
(multiplikativní) typ regresního modelu ve tvaru Y = εη, ve kterém η je regresní funkce (hypotetická) a ε rušivá složka.
Časté je použití lineární exponenciální regresní funkce
η = β0β1X nebo zapsané jako η = exp(β0 + β1X), modelu
kvadratické exponenciály ve tvaru η = exp(β0 + β1X + β2X2 + ε), jakož i obecného lineárně-exponenciálního
regresního modelu s k vysvětlujícími proměnnými zapsaného ve tvaru exp(β0 + β1X + … + βkXk + ε).
Oblíbené jsou rovněž různé typy mocninných regresních funkcí nebo další kombinace uvedených i jiných typů.
Modely nelineární z hlediska parametrů
Lineární modely jsou pro svou jednoduchost velmi oblíbené, ale skutečné vztahy mezi veličinami různých vědních
oborů bývají většinou nelineární. Nelineární modely je možné třídit podle odlišných kritérií a tak dojít k velkému počtu
rozmanitých typů, se kterými se lze setkat v přírodních, technických, společenských či ekonomických vědách (např.
nelineární produkční funkce, funkce poptávky, investic).
Nelineární modely je možné třídit např. podle stupně a formy nelinearity.
Pro jednu vysvětlující proměnnou bývá zvykem nelineární regresní funkce třídit podle tvaru křivky.
Jednou z možností je vyjít z geometrických vlastností funkcí získaných různou volbou konstant A, B, C v rovnici
Y = XC(β1 + β2B)A.
Jednotlivé typy se odlišují např. tím, zda jsou rostoucí nebo klesající, bez omezení nebo do určitého bodu, konvexní
nebo konkávní, mají nebo nemají lokální extrémy či inflexní body atd.
- 22 -
Christy
přednášky
Nelineární regresní model
Budeme uvažovat regresní model popsaný nelineární regresní funkcí f(x, β ) v aditivním tvaru
Y = f(x, β ) + ε,
kde x je k-členný vektor vysvětlujících proměnných a β je p-členný vektor neznámých regresních parametrů.
Na náhodné chyby εi (i = 1, 2, …, n) budeme klást předpoklady klasického regresního modelu, tedy E(εi) = 0 a D(εi) =
σ2, kde εi jsou normálně rozdělené náhodné veličiny.
V nelineární regresi je však často nutné uvažovat modely s náhodnými chybami v multiplikativním tvaru či smíšený
model obsahující náhodné vlivy v aditivním i multiplikativním tvaru a předpokládat obecné pravděpodobnostní
rozdělení náhodných chyb.
Nelineární regresní modely, které lze vhodnou transformací nebo reparametrizací převést na lineární, nazveme vnitřně
lineárními.
Takovým je například model
y = eθx + ε,
který je zavedením nového parametru α = exp (θ) možné převést na lineární model bez absolutního členu y = αx+ε,
nebo model
y = θ1θ2x eε,
který je lineární po logaritmické transformaci modelu a lze jej po reparametrizaci α = ln(θ1), β = ln(θ2) zapsat ve tvaru
ln(y) = α + βx + ε.
Uvedené modely se považují za linearizovatelné a patří sem i takové nelineární modely, u kterých lze převést na
lineární jen regresní funkci f(x, β ) a model při zanedbání náhodné složky přibližně zapsat ve formě y ≈ f(x, β ).
Příkladem jsou aditivní modely s regresními funkcemi
αx β ;
α + βx ;
(α + βx )−1 ,
které jsou při vynechání ε linearizovatelné logaritmem, druhou mocninnou či reciproční funkcí na lineární modely
ln ( y ) ≈ ln (α ) + β ln ( x ),
y 2 ≈ α + β x,
y −1 ≈ α + β x.
Tyto linearizační transformace sice neberou v úvahu náhodnou složku, ale poskytují jednoduchou možnost, jak využít
lineární regresní odhady i v případě nelineárního modelu. Avšak pro nezanedbatelné chyby ε nejsou uvedené
transformace správné a dochází ke vzniku heteroskedasticity.
Při linearizaci je nejdříve třeba odhadnout parametry linearizovaného modelu a z jejich hodnot zpětnou transformací
určit odhady parametrů původního modelu.
Na základě odhadnutých rozptylů odhadů parametrů linearizovaného modelu (případně kovariancí odhadů) lze získat
také odhady těchto charakteristik pro parametry původního nelineárního modelu.
Takto získané odhady však nemají vlastnosti známé z lineárních regresních modelů (nejsou například nezkreslené).
Přestože se tento postup často využívá, je lepší odhady parametrů z linearizovaných modelů vnímat jen jako první
užitečnou informaci a používat je jako nultý odhad při dalších optimalizačních algoritmech.
Typy jednoduchých nelineárních regresních funkcí
Nejčastěji se při vyjádření nelineární regrese používají poměrně jednoduché typy křivek.
Aditivní typ funkcí
Kvadratická (parabola 2. stupně)
2
Kubická (parabola 3. st.)
Lineární lomená (hyperbola 1. st.)
Kvadratická lomená (hyperbola 2. st.)
yi′ = a + bxi + cxi
yi′ = a + bxi + cxi2 + dxi3
b
yi′ = a +
xi
b c
yi′ = a + + 2
xi xi
Iracionální
yi′ = a + bxi + cxi
Logaritmická
yi′ = a + b log xi
Multiplikativní typ funkcí
Exponenciální
yi′ = a • b xi
Mocninná
yi′ = a • xib
- 23 -
Christy
přednášky
Při výběru typu funkce je třeba vycházet nejen z formálního hlediska, podle něhož nejvýstižněji prokládá empirické
hodnoty regresní funkce s nejmenším součtem čtverců odchylek teoretických od empirických hodnot závisle proměnné
(nejvyšší hodnota indexu korelace), ale i z hlediska věcně logického, podle věcné podstaty zkoumané závislosti.
Při odhadu neznámých parametrů v nelineárním modelu lze použít opět metodu nejmenších čtverců, i když se často volí
i jiná kritéria či postupy (někdy se na základě předpokladu o typu rozdělení náhodných chyb hledají maximálně
věrohodné odhady).
V případě nelineární regrese vnímáme reziduální součet čtverců především jako funkci neznámých parametrů β a
minimalizovaný výraz zapíšeme ve tvaru
n
n
i =1
i =1
2
∑ ei2 = ∑ [yi − f (xi , β )]
vzhledem k vektoru neznámých parametrů β .
Je-li bod minima vnitřním bodem parametrického prostoru, ze kterého neznámé parametry vybíráme, je možné
minimum funkce parametrů nalézt jako bod, ve které jsou parciální derivace podle parametrů nulové.
Derivováním postupně podle parametrů βj (j = 1, 2, …, p) a jejich anulováním dostáváme soustavu p normálních
rovnic.
V případě nelineárních modelů je však nelineární vzhledem k parametrům i tato soustava a řešení (až na výjimky) nelze
zapsat v explicitním maticovém tvaru tak, jak je to možné v případě modelu lineárního.
Rovnice mají i pro jednoduché regresní funkce relativně složitý tvar, takže při řešení normálních rovnic je třeba použít
nějakou vhodnou numerickou metodu (iterace).
Navíc nemusí být řešení soustav rovnic jediné a nulovost parciálních derivací ještě nezaručuje, že v daném bodě
existuje minimum.
Případně nalezený extrém funkce nemusí být globální minimum, může to dokonce být i lokální maximum nebo sedlový
bod.
Některé statistické programy nabízí postupy založené na derivačních metodách pro metodu nejmenších čtverců.
Jejich algoritmy vyžadují buď analytický výpočet derivací (prvních, případně druhých) regresní funkce, nebo v každém
kroku používají relativní přírůstky funkce, a tedy numerické odhady hodnoty derivace.
Samotné metody používají pak iterace, které konstruují posloupnost přiblížení tak, aby konvergovala k hledanému bodu
minima.
Na rozdíl od lineárních regresních modelů je třeba u nelineárních modelů počítat s řadou komplikací:
- neodhadnutelností některých parametrů,
- existencí minima funkce jen pro některé regresní modely,
- výskytem lokálních minim a sedlových bodů,
- špatnou podmíněností parametrů v regresním modelu,
- smalým rozmezím experimentálních dat (zejména u parametrů vyjadřujících limitní chování modelu).
Metoda nejmenších čtverců pro vybrané nelineární funkce
Výpočet parametrů vychází z podmínky minimálnosti čtverců
n
∑(y
i =1
i
− yi′ ) 2 = min
Dosazením do výrazu za yì a derivováním podle jednotlivých parametrů funkce lze dospět k soustavě normálních
rovnic, ze kterých se parametry vypočítají.
Normální rovnice lze sestavovat mechanicky, aniž by jejich vyvození muselo být praktikováno prostřednictvím
parciálních derivací.
Sestavují se tak, že se každý člen rovnice postupně násobí příslušnou simultánní funkcí nezávisle proměnné u
jednotlivých parametrů regresní rovnice a vždy po vynásobení jednotlivými simultánními funkcemi se provede součet.
Předpokladem však je, aby regresní rovnice byla aditivního typu a simultánní funkce nezávisle proměnné bez
neznámých parametrů.
U závisle proměnné se uvádějí empirické hodnoty. Tak první normální rovnice pro funkci
yi′ = a +
b
xi
se získá vynásobením jedničkou, neboť při parametru a je simultánní funkce rovna 1 (= x0), a součtem, tedy
n
n
i =1
i =1
∑ yi = na + b∑
1
.
xi
- 24 -
Christy
přednášky
Druhá normální rovnice se obdrží vynásobením a následným součtem, tedy
n
n
n
yi
1
1
=
a
+
b
.
∑
∑
∑
2
i =1 xi
i =1 xi
i =1 xi
Podobným způsobem lze vytvořit soustavu normálních rovnic pro všechny ostatní regresní funkce aditivního tvaru.
n
∑y
i =1
yi′ = a + b log xi
n
i
= na + b ∑ log xi
i =1
n
∑ y log x
i
i =1
i
n
n
i =1
i =1
= a ∑ log xi + b∑ log 2 xi
∑ y = na + b∑ x + c∑ x
∑ x y = a ∑ x + b∑ x + c∑ x
∑ x y = a ∑ x + b∑ x + c ∑ x
yi′ = a + bxi + cxi2
i
i
2
i
2
i
i
i
2
i
i
2
i
i
3
i
3
i
4
i
Polynomická regrese
∑ y = nb + b ∑ x + K + b ∑ x
∑ x y = b ∑ x + b ∑ x +K+ b ∑ x
i
i
0
i
0
1
i
i
p
i
p
2
i
1
p +1
i
p
....................................................................
∑x
p
i
yi = b0 ∑ xip + b1 ∑ xip +1 + K + b p ∑ xi2 p
y′i = a + bx 3i + c x i +
d
x i2
∑y
i
= na + b ∑ x 3i + c∑ x i + d ∑
∑x y
3
i
∑
i
1
x i2
= a ∑ x 3i + b∑ x 6i + c∑ x 3i x i + d ∑ x i
x i y i = a x i + b∑ x 3i x i + c∑ x i + d ∑
yi
∑x
2
i
= a∑
xi
x i2
x
1
1
+ b ∑ x i + c∑ 2 i + d ∑ 4
2
xi
xi
xi
Exponenciální funkce
Odhad parametrů, které nejsou lineární v parametrech, neprovádíme MNČ přímo, protože její použití vede k soustavě
nelineárních rovnic, z nichž zpravidla nedokážeme odhadnout přímo parametry ve formě vhodných výpočetních vzorců.
Proto se při odhadu parametrů nelineárních regresních funkcí většinou postupuje tak, že se najde jejich vhodný
počáteční odhad a postupným zlepšováním řešení nalezneme odhad s požadovanou přesností.
Používá se tedy způsob, kdy určitou regresní funkci, která je nelineární z hlediska parametrů, převedeme pomocí
linearizující transformace na funkci lineární v parametrech.
Transformace spočívá vtom, že pomocí logaritmů, převrácením hodnot apod. dojdeme k takovému tvaru regresní
funkce, že její parametry bude už možné odhadovat MNČ.
log yi′ = log a + xi log b
yi′ = a • b xi
∑ log y = n log a + log b∑ x
∑ x log y = log a∑ x + log b∑ x
i
i
i
i
i
2
i
Řešením jsou parametry ve tvaru log a a log b. Pokud chceme exponenciální funkci vyjádřit v původním tvaru, je
potřeba provést odlogaritmování funkcí 10x.
- 25 -
Christy
přednášky
Kvadratická regresní funkce
8,5
8
7,5
Y
7
6,5
6
5,5
5
30
50
70
90
110
130
150
X
Exponenciální funkce
90000
80000
70000
Y
60000
50000
40000
30000
20000
10000
0
0
2
4
6
8
10
12
14
16
X
Logaritmická funkce
600000
500000
Y
400000
300000
200000
100000
0
0
2
4
6
8
10
12
14
X
- 26 -
Christy
přednášky
Mocninná funkce
120,00
110,00
Y
100,00
90,00
80,00
70,00
60,00
0
2
4
6
8
10
12
14
16
X
Lomená funkce
75
70
65
Y
60
55
50
45
40
35
0
2
4
6
8
10
12
14
16
X
Charakteristiky korelace u nelineární regrese
Pomáhají nám při posouzení kvality regresní funkce a ke zjištění síly závislosti.
Posuzovaný vztah je tím silnější a regresní funkce tím lepší, čím více jsou empirické hodnoty vysvětlované proměnné
soustředěné kolem odhadnuté regresní funkce, a naopak tím slabší, čím více jsou empirické hodnoty vzdáleny
hodnotám vyrovnaným.
Umožňuje také posoudit přesnost regresních odhadů – čím více se jednotlivé napozorované hodnoty soustřeďují kolem
zvolené regresní čáry, tím je závislost těsnější a odhad přesnější.
Při konstrukci míry ukazující na sílu závislosti vycházíme ze vztahu empirických a vyrovnaných hodnot, kdy pomocí
těchto hodnot můžeme konstruovat tři rozptyly s různou vypovídací schopností:
- rozptyl empirických (skutečně zjištěných) hodnot y
s y2 =
1
( yi − y )2 ,
∑
n
- rozptyl vyrovnaných hodnot (teoretický rozptyl)
s y2′ =
1
( yi′ − y ) 2 ,
∑
n
- rozptyl skutečně zjištěných hodnot kolem regresní čáry, tj. rozptyl empirických hodnot od hodnot vyrovnaných
(reziduální rozptyl)
- 27 -
Christy
přednášky
(
1
∑ yi − yi′ − y − y′
n
s(2y − y′) =
)
2
=
1
( yi − yi′ ) 2 .
∑
n
Lze dokázat, že při použití metody nejmenších čtverců mezi uvedenými rozptyly platí vztah
s y2 = s y2′ + s(2y − y′ ).
Rozptyl empirických hodnot lze tedy rozložit na rozptyl vyrovnaných hodnot a rozptyl reziduálních hodnot.
Podíl složek na empirickém rozptylu
- teoretický rozptyl
s 2 = 0, takže
y′
s y2 = s(2y − y′ )
Jde o krajní případ, kdy je yì nezávislé na xi, kdy jde vlastně o regresní přímku rovnoběžnou s osou x. v daném případě
jde o nezávislost.
- reziduální rozptyl s 2
= 0, takže s 2 = s 2
( y − y′)
y
y′
Druhý krajní případ, kdy je každé yì shodné s yi. Všechna empirická pozorování vyhovují teoretickým hodnotám na
regresní přímce. Jde o pevnou závislost.
- teoretický rozptyl s 2′ ≠ 0, s 2 ′ ≠ 0, takže s 2 = s 2′ + s 2 ′
( y− y )
y
y
y
( y− y )
Závislost proměnné Y na proměnné X bude zřejmě tím silnější, čím větší bude podíl rozptylu vyrovnaných hodnot na
celkovém rozptylu, a tím slabší, čím bude podíl tohoto rozptylu menší.
Sílu závislosti je tedy možné měřit poměrem
V daném případě jde o volnou závislost.
I =
2
yx
s 2y′
s 2y
.
Tento poměr se nazývá index determinace.
V případě funkční závislosti nabude hodnoty 1, v případě nezávislosti hodnoty 0.
Čím více se bude blížit jedné, tím se závislost považuje za silnější, a tedy dobře vystiženou zvolenou regresní funkcí.
Index determinace v procentickém vyjádření udává, jaké procento rozptýlení empirických hodnot závisle proměnné je
důsledkem rozptylu teoretických hodnot závisle proměnné odhadnutých na základě příslušné regresní funkce.
Kvalitu regresní funkce a intenzitu závislosti můžeme hodnotit podle toho, jak se podílí na rozptylu skutečně zjištěných
hodnot rozptyl vyrovnaných hodnot, příp. rozptyl odchylek kolem regresní čáry.
Je třeba mít na zřeteli, že velikost indexu determinace je zcela ovlivněna tím, zda se podařilo nalézt vhodný typ regresní
funkce pro popis dané závislosti.
Nízká hodnota indexu determinace nemusí ještě znamenat nízký stupeň závislosti mezi proměnnými, ale může to
signalizovat chybnou volbu regresní funkce.
Index determinace lze také konstruovat nepřímo, tj. ve tvaru
I yx2 =
s 2y′
s 2y
= 1−
s(2y − y ′)
s 2y
.
K měření těsnosti závislosti se v praxi častěji používá odmocnina indexu determinace, která se nazývá index korelace.
I yx =
s y2′
s y2
Index korelace poskytuje stejné informace o těsnosti závislosti jako index determinace, jinak však má menší vypovídací
schopnost.
Dosadíme-li do vzorce indexu korelace za oba rozptyly, dostaneme výpočetní vzorec ve formě
∑ ( y′ − y )
∑ (y − y )
2
I yx =
i
2
.
i
Index korelace se používá k měření těsnosti závislosti pro libovolnou regresní funkcí, jejíž parametry byly odhadnuty
metodou nejmenších čtverců.
Pro dosazení do uvedených vzorců indexu korelace je potřebné vypočítat pro každou hodnotu xi podle konkrétní
regresní funkce teoretické hodnoty yì a pak teprve počítat příslušné součty čtverců pro teoretický či lépe reziduální
rozptyl.
- 28 -
Christy
přednášky
Snadnější a výhodnější je následující postup výpočtu
s 2y′
I yx =
2
∑ (y′i − y )
2
∑ (y i − y )
=
s 2y
=
2
1
(
yi )
∑
n
,
2
1
2
∑ yi − n (∑ yi )
∑ y′
2
i
−
∑ y′ = ∑ y y′.
2
přičemž
i
i
i
Např. v případě kvadratické funkce lze psát
∑ y′ = ∑ y (a + bx + cx ) = a∑ y + b∑ x y
2
i
i
2
i
i
i
i
i
+ c∑ xi2 yi .
Korelační poměr
Pokud nelze z jakýchkoliv důvodů určit konkrétní tvar vyrovnávající regresní funkce, používá se k určení těsnosti
závislosti míry, která se nazývá korelační poměr. V určitém smyslu je to obecnější míra závislosti než index či
koeficient korelace, protože na rozdíl od nich nezávisí na tvaru regresní funkce.
Z definice korelační závislosti vyplývá, že se změnami hodnot vysvětlující proměnné se systematicky mění podmíněné
průměry závisle proměnné. V takovém případě se v podmíněných průměrech projevuje určitá variabilita, kterou lze
měřit rozptylem podmíněných průměrů
Vliv ostatních činitelů na závisle proměnnou se pak projevuje tím, že v podmíněných rozděleních závisle proměnné
dochází ke kolísání jednotlivých hodnot závisle proměnné okolo podmíněných průměrů. Toto kolísání se měří
průměrem z podmíněných rozptylů .
Závislost Y na X lze tedy zřejmě považovat za tím silnější, čím větší je variabilita podmíněných průměrů ve srovnání s
variabilitou hodnot v podmíněných rozděleních.
s y2 = s y2 + s 2 ,
Protože platí
je zřejmé, že lze tuto míru těsnosti závislosti konstruovat jako poměr
s 2y
s 2y
=
s y2 − s 2
s 2y
s2
= 1− 2 .
sy
Tento poměr udávaný v % se nazývá poměr determinace a udává, jaké % rozptylu závisle proměnné lze vysvětlit
vlivem nezávisle proměnné X. Doplněk do 100 % pak udává vliv blíže nespecifikovaných činitelů.
Čím více se blíží poměr determinace jedné, tím je závislost proměnné Y na proměnné X silnější.
V případě, že variabilita hodnot v podmíněných rozděleních je nulová, je poměr determinace roven 1 a jde tedy o
úplnou závislost mezi oběma proměnnými.
Naopak v případě, že jsou všechny podmíněné průměry stejné, je poměr determinace nulový a jde tedy o korelační
nezávislost Y na X.
K měření těsnosti závislosti se pak používá odmocnina z poměru determinace, která se nazývá korelační poměr
η yx =
s 2y
s 2y
.
Korelační poměr lze také vypočítat nepřímo ve tvaru:
η yx =
s 2y − s 2
s y2
= 1−
s2
.
s y2
Za předpokladu, že závislost mezi proměnnými byla zkoumána na dostatečně velkém počtu pozorování, kdy podmíněné
průměry závisle proměnné Y nemohou být výrazněji ovlivňovány nahodilými vlivy, lze pak pozorováním velikosti
korelačního poměru a indexu korelace (příp. koeficientu) usuzovat na vhodnost použité funkce. Čím více se budou
hodnoty obou měr k sobě přibližovat, tím se bude použitá regresní funkce považovat za vhodnější zobrazení dané
závislosti.
Maticový způsob stanovení parametrů nelineárních funkcí
−1
b = (X′X ) X′y.
- 29 -
Christy
přednášky
 y1 
y 
y =  2
M
 
 yn 
b0 
b 
b =  1
M
 
bk 
Kvadratická funkce
1 x1

1 x2
X=
M M

1 xn
x12 

x22 
M

xn2 
Logaritmická funkce
1 log x1 
1 log x 
2
X=
M
M 


1 log xn 
ε1 
ε 
ε =  2
M
 
ε n 
Hyperbola (lomená)
Odmocninná funkce
1
1


1 x 
1
1


X=
1
M
1

X =  x2 

1
M M 


1
1
funkce
Exponenciální
1 xxn 

 log y1 
1
1 x 
log y 
2
2
X=
y=
M M 
 M 




1 xn 
log yn 
x1
x2
M
xn
x1 

x2 
M 

xn 
log a 
b=

log b 
Maticově lze stanovit i hodnotu korelačního indexu.
I=
1
( yi )2
∑
n
1
2
y′y − ∑ ( yi )
n
b′X′y −
Statistická analýza v nelineárním modelu
Intervalové odhady parametrů
Bodové odhady b regresních parametrů β jsou ze statistického hlediska bezcenné, protože nic neuvádějí o tom, v jakých
mezích lze očekávat výskyt skutečných hodnot β .
Odhady b jsou náhodné veličiny určené na základě výběru dat o velikosti n.
U nelineárních regresních modelů se při konstrukci intervalů spolehlivosti používá převážně linearizace, která je však
použitelná pouze v případech, kdy model není silně lineární a míry nelinearity, asymetrie a vychýlení odhadů jsou malé.
Postup pro stanovení intervalových odhadů jednotlivých parametrů je analogický intervalovému odhadu regresního
koeficientu v případě lineárních modelů. Zanedbává se zde vliv ostatních parametrů.
Protože jsou však většinou prvky vektoru b (vektor regresních parametrů) vzájemně korelované, bývají intervaly takto
stanovené podceněné, tj. příliš úzké.
Pro nelineární modely je možné také stanovit intervaly spolehlivosti predikce, vyčíslené v celém rozmezí hodnot
nezávisle proměnné, tzn. stanovit pásy spolehlivosti.
Testy hypotéz o odhadech parametrů
Testování hypotéz souvisí úzce s konstrukcí oblastí spolehlivosti.
Pokud parametry β0 leží v 95% oblasti spolehlivosti kolem b, lze na hladině významnosti α = 0,05 považovat rozdíly (β
- β0) za statisticky nevýznamné.
Samotné testy pak lze konstruovat stejně jako v lineárním modelu (za předpokladu alespoň přibližné normality odhadu
metodou nejmenších čtverců).
Individuální testy o nulových hodnotách parametrů však nemají v nelineární regresní analýze dobrý význam, protože
známe-li vhodnou regresní funkci, jsou případné zjednodušené modely těžko interpretovatelné. V jiných případech je
třeba testovat jiné hodnoty parametrů než nulové.
- 30 -
Christy
přednášky
Těsnost proložení regresní křivky
U lineárních regresních modelů slouží analýza reziduí k ověřování některých předpokladů o chybách ε, u nelineárních
modelů pak především k posouzení dosažené těsnosti proložení vypočtené regresní křivky danými experimentálními
body.
Analýzou vlivných bodů se identifikují body, které silně ovlivňují odhadované regresní parametry v modelu, což
umožňuje určit vybočující pozorování nebo extrémy.
Statistická analýza reziduí
Pro aditivní modely měření a užívanou NMČ jsou rezidua definována vztahem
ei = yi – f(xi, b).
K analýze reziduí se užívá jednak názorného grafického zobrazení vektoru reziduí a jednak numerické analýzy
směřující ke statistickému testování.
Grafická analýza reziduí
Grafickou (předběžnou) analýzou reziduí spočívající v prostém zobrazení vektoru reziduí, lze snadno odhalit:
- odlehlé (extrémní) hodnoty v souboru reziduí,
- trend v reziduích,
- nedostatečné střídání znaménka u reziduí,
- chybný model nebo vzájemnou závislost reziduí,
- heteroskedasticitu (nekonstantnost rozptylu) závisle proměnné veličiny Y,
- náhlou změnu podmínek při měření hodnoty y.
Statistická (numerická) analýza reziduí
Analýza reziduí je hlavní diagnostickou pomůckou při hledání a rozlišení regresního modelu a navíc těsnost dosaženého
proložení experimentálními body je mírou věrohodnosti nalezených odhadů.
Mezi nejčastěji užívané statistiky patří především střední hodnota reziduí E(e), která by se měla rovnat nule, dále
průměrné reziduum, směrodatná odchylka střední hodnoty reziduí a konečně koeficient šikmosti a koeficient špičatosti
reziduí.
Pro normální rozdělení reziduí by se měl koeficient šikmosti rovnat nule a koeficient špičatosti třem.
Pozn. Diagnostické metody nejsou vždy spolehlivé, protože rezidua nemají nulovou střední hodnotu, jsou vychýlená,
jsou přibližně lineární kombinací chyb a navíc závisejí na skutečných hodnotách parametrů β (které jsou uživateli
neznámé).
Příklad
Proměnná X 3
5
6
5
8
3
7
4
6
5
7
2
Proměnná Y 6
2,5
2
3
1,5
4,5
2
5,5
3
3,5
2,5
7
- 31 -
Christy
přednášky
Černá čára – regresní funkce, červené čáry – intervalový odhad regresní funkce, fialová čára – pás spolehlivosti.
- 32 -
Christy
přednášky
Vícenásobná regrese a korelace
Kromě posouzení jednoduchých vztahů mezi dvěma proměnnými je mnohdy účelné vystihnout vliv více proměnných
na jednu proměnnou.
V tom případě tedy zkoumáme, jak závisí proměnná y nejen na vysvětlující proměnné x1, ale též na dalších
proměnných x2, …, xk.
Metody zkoumání tohoto typu se nazývají vícenásobnou (mnohonásobnou) korelační závislostí.
Dílčí vliv každé ze zúčastněných nezávisle proměnných pak lze posoudit tzv. dílčí korelační závislostí.
Obdobně jako u jednoduché korelační závislosti je možno rovněž u vícenásobné a dílčí korelační závislosti
charakterizovat prostřednictvím regrese očekávanou úroveň, resp. změnu závisle proměnné podle úrovní, resp. změn
nezávisle proměnných a prostřednictvím korelace stupeň (těsnost) vztahu.
Mnohonásobná regrese je prostředkem zkoumání statistické závislosti pomocí modelu, jenž zahrnuje jednu závisle
proměnnou a několik nezávislých proměnných.
Data získáme tak, že u prvků výběru zjistíme hodnoty všech uvažovaných proměnných.
Rozlišujeme tři druhy úlohy, pro jejichž řešení je vhodné aplikovat mnohonásobnou regresní analýzu:
- Chceme poznat efekt, který má na cílovou proměnnou Y souhrn změn ovlivňujících parametrů X1, X2, …, Xk.
- Chceme predikovat hodnotu závisle proměnné Y pro budoucí hodnoty proměnných X1, X2, …, Xk.
- V rámci explorační statistické analýzy chceme vyhledat statistické vztahy mezi závisle proměnnou a několika
nezávisle proměnnými.
Vícenásobnou regresi lze vyjádřit jednak podmíněnými průměry závisle proměnné, jednak vícenásobnou regresní
funkcí, která je častější.
Je potřeba vždy zvolit takovou funkci, která co nejpřesněji vystihuje danou skutečnost z věcného přístupu a přitom která
splňuje formální podmínky z přístupu matematicko-statistického a jejíž řešení je relativně nejjednodušší.
Volba vhodného typu vícenásobné regresní funkce je v tomto případě obtížná (systém pokus – omyl).
Odpadá zde totiž možnost zachycení grafického průběhu závislosti i logického posouzení vhodnosti určitého typu
regresní funkce.
Při hledání vhodného typu vícenásobné regresní funkce se proto opíráme hlavně o matematicko-statistická kritéria
(míry těsnosti, směrodatné chyby regresních koeficientů, různé testy apod.), která nám zpravidla z velkého okruhu
různých typů regresních funkcí umožní vybrat tu nejvhodnější.
Velmi často se při hledání vhodného typu mnohonásobné regresní funkce postupuje tak, že se analyzuje zvlášť závislost
mezi závisle proměnnou y a jednotlivými vysvětlujícími proměnnými x1, x2, …, xk a výslednou regresní funkci pak
konstruujeme jako součet jednoduchých regresních funkcí.
Vícenásobné funkce mohou být stanoveny buď jako lineární nebo jako nelineární.
Data zachycujeme tabulkou, kde pro každý objekt uvádíme hodnoty nezávislých proměnných a závisle proměnné. Např.
zjišťujeme u n žáků hodnoty k nezávisle proměnných X1, X2, …, Xk a závisle proměnnou Y. Matice měření X má pak
tvar:
žák 1 : ( x11 ,
x12 , L x1k ,
y1 )
žák 2 : ( x21 ,
x22 , L x2 k ,
y2 )
M
M
M
M
M
žák n : ( xn1 , xn 2 , L xnk ,
M
yn )
Řádku v matici se říká vektor měření.
Jestliže je závisle proměnná y lineárně závislá na každé z vysvětlujících proměnných x1, x2, …, xk (jednoduché
závislosti jsou lineární) a jsou-li zároveň tyto vysvětlující proměnné vzájemně nezávislé (nebo alespoň ovlivňují změny
závisle proměnné všechny jedním směrem), používáme pro vystižení vývoje závisle proměnnou vícenásobnou lineární
funkci proměnných x1, x2, …, xk.
Předpokládejme tedy v souladu s úvahami o jednoduché regresi, že závislost lze charakterizovat rovnicí
y = Y + ε,
kde ε jsou opět reziduální (nahodilé) odchylky, které lze interpretovat jako důsledek působení nahodilých vlivů včetně
eventuální nedokonalosti zvolené funkce.
Regresní funkci Y lze pak vyjádřit ve tvaru
Y = β0 + β1x1 + β2x2 + … + βkxk,
kde β0, β1, β2, …, βk jsou neznámé parametry a x1, …, xk jsou vysvětlující proměnné.
Odhadnutou regresní funkci lze zapsat ve tvaru
- 33 -
Christy
přednášky
k
yi′ = b0 + ∑ br xri
k = počet nezávisle proměnných
r =1
nebo jako yì = b0 + b1x1 + b2x2 + … + bkxk, příp. ve snáze interpretovatelném tvaru
yi′ = b0 + byx1 . x2 x3 Kxk x1 + byx2 . x1x3 Kxk x2 + K + byxk . x1x2 Kxk −1 xk
Neznámé parametry v regresní funkci lze získat pomocí MNČ, kdy řešíme soustavu k +1 normálních rovnic.
n
∑y
i =1
n
i
n
n
= nb0 + b1 ∑ x1i + b2 ∑ x2i + K bk ∑ xki
i =1
i =1
i =1
n
n
n
n
n
i =1
i =1
i =1
i =1
n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
n
n
n
n
n
i =1
i =1
i =1
i =1
i =1
∑ x1i yi = b0 ∑ x1i + b1 ∑ x12i + b2 ∑ x1i x2i + Kbk ∑ x1i xki
i =1
∑ x2i yi = b0 ∑ x2i + b1 ∑ x1i x2i + b2 ∑ x22i + K + bk ∑ x2i xki
M
∑ xki yi = b0 ∑ xki + b1 ∑ x1i xki + b2 ∑ x2i xki + K + bk ∑ xki2
Parametry byx1.x2x3…xk, byx2.x1x3…xk, byxk.x1x2…xk-1 (nebo obecně br) se nazývají dílčí regresní koeficienty a
udávají odhad toho, jak by se změnila v průměru vysvětlovaná (závisle) proměnná y při jednotkové změně vysvětlující
proměnné před tečkou, za předpokladu konstantní úrovně proměnných uvedených za tečkou.
Např. dílčí regresní koeficient byx2.x1x3 udává, jak se změní v průměru závisle proměnná y při jednotkové změně
vysvětlující proměnné x2 za předpokladu, že proměnné x1 a x3 zůstanou konstantní.
V případě, že jsou známy koeficienty dílčí regrese a průměrné hodnoty jednotlivých nezávisle proměnných, lze určit
vícenásobnou lineární funkci prostřednictvím transformovaného tvaru.
yi′ = y + byx1 . x2 x3Kxk ( x1i − x1 ) + byx2 . x1 x3 Kxk ( x2i − x2 ) + K
K + byxk . x1 x2 Kxk −1 ( xki − xk )
Podrobněji se podíváme na nejjednodušší případ vícenásobné regrese, tzv. dvojnásobné regrese, kdy předpokládáme, že
na změny závisle proměnné y působí dvě vysvětlující proměnné x1 a x2, tj. že platí
Y = β0 + β1x1 + β2x2,
jejímž odhadem je
y′i = b 0 + b yx1 .x 2 x1 + b yx 2 .x1 x 2 .
Protože se jedná o klasickou lineární regresi, je možné parametry funkcí s více vysvětlujícími proměnnými odhadovat
metodou nejmenších čtverců.
Dosadíme-li do základní podmínky, dostaneme
∑ε
2
i
(
= ∑ yi − β 0 − β yx1 . x2 x1i − β yx2 . x1 x2i
)
2
= min .
Následně dostaneme normální rovnice ve tvaru
n
n
n
∑ yi = nb0 + b1 ∑ x1i + b2 ∑ x2i
i =1
i =1
i =1
n
n
n
n
i =1
i =1
i =1
i =1
n
n
n
n
i =1
i =1
i =1
i =1
∑ x1i yi = b0 ∑ x1i + b1 ∑ x12i + b2 ∑ x1i x2i
∑ x2i yi = b0 ∑ x2i + b1 ∑ x1i x2i + b2 ∑ x22i
Vydělíme-li první normální rovnici v soustavě n, dostaneme
∑y
n
i
=
n • b0
+ byx1 . x2
n
∑x
1i
n
+ byx2 . xn
∑x
n
2i
,
- 34 -
Christy
přednášky
b0 = y − byx1 . x2 • x1 − byx2 . x1 • x2 .
Dosadíme-li za b0, dostaneme regresní funkci ve výpočtovém tvaru
yi′ = y + byx1 . x2 ( x1 − x1 ) + byx2 . x1 ( x2 − x2 ).
Při zkoumání závislosti prostřednictvím jednoduché regrese a korelace se vliv nezávisle proměnné na závisle
proměnnou neprojevuje v „čisté“ formě, nýbrž odráží v sobě kladné i záporné vlivy ostatních jevů, jež rovněž na závisle
proměnlivý jev působí. Často je však třeba objasnit závislost dvou jevů tak, aby vliv ostatních faktorů byl vyloučen. To
je úkolem dílčí regrese a korelace.
Průměrnou změnu závisle proměnné y odpovídající jednotkové změně nezávisle proměnné x1 za předpokladu, že
ostatní sledované nezávisle proměnné x2, x3, …, xk jsou konstantní (je tedy vyloučen vliv jejich různých úrovní),
udává koeficient dílčí regrese, jehož rekurentní vzorec je
b yx1 • x 2 x 3 Kx k =
b yx1 • x 2 x 3 Kx k−1 − b yx k • x 2 x 3 Kx k−1 b x k x1 • x 2 x 3 Kx k−1
1 − b x1x k • x 2 x 3 Kx k−1 b x k x1 • x 2 x 3 Kx k−1
.
Rekurentní vzorce představují postup, ve kterém se vždy dílčí regresní koeficient určitého řádu vyjadřuje pomocí
několika koeficientů o řád nižších.
Pro případ dvounásobné regresní funkce lze dílčí regresní koeficienty vyjadřovat pomocí koeficientů prvního řádu.
byx1 • x2 =
byx1 − byx2 bx2 x1
byx2 • x1 =
1 − bx1 x2 bx2 x1
byx2 − byx1 bx1 x2
1 − bx1 x2 bx2 x1
Při výpočtu dílčí regrese je třeba mít na paměti, že je vyloučen vliv zbývajících zúčastněných proměnných (jsou
uvedeny v indexu za tečkou), že však spolupůsobí další nezúčastněné zjistitelné i prakticky nezjistitelné faktory.
Jde-li nám tedy o postihnutí skutečného vlivu kteréhokoliv nezávisle proměnlivého jevu, měly by být do výpočtu vzaty
všechny nezávisle proměnné (koeficient vícenásobné korelace se bud v daném případě blížit jedné).
V indexu koeficientu dílčí regrese jsou před tečkou uvedeny dvě proměnné, přičemž na prvním místě vždy závisle
proměnná, jejíž změnu koeficient vyjadřuje, a na druhém místě nezávisle proměnná, u níž je uvažována změna o
příslušnou měrnou jednotku. Za tečkou jsou uváděny další zúčastněné nezávisle proměnné, jejichž vliv je vyloučen,
přičemž nezáleží na pořadí.
Např. dvěma regresním koeficientům jednoduché závislosti pro proměnné y a x2 odpovídají obdobné regresní
koeficienty dílčí závislosti
bx2y → bx2y.x1x3x4…xk.
byx2 → byx2.x1x3x4…xk
Stanovení regresních koeficientů pomocí rekurentních vzorců je náročnou prací, zvláště na numerické výpočty, které
musí být prováděno s vysokou přesností, takže tento postup se příliš často nepoužívá.
Ke stanovení regresních koeficientů lze využít také postup založený na znalosti charakteristik korelace.
byx1 . x2 =
sy
s x1
•
ryx1 − ryx2 rx1 x2
byx2 . x1 =
1− r
2
x1 x2
sy
s x2
•
1 − rx21x2
b0 = y − byx1 . x2 • x1 − byx2 . x1 • x2
Vedle dalších charakteristik používáme pro účely srovnání a posouzení individuálního vlivu jednotlivých vysvětlujících
proměnných na závisle proměnnou rovněž normalizované regresní koeficienty, tzv. β -koeficienty.
Jestliže provedeme následující transformace (s využitím směrodatných odchylek proměnných y, xi, i = 1, 2, …, k)
y′ =
yi′ − y
x − xi
, xi′ = k
, i = 1, 2,..., k ,
sy
s xi
lze konkrétně regresní funkci zapsat pro k =2 ve tvaru
yi′ = β yx1 . x2 x1′ + β yx2 . x1 x2′ .
Regresní koeficienty v této funkci se nazývají právě
β-koeficienty a mohli bychom je odhadnout pomocí
metody nejmenších čtverců.
Lze je však rovněž vypočítat z dílčích regresních koeficientů, přičemž platí následující vztah
β yx . x =
1
2
s x1
sy
byx1 . x2 ; β yx2 . x1 =
s x2
sy
byx2 . x1 .
β-koeficienty vypočítat následujícím způsobem
Známe-li jednoduché korelační koeficienty, můžeme
β yx . x =
1
2
ryx1 − ryx2 rx1x2
1− r
2
x1 x2
; β yx2 . x1 =
1 − rx21 x2
.
- 35 -
Christy
přednášky
Velikost dílčích regresních koeficientů je ovlivněna volbou měrné jednotky. Většinou jsou regresní koeficienty uváděny
v jednotkách závisle proměnné y připadající na jednotku vysvětlující proměnné xk.
Tím, že provedeme standardizaci, dostaneme bezrozměrné β-koeficienty v tom smyslu, že jsou nezávislé na měrných
jednotkách, v nichž jsou jednotlivé proměnné uvažovány.
Tím je možné jejich vzájemné srovnání, které u regresních koeficientů dosti dobře provést nelze. Toto srovnání slouží
především k určení intenzity vlivů jednotlivých vysvětlujících proměnných na závisle proměnnou (posuzujeme relativní
přínos proměnných X k predikci proměnné Y).
Numerické výpočty u vícenásobné regrese jsou poměrně náročné. K řešení lze i tady použít maticový počet.
Obecné řešení je zcela totožné s maticovým vyjádřením u jednoduché lineární regrese, stačí konkretizovat pro případ
vícenásobné regresní funkce matici X`X a vektor X`y.
∑x
∑x
∑x x
 n

X′X =  ∑ x1i
 ∑ x2 i

∑x
∑x x
∑x


1i 2 i 
2 
2i 
1i
2
1i
2i
1i 2 i
Vektor odhadovaných parametrů pak dostaneme obdobně jako v případě jednoduché lineární regrese.
Vícenásobná a dílčí lineární korelace
Zatímco prostřednictvím regrese byl charakterizován vliv změn nezávisle proměnných na teoretickou úroveň závisle
proměnné, pomocí korelace je hodnocen stupeň (těsnost) závislosti, a to jak pro případ společného vlivu všech
zúčastněných proměnných, tak i pro případ jejich dílčího vlivu.
Společný vliv nezávisle proměnných x1, x2, …, xk na závisle proměnnou y z hlediska síly vztahu udává koeficient
vícenásobné korelace, tzn. měří těsnost závisle proměnné y na všech vysvětlujících proměnných.
Měří jednak těsnost závislosti mezi proměnnými a umožňuje tím posoudit kvalitu regresního odhadu zkonstruovaného
na základě vícenásobné regresní funkce, jednak jej lze použít při hodnocení volby vysvětlujících proměnných.
V případě, že jeho hodnota je malá, znamená to, že vybrané vysvětlující proměnné nepostačují vysvětlit změny
analyzované závisle proměnné.
V případě, že měříme těsnost závislosti proměnné y na dvou vysvětlujících proměnných x1 a x2, lze stanovit koeficient
vícenásobné korelace (někdy se označuje symbolem R) pomocí jednoduchého vzorce
ry . x1 x2 =
ryx2 1 − 2ryx1 ryx2 rx1x2 + ryx2 2
1 − rx21 x2
V případě, že známe korelační koeficienty, lze koeficient vícenásobné korelace vyjádřit nepřímo ve formě rekurentního
vzorce
(1 − r ) = (1 − r )(1 − r ).
2
y . x1 x2
2
yx1
2
yx2 . x1
Z uvedeného rekurentního vzorce vyplývá, že koeficient vícenásobné korelace je vyjadřován jako součin jednoduchého
a dílčího koeficientu korelace.
Uvedený rekurentní vzorec se dá zobecnit i pro k vysvětlujících proměnných.
(1 − r
) = (1 − r
)(1 − r
= (1 − r )(1 − r
)(1 − r )K (1 − r
2
y . x1 x2 ... x k
2
yx1
2
y . x1 x2 ... xk −1
2
yx2 . x1
2
yx3 . x1 x2
2
yxk . x1 x2 ... xk −1
)=
2
yxk . x1 x2 ... xk −1
)
Koeficient vícenásobné korelace vždy leží v intervalu
0 ≤ ry . x1 x2 ... xk ≤ 1
a je vždy větší než největší z jednoduchých korelačních koeficientů.
Maticové vyjádření
Máme matici korelačních koeficientů mezi vysvětlujícími proměnnými, kde na hlavní diagonále leží korelační
koeficienty rii = 1, a vektor korelačních koeficientů mezi vysvětlujícími proměnnými a závisle proměnnou:
 1
r
x x
R= 21
 M

rxk x1
rx1x2
1
M
rxk x 2
L rx1xk 
L rx2 xk 
L M 

L 1 
- 36 -
Christy
přednášky
Pak čtverec koeficientu vícenásobné korelace vypočítáme podle vzorce
ry2. x1 x2 ... xk = r ′R −1r.
K výpočtu lze také použít případ, kdy se vychází z rozkladu rozptylu závisle proměnné.
ry . x1 x2 ...xk =
s y2′
s y2
Koeficient dílčí (parciální) korelace ryx1.x2…xk měří intenzitu lineární závislosti proměnné y na vysvětlující
proměnné x1 (obecně na proměnné uvedené před tečkou) za předpokladu, že všechny ostatní proměnné za tečkou, tj.
x2, x3, …, xk jsou konstantní.
Podobně jako u jednoduché regrese lze koeficient dílčí korelace vyjádřit jako odmocninu ze součinu sdružených
regresních koeficientů. Pro dvě vysvětlující proměnné pak platí
ryx1 . x2 = byx1 . x2 • bx1 y . x2 .
Dosadíme-li do vzorců dílčích regresních koeficientů, pak po úpravě dostaneme rekurentní vzorec pro výpočet dílčího
korelačního koeficientu.
ryx1 . x2 =
ryx1 − ryx2 • rx1 x2
(1 − r )(1 − r )
2
yx2
2
x1 x2
Koeficient ryx1.x2 měří tedy těsnost závislosti mezi závisle proměnnou y a vysvětlující proměnnou x1 oproštěnou od
vlivu druhé vysvětlující proměnné x2.
Analogicky lze zkonstruovat i druhý dílčí korelační koeficient, který měří těsnost závisle proměnné y na vysvětlující
proměnné x2 a předpokladu vyloučení vlivu proměnné x1.
ryx2 . x1 =
ryx2 − ryx1 • rx1 x2
(1 − r )(1 − r )
2
yx1
2
x1 x2
Uvedené vzorce jsou zvláštním případem obecného rekurentního vzorce pro výpočet koeficientu dílčí korelace
libovolného řádu.
ryx1 . x2 x3 ... xk =
ryx1 . x2 x3 ... xk −1 − ryxk . x2 x3 ... xk −1 • rx1 xk . x2 x3 ... xk −1
(1 − r
2
yxk . x2 x3 ... xk −1
)(1 − r
2
x1 xk . x2 x3 ... xk −1
)
Pro sdružené vícenásobné regresní funkce pak také platí, že hodnoty dílčích korelačních koeficientů jsou shodné.
ryx1 . x2 ... xk = rx1 y . x2 ...xk
Parciální korelační koeficienty nám také pomáhají při řešení tzv. problému třetí proměnné, tedy problému možného
efektu rušivých proměnných.
Při závislosti musíme zohlednit, že korelace dvou proměnných může být ovlivněna několika dalšími proměnnými.
Mnoho atributů – jako např. výška, váha, síla, mentální schopnost, slovní zásoba, dovednost číst atd. – roste v rozmezí 6
až 18 let s věkem.
Korelace těchto proměnných budou určitě pozitivní. Když z nich však vyloučíme působení věku, pravděpodobně
klesnou k nule.
Vliv rušivého faktoru „věk“ kontrolujeme dvěma způsoby - buď měříme vztah proměnných pouze pro vybranou
věkovou kategorii nebo použijeme parciální korelační koeficient.
Předpokládáme lineární závislost mezi proměnnými X, Y a Z zachycenou korelačními koeficienty ryx, ryz a rxz.
Hodnoty jednotlivých koeficientů stanovíme pomocí naměřených hodnot (xi, yi, zi).
Následně stanovíme hodnoty parciálních korelačních koeficientů ryx.z, ryz.x a rxz.y.
Při testování nulové hodnoty parciálního korelačního koeficientu postupujeme stejně jako v případě jednoduchého
korelačního koeficientu. Abychom však nalezli správnou kritickou mez, použijeme počet stupňů volnosti n – 3, kde n je
počet trojic dat ve výběru.
- 37 -
Christy
přednášky
Příklad
V rámci screeningové akce bylo vyšetřeno 142 starších žen, u kterých byly také zaznamenávány parametry věk (v),
krevní tlak (t) a koncentrace cholesterolu v krvi (c). Pro ně se vypočítaly korelační koeficienty rvt = 0,33; rvc = 0,5;
rtc = 0,25. Protože zvýšené hodnoty krevního tlaku by mohly souviset se zvýšeným množstvím cholesterolu na stěnách
cév, byla tato otázka důkladněji statisticky zkoumána. Parametry t a c s věkem rostou, tážeme se proto, zda jejich
poměrně slabší korelace není způsobena efektem parametru věk. Vliv věku jako rušivého parametru se eliminuje
zjištěním parciálního korelačního koeficientu rtc.v:
rtc .v =
0,25 − 0,33 • 0,50
(1 − 0,33 )(1 − 0,50 )
2
2
= 0,1
Pro 139 = (142 – 3) stupňů volnosti se nedá na hladině významnosti 5 % prokázat významnost tohoto korelačního
koeficientu. Tímto statistickým zkoumáním jsme neukázali, že pro každou věkovou kategorii je krevní tlak pozitivně
korelován s hladinou cholesterolu v krvi.
Výpočet parciálního korelačního koeficientu provádíme ve studiích, v nichž nás zajímá hlubší analýza vztahu mezi
proměnnými a ověřování hypotéz o příčinných vztazích.
V této souvislosti je možné nalézt různé konfigurace korelačních vztahů proměnných X, Y a Z, přičemž je nutné
uvažovat i o směru možné kauzality.
Varianta A
X, Y, Z jsou nekorelovány
rxy = 0
ryz = 0
rxz = 0
Varianta B
X a Y jsou dvě nekorelované příčiny pro proměnnou Z
rxy = 0
ryz ≠ 0
rxz ≠ 0
Varianta C
Z je společná příčina X a Y
rxy ≠ 0
ryz ≠ 0
rxz ≠ 0
ale rxy.z = 0
Varianta D
Vztah X a Y je zprostředkován Z
rxz ≠ 0
ryz ≠ 0
rxy = rxz ryz
ale rxy.z = 0
Uvedená schémata implikují hodnoty korelačních koeficientů (v praxi ovšem předpokládáme rovnost nule pouze
přibližnou).
Naopak to jednoznačně neplatí. Například X → Z → Y má stejné koeficienty jako Y → Z → X.
Stejně tak situace C a D jsou empiricky neodlišitelné. V těchto případech interpretujeme vztahy na základě dosavadních
teoretických poznatků a pomocí základních kritérií pro ověřování kauzálního vztahu:
a) silná závislost mezi proměnnými,
b) prokázání této závislosti v různých podmínkách,
c) prokázání změny hodnoty jedné proměnné při změně hodnoty druhé proměnné,
d) působení proměnné klasifikované jako příčina předchází efektu v čase,
e) existence věrohodného teoretického modelu působení.
Vliv třetí proměnné lze prokázat i z grafu reziduí. Jestliže zobrazení párových hodnot (zi; ei) odhalí závislost regrese na
třetí proměnné Z, můžeme si toto tvrzení ověřit vypočtením příslušného vícenásobného korelačního koeficientu a
testem významnosti zlepšení predikce
F-testem.
Testovací F-statistika má tvar
- 38 -
Christy
F=
(r
2
y . xz
přednášky
)
− ryx2 (n − 3)
(1 − r )
2
y . xz
,
přičemž F-testovací hodnotu srovnáme s kritickou mezí F-rozdělení se stupni volnosti 1 a n-3.
Testování průkaznosti koeficientu vícenásobné a dílčí korelace a vícenásobné regresní funkce
Statistická průkaznost koeficientu vícenásobné korelace se ověřuje testováním nulové hypotézy
H0: ρy.x1x2…xk = 0.
Alternativní hypotéza předpokládá, že H1: ρy.x1x2…xk ≠ 0, tzn. že výběrový koeficient vícenásobné korelace
ry.x1x2…xk je odhadem koeficientu vícenásobné korelace základního souboru ρy.x1x2…xk, který má hodnotu
rozdílnou od nuly, a tím je tedy korelace prokázána.
Za předpokladu, že jde o výběr z (k+1)-rozměrného normálního rozdělení, má při platnosti nulové hypotézy statistika
F=
ry2. x1 x2 ... xk • (n − k − 1)
(1 − r
2
y . x1 x2 ... xk
)• k
rozdělení F o k a (n – k – 1) stupních volnosti.
H0 se zamítá, jestliže hodnota testového kritéria je větší než tabulková hodnota F-rozdělení.
V případě zamítnutí H0 je koeficient vícenásobné korelace ry.x1x2…xk statisticky průkazný, závislost tedy byla
prokázána (lze se přiklonit k hypotéze, že alespoň jeden regresní koeficient je různý od nuly).
Při testování průkaznosti koeficientu dílčí korelace se testuje nulová hypotéza
H0: ρyxr . x1x2…xr-1xr+1…xk = 0.
Testové kritérium je v případě alternativní hypotézy
H1: ρyxr . x1x2…xr-1xr+1…xk ≠ 0
rovno výrazu
t(n− k −1) = ryxr . x1 x2 ... xr −1 xr+1 ...xk •
n − k −1
1− r
2
yxr . x1 x2 ... xr −1 xr +1 ... xk
.
Kritická hodnota testového kritéria, která je veličinou Studentova rozdělení, se hledá pro stanovenou pravděpodobnost a
stupně volnosti (n – k – 1).
Zamítnutím H0 je průkaznost koeficientu dílčí korelace prokázána.
Statistická průkaznost vícenásobné regresní funkce je ověřována pomocí analýzy rozptylu.
H0 předpokládá, že testovaná regresní funkce je statisticky neprůkazná.
Testové kritérium F je podílem teoretického rozptylu (rozptylu regrese) k reziduálnímu rozptylu (rozptylu kolem
regrese)
F(k ;n− k −1) =
s12
,
sr2
přičemž kritická hodnota se hledá při stanové pravděpodobnosti pro stupně volnosti (k; n – k – 1).
Regrese vystihnutá testovanou regresní funkcí je staticky průkazná na uvažované hladině významnosti, pokud
vypočtená hodnota F je větší než hodnota F tabulková.
Výpočet testového kritéria F vychází z tabulky analýzy rozptylu.
Zdroj
variability
Regrese
Stupně
Součet čtverců
volnosti
S1 = Sc – Sr
k
n
n–k–
i =1
1
2
Reziduum S r = ∑ (y i − y ′i )
n
Celkem
S c = ∑ (y i − y )
2
Rozptyl
s 12 =
s 2r =
S1
k
Sr
n − k −1
n–1
i =1
- 39 -
Christy
přednášky
Vícenásobná nelineární regrese a korelace
Při zkoumání vícenásobných funkcí, kdy vztahy nelze aproximovat jako lineární, se využívají různé typy
vícenásobných nelineárních funkcí.
Po formální stránce lze těchto funkcí zkonstruovat celou řadu, velmi obtížně se však hledají věcně-ekonomická kritéria
zdůvodňující volbu takových typů funkcí.
Jako příklad je možné uvést funkci kvadratickou, lomenou, exponenciální, logaritmickou apod.
Např. tvar vícenásobné lomené funkce lze zapsat
k
yi′ = b0 + ∑
r =1
br
,
xr i
v rozepsaném tvaru
b1 b2
b
+
+K k .
x1i x2i
xk i
yi′ = b0 +
Vícenásobná exponenciální funkce
k
yi′ = b0 ∏ br r i
x
r =1
y′i = b 0 • b1x1i • b 2x 2 i • ... • b kx ki
y′i = log b 0 + x1i log b1 + x 2i log b 2 + ... + x ki log b k
V některých případech se také uvažuje o násobení proměnných X mezi sebou, tzn. uvažuje se o možnosti interakce
vysvětlujících proměnných.
k
k
r =1
r =1
k −1 k
y′i = a + ∑ b r x r i + ∑ c r x 2r i + ∑∑ d r s x r i x s i
r =1 s =1
(kde r p s )
yi′ = a + b1 x1i + b2 x2i + ... + bk xki + c1 x12i + c2 x22i + ... +
+ ck xki2 + d1, 2 x1i x2i + d1,3 x1i x3i + ... + d k −1,k x( k −1)i xki
Ve všech případech se při výpočtu parametrů funkcí využívá metody nejmenších čtverců pro stanovení soustavy
normálních rovnic:
n
u aditivních tvarů
∑ ( y − y′ )
i =1
2
i
i
= min,
n
u multiplikativních tvarů
∑ (log y
i =1
− log yi′ ) = min .
2
i
Těsnost závislosti závisle proměnné na k nezávisle proměnných je charakterizována indexem korelace nebo korelačním
poměrem.
Největšího praktického použití doznaly vícenásobné nelineární regresní funkce při charakterizování reprodukčního
procesu – tzv. produkční funkce.
Ty charakterizují a zároveň kvantifikují vztah mezi výrobou (produkcí) a příslušnými produkčními faktory.
Produkční funkce dělíme na jednofaktorové, tj. takové, kde jde o vtah mezi produkcí (y) a jedním produkčním faktorem
(x1), a vícefaktorové, tj. takové, kde jde o vztah mezi produkcí (y) a x1, x2, …, xk produkčními faktory, které byly vzaty
v úvahu při analýze reprodukčního procesu.
Při volbě příslušného tvaru produkční funkce je třeba znát vztahy uvnitř modelovaného procesu nebo mít o těchto
vztazích alespoň učiněnou určitou ekonomickou teorii.
Předpoklady lineárního modelu
Na začátku je zapotřebí zjistit scházející údaje v matici dat a zkoumat přítomnost extrémních hodnot u jednotlivých
proměnných.
V průběhu tvorby a ověřování vhodnosti vytvořeného modelu je nutné ověřit pět specifických předpokladů:
- Reziduální hodnoty ei = yi – yì mají normální rozdělení s nulovou střední hodnotou.
- Rozptyl reziduálních hodnot je stejný pro uvažované rozsahy nezávislých proměnných.
- Hodnoty predikované proměnné jsou na sobě nezávislé.
- Vztahy mezi prediktory (X) a závisle proměnnou jsou lineární.
- Neexistuje multikolinearita mezi prediktory (X).
- 40 -
Christy
přednášky
Provedení většiny kontrol – viz. jednoduchá regrese.
Abychom ověřili tyto předpoklady, musíme specificky provést následující kontroly:
- Zobrazíme reziduální hodnoty pomocí grafu stonku a listu nebo pomocí normálního grafu a zkontrolujeme normalitu
jejich rozdělení.
- Zobrazíme vztah mezi reziduálními hodnotami a prediktory a zkontrolujeme, zda rozptýlenost reziduálních hodnot je
homogenní.
- Někdy je závislost mezi měřeními závisle proměnné způsobena efektem pořadí, v němž byly objekty měřeny.
Zobrazíme reziduální hodnoty proti pořadí měření a kontrolujeme přítomnost rozlišitelné konfigurace nebo cyklu.
- Zobrazujeme bodové dvourozměrné grafy závisle a nezávisle proměnné.
- Multikolinearita znamená, že nezávisle proměnné nebo jejich podmnožina jsou vzájemně silně korelovány. Odhady
regresních koeficientů jsou pak velice nestabilní – když změníme několik málo hodnot měření, odhady regresních
koeficientů se mohou dramaticky změnit.
Také zjišťujeme tzv. vybočující a odlehlá pozorování při regresi, zda mají charakter vlivných bodů.
Vlivné body jsou takové, jež podstatně ovlivňují odhady regresních koeficientů.
Vybočující pozorování jsou nezvyklé konfigurace hodnot týkající se společného rozdělení nezávislých proměnných.
Odlehlé hodnoty při regresi jsou nápadně velké reziduální hodnoty, upozorňující na špatnou predikci závisle
proměnné.
Multikolinearita
Vysvětlující proměnné regresního modelu mohou být vzájemně nezávislé nebo mezi nimi může existovat závislost.
Pojem multikolinearity je velmi úzce svázán se silnou vzájemnou lineární závislosti vysvětlujících proměnných, jejímž
důsledkem je špatně podmíněná matice X (tzn. úzce souvisí s vlastnostmi matice X, takže v tomto smyslu jde o spíše
datový problém).
Lze ji také předpokládat v případě, kdy F-test vícenásobné regresní funkce je významný a všechny
t-testy
jednotlivých parametrů jsou nevýznamné (svědčí to o silné multikolinearitě mezi sloupci matice X).
Přesnou multikolinearitou se tedy rozumí případ, kdy jednotlivé sloupce xj (j = 1, 2, …, k) matice X jsou lineárně
závislé, takže pro alespoň jednu nenulovou konstantu cj platí
c1x1 + c2x2 + … + ckxk = 0n
a vektory hodnot vysvětlujících proměnných lze vyjádřit jako lineární kombinace vektorů hodnot jiných vysvětlujících
proměnných.
Průvodním znakem multikolinearity je tedy přibližná rovnoběžnost vektorů xj a xk (j ≠ k), které jsou ve sloupci matice
X.
Tato situace může vzniknout z toho důvodu, že některé vysvětlující proměnné jsou zbytečné, protože je lze nahradit
lineární funkcí některých ostatních nebo všech vysvětlujících proměnných.
K tomuto případu může dojít špatnou volbou kombinací hodnot vysvětlujících proměnných, ale i shodou okolností nebo
náhodou při malém rozsahu výběru.
V přítomnosti multikolinearity nelze odděleně sledovat vliv jednotlivých vysvětlujících proměnných. Multikolinearita
se často vyskytuje i u modelů dobře popisujících data.
Problémem tedy není běžně se vyskytující vzájemná závislost vysvětlujících proměnných, ale její síla.
Právě silné (avšak nikoli funkční) vzájemné lineární závislosti všech nebo některých vysvětlujících proměnných se říká
multikolinearita.
Vzájemná lineární závislost je dána povahou zkoumaných veličin a většinou ji nelze mechanicky eliminovat pouhou
opravou některých chybných údajů anebo vyloučením některých vysvětlujících proměnných z regresní funkce.
Kritéria pro identifikaci multikolinearity
- Jednoduché korelační koeficienty dvojic vysvětlujících proměnných
Hodnoty blízké ±1 jednoduchých korelačních koeficientů r(xj, xj`), j ≠ j` = 1, 2, …, k naznačují možnost existence
multikolinearity. Obecně platí, že multikolinearita je škodlivá (identifikována), když některý z korelačních koeficientů
překročí hodnotu 0,7 (0,8).
- Determinant korelační matice R
Jsou-li všechny dvojice vysvětlujících proměnných párově nekorelované, tj. všechny korelační koeficienty jsou rovny
nule a multikolinearita neexistuje, pak má matice R podobu jednotkové matice a její determinant je roven 1.
Jakmile jsou korelační koeficienty různé od nuly, hovoříme o multikolinearitě. Determinant korelační matice
vysvětlujících proměnných je potom menší než jedna a s narůstající multikolinearitou se přibližuje nule.
Rovná-li se nule, hovoříme někdy o úplné multikolinearitě (prakticky jde o vzácný jev, kdy nejde použít MNČ).
- 41 -
Christy
přednášky
 1
r
x x
R= 21
 M

rxk x1
rx1x2
1
M
rxk x 2
L rx1xk 
L rx2 xk 
L M 

L 1 
- Použití kritéria M
To se opírá o skutečnost, že při silné multikolinearitě vzniká (zdánlivý) rozpor mezi výsledky individuálních t-testů o
regresních parametrech a celkovým F-testem. Kritérium M má tvar
F
−1
k
∑t
M=
j =1
2
j
,
F
+1
k
∑t
j =1
2
j
ve kterém tj = bj/sbj jsou testová kritéria pro individuální testy a F je testové kritérium pro celkový test.
Při nezávislosti vysvětlujících proměnných se rovná nule. Čím větší jsou hodnoty kritéria M, tím silnější je
multikolinearita.
Orientačně pro M větší než 0,8 se lineární závislost vysvětlujících proměnných označuje za silnou.
Test pomocí kritéria M je vhodný především tam, kde je zapotřebí stanovit ty vysvětlující proměnné, které významně
přispívají k objasnění variability proměnné y.
- Farrarův – Glauberův test
Jeho testovým kritériem je výraz
1


B = − (n − 1) − (2k + 5) • ln R ,
6


n – rozsah výběru, k – počet vysvětlujících proměnných zařazených do modelu, |R| - determinant korelační matice.
Testovaná nulová hypotéza H0 zní na nezávislost vysvětlujících proměnných. Testové kritérium má při platnosti
hypotézy H0 rozdělení χ2 s k(k-1)/2 stupni volnosti.
Kritickým oborem jsou ty hodnoty testového kritéria B, kdy B překročí příslušný kvantil χ2 – rozdělení, tj.
B ≥ χ2
 k(k −1) 
1−α 

 2 
V tomto případě již multikolinearitu považujeme za statisticky významnou.
Shrnutí důsledků multikolinearity
- Multikolinearita má za následek nadhodnocení součtu čtverců regresních koeficientů, takže se pak lze mylně
domnívat, že některé vysvětlující proměnné jsou důležitější než ve skutečnosti jsou.
- Multikolinearita zvyšuje rozptyly odhadů, což má za následek:
- snížení přesnosti odhadů ve smyslu delších individuálních intervalů spolehlivosti,
- nízké hodnoty tj pro individuální t-testy, při kterých se některé (nebo dokonce všechny) regresní koeficienty
ukazují jako statisticky nevýznamně odlišné od nuly i v případě jinak velmi kvalitního regresního modelu.
- zdánlivý rozpor mezi nevýznamnými výsledky
t-testů a významným výsledkem celkového
F-testu,
- nestabilní odhady regresních koeficientů.
- Multikolinearita komplikuje a často úplně znemožňuje rozumnou interpretaci individuálního vlivu jednotlivých
proměnných na vysvětlovanou proměnnou.
- Multikolinearita způsobuje numerické obtíže, které úzce souvisí s malou stabilitou některých regresních odhadů.
Možnosti odstranění multikolinearity
- Je možné ji odstranit v případě přeurčeného regresního modelu, neboli v případě výskytu zbytečných vysvětlujících
proměnných, jejich identifikací a vypuštěním z regresní rovnice. V takové situaci mohou být prospěšné metody
hledající nejlepší podmnožinu vysvětlujících proměnných, regresní grafy apod.
- Je-li způsobena nevhodnou volbou kombinací hodnot vysvětlujících proměnných (tj. nevhodným plánem
experimentu), je možné nedostatky napravit a pořídit si kvalitnější, nová data.
- 42 -
Christy
přednášky
- Nejkomplikovanějším, ale zároveň asi nejčastějším případem, je věcně zdůvodněná závislost vzájemně propojených
veličin. V takovém případě vypuštění proměnných z modelu může vést k systematickým chybám a ani pořízení nových
dat většinou nepomůže. Jedinou rozumnou možností je maximálně využít všechny věcné a empirické informace o
regresním modelu a jeho parametrech, což většinou vede ke zvýšení kvality modelu i ke zlepšení vlastností regresních
odhadů.
Extrémní či jinak příliš vlivné hodnoty mohou zkomplikovat nebo dokonce znemožnit správnou identifikaci
multikolinearity.
Vlivná pozorování mohou způsobit, že některé nebo dokonce všechny charakteristiky neumožňují multikolinearitu
odhalit a popsat.
V tomto smyslu mohou vlivná pozorování maskovat nebo zakrýt existenci multikolinearity. V takovém případě je třeba
nejdříve identifikovat a případně vyloučit příliš vlivná pozorování a teprve pak se zabývat problémem případné
multikolinearity.
Na druhé straně ale může být multikolinearita také žádoucí a to v případě, kdy koeficient determinace vychází vysoký a
regresní model dobře popisuje experimentální data. Pro účely aproximace dat a konstrukce modelů, které mají
„vyhladit“ experimentální závislosti, není multikolinearita na obtíž.
Podobně je tomu i v případě, kdy provádíme odhady závisle proměnné na základě hodnot vysvětlujících proměnných.
Hledání optimální množiny vysvětlujících proměnných
Jednou z nejdůležitějších podmínek klasického lineárního modelu je předpoklad, že vysvětlovanou proměnnou Y lze
vysvětlit jako součet lineární funkce k vysvětlujících proměnných X1, X2, …, Xk a nepozorovatelné náhodné složky.
Souběžně s tím se předpokládá, že jiné proměnné, které
(i když možná ovlivňují Y) nebyly zařazeny do regresního
modelu, jsou nezávislé na proměnných X1, X2, …, Xk a jsou tedy součástí náhodné složky ε.
Je běžné, že nelze jednoznačně rozdělit v úvahu přicházející vysvětlující proměnné na podstatné a nedůležité.
V regresních úlohách máme často k dispozici velký počet kandidujících vysvětlujících proměnných, o kterých se
předpokládá, že nějakým způsobem ovlivňují či vysvětlují variabilitu proměnné Y.
Úkolem je vybrat ze všech v úvahu přicházejících vysvětlujících proměnných X1, X2, …, Xk jejich vhodnou
(vyhovující, nejlepší) podmnožinu, která vychází zejména z obsahové znalosti zkoumané problematiky (statistická
analýza se zaměřuje jen na možnost snížení počtu vysvětlujících proměnných ve smyslu vypuštění nedůležitých
proměnných z modelu či na možnost vyloučit předem vliv silné vzájemné závislosti mezi vysvětlujícími proměnnými).
Z metod volby podmnožiny vysvětlujících proměnných lze využít metodu postupného přidávání vysvětlujících
proměnných do modelu, pokud způsobují na zvolené hladině významnosti statisticky významný růst součtu čtverců
Nejdříve se vypočítají korelační koeficienty mezi závisle proměnnou a jednotlivými vysvětlujícími proměnnými ryx1,
ryx2, …, ryxk a do regresní funkce se zařadí jako první ta proměnná, jejíž korelační koeficient je nejvyšší.
Pak vypočítáme dílčí koeficient korelace závisle proměnné vůči zbylým vysvětlujícím proměnným za předpokladu, že
vysvětlující proměnná zařazená do regresní funkce v prvním kroku je konstantní.
Pomocí F-testu ověříme, zda přínos nezávisle proměnné s nejvyšším dílčím korelačním koeficientem je statisticky
významný.
Postup opakujeme tak dlouho, pokud zařazení další vysvětlující proměnné již nevede k významnému zlepšení predikce
a velikosti teoretického součtu čtverců.
V popsaném algoritmu se využívá statistický test nulového efektu dodatečné proměnné nebo nulového efektu skupiny
dodatečných proměnných na závisle proměnnou.
Opírá se o testovací F-statistiku, jež má tvar
(n − k − 1)(ry2. x x ...x − ry2. x x ...x
F=
(k − r )(1 − ry2. x x ...x )
1 2
k
1 2
1 2
r
).
k
Dodatečná je množina prediktorů Xr+1, …, Xk, kterou přidáváme k množině prediktorů X1, X2, …, Xr.
Uvedená statistika má za předpokladu nulového přídavného efektu F-rozdělení se stupni volnosti (k – r) a (n – k – 1).
Algoritmus postupné regrese vybírá nejlepší podskupinu prediktorů následujícím způsobem:
- V prvním kroku vybere jako nejlepší prediktor proměnnou s největším korelačním koeficientem s Y a zařadí
ji do vytvořené množiny prediktorů.
- V následujícím kroku se přibere proměnná, která nejlépe zlepšuje predikční mohutnost těch proměnných,
které již byly do predikce zařazeny (má největší parciální korelační koeficient s Y).
- Z predikce je odstraněna ta proměnná, jejíž příspěvek pro predikci Y klesl pod určitou úroveň (její parciální
korelační koeficient s Y klesl pod mez významnosti). Přejde se k předchozímu kroku.
Proces přibírání prediktorů skončí, když již žádný další prediktor významně nezlepší predikci.
- 43 -
Christy
přednášky
Tento algoritmus však nevede nutně k nejlepší skupině prediktorů. Tímto postupem se obvykle „podaří“ seřadit
prediktory podle velikosti jejich predikční schopnosti.
Při použití této metody existuje jisté nebezpečí v tom, že hodnocení vhodnosti zařazení jednotlivých prediktorů do
regresní funkce je ovlivněno pořadím, ve kterém prediktory do regresní funkce vstoupily.
Rozlišujeme regresi
- dopřednou (forward)– proměnné se do modelu postupně přidávají,
- zpětnou (backward) – proměnné se z modelu postupně odebírají.
Stepwisse regrese (stupňovitá regrese)
Při této se metodě se na každém kroku sleduje, co by se stalo, kdyby vysvětlující proměnné byly vybírány do regresní
funkce v jiném pořadí.
Nejprve se vypočte odhad regresní funkce obsahující tu vysvětlující proměnnou, která má nejvyšší koeficient korelace
ryxi , i = 1, 2, …, k.
Pak se určí rezidua yi – yì = ei, která se považují za novou závisle proměnnou, a hledá se další vysvětlující proměnná s
nejvyšším koeficientem korelace mezi novou závisle proměnnou ei a některou ze zbývajících vysvětlujících
proměnných xj, tedy rexj.
Vypočítané rovnice se postupně slučují, tzn. že se opět určí nová rezidua, která se dále považují za novou závisle
proměnnou, a hledá se další vysvětlující proměnná stejným způsobem.
Postup končí, když již žádná závislost rezidua proti zbývajícím vysvětlujícím proměnným není statisticky významná.
Výsledný model pak představuje „optimální“ podmnožinu vysvětlujících proměnných za předpokladu, že tvar modelu
je správný, žádná podstatná vysvětlující proměnná nebyla opomenuta, stupeň multikolinearity je únosný a data mají
dobrou vypovídací schopnost.
- 44 -
Christy
přednášky
- 45 -
Christy
přednášky
Mnohonásobná regrese a analýza rozptylu
Zatím jsme vždy předpokládali, že všechny proměnné jsou spojité a mají metrický charakter.
Od poloviny šedesátých let 20. století se začaly objevovat stále častěji aplikace regresní úlohy při řešení úloh analýzy
rozptylu, v nichž vystupují jako nezávisle proměnné kvalitativní diskrétní proměnné.
Podstata těžkostí je zřejmá již v situaci jednoduché analýzy rozptylu, kdy faktor má více hladin (např. když
porovnáváme pět nebo více intervencí).
Nestačí totiž přiřadit úrovním faktoru A např. hodnoty 1, 2, …, 6 a použít takto definovanou nezávisle proměnnou v
jednoduché lineární regresní analýze, protože mezi úrovněmi faktoru nemůžeme obvykle definovat nějaké přirozené
řazení.
Interpretace výsledků provedené analýzy by nevedla k jasným závěrům (obtížná či spíše nemožná interpretace).
Řešení představují speciální kódovací postupy. Zavedení vícehodnotových kvalitativních proměnných do regresního
vztahu se provádí zvláštním obratem přes binární proměnné.
Využívá se přitom skutečnosti, že každou kvalitativní proměnnou o s hladinách lze jednoznačně reprezentovat pomocí s
– 1 alternativních proměnných.
Tyto nové proměnné, kterým se říká obecně kódovací nebo také zástupné, příp. indikátorové proměnné, pak použijeme
v regresním modelu.
Příklad – zavedení kvalitativního znaku „typ temperamentu“ do regresního vztahu
Reprezentaci této proměnné pomocí zástupných proměnných X1, X2, X3 vyjadřuje tabulka. Zástupné proměnné X1, X2,
X3 v tomto příkladu jednoznačně popisují kvalitativní znak Z („temperamentový typ“), který nabývá čtyř hladin. Na
rozdíl od něho však mají tu výhodu, že je lze použít v modelu mnohonásobné lineární regresní analýzy. Před analýzou
doplníme jejich hodnoty do matice pozorování X. Lze pak např. zkoumat, jak předpovídat stupeň neurotičnosti Y
- 46 -
Christy
přednášky
(měříme ho na spojité škále) pomocí váženého součtu hodnot zástupných proměnných znaku „typ temperamentu“.
Regresní rovnice bude obecně vypadat:
y = a + bx1 + cx2 + dx3.
Odhad stupně neurotičnosti pro cholerika má pak tvar
stupeň neurotičnosti a, apod.
y = a + d; jestliže osoba je melancholik, pak je v průměru její
Temperament Z
Zástupné proměnné
X
1
X
2
X
3
sangvinik
1
0
1
flegmatik
0
1
0
cholerik
0
0
1
melancholik
0
0
0
Pro popsanou regresi lze vypočítat mnohonásobný koeficient korelace pro posouzení stupně neurotičnosti na
kvalitativním znaku Z a testovat jeho statistickou významnost.
Jestliže ji prokážeme, tak alespoň pro jeden typ temperamentu platí, že je při něm průměrná hladina neurotičnosti jiná
než u ostatních typů. Tento postup odpovídá jednoduché analýze rozptylu.
Platí totiž, že F-statistika jednoduché analýzy rozptylu se rovná pro tento případ F-statistice testu významnosti
mnohonásobného korelačního koeficientu:
F=
(n − k − 1) ry2. x1 x2 ... xk
(
k 1 − ry2. x1x2 ... xk
)
.
Způsob kódování faktorů v případě dvoufaktorové analýzy rozptylu
Máme zkoumat problém 3 x 4 faktorové analýzy rozptylu. Dvě indikátorové proměnné U1 a U2 budou sloužit pro
kódování faktoru A a tři indikátorové proměnné V1, V2 a V3 pro kódování čtyř úrovní faktoru B. musíme však do
analýzy zahrnout i interakce obou faktorů. V tomto případě se vyjádří vzájemné ovlivňování nezávislých proměnných v
působení na závisle proměnnou tak, že pronásobíme mezi sebou obě množiny indikátorových proměnných. Získáme tak
proměnné U1V1, U1V2, U1V3, U2V1, U2V2 a U2V3. Ty jsou také binárního typu a můžeme s nimi tedy pracovat jako s
dalšími 6 nezávisle proměnnými. Probraná situace je tedy popsána pomocí
2 + 3 + 6 indikátorových
proměnných.
Je snadné odhadnout, že s tím, jak roste složitost schématu výzkumu, zvyšuje se také počet indikátorových
proměnných. Bez počítače by příslušné vyhledání optimálního lineárního prediktoru a vypočítání testovací statistiky
nebylo vůbec možné.
Způsob kódování kvalitativních proměnných závisí na úloze, která je řešena.
Při kódování efektů přiřazujeme všem kódovaným proměnným, které reprezentují jednotlivé úrovně faktoru A, číslo 1
pro danou úroveň a jinak nulu až na jednu vybranou úroveň, jíž je pro všechny kódovací proměnné přiřazena hodnota –
1. Například pro čtyři skupiny (úrovně) ukazuje kódování tří kódovacích proměnných Vi v následující tabulce.
- 47 -
Christy
přednášky
V
V
1
V
2
Skupina
3
1
0
0
první
0
1
0
druhá
0
0
1
třetí
-1
-1
-1
čtvrtá
Tento systém má tu výhodu, že výsledné regresní koeficienty reprezentují jednotlivé efekty ošetření
x1 − x , x2 − x , x3 − x.
V obecnějším systému kódování kontrastů se používá za hodnoty jedné kódovací proměnné jakákoli množina čísel,
jejíž součet dává nulu, s další podmínkou, že žádný sloupec (obsahující hodnoty pro kódovací proměnnou) nesmí být
možné vyjádřit jako kombinaci ostatních sloupců (přesněji lineární kombinaci ostatních sloupců).
I
II
III
IV
V
VI
Skupina 1
3
0
0
1
0
1
Skupina 2
-1
2
0
-1
1
0
Skupina 3
-1
-1
1
-1
0
-1
Skupina 4
-1
-1
-1
1
-1
0
Takže první tři sloupce v tabulce jsou povolenými hodnotami kódovacích proměnných určených pro výpočet kontrastů,
kdežto poslední tři nikoliv, protože platí
VI = IV + V.
Každá kontrastová kódovací proměnná zodpovídá jinou otázku. Například proměnná I se ptá, zda se liší statisticky
významně od průměru hodnot x2 , x3 , x4 ;
proměnná II se ptá, zda se
x2 liší statisticky významně od průměru hodnot x3 , x4 .
Hlavní výhodou přístupu k problémům analýzy rozptylu pomocí mnohonásobné regresní analýzy je okolnost, že díky
vhodně zvoleným kódovacím proměnným lze přímo testovat specifické otázky dané úlohy.
Další výhoda spočívá v možnosti míchat různé typy proměnných (spojité a kategoriální), kdežto vlastní analýza
rozptylu používá pouze kategoriální nezávisle proměnné. Také je možné pružněji zařazovat nezávisle proměnné do
analýzy. Statistickým testem významnosti přírůstku mnohonásobného korelačního koeficientu zodpovídáme otázku, zda
nová proměnná ovlivňuje závisle proměnnou ještě jiným způsobem než ostatní proměnné, které jsou již v regresní
funkci přítomny.
Užití mnohonásobné regrese v analýze rozptylu nezjednodušuje výpočetní složitost analýzy, ale zprůhledňuje celkový
přístup k analýze rozptylu, protože není nutné se odkazovat pro každé výzkumné schéma na jiné výpočetní vzorce.
Modelu lineární regresní analýzy rozšířenému o indikátorové kódovací proměnné a příslušné interakční členy se říká
obecný lineární model, pomocí něhož lze analyzovat i problémy analýzy kovariance.
- 48 -
Christy
přednášky
Poznámka
Analýza rozptylu poskytuje správné výsledky jen za předpokladu, že jednotlivé hodnoty yij jsou vzájemně nezávislé a
že chyby eij mají normální rozdělení s konstantním rozptylem. Tyto předpoklady je nutno v praxi ověřit.
Pro tyto účely je výhodné převést model analýzy rozptylu na model lineární regrese a využít k testování předpokladů o
chybách postupů regresní diagnostiky.
Model yij = µi + εij lze vyjádřit ve tvaru lineárního regresního modelu
yij = µ1w1 + µ2w2 + … + µkwk + εij,
kde wi jsou indikátorové proměnné, pro které platí
- jde o i-tý efekt,
- nejde o i-tý efekt.
Průměry µ1, µ2, …, µk jsou chápány jako regresní parametry. Pokud platí uvedené předpoklady o chybách, lze odhady
parametrů získat metodou nejmenších čtverců.
V případě analýzy reziduí a vlivných bodů mají důležitou roli diagonální prvky projekční matice H (zaměřuje se na
hledání odlehlých hodnot v množině X).
Pro ověření normality reziduí pak lze použít grafů reziduí – klasických, predikovaných či standardizovaných (QQ).
Podobně jako v regresních modelech mají také v modelech analýzy rozptylu důležitou roli vybočující hodnoty, které
mohou silně zkreslit výsledky analýzy. Pro účely identifikace vybočujících hodnot je výhodné použít studentizovaná
rezidua (zaměřují na na odlehlé hodnoty v množině Y) či Cookovu vzdálenost (vlivné body).
Lze analyzovat i vzájemnou závislost faktorů pomocí metod pro odhalení existence multikolinearity.
Analýza kovariance
Analýza kovariance je statistická metoda, která kombinuje vlastnosti a principy analýzy rozptylu a rozšiřuje některé
možnosti využití lineárních regresních modelů.
Základní myšlenkou kovarianční analýzy je rozšíření nebo též modifikace modelu analýzy rozptylu s jedním nebo více
kategoriálními faktory na model, který navíc obsahuje kontrolovatelné (nejlépe kvantitativní spojité, ale případně i další
kategoriální) proměnné, které rovněž mají vliv na hodnoty vysvětlované či vysvětlovaných proměnných.
Původním cílem analýzy kovariance je očištění studované závislosti vysvětlovaných proměnných na zvolených
faktorech od zavádějícího působení doprovodných vlivů (označovaných za covariates).
Působení doprovodných proměnných na vysvětlované proměnné je sice podstatné, ale není v dané úloze přímým
předmětem zájmu.
Společné působení anebo smíchání vlivů
Regresní analýza má dva zásadně odlišné cíle. Prvním je předpověď průměrných nebo konkrétních hodnot vysvětlované
proměnné pomocí skupiny vysvětlujících proměnných, zatímco druhým je kvantifikace individuálního vlivu
vysvětlujících proměnných na vysvětlovanou proměnnou.
Dobrá předpověď vyžaduje najít stabilní model, který odráží obecné rysy zkoumané závislosti a dobře vyhovuje
výchozím pozorováním.
Proti tomu úspěšná kvantifikace individuálního vlivu se opírá o kvalitní odhady regresní koeficientů nebo o jiné
podobně interpretovatelné charakteristiky.
Závislost dvou či více proměnných bývá zvykem posuzovat pomocí vhodných charakteristik, např. v regresní úloze to
jsou především regresní koeficienty, ale mohou to být i jiné míry. Při snaze posuzovat význam dříve neuvažovaných
proměnných (v souvislosti s analýzou kovariance se jim často říká doprovodné nebo kontrolní) je otázkou, jak je do
analýzy zařadit a hodnotit.
Pokud se hrubé charakteristiky (jednoduché regresní či korelační koeficienty), které neuvažují existenci mimo stojících
(tedy dosud neuvažovaných) proměnných, z věcných hledisek velikostí zásadně liší od čistých charakteristik (dílčí
regresní nebo korelační koeficienty), uvažujících vliv dříve neuvažovaných proměnných, pak dochází k interpretačním
potížím.
Je zřejmé, že některá z těchto proměnných chybí a musí být do analýzy zařazena.
V této situaci, kdy dochází k určitému promíchání vlivu, je obtížné až nemožné význam jednotlivých proměnných
rozložit a smysluplně tak kvantifikovat podíl těchto proměnných na změnách hodnot vysvětlované nebo vysvětlovaných
proměnných.
Ve směsi významem nerozeznatelných vlivů je obtížné rozhodnout, které proměnné jsou rozhodující a které je vhodné
vypustit jako nepodstatné nebo duplicitní.
Závažný je i jiný případ, kdy vztahy mezi vysvětlujícími a vysvětlovanými proměnnými se mění v závislosti na
změnách hodnot nebo při různých úrovních (ne)uvažovaných proměnných (interakce dvou faktorů).
Přitom předpoklad neexistence interakce mezi kvalitativními faktory a kvantitativními doprovodnými proměnnými má
v analýze zásadní význam.
- 49 -
Christy
přednášky
Testovat existenci interakce proměnných je možné např. zařazením součinových regresorů uvažovaných vysvětlujících
proměnných.
Třeba do lineární regresní rovnice se dvěma vysvětlujícími proměnnými ve formě β 0 + β1X1 + β 2X2 stačí přidat
součinový člen β 3X1X2 a po získání patřičných MNČ odhadů parametrů testovat hypotézu, že parametr β 3 je nulový.
Zamítnutí této hypotézy lze považovat na zvolené hladině významnosti za statistický důkaz interakce, neboli za
prokázání existence společného působení proměnných X1 a X2 na posuzovanou vysvětlovanou proměnnou.
Potřeba kontroly a modifikace nepřímých vlivů
Předchozí část naznačila důvody potřeby kontrolovat (hlídat) proměnné, které přímo nesouvisí s danou úlohou, ale
jejichž vliv na vysvětlované proměnné je zjištěn, i když v dané úloze není hlavním předmětem zájmu.
Prvním důvodem je snaha identifikovat a hodnotit případnou interakci vlivů; druhým důvodem je hledání možností, jak
řešit problém obtížné či nemožné separace vzájemně závislých vlivů, a třetím důvodem je obecný požadavek co největší
přesnosti odhadů všech relevantních charakteristik zkoumané závislosti.
V regresních úlohách se potřeba kontroly řeší přidáním sporných vysvětlujících proměnných k nesporným (přímo
vyplývají ze zadání úlohy).
Pozornost je pak soustředěná na modifikaci hodnot odhadnutých regresních koeficientů po zařazení nových
proměnných a na změny, ke kterým došlo.
Modifikace pomocí kovarianční analýzy se při použití regresního přístupu zabezpečuje současným zařazením jak
studovaných faktorů (dominálních proměnných) ve formě umělých nula-jedničkových veličin, tak i kontrolovaných
doprovodných proměnných.
Při tomto postupu se předpokládá, že z hlediska jejich simultánního působení na vysvětlovanou proměnnou neexistuje
interakce mezi nominálními a doprovodnými proměnnými.
Příklad
Vysvětlovaná proměnná Y – systolický krevní tlak
Vysvětlující proměnná – věk náhodně vybraných mužů a žen
Předpokládá se, že dobrým modelem závislosti krevního tlaku na věku je přímka. Nejprve uvažujme dvě otázky:
- Vyjadřuje závislost krevního tlaku na věku pro muže a ženy stejná regresní rovnice přímky?
- Je průměrný krevní tlak mužů a žen stejný, vezmeme-li v úvahu (neboli po modifikaci, resp. kontrolujeme-li) možné
zavádějící důsledky rozdílných věkových rozdělení mužů a žen?
Pro odpovědi na tyto otázky nemůžeme použít stejné statistické nástroje.
Odpověď na první otázku vyžaduje porovnat dvě regresní přímky, zatímco druhá musí zhodnotit rozdíly mezi průměry
ve skupinách.
První otázku lze řešit pomocí regresního modelu
β0 + β 1X + β2A + β 3XA + ε, kde X je věk a A je pohlaví (a1 =
0 pro muže, a2 = 1 pro ženy).
Podle provedených testů o parametrech regresní přímky výsledků výpočtů je možné učinit některý z následujících
závěrů:
- Přímky jsou shodné (koincidentní), neboli
β2 = β3 = 0.
β2 ≠ 0, ale β3 = 0.
- Přímky jsou rovnoběžné (paralelní), neboli
- Přímky nejsou rovnoběžné ani shodné, neboli
β2 ≠ 0, β3 ≠ 0.
Tyto závěry úzce souvisí i s odpovědí na druhou otázku.
Jsou-li shodné přímky, pak se ani neliší průměrný krevní tlak mužů a žen.
Jsou-li přímky rovnoběžné, pak přímka s vyšší hodnotou absolutního členu má (při stejné směrnici přímky) i vyšší
průměr.
Nejsou-li přímky rovnoběžné, je třeba se jimi důkladněji zabývat. Mají-li průsečík mimo zajímavou oblast věku, nic se
nemění proti předchozímu případu.
Mají-li průsečík v zajímavé oblasti věku, pak lze říci, že existuje interakce mezi věkem a pohlavím, takže do určitého
věku má jedna skupina nižší průměrný tlak a od tohoto věku má tato skupina vyšší průměrný tlak.
Pochopitelně pro vyšší kvalitu těchto úsudků bychom provedli patřičné výpočty a testy o shodě dvou přímek, resp. o
shodě dvou průměrů na základě údajů pocházejících ze dvou nezávislých výběrů.
Typy proměnných v analýze kovariance
Analýzu kovariance lze považovat za rozšíření metod analýzy rozptylu a regresní analýzy. Jde o zkoumání závislosti v
poměrně složitém souboru proměnných.
Uplatňují se v něm:
- Jedna nebo několik vysvětlujících proměnných – faktorů A1, A2, …, As, přičemž stejně jako v analýze rozptylu jde o
obvykle o nominální nebo alternativní proměnné, ale mohou to být i jiné kategoriální proměnné.
- 50 -
Christy
přednášky
- Jedna nebo více vysvětlovaných proměnných Y1, Y2, …, Yp, na něž je při analýze soustředěna pozornost v tom
smyslu, že chceme prokázat jejich závislost na faktoru či faktorech.
Jedna nebo více doprovodných proměnných (kontrolovaných proměnných) X1, X2, …, Xq, které zahrnujeme do modelu
a počítáme s nimi zejména proto, abychom závislost vysvětlovaných proměnných na faktorech očistili od jejich vlivu.
Předpoklady analýzy kovariance
Obvyklé algoritmy v analýze kovariance lze uplatnit při splnění řady podmínek, z nichž některé jsou stejné jako v
analýze rozptylu:
- Náhodnost výběru
- Nezávislost výběrů (skupin), do nichž se výběrový soubor rozpadá. Obecně se nezávislé výběry většinou týkají
různých skupin (účelově definovaných částí) sledované populace, ale též to mohou být výběry z různých
porovnávaných (nezávislých) populací.
- Normální rozdělení Y, popř. vícerozměrné normální rozdělení y, ve všech populacích (skupinách populace).
- Homoskedasticita, tedy stejné rozptyly, popř. kovarianční matice, ve všech populacích (skupinách populace).
- Lineární závislost Y na X, popř. Y1, Y2, …, Yp na X1, X2, …, Xq, ve všech populacích (skupinách populace).
- Shoda regresních koeficientů, neboli rovnoběžnost regresních přímek, popř. rovin nebo nadrovin, ve všech populacích
(skupinách populace).
Jako další podmínky se někdy uvádí nenáhodný charakter doprovodné proměnné X, popř. doprovodných veličin X1, X2,
…, Xq, a nepřítomnost interakce mezi doprovodnou proměnnou X a faktorem A, popř. mezi q doprovodnými
proměnnými a několika faktory. Tyto požadavky lze však těžko striktně dodržet.
Modelový příklad – komparace účinku dvou intervenčních postupů
Ptáme se, zda se liší efekt terapie zachycený hodnotu testu úzkosti (Y) u dvou náhodně sestavených skupin jedinců,
které jsou léčeny dvěma odlišnými postupy.
Proměnná Y se měří součtem skórů z vhodného psychologického dotazníku. Pro lepší kontrolu výsledů experimentu se
zaznamenávaly také počáteční úzkosti (X1) před experimentem a obecná vegetativní labilita (X2).
Předpokládáme, že kovarianty (rušivé nezávisle proměnné) mají v obou skupinách stejný vliv na závisle proměnnou.
Proměnná Z – indikátorová proměnná – měření patří osobě z experimentální nebo kontrolní skupiny.
Osoby
1
2
3
4
5
6
7
8
9
10
Y
6
4
4
7
5
4
7
5
3
3
X1
7
4
5
8
3
3
6
6
5
4
X2
5
1
1
5
1
4
4
1
2
1
X3 = Z Osoby
0
11
0
12
0
13
0
14
0
15
0
16
0
17
0
18
0
19
0
20
Y
2
5
3
1
6
4
5
3
2
3
X1
4
6
6
3
9
5
8
4
7
8
X2
1
2
2
1
4
2
5
3
3
2
X3 = Z
1
1
1
1
1
1
1
1
1
1
1. skupina
2. skupina
Dohromady
Průměr Odchylka s Průměr m Odchylka s Průměr m Odchylka s
m
Y
X1
X2
4,80
5,10
2,50
1,47573
1,66333
1,77951
3,40
6,00
2,50
1,57762
2,00000
1,26930
- 51 -
4,10
5,55
2,50
1,65116
1,84890
1,50438
Christy
přednášky
Zkoumáme-li velikost rozdílů průměrů
y0 = 4,8 a y1 = 3,4
odrážející odlišnost působení obou postupů, pak t-testem zjistíme, že není důvodu přiklonit se k alternativní hypotéze:
terapie působní rozdílně. Ekvivalentní výsledek indikuje jednoduchá analýza rozptylu.
T-testy
Proměnná
Metoda
Rozptyl
DF
t hodnota
Pr > |t|
body
body
Pooled
Satterthwaite
Equal
Unequal
18
17.9
2.05
2.05
0.0553
0.0554
Rovnost variancí
Proměnná
Metoda
body
Folded F
DF čit
DF jmen
F
hodnota
Pr > F
9
9
1.14
0.8456
Jestliže však vezmeme v úvahu okolnost, že na začátku experimentu měla první skupina menší průměrnou úzkostnost a
zároveň že obě proměnné mohou uvnitř skupin navzájem korelovat, pak bychom při rovnosti účinku spíše očekávali, že
první skupina bude mít svůj průměr po experimentu také menší než druhá skupina. Naopak rozdíl v průměrech
proměnné Y by byl pravděpodobně větší, kdyby ve skupinách byly průměry proměnné X1 stejné. Dosavadním
postupem jsme ale nerespektovali informaci obsaženou v X1. Na základě vztahu mezi Y a X1 by se pravděpodobně část
rozdílnosti mezi skupinami pro proměnnou Y dala předpovědět pomocí X1 a tak eliminovat z pozorovaných hodnot. Pro
zbytkové hodnoty by pak analýza rozptylu byla relevantnější. Totéž platí i pro proměnnou X2.
Uvedený problém analýzy kovariance se dá také zpracovat pomocí regresní analýzy. K tomu je zapotřebí vytvořit jednu
kódovací proměnnou (X3), která popisuje zařazení jedinců do obou skupin. Její hodnoty jsou doplněny do matice
měření X.
Zkoumáme nyní ovlivnění Y proměnnou X3. Chceme zodpovědět otázku, zda zavedení proměnné X3 do regresní
rovnice, jež zachycuje vztah mezi Y a X1, X2, povede ke statisticky významnému zlepšení predikce Y.
Použijeme tedy kritérium F pro hodnocení významného zlepšení mnohonásobného korelačního koeficientu:
F=
(n − k − 1)(ry2. x x x − ry2. x x
(k − 2)(1 − ry2. x x x )
1 2 3
1 2
1 2 3
) = (20 − 4)(0,6368 − 0,3771) = 11,4386
1 − 0,6368
Toto F srovnáme s kritickou hodnotou F-rozdělení
o (1; 16) stupních volnosti, která má na 1% hladině
významnosti hodnotu 8,53. Prokázali jsme, že při uvážení vlivu doprovodných proměnných X1 a X2 je účinek obou
terapií odlišný. Rovnice pro odhad cílové proměnné má tvar:
y = 1,99 + 0,36 x1 + 0,39 x2 – 1,73 x3.
Ovlivnění cílové proměnné proměnnými X1 a X2 se modeluje v použitém regresním modelu stejně v obou skupinách.
Provedení regrese uvnitř obou skupin však může prokázat, že ve skutečnosti tomu tak není: působení proměnných X1 a
X2 je při uvážení rozdílnosti terapií jiné.
Tuto okolnost zkoumáme tak, že do regrese na proměnných X1, X2 a X3 přidáme proměnné X4 = X2X1 a X5 = X3X2,
které odpovídají interakci doprovodných proměnných s intervencemi v obou skupinách. Příspěvek nových proměnných
k regresi testujeme opět pomocí F kritéria. Jestliže testovací statistika F není významná, nemůžeme zamítnout hypotézu
homogenity regresní uvnitř skupin.
Pozn.: koeficient determinace R2 = 0,638 není nestranným odhadem teoretické hodnoty – má systematicky větší
hodnotu, protože nezohledňuje počet proměnných a počet měřených objektů. Vhodnější je tedy použití korigované
hodnoty adjusted R2.
- 52 -
Christy
přednášky
- 53 -
Christy
přednášky
Analýza kategoriálních dat
Kategoriální data – jedná se především o znaky kvalitativní, např. zaměstnání, pohlaví, typ automobilu, vkus zákazníka.
Získaná data zachycujeme pomocí jedno-, dvou- nebo vícerozměrných tabulek četností nebo relativních četností. Každý
rozměr (dimenze) tabulky odpovídá klasifikaci do kategorií podle určité proměnné.
Některé proměnné mají podle úlohy charakter závisle proměnné (cílové proměnné), jiné považujeme za nezávislé.
Proměnné jsou často nominálního, resp. kvalitativního typu. Také však mohou mít nějaké přirozené řazení (např.
vedlejší reakce na lék mohou být žádné, mírné nebo silné) – jsou ordinálního typu.
Četnostní tabulky vznikají i zařazením jinak spojitých metrických údajů do kategorií, který byly navrženy jako intervaly
pokrývající rozsah hodnot sledované proměnné.
Při zkoumání četností dat stojíme před podobnými úkoly jako v případě dat metrických.
Porovnáváme náhodné chování proměnné s pravděpodobnostním rozdělením, jež je předem přesně specifikované, nebo
srovnáváme rozdělení sledované proměnné ve dvou nebo více populacích, aniž bychom předem specifikovali tvar jejich
rozdělení.
Také nás zajímá síla asociace jednotlivých proměnných mezi sebou.
Porovnání relativní četnosti s teoretickou hodnotou
Posuzujeme relativní četnost přítomnosti určité vlastnosti v ZS pomocí náhodného výběru o rozsahu n.
Předpokládejme hodnotu relativní četnosti výskytu sledované vlastnosti p0.
Testujem nulovou hypotézu H0: p = p0 proti alternativní hypotéze H1: p ≠ p0.
Testové kritérium má tvar:
u=
m
− p0
n
.
p 0 (1 − p 0 )
n
Kritický obor pro zamítnutí H0 je vymezen následovně:
Alternativa
Kritický obor
H 1: p ≠ p 0
K = {u> uα}
H 1: p > p 0
K = {u > u2α}
H 1: p < p 0
K = {u < -u2α}
Je možné v rámci hodnocení stanovit také intervalový odhad relativní četnosti, kdy dvoustranný interval spolehlivosti
pro spolehlivost 1 - α má tvar:

P f i − uα

f i (1 − f i )
p p p f i + uα
n
f i (1 − f i ) 
 = 1−α

n

Uvedené vztahy lze ale použít za předpokladu normální aproximace rozdělení relativní četnosti a jsou vhodné pouze pro
větší rozsahy výběru.
Porovnání dvou relativních četností
Zajímá nás porovnání dvou pravděpodobností p1 a p2 výskytu nějaké vlastnosti ve dvou ZS.
Na základě náhodných výběrů o velkých rozsazích n1 a n2 (n1 > 100; n2 > 100) je třeba ověřit hypotézu H0: p1 = p2.
Test je založen na statistice
u=
m1 m2
+
n1 n2
1 1
p • (1 − p ) •  + 
 n1 n2 
,
Pokud |u| > uα ⇒ H0 zamítáme.
Cílem analýzy může také být testovat a odhadovat velikost jejich rozdílu ∆ = p1 – p2.
Testová statistika se opírá o standardizovanou odchylku rozdílu empirických četností p1 a p2 od předpokládané hodnoty
∆.
- 54 -
Christy
přednášky
Počet prvků se sledovanou vlastností ve výběrových souborech o rozsahu n1 a n2 je m1 a m2.
Teoretické hodnoty pi potom odhadujeme pomocí relativních četností fi = m/n.
Nulovou a alternativní hypotézu lze zapsat jako:
H0: (p1 – p2) = ∆, příp. = 0
H1: (p1 – p2) ≠ ∆, příp. ≠ 0
Testové kritérium má tvar:
u=
( p1 − p2 ) − ∆ .
s( p1 − p2 )
Výpočet odhadu směrodatné odchylky s(p1 – p2) závisí na hodnotě ∆. Jestliže ∆ ≠ 0, pak
s( p1 − p2 ) =
f1 (1 − f1 ) f 2 (1 − f 2 )
+
n1
n2
Nulová hypotéza se zamítá, pokud |u| > uα ⇒ H0.
V případě, že ∆ = 0, má s(p1 – p2) hodnotu
1 1
pq  +  ,
 n1 n2 
m + m2
p= 1
n1 + n2
s( p1 − p2 ) =
je spojený odhad teoretické relativní četnosti q = 1- p.
Rozsahy obou výběrů musí být dostatečně veliké, abychom mohli pro výběrové rozdělení rozdílu hodnot
uplatnit centrální limitní teorém.
p1 – p2
Dvoustranný interval spolehlivosti má tvar:
( p1 − p2 ) ∈ ( f1 − f 2 ) ± uα • s( p − p )
1
2
Jestliže podmínka o rozsazích výběru není splněna, ale počty jsou větší než 20, uplatňuje se arcussinová transformace
na druhou mocninu odhadů pravděpodobností:
ϕ ( p) = arcsin p
Hypotézu o rovnosti pravděpodobností pak testujeme pomocí statistiky
z=
ϕ ( p1 ) − ϕ ( p2 )
1 1
28,648
+
n1 n2
.
Příklad
U 500 náhodně vybraných domácností bylo prováděno v roce 1997 zjišťování, zda mají ve svém jídelníčku zařazenu
cereální výživu. Kladně odpovědělo 67 domácností. U stejného počtu domácností bylo provedeno zjišťování v roce
1998. V tomto roce kladně odpovědělo 202 domácností. Vypočtěte 95 % interval spolehlivosti pro změnu podílu
domácností.
n1 = 500 m1 = 67 f1 = 67/500 = 0,134
n2 = 500 m2 = 202
f2 = 202/500 = 0,404
0,134 • 0,866 0,404 • 0,596
+
= 0,0267
500
500
( p1 − p2 ) ∈ (0,134 − 0,404) ± 1,96 • 0,0267
s( p1 − p2 ) =
( p1 − p2 ) = (−0,3224; − 0,21764)
- 55 -
Christy
přednášky
Protože daný interval nepokrývá 0, můžeme na hladině významnosti 0,05 zamítnout nulovou hypotézu, že v obou
skupinách domácností mají zařazeny v jídelníčku cereální potraviny.
Chceme testovat hypotézu, že podíl domácností v roce 1998 není větší o více než 30 % ve srovnání s podílem
domácností v roce 1997. Použijeme jednostranný test na 5% hladině významnosti (kritická hodnota je 1,6448)
u=
(0,134 − 0,404) − 0,3 = −21,334
0,0267
Výsledek svědčí ve prospěch alternativní hypotézy.
χ2 - test dobré shody
Přezkušujeme, zda tvar pravděpodobnostního rozdělení kategoriální proměnné X má specifickou podobu.
Při pozorování proměnné X se zjistily četnosti nj jednotlivých kategorií.
Předpokládáme, že pravděpodobnostní rozdělení proměnné je určené pravděpodobností pj.
Testem dobré shody testujeme hypotézu:
H0: F(x) = F0(x) proti alternativě H1: F(x) ≠ F0(x).
Předpokládáme, že F0(x) je pevně daná hypotetická distribuční funkce, v níž nefigurují žádné neznámé parametry.
Nulová hypotéza udává pouze typ rozdělení, nikoli jeho parametry.
Rozdíl mezi pozorovanými a očekávanými četnostmi zachycuje testovací statistika, která má tvar:
k
χ =∑
2
j =1
(n
− np j )
2
j
np j
,
kde
k = počet možných hodnot kategoriální proměnné,
nj = empirické (skutečné) četnosti v intervalu j,
npj = teoretické (očekávané) četnosti v intervalu j vypočítané za předpokladu platnosti H0, přičemž n označuje rozsah
výběru a pj teoretickou pravděpodobnost kategorie j.
Za platnosti H0 má statistika asymptoticky
χ2 - rozdělení o k-1 stupních volnosti.
2
Jestliže hodnota statistiky χ překročí kritickou mez, signalizuje to špatnou shodu dat s teoretickým rozdělením.
Příklad
V n nezávislých náhodných pokusech očekáváme, že četnosti náhodných jevů A1, A2, A3, které v pokusu vůbec mohou
nastat, jsou v poměru 1 : 2 : 1. V 80 pokusech jsme získali jejich četnosti 14, 50 a 16. Máme naši hypotézu zamítnout?
Pro vypočtení testovací statistiky vytvoříme následující tabulku.
(nj - npj)2 (nj - npj)2/npj
nj
npj
nj - npj
14
20
-6
36
1,8
50
40
10
100
2,5
16
20
-4
16
0,8
80
80
χ2 = 5,10
χ2α pro 2 stupně volnosti má kritickou hodnotu 5,991. Protože 5,1 < 5,991, nemůžeme nulovou hypotézu zamítnout.
Závislost kategoriálních proměnných
Zabývá se statistickou analýzou četnostních tabulek, které vznikají, když popisujeme a analyzujeme vztah
kategoriálních proměnných.
Jedná se o analogii korelační analýzy spojitých proměnných nebo o podobnost s analýzou rozptylu.
Rozdíl mezi oběma metodami spočívá v tom, že v případě analýzy četnostních tabulek obě kategoriální proměnné
považujeme za náhodné, zatímco v analýze rozptylu posuzujeme vliv faktoru (kategoriální proměnné) s určitým počtem
hladin jako nezávisle proměnné na chování náhodné závisle proměnné, jež má kvantitativní charakter.
- 56 -
Christy
přednášky
Příklad
V roce 1912 se na své první plavbě srazil luxusní zámořský parník Titanic s plovoucí ledovou krou a potopil se. Někteří
cestující se dostali na záchranné čluny, ostatní zemřeli. Představme si, že zkáza Titaniku je experimentem, jak se lidé
chovají tváří v tvář smrti, když jenom někteří mohou uniknout. Předpokládáme, že pasažéři jsou nestranným vzorkem z
populace stratifikované podle majetkových poměrů. V následující tabulce uvádíme data zvlášť pro muže a ženy (Lord,
1998 – nejsou zachyceni cestující, u nichž není znám jejich sociální status). Při popisné analýze takovýchto dat se
doporučuje uvést údaje v tabulkách jako procenta z řádkových nebo sloupcových součtů. Tím se lépe prezentují
rozdílnosti rozdělení v jednotlivých kategoriích. Procenta nebo absolutní četnosti také zobrazujeme pomocí
sloupcových grafů.
Pro jednoduchou inferenční analýzu lze použít metody pro srovnání procent. Snadno lze spočítat, že celkově zemřelo
680 mužů a 168 se jich zachránilo. Žen zemřelo 126, uniknout smrti se podařilo 317. Existuje evidence, že muži v této
situaci více umírají? Jaké jsou pro to důvody? Můžeme se však také zeptat, zda existují statisticky významné rozdíly v
procentuálních podílech zemřelých žen mezi jednotlivými třídami. Nechceme však srovnávat páry tříd, ale vyhodnotit
globální hypotézu, zda vůbec existuje nějaký rozdíl. Stejné hodnocení můžeme provést pro muže. Zajímáme se, zda
existuje stochastický vztah mezi proměnnou třída cestujícího a proměnnou, která popisuje status přežití cestujícího
(ANO, NE). Jinak řečeno, ptáme se, zda ovlivňuje proměnná třída cestujícího pravděpodobnost přežití cestujícího.
Pozn.: tento příklad pracuje dohromady se třemi proměnnými (pohlaví, třída cestujícího a status přežití).
Data o cestujících při ztroskotání Titaniku
Status
I. třída
II. třída
III. třída
Muži
zemřeli
přežili
111
61
150
22
419
85
Ženy
zemřely přežily
6
126
13
90
107
101
Muži
Status
I. třída
II. třída
III.
třída
Ženy
zemřeli
přežili
64,5 %
84,7 %
35,5 %
15,3 %
počet
celkem
172
177
83,1 %
16,9 %
504
zemřely
přežily
4,4 %
12,6 %
95,6 %
87,4 %
počet
celkem
135
103
51,4 %
48,6 %
208
Kontingence
Kontingence se zabývá zkoumáním vztahu mezi množnými znaky, které mají větší počet obměn.
V tomto případě hodnotíme tabulky dvoudimenzionální, což jsou tabulky vzniklé tříděním podle dvou proměnných –
jde o tzv. kontingenční tabulky.
Předpokládáme přitom, že každá jednotka může být klasifikována podle dvou proměnných (kritérií) A a B. proměnná A
má r kategorií (úrovní) a proměnná B má s kategorií (úrovní). Označme nij počet prvků z výběru o rozsahu n, které
podle proměnné A patří do kategorie Ai a podle proměnné B do kategorie Bj. Dále označme ni. počet prvků z výběru,
které patří do kategorie Ai (bez ohledu na hodnotu proměnné B), a podobně n.j počet prvků patřících do kategorie Bj.
Platí tedy vztahy:
r
∑n
i =1
ij
= n. j
- 57 -
Christy
přednášky
s
∑n
j =1
.j
s
∑n
j =1
ij
r
∑n
i =1
i.
=n
= ni.
=n
celkem
Znak A
a1
a2
n11
n21
n12
n22
…..
…..
n1j
n2j
…..
…..
n1s
n2s
n1.
n2.
……
…..
nr1
n.1
…..
nr2
n.2
…..
…..
nis
ni.
…..
…..
ar
celkem
nij
…..
ni2
…..
ni1
…..
ai
…..
bs
…..
…..
…..
bj
…..
…..
…..
b2
…..
b1
…..
Znak B
…..
Kontingenční tabulka typu r x s pak vypadá následovně:
nrj
n.j
…..
…..
nrs
n.s
nr.
n
Po vytvoření tabulky začínáme zkoumat vzájemný vztah obou proměnných A a B – nejdříve pomocí vhodného
zobrazení, později lze testovat různé hypotézy.
Hypotézy pro kontingenční tabulky se obvykle definují v pojmech stochastické nezávislosti, a to pomocí určitých
podmínek.
V kontextu stochastické nezávislosti proměnných A a B tyto podmínky indukují, že čísla nij/ni., resp. nij/n.j (řádkové,
resp. sloupcové relativní četnosti) jsou pro všechna čísla i, resp. j až na náhodné odchylky konstantní.
Jestliže jednu z proměnných kontrolujeme během výběru – třeba proměnnou A, nazýváme ji faktor. Tato proměnná
vlastně určuje r disjunktních subpopulací W1, W2, …, Wr z populace W. V tomto případě se může hypotéza nezávislosti
popsat jako hypotéza homogenity chování proměnné B vzhledem k faktoru A.
Hypotéza homogenity
Tato hypotéza předpokládá, že pravděpodobnostní rozdělení kategoriální proměnné B je stejné v různých populacích,
které jsou identifikovány faktorem A.
Příslušné statistické testy nazýváme někdy testy dobré shody, kdy nám jde o shodu rozdělení kategoriální proměnné.
Úrovně faktoru A stratifikují v tomto případě celou populaci W do r disjunktních subpopulací W1, W2, …, Wr a každý
prvek z Wi je klasifikován do jedné z kategorií proměnné B.
Nechť Pij je relativní četnost prvků subpopulace Wi, jež jsou v j-té kategorii proměnné B.
Potom se hypotéza homogenity může vyjádřit jako
P1j = P2j = … = Prj pro všechna j = 1, 2, …, s, což znamená,
že pro každou kategorii má být relativní četnost prvků v dané subpopulaci stejná pro všechny subpopulace.
Hypotézu homogenity můžeme provádět tehdy, jestliže mám k dispozici prostý náhodný výběr z každé subpopulace
určené faktorem A nebo jsme provedli přiřazení objektů do jednotlivých skupin namátkově.
- 58 -
Christy
přednášky
Příklad
Populace W studentů je stratifikována podle pohlaví a proměnná B je určena tím, zda má student zájem o účast ve
školním sportovním oddíle. Je zřejmé, že proměnná B je kategoriální. Dotazování se provádí tak, že zvlášť se provede
náhodný výběr 66 chlapců a 74 dívek.
Z chlapců, resp. dívek mělo zájem 30, resp. 11 jedinců. Zařazením osob podle zájmu dostaneme tabulku typu 2 x 2.
Zájem o sport
ano
ne
30
36
11
63
41
99
Chlapci
Dívky
Celkem
Celkem
66
74
140
Jestliže P11 je relativní část chlapců se zájmem o sport a P21 je relativní část dívek se zájmem o sport, pak hypotéza
homogenity má tvar P11 = P21 (z toho plyne také P12 = P22). V pojmech nezávislosti H0 vyjadřuje, že relativní četnost
jedinců zajímajících se o účast ve sportovním oddíle je nezávislá na pohlaví.
Hypotéza nezávislosti
V hypotéze nezávislosti se považují obě proměnné A a B za náhodné proměnné, přičemž předpokládáme jejich úplnou
nezávislost. To znamená, že hodnota proměnné A neovlivňuje podmíněné rozdělení proměnné B a naopak.
Uvažujeme populaci W, přičemž každý prvek této populace je klasifikován podle dvou kategoriálních proměnných A a
B. Zkoumáme, zda hodnoty proměnné A neovlivňují rozdělení proměnné B a naopak.
Nulová hypotéza zní, že obě proměnné jsou na sobě stochasticky nezávislé.
Tuto hypotézu lze vyjádřit podmínkami pro pravděpodobnosti pij, což jsou pravděpodobnosti, že na osobě zjistíme
hodnotu proměnné A v kategorii i a hodnotu proměnné B v kategorii j.
Nechť pi., resp. p.j je pravděpodobnost v populaci W, že proměnná A nabude hodnoty i, resp. proměnná B nabude
hodnoty j. Pak hypotézu nezávislosti obou proměnných můžeme vyjádřit rovnicemi
s
pi. = ∑ pij .
pij = pi. • p. j ,
j =1
r
p. j = ∑ pij .
i =1
které platí pro všechna i = 1, 2, …, r a j = 1, 2, …, s. Uvedené vyjádření vyplývá ze vzorce pro výpočet
pravděpodobnosti současného výskytu dvou nezávislých jevů.
Pozn. Má-li platit nezávislost, pak pro všechna i a j musí být splněna podmínka
nij =
ni. • n. j
.
n
Posuzování závislosti v kontingenčních tabulkách
Budeme se zabývat tabulkou typu r x s, která popisuje rozdělení dvou kvalitativních znaků množných.
Analýza této tabulky spočívá v provedení testu nezávislosti a ve stanovení síly (těsnosti) závislosti.
Pro testování hypotéz homogenity i nezávislosti používáme stejný postup.
Nejdříve vypočítáme tzv. očekávané četnosti noj v políčku (i, j) za předpokladu platnosti H0, která říká, že znaky A a B
jsou nezávislé.
noj =
ni. • n. j
n
Empirické četnosti nij se mohou od očekávaných četností noj lišit buď náhodně (platí-li H0) nebo významně (neplatí-li
H0).
Pro posouzení velikosti rozdílů těchto četností použijeme χ2 – testu dobré shody.
r
s
χ = ∑∑
2
i =1 j =1
(n
ij
− noj )
2
noj
- 59 -
Christy
přednášky
Dosadíme-li do vzorce symboliku z kontingenční tabulky, dostaneme po úpravě:
r
r
χ 2 = ∑∑
i =1 j =1
n(nij )
2
ni.n. j
− n.
Hodnotu χ2 srovnáme s kritickou hodnotou χ2 – rozdělení o stupních volnosti (r-1)(s-1). Jestliže hodnota χ2 je větší než
tabulková hodnota, hypotézu o nezávislosti mezi sledovanými kvalitativními znaky zamítáme.
χ2 test pro kontingenční tabulku r x s nelze použít, je-li více než 20 % teoretických četností menších než 5, příp. je-li
alespoň v jednom políčku kontingenční tabulky očekávaná četnost menší než 1. V takových případech je nutno některé
sousedící skupiny spojit.
Jestliže zamítneme hypotézu nezávislosti nebo homogenity, lze tabulku dále analyzovat a hledat důvody, proč je H0
porušena. K tomu nám slouží tzv. normalizované reziduální hodnoty
nij − noj
noj
,
které vyneseme do tabulky opět
typu r x s.
Příčinu nehomogenity můžeme zjistit tak, že zopakujeme χ2 – test pro tabulku, jež je zredukována o sloupce nebo
řádky, které představují kandidáty nehomogenity. Jestliže tento χ2 – test již nesignalizuje závislost (χ2 – statistika
nepřekročí kritickou mez), je podezření potvrzeno.
Nebo vybereme čtyři symetricky od sebe položená políčka, jež vždy po dvou leží v jedné řádce nebo sloupci, a vzniklou
tabulku 2 x 2 opět testujeme. Významnost výsledku testu indikuje zdroj poruchy modelu nezávislosti.
Koeficienty závislosti (míry těsnosti) pro kontingenci
Ověříme-li uvedeným testovacím postupem, že mezi sledovanými znaky existuje závislost, zajímá nás, jak těstná je tato
závislost.
K měření těsnosti závislosti mezi kvalitativními množnými znaky byly konstruovány speciální charakteristiky, které
jsou obdobou korelačního koeficientu. Interpretovat jejich číselné hodnoty je však dosti obtížné vzhledem ke všem
možným kombinacím vztahů mezi kvalitativními údaji.
Pro kontingenční tabulku r x s často používáme ke změření těsnosti závislosti koeficient průměrné čtvercové
kontingence C (Pearsonův koeficient kontingence), který vypočteme takto:
C=
χ2
.
n+ χ2
Jsou-li zkoumané znaky nezávislé, je hodnota tohoto koeficientu nula. Maximální hodnota, dosažená při úplné
závislosti, je však menší než 1 a mění se podle toho, do kolika tříd byly zkoumané znaky rozděleny.
Při různých počtech obměn (variant) znaků dosahuje tento koeficient různých maximálních hodnot, což je jeho značnou
nevýhodou. Proto tyto koeficienty, počítané pro různé typy kontingenčních tabulek, nejsou vzájemně srovnatelné.
Pro porovnání síly závislosti mezi několika kontingenčními tabulkami různého rozměru se používá normalizovaný
koeficient kontingence Cn:
Cn =
C
,
Cmax
kde Cmax lze vypočítat ze vztahu
Cmax =
r −1
r
r je počet podskupin (obměn) toho znaku, který má méně obměn. Hodnoty Cmax jsou také tabelovány.
Sílu závislosti lze též změřit pomocí Cramerova koeficientu V (tzv. Cramerovo V)
V=
χ2
n(h − 1)
pro h = min (r, s).
- 60 -
Christy
přednášky
Sílu závislosti popisuje také Čuprovův koeficient kontingence, který lze vyjádřit jako
K=
χ2
n
(r − 1)(s − 1)
V případě, že oba znaky mají stejný počet obměn (r = s), pohybuje se hodnota K od 0 do 1. Není-li stejný počet obměn
(r ≠ s), hodnoty 1 nedosahuje ani při úplné kontingenci.
Tabulka 2 x 2 – asociační tabulka
Uvažujeme dvě náhodné proměnné X a Y, které nabývají jenom dvě hodnoty: 0 a 1.
Asociace tedy zkoumá vztah mezi alternativními znaky, jež mají pouze dvě obměny.
Symbolika kvalitativních znaků
Jednotlivé kvalitativní znaky jsou značeny velkými písmeny latinské abecedy A, B, C, D, ….
Výskyt (přítomnost) dané vlastnosti u příslušné statistické jednotky je značena malými písmeny latinské abecedy a, b, c,
d, …
V případě, že statistická jednotka danou vlastnost nemá, je použito odpovídajících písmen řecké abecedy α, β, γ, δ, …
Přítomnost či nepřítomnost více kvalitativních znaků u statistické jednotky lze označit kombinací příslušných symbolů.
Např. αbc – značí nepřítomnost znaku A a přítomnost znaků B a C
nabc – počet (četnost) jednotek s danou kombinací přítomnosti či nepřítomnosti znaku.
Znak B
b
Znak A
a
a
c
α
a+c
celkem
β
celkem
b
d
b+d
a+b
c+d
n
Při zkoumání závislosti mezi alternativními znaky A a B ověřujeme stejnou nulovou hypotézu jako u množných znaků,
tzn. že znaky A a B jsou nezávislé.
Jako testovací kritérium použijeme opět veličinu χ2.
Empirické četnosti jsou v tomto případě označeny a, b, c a d. očekávané četnosti pak značíme a0, b0, c0, d0 a vypočteme
je takto:
(a + b)(a + c)
(a + b)(b + d )
b0 =
n
n
(c + d )(a + c)
(c + d )(b + d )
c0 =
d0 =
n
n
a0 =
Vzhledem k odlišné symbolice dostává veličina χ2 tento tvar:
χ2 =
(a − a0 )2 + (b − b0 )2 + (c − c0 )2 + (d − d 0 )2
a0
b0
c0
d0
Za předpokladu, že nepotřebujeme znát teoretické četnosti, použijeme pro výpočet testovacího kritéria vztah:
χ2 =
n(ad − bc )
.
(a + b )(a + c )(b + d )(c + d )
2
Při platnosti H0 má toto testovací kritérium rozdělení χ2 o (2-1)(2-1) = 1 stupni volnosti.
Pokud χ2 > χ2α ⇒ H0 se zamítá a závislost mezi znaky je prokázána i pro základní soubor.
- 61 -
Christy
přednášky
Při používání χ2 testu pro asociační tabulku je potřeba mít na zřeteli předpoklady jeho použití. χ2 test v tomto případě
dává spolehlivé výsledky pouze pro dostatečně velké rozsahy výběru n, prakticky pro n > 40.
Pro 20 < n ≤ 40 lze ověřovat nezávislost dvou alternativních znaků jen tehdy, není-li žádná očekávaná četnost menší
než 5.
Pro n ≤ 20 se nemá používat χ2 testu nikdy.
Zvláštností tabulky typu 2 x 2 je, že v ní lze uvažovat směr poruchy H0, a proto musíme rozhodnout, zda použijeme
jednostranný nebo dvoustranný test.
V případě, že nejsou splněny podmínky pro použití χ2 testu, používáme pro testování závislosti v asociační tabulce
Fisherův test.
Fisherův test nezávislosti v asociační tabulce patří k přesným testům nezávislosti náhodných proměnných a používá se
při malých rozsazích výběrů (pokud n ≤ 20 nebo pokud 20 < n ≤ 40 a některá z teoretických četností je menší než 5).
Nulová hypotéza opět předpokládá nezávislost mezi sledovanými alternativními znaky.
Test je založen na přímém výpočtu pravděpodobnosti, s níž se může ve výběru o rozsahu n vyskytnou seskupení
četností (a), (b), (c), (d) v dané tabulce, nebo jakékoliv jiné uspořádání četností, jež je H0 méně příznivé.
Pro ověření platnosti H0 je nutno vypočítat součet všech dílčích pravděpodobností
p = ∑ pi .
Přitom dílčími pravděpodobnostmi jsou právě pravděpodobnosti výskytu jednotlivých seskupení četností (a), (b), (c),
(d) ve výběru o n prvních, v nichž se nejmenší četnost mění od 0 až do skutečně napozorované hodnoty při zachování
velikosti všech okrajových četností
Jestliže tento součet pravděpodobností bude menší než zvolená hladina významnosti (p ≤ α), nulovou hypotézu
zamítáme a soudíme, že byla prokázána významnost vztahu mezi sledovanými znaky A a B.
Pravděpodobnosti pi (seskupení empirických četností) lze při zachování okrajových četností vyjádřit takto:
pi =
(a + b )! (c + d )! (a + c )! (b + d )! .
n! a! b! c! d !
Celý postup testu je následující:
- Zvolíme hladinu významnosti α.
- V dané asociační tabulce vyhledáme nejnižší četnost a sestavíme další pomocné tabulky s tím, že nejmenší četnost
zmenšujeme po jedné tak dlouho, až dosáhneme tabulkového uspořádání asociační tabulky, ve kterém tato minimální
četnost bude nulová. Přitom okrajové četnosti zůstávají konstantní.
- Vypočítáme pravděpodobnosti pi pro původní tabulku a pro každou pomocnou tabulku.
- Stanovíme celkovou pravděpodobnost
p = ∑ pi .
- Srovnáme vypočtenou pravděpodobnost p se zvolenou hladinou významnosti α. Je-li p ≤ α, H0 můžeme zamítnout. V
případě, že p > α, nelze považovat vztah mezi oběma znaky za prokázaný.
V případě prokázané závislosti je možné dále asociační tabulku analyzovat, kdy lze
- určit průběh závislosti, tedy regresi, která umožní odhady relativního počtu jednotek s výskytem jednoho
znaku na základě daného relativního počtu jednotek s výskytem druhého znaku,
- změřit sílu závislosti, tedy korelaci, mezi sledovanými kvalitativními znaky.
Průběh závislosti dvou alternativních kvalitativních znaků může být vzhledem k počtu obměn (ano, ne) pouze lineární.
Při určování rovnice asociační přímky se postupuje stejně jako u jednoduché kvantitativní závislosti.
Asociační přímka vyjadřuje závislost podílu prvků s jedním znakem na podílu prvků s druhým znakem.
V případě, že závislou proměnnou bude znak B a nezávisle proměnnou znak A, má rovnice asociační přímky
následující podobu:
(a + c ) = A
n
BA
+ BBA
(a + b ) ,
n
kde ABA je absolutní člen, BBA je regresní koeficient.
Parametry asociační přímky lze určit po zjednodušení ze vztahů:
n • a − [(a + b )(a + c )]
,
(a + b )(c + d )
(a + c ) − B • (a + b ) .
ABA =
BA
n
n
BBA =
- 62 -
Christy
přednášky
V případě, že závisle proměnnou bude znak A a nezávisle proměnnou znak B, je třeba určit sdruženou rovnici asociační
přímky:
(a + b ) = A
AB
n
+ BAB
(a + c ) ,
n
n • a − [(a + b )(a + c )]
,
(a + c )(b + d )
(a + b ) − B • (a + c ) .
=
AB
n
n
BAB =
AAB
Vzhledem k tomu, že se jedná o lineární regresi, jsou BBA a BAB směrnice přímek a udávají změnu podílu
resp.
(a + b )
n
odpovídající jednotkovému zvýšení
(a + b )
n
, resp.
(a + c )
n
(a + c )
n
,
.
Dalším úkolem v asociační tabulce je změřit těsnost závislosti mezi znaky A a B.
Při měření stupně asociační závislosti lze použít řadu charakteristik.
Koeficient asociace (V) je svým výpočtem shodný s korelačním koeficientem v případě jednoduché lineární závislosti.
Přednáška není úplně dokončena, tak s tím počítejte.
Intenzita asociace se měří koeficientem asociace, kdy jde o jednostrannou sdruženost nějakého kvalitativního znaku s
jiným kvalitativním znakem, nebo se využívá vzorce koeficientu korelace (přizpůsobenému kvalitativním znakům), kdy
jde o oboustrannou sdruženost znaků.
Existují ještě další méně používané ukazatele, jako např. Yuleův koeficient koligace, Giniho koeficient podobnosti
apod.
Hodnoty obou uvedených ukazatelů se pohybují v rozmezí od –1 do +1. Hodnocení je jako u klasického koeficientu
korelace kvantitativních znaků.
Koeficient asociace oproti „koeficientu korelace“ nadhodnocuje stupeň závislosti. Qab se rovná jedné (plus, resp.
minus), když jen jedna četnost je rovna nule. Jestliže by např. všechny ošetřené stromy měly zdravé ovoce, jednalo by
se o úplnou asociaci, třebaže je i mnoho neošetřených stromů, které mají rovněž zdravé ovoce.
Naproti tomu rab se rovná jedné, když se vyskytují případy pouze v kombinacích ab a αβ, resp. aβ a αb. V daném
případě jde o absolutní asociaci.
- 63 -
Christy

Stáhnout materiál Regresní a korelační analýza

Transkript

Podobné dokumenty

Budoucnost alejí Cesty a zídky Závlaha trávníku Biobazény

Ansorge - Zeman Metodika pro stanovení potřeb vody na základě

Koherentní demodulace a její využití v měřicí technice Teorie

Písky proroctví

zobrazit - Motorové vozy 843 Krnov

METODICKÉ POKYNY A LÉČEBNÉ MOŽNOSTI KARCINOMU PRSU

Statisticka analyza prezivani s aplikaci na odchod od

Signály, časové řady a lineární systémy

slidy - Petr Olšák

Řešené příklady

Kontingenční tabulky, korelační koeficienty