Kontingenční tabulky, korelační koeficienty

Transkript

Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
Kontingenční tabulky, korelační koeficienty
Statistika II
Jiří Neubauer
Katedra ekonometrie FVL UO Brno
kancelář 69a, tel. 973 442029
email:[email protected]
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
χ2 -test nezávislosti
Koeficienty kontingence
χ2 -test nezávislosti
Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor
hodnot X obsahuje r hodnot (kategorií, které budou kódovány čísly 1, 2, . . . , r )
a podobně obor hodnot Y obsahuje s hodnot (kategorií, které budou kódovány
čísly 1, 2, . . . , s). Sdružená pravděpodobnostní funkce náhodných veličin X a Y
je popsána vztahem
p(j, k) = P(X = j, Y = k), j = 1, 2, . . . r , k = 1, 2, . . . , s.
Odpovídající marginální pravděpodobnostní funkce náhodné veličiny X je dána
vztahem
s
X
pX (j) = P(X = j) =
p(j, k), j = 1, 2, . . . , r
k=1
a pravděpodobnostní funkce náhodné veličiny Y vztahem
pY (k) = P(Y = k) =
r
X
p(j, k), k = 1, 2, . . . , s.
j=1
Hodnoty pravděpodobnostní funkce lze uspořádat do tabulky
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
χ2 -test nezávislosti
Koeficienty kontingence
χ2 -test nezávislosti
X \Y
1
...
1 p(1, 1) . . .
..
..
..
.
.
.
j
p(j, 1) . . .
..
..
..
.
.
.
r p(r , 1) . . .
P
pY (1) . . .
k
p(1, k)
..
.
p(j, k)
..
.
p(r , k)
pY (k)
...
...
..
.
...
..
.
...
...
P
s
X \Y
p(1, s) pX (1)
1
..
..
..
.
.
.
p(j, s) pX (j)
j
..
..
..
.
.
.
p(r , s) pX (r )
r
P
pY (s)
1
1
n11
..
.
nj1
..
.
nr 1
n.1
...
...
..
.
...
..
.
...
...
k
n1k
..
.
njk
..
.
nrk
n.k
...
...
..
.
...
..
.
...
...
s
n1s
..
.
njs
..
.
nrs
n.s
Tabulka: Tabulka pravděpodobnostní funkce p(j, k) a kontingenční tabulka pro
hodnoty náhodného výběru z diskrétního rozdělení
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
P
n1.
..
.
nj.
..
.
nr .
n
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
χ2 -test nezávislosti
Koeficienty kontingence
χ2 -test nezávislosti
Pro nezávislé znaky X a Y platí
p(j, k) = pX (j) · pY (k).
n
bX (j) = nj. , podobně odhad pY (k) je dán
Odhad pX (j) lze určit jako p
n.k
bY (k) = n , potom odhad p(j, k) je roven p
b(j, k) = p
bX (j) · p
bY (k). Četnosti,
p
které lze očekávat v kontingenční tabulce při nezávislosti proměnných X a Y ,
jsou tvaru
b(j, k) = n · p
bX (j) · p
bY (k) = n ·
ojk = n · p
nj. · n.k
nj. n.k
·
=
n
n
n
(1)
a nazveme je očekávané četnosti. Jsou-li veličiny X a Y nezávislé, lze
předpokládat, že empirické četnosti njk budou blízké očekávaným četnostem ojk .
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
χ2 -test nezávislosti
Koeficienty kontingence
χ2 -test nezávislosti
K testování nezávislosti náhodných veličin X a Y lze použít statistiku
χ2 =
r X
s
X
(njk − ojk )2
,
ojk
j=1
(2)
k=1
která má asymptoticky χ2 rozdělení s ν = (r − 1)(s − 1) stupni volnosti.
Hypotézu nezávislosti proměnných X a Y pak zamítáme na hladině
významnosti α, když χ2 ≥ χ21−α (ν), kde χ21−α (ν) je 100(1 − α)% kvantil
Pearsonova χ2 rozdělení s ν stupni volnosti. Test lze použít při dostatečném
obsazení všech buněk tabulky, tj. pokud všechny očekávané četnosti jsou dosti
velké, obvykle se předpokládá, že ojk ≥ 5. Při nesplnění této podmínky se
doporučuje spojování „sousedníchÿ obměn u jedné nebo druhé veličiny
(sloučíme celé řádky nebo sloupce a při opakovaném testu s nimi zacházíme
jako s jedinou třídou).
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
χ2 -test nezávislosti
Koeficienty kontingence
Příklad
Při sociologickém průzkumu odpovídalo 100 náhodně vybraných osob na
určitou otázku. Výsledky jsou v následující tabulce. Rozhodněte, zda odpověď
závisí na pohlaví dotazovaných.
Pohlaví
Muž
Žena
Celkem
Rozhodně
ano
2
4
6
j
1
2
celkem
1
3,30
2,70
6,00
Spíše
ano
20
15
35
2
19,25
15,75
35,00
Nevím
10
15
25
k
3
13,75
11,25
25,00
Spíše
ne
15
8
23
4
12,65
10,35
23,00
Rozhodně
ne
8
3
11
5
6,05
4,95
11,00
celkem
55,00
45,00
100,00
Tabulka: Tabulka teoretických četností
Jiří Neubauer
Celkem
Kontingenční tabulky, korelační koeficienty
55
45
100
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
χ2 -test nezávislosti
Koeficienty kontingence
Příklad
Alespoň 80 % těchto teoretických četností by mělo být větší než 5, což v našem
případě není splněné (3 hodnoty z 10 jsou menší než 5). Proto je vhodné
provést sloučení některých sloupců či řádků, slučování je však třeba provádět
„rozumněÿ, zejména s ohledem na věcný význam spojovaných obměn. Pokud
slučování není možné (např. u nás by to byly muži a ženy, nebo rozhodně ano
a rozhodně ne), potom v krajním případě ponecháme původní sloupcové
i řádkové obměny, ale s vědomím, že takovýto „prohřešekÿ snižuje sílu testu.
My sloučíme první dva sloupce v původní kontingenční tabulce, které odpovídají
pozitivní reakci na danou otázku, a přepočteme příslušné teoretické četnosti.
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
χ2 -test nezávislosti
Koeficienty kontingence
Příklad
Pohlaví
Muž
Žena
Celkem
Pozitivní
reakce
22
19
41
Nevím
10
15
25
Spíše
ne
15
8
23
Rozhodně
ne
8
3
11
3
12,65
10,35
23,00
4
6,05
4,95
11,00
Celkem
55
45
100
k
j
1
2
celkem
1
22,55
18,45
41,00
2
13,75
11,25
25,00
celkem
55,00
45,00
100,00
Tabulka: Tabulka teoretických četností
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
χ2 -test nezávislosti
Koeficienty kontingence
Příklad
k
j
1
2
celkem
1
0,013
0,016
0,03
2
1,023
1,250
2,273
3
0,437
0,534
0,97
4
0,629
0,768
1,397
celkem
2,101
2,568
4,669
Tabulka: Výpočet testové statistiky
Hodnota testové statistiky je tedy
χ2 =
r X
s
X
(njk − ojk )2
= 4,66,
ojk
j=1
k=1
hladinu významnosti použijeme α = 0,05, stupně volnosti jsou
ν = (r − 1)(s − 1) = 3 · 1 = 3. Kritický obor je tvořen hodnotami většími než
χ21−α (3) = 7,815. Hodnota testového kritéria nepatří do kritického oboru, tedy
se s 95% pravděpodobností neprokázalo, že odpověď na danou otázku závisí na
pohlaví.
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
χ2 -test nezávislosti
Koeficienty kontingence
χ2 -test nezávislosti v R
Test nezávislosti v kontingenční tabulce lze v programu R spočítat pomocí
funkce chisq.test.
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
χ2 -test nezávislosti
Koeficienty kontingence
Koeficienty kontingence
Těsnost závislosti dvou nominálních znaků měříme pomocí tzv. koeficientů
kontingence. Pro hodnocení intenzity závislosti mezi oběma ordinálními resp.
nominálními proměnnými existují speciální charakteristiky:
Pearsonův koeficient
s
K1 =
χ2
,
n + χ2
Cramerův koeficient
s
χ2
,
n · min(r − 1, s − 1)
s
χ2
p
.
n · (r − 1)(s − 1)
K2 =
Čuprovův koeficient
K3 =
Poznámka: 0 → nezávislost, 1 → závislost
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
Spearmanův korelační koeficient
Kendallův korelační koeficient
Spearmanův korelační koeficient
V případě dvourozměrného souboru kvalitativních údajů, které jsou po složkách
ordinálního typu, je možno zjistit stupeň závislosti těchto dvou znaků. K měření
takovýchto závislostí se používá Spearmanův korelační koeficient. Hodnotám
xi , yi přiřadíme pořadí pi , qi (pořadí jednotlivých hodnot při uspořádaní podle
velikosti). Spearmanův koeficient (koeficient pořadové korelace) je potom
definován vztahem
P
6 ni=1 (pi − qi )2
ρ=1−
.
n(n2 − 1)
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
Spearmanův korelační koeficient
Kendallův korelační koeficient
Spearmanův korelační koeficient
Pro náhodný výběr šesti států USA byly zjištěny spotřeby cigaret na hlavu
a roční míra úmrtnosti na 100 000 lidí následkem rakoviny plic. Určete, zda
existuje významná korelace mezi těmito znaky.
Stát USA
Delaware
Indiana
Iowa
Montana
New Yersy
Washington
Spotřeba cigaret
xi
pi
3400
6
2600
4
2200
2
2400
3
2900
5
2100
1
Úmrtnost
yi
qi
24
5
21
4
17
1
19
2
26
6
20
3
(pi − qi )2
1
0
1
1
1
4
Suma kvadrátů v posledním sloupci je 8,
ρ = 1–
6·8
= 0,77143.
6 · (62 − 1)
Pozn. Kritická hodnota pro α = 0,05 je 0,829 (p-hodnota je 0,1028), korelace
tedy nebyla prokázána.
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
Spearmanův korelační koeficient
Kendallův korelační koeficient
Kendallův korelační koeficient
Mějme dvourozměrný datový soubor. Řekneme, že dvojice (xi , yi ) a (xj , yj ) jsou
ve shodě (concordant), pokud platí, že xi > xj a zároveň yi > yj nebo xi < xj
a zároveň yi < yj . Řekneme, že nejsou ve shodě (discordant), pokud xi < xj
a zároveň yi > yj nebo xi > xj a zároveň yi < yj . V případě, že xi = xj nebo
yi = yj nemluvíme ani o shodě, ani o neshodě. Označme počet dvoji ve shodě
nc a počet dvojic, které ve shodě nejsou nd . Kendallův korelační koeficient je
definován vztahem
nc − nd
τ = 1
.
n(n − 1)
2
Pro data z předchozího příkladu máme nc = 12, nd = 3, n = 6.
τ =
1
2
12 − 3
= 0,6.
· 6 · (6 − 1)
Pozn. Kritická hodnota pro α = 0,05 je 0,8 (p-hodnota je 0,1361), korelace
tedy nebyla prokázána.
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
Pearsonův korelační koeficient
Koeficient mnohonásobné korelace
Pearsonův korelační koeficient

x1
 ..
Mějme dvourozměrný datový soubor  .
xn
znaků a sx , sy směrodatné odchylky znaků
(Pearsonův) definujeme vztahem
rxy =

y1
.. 
. , označme x a y průměry
yn
X , Y . Koeficient korelace
sxy
,
sx sy
Pn
1
kde sxy = n−1
i=1 (xi − x)(yi − y ) je výběrová kovariance znaků X a Y ,
q
Pn
1
sx = n−1 i=1 (xi − x)2 je výběrová směrodatná odchylka znaku X a
q
Pn
1
2
sy = n−1
i=1 (yi − y ) je výběrová směrodatná odchylka znaku Y .
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
Pearsonův korelační koeficient
Koeficient mnohonásobné korelace
Pearsonův korelační koeficient
Lze jej vyjádřit ve tvaru
Pn
(xi − x)(yi − y )
pPn
rxy = pPn i=1
=
2
(x
−
x)2
i=1 i
i=1 (yi − y )
P
P
P
n ni=1 xi yi − ni=1 xi ni=1 yi
q
= q P
2
2 .
Pn
Pn
Pn
2
n ni=1 xi2 −
x
n
y
−
y
i
i
i=1
i=1 i
i=1
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
Pearsonův korelační koeficient
Koeficient mnohonásobné korelace
Pearsonův korelační koeficient
Koeficient determinace je pro závislost popsanou regresní přímkou zvláštním
2
případem indexu determinace, tedy platí ryx
= SSYT . Tato míra těsnosti závislosti
2
má zcela stejné vlastnosti jako iyx
.
2
Výběrový koeficient determinace ryx
lze použít jako odhad teoretického
2
koeficientu determinace ρ v základním souboru. Úpravou
2
rkor
= 1 − (1 − r 2 )
n−1
n−2
získáme nestranný odhad ρ2 .
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
Pearsonův korelační koeficient
Koeficient mnohonásobné korelace
Test významnosti korelačního koeficientu
H : ρ = 0 → A : ρ 6= 0
Testové kritérium je statistika
√
r
t= √
n − 2 ∼ t(n − 2).
2
1−r
Kritický obor je dán
Wα : |t| ≥ t1−α/2 (n − 2).
Pokud hodnota testového kritéria padne do kritického oboru, podařila se
prokázat lineární závislost mezi sledovanými proměnnými.
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
Pearsonův korelační koeficient
Koeficient mnohonásobné korelace
Koeficient mnohonásobné korelace
Koeficient mnohonásobné korelace vyjadřuje sílu závislosti jedné proměnné na
dvou a více jiných proměnných. Mějme k proměnných X1 , X2 , . . . Xk , jejich
korelační matice je rovna


1 r12 r13 . . . r1k
r12 1 r23 . . . r2k 


R= .
..
..
..
.. 
 ..
.
.
.
. 
r1k
1 r2k . . .
1
Koeficient mnohonásobné korelace popisující závislost X1 na X2 , . . . Xk se určí
ze vztahu
s
det(R)
R1,23...k = 1 −
,
det(R11 )
kde R11 vznikne z R vynechání 1. řádku a 1. sloupce.
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty
Kategoriální (nominální) znaky
Ordinální znaky
Měřitelné znaky
Pearsonův korelační koeficient
Koeficient mnohonásobné korelace
Koeficient mnohonásobné korelace
Koeficient mnohonásobné korelace vyjadřuje společné působení nezávisle
proměnných X1 , X2 , . . . Xk na závisle proměnnou Y a určuje spolehlivost
regresního odhadu. Výběrový koeficient mnohonásobné korelace pro případ
regrese se dvěma nezávisle proměnnými (Yi = β0 + β1 xi + β2 zi + i ) je roven
s
2 + r 2 + 2r r r
ryx
yx yz xz
yz
ry ,xz =
,
2
1 − rxz
kde ryx je výběrový korelační koeficient mezi hodnotami yi a xi , ryz je výběrový
korelační koeficient mezi yi a zi a ryx je výběrový korelační koeficient mezi xi
a zi . Jeho druhou mocninou je index determinace.
Jiří Neubauer
Kontingenční tabulky, korelační koeficienty

Podobné dokumenty

APLIKACE VRIO METODY A FAKTOROVÉ ANALÝZY K NALEZENÍ

APLIKACE VRIO METODY A FAKTOROVÉ ANALÝZY K NALEZENÍ • Mezi hlavní důvody, proč by se rozhodli skončit s podnikáním je nedostatek finančních prostředků (70% respondentů), • Hlavním zdrojem informací nebudou oficiální statistiky a kvalita těchto zdroj...

Více

Úvod do pravděpodobnosti

Úvod do pravděpodobnosti Přı́klad 2.4: Odhad µ, σ 2 známé. Bylo provedeno n měřenı́ Xi . Určete maximálně věrohodný odhad střednı́ hodnoty µ̂ za předpokladu, že známe rozptyl σ 2 měřených dat Xi . Řešenı...

Více

2011-01-28 - Martin Mareš

2011-01-28 - Martin Mareš Druhá motivační úloha: Přenos dat. h1i

Více

Stáhnout materiál Regresní a korelační analýza

Stáhnout materiál Regresní a korelační analýza Korelační analýza se zabývá vzájemnými (většinou lineárními) závislostmi, kdy se klade důraz především na intenzitu (sílu) vzájemného vztahu než na zkoumání veličin ve směru příčina – následek. Reg...

Více

imigranti v české republice - Research Support Scheme

imigranti v české republice - Research Support Scheme transformačních změn neodmyslitelně spojují s nutnou emigrací části populace transformující se společnosti (např. Massey 1988). Na druhé straně jsou v této oblasti také další transformující se země...

Více

Pravděpodobnost a statistika - Bodové odhady a intervaly spolehlivosti

Pravděpodobnost a statistika - Bodové odhady a intervaly spolehlivosti Definice (Nestranný / nezkreslený / nevychýlený bodový odhad) Mějme pravděpodobnostní prostor hΩ, F, P i a náhodný výběr X = hX1 , . . . , Xn i z rozdělení, které závisí na neznámých parametrech Θ1...

Více

Využití dataminingových metod v praxi

Využití dataminingových metod v praxi korun a lidé s příjmem nižším. Každou z takto vzniklých skupin dělíme dále podle vhodných kritérií. Pro případ, že ne u všech objektů máme k dispozici hodnoty veličiny, podle níž se řídí dělení v n...

Více

Indikátory kvality života a udržitelného rozvoje: kvantitativní

Indikátory kvality života a udržitelného rozvoje: kvantitativní z uvedených hierarchických úrovní pomocí jednoho agregovaného ukazatele - indexu. Výpočet se řídil přístupem a priori (vnitřní struktura indexu je určena předem), používajícím metody popisné statis...

Více