Pravděpodobnost a statistika

Transkript

Pravděpodobnost a statistika
Pravděpodobnost a statistika
Úvod do analýzy závislostí
Vilém Vychodil
KMI/PRAS, Přednáška 2
Vytvořeno v rámci projektu 2963/2011 FRVŠ
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
1 / 59
Přednáška 2: Přehled
1
Uspořádané výběry:
číslicové dendrogramy, krabicové grafy,
percentily a hodnoty odvozené z percentilů,
zkoumání odlehlých hodnot.
2
Porovnávání hodnot dvou výběrů:
grafické metody porovnávání diagramů,
metody založené na kvantilech a kk-grafy,
3
Korelační a regresní analýza:
základní problémy lineární regresní analýzy,
metoda nejmenších čtverců, kovariance, korelační koeficient,
vlastnosti regresních přímek a korelačních koeficientů,
nelineární regrese.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
2 / 59
Číslicové dendrogramy
Alternativní způsob grafického znázornění dat ve výběru
Výběr x1 , . . . , xn , kde každé číslo xi obsahuje alespoň dvě cifry.
Sestrojení číslicového dendrogramu, angl.: stem-and-leaf display
1
Zvolíme číselný řád (tisíce, stovky, desítky, . . . ), pak:
stonek, angl.: stem: hodnoty daného řádu nacházející se ve výběru,
list, angl.: leaf: hodnoty nižšího řádu nacházející se ve výběru.
2
3
4
Vypíšeme všechny možné hodnoty stonků do sloupce pod sebe.
Za každý stonek napíšeme seznam odpovídajících listů.
Obvykle doplňujeme přidaným sloupcem s absolutní četností listů.
Výhody
Graf znázorňuje „rozložení hodnotÿ ve výběru (analogicky jako histogram).
Narozdíl od histogramu jsou data z výběru přímo obsažena v diagramu.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
3 / 59
Příklad (Vstupní data a absolutní a relativní četnosti)
Výběr obsahující skóre 40 studentů na zkoušce:
75 70 86 76 61 76 88 74 67 96 93 73 65 53 98 86 75 83 64 15
76 50 88 75 75 21 86 60 57 76 63 79 71 80 67 87 76 90 70 59
interval
meze
fi
hi
střed
[10, 20)
[20, 30)
[50, 60)
[60, 70)
[70, 80)
[80, 90)
[90, 100)
(15, 15)
(21, 21)
(50, 59)
(60, 67)
(70, 79)
(80, 88)
(90, 98)
1
1
4
7
15
8
4
0.002
0.002
0.010
0.018
0.038
0.020
0.010
15.0
25.0
55.0
65.0
75.0
85.0
95.0
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
4 / 59
Příklad (Histogram relativních četností a číslicový dendrogram)
Výběr obsahující skóre 40 studentů na zkoušce:
75 70 86 76 61 76 88 74 67 96 93 73 65 53 98 86 75 83 64 15
76 50 88 75 75 21 86 60 57 76 63 79 71 80 67 87 76 90 70 59
.038
stonek
.020
.018
.010
.010
.002 .002
5
15
25
35
45
V. Vychodil (KMI/PRAS, Přednáška 2)
55
65
75
85
1
2
5
6
7
8
9
listy
5
1
3079
1754037
506643565569160
68638607
6380
fi
1
1
4
7
15
8
4
95
Úvod do analýzy závislostí
Pravděpodobnost a statistika
5 / 59
Příklad (Modifikace číslicového dendrogramu)
stonek
stonek
1
2
5
6
7
8
9
listy
5
1
3079
1754037
506643565569160
68638607
6380
V. Vychodil (KMI/PRAS, Přednáška 2)
fi
1
1
4
7
15
8
4
Z=⇒
Úvod do analýzy závislostí
1•
2∗
5∗
5•
6∗
6•
7∗
7•
8∗
8•
9∗
9•
listy
5
1
30
79
1403
757
04310
5665655696
30
686867
30
68
fi
1
1
2
2
4
3
5
10
2
6
2
2
Pravděpodobnost a statistika
6 / 59
Uspořádané výběry a číslicové dendrogramy
Definice (Uspořádaný výběr)
Hodnoty výběru x1 , . . . , xn uspořádané vzestupně podle jejich velikosti se nazývají
uspořádaný výběr, angl.: sample order statistics.
Příklad (Uspořádaný číslicový dendrogram)
stonek
1
2
5
6
7
8
9
listy
5
1
3079
1754037
506643565569160
68638607
6380
V. Vychodil (KMI/PRAS, Přednáška 2)
fi
stonek
1
1
4
7
15
8
4
Z=⇒
Úvod do analýzy závislostí
1
2
5
6
7
8
9
listy
5
1
0379
0134577
001345555666669
03666788
0368
fi
1
1
4
7
15
8
4
Pravděpodobnost a statistika
7 / 59
Výběrové percentily a kvantily
Číselné charakteristiky rozložení dat odvozené z uspořádaných výběrů
Definice (Výběrový percentil, angl.: sample percentile)
Mějme reálné číslo 0 ≤ p ≤ 1. Pak (100p)% výběrový percentil výběru x1 , . . . , xn
je číslo π
ep ∈ R, které rozděluje výběr na dvě části tak, že (přibližně) (n − 1) · p
hodnot z výběru je menších než π
ep a (n − 1) · (1 − p) hodnot je větších než π
ep .
Výběrový kvantil s hladinou p = (100p)% výběrový percentil.
Terminologie: výběrový precentil (kvantil) / empirický percentil (kvantil)
Příklad
Pro p = 0.25 je 25% výběrový percentil (to jest výběrový kvantil s hladinou 0.25)
hodnota π
e0.25 , pro kterou je (přibližně) 41 ostatních hodnot z výběru menších než
e0.25 .
π
e0.25 a 43 ostatních hodnot z výběru větších než π
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
8 / 59
Stanovení výběrových percentilů
Algoritmus (stanovení π
ep )
Pro uspořádaný výběr x0 , . . . , xn−1 (indexovaný od 0) a číslo 0 ≤ p ≤ 1 stanovíme
(100p)% výběrový percentil π
ep podle jednoho z následujících bodů:
Pokud (n − 1)p je celé číslo, pak stanovíme hodnotu π
ep jako prvek
z uspořádaného výběru, který se nachází na pozici (n − 1)p, to jest π
ep = x(n−1)p .
Pokud (n − 1)p není celé číslo, to jest pokud (n − 1)p = r + s, kde s ∈ (0, 1) a r
je nezáporné celé číslo, pro které r < n − 1, pak
π
ep = xr + s · (xr+1 − xr ) = (1 − s) · xr + s · xr+1 ,
kde xr a xr+1 označují čísla z uspořádaného výběru na pozicích r a r + 1.
Význam: π
ep je vážený průměr xr a xr+1 s vahami 1 − s a s (lineární interpolace).
Složitost: O(n log n) (obecný výběr je potřeba uspořádat).
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
9 / 59
Implementace
Algoritmus (stanovení π
ep )
(defun percentile (sample p)
"Return (100P)-th SAMPLE percentile."
(let* ((sample (sort (copy-seq sample) #’<=))
(n (length sample))
(r (* (1- n) p)))
(if (integerp r)
(elt sample r)
(multiple-value-bind (r s)
(truncate r)
(+ (* (- 1 s) (elt sample r))
(* s (elt sample (1+ r))))))))
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
10 / 59
Příklad (Výběrové kvantily)
Uvažujme následující uspořádané výběry:
1
x0 = 10, x1 = 20, x2 = 30, x3 = 40 a x4 = 50
Pro p = 0.25 máme (n − 1) · 0.25 = 4 · 0.25 = 1, to jest
π
e0.25 = x1 = 20.
Pro p = 0.5 máme (n − 1) · 0.5 = 4 · 0.5 = 2, to jest
π
e0.50 = x2 = 30.
2
x0 = 10, x1 = 20, x2 = 30, x3 = 40, x4 = 50 a x5 = 60
Pro p = 0.25 máme (n − 1) · 0.25 = 5 · 0.25 = 1.25, to jest
π
e0.25 = x1 + 0.25 · (x2 − x1 ) = 20 + 0.25 · 10 = 22.5.
Pro p = 0.5 máme (n − 1) · 0.5 = 5 · 0.5 = 2.5, to jest
π
e0.50 = x2 + 0.5 · (x3 − x2 ) = 30 + 0.5 · 10 = 35.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
11 / 59
Vlastnosti výběrových percentilů
Věta (o výběrových percentilech)
Uvažujme uspořádaný výběr x0 , . . . , xn−1 . Pak pro každé k =0, . . . , n − 1 platí, že
k
k
xk je výběrový kvantil s hladinou n−1
. To jest, xk je 100 n−1
% výběrový percentil.
Důkaz.
Triviálně plyne z faktů, že
k
k
n−1−k
(n − 1) ·
= k, (n − 1) · 1 −
= (n − 1) ·
= n − 1 − k.
n−1
n−1
n−1
Jinými slovy, právě k prvků z výběru je ostře menších než xk a právě n − 1 − k
prvků z výběru je ostře větších než xk . Odtud π
e k = xk dle definice.
n−1
Důsledek: každý prvek výběru je percentil pro nějaké 0 ≤ p ≤ 1.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
12 / 59
Výběrové percentily se speciálními názvy
Výběrový medián m
e
Definujeme m
e =π
e0.50 , to jest:
prostřední hodnota ve výběru,
rozděluje hodnoty uspořádaného výběru „na dvě polovinyÿ.
Výběrové decily, . . .
Výběrové kvartily qen
dolní kvartil: qe1 = π
e0.25
prostřední kvartil: qe2 = π
e0.50 = m
e
horní kvartil: qe3 = π
e0.75
ntý decil: 10n% percentil, to jest:
první decil: 10% percentil = π
e0.10
druhý decil: 20% percentil = π
e0.20
..
.
devátý decil: 90% percentil = π
e0.90
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
13 / 59
Příklad
Uspořádaný výběr obsahující skóre 40 studentů na zkoušce:
15 21 50 53 57 59 60 61 63 64 65 67 67 70 70 71 73 74 75 75
75 75 76 76 76 76 76 79 80 83 86 86 86 87 88 88 90 93 96 98
Vybrané percentily:
π
e0 = 15.00, π
e0.5
π
e0.25 = 64.75, π
e0.3
π
e0.5 = 75.00, π
e0.55
π
e0.75 = 83.75, π
e0.8
π
e0.9525
π
e0.965
π
e0.9775
π
e0.99
= 93.44, π
e0.955
= 94.90, π
e0.9675
= 96.25, π
e0.98
= 97.22, π
e0.9925
V. Vychodil (KMI/PRAS, Přednáška 2)
= 48.55,
= 67.00,
= 75.45,
= 86.00,
π
e0.1
π
e0.35
π
e0.6
π
e0.85
= 93.74, π
e0.9575
= 95.20, π
e0.97
= 96.44, π
e0.9825
= 97.42, π
e0.995
= 56.60,
= 70.00,
= 76.00,
= 87.15,
π
e0.15
π
e0.4
π
e0.65
π
e0.9
= 94.03, π
e0.96
= 95.49, π
e0.9725
= 96.64, π
e0.985
= 97.61, π
e0.9975
Úvod do analýzy závislostí
= 59.85,
= 72.20,
= 76.00,
= 88.20,
π
e0.2
π
e0.45
π
e0.7
π
e0.95
= 62.60,
= 74.55,
= 79.30,
= 93.15,
= 94.32, π
e0.9625
= 95.78, π
e0.975
= 96.83, π
e0.9875
= 97.81,
π
e1
= 94.61,
= 96.05,
= 97.03,
= 98.00.
Pravděpodobnost a statistika
14 / 59
Další hodnoty odvozené z uspořádaných výběrů
Definice
Pro uspořádaný výběr x1 , . . . , xn zavádíme následující pojmy.
Průměr extrémů:
xn − x1
, angl.: midrange.
2
Variační rozpětí: xn − x1 , angl.: range (Přednáška 1).
Interkvartilové rozpětí (IQR): qe3 − qe1 , angl.: interquartile range.
Percentilový průměr:
qe1 + 2 · m
e + qe3
, angl.: trimean.
4
Pětihodnotový souhrn: x1 , qe1 , m,
e qe3 , xn , angl.: five-number summary.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
15 / 59
Krabicové grafy s anténami
Grafická reprezentace pětihodnotového souhrnu
angl.: box-and-whisker diagram, boxplot
min
qe1 m
e
qe3
max
Postup při kreslení diagramu
Pro uspořádaný výběr x1 , . . . , xn postupujeme následovně:
1
Nakreslíme horizontální osu pro hodnoty xi (ve vhodném měřítku).
2
Nad osou zakreslíme obdélník (tzv. krabice) jehož krajní strany (obě kolmé
k ose) jsou zakresleny na pozicích daných kvartily qe1 a qe3 . Obdélník je dále
předělen vertikální čárou na pozici dané mediánem m
e = qe2 .
3
Levá anténa je nakreslena jako čára rovnoběžná s osou jdoucí od minima
výběru k levé straně obdélníku.
4
Analogicky pravá anténa jde od pravé strany obdélníku do maxima výběru.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
16 / 59
Příklad (Krabicový graf s anténami)
Výběr obsahující skóre 40 studentů na zkoušce:
75 70 86 76 61 76 88 74 67 96 93 73 65 53 98 86 75 83 64 15
76 50 88 75 75 21 86 60 57 76 63 79 71 80 67 87 76 90 70 59
.038
1. kvartil:
medián:
3. kvartil:
π
e0.25 = qe1 = 64.75
π
e0.50 = qe2 = m
e = 75.00
π
e0.75 = qe3 = 83.75
.020
.018
.010
.010
.002 .002
5
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
15
25
35
45
55
65
75
85
95
Pravděpodobnost a statistika
17 / 59
Příklad (Krabicový graf s anténami)
Uspořádaný výběr soubor obsahující počty mrtvých při 40 živelních pohromách:
2 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 5 5
5 5 6 6 6 6 8 9 12 16 18 22 25 29 32 39 41 47 48 50
0.070
1. kvartil:
medián:
3. kvartil:
π
e0.25 = qe1 = 3.0
π
e0.50 = qe2 = m
e = 5.0
π
e0.75 = qe3 = 16.5
6
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
0.010
0.007
0.007
0.005
16
26
36
46
Pravděpodobnost a statistika
18 / 59
Příklady (Výběrový průměr × výběrový medián)
12334455555
667789
qe1 = 4
m
e =5
qe3 = 6
1 2 3 4 5 6 7 8 9
V. Vychodil (KMI/PRAS, Přednáška 2)
12223334466
7778889
qe1 = 3
m
e =5
qe3 = 7
1 2 3 4 5 6 7 8 9
Úvod do analýzy závislostí
11113366778
899
qe1 = 1.5
m
e =6
qe3 = 7.75
1 2 3 4 5 6 7 8 9
Pravděpodobnost a statistika
19 / 59
Zkoumání přítomnosti odlehlých hodnot
Odlehlá hodnota:
potenciálně podezřelá hodnota ve výběru,
hodnoty, které jsou „příliš dalekoÿ od většiny hodnot ve výběru,
mohou vznikat jako chyby v datech (např. chyby při měření).
Krabicový graf s anténami a bariérami
vnitřní bariéra – vlevo a vpravo od obdélníka ve vzdálenosti 1.5 IQR;
vnější bariéra – vlevo a vpravo od obdélníka ve vzdálenosti 3 IQR;
Typy odlehlých hodnot (v grafu se zakreslují kolečky)
mírně odlehlá hodnota je hodnota nacházející se mezi vnitřní a vnější bariérou
angl.: mild outlier, suspected outlier
silně odlehlá hodnota je hodnota nacházející se za vnější bariérou
angl.: extreme outlier, outlier
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
20 / 59
Příklad
Výběr obsahující skóre
75
93
76
63
5
40 studentů na zkoušce:
70 86 76 61 76
73 65 53 98 86
50 88 75 75 21
79 71 80 67 87
15
V. Vychodil (KMI/PRAS, Přednáška 2)
25
35
45
55
65
75
85
88
75
86
76
74
83
60
90
67
64
57
70
96
15
76
59
95 105 115 125 135 145
Úvod do analýzy závislostí
Pravděpodobnost a statistika
21 / 59
Příklad
Uspořádaný výběr soubor obsahující počty mrtvých při
2 2 2 2 2 2 2 3
3 3 3 4 4 4 4 4
5 5 6 6 6 6 8 9
18 22 25 29 32 39 41 47
5
V. Vychodil (KMI/PRAS, Přednáška 2)
15
25
35
45
Úvod do analýzy závislostí
40 živelních pohromách:
3
3
5
5
12 16
48 50
55
Pravděpodobnost a statistika
22 / 59
Příklady (Citlivost x a s2 na odlehlé hodnoty)
15 17 18 18 20 20 20 21 22 24 27
15 17 18 18 20 20 20 21 22 24 27 10000
x = 20.18
s2 = 11.16
s = 3.34
x = 851.82
s2 = 8 299 741
s = 2 880.93
qe1 = 18
m
e = 20
qe3 = 21.5
qe1 = 18
m
e = 20
qe3 = 22.5
5
15
25
V. Vychodil (KMI/PRAS, Přednáška 2)
35
5
Úvod do analýzy závislostí
15
25
35
Pravděpodobnost a statistika
45
23 / 59
Modus a modální intervaly
Výběrový modus = typická hodnota ve výběru (vyskytuje se nejčastěji)
Definice (Výběrový modus)
Hodnota y, která má ve výběru x1 , . . . , xn nejvyšší absolutní četnost, se nazývá
výběrový modus, angl.: mode. Pokud ve výběru existuje několik různých hodnot se
stejnou maximální četností, všechny hodnoty se považují za mody výběru.
Pro data dělená do intervalů zavádíme následující:
Definice (Modální interval)
Interval hodnot, který má největší relativní četnost, se nazývá modální interval,
angl.: modal class (obecně jich může být více se stejnou maximální relativní
četností). Střed modálního intervalu nazýváme modus výběru při zvoleném rozdělení
na intervaly.
Poznámka: nejvyšší relativní četnost intervalu = fi · hi je nejvyšší
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
24 / 59
Příklad (Histogram intervalového rozdělení četností)
.038
.020
.018
.010
.010
.002 .002
5
15
25
35
45
55
65
75
85
95
Modální interval: [70, 80); modus: 75.
Příklad (Výběrový modus 6= výběrový průměr 6= výběrový medián)
Pro výběr 1, 1, 1, 2, 3, 4, 5 máme:
výběrový průměr: x = 17
≈ 2.43,
7
výběrový medián: m
e = 2,
výběrový modus: 1.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
25 / 59
Analýza závislostí dat
Dva číselné výběry nebo více výběrů.
Výběry jsou buď ze stejné populace nebo z jiné.
Data mohou být stejného nebo různého typu (různé jednotky).
Základní otázka: Jak porovnat data ve výběrech?
netriviální problém (obvykle vysoká složitost, pro velká data problém)
různé typy závislostí (lineární, nelineární, logické, . . . )
korelační analýza, regresní analýza, metody data-mining (magisterská etapa)
Dva základní přístupy
Grafický:
jednoduše interpretovatelný uživateli (laiky),
nedává přesný popis závislostí (posouzení je věcí intuice/psychologie).
Numerický:
závislost v datech se vyjádří číselnou charakteristikou.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
26 / 59
Grafické metody založené na porovnávání diagramů
Slouží k porovnávání dvou výběrů x1 , . . . , xn a y1 , . . . , yn se
stejnými jednotkami a se
stejnou velikostí.
Obvyklé znázornění:
1
Dva číslicové dendrogramy se společnými stonky
Vypíšeme všechny možné hodnoty stonků z obou výběrů do jednoho sloupce.
Listy z prvního výběru se zapisují od stonku nalevo.
Listy z druhého výběru se zapisují od stonku napravo.
2
Dva krabicové grafy s anténami kreslené nad sebe
Nakreslíme společnou horizontální osu pro hodnoty z obou výběrů.
Krabicový graf prvního výběru se zakreslí nad osu.
Krabicový graf druhého výběru se zakreslí nad první diagram.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
27 / 59
Příklad (Porovnání výběrů pomocí dendrogramů se společnými stonky)
79
80
80
77
87
86
88
48
42
86
80
37
74
99
28
19
fi
0
2
0
2
4
6
14
10
2
73
74
84
71
86
22
67
64
66
83
95
86
65
74
81
94
87
72
80
32
listy
21
92
9872
665431
98876444443222
7777666300
96
V. Vychodil (KMI/PRAS, Přednáška 2)
21
61
78
30
58
49
68
86
96
63
89
90
72
87
89
85
77
72
68
90
57
78
80
72
80
52
70
57
64
78
77
59
87
76
70
72
stonek
listy
1
2
3
4
5
6
7
8
9
9
8
027
8
79
145788
0001227778
000014566899
0045
Úvod do analýzy závislostí
74
74
77
61
59
66
65
70
fi
1
1
3
1
2
6
10
12
4
Pravděpodobnost a statistika
28 / 59
Příklad (Porovnání výběrů pomocí dendrogramů se společnými stonky)
54
76
32
27
56
37
89
72
76
62
57
21
84
78
18
24
fi
1
0
2
0
6
9
14
5
3
V. Vychodil (KMI/PRAS, Přednáška 2)
70
77
46
75
72
93
45
70
70
83
62
29
71
52
40
70
50
30
80
60
64
65
88
30
listy
0
70
965420
996542221
98876622221100
97643
543
72
78
21
75
86
69
89
30
61
55
30
16
69
62
61
14
87
72
57
69
71
79
73
29
stonek
listy
1
2
3
4
5
6
7
8
9
2468
1147999
00027
0056
77
01129
002355
0378999
Úvod do analýzy závislostí
72
62
12
87
89
94
83
37
10
66
89
40
59
95
29
61
fi
4
7
5
4
2
5
6
7
0
Pravděpodobnost a statistika
29 / 59
Příklad (Porovnání výběrů pomocí krabicových diagramů s anténami)
79
80
80
77
87
86
88
48
42
86
80
37
74
99
28
19
73
74
84
71
86
22
67
64
66
83
95
86
65
74
81
94
87
72
80
32
21
61
78
30
58
49
68
86
96
63
89
90
72
87
89
85
77
72
68
90
57
78
80
72
80
52
70
57
64
78
77
59
87
76
70
72
74
74
77
61
59
66
65
70
x = 70.90
s2 = 284.19
10
20
30
V. Vychodil (KMI/PRAS, Přednáška 2)
40
50
60
70
80
Úvod do analýzy závislostí
90
100
x = 70.35
s2 = 362.75
Pravděpodobnost a statistika
30 / 59
Příklad (Porovnání výběrů pomocí krabicových diagramů s anténami)
54
76
32
27
56
37
89
72
76
62
57
21
84
78
18
24
70
77
46
75
72
93
45
70
70
83
62
29
71
52
40
70
50
30
80
60
64
65
88
30
72
78
21
75
86
69
89
30
61
55
30
16
69
62
61
14
87
72
57
69
71
79
73
29
72
62
12
87
89
94
83
37
10
66
89
40
59
95
29
61
x = 68.20
s2 = 291.86
10
20
30
V. Vychodil (KMI/PRAS, Přednáška 2)
40
50
60
70
80
Úvod do analýzy závislostí
90
100
x = 50.92
s2 = 625.71
Pravděpodobnost a statistika
31 / 59
Kvantilové porovnání: kk-grafy
Kvantily odpovídajících hladin jsou znázorněny jako body
Uspořádané výběry x0 , . . . , xm−1 a y0 , . . . , yn−1 , kde m ≤ n.
Sestrojení kk-grafu, angl.: quantile-quantile-plot, qq-plot
Kvantily dvou výběrů odpovídajících hladin jsou znázorněny jako body ve
dvourozměrné souřadné soustavě: pro každou
hodnotu
xk z prvního výběru
k
zakreslíme do grafu bod o souřadnicích xk , π
ep [y] , kde p = m−1
aπ
ep [y] označuje
výběrový kvantil s hladinou p z výběru y0 , . . . , yn−1 .
Speciální případ: dva výběry se stejnou velikostí
k
pokud m = n a p = m−1
, pak π
ep [y] = yk (viz předchozí Větu), to jest
v grafu se zaznamenají body [x0 , y0 ], [x1 , y1 ], . . . , [xn , yn ].
Čtení grafu: body (blízko) na diagonále = (skoro) stejné výběry
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
32 / 59
Příklad (Kvantilové porovnání pro dvojice dat z předchozích příkladů)
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
33 / 59
Příklad (Kvantilové porovnání výběrů o různých velikostech)
Setříděné výběry x0 , . . . , x20 (velikost 21) a y0 , . . . , y39 (velikost 40):
16 24 33 35 38 40 45 46 51 53 56 59 60 63 66 68 69 70 71 72 83
12 13 20 27 34 37 40 40 41 42 42 42 44 50 50 51 51 52 53 54
54 54 55 55 56 58 59 59 59 60 67 70 70 77 81 82 83 84 86 99
Tabulky s porovnáním kvantilů:
xi
ki
16
24
33
35
38
40
45
0.00
0.05
0.10
0.15
0.20
0.25
0.30
π
eki [y]
12.00
19.65
33.30
39.55
40.80
42.00
43.40
V. Vychodil (KMI/PRAS, Přednáška 2)
xi
ki
46
51
53
56
59
60
63
0.35
0.40
0.45
0.50
0.55
0.60
0.65
π
eki [y]
50.00
51.00
52.55
54.00
54.45
55.40
58.35
Úvod do analýzy závislostí
xi
ki
66
68
69
70
71
72
83
0.70
0.75
0.80
0.85
0.90
0.95
1.00
π
eki [y]
59.00
61.75
70.00
77.60
82.10
84.10
99.00
Pravděpodobnost a statistika
34 / 59
Příklad (Kvantilové porovnání výběrů o různých velikostech: graf)
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
35 / 59
Úvod do korelační a regresní analýzy
Čím se zabývají:
Korelační analýza
zkoumá vztahy hodnot dvou (nebo více) veličin,
grafické metody, číselné charakteristiky (korelační koeficienty).
Regresní analýza
zkoumá jaké typy vztahů mezi proměnnými existují (lineární, kvadratický, . . . ),
statistická disciplína (teorie odhadů).
Zajímáme se o vztahy mezi hodnotami ze dvou výběrů tvořených
1
hodnotami nezávislé veličiny (například hmotnost auta, . . . ) a
2
hodnotami vysvětlované veličiny (například spotřeba benzínu . . . )
Aplikace:
vytváření zjednodušených modelů (například lineárních modelů);
predikce hodnot založená na interpolaci/extrapolaci.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
36 / 59
Příklad (Analýza závislostí spotřeby automobilu na jeho hmotnosti)
1
2
typ auta
hmotnost
spotřeba
AMC Concord
Chevrolet Caprice
Ford Country Squire Wagon
Chevrolet Chevette
Toyota Corona
Ford Mustang Ghia
Mazda GLC
AMC Sprint
VW Rabbit
3.4
3.8
4.1
2.2
2.6
2.9
2.0
2.7
1.9
5.5
5.9
6.5
3.3
3.6
4.6
2.9
3.6
3.1
nezávislá veličina: hmotnost auta (v tisících liber)
vysvětlované veličina: spotřeba (počet galonů paliva na 100 mil).
Otázka: Lze (přibližně) vyjádřit spotřebu na základě hmotnosti auta?
H. V. Henderson, P. F. Velleman: Building Multiple Regression Models Interactively, Biometrics 37(1981), 391–411.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
37 / 59
Příklad (Bodový diagram a regresení přímka)
Hodnoty vstupních dat (výběrů):
xi
yi
3.4
5.5
3.8
5.9
4.1
6.5
2.2
3.3
2.6
3.6
2.9
4.6
2.0
2.9
2.7
3.6
1.9
3.1
Bodový diagram:
6.5
6.0
5.5
5.0
4.5
4.0
3.5
3.0
2.5
1.8
V. Vychodil (KMI/PRAS, Přednáška 2)
2.3
2.8
3.3
Úvod do analýzy závislostí
3.8
4.3
Pravděpodobnost a statistika
38 / 59
6.5
y = α + βx
6.0
5.5
5.0
4.5
[xi, α + βxi]
4.0
[xi, yi]
3.5
H (α, β ) =
(yi − α − βxi)2
i=1
3.0
2.5
1.8
n
X
2.3
V. Vychodil (KMI/PRAS, Přednáška 2)
2.8
3.3
Úvod do analýzy závislostí
3.8
4.3
Pravděpodobnost a statistika
39 / 59
Aplikace metody nejmenších čtverců
Předpis H(α, β) =
n
X
(yi − α − βxi )2 definuje funkci dvou proměnných α a β.
i=1
9000
7000
5000
3000
2
−25
0
−15
−5
−2
0
5
15
−4
Snaha minimalizovat H(α, β) (aplikace vyšetřování průběhu fce. dvou proměnných).
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
40 / 59
Stanovení parciálních derivací H(α, β)
Pro H(α, β) =
n
X
(yi − α − βxi )2 máme:
i=1
n
n
X
∂H(α, β) X
=
2(yi − α − βxi ) · (−1) =
(−2yi + 2α + 2βxi )
∂α
i=1
i=1
= −2
n
X
yi + 2
i=1
n
X
α+2
i=1
n
X
βxi = −2
i=1
n
X
i=1
yi + 2nα + 2
n
X
!
xi β,
i=1
n
n
X
∂H(α, β) X
=
2(yi − α − βxi ) · (−xi ) =
(−2xi yi + 2xi α + 2x2i β)
∂β
i=1
i=1
!
!
n
n
n
X
X
X
= −2
xi yi + 2
xi α + 2
x2i β.
i=1
V. Vychodil (KMI/PRAS, Přednáška 2)
i=1
i=1
Úvod do analýzy závislostí
Pravděpodobnost a statistika
41 / 59
Hledání bodu minimalizujícího H(α, β)
∂H(α, β)
∂H(α, β)
=0a
= 0, to jest:
∂α
∂β
!
!
!
n
n
n
n
n
X
X
X
X
X
−2
yi + 2nα + 2
xi β = 0, −2
xi y i + 2
xi α + 2
x2i β = 0.
Položíme
i=1
i=1
i=1
i=1
i=1
Zjednodušení:
nα +
n
X
!
xi β =
i=1
n
X
i=1
yi ,
n
X
!
xi α +
i=1
n
X
i=1
!
x2i
β=
n
X
xi y i .
i=1
b minimalizující H(α, β) je bod, který je řešením této soustavy.
Hledaný bod [b
α, β]
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
42 / 59
Vynásobenín rovnic
nα +
n
X
!
xi β =
i=1
konstantami
Pn
i=1
n
X
yi ,
i=1
!
n
X
xi α +
i=1
!
xi α + n
i=1
n
X
n
X
x2i
β=n
i=1
V. Vychodil (KMI/PRAS, Přednáška 2)
i=1
!
x2i
β=
xi
n
X
n
X
xi y i
i=1
n
X
i=1
!
!
i=1
!
yi ,
(1)
i=1
xi y i
(2)
i=1
Odečtením (1) od (2) eliminujeme α a dostaneme:
!
!2
n
n
n
X
X
X
2
n
xi β −
xi β = n
xi y i −
i=1
n
X
i=1
xi a n dostaneme:
!
!2
n
n
X
X
xi nα +
xi β =
i=1
n
n
X
i=1
Úvod do analýzy závislostí
n
X
i=1
!
xi
n
X
!
yi .
i=1
Pravděpodobnost a statistika
43 / 59
Vyjádření α
b a βb minimalizujících H(α, β)
Vyjádřením β z rovnice
!
n
X
n
x2i β −
n
X
i=1
!2
xi β = n
i=1
n
X
x i yi −
i=1
n
X
i=1
!
xi
n
X
!
yi
i=1
b
dostáváme řešení β:
n
βb =
n
X
xi yi −
i=1
n
n
X
!
xi
i=1
n
X
!
x2i −
i=1
V. Vychodil (KMI/PRAS, Přednáška 2)
n
X
n
X
i=1
!2
!
n
X
yi
=
i=1
xi
i=1
Úvod do analýzy závislostí
! n !
n
X
1 X
xi y i −
xi
yi
n i=1
i=1
.
!
!2
n
n
X
X
1
x2i −
xi
n
i=1
i=1
Pravděpodobnost a statistika
44 / 59
Vyjádření α
b a βb minimalizujících H(α, β)
Použitím předchozí rovnice nα +
n
X
!
xi β =
i=1
n
X
α
b=
n
X
yi −
i=1
i=1
n
n
X
yi vyjádříme α
b:
i=1
!
xi βb
!
n
n
1X
1 X
b
=
yi −
xi βb = y − xβ.
n i=1
n i=1
Důsledek (tvar rovnice regresní přímky)
b = y − xβb + βx
b = y + β(x
b − x)
yb = α
b + βx
Legenda:
x je hodnota nezávislé veličiny, x, y jsou výběrové průměry,
α
b, βb jsou vypočtené koeficienty, yb je (odhadovaná) hodnota vysvětlované veličiny.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
45 / 59
Příklady (Regresní přímky)
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
46 / 59
Zjednodušení čitatele koeficientu βb
Čitatele ve výrazu pro βb lze zjednodušit následovně:
!
! n !
n
n
n
n
n
n
X
X
X
X
X
X
1 X
yi =
xi yi −
xyi
xi yi −
xi
yi =
xi y i − x
n i=1
i=1
i=1
i=1
i=1
i=1
i=1
=
n
n
n
n
X
X
X
X
(xi yi − xyi ) =
(xi yi − xyi ) − y · 0 =
(xi yi − xyi ) − y ·
(xi − x)
i=1
=
=
n
X
i=1
n
X
i=1
i=1
i=1
n
n
X
X
(xi yi − xyi ) −
(yxi − y x) =
(xi yi − xyi − yxi + y x)
i=1
i=1
(xi − x)(yi − y).
i=1
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
47 / 59
Zjednodušení koeficientu βb
Použitím předchozího pozorování:
n
X
βb =
i=1
! n !
n
X
1 X
xi
yi
xi y i −
n i=1
i=1
=
!
!2
n
n
X
X
1
x2i −
xi
n i=1
i=1
n
X
(xi − x)(yi − y)
i=1
n
X
i=1
!
x2i
!2
n
1 X
−
xi
n i=1
Použitím výpočtového tvaru s2 (Přednáška 1) lze zjednodušit:
n
X
βb =
(xi − x)(yi − y)
i=1
n
X
(xi − x)2
.
i=1
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
48 / 59
Kovariance a korelační koeficient
Definice (Kovariance, korelační koeficient)
Mějme x1 , . . . , xn a y1 , . . . , yn reprezentující hodnoty nezávislé a vysvětlované
veličiny. Výběrová kovariance (angl.: covariance) je číslo
n
1 X
cxy =
(xi − x)(yi − y) .
n − 1 i=1
Číslo r definované vztahem
r=
cxy
,
sx · sy
kde sx je směrodatná odchylka x1 , . . . , xn a sy je směrodatná odchylka y1 , . . . , yn ,
se nazývá výběrový korelační koeficient (angl.: correlation coefficient).
Terminologie: někdy uveden jako „Pearsonův korelační koeficientÿ.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
49 / 59
Příklady (Regresní přímky a korelační koeficienty)
r = −0.308
r = 0.919
r = 0.689
r = −0.979
r = 0.687
r = 0.913
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
50 / 59
Vlastnosti kovariance a korelačního koeficientu
Věta
b r a yb platí následující:
Pro hodnoty β,
sy
cxy
βb = 2 = r · ,
sx
sx
n 1 X
xi − x y i − y
r=
,
n − 1 i=1
sx
sy
yb = y +
V. Vychodil (KMI/PRAS, Přednáška 2)
cxy
sy
· (x − x) = y + r · · (x − x).
2
sx
sx
Úvod do analýzy závislostí
Pravděpodobnost a statistika
51 / 59
Důkaz.
První rovnost plyne z faktů:
n
X
(xi − x)(yi − y)
cxy
i=1
= 2,
βb =
n
X
sx
(xi − x)2
r · sx · sy = cxy = βb · s2x ,
i=1
cxy r · sx · sy
sy
odtud βb = 2 =
=
r
·
. Druhá rovnost je důsledkem
sx
s2x
sx
n
n cxy
1
1 X
1 X
xi − x y i − y
r=
=
·
(xi − x)(yi − y) =
.
sx · sy sx · sy n − 1 i=1
n − 1 i=1
sx
sy
Třetí rovnost je důsledkem předcházejících.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
52 / 59
Vlastnosti korelačního koeficientu a regresní přímky
Věta
Pro hodnoty r, x a y platí následující:
1
bod [x, y] leží na regresní přímce,
2
P
2
rovnice ni=1 (yi − y) − t(xi − x) = 0 má nejvýš jeden reálný kořen,
3
pro korelační koeficient r máme −1 ≤ r ≤ 1.
Důkaz (začátek).
První tvrzení plyne přímo z toho, že yb = y + βb · (x − x).
2
Druhé tvrzení plyne z toho, že ((yi − y) − t(xi − x) ≥ 0 pro každé reálné číslo t.
2
To jest, suma je nulová, právě když jsou všechny ((yi − y) − t(xi − x) = 0. To
yi − y
nastane, právě když t =
(1 ≤ i ≤ n); to jest, t je jednoznačně dané.
xi − x
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
53 / 59
Důkaz (dokončení).
Rovnici
Xn
2
(yi − y) − t(xi − x) = 0 můžeme zapsat jako at2 + bt + c = 0:
i=1
!
!
!
n
n
n
X
X
X
(3)
(xi − x)2 t2 − 2
(xi − x)(yi − y) t +
(yi − y)2 = 0.
i=1
i=1
i=1
Dle předchozího bodu má (3) nejvýš jeden reálný kořen, to jest pro diskriminant je
!2
! n
!
n
n
X
X
X
(yi − y)2 ≤ 0.
D=4
(xi − x)(yi − y) − 4
(xi − x)2
i=1
i=1
i=1
Odtud dostáváme
!2 ," n
! n
!#
n
X
X
X
(xi − x)(yi − y)
(yi − y)2
(xi − x)2
= r2 ≤ 1.
i=1
V. Vychodil (KMI/PRAS, Přednáška 2)
i=1
Úvod do analýzy závislostí
i=1
Pravděpodobnost a statistika
54 / 59
Poznámky o významu korelačního koeficientu
Ze tvaru regresní přímky yb = y + r ·
sy
· (x − x) lze odvodit následující:
sx
Poznámky: Kladná a záporná asociace hodnot
Korelační koeficient je míra lineární asociace mezi hodnotami.
Pokud r = 1, pak všechny body [xi , yi ] leží na přímce se směrnicí ssxy ;
pokud r = −1, pak všechny body [xi , yi ] leží na přímce se směrnicí − ssxy ;
kladná asociace hodnot: r > 0 (čím bližší 1, tím silnější);
záporná asociace hodnot: r < 0 (čím bližší −1, tím silnější);
slabá asociace hodnot: r = 0.
Korelační koeficient = numerická charakteristika síly asociace.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
55 / 59
Příklady (Regresní přímky a korelační koeficienty)
r = −0.308
r = 0.919
r = 0.689
r = −0.979
r = 0.687
r = 0.913
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
56 / 59
Nelineární regrese
Obecný problém:
místo funkce α + βx vezmeme obecně (nelineární) funkci H(α, β, . . . ),
nalezení analogické lineárnímu případu (technické komplikace).
Příklad (Kvadratická regrese: uvažovaná funkce α + βx + γx2 )
Hledáme bod minimalizující hodnotu H(α, β, γ) =
Xn
i=1
yi − α − βxi − γx2i
2
.
Vede na nalezení řešení soustavy:
Xn
Xn
Xn
αn + β
xi + γ
x2i =
yi ,
Xni=1
Xni=1
Xn
Xni=1
xi yi ,
α
xi + β
x2i + γ
x3i =
i=1
i=1
i=1
Xn
Xn
Xn
Xi=1
n
α
x2i + β
x3i + γ
x4i =
x2i yi .
i=1
V. Vychodil (KMI/PRAS, Přednáška 2)
i=1
i=1
Úvod do analýzy závislostí
i=1
Pravděpodobnost a statistika
57 / 59
Příklad (Příklady lineární a kvadratické regrese)
α + βx + γx2
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
58 / 59
Přednáška 2: Závěr
Pojmy:
uspořádaný výběr, percentil, kvartil, medián, kvantil
číslicový dendrogram, krabicový graf, kk-graf,
nezávislá veličina, vysvětlovaná veličina, regresní přímka
výběrová kovariance, výběrový korelační koeficient
Použité zdroje:
Bílková D., Budínský P., Vohánka V.: Pravděpodobnost a statistika
Vydavatelství a nakl. Aleš Čeněk, s.r.o. 2009, ISBN 978–80–7380–224–0.
Hogg R. V., Tanis E. A.: Probability and Statistical Inference
Prentice Hall; 7. vydání 2005, ISBN 978–0–13–146413–1.
Tukey J. W.: Exploratory Data Analysis
Addison Wesley; 1. vydání 1977, ISBN 978–0–201–07616–5.
V. Vychodil (KMI/PRAS, Přednáška 2)
Úvod do analýzy závislostí
Pravděpodobnost a statistika
59 / 59

Podobné dokumenty

Úvod do analýzy závislostí

Úvod do analýzy závislostí parametrem funkce je vektor reprezentující výběr, nepovinným parametrem scale lze měnit hodnoty (řády hodnot), které patří pod jednotlivé stonky. Vyzkoušejte si následující příklady: x Více

Beldale Ball /USA - Chovsport Zdelov

Beldale Ball /USA - Chovsport Zdelov BELDALE BALL (USA) Hnědák, 7.4.1976 -1999 Chov: Norman E. Casse Míry: 159 - 181 - 20,3

Více

Způsobilost - manuál ve formátu Pdf

Způsobilost - manuál ve formátu Pdf křivka hustoty normálního rozdělení. Odlišuje-li se výrazně tvar těchto dvou křivek může to svědčit o tom, že data nepocházejí z normálního rozdělení. Pro objektivní posouzení je však nutno použít ...

Více

MI 3102 BT EurotestXE

MI 3102 BT EurotestXE Auto IT (U, Zsítě, ISFL, IMD). • Měření výkonu a harmonická analýza. • Funkce HELP umožňuje na displeji zobrazit zapojení pro měření jednotlivých veličin. • Rozsáhlá databáze pojistek umožňuje jedn...

Více

3 - PowerWiki

3 - PowerWiki modelech lidského těla, zda nejsou překročeny max. hodnoty J  ČSN 332040 (1993) - Ochrana před účinky elektromagnetického pole 50 Hz v pásmu vlivu zařízení elektrizační soustavy o pracovníci s ele...

Více

Normální rozdělení a centrální limitní věta

Normální rozdělení a centrální limitní věta Z definice složené funkce pro statistiku ϑ máme ϑ(ω) = g(X(ω)) ∈ R; Pϑ (A) = P ({g(X) ∈ A}) = PX ({g ∈ A}) pro každé A ∈ B. pro konkrétní výběr x1 , . . . , xn je g(x1 , . . . , xn ) konkrétní hodn...

Více