wiki skriptum - wiki skripta fjfi

Transkript

wiki skriptum - wiki skripta fjfi
Pravděpodobnost 1
Wiki Skriptum FJFI
12. října 2016
1
Obsah
1 Motivace
1.1 Relativní četnosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Geometrická definice pravděpodobnosti . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Axiomatická definice pravděpodobnosti
2.1 Jevy a operace s nimi . . . . . . . . . .
2.2 Algebraická struktura jevů . . . . . . . .
2.3 Podmíněná pravděpodobnost . . . . . .
2.4 Náhodné veličiny a úvod do teorie míry
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Diskrétní náhodné veličiny
3
3
6
9
9
10
15
20
34
4 Absolutně spojitá rozdělení
4.1 Příklady SASR rozdělení . . . . . . . . . . . . . .
4.1.1 Gamma rozdělení Gamma(α, β) . . . .
4.1.2 Beta rozdělení Beta(p, q) . . . . . . . .
4.1.3 Rovnoměrné rozdělení U (G) . . . . . .
4.1.4 Exponenciální rozdělení Exp(θ, µ) . . .
4.1.5 Normální (Gaussovo) rozdělení N (µ, σ 2 )
4.1.6 Studentovo rozdělení . . . . . . . . . . . .
4.1.7 Fischerovo rozdělení . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
40
46
46
46
46
47
48
51
52
5 Charakteristiky náhodných veličin
53
5.1 Integrál dle míry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Charakteristická funkce náhodné veličiny . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3 Momentová vytvářející funkce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6 Limitní věty teorie pravděpodobnosti
6.1 Pravděpodobnostní nerovnosti . . . . . . . .
6.2 Konvergence na prostoru náhodných veličin
6.3 Zákony velkých čísel . . . . . . . . . . . . .
6.4 Slabá konvergence, konvergence v distribuci
6.5 Centrální limitní teorém . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Statistika
7.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Statistika - základní pojmy a definice . . . . . . . . . .
7.3 Bodový odhad parametrů . . . . . . . . . . . . . . . .
7.4 Nestranné odhady s minimálním rozptylem - UMVUE
7.5 Metoda momentů . . . . . . . . . . . . . . . . . . . . .
7.6 Metoda maximální věrohodnosti . . . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
64
64
65
68
71
75
.
.
.
.
.
.
85
85
86
87
90
95
96
1
Motivace
1.1
Relativní četnosti
Definice 1.1. Nechť A je pozorovaný jev, opakujme experiment celkem n-krát a počet pokusů ve
kterých nastal jev A označme nA . Potom definujeme
P(A) =
nA
n
(1)
Předchozí definice pravděpodobnosti, kterou zavedl R. von Mises, využívá tzv. relativní četnosti,
což jsou v podstatě poměry. Ve statistice (konkrétně v zákonech o velkých číslech a centrálním
limitním teorému) zjistíme, že tyto relativní četnosti jistým způsobem konvergují ke „skutečné“
pravděpodobnosti. Tuto vlastnost zkoumali i někteří matematici-výzkumníci, kteří zřejmě neměli
co na práci, a tak si 24 000x hodili mincí, aby nakonec zjistili, že líc padne 12 012x (K. Pearson).
Definice 1.2. Nechť je experiment, Ω množina všech elementárních výsledků, přičemž elementární
výsledky jsou neslučitelné a „stejně pravděpodobné“ . Nechť z je počet všech možných výsledků experimentu a zA je počet výsledků experimentu příznivých jevu A. Potom definujeme
P(A) =
zA
z
(2)
Poznámka 1.3 (Kombinatorické vztahy).
• Permutace bez opakování
p(n) = n!
• Permutace s opakováním (j-tý prvek právě kj krát)
p0k1 ,k2 ,...,kp (n) =
• Variace bez opakování (n prvková množina, k-tice)
Vk (n) =
• Variace s opakováním
n!
k1 !k2 !...kp !
n!
(n−k)!
Vk0 (n) = nk
• Kombinace bez opakování
Ck (n) =
n
k
• Kombinace s opakováním
Ck0 (n) =
n+k−1
k
=
n!
k!(n−k)!
Příklad 1.4. Mějme čísla 1, 2, . . . , n a provádějme náhodné permutace. Jaká je pravděpodobnost,
že 1 a 2 budou ve výsledné permutaci vedle sebe v pořadí 1, 2 (jev A)?
Zřejmě je celkem n! možných permutací, což lze zjistit velice jednoduše (čtenář si jistě rád odvodí
sám, stačí uvažovat například tahy n očíslovaných kuliček bez vracení). Kolik je ale permutací
příznivých jevu A? Úvaha může být například následující - nyní již nemáme n prvků, které bychom
mohli permutovat, ale jenom n − 1, protože čísla 1 a 2 se nám „spojí“ do jednoho prvku {1, 2}.
Potom tedy
zA
(n − 1)!
P(A) =
=
z
n!
Příklad 1.5. Mějme čísla 0, 1, 2, . . . , 9 a provádějme náhodný výběr s opakováním. Jaká je pravděpodobnost, že v k pokusech nebude 0 ani 1 (jev A)?
3
Pokus vlastně spočívá v tom, že vytváříme k-tice s opakováním. Libovolných k-tic z 0, . . . , 9 je
K-tic příznivých jevů A je stejnou úvahou 8k (kombinujeme pouze 8 prvků). Potom tedy
10k .
P(A) =
zA
8k
= k
z
10
Příklad 1.6. Mějme čísla 0, 1, 2, . . . , 9 a provádějme náhodný výběr s opakováním, ale narozdíl od
předchozího příkladu uvažujme jako příznivé k-tice, ve kterých bude dvakrát 0 a třikrát 1.
Stejně jako v předchozím příkladě je celkem 10k možných k-tic. Kolik je ale k-tic vyhovujících
daným podmínkám? Nejdříve umístíme 0. Na k-místech můžeme vytvořit celkem k2 takových
umístění (z k pozic v k-tici vybíráme právě 2 pozice). Nyní umístíme 1 - to můžeme provést k−2
3
způsoby (nyní máme k dispozici již jen k − 2 pozic a vybíráme 3 pozice). Na zbývajících k − 5 míst
můžeme libovolně umístit zbývajících 8 číslic, máme tedy 8k−5 možností. Příznivých kombinací tedy
je
k
k − 2 k−5
zA =
8
2
3
Potom tedy
k k−2 k−5
zA
3 8
2
P(A) =
=
z
10k
Příklad 1.7. Mějme krabici se 100 páry bot, ze kterých je 90 párů světlých a 10 párů tmavých.
Vybereme 9 párů a zajímá nás jaká je pravděpodobnost, že právě 6 z nich je světlých.
Počet možných 9-tic ze 100 párů známe, konkrétně 100
9 . Hledejme tedy počet 9-tic, ve kterých
jsou 3 páry tmavé a 6 párů světlých. Dle úvahy obdobné té z předchozího příkladu platí
10 90
zA =
3
6
a tedy
10 90
3
6
100
9
P(A) =
Příklad 1.8. Dvě slečny L a J (Ing. Kůs zásadně volí iniciály slečen přítomných na přednášce, čili
v tomto může zadání doznat změn) mají schůzku ve frontě na síťovku (tj. síťovou jízdenku, nikoliv
síťovou kartu). Náhodně se vytvoří fronta n lidí. Jaká je pravděpodobnost, že mezi L a J bude právě
r lidí?
Máme n různých možných pozic ve frontě. Nejdříve umístíme dívku, která bude ve frontě stát
první, například L. To můžeme udělat n − r − 1 způsoby, protože za ni fronty chceme umístit r lidí a
ještě slečnu J. Ostatní lidi ve frontě můžeme libovolně permutovat, což znamená (n − 2)! možností.
Nyní tedy máme (n − r − 1)(n − 2)!, ale zatím jsme neuvažovali situaci, kdy přijde první slečna
J. Tato situace je však ekvivalentní (prostá substituce slečen), takže stačí násobit dvěma. Celkový
počet možností, kterých může fronta n lidí nabýt, je n!, a výsledkem tedy je
zA = 2(n − r − 1)(n − 2)!
a tedy
P(A) =
2(n − r − 1)(n − 2)!
n!
4
Příklad 1.9. V kapse máme volně n klíčů, je tma a vracíme se domů z tahu. Taháme bez opakování.
Jaká je pravděpodobnost, že správný klíč vytáhneme právě při k-tém pokusu?
Správný klíč umístíme na k-tou pozici, takže nám zbývá n−1 klíčů. Máme tedy (n−1)! kombinací
kdy je na k-tém místě správný klíč. Celkem je kombinací n!, a tedy
P(A) =
1
(n − 1)!
=
n!
n
Příklad 1.10. Jdeme na zkoušku, na kterou jsme se měli naučit celkem N otázek, ale m jich
neumíme. Jaká je pravděpodobnost, že si jednu ze špatných otázek vytáhneme poprvé až při k-tém
pokusu? Uvažujeme náhodné tahy bez opakování.
V podstatě hledáme takové m-tice (pozice špatných otázek) z N , kde
jsou všechny otázky za kN
tou pozicí a první je právě na k-té pozici. Celkem je m-tic z N právě m . Počet příznivých zjistíme
vlastně jako počet m − 1-tic z N − k prvků (na k-tou pozici pevně poutáme jednu ze špatných
otázek). Potom tedy
P(A) =
N −k
m−1
N
m
Příklad 1.11 (Maxwell-Boltzmannova statistika). V M-B statistice se uvažuje N přihrádek a n
částic a zajímá nás, kolik je možností umístit těchto n částí do N přihrádek. Předpokládáme, že
jsme v libovolném okamžiku schopni rozlišit částice, takže
zv = N n
a pravděpodobnost jednoho konkrétního stavu je tedy
P(A) =
1
Nn
Jaká je tedy pravděpodobnost, že je v dané přihrádce právě k částic (jev A)?
Nejdříve musíme zjistit, kolika způsoby vůbec můžeme do danépřihrádky nakombinovat částice,
tj. kolik k-tic můžeme z daých n částic vytvořit. Tento počet je nk . Zbytek částic, kterých je n − k,
můžeme libovolně rozdělit do zbývajících N − 1 přihrádek. Potom tedy
n
zA =
(N − 1)n−k
k
n
(N − 1)n−k
P(A) = k
Nn
Příklad 1.12 (Bose-Einsteinova statistika). B-E statistika se od M-B statistiky liší v tom, že neuvažuje rozlišitelnost částic. I zde je hlavní myšlenkou dělení n částic do N přihrádek. Tato situace je
ekvivalentní situaci, kdy si k n částicím přidáme ještě N − 1 přepážek, a těchto n + N − 1 prvků permutujeme. V permutaci však obecně na pořadí prvků záleží (a to by znamenalo rozlišitelnost částic,
což nechceme), takže musíme dělit počtem permutací přepážek i částic. Celkem tedy
n+N −1
(n + N − 1)!
=
zv =
(N − 1)!n!
n
5
což jsou vlastně permutace s opakováním z N prvků. Pravděpodobnost jednoho stavu je tedy
1
P(A) =
n+N −1
n
Jaká je pravděpodobnost, že v dané přihrádce bude právě k částic?
Vložme do dané přihrádky k částic. Tím nám zbývá n − k částic do N − 1 přihrádek. Stejnou
úvahou jako pro n částic a N přihrádek dojdeme ke vztahu
(n − k + N − 2)!
n+N −k−2
zA =
=
(N − 2)!(n − k)!
n−k
Příklad 1.13 (Fermi-Diracova statistika). Jedná se vlastně o B-E statistiku obohacenou o Pauliho
vylučovací princip (v daném stavu ∼ přihrádce může vždy být pouze jedna částice). Díky tomu tedy
pro n částic a N přihrádek vybíráme n-tice z N možností, které nám určují pozici (stav) každé
částice. Těchto n-tic je celkem
N
zv =
n
P(A) =
1
N
n
Jaká je pravděpodobnost, že v dané buňce je částice (může tam být nejvýše jedna)?
Jedná se vlastně o specielní případ B-E statistiky. Do dané buňky umístíme částici, takže nám
zbývá n − 1 částic a N − 1 přihrádek. Těchto n − 1 částic můžeme do N − 1 přihrádek rozmístit
N −1
n−1 způsoby. Potom tedy
N −1
zA =
n−1
N −1
P(A) =
n−1
N
n
Připomeňme ještě, že M-B statistika je vhodná pro plyny, ale nikoliv pro elementární částice.
B-E statistika sice dobře funguje pro elementární částice, které se vzájemně neovlivňují, ale pro
protony, elektrony, atd. nedává dobré předpovědi.
1.2
Geometrická definice pravděpodobnosti
Buď Ω libovolná nespočetná množina výsledků experimentu. Nechť A ⊂ Ω je jev, µ(A) < ∞,
µ(Ω) < ∞. Potom
µ(A)
P(A) =
(3)
µ(Ω)
přičemž množiny A a Ω musí být měřitelné. Celý problém můžeme také převést do fázového prostoru
Ω → Rn .
Příklad 1.14. Schůzka dvou dívek je smluvena na dobu mezi 20 a 21 hodinou, přičemž obě dívky
se smluvily, že na sebe budou čekat nejvýše 20 minut. Jev A nechť značí úspěšnou schůzku (setkají
se). Jaká je pravděpodobnost jevu A?
6
Obrázek 1: grafické znázornění problému
Celý problém můžeme znázornit například způsobem jako na obrázku 1. Fázový prostor v tomto
případě tvoří čtverec o straně 1 (hodina), přičemž osa x má význam času příchodu první slečny,
osa y má význam času příchodu slečny druhé. Tato uspořádaná dvojice musí ležet ve vyšrafované
oblasti, jinak se slečny nesetkají. Potom tedy dle předchozích úvah
1−
P(A) =
1
4
9
=
5
9
Pravděpodobnost, že se dívky setkají je tedy 5/9. Bude-li čas čekání 0 min, pak P (A) = 0 (úsečka
µ = 0).
Příklad 1.15 (Úloha na neděli). Uvažujme úsečku (0, 1), kterou dvěma náhodnými body rozdělíme
na 3 díly. Jaká je pravděpodobnost, že z takto vzniklých úseček lze sestrojit trojúhelník?
Příklad 1.16 (Buffonův problém házení jehlou). Máme nekonečně veliký papír, na kterém jsou
nekonečné přímky ve vzájemné vzdálenosti d. Na tento papír házíme jehlu délky l < d a chceme znát
pravděpodobnost, zda jehla protne některou z přímek. Polohu jehly můžeme charakterizovat například
vzdáleností středu jehly S od pravé rovnoběžky x a úhlem φ, který jehla svírá s přímkami
Obrázek 2: Buffonovo házení jehlou
7
Uvažujeme pouze 0 ≤ x < d a a 0 ≤ φ ≤ π. Celý problém tedy můžeme redukovat do fázového
prostoru (0, d) × (0, π), znázorněného na obrázku 2 b). Z obrázku je patrné, že
P(A) =
2l
πd
Příklad 1.17 (Bertrandův paradox). Uvažujme kružnici s poloměrem r. Volme náhodně její tětivu
a hledejme pravděpodobnost, že délka tětivy bude větší než strana vepsaného rovnostranného trojúhelníka. Bertrandův paradox spočívá v tom, že když budeme tětivu specifikovat různými způsoby,
budou vycházet různé pravděpodobnosti.
Naše úvaha by mohla například následující: pokud bude střed tětivy ležet v kružnice vepsané do
rovnostranného trojúhelníka, potom bude tětiva nutně delší než strana rovnostranného trojúhelníka
vepsaného do původní kružnice (viz obrázek 3a). V tom případě by výsledek byl
2
π 2r
µ(A)
1
P(A) =
=
=
2
µ(Ω)
πr
4
Pokud však budeme uvažovat pouze vzdálenost od středu a nikoliv polohu (viz. 3 b)), potom
1
µA
1
2
P(A) =
=
=
µΩ
1
2
Obrázek 3: Bertrandův paradox
Co je však příčinou Bertrandova paradoxu? Při prvním způsobu specifikace tětivy je porušena
důležitá podmínka - stejně "velkým"množinám přísluší různá pravděpodobnost. Tj. µA = µB, ale
přitom A 6= B.
8
2
Axiomatická definice pravděpodobnosti
2.1
Jevy a operace s nimi
Jedním ze základních pojmů teorie pravděpodobnosti jsou jevy a operace s nimi pojaté jako operace
s množinami. Uvažujme pokus, a označme
Ω Množinu všech možných výsledků pokusu, tzv. elementárních jevů. Tuto množinu nazýváme
prostor elementárních jevů, základní pravděpodobnostní prostor, výběrový prostor, apod.
ω ∈ Ω Prvky prostoru elementárních jevů nazýváme elementárními jevy.
A ⊂ Ω Libovolnou podmnožinu nazýváme jev.
Říkáme že jev A ⊂ Ω nastal, pokud nastal elementární jev ω ∈ A. Jev Ω nazýváme jevem jistým
a ∅ nazýváme jevem nemožným.
Definice 2.1. Buď Ω prostor elementárních jevů a A, B ⊂ Ω jevy. Potom definujeme:
1. AC - jev opačný, který nastává právě tehdy když nenastává A, tj.
ω ∈ AC ⇔ ω 6∈ A
2. A ∪ B - sjednocení jevů, nastává právě když nastává alespoň jeden z jevů A, B.
3. A ∩ B - průnik jevů, nastává právě když nastávají oba jevy A, B současně.
4. Říkáme že jevy A, B jsou neslučitelné, pokud A ∩ B = ∅. Potom také píšeme A ∪ B = A + B.
5. A ⊂ B - jev A je podjevem jevu B, právě když
ω∈A⇒ω∈B
6. A = B - jevy jsou ekvivalentní, pokud A ⊂ B ∧ B ⊂ A
7. A − B - nastává jev A, ale nenastává jev B. Platí A − B = A ∩ B C .
8. A∆B = (A − B) ∪ (B − A) - symetrická diference
Věta 2.2. Nechť A, B, C ⊂ Ω jsou jevy. Potom platí:
1. A ⊂ A
Dk: ω ∈ A ⇒ ω ∈ A
2. (A ⊂ B) ∧ (B ⊂ C) ⇒ (A ⊂ C)
3. A ∪ A = A, A ∩ A = A
Dk: ω ∈ A ⇒ ω ∈ B ⇒ ω ∈ C
Dk: ω ∈ A ⇒ ω ∈ A, ω ∈ A ∨ ω ∈ A ⇒ ω ∈ A
4. A ∪ B = B ∪ A, A ∩ B = B ∩ A (komutativita)
5. A ∪ (B ∪ C) = (A ∪ B) ∪ C, A ∩ (B ∩ C) = (A ∩ B) ∩ C (asociativita)
6. ∅ ⊂ A ⊂ Ω
7. (A ∩ B) ⊂ A ⊂ (A ∪ B)
9
8. ∅ ∪ A = A, ∅ ∩ A = ∅
9. A ∪ Ω = Ω, A ∩ Ω = A
C
10. AC = A
11. (A ∪ B)C = AC ∩ B C , (A ∩ B)C = AC ∪ B C (de Morganovy zákony)
12. (A ∪ B) = A + B ∩ AC
13. B = (A ∩ B) + (AC ∩ B)
14. A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C), A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (distributivita)
15. A ∪ AC = Ω
16. A ∩ AC = ∅ (zákon vyloučeného středu)
17. A ∩ (B + C) = (A ∩ B) + (A ∩ C)
N,+∞
Věta 2.3. Buďte {Ak }k=1
jevy. Potom platí:
S
PN,+∞ C C
C
1. N,+∞
n=1 Ak = A1 +
k=2 A1 A2 . . . Ak−1 Ak
2.
2.2
(AB = A ∩ B)
TN,+∞ C TN,+∞ C SN,+∞ C
= k=1 Ak (de Morganovy zákony pro nejvýše
Ak ,
= k=1
n=1 Ak
spočetný systém jevů)
S
N,+∞
n=1 Ak
C
Algebraická struktura jevů
Jevy a operace s nimi, tak jak byly definovány v předchozím oddíle, je možno uspořádat do tzv.
Booleovy algebry, definované dále.
Definice 2.4 (Booleova algebra). Booleovou algebrou nazýváme strukturu (A, +, ·, C), kde A je
množina jevů, + a · jsou binární operace, C je operace unární a ve které platí následující axiomy.
Nechť A, B, C ∈ A a nechť platí
1. A + A = A
2. A + B = B + A, A · B = B · A
3. A + (B + C) = (A + B) + C, A · (B · C) = (A · B) · C
4. A · (B + C) = (A · B) + (A · C), A + (B · C) = (A + B) · (A + C)
5. A + CA = 1, A · CA = 0
6. A + 0 = A, A · 0 = 0
7. A + 1 = 1, A · 1 = A
10
S Booleovými algebrami (a algebrami obecně) se blíže seznámíte v přednášce "Algebra", zatím
nám bude stačit, že se jedná o množinu, ke které jsou přiřazeny algebraické operace a množina je
vůči nim uzavřená. Pokud budeme uvažovat množinu všech elementárních jevů Ω, ke které přiřadíme
operace ∪, ∩, C, tj. sjednocení, průnik a doplněk, potom jsou zřejmě všechny předpoklady definice
splněny a (Ω, ∪, ∩, C) je booleovská algebra. V souladu s touto skutečností budeme někdy průnik
značit ·, případně ho budeme zapisovat A ∩ B = AB. Nahrazení znaku sjednocení součtem si však
dovolit nemůžeme, protože operaci + jsme si již vyhradili pro sjednocení neslučitelných jevů.
Vyvstává však otázka, zda není možné zvolit nějaký systém podmnožin Ω a úvahy provádět na
něm. Odpověď zní ano, takový systém je možno volit a tento systém nazýváme σ-algebrou.
Definice 2.5 (množinová algebra). Buď Ω libovolná neprázdná množina a buď A ⊂ 2Ω . Potom
říkáme, že A je množinová algebra, pokud
1. ∅ ∈ A
2. A ∈ A ⇒ AC ∈ A
3. A, B ∈ A ⇒ A ∪ B ∈ A
Definice 2.6 (σ-algebra). Buď Ω libovolná neprázdná množina a buď A ⊂ Ω systém podmnožin
(A ⊂ 2Ω ). Potom říkáme, že A je σ-algebra, pokud
1. ∅ ∈ A
2. (A ∈ A) ⇒ (AC ∈ A)
S∞
3. ((Ak )∞
k=1 ∈ A) ⇒ ( k=1 Ak ∈ A)
Každá σ-algebra je tedy uzavřená vůči doplňkům a spočetným sjednocením a obsahuje prázdnou
množinu. Přímo z definice vyplývají následující vlastnosti:
Věta 2.7. Buď A σ-algebra jevů. Potom platí:
1. Ω ∈ A
S
2. (A1 , . . . , An ∈ A) ⇒ ( nk=1 Ak ∈ A)
T∞
3. ((Ak )∞
k=1 ∈ A) ⇒ ( k=1 Ak ∈ A)
T
4. (A1 , . . . , An ∈ A) ⇒ ( nk=1 Ak ∈ A)
Důkaz.
1. (∅ ∈ A) ⇒ (∅C = Ω ∈ A)
2. Buďte A1 , . . . , An ∈ A, dodefinujme An+1 , An+2 , . . . = ∅. Potom ale platí (Ak )∞
k=1 ∈ A, a
můžeme tedy použít uzavřenost σ-algebry A vůči nekonečnému sjednocení. Potom tedy
∞
[
Ak =
k=1
n
[
k=1
11
Ak ∈ A
3. Buď (Ak )∞
k=1 ∈ A. Podle de Morganových zákonů pro spočetný systém množin platí
∞
\
Ak =
k=1
!C
∞
[
AC
k
k=1
a potom
∞
[
(Ak ∈ A) ⇒ AC
k ∈A ⇒

!
AC
k ∈A
⇒
k=1
∞
[
!C
AC
k

∈ A
k=1
a dle de Morganova zákona tedy
∞
\
!
Ak
=
k=1
∞
[
!C
AC
k
∈A
k=1
4. Tento bod dokážeme stejně jako bod 2, stačí pouze místo prázdné množiny uvažovat Ω, o které
víme, že je stejně jako prázdná množina prvkem A. Postup je zcela totožný.
Definice 2.8 (Pravděpodobnost). Buď Ω neprázdná množina a A ⊂ Ω nechť je σ-algebra. Potom
pravděpodobnost P je libovolná funkce P : A → R, která splňuje následující podmínky:
1. (∀A ∈ A) (P(A) ≥ 0)
2. P(Ω) = 1
(nezápornost)
(normovanost)
3. Buď (Ak )∞
k=1 ∈ A systém navzájem neslučitelných jevů, potom nechť
!
∞
∞
X
X
P(Ak ) (tzv. σ-aditivita)
P
Ak =
k=1
k=1
(Ω, A, P) je pravděpodobnostní prostor.
Poznámka 2.9. Po definici σ-algebry se mohlo zdát, že nejlepší bude prostě vzít A = 2Ω , tj.
potenční množinu. To vskutku jde, pokud je Ω spočetná. Pokud je však množina Ω nespočetná, je
sice 2Ω σ-algebra, nicméně neumíme definovat funkci P tak, aby vyhovovala axiomům. Jak je potom
A volena, je blíže rozebíráno v kapitole 2.4.
Věta 2.10. Buď A σ-algebra, A, B, C ∈ A, potom platí:
1. P(∅) = 0
P
P
2. P ( nk=1 Ak ) = nk=1 P(Ak )
(A1 , . . . , An disjunktní jevy)
3. P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
4. P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C)
S
P
N,∞
5. P
A
≤ N,∞
k
k=1
k=1 P(Ak ) (Booleova nerovnost)
12
6. (A ⊂ B) ⇒ (P(A) ≤ P(B)) (monotonie pravděpodobnosti)
7. (∀A ∈ A)(P(A) ≤ 1)
8. (∀A ∈ A) P(A) = 1 − P(AC )
Důkaz.
1. Buď (∀k ∈ N)(Ak = ∅). Potom
!
∞
∞
X
X
P
Ak = P (∅) =
P (∅) ⇒ P(∅) = 0
k=1
k=1
2. Nechť An+1 = An+2 = . . . = ∅. Využijeme aditivity P:
∞
X
Ak =
k=1
P
∞
X
=P
k=1
P
∞
X
n
X
∞
X
=
k=1
∞
X
Ak
k=1
∞
X
+P
!
Ak
n
X
P(Ak ) +
P(Ak ) =
n+1
k=1
n
X
=P
n
X
P(Ak ) = P
n
X
k=1
!
Ak
k=1
∞
X
n
X
P(Ak )
k=1
{z
|
čili
Ak
n+1
P(Ak ) =
k=1
n
X
Ak =
n+1
!
k=1
!
Ak
Ak +
k=1
!
Ak
n
X
}
0
!
Ak
k=1
3. Využijeme vztahů A ∪ B = A + B ∩ AC , B = (B ∩ A) + (B ∩ AC ):
P(A ∪ B) = P(A) + P(AC ∩ B)
P(B) = P(B ∩ A) + P(AC ∩ B) ⇒ P(B) − P(B ∩ A) = P(AC ∩ B)
a tedy
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
4. Stačí dvakrát aplikovat předchozí postup. Detailní provedení necháváme na čtenáři...
5. Důkaz provedeme matematickou indukcí:
n=2
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ≤ P(A) + P(B)
n→n+1
P
n+1
[
k=1
!
Ak
=P
n
[
!
Ak ∪ An+1
=P
k=1
n
[
!
Ak
+ P (An+1 ) − P
k=1
ind
≤
n
X
P(Ak ) + P(An+1 ) =
k=1
k=1
n+1
X
k=1
13
n
[
P(Ak )
!
Ak ∩ An+1
≤
6. Nechť A ⊂ B. Potom
B = (A ∩ B) + (AC ∩ B) přechází v B = A + (AC ∩ B)
čili
P(B) = P(A) + P(B ∩ AC )
| {z }
≥0
a tedy P(A) ≤ P(B)
7. Vyplývá primitivně z monotonie pravděpodobnosti. Nechť existuje A ⊂ Ω taková, že P(A) > 1.
Potom ale dle předchozího tvrzení A ⊂ Ω ⇒ P(A) ≤ P(Ω) = 1, což je spor.
8. Tvrzení vyplývá z rovnosti A + AC = Ω. Potom totiž
P(Ω) = 1 = P(A) + P(AC ) ⇒ 1 − P(AC ) = P(A)
Věta 2.11 (Věta o spojitosti pravděpodobnosti). Buď (Ak )∞
k=1 ∈ A systém podmnožin σ-algebry A
a nechť platí alespoň jedna z následujících podmínek:
1. Ak % A, tj. systém roste ve smyslu inkluze (Ak ⊂ Ak+1 , ∪∞
k=1 Ak = A).
2. Ak & A, tj. systém klesá ve smyslu inkluze (Ak+1 ⊂ Ak , ∩∞
k=1 Ak = A).
Potom platí
P(Ak ) → P(A)
Důkaz.
1. (a) Nechť nejdříve Ak & A = ∅. Definujme systém Bk takto:
Bk = Ak − Ak+1
Potom Bk jsou disjunktní (neslučitelné jevy), a můžeme tedy psát
[
X
An =
Bk =
Bk
k≥n
∞
X
P(Bk ) = P
k=1
∞
X
k≥n
!
Bk
= P(A1 ) ∈ [0, 1]
k=1
(konverguje ⇒ řada zbytků jde k 0)
P(An ) =
X
k≥n
14
n→∞
P(Bk ) −→ 0 = P(∅)
(b) Nechť nyní Ak & A 6= ∅. Tento případ převedeme na předchozí, protože platí:
An = (An − A) + A ⇒ P(An ) = P(An − A) + P(A)
Systém An − A klesá ve smyslu inkluze, a přitom An − A → ∅, čímž jsme převod na
předchozí případ dokončili, a platí tedy
n→∞
n→∞
P(An − A) −→ 0 ⇒ P(An ) −→ P(A)
2. Případy Ak % A lze převést na předchozí případy. Použijeme posloupnost AC
k . Pomocí de
C
Morganových pravidel lze ukázat, že klesá k A . Tím jsou splněny předpoklady předešlého
k→∞
C
případu a tedy P(AC
k ) −→ P(A ). Celkem
k→∞
C
P(Ak ) = 1 − P(AC
k ) −→ 1 − P(A ) = P(A)
2.3
Podmíněná pravděpodobnost
Definice 2.12 (Podmíněná pravděpodobnost). Buďte A, B jevy a nechť P(B) > 0. Potom podmíněnou pravděpodobnost jevu A za předpokladu (jevu) B (tzv. apriorní informace) definujeme jako
P(A|B) =
P(A ∩ B)
P(B)
(4)
Věta 2.13. P(·|B) je pravděpodobnost ve smyslu definice 2.8.
Důkaz.
1.
P(A|B) =
2.
P(Ω|B) =
3.
P(A ∩ B)
≥0
P(B)
P(B)
P(Ω ∩ B)
=
=1
P(B)
P(B)
P
P

∞
∞
P
A
∩
B
P
(A
∩
B)
j
j
j=1
j=1
Aj B  =
P
=
=
P(B)
P(B)
j=1
P∞
∞
X
P(Aj ∩ B)
j=1 P(Aj ∩ B)
=
=
P(B)
P(B)

∞
X
j=1
Věta 2.14 (Součinové pravidlo). Buďte A0 , A1 , . . . , An ∈ A jevy takové, že P(A0 . . . An−1 ) > 0.
Potom
P(A0 A1 A2 . . . An ) = P(A0 ) · P(A1 |A0 ) · P(A2 |A0 A1 ) · · · P(An |A0 · · · An−1 )
(5)
15
Důkaz. Nejdříve musíme ověřit, zda jsou jednotlivé činitele v součinu vůbec definovány, tj. jestli
náhodou někde nedělíme nulou. To ale díky předpokladu P(A0 A1 . . . An ) > 0 a díky monotonii
pravděpodobnosti nastat nemůže. Nyní tedy stačí dokázat rovnost, což provedeme indukcí:
n=1
P(A0 A1 ) = P(A0 ) · P(A1 |A0 )
n→n+1
P(A0 · · · An+1 ) = P(A0 · · · An ) · P(An+1 |A0 · · · An )
přičemž dle předpokladu
P(A0 A1 A2 . . . An ) = P(A0 ) · P(A1 |A0 ) · P(A2 |A0 A1 ) · · · P(An |A0 · · · An−1 )
a celé tvrzení tedy platí.
Definice 2.15 (Úplný rozklad jevu). Systém (Hn )N,∞
n=1 nazýváme úplným rozkladem jistého jevu Ω,
pokud
1. Hk jsou disjunktní (neslučitelné jevy)
PN,∞
2.
k=1 P(Hk ) = 1
3. (∀k)(P(Hk ) > 0)
Poznámka 2.16. Nemusí nutně být Ω =
nost je nulová.
P
k
Hk . Můžeme vynechat množiny, jejichž pravděpodob-
Věta 2.17 (O úplnosti). Buď (Hn )N,∞
n=1 úplným rozkladem jevu Ω, A ∈ A. Potom platí
X
P(A) =
P(A|Hn ) · P(Hn )
n
Důkaz.
P(A) = P A ∩
N,∞
X

!
Hk
N,∞
X
+ P A ∩
k=1
!C 
Hk

k=1
Přitom ale platí

P A ∩
N,∞
X
!C 
Hk

 ≤ P
k=1
takže
P(A) = P A ∩
N,∞
X
k=1
=
N,∞
X
k=1
Hk
=0
k=1
!
Hk
!C 
N,∞
X
=P
N,∞
X
!
(Hk ∩ A)
k=1
P(Hk ∩ A)
P(Hk ) =
P(Hk )
16
=
N,∞
X
P(Hk ∩ A) =
k=1
N,∞
X
k=1
P(A|Hk ) · P(Hk )
(6)
Věta 2.18 (Věta Bayesova). Buď (Hn )∞
n=1 úplným rozkladem jevu Ω, A ∈ A tak, že P(A) > 0.
Potom platí:
P(A|Hj ) · P(Hj )
P(Hj |A) = PN,∞
(7)
P(A|H
)
·
P(H
)
k
k
k=1
Důkaz.
P(Hj |A) =
P(A|Hj ) · P(Hj )
P(Hj ∩ A)
= PN,∞
P(A)
k=1 P(A|Hk ) · P(Hk )
Příklad 2.19 (Polyaův zásobníkový model). Uvažujme zásobník, ve kterém máme r červených a
s bílých kuliček. Provedeme náhodný tah, kuličku do zásobníku vrátíme a přidáme c kuliček stejné
barvy. Určete pravděpodobnost jevu A, že v prvních třech tazích vytáhneme červené kuličky.
Definujme jevy A1 , A2 , A3 tak, že jev Ai znamená tah červené kuličky v i-tém tahu. Hledáme
tedy pravděpodobnost jevu A = A1 · A2 · A3 . Podle součinového pravidla tedy platí
P(A) = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 · A2 )
Přitom triviálně platí
r
r+s
r+c
P(A2 |A1 ) =
r+s+c
r + 2c
P(A3 |A1 · A2 ) =
r + s + 2c
P(A1 ) =
a celkem tedy
P(A1 · A2 · A3 ) =
r(r + c)(r + 2c)
(r + s)(r + s + c)(r + s + 2c)
Příklad 2.20. Nechť je vypsáno n zkouškových termínů, na které jsou dva zkoušející X a Y . Je
známo že n1 termínů zkouší X a n − n1 = n2 zkouší Y . Je také známo, že X má r1 dobrých a
s1 špatných otázek, zatímco Y má dobrých r2 a s2 špatných. Losujeme termíny (tj. zkoušející) a
následně i otázky. Jaká je pravděpodobnost, že dostaneme dobrou otázku?
Jako jev A označme vytažení dobré otázky. Využijeme větu o úplnosti, přičemž za úplný rozklad
jevu A zvolíme systém {H1 , H2 }, kde H1 značí jev vytažení zkoušejícího X a H2 značí vytažení
zkoušejícího Y . Potom ale triviálně
ri
P(A|Hi ) =
ri + si
ni
P(Hi ) =
n
a dle věty o úplnosti tedy
P(A) =
2
X
P(A|Hi ) · P(Hi ) =
i=1
17
r1 n1
r2 n2
+
(r1 + s1 )n (r2 + s2 )n
Příklad 2.21 (Politická úloha). Máme tři politické strany - ODS, ČSSD a JM (Jihočeské Matky),
přičemž tyto tři strany si místa na úřadě rozdělily tak, že ODS má n1 zástupců, ČSSD má n2
zástupců a JM mají n3 zástupkyň. Přitom víme, že v ODS je r1 dobrých a b1 špatných politiků,
v ČSSD je dobrých politiků r2 a špatných b2 a v JM je dobrých političek r3 a špatných b3 . Jaká
je pravděpodobnost, že pokud zvolíme dobrého politika/političku, bude z ČSSD/ODS/JM? (Odpověď
"malá"není dostačující.)
Uvažujme úplný rozklad jistého jevu takto: H1 byl zvolen z ODS, H2 byl zvolen z ČSSD, H3
byla zvolena z JM. Jev A ∈ A je volba dobrého politika. Hledáme tedy P(H2 |A), přičemž všechny
podmíněné pravděpodobnosti P(A|Hi ) známe. Využijeme tedy větu Bayesovu a vyjde nám
P(A|H2 ) · P(H2 )
=
P(H2 , A) = P3
k=1 P(A|Hk ) · P(Hk )
r2
r2 +b2
r1
r1 +b1
·
n1
n
+
n2
n1 +n2 +n3
n2
r2
r3
r2 +b2 · n + r3 +b3
·
·
n3
n
Definice 2.22 (Nezávislost jevů). Buď C libovolný systém jevů z A. Potom říkáme že systém jevů
C je stochasticky nezávislý (jevy v C jsou nezávislé), pokud pro pro každé n ∈ N a pro každou n-tici
jevů z C platí
n
Y
P(A1 · A2 · · · An ) =
P(Ak )
(8)
k=1
Věta 2.23. Buďte A, B ∈ A jevy, potom platí:
1. Pokud jsou jevy A, B nezávislé, potom jsou nezávislé i jevy A, B C .
2. Buďte A, B takové, že P(B) = 0. Potom jsou jevy A, B nezávislé.
3. Buďte A, B takové, že P(B) = 1. Potom jsou jevy A, B nezávislé.
4. Buďte A, B neslučitelné. Potom jsou nezávislé právě když P(A) · P(B) = 0.
5. Buď P(B) > 0. Potom jsou A, B nezávislé právě když P(A|B) = P(A).
6. Buďte A, B nezávislé, a nechť 1 > P(B) > 0. Potom P(A|B) = P(A|B C ).
Důkaz.
1. P(A · B C ) = P(A) − P(A · B) = P(A)(1 − P(B)) = P(A) · P(B C ) kde jsme využili vztahů
A = AB + AB C ⇒ P(A) − P(AB) = P(AB C )
P(A · B) = P(A) · P(B)
2. Zřejmé, protože
P(AB) ≤ P(B) = 0 ⇒ P(AB) = 0
3. Zřejmé, protože můžeme použít (1) a (2) na jevy A, B C .
4. ⇒ Buďte A, B neslučitelné a nezávislé, tj. P(AB) = P(A) · P(B) a P(A · B) = 0. Potom ale
zřejmě P(A) · P(B) = 0.
⇐ Nechť jsou A, B neslučitelné a nechť P(A)·P(B) = 0. Přitom ale P(AB) = 0, takže rovnost
platí.
18
5. ⇒
P(A|B) =
P(A · B)
P(A) · P(B)
=
= P(A)
P(B)
P(B)
⇐
P(A · B) = P(A|B) · P(B) = P(A) · P(B)
6. Stačí využít bodů (1) a (5) z této věty.
Poznámka 2.24.
1. Vlastnosti neslučitelnost a nezávislost nejsou totožné. Zároveň ani jedna vlastnost neimplikuje
druhou.
2. Nezávislost nestačí definovat „po dvou,“ podmínka „pro všechny n-tice“ v definici je velice
důležitá. Tato vlastnost je demonstrována v následujícím příkladě.
Definice 2.25 (Po dvou nezávislé jevy). Systém jevů C je po dvou nezávislý systém jevů, pokud
∀A, B ∈ C platí P(A ∩ B) = P(A)P(B).
Poznámka 2.26. Předchozí definice není ekvivalentní s definicí stochastické nezávislosti.
Příklad 2.27. Mějme prostor elementárních jevů o čtyřech (stejně pravděpodobných) prvcích, tj.
Ω = {ω1 , ω2 , ω3 , ω4 }, a tři jevy A1 = {ω1 , ω2 }, A2 = {ω1 , ω3 }, A3 = {ω1 , ω4 }. Tyto jevy jsou po dvou
nezávislé, ale definici stochastické nezávislosti nevyhovují. Platí sice
P(A1 A2 ) = P(A1 A3 ) = P(A2 A3 ) =
1
4
P(A1 )P(A2 ) = P(A1 )P(A3 ) = P(A2 )P(A3 ) =
Ale
P(A1 A2 A3 ) =
1
4
1
4
1
8
Příklad 2.28 (Pro karbaníky). Uvažujme balíček 52 karet (čtyři barvy po třinácti kartách). Označme
jako jev A vytažení srdcové karty a jako jev B označme vytažení dámy. Potom
P(A1 )P(A2 )P(A3 ) =
13
4
13 4
1
, P(B) =
⇒ P(A) · P(B) =
·
=
52
52
52 52
52
Pravděpodobnost tažení srdcové dámy je
P(A) =
1
52
To znamená, že jevy A a B jsou nezávislé. Přidejme do karet jednoho žolíka. Potom ale
P(A · B) =
1
53
13 4
1
P(A) · P(B) =
·
6=
53 53
53
Poučení z tohoto příkladu tedy zní - nepůjčujte balíček blbečkovi, který vám tam nastrká další karty.
P(A · B) =
19
2.4
Náhodné veličiny a úvod do teorie míry
V následujícím textu nechť Ω 6= ∅ označuje libovolnou množinu. Následující úvahy nejsou čistě
„pravděpodobnostní“ , ale zasahují do mnoha oblastí matematiky.
Definice 2.29 (Minimální σ-algebra). Buď Z ⊂ 2Ω libovolný systém podmnožin množiny Ω. Buďte
Sα libovolné σ-algebry takové, že Z ⊂ Sα . Minimální σ-algebru nad systémem Z definujeme takto
\
σ(Z) =
Sα
α
Definice 2.30 (Borelovská σ-algebra). Buď Ω = Rn a systém Zn volme jako otevřené intervaly,
tj. Zn = {×nk=1 (ak , bk ) | ak , bk ∈ R, ak ≤ bk }. Potom minimální σ-algebru σ(Zn ) nazýváme Borelovskou σ-algebrou a značíme Bn . Speciálně pro n = 1 značíme B1 = B. Množinám z Borelovské
σ-algebry říkáme borelovské množiny.
Systém můžeme volit mnoha různými způsoby, pro nás však bude hlavní, zda generuje Borelovskou σ-algebru. Z jistého pohledu pro nás budou všechny systémy generující Borelovskou σ-algebru
ekvivalentní.
Definice 2.31 (Měřitelný prostor, měřitelná množina). Buď Ω libovolná neprázdná množina a A
nechť je libovolná σ-algebra definovaná na Ω. Potom uspořádanou dvojici (Ω, A) nazýváme měřitelným prostorem. Množiny A ∈ A nazýváme A-měřitelné. (Pokud je A borelovská σ-algebra, potom
říkáme, že A je borelovsky měřitelná.)
Definice 2.32 (Prostor s mírou1 ). Buď (Ω, A) měřitelný prostor a nechť µ : A → R+ je σ-aditivní.
Potom µ nazýváme mírou na prostoru (Ω, A) a uspořádanou trojici (Ω, A, µ) nazýváme s prostorem
s mírou µ.
Poznámka 2.33. Pravděpodobnostní prostor (Ω, A, P) je tedy měřitelný prostor s mírou P.
Definice 2.34 (Měřitelná funkce). Buď (Ω, A) měřitelný prostor a nechť f : (Ω, A) → (Rn , Bn ).
Říkáme, že f je A-měřitelná právě tehdy, když
(∀B ∈ Bn ) f −1 (B) ∈ A
(9)
tj. pokud vzory borelovských množin jsou měřitelné. Speciálně pokud je A borelovská σ-algebra, říkáme, že f je borelovsky měřitelná.
Definice 2.35 (Náhodná veličina). Uvažujme měřitelný prostor s mírou (Ω, A, P). Říkáme, že
funkce X : Ω → R je náhodná veličina, pokud
(∀x ∈ R) X −1 ((−∞, x]) = {ω ∈ Ω | X(ω) ≤ x} ∈ A
(10)
Poznámka 2.36. Buď X : Ω → R.
1. Je zřejmé, že pokud je funkce X (borelovsky) měřitelná, je náhodnou veličinou. V následujících
úvahách se budeme zabývat i otázkou, zda je borelovská měřitelnost podmínkou nutnou, tj. zda
je X náhodnou veličinou, právě když je borelovsky měřitelná.
1
Míra není Mirek!
20
2. Budeme značit
{ω ∈ Ω | X(ω) ≤ x} = {X ≤ x}
P ({ω ∈ Ω | X (ω) ≤ x}) = P (X ≤ x)
a obdobně pro další nerovnosti.
Příklad 2.37. Házejme dvěma kostkami současně. Prostorem elementárních jevů Ω je tedy množina všech uspořádaných dvojic Ω = {(1, 1), (1, 2), (2, 1), . . . , (6, 6)}. Jako σ-algebru můžeme volit
2Ω = A. Tím jsme sestrojili měřitelný prostor (Ω, A), na kterém můžeme definovat například funkci
X(ω) = X(i, j) = i + j. Je funkce X náhodnou veličinou?
Můžeme postupovat konstruktivně:
{X ≤ 1} = ∅ ∈ A
{X ≤ 2} = {(1, 1)} ∈ A
{X ≤ 3} = {(1, 1), (1, 2), (2, 1)} ∈ A
..
.
{X ≤ 12} = Ω ∈ A
V podstatě od začátku je však zřejmé, že z A nemůžeme „vypadnout“ , protože jsme A zvolili jako
potenční množinu. X je tedy náhodná veličina.
Příklad 2.38 (Indikátor jevu A). Indikátorem jevu A ∈ Ω nazýváme funkci 1A definovanou jako
1
ω∈A
1A =
0
ω 6∈ A
Indikátor jevu A je náhodná veličina, protože

 ∅
{1A ≤ b} = AC

A
b<0
0≤b<1
b≥1
Definice 2.39 (Náhodná veličina II). Buď (Ω, A) měřitelný prostor a X : (Ω, A) → (Rn , Bn ).
Potom říkáme, že X je náhodná veličina, právě tehdy když je měřitelná, tj.
(∀B ∈ B) X −1 (B) ∈ A)
(Pokud je A borelovská σ-algebra, potom je X náhodná veličina právě tehdy, když je borelovsky
měřitelná.)
Nyní vyvstává již zmíněná otázka: Jsou obě definice ekvivalentní? Není například jedna z definic
restriktivnější? Je zcela zřejmé, že pokud je X (borelovsky) měřitelná, potom je to náhodná veličina,
otázkou tedy zůstává opačná implikace, tj. implikace
(∀x ∈ R) ({X ≤ x} ∈ A) ⇒ (∀B ∈ B) X −1 (B) ∈ A
(11)
Na tuto otázku nám odpoví následující lemma a věta, která na něj bezprostředně navazuje.
21
Lemma 2.40. Buďte (Ω, A), (R, B) měřitelné prostory. Buď X : Ω → R a nechť ∅ 6= τ ⊂ 2R je
takový systém podmnožin, že σ(τ ) = B. Potom X −1 (τ ) ∈ A ⇔ X −1 (B) ∈ A, tj.
X −1 (A) ∈ A (∀A ∈ τ ) ⇔ X −1 (B) ∈ A (∀B ∈ B)
(12)
Důkaz.
⇐ Množiny z τ jsou (dle definice minimální σ-algebry) i prvky σ(τ ), takže pokud tvrzení
X −1 (A) ∈ A (∀A ∈ B)
platí pro množiny A ∈ B = σ(τ ), nutně platí i pro množiny z τ .
⇒ Důkaz opačné implikace bude složitější. Definujme systém
τ 0 = B ⊂ R | X −1 (B) ∈ A
Potom ale nutně τ ⊂ τ 0 . Tvoří τ 0 σ-algebru?
1. Buď A ∈ τ 0 , potom tedy AC ∈ τ 0 , protože
C
X −1 AC = X −1 (A) ∈ A
| {z }
∈A
0
∞
0
2. Nechť {Aj }∞
j=1 ∈ τ , potom ∪j=1 Aj ∈ τ , protože
∞
−1
X −1 ∪∞
(Aj ) ∈ A
j=1 Aj = ∪j=1 X
| {z }
∈A
3. Vlastnost ∅ ∈ τ 0 vyplývá přímo z vlastností (1) a (2), protože τ 0 6= ∅.
Víme tedy, že τ 0 je σ-algebra, která má navíc tu vlastnost že τ ⊂ τ 0 . To ale znamená, že
σ(τ ) = ∩α Sα ⊂ τ 0
přičež ale Sα byly voleny právě tak, aby
τ ⊂ Sα
Podle předpokladů ale navíc platí σ(τ ) = B.
Poznámka 2.41. Co lemma vlastně říká - pokud vezmu systém množin τ , který generuje borelovskou
σ-algebru B, potom je tento systém s touto σ-algebrou v jistém smyslu ekvivalentní. Ekvivalence
spočívá právě v tom, že nemusím zkoumat měřitelnost všech B ∈ B, ale stačí mi vzít tento systém
τ a ověřit měřitelnost „pouze“ pro množiny z tohoto systému. To je mnohdy podstatně jednodušší.
Následující věta uvádí několik příkladů, jak lze takový systém τ volit.
Věta 2.42. Buď X : Ω → R. Potom následující výroky jsou ekvivalentní:
22
1. X je náhodná veličina (dle druhé definice)
2. (∀b ∈ R) {X ≤ b} = X −1 ((−∞, b]) ∈ A
3. (∀b ∈ R) {X < b} = X −1 ((−∞, b)) ∈ A
4. (∀b ∈ R) {X ≥ b} = X −1 ([b, +∞)) ∈ A
5. (∀b ∈ R) {X > b} = X −1 ((b, +∞)) ∈ A
6. (∀a, b ∈ R) {a < X ≤ b} = X −1 ((a, b]) ∈ A
7. (∀a, b ∈ R) {a < X < b} = X −1 ((a, b)) ∈ A
8. (∀U ⊂ R, U otevřená ) {X ∈ U} = X −1 (U) ∈ A
Důkaz. Nejdříve si uvědomme, že v každém z bodů (2) až (8) tvrzení vystupuje jistý systém množin
a o těchto systémech vlastně tvrdíme, že generují borelovskou σ-algebru, tj. že σ(τ ) = B. Systémy
seřadíme a označíme podle toho, ve kterém tvrzení se vyskytují, takže
τ2 = {(−∞, b] | b ∈ R}
τ3 = {(−∞, b) | b ∈ R}
τ4 = {[b, +∞) | b ∈ R}
τ5 = {(b, +∞) | b ∈ R}
τ6 = {(a, b] | a, b ∈ R}
τ7 = {(a, b) | a, b ∈ R}
τ8 = {U | U ⊂ R, U otevřená}
Nyní si uvědomme, že přímo z definice 2.39 plyne ekvivalence (1) ⇔ (7), protože právě systém τ7
byl použit za základ definice Borelovské σ-algebry B. Tohoto faktu budeme v důkazu často využívat.
Dokažme nejdříve implikaci (7) ⇔ (8), tj. s využitím faktu uvedeného výše chceme ukázat, že
σ(τ8 ) = B = σ(τ7 )
σ(τ8 ) ⊂ σ(τ7 ) Buď U ⊂ R libovolná otevřená. Potom ale nutně U = ∪N,∞
i=1 (ai , bi ) (sjednocení nejvýše
spočetného počtu intervalů), takže nutně U ∈ σ(τ7 ), a tedy také σ(τ8 ) ⊂ σ(τ7 ).
σ(τ7 ) ⊂ σ(τ8 ) Tato inkluze je ale primitivní, protože z toho že U ∈ σ(τ7 ) primitivně vyplývá, že
U ∈ σ(τ8 )
Tím jsme tedy dokázali, že systém τ7 má vlastnost σ(τ7 ) = B = σ(τ8 ). Nyní dokažme ekvivalenci
(1) ⇔ (5). Stejně jako v předchozím případě chceme ukázat, že σ(τ5 ) = B. Vezměme si intervaly
typu (a, b + n) kde n ∈ N. Tyto intervaly jsou jistě z B, a tedy i jejich spočetné sjednocení
(a, +∞) = ∪∞
n=1 (a, b + n)
je také z B, a to díky vlastnostem B jako σ-algebry. Takže σ(τ5 ) ⊂ B. Buď nyní (a, b) ∈ B, a
vyjádřeme ho jako
(a, b) = ∪∞
n=1 (a, bn ], kde bn % b
23
Potom tedy
C
(a, b) = ∪∞
n=1 ( (a, +∞) ∩ (bn , +∞) ) ⇒ (a, b) ∈ σ(τ5 )
| {z } | {z }
∈τ5
∈τ5
Nutně tedy musí platit B ⊂ σ(τ5 ).
Dokažme nyní ještě ekvivalenci (1) ⇔ (2). Půjdeme na to fintou - dokážeme to přes (5). Uvědomme si totiž, že
(∀b ∈ B) (−∞, b] = (b, +∞)C
a tudíž primitivně platí σ(τ5 ) = σ(τ2 ).
Ostatní ekvivalence se dokazují až na drobné změny stejně, jako bylo právě naznačeno.
Věta 2.43. Mějme (Ω, A) měřitelný prostor. Nechť X = (x1 , x2 , . . . , xn ) : (Ω, A) → (Rn , Bn ) je
náhodná veličina a g : (Rn , Bn ) → (R, B) borelovsky měřitelná. Pak g(X) je náhodná veličina.
Důkaz. Nechť B ∈ B. Chceme ukázat, že (g(X))−1 (B) ∈ A.
(g ◦ X)−1 (B) = X−1 (g −1 (B)) ∈ A
Věta 2.44. Nechť g : (Rn , Bn ) → (R1 , B1 ) spojitá, pak je g borelovsky měřitelná.
Důkaz. Chceme ukázat, že g −1 (B) ∈ Bn , ∀B ∈ B1 . Stačí se omezit na τ = {B|B je otevřená;
B ⊂ R1 }, σ(τ ) = B1 . g je spojitá, pak pro libovolnou B otevřenou je g −1 (B) otevřená a g −1 (B) ∈ Bn .
Tudíž je g borelovsky měřitelná.
Věta 2.45. Buďte X, Y náhodné veličiny na měřitelném prostoru (Ω, A). Potom platí
1. K · X je náhodná veličina (K je konstanta)
2. X + Y je náhodná veličina
3. X 2 je náhodná veličina
4. X · Y je náhodná veličina
5. X/Y je náhodná veličina (pokud {ω | Y (ω) = 0} = ∅)
6. max{X, Y } a min{X, Y } jsou náhodné veličiny
7. supi∈N {Xi } a inf i∈N {Xi } (kde Xi jsou náhodné veličiny) jsou náhodné veličiny (ale pouze
spočetný typ infima a suprema!)
8. X = limn→∞ Xn je náhodná veličina
Důkaz. V souladu s větou 2.42 nám stačí dokázat, že jsou uvedené množiny borelovsky měřitelné.
24
1. Buď X náhodná veličina, potom KX je náhodná veličina, právě když {KX ≤ b} ∈ A, tj.
pokud
K>0
X ≤ Kb ∈ A
K<0
X ≥ Kb ∈ A
K = 0, b ≥ 0
{0 ≤ b} = Ω
K = 0, b < 0
{0 ≥ b} = ∅
Přitom ale první dvě tvrzení platí díky předchozí větě a druhá dvě tvrzení vyplývají přímo z
vlastnosti σ-algebry. Tím je celé toto tvrzení dokázáno.
2. X + Y je náhodná veličina, pokud A = {ω | X(ω) + Y (ω) < b} ∈ A pro každé b ∈ R. Tvrdíme,
že
A = ∪r∈Q ({X ≤ r} ∩ {Y ≤ b − r})
a celé tvrzení dokážeme pro takto definovanou množinu A. Platí ale uvedená rovnost? Zcela
jistě platí inkluze ∪r∈Q (. . .) ⊂ A, ale co opačná inkluze? Nechť tedy ω ∈ A, potom X + Y < b,
a tedy X < b − Y . Existuje tedy r ∈ Q takové, že
X ≤r ≤b−Y
a tedy X ≤ r a Y ≤ b − r, takže ω ∈ ∪r∈Q (. . .). Nyní se ještě podívejme na to, zda A ∈ A pro
každé b. To je však zřejmé z vlastnosti σ-algebry (konkrétně uzavřenosti vzhledem k nejvýše
spočetným průnikům a sjednocením), protože
A = ∪r∈Q ( {X ≤ r} ∩ {Y ≤ b − r} )
| {z } |
{z
}
∈A
∈A
takže tvrzení zřejmě platí.
3. Buď X náhodná veličina. Potom X 2 je náhodná veličina, právě když pro každé b ∈ R platí
{X 2 ≤ b} ∈ A
Přitom ale
∅
c<0
√
√
{− c ≤ X ≤ c} c ≥ 0
√
√
Zřejmě však ∅ ∈ A (A je σ-algebra) a také {− c ≤ X ≤ c} ∈ A, a to díky větě 2.40. (X je
náhodná veličina).
X2 =
4. Triviálně platí, že
1
(X + Y )2 − (X − Y )2
4
Díky předchozím třem tvrzením je tedy zřejmě XY náhodná veličina.
XY =
5. Buďte X, Y náhodné veličiny, {Y = 0} = ∅. Potom
X
X
X
≤b =
≤ b ∩ {Y < 0} +
≤ b ∩ {Y > 0} =
Y
Y
Y
= {X − bY ≤ 0} ∩ {Y < 0} + {X − bY ≥ 0} ∩ {Y < 0}
|
{z
} | {z } |
{z
} | {z }
∈A
∈A
25
∈A
∈A
6. Maximum je náhodná veličina, protože
{max{X, Y } ≤ b} = {X ≤ b} ∪ {Y ≤ b}
| {z } | {z }
∈A
∈A
Minimum je náhodná veličina, protože
{min{X, Y } ≤ b} = {X ≤ b} ∩ {Y ≤ b}
| {z } | {z }
∈A
∈A
7. Důkaz pro infimum a supremum je pouze modifikací inf a sup. Operace sjednocení a průnik
totiž mohu provádět spočetně.
Příklad 2.46 (Identifikátor jevu). Buď A jev a 1A jeho identifikátor. Potom 1A má následující
vlastnosti
1. (1A )2 = 1A
2. 1AC = 1 − 1A
3. 1A∩B = 1A · 1B
4. 1A∪B = max{1A , 1B }
5. 1A+B = 1A + 1B
Definice 2.47 (Rozdělení náhodné veličiny). Nechť X : (Ω, A) → (R, B) je náhodná veličina na
prostoru (Ω, A, P). Pak pravděpodobnostní míru PX := P ◦ X −1 nazýváme rozdělením náhodné
veličiny X, nebo taky míra indukovaná X.
Poznámka 2.48. Ukážeme korektnost předešlé definice:
PX : B → [0, 1]
PX (B) = (P ◦ X −1 )(B) = P(X −1 (B)) = P(X ∈ B) tj. P ({ω|X(ω) ∈ B})
PX je pravděpodobnost:
PX ≥ O
PX (R1 ) = P(X −1 (R1 )) = P(Ω) = 1
P
P
P∞ −1
∞
−1 ( ∞ B ) = P
Bj disjunktní: P X
B
(Bj ) =
j
j=1 j = P X
1
1 X
P
P∞ X
−1 (B )) =
= ∞
j
1 P(X
1 P (Bj )
Definice 2.49 (Distribuční funkce). Buď X náhodná veličina. Potom funkci FX : R → [0, 1],
definovanou na R předpisem
FX (x) = P(X ≤ x) = P X |τ ={(−∞,x]|x∈R}
nazýváme distribuční funkcí náhodné veličiny X.
26
(13)
Příklad 2.50. Házejme dvěma kostkami. Potom Ω = (i, j) : i, j ∈ 6̂ . Můžeme tedy zvolit A = 2Ω .
1
Uvažujme náhodnou veličinu X ((i, j)) = i +Pj. Potom tedy P ((i, j)) = 36
pro všechna i, j ∈ 6̂, a
tedy P : A → R. Definujme tedy P(A) =
P(i,
j).
Dle
předchozí
definice
tedy FX (x) =
(i,j)∈A
P ({X(i, j) ≤ x}), takže
x<2
x ∈ [2, 3)
x ∈ [3, 4)
..
.
FX (x) = P(∅) = 0
1
FX (x) = P ({(1, 1)}) = 36
FX (x) = P ({(1, 1), (1, 2), (2, 1)}) =
x ∈ [11, 12)
x ≥ 12
FX (x) = P (Ω \ {(6, 6)}) =
FX (x) = P (Ω) = 1
3
36
35
36
Věta 2.51. Buď X náhodná veličina a FX její distribuční funkce. Potom
1. FX je neklesající
2. limx→+∞ FX (x) = 1
3. limx→−∞ FX (x) = 0
4. FX je spojitá zprava
Důkaz.
1. Buďte x1 ≤ x2 . Chceme dokázat, že potom FX (x1 ) ≤ FX (x2 ). Platí
x1 ≤ x2 ⇒ {X ≤ x1 } ⊂ {X ≤ x2 }
a díky monotonii pravděpodobnosti platí P ({X ≤ x1 }) ≤ P ({X ≤ x2 }), odkud již tvrzení
primitivně plyne.
2. Platí
lim FX (x) = lim P (X ≤ x)
x→+∞
x→+∞
Nyní si musíme uvědomit, že tato limita existuje (ze spojitosti pravděpodobnosti), takže dle
věty Heineovy můžeme vzít libovolnou posloupnost xn takovou, že limn→∞ xn = +∞, a dostaneme stejnou limitu. Vezměme například xn = n (kvůli názornosti). Potom tedy platí
lim P (X ≤ x) = lim P (X ≤ n)
x→+∞
n→+∞
Pokud si nyní označíme An = {X ≤ n}, potom zřejmě platí An % A = ∪+∞
n=1 An , a dle věty o
spojistosti pravděpodobnosti tedy platí
lim P (X ≤ n) = lim P (∪∞
n=1 An )
n→+∞
n→+∞
Ale zřejmě A = Ω, takže P(A) = 1 a tvrzení platí.
3. Princip důkazu je zcela stejný jako v předchozím případě. Stačí pouze zvolit jako vybranou
posloupnost xn = −n, An = {X ≤ −n} a A = ∩ni=1 Ai
27
4. Chceme vlastně dokázat, že limx→a+ FX (x) = FX (a). Platí
1
1
lim FX (x) = |Heine| = lim FX a + n = lim P X ≤ a + n
n→∞
n→∞
x→a+
2
2
Množiny An = {X ≤ a +
X −1 (−∞, a], takže
1
2n }
zřejmě tvoří klesající systém, pro který An & A = ∩∞
n=1 An =
1
lim P X ≤ a + n = P (X ≤ a)
n→∞
2
a to je dle definice FX (a). Tím je tvrzení dokázáno.
Poznámka 2.52.
1. Distribuční funkce není spojitá zleva, protože například pro systém
1
Bn = X ≤ a − n
2
tj. Bn % B, platí
B = ∪∞
n=1 Bn = (−∞, a) 6= (−∞, a]
2. Pokud bychom distribuční funkci definovali jako FX (x) = P(X < x), potom by byla spojitá
zleva. Platilo by totiž
1
1
∞
= lim P X ≤ x − n =
P(X < a) = P ∪n=1 X ≤ a − n
n→∞
2
2
1
= lim FX a − n = FX (a)
n→∞
2
Tuto limitu budeme značit FX (a − 0).
Poznámka 2.53. Pro a < b platí
1. P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a)
2. P(a < X < b) = P(X < b) − P(X ≤ a) = FX (b − 0) − FX (a)
3. P(a ≤ X < b) = P(X < b) − P(X < a) = FX (b − 0) − FX (a − 0)
4. P(X = a) = P(X ≤ a) − P(X < a) = FX (a) − FX (a − 0)
Definice 2.54 (Sdružená distribuční funkce). Buď X = (X1 , . . . , Xn ) vektorová náhodná veličina
na prostoru (Ω, A, P), PX = P ◦ X−1 rozdělení náhodné veličiny X. Potom definujeme sdruženou
(vícerozměrnou) distribuční funkci veličiny X předpisem
FX (x) = PX |τn ={×ni=1 (−∞,xi ], xi ∈R} pro ∀x ∈ Rn
Poznámka 2.55. Někdy také píšeme
FX (x) = P (X ⊂ ×ni=1 (−∞, xi ]) = P (∩ni=1 {Xi ∈ (−∞, xi ]}) = P (∩ni=1 {Xi ≤ xi })
Což označíme P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ) a nazveme sdruženou pravděpodobností.
28
(14)
Věta 2.56. Buďte X = (X1 , . . . , Xn ) náhodné veličiny a FX nechť je jejich sdružená distribuční
funkce. Potom
1. FX je neklesající v každé proměnné, tj.
(∀i ∈ n
b) (xi ≤ x̃i ) (FX (x) ≤ FX (x̃))
2. Pro každé k ∈ n
b platí
lim FX (x) = FX1 ,...,Xk−1 ,Xk+1 ,...,Xn (x1 , . . . , xk−1 , xk+1 , . . . , xn )
xk →+∞
3. Pro každé k ∈ n
b platí
lim FX (x) = 0
xk →−∞
4. FX je zprava spojitá v každé proměnné.
5.
lim
FX (x) = 1
x1 → +∞
..
.
xn → +∞
Důkaz. Důkaz stačí provést pouze pro n = 2 a stejný princip lze použít i pro m > 2. Označme tedy
X1 = X a X2 = Y , potom tedy
1. Monotonie je zřejmá, protože nechť x ≤ x̃, y ≤ ỹ. Potom
FX,Y (x, y) = P({X ≤ x} ∩ {Y ≤ y})
a protože platí {X ≤ x} ⊂ {X ≤ x̃} a {Y ≤ y} ⊂ {Y ≤ ỹ}, potom
P({X ≤ x} ∩ {Y ≤ y}) ≤ P({X ≤ x̃} ∩ {Y ≤ ỹ}) = FX,Y (x̃, ỹ)
2. Z věty o spojitosti pravděpodobnosti víme, že limita existuje, a můžeme tedy pracovat s
libovolnou posloupností vybranou. Vyberme tedy xn = n, potom dle věty o spojitosti pravděpodobnosti
lim FX,Y (x, y) = lim FX,Y (n, y) = lim P ({X ≤ n} ∩ {Y ≤ y}) =
x→+∞
n→∞
n→+∞
∞
= P (∪∞
n=1 ({X ≤ n} ∩ {Y ≤ y})) = P ((∪n=1 {X ≤ n}) ∩ {Y ≤ y}) =
= P (Y ≤ y) = FY (y)
3. Důkaz je prostou obměnou předchozího. Místo xn = n stačí vzít xn = −n.
4.
lim FX,Y (x, y) = lim FX,Y
x→a+
n→∞
1
a + n,y =
2
= { věta o spojitosti pravděpodobnosti } = FX,Y (a, y)
29
5. Pokud bychom to chtěli dokazovat přes postupné limity, tj. například přes
lim FX,Y (x, y) = lim lim FX,Y (x, y)
x→∞
y→∞
x→∞ y→∞
museli bychom dokázat že limita vůbec existuje, což není nejjednodušší. Lepší bude jít na to
přes vztah
(∀ε > 0) (∃K) (∀x, y > K) (|F(x, y) − 1| < ε)
Poznámka 2.57. Zavádíme označení
1.
lim FX,Y (x, y) = FX,Y (∞, y) = FY (y)
x→+∞
2.
FX (∞, . . . , ∞, xj , ∞, . . . , ∞) = FXj (xj )
Poznámka 2.58. Nechť F : R → R splňuje vlastnosti (1) až (4), nebo (a) až (e). Potom existuje
taková náhodná veličina X pravděpodobnostního prostoru, že FX = F.
Věta 2.59. Budte X, Y náhodné veličiny. Potom platí
P (a1 < X ≤ b1 , a2 < Y ≤ b2 ) = FX,Y (b1 , b2 )−
−FX,Y (b1 , a2 ) − FX,Y (a1 , b2 ) + FX,Y (a1 , a2 )
(15)
Důkaz. Označme
A = {a1 < X ≤ b1 , Y ≤ b2 }
B = {a2 < Y ≤ b2 , X ≤ b1 }
Chceme zjistit P(A ∩ B), a to je
P(A) + P(B) − P(A ∪ B) = P(X ≤ b1 , Y ≤ b2 ) − FX,Y (a1 , b2 ) +
|
{z
}
P(A)
+ FX,Y (b1 , b2 ) − FX,Y (b1 , a2 ) − FX,Y (b1 , b2 ) − FX,Y (a1 , a2 ) =
|
{z
} |
{z
}
P(B)
P(A∪B)
= FX,Y (b1 , b2 ) − FX,Y (a1 , b2 ) − FX,Y (b1 , a2 ) + FX,Y (a1 , a2 )
Příklad 2.60 (Měření rovinného obrazce). Měřme rovinný obrazec a uvažujme dvě náhodné veličiny
- X jako šířku a Y jako délku. Potom má smysl ptát se na pravděpodobnost P (20 < X ≤ 30, Y ≤ 50).
30
Definice 2.61 (Stochastická nezávislost). Říkáme, že náhodné veličiny X1 , X2 , . . . , Xn , . . . jsou
stochasticky nezávislé, právě když
∀(Bj )N,∞
∈
B
( jsou jevy {X1 ∈ B1 } , . . . , {Xn ∈ Bn } , . . . nezávislé)
(16)
j=1
tj. pokud pro každou konečnou k-tici jevů platí
P
∩kj=1 {Xij
∈ B ij } =
k
Y
P {Xij ∈ Bij }
j=1
V předchozí definici jsou využívány borelovské množiny, ale vyvstává otázka, zda není možné
využít nějaký jiný systém množin? Jak uvidíme z následující věty (a jejích důsledků), možné to
je. Podobně jako v případě alternativní definice náhodné veličiny je možné Borelovskou σ-algebru
zaměnit za libovolný systém generující Borelovskou σ-algebru B.
Věta 2.62 (Monotone class theorem). Buď τ ⊂ 2Ω takový, že Ω ∈ τ , uzavřený na konečné průniky.
Buď B nejmenší systém množin obsahující τ , uzavřený na limitu zdola (tj. Ai ∈ B, A1 ⊂ . . . ⊂ An ⊂
. . . ⇒ ∪∞
j=1 Aj ∈ B) a na rozdíly (tj. A ⊂ B ∈ B ⇒ B \ A ∈ B). Potom σ(τ ) = B
Náznak důkazu. Buď τ ⊂ B ∧ B je uzavřená na rozdíly a limitu zdola. Volíme pevné B, pak definujeme CB = {A ∈ B|A ∩ B ∈ B}
B ∈ τ ⇒ ukážeme, že CB = B
B ∈ B ⇒ ukážeme, že CB = B
⇒ B je σ-algebra ⇒ σ(τ ) = B
Poznámka 2.63. B z MCT nemusí být nutně Borelovské množiny.
Věta 2.64 (Důsledek MCT). Systém B z definice stochastické nezávislosti lze ekvivalentně zaměnit
za libovolný systém τ ⊂ 2R takový, že R ∈ τ a τ je uzavřený vzhledem ke konečným průnikům a
σ(τ ) = B. Za uvedených předpokladů tedy platí:
(∀Bj ∈ B jsou {Xi ∈ Bi } nezávislé) ⇔ (∀Aj ∈ τ jsou {Xi ∈ Ai } nezávislé)
Důkaz.
⇒ Nechť jsou pro všechny borelovské množiny Bi jevy {Xi ∈ Bi } nezávislé. Protože ale podle
předpokladu platí τ ⊂ B, potom tvrzení evidentně platí i pro všechny Ai ∈ τ .
⇐ Nechť nyní pro všechny množiny Ai ∈ τ jsou jevy {Xi ∈ Ai } nezávislé. Zvolme nyní B ∈ B
libovolně pevně a definujme
C = {B1 ∈ B | P (X1 ∈ B1 , X2 ∈ B) = P (X1 ∈ B1 ) P (X2 ∈ B)}
1. R ∈ C, protože R ∈ τ a pro všechna Aj , Ak ∈ τ platí
P ((xj ∈ Aj ) ∩ (xk ∈ Ak )) = P (xj ∈ Aj ) P (xk ∈ Ak )
31
2. B1 ⊂ B2 ∈ C ⇒ B2 \ B1 ∈ C, protože
P (X1 ∈ B2 \ B1 , X2 ∈ B) = P (X1 ∈ B2 , X2 ∈ B) −
−P (X1 ∈ B1 , X2 ∈ B) = P (X2 ∈ B) (P (X1 ∈ B2 ) − P (X1 ∈ B1 ))
3. Bj ∈ C, Bj % B̃ ⇒ B̃ ∈ C, protože
P X1 ∈ B̃, X2 ∈ B = P X1 ∈ ∪∞
j=1 Bj , X2 ∈ B =

= P X1 ∈
∞
X

(Bj+1 − Bj ) , X2 ∈ B  2 =
j=0
=
∞
X
P (X1 ∈ (Bj+1 − Bj ) , X2 ∈ B) =
j=0
= P (X2 ∈ B)
∞
X
P (X1 ∈ (Bj+1 − Bj )) =
j=0
= P X1 ∈ B̃ P (X2 ∈ B)
Z předpokladů víme tedy, že τ ⊂ B, R ∈ τ a že τ je uzavřený na konečné průniky (z předpokladů). Systém C je uzavřený na rozdíly a limity zdola (a jedná se tedy o systém B z MCT,
resp. σ(τ ) ⊂ C, protože nemáme zaručeno že je to nejmenší systém s danými vlastnosti. Ale
protože my jsme tyto vlastnosti chtěli ověřit pro systém B = σ(τ ), je tato implikace (a tím i
celý důkaz) ukončena.
Nemusíme tedy složitě hledat σ(τ ), resp. B a složitě ověřovat nezávislost v tak obecném případě,
ale stačí nám zvolit si vhodný systém uzavřený na konečné průniky, pro který Ω ∈ τ a σ(τ ) =
B a ověřit celý problém nezávislosti na něm. Dle věty 2.42 můžeme volit různé systémy. Pokud
zvolíme například τ = {(a, b] | a, b ∈ R}, můžeme definici stochastické nezávislosti 2.61 předefinovat
následujícím způsobem:
Definice 2.65. Buďte X = (X1 , . . . , Xn ) náhodné veličiny. Potom říkáme, že X1 , . . . , Xn jsou
stochasticky nezávislé, právě když pro ∀ (ai , bi ∈ R) (∀i ∈ n
b) platí, že {ai < Xi ≤ bi } jsou nezávislé
jevy.
Věta 2.66. Náhodné veličiny X = (X1 , . . . , Xn ) jsou stochasticky nezávislé právě tehdy, když
FX (x) =
n
Y
FXj (xj )
j=1
Důkaz.
2
B0 = ∅
32
∀xj ∈ R
(17)
⇒ Nechť jsou náhodné veličiny stochasticky nezávislé. Zvolme si vhodně systém τ . Nejlepší bude
τ = {(−∞, a] | a ∈ R}, protože přes množiny (−∞, a] je definována distribuční funkce, totiž
FX (a) = P ({X ≤ a}) = P ({ω | X(ω) ∈ (−∞, a]})
Zároveň ale σ(τ ) = B, takže (∀Aj ∈ τ ) (Aj = (−∞, aj ]) platí
n
Y
FXj (aj ) =
j=1
n
Y
P ({Xj ∈ (−∞, aj ]}) = P ∩nj=1 {Xj ∈ (−∞, aj ]} = FX (a)
j=1
a to pro libovolnou volbu aj ∈ R, j ∈ n
b.
⇐ Nechť
n
Y
j=1
FXj (xj ) =
n
Y
P (Xj ≤ xj ) = P ∩nj=1 {Xj ≤ xj } = FX (x)
∀xj ∈ R
j=1
Platí to ale pro libovolnou k-tici? Nechť to platí pro n, ukážeme že to platí pro n − 1.
FX1 ,...,Xn−1 (x1 , . . . , xn−1 ) =
=
n−1
Y
lim
xn →+∞
FX (x) =
FXj (xj ) lim FXn (xn ) =
j=1
xn →∞
Takže to platí i pro libovolnou k-tici.
33
lim
xn →+∞
n−1
Y
j=1
n
Y
j=1
FXj (xj )
FXj (xj ) =
3
Diskrétní náhodné veličiny
Definice 3.1 (Diskrétní náhodná veličina). Náhodnou veličinu X nazýváme diskrétní, pokud obor
hodnot RX je nejvýše spočetná množina, tzn. pokud existuje taková posloupnost x1 , . . . , xn , . . . že
X −1 {x1 , . . . , xn , . . .} = Ω.
Distribuční funkci diskrétní náhodné veličiny můžeme zapsat například jako
FX (x) = P(X ≤ x) =
X
P(X = xm ) =
N,∞
X
P(X = xm )I[xm ,+∞] (x)
(18)
m=1
m|xm ≤x
Diskrétní hustota pravděpodobnosti (frekvenční funkce) je funkce definována jako
P(X = xk )
X = xk
fX (x) =
0
jinak
(19)
Poznámka 3.2. P (X = xk ) můžeme označit jako pk . Přitom platí
X
pk = 1
k
Definice 3.3 (Diracovo rozdělení). Buď X náhodná veličina, a nechť existuje c ∈ R takové, že
P (X = c) = 1
P (X 6= c) = 0
(20)
Značíme X ∼ δc .
Definice 3.4 (Alternativní/Bernoulliho rozdělení s parametrem p). Nechť p ∈ [0, 1]. Uvažujme
náhodnou veličinu X, která může nabývat pouze dvou hodnot, například 0, 1, a dále nechť platí
P(X = 1) = p
P(X = 0) = 1 − p
(21)
Značíme X ∼ A(p).
Definice 3.5 (Binomické rozdělení). Opakujme n-krát experiment s náhodnou veličinou X, která
má
alternativní rozdělení, přičemž uvažujeme P(A) = p (pravděpodobnost úspěchu) a tedy P AC = 1−p
(pravděpodobnost neúspěchu). Počet příznivých jevů při n opakováních je potom
X=
n
X
Xj
j=1
Značíme X ∼ Bi(n, p).
Pro pravděpodobnost poté platí


X
Pn (X = k) = Pn 
{Xi1 = 1, . . . , Xik = 1, Xik+1 = 0, . . . , Xin = 0} =
π(n̂)
34
(22)
=
X
P Xi1 = 1, . . . , Xik = 1, Xik+1 = 0, . . . , Xin = 0 =
π(n̂)
=
Y
k
n
Y
n
n k
P(xi = 1)
P(xi = 0) =
p (1 − p)n−k
k
k
i=1
i=k+1
Z binomické věty také vyplývá, že
n X
n k
p (1 − p)n−k = (p + 1 − p)n = 1
k
k=0
Příklad 3.6. Uvažujme šachovou partii, ve které jsou dva stejně silní soupeři (pravděpodobnost
výhry i prohry je 12 ). Rozhodněte, zda je pravděpodobnější
1. vyhrát 3 partie ze 4, nebo 5 partií z 8.
2. vyhrát alespoň 3 partie ze 4, nebo alespoň 5 partií z 8.
1.
3 1
1
4
1
=
P (X = 3) = P4 (3) =
2
2
4
3
5 8
1
1
7
P (X = 5) = P8 (5) =
=
5
2
2
32
2.
P (X = 3 ∨ X = 4) = P (X = 3) + P (X = 4) P4 (3) + P4 (4) =
4
1
4
1
5
+
=
4
4
2
16
P (X = 5 ∨ X = 7 ∨ X = 8) =
8
X
P8 (k) =
k=5
=
8 X
k=5
k 8−k
8
1
1
93
=
k
2
2
256
Definice 3.7 (Geometrické/Pascalovo rozdělení). Uvažujme nekonečnou posloupnost pokusů s veličinou s alternativním rozdělením
P(A) = p
P AC = 1 − p
a buď X počet pokusů před prvním výskytem jevu A. Platí, že
P (X = k) = p(1 − p)k
Platí
∞
X
k=0
p(1 − p)k = p
∞
X
(1 − p)k = p
k=0
35
1
=1
1 − (1 − p)
(23)
Definice 3.8 (Negativně binomické rozdělení). Opakujme jev nekonečně krát, a nechť náhodná
veličina Y značí počet neúspěchů před m-tým úspěchem, přičemž P(A) = p. Potom
k+m−1 m
P (Y = k) =
p (1 − p)k
k
Definice 3.9 (Hypergeometrické rozdělení). Uvažujme zásobníkový model, ve kterém je r červených
a N − r bílých kuliček. Opakujme n-krát tah bez vracení, a jako náhodnou veličinu X uvažujme počet
červených kuliček v n-tici.
P (X = x) =
r
x
N −r
n−x
N
n
(24)
Značíme X ∼ Hyp(N, r, n).
Příklad 3.10. Uvažujme rybník, ve kterém je N ryb, a nechť r z nich je označeno. Chytněme n ryb,
a jako náhodnou veličinu X uvažujme počet označených ryb mezi n chycenými. Jaká je statistika
N?
b , protože víme kolik je r.
Chytíme n ryb, spočítáme označené a odhadneme N = N
x
r
=
b
n
N
b = rn
N
x
Věta 3.11. Pro N velká,
n
N
malá platí
r
H(N, r, n)=B
˙ i n,
N
Definice 3.12 (Poissonovské rozdělení). Říkáme, že náhodná veličina X : Ω → N0 má poissonovské
rozdělení s parametrem λ > 0, pokud
P(X = x) =
λx −λ
e
x!
x = 0, 1, . . .
(25)
Značíme X ∼ P o(λ)
Věta 3.13 (Poissonova). Uvažujme posloupnost náhodných veličin Xn s binomickým rozdělením,
Xn ∼ Bi (n, pn ), a nechť npn → λ (nebo npn = λ), λ > 0. Potom
lim Pn (x) =
n→∞
Důkaz.
λx −λ
e
x!
(26)
n x
λ
1
n−x
lim Pn (x) = lim
pn (1 − pn )
= pn = + o
=
n→+∞
n→+∞ x
n
n
x n−x
n
λ
1
λ
1
= lim
+o
1− −o
=
n→+∞ x
n
n
n
n
x
λx n(n − 1) · · · (n − x + 1)
1
= lim
1 + no
x
n→+∞ x!
n
n
|
{z
} |
{z
}
→1
→1
36
n−x
λ
1
λx −λ
1− −o
=
e
n
n
x!
|
{z
}
→e−λ
Poznámka 3.14. V předchozím důkazu se používají značky o() a O() definované:
an = o(bn )(n → ∞) ⇐⇒
an = O(bn ) ⇐⇒ ∃k :
an
→0
bn
an
≤k
bn
Věta 3.15 (Zákon řídkých jevů). Uvažujme jev A v čase t (se začátkem v t0 = 0). Počet výskytu
jevu do času t označme jako Xt . Nechť dále platí:
1. Xt+h − Xt nezávisí na t
2. P ((Xt+h − Xt ) = 1) = λh + o(h), λ > 0, přičemž při h → 0+ platí
o(h)
→0
h
3. P (Xt+h − Xt > 1) = o(h) při h → 0+
4. Funkce pk (t) = P(Xt = k) je diferencovatelná v t pro všechna k ∈ N0 .
Potom
P (Xt = k) =
(λt)k −λt
e
k!
(27)
(λ nazýváme intenzitou řídkého jevu).
Důkaz.
po (t + h) = P (Xt = 0) P (Xt+h − Xt = 0) = p0 (t) (1 − λh + o(h))
dp0
p0 (t + h) − p0 (t)
o(h)
(t) = lim
= lim −λp0 (t) + p0 (t)
= −λp0 (t)
h→0+
h→0+
dt
h
h
pk (t + h) =
k
X
P (Xt = j) P (Xt+h − Xt = k − j) =
j=0
=
k−2
X
j=0
P (Xt = j) P (Xt+h − Xt = k − j) + P(Xt+h − Xt = 1) pk−1 (t)+
|
{z
} |
{z
}
o(h)
λh+o(h)
+ P(Xt+h − Xt = 0) pk (t) =
|
{z
}
1−λh+o(h)
k−2
X
P (Xt = j) o(h)+
j=0
+P(Xt = k − 1)(λh + o(h)) + P(Xt = k)(1 − λh + o(h))
37
dpk
pk (t + h) − pk (t)
(t) = lim
= λpk−1 (t) − λpk (t)
h→0+
dt
h
Máme tedy soustavu lineárních diferenciálních rovnic
p00 (t) = −λp0 (t)
p0k (t) = λ(pk−1 (t) − pk (t))
která je za počátečních podmínek
p0 (0) = 1
pk (0) = 0
a po zavedení funkce qk (t) = pk (t)eλt řešitelná rekurentně.
Poznámka 3.16. Důležitými předpoklady v zákonu řídkých jevů jsou
1. Nezávislost na minulosti.
2. Pravděpodobnost, že v Xt+h − Xt nastane právě jedna událost je zhruba lineární funkcí délky
intervalu.
Příklad 3.17 (Příklad pro kuchaře). Na zadělání 1000 koláčů dáme 10000 rozinek. Najděte rozdělení
počtu rozinek v náhodně vybraném koláči.
1. Jaká je pravděpodobnost, že na koláči bude více než 5 rozinek?
2. Jaká je pravděpodobnost, že na koláči nebude žádná rozinka?
Vezměme libovolný koláč, ptejme se, zda je na něm n-tá rozinka, a tento pokus opakujme 10000x
(protože právě tolik je rozinek). Každá rozinka může být na jednom z tisíce koláčů, a to se stejnou
pravděpodobností, proto
1
pk =
1000
Jako X označme počet rozinek na koláči, přičemž λ = n · pk = 10. Potom dle zákona velkých čísel
platí
λk −λ 10k −10
Pn (k) =
e =
e
∀k ∈ 1\
0000
k!
k!
takže
1.
P(X > 5) = 1 − P(X = 0) − . . . − P(X = 5)=0,
˙ 934
2.
P(X = 0) = . . .
Poznámka 3.18. V předchozím případě jsme ale předpokládali, že se na libovolný koláč vejde libovolný počet rozinek. Jinak by totiž nebyl splněn předpoklad o nezávislosti na minulosti.
Definice 3.19 (Vícerozměrná diskrétní hustota). Vícerozměrnou diskrétní hustotu definijeme jako
fX = P ∩nj=1 {Xj = xj }
(28)
38
Definice 3.20 (Multinomické rozdělení). Uvažujme měřitelný prostor (Ω, A), a nechť A1 , . . . , An ∈
A. Nechť dále platí
1. Ai jsou disjunktní
P
2.
i Ai = Ω
3. P(Ai ) = pi
Buď Xj počet opakování jevu jevu Aj v n pokusech. Přitom zřejmě platí
X
P(Aj ) = n
j=1k
Potom
fX (x) = P (X1 = x1 , . . . , Xk = xk ) =
Poznámka 3.21. Značíme
n!
=
x1 !x2 ! · · · xk !
n!
px1 px2 · · · pxk k
x1 !x2 ! · · · xk ! 1 2
n
x1 !x2 ! · · · xk !
Omezení tedy nutně je
0 ≤ x1 ≤ n
0 ≤ x2 ≤ n − x1
0 ≤ x3 ≤ n − x1 − x2
..
.
xk = n − x1 − x2 − · · · − xk−1
Potom
k
X
Xj = n
j=1
39
(29)
4
Absolutně spojitá rozdělení
Definice 4.1 (ASR, SASR). Buďte (X1 , . . . , Xn ) náhodné veličiny. Říkáme že mají (pro n ≥ 2
sdružené) rozdělení absolutně spojitého typu (absolutně spojité rozdělení) - ASR/SASR - pokud na
prostoru existuje borelovsky měřitelná funkce
fX : Rn → R
taková, že
Z
x1
Z
x2
Z
xn
fX (t)dt
...
FX (x) =
−∞
−∞
(30)
∀x ∈ Rn
(31)
−∞
Funkci fX (t) nazýváme (sdruženou) hustotou pravděpodobnosti (vzhledem k Lebesgueově míře)
náhodné veličiny X.
Definice 4.2 (Absolutní spojitost). Říkáme, že funkce F : R → R je absolutně spojitá na intervalu
(a, b), pokud (∀ε > 0)(∃δ > 0)(∀n) (∀ (aj , bj ) ⊂ (a, b))
n
X
|aj − bj | < δ ⇒
j=1
n
X
|F (aj ) − F (bj )| < ε
(32)
j=1
Věta 4.3. Funkce F : R → R je absolutně spojitá, pokud existuje funkce f : R → R borelovsky
měřitelná na (Ω, B) taková, že
Z x
F(x) =
f (t)dt
∀t ∈ R
(33)
−∞
V bodech spojistosti funkce f navíc platí F0 (x) = f (x)
Důkaz.
⇐ Důkaz pojmeme poněkud obecněji, a půjdeme na to přes borelovské množiny (jak jinak...). Buď
funkce f : R → R borelovsky měřitelná z L (Rn ). Potom (∀ε > 0) (∃δ > 0) (∀M ∈ Bn ) platí
Z
λ (M ) < δ ⇒ f (t)dt ≤ ε
M
tj. pro všechny borelovské množiny M , které jsou podmnožinami Rn , platí jisté tvrzení. Potom
je ale integrál z funkce f funkcí absolutně spojitou. Funkce ν(M ), daná předpisem
Z
ν(M ) =
f
M
je tedy absolutně spojitá.
Současně se však jedná o neurčitý integrál, a platí dokonce, že pokud f ≥ 0, potom je ν
dokonce mírou na (Rn , Bn ).
⇒ Uvažujme Ω, A, X, P → FX → fx , a nechť n ≥ 1. Potom
Z x1
Z xn
Z
Fx (x) =
···
fx (t)dt =
−∞
B=×n
j=1 (−∞,xj ]
−∞
40
fx (t)dt =
= νFX ×nj=1 (−∞, xj ]
n
τn = ×nj=1 (−∞, xj ] | xj ∈ R ⊂ 2R ⇒ σ(τn ) = Bn
Potom ale můžeme νF jednoznačně rozšířit z τn na Bn , a navíc pokud fX ≥ 0, potom je νFX
míra na (Rn , Bn ).
Definice 4.4 (Absolutní spojitost míry vzhledem k míře). Nechť ν a λ jsou míry na ((Rn , Bn ).
Říkáme, že míra ν je absoulutně spojitá vzhledem k míře λ (značíme ν << λ), pokud
λ(B) = 0 ⇒ ν(B) = 0
∀B ∈ Bn
Definice 4.5 (σ-konečná míra). Míra λ se nazývá σ-konečná, pokud existuje posloupnost (Bj )∞
1 ∈
Bn taková, že
n
∪∞
j=1 Bj = R
λ(Bj ) < ∞
Poznámka 4.6. Lebesgueova míra λ je σ-konečná. Stačí vzít například
R=
∞
[
(−j, j)
j=1
přičemž zřejmě λ(Bj ) = 2j < ∞.
Věta 4.7 (Radon-Nikodymova). Nechť jsou ν a λ míry na (Rn , Bn ) takové, že míra λ je σ-konečná,
a přitom ν << λ. Potom existuje f ≥ 0 borelovsky měřitelná na (Rn , Bn ), taková že
Z
ν(B) =
f dλ ∀B ∈ Bn
B
Funkce f je navíc
R dána jednoznačně (až na množinu míry nula vzhledem k míře λ). To znamená že
pokud ν(B) = B gdλ, potom ∀B ∈ B ⇒ f = g.
Funkce f se nazývá Radon-Nikodymova derivace míry ν vzhledem k míře λ, a značíme ji
f=
dν
dλ
Poznámka 4.8. Pokud položíme ν = P, potom
f=
dP
dλ
je hustota pravděpodobnosti P vzhledem k míře λ.
Poznámka 4.9 (Lebesgueův rozklad distribuční funkce). Pro libovolnou distribuční funkci Fx platí
FX (x) = A(x) + K(x) + S(x)
kde
41
A(x) je absolutně spojitá funkce
K(x) je skokovitá s nejvýše spočetně mnoha skoky
S(x) je singulární spojitá část (roste jen na množině míry nula - růst musí, protože se jedná o
distribuční funkci)
Věta 4.10. Mějme náhodnou veličinu X = (X1 , . . . , Xn ) s SASR a hustotou pravděpodobnosti fX .
Potom X0 = (X1 , . . . , Xj−1 , Xj+1 , . . . , Xn ) má také SASR, a platí
+∞
Z
0
fX0 (x ) =
∀x0
fX (x)dxj
(34)
−∞
Důkaz.
FX0 (x0 ) =
x1
Z
lim FX (x) = lim
xj →∞ −∞
xj →+∞
Z
x1
Z
xj−1
Z
xj+1
···
=
Z
xn
Z
fX (t)dt = {F ubini} =
···
xn
−∞
Z
+∞
···
−∞
−∞
−∞
−∞
−∞
|
fX (t)dtj dt0
{z
}
fX0 (t0 )
fX0 (x0 ) nazýváme marginální hustotou pravděpodobnosti náhodné veličiny X0 .
Věta 4.11. Platí
Z
fXi1 ,Xi2 ,...,Xik (xi1 , xi2 , . . . , xik ) =
+∞
−∞
Z
dxik+1 . . .
+∞
dxin fX (t)dt
(35)
−∞
kde (i1 , . . . , in ) je permutace n
b.
Příklad 4.12. Nechť (X, Y ) mají SASR, přičemž
exp (−(x + y))
f(X,Y ) (x, y) =
0
(x, y) ∈ R2+
jinde
Nalezněte fY (y).
Z
+∞
fY (y) =
f(x,Y ) (x, y)dx
−∞
fY (y) =
R +∞
0
0
exp(−(x + y))dx = exp(−y)
y<0
jinak
Věta 4.13. Nechť X = (X1 , . . . , Xn ) mají SASR. Potom jsou X1 , . . . , Xn nezávislé, právě když
platí
n
Y
fX (x) =
fXj (xj ) ∀x ∈ Rn
(36)
j=1
42
Důkaz. Na začátku si uvědomme, že platí
Z
x1
Z
xn
···
FX (x) =
−∞
fX (t)dt =
−∞
n Z
Y
xj
j=1 −∞
fxj (tj )dtj =
n
Y
FXj (xj )
j=1
a odtud již snadno dokážeme oba směry implikace
⇐ Tento směr je zřejmý z předchozího tvrzení.
⇒ Protože jsou X1 , . . . , Xn nezávislé, platí
FX (X) =
n
Y
Fxj (xj )
j=1
přičemž každá marginální složka má SASR, takže
n
Y
j=1
Fxj (xj ) =
n Z
Y
xj
Z
j=1 −∞
fXj (tj )dtj =
x1
Z
xn
···
−∞
−∞

n
Y


fXj (tj ) dt
j=1
Věta 4.14 (Vlastnosti fX ). Buď X n−rozměrná náhodná veličina (n ≥ 1). Potom platí
1. fX (x) ≥ 0 skoro všude na Rn
R
2. Rn fX (t)dt
R
3. (∀B ∈ Bn ) (P (X ∈ B)) = B fX (t)dt
Důkaz.
1. OK, protože
Z
x1
Z
x2
···
FX (t) =
−∞
−∞
fX
Distribuční funkce musí růst v každé složce, a tak musí být fX nezáporná (až na množinu
míry nula).
2. OK, protože (i díky předchozímu bodu) víme, že
FX (+∞, . . . , +∞) = 1
3. (a) Platí
P (X ∈ B) = P X−1 (B) = (P ◦ X)−1 (B) = PX (B) = νFX (B)
PX (B) je opět pravděpodobnostní míra, takže na ni můžeme použít R.-N. větu (4.7) s
volbou ν = PX . Potom dle R.-N. věty existuje funkce fX taková, že
Z
(∀B ∈ Bn ) PX (B) =
fX
B
43
(b)
b
Z
P (a < X ≤ b) =
fX (t)dt
a
Z
P ∩+∞
{a
<
X
≤
b
}
=
j
j
j
j=1
b1
Z
bj
···
Z
bn
···
aj
a1
an
fX (t)dt
aj ∈ R ∪ {+∞}
bj ∈ R ∪ {−∞}
Definice 4.15 (Podmíněná distribuční funkce). Nechť jsou X, Y náhodné veličiny. Potom podmíněnou distribuční funkcí náhodné veličiny X při dané hodnotě Y = y ∈ RY definujeme jako
FX|Y = lim P (X ≤ x | y − ε < Y ≤ y + ε)
ε→0+
za předpokladu, že limita existuje. Pokud navíc existuje funkce fX|Y (x|y) ≥ 0 taková, že
Z
x
FX|Y (x, y) =
fX|Y (t|y)dt
∀t ∈ R
−∞
potom ji nazýváme hustotou náhodné veličiny X podmíněnou Y = y.
Lemma 4.16. Nechť je náhodná veličina X absolutně spojitá (má ASR), tj. existují (FX , fX ). Nechť
je dále fX spojitá v x0 . Potom
Z x0 +ε
1
lim
fX (t)dt = fx (x0 )
ε→0+ 2ε x −ε
0
Důkaz.
1
2ε
Z
x0 +ε
fX =
x0 −ε
1
1
P (x0 − ε < X ≤ x0 + ε) =
[FX (x0 + ε) − FX (x0 − ε)]
2ε
2ε
a to již konverguje k F0 X (x0 ) = fX (x0 ).
Věta 4.17. Nechť veličiny X a Y mají SASR a nechť y0 ∈ RY . Nechť dále platí
1. fX,Y (x, y) je spojitá v y0 pro skoro všechna x
2. fY (y) je spojitá v y0 a přitom fy (y0 ) > 0
Potom
∃fX|Y (x, y0 ) =
pro skoro všechna X.
44
fX,Y (x, y0 )
fY (y0 )
Důkaz.
P (X ≤ x, y0 − ε < Y ≤ y0 + ε)
=
P (y0 − ε < Y ≤ y0 + ε)
Rx
R y0 +ε
1
2ε −∞ du y0 −ε dvfX,Y (u, v)
=
= lim
R y0 +ε
1
ε→0+
2ε y0 −ε fY (y)dy
Z y0 +ε
Z x
Z x fX,Y (u, y0 )
1
lemma
fX,Y dv du =
du
=
lim
ε→+∞
2ε
fY (y0 )
y0 −ε
−∞
−∞
|
{z
}
FX|Y = lim
ε→0+
fX|Y (u|y0 )
Věta 4.18 (Transformace náhodné veličiny). Nechť X má SASR, a g : Rn → Rm buď borelovsky
měřitelná, přičemž m ≤ n. Potom Y = g(X) má také SASR a platí
!
Z
∂m
fY (y) =
fX (x)dx
(37)
∂y1 . . . ∂ym
By
kde By = {x ∈ Rn | g(x) ≤ y} za předpokladu, že derivace existuje skoro všude vzhledem Rk λ. Pokud
m = n a g je navíc regulární a prosté zobrazení na otevřené množině G, pro kterou platí G fX = 1,
potom
fX g −1 (y) Jg−1 (y) pro y ∈ g(G)
fY (y) =
(38)
0
jinak
Důkaz.
Z
FY (y) = P( Y ≤ y ) = P (g (X) ≤ y) = P (ω | X ∈ By ) =
| {z }
po slokch
fX
By
takže platí
fY (y) =
∂
(FY (y))
∂y1 . . . ∂ym
Buď nyní ϕ : Rn → Rm regulární a prosté zobrazení, K buď otevřená množina. Potom
Z
Z
f (X) dx =
f (ϕ(t)) Jϕ(t) dt
ϕ−1 (K)
K
a nyní položme ϕ−1 = g. Potom triviálně platí
Z
Z y1
Z
v. o subst.
fX dx
=
...
By
−∞
ym
−∞
fX g −1 (y Jg−1 (y) dy
{z
}
|
fY (y)
Specielním případem předchozí věty je m = n = 1, g ∈ C (1) , g 0 (x) 6= 0, g ryze monotonní.
Potom platí
fY (y) = fX g −1 (y) g −1 (y)
45
Věta 4.19. Buď g ∈ C (1) , g 0 6= 0 po částech ryze monotonní, a nechť Y = g(X). Pokud g −1 (y) 6= ∅,
potom ve všech bodech t ∈ g −1 (y) platí
X fX (t)
fY (y) =
(39)
|g 0 (t)|
−1
t∈g
(y)
Důkaz.
FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ∈
∪m
i=1 Ik (y))
=
m
X
P (X ∈ Ik (y)) =
k=1
=
m
X
P (ak (y) < x ≤ bk (y)) =
k=1
fY (y) =
m
X
[FX (bk (y)) − FX (ak (y))]
k=1
m
X
X
fX (bk (y)) b0 k (y) − fX (ak (y)) a0 k (y) =
t∈g −1 (y)
k=1
fX (t)
|g 0 (t)|
kde ak je klesající a bk je rostoucí.
Věta 4.20. Buď X = (X1 , . . . , Xn ) nezávislé náhodné veličiny, z nich každá má ASR. Potom
X1 + · · · + Xr = Y1 a Xr+1 + · · · + Xn = Y2 jsou nezávislé náhodné veličiny (předopkládáme
1 < r < n).
Důkaz.
fX = Πnj=1 fXj
4.1
4.1.1
⇒ fY1 ,Y2 = fY1 · fY2
Příklady SASR rozdělení
Gamma rozdělení
Gamma(α, β)
1 1 α−1 − βx
x
e
pro α, β, x > 0
X ∼ fX (x) =
Γ(α) β α
Z x
1 1 α−1 − βt
t
e dt (tzv. neúplná Γ funkce)
FX (x) =
α
−∞ Γ(α) β
4.1.2
Beta rozdělení
Beta(p, q)
1
X ∼ fX (x) =
xp−1 (1 − x)q−1 pro p, q > 0, x ∈ (0, 1)
B(p, q)
Z x
1
FX (x) =
tp−1 (1 − t)q−1 dt (tzv. neúplná B funkce)
B(p,
q)
−∞
4.1.3
Rovnoměrné rozdělení
U (G)
Nechť G ⊂ Rn je oblast, potom
X ∼ fX (x) =
1
µ(G)
0
pro x ∈ G
jinak
Specielně pro interval (a, b) můžeme například definovat µ(G) = b − a
46
4.1.4
Exp(θ, µ)
Exponenciální rozdělení
(Jedná se vlastně o specielní případ rozdělení Gaussova).
1 x−µ
X ∼ fX (x) = e− θ
θ
pro x > µ, µ ∈ R, θ > 0
Exp(θ, 0) = Exp(θ) = Gamma(1, θ)
FX (x) = 1 − e−
x−µ
θ
Používá se v Poissonově procesu, řídkých jevech (Xt - počet událostí, které nastaly v časovém
intervalu [0, t]).
Věta 4.21. Buďte X1 , . . . , Xn i.i.d. (identically and independently distributed - nezávisle a stejně
rozdělené) dle Exp(θ). Potom X1 + · · · + Xn ∼ Gamma(n, θ).
Důkaz.
P
Nechť Y1 = nj=1 Xj , potom tedy
fY = fX g −1 (y) Jg−1 (y) přičemž ale
fX (x) =
n
Y
j=1
1
fXj (xj ) = n e−
θ
Pn
j=1 xj
θ
Definujme nyní n−rozměrnou prostorovou transformaci g, kterou poté využijeme při přechodu
k hustotě fY
Y1 = X1 + X2 + · · · + Xn
Y2 = X2
..
..
.
.
Yn = Xn
Inverzi nám stačí spočítat pouze pro složku X1 , inverze pro ostatní složky jsou dány primitivně.
Transformace g −1 je tedy dána předpisem
X1
X2
..
.
= Y1 − Y2 + · · · + Yn
= Y2
..
.
Xn = Yn
a tedy
Jg−1
= 1 −1 −1 · · · −1 0
1
0 ··· 0 .
..
.. = 1
.
0
0
..
0
.
1
0 0
0 ··· 0
1
a platí tedy
fY (y) =
1 −
θn e
0
y1
θ
pro y1 , y2 , . . . , yn > 0
jinak
47
Z
fY1 (y1 ) =
Z
1 − y1
e θ dy2 dy3 . . . dyn =
···
θn
| {z }
G
kde G =
=
1 − y1
e θ
θn
y1 − y2 − · · · − yn > 0
y yj > 0 pro j ∈ n
b
Z
y1
1
y1n−1
· · · dy3 dy3 . . . dyn = n e− θ
θ
(n − 1)!
| {z }
Z
G
Věta 4.22 (Reprodukční vlastnost Gamma rozdělení). Buďte X1 , . . . , Xn i.i.d. náhodné veličiny,
takové že Xj ∼ Gamma(αj , β). Potom platí


n
n
X
X
Xj ∼ Gamma 
αj , β 
j=1
j=1
Důkaz. Pro αj = 1 je důsledkem věty 4.21, jinak vyplývá z momentové vytvářející funkce.
4.1.5
Normální (Gaussovo) rozdělení
N (µ, σ 2 )
(x−µ)2
1
e− 2σ2
pro x, µ ∈ R, σ > 0
2πσ
Nechť σ = 0, µ = 1, potom rozdělení N (0, 1) označujeme jako standardní normální rozdělení, jeho
hustotu pravděpodobnosti označujeme ϕ(x), distribuční funkci označujeme Φ(x), tj.
X ∼ fX (x) = √
x2
1
ϕ(x) = √ e− 2
2π
Z x
t2
1
e− 2 dt
Φ(x) = √
2π −∞
(40)
(41)
Věta 4.23 (Vlastnosti standardního normálního rozdělení).
1. Φ(x) = 1 − Φ(−x)
2. X ∼ N (µ, σ 2 ) ⇒ FX (x) = Φ x−µ
σ
R
3. P (a < X ≤ b) = Φ b−µ
− Φ a−µ
=
σ
σ
b−µ
σ
a−µ
sigma
2
t
√1 e− 2
2π
dt
4. X ∼ N (µ, σ 2 ) ⇒ aX + b ∼ N (aµ + b, a2 σ 2 )
5. X ∼ N (µ, σ 2 ) ⇒
X−µ
σ
∼ N (0, 1)
6. Nechť ∀j ∈ n
b Xj ∼ N (µj , σj2 ), nezávislé náhodné veličiny, nechť aj ∈ R, j ∈ n
b a navíc nechť
∃k ∈ n
b tak, že ak =
6 0. Potom


n
n
n
X
X
X
a j µj ,
a2j σj2 
aj Xj ∼ N 
j=1
j=1
48
j=1
7. Buďte Xj , j ∈ n
b i.i.d. nezávislé náhodné veličiny s rozdělením N (µ, σ 2 ). Potom
n
1X
Xn =
Xj ∼ N
n
j=1
σ2
µ,
n
Xn − µ
n
∼ N (0, 1)
σ
8. X ∼ N (0, 1) ⇒ X 2 ∼ Gamma 12 , 2 = χ2(1)
√
9. X ∼ N (0, 1) ⇒ Y = ex má tzv. lognormální rozdělení LN (µ, σ 2 ) hustotou
1
ln y−µ
1
f
(ln
y)
=
ϕ
pro y > 0
X
σy
σ
fY (y) = y
0
pro y ≤ 0
10. Buďte X, Y ∼ N (0, 1) a nezávislé (tj. i.i.d.). Potom U =
1
π(1 + u)2
fU (u) =
X
Y
má Cauchyovo rozdělení s hustotou
pro každé u ∈ R
Důkaz.
1. Triviální. Stačí provést substituci x → (−x).
2.
1
FX (x) = √
2πσ
Z
x
−
e
(t−µ)2
2σ 2
−∞
1
=√
2πσ
Z
(x−µ)2
σ
e
t
−
µ
dt = substituce
= z =
σ
−z 2
2
dz = Φ
−∞
x−µ
σ
3. Vyplývá z (2), protože
P (a < X ≤ b) = FX (b) − FX (a − 0) = Φ
b−µ
σ
−Φ
a−µ
σ
4. Buď X ∼ N µ, σ 2 , a nechť Y = aX + b, a 6= 0. Potom
2
y−b
1
1
y−b
1
fY (y) =
fX
= √
e− 2σ2 ( a −µ) =
|a|
a
|a| 2πσ
=√
2
1
1
e− 2a2 σ2 (y−(aµ+b)) ∼ N µ0 , σ 02
2π|a|σ
5. Je přímým důsledkem (4), protože pro a = σ1 , b = − σµ platí
X −µ
∼ N (0, 1)
σ
49
= ···
6. Důkaz provedeme indukcí.
n = 2 tj. chceme dokázat, že X1 + X2 ∼ N µ1 + µ2 , σ12 + σ22
Z ∞
Y = X1 + X2 ⇒ fY (y) =
fX1 (v)fX2 (y − v)dv =
tzv. konvoluce
−∞
= √
2π
Z
1
2
∞
e
σ1 σ2
(v−µ1 )2
2
2σ1
−
e
(y−v−µ2 )2
2
2σ2
dv
−∞
přitom obecně platí
Z
Z ∞
2
c+ b 2
(−av 2 +bv+c)
4a
e
dv = e
∞
b
2
e−a(v− 2a ) dv = | substituce | =
−∞
−∞
=e
c+
b2
4a2
Z ∞
−at2
e
r
dt =
−∞
π
e
a
c+
b2
4a2
polože nyní
a=
b=
c=
1
1
+ 2
2
2σ1
σ2
µ1 y − µ2
+
σ12
σ22
−µ21 (y − µ2 )2
−
2σ12
2σ22
potom zřejmě
r
π
e
a
c+
b2
4a2
−
1
=√ p 2
e
2π σ1 + σ22
n→n+1
n+1
X
j=1
Xj =
n
X
(y−µ1 −µ2 )2
2
2(µ2
1 +µ2 )

n+1
X
Xj + Xn+1 ∼ N 
j=1
j=1
µj ,
n+1
X

σj2 
j=1
7. Plyne z (6), stačí volit a = n1 , µj = µ, σj2 = σ 2 . Potom


n
n
n
X
X
X
1
1 2
σ2
1
(6)
Xj ∼ N 
µ,
σ
=
N
µ,
n
n
n2
n
j=1
j=1
j=1
| {z }
Xn
To znamená, že pokud uděláme aritmetický průměr (Xn ) z i.i.d. náhodných veličin, přiblížíme
se střední hodnotě (tj. zmenší se odchylka). Druhá část tvrzení vyplývá přímo z vlastnosti (5).
50
Příklad 4.24. Nechť X ∼ fX (x) =
√ 1 e−
2πσ
(x−µ)2
2σ 2
, σ > 0, tj. X ∼ N (µ, σ 2 ). Potom
b
Z
fX (t)dt = FX (b) − FX (a) = P (a < X ≤ b)
a
P (µ − σ < X ≤ µ + σ) = P (µ − σ ≤ X ≤ µ + σ) (díky spojitosti)
takže
.
P (µ − σ ≤ X ≤ µ + σ) = Φ (1) − Φ (−1) = 0.6826
| {z }
1−Φ(1)
.
P (µ − 2σ ≤ X ≤ µ + 2σ) = Φ(2) − Φ(−2) = 0.9545
.
P (µ − 3σ ≤ X ≤ µ + 3σ) = Φ(3) − Φ(−3) = 0.9973
Věta 4.25P(Pearsonovo rozdělení χ2 ). Nechť X1 , . . . , Xn jsou i.i.d. veličiny s rozdělením N (0, 1).
Pak X 2 = nj=1 Xj2 má rozdělení χ2 s n stupni volnosti (značíme χ2 (n)) s hustotou
(
2Γ(
fχ2 (y) =
n
1
n
2
)
y 2 −1 − y2
e
2
pro y > 0
0
(42)
jinak
Důkaz.
V zásadě máme dvě možnosti. Buď se můžeme mořit s transformací hustot χ2 = g(X), nebo na to
můžeme jít fikaně přes reprodukční vlastnost Gamma rozdělení. A my fikaní jsme, a navíc víme, že
1
2
Xj ∼ N (0, 1) ⇒ Xj ∼ Gamma
,2
2
takže snadno z reprodukční vlastnosti Gamma rozdělení ukážeme, že platí
n
X
Xj2 ∼ Gamma
n
j=1
4.1.6
2
,2
Studentovo rozdělení
Věta 4.26 (Studentovo rozdělení). Buďte X, Y takové náhodné veličiny, že X ∼ N (0, 1), Y ∼
χ2 (n). Potom náhodná veličina
X
T =q
(43)
Y
n
má Studentovo rozdělení t(n) s n stupni volnosti a s hustotou
fT (t) =
1
B
n 1
2, 2
n
n 2 (n + t2 )−
51
n+1
2
pro každé t ∈ R
(44)
Důkaz.
q
Nechť Z = Yn , potom g −1 : y = uz 2 , a tedy
fZ (z) = 2nzfY (uz 2 ) pro každé z > 0
Z ∞
dle vztahu X
T =
=
zfX (zt)fZ (z)dz =
= fT (t) =
pro podíl Z
0
2 n2 −1
Z ∞
2
nz
1
1 − z 2 t2
− nz2
2
(2nz)
e
dz =
z√ e
=
2
2Γ n2
2π
0
Z ∞
z 2 (t2 +n)
z 2 (t2 +n)
= x 1 n n2 1
n
−
2
2
z e
=√
dz = substituce
=
1
Γ n2 0
dz = √t21+n x− 2 dx 2π 2
2 n
=√
π 2
4.1.7
Fischerovo rozdělení
Věta 4.27 (Fischerovo rozdělení). Buďte X, Y nezávislé náhodné veličiny, takové že X ∼ χ2 (m),
χ2 (n). Potom náhodná veličina
X/m
(45)
Y /n
má tzv. Fischerovo rozdělení F (m, n) se dvěma stupni volnosti (m, n), a s hustotou
fF (u) =
mm
1
B
2
m
2, 2
n
n
m
m − m+n
2
u 2 −1 1 + u
n
52
pro každé u > 0
(46)
5
Charakteristiky náhodných veličin
5.1
Integrál dle míry
Uvažujme jednoduchou funkci ϕ : Ω → R, tj. fci tvaru
ϕ(ω) =
n
X
aj IAj (ω) pro každé ω ∈ Ω
j=1
kde Aj ∈ A, aj ∈ R. Integrál takové funkce ϕ vzhledem k míře P definujeme jako
Z
ϕdP =
Ω
n
X
aj P(Aj )
j=1
Nyní uvažujme borelovsky měřitelnou funkci X : Ω → R, X > 0. Potom můžeme integrál funkce X
vzhledem k míře P definovat například jako
Z
Z
XdP = sup
ϕdP | 0 ≤ ϕ ≤ X pro všechna ω ∈ Ω
ϕ
Ω
Ω
a u Vrány jsme to dělali obdobně, totiž
Z
∃ϕn % X taková, že
Z
XdP = lim
n→∞ Ω
Ω
ϕn dP
Nechť
X : Ω → R je Rnyní libovolná borelovsky měřitelná. Potom integrál
R
+
−
Ω X dP < ∞ nebo Ω X dP < ∞, a potom definujeme
Z
Z
Z
+
XdP =
X dP −
X − dP
Ω
Ω
R
Ω XdP
existuje, pokud
Ω
R
Přitom EX = Ω XdP nazýváme střední hodnotou náhodné veličiny X. Střední hodnota existuje,
R
R
pokud Ω X + dP < ∞ nebo Ω X − dP
R <+∞R (v −tom případě je EX = ±∞. Říkáme, že X je
integrovatelná vzhledem k P pokud Ω X , Ω X < ∞. Pro vícerozměrnou náhodnou veličinu
X = (X1 , . . . , Xn ) definujeme střední hodnotu „po složkách,“ tj. EX = (EX1 , . . . , EX2 ).
Věta 5.1 (Vlastnosti EX).
1. E(αX + β) = αEX + β pro EX < ∞
P
P
n
2. E
X
= nj=1 EXj pro EXj < ∞, j ∈ n
b
j
j=1
3. X ≤ Y a.s. (almost sure = skoro jistě = až na množinu nulové míry P ). Potom EX ≤ EY
(pokud existují).
4. X ≥ 0 a.s. a EX = 0, potom X = 0 a.s.
5. (Fatou) Nechť Xn ≥ 0. Potom
Z
Z
lim inf Xn dP ≤ lim inf
Ω n→∞
n→∞
53
Xn dP
6. (Monotonne convergence theorem) Nechť 0 ≤ Xn % X a.s. Potom
lim EXn = E lim Xn
n→∞
n→∞
7. (Fubini) Uvažujme pravděpodobnostní prostory (Ω1 , A1 , P1 ), (Ω2 , A2 , P2 ), a definujme Ω =
Ω1 × Ω2 . Přitom ale A1 × A2 , definovaná jako
A1 × A2 = {A1 × A2 | A1 ∈ A1 , A2 ∈ A2 }
není σ−algebrou na Ω, a tak zavádíme A = σ(A1 × A2 ). Nyní definujme P = P1 ⊗ P2 , pro
kterou platí
P1 ⊗ P2 (A1 × A2 ) = P1 (A1 ) · P2 (A2 )
pro ∀A1 ∈ A1 , ∀A2 ∈ A2
Dle věty o jednoznačném rozšíření míry Rje P součinová míra definovaná na (Ω, A). Buď nyní
X : Ω1 × Ω2 → R borelovská taková, že Ω1 ×Ω2 XdP1 ⊗ dP2 existuje. Potom platí
Z
tzn.
E P1 ⊗P2 (X) = E P1 E P2 (X)
Z Z
XdP1 ⊗ dP2 =
XdP2 dP1
Ω1 ×Ω2
Ω1
Ω2
I tohle má spojitost s Vránovskou teorií, pokud totiž zvolíme (Ω1 , A1 , P1 ) = (Ω2 , A2 , P2 ) =
(R, B, λ) a současně X(ω1 , ω2 ) = f (x, y), potom
Z
Z
Z Z
f dxdy =
f d (λ ⊗ λ) =
f dy dx
R2
R2
R
R
8. (Záměna proměnných - věta o přenosu integrace) Buďte X = (X1 , . . . , Xn ) náhodné
veličiny na (Ω, A) a g : Rn → R borelovsky měřitelná funkce. Potom
Z
Z
g ◦ XdP =
g(x)d P ◦ X−1
| {z }
Ω
Rn
PX
za předpokladu existence alespoň jednoho z integrálů.
9. Buďte X1 , . . . , Xn nezávislé náhodné veličiny na (Ω, A), takové že EXj < ∞ pro všechna
j∈n
b. Potom


n
n
Y
Y
E
Xj  =
EXj
j=1
j=1
Důkaz.
Q
Víme, že Xj jsou nezávislé, takže FX = nj=1 FXj . Obdobně PX = PX1 ⊗ · · · ⊗ PXn , protože
PX (B1 × B2 × · · · × Bn ) = P(X1 ∈ B1 , . . . , Xn ∈ Bn ) =
= P(X1 ∈ B1 ) · · · P(Xn ∈ Bn ) = PX1 (B1 ) · · · PXn (Bn )
54
Potom ale

E
n
Y


Z
Xj  =

Z
=
Ωn
n
Y


Ω
j=1
n
Y


Z
Xj  dP =
j=1
Ωn
n
Y


Xj  dPX =
j=1

F ub.
Xj  dPX1 (B1 ) · · · dPXn (Bn ) =
n Z
Y
Xj dPXj
j=1 Ω
j=1
Definice 5.2 (Momenty). Buď X náhodná veličina a nechť k ∈ N. Pokud odpovídající střední
hodnoty existují, potom k−tý obecný moment X definujeme jako
µ0k (X) = E X k
(47)
a k−tý centrální moment X definujeme jako
i
h
µk (X) = E (X − EX)k
(48)
Specielně√pro k = 2 definujeme rozptyl DX = µ2 (X). Směrodatnou odchylku σ definujeme jako
σ(X) = DX.
Věta 5.3 (Vlastnosti DX).
1. D(αX + β) = α2 DX pokud odpovídající střední hodnota existuje
2. D(X) = E X 2 − (EX)2
3. E X 2 ≥ (EX)2
P
P
n
4. E
X
= nj=1 DXj pokud jsou Xj nezávislé
j
j=1
5. EX 2j < ∞ ⇒ EX < ∞ a DX < ∞
Definice 5.4 (Standardizovaná náhodná veličina). Buď X náhodná veličina, pro kterou EX < ∞
a DX < ∞. Potom tzv. standardizovanou náhodnou veličinu U (tj. náhodnou veličinu, pro
kterou EU = 0 a DU = 1) definujeme jako
U=
X − EX
√
DX
(49)
c
Definice 5.5 (ikmost
náhodné veličiny). Buď X náhodná veličina a U odpovídající standardizovaná náhodná veličina. Potom šikmost náhodné veličiny X definujeme jako
µ3 (U ) =
µ3 (X)
[σ(X)]3
(50)
c
Definice 5.6 (pičatost
náhodné veličiny). Buď X náhodná veličina a U odpovídající standardizovaná náhodná veličina. Potom špičatost náhodné veličiny X definujeme jako
µ4 (U ) =
µ4 (X)
[σ(X)]4
55
(51)
0(1)
Věta 5.7. Buďte f1 , f2 hustoty náhodných veličin a nechť µk
nechť lze f1 − f2 rozložit do mocninné řady. Potom f1 = f2 .
0(2)
pro každé k ∈ N, a navíc
= µk
Důkaz. Integrací členů mocninné řady.
5.2
Charakteristická funkce náhodné veličiny
Definice 5.8 (Charakteristická funkce).
Buď X náhodná veličina. Potom funkci ϕX : Rn → C danou předpisem
Z
Z
izX
izX
eizX dPX
e dP =
ϕX (z) = E e
=
(52)
Rn
Ω
nazýváme charakteristickou funkcí náhodné veličiny X.
Věta 5.9 (Vlastnosti charakteristické funkce).
1. ϕX vždy existuje.
2. ϕX je omezená, spojitá a platí ϕX (0) = 1.
3. Buď X, E |Xj |m < ∞. Potom ϕX ∈ C (m) a navíc platí
∂m
ϕX (z) = im E Xj1 . . . Xjm eizX
∂zj1 · · · ∂zjm
(53)
4.
E Xjs1 · Xjr2 = (−1)r+s ir+s
a pokud X ∈ R1 , potom
∂ r+s ϕX
(θ)
∂zjs1 . . . ∂zjr2
E (X r ) = (−1)r ir ϕrX (0)
5. Buď Y = g (X), kde g : Rn → Rm je borelovsky měřitelná. Potom
ϕY (z) = E eizg(X)
(54)
6. Buď X náhodná veličina s rozdělením N (µ, σ 2 ). Potom
ϕX (z) = eizµ−
z2 σ2
2
(55)
Důkaz.
1.
izX
ϕX (z) = E e
Z
=
izX
e
X
dP
R
Z
=
56
Z
cos(zx)dP +i sin(zx)dPX
|
{z
} |R
{z
}
existuje
existuje
R
X
2. omezenost
Z
|ϕX (z)| = e
izX
Rn
Z
dP ≤
X
Rn
izX X
e dP =
Z
dRX = PX (Rn )
Rn
spojitost
Z
izn X
lim ϕX (z) = lim
zn →z
zn →z
e
X
dP
Z
lim eizn X dPX = ϕX (z)
==
Rn
Rn
zn →z
přičemž limitu a integrál můžeme zaměnit, protože eizX ≤ 1 a jednotková funkce 1 je
v pravděpodobnostní míře integrabilní.
3. Buď m = 1 (pro m ≥ 1 je princip důkazu stejný).
Z 1
∂ϕX (z)
1
= lim (ϕX (z + ej t) − ϕX (z)) = lim
ei(z+ej t)x − eizx dPX =
t→0 t
t→0 t Rn
∂zj
itxj
itxj
Z
Z
e
−1
−1
izX e
X
izX
= lim
e
dP =
e
lim
dPX =
t→0 Rn
t→0
t
t
n
R
|
{z
}
ixj
Z
=i
xj eizX dPX = iE Xj eizX
Rn
přitom záměnu mohu provést, protože
itx
e j − 1
≤ 2 |X1 | ∈ L1
t
vzhledem k míře P
4. Bez důkazu.
5. Buď Y = AX + b, kde A ∈ Rm,n , b ∈ Rm . Potom
Z
Z
T
i(Ax+b)z
X
ibz
ei(A z)x dPX = eibz ϕX AT z
ϕY (z) =
e
dP = e
Rn
Rn
6. Nechť Y ∼ N (0, 1), potom můžeme spočíst tzv. momentovou vytvářející funkci (která ale
narozdíl od funkce charakteristické nemusí existovat vždy)
Z ∞
Z ∞
zy−y 2
z2
1
zY
zy
mY (z) = E e
=
e fY (y)dy = √
e 2 dy = e 2
2π −∞
−∞
ϕY (z) = mY (iz) = e−
z2
2
a můžeme tedy využít věty o analytickém prodloužení funkce z husté podmnožiny (v našem
případě R), na celou množinu C
ϕX (z) = ϕµ+σY (z) = ϕY (σz)eizµ
57
Věta 5.10. Nechť X = X1 , . . . , Xn jsou nezávislé náhodné veličiny. Potom
ϕX (z) =
n
Y
ϕXj (zj )
(56)
j=1
Důkaz.

ϕX (z) = E e
Pn
j=1 (zj Xj )
=E
n
Y


eizj Xj  =
Z
Rn
j=1
Z
= | nezávislost | =
n
Y
n
Y


eizj Xj  dPX =
j=1
eizj Xj d PX1 ⊗ PX2 ⊗ · · · ⊗ PXn =
Rn j=1
n Z
Y
= | Fubini | =
izj xj
e
Xj
dP
Rn
j=1 |
{z
}
ϕXj (zj )
Věta 5.11. Buď X náhodná veličina na prostoru (Ω, A) s pravděpodobnostním rozdělením PX .
Potom ϕX jednoznačně určuje rozdělení PX .
Důkaz.
e = X
f1 , . . . , X
fn i.i.d. náhodné veličiny s rozdělením N 0, σ 2 . Potom platí
Buďte X
fX
x) =
e (e
n
Y
Pn 2 x
ej
exp − j=1
2σ 2
xj ) =
fXej (e
n
(2πσ 2 ) 2
j=1
ϕX
e (z) =
n
Y
j=1
e = x − µ, kde µ ∈
Nyní nechť x
Rn .
−zj2 σ 2
exp −
2
!
2
σ
= exp − kzk
2
Potom ale
fX
e (x − µ) =
1
n
(2πσ 2 ) 2
ϕX
e
x−µ
σ2
Nyní ověřme jednoznačnost, tj. předpokládejme že X ∼ PX a Y ∼ PY a pokusme se dokázat že
⇒ PX = PY
Z
x−µ
e
X
X
f (x − µ) dP =
ϕX
dP = X má ASR =
n
e
2
2
σ
n
n
2
(2πσ )
R
R
Z Z
x−µ
e
=K
exp i
,
x
f
(e
x
)
de
x
dPX = | Fubini | =
e
X
2
σ
n
n
R
R
Z
Z
ixe
x
iµe
x
X
=K
exp − 2 fX
x)
exp
dP
de
x
e (e
σ
σ2
Rn
Rn
ϕX = ϕY
Z
1
58
a obdobným způsobem pro Y, tj.
Z
Z
f (y − µ) dPY = · · · = K
exp (· · ·) fY
y) ϕY
e (e
e
Rn
Rn
e
y
σ2
de
y
Musíme ale ještě ukázat, že to dává stejný výsledek pro libovolné borelovské množiny.
Z
Z
f (x − µ) dPX = f (y − µ) dPY
R
R
a označme H = {g(x) : g(x) = f (x − µ) , σ > 0, µ ∈ Rn }, tj. (∀g ∈ H) gdPX = gdPY a
označme C0 = g ∈ C (0) (Rn ) : limkxk→+∞ |g((x))| = 0 . Ze Stone-Weierstrasseova teorému vyplývá, že H = C0 vzhledem k kgk∞ . (Pojem „hustá v“ je topologický, a z topologických důvodů
tam potřebujeme normu.)
Věta 5.12. Nechť X = (X1 , . . . , Xn ) jsou náhodné veličiny. Potom X jsou nezávislé, právě tehdy
když platí
n
Y
ϕX (z) =
ϕXj (zj )
(57)
j=1
Důkaz.
⇒ To už máme hotové. (Věta 5.10)
⇐
n
Y
ϕXj (zj ) =
j=1
n Z
Y
j=1
Z
= | Fubini | =
exp (izj xj ) dPXj

Z
=
dPX1 · · ·
R
R
Z
n
X
dPXn exp i
R
exp (izX) d PX1 ⊗ · · · ⊗ PXn = | dle předpokladu | =
Rn

z j xj  =
j=1
Z
exp (izX) dPX
Rn
Pro ověření nezávislosti bychom vlastně měli dokázat, že
P X∈
×nj=1 Bj
X
∈B =P
×nj=1 Bj
=
n
O
PXj ×nj=1 Bj = | def. součinu | =
j=1
=
n
Y
Xj
P
(Bj ) =
n
Y
P (Xj ∈ Bj )
j=1
j=1
Věta 5.13. Buďte X = X1 , . . . , Xn nezávislé náhodné veličiny a nechť
Y =
n
X
Xj
j=1
Potom platí
ϕY (z) =
n
Y
ϕXj (z)
j=1
59
pro každé z ∈ R
(58)
Důkaz.


ϕPnj=1 Xj (z) = E exp iz
n
X

Xj  = E 
j=1
n
Y

exp (izXj ) = | nezávislost & Fubini | =
j=1
n
Y
=
j=1
5.3

E (exp (izXj ))
{z
}
|
ϕ Xj
Momentová vytvářející funkce
Definice 5.14 (Momentová vytvářející funkce). Buď X = (X1 , . . . , Xn ) náhodná veličina. Potom
mX (z) = E (exp (zX))
(59)
nazýváme momentovou vytvořující funkcí (za předpokladu existence příslušné střední hodnoty).
Předcházející definice je již na první pohled velice podobná definici charakteristické funkce (5.8),
a momentová vytvářející funkce také má s funkcí charakteristickou mnoho společných vlastností.
Nicméně dvě důležité vlastnosti - existenci a omezenost - momentová vytvářející funkce postrádá.
Pro momentovou vytvářející funkci platí
ϕX (z) = mkX (iz)
a odtud již vyplývá další vlastnost
µ0k = E X k = mkX (0)
Věta 5.15. Buďte X1 , . . . , Xn nezávislé náhodné veličiny, a nechť Xj ∼ Gamma (αj , β) , j ∈ n
b.
Potom platí


n
n
X
X
Xj ∼ Gamma 
αj , β 
(60)
j=1
j=1
Důkaz. V důkazu efektivně využijeme vlastností charakteristické funkce (konkrétně věty 5.10), a
protože víme že pro rozdělení Gamma(α, β) je charakteristická funkce dána předpisem
ϕX (z) = (1 − βiz)−α
snadno dopočítáme, že
ϕPnj=1 Xj (z) =
n
Y
ϕXj (z) =
j=1
n
Y
(1 − βiz)−αj = (1 − βiz)−
j=1
a tvrzení věty tedy evidentně platí.
60
Pn
j=1
αj
= (1 − βiz)α
0
Věta 5.16. Buďte X1 , . . . , Xn nezávislé náhodné veličiny. Potom jsou nezávislé i veličiny
Y1 = X1 + · · · + Xr
Y2 = Xr+1 + · · · + Xn
Důkaz. Dokazování přes součin fY1 · fY2 = fY1 ,Y2 by bylo moc komplikované, ale my jsme moc líní
a tak na to půjdeme přes fintu fň - přes charakteristickou funkci. Platí



r
n
X
X
ϕY1 ,Y2 (z, ze) = E [exp (i (zY1 + zeY2 ))] = E exp i
zXj + i
zeXj  =
j=1
j=r+1



n
X
zj Xj  = E [exp (izX)] = ϕX (z) =
= z = (z, . . . , z , ze, . . . , ze) = E exp i
| {z } | {z } j=1
r
=
n
Y
j=1
n−r
E (exp (izj Xj )) =
{z
}
|
ϕXj (zj )
r
Y
n
Y
E (exp (izXj ))
E (exp (ie
z Xj ))
j=r+1
j=1
{z
|
}|
ϕY1
{z
ϕY2
}
Definice 5.17 (α− kvantil, medián). Buď X ∼ Fx náhodná veličina, a nechť α ∈ (0, 1). Potom bod
xα nazýváme α− kvantilem rozdělení X, právě když platí
xα = inf {x : F(x) ≥ α}
(61)
Pokud je FX ostře rostoucí a spojitá, potom je xα takový bod z R, že
FX (xα ) = α tj.
xα = F−1
X (α)
Specielním případem α−kvantilu je tzv. medián, tj. x 1 neboli 12 −kvantil. Důležitý je i mód roz2
dělení, tj. bod ve kterém hustota nabývá maxima.
Věta 5.18. Buď X taková náhodná veličina, že její rozdělení je symetrické kolem 0. Potom platí
xα = −x1−α
Definice 5.19. Definujme prostory L1 , L2 jako
L1 (Ω, A, P ) = {X je náh. vel. : EX < ∞}
L2 (Ω, A, P ) = X je náh. vel. : E X 2 < ∞
tj. prostor funkcí integrabilních vzhledem k míře P.
Věta 5.20. L1 je lineární vektorový prostor a E je lineární funkcionál na L1 .
Platí tedy
X, Y ∈ L1
⇒
αX + Y ∈ L1
E (αX + Y ) = αEX + EY
61
(62)
Věta 5.21. Platí
X ∈ L1
⇔ |X| ∈ L1 a |EX| ≤ E|X|
Důkaz.
|X| = X + + X −
|EX| = |E(X + − X − )| = |EX + − EX − | ≤ EX + + EX − = E(X + + X − ) = E|X|
Důsledek 5.22. Každá omezená náhodná veličina X je integrovatelná (vzhledem k míře P).
Věta 5.23. Buďte X, Y náhodné veličiny z L1 , a nechť X = Y skoro všude vzhledem k míře P.
Potom
EX = EY
Věta 5.24 (Schwarzova nerovnost). Buďte X, Y ∈ L2 . Potom X, Y ∈ L1 a platí
√
|E(XY )| ≤ EX 2 · EY 2
(63)
Rovnost nastává právě když existuje α ∈ R takové, že P (αX + Y = 0) = 1 nebo P (X + tY = 0) = 1.
Důkaz. Pro libovolné α ∈ R platí P (αX + Y )2 ≥ 0 = 1 a proto E [αX + Y ]2 ≥ 0, tj. α2 EX 2 +
2αE(XY ) + EY 2 ≥ 0. Aby nerovnost platila pro každé α, musí být diskriminant pravé strany
nekladný, tj. musí platit
D = 4 E 2 (XY ) − EX 2 · EY 2 ≤ 0
tj. E 2 (XY ) − EX 2 · EY 2 ≤ 0
a tím je první část tvrzení (tj. platnost vlastní Schwarzovy nerovnosti) dokázána. Rovnost nastává
právě když existuje α takové, že E (αX + Y )2 = 0, tj. αX + Y = 0 skoro všude, tj.
P(αX + Y = 0) = 1
Věta 5.25. L2 (Ω, A, P) je lineární normovaný prostor s pseudoskalárním součinem hX, Y i =
E(XY ).
Věta 5.26 (Riesz-Fischer). Prostor L2 je Hilbertův, tj. úplný lineární prostor se skalárním součinem.
Důsledek 5.27.
1. Buďte (Xn )∞
n=1 ∈ L2 a nechť Xn → X. Potom X ∈ L2 .
2. Buďte Xn , Yn ∈ L2 takové že Xn → X, Yn → Y . Potom
hXn , Yn i → hX, Y i
tj.
E (Xn Yn ) → E (XY )
62
3. Buďte Xn ∈ L2 , Xn → X. Potom
kXn k → kXk
E (Xn Xn ) → E X 2
4. X ⊥ Y ⇔ E(XY ) = 0
5. |hX, Y i| ≤ kXk · kY k
63
6
Limitní věty teorie pravděpodobnosti
6.1
Pravděpodobnostní nerovnosti
Věta 6.1 (Markovova nerovnost). Buď X ∈ L1 . Potom pro každé ε > 0 platí
P (|X| ≥ ε) ≤
E|X|
ε
(64)
Důkaz.
Z
Z
Z
S
S:|x|≥ε
R
fX (x)dx = εP (|X| ≥ ε)
|x|fX (x)dx ≥ ε
|x|fX (x)dx ≥
E|X| =
Věta 6.2 (Čebyševova nerovnost). Buď X ∈ L2 . Potom pro každé ε > 0 platí
P (|X| ≥ ε) ≤
EX 2
ε2
(65)
Důkaz.
EX 2 =
Z
X 2 dP =
Ω
Z
X 2 dP +
{|X|≥ε}
Z
X 2 dP ≥
{|X|<ε}
Z
dP = ε2 P (|X| ≥ ε)
{|X|≥ε}
Definice 6.3 (Kovariance). Buďte X, Y náhodné veličiny z L2 . Potom kovarianci definujeme jako
Cov(X, Y ) = E [(X − EX)(Y − EY )]
Věta 6.4 (Vlastnosti kovariance).
(66)
1. Cov(X, Y ) = E(XY ) − EX EY
2. Cov(X, X) = DX
3. Cov(X, Y ) = 0 pro X, Y nezávislé
Definice 6.5 (Korelační koeficient). Buďte X, Y náhodné veličiny z L2 . Potom korelační koeficient
definujeme jako
Cov(X, Y )
√
%(X, Y ) = √
(67)
DX DY
Pokud %(X, Y ) = 0, potom říkáme že X, Y jsou nekorelované.
Z vlastností kovariance vyplývá, že pokud jsou X, Y nezávislé, potom jsou nekorelované.
Věta 6.6. Buďte X, Y náhodné veličiny z L2 , a nechť %(X, Y ) = 1 resp. %(X, Y ) = −1. Potom
existuje β > 0 resp. β < 0 takové, že
Y − EY = β (X − EX)
64
Důkaz. Ze Schwarzovy nerovnosti platí
√
EX 2 · EY 2
√
|E [(X − EX)(Y − EY )]| ≤ DX · DY
|E(XY )| ≤
Definice 6.7 (Kovarianční matice). Buďte X = (X1 , . . . , Xn ) náhodné veličiny z L2 . Potom kovarianční matici definujeme jako
C(X) = (Cov (Xi , Xj ))i,j∈bn
(68)
Věta 6.8. Kovarianční matice je symetrická a PSD matice s diagonálou C = D(X).
Důkaz. Buď α ∈ Rn , α 6= θ a definujme Y = αX. Potom platí


2
n
n
X
X
DY = E (αX − E (αX))2 = E 
αj Xj − E 
αj Xj  =
j=1

=E
n
X
2

αj (Xj − EXj ) = E 
j=1
n
X
j=1

αi αj (Xi − EXi ) (Xj − EXj ) =
i,j=1
=
n
X
i,j=1
αi (Xi − EXi ) (Xj − EXj ) αj = αCαT ≥ 0
{z
}
|
Cij
pro každé α ∈ Rn . Symetričnost a diagonála jsou evidentní. (Pozorný čtenář si jistě rád dokáže
sám.)
6.2
Konvergence na prostoru náhodných veličin
Definice 6.9 (Konvergence). Buďte (Xn )∞
n=1 , X náhodné veličiny. Potom definujeme následující
typy konvergence:
bodová konvergence
Xn → X
⇔ ∀ω ∈ Ω
lim Xn (ω) = X(ω)
(69)
n→∞
konvergence „skoro jistě“
s.j.
Xn → X
⇔ P ω : lim Xn (ω) = X(ω) = 1
(70)
n→∞
1
konvergence v Lp , kde Lp je lineární normovaný prostor s normou kXk = (E|X|p ) p pro p ≥ 1
Lp
Xn → X
⇔ kXn − Xkp = E |Xn − X|p → 0
S
(71)
přičemž pro n = 2 značíme tento typ konvergence jako Xn → X a nazýváme ho konvergencí
podle středu.
65
konvergence podle pravděpodobnosti
P
Xn → X ⇔ ∀ε lim P (ω : |Xn (ω) − X(ω)| ≥ ε) = 0
n→∞
P
Xn → X
⇔ ∀ε
lim P (ω : |Xn (ω) − X(ω)| < ε) = 1
n→∞
Věta 6.10. Buďte (Xn )∞
n=1 , X náhodné veličiny. Potom
|Xn − X|
P
Xn → X ⇔ lim E
=0
n→∞
1 + |Xn − X|
(72)
(73)
(74)
Důkaz.
⇒
platí X = 0
p
P
Xn → X ⇔ Xn − X → 0
P
Xn → 0 tzn. P (|Xn | ≥ ε) → 0 pro ∀ε
Z
|Xn − X|
|Xn − X|
0≤E
=
dP = |X = 0| =
1 + |Xn − X|
Ω 1 + |Xn − X|
Z
Z
|Xn − X|
|Xn − X|
=
dP +
dP ≤
{ω:|Xn |≥ε} 1 + |Xn − X|
{ω:|Xn |<ε} 1 + |Xn − X|
Z
Z
≤
1dP +
εdP ≤ P ({ω : |Xn | ≥ ε}) + ε pro ∀ε > 0
{ω:|Xn |≥ε}
⇐
E
|Xn |
1 + |Xn |
{ω:|Xn |<ε}
Z
=
Ω
Z
Z
|Xn |
|Xn |
ε
dP ≥
dP ≥
dP =
1 + |Xn |
1
+
|X
|
1
+
ε
n
{|Xn |≥ε}
{|Xn |≥ε}
ε
=
P (|Xn | ≥ ε) ≥ 0
1+ε
Věta 6.11. Buď Xn posloupnost náhodných veličin. Potom platí
1.
Lp
Xn → X
2.
s.j.
Xn → X
P
⇒ Xn → X
(75)
P
⇒ Xn → X
(76)
Důkaz.
1.
Z
Z
0 ≤ P (|Xn − X| ≥ ε) =
1dP ≤
{ω:|Xn −X|≥ε}
=
1
εp
Z
|Xn − X|p dP =
Ω
66
Ω
|Xn − X|p
dP =
εp
1
E |Xn − X|p → 0
εp
2.
lim E
n→∞
|Xn − X|
1 + |Xn − X|
|Xn − X|
n→∞ 1 + |Xn − X|
=E
lim
= E(0) = 0
P
Věta 6.12. Buď Xn taková posloupnost náhodných veličin, že Xn → X. Potom existuje taková
s.j.
podposloupnost (nk )k≥1 , že Xnk → X.
Důkaz. Dle předpokladu platí
P
Xn → X
⇒ E
|Xn − X|
1 + |Xn 0X|
→0
a existuje tedy vybraná posloupnost (nk )∞
k=1 taková, že


∞
X
|Xnk − X| 
1
E
< k
1 + |Xnk − X|
2
j=1
a díky větě o záměně sumy a limity pro monotonně konvergentní posloupnosti platí
!
X
∞
∞
∞
X
X
|Xnk − X|
|Xnk −|
1
E
<∞
=
E
≤
1 + |Xnk − X|
1 + |Xnk −|
2k
k=1
k=1
a tedy
∞
X
k=1
k=1
|Xnk −|
<∞
1 + |Xnk −|
konverguje skoro jistě (vzhledem k míře P), a tedy i jednotlivé členy konvergují skoro jistě k nule.
Lp
P
Věta 6.13. Buď Xn → X a nechť |Xn | ≤ Y ∈ Lp pro ∀n. Potom |X| ∈ Lp a platí Xn → X.
s
s
Věta 6.14. Buďte (Xm )∞
n=1 náhodné veličiny do R , a nechť g : R → R borelovsky měřitelná a
spojitá. Potom platí
P
1. Xn → X
s.j.
2. Xn → X
P
⇒ g (Xn ) → g(X)
s.j.
⇒ g (Xn ) → g(X)
Důkaz.
P
P
1. Důkaz provedeme sporem: nechť tedy Xn → X a současně g (Xn ) 9 g(X). To znamená, že
∃ε ∃δ ∃ (nk )∞
k=1 P (|g (Xnk ) − g(X)| ≥ ε) ≤ δ
ale z konvergence Xn vyplývá, že existuje posloupnost vybraná nkj
s.j.
P
∞
j=1
s.j.
taková, že Xn → X.
Dle bodu (2) g (Xn ) → g(X) a tedy g (Xn ) → g(X) což je ale spor, protože jsme předpokládali
P
že g (Xn ) 9 g(X).
67
s.j.
2. Nechť Xn → X a označme
A = {ω : Xn (ω) 9 X(ω)}
a tedy dle předpokladu platí P(A) = 0. Potom tedy P AC = 1 a pro ω ∈ AC tedy (díky
spojitosti) platí
lim g (Xn (ω)) = g lim Xn (ω) = g (X(ω))
n→∞
n→∞
s.j.
P
P
s.j.
Poznámka 6.15. Buď Xn → a ∈ Rs resp. Xn → a ∈ Rs . Potom g (Xn ) → g(a) resp. g (Xn ) → g(a)
pro g borelovsky měřitelnou a spojitou v bodě a.
P
P
Důsledek 6.16. Nechť Xn → X a Yn → Y . Potom
P
1. αXn + Yn → αX + Y
P
2. Xn Yn → XY
P
3. Xn /Yn → X/Y
Věta 6.17. Buď (Xn )∞
n=1 taková posloupnost náhodných veličin, že EXn = µ pro ∀n ∈ N a
limn→∞ DXn = 0. Potom platí
P
1. Xn → µ
S
L
2. Xn → µ, tj. Xn →2 µ
Důkaz.
1. Dosadíme do Čebyševovy nerovnosti
P (|Xn − EXn | ≥ ε) ≤
DXn
→0
ε2
2. teď nevím
6.3
Zákony velkých čísel
Věta 6.18 (Čebyšev). Buď (Xn )∞
n=1 posloupnost náhodných veličin na prostoru L2 , a nechť supj∈N DXj <
∞. Potom platí
n
1X
P
EXj → 0
(77)
Xn −
n
j=1
kde
n
1X
Xn =
Xj
n
j=1
68
Důkaz.

E Xn

n
n
X
1
1X
=E
Xj  =
EXJ
n
n
j=1

D Xn
1
=E
n
n
X
j=1
j=1

n
1 X
c

Xj = 2
DXj ≤
n
n
j=1
a z Čebyševovy nerovnosti (6.2) vyplývá, že


∞
X
1
c
P Xn −
EXj ≥ ε = 2 → 0
n
nε
j=1
odkud již dle vyplývá platnost tvrzení.
Důsledek 6.19 (Slabý zákon velkých čísel). Buďte (Xn )∞
n=1 i.i.d. náhodné veličiny na prostoru L2 ,
a označme µ = EXj , σ 2 = DXj < ∞. Potom
P
Xn → µ
(78)
Věta 6.20 (Silný zákon velkých čísel). Buďte (Xn )∞
n=1 i.i.d. náhodné veličiny na L2 a nechť µ =
EXj , σ 2 = DXj < ∞. Potom platí
s.j.
1. Xn → µ
L
2. Xn →2 µ
Důkaz.
L
DXn → 0 ⇒ Xn →2 µ
Předpokládejme, že µ = 0. Potom ze slabého zákona velkých čísel vyplývá, že
P
Xn → µ
a existuje tedy taková vybraná posloupnost ∃ (nk )∞
k=1 , že
s.j.
Xnk → 0
a přitom
n
2
1 X
σ2
2
= 2
D Xn = E Xn − E Xn
EXj2 =
n
n
j=1
∞
Zvolme nyní posloupnost n2 n=1 a ukážeme, že
s.j.
Xn2 → 0
E
∞
X
n=1
!
Xn2
2
=
∞
X
E Xn2
n=1
69
2
=
∞
X
σ2
n=1
n2
<∞
∞
X
2 s.j.
2
Xn2 < ∞ s.j.
s.j.
⇒ Xn2 → 0 ⇒ Xn2 → 0
n=1
volme n: ∃Kn ∈ N takové, že Kn2 ≤ n < (Kn + 1)2
2
Kn
n
n
Kn2
1 X
1X
Kn2 1 X
Yn = Xn −
Xj =
Xj
X 2 =
Xj −
n Kn
n
n Kn2
n 2
j=1
j=1
s.j.
a ukážeme že Yn → 0, tzn. Xn −
DYn =
EYn2
2
s.j.
Kn
2 →
n XKn
Kn +1
0
n
n − kn2 2 (Kn + 1)2 − Kn2
1 X
2Kn + 1 2
EXj2 =
= 2
σ ≤
=
σ ≤
2
2
n 2
n
n
n2
Kn +1
E
√
√
2 n + n 2 3σ 2
≤
σ = 3
n2
n2
!
∞
∞
∞
X
X
X
E Yn2 < ∞ ⇒
Yn2 < ∞ s.j.
Yn2 =
n=1
n=1
s.j.
s.j.
⇒ Yn2 → 0 ⇒ Yn2 → 0
n=1
Důsledek 6.21 (Bernoulliho věta, 1713). Buďte (Xj )∞
j=1 i.i.d. A(p) náhodné veličiny (tzn. P (Xj = 1) =
p, P (Xj = 0) = 1 − p), a označme
∞
X
Sn =
Xj
j=1
Potom platí
Sn s.j.
→p
(79)
n
Mějme experiment a sledujme výskyt nějakého jevu A v nezávislých opakováních. Při n opakováních bychom se měli blížit relativní četnosti výskytu jevu A, a to jsme vlastně od začátku od naší
teorie chtěli. Nicméně existuje samozřejmě i taková posloupnost ω1 , . . . , ωn , . . ., pro kterou
Sn s.j.
9p
n
ale množina takových jevů má samosřejmě pouze nulovou míru (vzhledem k P).
Věta 6.22 (Kolmogorovův zákon velkých čísel). Buď (Xn )∞
n=1 posloupnot i.i.d. náhodných veličin,
µ ∈ R. Potom
s.j.
EXj < ∞ a EXj = µ ⇔ Xn → µ
(80)
2
Věta 6.23 (Kolmogorov). Buďte (Xj )∞
j=1 nezávislé náhodné veličiny, EXj = µj , σj = DXj < ∞.
Nechť dále platí
∞
X
σj2
<∞
j2
j=1
Potom
n
Xn −
1 X s.j.
µj → 0
n
j=1
70
(81)
Věta 6.24 (Věta Chinčinova). Buďte (Xj )nj=1 i.i.d. náhodné veličiny, a nechť existuje k ∈ N takové,
že E Xj2k < ∞. Potom
n
1 X k s.j. k Xj → E X1 = µ0k
(82)
n
j=1
∞
Důkaz. Pokud jsou (Xj )∞
i.i.d.
náhodné
veličiny,
potom
jsou
i.i.d.
i
náhodné
veličiny
Xjk
a
j=1
j=1
dle Bernoulliho věty (resp. dle silného zákona velkých čísel) platí
n
Xjk =
1 X k s.j. k Xj → E Xj
n
j=1
2
Věta 6.25. Buďte (Xj )∞
j=1 i.i.d. náhodné veličiny, µ = EXj , σ = DXj < ∞. Potom
∞
2 s.j.
1X
Xj − Xn → σ 2
n
(83)
j=1
Důkaz.
n
n
n
n
n
X
2
1X 2 2
1X
1X 2
1X
2
2 s.j.
Xj − Xn =
Xj − Xn
Xj +
Xn =
Xj − Xn |{z}
→ =
n
n
n
n
n
j=1
j=1
j=1
j=1
j=1
ZVČ
= E X12 − (EX1 )2 = DX1 = σ 2
s.j.
s.j.
Předcházejících vět využíváme při odhadu parametrů ve statistice, tj. Snn → p a Xn → µ.
Ve statistice nás ale pochopitelně zajímá jak „rychlá“ tato konvergence je, tj. jak můžeme volit
posloupnost an , aby platilo
s.j.
an Xn − µ → 0
Pokud volíme an = n−α , potom mluvíme o tzv. „řádu konzistence.“
6.4
Slabá konvergence, konvergence v distribuci
Příklad 6.26. Uvažujme zásobník s n kuličkami, a neznámý počet z nich je bílých (všechny počty bílých jsou stejně pravděpodobné). Někdo nám tam ještě jednu kuličku přihodí. Jaká je pravděpodobnost
vytažení bílé kuličky?
Ani jedna z probraných konvergencí není dostatečně obecná, takže na to musíme jít jinak. V
předchozích definicích konvergencí jsme na to šli přes pravděpodobnosti, nyní na to půjdeme přes
rozdělení.
71
Definice 6.27 (Slabá konvergence, konvergence v distribuci). Buďte (Xn )∞
n=1 náhodné
veličiny do
d
X
X
n
n
R , d ≥ 1 s rozděleními P . Říkáme, že posloupnost pravděpodobnostních měr P
konverguje
slabě k PX , značíme
w
PXn → PX
pokud
Z
Xn
g(x)dP
Z
(x) →
g(x)dPX (x)
(84)
tj. Eg (Xn ) → E (X) pro všechny g : Rd → R spojité a omezené. Říkáme, že Xn konverguje k X v
distribuci, a značíme
D
Xn → X
Poznámka 6.28. V definici lze třídu C (0) zaměnit například za třídu
1. stejnoměrně Lipschitzovských funkcí
2. stejnoměrně spojitých funkcí
3. C ∞ s kompaktním nosičem
Poznámka 6.29.
1. Posloupnost (Xn )∞
n=1 a X nemusí být nutně na stejném pravděpodobnostním prostoru, tj. posloupnost může být například na (Ω, A, P) a limitní veličina může být na prostoru (Ω0 , A0 , P 0 ).
2. Neplatí
w
PXn → PX
⇒ PXn (B) → PX (B) ∀B ∈ B
3. Stejně tak neplatí ani implikace
w
PXn → PX
⇒ FXn (x) → FX (x) ∀x ∈ R
Věta 6.30. Buďte (Xn )∞
n=1 náhodné veličiny do R. Potom
D
Xn → X
⇔ FXn (x) → FX (x) pro ∀x ∈ D = {x : FX (x − 0) = FX (x)}
(85)
Víme, že D = R, R \ D je nejvýše spočetná.
d
Věta 6.31 (Lévy continuity theorem). Buďte (Xn )∞
n=1 a X náhodné veličiny do R . Potom
D
Xn → X ⇔ ϕXn (z) → ϕX (z) pro ∀z ∈ R
Důkaz.
⇒ Jednoduché - jeden řádek.
⇐ Helly’s selection principle:
Buď (µn )∞
n=1 posloupnost měr na R taková, že limm→∞ supn µn([−m, m]) = 0. Potom existuje
∞
w
(nk )∞
taková,
že µnk → µ Ukáže se, že posloupnost měr P Xn n=1 vyhovuje H.S.P., a sporem
k=1
se ukáže, že
w
P Xn → P X
72
Věta 6.32. Nechť (Xn )∞
n=1 a X jsou náhodné veličiny na daném (Ω, A, P ). Potom
P
Xn → X
D
⇒ Xn → X
Důkaz. Zvolme g ∈ C (0) omezenou, potom
P
P
Xn → X
⇒ g (Xn ) → g(X)
a existuje tedy k tak, že pro všechna n ∈ N
L
|g (Xn )| ≤ K ∈ L2 ⇒ g (Xn ) →1 g(X)
takže
E [g (Xn ) − g (X)] ≤ E |g (Xn ) − g(X)| → 0
Poznámka 6.33. Pokud má X degenerované rozdělení, lze směr implikace v předchozí větě lze
obrátit.
d
d
Věta 6.34. Buďte (Xn )∞
n=1 , X náhodné veličiny do R a nechť g : R → R je borelovsky měřitelná
a spojitá. Potom
D
D
Xn → X ⇒ g (Xn ) → g (X)
(86)
Důkaz. Skorokhodova konstrukce
s.j.
D
Pokud Xn → X, potom existují Yn a Y na (Ω0 , A0 , P 0 ) tak, že Yn Y a přitom
L (Yn ) = L (Xn )
a L (Y ) = L (X)
takže
s.j.
D
D
g (Yn ) → g (Y ) ⇒ g (Yn ) → g (Y ) ⇒ g (Xn ) → g (X)
D
P
Věta 6.35 (Slutsky). Nechť Xn → X a Yn → c, potom
D
1. Xn + Yn → X + c
D
2. Xn · Yn → cX
3.
Xn D X
Yn → c
pro c 6= 0
Důkaz.
73
1. Nechť c = 0
FXn +Yn (t) = P (Xn + Yn ≤ t) = P (Xn + Yn ≤ t, |Yn | < ε) + P (Xn + Yn ≤ t, |Yn | ≥ ε) ≤
≤ P (Xn ≤ t + ε, |Yn | < ε) + P (|Yn | ≥ ε) ≤ P (Xn ≤ t + ε) + P (|Yn | ≥ ε)
přičemž t ∈ D = {x : FX (x − 0) = FX (x)}, a ε > 0 libovolné takové aby t + ε ∈ D. Máme
tedy
lim sup FXn +Yn (t) ≤ FX (t + ε) + 0 pro ∀t ∈ D, ∀ε(t + ε ∈ D)
n→∞
a potřebujeme ještě nějaký odhad pro lim inf n→∞ , takže to vezmeme z druhé strany
FXn +Yn (t) = P (Xn + Yn ≤ t) ≥ P (Xn ≤ t − ε) − P (|Yn | ≥ ε)
a nakonec tedy dostáváme
lim inf FXn +Yn (t) ≥ FX (t − ε)
n→∞
P
Nechť nyní c 6= 0, potom Yn = Yn0 + c, kde Yn0 → 0 a tedy
Xn + Yn = Xn + Yn0 +c → X + c
| {z }
D
→X
2.
Xn · Yn =
i
h
i
1h
D 1
(Xn + Yn )2 − (Xn − Yn )2 →
(X + c)2 − (X − c)2 = X · c
4
4
3.
1 P 1
→
Yn
c
P
Yn → ⇒
Definice 6.36 (Asymptoticky normální posloupnost). Říkáme, že posloupnost náhodných veličin
∞
2 ∞
(Xn )∞
n=1 je asymptoticky normální se střední hodnotou (µn )n=1 a rozptylem σn n=1 , pokud σn > 0
pro ∀n > n0 a pokud platí
Xn − µn D
→ N (0, 1)
(87)
σn
V předchozí definici nemusí být posloupnosti µn resp. σn s Xn přímo ve vztahu střední hodnoty
resp. odchylky.
Věta 6.37. Nechť Xn ∼ AN µn , σn2 , přičemž µn = µ pro ∀n ∈ N, a nechť σn → 0. Potom
P
Xn → µ
Důkaz.
Xn − µ P
→ X ∼ N (0, 1)
σn
P
Yn = σn s.j. ⇒ Yn → 0
a dle Slutskyho lemmatu tedy platí
Xn − µ
σn
D
· Yn → X · 0 = 0
P
Xn − µ → 0
74
6.5
Centrální limitní teorém
V následující kapitole nás bude zajímat především asymptotické chování průměru, tj.
n
Xn =
1X
Xj
n
j=1
Věta 6.38 (Lindeberg-Lévy). Buďte (Xj )∞
j=1 i.i.d. náhodné veličiny v L2 , označme EXj = µ a
2
0 < σ = DXj < ∞. Nechť dále
Pn
√ Xn − µ
Sn − ESn
j=1 Xj − nµ
√
Yn = √
=
= n
σ
nσ
DSn
Potom
D
Yn → Y ∼ N (0, 1) tzn. Xn ∼ AN
σ2
µ,
n
fj = Xj − µ, potom EXj = 0, a označme ϕ = ϕ . Lévy continuity theorem říká, že
Důkaz. Nechť X
Xj
ϕXn → ϕX
ϕYm (z) = ϕPn
j=1
e
X
√ j
nσ
(z) =
n
Y
j=1
ϕ
e
X
√ j
nσ
D
⇔ Xn → X
(z) =
n
Y
ϕXej
j=1
z
√
nσ
n
z
= ϕ √
=∗
nσ
ej2 = DXj = σ 2 < ∞
E X
a dle jedné z předcházejících vět o vlastnostech charakteristické funkce platí
(k)
ϕX (0) = ik E X k
takže
ej = 0
ϕ0 (0) = i1 E X
ej2 = −σ 2
ϕ00 (0) = i2 E X
takže
σ2
ϕ(z) = 1 + 0 − z 2 + o z 2
2
2 n
2
2
z
−z
z
+o
→ exp
∗= 1−
2
2n
σ n
2
takže pro všechna z ∈ R platí
2
z
ϕYn (z) → exp −
= ϕY (z) ∼ N (0, 1)
2
75
Důsledek 6.39. Pokud dle CLT platí
√
D
n Xn − µ → N (0, σ 2 )
potom
Xn ∼ AN
σ2
P
µ,
⇒ Xn → µ
n
2
Nechť nα Xn − µ ∼ AN (0, |n2α−1
{z σ}), potom
→0
P
nα Xn − µ → 0
Důsledek 6.40.
Věta 6.41 (Moivre - Laplace, 1718). Buďte (Xj )∞
j=1 i.i.d. náhodné veličiny s alternativním rozdělením A(p), potom
Sn − np D
→ Y ∼ N (0, 1)
(88)
√
npq
tj. Sn ∼ AN (np, npq)
Důkaz. Dosazením do CLT s hodnotami EXj = p, DXj = p(1 − p) < ∞ dostaneme
.
L (Sn ) = N (np, npq)
Důsledek 6.42.
P (K1 ≤ Sn ≤ K2 ) = P
K1 − np
Sn − np
K2 − np
≤ √
≤ √
√
npq
npq
npq
| {z }
| {z }
a
!
.
= FYn (b) − FYn (a − 0) =
b
2
b
1
x
.
= Φ(b) − Φ(a) = √
exp −
dx
2
2π a
Z
Věta 6.43 (Limitní tvar Moivre - Laplace).
lim
n→∞ √
1
√
2π npq
Pn (k)
=1
2
exp − (k−np)
2npq
Pn (k) = exp (−np)
(89)
(np)k
k!
2
Věta 6.44 (CLT). Buďte (Xj )∞
j=1 nezávislé náhodné veličiny, a nechť EXj = µ, DXj = σj < ∞.
P
2
Nechť dále supj σj2 < ∞ a ∞
j=1 σj = +∞. Potom
!
Pn
2
j=1 σj
X n ∼ AN µ,
(90)
n
76
Věta 6.45 (Lindeberg - Feller). Budte (Xj )∞
j=1 nezávislé náhodné proměnné, pro které EXj = µj
2
a DXj = σj < ∞. Nechť dále
v
uX
u n 2
Bn = t
σj
j=1
nechť platí
2
σn
2
Bn
→ 0. Potom
∞
Xn ∼ AN
1X
B2
µj , 2n
n
n
j=1
| {z }
!
µn
n Z
1 X
⇔
(t − µj )2 dP Xj (t) → 0 pro ∀ε > 0
2
Bn
j=1 |t−µj |>εBn
|
{z
}
tzv. Lindebergova podmínka
(91)
Věta 6.46. Buďte Xj nezávislé, µj , σj2 , Bn a nechť existuje ν > 2 takové, že
∞
X
E |Xj − µj |ν = σ (Bnν )
j=1
Potom platí Lindebergova podmínka, tj.
n Z
1 X
(t − µj )2 dP Xj (t) → 0 pro ∀ε > 0
Bn2
|t−µj |>εBn
j=1
a platí tedy i

∞
2
X
B
1
µj , 2n 
Xn ∼ AN 
n
n

j=1
3
2
Věta 6.47 (Berry - Esseen). Buďte (Xj )∞
j=1 i.i.d. náhodné veličiny, nechť µ, σ < ∞ a E |Xj | < ∞.
Potom
E |X1 − µ|3
√
sup |FYn (t) − Φ(t)| ≤ c ·
(92)
σ2 n
t∈R
Definice 6.48. Nechť X ∼ N µ, σ 2 , µ ∈ R, σ ∈ R a nechť
1
1
2
fX (x) = √
exp − 2 (x − µ)
2σ
2πσ
σ2z2
ϕX (z) = exp izµ −
2
???
Definice 6.49 (Gaussovo n−rozměrné rozdělení). Buď X = (X1 , . . . , Xn ) náhodný vektor. Říkáme,
že X má Gaussovo n−rozměrné (normální) rozdělení, pokud ∀α ∈ Rn má veličina
Y = αX =
n
X
αj Xj
j=1
normální rozdělení (včetně degenerovaného normálního rozdělení), značíme X ∼ Nn .
77
(93)
Věta 6.50. Buď X = (X1 , . . . , Xn ) náhodný vektor. Potom
1
0
X ∼ Nn ⇔ ϕX (z) = exp izµ − zCz
2
, kde µ = EX, C = Cov(X).
Důkaz. ⇐ Volme α ∈ Rn libovolně, a nechť Y = αX. Potom ale
ϕY (u) = ϕαX (u) = E [exp (iu (αX))] = E [exp (i (uα) X)] = ϕX (uα) =
1
1
0
= exp iuαµ − (uα)C(uα) = exp (iu( αµ ) − u2 (αCα0 )) ∼ N1 αµ, αCα0
|{z}
2
2
µ0
⇒ Nechť X ∼ Nn . Potom pro všechna α platí
Y = αX ∼ N1 (EY, DY )
1 2
ϕY (u) = exp iuEY − u DY
2
a definujme
µ = EX
C = CovX
EY = E (αX) = αEX = αµ
DY = D (αX) = E (αX − αµ)2 = E [α (X − µ)]2 =
=
n
X
i,j=1
αi E (Xi − µi ) E (Xj − µj ) αj = αCα0
|
{z
}
Cov(Xi ,Xj )
1
0
ϕX (α) = E (exp (i (αX))) = exp iαµ − αCα
2
pro ∀α
Důsledek 6.51.
1. Nechť X ∼ Nn (µ, C), potom platí
Xj ∼ N1 (µj , cjj )
Y = αX ∼ N1 αµ, αCα0
2. Implikaci v předchozí nelze obrátit. Nechť například a > 0 a definujme
X1 ∼ N1 (0, 1)
X1
|X1 | ≤ a
X2 =
−X1
|X1 | > a
78
takže X2 ∼ N1 (0, 1). Například pro α = (1, 1) však dostáváme
X1 + X2
|X1 | ≤ a
αX = X1 + X2 =
0
jinak
a přitom
P (X1 + X2 > 2a ≥) = 0
3. Nechť X ∼ Nn (µ, C) a D buď matice rozměru n × k. Potom
Y = DX ∼ Nk Dµ, DCD0
protože
ϕY (z) = ϕDX (z) = E [exp (iz (DX))] = ϕX (zD) = · · · = ϕY (z)
4. Nechť X ∼ Nn (µ, C), a nechť (k1 , . . . , kn ) je permutace n
b. Potom
e
(Xk1 , . . . , Xkn ) ∼ Nn µ
e, C
kde
µ
e = (µk1 , . . . , µkn )
e ij = Ck k
C
i j
5. Nechť X ∼ Nn (µ, C). Potom (Xj )nj=1 jsou nezávislé právě když C je diagonální (tj. (Xj )nj=1
jsou po dvou nekorelované).
Důkaz.
⇒ Nechť jsou Xj nezávislé. Potom
Cov (Xi , Xj ) = 0 pro i 6= j
n
C = diag σj2 j=1
n
⇐ Buď C diagonální, tj. nechť C = diag σj2
. Potom tedy
j=1

ϕX (z) = exp i
n
X
j=1

Y
n
n
n
1 X 2 2 Y
1 2 2
zj µj −
zj σj =
exp iµj zj − σj zj =
ϕXj (zj )
2
2
j=1
j=1
j=1
a Xj jsou tedy nezávislé.
6. Buďte (Xj )nj=1 náhodné veličiny. Potom Xj jsou nezávislé právě když
X ∼ Nn µ, C = diag σj2
Důkaz. Přímý důsledek předchozího tvrzení.
79
7. Nechť X ∼ Nn (0, I) a P je ortonormální matice. Potom
Y = PX ∼ Nn (0, I)
Důkaz. Jedná se o speciální případ tvrzení 3, tj.
DX ∼ Nk Dµ, DCD0
Věta 6.52. Nechť X ∼ Nn (µ, C). Potom existuje ortonormální matice P a posloupnost (Yj )nj=1 ∼
N (0, λj ) , λj > 0 nezávislých náhodných veličin, takové že
X = PY + µ
(94)
Důkaz. Víme, že C = Cov(X), přičemž C je PSD a symetrická. Z lineární algebry ale víme, že
takovou matici lze vždy diagonalizovat. Existuje tedy ortonormální matice P taková, že
P0 CP = Λ = diag (λj )nj=1
a definujme nyní
Y = P0 (X − µ)
a nyní tedy musíme ukázat že Yj ∼ N (0, λj ). Z tvrzení 3 ale plyne, že
X ∼ Nn (µ, C)
takže
(X − µ) ∼ Nn (0, C)
P0 (X − µ) ∼ Nn P0 0, P0 CP = Nn (0, Λ)
a tedy Yj ∼ N (0, λj ).
Věta 6.53. Nechť X ∼ Nn (µ, C) a nechť je matice C regulární. Potom existuje regulární matice
A a (Zj )nj=1 nezávislých náhodných veličin, že
X = AX + µ
(95)
přičemž Z ∼ Nn (0, I).
Důkaz. Nechť det C > 0, potom je C symetrická a PD. Existuje tedy ortogonální matice B taková,
že
B0 CB = I
a tedy
Z = B0 (X − µ)
Dle předchozí věty však platí
B0 (X − µ) = Nn B0 0, B0 CB = Nn (0, I)
tj. A = (B0 )−1 a současně AA0 = C.
80
Věta 6.54. Nechť X ∼ Nn (µ, C). Potom existuje hustota pravděpodobnosti fX na Rn právě když
je matice C nesingulární. V tom případě
1
1
−1
fX (x) =
exp − x − µC (x − µ)
(96)
n p
2
(2π) 2 |C|
Specielně pokud C ∈ R1,1 , potom
fX (x) = √
1
1
exp − 2 (x − µ)2
2σ
2πσ
Důkaz.
⇐ Nechť je matice C nesingulární. Potom dle předchozí věty existuje nesingulární matice A taková,
že
X = AZ + µ
přičemž Z ∼ Nn (0, I). Potom ale
n
Y
n
Y
−zj2
1
√ exp −
fZ (z) =
fZj (zj ) =
2
2π
j=1
j=1

!
=
1
n
(2π) 2
exp −
n
1X
2
j=1

zj2 
1 0
− zz
=
n exp
2
(2π) 2
1
a nechť tedy nyní ϕ−1 : z = A−1 (x − µ)
Jϕ−1 = A−1 = p1
|C|
protože AA0 = C, tj. |A| · |A0 | = |C|, a protože |A| = |A0 |, platí
p
|A| = |C|
a dle věty o transformaci hustoty tedy platí
h
i
1
−1 (x − µ) 0 A−1 (x − µ)
exp
−
A
2
1
p
=
fX (x) = Jϕ−1 (x) · fZ A−1 (x − µ) =
n
|C|
(2π) 2
1
1
0
−1 0 −1
=
exp
−
(x
−
µ)
A
A
(x
−
µ)
n p
2
|
{z
}
(2π) 2 |C|
C−1
⇒ Důkaz provedeme sporem. Nechť hustota existuje a přitom je matice C singulární. Potom ale
existuje α0 ∈ Rn taková, že Cα00 = 0. Definujme tedy
Y = α0 X ∼ N1 α0 µ, α0 Cα00
potom ale
Y = α0 µ s.j.
α0 X = α0 µ s.j.
t.j. P (α0 (X − µ) = 0) = 1
a to je zřejmý spor s existencí hustoty.
81
Příklad 6.55 (Speciální případ). Nechť (X1 , X2 ) ∼ N2 (µ2 , C). Korelační matice má tedy tvar
1 %
C=
% 1
h
i
(x1 −µ1 )2
(x1 −µ1 )(x2 −µ2 )
(x2 −µ2 )2
1
−
2%
exp − 2(1−%
+
2)
σ1 σ2
σ12
σ22
p
fX1 ,X2 (x1 , x2 ) =
2π 1 − %2 σ1 σ2
a celkem tedy (X1 , X2 ) ∼ N2 µ1 , µ2 , σ12 , σ22 , % . Pro % = 0 vypadne jeden ze členů v hustotě fX1 ,X2
a vztah se díky tomu zjednoduší na součin fX1 fX2 , takže X1 , X2 jsou nezávislé právě když % = 0. Je
tedy zřejmé, že pro normální rozdělení jsou pojmy nezávislost a nekorelovanost ekvivalentní. (A to
není obecná vlastnost!)
Definice 6.56 (Asymptoticky normální rozdělení).
Posloupnost náhodných veličin (Xn )∞
n=1 je
2
asymptoticky normální (značíme AN µn , σn C ), pokud platí
Xn − µn D
→ Nd (0, C)
σn2
(97)
d
Věta 6.57 (CLT v prostoru Rd ). Buďte (Xj )∞
j=1 i.i.d. náhodné vektory do R a µj = EXj , C =
Cov (Xj ) nechť jsou konečné (matice C nemusí být nesingulární). Potom
√
D
n Xn − µ → Nd (0, C)
(98)
tzn. Xn ∼ AN µ, C
n .
Věta 6.58. Buď Xn ∼ AN µ, σn2 C taková posloupnost náhodných vektorů, že σn → 0. Potom
D
Xn → µ
Důsledek 6.59.
P
Xn → µ = EXj
Věta 6.60. Buďte A1 , . . . , Ak symetrické matice n × n, pro které
Pk
j=1 Aj
=Ia
Pk
j=1 h (Aj ) = n.
0
b
Potom existuje ortonormální matice P taková, že pro všechna j ∈ k je matice P Aj P diagonální s
nenulovými diagonálními prvky rovnými 1.
Věta 6.61 (Cochran). Buďte (Xj )nj=1 i.i.d. náhodné veličiny s rozdělením N (0, 1) (tj. X ∼ Nn (0, I)).
Nechť Qj (x)kj=1 jsou takové kvadratické formy na Rn , že
Pk
0
1.
j=1 Qj (x) = x x
2.
Pk
j=1 h (Qj )
=n
Potom
Yj = Qj (X) ∼ χ2 (h (Qj ))
a veličiny Yj , j ∈ b
k jsou nezávislé.
82
∀j ∈ b
k
(99)
Důkaz. Každá kvadratická forma Qj má tvar
Qj (X) = X0 Aj X
kde matice Aj je symetrická a rozměru n × n. Přitom dle podmínky (1) platí
k
X
Qj (X) =
j=1
k
X
X0 Aj X = X0 IX
j=1
a současně dle druhé podmínky platí
n
X
h (Aj ) = n = 1
j=1
Dle předchozí věty tedy existuje taková ortonormální matice P, že pro ∀j ∈ b
k je matice
Λj = P0 Aj P
diagonální (s nenulovými prvky rovnými jedné), čili Y = P0 X ∼ Nn (0, I), tzn. Yj i.i.d. N (0, 1).
Přitom
lj
X
0
0
0
0
Qj (X) = X Aj X = Y P Aj P Y = Y Λj Y =
Yj2i ∼ χ2 (h (Qj ))
i=1
Věta 6.62. Buďte (Xj )nj=1 náhodné veličiny i.i.d. N µ, σ 2 . Definujme
n
1X
Xn =
Xj
n
j=1
n
s2n =
2
1 X
Xj − Xn
n−1
j=1
Potom Xn a x2n jsou nezávislé, a
(n − 1)s + n2
∼ χ2 (n − 1)
σ2
2
Důkaz. Nechť Q1 (X) = nXn a Q2 (X) = (n − 1)s2n .
1. Nechť µ = 0, σ = 1, potom
Q1 (X) + Q2 (X) = X0 X =
n
X
Xj2
j=1
a existuje ortonormální matice P tvaru
1
√
n
P=
···
83
√1
n
· · · √1n
cokoliv · · ·
a definujme
W = PX ∼ Nn (0, I)


2
n
X
2
√
Xj 
1
1

√
√ ,..., √
· X = (W)2
Q1 (X) =
nXn =
=
n
n
n
j=1
Q2 (X) = Q2 (X) + Q1 (X) − Q1 (X) = X0 X − W12 = W0 PP0 W − W12 =
|
{z
} | {z }
X0 X
W12
= W0 W − W12 =
n
X
Wj2
j=2
Podle Cochranovy věty
2
Q1 (X) = nXn ∼ χ2 (1)
Q2 (X) = (n − 1)s2n ∼ χ2 (n − 1)
a Q1 , Q2 jsou nevzájem nezávislé. Nezávislé jsou tedy i Xn a s2n .
2. Nechť µ ∈ R a σ > 0. Definujme i.i.d. náhodné veličiny
Zj =
Xj − µ
∼ N (0, 1)
σ
a dle předchozího bodu jsou Zn a (n − 1)s2Zn ∼ χ2 (n − 1) jsou nezávislé. Přitom ale
Xn = σZn + µ
(n − 1)
s2
s2n
= (n − 1) Z2n ∼ χ2 (n − 1)
σ
σ
takže i veličiny Xn , (n − 1)s2n jsou nezávislé.
Důsledek 6.63. Buďte Xj i.i.d. náhodné veličiny N µ, σ 2 . Potom
√
n Xn − µ
∼ t(n − 1)
sn
1
2
Věta 6.64. Buďte (Xj )nj=1
i.i.d. N µ1 , σ12 , (Yj )nj=1
i.i.d. N µ2 , σ22 a nechť (X, Y) nechť má
nezávislé složky. Potom s2X a s2Y jsou nezávislé a platí
(n1 − 1)
s2X
∼ χ2 (n1 − 1)
σ12
(n2 − 1)
s2Y
∼ χ2 (n2 − 1)
σ22
84
7
Statistika
7.1
Úvod
V následujícím textu budeme jako N označovat libovolné přirozené číslo nebo +∞.
Xj =
Definice 7.1. Buďte (Xj )N
j=1 náhodné veličiny na prostorech (Ωj , Aj , Pj ) s rozděleními P
P ◦ Xj−1 . Definujme nyní
Ω(N ) = ×N
j=1 Ωj
A(N ) =
N
O
d
b
b = σ ×l Aj : Aj ∈ Aj , l ∈ N
Aj = σ ×lk=1 Ajk : l ∈ N
k=1
k
k
k
j=1
P(N ) = P1 ⊗ · · · ⊗ PN
přičemž P(N ) je taková pravděpodobnostní míra na prostoru Ω(N ) , A(N ) , pro kterou platí
P
(N )
×lk=1 Ajk
l
Y
=
Pjk (Ajk )
k=1
Víme tedy, že existuje přirozené prodloužení
ej
X
N
j=1
na prostoru Ω(N ) , A(N ) , P(N ) . Tudíž
j−tý prvek zachovává vlastnosti j−tého původního prvku a současně j−tá pravděpodobnost zachovává vlastnosti j−té původní pravděpodobnosti.
Poznámka 7.2. V předchozí definici nelze σ−algebru A(N ) nadefinovat jako
A(N ) = ×N
j=1 Aj
b
Aj ∈ Aj j ∈ N
protože to by nebyla σ−algebra.
N
ej
Věta 7.3. Buďte (Xj )N
náhodné
veličiny
a
X
j=1
j=1
1.
ej
X
N
j=1
e
jsou nezávislé
Xj
2. PXj = Pj
buď jejich přirozeným prodloužením. Potom
b , tj.
pro ∀j ∈ N
e PXej (B) = PXj (B)
∀B ∈ B ∀j ∈ N
b libovolně. Potom
Důkaz. Nejdříve dokážeme stejnost rozdělení. Volme Bj ∈ B, j ∈ N
{Xj ∈ Bj } = P (Ω1 × Ω2 × · · · × Ωj−1 × {Xj ∈ Bj } × Ωj+1 × · · · ΩN ) =
= 1 · 1 · · · 1 · P (Xj ∈ Bj ) · 1 · · · 1 · 1 = Pj (Xj ∈ Bj ) = PXj (Bj )
a nyní nezávislost. Chceme ukázat, že sdružená pravděpodobnost
P (Xj1 ∈ Bj1 , Xj2 ∈ Bj2 , . . . , Xjl ∈ Bjl )
85
je stejná jako součin pravděpodobností, a to lze velice jednodue ukázat přes kartézský součin (stejně
jako u stejnosti rozdělení), tj.
ej ∈ Bj = P(N ) Ω1 × · · · × Ωj
× Xjk ∈ Bjk × Ωjk+1 × · · · × Ωjl
P X
k
k−1
k
ale průnik takovýchto kartézských součinů je opět kartézský součin, a tedy
l
l
Y
Y
N
e j ∈ Bj
P(N ) X
P (Xjk ∈ Bjk ) =
P(N ) Xk=1
{Xjk ∈ Bjk } =
k
k
k=1
k=1
Poznámka 7.4 (Komentář Kůse). V předchozí větě jsem někde něco moc urychlil, takže je tam
někde nějaký problém.
Důsledek 7.5.
N
ej
1. Pokud označíme PXj = PX , potom X
j=1
jsou nezávislé a mají stejné rozdělení (jsou i.i.d.
s PX ).
b a současně
2. Pokud Xj ∼ PX pro ∀j ∈ N
(Ωj , Aj , Pj ) = (Ω, A, P)
potom jsou
ej
X
N
j=1
i.i.d. náhodné veličiny na prostoru Ω(N ) , A(N ) , P(N ) , který budeme v
následujícím textu (pro matení čtenáře) značit (Ω, A, P).
7.2
Statistika - základní pojmy a definice
Statistika sice využívá modelu z předchozího důsledku, ale jednotlivým částem prostoru (Ω, A, P)
přiřazuje mírně odlišný význam.
Ω - populace
ω - individuum, element
X : Ω → R, měřitelná - vlastnost Ω
ω (N ) ∈ Ω(N ) - výběr individuí z populace Ω
P(N ) - součinová pravděpodobnostní míra
N
ej
ej nazýváme pozorováními X na popui.i.d. s rozdělením PX . Potom X
pozorování Buďte X
1
laci Ω.
ej = Xj na prostoru (Ω, A, P).
Poznámka 7.6. Budeme značit X
ej ω (N ) = X
ej „odhadnout“ tvar PX . Je to
Úkolem statistiky obecně je na základě realizací X
vlastně postup obrácený vzhledem k počtu pravděpodobnosti. Statistické úlohy bychom dále mohli
rozdělit na:
86
(A) Odhad parametrů rozdělení PX
(A1) Bodový odhad parametrů Nechť θ je nějaký parametr spojený s Ω. Úkolem je najít
funkci θb (X), která na základě pozorování X = (Xj )nj=1 odhaduje parametr θ.
(A2) Intervalový odhad parametrů Úkol je obdobný jako v případě bodového odhadu
parametrů, nicméně hledáme takové borelovsky měřitelné funkce
θ (X)
θ (X)
že P θ ∈ θ (X) , θ (X)
≥1−α
α ∈ (0, 1)
(A2’) Konfidenční odhad parametrů Hledáme obecnou množinu C (X) ⊂ Rk (pro parametr θ ∈ Rk takovou, že
P (θ ∈ C (X)) ≥ 1 − α
α ∈ (0, 1)
(B) Testování hypotéz o rozdělení PX Předmětem zkoumání je opět parametr, přičemž mohu
vyslovit například hypotézu H0 : θ = 5. Abych ale o takové hypotéze vůbec něco mohl říct,
potom si musím sehnat pozorování X = (X1 , . . . , Xn ) a na jeho základě se mohu pokusit zjistit
zda
P (H0 platí) ≥ 1 − α
Pokud tento vztah platí, potom hypotézu přijmeme, jinak ji zamítneme.
7.3
Bodový odhad parametrů
Uvažujme následující model: Buďte X ∼ PX náhodné veličiny na prostoru (Ω, A, P), a nechť parametr θ, jehož hodnotu se snažíme zjistit, je θ ∈ Θ ⊂ Rk . Přitom Θ nazýváme parametrickým
prostorem. Můžeme také odhadovat hodnotu nějaké funkce τ (θ). Takovou funkci nazýváme parametrickou.
(n) = (ω , . . . , ω ), proměříme je pomocí X (tj.
Postup
1
n
je zhruba následující - vytáhneme si ω
(n)
ej ω
X
= Xj (ω), a nakonec odhadneme τ (θ).
Definice 7.7 (Odhad parametrické funkce). Buď X = (Xj )nj=1 je pozorování X (náhodné veličiny
s rozdělením PX ). Potom libovolnou borelovsky měřitelnou funkci T (X) : Ω → Rs nazýváme odhadem parametrické funkce τ (θ) na základě pozorování X. Specielně pro τ (θ) = θ označujeme
b
T (X) = θ(X).
Definice 7.8 (Eficientní odhad). T (X) je eficientním (vydatným) odhadem parametrické funkce
τ (θ), pokud
2
E (T (X) − τ (θ))2 ≤ E Te(X) − τ (θ)
pro ∀Te(X)
Definice 7.9 (Nestranný odhad). T (X) je nestranným odhadem parametrické funkce τ (θ) pokud
E (T (X)) = τ (θ)
87
pro ∀θ ∈ Θ
Definice 7.10 (Asymptoticky nestranná posloupnost odhadů). Buď (Tn (X))∞
n=1 taková posloupnost
odhadů parametrické funkce τ (θ), že Tn (X) = Tn (X1 , . . . , Xn ) (tj. odhady jsou založeny na stále více
pozorováních). Říkáme, že odhad (Tn (X)) je asymptoticky nestranný, pokud
lim E (Tn (X)) = Eτ (θ)
n→∞
pro ∀θ ∈ Θ
Definice 7.11 (Slabá konzistence). Posloupnost odhadů (Tn (X))∞
n=1 je slabě konzistentním odhadem
parametrické funkce τ (θ), pokud
P
Tn (X) →θ τ (θ)
pro ∀θ ∈ Θ
Definice 7.12 (Silná konzistence). Posloupnost odhadů (Tn (X))∞
n=1 je slabě konzistentním odhadem
parametrické funkce τ (θ), pokud
s.j.
Tn (X) → τ (θ)
pro ∀θ ∈ Θ
tj. Pθ (|Tn (X) − τ (θ)| < ε) → 1.
Věta 7.13. Buď (Tn (X))∞
n=1 taková posloupnost odhadů parametrické funkce τ (θ), že
1. ETn (X) → τ (θ)
pro ∀θ ∈ Θ
2. DTn (X) → 0
Potom je Tn (X) slabě konzistentním odhadem.
Definice 7.14 (Asymptoticky normální posloupnost odhadů). Posloupnost odhadů (Tn (X))∞
n=1 se
nazývá asymptoticky normální s kovarianční maticí C(θ) pokud
√
D
n (Tn (X) − τ (θ)) → Ns (0, C(θ))
pro ∀θ ∈ Θ
√
D
tj. Tn (X) ∼ ANs τ (θ), n1 C(θ) , a specielně pro s = 1 platí n (Tn (X) − τ (θ)) → N 0, σ 2 (θ) , kde
σ 2 (θ) je asymptotický rozptyl.
Poznámka 7.15. Nechť Tn (X) ∼ ANs τ (θ), n1 C(θ) , potom
P
Tn (X) → τ (θ)
Věta 7.16. Buď X = (X1 , . . . , Xn ) pozorování na prostoru (Ω, A, P), přičemž X ∈ L2 . Potom
1.
n
1X
Xn =
Xj
n
j=1
je konzistentním, nestranným a asymptoticky normálním odhadem EX
2.
n
s2n =
2
1 X
Xj − X n
n−1
j=1
je konzistentním a nestranným odhadem DX
88
3.
n
σ
bn2 =
2
1X
Xj − X n
n
j=1
je konzistentním a asymptoticky nestranným odhadem DX
Důkaz.
P
1. konzistentnost Ze zákona velkých čísel přímo vyplývá, že X n → EX.
nestrannost
n
EX n =
1X
EXj = EX
n
j=1
2.
n
σ
bn2
2 P
1X
Xj − X n → DX
=
n
j=1
n
s2n =
2
1 X
n
P
σ
bn2 → DX
Xj − X n =
n−1
n−1
j=1
n
σ
bn2 =
2
1X 2
Xj − X n
n
j=1
2

n
n
X
X
1
1
Xj  = 2 E 
Xj2 +
=E
n
n

E Xn
2
j=1
j=1
n
X

Xi Xj  =
i,j=1,i6=j
1 = 2 nEX 2 + n (n − 1) (EX)2
n
EX 2 − E X n
EX 2 n − 1
n−1
−
(EX)2 =
EX 2 − (EX)2 =
n
n
n
n−1
=
DX → DX
n
n
n
2
2
E sn = E
σ
bn =
E σ
bn2 = DX
n−1
n−1
2
= EX 2 −
Věta 7.17. Buď X = (X1 , . . . , Xn ) pozorování na prostoru (Ω, A, P), přičemž X ∈ Lr pro r ≥ 2.
Potom
1.
n
1X r
m r (X) =
Xj
n
0
j=1
je konzistentním odhadem µ0 r (X) = E (X r )
89
2.
n
mr (X) =
2
1X
Xj − X n
n
j=1
je konzistentním odhadem µr (X) = E (E − EX)r
Definice 7.18 (Výběrový kvantil). Buďte (Xj )nj=1 pozorování X, a označme X(j)
rování seřazená dle velikosti. Potom
n
j=1
tato pozo-
bp∈(0,1) = X[np]+1
X
nazýváme výběrovým kvantilem. Specielně pro p = 0.5 tento kvantil nazýváme výběrovým mediánem.
Poznámka 7.19. Pro výběrový medián zřejmě platí
(
X( n+1 )
2
b0.5 =
X
1
X
n + X n
2
( )
( +1)
2
pro n lichá
pro n sudá
2
Definice 7.20 (Výběrové rozpětí). Buď (Xj )nj=1 pozorování X. Potom výběrové rozpětí definujeme jako
max Xj − min Xj
j∈b
n
j∈b
n
Definice 7.21 (Empirická distribuční funkce). Buď (Xj )nj=1 pozorování X. Empirickou distribuční funci poté definujeme jako
n
Fn (X, x) =
1X
1(−∞,Xj ] (X)
n
j=1
kde 1(−∞,Xj ] (X) je indikátor jevu Xj ∈ (−∞, Xj ] (viz 2.38).
7.4
Nestranné odhady s minimálním rozptylem - UMVUE
V tomto paragrafu budeme obecně hledat dolní mez střední kvadratické chyby, tj. výrazu
DT (X) = E (T (X) − τ (θ))2
(1)
(2)
Uvažujme dva nestranné odhady Tn (X) a Tn (X). Pokud tyto odhady budeme chtít srovnat,
můžeme za „lepší“ považovat například ten s menším rozptylem, tj. ten pro který je menší pravděpodobnost že mi „uletí“ od ET (X) = τ (θ). Pokud totiž dosadíme do Čebyševovy nerovnosti,
potom
DT (X)
P (|T (X) − ET (X)| ≥ ε) = P (|T (X) − τ (θ))| ≥ ε) ≤
ε2
Otázkou však zůstává, jak malého rozptylu lze vůbec u nestranných odhadů dosáhnout.
Definice 7.22 (Regulární systém hustot v R1 ). Buď Θ ⊂ R. Potom systém hustot
F = {f (x, θ) | θ ∈ Θ}
nazveme regulárním systémem hustot, pokud platí
90
1. suppf = {x | f (x, θ) ≥ 0} nezávisí na θ.
2. Parciální derivace
∂f (x, θ)
∂θ
existuje a je konečná pro všechna θ a skoro všechna x.
3. Střední hodnota
E
∂ ln f (X, θ)
∂θ
=0
pro všechna θ.
4. Fisherova míra informace
I(θ) = E
∂ ln f (X, θ)
∂θ
2
>0
pro všechna θ.
Poznámka 7.23.
1. Podmínka nulovosti střední hodnoty v předchozí větě je obecně splněna právě když lze
derivovat za integrálem, protože
Z
Z 0
Z
∂ ln f (x, θ)
∂ ln f (x, θ)
f (x, θ)
E
=
f (x, θ)dx =
f (x, θ)dx = f 0 (x, θ)dx =
∂θ
∂θ
f (x, θ)
Z
d
f (x, θ)dx = 0
=
dθ
R
f
2. Díky předchozímu bodu ale také platí, že
I(θ) = D
n
ej
Věta 7.24. Buďte X
j=1
∂ ln f (x, θ)
∂θ
nezávislé s ASR, a nechť jim odpovídají systémy hustot
Fj = fXj (xj , θ) | θ ∈ Θ
regulární pro všechna j ∈ n
b. Potom platí
IX1 ,X2 (θ) =
n
X
IXj (θ)
j=1
Důkaz. Důkaz provedeme matematickou indukcí. Provedeme pouze první krok (pro n = 2), druhý
krok je zřejmý.
fX1 ,X2 (x1 , x2 , θ) = fX1 (x1 , θ)fX2 (x2 , θ)
ZZ ∂ ln fX1 ,X2 (x1 , x2 , θ) 2
∂ ln fX1 ,X2 2
IX1 ,X2 (θ) = E
=
fX1 ,X2 dx1 dx2 =
∂θ
∂θ
91
ZZ =
ZZ
∂ ln fX1 ∂ ln fX2
∂fX1
fX1 ,X2 dx1 dx2 + 2
fX1 fX2 dx1 dx2 +
∂θ
∂θ
∂θ
ZZ ∂ ln fX2
+
fX1 ,X2 dx1 dx2 = IX1 (θ) + IX2 (θ)
∂θ
Důsledek 7.25. Buďte (Xj )nj=1 pozorování na X (tj. i.i.d). Potom zřejmě
IX1 ,...,Xn (θ) = nIX1 (θ)
Věta 7.26. Buď {f (x, θ) | θ ∈ Θ} regulární systém hustot, a nechť
integrálem. Potom platí
2
∂ ln f (x, θ)
I(θ) = −E
∂θ2
R
f lze dvakrát derivovat za
Věta 7.27 (Rao - Cramerova nerovnost). Buď θ ∈ Θ ⊂ R, F = {f (x, θ) | θ ∈ Θ} nechť je regulární
systém hustot a parametrická funkce τ (θ) nechť je diferencovatelná. T (X) nechť je nějaký nestranný
odhad τ (θ) takový, že E (T (X)) lze derivovat pod znakem E pro ∀θ ∈ Θ. Potom
D (T (X)) ≥
[τ 0 (θ)]2
IX (θ)
(100)
Přitom rovnost nastává právě když existuje K = K(θ, n) taková, že skoro jistě (s pravděpodobností
rovnou jedné) platí
∂ ln f
(X, θ) = K (T (X) − τ (θ))
(101)
∂θ
Důkaz.
Z
Z
d
∂f
0
0
τ (θ) = [ET (X)] =
T (x)f (x, θ)dx = T (x) (x, θ)dx =
dθ
∂θ
Z
∂ ln f
∂ ln f
∂ ln f
= T (x)
(x, θ)f (x, θ)dx = E T (X)
= Cov T (X),
(X, θ)
∂θ
∂θ
∂θ
Ze Schwarzovy nerovnosti potom vyplývá
2
Cov T, ∂ ln f ≤ DT (X)D ∂ ln f
∂θ
∂θ
a tedy
2
τ 0 (θ) ≤ D (T (X)) I(θ)
a rovnost ve Schwarzově nerovnosti nastává právě když platí
∂ ln f
∂ ln f
(x, θ) − E
(X, θ) = K (T (X) − ET (X))
∂θ
∂θ
odkud již plyne tvrzení věty, protože
E
∂ ln f
(X, θ)
∂θ
92
=0
Věta 7.28. Buď T (X) nestranný odhad τ (θ). Potom D (T (X)) = RCLB(θ) právě když fX (x, θ)
tvoří jednoparametrickou exponenciální třídu hustot tvaru
fX (x, θ) = h(x)c(θ) exp {Q(θ)T (X)}
a parametrická funkce τ (θ) je tvaru
τ (θ) = −
1 c0 (θ)
c(θ) Q0 (θ)
Definice 7.29. Buď Θ ⊂ Rk otevřená množina. Potom říkáme že systém hustot
n
o
F = fX (x, θ) | θ ∈ Θ ⊂ Rk
je regulární, pokud jsou splněny následující podmínky:
1. suppfX nezávisí na volbě θ
2. Parciální derivace
∂fX
∂θj
existuje pro všechna j ∈ b
k, pro všechna θ a pro skoro všechna x.
3. Pro všechna j ∈ b
k a pro pro všechna θ ∈ Θ platí
∂ ln f
E
(X, θ) = 0
∂θj
4. Fischerovská informační matice, definovaná jako
2
∂ ln f ∂ ln f
∂ ln f ∂ ln f
∂ ln f
Ii,j (θ) = E
,
= Cov
,
= −E
∂θi
∂θj
∂θi
∂θj
∂θi ∂θj
je konečná a regulární
Poznámka 7.30. Nechť jsou (Xj )nj=1 nezávislé. Potom platí
IX (θ) =
n
X
IXj (θ)
j=1
Věta 7.31 (Rao - Cramerova nerovnost). Buď fX (x, θ) | θ ∈ Θ ⊂ Rk regulární systém hustot a
nechť τ (θ) je taková funkce do R, že parciální derivace
∂τ (θ)
∂θj
existují pro všechna j ∈ b
k. Dále nechť T (X) je takový nestranný odhad τ (θ), že ET (X) lze pro každé
j∈b
k derivovat pod znakem E. Potom
T
D (T (X)) ≥ τ 0 (θ)I−1 τ 0 (θ)
(102)
93
Věta 7.32 (Bhattacharya). Buď θ ∈ Θ ⊂ R, nechť platí stejné podmínky jako v případě Rao Cramerovy nerovnosti, a navíc nechť pro všechna j ∈ m,
b m ≥ 1 existují parciální derivace
∂ j ET (X)
∂θj
Potom platí
T
D (T (X)) ≥ τe0 (θ)eIX (θ) τe0 (θ)
kde
pro ∀θ ∈ Θ
(103)
τe0 (θ) = τ (1) (θ), τ (2) (θ), . . . , τ (m) (θ)
" ∂ i ln f
e
Ji,j = E
X (x,θ)
∂θi
∂ j fX (x,θ)
∂θj
#
2
fX
přičemž matice e
J je konečná a nesingulární.
Důkaz. Důkaz je stejný jako v případě RCLB(θ), θ ∈ Θ ⊂ Rk , pouze matice D je definována jako
D (T (X)) (e
τ 0 )T
D=
e
τe0
J
Definice 7.33 (Asymptoticky eficientní odhad). Buď Tn (X) posloupnost nestranných odhadů τ (θ).
Potom říkáme že Tn (X) je asymptoticky eficientní pokud platí
RCLBn (θ)
→1
D (Tn (X))
Poznámka 7.34 (Nedostatky UMVUE).
1. Předpoklady jsou velice restriktivní.
2. Existují odhady, které sice nejsou nestranné, ale přitom mají lepší rozptyl než UMVUE.
3. Nestranný odhad nemusí existovat.
4. Pokud nestranný odhad existuje, nemusí být v praxi použitelný.
Věta 7.35. Buďte (Xj )nj=1 i.i.d. náhodné veličiny s rozdělením PX a nechť je systém hustot
F = fX (x, θ) | θ ∈ R1
regulární. Nechť je navíc platí
1. Parciální derivace
∂2f
∂θ2
je spojitá v θ.
94
2. Existuje taková M (X), EM (X) < ∞ pro kterou
2
∂ ln f ∂θ2 2
3. Tn (X) je nej. AN τ (θ), σ n(θ) , tj.
√
D
n (Tn − τ (θ)) → N 0, σ 2 (θ)
Potom
σ 2 (θ) ≥
[τ 0 (θ)]
IX1 (θ)
až na množinu míry nula.
Definice
7.36 (Asymptoticky eficientní odhady). Nechť Tn (X) je asymptoticky normální odhad
2
AN τ (θ), σ n(θ) . Říkáme, že Tn (X) je (asymptoticky) eficientní, pokud
σ 2 (θ) =
[τ 0 (θ)]2
IX1 (θ)
(1)
(2)
Definice 7.37 (Asymptoticky relativní eficience). Buďte Tn (X) a Tn (X) dva asymptoticky nor2 (θ), σ 2 (θ). Potom asymptoticky relativní eficienci
mální odhady s asymptotickými rozptyly σ(1)
(2)
(ARE) definujeme jako
2 (θ)
σ(1)
eT (1) T (2) = 2
σ(2) (θ)
7.5
Metoda momentů
Uvažujme prostor (Ω, A, P), X buď náhodná veličina a X = (X1 , . . . , Xn ) její pozorování. Nechť
θ ∈ Θ ⊂ Rk a τ (θ) buď odhadovaná parametrická funkce. Pro j ∈ b
k nechť existuje EX j = µ0j (θ), a
označme
µ0 (θ) = µ01 (θ), µ02 (θ), . . . , µ0k (θ)
takže µ0 (θ) : Rk → Rk a předpokládejme že existuje funkce inverzní, tj. (µ0 (θ))−1 .
Definice 7.38 (Momentový odhad). Označme
n
m0j (X) =
1X j
Xk
n
k=1
b M (X) parametru θ definujeme jako
Potom momentový odhad Θ
b M (X) = µ0 −1 m0 (X), . . . , m0 (X)
Θ
1
k
a momentový odhat TM (X) parametrické funkce τ (θ) definujeme jako
b M (X)
TM (X) = τ Θ
95
Poznámka 7.39.
b M (X) je řešením soustavy k nelineárních rovnic
1. Momentový odhad Θ
µ0j (θ) = m0j (X)
j∈b
k
(tzv. soustava momentových rovnic)
b M (X) nemusí být určen jednoznačně.
2. Odhad Θ
3. Místo µ0j a m0j lze použít centrální momenty µj a mj .
b M (X) konzistentním odhadem parametru θ.
Věta 7.40. Pokud je (µ0 )−1 funkce spojitá, potom je Θ
def.
b M ) jejím konzistentním odhadem.
Pokud je navíc τ (θ) spojitá funkce, potom je TM (X) = τ (Θ
Poznámka 7.41. Odhady získané metodou momentů jsou sice konzistentní, ale nejsou eficientní.
Problémy jsou také se splněním předpokladů (existence momentů a spojitost).
7.6
Metoda maximální věrohodnosti
Definice 7.42 (Věrohodnostní funkce). Buďte X = (X1 , . . . , Xn ) nezávislá pozorování X, tj.
Xk , k ∈ n
b i.i.d. s rozdělením PX . Potom libovolnou funkci tvaru
L(θ|x) = c(x)fx (x, θ)
nazýváme věrohodnostní funkcí, a funkci tvaru
l(θ|x) = ln L(θ|x)
nazýváme logaritmickou věrohodnostní funkcí.
b M L (X) taková borelovsky měřitelná
Definice 7.43 (Maximálně věrohodný odhad - MLE). Buď Θ
funkce na Ω, že platí
b M L (X)|X = sup L(θ, X)
L Θ
θ∈Θ
b M L (X) závisí na X a pokud je určena jednoznačně, potom je nazývána maximálně věroPokud Θ
b M L (X) nazýváme maximálně věrohodným
hodným odhadem parametru θ a TM L (X) = τ Θ
odhadem parametrické funkce τ (θ).
Lemma 7.44 (Jensenova nerovnost). Buď X náhodná veličina na prostoru (Ω, A, P), a nechť X ∈
L1 . Dále nechť Φ(t) je konvexní (resp. konkávní) funkce. Potom
Φ(EX) ≤ EΦ(X)
resp.
Φ(EX) ≥ EΦ(X)
Věta 7.45. Buď X ∼ f (x, θ), θ ∈ Θ ⊂ Rk , nechť suppf nezávisí na θ a E| ln f | < ∞. Buďte
X = (X1 , . . . , Xn ) pozorovánína X. Potom pro všechna θ 6= θ0 platí
lim P (L (θ0 |x) > L (θ|x)) = 1
n→∞
kde θ0 je skutečná hodnota parametru, a θ 6= θ0 . je libovolný bod z Θ.
96
Důkaz.
{L (θ0 |X) > L (θ|X)} =


Y
n

fXj (xj , θ)
L (θ|X)
<1 =
<1 =


L (θ0 |X)
fXj (xj , θ0 )
j=1
=
přitom platí
n
1X
ln
n
j=1

n
1 X
n
ln
j=1
fXj (xj , θ)
fXj (xj , θ0 )
fXj (xj , θ)
fXj (xj , θ0 )
<0



fXj (Xj , θ)
→ E ln
fXj (Xj , θ0 )
P
a tedy
Z
fXj (Xj , θ)
fXj (xj , θ)
fXj (Xj , θ)
Eθ0 ln
< ln E
= ln
fXj (xj , θ0 )dx = ln 1 = 0
fXj (Xj , θ0 )
fXj (Xj , θ0 )
R fXj (xj , θ0 )
Poznámka 7.46. Pokud je Θ ⊂ Rk otevřená množina, suppf nezávisí na θ a parciální derivace
∂L
b
e
∂θj existují pro všechna j ∈ k, potom je odhad ΘM L (X) řešením soustavy věrohodnostních rovnic
∂L(θ|x)
=0
∂θj
j∈b
k
Věta 7.47. Buďte X1 , . . . , Xn i.i.d. náhodné veličiny s hustotou f (x, θ), θ ∈ Θ ⊂ R, přičemž Θ je
otevřená množina a nechť θ0 je skutečná hodnota parametru. Dále nechť existuje δ 0 > 0 takové, že
na intervalu (θ0 − δ 0 , θ0 + δ 0 ) existuje parciální derivace
∂l(θ, x)
∂θ
Potom s pravděpodobností jdoucí k jedné (při n → ∞) existuje takové řešení věrohodnostních rovnice,
které je konsistentním odhadem θ0 .
Důkaz. Volme δ < δ 0 a označme ln = ln Ln . Potom
P (ln (θ0 ) − ln (θ0 − δ) > 0) → 1
P (ln (θ0 ) − ln (θ0 + δ) > 0) → 1
takže pro ∀δ < δ 0 musí (spojitá) funkce ln nabývat maxima. Takže věrohodnostní rovnice
∂l
=0
∂θ
má na intervalu (θ0 − δ 0 , θ0 + δ 0 ) řešení s pravděpodobností jdoucí k 1. A to jsme chtěli dokázat.
97
Věta 7.48. Buďte X1 , . . . , Xn i.i.d. náhodné veličiny s hustotou pravděpodobnosti fX (x, θ), θ ∈
Θ ⊂ R kde Θ je otevřená množina. Buď
F = {fX (x, θ) : θ ∈ Θ}
regulární systém hustot a nechť platí
3
∂ ln fX
≤ M (x)
(x,
θ)
∂θ3
kde EM (X) < ∞. Potom pro každé konzistentní řešení θbM L (X) věrohodnostní rovnice platí
√ 1
D
b
n θM L (X) − θ0 → N 0,
IX (θ0 )
tj. θbM L (X) ∼ AN θ0 , nIX1(θ0 ) .
Důkaz. Odhad θbM L (X) řeší věrohodnostní rovnici
∂l
(θ, x) = 0
∂θ
takže l0 θbM L (X) = 0. Provedeme Taylorův rozvoj v bodě θ0 , tj.
l000 (θ∗ ) 2
n n
0 = l0 θbM L (X) = l0 n (θ0 ) + l00 n (θ0 ) θbM L (X) − θ0 +
θbM L (X) − θ0 + · · ·
2
přičemž θn∗ ∈ (θ0 , θbn ) nebo θn∗ ∈ (θbn , θ0 ). Potom
√ n θbn − θ0 = − h
√
ln00 (θ0 ) +
n ln0 (θ0 )
∗)
ln000 (θbn
b
2n (θn
i
− θ0 )
přičemž z konzistence řešení θbn vyplývá
P
θbn − θ0 → 0
Ukažme nyní omezenost vztahu
n
1 X 000 b∗ ln000 (θbn∗ )
=
l 1 θn n
n
1
a protože dle předpokladu je
3
∂ ln fX
∂θ3 (x, θ) leqM (x)
potom dle zákona velkých čísel (Kolmogorov) platí
n
ln000 θbn∗
1X
≤
Mn → EM (X) < ∞
n
n
1
98
Odtud však vyplývá, že
!
n
1 X
P Mn (X) ≤ K → 1
n
1
a celkem tedy
ln000 (θbn∗ ) b
P
(θn − θ0 ) → 0
2n
Podívejme se nyní na další člen
2
n
∂ fx
1 00
1 X 00
s.j.
00
l 1 (θ0 ) → E l 1 (θ0 ) = E
ln (θ0 ) =
(θ0 ) = −I(θ0 )
n
n
∂2
1
a pro další člen platí
√
1
√ ln0 (θ0 ) = n
n
1 0
ln (θ0 )
n
=
√
n
1
Ale současně
0
!
n
1X 0
CLT
l 1 (θ0 ) − El0 1 (θ0 ) → N 0, D l0 1 (θ0 )
n
D l 1 (θ0 ) = E
∂ log fX (θ0 )
∂θ
přičemž dle Slutskyho lemmatu platí
√ D
n θbn − θ0 →
protože Y ∼ N (0, I(θ0 )).
99
1
Y
I(θ0 )
= I(θ0 )

Podobné dokumenty

Cemix ceník 2016 - stavební hmoty (7 477 kB)

Cemix ceník 2016 - stavební hmoty (7 477 kB) výrobek se zvýšenou kryvostí součást systému Zahradní program

Více

slajdy - Jan Outrata

slajdy - Jan Outrata obnovovací frekvence (refresh frequency/rate) – frekvence překreslování snímků za jednotku času, 50–160 Hz, (nepřímo) závisí na rozlišení barevná hloubka (počet barev) – počet barev, které je možné...

Více

pdf file

pdf file ⊃: Tato inkluze se ukáže úplně stejně opačným postupem.

Více

Projekční podklady

Projekční podklady cyklování kotle. Není žádným tajemstvím, že po 3/4 topné sezóny plně postačuje 15 – 50 % nominálního výkonu kotle. Všechny běžné kotle, u kterých nelze snížit výkon na tyto hodnoty při zachování ga...

Více

1. Úvod 1.1. Prostor elementárnıch jevu, algebra

1. Úvod 1.1. Prostor elementárnıch jevu, algebra Definice 32. Bud’ X náhodná veličina. Potom definujeme FX : R 7→ R, FX (x) = P (X ≤ x) pro každé x ∈ R. Věta 33. Bud’ X náhodná veličina, FX distribučnı́ funkce. Pak (1) x1 ≤ x2 =⇒ FX (x1...

Více