Pravděpodobnost a statistika - Bodové odhady a intervaly spolehlivosti

Transkript

Pravděpodobnost a statistika - Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
Bodové odhady a intervaly spolehlivosti
Vilém Vychodil
KMI/PRAS, Přednáška 10
Vytvořeno v rámci projektu 2963/2011 FRVŠ
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
1 / 50
Přednáška 10: Přehled
1
Úvod do teorie odhadu:
statistická inference, populace, parametr, výběr, odhad parametru,
bodové odhady, intervalové odhady,
náhodné výběry, statistiky, výběrová rozdělení.
2
Bodové odhady:
bodové odhady parametrických funkcí,
nestranné bodové odhady, zkreslení,
nestranné odhady pro střední hodnoty a rozptyl,
metoda momentů, metoda maximálně věrohodného odhadu,
Weibullovo rozdělení.
3
Intervaly spolehlivosti:
interval spolehlivosti, hladina spolehlivosti (konfidence),
kritické hodnoty standardního normálního rozdělení,
intervalu spolehlivosti pro střední hodnoty a rozptyly, Studentovo t-rozdělení,
velikost intervalů spolehlivosti, délka náhodného výběru.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
2 / 50
Statistická inference
Populace:
naivní pojem základní populace (Přednáška 1);
při statistickém usuzování: populace = náhodná veličina s jejím rozložením.
Základní úkol statistické inference:
zajímáme se o parametr = číselnou hodnotu, jež platí pro celou populaci
2
(například: střední hodnota µX , rozptyl σX
, hodnota p pro b(n, p), . . . );
2
používáme výběr (z populace) pro odhad µX , σX
, p, . . .;
odhad parametru = získání číselné hodnoty nebo intervalu hodnot z výběru
cíl: odhad by měl být „dost blízkoÿ skutečné hodnotě parametru.
Obvykle rozlišujeme dva druhy odhadů:
bodové odhady (angl.: point estimates) = odhadem je jedna hodnota,
intervalové odhady (angl.: interval estimates) = odhadem je interval hodnot.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
3 / 50
Náhodný výběr
Definice (Náhodný výběr, angl.: random sample)
Mějme pravděpodobnostní prostor hΩ, F, P i a n nezávislých náhodných veličin
X1 , X2 , . . . , Xn v prostoru hΩ, F, P i, které mají stejné rozdělení pravděpodobnosti,
to jest P ({Xi ∈ A}) = P ({Xj ∈ A}) pro každé i, j a A ∈ B. Označme
toto
rozdělení PX . Pak náhodný vektor X : Ω → Rn definovaný X(ω) (i) = Xi (ω) se
nazývá náhodný výběr z rozdělení PX .
Poznámky:
Náhodný výběr X : Ω → Rn značíme X = hX1 , . . . , Xn i, nebo jen X1 , . . . , Xn ;
posloupnost nezávislých náhodných veličin se stejným rozdělením;
abstrakce pojmu výběr (Přednáška 1):
místo konkrétních hodnot ve výběru máme náhodné veličiny;
má smysl uvažovat rozdělení PX (A) = P ({X ∈ A}).
dále se budeme zabývat statistikami: funkcemi náhodných výběrů.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
4 / 50
Statistiky a výběrová rozdělení
Definice (Statistika a výběrové rozdělení)
Mějme pravděpodobnostní prostor hΩ, F, P i, náhodný výběr X : Ω → Rn
a Borelovskou funkci g : Rn → R. Pak náhodnou veličinu ϑ : Ω → R definovanou
ϑ = g(X) nazveme (výběrová) statistika nebo výběrová charakteristika (angl.:
sample statistics) náhodného výběru X. Rozdělení pravděpodobnosti Pϑ : B → [0, 1]
veličiny ϑ nazýváme výběrové rozdělení, angl.: sampling distribution.
Poznámky:
Z definice složené funkce pro statistiku ϑ máme ϑ(ω) = g(X(ω)) ∈ R;
z definice rozdělení pravděpodobnosti: Pϑ (A) = P ({g(X) ∈ A});
Pro konkrétní výběr x1 , . . . , xn je g(x1 , . . . , xn ) konkrétní hodnota;
n
n
X
1 X
1
Například: X = ·
Xi ; S 2 =
·
(Xi − X)2 .
n i=1
n − 1 i=1
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
5 / 50
Bodové odhady parametrických funkcí
Definice (Bodový odhad)
Mějme pravděpodobnostní prostor hΩ, F, P i a náhodný výběr X = hX1 , . . . , Xn i
z rozdělení, které závisí na neznámých parametrech Θ1 , . . . , Θk . Pak bodový odhad
(angl.: point estimate) parametrické funkce τ (Θ1 , . . . , Θk ) na základě X je
libovolná statistika ϑ = g(X), kde g nezávisí na Θ1 , . . . , Θk .
Poznámky:
výše definovaný pojem sám o sobě nic neříká o „kvalitě odhaduÿ,
to jest o tom, jak jsou hodnoty dané odhadem blízko τ (Θ1 , . . . , Θk );
nejčastěji se zajímáme o jediný parametr Θ a parametrická funkce τ je identita:
to jest pokud τ (Θ) = Θ,
b
potom bodový odhad značíme Θ,
c2 .
například: pro parametry µ a σ 2 jsou jejich bodové odhady značeny µ
baσ
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
6 / 50
Nestranné bodové odhady
Bodové odhady, jejichž střední hodnoty jsou rovny hodnotám parametrických funkcí:
Definice (Nestranný / nezkreslený / nevychýlený bodový odhad)
Mějme pravděpodobnostní prostor hΩ, F, P i a náhodný výběr X = hX1 , . . . , Xn i
z rozdělení, které závisí na neznámých parametrech Θ1 , . . . , Θk . Bodový odhad
ϑ = g(X) parametrické funkce τ (Θ1 , . . . , Θk ) se nazývá nestranný bodový odhad
(angl.: unbiased estimate), pokud platí E(ϑ) = τ (Θ1 , . . . , Θk ). Rozdíl hodnot
E(ϑ) − τ (Θ1 , . . . , Θk ) se nazývá zkreslení nebo vychýlení (angl.: bias).
Poznámky:
Parametrická funkce τ (Θ1 , . . . , Θk ) má obecně nekonečně mnoho odhadů;
nestranný odhad = odhad, pro který klademe omezení na střední hodnotu;
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
7 / 50
Příklad (Nestranný odhad parametru p pro binomické rozdělení)
Problém: Výrobce automobilů testuje odolnost nárazníků vyhodnocením výsledků
série n kontrolovaných srážek nárazníku s umělou překážkou. Výsledkem každého
pokusu je úspěch (nárazník odolal) nebo neúspěch (neodolal).
Úkol: Uvažujme náhodnou veličinu X označující počet jednotlivých pokusů
končících úspěchem. Stanovte nestranný bodový odhad pravděpodobnosti úspěchu
jednotlivého testu.
Řešení: Každý jednotlivý pokus Xi má alternativní rozdělení
Pn s parametrem p. Počet
(nezávislých) pokusů končících úspěchem je potom X = i=1 Xi , přitom X má
binomické rozdělení b(n, p). Dále platí:
X
1
1
E
= · E(X) = · n · p = p.
n
n
n
X
Závěr: Pokud má X rozdělení b(n, p), potom je pb =
nestranný odhad p.
n
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
8 / 50
Nestranné bodové odhady pro střední hodnotu a rozptyl
Plyne z toho, co víme o střední hodnotě X:
Věta (Nestranný bodový odhad pro střední hodnotu)
Mějme náhodný výběr X1 , . . . , Xn , kde všechny Xi jsou náhodné veličiny se střední
hodnotou µ. Potom je X nestranný bodový odhad pro µ.
Dále máme:
Věta (Nestranný bodový odhad pro rozptyl)
Mějme náhodný výběr X1 , . . . , Xn , kde všechny Xi jsou náhodné veličiny se střední
hodnotou µ a rozptylem σ 2 . Potom je
n
X
2
1
2
2
b
σ =S =
·
Xi − X
n − 1 i=1
nestranný bodový odhad pro σ 2 .
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
9 / 50
Důkaz (začátek).
Nejprve prokážeme:
Xn
2 Xn
2
Xi − X =
Xi2 − 2Xi X + X
i=1
i=1
Xn
Xn
Xn
2
=
Xi2 − 2X
Xi +
X
i=1
i=1
i=1
X
Xn
n
1 Xn
2
2
Xi +
X
=
Xi − 2X n
i=1
i=1
i=1
n
Xn
2
=
Xi2 − 2X(nX) + nX
i=1
Xn
Xn
2
2
2
=
Xi2 − 2nX + nX =
Xi2 − nX .
i=1
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
i=1
Pravděpodobnost a statistika
10 / 50
Důkaz (pokračování).
S využitím předchozího a faktu, že σY2 − E(Y )2 = E(Y 2 ), máme:
X
n
n
X
2
1
1
2
2
2
=E
E(S ) = E
·
·
Xi − X
Xi − n · X
n − 1 i=1
n−1
i=1
X
n
1
1
2
2
2
=
·
E(Xi ) − n · E(X ) =
· n · E(X12 ) − n · E(X )
n−1
n−1
i=1
n
n
2
2
=
· E(X12 ) − E(X ) =
· σ 2 − E(X1 )2 − σX
− E(X)2
n−1
n−1
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
11 / 50
Důkaz (dokončení).
=
=
=
=
=
=
n
2
− E(X)2 =
· σ 2 − E(X1 )2 − σX
n−1
n
2
· σ 2 − µ2 − σX
− µ2X =
n−1
n
2
− µ2 =
· σ 2 − µ2 − σX
n−1
n
σ2
n
2
2
2
=
· σ − σX =
· σ −
n−1
n−1
n
n
n · σ2 σ2
n
n · σ2 − σ2
·
−
=
·
=
n−1
n
n
n−1
n
n
n−1 2
·
· σ = σ2.
n−1
n
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
12 / 50
Momenty náhodných výběrů
Budeme se zabývat tím, jak stanovit (nestranné) bodové odhady.
Potřebujeme nový pojem – výběrový moment.
Připomeňme: r-tý moment X je očekávaná hodnota E(X r ).
Definice (r-tý moment náhodného výběru)
Mějme náhodný výběr X1 , . . . , Xn , pak r-tý moment náhodného výběru, angl.:
rth sample moment je náhodná veličina
n
1 X
·
Xr.
n i=1 i
Poznámka: pokud rozdělení závisí na parametrech Θ1 , . . . , Θk , pak momenty E(X r )
rovněž závisí na těchto parametrech; momenty náhodných výběrů však nikoliv.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
13 / 50
Získání bodových odhadů: metoda momentů
Princip metody momentů
Mějme náhodný výběr hX1 , . . . , Xn i z rozdělení, které závisí na neznámých
b 1, . . . , Θ
b k pro parametry
parametrech Θ1 , . . . , Θk . Potom momentové odhady Θ
Θ1 , . . . , Θk získáme jako řešení soustavy k rovnic, ve kterých klademe do rovnosti
i-té momenty X a i-té moment náhodného výběru.
Vede na soustavy rovnic ve tvaru:
n
1 X
·
Xi1 = E X 1 ,
n i=1
..
..
.
.
n
X
1
Xik = E X k .
·
n i=1
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
14 / 50
Příklad (Stanovení bodových odhadů pro parametry rozdělení Γ)
Funkce hustoty rozdělení Γ: fX (x) =
1
−x
· xα−1 · e θ (Přednáška 7).
α
Γ(α) · θ
Úkol: Stanovte bodové odhady pro parametry
α (počet změn),
θ (střední doba čekání na jednu změnu).
Řešení: První a druhý moment veličiny X mají následující tvary.
E(X 1 ) = α · θ,
E(X 2 ) = θ2 · (α + 1) · α.
Použitím metody momentů tedy stačí stanovit α a θ z rovnic
1 Xn
1 Xn
·
Xi1 = E(X 1 ) = α · θ,
·
Xi2 = E(X 2 ) = θ2 · (α + 1) · α.
i=1
i=1
n
n
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
15 / 50
Příklad (Stanovení bodových odhadů pro parametry rozdělení Γ)
Použitím metody momentů stanovíme odhady pro parametry α a θ z rovnic
n
1 X
·
Xi1 = α · θ,
n i=1
n
1 X
·
X 2 = θ2 · (α + 1) · α.
n i=1 i
Vyjádřením bodových odhadů α
b a θb dostáváme:
2
X
,
α
b=
n
1 X 2
2
·
X −X
n i=1 i
V. Vychodil (KMI/PRAS, Přednáška 10)
θb =
Bodové odhady a intervaly spolehlivosti
n
1 X
2
Xi2 − X
·
n i=1
X
.
Pravděpodobnost a statistika
16 / 50
Získání BO: princip maximálně věrohodného odhadu
Mějme náhodný výběr X = hX1 , . . . , Xn i z rozdělení, které závisí na neznámých
parametrech Θ1 , . . . , Θk . Potom:
sdružená pravděp. funkce (nebo funkce hustoty) fX závisí na Θ1 , . . . , Θk ;
pro libovolný výběr y1 , . . . , yn lze uvažovat funkci Lx1 ,...,xn v proměnných
Θ1 , . . . , Θk definovanou Lx1 ,...,xn (Θ1 , . . . , Θk ) = fX (x1 , . . . , xn ; Θ1 , . . . , Θk ) .
Definice (Maximálně věrohodný odhad)
Pokud existují funkce gi : Rn → R takové, že pro libovolný výběr x1 , . . . , xn je
hg1 (x1 , . . . , xn ), . . . , gk (x1 , . . . , xn )i
b 1 = g1 (X), . . . , Θ
b k = gk (X)
bodem maxima funkce Lx1 ,...,xn , pak se statistiky Θ
nazývají maximálně věrohodné odhady (angl.: maximum likelihood estimators)
pro parametry Θ1 , . . . , Θk .
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
17 / 50
Příklad (Maximálně věrohodný odhad parametru θ)
Uvažujme náhodný výběr X = hX1 , . . . , Xn i z exponenciálního rozdělení
s parametrem θ = λ−1 . Z nezávislosti X1 , . . . , Xn dostáváme, že
X
Yn
n
−λxi
n
Lx1 ,...,xn (λ) = fX (x1 , . . . , xn ; λ) =
λe
= λ exp −λ
xi .
i=1
i=1
P
Zlogaritmováním fX dostáváme ln fX (x1 , . . . , xn ; λ) = n ln λ − λ ni=1 xi .
Využitím faktu, že fX (x1 , . . . , xn ; λ) má stejné extrémy jako ln fX (x1 , . . . , xn ; λ)
vyjádříme bod maxima
n
1
b= 1 .
λ = Pn
=
, to jest λ
x
X
i=1 xi
Poznámka (Interpretace hodnot Lx1 ,...,xn (Θ1 , . . . , Θk ))
Pokud je X1 , . . . , Xn náhodný výběr z diskrétního rozdělení, pak je
Lx1 ,...,xn (Θ1 , . . . , Θk ) je pravděpodobnost, že x1 , . . . , xn vzniklo výběrem při použití
parametrů Θ1 , . . . , Θk (chceme maximalizovat).
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
18 / 50
Příklad (Maximálně věrohodné odhad parametrů N (µ, σ 2 ))
Pokud je X1 , . . . , Xn náhodný výběr z normálního rozdělení N (µ, σ 2 ), pak
maximálně věrohodné odhady parametrů µ a σ 2 jsou
n
1 X
2
b
µ
b = X,
σ = ·
(Xi − X)2 .
n i=1
Poznámka (Maximálně verohodný odhad není obecně nestranný)
V předchozím případě platí
maximálně věrohodný odhad
6=
nestranný odhad ,
protože nestranný odhad parametru σ 2 je
σb2 = S 2 =
V. Vychodil (KMI/PRAS, Přednáška 10)
n
X
2
1
·
Xi − X .
n − 1 i=1
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
19 / 50
Weibullovo rozdělení
Definice (Náhodná veličina s Weibullovým rozdělením)
Spojitá náhodná veličina X s hustotou fX má Weibullovo rozdělení pokud existují
reálná čísla λ > 0 a k > 0 tak, že fX je ve tvaru
k−1
k
x
x k
· ·
pokud x ≥ 0,
fX (x) = exp −
λ
λ
λ
a fX (x) = 0 jinak.
Poznámky:
Parametry λ a k určují škálu a tvar (+ někdy se zavádí posunutí θ);
pro k = 1 přejde Weibullovo rozdělení v exponenciální rozdělení;
pro k = 3.4 je Weibullovo rozdělení zhruba podobné normálnímu rozdělení;
využívá se v aplikacích pro analýzu životnosti komponent.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
20 / 50
Příklad (Příklady fX pro Weibullovo rozdělení)
Weibullovo rozdělení lze použít pro modelování poměru selhání, které
1
se v čase snižuje (pro k < 1); nebo
2
je neměnné v čase (pro k = 1); nebo
3
se v čase zvyšuje (pro k > 1).
Příklady funkcí hustoty Weibullova rozdělení:
1.75
λ = 0.5
1.25
k=2
1.50
k=3
λ=1
1.00
1.25
0.75
1.00
0.75
0.50
λ = 1.0
λ = 1.5
0.50
1
2
V. Vychodil (KMI/PRAS, Přednáška 10)
3
4
k=2
k=1
0.25
λ = 3.0
0.25
5
Bodové odhady a intervaly spolehlivosti
1
2
k = 0.5
3
4
Pravděpodobnost a statistika
5
21 / 50
Příklad (Maximálně věrohodný odhad parametrů Weibullova rozdělení)
Problém: Máme výběr x1 , . . . , xn zaznamenávající n časů životnosti, po kterých
selhala každá z n nezávislých součástek stejného typu.
Úkol: Předpokládejte, že výběr x1 , . . . , xn pochází z Weibullova rozdělení
a metodou maximálně věrohodných odhadů stanovte jeho parametry.
Řešení: Sdružená funkce hustoty fvecX je ve tvaru:
k−1 !
Yn
k
xi
xi k
.
fX (x1 , . . . , xn ; λ, k) =
· ·
exp −
i=1
λ
λ
λ
bab
Hledáme proto řešení λ
k následujících rovnic:
!
!
∂fX (x1 , . . . , xn ; λ, k)
∂fX (x1 , . . . , xn ; λ, k)
ln
= 0,
ln
= 0.
∂λ
∂k
Analytické řešení je komplikované (používají se numerické metody).
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
22 / 50
Příklad (Stanovení parametrů Weibullova rozdělení na základě výběru)
Problém: Uvažujme následující výběr (životnost komponenty v hodinách):
x1 = 92, x2 = 35, x3 = 14, x4 = 123, x5 = 52, x6 = 77 .
Úkol: Metodou maximálně věrohodného odhadu stanovte parametry Weibullova
rozdělení, ze kterého výběr pochází. Poté stanovte pravděpodobnost, že náhodně
zvolená komponenta vydrží běžet alespoň 15 hodin.
Numerickým řešením soustavy dvou nelineárních rovnic pro x1 , . . . , x6 dostáváme:
b ≈ 73.6935 ,
b
λ
k ≈ 1.8539 .
To znamená, že
15 k
15
1.8539
P ({X ≥ 15}) = 1 − P ({X < 15}) = e−( λ ) = e−( 73.6935 )
≈ 0.9490.
Pravděpodobnost, že součástka vydrží alespoň 15 hodin je 0.94.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
23 / 50
Intervaly spolehlivosti: Motivace
Problémy s bodovými odhady:
bodový odhad je (jediné) číslo
neposkytuje informaci o spolehlivosti odhadu
(to jest o pravděpodobnosti, že odhad je blízko skutečné hodnotě parametru)
typická otázka: „Jak blízko je X (nestranný odhad) hodnotě µ?ÿ
Řešení:
uvažujeme interval pravděpodobných hodnot místo jediné hodnoty,
bodové odhady Z=⇒ intervalové odhady.
Hlavní myšlenka:
1
zvolíme hladinu spolehlivosti (danou v procentech);
2
na základě znalosti rozdělení výběrové statistiky stanovíme interval [a, b]
obsahující skutečnou hodnotu parametru (například µX ) s danou spolehlivostí.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
24 / 50
Intervaly spolehlivosti
Definice (Interval spolehlivosti / konfidenční interval)
Mějme náhodný výběr X = hX1 , . . . , Xn i z rozdělení, které závisí na neznámém
parametru Θ ∈ R a uvažujme číslo α ∈ [0, 1]. Pokud jsou g(X) a h(X) statistiky,
pro které platí
P {g(X) ≤ Θ ≤ h(X)} = 1 − α,
potom se g(X), h(X) nazývá 100(1 − α)% interval spolehlivosti nebo též
konfidenční interval (angl.: confidence interval). Číslo 1 − α (případně 100(1 − α)%)
se nazývá hladina spolehlivosti nebo též konfidence, angl.: confidence coefficient.
Poznámka:
P {g(X) ≤ Θ ≤ h(X)} = P ({g(X) ≤ Θ} ∩ {Θ ≤ h(X)}),
to jest {g(X) ≤ Θ ≤ h(X)} je dobře definovaný jev;
Intervaly spolehlivosti nejsou dány jednoznačně (snaha najít nejkratší).
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
25 / 50
Vlastnosti intervalů spolehlivosti
Typické hodnoty hladiny spolehlivosti (konfidence):
95%, 98%, . . .
α = 0 a α = 1 nemají valný smysl (odpovídající intervaly jsou triviální).
Intervaly spolehlivosti = náhodné intervaly
nejedná se o intervaly v klasickém slova smyslu,
hranice intervalů jsou dány náhodnými veličinami,
přejdou v klasické intervaly dosazením hodnot konkrétního výběru,
pro různě dlouhé výběry dostaneme obecně různě dlouhé intervaly.
Poznámka (Monotonie: vyšší konfidence Z=⇒ delší intervaly)
Pro α ≤ β platí, že 100(1 − α)% konfidenční interval je
podinterval 100(1 − β)% konfidenčního intervalu.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
26 / 50
Základní metody stanovení intervalů spolehlivosti
Přesné × přibližné stanovení intervalu:
přesné stanovení intervalu je možné při znalosti rozdělení,
není obvykle možné, rozdělení závisí na odhadovaných parametrech.
Aproximace pomocí normálních rozdělení:
využívá centrální limitní větu,
využívá vlastnosti (percentilů) standardního normálního rozdělení.
Typické problémy:
velké výběry × malé výběry (obvykle jiné techniky),
odhadování µ závisí na rozptylu σ 2 (může být znám × nemusí být znám),
otázky týkající se (dostačující) velikosti výběru.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
27 / 50
Horní percentily standardního normálního rozdělení
Definice (Horní percentil, angl.: upper percentile)
Hodnotu zp ∈ R takovou, že Φ(zp ) = 1 − p nazveme horní (100p)% percentil.
Z vlastností distribuční funkce Φ a kvantilové funkce Φ−1 :
1 − Φ(zp ) = P ({Z ≥ zp }) = p, kde Z je veličina s rozdělením N (0, 1);
zp = Φ− (1 − p): zp je 100(1 − p)% percentil.
fZ
0.3
0.2
0.1
p
−3
V. Vychodil (KMI/PRAS, Přednáška 10)
−2
−1
0
1
zp
Bodové odhady a intervaly spolehlivosti
2
3
Pravděpodobnost a statistika
28 / 50
Příklad (Motivace pro intervaly spolehlivosti pro střední hodnoty)
Pokud má Z rozdělení N (0, 1), pak
α
α
P −z 2 ≤ Z ≤ z 2
=1−α .
fZ
0.3
0.2
0.1
−3
V. Vychodil (KMI/PRAS, Přednáška 10)
−z α2
0
1
Bodové odhady a intervaly spolehlivosti
z α2
2
3
Pravděpodobnost a statistika
29 / 50
Věta (Int. spolehlivosti pro µ z normálního rozdělení pro dané σ 2 )
Mějme náhodný výběr z normálního rozdělení s rozptylem σ 2 > 0 a jeho průměr X.
Pak 100(1 − α)% interval spolehlivosti pro µ je
σ
σ
α
α
X − z2 · √ , X + z2 · √ .
n
n
Důkaz (začátek).
Nechť X má rozdělení N (µ, σ 2 ). Z předchozích pozorování o vlastnostech
normálních veličin víme, že X má normální rozdělení se střední hodnotou√µ
a rozptylem σ 2 /n. Odtud plyne, že náhodná veličina W = (X − µ)/(σ/ n) má
standardní normální rozdělení N (0, 1). Pomocí horních percentilů vyjádříme
X −µ
α
α
α
α
√ ≤ z2
P −z 2 ≤
= P −z 2 ≤ W ≤ z 2
= 1 − α.
σ/ n
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
30 / 50
Důkaz (dokončení).
Vynásobením obou stran nerovností ze
X −µ
√ ≤ z α2
P −z α2 ≤
=1−α
σ/ n
√
zápornou nenulovou hodnotou −σ/ n dostáváme
σ
σ
P −z α2 · √ ≤ µ − X ≤ z α2 · √
= 1 − α.
n
n
Přičtením X ke všem stranám v předchozí nerovnosti dostáváme
σ
σ
= 1 − α,
P X − z α2 · √ ≤ µ ≤ X + z α2 · √
n
n
což jsme měli dokázat.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
31 / 50
Příklad (Int. spolehlivosti pro µ z normálního rozdělení pro dané σ 2 )
Problém: Předpokládejme, že máme čtyřprvkový náhodný výběr z normálního
rozdělení s rozptylem σ 2 = 9.
Úkol: Stanovte 95% interval spolehlivosti pro µ.
Řešení:
3
3
X − z0.025 · √ , X + z0.025 · √
= X − 2.940, X + 2.940 .
4
4
Pro konkrétní čtyřprvkový výběr získáme konkrétní interval hodnot. Například pro
x1 = 0.667,
x2 = 4.692,
dostáváme x = 4.472, to jest
V. Vychodil (KMI/PRAS, Přednáška 10)
x3 = 3.338,
x4 = 9.189
1.532, 7.412 .
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
32 / 50
Zkrácení délky intervalů spolehlivosti
Obecný požadavek
Je žádoucí stanovovat co možná nejkratší intervaly spolehlivosti.
Intervaly spolehlivosti mohou být zúženy („zkrácenyÿ) pomocí:
1
snížením hladiny spolehlivosti (to jest, zvětšením hodnoty α),
2
použitím větších (delších) výběrů.
Příklad (Zmenšení intervalů spolehlivosti použitím větších výběrů)
Mějme náhodnou veličinu X s rozdělením N (5, 9) a náhodný výběr X1 , . . . , Xn .
Pokud n = 4, pak 95% interval spolehlivosti pro µ je X − 2.940, X + 2.940 .
Pokud n = 25, pak 95% interval spolehlivosti pro µ je X − 1.176, X + 1.176 .
Pokud n = 400, pak 95% interval spolehlivosti pro µ je X − 0.294, X + 0.294 .
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
33 / 50
Intervaly spolehlivosti pro µ: velké n, známé σ 2 > 0
Zobecnění předchozího postupu
X1 , . . . , Xn je náhodný výběr z libovolného rozdělení s rozptylem σ 2 > 0;
pokud je n dostatečně velké (typicky, n ≥ 30 a větší), pak
X −µ
α
α
√ < z2
P −z 2 <
≈ 1 − α,
σ/ n
protože dle centrální limitní věty má W =
X −µ
√ přibližně rozdělení N (0, 1).
σ/ n
Důsledek (Int. spolehlivosti pro µ při velkém n a pro dané σ 2 ).
100(1 − α)% interval spolehlivosti pro µ je přibližně
σ
σ
X − z α2 · √ , X + z α2 · √ .
n
n
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
34 / 50
Intervaly spolehlivosti pro µ: velké n, neznámé σ 2 > 0
Postup při neznámé hodnotě rozptylu σ 2 :
Pokud je n dostatečně velké, lze použít S 2 (rozptyl náhodného výběru)
místo σ 2 (neznámý rozptyl populace); pro
v
u
n
X
u 1
X −µ
t
√
W =
, kde S =
·
(Xi − X)2
n − 1 i=1
S/ n
má W přibližně rozdělení N (0, 1).
Důsledek (Int. spolehlivosti pro µ při velkém n a pro neznámé σ 2 ).
100(1 − α)% interval spolehlivosti pro µ je přibližně
S
S
α
α
X − z2 · √ , X + z2 · √ .
n
n
funguje dobře pro výběry, kde n ≥ 30 (nebo n ≥ 50 při vyšší šikmosti rozdělení).
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
35 / 50
Stanovení intervalů spolehlivosti z malých výběrů
Častá situace:
rozptyl není znám,
výběr, který je k dispozici je malý (jednotky pozorování),
výběr není možné zvětšit (těžká opakovatelnost experimentu, náklady, . . . ).
Postup: Vyjádříme výběrové rozdělení
Xn
(n − 1) · S 2
1
,
kde
·
(Xi − X)2 .
2
i=1
σ
n−1
Pomocí výběrového rozdělení stanovíme rozdělení veličiny
X −µ
√ .
S/ n
Musíme prozkoumat vztah X a S 2 (a souvisejících rozdělení);
významnou roli zde hraje nové rozdělení odvozené z N (0, 1) a χ2 (r).
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
36 / 50
Nezávislost výběrových charakteristik X a S 2
Věta
Mějme n-prvkový náhodný výběr X1 , . . . , Xn z rozdělení N (µ, σ 2 ). Pak pro
X=
1 Xn
·
Xi
i=1
n
a S2 =
Xn
1
·
(Xi − X)2 ,
i=1
n−1
platí
1
X a S 2 jsou nezávislé,
2
(n − 1) · S 2
má rozdělení χ2 (n − 1).
σ2
Důkaz (nebude vyžadován).
Netriviální (zejména část o nezávislosti X a S 2 ).
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
37 / 50
Studentovo t-rozdělení
Definice (Studentovo t-rozdělení)
Mějme náhodnou veličinu T danou zlomkem,
Z
T =p
,
U/r
kde Z má rozdělení N (0, 1), U má rozdělení χ2 (r) a Z a U jsou nezávislé. Pak
řekneme, že T má t-rozdělení s r stupni volnosti (angl.: t-distribution).
Lze ukázat, že funkce hustoty a distribuční funkce jsou v následujících tvarech:
Γ r+1
2
fT (t) = √
,
2 (r+1)/2
r
π · r · Γ 2 · 1 + tr
Z ∞Z t·√u/r −z2 /2
1
e
r
u
FT (t) = √
dz · u 2 −1 · e− 2 du .
r ·
(r+1)/2
2
π · Γ( 2 ) 0
−∞
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
38 / 50
Příklad (Studentovo t-rozdělení)
N (0, 1)
r = 12
r=1
r=2
0.2
r=4
0.1
−4
−3
−2
V. Vychodil (KMI/PRAS, Přednáška 10)
−1
0
1
Bodové odhady a intervaly spolehlivosti
2
3
Pravděpodobnost a statistika
4
39 / 50
Intervaly spolehlivosti založené na t-rozdělení
Uvažujme n-prvkový náhodný výběr X1 , . . . , Xn z normálního rozdělení.
Použitím předchozí věty a tvaru veličiny mající t-rozdělení dostáváme, že
T =
X −µ
√
σ/ n
v
u
u
t
=
(n − 1) · S 2
σ2
n−1
T má t-rozdělení s r = n − 1 stupni volnosti. To jest:
X −µ
√ .
S/ n
Důsledek (Int. spolehlivosti pro µ při malém n a pro neznámé σ 2 ).
Pokud je X1 , . . . , Xn z normálního rozdělení, pak 100(1 − α)% int. spolehl. pro µ je
S
S
α
α
X − t 2 (n − 1) · √ , X + t 2 (n − 1) · √ ,
n
n
kde tp (k) označuje horní (100p)% percentil t-rozdělení s k stupni volnosti.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
40 / 50
Jednostranné intervaly spolehlivosti
Možný tvar intervalů spolehlivosti:
doposud ve tvaru (a, b), kde a, b ∈ R;
další možnost: (−∞, b) nebo (a, ∞) (jednostranné intervaly).
Příklad (Určení jednostranného intervalu spolehlivosti)
Pokud je X1 , . . . , Xn náhodný výběr z normálního rozdělení s rozptylem σ 2 > 0, pak
X −µ
σ
√ ≤ zα
1−α=P
= P X − zα · √ ≤ µ .
σ/ n
n
To jest, 100(1 − α)% jednostranné intervaly spolehlivosti pro µ (levý a pravý) jsou
σ
σ
−∞ , X + zα · √ ,
X − zα · √ , ∞ .
n
n
Analogicky se postupuje v ostatních případech (σ 2 neznámé, . . . )
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
41 / 50
Příklad (Int. spolehlivosti pro µ z normálního rozdělení pro dané σ 2 )
Problém: Předpokládejme, že máme čtyřprvkový náhodný výběr z normálního
rozdělení s rozptylem σ 2 = 9.
Úkol: Stanovte 95% oboustranný a jednostranné intervaly spolehlivosti pro µ.
Řešení: 3
3
X − z0.025 · √ , X + z0.025 · √
= X − 2.940, X + 2.940 ,
4
4
3
−∞, X + z0.05 · √
= −∞, X + 2.467 ,
4
3
X − z0.05 · √ , ∞ = X − 2.467, ∞ ,
4
Pro konkrétní výběr x1 = 0.667, x2 = 4.692, x3 = 3.338, x4 = 9.189
získáváme intervaly 1.532, 7.412 , −∞, 6.939 a 2.005, ∞ .
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
42 / 50
Intervaly spolehlivosti pro rozdíly středních hodnot
Problém porovnání středních hodnot µX a µY dvou výběrů:
2
náhodný výběr X1 , . . . , Xn z normálního rozdělení N (µX , σX
);
náhodný výběr Y1 , . . . , Ym z normálního rozdělení N (µY , σY2 );
(neznámé) střední hodnoty µX a µY jsou dost blízko,
pokud je interval spolehlivosti pro µX − µY dost malý (a obsahuje 0).
2
Rozbor: Průměry X a Y mají rozdělení N (µX , σX
/n) a N (µY , σY2 /m); to jest
2
/n + σY2 /m).
lineární kombinace W = X − Y má rozdělení N (µX − µY , σX
Odtud dostáváme:
(X − Y ) − (µX − µY )
α
α
p
P −z 2 ≤
≤ z2
= 1 − α,
2
σX
/n + σY2 /m
z toho můžeme ekvivalentně vyjádřit
P (X − Y ) − z α2 · σW ≤ µX − µY ≤ (X − Y ) + z α2 · σW = 1 − α .
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
43 / 50
Horní percentily rozdělení χ2
Podobně jako u standardního normálního a t-rozdělení uvažujeme horní percentily
rozdělení χ2 s r stupni volnosti:
Definice (Horní percentily rozdělení χ2 )
Nechť X je náhodná veličina z rozdělením
χ2 (r) a p ∈ (0, 1). Pak hodnotu
2
2
χp (r) ∈ R takovou, že FX χp (r) = 1 − p nazveme horní (100p)% percentil
rozdělení χ2 s r stupni volnosti.
−1
Z vlastností distribuční funkce FX a kvantilové funkce FX
:
2
2
1 − FX χp (r) = P {X ≥ χp (r)} = p, kde X je veličina s rozdělením χ2 (r);
χ2p (r) = FX− (1 − p), to jest χ2p (r) je 100(1 − p)% percentil.
Hodnoty χ2p (r) jsou v tabulkách (numerické aproximace).
Poznámka: Hodnoty mX − χ2p (r) a χ21−p (r) jsou obecně různé. (!!)
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
44 / 50
Příklad (Horní percentily rozdělení χ2 )
Uvažujme náhodnou veličinu X, která má rozdělení χ2 s r = 5 stupni volnosti.
Pak máme
χ20.9 (5) = 1.610 = FX− (0.1).
χ20.1 (5) = 9.236 = FX− (0.9),
0.15
0.10
0.05
χ20.9(5)
V. Vychodil (KMI/PRAS, Přednáška 10)
3
5
7
χ20.1(5)
11
Bodové odhady a intervaly spolehlivosti
13
15
Pravděpodobnost a statistika
45 / 50
Věta (Interval spolehlivosti pro σ 2 z normálního rozdělení)
Mějme n-prvkový náhodný výběr z normálního rozdělení. Pak 100(1 − α)% interval
spolehlivosti pro σ 2 je
!
(n − 1) · S 2 (n − 1) · S 2
.
,
χ2α (n − 1) χ21− α (n − 1)
2
2
Důkaz.
Mějme X1 , . . . , Xn z rozdělení N (µ, σ 2 ). Dle předchozí věty, ((n − 1) · S 2 )/σ 2 má
rozdělení χ2 (n − 1), přitom S 2 je rozptyl náhodného výběru X1 , . . . , Xn . S využitím
horních percentilů můžeme psát:
(n − 1) · S 2
2
2
P χ1− α (n − 1) ≤
≤ χ α (n − 1)
= 1−α.
2
2
σ2
Ekvivalentním vyjádřením:
(n − 1) · S 2
(n − 1) · S 2
2
P
≤σ ≤ 2
= 1−α.
χ2α (n − 1)
χ1− α (n − 1)
2
V. Vychodil (KMI/PRAS, Přednáška 10)
2
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
46 / 50
Příklad (Stanovení intervalů spolehlivosti pro rozptyl)
Problém: Předpokládejme, že náhodná veličina X má normální rozdělení.
2
Úkol: Najděte 90% interval spolehlivosti pro rozptyl σX
za předpokladu,
že máme k dispozici následující třináctiprvkový výběr:
23.15, 15.16, 22.53, 20.83, 19.13, 11.05, 25.29, 18.16, 21.05, 17.19, 26.87, 11.06, 15.19.
Řešení: Nejprve spočteme výběrový průměr x = 18.97. Dále máme
X13
(n − 1) · s2 = 12 · s2 =
(xi − x)2 = 12 · 24.85 = 298.23.
i=1
2
To jest, 90% interval spolehlivosti pro rozptyl σX
je
12 · s2
12 · s2
298.23 298.23
, 2
=
,
= 14.18, 57.07 .
2
χ0.05 (12) χ0.95 (12)
21.03 5.226
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
47 / 50
Příklad (Stanovení potřebné velikosti výběru)
Problém: Uvažujme n-prvkový náhodný výběr z rozdělení se střední hodnotou µ
a rozptylem σ 2 .
Úkol: Jsou dány hodnoty α ∈ (0, 1) a ε > 0. Stanovte velikost n náhodného výběru
tak, aby 100(1 − α)% interval spolehlivosti pro µ byl (X − ε, X + ε).
Řešení: Z předpokladu, že W =
X −µ
√ má přibližně standardní normální rozdělení
σ/ n
dostáváme, že
σ
σ
≈ 1 − α.
P
X − z α2 · √ ≤ µ ≤ X + z α2 · √
n
n
Odtud přímo dostáváme
σ
ε = z · √ , i.e. n =
n
α
2
V. Vychodil (KMI/PRAS, Přednáška 10)
σ 2
α
z2 ·
.
ε
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
48 / 50
Příklady (Potřebné počty pozorování)
Velikosti výběrů při 1 − α = 0.95
8
7
6
5 0.55 0.63 0.73
15 0.95 1.08 1.27
25 1.22 1.40 1.63
35 1.45 1.66 1.93
45 1.64 1.88 2.19
(řádky = σ 2 ;
5
4
0.88 1.10
1.52 1.90
1.96 2.45
2.32 2.90
2.63 3.29
sloupce = ω)
3
2
1
1.46 2.19 4.38
2.53 3.80 7.59
3.27 4.90 9.80
3.87 5.80 11.60
4.38 6.57 13.15
Velikosti výběrů při 1 − α = 0.99
8
7
6
5 0.72 0.82 0.96
15 1.25 1.43 1.66
25 1.61 1.84 2.15
35 1.90 2.18 2.54
45 2.16 2.47 2.88
(řádky = σ 2 ;
5
4
1.15 1.44
2.00 2.49
2.58 3.22
3.05 3.81
3.46 4.32
sloupce = ω)
3
2
1
1.92 2.88 5.76
3.33 4.99 9.98
4.29 6.44 12.88
5.08 7.62 15.24
5.76 8.64 17.28
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
49 / 50
Přednáška 10: Závěr
Pojmy:
populace, parametr, parametrická funkce, výběrová statistika
bodový odhad, nestranný odhad, zkreslení, maximálně věrohodný odhad
intervaly spolehlivosti, práh spolehlivosti, konfidence, náhodný interval
Weibullovo rozdělení, Studentovo t-rozdělení
Použité zdroje:
Billingsley, P.: Probability and Measure
John Wiley & Sons; 3. vydání, ISBN 978–0–471–00710–4.
Gentle J. E.: Random Number Generation and Monte Carlo Methods
Springer 2004, ISBN 978–0–387–00178–4.
Hogg R. V., Tanis E. A.: Probability and Statistical Inference
Prentice Hall; 7. vydání 2005, ISBN 978–0–13–146413–1.
V. Vychodil (KMI/PRAS, Přednáška 10)
Bodové odhady a intervaly spolehlivosti
Pravděpodobnost a statistika
50 / 50

Podobné dokumenty

Úvod do pravděpodobnosti

Úvod do pravděpodobnosti Bylo provedeno n měřenı́ Xi . Určete interval spolehlivosti odhadu střednı́ hodnoty µ̂ a interval spolehlivosti odhadu rozptylu σ̂ 2 pro α = 0, 1 a α = 0, 05. Řešenı́:

Více

Pravděpodobnost a statistika

Pravděpodobnost a statistika matematický přístup: zavedení pomocí obecného pojmu integrál. Nevýhody inženýrského přístupu: do definice „není dostatečně vidětÿ (zejména v případě spojitých veličin); E(X) je definovaná pomocí hu...

Více

Náhodný výběr

Náhodný výběr rozdělení, vyšetřujeme závislosti náhodných veličin apod. Metody matematické statistiky jsou založeny na následujících pojmech. 1. Pojmy Opakujeme-li n-krát nezávisle pokus, jehož výsledkem je hodn...

Více

Pravděpodobnost a statistika

Pravděpodobnost a statistika a fX (x) = 0 jinak; X se pak nazývá binomická veličina s rozdělením b(n, p). Binomický experiment (angl.: binomial experiment) je posloupnost pokusů: Bernoulliho pokus je proveden n krát (parametr)...

Více

Normální rozdělení a centrální limitní věta

Normální rozdělení a centrální limitní věta Náhodný výběr X : Ω → Rn značíme X = hX1 , . . . , Xn i, nebo jen X1 , . . . , Xn ; posloupnost nezávislých náhodných veličin se stejným rozdělením. V. Vychodil (KMI/PRAS, Přednáška 9)

Více

Řízení jakosti I.

Řízení jakosti I. Příčiny variability Náhodné šumy, které se vyskytují i za podmínek, že je proces v optimálním (standardním) stavu. Jsou způsobeny nekontrolova-nými příčinami a lze je obecně snížit pouze

Více

Adaptive fusion algorithm for VIS and IR images driven by neural

Adaptive fusion algorithm for VIS and IR images driven by neural Bohumil Stoklasa, Jaroslav Rehacek, Zdenek Hradil Palacky University- Department of Optics- Czech Republic

Více

Doba do poruchy Uvažujme nějaký objekt, jenž je v čase t = uveden

Doba do poruchy Uvažujme nějaký objekt, jenž je v čase t = uveden Rozdělíme-li soustavu na prvky, můžeme ji popsat blokovým schématem. Prvky budeme pokládat za neobnovované a dvoustavové (prvek buď funguje nebo nefunguje), přičemž přechod mezi jednotlivými stavy ...

Více