qpb.ca

Transkript

qpb.ca
Pravděpodobnostní rozdělení a SAS
(semestrální práce ze Statistiky v SAS)
Cílem této práce je zpracovat souhrn nejdůležitějších pravděpodobnostních rozdělení
a postup při jejich použití ve výpočetním systému SAS (konkrétně jde o SAS Enterprise Guide
– Learning Edition ve verzi 4.1). Ke každému pravděpodobnostnímu rozdělení uvedu předpis
jeho pravděpodobnostní funkce (příp. hustoty pravděpodobnosti) a distribuční funkce, tyto
zároveň doplním grafem, který postihuje tvar příslušných funkcí. Dále přidám ilustrativní
příklad, na kterém demonstruji využití daného pravděpodobnostního rozdělení v praxi a jeho
řešení v systému SAS.
Obsah
1.
NĚKTERÁ ROZDĚLENÍ NESPOJITÝCH NÁHODNÝCH VELIČIN ......................................... 3
1.1. Binomické rozdělení ....................................................................................................................... 3
1.2. Hypergeometrické rozdělení ......................................................................................................... 6
1.3. Poissonovo rozdělení ..................................................................................................................... 9
1.4. DODATEK – vztah mezi binomickým, hypergeometrickým a poissonovým rozdělením.... 12
2.
NĚKTERÁ ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN ........................................... 13
2.1. Rovnoměrné rozdělení ................................................................................................................ 13
2.2. Normální rozdělení ....................................................................................................................... 16
2.3. DODATEK - Normované normální rozdělení ........................................................................... 19
2.4. Logaritmicko-normální rozdělení ............................................................................................... 20
2.5. Exponenciální rozdělení............................................................................................................... 23
2.6. DODATEK - Gama rozdělení ....................................................................................................... 26
2.7. Beta rozdělení ............................................................................................................................... 27
3.
ROZDĚLENÍ NĚKTERÝCH FUNKCÍ NÁHODNÝCH VELIČIN............................................. 29
3.1. Chí-kvadrát (χ2) rozdělení ........................................................................................................... 29
3.2. Studentovo (t) rozdělení ............................................................................................................. 31
3.3. Snedecorovo (F) rozdělení.......................................................................................................... 33
4.
PŘÍLOHA – PŘÍKAZY PRO JEDNOTLIVÉ TYPY ROZDĚLENÍ ........................................... 35
4.1. Pravděpodobnostní funkce, distribuční funkce a hustota pravděpodobnosti...................... 35
4.2. Kvantily .......................................................................................................................................... 35
2
1. NĚKTERÁ ROZDĚLENÍ NESPOJITÝCH NÁHODNÝCH VELIČIN
1.1. Binomické rozdělení
Náhodnou veličinou, řídící se binomickým rozdělením pravděpodobnosti, je počet výskytů
sledovaného jevu v n nezávislých pokusech (kdy pravděpodobnost nastoupení jevu je ve
všech pokusech stejná).
Typickou náhodnou veličinou tohoto typu je např. počet šestek, které padnou, hodíme-li
n-krát kostkou. Dále se binomický rozdělením řídí např. počet lidí s určitou vlastností, které
vybereme s vracením z nějakého souboru lidí.
Parametry binomického rozdělení jsou počet nezávislých pokusů (n) a pravděpodobnost
nastání sledovaného jevu v každém pokusu (π).
Pravděpodobnostní funkce:
n
P( x) =  π x (1 − π ) n − x , x = 0, 1, … , n
 x
Momentová vytvořující funkce:
m X ( z) = e zπ + 1 − π
Střední hodnota:
E ( X ) = nπ
Rozptyl:
D( X ) = nπ (1 − π )
Modus:
nπ + π − 1 ≤ xˆ ≤ nπ + π
(
)
n
Kód pro výpis hodnot pravděpodobnostní a distribuční funkce v systému SAS:
data Binomicke;
do x=0 to 10;
px=PDF('BINOMIAL',x,0.5,10);
Fx=CDF('BINOMIAL',x,0.5,10);
output;
end;
run
Tento předpis vygeneruje hodnoty pravděpodobnostní funkce (PDF) a distribuční funkce
(CDF) náhodné veličiny s binomickým rozdělením s parametry π = 0,5 a n = 10.
3
Graf pravděpodobnostní funkce:
Graf příslušné pravděpodobnostní funkce se vyvolá příkazem „Graph – Scatter Plot“, na osu x
se nanášejí hodnoty náhodné veličiny X a na osu y jim příslušející hodnoty
pravděpodobnostní funkce.
G1: Graf pravděpodobnostní funkce náhodné veličiny s rozdělením Bi (100; 0,3)
Binomické rozdělení je asymetrické s jedinou výjimkou, a to tehdy, když pravděpodobnost
nastání sledovaného jevu je π = 0,5, pro ilustraci jsem přidal graf („Graph – Line Plot –
Multiple vertical column line plots using overlay“, kde jsem zrušil spojovací čáry), do kterého
jsem zanesl hodnoty pravděpodobnostní funkce pro různé hodnoty parametru π (konkrétně
pro hodnoty 0,5, 0,3 a 0,1) a počet pokusů n = 100.
G2: Graf pravděpodobnostní funkce náhodných veličin s rozděleními Bi(100; 0,5), Bi(100; 0,3), Bi(100; 0,1)
4
Graf distribuční funkce:
Graf distribuční funkce náhodné veličiny s diskrétním rozdělením pravděpodobnosti se vyvolá
příkazem „Graph – Line Plot“ a typ „Step plot“, na osu x se nanášejí hodnoty náhodné
veličiny X a na osu y jim příslušející hodnoty distribuční funkce.
G3: Graf distribuční funkce náhodné veličiny s rozdělením Bi (100; 0,3)
Ilustrační příklad:
Př.1:
Jaká je pravděpodobnost, že z deseti hodů kostkou obdržíme:
a) dvě šestky,
b) maximálně dvě šestky?
[2]
Řeš.: Počet šestek v 10 hodech je náhodná veličina s rozdělením Bi (10; 1/6), úlohu a)
řešíme pomocí výpočtu hodnoty pravděpodobnostní funkce v bodě 2, úlohu b) zase
pomocí distribuční funkce v bodě 2.
a) P (X=2) = ?
b) P (X<=2) = F(2) = ?
Obě hodnoty lze vypočítat přímo v SAS, výsledný výstup s řešením je přiložen:
data priklad1;
a=PDF('BINOMIAL',2,.166667,10);
b=CDF('BINOMIAL',2,.166667,10);
output;
run
5
1.2. Hypergeometrické rozdělení
Hypergeometrickým rozdělením se řídí náhodná veličina, již je počet výskytů sledovaného
jevu v n závislých pokusech – vybíráme bez vracení n jednotek ze souboru o velikosti N,
v němž se vyskytuje M jednotek se sledovanou vlastností a zajímá nás, s jakou
pravděpodobností bude mít z n vybraných jednotek právě x sledovanou vlastnost, přičemž po
provedení pokusu se vybraná jednotka zpět do souboru nevrací. Za jistých předpokladů je
možné hypergeometrické rozdělení aproximovat rozdělením binomickým (viz. Dodatek).
Typickým příkladem náhodné veličiny s hypergeometrickým rozdělením je počet uhodnutých
čísel při tahu Sportky.[1]
Parametry hypergeometrického rozdělení jsou velikost souboru, ze kterého se provádí výběr
(N), počet jednotek v souboru se sledovanou vlastností (M) a počet závislých pokusů (n).
Pravděpodobnostní funkce:
 M  N − M 
 

 x  n − x 
P ( x) =
N
 
n
Střední hodnota:
E( X ) = n
Rozptyl:
, x = max[0, M − N + n],..., m[M , n]
M
N
M
M N −n
D( X ) = n (1 − )
N
N N −1
Kód pro výpis hodnot pravděpodobnostní a distribuční funkce v systému SAS:
data Hypgeom;
do x=0 to 50;
px=PDF('HYPERGEOMETRIC',x,1000,100,50);
Fx=CDF('HYPERGEOMETRIC',x,1000,100,50);
output;
end;
run
Tento předpis vygeneruje hodnoty pravděpodobnostní funkce (PDF) a distribuční funkce
(CDF) náhodné veličiny s hypergeometrický rozdělením s parametry N = 1000, M = 100 a
n = 50.
6
Graf pravděpodobnostní funkce:
G4: Graf pravděpodobnostní funkce náhodné veličiny s rozdělením Hyp (1000; 100; 50)
Graf distribuční funkce:
G5: Graf distribuční funkce náhodné veličiny s rozdělením Hyp (1000; 100; 50)
7
Ilustrační příklad:
Př.2:
Pouze 5 pracovníků určitého ministerstva používá na internetu komunikační program
ICQ. Z 50 pracovníků ministerstva, kteří využívají ke své práci internet, náhodně
vybereme 10 pracovníků. Jaká je pravděpodobnost, že z těchto 10 pracovníků
program ICQ používají:
a) právě 2 pracovníci
b) více než 3 pracovníci?
[2]
Řeš.: Počet pracovníků používajících ICQ je NV s rozdělením Hyp (50; 5; 10), úlohu a)
řešíme pomocí výpočtu hodnoty pravděpodobnostní funkce v bodě 2, úlohu b) zase
pomocí doplňku distribuční funkce v bodě 3 do jedné.
a) P (X=2) = ?
b) P (X>3) = 1 - P(X<=3) = 1 - F(3) = ?
Obě hodnoty lze vypočítat přímo v SAS, výsledný výstup s řešením je přiložen:
data Priklad2;
a=PDF('HYPERGEOMETRIC',2,50,5,10);
b=1-CDF('HYPERGEOMETRIC',3,50,5,10);
output;
run
8
1.3. Poissonovo rozdělení
Poissonovým rozdělením se řídí za určitých předpokladů náhodná veličina, kterou je počet
výskytů sledovaného jevu v určitém intervalu – tento interval může mít různý charakter,
může jít o interval časový, může být vymezen také určitou plochou.
Náhodnou veličinou, která má poissonovo rozdělení, je např. počet vadných výrobků ve velké
sérii, jestliže pravděpodobnost vyrobení vadného výrobku je velice malá. Z věcného popisu
náhodné veličiny je zjevná podobnost s náhodnou veličinou řídící se binomickým
či hypergeometrickým
rozdělením.
Za
určitých
předpokladů
lze
totiž
binomické
a
hypergeometrické rozdělení aproximovat rozdělením poissonovým (viz. Dodatek).
Jediným parametrem poissonova rozdělení je průměrný počet výskytů sledovaného jevu za
daný interval (λ).
λx
e − λ , x = 0,1, 2, K , λ > 0
Pravděpodobnostní funkce:
P( X ) =
Momentová vytvořující funkce:
mX ( z ) = e λ ( e −1)
Střední hodnota:
E(X ) = λ
Rozptyl:
D(X ) = λ
Modus:
λ − 1 ≤ x̂ ≤ λ
x!
z
Kód pro výpis hodnot pravděpodobnostní a distribuční funkce v systému SAS:
data Poisson;
do x=0 to 25;
px=PDF('POISSON',x,5);
Fx=CDF('POISSON',x,5);
output;
end;
run
Tento předpis vygeneruje hodnoty pravděpodobnostní funkce (PDF) a distribuční funkce
(CDF) náhodné veličiny s poissonovým rozdělením s parametrem λ = 5.
9
Graf pravděpodobnostní funkce:
G6: Graf pravděpodobnostní funkce náhodné veličiny s rozdělením Po (5)
Graf distribuční funkce:
G7: Graf distribuční funkce náhodné veličiny s rozdělením Po (5)
10
Ilustrační příklad:
Př.3:
Ve výtisku knihy se nachází v průměru 1 tisková chyba na 10 stranách textu.
a) Jaká je pravděpodobnost, že na 5 stranách textu budou 2 chyby?
b) Jaká je pravděpodobnost, že na 30 stranách textu bude méně než 5 chyb?
Řeš:
[2]
a) Protože na 10 stran textu připadá průměrně 1 chyba, pak průměrný počet chyb
na 5 stran textu je 0,5 a náhodná veličina „počet chyb na 5 stran textu“ má tedy
rozdělení Po (0,5). Vypočítáme hodnotu pravděpodobnostní funkce v bodě 2.
P(X=2) = ?
b) Stejnou úvahou dospějeme k závěru, že počet chyb na 30 stran textu je náhodná
veličina s rozdělením Po (3). K řešení dospějeme výpočtem hodnoty distribuční funkce
v bodě 4.
P(X<5) = P(X<=4) = F(4) = ?
Postup řešení úlohy v SAS následuje stejně jako výstup s řešením:
data Priklad3;
a=PDF('POISSON',2,0.5);
b=CDF('POISSON',4,3);
output;
run
11
1.4. DODATEK – vztah mezi binomickým, hypergeometrickým
a poissonovým rozdělením
Binomické rozdělení slouží pro popis tzv. výběrů s vracením, zatímco hypergeometrické
rozdělení popisuje tzv. výběry bez vracení. Ovšem za předpokladu, že vybíráme relativně
nízký počet jednotek z relativně velkého souboru, pak se pravděpodobnost, že
vybereme vícekrát tu samou jednotku, snižuje, a výběr s vracením se blíží výběru
bez vracení.
Konkrétně pokud tzv. výběrový podíl
n
≤ 0,05 , pak rozdělení Hyp(N; M; n) lze aproximovat
N
rozdělením Bi (n; M/N).
Dále pro binomické rozdělení platí, že s počtem pokusů blížícímu se ∞ (stačí n>30)
a pravděpodobností výskytu sledovaného jevu blížící se 0 (stačí π ≤ 0,1 ), se blíží rozdělení
poissonovu Po(λ=n.π).
Z výše uvedeného zároveň vyplývá, že pro
n
M
≤ 0,05 ,
≤ 0,1 a n>30, lze hypergeometrické
N
N
rozdělení aproximovat rozdělením Po(λ=n.M/N).
G8: Graf pravděpodobnostních funkcí a tabulka vybraných hodnot náhodných veličin s rozděleními
Bi(100; 0,05), Hyp(1000;100;50) a Po (5) – pro lepší ilustraci je graf pravděpodobnostních funkcí
vykreslen jako spojnicový.
12
2. NĚKTERÁ ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN
2.1. Rovnoměrné rozdělení
Náhodná veličina řídící se rovnoměrným rozdělením pravděpodobnosti má konstantní
hustotu pravděpodobnosti. Je jí např. chyba při zaokrouhlování čísla, doba čekání na
uskutečnění jevu, který se opakuje v pravidelných intervalech apod.
[1]
Parametry rovnoměrného rozdělení jsou dolní (α) a horní (β) mez intervalu, ve kterém se
pohybují hodnoty sledované náhodné veličiny.
Hustota pravděpodobnosti
1
β −α
f ( x) =
x
F ( x) = ∫
Distribuční funkce
α
,α < x < β
1
x −α
dt
β −α β −α
,α < x < β
(α + β )
2
( β − α )2
D( X ) =
12
E( X ) =
Střední hodnota:
Rozptyl:
med =
Medián:
α+β
2
Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS:
data Rovnomerne;
do x=0 to 10 by 0.2;
hx=PDF('Uniform',x,0,10);
Fx=CDF('Uniform',x,0,10);
output;
end;
run
Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) a distribuční funkce
(CDF) náhodné veličiny s rovnoměrným rozdělením s parametry α = 0 a β = 10, a to
s délkou kroku 0,2 (tj. pro x = 0, 0,2, 0,4, 0,6 … 10).
Pozn: Pro
odlišení
distribuční
funkce a hustoty pravděpodobnosti
pravděpodobnosti označovat „hx“ místo tradičního „fx“.
13
budu hustotu
Graf hustoty pravděpodobnosti:
Graf příslušné hustoty pravděpodobnosti se vyvolá příkazem „Graph – Line Plot“, na osu x se
nanášejí hodnoty náhodné veličiny X a na osu y jim příslušející hodnoty pravděpodobnostní
funkce. Pro hladký průběh křivky je možné použít typ grafu „Smooth plot“.
G9: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením Ro (0; 10)
Graf distribuční funkce:
Při tvorbě grafu distribuční funkce se postupuje analogicky jako u hustoty pravděpodobnosti,
pouze hodnoty hustoty pravděpodobnosti nahradíme hodnotami distribuční funkce, typ grafu
zůstává stejný (u náhodných veličin se spojitým pravděpodobnostním rozdělením již nemá
distribuční funkce „schodovitý“ charakter).
G10: Graf distribuční funkce náhodné veličiny s rozdělením Ro (0; 10)
14
Ilustrační příklad:
Př. 4: Krátké zpravodajství je na rozhlasové stanici RadioStar uváděno pravidelně v každou
celou hodinu. Jaká je pravděpodobnost, že uslyšíme začátek zpravodajství do 10
minut, jestliže zcela náhodně bez ohledu na čas zapneme rádio?
[2]
Řeš.: Protože hodina má 60 minut, pak na začátek vysílání můžeme čekat minimálně 0 min
a maximálně 60 min. Doba čekání před začátkem zpravodajství je tedy náhodná
veličina s rozdělením Ro (0; 60). Pravděpodobnost, že zpravodajství začne do 10
minut od chvíle, kdy jsme zapnuli rádio, vypočítáme jako hodnotu distribuční funkce
v bodě 10.
P(X<=10) = F(10) = ?
Postup řešení příkladu v SAS a výstup s výsledkem:
data Priklad4;
P=CDF('UNIFORM',10,0,60);
output;
run
15
2.2. Normální rozdělení
Normální rozdělení je nejspíše nejvýznamnějším pravděpodobnostním rozdělením.
Je použitelné všude, kde kolísání náhodné veličiny je způsobeno součtem velkého počtu
nepatrných a vzájemně nezávislých vlivů.
Tímto typem rozdělení se typicky řídí náhodné chyby. Jeho hlavní význam ovšem tkví
v tom, že za určitých podmínek (formulovaných centrální limitní větou) k němu konverguje
spousta jiných, a to i nespojitých rozdělení pravděpodobnosti. [1]
Parametry normálního rozdělení jsou střední hodnota (μ) a rozptyl (σ2). Normální rozdělení
je symetrické okolo střední hodnoty, střední hodnota je totožná s modem i mediánem.
Hustota
pravděpodobnosti
Distribuční funkce
f ( x) =
F ( x) =
1
σ 2π
1
σ 2π
e
x
−
( x− µ )2
2σ 2
∫e
−
( t −µ )2
2σ 2
,−∞ < x < ∞
dt
,−∞ < x < ∞
,-∞ < µ < ∞ ,0 < σ 2 < ∞
,-∞ < µ < ∞ ,0 < σ 2 < ∞
−∞
z 2σ 2
zµ +
2
Momentová
vytvořující funkce:
mX ( z) = e
Střední hodnota:
E (X ) = µ
Rozptyl:
D( X ) = σ 2
Modus, medián:
)
~
x=x=µ
Kvantily:
x p = σu p + µ
Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS:
data Normalni_;
do x=-10 to 14 by 0.2;
hx=PDF('Gauss',x,2,3);
Fx=CDF('Normal',x,2,3);
output;
end;
run
Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) a distribuční funkce
(CDF) náhodné veličiny s normálním rozdělením s parametry μ = 2 a σ2 = 3 pro hodnoty
náhodné veličiny v intervalu <-10; 14> a to s délkou kroku 0,2. Pojmenování „Gauss“ a
„Normal“ je zde identické.
16
Graf hustoty pravděpodobnosti:
G11: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením N (2; 3)
Graf distribuční funkce:
G12: Graf distribuční funkce náhodné veličiny s rozdělením N (2; 3)
17
Ilustrační příklad:
Př.5:
Bylo zjištěno, že optické zařízení pro měření vzdáleností udává vlivem špatného
seřízení hodnoty o 0,5m větší. Toto zařízení je tedy zatíženo jednak tzv.
systematickou chybou a jednak chybou náhodnou. Náhodné chyby mají normální
rozdělení se směrodatnou odchylkou 1m. Jaká je pravděpodobnost, že celková chyba
měření nepřesáhne 2 metry? [1]
Řeš.: Celková chyba vzniká jako součet systematické chyby (s nulovou směrodatnou
odchylkou a střední hodnotou 0,5) a náhodné chyby (s nulovou střední hodnotou
a směrodatnou odchylkou 1) a má tedy rozdělení N (0,5; 1). Pravděpodobnost, že
chyba měření nepřesáhne 2 metry, vypočítáme jako hodnotu distribuční funkce
v bodě 2.
P(X<=2) = F(2) = ?
Postup řešení v SAS a výsledek:
data Priklad5;
P=CDF('NORMAL',2,0.5,1);
output;
run
18
2.3. DODATEK - Normované normální rozdělení
Pro stanovení hodnot distribuční funkce normálního rozdělení se (vzhledem k náročnosti
výpočtu) využívá tabulek, které jsou sestaveny pro hodnoty normované náhodné veličiny U.
Tato náhodná veličina má nulovou střední hodnotu a jednotkový rozptyl.
Hustota pravděpodobnosti
ϕ (u) =
1
2π
e
−
u2
2
Φ (u ) = P (U ≤ u ) =
Distribuční funkce
Vztah mezi normálním a normovaným
normálním rozdělením
U=
x−µ
,−∞ < u < ∞
1
2π
u
∫e
−
t2
2
dt ,−∞ < u < ∞
−∞
σ
Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS:
Postup je identický jako v případě normálního rozdělení, pouze se zadají příslušné hodnoty
parametrů (tj. μ = 0 a σ2 = 1).
Graf hustoty pravděpodobnosti:
G13: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením N (0; 1)
Graf distribuční funkce:
G14: Graf distribuční funkce náhodné veličiny s rozdělením N (0; 1)
19
2.4. Logaritmicko-normální rozdělení
Uvažujeme-li náhodnou veličinu X, která je rostoucí funkcí náhodné veličiny Y → X = eY,
kde náhodná veličina Y má rozdělení N (μ; σ2), potom náhodná veličina X má
logaritmicko-normální rozdělení s parametry μ a σ2.
Logaritmicko-normální rozdělení se využívá při zkoumání mzdových a příjmových rozdělení,
v oblasti normování práce apod. [1]
Na rozdíl od normálního rozdělení jsou μ a σ2 pouze parametry rozdělení a nikoliv jeho
charakteristikami.
1
−
(ln x − µ ) 2
2σ 2
Hustota pravděpodobnosti
f ( x) =
Distribuční funkce
 ln x − µ 
F ( x) = Φ

 σ

xσ 2π
µ+
e
,0 < x < ∞
σ2
Střední hodnota:
E( X ) = e
Rozptyl:
D( X ) = e2 µ +σ (eσ − 1)
Kvantily:
x P = e σu + µ
2
2
2
P
Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS:
data Lognormalni;
do x=0 to 40 by 0.2;
hx=PDF('LOGNORMAL',x,2,0.5);
Fx=CDF('LOGNORMAL',x,2,0.5);
output;
end;
run
Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) a distribuční funkce
(CDF) náhodné veličiny s logaritmicko-normálním rozdělením s parametry μ = 2 a σ2 = 0,5
pro hodnoty náhodné veličiny v intervalu <0; 40>, a to s délkou kroku 0,2.
20
Graf hustoty pravděpodobnosti:
G15: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením LN (2; 0,5)
Graf distribuční funkce:
G16: Graf distribuční funkce náhodné veličiny s rozdělením LN (2; 0,5)
21
Ilustrační příklad:
Př.6:
Předpokládejme, že náhodná veličina X, představující počet minut potřebných
k provedení určité operace, má logaritmicko-normální rozdělení s parametry μ = 2 a
σ2 = 0,5. Odhadněte pravděpodobnost, že doba potřebná k opravě bude větší než
10 minut.
Řeš.: Náhodná veličina X, kterou je počet minut potřebných k opravě, má rozdělení
LN (2; 0,5). Jen pro zdůraznění, parametry rozdělení nejsou totožné s jeho
charakteristikami, jako je to v případě normálního rozdělení! V tomto případě by
střední hodnota byla (na základě výše uvedených vztahů) E(X) = 9,4877 a rozptyl by
měl hodnotu D(X) = 58,3960. Požadovanou pravděpodobnost vypočteme jako
doplněk distribuční funkce v bodě 10 do jedné.
P(X>10) = 1 – P(X<=10) = ?
Postup řešení v SAS a výsledek:
data Priklad6;
P=1-CDF('LOGNORMAL',10,2,0.5);
output;
run
22
2.5. Exponenciální rozdělení
Exponenciální rozdělení pravděpodobnosti se často využívá v teorii spolehlivosti a životnosti,
v teorii hromadné obsluhy, v teorii obnovy apod. Náhodnou veličinou X je potom obvykle
doba, během níž nastane sledovaný jev. [1]
Parametry rozdělení jsou střední doba čekání na sledovaný jev (α) a počáteční doba, během
které tento jev nastat nemůže (δ).
1
-
x -α
,x <α
Hustota pravděpodobnosti
f ( x) =
Distribuční funkce
F ( x) = 1 − e
Momentová vytvořující funkce:
m X ( z ) = e αz (1 − zδ )
Střední hodnota:
E(X ) = α + δ
Rozptyl:
D( X ) = δ 2
δ
e
δ
-
x -α
,δ > 0 , x ∈ R
,x >α
δ
−1
Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS:
data Exponen;
do x=0 to 50 by 0.5;
hx=PDF('EXPONENTIAL',x,10);
Fx=CDF('EXPONENTIAL',x,10);
output;
end;
run
SAS umožňuje zadání pouze parametru δ – proto tento předpis vygeneruje hodnoty
hustoty
pravděpodobnosti
(PDF)
a
distribuční
funkce
(CDF)
náhodné
veličiny
s exponenciálním rozdělením s parametry α = 0 a δ = 10 pro hodnoty v intervalu <0; 50>,
a to s délkou kroku 0,5.
23
Graf hustoty pravděpodobnosti:
G17: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením E (0; 10)
Graf distribuční funkce:
G18: Graf distribuční funkce náhodné veličiny s rozdělením E (0; 10)
24
Ilustrační příklad:
Př. 7: Průměrná doba životnosti paměťového modulu v počítači je 70 000 hodin. Jaká je
pravděpodobnost, že modul vydrží v provozu bez poruchy:
a)
maximálně 25 000 hodin
b) minimálně 60 000 a maximálně 80 000 hodin? [2]
Řeš:
Doba výdrže bez poruchy je náhodná veličina s rozdělením E (70 000). Úlohu a)
vypočítáme jako hodnotu distribuční funkce v bodě 25 000. Úlohu b) vyřešíme jako
rozdíl hodnot distribučních funkcí v krajních bodech intervalu.
a) P(X<=25 000) = F(25 000) = ?
b) P(60 000<X<80000) = F(80 000) – F(60 000) = ?
Postup řešení v SAS a výstup s výsledkem:
data Priklad7;
a=CDF('EXPONENTIAL',25000,70000);
b=CDF('EXPONENTIAL',80000,70000)-CDF('EXPONENTIAL',60000,70000);
output;
run
25
2.6. DODATEK - Gama rozdělení
Exponenciální rozdělení je pouze zvláštním případem gama rozdělení (viz. tabulka níže),
které závisí na parametrech m a δ. Součtem m nezávislých náhodných veličin, které mají
rozdělení E (0, δ), je náhodná veličina s rozdělením Г(m; δ). [1]
x
1
δ
e
x m-1
m
Γ( m)δ
Hustota pravděpodobnosti
f ( x) =
Momentová vytvořující funkce:
m X ( z ) = (1 − zδ )
Střední hodnota:
E ( X ) = mδ
Rozptyl:
D( X ) = mδ 2
Vztah mezi exponenciálním a gama
rozdělením
E(0, δ ) = Γ(1,δ )
, x > 0 ,δ > 0 , m > 0
−m
Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS:
data Gamma;
do x=0 to 50 by 0.5;
hx=PDF('Gamma',x,1,10);
Fx=CDF('Gamma',x,1,10);
output;
end;
run
Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) a distribuční funkce
(CDF) náhodné veličiny s gama rozdělením s parametry m = 1 a δ = 10 pro hodnoty
náhodné veličiny v intervalu <0; 50>, a to s délkou kroku 0,5.
Graf hustoty pravděpodobnosti a graf distribuční funkce:
Pokud porovnáme grafy G19 s předcházejícími grafy (G17, G18), je vidět, že jsou totožné. To
potvrzuje, že náhodná veličina s rozdělením E (0;10) má rovněž rozdělení Г(1; 10)
G19: Graf hustoty pravděpodobnosti a distribuční funkce náhodné veličiny s rozdělením Г(1; 10)
26
2.7. Beta rozdělení
Rozdělení beta je vhodným modelem mnoha ekonomických veličin, jejichž hodnoty jsou
omezené shora i zdola a u nichž předpokládáme existenci jediného modu ležícího uvnitř
intervalu možných hodnot. Toto však nelze použít přímo vzhledem k podmínce pro hodnoty x
(0<x<1). Je třeba převést veličinu na zobecněné rozdělení beta. [1]
Rozdělení má parametry p a q.
1
x p-1 (1 − x) q-1
B ( p, q )
Hustota pravděpodobnosti
f ( x) =
Střední hodnota:
E( X ) =
p
p+q
Rozptyl:
D( X ) =
pq
( p + q ) ( p + q + 1)
,0 < x < 1
,p > 0
,q > 0
2
Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS:
data Beta;
do x=0.01 to 0.99 by 0.01;
hx=PDF('Beta',x,5,10);
Fx=CDF('Beta',x,5,10);
output;
end;
run
Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) a distribuční funkce
(CDF) náhodné veličiny s beta rozdělením s parametry p = 5 a q = 10 pro hodnoty náhodné
veličiny v intervalu <0,01; 0,99>, a to s délkou kroku 0,01.
Graf hustoty pravděpodobnosti:
Tvar hustoty pravděpodobnosti a distribuční funkce výrazně závisí na hodnotě parametrů p
a q. V grafu jsem vyznačil možné tvary hustoty pravděpodobnosti náhodné veličiny s beta
rozdělením.
Hustota
pravděpodobnosti
p
q
Tvar funkce
hx1
hx2
hx3
hx4
hx5
hx6
<1
< 1 (p=q)
<1
>1
>1
> 1 (p=q)
<1
< 1 (p=q)
>= 1
<= 1
>1
> 1 (p=q)
Tvar písmene U
Symetrická kolem 0,5
Klesající
Rostoucí
Unimodální křivka
Symetrická kolem 0,5
27
G20: Možné tvary hustoty pravděpodobnosti náhodné veličiny s beta rozdělením
Graf distribuční funkce:
Pro úplnost přidávám křivky distribuční funkce pro různé hodnoty parametrů p a q. Barevně
křivky odpovídají křivkám hustot pravděpodobnosti v předcházejícím grafu.
G21: Možné tvary distribuční funkce náhodné veličiny s beta rozdělením
28
3. ROZDĚLENÍ NĚKTERÝCH FUNKCÍ NÁHODNÝCH VELIČIN
Pro řešení některých matematicko-statistických úloh (intervalové odhady, testování
hypotéz…) mají zvláštní význam rozdělení určitých funkcí normálně rozdělených náhodných
veličin.[1] Mezi nejvýznamnější v tomto ohledu patří rozdělení chí-kvadrát, t (Studentovo)
a F (Snedecorovo).
V tomto oddíle se zaměřím na výpočet kvantilů zmíněných rozdělení, protože v praktických
úlohách se využívá právě především kvantilů těchto rozdělení.
3.1. Chí-kvadrát (χ2) rozdělení
Náhodná veličina, řídící se chí-kvadrát rozdělením pravděpodobnosti, vzniká jako součet
čtverců ν [ný] nezávislých náhodných veličin s normovaným normálním rozdělením.
Jediným parametrem tohoto rozdělení je počet stupňů volnosti (ν), který je přirozené
číslo. Zároveň také platí vztah mezi chí-kvadrát rozdělením a gama rozdělením takový, že
rozdělení χ2 (ν) je zároveň rozdělením Г(m; δ), kde m = ν/2 a δ = 2. [1]
( )
( )
1
χ2
Γ(ν / 2 )
Hustota pravděpodobnosti
f χ2 =
Momentová vytvořující funkce:
mχ 2 (z ) = (1 − 2 z )
ν /2
2
ν / 2 −1 − χ 2 / 2
e
,χ2 > 0
−ν / 2
Rozptyl:
( )
D(χ ) = 2ν
Kvantily:
χ p 2 (ν ) ≈
Vztah mezi chí-kvadrát rozdělením a
normovaným normálním rozdělením
χ 2 = U12 + U 22 + K + Uν2 U i ≈ N (0,1), i = 1,2,K,ν
Střední hodnota:
E χ 2 =ν
2
1
2
(
2ν − 1 + u p
Kód pro výpis hodnot hustoty pravděpodobnosti v systému SAS:
data Chi_fx;
do x=0.1 to 50 by 0.5;
fx=PDF('CHISQUARE',x,10);
output;
end;
run
29
)
2
Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) náhodné veličiny
s chí-kvadrát rozdělením o 10 stupních volnosti v intervalu <0,1; 50>, a to s délkou kroku
0,5.
Graf hustoty pravděpodobnosti:
G22: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením χ2 (10)
Kód pro výpis kvantilů v systému SAS:
data Chi_K;
do y=0.01 to 0.99 by 0.01;
chi=CINV(y,10);
output;
end;
run
Tento předpis vygeneruje hodnoty kvantilů chí-kvadrát rozdělení (CINV) o 10 stupních
volnosti pro pravděpodobnosti od 0,01 do 0,99 s délkou kroku 0,01.
Ilustrační příklad:
Kvantily chí-kvadrát rozdělení využíváme mj. při testování hypotézy o rozptylu v základním
souboru. SAS má samozřejmě schopnost počítat výsledek testu přímo ze zadání, ale jen pro
dokreslení přidávám postup při zjišťování kvantilu chí-kvadrát rozdělení odpovídajícímu
požadované hladině významnosti a rozsahu výběru (který má vliv na počet stupňů volnosti).
Je-li rozsah výběru n = 50 a hladina významnosti α = 0,05, potom hledáme 95% kvantil
chí-kvadrát rozdělení se 49 stupni volnosti (ν = n-1) podle následujícího předpisu:
data Chi_K;
chi=CINV(0.95,49);
output;
run
30
3.2. Studentovo (t) rozdělení
Náhodná veličina s t rozdělením je opět funkcí normovaně normálně rozdělených náhodných
veličin. Jediný parametr ν opět značí počet stupňů volnosti a určuje tvar hustoty
pravděpodobnosti, která je symetrická podle 0.
Hustota pravděpodobnosti:
Vztah mezi t, chí-kvadrát a
normovaným normálním
rozdělením:
 t
1
1 +
 1 ν   ν
ν β , 
2 2
2
f (t ) =
t=
U
χ
ν
2



−
(ν +1)
2
,−∞ < t < ∞
− ∞ < t < ∞ U ≈ N (0,1) χ 2 ≈ χ 2 (ν )
Kód pro výpis hodnot hustoty pravděpodobnosti v systému SAS:
data Student_fx;
do x=-6 to 6 by 0.05;
fx=PDF('T',x,5);
output;
end;
run
Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) náhodné veličiny
s t rozdělením o 5 stupních volnosti v intervalu <6; 6>, a to s délkou kroku 0,05.
Graf hustoty pravděpodobnosti:
G23: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením t (5)
31
Kód pro výpis kvantilů v systému SAS:
data Student_k;
do y=0.10 to 0.99 by 0.01;
t=TINV(y,5);
output;
end;
run
Tento předpis vygeneruje hodnoty kvantilů t rozdělení (CINV) o 5 stupních volnosti
pro pravděpodobnosti od 0,10 do 0,99 s délkou kroku 0,01.
Ilustrační příklad:
Kvantily t rozdělení využíváme např. při intervalovém odhadu střední hodnoty pro malý
rozsah výběru. Stejně jako u chí-kvadrát rozdělení pouze demonstruji, jak zjistit velikost
příslušného kvantilu v závislosti na zvolené hladině významnosti a rozsahu výběru.
Pro rozsah výběru n = 20 a hladinu významnosti α = 0,01 hledáme 99% kvantil t rozdělení
s 19 stupni volnosti (ν = n-1) pomocí následujícího předpisu:
data Student_k;
t=TINV(0.99,19);
output;
run
32
3.3. Snedecorovo (F) rozdělení
Náhodná veličina s rozdělením F má 2 parametry, které odpovídají počtu stupňů volnosti
2
2
náhodných veličin χ 1 a χ 2 (viz. tabulka).
Hustota pravděpodobnosti:
ν1
1

h( F ) =
 ν 1 ν 2   ν 2
B , 
2 2 
Vztah mezi F a chí-kvadrát
rozdělením:
χ12
ν
F = 12
χ2
ν2
ν1
 2 ν21 −1
ν 1 −ν 1 +2ν 2
 F
(1 +
F)
,F >0
ν2

Kód pro výpis hodnot hustoty pravděpodobnosti v systému SAS:
data Snedecor_fx;
do x=0 to 5 by 0.01;
fx=PDF('F',x,9,10);
output;
end;
run
Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) náhodné veličiny
s F rozdělením o 9 a 10 stupních volnosti v intervalu <0; 5>, a to s délkou kroku 0,01.
Graf hustoty pravděpodobnosti:
G24: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením F (9; 10)
33
Kód pro výpis kvantilů v systému SAS:
data Snedecor_k;
do y=0.10 to 0.99 by 0.01;
t=FINV(y,9,10);
output;
end;
run
Tento předpis vygeneruje hodnoty kvantilů F rozdělení (FINV) o 9 a 10 stupních volnosti
pro pravděpodobnosti od 0,10 do 0,99 s délkou kroku 0,01.
Ilustrační příklad:
F rozdělení má využití např. při analýze rozptylu. Požadovaný kvantil F rozdělení zjišťujeme
na základě počtu skupin, jejichž variabilitu analyzujeme, počtu pozorování a zvolené hladiny
významnosti.
Pokud bylo provedeno celkem n = 20 pozorování v k = 5 různých skupinách a chceme
posoudit na hladině významnosti α = 0,1 závislost výsledku pozorování na skupině, ve které
bylo provedeno, potom porovnáváme hodnotu statistiky F s kvantilem F1-α (k-1; n-k).
Konkrétně tedy hledáme hodnotu F0,90 (4; 15).
Využijeme následujícího postupu v SAS:
data Snedecor_k;
F=FINV(0.9,4,15);
output;
run
34
4. PŘÍLOHA – PŘÍKAZY PRO JEDNOTLIVÉ TYPY ROZDĚLENÍ
4.1. Pravděpodobnostní funkce, distribuční funkce a hustota
pravděpodobnosti
Rozdělení
PDF/CDF (‚Rozdělení‘, x,
p 1,
p 2,
Beta
PDF/CDF
(‘Beta‘, x,
α,
β
)
Binomické
PDF/CDF
(‘Binomial‘, x,
π,
n
)
Chí-kvadrát
PDF/CDF
(‘Chisquare‘, x,
ν
)
Exponenciální
PDF/CDF
(‘Exponential‘, x,
δ
)
Snedecorovo (F)
PDF/CDF
(‘F‘, x,
ν1,
ν2
)
Gama
PDF/CDF
(‘Gamma‘, x,
m,
δ
)
Hypergeometrické
PDF/CDF
(‘Hypergeometric‘, x,
N,
M,
n)
Lognormální
PDF/CDF
(‘Lognormal‘, x,
μ,
σ2
)
Normální
PDF/CDF
(‘Normal‘, x,
μ,
σ2
)
Poissonovo
PDF/CDF
(‘Poisson‘, x,
λ
)
Studentovo (t)
PDF/CDF
(‘T‘, x,
ν
)
Rovnoměrné
PDF/CDF
(‘Uniform‘, x,
α,
β
4.2. Kvantily
Rozdělení
Beta
(P, p1,
p2)
BETAINV
(P,
α,
β)
Chí-kvadrát
CINV
(P,
ν
)
Snedecorovo (F)
FINV
(P,
ν1,
ν2)
Gama
GAMINV
(P,
m
)
Normální (normov.)
PROBIT
(P,
TINV
(P,
Studentovo (t)
35
Kvant.
funkce
)
ν
)
p 3)
)
Použitá a citovaná literatura:
[1] BÍLKOVÁ, Diana - KAHOUNOVÁ, J.: Počet pravděpodobnosti, 2002
[2] MAREK, Luboš a kol.: Statistika pro ekonomy – aplikace, 2004
36

Podobné dokumenty

TURBULENCE MODELOVÁNÍ PROUDĚNÍ

TURBULENCE MODELOVÁNÍ PROUDĚNÍ vlastně první turbulentní víry. Při zvyšování Reynoldsova čísla se vytvářejí další nestability, až se proudění stane plně turbulentní. Vidíme, že proudění není pouze striktně laminární a turbulentn...

Více

Rozdělení náhod veličiny Rozdělení náhodné veličiny lení náhodné

Rozdělení náhod veličiny Rozdělení náhodné veličiny lení náhodné rozdělení. Důležité je především z důvodu platnosti centrální limitní věty, která říká, že součet nezávislých náhodných veličin má přibližně normální rozdělení (čím více veličin sečteme, tím lépe),...

Více

přehled vzorců v exelu

přehled vzorců v exelu Poznámka: Poud text na místě argumentu není uzavřen v apostrofech, program Excel předpokládá, že se jedná o název a pokouší se jej nahradit hodnotou, na kterou tento název odkazuje. Když text není...

Více

MS-DOS

MS-DOS souborů kvůli přehlednosti. Obecně adresář představuje seznam položek (soubory, podadresáře a speciální položky) s informacemi o jejich velikosti, datu, času poslední změny a jejich vlastnostech (a...

Více

Přehled článků - Asociace waldorfských škol České republiky

Přehled článků - Asociace waldorfských škol České republiky publikovaných v časopisu Člověk, výchova a dítě a Člověk a výchova v letech 1996 až 2006 Milí čtenáři časopisu Člověk a výchova, protože v uplynulých jedenácti letech byla v tomto časopisu uveřejně...

Více

PO TE OČÍT EPEL TAČO LNÝ OVÁ ÝCH P POD PRO DPOR OCES

PO TE OČÍT EPEL TAČO LNÝ OVÁ ÝCH P POD PRO DPOR OCES Kliknutím na tlačítko Office se zobrazí nabídka se známými příkazy (viz. Obr.2.). Tlačítko Office také obsahuje seznam naposledy otevřených dokumentů, přičemž nejvyšší počet může být až 50 oproti d...

Více

Zobrazit celý článek - Trendy ve vzdělávání

Zobrazit celý článek - Trendy ve vzdělávání populace (základního souboru). Výsledkem je obrovský počet možných výběrů ze základního souboru při vyšších hodnotách k a n (např. počet kombinací (tedy výběru bez vracení, což se v praxi většinou ...

Více

Náhodný výběr

Náhodný výběr 1. Pojmy Opakujeme-li n-krát nezávisle pokus, jehož výsledkem je hodnota náhodné veličiny X s distribuční funkcí F (x, ϑ), kde ϑ je reálný parametr (případně vektor parametrů anebo jejich funkce) d...

Více

Stáhnout materiál Statistika pro flákače

Stáhnout materiál Statistika pro flákače Výsledek vydělíme patnácti (počet hodnot = n) a máme rozptyl 206,15 cm na druhou. Hodnota v centimetrech na druhou (nebo v jakékoli jiné jednotce na druhou) ale není příliš srozumitelná, proto se p...

Více