qpb.ca
Transkript
Pravděpodobnostní rozdělení a SAS (semestrální práce ze Statistiky v SAS) Cílem této práce je zpracovat souhrn nejdůležitějších pravděpodobnostních rozdělení a postup při jejich použití ve výpočetním systému SAS (konkrétně jde o SAS Enterprise Guide – Learning Edition ve verzi 4.1). Ke každému pravděpodobnostnímu rozdělení uvedu předpis jeho pravděpodobnostní funkce (příp. hustoty pravděpodobnosti) a distribuční funkce, tyto zároveň doplním grafem, který postihuje tvar příslušných funkcí. Dále přidám ilustrativní příklad, na kterém demonstruji využití daného pravděpodobnostního rozdělení v praxi a jeho řešení v systému SAS. Obsah 1. NĚKTERÁ ROZDĚLENÍ NESPOJITÝCH NÁHODNÝCH VELIČIN ......................................... 3 1.1. Binomické rozdělení ....................................................................................................................... 3 1.2. Hypergeometrické rozdělení ......................................................................................................... 6 1.3. Poissonovo rozdělení ..................................................................................................................... 9 1.4. DODATEK – vztah mezi binomickým, hypergeometrickým a poissonovým rozdělením.... 12 2. NĚKTERÁ ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN ........................................... 13 2.1. Rovnoměrné rozdělení ................................................................................................................ 13 2.2. Normální rozdělení ....................................................................................................................... 16 2.3. DODATEK - Normované normální rozdělení ........................................................................... 19 2.4. Logaritmicko-normální rozdělení ............................................................................................... 20 2.5. Exponenciální rozdělení............................................................................................................... 23 2.6. DODATEK - Gama rozdělení ....................................................................................................... 26 2.7. Beta rozdělení ............................................................................................................................... 27 3. ROZDĚLENÍ NĚKTERÝCH FUNKCÍ NÁHODNÝCH VELIČIN............................................. 29 3.1. Chí-kvadrát (χ2) rozdělení ........................................................................................................... 29 3.2. Studentovo (t) rozdělení ............................................................................................................. 31 3.3. Snedecorovo (F) rozdělení.......................................................................................................... 33 4. PŘÍLOHA – PŘÍKAZY PRO JEDNOTLIVÉ TYPY ROZDĚLENÍ ........................................... 35 4.1. Pravděpodobnostní funkce, distribuční funkce a hustota pravděpodobnosti...................... 35 4.2. Kvantily .......................................................................................................................................... 35 2 1. NĚKTERÁ ROZDĚLENÍ NESPOJITÝCH NÁHODNÝCH VELIČIN 1.1. Binomické rozdělení Náhodnou veličinou, řídící se binomickým rozdělením pravděpodobnosti, je počet výskytů sledovaného jevu v n nezávislých pokusech (kdy pravděpodobnost nastoupení jevu je ve všech pokusech stejná). Typickou náhodnou veličinou tohoto typu je např. počet šestek, které padnou, hodíme-li n-krát kostkou. Dále se binomický rozdělením řídí např. počet lidí s určitou vlastností, které vybereme s vracením z nějakého souboru lidí. Parametry binomického rozdělení jsou počet nezávislých pokusů (n) a pravděpodobnost nastání sledovaného jevu v každém pokusu (π). Pravděpodobnostní funkce: n P( x) = π x (1 − π ) n − x , x = 0, 1, … , n x Momentová vytvořující funkce: m X ( z) = e zπ + 1 − π Střední hodnota: E ( X ) = nπ Rozptyl: D( X ) = nπ (1 − π ) Modus: nπ + π − 1 ≤ xˆ ≤ nπ + π ( ) n Kód pro výpis hodnot pravděpodobnostní a distribuční funkce v systému SAS: data Binomicke; do x=0 to 10; px=PDF('BINOMIAL',x,0.5,10); Fx=CDF('BINOMIAL',x,0.5,10); output; end; run Tento předpis vygeneruje hodnoty pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) náhodné veličiny s binomickým rozdělením s parametry π = 0,5 a n = 10. 3 Graf pravděpodobnostní funkce: Graf příslušné pravděpodobnostní funkce se vyvolá příkazem „Graph – Scatter Plot“, na osu x se nanášejí hodnoty náhodné veličiny X a na osu y jim příslušející hodnoty pravděpodobnostní funkce. G1: Graf pravděpodobnostní funkce náhodné veličiny s rozdělením Bi (100; 0,3) Binomické rozdělení je asymetrické s jedinou výjimkou, a to tehdy, když pravděpodobnost nastání sledovaného jevu je π = 0,5, pro ilustraci jsem přidal graf („Graph – Line Plot – Multiple vertical column line plots using overlay“, kde jsem zrušil spojovací čáry), do kterého jsem zanesl hodnoty pravděpodobnostní funkce pro různé hodnoty parametru π (konkrétně pro hodnoty 0,5, 0,3 a 0,1) a počet pokusů n = 100. G2: Graf pravděpodobnostní funkce náhodných veličin s rozděleními Bi(100; 0,5), Bi(100; 0,3), Bi(100; 0,1) 4 Graf distribuční funkce: Graf distribuční funkce náhodné veličiny s diskrétním rozdělením pravděpodobnosti se vyvolá příkazem „Graph – Line Plot“ a typ „Step plot“, na osu x se nanášejí hodnoty náhodné veličiny X a na osu y jim příslušející hodnoty distribuční funkce. G3: Graf distribuční funkce náhodné veličiny s rozdělením Bi (100; 0,3) Ilustrační příklad: Př.1: Jaká je pravděpodobnost, že z deseti hodů kostkou obdržíme: a) dvě šestky, b) maximálně dvě šestky? [2] Řeš.: Počet šestek v 10 hodech je náhodná veličina s rozdělením Bi (10; 1/6), úlohu a) řešíme pomocí výpočtu hodnoty pravděpodobnostní funkce v bodě 2, úlohu b) zase pomocí distribuční funkce v bodě 2. a) P (X=2) = ? b) P (X<=2) = F(2) = ? Obě hodnoty lze vypočítat přímo v SAS, výsledný výstup s řešením je přiložen: data priklad1; a=PDF('BINOMIAL',2,.166667,10); b=CDF('BINOMIAL',2,.166667,10); output; run 5 1.2. Hypergeometrické rozdělení Hypergeometrickým rozdělením se řídí náhodná veličina, již je počet výskytů sledovaného jevu v n závislých pokusech – vybíráme bez vracení n jednotek ze souboru o velikosti N, v němž se vyskytuje M jednotek se sledovanou vlastností a zajímá nás, s jakou pravděpodobností bude mít z n vybraných jednotek právě x sledovanou vlastnost, přičemž po provedení pokusu se vybraná jednotka zpět do souboru nevrací. Za jistých předpokladů je možné hypergeometrické rozdělení aproximovat rozdělením binomickým (viz. Dodatek). Typickým příkladem náhodné veličiny s hypergeometrickým rozdělením je počet uhodnutých čísel při tahu Sportky.[1] Parametry hypergeometrického rozdělení jsou velikost souboru, ze kterého se provádí výběr (N), počet jednotek v souboru se sledovanou vlastností (M) a počet závislých pokusů (n). Pravděpodobnostní funkce: M N − M x n − x P ( x) = N n Střední hodnota: E( X ) = n Rozptyl: , x = max[0, M − N + n],..., m[M , n] M N M M N −n D( X ) = n (1 − ) N N N −1 Kód pro výpis hodnot pravděpodobnostní a distribuční funkce v systému SAS: data Hypgeom; do x=0 to 50; px=PDF('HYPERGEOMETRIC',x,1000,100,50); Fx=CDF('HYPERGEOMETRIC',x,1000,100,50); output; end; run Tento předpis vygeneruje hodnoty pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) náhodné veličiny s hypergeometrický rozdělením s parametry N = 1000, M = 100 a n = 50. 6 Graf pravděpodobnostní funkce: G4: Graf pravděpodobnostní funkce náhodné veličiny s rozdělením Hyp (1000; 100; 50) Graf distribuční funkce: G5: Graf distribuční funkce náhodné veličiny s rozdělením Hyp (1000; 100; 50) 7 Ilustrační příklad: Př.2: Pouze 5 pracovníků určitého ministerstva používá na internetu komunikační program ICQ. Z 50 pracovníků ministerstva, kteří využívají ke své práci internet, náhodně vybereme 10 pracovníků. Jaká je pravděpodobnost, že z těchto 10 pracovníků program ICQ používají: a) právě 2 pracovníci b) více než 3 pracovníci? [2] Řeš.: Počet pracovníků používajících ICQ je NV s rozdělením Hyp (50; 5; 10), úlohu a) řešíme pomocí výpočtu hodnoty pravděpodobnostní funkce v bodě 2, úlohu b) zase pomocí doplňku distribuční funkce v bodě 3 do jedné. a) P (X=2) = ? b) P (X>3) = 1 - P(X<=3) = 1 - F(3) = ? Obě hodnoty lze vypočítat přímo v SAS, výsledný výstup s řešením je přiložen: data Priklad2; a=PDF('HYPERGEOMETRIC',2,50,5,10); b=1-CDF('HYPERGEOMETRIC',3,50,5,10); output; run 8 1.3. Poissonovo rozdělení Poissonovým rozdělením se řídí za určitých předpokladů náhodná veličina, kterou je počet výskytů sledovaného jevu v určitém intervalu – tento interval může mít různý charakter, může jít o interval časový, může být vymezen také určitou plochou. Náhodnou veličinou, která má poissonovo rozdělení, je např. počet vadných výrobků ve velké sérii, jestliže pravděpodobnost vyrobení vadného výrobku je velice malá. Z věcného popisu náhodné veličiny je zjevná podobnost s náhodnou veličinou řídící se binomickým či hypergeometrickým rozdělením. Za určitých předpokladů lze totiž binomické a hypergeometrické rozdělení aproximovat rozdělením poissonovým (viz. Dodatek). Jediným parametrem poissonova rozdělení je průměrný počet výskytů sledovaného jevu za daný interval (λ). λx e − λ , x = 0,1, 2, K , λ > 0 Pravděpodobnostní funkce: P( X ) = Momentová vytvořující funkce: mX ( z ) = e λ ( e −1) Střední hodnota: E(X ) = λ Rozptyl: D(X ) = λ Modus: λ − 1 ≤ x̂ ≤ λ x! z Kód pro výpis hodnot pravděpodobnostní a distribuční funkce v systému SAS: data Poisson; do x=0 to 25; px=PDF('POISSON',x,5); Fx=CDF('POISSON',x,5); output; end; run Tento předpis vygeneruje hodnoty pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) náhodné veličiny s poissonovým rozdělením s parametrem λ = 5. 9 Graf pravděpodobnostní funkce: G6: Graf pravděpodobnostní funkce náhodné veličiny s rozdělením Po (5) Graf distribuční funkce: G7: Graf distribuční funkce náhodné veličiny s rozdělením Po (5) 10 Ilustrační příklad: Př.3: Ve výtisku knihy se nachází v průměru 1 tisková chyba na 10 stranách textu. a) Jaká je pravděpodobnost, že na 5 stranách textu budou 2 chyby? b) Jaká je pravděpodobnost, že na 30 stranách textu bude méně než 5 chyb? Řeš: [2] a) Protože na 10 stran textu připadá průměrně 1 chyba, pak průměrný počet chyb na 5 stran textu je 0,5 a náhodná veličina „počet chyb na 5 stran textu“ má tedy rozdělení Po (0,5). Vypočítáme hodnotu pravděpodobnostní funkce v bodě 2. P(X=2) = ? b) Stejnou úvahou dospějeme k závěru, že počet chyb na 30 stran textu je náhodná veličina s rozdělením Po (3). K řešení dospějeme výpočtem hodnoty distribuční funkce v bodě 4. P(X<5) = P(X<=4) = F(4) = ? Postup řešení úlohy v SAS následuje stejně jako výstup s řešením: data Priklad3; a=PDF('POISSON',2,0.5); b=CDF('POISSON',4,3); output; run 11 1.4. DODATEK – vztah mezi binomickým, hypergeometrickým a poissonovým rozdělením Binomické rozdělení slouží pro popis tzv. výběrů s vracením, zatímco hypergeometrické rozdělení popisuje tzv. výběry bez vracení. Ovšem za předpokladu, že vybíráme relativně nízký počet jednotek z relativně velkého souboru, pak se pravděpodobnost, že vybereme vícekrát tu samou jednotku, snižuje, a výběr s vracením se blíží výběru bez vracení. Konkrétně pokud tzv. výběrový podíl n ≤ 0,05 , pak rozdělení Hyp(N; M; n) lze aproximovat N rozdělením Bi (n; M/N). Dále pro binomické rozdělení platí, že s počtem pokusů blížícímu se ∞ (stačí n>30) a pravděpodobností výskytu sledovaného jevu blížící se 0 (stačí π ≤ 0,1 ), se blíží rozdělení poissonovu Po(λ=n.π). Z výše uvedeného zároveň vyplývá, že pro n M ≤ 0,05 , ≤ 0,1 a n>30, lze hypergeometrické N N rozdělení aproximovat rozdělením Po(λ=n.M/N). G8: Graf pravděpodobnostních funkcí a tabulka vybraných hodnot náhodných veličin s rozděleními Bi(100; 0,05), Hyp(1000;100;50) a Po (5) – pro lepší ilustraci je graf pravděpodobnostních funkcí vykreslen jako spojnicový. 12 2. NĚKTERÁ ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN 2.1. Rovnoměrné rozdělení Náhodná veličina řídící se rovnoměrným rozdělením pravděpodobnosti má konstantní hustotu pravděpodobnosti. Je jí např. chyba při zaokrouhlování čísla, doba čekání na uskutečnění jevu, který se opakuje v pravidelných intervalech apod. [1] Parametry rovnoměrného rozdělení jsou dolní (α) a horní (β) mez intervalu, ve kterém se pohybují hodnoty sledované náhodné veličiny. Hustota pravděpodobnosti 1 β −α f ( x) = x F ( x) = ∫ Distribuční funkce α ,α < x < β 1 x −α dt β −α β −α ,α < x < β (α + β ) 2 ( β − α )2 D( X ) = 12 E( X ) = Střední hodnota: Rozptyl: med = Medián: α+β 2 Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS: data Rovnomerne; do x=0 to 10 by 0.2; hx=PDF('Uniform',x,0,10); Fx=CDF('Uniform',x,0,10); output; end; run Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) a distribuční funkce (CDF) náhodné veličiny s rovnoměrným rozdělením s parametry α = 0 a β = 10, a to s délkou kroku 0,2 (tj. pro x = 0, 0,2, 0,4, 0,6 … 10). Pozn: Pro odlišení distribuční funkce a hustoty pravděpodobnosti pravděpodobnosti označovat „hx“ místo tradičního „fx“. 13 budu hustotu Graf hustoty pravděpodobnosti: Graf příslušné hustoty pravděpodobnosti se vyvolá příkazem „Graph – Line Plot“, na osu x se nanášejí hodnoty náhodné veličiny X a na osu y jim příslušející hodnoty pravděpodobnostní funkce. Pro hladký průběh křivky je možné použít typ grafu „Smooth plot“. G9: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením Ro (0; 10) Graf distribuční funkce: Při tvorbě grafu distribuční funkce se postupuje analogicky jako u hustoty pravděpodobnosti, pouze hodnoty hustoty pravděpodobnosti nahradíme hodnotami distribuční funkce, typ grafu zůstává stejný (u náhodných veličin se spojitým pravděpodobnostním rozdělením již nemá distribuční funkce „schodovitý“ charakter). G10: Graf distribuční funkce náhodné veličiny s rozdělením Ro (0; 10) 14 Ilustrační příklad: Př. 4: Krátké zpravodajství je na rozhlasové stanici RadioStar uváděno pravidelně v každou celou hodinu. Jaká je pravděpodobnost, že uslyšíme začátek zpravodajství do 10 minut, jestliže zcela náhodně bez ohledu na čas zapneme rádio? [2] Řeš.: Protože hodina má 60 minut, pak na začátek vysílání můžeme čekat minimálně 0 min a maximálně 60 min. Doba čekání před začátkem zpravodajství je tedy náhodná veličina s rozdělením Ro (0; 60). Pravděpodobnost, že zpravodajství začne do 10 minut od chvíle, kdy jsme zapnuli rádio, vypočítáme jako hodnotu distribuční funkce v bodě 10. P(X<=10) = F(10) = ? Postup řešení příkladu v SAS a výstup s výsledkem: data Priklad4; P=CDF('UNIFORM',10,0,60); output; run 15 2.2. Normální rozdělení Normální rozdělení je nejspíše nejvýznamnějším pravděpodobnostním rozdělením. Je použitelné všude, kde kolísání náhodné veličiny je způsobeno součtem velkého počtu nepatrných a vzájemně nezávislých vlivů. Tímto typem rozdělení se typicky řídí náhodné chyby. Jeho hlavní význam ovšem tkví v tom, že za určitých podmínek (formulovaných centrální limitní větou) k němu konverguje spousta jiných, a to i nespojitých rozdělení pravděpodobnosti. [1] Parametry normálního rozdělení jsou střední hodnota (μ) a rozptyl (σ2). Normální rozdělení je symetrické okolo střední hodnoty, střední hodnota je totožná s modem i mediánem. Hustota pravděpodobnosti Distribuční funkce f ( x) = F ( x) = 1 σ 2π 1 σ 2π e x − ( x− µ )2 2σ 2 ∫e − ( t −µ )2 2σ 2 ,−∞ < x < ∞ dt ,−∞ < x < ∞ ,-∞ < µ < ∞ ,0 < σ 2 < ∞ ,-∞ < µ < ∞ ,0 < σ 2 < ∞ −∞ z 2σ 2 zµ + 2 Momentová vytvořující funkce: mX ( z) = e Střední hodnota: E (X ) = µ Rozptyl: D( X ) = σ 2 Modus, medián: ) ~ x=x=µ Kvantily: x p = σu p + µ Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS: data Normalni_; do x=-10 to 14 by 0.2; hx=PDF('Gauss',x,2,3); Fx=CDF('Normal',x,2,3); output; end; run Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) a distribuční funkce (CDF) náhodné veličiny s normálním rozdělením s parametry μ = 2 a σ2 = 3 pro hodnoty náhodné veličiny v intervalu <-10; 14> a to s délkou kroku 0,2. Pojmenování „Gauss“ a „Normal“ je zde identické. 16 Graf hustoty pravděpodobnosti: G11: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením N (2; 3) Graf distribuční funkce: G12: Graf distribuční funkce náhodné veličiny s rozdělením N (2; 3) 17 Ilustrační příklad: Př.5: Bylo zjištěno, že optické zařízení pro měření vzdáleností udává vlivem špatného seřízení hodnoty o 0,5m větší. Toto zařízení je tedy zatíženo jednak tzv. systematickou chybou a jednak chybou náhodnou. Náhodné chyby mají normální rozdělení se směrodatnou odchylkou 1m. Jaká je pravděpodobnost, že celková chyba měření nepřesáhne 2 metry? [1] Řeš.: Celková chyba vzniká jako součet systematické chyby (s nulovou směrodatnou odchylkou a střední hodnotou 0,5) a náhodné chyby (s nulovou střední hodnotou a směrodatnou odchylkou 1) a má tedy rozdělení N (0,5; 1). Pravděpodobnost, že chyba měření nepřesáhne 2 metry, vypočítáme jako hodnotu distribuční funkce v bodě 2. P(X<=2) = F(2) = ? Postup řešení v SAS a výsledek: data Priklad5; P=CDF('NORMAL',2,0.5,1); output; run 18 2.3. DODATEK - Normované normální rozdělení Pro stanovení hodnot distribuční funkce normálního rozdělení se (vzhledem k náročnosti výpočtu) využívá tabulek, které jsou sestaveny pro hodnoty normované náhodné veličiny U. Tato náhodná veličina má nulovou střední hodnotu a jednotkový rozptyl. Hustota pravděpodobnosti ϕ (u) = 1 2π e − u2 2 Φ (u ) = P (U ≤ u ) = Distribuční funkce Vztah mezi normálním a normovaným normálním rozdělením U= x−µ ,−∞ < u < ∞ 1 2π u ∫e − t2 2 dt ,−∞ < u < ∞ −∞ σ Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS: Postup je identický jako v případě normálního rozdělení, pouze se zadají příslušné hodnoty parametrů (tj. μ = 0 a σ2 = 1). Graf hustoty pravděpodobnosti: G13: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením N (0; 1) Graf distribuční funkce: G14: Graf distribuční funkce náhodné veličiny s rozdělením N (0; 1) 19 2.4. Logaritmicko-normální rozdělení Uvažujeme-li náhodnou veličinu X, která je rostoucí funkcí náhodné veličiny Y → X = eY, kde náhodná veličina Y má rozdělení N (μ; σ2), potom náhodná veličina X má logaritmicko-normální rozdělení s parametry μ a σ2. Logaritmicko-normální rozdělení se využívá při zkoumání mzdových a příjmových rozdělení, v oblasti normování práce apod. [1] Na rozdíl od normálního rozdělení jsou μ a σ2 pouze parametry rozdělení a nikoliv jeho charakteristikami. 1 − (ln x − µ ) 2 2σ 2 Hustota pravděpodobnosti f ( x) = Distribuční funkce ln x − µ F ( x) = Φ σ xσ 2π µ+ e ,0 < x < ∞ σ2 Střední hodnota: E( X ) = e Rozptyl: D( X ) = e2 µ +σ (eσ − 1) Kvantily: x P = e σu + µ 2 2 2 P Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS: data Lognormalni; do x=0 to 40 by 0.2; hx=PDF('LOGNORMAL',x,2,0.5); Fx=CDF('LOGNORMAL',x,2,0.5); output; end; run Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) a distribuční funkce (CDF) náhodné veličiny s logaritmicko-normálním rozdělením s parametry μ = 2 a σ2 = 0,5 pro hodnoty náhodné veličiny v intervalu <0; 40>, a to s délkou kroku 0,2. 20 Graf hustoty pravděpodobnosti: G15: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením LN (2; 0,5) Graf distribuční funkce: G16: Graf distribuční funkce náhodné veličiny s rozdělením LN (2; 0,5) 21 Ilustrační příklad: Př.6: Předpokládejme, že náhodná veličina X, představující počet minut potřebných k provedení určité operace, má logaritmicko-normální rozdělení s parametry μ = 2 a σ2 = 0,5. Odhadněte pravděpodobnost, že doba potřebná k opravě bude větší než 10 minut. Řeš.: Náhodná veličina X, kterou je počet minut potřebných k opravě, má rozdělení LN (2; 0,5). Jen pro zdůraznění, parametry rozdělení nejsou totožné s jeho charakteristikami, jako je to v případě normálního rozdělení! V tomto případě by střední hodnota byla (na základě výše uvedených vztahů) E(X) = 9,4877 a rozptyl by měl hodnotu D(X) = 58,3960. Požadovanou pravděpodobnost vypočteme jako doplněk distribuční funkce v bodě 10 do jedné. P(X>10) = 1 – P(X<=10) = ? Postup řešení v SAS a výsledek: data Priklad6; P=1-CDF('LOGNORMAL',10,2,0.5); output; run 22 2.5. Exponenciální rozdělení Exponenciální rozdělení pravděpodobnosti se často využívá v teorii spolehlivosti a životnosti, v teorii hromadné obsluhy, v teorii obnovy apod. Náhodnou veličinou X je potom obvykle doba, během níž nastane sledovaný jev. [1] Parametry rozdělení jsou střední doba čekání na sledovaný jev (α) a počáteční doba, během které tento jev nastat nemůže (δ). 1 - x -α ,x <α Hustota pravděpodobnosti f ( x) = Distribuční funkce F ( x) = 1 − e Momentová vytvořující funkce: m X ( z ) = e αz (1 − zδ ) Střední hodnota: E(X ) = α + δ Rozptyl: D( X ) = δ 2 δ e δ - x -α ,δ > 0 , x ∈ R ,x >α δ −1 Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS: data Exponen; do x=0 to 50 by 0.5; hx=PDF('EXPONENTIAL',x,10); Fx=CDF('EXPONENTIAL',x,10); output; end; run SAS umožňuje zadání pouze parametru δ – proto tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) a distribuční funkce (CDF) náhodné veličiny s exponenciálním rozdělením s parametry α = 0 a δ = 10 pro hodnoty v intervalu <0; 50>, a to s délkou kroku 0,5. 23 Graf hustoty pravděpodobnosti: G17: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením E (0; 10) Graf distribuční funkce: G18: Graf distribuční funkce náhodné veličiny s rozdělením E (0; 10) 24 Ilustrační příklad: Př. 7: Průměrná doba životnosti paměťového modulu v počítači je 70 000 hodin. Jaká je pravděpodobnost, že modul vydrží v provozu bez poruchy: a) maximálně 25 000 hodin b) minimálně 60 000 a maximálně 80 000 hodin? [2] Řeš: Doba výdrže bez poruchy je náhodná veličina s rozdělením E (70 000). Úlohu a) vypočítáme jako hodnotu distribuční funkce v bodě 25 000. Úlohu b) vyřešíme jako rozdíl hodnot distribučních funkcí v krajních bodech intervalu. a) P(X<=25 000) = F(25 000) = ? b) P(60 000<X<80000) = F(80 000) – F(60 000) = ? Postup řešení v SAS a výstup s výsledkem: data Priklad7; a=CDF('EXPONENTIAL',25000,70000); b=CDF('EXPONENTIAL',80000,70000)-CDF('EXPONENTIAL',60000,70000); output; run 25 2.6. DODATEK - Gama rozdělení Exponenciální rozdělení je pouze zvláštním případem gama rozdělení (viz. tabulka níže), které závisí na parametrech m a δ. Součtem m nezávislých náhodných veličin, které mají rozdělení E (0, δ), je náhodná veličina s rozdělením Г(m; δ). [1] x 1 δ e x m-1 m Γ( m)δ Hustota pravděpodobnosti f ( x) = Momentová vytvořující funkce: m X ( z ) = (1 − zδ ) Střední hodnota: E ( X ) = mδ Rozptyl: D( X ) = mδ 2 Vztah mezi exponenciálním a gama rozdělením E(0, δ ) = Γ(1,δ ) , x > 0 ,δ > 0 , m > 0 −m Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS: data Gamma; do x=0 to 50 by 0.5; hx=PDF('Gamma',x,1,10); Fx=CDF('Gamma',x,1,10); output; end; run Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) a distribuční funkce (CDF) náhodné veličiny s gama rozdělením s parametry m = 1 a δ = 10 pro hodnoty náhodné veličiny v intervalu <0; 50>, a to s délkou kroku 0,5. Graf hustoty pravděpodobnosti a graf distribuční funkce: Pokud porovnáme grafy G19 s předcházejícími grafy (G17, G18), je vidět, že jsou totožné. To potvrzuje, že náhodná veličina s rozdělením E (0;10) má rovněž rozdělení Г(1; 10) G19: Graf hustoty pravděpodobnosti a distribuční funkce náhodné veličiny s rozdělením Г(1; 10) 26 2.7. Beta rozdělení Rozdělení beta je vhodným modelem mnoha ekonomických veličin, jejichž hodnoty jsou omezené shora i zdola a u nichž předpokládáme existenci jediného modu ležícího uvnitř intervalu možných hodnot. Toto však nelze použít přímo vzhledem k podmínce pro hodnoty x (0<x<1). Je třeba převést veličinu na zobecněné rozdělení beta. [1] Rozdělení má parametry p a q. 1 x p-1 (1 − x) q-1 B ( p, q ) Hustota pravděpodobnosti f ( x) = Střední hodnota: E( X ) = p p+q Rozptyl: D( X ) = pq ( p + q ) ( p + q + 1) ,0 < x < 1 ,p > 0 ,q > 0 2 Kód pro výpis hodnot hustoty pravděpodobnosti a distribuční funkce v systému SAS: data Beta; do x=0.01 to 0.99 by 0.01; hx=PDF('Beta',x,5,10); Fx=CDF('Beta',x,5,10); output; end; run Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) a distribuční funkce (CDF) náhodné veličiny s beta rozdělením s parametry p = 5 a q = 10 pro hodnoty náhodné veličiny v intervalu <0,01; 0,99>, a to s délkou kroku 0,01. Graf hustoty pravděpodobnosti: Tvar hustoty pravděpodobnosti a distribuční funkce výrazně závisí na hodnotě parametrů p a q. V grafu jsem vyznačil možné tvary hustoty pravděpodobnosti náhodné veličiny s beta rozdělením. Hustota pravděpodobnosti p q Tvar funkce hx1 hx2 hx3 hx4 hx5 hx6 <1 < 1 (p=q) <1 >1 >1 > 1 (p=q) <1 < 1 (p=q) >= 1 <= 1 >1 > 1 (p=q) Tvar písmene U Symetrická kolem 0,5 Klesající Rostoucí Unimodální křivka Symetrická kolem 0,5 27 G20: Možné tvary hustoty pravděpodobnosti náhodné veličiny s beta rozdělením Graf distribuční funkce: Pro úplnost přidávám křivky distribuční funkce pro různé hodnoty parametrů p a q. Barevně křivky odpovídají křivkám hustot pravděpodobnosti v předcházejícím grafu. G21: Možné tvary distribuční funkce náhodné veličiny s beta rozdělením 28 3. ROZDĚLENÍ NĚKTERÝCH FUNKCÍ NÁHODNÝCH VELIČIN Pro řešení některých matematicko-statistických úloh (intervalové odhady, testování hypotéz…) mají zvláštní význam rozdělení určitých funkcí normálně rozdělených náhodných veličin.[1] Mezi nejvýznamnější v tomto ohledu patří rozdělení chí-kvadrát, t (Studentovo) a F (Snedecorovo). V tomto oddíle se zaměřím na výpočet kvantilů zmíněných rozdělení, protože v praktických úlohách se využívá právě především kvantilů těchto rozdělení. 3.1. Chí-kvadrát (χ2) rozdělení Náhodná veličina, řídící se chí-kvadrát rozdělením pravděpodobnosti, vzniká jako součet čtverců ν [ný] nezávislých náhodných veličin s normovaným normálním rozdělením. Jediným parametrem tohoto rozdělení je počet stupňů volnosti (ν), který je přirozené číslo. Zároveň také platí vztah mezi chí-kvadrát rozdělením a gama rozdělením takový, že rozdělení χ2 (ν) je zároveň rozdělením Г(m; δ), kde m = ν/2 a δ = 2. [1] ( ) ( ) 1 χ2 Γ(ν / 2 ) Hustota pravděpodobnosti f χ2 = Momentová vytvořující funkce: mχ 2 (z ) = (1 − 2 z ) ν /2 2 ν / 2 −1 − χ 2 / 2 e ,χ2 > 0 −ν / 2 Rozptyl: ( ) D(χ ) = 2ν Kvantily: χ p 2 (ν ) ≈ Vztah mezi chí-kvadrát rozdělením a normovaným normálním rozdělením χ 2 = U12 + U 22 + K + Uν2 U i ≈ N (0,1), i = 1,2,K,ν Střední hodnota: E χ 2 =ν 2 1 2 ( 2ν − 1 + u p Kód pro výpis hodnot hustoty pravděpodobnosti v systému SAS: data Chi_fx; do x=0.1 to 50 by 0.5; fx=PDF('CHISQUARE',x,10); output; end; run 29 ) 2 Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) náhodné veličiny s chí-kvadrát rozdělením o 10 stupních volnosti v intervalu <0,1; 50>, a to s délkou kroku 0,5. Graf hustoty pravděpodobnosti: G22: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením χ2 (10) Kód pro výpis kvantilů v systému SAS: data Chi_K; do y=0.01 to 0.99 by 0.01; chi=CINV(y,10); output; end; run Tento předpis vygeneruje hodnoty kvantilů chí-kvadrát rozdělení (CINV) o 10 stupních volnosti pro pravděpodobnosti od 0,01 do 0,99 s délkou kroku 0,01. Ilustrační příklad: Kvantily chí-kvadrát rozdělení využíváme mj. při testování hypotézy o rozptylu v základním souboru. SAS má samozřejmě schopnost počítat výsledek testu přímo ze zadání, ale jen pro dokreslení přidávám postup při zjišťování kvantilu chí-kvadrát rozdělení odpovídajícímu požadované hladině významnosti a rozsahu výběru (který má vliv na počet stupňů volnosti). Je-li rozsah výběru n = 50 a hladina významnosti α = 0,05, potom hledáme 95% kvantil chí-kvadrát rozdělení se 49 stupni volnosti (ν = n-1) podle následujícího předpisu: data Chi_K; chi=CINV(0.95,49); output; run 30 3.2. Studentovo (t) rozdělení Náhodná veličina s t rozdělením je opět funkcí normovaně normálně rozdělených náhodných veličin. Jediný parametr ν opět značí počet stupňů volnosti a určuje tvar hustoty pravděpodobnosti, která je symetrická podle 0. Hustota pravděpodobnosti: Vztah mezi t, chí-kvadrát a normovaným normálním rozdělením: t 1 1 + 1 ν ν ν β , 2 2 2 f (t ) = t= U χ ν 2 − (ν +1) 2 ,−∞ < t < ∞ − ∞ < t < ∞ U ≈ N (0,1) χ 2 ≈ χ 2 (ν ) Kód pro výpis hodnot hustoty pravděpodobnosti v systému SAS: data Student_fx; do x=-6 to 6 by 0.05; fx=PDF('T',x,5); output; end; run Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) náhodné veličiny s t rozdělením o 5 stupních volnosti v intervalu <6; 6>, a to s délkou kroku 0,05. Graf hustoty pravděpodobnosti: G23: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením t (5) 31 Kód pro výpis kvantilů v systému SAS: data Student_k; do y=0.10 to 0.99 by 0.01; t=TINV(y,5); output; end; run Tento předpis vygeneruje hodnoty kvantilů t rozdělení (CINV) o 5 stupních volnosti pro pravděpodobnosti od 0,10 do 0,99 s délkou kroku 0,01. Ilustrační příklad: Kvantily t rozdělení využíváme např. při intervalovém odhadu střední hodnoty pro malý rozsah výběru. Stejně jako u chí-kvadrát rozdělení pouze demonstruji, jak zjistit velikost příslušného kvantilu v závislosti na zvolené hladině významnosti a rozsahu výběru. Pro rozsah výběru n = 20 a hladinu významnosti α = 0,01 hledáme 99% kvantil t rozdělení s 19 stupni volnosti (ν = n-1) pomocí následujícího předpisu: data Student_k; t=TINV(0.99,19); output; run 32 3.3. Snedecorovo (F) rozdělení Náhodná veličina s rozdělením F má 2 parametry, které odpovídají počtu stupňů volnosti 2 2 náhodných veličin χ 1 a χ 2 (viz. tabulka). Hustota pravděpodobnosti: ν1 1 h( F ) = ν 1 ν 2 ν 2 B , 2 2 Vztah mezi F a chí-kvadrát rozdělením: χ12 ν F = 12 χ2 ν2 ν1 2 ν21 −1 ν 1 −ν 1 +2ν 2 F (1 + F) ,F >0 ν2 Kód pro výpis hodnot hustoty pravděpodobnosti v systému SAS: data Snedecor_fx; do x=0 to 5 by 0.01; fx=PDF('F',x,9,10); output; end; run Tento předpis vygeneruje hodnoty hustoty pravděpodobnosti (PDF) náhodné veličiny s F rozdělením o 9 a 10 stupních volnosti v intervalu <0; 5>, a to s délkou kroku 0,01. Graf hustoty pravděpodobnosti: G24: Graf hustoty pravděpodobnosti náhodné veličiny s rozdělením F (9; 10) 33 Kód pro výpis kvantilů v systému SAS: data Snedecor_k; do y=0.10 to 0.99 by 0.01; t=FINV(y,9,10); output; end; run Tento předpis vygeneruje hodnoty kvantilů F rozdělení (FINV) o 9 a 10 stupních volnosti pro pravděpodobnosti od 0,10 do 0,99 s délkou kroku 0,01. Ilustrační příklad: F rozdělení má využití např. při analýze rozptylu. Požadovaný kvantil F rozdělení zjišťujeme na základě počtu skupin, jejichž variabilitu analyzujeme, počtu pozorování a zvolené hladiny významnosti. Pokud bylo provedeno celkem n = 20 pozorování v k = 5 různých skupinách a chceme posoudit na hladině významnosti α = 0,1 závislost výsledku pozorování na skupině, ve které bylo provedeno, potom porovnáváme hodnotu statistiky F s kvantilem F1-α (k-1; n-k). Konkrétně tedy hledáme hodnotu F0,90 (4; 15). Využijeme následujícího postupu v SAS: data Snedecor_k; F=FINV(0.9,4,15); output; run 34 4. PŘÍLOHA – PŘÍKAZY PRO JEDNOTLIVÉ TYPY ROZDĚLENÍ 4.1. Pravděpodobnostní funkce, distribuční funkce a hustota pravděpodobnosti Rozdělení PDF/CDF (‚Rozdělení‘, x, p 1, p 2, Beta PDF/CDF (‘Beta‘, x, α, β ) Binomické PDF/CDF (‘Binomial‘, x, π, n ) Chí-kvadrát PDF/CDF (‘Chisquare‘, x, ν ) Exponenciální PDF/CDF (‘Exponential‘, x, δ ) Snedecorovo (F) PDF/CDF (‘F‘, x, ν1, ν2 ) Gama PDF/CDF (‘Gamma‘, x, m, δ ) Hypergeometrické PDF/CDF (‘Hypergeometric‘, x, N, M, n) Lognormální PDF/CDF (‘Lognormal‘, x, μ, σ2 ) Normální PDF/CDF (‘Normal‘, x, μ, σ2 ) Poissonovo PDF/CDF (‘Poisson‘, x, λ ) Studentovo (t) PDF/CDF (‘T‘, x, ν ) Rovnoměrné PDF/CDF (‘Uniform‘, x, α, β 4.2. Kvantily Rozdělení Beta (P, p1, p2) BETAINV (P, α, β) Chí-kvadrát CINV (P, ν ) Snedecorovo (F) FINV (P, ν1, ν2) Gama GAMINV (P, m ) Normální (normov.) PROBIT (P, TINV (P, Studentovo (t) 35 Kvant. funkce ) ν ) p 3) ) Použitá a citovaná literatura: [1] BÍLKOVÁ, Diana - KAHOUNOVÁ, J.: Počet pravděpodobnosti, 2002 [2] MAREK, Luboš a kol.: Statistika pro ekonomy – aplikace, 2004 36
Podobné dokumenty
TURBULENCE MODELOVÁNÍ PROUDĚNÍ
vlastně první turbulentní víry. Při zvyšování Reynoldsova čísla se vytvářejí další nestability, až se proudění stane plně turbulentní. Vidíme, že proudění není pouze striktně laminární a turbulentn...
VíceRozdělení náhod veličiny Rozdělení náhodné veličiny lení náhodné
rozdělení. Důležité je především z důvodu platnosti centrální limitní věty, která říká, že součet nezávislých náhodných veličin má přibližně normální rozdělení (čím více veličin sečteme, tím lépe),...
Vícepřehled vzorců v exelu
Poznámka: Poud text na místě argumentu není uzavřen v apostrofech, program Excel předpokládá, že se jedná o název a pokouší se jej nahradit hodnotou, na kterou tento název odkazuje. Když text není...
VíceMS-DOS
souborů kvůli přehlednosti. Obecně adresář představuje seznam položek (soubory, podadresáře a speciální položky) s informacemi o jejich velikosti, datu, času poslední změny a jejich vlastnostech (a...
VícePřehled článků - Asociace waldorfských škol České republiky
publikovaných v časopisu Člověk, výchova a dítě a Člověk a výchova v letech 1996 až 2006 Milí čtenáři časopisu Člověk a výchova, protože v uplynulých jedenácti letech byla v tomto časopisu uveřejně...
VícePO TE OČÍT EPEL TAČO LNÝ OVÁ ÝCH P POD PRO DPOR OCES
Kliknutím na tlačítko Office se zobrazí nabídka se známými příkazy (viz. Obr.2.). Tlačítko Office také obsahuje seznam naposledy otevřených dokumentů, přičemž nejvyšší počet může být až 50 oproti d...
VíceZobrazit celý článek - Trendy ve vzdělávání
populace (základního souboru). Výsledkem je obrovský počet možných výběrů ze základního souboru při vyšších hodnotách k a n (např. počet kombinací (tedy výběru bez vracení, což se v praxi většinou ...
VíceNáhodný výběr
1. Pojmy Opakujeme-li n-krát nezávisle pokus, jehož výsledkem je hodnota náhodné veličiny X s distribuční funkcí F (x, ϑ), kde ϑ je reálný parametr (případně vektor parametrů anebo jejich funkce) d...
VíceStáhnout materiál Statistika pro flákače
Výsledek vydělíme patnácti (počet hodnot = n) a máme rozptyl 206,15 cm na druhou. Hodnota v centimetrech na druhou (nebo v jakékoli jiné jednotce na druhou) ale není příliš srozumitelná, proto se p...
Více