SA ZK - ÚM FSI VUT
Transkript
SA ZK - ÚM FSI VUT
Vysoké uþení technické v BrnČ Fakulta strojního inženýrství STATISTICKÁ ANALÝZA Doc. RNDr. ZdenČk Karpíšek, CSc. PĜehledový uþební text pro doktorské studium BRNO 2008 PĜednášející: Doc. RNDr. ZdenČk Karpíšek, CSc. Centrum pro jakost a spolehlivost ve výrobČ Odbor statistiky a optimalizace Ústav matematiky FSI VUT v BrnČ E-mail: [email protected] © ZdenČk Karpíšek 2008 -2- OBSAH PěEDMLUVA (4) 1. NÁHODNÝ VÝBċR A JEHO CHARAKTERISTIKY (5) Kontrolní otázky (9) 2. ODHADY PARAMETRģ (10) Bodové a intervalové odhady (10) Odhady parametrĤ normálního rozdČlení (12) Odhady parametru binomického rozdČlení (14) PĜíklady k procviþení (15) Kontrolní otázky (17) 3. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ (18) Statistická hypotéza a její test (18) Testy hypotéz o parametrech normálního rozdČlení (21) Testy hypotéz o parametru binomického rozdČlení (26) Testy hypotéz o rozdČlení (28) Neparametrické testy hypotéz (31) PĜíklady k procviþení (39) Kontrolní otázky (44) 4. REGRESNÍ ANALÝZA (45) Regresní funkce (45) Lineární regresní model (46) PĜíklady k procviþení (53) Kontrolní otázky (57) 5. ANALÝZA ROZPTYLU (58) Motivace a základní pojmy (58) Analýza rozptylu jednoduchého tĜídČní (ANOVA 1) (58) PĜíklady k procviþení (64) Kontrolní otázky (66) 6. KATEGORIÁLNÍ ANALÝZA (67) Motivace (67) PearsonĤv test nezávislosti a homogenity (67) PĜíklady k procviþení (70) Kontrolní otázky (71) -3- LITERATURA (72) STATISTICKÉ TABULKY (75) DODATEK 1 – Základy popisné statistiky (86) DODATEK 2 – (OHPHQW\ teorie pravdČpodobnosti (100) PěEDMLUVA Uþební text obsahuje pĜehled metod nejþastČji používaných metod matematické statistiky a je pouze základní pomĤckou pro studium. Pro individuální pĜípravu ke zkoušce jsou do každé kapitoly zaĜazeny neĜešené pĜíklady k procviþení a kontrolní otázky. K prohloubení znalostí se doporuþuje literatura citovaná v textu a uvedená v závČreþné þásti. Tabulková þást má sloužit k Ĝešení úloh na odhady parametrĤ a testování statistických hypotéz. Dodatky 1 a 2 doplĖují uþební text o základní informace z popisné statistiky a teorie pravdČpodobnosti. DČkuji všem, kteĜí mnČ pomohli pĜipomínkami a radami k pĜípravČ tohoto vydání uþebního textu. Rád pĜijmu všechny podnČty a doporuþení k jeho obsahu i zpracování. Brno, Ĝíjen 2008 ZdenČk Karpíšek -4- ELEMENTY MATEMATICKÉ STATISTIKY 1 NÁHODNÝ VÝBċR A JEHO CHARAKTERISTIKY Matematická (inferenþní, indukþní) statistika poskytuje metody pro popis veliþin náhodného charakteru pomocí jejich pozorovaných hodnot. Jedná se vlastnČ o urþení vlastností rozdČlení pravdČpodobnosti náhodné veliþiny nebo náhodného vektoru na základČ jejich pozorovaných hodnot a v podstatČ jde o Ĝešení dvou základních úloh matematické statistiky: x odhady parametrĤ a rozdČlení, x testování statistických hypotéz o parametrech a rozdČleních. Tyto úlohy se dle potĜeby kombinují, když napĜ. odhadujeme nebo testujeme þíselné charakteristiky rozdČlení, vyšetĜujeme závislosti náhodných veliþin apod. Metody matematické statistiky jsou založeny na následujících pojmech. Opakujeme-li n-krát nezávisle pokus, jehož výsledkem je hodnota náhodné veliþiny X s distribuþní funkcí F x, - , kde - je reálný parametr (pĜípadnČ vektor parametrĤ anebo jejich funkce) daného rozdČlení pravdČpodobnosti, pozorujeme vlastnČ náhodný vektor X X 1 ,...,X n a pĜedpokládáme, že jeho složky jsou nezávislé náhodné veliþiny Xi se stejnou distribuþní funkcí jakou má pozorovaná náhodná veliþina X. Náhodný vektor X X 1 ,...,X n se nazývá náhodný výbČr (z náhodné veliþiny X nebo z jejího rozdČlení pravdČpodobnosti) a þíslo n je rozsah náhodného výbČru. Analogicky definujeme náhodný výbČr z náhodného F x;- vektoru. F x1 ,...,xn ;- Náhodný výbČr má simultánní distribuþní funkci n F x ;- . i i 1 ýíselný vektor x x1 ,...,xn , který získáme pĜi realizaci náhodného výbČru, kde xi je pozorovaná hodnota složky Xi , i soubor x x1 ,...,xn 1,...,n , je statistický soubor s rozsahem n. Statistický je jinak Ĝeþeno pozorovaná hodnota náhodného výbČru X X 1 ,...,X n , což znamená, že pĜi opakovaných realizacích náhodného výbČru obdržíme obecnČ (a náhodnČ) rĤzné statistické soubory. Množina všech hodnot náhodného výbČru, tj. množina všech statistických souborĤ, tvoĜí tzv. výbČrový prostor. Funkce náhodného výbČru T X 1 ,...,X n je výbČrová charakteristika nebo statistika. Její hodnota na statistickém souboru t T x1 ,...,xn je empirická charakteristika nebo pozorovaná hodnota statistiky T. VýbČrovou charakteristiku (statistiku) T (a tím také -5- empirickou charakteristiku t) volíme tak, nabývala na výbČrovém prostoru s velkou pravdČpodobností hodnot blízkých neznámé nebo pĜedpokládané teoretické charakteristice, napĜ. parametru - pozorované náhodné veliþiny X. Z toho vyplývá základní princip statistické indukce v matematické statistice, který je schematicky vyjádĜen na obr. 1.1. Náhodná veliþina X Teoretická charakteristika - Náhodný výbČr (X1,…, Xn) VýbČrová charakteristika T(X1,…, Xn) Statistický soubor (x1,…, xn) Empirická charakteristika t = T(x1,…, xn) Obr. 1.1 Používáme zejména tyto výbČrové charakteristiky: 1) výbČrový prĤmČr X 1 n ¦ Xi , ni1 2) výbČrový rozptyl S2 2 1 n Xi X , ¦ ni1 3) výbČrová smČrodatná odchylka 4) výbČrový koeficient korelace S2 , S R 1 n ¦ X i X Yi Y ni1 S X S Y pro náhodný výbČr z náhodného vektoru (X, Y), kde S(X) a S(Y) jsou výbČrové smČrodatné odchylky náhodných veliþin X a Y . Základní vlastnosti výbČrového prĤmČru X a výbČrového rozptylu S 2 jsou: a) Jestliže pozorovaná náhodná veliþina X má stĜední hodnotu E X , pak EX EX . b) Jestliže pozorovaná náhodná veliþina X má rozptyl D X , pak DX DX ,V X n V X n , E S2 n 1 DX . n Hodnoty výbČrových charakteristik jsou empirické charakteristiky, které získáme po zpracování statistického souboru. NapĜ. aritmetický prĤmČr x je pozorovaná hodnota -6- výbČrového prĤmČru X apod. Tyto hodnoty jsou však náhodné, jinak Ĝeþeno, empirické charakteristiky se pĜi opakovaných realizacích náhodného výbČru náhodnČ mČní. Avšak z pĜedcházejícího plyne, že napĜ. pro n o f rozptyl výbČrového prĤmČru D X o 0 , takže pro dostateþnČ velké n je takĜka jistČ aritmetický prĤmČr x blízký neznámé stĜední hodnotČ E X . PĜitom ale V X o 0 pouze s rychlostí n1/ 2 , což znamená, že napĜ. pro dosažení dvojnásobné pĜesnosti aproximace neznámé stĜední hodnoty E X aritmetickým prĤmČrem x musíme zvýšit rozsah náhodného výbČru þtyĜikrát atd. Ve statistické literatuĜe se hovoĜí o tzv. statistické kletbČ. Protože n 1 1 , je E S 2 D X , takže empirické hodnoty s2 se vzhledem ke n skuteþnému (a obvykle neznámému) rozptylu D X þastČji vychylují doleva (do menších hodnot) od D X . Proto se mnohdy definuje výbČrový rozptyl Ŝ 2 ve tvaru Sˆ 2 2 1 n Xi X ¦ n 1 i 1 n S2 n 1 a pro tento výbČrový rozptyl je E Sˆ 2 D X . Odpovídající rozptyl statistického souboru pak je sˆ2 n 2 s n 1 1 n 2 xi x . ¦ n 1 i 1 Statistika Ŝ 2 má však vČtší rozptyl než statistika S 2 , ale pro velká n (ĜádovČ 100 a více) je rozdíl mezi tČmito statistikami zanedbatelný. Analogicky definujeme výbČrovou smČrodatnou odchylku Ŝ a smČrodatnou odchylku statistického souboru ŝ . RĤzné definice uvedených charakteristik je nutno respektovat pĜi zpracování statistického souboru na PC pomocí statistických programĤ a také ve vzorcích jak pro odhady parametrĤ, tak i pro testování statistických hypotéz. NejþastČji Ĝešené úlohy pĜi aplikacích metod matematické statistiky se týkají pozorovaných náhodných veliþin s normálním rozdČlením pravdČpodobnosti. Jestliže pozorovaná náhodná veliþina X má normální rozdČlení N(P; V 2), pak statistika: a) X má normální rozdČlení N( P ; b) X P V V2 n ), n má normální rozdČlení N(0;1) , -7- c) X P n 1 má tzv. Studentovo rozdČlení S S(n 1) s n 1 stupni volnosti, nazývané též t-rozdČlení, d) nS 2 V 2 má tzv. Pearsonovo rozdČlení F 2 n 1 s n 1 stupni volnosti, nazývané též chí-kvadrát rozdČlení. Jestliže pozorovaná náhodná veliþina X má normální rozdČlení N P ( X ); V 2 ( X ) a pozorovaná náhodná veliþina Y má normální rozdČlení N P (Y ); V 2 (Y ) , X a Y jsou nezávislé a také náhodné výbČry X 1 ,...,X n1 , Y1 ,...,Yn2 jsou nezávislé, pak statistika: a) X Y P ( X ) P (Y ) V 2(X ) n1 b) V 2 (Y ) má normální rozdČlení N(0;1) , n2 X Y P ( X ) P (Y ) n1n2 n1 n2 2 má pro stejné rozptyly V 2 ( X ) 2 2 n1 n2 n1 S ( X ) n2 S (Y ) V 2 (Y ) Studentovo rozdČlení S n1 n2 2 , c) n1 S 2 ( X ) n1 1 n2 S 2 (Y ) n2 1 má pro stejné rozptyly V 2 ( X ) V 2 (Y ) tzv. Fisherovo-Snedecorovo rozdČlení F(n1 1, n2 1) s n1 1 a n2 1 stupni volnosti. Jestliže X 1 , X 2 ,... je posloupnost nezávislých náhodných veliþin s libovolným stejným rozdČlením pravdČpodobnosti (napĜ. i asymetrickým nebo diskrétním), které má stĜední hodnotu P0 a smČrodatnou odchylku V 0 , pak posloupnost náhodných veliþin 1 n ¦ X i P0 ni1 V0 n konverguje (v distribuci) k náhodné veliþinČ U s normovaným normálním rozdČlením N(0;1) . Odtud plyne, že pĜi dostateþnČ velkém rozsahu náhodného výbČru n mĤžeme rozdČlení pravdČpodobnosti výbČrového aritmetického prĤmČru X pro libovolnou pozorovanou náhodnou veliþinu X se stĜední hodnotou P0 a rozptylem V 02 aproximovat -8- normálním rozdČlením N( P0 ; V 02 n ) . To také znamená, že pĜi dostateþnČ velkém rozsahu n mĤžeme stanovit intervalový odhad napĜ. stĜední hodnoty P0 pozorované náhodné veliþiny X s jiným než normálním (dokonce i neznámým) rozdČlením pravdČpodobnosti. Tento interval zkonstruujeme ze získaného statistického souboru a jeho spolehlivost (tj. pravdČpodobnost zachycení P0 ) pak vyjádĜíme pomocí normálního rozdČlení pravdČpodobnosti. Výše uvedená tzv. statistická rozdČlení pravdČpodobnosti jsou tabelována (viz Statistické tabulky na konci tohoto uþebního textu) a je také možno urþit jejich hodnoty pomocí Excelu, profesionálních statistických softwarĤ a statistických apletĤ na Internetu. Detailní informace o výše uvedených a dalších používaných statistikách, jejich rozdČleních pravdČpodobnosti a asymptotických vlastnostech lze nalézt napĜ. v [2], [3], [8], [15], [17], [30]. Kontrolní otázky 1. Jaké dvČ základní úlohy se Ĝeší v matematické statistice? Uvećte konkrétní pĜíklady. 2. Definujte náhodný výbČr a jeho realizaci. 3. Definujte výbČrovou charakteristiku a empirickou charakteristiku. 4. Popište princip statistické indukce. 5. Popište základní vlastnosti výbČrového prĤmČru a výbČrového rozptylu. 6. Jaká základní tzv. statistická rozdČlení pravdČpodobnosti používáme? 7. Jaké rozdČlení pravdČpodobnosti má výbČrový prĤmČr, jestliže pozorovaná náhodná veliþina má normální rozdČlení? 8. Jakým rozdČlením pravdČpodobnosti mĤžeme pro dostateþnČ velký rozsah náhodného výbČru aproximovat rozdČlení výbČrového prĤmČru? -9- 2 ODHADY PARAMETRģ Bodové a intervalové odhady PĜedpokládáme, že pozorovaná náhodná veliþina X (pĜípadnČ náhodný vektor) má distribuþní funkci F(x,-) známého tvaru, kde - je parametr (reálné þíslo nebo reálný vektor) rozdČlení pravdČpodobnosti X. Skuteþnou hodnotu parametru - obvykle neznáme a odhadujeme ji pomocí získaného statistického souboru. Parametrem - mĤže také být þíselná charakteristika náhodné veliþiny (náhodného vektoru), napĜ. stĜední hodnota E(X), rozptyl D(X), koeficient korelace U(X,Y) apod., pĜípadnČ tzv. parametrická funkce, tj. funkce parametrĤ rozdČlení. Množina všech uvažovaných hodnot parametru - se nazývá parametrický prostor. Podle zpĤsobu provedení rozdČlujeme odhady na odhady bodové a intervalové. Odhadem T parametru - je statistika T(X1,..., Xn), která na celém parametrickém prostoru nabývá hodnot blízkých parametru -. Používáme zejména tyto odhady: 1. Odhad T parametru - je nestranný (nevychýlený), jestliže jeho stĜední hodnota E(T) = -. Pokud je E(T) z -, jde o stranný (vychýlený) odhad. 2. Je-li rozptyl nestranného odhadu T nejmenší z rozptylĤ všech nestranných odhadĤ téhož parametru -, je T nejlepší nestranný odhad. 3. Odhad T je konzistentní, jestliže lim P T - ¢ H 1 pro libovolné reálné þíslo H ² 0 . n of Platí: a) X je nestranný konzistentní odhad stĜední hodnoty E(X), b) n S 2 je nestranný konzistentní odhad rozptylu D(X), n 1 c) odhady a) a b) jsou pro normální rozdČlení X také nejlepší. Další typy odhadĤ (napĜ. maximálnČ vČrohodné odhady) jsou popsány v [2], [3], [8], [15], [17], [30]. Bodový odhad parametru - je pozorovaná hodnota t T x1 ,..., xn odhadu T na statistickém souboru x1 ,..., xn . Bodové odhady základních þíselných charakteristik jsou EX x, D X n 2 s ,V X n 1 n s, U X , Y n 1 r, kde x , s 2 , s, r jsou empirické charakteristiky získané ze statistického souboru resp. x1 ,..., xn , x , y ,! , x , y , a znaménko = vyjadĜuje pouze odhad a nikoli rovnost hodnot. 1 1 n n - 10 - Interval spolehlivosti (konfidenþní interval) pro parametr - se spolehlivostí 1 D , kde D 0;1 , je dvojice takových statistik T1 ; T2 , že P T1 d - d T2 1 D pro každou hodnotu parametru -. Intervalový odhad parametru - se spolehlivostí 1 D je interval t1 ; t2 a píšeme - t1 ; t2 , kde t1 , t2 jsou hodnoty statistik T1 , T2 na daném statistickém souboru x1 ,..., xn , resp. x , y ,! , x , y . 1 1 n n Spolehlivost 1 D volíme blízkou jedné, podle konvence obvykle 0,95 nebo 0,99, a uvádíme ji také v %. Spolehlivost 1 D znamená, že pĜi mnoha opakovaných výbČrech s konstantním rozsahem n z daného základního souboru zhruba (1 D)100 % všech intervalových odhadĤ obsahuje skuteþnou hodnotu parametru - a naopak D100 % jich tuto hodnotu neobsahuje. Situaci ilustruje poþítaþovČ simulovaný pĜíklad na obr. 2.1, kde - = 0 a tuþnČ jsou vyznaþeny pĜípady odpovídající riziku chybného odhadu D, tj. intervalové odhady, které nezachytily hodnotu parametru -. 4 intervalové odhady z 50 provedených intervalových odhadĤ se spolehlivostí 0,95 neobsahují odhadovanou hodnotu 0, tj. pozorovaná spolehlivost odhadĤ je 0,92 Obr. 2.1 Snížení rizika D, tedy zvýšení spolehlivosti 1 D, vede pĜi zachování rozsahu výbČru n ke zvČtšení velikosti intervalového odhadu. Pro D = 0, tedy pro 100 % spolehlivost, je intervalovým odhadem celý parametrický prostor a to nemá v aplikacích rozumný význam. Zmenšit velikost intervalového odhadu je možno: a) snížením spolehlivosti, což není vhodné, protože se tím vlastnČ nepĜesnost odhadu zvČtší, b) zvýšením rozsahu výbČru n, ovšem s ohledem na "kletbu statistiky", neboĢ velikost intervalového odhadu se zmenší víceménČ úmČrnČ n1/2, c) volbou jiného a souþasnČ "užšího" intervalu spolehlivosti pro daný parametr, pokud takovou statistiku T známe. Na druhé stranČ je zĜejmé, že bodový odhad má spolehlivost nulovou anebo blízkou nule (pro - 11 - diskrétní rozdČlení pravdČpodobnosti pozorované náhodné veliþiny X). Intervalové odhady proto poskytují významnČ dokonalejší pohled na vlastnosti pozorované náhodné veliþiny než odhady bodové a navíc bodový odhad obsahují. Intervalové odhady dČlíme na dvoustranné (oboustranné) a jednostranné podle toho, zda je ohraniþujeme oboustrannČ anebo jednostrannČ. ýasto volíme statistiky T1 , T2 ve tvaru T1 T G1 a T2 T G 2 , kde G1 t 0 a G 2 t 0 jsou vhodná reálná þísla (závisející na spolehlivosti 1 D a rozsahu náhodného výbČru n) a T je nČjaký odhad parametru - . Poznamenejme, že z pĜedem dané délky ' dvoustranného odhadu intervalového odhadu a spolehlivosti 1 D je možno urþit potĜebný rozsah výbČru. Odhady parametrĤ normálního rozdČlení PĜedpokládáme, že pozorovaná náhodná veliþina X, resp. náhodný vektor X ,Y , má normální rozdČlení pravdČpodobnosti s parametry P, V 2 , resp. U. Bodové odhady jsou P x, V 2 n 2 s , V n 1 n s, U n 1 r . Intervalový odhad stĜední hodnoty P pĜi neznámém rozptylu V 2 je x t1D 2 s ; x t1D 2 n 1 s , n 1 § D· kde t1D 2 je ¨ 1 ¸ - kvantil Studentova rozdČlení S(k) s k = n – 1 stupni volnosti. Kvantily 2¹ © tohoto rozdČlení jsou uvedeny v tabulce T2. Intervalový odhad rozptylu V 2 je ns 2 ; ns 2 F12D 2 FD2 2 , kde F P2 je P - kvantil Pearsonova rozdČlení Ȥ 2 ( k ) s k = n – 1 stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T3. Z uvedeného intervalového odhadu získáme po odmocnČní jeho mezí intervalový odhad smČrodatné odchylky V . PĜíklad 2.1 MČĜením délky 10 váleþkĤ byl získán statistický soubor s empirickými charakteristikami x 5, 37 mm, s2 = 0,0019 mm2 a s = 0,044 mm (viz pĜíklad 2.1 z uþebního textu MME 2). Urþete bodové odhady stĜední hodnoty, rozptylu a smČrodatné odchylky. Za pĜedpokladu, že - 12 - namČĜená délka X má normální rozdČlení pravdČpodobnosti, urþete intervalové odhady tČchto þíselných charakteristik se spolehlivostí 0,95. ě e š e n í: Bodové odhady jsou: stĜední délka váleþku P = 5,37 mm, rozptyl délky váleþku V 2 = 2 10 0,0019 = 0,00211 mm , 9 smČrodatná odchylka délky váleþku V = 0, 00211 | 0,046 mm. Intervalový odhad stĜední délky váleþku P se spolehlivostí 0,95 je, neboĢ t0,975 = 2,262 pro 9 stupĖĤ volnosti z tabulky T2, P <5,37 2,262 0, 0019 0, 0019 ; 5,37 + 2,262 > | <5,337; 5,403> mm. 10 1 10 1 2 = 2,700 a Intervalový odhad rozptylu délky váleþku V2 se spolehlivostí 0,95 je, neboĢ F 0,025 2 = 19,023 pro 9 stupĖĤ volnosti z tabulky T3, F 0,975 V 2 < 10.0, 0019 10.0, 0019 ; > | <0,00100; 0,00704> mm2, 19, 023 2, 700 takže intervalový odhad smČrodatné odchylky délky váleþku V je V < 0, 00100 ; 0, 00704 > | <0,0316; 0,0839> mm. Intervalový odhad koeficientu korelace U pro n t 10 a r z r1 je tgh z1 ; tgh z2 , kde z1 w u1D 2 n3 , z2 w u1D 2 n3 , w 1 § 1 r r · ¨ ln ¸ , tgh z 2 © 1 r n 1¹ e z e z e z e z e2 z 1 , e2 z 1 § D· a u1D 2 je ¨ 1 ¸ - kvantil normovaného normálního rozdČlení N(0;1), jehož hodnoty lze 2¹ © získat z tabulky T1 s hodnotami distribuþní funkce )(u). Pro 1 D = 0,95 je u0,975 pro 1 D = 0,99 je u0,995 1, 960 a 2, 576 . Uvedený odhad je pouze pĜibližný, avšak jeho pĜesnost je v praktických úlohách zcela postaþující (pĜesný odhad není znám). PĜíklad 2.2 Sledováním nákladĤ X a ceny stejného výrobku Y u 10 výrobcĤ byl získán dvourozmČrný statistický soubor s koeficientem korelace r = 0,82482 (viz pĜíklad 2.3 z uþebního textu - 13 - MME 2). Urþete bodový odhad a intervalový odhad se spolehlivosti 0,99 koeficientu korelace U základního souboru. ě e š e n í: Bodový odhad koeficientu korelace nákladĤ a ceny je U w 0,82482. Po dosazení je 1 § 1 0,82482 0,82482 · | 1, 21753 . ln 2 ¨© 1 0,82482 10 1 ¸¹ Z tabulky T1 je u0,995 = 2,576, takže z1 1, 21753 2, 576 | 0, 24397 , z2 10 3 1, 21753 2, 576 | 2,19110 10 3 a intervalový odhad koeficientu korelace nákladĤ a ceny U se spolehlivostí 0,99 je U tgh 0, 24397; tgh 2,19110 | 0, 239242; 0, 975313 . Odhady parametru binomického rozdČlení PĜedpokládáme, že pozorovaná náhodná veliþina X má alternativní rozdČlení pravdČpodobnosti s parametrem p, tedy binomické rozdČlení Bi(1; p). PĜi odhadu parametru p jde vlastnČ o odhad velikosti podílu prvkĤ základního souboru majících sledovanou vlastnost. PĜitom Xi nabývá hodnotu xi = 1, resp. 0, jestliže i-tý náhodnČ vybraný prvek má, resp. nemá, sledovanou vlastnost, i = 1,…, n. NechĢ x je poþet prvkĤ se sledovanou vlastností n z n náhodnČ vybraných prvkĤ, tedy x ¦x i . i 1 Bodový odhad je p x . n Intervalový odhad p je pro n > 30 x u1D / 2 n x§ x· x§ x· ¨1 ¸ x ¨1 ¸ n© n¹ n© n¹ ; u1D / 2 n n n , § D· kde u1D 2 je ¨ 1 ¸ - kvantil normovaného normálního rozdČlení, jehož hodnoty lze získat 2¹ © z tabulky T1. Uvedený odhad je pouze pĜibližný, avšak jeho pĜesnost je pro velká n v praktických úlohách obvykle postaþující. PĜíklad 2.3 PĜi prĤzkumu zájmu o nový výrobek odpovČdČlo ze 400 dotázaných zákazníkĤ supermarketu - 14 - STAMET kladnČ na otázku, zda si nový výrobek koupí, 80 zákazníkĤ. Urþete bodový a intervalový odhad podílu zákazníkĤ p ze základního souboru všech zákazníkĤ supermarketu STAMET. ě e š e n í: Protože x = 80 a n = 400, je bodový odhad p 80 400 0, 2 , tedy 20 % všech zákazníkĤ supermarketu STAMET si chce koupit nový výrobek. Z tabulky T1 pro spolehlivost 0,95 je u0,975 = 1,960, takže intervalový odhad podílu zákazníkĤ p se spolehlivostí 0,95 je p 80 § 80 · 80 § 80 · 1 1 ¨ ¸ ¨ ¸ 80 400 © 400 ¹ 80 400 © 400 ¹ ; 1, 960 1, 960 400 400 400 400 … 0,1608; 0,2392 !. Pro spolehlivost 0,99 obdržíme analogickým zpĤsobem intervalový odhad p 0,1485; 0,2515 !. Se spolehlivostí 0,95, resp. 0,99, si nový výrobek koupí pĜibližnČ 16 až 24 %, resp. 15 až 25 %, všech zákazníkĤ supermarketu STAMET. Pokud má STAMET celkem 10 000 zákazníkĤ, lze víceménČ oþekávat, že prodá cca 2 000 nových výrobkĤ. Z intervalového odhadu mĤžeme pak se spolehlivostí 0,95 usuzovat, že STAMET prodá pĜibližnČ 10 0000,16 = 1 600 až 10 0000,24 = 2 400 nových výrobkĤ. PĜíklady k procviþení PĜíklad 2.4 Urþete bodový a intervalový odhad se spolehlivostí 0,99 parametrĤ P a V2 normálního rozdČlení, jestliže realizací náhodného výbČru byl získán statistický soubor o rozsahu n = 18 s aritmetickým prĤmČrem x = 50,1 a s rozptylem s2 = 17,64. V ý s l e d e k: P = 50,1; V2 = 18,678; P <47,09; 53,10>; V2 <8,894; 55,705> PĜíklad 2.5 Statistický soubor o rozsahu n = 12 má aritmetický prĤmČr x = 77,55 a rozptyl s2 = 1045,65. Urþete bodový a intervalový odhad P a V základního souboru se spolehlivostí 0,99. V ý s l e d e k: P = 77,55; V = 33,78; P <47,267; 107,833>; V <21,638; 69,47> - 15 - PĜíklad 2.6 U sta náhodnČ vybraných pracovníkĤ stejné kategorie byla zjištČna hodinová tarifní mzda (Kþ) a vypoþteny empirické charakteristiky x = 98,64 Kþ a s2 = 1,1979 Kþ. Urþete bodové a intervalové odhady stĜední hodinové tarifní mzdy P a smČrodatné odchylky V se spolehlivostí 99% za pĜedpokladu, že základní soubor má normální rozdČlení. V ý s l e d e k: P = 98,64 Kþ; V = 1,10 Kþ; P <98,35; 98,93> Kþ; V <0,93; 1,34> Kþ PĜíklad 2.7 Z patnácti nezávislých pozorování byl vypoþten bodový odhad stĜední hodnoty 424,7 ms-1 a smČrodatné odchylky 8,7 ms-1 maximální rychlosti letadla. Urþete intervalový odhad stĜední hodnoty a smČrodatné odchylky maximální rychlosti se spolehlivostí 95% za pĜedpokladu normálního rozdČlení maximální rychlosti. V ý s l e d e k: P <419,88; 429,52> ms-1 ; V <6,37; 13,72> ms-1 PĜíklad 2.8 Bylo provedeno 5 nezávislých a stejnČ pĜesných mČĜení ke stanovení objemu nádoby: 4,781; 4,792; 4,795; 4,779; 4,769 (v litrech). Stanovte intervalový odhad stĜední hodnoty objemu nádoby se spolehlivostí 0,99 za pĜedpokladu normálního rozdČlení. V ý s l e d e k: <4,761; 4,805> l PĜíklad 2.9 PĜi kontrole záruþních listĤ urþitého druhu masové konzervy ve skladu hypermarketu bylo náhodnČ vybráno 320 konzerv a zjištČno, že 59 jich má prošlou záruþní lhĤtu. Stanovte bodový a intervalový odhad se spolehlivostí 95% procenta konzerv s prošlou záruþní lhĤtou ve skladech hypermarketu firmy. Totéž urþete pro roþní sklad hypermarketu s poþtem 20 000 konzerv. V ý s l e d e k: p = 0,184 = 18,4 %; p <0,142; 0,226> = <14,2; 22,6> %; N = 3680; N <2840; 4520> PĜíklad 2.10 PĜi náhodném výbČru pneumatik vyrábČných velkou evropskou nadnárodní spoleþností 10% pneumatik nevyhovČlo nové normČ. Pro rozsah výbČru (a) n = 100, (b) n = 400, (c) n = 1600 urþete 95%-ní interval spolehlivosti pro podíl p pneumatik vyrábČných touto spoleþností, které nevyhovují nové normČ. V ý s l e d e k: (a) <0,041; 0,159>; (b) <0,071; 0,129>; (c) <0,085; 0,115> - 16 - Kontrolní otázky 1. Definujte pojem odhadu parametru a jeho druhy. 2. Definujte bodový odhad a uvećte bodové odhady základních þíselných charakteristik. 3. Popište interval spolehlivosti a intervalový odhad parametrĤ. 4. Jaký význam má spolehlivost intervalového odhadu? 5. Jaké druhy intervalových odhadĤ používáme? 6. Jaký vliv má zmČna spolehlivosti na velikost intervalového odhadu pĜi zachování rozsahu náhodného výbČru? 7. Jaký obecný vliv má zmČna rozsahu náhodného výbČru na velikost intervalového odhadu pĜi zachování jeho spolehlivosti? 8. Jakou spolehlivost má bodový odhad? - 17 - 3 TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ Statistická hypotéza a její test PĜi sledování náhodných veliþin a náhodných vektorĤ jsme þasto nuceni ovČĜit urþité pĜedpoklady þi domnČnky o jejich vlastnostech pomocí jejich pozorovaných hodnot. Jedná se napĜ. o rozhodnutí, zda nová technologie, seĜízení stroje, reklama, zmČna financování, Ĝízení firmy apod. vedly ke zmČnČ ve sledovaných parametrech výrobku, obratu, zisku apod., anebo zda jakost dodávky výrobkĤ þi surovin má dohodnutou úroveĖ. Statistická hypotéza H je tvrzení o vlastnostech rozdČlení pravdČpodobnosti pozorované náhodné veliþiny X s distribuþní funkcí F x, - nebo náhodného vektoru (X, Y) se simultánní distribuþní funkcí F(x,y,-) apod. Postup, jímž ovČĜujeme danou hypotézu, se nazývá test statistické hypotézy. Proti testované hypotéze H, nazývané také nulová hypotéza, stavíme tzv. alternativní hypotézu H , kterou volíme dle požadavkĤ úlohy. Jestliže H je hypotéza, že parametr - má hodnotu -0 , píšeme H : dvoustranná alternativní hypotéza a H : - ! -0 , resp. -0 . PĜípad H : - z -0 je H : - -0 , je jednostranná alternativní hypotéza. Hypotéza mĤže být jednoduchá, jestliže uvažujeme jedinou hypotetickou hodnotu - -0 anebo naopak složená, napĜ. - z -0 . Dále rozdČlujeme hypotézy na parametrické, kdy jde tvrzení o parametrech pozorované náhodné veliþiny X, a na neparametrické, kdy jde o tvrzení o kvalitativních vlastnostech této náhodné veliþiny. Testovaná hypotéza H se nČkdy v literatuĜe, resp. aplikacích na PC, oznaþuje symbolem H0, resp. H0, a alternativní hypotéza H symbolem H1, HA, resp. HA. Pro testování hypotézy H : - -0 proti nČjaké zvolené alternativní hypotéze H se konstruuje vhodná statistika T X 1 ,..., X n , tzv. testové kritérium. Obor hodnot testového kritéria T X 1 ,..., X n se za pĜedpokladu, že platí hypotéza H : - -0 , rozdČlí na dvČ disjunktní podmnožiny: kritický obor WD a jeho doplnČk W D (viz obr. 8.2). Kritický obor WD se vzhledem k alternativní hypotéze H stanoví tak, aby pravdČpodobnost toho, že testové kritérium T X 1 ,..., X n nabude hodnotu z kritického oboru WD , byla D (pĜesnČji pro diskrétní náhodnou veliþinu T nejvýše D). ýíslo D 0;1 je hladina významnosti testu a volíme ji blízkou nule, obvykle 0,05 anebo 0,01. Hladina významnosti se nČkdy uvádí také v % (napĜ. v nČkterých softwarových aplikacích pro PC), tedy obvykle 5 % anebo 1 %. - 18 - Rozhodnutí o hypotéze H pomocí pozorovaných hodnot náhodné veliþiny X je pak založeno na následující konvenci. Jestliže tzv. pozorovaná hodnota testového kritéria t T x1 ,..., xn na získaném statistickém souboru x1 ,..., xn padne do kritického oboru, tedy t WD , zamítáme hypotézu H a souþasnČ nezamítáme hypotézu H na hladinČ významnosti D . Jestliže naopak nepadne t do kritického oboru, tedy t W D , nezamítáme hypotézu H a souþasnČ zamítáme hypotézu H na hladinČ významnosti D . Nezamítnutí hypotézy H, resp. H , neznamená ještČ prokázání její platnosti, neboĢ jsme na základČ realizace náhodného výbČru získali pouze informace, které nestaþí na její zamítnutí. Je-li to možné, je vhodné pĜed pĜijetím dané hypotézy zvČtšit rozsah statistického souboru a znovu hypotézu H testovat. PĜi testování hypotézy H mohou nastat þtyĜi možnosti znázornČné na obr. 3.1. Jestliže zamítáme neplatnou hypotézu anebo nezamítáme platnou hypotézu, je vše v poĜádku, avšak pĜi rozhodnutí o hypotéze H na základČ testu se mĤžeme dopustit jedné ze dvou chyb: 1. Chyba prvního druhu nastane, jestliže hypotéza H platí, avšak t WD , takže hypotézu H zamítáme. PravdČpodobnost této chyby je hladina významnosti D P T WD H . 2. Chyba druhého druhu nastane, jestliže hypotéza H neplatí, avšak t WD (tj. t W D ), takže hypotézu H nezamítáme. PravdČpodobnost této chyby je E pravdČpodobnost 1 E P T WD H a P T WD H je tzv. síla testu. H PLATÍ NEPLATÍ ZAMÍTÁME CHYBA 1. DRUHU ------- NEZAMÍTÁME ------- CHYBA 2. DRUHU Obr. 3.1 Hladina významnosti, tj. pravdČpodobnost chyby prvního druhu D má ten praktický význam, že pĜi mnoha opakovaných realizacích náhodného výbČru (napĜ. ĜádovČ v tisících) a souþasné platnosti testované hypotézy H se v pĜibližnČ 100D % testech této hypotézy zmýlíme, tedy zamítneme platnou hypotézu. PodobnČ když hypotéza H neplatí, tak se v pĜibližnČ 100E % testech zmýlíme a nezamítneme ji. Avšak snížením hladiny významnosti D se pĜi nezmČnČném rozsahu statistického souboru n zvýší E a naopak, takže pro zvolenou hladinu významnosti D zajišĢujeme snížení E zvýšením rozsahu n. Riziko chyb prvního i druhého druhu nelze v reálných úlohách eliminovat, pouze je mĤžeme snížit. Vztah mezi D a - 19 - E je ilustrován na obr. 3.2, kde pro jednoduchost je i alternativní hypotéza H jednoduchá. Na tomto obrázku kĜivky vlevo odpovídají hustotČ (pravdČpodobnostní funkci) testového kritéria T pĜi platnosti hypotézy H a kĜivky vpravo odpovídají hustotČ (pravdČpodobnostní funkci) testového kritéria T pĜi platnosti hypotézy H . E D WD WD E D WD WD Obr. 3.2 Vzhledem k tomu, že testové kritérium T je náhodná veliþina, bývá obor W D ve tvaru intervalu, napĜ. t1 ; t2 , kde t1 , t2 jsou kvantily statistiky T stejnČ jako u intervalových odhadĤ. PĜi testování statistických hypotéz se jim také Ĝíká kritické hodnoty. Poznamenejme, že intervalové odhady lze pĜímo použít k testování statistických hypotéz. NapĜ. pĜi testu hypotézy H : - -0 proti alternativČ H : - z -0 na hladinČ spolehlivosti D, mĤžeme místo testového kritéria vzít oboustranný intervalový odhad parametru - se spolehlivostí 1 D.. Jestliže tento intervalový odhad obsahuje hodnotu -0 , hypotézu H nezamítáme na hladinČ významnosti D a naopak. Více o statistických hypotézách a jejich testech lze nalézt napĜ. v [2], [3], [8], [15], [17], [30]. PĜi testování statistických hypotéz na PC pomocí statistického software se místo kritického oboru W D obvykle používá následující tzv. P-hodnota. Jestliže napĜ. testujeme hypotézu H :P P0 proti dvoustranné alternativní hypotéze H : P z P0 , pak pro pozorovanou hodnotu t testového kritéria T je P-hodnotou je þíslo 1 P t d T d t . Výše - 20 - uvedené konvenci rozhodnutí o daných hypotézách pomocí kritického oboru, resp. oboru nezamítnutí, odpovídá následující adekvátní postup. Jestliže P D , pak zamítáme hypotézu H a souþasnČ nezamítáme hypotézu H na hladinČ významnosti D . Jestliže naopak P t D , pak nezamítáme hypotézu H a souþasnČ zamítáme hypotézu H na hladinČ významnosti D . Testy hypotéz o parametrech normálního rozdČlení PĜedpokládáme, že náhodné veliþiny X a Y , resp. náhodný vektor (X, Y), mají normální rozdČlení pravdČpodobnosti. PĜedpoklad o normálním rozdČlení pravdČpodobnosti lze testovat pomocí testĤ popsaných v dalším odstavci této kapitoly. Dále uvádíme pouze testová kritéria pro dvoustranné alternativní hypotézy, napĜ. H : P z P0 apod. Testy hypotéz H pro jednostranné alternativní hypotézy H : P ! P0 a H : P P0 se provádČjí pomocí stejných testových kritérií a odlišují se pouze jednostrannými kritickými obory, resp. obory nezamítnutí, a odpovídajícími kritickými hodnotami - viz napĜ. [2], [3], [8], [15], [17], [30]. Test hypotézy H : P P0 pĜi neznámém rozptylu V 2 . Pozorovaná hodnota testového kritéria je t a WD x P0 s n 1 § D· t1D 2 ; t1D 2 , kde t1D 2 je ¨ 1 ¸ -kvantil Studentova rozdČlení S(k) s k = n – 1 2¹ © stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T2. Jedná se o tzv. t - test nebo StudentĤv test pro jeden výbČr. PĜíklad 3.1 MČĜením délky 10 váleþkĤ byly získány empirické charakteristiky x = 5,37 mm a s2 = 0,0019 mm2 (viz pĜíklad 2.1). Na hladinČ významnosti 0,05 testujeme hypotézu, že stĜední namČĜená délka váleþku je 5,40 mm, tedy H : P = 5,40. ě e š e n í: Pozorovaná hodnota testového kritéria je t 5, 37 5, 40 10 1 = 2,0647. 0, 0019 Pro 10 1 = 9 stupĖĤ volnosti je t0,975 = 2,262 z tabulky T2, takže W0,05 = <2,262; 2,262>. Protože t W0,05 , hypotézu nezamítáme. Pro testování této hypotézy bylo možno použít také intervalový odhad se spolehlivostí 0,95 z pĜíkladu 2.1. Protože tento odhad obsahuje - 21 - hypotetickou hodnotu 5,40, nezamítáme danou hypotézu na hladinČ významnosti 1 0,95 = = 0,05. Test hypotézy H : V 2 V 02 . Pozorovaná hodnota testového kritéria je t a WD ns 2 V 02 FD2 2 ; F12D 2 , kde F P2 je P-kvantil Pearsonova rozdČlení F 2 ( k ) s k = n – 1 stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T3. Jedná se o tzv. PearsonĤv test. PĜíklad 3.2 Na hladinČ významnosti 0,05 testujte hypotézu, že rozptyl namČĜené délky váleþku z pĜíkladu 2.1 je 0,0025 mm2, tedy H : V 2 = 0,0025. ě e š e n í: Pozorovaná hodnota testového kritéria je t 10 0, 0019 = 7,6. 0, 0025 2 2 Pro 10 1 = 9 stupĖĤ volnosti je F 0,025 = 2,700 a F 0,975 = 19,023 z tabulky T3, takže W0,05 = <2,700; 19,023>. Protože t W0,05 , hypotézu nezamítáme. Test hypotézy H : U U0 . Pozorovaná hodnota testového kritéria pro n t 10, r z 1 a U 0 z 1 je t a WD u1D 2 ; u1D 2 § 1 r 1 U0 U · n3 ln 0 ¸ ¨ ln 1 U0 n 1 ¹ 2 © 1 r § D· , kde u1D 2 je ¨ 1 ¸ -kvantil normálního rozdČlení N(0; 1), jehož 2¹ © hodnoty lze získat z tabulky T1. PĜíklad 3.3 Sledováním nákladĤ X a ceny Y stejného výrobku u deseti výrobcĤ byl získán dvourozmČrný statistický soubor s koeficientem korelace r = 0,82482 (viz Ĝešený pĜíklad 2.2). Na hladinČ významnosti 0,01 testujte hypotézu, že veliþiny X a Y jsou nekorelované (tj. vzhledem k normálnímu rozdČlení nezávislé), tedy H : U = 0. ě e š e n í: Pozorovaná hodnota testového kritéria je - 22 - t 1 0 0 · 10 3 § 1 0,82482 | 3,1001. ¨ ln 1 0,82482 ln 1 0 10 1 ¸ 2 © ¹ Pro danou hladinu významnosti je u0,995 = 2,576 z tabulky T1, takže W0,01 = <2,576; 2,576 >. Protože t W0,01 , hypotézu zamítáme a považujeme X, Y za závislé. Test hypotézy H : P X Y 0 pro dvojice X , Y za pĜedpokladu, rozdíl X Y má normální rozdČlení pravdČpodobnosti. Oznaþme pro pozorované dvojice i = 1,…, n, jejich rozdíly d i xi , yi , kde xi yi a odpovídající empirické charakteristiky d a s 2 d . Pozorovaná hodnota testového kritéria je t a WD d n 1 s d § D· t1D 2 ; t1D 2 , kde t1D 2 je ¨ 1 ¸ -kvantil Studentova rozdČlení S(k) s k = n – 1 2¹ © stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T2. Uvedený test se také nazývá t - test (StudentĤv test) pro párové hodnoty. PĜíklad 3.4 MČĜením teploty dvČma pĜístroji byly bČhem osmi dnĤ získány dvojice (xi, yi) = (51,8; 49,5), (54,9; 53,3), (52,2; 50,6), (53,3; 52,0), (51,6; 46,8), (54,1; 50,5), (54,2; 52,1), (53,3; 53,0) (oC). Na hladinČ významnosti 1% testujte hypotézu, že stĜední hodnota rozdílu pozorovaných dvojic teplot rozdíl stĜedních hodnot je nevýznamný, tedy H : P(X) = P(Y). ě e š e n í: o o Pro di = xi yi, i = 1,..., 8, dostaneme d = 2,2 C a s(d) = 1,3172 C. Pozorovaná hodnota testového kritéria je t 2, 2 8 1 | 4,4190. 1, 3172 Pro 8 1 = 7 stupĖĤ volnosti je t0,995 = 3,499 z tabulky T2, takže W0,01 = <3,499; 3,499>. Protože t W0,01 , hypotézu zamítáme na hladinČ významnosti 1 % a považujeme rozdíl namČĜených hodnot za statisticky významný. U dalších testĤ pĜedpokládáme, že pozorováním dvou nezávislých náhodných veliþin X a Y s normálními rozdČleními s parametry P X , V 2 X a P Y , V 2 Y byly získány realizace nezávislých náhodných výbČrĤ s rozsahy n1 a n2 . - 23 - Test hypotézy H : P X P Y P0 pĜi neznámých rozptylech V 2 X V 2 Y . Pozorovaná hodnota testového kritéria je t a WD x y P0 n1 s 2 x n2 s 2 y n1 n2 n1 n2 2 n1 n2 § D· t1D 2 ; t1D 2 , kde t1D 2 je ¨ 1 ¸ -kvantil Studentova rozdČlení S(k) s k = 2¹ © = n1 n2 2 stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T2. Jedná se o tzv. t - test nebo StudentĤv test pro dva výbČry pĜi stejných rozptylech. PĜíklad 3.5 Zkouškami pevnosti drátĤ vyrobených dvČma rĤznými technologiemi byly získány dva statistické soubory s charakteristikami n1 = 33, x = 5,4637 kN, s2(x) = 0,3302 kN2, n2 = 28, y = 6,1179 kN, s2(y) = 0,4522 kN2. Na hladinČ významnosti 0,05 testujte hypotézu, že rozdílné technologie nemají vliv na stĜední pevnost drátu (za pĜedpokladu stejných rozptylĤ V 2 ( X ) a V 2 (Y ) , tedy H : P(X) P(Y) = 0. ě e š e n í: Pozorovaná hodnota testového kritéria je t 5, 4637 6,1179 0 33 0, 3302 28 0, 4522 33 28 33 28 2 | 4,030. 33 28 Pro 33 + 28 2 = 59 stupĖĤ volnosti je t0,975 = 2,001 interpolací z tabulky T2, takže W0,05 = = <2,001; 2,001>. Protože t W0,05 , hypotézu zamítáme. Rozdílné technologie mají vliv na stĜední pevnost drátu. Test hypotézy H : P X P Y P0 pĜi neznámých rozptylech V 2 X z V 2 Y . Pozorovaná hodnota testového kritéria je t a WD x y P0 s x s2 y n1 1 n2 1 2 t1D 2 ; t1D 2 , kde t1D / 2 s2 ( x) s2 ( y) t( x) t( y) n1 1 n2 1 s2 ( x) s2 ( y ) n1 1 n2 1 - 24 - § D· a t(x), resp. t(y), je ¨ 1 ¸ -kvantil Studentova rozdČlení S(k) s k = n1 – 1, resp. n2 – 1, 2¹ © stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T2. Jedná se o tzv. t - test nebo StudentĤv test pro dva výbČry pĜi rĤzných rozptylech. PĜíklad 3.6 PĜi vyšetĜování životnosti výrobkĤ v rĤzných systémech extrémních provozních podmínek byly získány dva statistické soubory s charakteristikami n1 = 21, x = 3,581, s2(x) = 0,114, n2 = 23, y = 3,974, s2(y) = 0,041 (životnost výrobkĤ je v hodinách). Za pĜedpokladu rĤzných rozptylĤ V 2 ( X ) a V 2 (Y ) testujte na hladinČ významnosti 0,05, že druhý systém extrémních provozních podmínek zvyšuje oproti prvnímu systému extrémních provozních podmínek stĜední životnost výrobku o 0,5 hod., tedy hypotézu H : P(X) P(Y) = 0,5. ě e š e n í: Pozorovaná hodnota testového kritéria je t 3, 581 3, 974 ( 0, 5) |1,2303. 0,114 0, 041 21 1 23 1 Z tabulky T2 pro 1 D/2 = 0,975 je t(x) = 2,086 pro 21 1 = 20 stupĖĤ volnosti a t(y) = 2,074 pro 23 1 = 22 stupĖĤ volnosti, takže t0,975 0,114 0, 041 2, 086 2, 074 21 1 23 1 | 2,083. 0,114 0, 041 21 1 23 1 a W0,05 = <2,083; 2,083>. Protože t W0,05 , hypotézu o zvýšení stĜední životnosti o 0,5 hod. nezamítáme. Test hypotézy H : V 2 X V 2 Y . Pozorovaná hodnota testového kritéria je t kde klademe WD § n s 2 ( x ) n2 s 2 ( y ) · max ¨ 1 ; ¸ © n1 1 n2 1 ¹ , § n s 2 ( x ) n2 s 2 ( y ) · min ¨ 1 ; ¸ © n1 1 n2 1 ¹ § D· 1 ; F1D / 2 a F1D / 2 je ¨ 1 ¸ -kvantil Fisherova - Snedecorova rozdČlení 2¹ © F(k1, k2) se stupni volnosti k1 n1 1 a k2 n2 1 pro - 25 - n1 s 2 ( x ) n2 s 2 ( y ) anebo k1 t n1 1 n2 1 n2 1 a k2 n1 1 pro n1 s 2 ( x ) n2 s 2 ( y ) . Kvantily tohoto rozdČlení jsou uvedeny v tabulce T4. d n1 1 n2 1 Jedná se o tzv. F - test nebo FisherĤv test. Pomocí nČho lze testovat pĜedpoklady o rozptylech v obou pĜedcházejících testech. PĜíklad 3.7 Na hladinČ významnosti 0,05 ovČĜte pĜedpoklad o rĤzných rozptylech v Ĝešeném pĜíkladu 3.6, tedy že V 2 ( X ) z V 2 (Y ) , kde s2(x) = 0,114, n1 = 21, s2(y) = 0,041, n2 = 23. ě e š e n í: Testujeme naopak hypotézu H : V 2 ( X ) = V 2 (Y ) . Pozorovaná hodnota testového kritéria je t § 21.0,114 23.0, 041 · max ¨ ; ¸ 23 1 ¹ max 0,11970; 0, 04286 © 21 1 | § 21.0,114 23.0, 041 · min 0,11970; 0, 04286 min ¨ ; ¸ 23 1 ¹ © 21 1 0,11970 | 2,7928. 0, 04286 Z tabulky T4 je pro k1 = 21 – 1 = 20 a k2 = 23 – 1 = 22 stupĖĤ volnosti F0,975 = 2,389, takže W0,05 = <1; 2,389>. Protože t W0,05 , hypotézu zamítáme a pĜedpoklad o rĤzných rozptylech v pĜíkladu 3.6 považujeme za správný. Testy hypotéz o parametru binomického rozdČlení PĜedpokládáme, že pozorovaná náhodná veliþina X má alternativní rozdČlení pravdČpodobnosti s parametrem p, tedy binomické rozdČlení Bi(1; p). PĜi testování hypotézy H : p = p0 jde vlastnČ o test hypotézy, že podíl prvkĤ p0 základního souboru má sledovanou vlastnost na základČ zjištČní, že x prvkĤ z n náhodnČ vybraných prvkĤ ze základního souboru má sledovanou vlastnost. Dále uvádíme pouze testová kritéria pro dvoustranné alternativní hypotézy, neboĢ testy hypotéz pro jednostranné alternativní hypotézy se odlišují pouze tím, že mají jednostranné kritické obory a odpovídající kritické hodnoty. Testy o parametru binomického rozdČlení se používají þasto v jakosti (test podílu neshodných výrobkĤ nebo zmetkĤ v celkové produkci) a pĜi prĤzkumu zájmu o výrobek, služby apod. Test hypotézy H : p = p0 . Pozorovaná hodnota testového kritéria pro n ! 30 je t a WD x p0 n p0 (1 p0 ) n § D· u1D 2 ; u1D 2 , kde u1D 2 je ¨ 1 ¸ -kvantil normálního rozdČlení N(0; 1), jehož 2¹ © - 26 - hodnoty lze získat z tabulky T1. Uvedený test je pouze pĜibližný, avšak jeho pĜesnost je pro velká n v praktických úlohách obvykle postaþující. PĜíklad 3.8 Podle expertního pĜedpokladu bude mít zájem o nový výrobek 20 % zákazníkĤ. Ze 400 dotázaných zákazníkĤ projevilo zájem 62 zákazníkĤ. Na hladinČ významnosti 0,05 testujme hypotézu o reálnosti pĜedpokladu, tedy H : p = 0,2. ě e š e n í: Rozsah obou výbČru je dostateþnČ velký a pro x = 62 a n = 400 je pozorovaná hodnota testového kritéria t= 62 0, 2 400 0, 2(1 0, 2) 400 0, 045 0, 02 2, 25 . Z tabulky T1 je u0,975 = 1,960. Protože t = 2,25 W0,05 = <1,960; 1,960>, hypotézu o pĜedpokladu 20 % zájmu zamítáme na hladinČ významnosti 0,05. Skuteþný zájem bude pravdČpodobnČ menší. Na hladinČ významnosti 0,01 však hypotézu nezamítáme, neboĢ u0,995 = 2,576. U dalšího testu pĜedpokládáme, že pozorováním dvou nezávislých náhodných veliþin X, Y s alternativními rozdČleními s parametry p1, p2 byly získány realizace vzájemnČ nezávislých náhodných výbČrĤ s rozsahy n1 , n2 a poþty x, y prvkĤ se sledovanou vlastností. Test hypotézy H : p1 = p2 . Pozorovaná hodnota testového kritéria za pĜedpokladu n1 ! 50 a n2 ! 50 je t x y n1 n2 f (1 f ) pro f x y a WD n1 n2 n1n2 n1 n2 § D· u1D 2 ; u1D 2 , kde u1D 2 je ¨ 1 ¸ -kvantil normálního rozdČlení 2¹ © N(0; 1), jehož hodnoty lze získat z tabulky T1. Uvedený test je pouze pĜibližný, avšak jeho pĜesnost je pro velké rozsahy n1 a n2 v praktických úlohách obvykle postaþující. PĜíklad 3.9 Obchodní inspekce provedla 250 kontrolních nákupĤ potravináĜského zboží a 200 kontrolních nákupĤ prĤmyslového zboží. Zjistila pĜitom nedostatky u 108 nákupĤ potravináĜského zboží a u 73 nákupĤ prĤmyslového zboží. Na hladinČ významnosti 0,05 testujme, zda kvalita nákupĤ - 27 - je stejná u obou druhĤ zboží, tedy hypotézu H : p1 = p2, kde p1, p2 jsou teoretické podíly (pravdČpodobnosti) nákupĤ s nedostatky u daných druhĤ zboží. ě e š e n í: Rozsahy obou výbČrĤ jsou dostateþnČ velké a pro x = 108, n1 = 250, y = 73, n2 = 200 je f 108 73 = 0,40222, 250 200 takže pozorovaná hodnota testového kritéria je t 108 73 250 200 0, 40222(1 0, 40222) 250 200 0, 067 10, 5409 | | 1, 4403 . 250 200 0, 49035 Z tabulky T1 je u0,975 = 1,960. Protože t = 1,4403 W0,05 = <1,960;1,960>, hypotézu o rovnosti podílĤ nákupĤ s nedostatky nezamítáme na hladinČ významnosti 0,05 a považujeme prodej obou druhĤ zboží za stejnČ nekvalitní. Testy hypotéz o rozdČlení Vzhledem k tomu, že testy o parametrech rozdČlení (a také intervalové odhady parametrĤ) závisejí na tvaru pozorovaných rozdČlení, je zapotĜebí testovat, zda pozorovaná náhodná veliþina (náhodný vektor) má pĜedpokládané rozdČlení pravdČpodobnosti. NejþastČji se užívají následující testy hypotéz o rozdČlení (testy dobré shody). Grafická metoda je orientaþní test pomocí tzv. pravdČpodobnostního papíru, který obsahuje síĢ dvou navzájem kolmých soustav rovnobČžných pĜímek. MČĜítko ve svislém smČru (souĜadná osa y) je zvoleno vzhledem k mČĜítku ve vodorovném smČru (souĜadná osa x) tak, aby grafem uvažované distribuþní funkce F(x,-) byla pro libovolné (v našem pĜípadČ obvykle neznámé) hodnoty - pĜímka. Na osu y se vynáší hodnoty distribuþní funkce, nČkdy i v % a nČkdy jsou na této ose vyznaþeny také hodnoty odpovídající stĜední hodnotČ a celoþíselným násobkĤm smČrodatné odchylky základního souboru. Na pravdČpodobnostním papíru znázorĖujeme graf tzv. empirické distribuþní funkce statistického souboru ( x1 ,..., xn ) následujícím zpĤsobem. UspoĜádáme pĤvodní statistický soubor podle velikosti, takže získáme uspoĜádaný soubor ( x(1) ,..., x( n ) ) , kde x( i ) d x( i 1) pro i = 1,..., n . Do souĜadného systému pak vyneseme body ª¬ x( i ) ; (i 0, 5) / n º¼ , resp. ª¬ x( i ) ; i /( n 1) º¼ , pro i = 1,..., n . Je-li statistický soubor realizací náhodného výbČru ze základního souboru s rozdČlením pravdČpodobnosti pro daný pravdČpodobnostní papír, leží výše uvedené body pĜibližnČ na pĜímce a naopak. V souþasné dobČ se obvykle nepoužívá pravdČpodobnostní papír, ale - 28 - metoda se realizuje na PC. Na obr. 3.3 je ukázka grafického výstupu z PC pro normální rozdČlení pravdČpodobnosti. Z grafu usuzujeme, že pozorovaná náhodná veliþina má normální rozdČlení pravdČpodobnosti. Obr. 3.3 Test chí-kvadrát (PearsonĤv test) o rozdČlení, tj. hypotézy H, že pozorovaná náhodná veliþina X má distribuþní funkci F(x), proti alternativní hypotéze H , že X nemá distribuþní funkci F(x). RoztĜídíme získaný statistický soubor ( x1 ,..., xn ) do m tĜíd s þetnostmi fj a vypoþteme teoretické absolutní þetnosti fˆ j , j = 1,...,m , resp. jejich odhady, pro hypotetické rozdČlení. Statistický soubor roztĜídíme tak, aby ve všech tĜídách byly dostateþnČ velké teoretické absolutní þetnosti - obvykle požadujeme, aby fˆ j ! 5 . Toho lze pĜi dostateþnČ velkém rozsahu n dosáhnout vhodnou volbou tĜíd nebo slouþením již získaných sousedních tĜíd. Pozorovaná hodnota testového kritéria je ( f j fˆ j ) 2 ¦ fˆ j 1 m t j a WD § m f j2 · ¨¦ ¸n ¨ j 1 fˆ ¸ j © ¹ 0 ; F12D , kde F12D je (1 D)-kvantil Pearsonova rozdČlení F 2 ( k ) s k m q 1 stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T3. ýíslo q je poþet parametrĤ hypotetického rozdČlení náhodné veliþiny X, které jsme nuceni odhadnout z roztĜídČného statistického souboru pro urþení hodnot distribuþní funkce F(x). Uvedený test je asymptotický (tj. vhodný pro dostateþnČ velké rozsahy výbČru n, ĜádovČ aspoĖ desítky) a zjednodušenou, ale obvykle používanou variantou pĜesného testu chí-kvadrát, který se realizuje pomocí statistického softwaru na PC. Více o tomto a dalších testech dobré shody v [2], [3], [8], [15], [17], [30]. - 29 - PĜíklad 3.10 Bylo provedeno 120 hodĤ se šestistČnnou hrací kostkou se stČnami oþíslovanými od 1 do 6. Získané výsledky jsou v následující tabulce: x*j 1 2 3 4 5 6 fj 11 18 15 21 24 31 Na hladinČ významnosti 0,05 testujte hypotézu, že kostka není falešná, tj. pravdČpodobnosti padnutí každého ze všech 6 þísel jsou stejné. ě e š e n í: Testujeme hypotézu H, že pozorovaná náhodná veliþina X má tzv. klasické (uniformní) 1 pro x 6 rozdČlení pravdČpodobnosti s pravdČpodobnostní funkcí p x pĜípadČ je x j x a fˆ j np x j 120 1 6 20 pro j 1, ! , 6 . V našem 1, ! , 6 . Další potĜebné výpoþty jsou v tabulce: j fj fˆ j ( f j fˆ j ) 2 fˆ j 1 2 3 4 5 6 11 18 15 21 24 31 20 20 20 20 20 20 4,05 0,20 1,25 0,05 0,80 6,05 ¦ 120 120 12,40 Podmínka fˆ j ! 5 je pro všechna j splnČna a hodnota testového kritéria je t Neodhadujeme žádný parametr rozdČlení pravdČpodobnosti, takže q volnosti je k 12, 40 . 0 a poþet stupĖĤ 6 0 1 5 . Z tabulky T3 je pro hladinu významnosti 0,05 a daný poþet 2 stupĖĤ volnosti kvantil F 0,95 11, 070 . Protože t 12, 40 W 0,05 0;11, 070 , zamítáme na hladinČ významnosti 0,05 hypotézu, že kostka není falešná. Na hladinČ významnosti 0,01 ale 2 tuto hypotézu nezamítáme, neboĢ F 0,99 15, 086 . Oba zdánlivČ protichĤdné závČry mĤžeme také získat z Phodnoty 0,02969946, kterou vypoþteme napĜ. pomocí statistické funkce CHIDIST v Excelu. - 30 - Neparametrické testy hypotéz Neparametrické testy statistických hypotéz se používají v pĜípadech, kdy neznáme rozdČlení pozorované náhodné veliþiny X, resp. náhodného vektoru X , Y , anebo pro známé rozdČlení nemáme potĜebná testová kritéria. Omezením neparametrických metod je obvykle požadavek, že pozorované náhodné veliþiny mají spojitá rozdČlení, avšak v nČkterých pĜípadech staþí znát pouze poĜadí uspoĜádaných hodnot daného statistického souboru, tj. hodnoty odpovídajícího ordinálního statistického znaku. Slabší pĜedpoklady o rozdČlení (na rozdíl od parametrických testĤ - viz napĜ. výše uvedené testy parametrĤ normálního a binomického rozdČlení) mají za následek, že neparametrické metody nejsou tak silné, jako jejich parametrické protČjšky. Základním principem neparametrických testĤ je nahrazení pĤvodních pozorovaných hodnot jejich poĜadími co do velikosti a proto se také v literatuĜe hovoĜí o poĜadových testech. Jestliže pozorovaný statistický soubor x1 ,..., xn sestává pouze z navzájem rĤzných reálných þísel, pak poĜadím Ri prvku xi , i 1,..., n , rozumíme poþet prvkĤ z daného statistického souboru, jejichž hodnota je menší nebo rovna xi . Nahrazením prvku xi jeho poĜadím Ri tak získáme soubor poĜadí R1 ,..., Rn . NapĜ. statistickému souboru x1 ,..., x7 5;8; 2; 3; 0; 2;1 odpovídá uspoĜádaný statistický soubor x (1) ,..., x(7) 3; 2; 0;1; 2;5;8 , takže soubor poĜadí je R1 ,..., R7 6; 7; 2;1; 3;5; 4 . Jestliže nejsou všechna þísla xi navzájem rĤzná, pak všem stejným þíslĤm xi pĜiĜadíme aritmetický prĤmČr takových poĜadí, jakoby následovala tČsnČ za sebou. NapĜ. ve statistickém souboru x1 ,..., x7 5;8; 2; 3; 0; 2; 0 je þíslo 0 dvakrát, takže soubor poĜadí je R1 ,..., R7 6; 7; 2;1; 3, 5;5; 3, 5 . n I v pĜípadČ shodných prvkĤ je souþet všech poĜadí ¦R i i 1 n n 1 . 2 PĜi neparametrických testech pracujeme s testovými kritérii (statistikami), které nabývají diskrétních hodnot. Jde proto o testy s hladinou významnosti nejvýše rovnu D. Je - 31 - proto na rozdíl od bČžné definice kvantilu vhodné definovat jejich kritické hodnoty pro nezamítnutí anebo zamítnutí hypotéz tak, že P-kvantilem (kritickou hodnotou) daného diskrétního rozdČlení je takové maximální þíslo tP , pro které je pravdČpodobnost náhodného jevu T d tP menší nebo rovna þíslu P. V našem pĜípadČ jde o dále používané binomické, Wilcoxonovo a Mannovo-Whitneyovo rozdČlení (tabulka T5 a T6). Poznamenejme ještČ, že níže použitá asymptotická testová kritéria mají normované normální rozdČlení, které je spojité, takže naše definice P-kvantilu dává tytéž hodnoty jako definice bČžnČ používaná. Znaménkový test H : x0,5 c . Testujeme hypotézu, že medián x0.5 spojité náhodné veliþiny X je roven c. Jde o neparametrickou verzi odpovídající Studentovu testu stĜední hodnoty normálního rozdČlení, které je symetrické a proto má stĜední hodnotu rovnu mediánu. Oznaþme y poþet kladných rozdílĤ xi c . PĜípady xi c vynecháváme. Jestliže hypotéza H platí, pak má náhodná veliþina Y nabývající hodnot y binomické rozdČlení Bi(n;0,5). ýíslo y je pĜímo pozorovaná hodnota testového kritéria Y a obory nezamítnutí hypotézy H jsou: a) WD b) W D c) WD kD / 2 1, n kD / 2 1 pro alternativní hypotézu H : x0,5 z c , kD 1, n pro alternativní hypotézu H : x0,5 c , 0, n kD 1 pro alternativní hypotézu H : x0,5 ! c , kde k P je P-kvantil uvedeného binomického rozdČlení, tj. je maximální þíslo splĖující kP §n· nerovnost 2 n ¦ ¨ ¸ d P . Hodnoty k P jsou pro D k 0 ©k ¹ 0, 05 a D 0, 01 tabelovány a je možno je také vypoþítat pomocí statistické funkce BINDIST v Excelu anebo „ruþnČ“. Pro n t 20 mĤžeme použít asymptotickou verzi testu s testovým kritériem u 2y n n a obory nezamítnutí hypotézy H jsou a) WD u1D / 2 , u1D / 2 pro alternativní hypotézu H : x0,5 z c , b) WD u1D , f pro alternativní hypotézu H : x0,5 c , c) WD f, u1D pro alternativní hypotézu H : x0,5 ! c , kde uP je P-kvantil normovaného normálního rozdČlení N(0;1) – viz tabulku T1. Znaménkový test se þasto používá pro tzv. párové hodnoty X 1 , X 2 , kdy testujeme hypotézu, že medián rozdílu X X 1 X 2 je roven hodnotČ c (nejþastČji pro c - 32 - 0 ). Existuje také obecnČjší varianta znaménkového testu (tzv. kvantilový test), když testujeme hypotézu H : xq c , kde xq je q-kvantil pozorované náhodné veliþiny X. PĜíklad 3.11 PĜi pĜípravČ nové písemné práce pro zkoušku ze statistiky chceme ovČĜit správnost pĜedpokladu, že medián získaných bodĤ je roven 60. Vyskytly se námitky, že písemná práce je tČžká a poþty získaných bodĤ jsou pĜevážnČ nižší než 60. K ovČĜení bylo náhodnČ vybráno 25 výsledkĤ z minulé zkoušky a v nich byla zjištČna tato bodová hodnocení: 62; 61; 27; 84; 50; 90; 49; 32; 48; 43; 55; 54; 53; 34; 68; 80; 39; 56; 52; 91; 45; 47; 78; 46; 74. Pro test hypotézy zvolme hladinu významnosti 0,05. ě e š e n í: Znaménkovým testem testujeme nulovou hypotézu H : x0,5 60 proti alternativní hypotéze H : x0,5 60 . PĜípravný výpoþet je v tabulce: i xi xi 60 Znaménko i xi xi 60 Znaménko 1 62 2 + 14 34 -26 - 2 61 1 + 15 68 8 + 3 27 -33 - 16 80 20 + 4 84 24 + 17 39 -21 - 5 50 -10 - 18 56 -4 - 6 90 30 + 19 52 -8 - 7 49 -11 - 20 91 31 + 8 32 -28 - 21 45 -15 - 9 48 -12 - 22 47 -13 - 10 43 -17 - 23 78 18 + 11 55 -5 - 24 46 -14 - 12 54 -6 - 25 74 14 + 13 53 -7 - Z tabulky získáme poþet kladných znamének y 9 . Postupným souþtem zjistíme, že k 0, 05 § 25 · maximální þíslo k0.05 splĖující nerovnost 225 ¦ ¨ ¸ d 0, 05 , je k0,05 k 0 ©k ¹ 7 . NapĜ. pomocí funkce BINOMDIST v Excelu snadno ovČĜíme, že pro horní mez sumace 7 je levá strana nerovnosti rovna 0,021642625 a pro 8 je 0,053876072. Kvantil k0,05 v tabulce T7. Protože y hypotézu H : x0,5 9 W 0,05 7 mĤžeme také najít 8; 25 , nezamítáme na hladinČ významnosti 0,05 60 proti alternativní hypotéze H : x0,5 60 a zamítáme námitku, že - 33 - statisticky významnČ pĜevažují písemné práce s hodnocením menším než 60 bodĤ. Protože rozsah souboru je 25, mĤžeme použít také asymptotický test. Dostaneme tentýž závČr, neboĢ u 2 9 25 25 1, 645; f , kde kvantil u0,95 1, 4 W 0,05 1, 645 získáme z tabulky T1. K pĜesnČjšímu závČru pomocí obou testových kritérií bychom dospČli zvýšením rozsahu výbČru, neboĢ tak bychom zvČtšili sílu testu, tj. snížili pravdČpodobnost chyby druhého druhu (nezamítnutí neplatné nulové hypotézy). WilcoxonĤv jednovýbČrový test H : x0,5 c . Testujeme hypotézu, že medián x0,5 spojité náhodné veliþiny X, která má symetrické rozdČlení vzhledem k mediánu, je roven c. Jde opČt o neparametrickou verzi odpovídající Studentovu testu stĜední hodnoty normálního rozdČlení. PĜedpokládáme, že je xi z c pro všechna i 1,..., n . PĜípady xi c vynecháváme. VytvoĜme rozdíly xi c a jejich absolutní hodnoty xi c . NechĢ Ri znaþí poĜadí hodnot xi c , kde respektujeme pĜípadné shody poĜadí. Oznaþme dále souþty poĜadí S ¦ Ri xi c ! 0 a S ¦ n n 1 / 2 . Hypotézu H : x0,5 Ri . Platí, že S S c nezamítáme, jestliže: xi c 0 a) S W D wD / 2 1, b) S W D wD 1, c) S W D 0, n n 1 2 wD / 2 1 n n 1 n n 1 2 pro alternativní hypotézu H : x0,5 z c , pro alternativní hypotézu H : x0,5 c , 2 wD 1 pro alternativní hypotézu H : x0,5 ! c , kde wP je P-kvantil Wilcoxonova rozdČlení, které je tabelováno – viz tabulku T5. Pro velká n mĤžeme také použít asymptotickou verzi testu s testovým kritériem n n 1 4 n n 1 2n 1 S u 24 a obory nezamítnutí hypotézy H jsou a) W D u1D / 2 , u1D / 2 pro alternativní hypotézu H : x0,5 z c , b) W D u1D , f pro alternativní hypotézu H : x0,5 c , c) W D f, u1D pro alternativní hypotézu H : x0,5 ! c , - 34 - kde uP je P-kvantil normovaného normálního rozdČlení N(0;1) – viz tabulku T1. WilcoxonĤv jednovýbČrový test a také znaménkový test se þasto používá pro tzv. párové hodnoty X 1 , X 2 , kdy testujeme hypotézu, že medián rozdílu X hodnotČ c (nejþastČji pro c X 1 X 2 je roven 0 ). PĜíklad 3.12 Na hladinČ významnosti 0,05 testujte pomocí Wilcoxonova jednovýbČrového testu hypotézu H : x0,5 60 proti alternativní hypotézu H : x0,5 60 pro data z pĜíkladu 3.11. ě e š e n í: PĜípravný výpoþet je v tabulce: i xi xi 60 xi 60 Ri Ri pro xi 60 ! 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 6 62 61 27 84 50 90 49 32 48 43 55 54 53 34 68 80 39 56 52 91 45 47 78 46 74 --- 2 1 -33 24 -10 30 -11 -28 -12 -17 -5 -6 -7 -26 8 20 -21 -4 -8 31 -15 -13 18 -14 14 --- 2 1 33 24 10 30 11 28 12 17 5 6 7 26 8 20 21 4 8 31 15 13 18 14 14 --- 2 1 25 20 9 23 10 22 11 16 4 5 6 21 7,5 18 19 3 7,5 24 15 12 17 13,5 13,5 325 2 1 Z tabulky je S 126 a S 199 . Protože S Ri pro xi 60 0 25 20 9 23 10 22 11 16 4 5 6 21 7,5 18 19 3 7,5 24 15 12 17 13,5 13,5 126 126 W 0,05 - 35 - 199 101; 325 , kde pro n 25 je kvantil w0,05 100 z tabulky T5, nezamítáme hypotézu H : x0,5 60 . Naopak zamítáme hypotézu, že pĜevažují písemné práce s nižším bodovým hodnocením. Souþet S jsme nemuseli poþítat, ale pĜi „ruþním“ výpoþtu a malém poþtu hodnot Ri pro xi 60 0 je n n 1 / 2 . Protože rozsah souboru je dostateþnČ nČkdy vhodné využít toho, že S S velký, mĤžeme také aplikovat asymptotický test dané hypotézy. Dostaneme tentýž závČr, 25 26 4 0, 98210 W 0,05 25 26 51 24 126 neboĢ u 1, 645; f , pĜiþemž kvantil u0,95 1, 645 je z tabulky T1. WilcoxonĤv dvouvýbČrový test a MannĤv-WhitneyĤv test. PĜedpokládáme, že jsme pozorováním náhodné veliþiny X se spojitým rozdČlením s distribuþní funkcí F získali statistický soubor x1 ,..., xm a pozorováním náhodné veliþiny Y se spojitým rozdČlením s distribuþní funkcí G statistický soubor y1 ,..., yn . Testujeme hypotézu H : F G , tj. X a Y mají stejné rozdČlení pravdČpodobnosti, proti alternativní hypotéze H : F z G , tj. X a Y nemají stejné rozdČlení pravdČpodobnosti. Slouþíme oba statistické soubory do jednoho statistického souboru o rozsahu m n , uspoĜádáme tento soubor vzestupnČ podle velikosti a urþíme poĜadí všech m n hodnot. Oznaþme T1 souþet všech poĜadí odpovídajících statistickému souboru souboru y1 ,..., yn . x1 ,..., xm a T2 souþet všech poĜadí odpovídajících statistickému ZĜejmČ je T1 T2 m n m n 1 / 2 . Statistika T1 je testovým kritériem Wilcoxonova dvouvýbČrového testu a její kritické hodnoty jsou tabelovány, ale v souþasné dobČ se pro testování pĜevážnČ používá ekvivalentní varianta nazývaná MannĤvWhitneyĤv test. Pro tento test vypoþteme hodnotu statistiky U1 a hypotézu H : F mn m m 1 T1 2 vD / 2 1, mn vD / 2 1 , kde vD / 2 je G nezamítáme, jestliže U1 W D ( D / 2 )-kvantil Mannovy-Whitneyovy statistiky – viz tabulku T6. Hodnotu statistiky U1 mĤžeme také urþit bez slouþení pĤvodních statistických souborĤ a výpoþtu souþtu poĜadí T1 pĜímo ze vztahu m U1 n ¦¦ h ij i 1 j 1 - 36 - , kde klademe hij 1 pro xi d y j a hij 0 pro xi ! y j . Jestliže m ! 10 a n ! 10 , mĤžeme také použít asymptotickou verzi testu s testovým kritériem mn 2 . mn m n 1 12 U1 u Oborem nezamítnutí hypotézy H je pak W D § D· u1D / 2 , u1D / 2 , kde u1D / 2 je ¨ 1 ¸ -kvantil 2¹ © normovaného normálního rozdČlení N(0;1) – viz tabulku T1. Poznamenejme, že v MannovuWhitneyovu testu mĤžeme také použít místo U1 druhou statistiku U 2 mn n n 1 T2 . 2 PĜíklad 3.13 Byly vybrány dvČ skupiny m 13 a n 12 firem, které vyrábČjí tytéž výrobky. Firmy v první skupinČ nevyužívají statistické metody Ĝízení jakosti, naopak firmy ve druhé skupinČ tyto metody využívají. U obou skupin byl zjištČn zisk v Kþ získaný prodejem jednoho výrobku. Na hladinČ významnosti 0,05 posućte, zda aplikace metod Ĝízení jakosti má statisticky významný vliv na zisk u daného výrobku. Získané hodnoty jsou tabulce, kde xi je zisk i-té firmy z první skupiny a y j je zisk j-té firmy ze druhé skupiny: i xi j yj 1 66,7 1 67,7 2 57,7 2 67,2 3 58,8 3 69,3 4 66,1 4 65,8 5 57,1 5 61,6 6 62,2 6 67,3 7 64,6 7 65,3 8 58,4 8 68,8 9 59,6 9 64,1 10 60,5 10 61,3 11 61,8 11 67,1 12 59,2 12 63,3 13 66,9 - 37 - ě e š e n í: Pomocí Mannova-Whitneyova testu testujeme hypotézu, že náhodná veliþina X (zisk firmy z první skupiny) s neznámou distribuþní funkcí F má stejné rozdČlení jako náhodná veliþina Y (zisk firmy ze druhé skupiny) s neznámou distribuþní funkcí G, tedy H : F G proti alternativní hypotéze H : F z G . Slouþíme oba soubory do jednoho souboru s rozsahem mn 13 12 25 a uspoĜádáme jej vzestupnČ podle velikosti. Další výpoþty jsou v následující tabulce, kde podtržená þísla odpovídají druhému souboru, tj. Y : k Slouþený soubor 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 6 66,7 57,7 58,8 66,1 57,1 62,2 64,6 58,4 59,6 60,5 61,8 59,2 66,9 67,7 67,2 69,3 65,8 61,6 67,3 65,3 68,8 64,1 61,3 67,1 63,3 --- UspoĜádaný slouþený soubor 57,1 57,7 58,4 58,8 59,2 59,6 60,5 61,3 61,6 61,8 62,2 63,3 64,1 64,6 65,3 65,8 66,1 66,7 66,9 67,1 67,2 67,3 67,7 68,8 69,3 --- Hodnoty prvního souboru 57,1 57,7 58,4 58,8 59,2 59,6 60,5 61,8 62,2 12 13 14 65,3 65,8 66,1 66,7 66,9 15 16 17 18 19 67,1 67,2 67,3 67,7 68,8 69,3 --- --- 130 W 0,05 U1 10 11 64,6 v0,025 PoĜadí pro druhý soubor 8 9 63,3 64,1 117 . Odtud U1 Protože PoĜadí pro první soubor 1 2 3 4 5 6 7 61,3 61,6 Z tabulky vidíme, že T1 41 . Hodnoty druhého souboru 13 12 13 14 117 130 a z tabulky T6 je 2 41 1;156 (41 1) - 38 - 117 20 21 22 23 24 25 208 42;114 , zamítáme na G . Aplikace statistických metod Ĝízení jakosti hladinČ významnosti 0,05 hypotézu H : F má patrnČ vliv na výši zisku a po jejich nasazení mĤžeme oþekávat jeho vyšší úroveĖ, samozĜejmČ pokud se nevyskytují ve firmách ze druhé skupiny další faktory, které zisk pozitivnČ ovlivĖují. Vzhledem k dostateþnČ velkým rozsahĤm obou souborĤ mĤžeme také 13 12 2 2,828 a z tabulky T1 u 0,975 13 12 26 12 130 použít asymptotický test. Pak je u Hypotézu H : F G opČt zamítáme, protože u 2,828 W 0,05 1, 960 . 1, 960;1, 960 . WilcoxonĤv dvouvýbČrový test a také MannĤv-WhitneyĤv test vychází z porovnání mediánĤ dvou nezávislých pozorovaných náhodných veliþin a oba testy jsou neparametrickou obdobou Studentova dvouvýbČrového testu rovnosti stĜedních hodnot tČchto veliþin, kdy ale pĜedpokládáme, že obČ mají normální rozdČlení. V aplikacích se úspČšnČ používá Ĝada dalších neparametrických testĤ – viz napĜ. [2], [3], [4], [6], [10], [22], [28]. PĜíklady k procviþení PĜíklad 3.14 Statistický soubor o rozsahu n = 10 má aritmetický prĤmČr x = 32 a rozptyl s2 = 15. Na hladinČ významnosti 0,05 testujte hypotézu, že stĜední hodnota pozorované náhodné veliþiny s normálním rozdČlením je P = 30. V ý s l e d e k: t = 1,549; t0,975 = 2,262; hypotézu nezamítáme PĜíklad 3.15 Realizací náhodného výbČru z normálního rozdČlení byl po roztĜídČní získán statistický soubor: x j -2 -1 0 1 2 3 fj 1 4 7 3 3 2 Na hladinČ významnosti 0,05 testujte hypotézu, že P = 0,1. V ý s l e d e k: x = 0,45; s = 1,3592; t = 1,1224; t0,975 = 2,093; hypotézu nezamítáme PĜíklad 3.16 Požadovaná stĜední hodnota vlhkosti v pražené kávČ je 4,2 % a smČrodatná odchylka 0,4 %. Ve 20 vzorcích byly analýzou zjištČny tyto skuteþné hodnoty vlhkosti v %: 4,5; 4,3; 4,1; 4,9; 4,6; 3,2; 4,4; 5,1; 4,8; 4,0; 3,7; 4,4; 3,9; 4,1; 4,2; 4,1; 4,7; 4,3; 4,2; 4,4. Na hladinČ - 39 - významnosti 5% testujte hypotézy, že základní soubor s normálním rozdČlením, z nČhož vzorky pocházejí, má (a) požadovanou stĜední hodnotu vlhkosti a (b) variabilitu. V ý s l e d e k: (a) t = 1,033; t0,975 = 2,093; hypotézu nezamítáme 2 2 (b) t = 22,25; F 0,025 = 8,907; F 0,975 = 32,852; hypotézu nezamítáme PĜíklad 3.17 Pomocí statistického souboru o rozsahu 10 a s rozptylem s2 = 2,0 testujte na hladinČ významnosti 0,01 hypotézu, že základní soubor s normálním rozdČlením má rozptyl V 2 = 0,2. 2 2 V ý s l e d e k: t = 100; F 0,005 = 1,735; F 0,995 = 23,589; hypotézu zamítáme PĜíklad 3.18 Pro posouzení pĜesnosti dvou mČĜících metod bylo provedeno 8 mČĜení a byly urþeny rozdíly dvojic (odchylky) odpovídajících si výsledkĤ. Odtud pak byla urþena prĤmČrná odchylka d = 0,244 a smČrodatná odchylka s(d) = 0,192. ZjistČte na hladinČ významnosti 0,05, zda obČ metody mĤžeme považovat za stejnČ pĜesné, jestliže rozdíly mají normální rozdČlení. V ý s l e d e k: t = 3,362; t0,975 = 2,365; hypotézu zamítáme PĜíklad 3.19 Na dvou váhách bylo provedeno vážení 10 vzorkĤ s výsledky xi , yi = (25; 28), (30; 31), (28; 26), (50; 52), (20; 24), (40; 36), (32; 33), (36; 35), (42; 45), (38; 40) (g). Na hladinČ významnosti 0,01 zjistČte, zda rozdílné výsledky jsou statisticky nevýznamné za pĜedpokladu, že rozdíly získaných dvojic hodnot mají normální rozdČlení. V ý s l e d e k: t = -1,13; t0,995 = 3,250; hypotézu nezamítáme, tedy rozdíly jsou statisticky nevýznamné PĜíklad 3.20 PĜed seĜízením a po seĜízení váhy na balícím automatu byly získány statistické soubory s charakteristikami n1 = 12, x = 31,2 g, s 2 x = 0,770 g2 a n2 = 18, y = 29,2 g, s 2 y = = 0,378 g2. Za pĜedpokladu stejných rozptylĤ a normálního rozdČlení testujte na hladinČ významnosti 0,05 hypotézu, že se stĜední hodnota nastavení váhy seĜízením nezmČnila. V ý s l e d e k: t = 7,1; t0,975 = 2,048; hypotézu zamítáme PĜíklad 3.21 Studijní prĤmČry 20 studijních skupin daného roþníku jsou: x j 1,70 1,86 2,01 2,23 2,27 2,411 fj 2 3 5 7 2 1 - 40 - Celkový studijní prĤmČr v minulém roþníku byl y = 2,201 a rozptyl s 2 y = 0,012 pro 20 studijních skupin. Testujte hypotézu, že se stĜední hodnoty studijních výsledkĤ mezi obČma roþníky neliší, pĜedpokládáme-li normální rozdČlení studijních prĤmČrĤ se stejnými rozptyly. V ý s l e d e k: x = 2,0795; s 2 x = 0,0399; t = - 2,325; t0,975 = 2,023 (lineární interpolací); hypotézu zamítáme; t0,995 = 2,712 (lineární interpolací); hypotézu nezamítáme PĜíklad 3.22 Bylo provedeno po 18 zkouškách pevnosti v tahu na vzorcích dvou druhĤ lan s výsledky: x = = 3389,3 N, s 2 x = 1144,4 N2, y = 3339,2 N, s 2 y = 3453,5 N2. Za pĜedpokladu rĤzných rozptylĤ pevností v tahu s normálním rozdČlením testujte na hladinČ významnosti 0,05 hypotézu, že stĜední pevnosti v tahu obou druhĤ lan jsou stejné. V ý s l e d e k: t = 3,046; t0,975 = 2,110; hypotézu zamítáme PĜíklad 3.23 Dva statistické soubory s rozsahy n1 = 20 a n2 = 10 a charakteristikami x = 10,24; y = 11,09; s 2 x = 4,231 a s 2 y = 18,457 byly získány nezávislými náhodnými výbČry z nezávislých normálních rozdČlení s rĤznými rozptyly. Testujte na hladinČ významnosti 1% hypotézu, že uvedená rozdČlení mají stejné stĜední hodnoty. V ý s l e d e k: t = -0,5637; t0,975 = 3,212; hypotézu nezamítáme PĜíklad 3.24 PĜi urþování tuku v mléce byly použity dvČ rĤzné metody. První metoda pĜi provedení 12 analýz dala rozptyl namČĜených hodnot s 2 x = 0,0224 a druhá metoda dala rozptyl pĜi provedení 8 analýz s 2 y = 0,0263. Testujte na hladinČ významnosti 0,01 hypotézu, že obČ metody jsou vzhledem k rozptylu stejnČ pĜesné, jestliže mají namČĜené hodnoty normální rozdČlení. V ý s l e d e k: t = 1,23; F0,975 = 3,759; hypotézu nezamítáme PĜíklad 3.25 Testujte pĜedpoklad o stejných rozptylech základních souborĤ z pĜíkladu 3.20 na hladinČ významnosti 0,05. V ý s l e d e k: t = 2,1; F0,975 = 2,87 (lineární interpolací); hypotézu nezamítáme - 41 - PĜíklad 3.26 PĜedstavenstvo velké akciové spoleþnosti zvažuje prodej akcií svým zamČstnancĤm a odhaduje, že asi 20 % z nich si je zakoupí. PĜi prĤzkumu u náhodnČ vybraných 400 zamČstnancĤ projevilo zájem o akcie 66 zamČstnancĤ. Testujte na hladinČ významnosti 0,05, zda pĜedpoklad pĜedstavenstva je reálný. V ý s l e d e k: t = -1,75; u0,975 = 1,960; hypotézu nezamítáme, pĜedpoklad je reálný PĜíklad 3.27 Z 200 výrobkĤ vyrobených novou technologií bylo 31 zmetkĤ. OvČĜte, že na hladinČ významnosti 1 % nová technologie zmČnila zmetkovitost oproti dĜívČjším dlouhodobČ zjištČným 10 % zmetkovitosti. V ý s l e d e k: t = 2,593; u0,995 = 2,576; hypotézu zamítáme, nová technologie zmČnila zmetkovitost PĜíklad 3.28 Ve dvou závodech vyrábČjí tentýž výrobek. Podíl vadných výrobkĤ v obou závodech by mČl být stejný, protože používají týchž technologií výroby. V prvním závodČ bylo 10 vadných výrobkĤ mezi 200 kontrolovanými a ve druhém závodČ bylo 23 vadných výrobkĤ mezi 250 kontrolovanými. Na hladinČ významnosti 0,01 ovČĜte, zda mezi obČma závody je statisticky významný rozdíl v jakosti výroby tČchto výrobkĤ. V ý s l e d e k: t = -1,699; u0,995 = 2,576; hypotézu nezamítáme, mezi závody není statisticky významný rozdíl v jakosti výroby PĜíklad 3.29 Mezi 58 zemČdČlci z jisté lokality bylo zjištČno 23 nemocných a mezi 43 dČlníky z téže lokality 28 nemocných. Testujte na hladinČ významnosti 5 % hypotézu, že u dČlníkĤ je stejná nemocnost jako u zemČdČlcĤ. V ý s l e d e k: t = -2,534; u0,975 = 1,960; hypotézu zamítáme, výskyt onemocnČní je u dČlníkĤ spíše vČtší než u zemČdČlcĤ PĜíklad 3.30 Deset osob mČlo nezávisle na sobČ bez pĜedchozího nácviku odhadnout, kdy od daného signálu uplyne jedna minuta. Byly získány výsledky v sekundách: 53, 48, 45, 55, 63, 51, 66, 56, 50, 58. Testujte na hladinČ významnosti 0,05 znaménkovým testem hypotézu, že polovina lidské populace délku jedné minuty podhodnotí a polovina ji nadhodnotí, proti hypotéze, že je to jinak. V ý s l e d e k: y 2 W 0,05 2;8 ; hypotézu nezamítáme - 42 - PĜíklad 3.31 Pomocí náhodného výbČru 16 firem ovČĜte domnČnku, že burzovní experti systematicky podhodnocují odhady cen akcií na burze. Odhady expertĤ a skuteþnČ dosažené ceny jsou v tabulce: Firma 1 2 3 4 5 6 7 8 Odhad x1i 123 764 905 3200 1356 724 254 2255 Cena x2i 113 680 901 3310 1280 733 330 2358 Firma 9 10 11 12 13 14 15 16 Odhad x1i 55 173 894 2784 142 423 674 3556 Cena x2i 57 185 866 2890 153 431 688 3560 Zvolte hladinu významnosti D = 0,05. (Návod: Použijte párový WilcoxonĤv a znaménkový test hypotézy, že medián rozdílu X V ý s l e d e k: S 47 W 0,05 X 1 X 2 je roven 0 proti alternativČ, že je menší než 0.) 36;136 , resp. u 1, 2669 W 0,05 1, 645; f ; Wilcoxonovým testem nezamítáme nulovou hypotézu (tj. domnČnku o podceĖování cen zamítáme) y 5 W 0,05 5;16 , resp. u 1, 5 W 0,05 1, 645; f ; znaménkovým testem nezamítáme nulovou hypotézu (tj. domnČnku o podceĖování cen zamítáme) PĜíklad 3.32 Výrobce urþitého výrobku se má rozhodnout mezi dvČma dodavateli polotovarĤ vyrábČjících je rĤznými technologickými postupy. Rozhodující je procentní obsah úþinné látky. Pro ovČĜení, zda procentní obsah této látky je pĜi použití obou technologií stejný, bylo náhodnČ vybráno 5 kusĤ vyrobených první technologií a 9 kusĤ vyrobených druhou technologií: xi 1,52 1,57 1,71 1,34 1,68 yj 1,75 1,67 1,56 1,66 1,72 1,79 1,64 1,55 1,65 Testujte na 5% hladinČ významnosti hypotézu, že obČ technologie poskytují stejné procento úþinné látky. V ý s l e d e k: U1 31 W 0,05 8; 37 ; hypotézu nezamítáme u 1,13333 W 0,05 1, 960;1, 960 ; hypotézu nezamítáme (rozsahy výbČrĤ jsou ale dosti malé!) - 43 - Kontrolní otázky 1. Definujte statistickou hypotézu a popište její druhy. 2. Co je testové kritérium a kritický obor? 3. Jakou konvenci používáme pĜi testování statistické hypotézy? 4. Popište chybu 1. druhu pĜi testování statistické hypotézy. Jaký je její praktický význam? 5. Popište chybu 2. druhu pĜi testování statistické hypotézy. Jaký je její praktický význam? 6. Jaký je vztah mezi pravdČpodobnostmi chyb 1. a 2. druhu a rozsahem náhodného výbČru? 7. Jak souvisejí intervalové odhady s testy parametrických hypotéz? 8. Jakým zpĤsobem používáme tzv. P-hodnotu pĜi testování parametrické hypotézy na PC? 9. Popište grafickou metodu testu hypotézy o rozdČlení pravdČpodobnosti pozorované náhodné veliþiny. 10. Proþ používáme neparametrické testy a co omezuje jejich použití? 11. Popište princip transformace pĤvodního souboru na soubor poĜadí a to i s ohledem na shodu poĜadí. - 44 - 4 REGRESNÍ ANALÝZA Regresní funkce DĤležitou statistickou úlohou v ekonomických aplikacích je hledání a zkoumání závislostí promČnných, jejichž hodnoty získáme pĜi realizaci experimentĤ. Jde o stanovení závislosti pozorované náhodné veliþiny Y na reálném vektoru nezávisle promČnných X X 1 ,..., X k , který mĤže ale nemusí být náhodný (jeho pĜípadná náhodnost není v našem pĜípadČ podstatná). Náhodnou veliþinou Y mĤže být napĜ. výsledná cena výrobku a složky X 1 ,..., X k vektoru X tvoĜí: ceny materiálu a energie, mzdy, danČ a zisk. K popisu, stanovení a vyšetĜování závislosti Y na X užíváme regresní analýzu, pĜiþemž tuto závislost vyjadĜuje regresní funkce y M x, ȕ E Y | X x , kde x = x1 ,..., xk je vektor nezávisle promČnných (pozorovaná hodnota vektoru X), y je závisle promČnná (pozorovaná hodnota náhodné veliþiny Y) a ȕ reálných parametrĤ, tzv. regresních koeficientĤ Ej , j E1 ,..., E m 1,..., m . E Y | X je vektor x je podmínČná stĜední hodnota náhodné veliþiny Y , tj. její stĜední hodnota pro x = x1 ,..., xk . f y x E(Y/X=x) Obr. 4.1 PĜi vyšetĜování závislosti Y na X získáme realizací n experimentĤ (k + 1)-rozmČrný statistický soubor x , y ,..., x 1 1 n , yn x 11 ,..., xk 1 , y1 ,..., x1n ,..., xkn , yn s rozsahem n, kde yi je pozorovaná hodnota náhodné veliþiny Yi (Yi odpovídá i-tému pozorování Y) a - 45 - xi x1i ,..., xki je pozorovaná hodnota vektoru nezávisle promČnných X, i 1,..., n . Na obr. 4.1 je znázornČn pĜípad pro k = 1, tedy pro x = x1 = x (jde o tzv. regresní pĜímku), a s opakovanými pozorováními. Opakování pozorování pro danou hodnotu nezávisle promČnné x však není v regresní analýze nezbytné. Pro urþení odhadĤ neznámých regresních koeficientĤ E j minimalizujeme tzv. reziduální souþet þtvercĤ n S* ¦ ª¬ y i i 1 M x i , ȕ º¼ 2 a hovoĜíme o tzv. metodČ nejmenších þtvercĤ. PĜed výpoþtem regresních koeficientĤ volíme obvykle takový tvar regresní funkce, který co nejvíce odpovídá vyšetĜované nebo uvažované závislosti. Bývá zvykem volit regresní funkci s co nejmenším poþtem regresních koeficientĤ a jednoduchým pĜedpisem, avšak dostateþnČ flexibilní a s požadovanými vlastnostmi: monotonie, pĜedepsané hodnoty, asymptoty aj. Vychází se pĜitom povČtšinou ze zkušenosti, avšak v souþasné dobČ se pĜi realizaci regresní analýzy na PC dají þasto úspČšnČ použít vhodné databáze regresních funkcí. Regresní funkce rozdČlujeme na lineární a nelineární regresní funkce, a to vzhledem k regresním koeficientĤm, nikoli k vektoru nezávisle promČnných x. NČkteré nelineární regresní funkce mĤžeme vhodnou linearizací pĜevést na lineární (napĜ. mocninnou nebo exponenciální funkci logaritmujeme). Jde sice o bČžnČ používaný postup, kdy ale Ĝešíme jiný regresní model nežli pĤvodnČ uvažovaný. Blíže o linearizaci nelineární regresní funkce je pojednáno napĜ. v [2], [3], [17], [19], [21], [29]. Lineární regresní model Lineární regresní funkce má tvar m y ¦ E f x , j j j 1 kde f j x jsou známé funkce neobsahující regresní koeficienty E1 ,..., E m . Uvažujeme tzv. lineární regresní model založený na pĜedpokladech: 1. Funkce f j x nabývají hodnot f ji 2. Matice F § f11 " ¨ # % ¨ ¨f © m1 " f j x i pro j 1,..., m a i 1,..., n . f 1n · # ¸¸ typu (m, n) s prvky f ji má hodnost m n . f mn ¸¹ - 46 - 3. Náhodná veliþina Yi má stĜední hodnotu E Yi m ¦E j f ji a konstantní rozptyl j 1 D Yi V 2 ! 0 pro i 1,..., n . 4. Náhodné veliþiny Yi jsou nekorelované a mají normální rozdČlení pravdČpodobnosti pro i 1,..., n . PĜedpoklady 1 a 2 zaruþují jednoznaþnou existenci minima uvedeného reziduálního souþtu þtvercĤ, tj. urþení bodových odhadĤ regresních koeficientĤ. PĜedpoklady 3 a 4 pak slouží k intervalovým odhadĤm a testováním hypotéz. V literatuĜe se místo popsaného lineárního regresního modelu také uvádí ekvivalentní model ve tvaru m Yi ¦ E f x E , j j i i i 1,..., n , j 1 kde Ei jsou nekorelované náhodné veliþiny (vyjadĜující napĜ. náhodné chyby mČĜení) s normálním rozdČlením pravdČpodobnosti N(0, V2). Odhady regresních koeficientĤ, rozptylu a funkþních hodnot, a také testy statistických hypotéz o regresních koeficientech provádíme pomocí následujících vztahĤ. Oznaþíme-li matice H FF T kde horní index § n ¨ ¦ f1i f1i " ¨i1 # % ¨ ¨ n ¨ ¦ f mi f1i " ¨ ©i1 T n · f1i f mi ¸ ¦ i 1 ¸ # ¸,b ¸ n ¸ f f ¦ mi mi ¸ i 1 ¹ § b1 · ¨ # ¸, y ¨ ¸ ¨b ¸ © m¹ § y1 · ¨ # ¸, g ¨ ¸ ¨y ¸ © n¹ Fy § n · ¨ ¦ f1i yi ¸ ¨i1 ¸ # ¨ ¸, ¨ n ¸ ¨ ¦ f mi yi ¸ ¨ ¸ ©i1 ¹ oznaþuje transpozici matice, pak platí: 1. Bodový odhad regresního koeficientu E j je þíslo b j , j 1,..., m , kde matice b je Ĝešení soustavy lineárních algebraických rovnic (tzv. soustavy normálních rovnic) Hb = g . 2. Bodový odhad lineární regresní funkce je funkce m ¦ b f x , yˆ j j j 1 jejíž konkrétní hodnota pro dané x je bodový odhad jak stĜední hodnoty, tak i individuální (predikované) hodnoty náhodné veliþiny Y. 3. Bodový odhad rozptylu V 2 náhodné veliþiny Y je s2 * Smin , nm - 47 - m § · y ¨ i ¦ b j f ji ¸ ¦ i 1 © j 1 ¹ n kde S * min 2 n m i 1 j 1 ¦ yi2 ¦ b j g j a g j je prvek matice g. 4. Intervalový odhad regresního koeficientu E j se spolehlivostí 1 D, j 1,..., m , je b j t1D 2 s h jj ; b j t1D 2 s h jj , kde h jj je § D· j-tý diagonální prvek matice H 1 a t1D 2 je ¨ 1 ¸ -kvantil Studentova 2¹ © rozdČlení s n m stupni volnosti - viz tabulku T2. 5. Intervalový odhad stĜední funkþní hodnoty y regresní funkce (konfidenþní interval pro E Y | X x ) se spolehlivostí 1 D je m ¦b m * j f j ( x ) t1D / 2 s h ; j 1 * T ¦b j f j ( x ) t1D / 2 s h* , j 1 -1 kde h = f(x) H f(x), pĜiþemž f ( x ) § f1 ( x ) · § D· ¨ # ¸, a t je 1 D 2 ¨ 1 ¸ -kvantil Studentova ¨ ¸ 2¹ © ¨ f (x) ¸ © m ¹ rozdČlení s n m stupni volnosti - viz tabulku T2. Intervalový odhad individuální funkþní hodnoty y regresní funkce (predikþní interval pro Y | X x ) se spolehlivostí 1 D obdržíme analogicky, avšak místo h* vezmeme 1 + h*. 6. Test hypotézy H : E j E j 0 proti alternativní hypotéze H : E j z E j 0 na hladinČ významnosti D, kde j je jeden pevnČ zvolený index, j 1,..., m , provádíme pomocí pozorované hodnoty testového kritéria t WD t1D 2 ; t1D 2 bj E j0 s h jj , § D· a t1D 2 je ¨ 1 ¸ -kvantil Studentova rozdČlení s n m stupni 2¹ © volnosti - viz tabulku T2. Tento test je možno také provést pomocí výše uvedeného intervalového odhadu koeficientu E j se spolehlivostí 1 D . Z intervalových odhadĤ stĜední funkþní hodnoty, resp. individuální funkþní hodnoty, se konstruuje pás spolehlivosti pro stĜední hodnotu (konfidenþní pás), resp. pás spolehlivosti pro individuální hodnotu (predikþní pás) – viz napĜ. užší, resp. širší, pás kolem regresní pĜímky na obr. 4.2. Poznamenejme ještČ, že test hypotézy H : E j - 48 - E j 0 se týká pouze jednoho (byĢ libovolného) regresního koeficientu. Souþasný test více regresních koeficientĤ je nutno provést pomocí tzv. sdružené hypotézy - viz napĜ. [2], [3], [17], [19], [21], [29]. Orientaþní mírou vhodnosti vypoþtené regresní funkce pro získaná data je koeficient vícenásobné korelace 1 r * Smin ¦y ny 2 i 2 , nazývaný také index (koeficient) determinace r 2 ( y je aritmetický prĤmČr hodnot yi ), který nabývá hodnot z intervalu 0;1 . ýíslo r 2 100 % vyjadĜuje procentuální podíl z rozptylu hodnot yi "vysvČtlený" vypoþtenou regresní funkcí. Hodnoty r (a tím také r 2 ) blízké 1 naznaþují vhodnost zvoleného tvaru regresní funkce. Pro bližší posouzení vhodnosti vypoþtené regresní funkce se provádí její grafický rozbor vzhledem k pozorovaným bodĤm >x1 , y1 @ ,..., >x n , yn @ . Pro rigorózní závČr je však nutné provést tzv. regresní diagnostiku a testovat další statistické hypotézy - viz napĜ. [2], [3], [17], [19], [21], [29]. Nejvíce užívanou lineární regresní funkcí pro pozorovaný dvourozmČrný statistický soubor x1 , y1 ,..., xn , yn je funkce E1 E 2 x , y jejímž grafem je regresní pĜímka. Pro tuto funkci je k = 1, x = x1 = x (píšeme x místo x1), m = 2, f1(x) = 1, f2(x) = x, takže F §1 " 1 · ¨x " x ¸ , y n ¹ © 1 § y1 · ¨ # ¸. ¨ ¸ ¨y ¸ © n¹ E1 E 2 x použít explicitní vztahy, kde PĜi „ruþním“ výpoþtu mĤžeme pro regresní funkci y det H znaþí determinant matice H: a) H § n ¨ ¦1 ; ¨i1 ¨ n ¨ ¦ xi ; ©i1 n · i ¸ i 1 ¸, g n 2¸ xi ¸ ¦ i 1 ¹ ¦x § n · ¨ ¦ yi ¸ ¨i1 ¸, ¨ n ¸ ¨ ¦ xi yi ¸ ©i1 ¹ n ¦1 n, i 1 n b) det H n § n · n ¦ xi2 ¨ ¦ xi ¸ , i 1 ©i1 ¹ n n i 1 i 1 n ¦ xi yi ¦ xi ¦ yi 2 b2 i 1 det H aritmetické prĤmČry, - 49 - , b1 y b2 x , xa y jsou n ¦ yi b1 b2 xi * c) Smin 2 n n n i 1 i 1 i 1 ¦ yi2 b1 ¦ yi b2 ¦ xi yi , s 2 i 1 * Smin , n2 n ¦x 2 i d) h11 e) h * i 1 det H 1 n , h 22 x x n ¦x 2 i n , det H 2 2 nx 1 nx x , n det H 2 i 1 n ¦x y i r ( x, y ) , kde r x, y f) r statistického souboru i xy i 1 n § n 2 2 ·§ 2· 2 ¨ ¦ xi n x ¸ ¨ ¦ yi n y ¸ ¹ ©i1 ¹© i 1 je koeficient korelace x , y ,..., x , y . 1 n 1 n V ekonomických úlohách se také þasto potkáváme s lineárními regresními funkcemi: a) regresní rovina y f 2 x1 , x2 E1 E 2 x1 E 3 x2 , kde k = 2, x x1 , f 3 x1 , x2 x , f3 x f1 x1 , x2 1 , x2 , E1 E 2 x E 3 x 2 , kde k = 1, x b) regresní parabola y f2 x x1 , x2 , m = 3, x1 x , m = 3, f1 x 1 , x2 . Jejich „ruþní“ výpoþet je však namáhavý a je lépe aplikovat profesionální statistický software (Minitab, Statistica, Statgraphics, QC Expert, SPSS, SAS aj.) anebo použít potĜebné funkce a maticové operace v Excelu. PĜíklad 4.1 U osmi náhodnČ vybraných firem poskytujících konzultace v oblasti jakosti výroby byly v roce 1993 zjištČny poþty zamČstnancĤ x a roþní obraty y (mil. Kþ): xi 3 5 5 8 9 11 12 15 yi 0,8 1,2 1,5 1,9 1,8 2,4 2,5 3,1 VyjádĜete závislost roþního obratu firmy na poþtu zamČstnancĤ ve tvaru y = E1 + E 2 x, vypoþtČte intervalový odhad E 2 se spolehlivostí 0,95, testujte na hladinČ významnosti 0,05 hypotézu H : E1 = 0,2, urþete bodový a intervalový odhad y(10) se spolehlivostí 0,95. Pomocí grafu a koeficientu korelace r posućte vhodnost regresní funkce. PĜedpokládejte, že roþní obrat má podmínČné normální rozdČlení s konstantním rozptylem vzhledem k poþtu zamČstnancĤ. - 50 - ě e š e n í: V tabulce jsou pomocné výpoþty: i xi yi x i2 x iy i y i2 1 2 3 4 5 6 7 8 3 5 5 8 9 11 12 15 0,8 1,2 1,5 1,9 1,8 2,4 2,5 3,1 9 25 25 64 81 121 144 225 2,4 6,0 7,5 15,2 16,2 26,4 30,0 46,5 0,64 1,44 2,25 3,61 3,24 5,76 6,25 9,61 6 68 15,2 694 150,2 32,80 Vlastní výpoþty provedeme v následujících krocích. 1) Jde o regresní pĜímku, takže s využitím výše uvedených vzorcĤ obdržíme pro n = 8 § 8 68 · 2 z tabulky matici H = ¨ ¸ , jejíž determinant je det H = 8694 – 68 = 928, takže 68 694 © ¹ bodový odhad E 2 je b2 8 150, 2 68 15, 2 = 0,1810344 | 0,181. 928 Dále je x = 68/8 = 8,5, y = 15,2/8 = 1,9, takže bodový odhad E1 je b1 = 1,9 0,18103448,5 = 0,3612068 | 0,361. Potom bodový odhad regresní funkce je y = 0,361 + 0,181x. 2) Minimální hodnota reziduálního souþtu þtvercĤ je Smin = 32,80 – 0,3612068.15,2 – 0,1810344150,2 | 0,1182758 a bodový odhad rozptylu V 2, resp. smČrodatné odchylky V , je s2 = 0,1182758/(8 2) = 0,0197126, resp. s = 0, 0197126 | 0,1404017. 3) Diagonální prvky matice H 1 jsou h11 = 694/928 | 0,7478448, h22 = 8/928 | 0,00862069. Z tabulky T2 je pro 8 2 = 6 stupĖĤ volnosti t0,975 = 2,447. Intervalový odhad regresního koeficientu E 2 je E 2 < 0,1810344 – 2,4470,1404017 0, 00862069 ; 0,1810344 + 2,4470,1404017 0, 00862069 > = < 0,1491353; 0,2129334 > | | < 0,149; 0,213 >. - 51 - Bodový odhad pĜírĤstku roþního obratu odpovídajícího zvýšení poþtu zamČstnancĤ firmy o jednoho je tedy 181 000 Kþ a intervalový odhad tohoto pĜírĤstku se spolehlivostí 0,95 je 149 000 Kþ až 213 000 Kþ. 4) Pozorovaná hodnota testového kritéria pro H : E1 = 0,2 je t= 0, 3612068 0, 2 | 1,3277. 0,1404017 0, 7478448 Pro alternativní hypotézu H : E1 z 0,2 je W0,05 = < -2,447; 2,447 >. Vzhledem k tomu, že t W0,05 , hypotézu E1 = 0,2 na hladinČ významnosti 0,05 nezamítáme. Na dané hladinČ významnosti vlastnČ nezamítáme hypotézu, že firma bez zamČstnancĤ (pracují jen majitelé), neboĢ y(0) = E1 , bude mít roþní obrat okolo 200 000 Kþ. 5) Bodový odhad stĜední i individuální hodnoty roþního obratu firmy pro 10 zamČstnancĤ je y(10) = 0,3612068 + 0,181034410 = 2,1715508 | 2,172. U dané firmy lze tedy oþekávat roþní obrat okolo 2 172 000 Kþ. Protože h* = 1 8(10 8, 5) 2 = 0,1443965, 8 928 je intervalový odhad se spolehlivostí 0,95 stĜední hodnoty roþního obratu firmy s 10 zamČstnanci y(10) < 2,1715508 2,4470,1404017 0,1443965 ; 2,1715508 + 2,4470,1404017 0,1443965 > = < 2,0409985; 2,3021031 > | | < 2,040; 2,302 >. Se spolehlivostí 0,95 lze oþekávat, že stĜední hodnota roþního obratu takové firmy bude od 2 040 000 Kþ do 2 302 000 Kþ. Jestliže použijeme ve výpoþtu 1 + h* místo h*, dostaneme intervalový odhad se spolehlivostí 0,95 individuální hodnoty roþního obratu firmy s 10 zamČstnanci y(10) < 2,1715508 – 2,4470,1404017 1,1443965 ; 2,1715508 + 2,4470,1404017 1,1443965 > = < 1,8040193; 2,5390823 > | | < 1,804; 2,539 >. Se spolehlivostí 0,95 lze oþekávat, že individuální hodnota roþního obratu takové firmy bude od 1 804 000 Kþ do 2 539 000 Kþ. 6) Koeficient korelace je r = 0,984798, takže index determinace je r 2 | 0,969827 . - 52 - Z grafu na obr. 4.2 a velikosti koeficientu korelace vidíme, že zvolený tvar regresní funkce vcelku dobĜe vystihuje danou závislost. Podle þasto používané konvence lze Ĝíci, získaná regresní funkce vyjadĜuje celkem r 2 100 % | 96, 98 % zmČn (variability) pozorovaného obratu firmy. Závislost obratu na poþtu zamČstnancĤ 3.6 3.2 2.8 2.4 y 2 1.6 1.2 0.8 0.4 0 18 12 6 0 x Obr. 4.2 PĜíklady k procviþení PĜíklad 4.2 PĜi sledování prĤmČrných cen y (Kþ) v roce 2005 a prĤmČrných cen x (Kþ) v roce 2004 u 6 vybraných druhĤ zboží byly získány následující hodnoty: xi 3,4 4,3 5,4 6,7 8,7 10,6 yi 4,5 5,8 6,8 8,1 10,5 12,7 Urþete regresní funkci y = E1 + E 2 x, bodový odhad y(5,4), intervalové odhady E1 , E 2 a y(5,4) se spolehlivostí 0,95, a koeficient korelace. V ý s l e d e k: y | 0,7744 + 1,1190 x; E1 < 0,3095; 1,2394 >; E 2 < 1,0524; 1,1856 >; y(5,4) | 6,8171; y(5,4) < 6,6350; 6,9992 >, resp. < 6,3710; 7,2632 >; r | 0,999082 - 53 - PĜíklad 4.3 Poptávka po urþitém výrobku y* (v tis. ks) pĜi jeho rĤzných cenách x* (Kþ) zjištČná statistickým prĤzkumem uvedena v tabulce: xi 100 110 140 160 200 yi 120 89 56 41 22 VyjádĜete závislost poptávky na cenČ mocninnou regresní funkcí y G J x , urþete bodové a intervalové odhady (se spolehlivostí 0,95) regresních koeficientĤ a poptávky pro cenu výrobku 120 Kþ. (Návod: logaritmujte mocninnou funkci.) V ý s l e d e k: ln y* | 15,64395 2,36035 ln x* ; y 6,224 106 x 2,36 ; ln J = E1 < 13,95342; 17,33448 >; G = E 2 < -2,37817; -2,34253 >; y*(120) | 77; y*(120) < 69,8; 84,9 >, resp. < 62,0; 95,6 > PĜíklad 4.4 U 6 výrobkĤ jedné firmy byly zjištČny náklady y (Kþ) a ceny x (Kþ): xi 40 64 34 15 57 45 yi 33 46 23 12 56 40 Urþete regresní funkci y = E1 + E2 x, bodový odhad rozptylu V 2 , intervalový odhad koeficientu E2 se spolehlivostí 0,95 a testujte hypotézu E2 = 0 na hladinČ významnosti 0,05. V ý s l e d e k: y = 1,3082 + 0,8543 x; V 2 | 39,8439; E2 ¢0,404; 1,305², takže hypotézu zamítáme PĜíklad 4.5 Pro posouzení závislosti letošní poptávky y na loĖské poptávce x na jistý druh zboží byly u 6 obchodníkĤ zjištČny údaje (ks): xi 20 60 70 100 150 260 yi 50 60 60 120 230 320 Urþete bodové a intervalové odhady (se spolehlivostí 95 %) koeficientĤ regresní pĜímky a hodnoty letošní poptávky pro loĖskou poptávku 110 kusĤ. Na hladinČ významnosti 5 % testujte hypotézu, že E1 = 0 a urþete koeficient korelace. V ý s l e d e k: y | 0,687 + 1,266x; E1 < -57,194; 58,568 >; E 2 < 0,836; 1,696 >; y(110) | 140; y(110) < 106,55; 173,45 >, resp. < 51,50; 228,50 >; - 54 - hypotézu nezamítáme; r | 0,97198 PĜíklad 4.6 Pozorováním množství y prodaných akcií v závislosti na odchylce ceny x (kþ) jedné akcie firmy STAMET od emisní hodnoty byla získána data: xi -60 -32 -15 1 15 30 55 yi 781 824 840 855 868 882 897 VypoþtČte regresní funkci y = E1 + E2 x, bodový odhad rozptylu V 2 , intervalový odhad koeficientu E2 se spolehlivostí 0,95 a bodový i intervalový odhad hodnoty y pro x = 30 a x = 15. V ý s l e d e k: y = + 0,991x; V 2 | 46,67; E2 ¢0,773; 1,208²; y(30) | 820,7; y(30) ¢810,6; 830,8²; y(15) | 865,3; y(15) ¢861,8; 868,8² PĜíklad 4.7 Velikost þistého zisku y* (tis. Kþ) firmy STATEX v prvních 6 letech x* její þinnosti je v následující tabulce: xi 1 2 3 4 5 6 yi 112 149 238 354 580 867 Aproximujte data exponenciální regresní funkcí y* = J exp(G x*) a urþete bodové i intervalové odhady (se spolehlivostí 95 %) regresních koeficientĤ a pĜedpovČdi zisku v 7. roce þinnosti firmy, a koeficient korelace. (Návod: logaritmujte exponenciální funkci.) V ý s l e d e k: ln y* | 4,22798 + 0,42020 x*; y* = 68,57875 exp(0,42020 x*); J = exp( E1 ) < 59,40715; 79,16632 >; G = E 2 < 0,38333; 0,45706 >; y*(7) | 1299,04; y*(7) < 1125,30; 1499,59 >, resp. < 1052,24; 1603,71 >; r | 0,99801 pro linearizovanou regresní funkci PĜíklad 4.8 MČĜením byly získány hodnoty: xi 0,75 1,50 2,25 3,00 3,75 4,50 5,10 6,10 6,70 7,50 yi 0,017 0,046 0,075 0,110 0,142 0,167 0,188 0,224 0,262 0,282 Urþete regresní funkci y = E1 + E2 x, vypoþtČte bodový odhad rozptylu V 2 , testujte hypotézu - 55 - E1 = 0 na hladinČ významnosti 5 % a vypoþtČte intervalový odhad koeficientu E2 se spolehlivostí 95 %. V ý s l e d e k: y = 0,012009 + 0,039686x; V 2 | 2,0710-5; hypotézu E1 = 0 zamítáme; E2 ¢0,038066; 0,041064² PĜíklad 4.9 Na souĜadnicové vrtaþce byla za teploty 20 qC nastavena vzdálenost 1 m od poþátku souĜadné soustavy a mČĜena diference y (m) mezi skuteþnou a nastavenou vzdáleností v závislosti na pĜírĤstku teploty x (qC): xi yi 10 20 30 40 50 60 0,00018 0,00035 0,00048 0,00065 0,00084 0,00097 Pomocí regresní funkce y = E1 + E 2 x vypoþtČte bodový a intervalový odhad chyby poþáteþního nastavení E1 , koeficientu tepelné roztažnosti E 2 a skuteþné vzdálenosti d = y + 1 od poþátku souĜadné soustavy pro teplotu 35 qC se spolehlivostí 95 %. V ý s l e d e k: E1 | 1,9333310-5 m; E1 ¢-2,3175610-5; 6,1842310-5² m; E 2 | 1,5971410-5 mqC-1; E 2 ¢1,4879910-5; 1,7063010-5² mqC-1; d(35) | 1,000578333 m; d(35) ¢1,00055966910-5; 1,00059699810-5² m, resp. d(35) ¢1,00052895310-5; 1,00062771410-5² m; PĜíklad 4.10 Urþete odhad regresní funkce y E1 E 2 x1 E 3 x2 a vypoþtČte intervalové odhady koeficientu E 2 , E 3 se spolehlivostí 0,95, jestliže pro každou dvojici (x1, x2) je Y náhodná veliþina s normálním rozdČlením a veliþiny Y jsou pro rĤzné dvojice (x1, x2) nezávislé. Experimentem byla získána data uvedená v tabulce: x1i 1,0 3,0 3,0 5,0 7,0 7,0 9,0 11,0 11,0 13,0 x2 i 0,2 0,7 0,1 0,3 0,2 0,6 0,2 0,2 0,7 0,5 yi 2,0 2,8 5,3 5,9 7,4 5,6 8,7 11,2 10,4 13,2 V ý s l e d e k: y = 1,82 + 0,918x1 – 2,7x2 ; V 2 = 0,5419; E 2 0, 768;1, 068 ; E 3 5, 291; 0,119 PĜíklad 4.11 U osobního automobilu byla mČĜena spotĜeba paliva y (v litrech na 100 km) v závislosti na - 56 - jeho rychlosti x (km/hod.) za konstantních podmínek. Byly získány hodnoty: xi 40 50 60 70 80 90 100 yi 6,4 6,1 6,3 6,8 7,1 8,4 10,3 Urþete regresní funkci y E1 E 2 x E 3 x 2 , bodový odhad rozptylu V 2 a na hladinČ významnosti 0,05 testujte hypotézu, že závislost je lineární (tj. E 3 V ý s l e d e k: y 0 ). 11, 693 2, 073 101 x 1, 917 102 x 2 ; V 2 = 5,20210-2 ; hypotézu E 3 zamítáme, neboĢ 0 ¢1,59010-3 ; 2,24210-3² pro spolehlivost 1 D 0, 95 Kontrolní otázky 1. Co se rozumí regresní analýzou a jaký je statistický princip regresní analýzy? 2. Definujte regresní funkci a lineární regresní funkci? 3. Na jakých pĜedpokladech je založen lineární regresní model? 4. Jaké odhady a testy statistických hypotéz používáme v regresní analýze? 5. Jaký je rozdíl mezi odhady stĜední a individuální funkþní hodnoty regresní funkce? 6. Jak posuzujeme vhodnost vypoþtené regresní funkce? 7. Uvećte konkrétní pĜíklady lineární a nelineární regresní funkce. 8. Uvećte konkrétní aplikaci regresní analýzy ve svém oboru. - 57 - 0 5 ANALÝZA ROZPTYLU Motivace a základní pojmy V ekonomických, finanþních a výrobních aplikacích statistických metod se þasto setkáváme s problémy posouzení vlivu nČjakých faktorĤ na pozorovanou náhodnou veliþinu. Jde napĜíklad o ovČĜení vlivu výše vzdČlání na velikost pĜíjmu jedince, druhu obchodu na cenu daného zboží, typu reklamy a vČkové kategorie zákazníka na objem jím nakupovaného zboží, dne v týdnu a smČny na kvalitu výroby, banky a þasu na kurz mČnové jednotky apod. Uvažované faktory mají obvykle charakter kategoriálního znaku, který nabývá známých a rozlišitelných hodnot. V dále popsaných základních metodách jde sice pĜevážnČ o posouzení vlivu faktorĤ na stĜední hodnotu pozorované náhodné veliþiny, ale vlastní analýza vychází z rozptylu pozorovaných hodnot této veliþiny, takže hovoĜíme o analýze rozptylu, jejíž zkratka je ANOVA (z anglického „analysis of variance“). Analýzu rozptylu rozlišujeme podle poþtu ovlivĖujících faktorĤ (tĜídících znakĤ). V pĜípadČ jednoho znaku A hovoĜíme o analýze rozptylu jednoduchého tĜídČní, v pĜípadČ dvou znakĤ A a B jde o analýzu rozptylu dvojného tĜídČní. Analýzu rozptylu dvojného tĜídČní se dvČma tĜídícími znaky A, B dále rozdČlujeme na analýzu bez interakce tČchto znakĤ, když nepĜedpokládáme jejich spoleþné pĤsobení, a na analýzu s interakcí tČchto znakĤ, když uvažujeme jejich spoleþné pĤsobení, tj. jakoby tĜetího znaku oznaþeného AB. V pĜípadČ vČtšího poþtu tĜídících znakĤ pak jde o modely s dalšími možnými interakcemi. Poznamenejme ještČ, že „ruþní“ zpracování analýzy rozptylu je únosné nejvýše pro analýzu rozptylu s jedním nebo dvČma tĜídícími znaky. Metody analýzy rozptylu jsou velmi rozpracované a implementované do profesionálního statistického softwaru a þásteþnČ i do Excelu. Analýza rozptylu jednoduchého tĜídČní (ANOVA 1) PĜedpokládáme, že pozorováním náhodné veliþiny X byl získán statistický soubor x1 ,..., xn s rozsahem n a dále, že znak A nabývá I rĤzných kvalitativních hodnot A1 ,..., AI , kde I t 2 . PĜitom hodnotČ Ai daného znaku odpovídá skupina xi1 ,..., xini s rozsahem ni , i 1,..., I , prvkĤ pĤvodního statistického souboru tak, že je pĤvodní soubor statistický soubor x1 ,..., xn I rozdČlen do I disjunktních skupin (podsouborĤ). ZĜejmČ je ¦n i i 1 rozptylu používáme tyto þíselné charakteristiky: - 58 - n . Pro zpracování analýzy xi < ni a) aritmetický prĤmČr i-té skupiny xi < prvkĤ i-té skupiny, i b) celkový prĤmČr x<< 1 ni ni ¦ xij , kde xi < j 1 ni ¦x ij je souþet j 1 1,..., I , x<< n 1 I ¦ ni xi < , kde x<< ni1 I ni I ¦x ¦¦ x i< ij i 1 je souþet všech i 1 j 1 prvkĤ pĤvodního souboru. Analýza rozptylu jednoduchého tĜídČní vychází z modelu ve tvaru P Di Eij , X ij kde Eij jsou nezávislé náhodné veliþiny s normálním rozdČlením N(0, V 2 ) a P , D i , V 2 jsou neznámé parametry. Hypotéze, že znak A nemá vliv na pozorovanou náhodnou veliþinu X, odpovídá sdružená hypotéza H : D1 " DI 0 s alternativní hypotézou H , že aspoĖ jedno D i je rĤzné od ostatních D k , tj. že znak A má vliv na náhodnou veliþinu X. Pro testování použijeme rozklad souþtu þtvercĤ S A Se , St kde I a) celkový souþet þtvercĤ St nI ¦¦ x ij x<< I 2 ¦¦ x ij i 1 j 1 ¦n x i i< x<< i 1 I c) reziduální souþet þtvercĤ Se 2 x<< nI ¦¦ x ij xi < 2 2 2 I xi < i 1 ni ¦ , n i 1 j 1 I b) souþet þtvercĤ mezi skupinami S A nI 2 x<< 2 n , St S A . i 1 j 1 Hypotézu H testujeme pomocí testovacího kritéria F s oborem nezamítnutí W D rozdČlení s k1 I 1 a k2 SA I 1 Se nI 0; F1D , kde F1D je 1 D -kvantil Fisherova-Snedecorova n I stupni volnosti – viz tabulku T4. Pro I 2 mĤžeme použít StudentĤv dvouvýbČrový test, avšak nikoli pro I ! 2 všechny dvouvýbČrové testy, protože vzniká problém s nastavením hladiny významnosti a závislostí testových kritérií. Testování zapisujeme obvykle do následující tabulky analýzy rozptylu: - 59 - Zdroj variability Souþet þtvercĤ Poþet stupĖĤ volnosti Podíl Znak A SA I 1 S A / I 1 Reziduální Se nI Se / n I S A / I 1 Se / n I --- Celkový St n 1 --- --- Testové kritérium PĜi výpoþtu na PC bývá tabulka zprava doplnČna o sloupec obsahující P-hodnotu, která umožĖuje test bez použití kvantilu F1D . Jestliže pĜijmeme alternativní hypotézu, že daný tĜídící znak má vliv na tĜídČní, pak obvykle testujeme tzv. kontrasty, tj. hledáme dvojice Ai a Ak , které vliv tĜídícího znaku zpĤsobují. Použijeme k tomu postupnČ hypotézy H : Di i 1,..., I , k D k s alternativami H : Di z D k pro 1,..., I , i k . Tyto hypotézy mĤžeme testovat Studentovým dvouvýbČrovým testem anebo pomocí adekvátního testového kritéria xi < xk < ni nk ni nk I 1 Se nI F se stejným oborem nezamítnutí W D 2 0; F1D jako má pĤvodní sdružená hypotéza o vlivu znaku A. Pro úplnost analýzy rozptylu je zapotĜebí rozhodnout, zda všechny rozptyly V i2 náhodných veliþin odpovídajících jednotlivým skupinám jsou stejné. Jde o test sdružené hypotézy H : V 12 " V I2 s alternativou, že aspoĖ dva rozptyly jsou rĤzné. NejþastČji se k tomu používá BartlettĤv test s kritériem I 1ª º 2 ln n I s ni 1 ln si2 » , ¦ « C¬ i 1 ¼ B kde C 1 § I 1 1 1 · ¨¦ ¸, 3 I 1 © i 1 ni 1 n I ¹ s 2 1 ni xij xi < ¦ ni 1 j 1 s2 1 nI 2 i I ¦ n i 1 si2 i 1 - 60 - 2 1 § ni 2 xi < · ¨ ¦ xij ¸, ni 1 ¨© j 1 ni ¸¹ Se . nI 0, F12D , kde F12D je 1 D -kvantil Pearsonova Obor nezamítnutí hypotézy H je W D I 1 stupni volnosti – viz tabulku T3. Jde o pĜibližný, ale plnČ rozdČlení chí-kvadrát s k dostaþující test. Poznamenejme, že zamítnutí sdružené hypotézy o skupinových rozptylech má také za následek odhalení vlivu znaku A na pozorovanou náhodnou veliþinu X. Další testy používané pĜi analýze rozptylu jednoduchého tĜídČní (vþetnČ neparametrického Kruskalova-Wallisova testu) a metodách analýzy rozptylu s více tĜídícími znaky bez i s interakcemi lze nalézt napĜ. v [2], [3], [4], [6], [10], [22], [28]. PĜíklad 5.1 Sledováním mČsíþních platĤ (v tisících Kþ) tĜí pracovníkĤ vykonávajícím stejnou práci bČhem pĤl roku byly získány následující údaje, kde Ai odpovídá i-tému pracovníku, i 1, 2, 3 , a xij jsou jeho mČsíþní platy: A1 … x1 j = 22; 20; 19; 20; 21; 19, A2 … x2 j = 20; 22; 21; 22; 24; 23, A3 … x3 j = 29; 28; 26; 26; 27; 25. Pomocí ANOVA 1 testujeme na hladinČ významnosti 0,05 hypotézu, že stĜední mČsíþní platy všech tĜí pracovníkĤ jsou stejné. ě e š e n í: Pomocné výpoþty jsou v tabulce: j x1 j x2 j x3 j x12j x22 j x32 j 1 22 20 29 484 400 841 2 20 22 28 400 484 784 3 19 21 26 361 441 676 4 20 22 26 400 484 676 5 21 24 27 441 576 729 6 19 23 25 361 529 625 6 121 132 161 2447 2914 4331 66 Ze zadání I 414 3, n 18 , n1 I St nI n2 ¦¦ xij i 1 j 1 2 9692 n3 x<< n 6 a z tabulky pomocných výpoþtĤ dostaneme 2 9692 - 61 - 4142 18 170 , I SA ¦ xi < ni i 1 Se 2 x<< 2 1212 1322 1612 414 2 142, 33333 , 6 6 6 18 n St S A 170 142, 33333 Poþty stupĖĤ volnosti jsou I 1 2 a n I 27, 66667 , 15 , takže S A / I 1 142, 33333 / 2 71,16667 , Se / n I 27, 66667 /15 1,84444 , F SA I 1 71,16667 38, 58434 . Se 1,84444 nI Tabulka analýzy rozptylu pak je: Zdroj variability Souþet þtvercĤ Poþet stupĖĤ volnosti Podíl Testové kritérium Znak A 142,33333 2 71,66667 38,58434 Reziduální 27,66667 15 1,84444 --- Celkový 170,00000 17 --- --- Pro k1 I 1 2 a k2 nI 15 stupĖĤ volnosti je F0,975 4, 765 z tabulky T4. Tabulka T4 neobsahuje kvantily F0,95 , ale je F0,95 F0,975 , což k našemu testu staþí, ale napĜ. z Excelu pomocí funkce FINV dostaneme F0,95 3, 682 . Protože F 38,58434 W 0,.05 0; 3,862 , zamítáme sdruženou hypotézu H o stejných stĜedních mČsíþních platech na hladinČ významnosti 0,05. Testujeme proto dále kontrasty, tj. rozdíly stĜedních mČsíþních platĤ dvojic pracovníkĤ. Z tabulky pomocných výpoþtĤ je x1< x1< n1 x2 < n2 121 20,16667 , x2 < 6 132 6 22, 00000 , x3< x3< n3 161 26,83333 . 6 PĜi testech kontrastĤ obdržíme: a) 1. pracovník l 2. pracovník: x1< x2< F I 1 Se nI 2 20,16667 22, 00000 n1n2 n1 n2 2 1,84444 2 66 2, 73343 W 0,.05 66 0; 3,862 , takže hypotézu o rovnosti stĜedních mČsíþních platĤ 1. a 2. pracovníka nezamítáme, - 62 - b) 1. pracovník l 3. pracovník: x1< x3< F 2 20,16667 26,83333 n1n3 n1 n3 I 1 Se nI 2 66 36,14458 W 0,.05 66 2 1,84444 0; 3,862 , takže hypotézu o rovnosti stĜedních mČsíþních platĤ 1. a 3. pracovníka zamítáme, c) 2.pracovník l 3. pracovník: x2< x3< F I 1 Se nI 2 22, 00000 26,83333 n2 n3 n2 n3 2 2 1,84444 66 38, 99849 W 0,.05 66 0; 3,862 , takže hypotézu o rovnosti stĜedních mČsíþních platĤ 2. a 3. pracovníka zamítáme. Pro BartlettĤv test rovnosti skupinových rozptylĤ je: 1 C § I 1 1 1 · 1 §1 1 1 1 · ¨¦ ¸ 1 ¨ ¸ 1,08889 , 3 I 1 © i 1 ni 1 n I ¹ 3 2 © 5 5 5 15 ¹ 2 1 2 1 § n1 2 x1< · ¨ ¦ x1 j ¸ n1 1 ¨© j 1 n1 ¸¹ 2 2 2 1 § n2 2 x2 < · ¨ ¦ x2 j ¸ n2 1 ¨© j 1 n2 ¸¹ 1§ 1322 · 2914 ¨ ¸ 5© 6 ¹ 2 3 s 2 1 § n3 2 x3< · ¨ ¦ x3 j ¸ n3 1 ¨© j 1 n3 ¸¹ 1§ 1612 · 4331 ¨ ¸ 2,16667 , 5© 6 ¹ s2 Se 1,84444 , nI s s 1§ 1212 · ¨ 2447 ¸ 1, 36667 , 5© 6 ¹ 2, 00000 , takže I 1ª º 2 ln n I s ni 1 ln si2 » ¦ « C¬ i 1 ¼ B Protože B 1 ª15ln1,84444 5ln1, 36667 5ln 2 5ln 2,16667 º¼ 0, 26548 . 1, 08889 ¬ 0, 26548 W 0,95 2 0;5, 991 , kde F 0,95 5, 991 pro k I 1 2 stupĖĤ volnosti z tabulky T3, nezamítáme sdruženou hypotézu o rovnosti skupinových rozptylĤ. Na obr. 5.2 jsou pro ilustraci krabicové grafy skupin (mČsíþních platĤ jednotlivých pracovníkĤ), které naznaþují nenormální rozdČlení pravdČpodobnosti (kladná asymetrie pro 1. a 3. pracovníka), takže by bylo pro analýzu rozptylu adekvátnČjší použít neparametrický - 63 - KruskalĤv-WallisĤv test [2], [3]. Vzhledem k tomu, že rozsahy skupin jsou pomČrnČ malé, to ale není zcela nezbytné. Box-and-Whisker Plot 1 A 2 3 19 21 23 25 27 29 X Obr. 5.2 Test sdružené hypotézy H o rovnosti stĜedních hodnot v analýze rozptylu s jedním nebo dvČma tĜídícími znaky (faktory) mĤžeme také realizovat snadno v Excelu, kde zvolíme Nástroje/Analýza dat/Analýza: jeden faktor. Ukázka kompletního výstupu této analýzy pro náš pĜíklad 5.1 je v následující tabulce: Anova: jeden faktor Faktor VýbČr Poþet Souþet PrĤmČr Rozptyl A1 6 121 20,16667 1,366667 A2 6 132 A3 6 161 26,83333 2,166667 22 2 ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výbČry 142,3333 2 71,16667 38,58434 1,22E-06 3,682317 Všechny výbČry 27,66667 15 1,844444 Celkem 170 17 PĜíklady k procviþení PĜíklad 5.2 U þtyĜ odrĤd brambor oznaþených A1 , A2 , A3 , A4 se zjišĢovala celková hmotnost brambor vyrostlých vždy z jednoho trsu. Výsledky (v kg) jsou v následující tabulce: - 64 - OdrĤda Hmotnost A1 0,9 0,8 0,6 0,9 A2 1,3 1,0 1,3 A3 1,3 1,5 1,6 1,1 1,5 A4 1,1 1,2 1,0 Na hladinČ významnosti 0,05 testujte hypotézu, že stĜední hodnota hmotnosti trsu brambor nezávisí na odrĤdČ. Zamítnete-li nulovou hypotézu, zjistČte, které dvojice odrĤd se liší na hladinČ významnosti 0,05. V ý s l e d e k: k1 3 , k2 11 , F 9, 97 W 0,95 0; 3, 59 ; hypotézu o nezávislosti na odrĤdČ zamítáme; statisticky významnČ se liší pouze odrĤdy A1 a A3 PĜíklad 5.3 Ve firmČ PRASTAT se mČĜil þas, který potĜeboval každý ze tĜí dČlníkĤ D1, D2 a D3 k uskuteþnČní téhož pracovního úkonu. Dosažené þasy v minutách: D1 3,6 3,8 3,7 3,5 D2 4,3 3,9 4,2 3,9 4,4 4,7 D3 4,2 4,5 4,0 4,1 4,5 4,4 Na hladinČ významnosti 0,05 testujte hypotézu, že výkony tČchto tĜí dČlníkĤ jsou stejné. Zamítnete-li tuto hypotézu, urþete dvojice dČlníkĤ, jejichž výkony se liší na dané hladinČ významnosti. V ý s l e d e k: k1 2 , k2 13 , F 9, 665 W 0,05 0; 3,806 ; hypotézu o stejných výkonech zamítáme; liší se výkony dvojic dČlníkĤ (D1,D2), (D1,D3) a neliší se (D2,D3). PĜíklad 5.4 Pracovníci vybrané firmy byly školeni z metod Ĝízení jakosti za využití pČti výukových metod: tradiþní zpĤsob, programová výuka, audiotechnika, audiovizuální technika a vizuální technika. Z každé skupiny byl vybrán náhodný vzorek pracovníkĤ a všichni byli podrobeni témuž písemnému testu. Na hladinČ významnosti 0,05 testujte hypotézu, že znalosti všech pracovníkĤ jsou stejné a nezávisí na použité výukové metodČ. V pĜípadČ zamítnutí hypotézy zjistČte, které metody se liší na hladinČ významnosti 0,05. Dosažené body dle metod jsou v následující tabulce: - 65 - tradiþní 76,2 48,3 85,1 63,7 91,6 87,2 programová 85,2 74,3 76,5 80,3 67,4 67,9 72,1 60,4 metoda audio 67,3 60,1 55,4 72,3 40 audiovizuální 75,8 81,6 90,3 78 67,8 57,6 vizuální V ý s l e d e k: k1 4 , k2 50,5 70,2 88,8 67,1 77,7 73,9 26 , F 1, 624 W 0,05 0; 2, 743 ; hypotézu nezamítáme, znalosti nezávisí na použité výukové metodČ PĜíklad 5.4 Student soukromé vysoké školy Akademie Sting v BrnČ mĤže cestovat ze svého brnČnského bydlištČ do školy tĜemi rĤznými zpĤsoby: trolejbusem (A), autobusem (B) a osobním autem (C). Máme k dispozici jeho namČĜené þasy cestování do školy v dobČ ranní špiþky (vþetnČ þekání na pĜíslušný spoj) v minutách: A 32 39 42 37 34 B 30 34 28 26 32 C 40 37 31 39 38 38 33 34 Na hladinČ významnosti 0,05 testujte hypotézu, že doba cestování do práce nezávisí na zpĤsobu dopravy. V pĜípadČ zamítnutí nulové hypotézy zjistČte, které zpĤsoby dopravy do práce se od sebe liší na hladinČ významnosti 0,05. V ý s l e d e k: k1 2 , k2 15 , F 6, 715 W 0,05 0; 3, 682 ; hypotézu zamítáme, zpĤsob dopravy má vliv na dobu cestování; neliší se zpĤsoby (A,C) a liší se zpĤsoby (A,B) a (B,C) Kontrolní otázky 1. Popište motivaci analýzy rozptylu a uvećte pĜíklady na ANOVA 1 a ANOVA 2 bez i s interakcí. 2. Popište model ANOVA 1 pro sdruženou hypotézu stĜedních hodnot. 3. Co rozumíme rozkladem celkového souþtu þtvercĤ? 4. Kdy a jakým zpĤsobem testujeme kontrasty a rovnost skupinových rozptylĤ? - 66 - 6 KATEGORIÁLNÍ ANALÝZA Motivace PĜi statistickém vyhodnocování prĤzkumu napĜ. zájmu o výrobky, služby, zboží a úspČšnosti reklamy jde þasto o posouzení a postižení závislosti a vzájemného ovlivĖování sledovaných vícerozmČrných kategoriálních (kvalitativních) znakĤ jak nominálního, tak i ordinálního typu. Vycházíme pĜitom pĜevážnČ pouze z absolutních þetností nastoupení náhodných jevĤ, které odpovídají uvažovaným kategoriálním znakĤm. Byla proto vypracována Ĝada efektivních metod tzv. kategoriální analýzy pro aplikace v rĤzných oblastech: sociologie, marketing, psychologie, medicína, pedagogika apod. Tyto metody jsou povČtšinou implementovány do profesionálního statistického softwaru, neboĢ pĜi statistických šetĜeních dostáváme v souþasné dobČ velmi rozsáhlé databázové soubory, pro nČž není „ruþní“ zpracování únosné. V této kapitole je pouze nepatrný nástin tČchto metod a více mĤžeme nalézt v [2], [3], [22], [28]. PearsonĤv test nezávislosti a homogenity MČjme náhodný vektor X , Y s koneþným diskrétním sdruženým rozdČlením pravdČpodobnosti, pĜiþemž náhodná veliþina X nabývá hodnot i j 1,..., r a náhodná veliþina Y hodnot 1,..., c , kde r t 2 a c t 2 . PĜedpokládejme, že se uskuteþnil náhodný výbČr o rozsahu n t 4 z X , Y a nij je poþet pĜípadĤ, kdy se ve výbČru vyskytla dvojice i, j . Matice absolutních þetností nij má pak multinomické rozdČlení pravdČpodobnosti s parametrem n a s pravdČpodobnostmi pij . Pozorované hodnoty nij zapisujeme do tzv. kontingenþní tabulky: Y X c kde nix 1 … c 6 1 n11 … n1c n1x … … … … … r nr 1 … nrc nr x 6 nx1 … nx c n ¦ nij , nx j j 1 r ¦ nij jsou marginální þetnosti a platí n i 1 - 67 - r ¦ nix i 1 c ¦ nx j j 1 r c ¦¦ n ij i 1 j 1 . Test nezávislosti X a Y je ekvivalentní testu sdružené hypotézy H : pij všechny dvojice i, j , kde pix pix px j pro r c ¦p ij a px j j 1 ¦p ij jsou tzv. marginální pravdČpodobnosti i 1 složek X a Y náhodného vektoru X , Y . Hypotézu H testujeme pomocí Pearsonova testového kritéria F 2 nix nx j · § n ¸ r c ¨ ij n ¹ © ¦¦ nix nx j i 1 j 1 2 r c n ¦¦ i 1 j 1 nij2 nix nx j n. n Hypotézu H nezamítáme na hladinČ významnosti D, jestliže F 2 WD 0; F12D , kde F12D je 1 D -kvantil Pearsonova (chí-kvadrát) rozdČlení s stupni volnosti – viz r 1 c 1 k tabulku T3. Test je asymptotický a obvykle požadujeme, aby pro všechny dvojice i, j bylo nix nx j n ! 5. Uvedený test lze také použít k tzv. testu homogenity, kdy testujeme hypotézu, že pozorované þetnosti ve všech Ĝádcích kontingenþní tabulky mají multinomická rozdČlení pravdČpodobnosti s parametry nix a se stejnými pravdČpodobnostmi q j j p1 j " prj , 1,..., c . Místo ĜádkĤ mĤžeme se stejným výsledkem testu zapsat pozorované þetnosti do sloupcĤ kontingenþní tabulky. Jestliže r 2 a c 2 , jde o tzv. þtyĜpolní tabulku pro alternativní (dichotomické) statistické znaky X a Y (napĜ. pro odpovČdi respondentĤ „ano“ anebo „ne“). Pro dostateþnČ velké þetnosti nij mĤžeme opČt použít PearsonĤv test nezávislosti X a Y s výše uvedeným testovým kritériem anebo ve tvaru F Poþet stupĖĤ volnosti je k 2 n n11n22 n12 n21 n1x n2x nx1nx2 2 . 1 . Tento test lze také aplikovat pĜi testování hypotézy o rovnosti parametrĤ dvou binomických rozdČlení místo testu uvedeného v kapitole 3. PĜíklad 6.1 PrĤzkumem bylo zjištČno hodnocení televizního seriálu u jednotlivých skupin televizních divákĤ. Hodnocení mČlo škálu: výborný, velmi dobrý, dobrý, špatný. Byly zvoleny skupiny divákĤ podle jejich nejvyššího dosaženého vzdČlání: ZŠ, SŠ, VŠ. Pomocí Pearsonova testu - 68 - posućte na hladinČ významnosti 0,05 závislost hodnocení televizního seriálu a nejvyššího dosaženého vzdČlání televizních divákĤ, jestliže byly získány þetnosti: Hodnocení televizního seriálu VzdČlání Výborný Velmi dobrý Dobrý Špatný ZŠ 9 15 4 4 SŠ 6 11 14 5 VŠ 5 7 10 13 ě e š e n í: Pomocné výpoþty byly „ruþnČ“ provedeny v Excelu a jsou uvedeny v následující tabulce, kde vnitĜní buĖky (ve 2. až 4. Ĝádku a 2. až 5. sloupci) obsahují tyto hodnoty: nij nix nx j n nij nix nx j n nix nx j · § ¨ nij ¸ n ¹ © Y 2 nix nx j n Výborný Velmi dobrý Dobrý Špatný 6 ZŠ 9 6,21359223 2,78640777 1,24952973 15 10,2524272 4,74757282 2,19844991 4 8,69902913 -4,6990291 2,53831484 4 6,83495146 -2,8349515 1,17586055 32 32 0 7,162155 SŠ 6 6,99029126 -0,9902913 0,14029126 11 11,5339806 -0,5339806 0,02472132 14 9,78640777 4,21359223 1,81418554 5 7,68932039 -2,6893204 0,94058301 36 36 0 2,9197811 VŠ 5 6,7961165 -1,7961165 0,47468793 7 11,2135922 -4,2135922 1,5832892 10 9,51456311 0,48543689 0,02476719 13 7,47572816 5,52427184 4,08222166 35 35 0 6,164966 6 20 33 28 22 103 X F 2 16,246902 - 69 - Z tabulky vidíme, že hodnota testového kritéria je 2 F2 nix nx j · § n ij ¨ ¸ 3 4 n ¹ © 16, 247 . ¦¦ nix nx j i 1 j 1 n Poþet stupĖĤ volnosti k 3 1 4 1 6 a kritická hodnota pro hladinu významnosti 0,05, 2 tj. 0,95-kvantil chí-kvadrát rozdČlení se 6 stupni volnosti, je z tabulky T3 F 0,95 12, 592 , takže na této hladinČ významnosti hypotézu o nezávislosti zamítáme. Pro významnost 0,01 je však kritická hodnota 16,812, takže na této hladinČ významnosti hypotézu o nezávislosti nezamítáme. PĜíklady k procviþení PĜíklad 6.2 Celkem 180 náhodnČ vybraných matek bylo dotázáno, zda jejich kojenec dostává dudlík. ZjišĢoval se též nejvyšší stupeĖ dosaženého vzdČlání matky. ZjištČné þetnosti jsou v tabulce: VzdČlání matky Poþet matek Poþet dČtí s dudlíkem Základní 39 27 StĜedoškolské 47 34 Vysokoškolské 18 15 Na hladinČ významnosti 0,05 testujte hypotézu, že podíly dČtí s dudlíkem nezávisí na vzdČlání matky. V ý s l e d e k: k 2 , F2 0,19 W 0,95 0;5, 992 ; hypotézu o nezávislosti na vzdČlání nezamítáme PĜíklad 6.3 Na soukromou vysokou školu bylo pĜijato 142 studentĤ. Ti byli náhodnČ rozdČleni do skupin A, B, C, D. V každé skupinČ pĜedmČt M vyuþován jinou metodou. Na konci semestru roku psali všichni studenti stejnou písemnou práci a byly zaznamenány poþty studentĤ z jednotlivých skupin, kteĜí vyĜešili všechny zadané úkoly: Skupina A B C D Poþet studentĤ 35 36 37 34 Poþet úspČšných studentĤ 9 12 27 32 - 70 - Na hladinČ významnosti 0,05 testujte hypotézu, že rozdíly mezi skupinami jsou zpĤsobeny pouze náhodnými vlivy. V ý s l e d e k: k 3, F2 12, 66 W 0,95 0; 7,815 ; hypotézu zamítáme, metoda výuky ovlivnila výsledky (šlo také souþasnČ o test homogenity rozdČlení pravdČpodobnosti odpovídajících ĜádkĤm tabulky) PĜíklad 6.3 PrĤzkumem byl zjišĢován zájem mezi potenciálními zákazníky o nový typ mobilu s kamerou. Výsledky prĤzkumu u 140 respondentĤ jsou po roztĜídČní podle zájmu a toho, zda dotázaný je þi není majitel mobilu, v tabulce: Zájem Majitel mobilu Ano Ne Je 49 25 Není 30 36 Testujte, zda zájem o nový typ mobilu závisí na tom, zda zákazník již mobil vlastní. V ý s l e d e k: F 2 6,12 W 0,95 0; 3,841 ; na hladinČ významnosti 0,05 hypotézu o závislosti zájmu na vlastnictví mobilu zamítáme, F2 6,12 W 0,99 0; 6, 654 ; na hladinČ významnosti 0,01 hypotézu o závislosti zájmu na vlastnictví mobilu nezamítáme, (pro snížení pravdČpodobnosti chyby druhého druhu by bylo vhodné zvýšit rozsah výbČru a testovat hypotézu znovu) Kontrolní otázky 1. Popište motivaci a princip kategoriální analýzy na konkrétním pĜíkladu ze svého okolí. 2. Co je kontingenþní tabulka a jak se konstruuje? 3. Jaká omezení má PearsonĤv test nezávislosti? 4. Co rozumíme testem homogenity? 5. Kdy se používá þtyĜpolní tabulka? - 71 - LITERATURA Uþebnice a monografie 1. Aczel, A. D. Complete Business Statistics. Chicago : IRWIN, 1989. 2. AndČl, J. Matematická statistika. 1. vyd. Praha : SNTL/ALFA, 1978. 3. AndČl, J. Statistické metody. 1. vyd. Praha : MATFYZPRESS, 1993. 4. Bowerman, B. L. - O´Connell, R. T. Applied Statistics - Improving Business Processes. Chicago : IRWIN, 1997. 5. Cyhelský, L. - Kahounová, J. - Hindls, R. Elementární statistická analýza. 1. vyd. Praha : Management Press, 1996. 6. Dowdy, S. - Wearden, S. Statistics for Research. New York : John Wiley & Sons, Inc., 1983. 7. Hahn, G. J. - Shapiro, S. S. Statistical Models in Engineering. New York : John Wiley & Sons, Inc., 1994. 8. Hátle, J. - Likeš, J. Základy poþtu pravdČpodobnosti a matematické statistiky. 1. vyd. Praha : SNTL/ALFA, 1974. 9. Hebák, P. - Hustopecký, J. VícerozmČrné statistické metody. 1. vyd. Praha : SNTL/ALFA, 1987. 10. Hebák, P. - Hustopecký, J. PrĤvodce moderními statistickými metodami. 1. vyd. Praha : SNTL, 1990. 11. Chatterjee, S. - Price, B. Regression Analysis by Example. New York : John Wiley & Sons, Inc., 1991. 12. Kupka, K. Statistické Ĝízení jakosti. 1. vyd. Pardubice : TriloByte, 1997. 13. Lamoš, F. - Potocký, R. PravdepodobnosĢ a matematická štatistika. 1. vyd. Bratislava : ALFA, 1989. 14. Likeš, J. - Machek, J. Poþet pravdČpodobnosti. 1. vyd. Praha : SNTL, 1981. 15. Likeš, J. - Machek, J. Matematická statistika. 1. vyd. Praha : SNTL, 1983. 16. Meloun, M. - Militký, J. Statistické zpracování experimentálních dat. 1. vyd. Praha : PLUS, 1994. 17. Montgomery, D. C. - Renger, G. Probability and Statistics. New York : John Wiley & Sons, Inc., 1996. 18. Potocký, R. et. al. Zbierka úloh z pravdepodobnosti a matematickej štatistiky. 1. vyd. Bratislava : ALFA/SNTL, 1986. 19. Rao, C. R. Lineární metody statistické indukce a jejich aplikace. Praha : Academia, 1978. 20. Rényi, A. Teorie pravdČpodobnosti. 1. vyd. Praha : Academia, 1972. 21. Ryan, T. P.: Modern Regression Methods. New York : John Wiley & Sons, Inc., 1997. 22. Seger, J. - Hindls, R. Statistické metody v tržním hospodáĜství. 1. vyd. Praha : Victoria Publishing, 1995. 23. Swoboda, H. Moderní statistika. 1. vyd. Praha : Svoboda, 1977. - 72 - 24. ŠtČpán, J. Teorie pravdČpodobnosti. 1. vyd. Praha : Academia, 1987. 25. ŠĢastný, Z. Matematické a statistické výpoþty v Excelu. 1. vyd. Brno : Computer Press, 1999. 26. Sprinthall, R. C. Basic Statistical Analysis. 5th ed. Boston : Allyn and Bacon, 1997. 27. Triola, M. F. Elementary Statistics. Redwood City : B/C Publishing Comp., 1989. 28. Wonnacot, T. H. - Wonnacot, R. J. Statistika pro obchod a hospodáĜství. 1. vyd. Praha : Victoria Publishing, 1993. 29. Zvára, K. Regresní analýza. 1. vyd. Praha : Academia, 1989. 30. Zvára, K. - ŠtČpán, J. PravdČpodobnost a matematická statistika. 1. vyd. Praha : MATFYZPRESS, 1997. 31. Plesník, J. – Dupaþová, J. – Vlach, M. Lineárne programovanie. Bratislava : Alfa, 1990. 32. Taha, H. A. Operations Research: An Introduction. 8th r. e. New York : Macmillan, 2006. Uþební texty 33. Budíková, M. - Mikoláš, Š. - Osecký, P. Teorie pravdČpodobnosti a matematická statistika - Sbírka pĜíkladĤ. 1. vyd. Brno : MU, 1996. 34. Jarošová, E. Statistika B - ěešené pĜíklady. 1. vyd. Praha : VŠE, 1994. 35. Karpíšek, Z. PravdČpodobnostní metody. 6. vyd. Brno : FP VUT u vydavatele Ing. ZdenČk Novotný, CSc., 2003. 36. Karpíšek, Z. - Drdla, M. Statistické metody. 7. vyd. Brno : FP VUT u vydavatele Ing. ZdenČk Novotný, CSc., 2003. 37. Karpíšek, Z. - Drdla, M. Applied Statistics. 1. vyd. Brno : FP VUT v PC - DIR, 1999. 38. Karpíšek, Z. - Drdla, M. Aplikovaná statistika. 2. vyd. Brno : BIBS, 2003. 39. Karpíšek, Z. – Popela, P. – BednáĜ, J. Statistika a pravdČpodobnost. Uþební pomĤcka studijní opora pro kombinované studium. FSI VUT v CERM Brno, Brno 2002. 40. Koutková, H. - Moll, I. Úvod do pravdČpodobnosti a matematické statistiky. 1. vyd. Brno : ES VUT, 1990. 41. Kropáþ, J. Úvod do poþtu pravdČpodobnost a matematické statistiky. 1. vyd. Brno : VA, 2000. 42. Likeš, J. - Cyhelský, L. - Hindls, R. Úvod do statistiky a pravdČpodobnosti - Statistika A. 1. vyd. Praha : VŠE, 1995. 43. Michálek, J. Matematická statistika pro informatiky. 1. vyd. Praha : SPN, 1987. 44. Reif, J. Metody matematické statistiky. 1. vyd. PlzeĖ : Západoþeská univerzita, 2000. 45. Seberová, H. Statistika I, II. 1. vyd. Vyškov : VVŠ PV, 1995. 46. Šikulová, M. - Karpíšek, Z. Matematika IV - PravdČpodobnost a matematická statistika. 6. vyd. Brno : ES VUT, 1996. 47. Zapletal, J. Základy poþtu pravdČpodobnosti a matematické statistiky. 1. vyd. Brno : ES VUT, 1995. 48. Klapka, J. – DvoĜák, J. – Popela, P. Metody operaþního výzkumu. Brno: PC-DIR, 1996. - 73 - WWW odkazy 49. http://badame.vse.cz/ 50. http://davidmlane.com/hyperstat/ 51. http://home.zcu.cz/~friesl/Vyuka/Odkazy.html 52. http://math.uc.edu/~brycw/classes/147/blue/tools.htm#texts 53. http://www.graphpad.com/welcome.htm 54. http://www.math.csusb.edu/faculty/stanton/m262/index.html 55. http://www.md-stat.com/ 56. http://www.psychstat.smsu.edu/sbk00.htm 57. http://www.ruf.rice.edu/~lane/rvls.html 58. http://www.stat.sc.edu/rsrch/gasp/ 59. http://www.statsoft.com/textbook/stathome.html 60. http://www.statsoft.cz/ 61. http://www.trilobyte.cz/ 62. http://www.fme.vutbr.cz/opory/ 63. http://home.eunet.cz/berka/o/ 64. http://www.mujweb.cz/www/januska/ 65. http://www.fm.vslib.cz/~ksi/cz/mater/oa/linprog - 74 - STATISTICKÉ TABULKY T1 Hodnoty distribuþní funkce )(u) normovaného normálního rozdČlení N(0;1) u 0 1 0,0 0,50000 50399 0,1 53983 54380 0,2 57926 58317 0,3 61791 62172 0,4 65542 65910 0,5 69146 69498 0,6 72575 72907 0,7 75804 76115 0,8 78815 79103 0,9 81594 81859 1,0 84135 84375 1,1 86433 86650 1,2 88493 88686 1,3 90320 90490 1,4 91924 92073 1,5 93319 93448 1,6 94520 94630 1,7 95543 95637 1,8 96407 96485 1,9 97128 97193 2,0 97725 97778 2,1 98214 98257 2,2 98610 98645 2,3 98928 98956 2,4 99180 99202 2,5 99379 99396 2,6 99534 99547 2,7 99653 99664 2,8 99744 99752 2,9 99813 99819 3,0 99865 99869 3,1 99903 99906 3,2 99931 99934 3,3 99952 99953 3,4 99966 99968 3,5 99977 99978 3,6 99984 99985 3,7 99989 99990 3,8 99993 99993 3,9 99995 99995 4,00 99997 4,10 2 50798 54776 58707 62552 66276 69847 73237 76424 79389 82121 84614 86864 88877 90658 92220 93574 94738 95728 96562 97257 97831 98300 98679 98983 99224 99413 99560 99674 99760 99825 99874 99910 99936 99955 99969 99978 99985 99990 99993 99996 99998 3 4 5 6 51197 51596 51994 52392 55172 55567 55962 56356 59096 59484 59871 60257 62930 63307 63683 64058 66640 67003 67365 67724 70195 70540 70884 71226 73565 73892 74216 74537 76731 77035 77337 77637 79673 79955 80234 80511 82382 82639 82894 83147 84850 85083 85314 85543 87076 87286 87493 87698 89065 89251 89435 89617 90824 90988 91149 91309 92364 92507 92647 92786 93699 93822 93943 94062 94845 94950 95053 95154 95819 95907 95994 96080 96638 96712 96784 96856 97320 97381 97441 97500 97882 97932 97982 98030 98341 98382 98422 98461 98713 98745 98778 98809 99010 99036 99061 99086 99245 99266 99286 99305 99430 99446 99461 99477 99573 99585 99598 99609 99683 99693 99702 99711 99767 99774 99781 99788 99831 99836 99841 99846 99878 99882 99886 99889 99913 99916 99918 99921 99938 99940 99942 99944 99957 99958 99960 99961 99970 99971 99972 99973 99979 99980 99981 99981 99986 99986 99987 99987 99990 99991 99991 99992 99994 99994 99994 99994 99996 99996 99996 99996 4,20 99999 4,30 99999 4,40 7 52791 56750 60642 64431 68082 71566 74857 77935 80785 83398 85769 87900 89796 91466 92922 94179 95254 96164 96926 97558 98077 98500 98840 99111 99324 99492 99621 99720 99795 99851 99893 99924 99946 99962 99974 99982 99988 99992 99995 99996 99999 8 53188 53586 57143 57535 61026 61409 64803 65173 68439 68793 71904 72241 75175 75490 78231 78524 81057 81327 83646 83891 85993 86214 88100 88298 89973 90147 91621 91774 93056 93189 94295 94408 95352 95449 96246 96327 96995 97062 97615 97670 98124 98169 98537 98574 98870 98899 99134 99158 99343 99361 99506 99520 99632 99643 99728 99736 99801 99807 99856 99861 99896 99900 99926 99929 99948 99950 99964 99965 99975 99976 99983 99983 99988 99989 99992 99992 99995 99995 99997 99997 4,50 99999 Poznámka: )(u) = 1 )(u) ; u0,95 | 1,645; u0,975 | 1,960; u0,99 | 2,326; u0,995 | 2,576 . - 75 - 9 T2 Kvantily tP Studentova rozdČlení S(k) P k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 120 140 160 180 200 300 500 1000 f 0,95 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,690 1,684 1,679 1,676 1,671 1,667 1,664 1,662 1,660 1,658 1,656 1,654 1,653 1,653 1,650 1,648 1,646 1,645 0,975 0,99 0,995 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,030 2,021 2,014 2,009 2,000 1,994 1,990 1,987 1,984 1,980 1,977 1,975 1,973 1,972 1,968 1,965 1,962 1,960 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,438 2,423 2,412 2,403 2,390 2,381 2,374 2,368 2,364 2,358 2,353 2,350 2,347 2,345 2,339 2,334 2,330 2,326 63,656 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,724 2,704 2,690 2,678 2,660 2,648 2,639 2,632 2,626 2,617 2,611 2,607 2,603 2,601 2,592 2,586 2,581 2,576 0,999 0,9995 318,289 22,328 10,214 7,173 5,894 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,340 3,307 3,281 3,261 3,232 3,211 3,195 3,183 3,174 3,160 3,149 3,142 3,136 3,131 3,118 3,107 3,098 3,090 636,578 31,600 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,768 3,745 3,725 3,707 3,689 3,674 3,660 3,646 3,591 3,551 3,520 3,496 3,460 3,435 3,416 3,402 3,390 3,373 3,361 3,352 3,345 3,340 3,323 3,310 3,300 3,290 Poznámka: Pro 0 d P d 0,5 použijeme vztah tP = t1 P . - 76 - 2 T3 Kvantily F P2 Pearsonova rozdČlení F (k) P 0,005 0,01 0,025 0,05 0,95 0,975 0,99 0,995 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 0,000 0,010 0,072 0,207 0,412 0,676 0,989 1,344 1,735 2,156 2,603 3,074 3,565 4,075 4,601 5,142 5,697 6,265 6,844 7,434 8,034 8,643 9,260 9,886 10,520 11,160 11,808 12,461 13,121 13,787 14,458 15,134 15,815 16,501 17,192 17,887 18,586 19,289 19,996 20,707 21,421 22,138 22,860 23,584 24,311 0,000 0,020 0,115 0,297 0,554 0,872 1,239 1,647 2,088 2,558 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 8,897 9,542 10,196 10,856 11,524 12,198 12,878 13,565 14,256 14,953 15,655 16,362 17,073 17,789 18,509 19,233 19,960 20,691 21,426 22,164 22,906 23,650 24,398 25,148 25,901 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 10,283 10,982 11,689 12,401 13,120 13,844 14,573 15,308 16,047 16,791 17,539 18,291 19,047 19,806 20,569 21,336 22,106 22,878 23,654 24,433 25,215 25,999 26,785 27,575 28,366 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 11,591 12,338 13,091 13,848 14,611 15,379 16,151 16,928 17,708 18,493 19,281 20,072 20,867 21,664 22,465 23,269 24,075 24,884 25,695 26,509 27,326 28,144 28,965 29,787 30,612 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 44,985 46,194 47,400 48,602 49,802 50,998 52,192 53,384 54,572 55,758 56,942 58,124 59,304 60,481 61,656 5,024 7,378 9,348 11,143 12,832 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,195 44,461 45,722 46,979 48,232 49,480 50,725 51,966 53,203 54,437 55,668 56,895 58,120 59,342 60,561 61,777 62,990 64,201 65,410 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 52,191 53,486 54,775 56,061 57,342 58,619 59,893 61,162 62,428 63,691 64,950 66,206 67,459 68,710 69,957 7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,801 34,267 35,718 37,156 38,582 39,997 41,401 42,796 44,181 45,558 46,928 48,290 49,645 50,994 52,335 53,672 55,002 56,328 57,648 58,964 60,275 61,581 62,883 64,181 65,475 66,766 68,053 69,336 70,616 71,892 73,166 k - 77 - 2 T3 Kvantily F P2 Pearsonova rozdČlení F (k) (pokraþování) P k 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 80 85 90 95 100 110 120 130 150 200 500 1000 0,005 0,01 0,025 0,05 0,95 0,975 0,99 0,995 25,041 25,775 26,511 27,249 27,991 28,735 29,481 30,230 30,981 31,735 32,491 33,248 34,008 34,770 35,534 36,300 37,068 37,838 38,610 39,383 40,158 40,935 41,714 42,493 43,275 44,058 44,843 45,629 46,417 47,206 51,172 55,170 59,196 63,250 67,328 75,550 83,852 92,223 109,142 152,241 422,303 888,563 26,657 27,416 28,177 28,941 29,707 30,475 31,246 32,019 32,793 33,571 34,350 35,131 35,914 36,698 37,485 38,273 39,063 39,855 40,649 41,444 42,240 43,038 43,838 44,639 45,442 46,246 47,051 47,858 48,666 49,475 53,540 57,634 61,754 65,898 70,065 78,458 86,923 95,451 112,668 156,432 429,387 898,912 29,160 29,956 30,754 31,555 32,357 33,162 33,968 34,776 35,586 36,398 37,212 38,027 38,844 39,662 40,482 41,303 42,126 42,950 43,776 44,603 45,431 46,261 47,092 47,924 48,758 49,592 50,428 51,265 52,103 52,942 57,153 61,389 65,647 69,925 74,222 82,867 91,573 100,331 117,985 162,728 439,936 914,257 31,439 32,268 33,098 33,930 34,764 35,600 36,437 37,276 38,116 38,958 39,801 40,646 41,492 42,339 43,188 44,038 44,889 45,741 46,595 47,450 48,305 49,162 50,020 50,879 51,739 52,600 53,462 54,325 55,189 56,054 60,391 64,749 69,126 73,520 77,929 86,792 95,705 104,662 122,692 168,279 449,147 927,594 62,830 64,001 65,171 66,339 67,505 68,669 69,832 70,993 72,153 73,311 74,468 75,624 76,778 77,930 79,082 80,232 81,381 82,529 83,675 84,821 85,965 87,108 88,250 89,391 90,531 91,670 92,808 93,945 95,081 96,217 101,879 107,522 113,145 118,752 124,342 135,480 146,567 157,610 179,581 233,994 553,127 1074,68 66,616 67,821 69,023 70,222 71,420 72,616 73,810 75,002 76,192 77,380 78,567 79,752 80,936 82,117 83,298 84,476 85,654 86,830 88,004 89,177 90,349 91,519 92,688 93,856 95,023 96,189 97,353 98,516 99,678 100,839 106,629 112,393 118,136 123,858 129,561 140,916 152,211 163,453 185,800 241,058 563,851 1089,53 71,201 72,443 73,683 74,919 76,154 77,386 78,616 79,843 81,069 82,292 83,514 84,733 85,950 87,166 88,379 89,591 90,802 92,010 93,217 94,422 95,626 96,828 98,028 99,227 100,425 101,621 102,816 104,010 105,202 106,393 112,329 118,236 124,116 129,973 135,807 147,414 158,950 170,423 193,207 249,445 576,493 1106,97 74,437 75,704 76,969 78,231 79,490 80,746 82,001 83,253 84,502 85,749 86,994 88,237 89,477 90,715 91,952 93,186 94,419 95,649 96,878 98,105 99,330 100,554 101,776 102,996 104,215 105,432 106,647 107,862 109,074 110,285 116,321 122,324 128,299 134,247 140,170 151,948 163,648 175,278 198,360 255,264 585,206 1118,95 - 78 - T4 Kvantily FP Fisherova – Snedecorova rozdČlení F(k1,k2) pro P = 0,975 k1 k2 1 2 3 4 5 6 7 8 9 10 1 647,793 799,482 864,151 899,599 921,835 937,114 948,203 956,643 963,279 968,634 2 38,506 39,000 39,166 39,248 39,298 39,331 39,356 39,373 39,387 39,398 3 17,443 16,044 15,439 15,101 14,885 14,735 14,624 14,540 14,473 14,419 4 12,218 10,649 9,979 9,604 9,364 9,197 9,074 8,980 8,905 8,844 5 10,007 8,434 7,764 7,388 7,146 6,978 6,853 6,757 6,681 6,619 6 8,813 7,260 6,599 6,227 5,988 5,820 5,695 5,600 5,523 5,461 7 8,073 6,542 5,890 5,523 5,285 5,119 4,995 4,899 4,823 4,761 8 7,571 6,059 5,416 5,053 4,817 4,652 4,529 4,433 4,357 4,295 9 7,209 5,715 5,078 4,718 4,484 4,320 4,197 4,102 4,026 3,964 10 6,937 5,456 4,826 4,468 4,236 4,072 3,950 3,855 3,779 3,717 11 6,724 5,256 4,630 4,275 4,044 3,881 3,759 3,664 3,588 3,526 12 6,554 5,096 4,474 4,121 3,891 3,728 3,607 3,512 3,436 3,374 13 6,414 4,965 4,347 3,996 3,767 3,604 3,483 3,388 3,312 3,250 14 6,298 4,857 4,242 3,892 3,663 3,501 3,380 3,285 3,209 3,147 15 6,200 4,765 4,153 3,804 3,576 3,415 3,293 3,199 3,123 3,060 16 6,115 4,687 4,077 3,729 3,502 3,341 3,219 3,125 3,049 2,986 17 6,042 4,619 4,011 3,665 3,438 3,277 3,156 3,061 2,985 2,922 18 5,978 4,560 3,954 3,608 3,382 3,221 3,100 3,005 2,929 2,866 19 5,922 4,508 3,903 3,559 3,333 3,172 3,051 2,956 2,880 2,817 20 5,871 4,461 3,859 3,515 3,289 3,128 3,007 2,913 2,837 2,774 21 5,827 4,420 3,819 3,475 3,250 3,090 2,969 2,874 2,798 2,735 22 5,786 4,383 3,783 3,440 3,215 3,055 2,934 2,839 2,763 2,700 23 5,750 4,349 3,750 3,408 3,183 3,023 2,902 2,808 2,731 2,668 24 5,717 4,319 3,721 3,379 3,155 2,995 2,874 2,779 2,703 2,640 25 5,686 4,291 3,694 3,353 3,129 2,969 2,848 2,753 2,677 2,613 26 5,659 4,265 3,670 3,329 3,105 2,945 2,824 2,729 2,653 2,590 27 5,633 4,242 3,647 3,307 3,083 2,923 2,802 2,707 2,631 2,568 28 5,610 4,221 3,626 3,286 3,063 2,903 2,782 2,687 2,611 2,547 29 5,588 4,201 3,607 3,267 3,044 2,884 2,763 2,669 2,592 2,529 30 5,568 4,182 3,589 3,250 3,026 2,867 2,746 2,651 2,575 2,511 35 5,485 4,106 3,517 3,179 2,956 2,796 2,676 2,581 2,504 2,440 40 5,424 4,051 3,463 3,126 2,904 2,744 2,624 2,529 2,452 2,388 45 5,377 4,009 3,422 3,086 2,864 2,705 2,584 2,489 2,412 2,348 50 5,340 3,975 3,390 3,054 2,833 2,674 2,553 2,458 2,381 2,317 55 5,310 3,948 3,364 3,029 2,807 2,648 2,528 2,433 2,355 2,291 60 5,286 3,925 3,343 3,008 2,786 2,627 2,507 2,412 2,334 2,270 70 5,247 3,890 3,309 2,975 2,754 2,595 2,474 2,379 2,302 2,237 80 5,218 3,864 3,284 2,950 2,730 2,571 2,450 2,355 2,277 2,213 90 5,196 3,844 3,265 2,932 2,711 2,552 2,432 2,336 2,259 2,194 100 5,179 3,828 3,250 2,917 2,696 2,537 2,417 2,321 2,244 2,179 120 5,152 3,805 3,227 2,894 2,674 2,515 2,395 2,299 2,222 2,157 150 5,126 3,781 3,204 2,872 2,652 2,494 2,373 2,278 2,200 2,135 250 5,085 3,744 3,169 2,837 2,618 2,459 2,338 2,243 2,165 2,100 500 5,054 3,716 3,142 2,811 2,592 2,434 2,313 2,217 2,139 2,074 5,024 3,689 3,116 2,786 2,566 2,408 2,288 2,192 2,114 2,048 f - 79 - T4 Kvantily FP Fisherova – Snedecorova rozdČlení F(k1,k2) pro P = 0,975 (pokraþování) k1 k2 12 15 20 24 30 40 60 100 250 f 1 976,725 984,874 993,081 997,272 1001,40 1005,60 1009,79 1013,16 1016,22 1018,26 2 39,415 39,431 39,448 39,457 39,465 39,473 39,481 39,488 39,494 39,498 3 14,337 14,253 14,167 14,124 14,081 14,036 13,992 13,956 13,924 13,902 4 8,751 8,657 8,560 8,511 8,461 8,411 8,360 8,319 8,282 8,257 5 6,525 6,428 6,329 6,278 6,227 6,175 6,123 6,080 6,041 6,015 6 5,366 5,269 5,168 5,117 5,065 5,012 4,959 4,915 4,876 4,849 7 4,666 4,568 4,467 4,415 4,362 4,309 4,254 4,210 4,170 4,142 8 4,200 4,101 3,999 3,947 3,894 3,840 3,784 3,739 3,698 3,670 9 3,868 3,769 3,667 3,614 3,560 3,505 3,449 3,403 3,361 3,333 10 3,621 3,522 3,419 3,365 3,311 3,255 3,198 3,152 3,109 3,080 11 3,430 3,330 3,226 3,173 3,118 3,061 3,004 2,956 2,912 2,883 12 3,277 3,177 3,073 3,019 2,963 2,906 2,848 2,800 2,755 2,725 13 3,153 3,053 2,948 2,893 2,837 2,780 2,720 2,671 2,626 2,595 14 3,050 2,949 2,844 2,789 2,732 2,674 2,614 2,565 2,519 2,487 15 2,963 2,862 2,756 2,701 2,644 2,585 2,524 2,474 2,427 2,395 16 2,889 2,788 2,681 2,625 2,568 2,509 2,447 2,396 2,349 2,316 17 2,825 2,723 2,616 2,560 2,502 2,442 2,380 2,329 2,280 2,247 18 2,769 2,667 2,559 2,503 2,445 2,384 2,321 2,269 2,220 2,187 19 2,720 2,617 2,509 2,452 2,394 2,333 2,270 2,217 2,167 2,133 20 2,676 2,573 2,464 2,408 2,349 2,287 2,223 2,170 2,120 2,085 21 2,637 2,534 2,425 2,368 2,308 2,246 2,182 2,128 2,077 2,042 22 2,602 2,498 2,389 2,332 2,272 2,210 2,145 2,090 2,039 2,003 23 2,570 2,466 2,357 2,299 2,239 2,176 2,111 2,056 2,004 1,968 24 2,541 2,437 2,327 2,269 2,209 2,146 2,080 2,024 1,972 1,935 25 2,515 2,411 2,300 2,242 2,182 2,118 2,052 1,996 1,942 1,906 26 2,491 2,387 2,276 2,217 2,157 2,093 2,026 1,969 1,915 1,878 27 2,469 2,364 2,253 2,195 2,133 2,069 2,002 1,945 1,891 1,853 28 2,448 2,344 2,232 2,174 2,112 2,048 1,980 1,922 1,867 1,829 29 2,430 2,325 2,213 2,154 2,092 2,028 1,959 1,901 1,846 1,807 30 2,412 2,307 2,195 2,136 2,074 2,009 1,940 1,882 1,826 1,787 35 2,341 2,235 2,122 2,062 1,999 1,932 1,861 1,801 1,743 1,702 40 2,288 2,182 2,068 2,007 1,943 1,875 1,803 1,741 1,680 1,637 45 2,248 2,141 2,026 1,965 1,900 1,831 1,757 1,694 1,631 1,586 50 2,216 2,109 1,993 1,931 1,866 1,796 1,721 1,656 1,592 1,545 55 2,190 2,083 1,967 1,904 1,838 1,768 1,692 1,625 1,559 1,511 60 2,169 2,061 1,944 1,882 1,815 1,744 1,667 1,599 1,532 1,482 70 2,136 2,028 1,910 1,847 1,779 1,707 1,628 1,558 1,488 1,436 80 2,111 2,003 1,884 1,820 1,752 1,679 1,599 1,527 1,455 1,400 90 2,092 1,983 1,864 1,800 1,731 1,657 1,576 1,503 1,428 1,371 100 2,077 1,968 1,849 1,784 1,715 1,640 1,558 1,483 1,407 1,347 120 2,055 1,945 1,825 1,760 1,690 1,614 1,530 1,454 1,374 1,310 150 2,032 1,922 1,801 1,736 1,665 1,588 1,502 1,423 1,340 1,271 250 1,997 1,886 1,764 1,697 1,625 1,546 1,457 1,374 1,282 1,201 500 1,971 1,859 1,736 1,669 1,596 1,515 1,423 1,336 1,235 1,137 1,945 1,833 1,708 1,640 1,566 1,484 1,388 1,296 1,183 1,000 f - 80 - T4 Kvantily FP Fisherova – Snedecorova rozdČlení F(k1,k2) pro P = 0,995 k1 k2 1 2 3 4 5 6 7 8 9 10 1 16212,5 19997,4 21614,1 22500,8 23055,8 23439,5 23715,2 23923,8 24091,5 24221,8 2 198,503 199,012 199,158 199,245 199,303 199,332 199,361 199,376 199,390 199,390 3 55,552 49,800 47,468 46,195 45,391 44,838 44,434 44,125 43,881 43,685 4 31,332 26,284 24,260 23,154 22,456 21,975 21,622 21,352 21,138 20,967 5 22,785 18,314 16,530 15,556 14,939 14,513 14,200 13,961 13,772 13,618 6 18,635 14,544 12,917 12,028 11,464 11,073 10,786 10,566 10,391 10,250 7 16,235 12,404 10,883 10,050 9,522 9,155 8,885 8,678 8,514 8,380 8 14,688 11,043 9,597 8,805 8,302 7,952 7,694 7,496 7,339 7,211 9 13,614 10,107 8,717 7,956 7,471 7,134 6,885 6,693 6,541 6,417 10 12,827 9,427 8,081 7,343 6,872 6,545 6,303 6,116 5,968 5,847 11 12,226 8,912 7,600 6,881 6,422 6,102 5,865 5,682 5,537 5,418 12 11,754 8,510 7,226 6,521 6,071 5,757 5,524 5,345 5,202 5,085 13 11,374 8,186 6,926 6,233 5,791 5,482 5,253 5,076 4,935 4,820 14 11,060 7,922 6,680 5,998 5,562 5,257 5,031 4,857 4,717 4,603 15 10,798 7,701 6,476 5,803 5,372 5,071 4,847 4,674 4,536 4,424 16 10,576 7,514 6,303 5,638 5,212 4,913 4,692 4,521 4,384 4,272 17 10,384 7,354 6,156 5,497 5,075 4,779 4,559 4,389 4,254 4,142 18 10,218 7,215 6,028 5,375 4,956 4,663 4,445 4,276 4,141 4,030 19 10,073 7,093 5,916 5,268 4,853 4,561 4,345 4,177 4,043 3,933 20 9,944 6,987 5,818 5,174 4,762 4,472 4,257 4,090 3,956 3,847 21 9,829 6,891 5,730 5,091 4,681 4,393 4,179 4,013 3,880 3,771 22 9,727 6,806 5,652 5,017 4,609 4,322 4,109 3,944 3,812 3,703 23 9,635 6,730 5,582 4,950 4,544 4,259 4,047 3,882 3,750 3,642 24 9,551 6,661 5,519 4,890 4,486 4,202 3,991 3,826 3,695 3,587 25 9,475 6,598 5,462 4,835 4,433 4,150 3,939 3,776 3,645 3,537 26 9,406 6,541 5,409 4,785 4,384 4,103 3,893 3,730 3,599 3,492 27 9,342 6,489 5,361 4,740 4,340 4,059 3,850 3,687 3,557 3,450 28 9,284 6,440 5,317 4,698 4,300 4,020 3,811 3,649 3,519 3,412 29 9,230 6,396 5,276 4,659 4,262 3,983 3,775 3,613 3,483 3,376 30 9,180 6,355 5,239 4,623 4,228 3,949 3,742 3,580 3,451 3,344 35 8,976 6,188 5,086 4,479 4,088 3,812 3,607 3,447 3,318 3,212 40 8,828 6,066 4,976 4,374 3,986 3,713 3,509 3,350 3,222 3,117 45 8,715 5,974 4,892 4,294 3,909 3,638 3,435 3,276 3,149 3,044 50 8,626 5,902 4,826 4,232 3,849 3,579 3,376 3,219 3,092 2,988 55 8,554 5,843 4,773 4,181 3,800 3,531 3,330 3,173 3,046 2,942 60 8,495 5,795 4,729 4,140 3,760 3,492 3,291 3,134 3,008 2,904 70 8,403 5,720 4,661 4,076 3,698 3,431 3,232 3,076 2,950 2,846 80 8,335 5,665 4,611 4,028 3,652 3,387 3,188 3,032 2,907 2,803 90 8,282 5,623 4,573 3,992 3,617 3,352 3,154 2,999 2,873 2,770 100 8,241 5,589 4,542 3,963 3,589 3,325 3,127 2,972 2,847 2,744 120 8,179 5,539 4,497 3,921 3,548 3,285 3,087 2,933 2,808 2,705 150 8,118 5,490 4,453 3,878 3,508 3,245 3,048 2,894 2,770 2,667 250 8,021 5,412 4,382 3,812 3,444 3,183 2,987 2,833 2,709 2,607 500 7,950 5,355 4,330 3,763 3,396 3,137 2,941 2,789 2,665 2,562 7,879 5,298 4,279 3,715 3,350 3,091 2,897 2,744 2,621 2,519 f - 81 - T4 Kvantily FP Fisherova – Snedecorova rozdČlení F(k1,k2) pro P = 0,995 (pokraþování) k1 k2 12 15 20 24 30 40 60 100 250 f 1 24426,7 24631,6 24836,5 24937,1 25041,4 25145,7 25253,7 25339,4 25413,9 25466,1 2 199,419 199,434 199,449 199,449 199,478 199,478 199,478 199,478 199,507 199,507 3 43,387 43,085 42,779 42,623 42,466 42,310 42,150 42,022 41,906 41,829 4 20,705 20,438 20,167 20,030 19,892 19,751 19,611 19,497 19,394 19,325 5 13,385 13,146 12,903 12,780 12,656 12,530 12,402 12,300 12,206 12,144 6 10,034 9,814 9,589 9,474 9,358 9,241 9,122 9,026 8,938 8,879 7 8,176 7,968 7,754 7,645 7,534 7,422 7,309 7,217 7,132 7,076 8 7,015 6,814 6,608 6,503 6,396 6,288 6,177 6,087 6,006 5,951 9 6,227 6,032 5,832 5,729 5,625 5,519 5,410 5,322 5,242 5,188 10 5,661 5,471 5,274 5,173 5,071 4,966 4,859 4,772 4,692 4,639 11 5,236 5,049 4,855 4,756 4,654 4,551 4,445 4,359 4,279 4,226 12 4,906 4,721 4,530 4,431 4,331 4,228 4,123 4,037 3,958 3,904 13 4,643 4,460 4,270 4,173 4,073 3,970 3,866 3,780 3,700 3,647 14 4,428 4,247 4,059 3,961 3,862 3,760 3,655 3,569 3,490 3,436 15 4,250 4,070 3,883 3,786 3,687 3,585 3,480 3,394 3,314 3,260 16 4,099 3,920 3,734 3,638 3,539 3,437 3,332 3,246 3,166 3,111 17 3,971 3,793 3,607 3,511 3,412 3,311 3,206 3,119 3,039 2,984 18 3,860 3,683 3,498 3,402 3,303 3,201 3,096 3,009 2,929 2,873 19 3,763 3,587 3,402 3,306 3,208 3,106 3,000 2,913 2,832 2,776 20 3,678 3,502 3,318 3,222 3,123 3,022 2,916 2,828 2,747 2,690 21 3,602 3,427 3,243 3,147 3,049 2,947 2,841 2,753 2,671 2,614 22 3,535 3,360 3,176 3,081 2,982 2,880 2,774 2,685 2,602 2,546 23 3,474 3,300 3,116 3,021 2,922 2,820 2,713 2,624 2,541 2,484 24 3,420 3,246 3,062 2,967 2,868 2,765 2,658 2,569 2,486 2,428 25 3,370 3,196 3,013 2,918 2,819 2,716 2,609 2,519 2,435 2,377 26 3,325 3,151 2,968 2,873 2,774 2,671 2,563 2,473 2,389 2,330 27 3,284 3,110 2,927 2,832 2,733 2,630 2,522 2,431 2,346 2,287 28 3,246 3,073 2,890 2,794 2,695 2,592 2,483 2,392 2,307 2,247 29 3,211 3,038 2,855 2,759 2,660 2,557 2,448 2,357 2,270 2,210 30 3,179 3,006 2,823 2,727 2,628 2,524 2,415 2,323 2,237 2,176 35 3,048 2,876 2,693 2,597 2,497 2,392 2,282 2,188 2,099 2,036 40 2,953 2,781 2,598 2,502 2,401 2,296 2,184 2,088 1,997 1,932 45 2,881 2,709 2,527 2,430 2,329 2,222 2,109 2,012 1,918 1,851 50 2,825 2,653 2,470 2,373 2,272 2,164 2,050 1,951 1,855 1,786 55 2,779 2,608 2,425 2,327 2,226 2,118 2,002 1,902 1,804 1,733 60 2,742 2,570 2,387 2,290 2,187 2,079 1,962 1,861 1,761 1,689 70 2,684 2,513 2,329 2,231 2,128 2,019 1,900 1,797 1,694 1,618 80 2,641 2,470 2,286 2,188 2,084 1,974 1,854 1,748 1,643 1,563 90 2,608 2,437 2,253 2,155 2,051 1,939 1,818 1,711 1,602 1,520 100 2,583 2,411 2,227 2,128 2,024 1,912 1,790 1,681 1,570 1,485 120 2,544 2,373 2,188 2,089 1,984 1,871 1,747 1,636 1,521 1,431 150 2,506 2,335 2,150 2,050 1,944 1,830 1,704 1,590 1,471 1,374 250 2,446 2,275 2,089 1,989 1,882 1,765 1,636 1,516 1,387 1,274 500 2,402 2,230 2,044 1,943 1,835 1,717 1,584 1,460 1,319 1,184 2,358 2,187 2,000 1,898 1,789 1,669 1,533 1,402 1,245 1,000 f - 82 - T5 Kvantily wP Wilcoxonova rozdČlení (n = 5,…, 30) 0,005 0,01 0,025 0,05 5 --- --- --- 0 6 --- --- 0 2 7 --- 0 2 3 8 0 1 3 5 9 1 3 5 8 10 3 5 8 10 11 5 7 10 13 12 7 9 13 17 13 9 12 17 21 14 12 15 21 25 15 15 19 25 30 16 19 23 29 35 17 23 27 34 41 18 27 32 40 47 19 32 37 46 53 20 37 43 52 60 21 42 49 58 67 22 48 55 65 75 23 54 62 73 83 24 61 69 81 91 25 68 76 89 100 26 75 84 98 110 27 83 92 107 119 28 91 101 116 130 29 100 110 126 140 30 109 120 137 151 P n - 83 - T6 Kvantily vP Mannova – Whitneyova rozdČlení pro P = 0,025 (m = 2,…, 20; n = 9,…, 20) n 9 10 11 12 13 14 0 2 4 7 10 12 15 17 20 23 26 28 31 34 37 39 42 45 48 0 3 5 8 11 14 17 20 23 26 29 33 36 39 42 45 48 52 55 0 3 6 9 13 16 19 23 26 30 33 37 40 44 47 51 55 58 62 1 4 7 11 14 18 22 26 29 33 37 41 45 49 53 57 61 65 69 1 4 8 12 16 20 24 28 33 37 41 45 50 54 59 63 67 72 76 1 5 9 13 17 22 26 31 36 40 45 50 55 59 64 67 74 78 83 15 16 17 18 19 20 1 5 10 14 19 24 29 34 39 44 49 54 59 64 70 75 80 85 90 1 6 11 15 21 26 31 37 42 47 53 59 64 70 75 81 86 92 98 2 6 11 17 22 28 34 39 45 51 57 63 67 75 81 87 93 99 105 2 7 12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 106 112 2 7 13 19 25 32 38 45 52 58 65 72 78 85 92 99 106 113 119 2 8 13 20 27 34 41 48 55 62 69 76 83 90 98 105 112 119 127 m 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 n m 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 - 84 - T7 Kvantily kP binomického rozdČlení Bi(n;0,5) P 0,005 0,01 0,025 0,05 6 - - 0 0 7 - 0 0 0 8 0 0 0 1 9 0 0 1 1 10 0 0 1 1 11 0 1 1 2 12 1 1 2 2 13 1 1 2 3 14 1 2 2 3 15 2 2 2 3 16 2 2 3 4 17 2 3 4 4 18 3 3 4 5 19 3 4 4 5 20 3 4 5 5 21 4 4 5 6 22 4 5 5 6 23 4 5 6 7 24 5 5 6 7 25 5 6 7 7 26 6 6 7 8 27 6 7 7 8 28 6 7 8 9 29 7 7 8 9 30 7 8 9 10 n - 85 - DODATEK 1 – ZÁKLADY POPISNÉ STATISTIKY 1.1 Základní pojmy PĜi statistickém zkoumání se zabýváme jevy a procesy, které mají hromadný charakter a vyskytují se u rozsáhlého souboru individuálních objektĤ (výrobky, osoby apod.), nazývaného základní soubor nebo také populace. Zkoumané objekty jsou tzv. statistické jednotky a sledujeme u nich vytypované vlastnosti - statistické znaky (veliþiny, parametry atd.), které nabývají pozorovatelných hodnot (úrovní). Podle druhu hodnot dČlíme statistické znaky na kvantitativní, které nabývají þíselných hodnot (hmotnost, délka, pevnost, cena, doba, životnost, ...) a kvalitativní, které nemají þíselný charakter a lze je vyjádĜit slovnČ (barva, jakostní tĜída, podmínky provozu, tvar, ...). Sledujeme-li jen jeden znak, hovoĜíme o jednorozmČrném znaku, naopak o vícerozmČrném znaku. Kvantitativní znaky dČlíme na diskrétní, jestliže nabývají pouze oddČlených þíselných hodnot (poþet zmetkĤ, poþet vad, kusová produkce apod.) a spojité, které nabývají všech hodnot z nČjakého intervalu reálných þísel (rozmČr výrobku, doba do poruchy, cenový index apod.). Kvalitativní znaky dČlíme na ordinální, jejichž slovní hodnoty má smysl uspoĜádat (jakostní tĜídy, klasifikace apod.) a nominální, jejichž slovní hodnoty postrádají význam poĜadí (barva, tvar, dodavatelé apod.). Podstatou statistických metod je, že informace o základním souboru nezjišĢujeme u všech jeho jednotek, ale jen u nČkterých, které získáme tzv. výbČrem. Vedou nás k tomu rĤzná omezení, napĜ. dosažitelnost všech jednotek, velký rozsah základního souboru, zpĤsob získávání informací (zkoušky životnosti, ovČĜení opotĜebení atd.), náklady na statistické sledování a další. Poþet vybraných jednotek je rozsah výbČru. Dle rozsahu dČlíme výbČry na malé (obvykle do 30 až 50) a velké (ĜádovČ stovky, tisíce i více). Toto dČlení je relativní a závisí na okolnostech statistického sledování. VýbČr by mČl být reprezentativní (poskytovat informace bez omezení) a homogenní (bez vlivu dalších rĤzných faktorĤ). To však þasto nelze v plné míĜe verifikovatelnČ zajistit a proto obvykle vybíráme statistické jednotky do výbČru náhodnČ, ovšem s rizikem, že výbČr mĤže poskytnout více þi ménČ zkreslené informace o základním souboru. Podle zpĤsobu provedení rozlišujeme výbČry: bez opakování (každá jednotka mĤže být vybrána nejvýše jednou), s opakováním (každá jednotka mĤže být vybrána vícekrát), - 86 - zámČrný (vybíráme typické jednotky), oblastní (základní soubor rozdČlíme na podmnožiny a z nich provedeme þásti výbČru), systematický nebo mechanický (vybíráme vždy nČkolikátou jednotku co do poĜadí pĜi realizaci výbČru). Hodnoty znaku, pozorované þi zjištČné na statistických jednotkách z výbČru o rozsahu n, tvoĜí statistický soubor s rozsahem n. Pro jednorozmČrný znak X získáme jednorozmČrný statistický soubor x1 ,..., xn , kde xi je pozorovaná hodnota znaku X u ité statistické jednotky, i = 1,..., n. Analogicky pro dvourozmČrný znak (X, Y) obdržíme dvourozmČrný statistický soubor ( x1 , y1 ),..., ( xn , yn ) apod. 1.2 JednorozmČrný statistický soubor s kvantitativním znakem Získaný statistický soubor x1 ,..., xn s rozsahem n se také nazývá neroztĜídČný statistický soubor. Dle potĜeby jej mĤžeme uspoĜádat podle rostoucích hodnot xi a obdržíme uspoĜádaný statistický soubor x(1) ,..., x( n ) , kde xi d xi+1 pro všechny indexy i. Interval x(1) ; x( n ) je variaþní obor a jeho délka x( n ) x(1) je rozpČtí statistického souboru. PĜi velkém rozsahu statistického souboru nebo z dĤvodu dalšího zpracování (nČkterá grafická vyjádĜení anebo užití matematicko - statistických metod) pĤvodní soubor roztĜídíme. RoztĜídČný statistický soubor získáme pokrytím variaþního oboru systémem disjunktních intervalĤ (obvykle zleva otevĜených a zprava uzavĜených), tzv. tĜíd o poþtu m, které mají obvykle stejnou délku h. Každá tĜída je reprezentována uspoĜádanou dvojicí x*j , f j , kde x*j je stĜed j-té tĜídy, x*j x*j+1 , a f j je absolutní þetnost j-té tĜídy, j = 1,...,m . Absolutní þetnost f j je poþet prvkĤ xi pĤvodního neroztĜídČného statistického souboru, které leží v j-té tĜídČ. ýíslo fj n m je relativní þetnost a uvádí se též v %. Platí ¦f j Poþet tĜíd m volíme obvykle pĜibližnČ 1 3, 3log n symetrického charakteru) anebo charakteru). Délka tĜídy je h | n. j 1 (pro statistický soubor n až 2 n (pro statistický soubor asymetrického x( n ) x(1) m a stanovujeme ji tak, aby odpovídala pĜesnosti získání hodnot xi a aby stĜed tĜídy x*j byl zaokrouhlené þíslo. U diskrétního znaku volíme obvykle za stĜedy tĜíd pĜímo hodnoty, kterých tento znak mĤže nabývat. Pokud tĜídČní - 87 - provádíme na PC, mČli bychom zkontrolovat, zda nastavení parametrĤ m, resp. h použitého statistického software odpovídá našim požadavkĤm. j ¦f ýíslo F j k Fj je kumulativní absolutní þetnost, þíslo n k 1 þetnost, j 1,..., m , a uvádí se též v %. Platí, že F j 1 f1 , takže Fm F1 je kumulativní relativní F j f j 1 pro j 1,..., m 1 , kde n. RoztĜídČný statistický soubor zapisujeme do tzv. þetnostní tabulky pro rĤzné typy þetností, napĜ. pro absolutní þetnosti: x j x1 ... xm fj f1 ... fm Významné vlastnosti statistického souboru vyjadĜují v koncentrované formČ jeho následující þíselné (empirické) charakteristiky. Jde zejména o charakteristiky polohy, promČnlivosti a soumČrnosti. Základní charakteristiky polohy statistického souboru jsou: 1. Aritmetický prĤmČr x 1 n ¦ xi ni1 pro neroztĜídČný soubor, x 1 m ¦ f j xj n j1 pro roztĜídČný soubor. Vlastnosti aritmetického prĤmČru jsou: ax b y ax b a) y pro reálné konstanty a, b, b) x y c) x(1) d x d x( n ) , d) x má tentýž rozmČr jako znak X . xy, NČkdy se užívá též vážený aritmetický prĤmČr n ¦w x i i x i 1 n , ¦w i i 1 kde wi t 0 jsou váhy (vhodnČ stanovená reálná þísla, z nichž aspoĖ jedno je nenulové) hodnot xi , které vyjadĜují jejich význam, napĜ. pĜesnost. 2. Medián pro neroztĜídČný statistický soubor - 88 - pro lichá n , x§ n 1 · ¨ ¸ ° © 2¹ ° ®1 ª º ° « x§ n · x§ n · » pro sudá n . ¨ 1 ¸ » °¯ 2 «¬ ¨© 2 ¸¹ ©2 ¹¼ x Vlastnosti mediánu: ax b y ax b a) y pro reálné konstanty a, b, b) x(1) d x d x( n ) , c) x má tentýž rozmČr jako znak X . Medián rozdČluje statistický soubor na "dolní polovinu" a "horní polovinu" hodnot xi (viz obr. 1.1). Jde o robustní charakteristiku, která je oproti aritmetickému prĤmČru málo citlivá na extrémnČ odchýlené hodnoty. Pro roztĜídČný soubor se k výpoþtu mediánu užívá vhodná aproximace. 3. Modus x̂ je þíslo, v jehož okolí je nejvíce hodnot xi , resp. je to stĜed x*j tĜídy s nejvČtší absolutní þetností f j . Modus má tytéž vlastnosti jako aritmetický prĤmČr i medián a dle potĜeby se poþítá vhodnou aproximací (napĜ. pro roztĜídČný soubor). Základní charakteristiky promČnlivosti (variability) statistického souboru jsou: 1. Rozptyl (disperze, variance) s2 1 n 2 xi x ¦ ni1 §1 n 2· 2 ¨ n ¦ xi ¸ x © i1 ¹ s2 2 1 m f j x j x ¦ n j1 pro neroztĜídČný soubor, §1 m 2 · 2 ¨ ¦ f j x j ¸ x pro roztĜídČný soubor. ©n j 1 ¹ Dle potĜeby a také pro zdĤraznČní znaku X nČkdy píšeme s 2 ( x ) apod. Vlastnosti rozptylu jsou: a) s2 t 0 , b) y ax b s 2 y c) s2 0 x1 " a2 s2 x xn , resp. x1 pro reálné konstanty a, b, " xm , d) s 2 má rozmČr rovný kvadrátu rozmČru znaku X . VČtší promČnlivosti znaku X odpovídá vČtší rozptyl a naopak. PĜi výpoþtech se také užívá jiný - 89 - vzorec pro rozptyl, když výraz 1 1 zamČníme výrazem . Takto vypoþtený rozptyl je n n 1 1 n 2 plyne z požadavkĤ s ! s 2 (pro s 2 z 0 ). ZdĤvodnČní výrazu n 1 n 1 roven þíslu uvedených v kapitole 6 a 7. s2 . 2. SmČrodatná odchylka s Dle potĜeby také píšeme s(x). Vlastnosti smČrodatné odchylky jsou: a) s t 0, b) y ax b s ( y ) c) s 0 x1 " a s ( x ) pro reálné konstanty a, b, xn , resp. x1 " xm d) s má tentýž rozmČr jako znak X . VČtší promČnlivosti znaku X odpovídá vČtší smČrodatná odchylka a naopak. 3. Variaþní koeficient v s . x Dle potĜeby také píšeme v(x). Vlastnosti variaþního koeficientu jsou: a) v ( ax ) a v ( x ) pro reálnou konstantu a z 0 , a b) v je bezrozmČrné þíslo. Jde o relativní míru variability znaku X a uvádí se též v %. Má smysl pouze pro znak X, který nabývá pouze kladných anebo záporných hodnot. Není proto napĜ. vhodný pro znak X vyjadĜující odchylky od nČjaké nominální hodnoty. 4. RozpČtí x( n ) x(1) . RozpČtí má stejné vlastnosti jako smČrodatná odchylka. Základní charakteristikou soumČrnosti statistického souboru je koeficient šikmosti (koeficient asymetrie) A A 1 n 3 xi x ¦ ni1 s3 pro neroztĜídČný soubor, 3 1 m f j x j x ¦ n j1 s3 pro roztĜídČný soubor. Dle potĜeby také píšeme A(x). Vlastnosti koeficientu šikmosti jsou: - 90 - a) A ! 0 vČtšina hodnot xi je menší než (leží pod) x , b) A 0 hodnoty xi jsou rozloženy soumČrnČ vzhledem k x , A 0 vČtšina hodnot xi je vČtší než (leží nad) x , a d) y ax b A( y ) A( x ) pro reálné konstanty a, b, a z 0, a e) A je bezrozmČrné þíslo. c) Existuje Ĝada dalších þíselných charakteristik statistického souboru. NapĜ. pro pomČrové znaky (cenové a objemové indexy, úrokové míry apod.) se místo aritmetického prĤmČru užívá geometrický prĤmČr xg n x1 ... xn a ve speciálních pĜípadech (napĜ. pro znaky vyjadĜující rychlost nČjakého dČje) poþítáme harmonický prĤmČr 1 xh §1 n 1 · ¨ ¦ ¸ . © n i 1 xi ¹ Dle potĜeby se také nČkdy poþítá koeficient špiþatosti (koeficient excesu) 1 n 4 xi x ¦ ni1 3, s4 který vyjadĜuje specifickým zpĤsobem míru koncentrace hodnot statistického souboru. 0 4 8 12 16 (u 1 0 0 0 ) Obr. 1.1 Mnoho rychlých a cenných informací poskytují o statistických souborech jejich grafická vyjádĜení. Pro jednorozmČrný neroztĜídČný resp. uspoĜádaný statistický soubor se zejména užívá krabicový graf - obr. 1.1, kde tuþnČ vyznaþený obdélník obsahuje stĜední þást uspoĜádaného souboru (cca polovinu všech jeho hodnot) tak, že nalevo a napravo od - 91 - obdélníku leží vždy cca þtvrtina hodnot uspoĜádaného souboru. Levá (pravá) svislá strana obdélníku odpovídá tzv. dolnímu (hornímu) kvartilu statistického souboru a svislá þára uvnitĜ je v místČ mediánu. Výška obdélníku je úmČrná rozsahu souboru a úseþky ("vousy") vlevo a vpravo zakonþené krátkými svislými þarami vyjadĜují pĜijatelné obory pro zbývající dolní a horní þtvrtinu souboru. Hodnoty mimo tyto úseþky jsou považovány za podezĜelé, pĜípadnČ extrémnČ odchýlené. Existují další modifikace tohoto grafu a jiná vyjádĜení. Pro jednorozmČrný roztĜídČný statistický soubor s diskrétním znakem X se užívají obvykle následující grafy. Sloupcový graf na obr. 1.2 je podobný histogramu z obr. 1.4, avšak vyznaþené obdélníky na sebe nenavazují a nČkdy se kreslí ve vodorovné poloze. Koláþový (výseþový) graf na obr. 1.3 je kruh rozdČlený na výseþe, jejichž úhel odpovídá þetnostem tĜíd, pĜípadnČ jsou nČkteré zvolené výseþe vysunuty z kruhu. V uvedených grafech se rĤznými barvami nebo šrafováním zvýrazĖují potĜebné informace a mnohdy se dále geometricky a výtvarnČ prezentaþnČ modifikují. Obr. 1.2 Obr. 1.3 F 50 f 15 40 10 30 20 5 10 0 -3 -2 -1 0 1 2 3 4 5 0 -3 -2 -1 0 1 2 3 4 5 x x Obr. 1.4 - 92 - Pro jednorozmČrný roztĜídČný statistický soubor se v pĜípadČ spojitého znaku X užívají nejþastČji následující dva typy grafĤ. Histogram na obr. 1.4 je soustava obdélníkĤ v kartézské souĜadné soustavČ, jejichž základny jsou tĜídy a výšky jsou þetnosti tĜíd (absolutní, relativní, kumulativní atd.). Polygon na obr. 1.5 je lomená þára v kartézské souĜadné soustavČ spojující body, jejichž x-ová souĜadnice je stĜed tĜídy, pĜíp. horní hranice tĜídy pro kumulativní þetnosti, a y-ová souĜadnice je þetnost tĜídy. f F 50 15 40 10 30 20 5 10 0 0 -3 -2 -1 0 1 2 3 4 5 -3 -2 -1 0 x 1 2 3 4 5 x Obr. 1.5 ěešený pĜíklad 1.1 MČĜením délky X (mm) 10 váleþkĤ byly získány hodnoty: 5,38; 5,36; 5,35; 5,40; 5,41; 5,34; 5,29; 5,43; 5,42; 5,32. Urþete rozsah, variaþní obor, variaþní rozpČtí, aritmetický prĤmČr, rozptyl, smČrodatnou odchylku, variaþní koeficient a medián statistického souboru. ě e š e n í: Rozsah daného souboru je n = 10, takže nemá smysl jej tĜídit. Protože x(1) x(10) 5,43 mm, je variaþní obor <5,29; 5,43> mm a variaþní rozpČtí je 5,43 5,29 = 0,14 mm. Dále je: x (5,38 +}+ 5,32)/10 = 53,70/10 = 5,37 mm … prĤmČrná délka, s 2 (5,382 + }+ 5,322)/10 5,372 = 288,388/10 28,8369 = 0,0019 mm2, s 0, 0019 | 0,0435889894 | 0,044 mm, v 0, 0019 /5,37 | 0,0435889894/5,37 | 0,00811713 | 0,8117 %, x 5,29 mm a (5,36 + 5,38)/2 = 5,37 mm …medián délky. Pro grafické vyjádĜení tohoto statistického souboru by byl vhodný krabicový graf. - 93 - ěešený pĜíklad 1.2 PĜi kontrole byl zjišĢován objem nápoje X v 50 lahvích a byly namČĜeny následující odchylky (ml) od hodnoty na etiketČ: 1,2; 2,1; 1,7; 0,9; 0,3; 2,0; -1,3; -0,1; 0,8; 4,4; 2,9; 1,2; 0,0; -2,3; 0,1; 1,9; -1,9; -0,2; -1,3; 0,9; 1,0; 0,4; 1,8; 0,0; 4,1; 3,2; 1,2; 0,9; 1,5; 0,5; 2,0; -1,3; 1,9; 1,4; -1,3; 1,6; 1,4; 1,3; 3,0; 3,8; -0,8; 0,4; 2,8; 2,3; -0,2; 3,7; 3,1; -0,1; 3,1; 0,9. RoztĜićte daný statistický soubor, graficky jej znázornČte a vypoþtČte x , s 2 , s, x̂ , A. ě e š e n í: Rozsah souboru n = 50; x(1) 2,3 ml a x(50) 4,4 ml, takže variaþní obor je <2,3; 4,4> ml a rozpČtí je 4,4 (2,3) = 6,7 ml. Volíme poþet tĜíd m = 7 (tj. asi 50 ) a délku tĜídy h = 1 (tj. asi 6,7/7). Volba tĜíd a jejich stĜedĤ, roztĜídČní do tĜíd a výpoþet absolutních a kumulativních þetností je v následující tabulce, kde napĜ. // znaþí 2 hodnoty a //// znaþí 5 hodnot ležících v dané tĜídČ: j tĜída x j zaĜazení do tĜíd fj Fj 1 -2,5; -1,5 -2 // 2 2 2 -1,5; -0,5 -1 //// 5 7 3 -0,5; 0,5 0 //// //// / 11 18 4 0,5; 1,5 1 //// //// /// 13 31 5 1,5; 2,5 2 //// //// 9 40 6 2,5; 3,5 3 //// / 6 46 7 3,5; 4,5 4 //// 4 50 Histogramy a polygony tohoto statistického souboru jsou na obr. 1.4 a 1.5. Další výpoþty jsou pro pĜehlednost znázornČny v následující tabulce, ze které dostaneme: x = 56/50 = 1,12 ml; s 2 = 180/50 1,122 = 2,3456 ml2; s 2, 3456 |1,532 ml; stĜed tĜídy s nejvČtší þetností x̂ = 1 ml; dalším výpoþtem obdržíme A | 0,098502. - 94 - j x j fj f j x j f j x j 2 1 -2 2 -4 8 2 -1 5 -5 5 3 0 11 0 0 4 1 13 13 13 5 2 9 18 36 6 3 6 18 54 7 4 4 16 64 ¦ 50 56 180 1.3 DvourozmČrný statistický soubor s kvantitavními znaky Získaný statistický soubor ( x1 , y1 ),..., ( xn , yn ) s rozsahem n je neroztĜídČný statistický soubor. Vynecháním první, resp. druhé, hodnoty v každé dvojici obdržíme jednorozmČrné statistické soubory x1 ,..., xn a y1 ,..., yn . Zpracováním tČchto souborĤ získáme jejich þíselné charakteristiky x , y , s 2 ( x ) , s 2 ( y ) atd. RoztĜídČný dvourozmČrný statistický soubor získáme roztĜídČním jednorozmČrných statistických souborĤ x1 ,..., xn a y1 ,..., yn , pĜiþemž oba roztĜídČné soubory mohou mít rĤzné poþty tĜíd i jejich délky. Dostaneme tak dvourozmČrné tĜídy se stĜedy absolutními þetnostmi f jk , j þetnosti f jk n 1, ..., m1 a k x , y j k a 1,..., m2 . Dle potĜeby se dále urþují relativní , kumulativní þetnosti F jk atd. RoztĜídČný dvourozmČrný statistický soubor zapisujeme do þetnostní tabulky pro rĤzné typy þetností. Následující tabulka je pro absolutní þetnosti f jk , kde þísla f xj a f yk jsou marginální (okrajové) þetnosti a platí m2 f xj ¦ k 1 m1 f jk , f yk ¦ j 1 m1 f jk , ¦ j 1 - 95 - m2 f xj ¦ k 1 m1 f yk m2 ¦¦ f j 1 k 1 jk n. yk y1 ... ym 2 f xj x1 f11 ... f1 m2 fx1 ... ... ... ... ... xm 1 f m11 ... f m1 m2 f x m1 f yk fy1 ... f y m2 n x j Pro roztĜídČné jednorozmČrné statistické soubory x j , f xj , j k 1,..., m1 , a yk , f yk , 1,..., m2 , obdržíme jejich þíselné charakteristiky x , y , s 2 ( x ) , s 2 ( y ) atd. Mírou závislosti znakĤ X a Y je koeficient korelace (korelaþní koeficient) r r 1 n ¦ xi x yi y ni1 s( x ) s( y ) 1 n ¦ xi yi xy ni1 s( x ) s( y ) 1 m1 m2 f jk x j x yk y ¦¦ n j1k1 s( x ) s( y ) 1 m1 m2 f jk x j yk xy ¦¦ n j1k1 s( x ) s( y ) pro neroztĜídČný soubor, pro roztĜídČný soubor, pĜiþemž þitatelé ve všech zlomcích vyjadĜují tzv. kovarianci, kterou znaþíme cov. NČkdy pro zdĤraznČní znakĤ X, Y píšeme r(x, y), resp. cov(x, y). Vlastnosti koeficientu korelace: a) u ax b, v cy d r (u, v ) ac r ( x, y ) pro reálné konstanty a, b, c, d, ac a z 0, c z 0, b) r ( y , x ) c) r ( x, y ) , 1 d r d 1 , d) r r1 y ax b, a z 0 , e) r je bezrozmČrné þíslo. Koeficient korelace r je pouze mírou lineární závislosti mezi znaky X a Y. ýím je jeho hodnota bližší 1 anebo -1, tím je závislost bližžší lineární závislosti a body xi , yi bližší pĜímce. Jeho kladná (záporná) hodnota odpovídá celkovČ rostoucí (klesající) závislosti mezi X - 96 - a Y. Hodnota blízká 0 vyjadĜuje, že závislost není lineární a znaky X, Y mohou být nezávislé. Obr. 1.6 - 97 - Pro grafické vyjadĜení dvourozmČrného neroztĜídČného statistického souboru se užívá rozptylový graf na obr.1.6, kde jsou rovnČž uvedeny pro ilustraci hodnoty koeficientu korelace, a pro dvourozmČrný roztĜídČný statistický soubor tĜírozmČrný histogram na obr. 1.7, pĜípadnČ tĜírozmČrný sloupcový graf pro diskrétní znaky X, Y. Obr. 1.7 ěešený pĜíklad 1.3 Statistickým šetĜením nákladĤ X (Kþ) a cen Y (Kþ) pro stejný výrobek u 10 výrobcĤ byl získán dvourozmČrný statistický soubor: (30,18; 50,26), (30,19; 50,23), (30,21; 50,27), (30,22; 50,25), (30,25; 50,22), (30,26; 50,32), (30,26; 50,33), (30,28; 50,29), (30,30; 50,37), (30,33; 50,42). VypoþtČte x , y , s 2 ( x ) , s 2 ( y ) , s(x), s(y), c, r. ě e š e n í: Vzhledem k malému rozsahu n = 10 soubor netĜídíme. Použitím výše uvedených vztahĤ dostaneme: x = (30,18 + ... + 30,33)/10 = 30,248 Kþ … prĤmČrné náklady, y = (50,26 + ... + 50,42)/10 = 50,296 Kþ … prĤmČrná cena, s 2 ( x ) = (0,182 + ... + 30,332)/10 - 30,2482 = 0,002096 Kþ2, s 2 ( y ) = (50,262 + ... + 50,422)/10 - 50,2962 = 0,003684 Kþ2, s(x) = 0, 002096 | 0,0457821 Kþ | 0,0458 Kþ, s(y) = 0, 003684 | 0,0606960 Kþ | 0,0607 Kþ, cov = (30,18.50,26 + ... + 30,33.50,42)/10 - 30,248.50,296 = 0,002292 Kþ2, - 98 - r = 0,002292/(0,04578210,0606960) = 0,82481996263 | 0,8248. Vzhledem k velikosti koeficientu korelace r lze pĜedpokládat, že mezi obČma znaky X a Y (náklady a cenou) je závislost víceménČ blízká lineární. Jeho kladná hodnota odpovídá tomu, že s rostoucími náklady roste cena výrobku. Rozptylový graf daného statistického souboru je na obr. 1.8. 50,45 50,40 50,35 y 50,30 50,25 50,20 30,15 30,20 30,25 x 30,30 30,35 Obr. 1.8 1.4 Statistické soubory s kvalitativními znaky JednorozmČrný statistický soubor s kvalitativním znakem x1 ,..., xn s rozsahem n vyjadĜujeme pomocí þetnostní tabulky, kde x j jsou možné slovní hodnoty znaku X a f j jsou þetnosti tČchto hodnot v pĤvodním souboru, j 1,..., m . ýíselné charakteristiky se až na výjimky (variabilitu) nepoužívají - viz napĜ. [40]. Ke grafickému vyjádĜení souboru slouží sloupcový graf, koláþový graf apod. DvourozmČrný statistický soubor s kvalitativními znaky x , y ,..., x , y 1 1 n n s rozsahem n vyjadĜujeme pomocí þetnostní tabulky podobnČ jako pro kvantitativní znaky, kde x , y j k kvalitativního znaku (X, Y) a pro j 1,..., m1 a k jsou dvojice možných slovních hodnot dvourozmČrného f jk jsou þetnosti tČchto hodnot v pĤvodním souboru 1,..., m2 . Z þíselných charakteristik se užívají pĜedevším rĤzné míry závislosti znakĤ X a Y - viz napĜ. [2], [3], [8], [15], [17], [30]. Ke grafickému vyjádĜení souboru slouží tĜírozmČrný sloupcový graf podobný tĜírozmČrnému sloupcovému grafu pro dvourozmČrný diskrétní kvantitativní znak. - 99 - DODATEK 2 – ELEMENTY TEORIE PRAVDċPODOBNOSTI 2.1 Náhodné jevy Náhodný jev je výsledek pokusu (realizace urþitého systému podmínek), který mĤže, ale nemusí nastat. Míru možnosti jeho nastoupení vyjadĜuje v þíselné formČ jeho pravdČpodobnost. U náhodných jevĤ požadujeme hromadnost a stabilitu, tj. dostateþnou opakovatelnost a nemČnnost pokusu. Nezbytným pĜedpokladem je také rozpoznatelnost náhodných jevĤ. Jednotlivým možným (uvažovaným) výsledkĤm pokusu odpovídají elementární jevy, které vyjadĜujeme pomocí jednoprvkových množin ^Z`. Všechny možné výsledky pokusu tvoĜí množinu : nazývanou základní prostor, pĜiþemž Z :. PĜi pokusu nastane právČ takový náhodný jev A, který obsahuje pozorovaný elementární jev ^Z`. Náhodné jevy A, B, A1, Ai,… proto vyjadĜujeme jako podmnožiny :. Jistý jev nastane pĜi každém pokusu a je ekvivalentní základnímu prostoru :. Nemožný jev nenastane pĜi žádném pokusu a vyjadĜuje jej prázdná množina . Vztahy mezi náhodnými jevy vyjadĜujeme pomocí množinových inkluzí: a) A B znamená, že nastoupení náhodného jevu A má za následek nastoupení náhodného jevu B. b) A = B vyjadĜuje rovnost náhodných jevĤ A a B. Operace s náhodnými jevy vyjadĜujeme pomocí množinových operací: a) Sjednocení A B nastane, jestliže nastane aspoĖ jeden z náhodných jevĤ A f n a B, tedy A nebo B. Analogicky definujeme *A i 1 i a *A i , které nastanou, jestliže i 1 nastane aspoĖ jeden jev Ai. b) PrĤnik A B nastane, jestliže nastanou oba náhodné jevy A a B. Analogicky n definujeme Ai a i 1 f A i , které nastanou, jestliže nastanou všechny jevy Ai . i 1 c) Rozdíl A – B nastane, jestliže nastane náhodný jev A a nenastane náhodný jev B. d) Opaþný náhodný jev A : A k náhodnému jevu A nastane, jestliže nenastane jev A. e) Náhodné jevy A a B jsou disjunktní, jestliže A B = . - 100 - Vlastnosti operací s náhodnými jevy jsou samozĜejmČ totožné s vlastnostmi operací s množinami. Abychom mohli definovat pravdČpodobnost náhodného jevu, zabýváme se jenom takovými náhodnými jevy na :, které tvoĜí následující strukturu. Jevové pole 6 je množina náhodných jevĤ (systém podmnožin základního prostoru :) s vlastnostmi: 1. 6, : 6 . 2. Pro každý náhodný jev A 6 také A 6 . f 3. Pro každou posloupnost náhodných jevĤ Ai 6, i = 1, 2, … také A 6 . i i 1 P Ĝ í k l a d 2.1 Náhodný pokus spoþívá v jednom hodu hrací kostkou ve tvaru krychle se stČnami oþíslovanými od 1 do 6. Náhodný jev A nastoupí, jestliže padne sudé þíslo a náhodný jev B nastoupí, jestliže padne þíslo vČtší než 4. Urþete :, A, B , A B, A B, A B, B A, 6. ě e š e n í: Základní prostor je : = {1, 2, 3, 4, 5, 6} je koneþný a elementární náhodné jevy jsou {1}, {2}, {3}, {4}, {5}, {6}. Dále je A = {2, 4, 6} a B ={5, 6}, takže A = {1, 3, 5} ... padne liché þíslo, B = {1, 2, 3, 4} ... padne þíslo menší než 5, A B = {2, 4, 6} {5, 6} = {2, 4, 5, 6} ... nepadne þíslo 1 a 3, A B = {2, 4, 6} {5, 6} = {6} ... padne þíslo 6, A B = {2, 4, 6} {5, 6} ={2, 4} ... padne þíslo 2 nebo 4, B A = {5, 6} {2, 4, 6} = {5} ... padne þíslo 5. Protože nejsou stanovena žádná omezení na náhodné jevy, mĤžeme uvažovat maximální jevové pole (tj. množinu všech podmnožin základního prostoru :) 6 = {, {1}, {2}, {3}, {4}, {5}, {6}, {1, 2}, {1, 3},…,{5, 6},…, {2, 3, 4, 5, 6}, : }, které obsahuje 26 = 64 náhodných jevĤ. 2.2 PravdČpodobnost a její vlastnosti Jestliže pĜi opakovaných sériích náhodných pokusĤ, které sestávají vždy z N pokusĤ, sledujeme chování relativní þetnosti nastoupení náhodného jevu A, tj. posloupností - 101 - þísel N(A) , kde N(A) je poþet nastoupení jevu A v dané sérii N pokusĤ, pak vidíme, N že posloupnosti relativních þetností mají ve skoro všech sériích snahu konvergovat pro dostateþnČ velký poþet pokusĤ N k jisté pevné hodnotČ P(A) viz na obr. 2.1. N(A) N P(A) N Obr. 2.1. PĜíklad posloupnosti N(A) N Teoretická hodnota P(A) vyjadĜuje míru možnosti nastoupení náhodného jevu A v jednotlivém pokusu a hovoĜíme o tzv. „statistické definici pravdČpodobnosti“ náhodného jevu A. Z jakékoliv realizované série N pokusĤ však mĤžeme pravdČpodobnost P(A) náhodného jevu A pomocí zjištČné relativní þetnosti N(A) N pouze více þi ménČ pĜesnČ odhadnout. Naopak pravdČpodobnost P(A) znamená, že pĜi mnoha pokusech (ĜádovČ tisíce a více) nastoupí náhodný jev A zhruba ve 100P(A) % pokusĤ. Na vlastnostech relativní þetnosti 0d N(A) d 1, A B N N(A B) N N(A) N(B) , N N je založena následující obecná (axiomatická) definice pravdČpodobnosti náhodného jevu. PravdČpodobnost P(A) náhodného jevu A 6 je reálná funkce definovaná na 6 s vlastnostmi: 1. P(A) t 0 pro všechny náhodné jevy A 6. 2. P(:) = 1. 3. Pro každou posloupnost disjunktních náhodných jevĤ Ai 6, i = 1, 2,… , je §f · P¨¨ * A i ¸¸ ©i 1 ¹ - 102 - f ¦ P A . i i 1 UspoĜádaná trojice (:, 6, P) se nazývá pravdČpodobnostní prostor. Platí: 1 PA ; P() = 0; 0 d P(A) d 1. a) P( A) b) A B P(A) d P(B), c) PA 1 ... A n 1 P( A 1 ... A n ) P(B – A) = P(B) – P(A). n n i 1 i, j 1 i¢ j ¦ PA i ¦ PA i A j ... 1 PA 1 ... A n , n 1 speciálnČ pro n = 2 je PA B 1 P( A B ) PA PB PA B . Pro koneþný nebo spoþetný základní prostor : (tj. elementární jevy ^Z` lze uspoĜádat do posloupnosti) je PA ¦ P^Z` . Z A SpeciálnČ pro základní prostor : s n stejnČ pravdČpodobnými elementárními jevy je m , n P( A ) kde m je poþet elementárních jevĤ ^Z`, z nichž sestává náhodný jev A. ěíkáme, že „m je poþet pĜíznivých výsledkĤ pokusu“ a „n je poþet výsledkĤ pokusu“ a že jde o tzv. klasickou definici pravdČpodobnosti. P Ĝ í k l a d 2.2 VypoþtČte pravdČpodobnosti P(A), P(B), P( A ), P( B ), P(A B), P(A B), P(A B), P(B A) náhodných jevĤ z pĜíkladu 1, jestliže kostka je z homogenního materiálu. ě e š e n í: Elementární náhodné jevy mají vzhledem k pravidelnosti a homogennosti hrací kostky stejnou pravdČpodobnost P({Z}) 1 a n = 6. PĜímým výpoþtem z „klasické 6 definice pravdČpodobnosti“ obdržíme P(A) 3 6 1 , 2 P(B) 2 6 1 , 3 P(A) 3 6 1 , 2 P(B) 4 6 2 , 3 - 103 - P(A B) 4 6 2 , 3 P(A B) 1 , 6 P(A B) 2 6 1 , 3 P(A B) 1 . 6 Z vlastností pravdČpodobnosti lze napĜ. urþit P( A ) = 1 P(A) = 1 1 2 1 , 2 P(A B) = P(A) + P(B) P(A B) = 1 1 1 2 3 6 2 . 3 P Ĝ í k l a d 2.3 V dodávce 100 hĜídelí nemá požadovaný prĤmČr 10 kusĤ, požadovanou délku nemá 20 kusĤ a souþasnČ nemá požadovaný prĤmČr i délku 5 kusĤ. Urþete pravdČpodobnost toho, že náhodnČ vybraný hĜídel má požadovaný prĤmČr i délku. ě e š e n í: Jestliže A, popĜ. B, znaþí, že náhodnČ vybraný hĜídel nemá požadovaný prĤmČr, popĜ. délku, potom pravdČpodobnost toho, že náhodnČ vybraný hĜídel má požadovaný prĤmČr i délku je P( A B ) 1 P A B 1 P( A B) 1 >P( A ) P(B) P( A B)@ 1 (0,10 0,20 0,05) 0,75 . 2.3 PodmínČná pravdČpodobnost a nezávislé jevy PravdČpodobnost náhodného jevu A 6 za podmínky (pĜedpokladu), že nastane náhodný jev B 6, P(B) z 0, je podmínČná pravdČpodobnost P( A B) . P(B) P( A / B) Platí: a) P(A1 … An) = P(A1)P(A2/A1) … P(An/A1 … An – 1), speciálnČ je P(A B) = P(A)P(B/A) = P(B)P(A/B), n b) Pro náhodný jev A * B i , kde Bi, jsou disjunktní náhodné jevy, i 1 i = 1, …, n, je tzv. úplná pravdČpodobnost n P( A ) ¦ P(B )P( A / B ) i i 1 - 104 - i a pro P(A) z 0 platí BayesĤv vzorec P(B j / A ) P(B j )P( A / B j ) j = 1, …, n. , n ¦ P(B )P( A / B ) i i i 1 P Ĝ í k l a d 2.4 Ze skupiny 100 výrobkĤ, která obsahuje 10 zmetkĤ, vybereme náhodnČ bez vracení 3 výrobky. PravdČpodobnost toho, že první výrobek není zmetek - náhodný jev A1, druhý výrobek není zmetek – náhodný jev A2 a tĜetí výrobek je zmetek – náhodný jev A 3 , je P( A 1 A 2 A 3 ) P( A 1 )P( A 2 / A 1 )P( A 3 / A 1 A 2 ) 90 / 100 89 / 99 10 / 98 | 0,08256 . P Ĝ í k l a d 2.5 Do obchodu s potravinami dodávají rohlíky 3 pekárny v poþtech 500, 1000 a 1500 kusĤ dennČ. Zmetkovitost jejich dodávek je 5%, 4% a 3%. Jejich dodávky jsou v obchodČ smíchány do celkové zásoby. Urþete pravdČpodobnost, že a) náhodnČ vybraný rohlík z celkové zásoby je zmetek, b) náhodnČ vybraný rohlík z celkové zásoby, který je zmetek, byl dodán druhou pekárnou. ě e š e n í: Oznaþme náhodné jevy A ... vybraný rohlík je zmetek, Bi ... rohlík byl dodán i-tou pekárnou, i = 1, 2, 3. PravdČpodobnosti jsou P(B1 ) 500 500 1000 1500 1 , P( A / B1) 6 0,05 , P(B 2 ) 1000 500 1000 1500 2 , P( A / B2 ) 6 0,04 , P(B3 ) 1500 500 1000 1500 3 , P( A / B3 ) 6 0,03 . a) Podle vzorce pro úplnou pravdČpodobnost je P(A) 0,05 1 2 3 0,04 0,03 6 6 6 0,22 6 - 105 - 0,036 | 0,03667 , takže zmetkovitost z hlediska zákazníka je pĜibližnČ 3,667%. b) Z Bayesova vzorce je pro j = 2 2 6 0,22 6 0,04 P(B2 / A) 0,08 0,22 0,36 | 0,36364 . Analogicky lze získat P(B1 /A) | 0,22727 a P(B3 /A) | 0,40909, takže nejvČtší podíl na zmetkovitosti celkové zásoby má 3. pekárna. PĜitom má absolutnČ nejmenší zmetkovitost ze všech tĜí dodavatelĤ, avšak dodává nejvČtší poþet rohlíkĤ. Náhodné jevy A, B 6 jsou nezávislé, jestliže P(A/B) = P(A) anebo P(B) = 0. Náhodné jevy A1,…, An 6 jsou vzájemnČ nezávislé, jestliže jsou nezávislé všechny náhodné jevy ve dvojicích Ai, Aj pro i z j, Ai, Aj Ak pro i z j, i z k, Ai, Aj Ak Am pro i z j, i z k a i z m, atd. Platí: a) A, B jsou nezávislé, právČ když P(A B) = P(A)P(B). b) Jestliže A1, …, An jsou vzájemnČ nezávislé, pak P(A1 … An) = P(A1) … P(An), P(A1 … An) = 1 >1 – P(A1)@ … >1 – P(An)@, B1, …, Bn jsou vzájemnČ nezávislé pro libovolné varianty B i A i, A i, : . P Ĝ í k l a d 2.6 Jaká je pravdČpodobnost, že v prvním hodu pravidelnou homogenní šestistČnnou kostkou padne sudé þíslo (náhodný jev A) a ve druhém hodu touto kostkou padne liché þíslo (náhodný jev B)? ě e š e n í: Náhodné jevy A a B jsou nezávislé a jejich pravdČpodobnosti jsou P(A) = P(B) = 1/2, takže P(A B) = (1/2).(1/2) = 1/4. - 106 - P Ĝ í k l a d 2.7 Výrobek prochází tĜemi nezávislými operacemi, pĜi kterých jsou pravdČpodobnosti výroby zmetku P(A1) = 0,05, P(A2) = 0,08 a P(A3) = 0,03. Urþete pravdČpodobnost výroby zmetku po všech tĜech operacích. ě e š e n í: Vzhledem k nezávislosti operací jsou vzájemnČ nezávislé náhodné jevy A1, A2, A3 a výrobek je zmetek, jestliže nastane aspoĖ jeden z tČchto jevĤ, takže P(A1 A2 A3) = 1 >1 – P(A1)@>1 – P(A2)@>1 – P(A3)@ =1 – 0,950,92.0,97 = 0,15222. 2.4 Náhodná veliþina a její funkþní charakteristiky Náhodná veliþina (náhodná promČnná) X je reálná promČnná, která nabývá náhodnČ reálných þíselných hodnot x – blíže v [1], [2], [3]. Její distribuþní funkce je F(x) = P(X x) = P>X(-f; x)@, x(-f;+f). Distribuþní funkce má vlastnosti: a) 0 d F(x) d 1 pro všechna x(-f;+f), b) F(x) je neklesající a zleva spojitá na (-f;+f). lim F( x ) c) x o f 0 , lim F( x ) 1 , x o f d) P(a d X b) = F(b) – F(a) pro libovolná reálná þísla a b, e) P( X c) lim F( x) F(c) pro libovolné reálné þíslo c . xo c NČkdy se distribuþní funkce definuje vztahem F(x) = P(X d x). Tato distribuþní funkce je zprava spojitá, P(a X d b) = F(b) – F(a) a P( X c) F(c) lim F(x) . x oc Potkáme se s ní zejména ve statistických softwarových produktech. Náhodná veliþina X je diskrétní a Ĝíkáme, že má diskrétní rozdČlení pravdČpodobnosti, jestliže nabývá nejvýše spoþetnČ mnoha hodnot x = x1, x2, …. Její pravdČpodobnostní funkce je posloupnost p(x) = P(X = x) ! 0 pro x = x1, x2, …. Platí: a) ¦ p( x) 1, x b) F( x ) ¦ p(t ) pro všechna x(-f;+f), t¢x c) P X M ¦ p( x) pro libovolnou množinu reálných þísel M. xM - 107 - Distribuþní funkce diskrétní náhodné veliþiny má “schodovitý tvar” – viz obr. 2.2. P Ĝ í k l a d 2.8 PravdČpodobnost poruchy každé ze tĜí nezávisle pracujících výrobních linek je 0 p 1. Diskrétní náhodná veliþina X, která vyjadĜuje poþet výrobních linek v poruše, nabývá hodnot x = 0, 1, 2, 3 a hodnoty její pravdČpodobnostní funkce jsou p(0) = (1 – p)3, p(1) = 3p(1 – p)2, p(2) = 3p2(1 – p), p(3) = p3. Její distribuþní funkce je F(x) = 0 pro x (-f, 0², F(x) = p(0) = (1 – p)3 pro x (0, 1², F(x) = p(0) + p(1) = (1 + 2p)(1 – p)2 pro x (1, 2², F(x) = p(0) + p(1) + p(2) = (1 + p + p2)(1 – p) = 1 – p3 pro x (2, 3², F(x) = p(0) + p(1) + p(2) + p(3) = 1 pro x (3; f). Na obr. 2.2 jsou grafy p(x) a F(x) pro p = 0,5. PravdČpodobnost toho, že alespoĖ jedna linka má poruchu je P(X t 1) = P(1 d X +f) = F(+f) F(1) = 1 – (1 – p)3. Prob. Mass Fcn. Binomial Cum. Dist. Fcn. Binomial n = 3, p = 0.5 0.5 1 0.4 0.8 0.3 prob. mass 0.6 cum. prob. 0.2 0.4 0.1 0.2 0 0 0 1 2 -1 3 X 0 1 2 n = 3, p = 0.5 3 4 X (a) (b) Obr. 2.2 Grafy pravdČpodobnostní funkce (a) a distribuþní funkce (b) diskrétního rozdČlení pravdČpodobnosti - 108 - Náhodná veliþina X je spojitá a Ĝíkáme, že má spojité rozdČlení pravdČpodobnosti, jestliže má spojitou distribuþní funkci (tedy X nabývá všech hodnot z nČjakého intervalu apod.). Její hustota pravdČpodobnosti, je taková nezáporná funkce f(x), že x ³ f ( t)dt F( x) pro všechna x(-f;+f). f Platí: f a) ³ f ( x)dx 1, f b) f(x) = Fc( x ) , pokud derivace existuje, c) F(x) je spojitá funkce pro všechna x(-f;+f), b d) P(a d X d b) P(a X b) ³ f (x)dx P(a X d b) P(a d X b) F(b) F(a) a pro libovolná reálná þísla a d b, e) P(X = c) = 0 pro libovolné reálné þíslo c. P Ĝ í k l a d 2.9 Náhodná veliþina X má hustotu pravdČpodobnosti f(x) = cx pro x ¢0; 2² a 0 pro x ¢0; 2². Z vlastností spojité náhodné veliþiny získáme následující výsledky. Je f 0 f 2 ³ f ( x )dx ³ 0dx ³ cxdx ³ 0dx f takže c = 1/2 a f( x) f 0 ... 2c 1, 2 x pro x ¢0; 2². Distribuþní funkce náhodné veliþiny X je 2 Fx x ³ 0dt 0 pro x (- f; 0², 0 x f F( x ) t ³f0dt ³0 2dt ... 0 F( x ) 2 x2 4 pro x ¢0; 2², x t ³f0dt ³0 2dt ³2 0dt ... 1 pro x ¢2;+f). Na obr. 2.3 jsou grafy f(x) a F(x). PravdČpodobnost toho, že náhodná veliþina nabude hodnotu x ¢1; 3² je P(1 d X d 3) = F(3) – F(1) = 1 – (12/4) = 0,75. - 109 - 1.5 1.5 1 1 f(x) F(x) 0.5 0.5 0 0 -2 -1 0 1 2 3 4 -2 -1 0 1 x 2 3 4 x (a) (b) Obr. 2.3 Grafy hustoty pravdČpodobnosti (a) a distribuþní funkce (b) spojitého rozdČlení pravdČpodobnosti 2.5 ýíselné charakteristiky náhodné veliþiny ýíselné charakteristiky náhodné veliþiny X jsou reálná þísla, která koncentrovanČ vyjadĜují její dĤležité vlastnosti. Polohu rozdČlení pravdČpodobnosti charakterizuje stĜední hodnota náhodné veliþiny X E( X) ¦ xp( x ) pro diskrétní náhodnou veliþinu X, x f E( X) ³ xf ( x)dx pro spojitou náhodnou veliþinu X, f pokud sumace, pĜíp. integrál, konverguje absolutnČ. StĜední hodnota má vlastnosti: a) E(aX + b) = aE(X) + b pro libovolná reálná þísla a, b, b) · § n E¨¨ ¦ X i ¸¸ ©i1 ¹ n ¦ E X i pro náhodné veliþiny X1,…, Xn. i 1 Míru kolísání hodnot náhodné veliþiny X kolem její stĜední hodnoty E(X) > @ vyjadĜuje její rozptyl (disperze, variance) D( X) E ( X E( X)) 2 . Rozptyl má vlastnosti: a) D( X) ¦ ( x E( X)) x 2 p( x ) ¦ x p( x) (E( X)) 2 x - 110 - 2 pro diskrétní náhodnou veliþinu X, f D( X ) f ³ (x E( X)) 2 ³x f ( x )dx f 2 f ( x )dx (E( X ))2 pro spojitou náhodnou f veliþinu X, pokud sumace , pĜíp. integrál, konvergují, b) D(X) t 0, c) D(aX + b) = a2 D(X) pro libovolná reálná þísla a, b, · § n e) D¨ ¦ X i ¸ ©i1 ¹ pro nezávislé náhodné veliþiny X1, …, Xn. n ¦ D X i i 1 D X . SmČrodatná odchylka náhodné veliþiny X je V( X ) SmČrodatná odchylka má vlastnosti: a) V(X) t 0; b) V(aX + b) = _a_ V(X) pro libovolná reálná þísla a, b. StĜední hodnota, popĜ. rozptyl, náhodné veliþiny X je speciální pĜípad tzv. obecného, popĜ. centrálního momentu. Blíže o momentových charakteristikách (variaþním koeficientu, koeficientech šikmosti a špiþatosti) v [1], [2], [3]. P-kvantil nebo také 100P%-kvantil náhodné veliþiny X je pro 0 P 1 její hodnota xP = inf ^x; F(x) t P`. Pro spojitou náhodnou veliþinu X s rostoucí distribuþní funkcí je F(xP) = P. Medián náhodné veliþiny X je její kvantil x0,5 a charakterizuje její polohu. Další kvantilové charakteristiky jsou v >2@, >3@. Modus x̂ náhodné veliþiny X je její hodnota, v níž nabývá pravdČpodobnostní funkce nebo hustota pravdČpodobnosti maximum, pĜíp. suprémum. P Ĝ í k l a d 2.10 Náhodná veliþina X z pĜíkladu 2.9 má stĜední hodnotu 0 E X 2 ³ x 0dx ³ x f 0 x dx 2 f ³ x 0dx 2 ... 4 | 1,33333 , 3 rozptyl 0 D( X ) 2 x ³fx 0dx ³0 x 2 dx 2 2 f §4· ³2 x 0dx ¨© 3 ¸¹ a smČrodatnou odchylku V X 2 | 0,47140 . 9 - 111 - 2 2 2 16 9 2 | 0,22222 , 9 P-kvantil xP je koĜen rovnice x2 4 z intervalu ¢0; 2², tedy xP = 2 P . Odtud P medián náhodné veliþiny X je x0,5 = 2 0,5 | 1,41421 . Z grafu f(x) na obr. 3 vidíme, že modus náhodné veliþiny X je x̂ = 2. 2.6 NČkterá významná rozdČlení pravdČpodobnosti Diskrétní rozdČlení pravdČpodobnosti a) Binomické rozdČlení Bi(n, p), kde n je pĜirozené þíslo, p je reálné þíslo, 0 p 1: § n· x n x ¨ ¸ p 1 p , © x¹ p( x) E(X) = np; Toto rozdČlení D(X) = np(1 – p); má poþet x = 0, 1, …, n; (n + 1)p – 1 d x d (n + 1)p. nastoupení sledovaného náhodného jevu v posloupnosti n vzájemnČ nezávislých pokusĤ (napĜ. poþet zmetkĤ x mezi n výrobky, když p je pravdČpodobnost výroby zmetku). Jedná se také o popis tzv. výbČru s vracením, kdy napĜ. postupnČ vybíráme z dodávky n výrobkĤ a každý vybraný výrobek vracíme zpČt do dodávky. P Ĝ í k l a d 2.11 V sérii 50 výrobkĤ je 5 zmetkĤ. Ze série jsou náhodnČ vybrány 3 výrobky. Poþet zmetkĤ mezi vybranými výrobky je náhodná veliþina X. Urþete typ jejího rozdČlení pravdČpodobnosti, její pravdČpodobnostní funkci p(x), stĜední hodnotu E(X), rozptyl D(X), smČrodatnou odchylku V(X), medián x0,5, modus x a P(1 < X d 3). PĜedpokládejte, že každý vybraný výrobek se vrátí nazpČt do série, takže jde o náhodný výbČr s vracením. ě e š e n í: Náhodná veliþina X má rozdČlení Bi(n,p), kde n = 3 a p = 5/50 = 0,1. X nabývá hodnot x = 0, 1, 2, 3. PravdČpodobnostní funkce je p( x) § 3· x , .0,93 x pro x = 0, 1, 2, 3. ¨ ¸ 01 © x¹ StĜední hodnota je E(X) = np = 3.0,1 = 0,3, rozptyl je D(X) = np(1 - p) = 3.0,1.0,9 = 0,27, smČrodatná odchylka je V(X) = D( X) 0,27 | 0,51962, - 112 - medián x0,5 = 0, neboĢ p(0) = 0,729, modus x = 0, neboĢ (n + 1)p -1 = -0,6 a (n + 1)p = 0,4, P(1 < X d 3) = p(2) + p(3) = 0,027 + 0,001 = 0,028. b) Hypergeometrické rozdČlení H(N,M,n), kde N, M a n jsou pĜirozená þísla, 1 d n d N, 1 d M d N: E X p( x) § M· § N M· ¨ ¸¨ ¸ © x ¹ ©n x ¹ , § N· ¨ ¸ ©n¹ M ; N D X n n x = max ^0, M – N + n`, …, min ^M, N`; M § M· N n ; ¨1 ¸ N © N¹ N 1 a – 1 d x d a, kde a M 1n 1 N 2 . Toto rozdČlení popisuje tzv. náhodný výbČr bez vracení, kdy napĜ. N je celkový poþet výrobkĤ, M poþet zmetkĤ a vybereme náhodnČ (bez vracení) n výrobkĤ, mezi nimiž je x zmetkĤ. P Ĝ í k l a d 2.12 V sérii 50 výrobkĤ je 5 zmetkĤ. Ze série jsou náhodnČ vybrány 3 výrobky. Poþet zmetkĤ mezi vybranými výrobky je náhodná veliþina X. Urþete typ jejího rozdČlení pravdČpodobnosti, její pravdČpodobnostní funkci p(x), stĜední hodnotu E(X), rozptyl D(X), smČrodatnou odchylku V(X), medián x0,5, modus x a P(1 < X d 3). PĜedpokládejte (na rozdíl od pĜíkladu 2.11), že vybraný výrobek se nevrací nazpČt, takže jde o náhodný výbČr bez vracení. ě e š e n í: Náhodná veliþina X má rozdČlení H(N,M,n), kde N = 50, M = 5 a n = 3. X nabývá hodnot x = 0, 1, 2, 3. PravdČpodobnostní funkce je p( x ) StĜední hodnota je E(X) = n § 5 ·§ 45 · ¨¨ ¸¸¨¨ ¸¸ © x ¹© 3 x ¹ pro x = 0, 1, 2, 3. § 50 · ¨¨ ¸¸ ©3 ¹ M = 3.0,1 = 0,3, N - 113 - rozptyl je D(X) = D X n M § M· N n = 3.0,1.0,9. (47/49) | 0,25898, ¨1 ¸ N © N¹ N 1 smČrodatná odchylka je V(X) = D( X) | 0,25898 | 0,50890, medián x0,5 = 0, neboĢ max p(x) = p(0) | 0,724, modus x = 0, neboĢ a M 1n 1 N 2 | 0,46154, a – 1 | -0,53846, P(1 < X d 3) = p(2) + p(3) | 0,023 + 0,0005 = 0,0235. c) Poissonovo rozdČlení Po(O), kde O je reálné þíslo, O ! 0: p( x) Ox O e , x! x = 0, 1, … ; E(X) = O; D(X) = O; O - 1 d x d O. Toto rozdČlení se obvykle užívá pro vyjádĜení pravdČpodobnosti poþtu nastoupení sledovaného jevu v urþitém þasovém intervalu (poþet poruch, nehod, katastrof, zmetkĤ apod.) s malou pravdČpodobností výskytu. P Ĝ í k l a d 2.13 BČhem 1 minuty navštíví prodejnu prĤmČrnČ 3 zákazníci. NajdČte vhodný typ rozdČlení pravdČpodobnosti náhodné veliþiny X vyjadĜující poþet zákazníkĤ, kteĜí navštíví prodejnu za 1 minutu, stĜední poþet zákazníkĤ, rozptyl jejich poþtu a nejpravdČpodobnČjší poþet zákazníkĤ za 1 minutu. Urþete dále pravdČpodobnost, že bČhem 1 minuty pĜijde a) právČ 1 zákazník, b) aspoĖ 1 zákazník. ě e š e n í: Nahradíme-li stĜední poþet zákazníkĤ, kteĜí navštíví prodejnu bČhem 1 min, jejich prĤmČrným poþtem, mĤžeme vyjádĜit náhodnou veliþinu X pomocí Poissonova rozdČlení pravdČpodobnosti Po(O) s pravdČpodobnostní funkcí p( x ) 3x 3 e , x! x = 0, 1, … . StĜední hodnota E(X) = O = 3, rozptyl D(X) = O = 3, pro modus je O - 1 d x d O, takže x = 2 a 3, P(X = 1) = p(1) = 31 3 e | 0, 14936, 1! P(X t 1) = p(1) + p(2) + … = 1 – p(0) = 1 – 30 3 e | 1 – 0, 04979 = 0,95021. 0! - 114 - Spojitá rozdČlení pravdČpodobnosti a) RovnomČrné rozdČlení R(a, b), kde a b jsou reálná þísla: f (x) F( x ) 1 pro x a; b , ba 0 pro x a; b , 0 pro x f; a , xa pro x ¢a; b², ba 1 pro x b;f , E X x 0,5 ab 2 D( X ) b a 2 12 . Toto rozdČlení slouží pĜedevším k simulaci reálných procesĤ nebo numerickým výpoþtĤm tzv. metodou Monte Carlo na poþítaþi a pro výpoþty pomocí tzv. geometrické pravdČpodobnosti. P Ĝ í k l a d 2.14 K pĜerušení optického kabelu v délce 500 m mĤže dojít v libovolné vzdálenosti od jeho poþátku, pĜiþemž pravdČpodobnost náhodného jevu, že dojde k pĜerušení v nČjakém úseku je pĜímo úmČrná délce úseku a nezávisí na jeho poloze. Urþete rozdČlení pravdČpodobnosti náhodné veliþiny X vyjadĜující vzdálenost místa pĜerušení kabelu od jeho poþátku, její hustotu pravdČpodobnosti a základní þíselné charakteristiky a pravdČpodobnost, že k pĜerušení kabelu dojde v úseku od 300 m do 400 m od poþátku. ě e š e n í: Náhodná veliþina X má rozdČlení R(a, b), kde a = 0 a b = 500 s hustotou pravdČpodobnosti f(x) 1 pro x 0; 500 a f(x) 500 StĜední vzdálenost a medián EX rozptyl D( X) 500 0 2 12 x 0,5 | 20833,3 m smČrodatná odchylka V(X) = 2 0 pro x 0; 500 . 0 500 = 250 m, 2 , D( X) | 20833,3 | 144,34 m, - 115 - pravdČpodobnost P(300 d X d 400) = F(400) - F(300) = 400 300 = 0,2. 500 500 b) Normální rozdČlení N(P, V2), kde P, V2 jsou reálná þísla, V2 ! 0: f x ª x P 2 º », exp« 2V 2 » V 2S «¬ ¼ 1 x (- f, + f); E(X) = x0,5 = x = P, D(X) = V2. Toto nejrozšíĜenČjší rozdČlení (nazývané také Gaussovo rozdČlení) se užívá k vyjádĜení náhodných veliþin, které lze interpretovat jako aditivní výsledek mnoha nezávislých vlivĤ (napĜ. chyba mČĜení, odchylka rozmČru výrobku apod.). NČkdy se také hovoĜí o zákonu chyb. Transformací XP V U dostaneme normované (základní) normální rozdČlení N(0;1), jehož distribuþní funkce )(x) je tabelována (viz tabulku T1) anebo její hodnoty urþíme výpoþtem na PC, napĜ. pomocí software Excel. Platí )(-x) = 1 - )(x). Pro náhodnou veliþinu X s normálním rozdČlením N(P, V2) je §xP· )¨ ¸, © V ¹ F( x ) a napĜ. P(P - 3V d X d P + 3V) | 0,9973 (tzv. pravidlo tĜí sigma). P Ĝ í k l a d 2.15 Jaká je pravdČpodobnost, že náhodná veliþina X, která má rozdČlení N(20;16), nabude hodnotu a) menší než 16, b) vČtší než 20, c) v mezích od 12 do 28, d) menší než 12 nebo vČtší než 28 ? ě e š e n í: Ze vztahu F( x ) §xP· )¨ ¸ a tabulky T1 dostaneme © V ¹ a) P(X 16) = F(16) – F(f) = F(16) – 0 = )((16 – 20) / 4) = )(-1) = 1 - )(1) | | 1 – 0,84135 = 0,15865 ; b) P(X ! 20) = 1 – P(X d 20) = 1 – F(20) = 1 - )((20 – 20) / 4) = 1 – )(0) = - 116 - = 1 – 0,5 = 0,5 ; c) P(12 d X d 28) = F(28) – F(12) = )((28 – 20) / 4) – )((12 – 20) / 4) = = )(2) – )(-2) = )(2) – (1 – )(2)) = 2)(2) – 1 | 2.0,97725 – 1 = = 0,9545 ; d) P((X 12) (X ! 28)) = 1 – P(12 d X d 28) | 1 – 0,9545 = 0,0455 . Informace o dalších v praxi þasto užívaných rozdČleních pravdČpodobnosti a náhodných vektorech lze najít napĜ. v [1], [2], [3]. - 117 -