SA ZK - ÚM FSI VUT

Transkript

SA ZK - ÚM FSI VUT

Vysoké uþení technické v BrnČ
Fakulta strojního inženýrství
STATISTICKÁ ANALÝZA
Doc. RNDr. ZdenČk Karpíšek, CSc.
PĜehledový uþební text pro doktorské studium
BRNO 2008
PĜednášející:
Doc. RNDr. ZdenČk Karpíšek, CSc.
Centrum pro jakost a spolehlivost ve výrobČ
Odbor statistiky a optimalizace
Ústav matematiky
FSI VUT v BrnČ
E-mail: [email protected]
© ZdenČk Karpíšek
2008
-2-
OBSAH
PěEDMLUVA (4)
1. NÁHODNÝ VÝBċR A JEHO CHARAKTERISTIKY (5)
Kontrolní otázky (9)
2. ODHADY PARAMETRģ (10)
Bodové a intervalové odhady (10)
Odhady parametrĤ normálního rozdČlení (12)
Odhady parametru binomického rozdČlení (14)
PĜíklady k procviþení (15)
3. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ (18)
Statistická hypotéza a její test (18)
Testy hypotéz o parametrech normálního rozdČlení (21)
Testy hypotéz o parametru binomického rozdČlení (26)
Testy hypotéz o rozdČlení (28)
Neparametrické testy hypotéz (31)
4. REGRESNÍ ANALÝZA (45)
Regresní funkce (45)
Lineární regresní model (46)
5. ANALÝZA ROZPTYLU (58)
Motivace a základní pojmy (58)
Analýza rozptylu jednoduchého tĜídČní (ANOVA 1) (58)
6. KATEGORIÁLNÍ ANALÝZA (67)
Motivace (67)
PearsonĤv test nezávislosti a homogenity (67)
-3-
LITERATURA (72)
STATISTICKÉ TABULKY (75)
DODATEK 1 – Základy popisné statistiky (86)
DODATEK 2 – (OHPHQW\ teorie pravdČpodobnosti (100)
PěEDMLUVA
Uþební text obsahuje pĜehled metod nejþastČji používaných metod matematické
statistiky a je pouze základní pomĤckou pro studium. Pro individuální pĜípravu ke zkoušce
jsou do každé kapitoly zaĜazeny neĜešené pĜíklady k procviþení a kontrolní otázky.
K prohloubení znalostí se doporuþuje literatura citovaná v textu a uvedená v závČreþné þásti.
Tabulková þást má sloužit k Ĝešení úloh na odhady parametrĤ a testování statistických
hypotéz. Dodatky 1 a 2 doplĖují uþební text o základní informace z popisné statistiky a teorie
pravdČpodobnosti.
DČkuji všem, kteĜí mnČ pomohli pĜipomínkami a radami k pĜípravČ tohoto vydání
uþebního textu. Rád pĜijmu všechny podnČty a doporuþení k jeho obsahu i zpracování.
Brno, Ĝíjen 2008
ZdenČk Karpíšek
-4-
ELEMENTY MATEMATICKÉ STATISTIKY
1 NÁHODNÝ VÝBċR A JEHO CHARAKTERISTIKY
Matematická (inferenþní, indukþní) statistika poskytuje metody pro popis veliþin náhodného
charakteru pomocí jejich pozorovaných hodnot. Jedná se vlastnČ o urþení vlastností rozdČlení
pravdČpodobnosti náhodné veliþiny nebo náhodného vektoru na základČ jejich pozorovaných
hodnot a v podstatČ jde o Ĝešení dvou základních úloh matematické statistiky:
x odhady parametrĤ a rozdČlení,
x testování statistických hypotéz o parametrech a rozdČleních.
Tyto úlohy se dle potĜeby kombinují, když napĜ. odhadujeme nebo testujeme þíselné
charakteristiky rozdČlení, vyšetĜujeme závislosti náhodných veliþin apod. Metody
matematické statistiky jsou založeny na následujících pojmech.
Opakujeme-li n-krát nezávisle pokus, jehož výsledkem je hodnota náhodné veliþiny X
s distribuþní funkcí F x, - , kde - je reálný parametr (pĜípadnČ vektor parametrĤ anebo
jejich funkce) daného rozdČlení pravdČpodobnosti, pozorujeme vlastnČ náhodný vektor
X
X 1 ,...,X n a pĜedpokládáme, že jeho složky jsou nezávislé náhodné veliþiny Xi se
stejnou distribuþní funkcí jakou má pozorovaná náhodná veliþina X. Náhodný vektor
X
X 1 ,...,X n se nazývá náhodný výbČr (z náhodné veliþiny X nebo z jejího rozdČlení
pravdČpodobnosti) a þíslo n je rozsah náhodného výbČru. Analogicky definujeme náhodný
výbČr
z náhodného
F x;- vektoru.
F x1 ,...,xn ;- Náhodný
výbČr
má
simultánní
distribuþní
funkci
n
F x ;- .
i
i 1
ýíselný vektor x
x1 ,...,xn , který získáme pĜi realizaci náhodného výbČru, kde xi je
pozorovaná hodnota složky Xi , i
soubor x
x1 ,...,xn 1,...,n , je statistický soubor s rozsahem n. Statistický
je jinak Ĝeþeno pozorovaná hodnota náhodného výbČru X
X 1 ,...,X n ,
což znamená, že pĜi opakovaných realizacích náhodného výbČru obdržíme obecnČ (a
náhodnČ) rĤzné statistické soubory. Množina všech hodnot náhodného výbČru, tj. množina
všech statistických souborĤ, tvoĜí tzv. výbČrový prostor.
Funkce náhodného výbČru T X 1 ,...,X n je výbČrová charakteristika nebo statistika.
Její hodnota na statistickém souboru t
T x1 ,...,xn je empirická charakteristika nebo
pozorovaná hodnota statistiky T. VýbČrovou charakteristiku (statistiku) T (a tím také
-5-
empirickou charakteristiku t) volíme tak, nabývala na výbČrovém prostoru s velkou
pravdČpodobností hodnot blízkých neznámé nebo pĜedpokládané teoretické charakteristice,
napĜ. parametru - pozorované náhodné veliþiny X. Z toho vyplývá základní princip statistické
indukce v matematické statistice, který je schematicky vyjádĜen na obr. 1.1.
Náhodná veliþina
X
Teoretická charakteristika
-
Náhodný výbČr
(X1,…, Xn)
VýbČrová charakteristika
T(X1,…, Xn)
Statistický soubor
(x1,…, xn)
Empirická charakteristika
t = T(x1,…, xn)
Obr. 1.1
Používáme zejména tyto výbČrové charakteristiky:
1) výbČrový prĤmČr
X
1 n
¦ Xi ,
ni1
2) výbČrový rozptyl
S2
2
1 n
Xi X ,
¦
ni1
3) výbČrová smČrodatná odchylka
4) výbČrový koeficient korelace
S2 ,
S
R
1 n
¦ X i X Yi Y ni1
S X S Y pro náhodný výbČr
z náhodného vektoru (X, Y), kde S(X) a S(Y) jsou výbČrové smČrodatné odchylky
náhodných veliþin X a Y .
Základní vlastnosti výbČrového prĤmČru X a výbČrového rozptylu S 2 jsou:
a) Jestliže pozorovaná náhodná veliþina X má stĜední hodnotu E X , pak
EX EX .
b) Jestliže pozorovaná náhodná veliþina X má rozptyl D X , pak
DX DX ,V X
n
V X n
, E S2 n 1
DX .
n
Hodnoty výbČrových charakteristik jsou empirické charakteristiky, které získáme po
zpracování statistického souboru. NapĜ. aritmetický prĤmČr x je pozorovaná hodnota
-6-
výbČrového prĤmČru X apod. Tyto hodnoty jsou však náhodné, jinak Ĝeþeno, empirické
charakteristiky se pĜi opakovaných realizacích náhodného výbČru náhodnČ mČní. Avšak
z pĜedcházejícího plyne, že napĜ. pro n o f rozptyl výbČrového prĤmČru D X o 0 , takže
pro dostateþnČ velké n je takĜka jistČ aritmetický prĤmČr x blízký neznámé stĜední hodnotČ
E X . PĜitom ale V X o 0 pouze s rychlostí n1/ 2 , což znamená, že napĜ. pro dosažení
dvojnásobné pĜesnosti aproximace neznámé stĜední hodnoty E X aritmetickým prĤmČrem
x musíme zvýšit rozsah náhodného výbČru þtyĜikrát atd. Ve statistické literatuĜe se hovoĜí o
tzv. statistické kletbČ.
Protože
n 1
1 , je E S 2 D X , takže empirické hodnoty s2 se vzhledem ke
n
skuteþnému (a obvykle neznámému) rozptylu D X þastČji vychylují doleva (do menších
hodnot) od D X . Proto se mnohdy definuje výbČrový rozptyl Ŝ 2 ve tvaru
Sˆ 2
2
1 n
Xi X ¦
n 1 i 1
n
S2
n 1
a pro tento výbČrový rozptyl je E Sˆ 2
D X . Odpovídající rozptyl statistického souboru
pak je
sˆ2
n 2
s
n 1
1 n
2
xi x .
¦
n 1 i 1
Statistika Ŝ 2 má však vČtší rozptyl než statistika S 2 , ale pro velká n (ĜádovČ 100 a více) je
rozdíl mezi tČmito statistikami zanedbatelný. Analogicky definujeme výbČrovou smČrodatnou
odchylku Ŝ a smČrodatnou odchylku statistického souboru ŝ . RĤzné definice uvedených
charakteristik je nutno respektovat pĜi zpracování statistického souboru na PC pomocí
statistických programĤ a také ve vzorcích jak pro odhady parametrĤ, tak i pro testování
statistických hypotéz.
NejþastČji Ĝešené úlohy pĜi aplikacích metod matematické statistiky se týkají
pozorovaných náhodných veliþin s normálním rozdČlením pravdČpodobnosti. Jestliže
pozorovaná náhodná veliþina X má normální rozdČlení N(P; V 2), pak statistika:
a) X má normální rozdČlení N( P ;
b)
X P
V
V2
n
),
n má normální rozdČlení N(0;1) ,
-7-
c)
X P
n 1 má tzv. Studentovo rozdČlení
S
S(n 1) s n 1 stupni volnosti,
nazývané též t-rozdČlení,
d)
nS 2
V
2
má tzv. Pearsonovo rozdČlení F 2 n 1 s n 1 stupni volnosti, nazývané též
chí-kvadrát rozdČlení.
Jestliže pozorovaná náhodná veliþina X má normální rozdČlení N P ( X ); V 2 ( X ) a
pozorovaná náhodná veliþina Y má normální rozdČlení N P (Y ); V 2 (Y ) , X a Y jsou nezávislé
a také náhodné výbČry X 1 ,...,X n1 , Y1 ,...,Yn2 jsou nezávislé, pak statistika:
a)
X Y P ( X ) P (Y ) V 2(X )
n1
b)
V 2 (Y )
má normální rozdČlení N(0;1) ,
n2
X Y P ( X ) P (Y ) n1n2 n1 n2 2 má pro stejné rozptyly V 2 ( X )
2
2
n1 n2
n1 S ( X ) n2 S (Y )
V 2 (Y )
Studentovo rozdČlení S n1 n2 2 ,
c)
n1 S 2 ( X )
n1 1
n2 S 2 (Y )
n2 1
má pro stejné rozptyly V 2 ( X )
V 2 (Y ) tzv. Fisherovo-Snedecorovo
rozdČlení F(n1 1, n2 1) s n1 1 a n2 1 stupni volnosti.
Jestliže X 1 , X 2 ,... je posloupnost nezávislých náhodných veliþin s libovolným stejným
rozdČlením pravdČpodobnosti (napĜ. i asymetrickým nebo diskrétním), které má stĜední
hodnotu P0 a smČrodatnou odchylku V 0 , pak posloupnost náhodných veliþin
1 n
¦ X i P0
ni1
V0
n
konverguje (v distribuci) k náhodné veliþinČ U s normovaným normálním rozdČlením
N(0;1) . Odtud plyne, že pĜi dostateþnČ velkém rozsahu náhodného výbČru n mĤžeme
rozdČlení pravdČpodobnosti výbČrového aritmetického prĤmČru
X
pro libovolnou
pozorovanou náhodnou veliþinu X se stĜední hodnotou P0 a rozptylem V 02 aproximovat
-8-
normálním rozdČlením N( P0 ;
V 02
n
) . To také znamená, že pĜi dostateþnČ velkém rozsahu n
mĤžeme stanovit intervalový odhad napĜ. stĜední hodnoty P0 pozorované náhodné veliþiny X
s jiným než normálním (dokonce i neznámým) rozdČlením pravdČpodobnosti. Tento interval
zkonstruujeme ze získaného statistického souboru a jeho spolehlivost (tj. pravdČpodobnost
zachycení P0 ) pak vyjádĜíme pomocí normálního rozdČlení pravdČpodobnosti.
Výše uvedená tzv. statistická rozdČlení pravdČpodobnosti jsou tabelována (viz
Statistické tabulky na konci tohoto uþebního textu) a je také možno urþit jejich hodnoty
pomocí Excelu, profesionálních statistických softwarĤ a statistických apletĤ na Internetu.
Detailní informace o výše uvedených a dalších používaných statistikách, jejich rozdČleních
pravdČpodobnosti a asymptotických vlastnostech lze nalézt napĜ. v [2], [3], [8], [15], [17],
[30].
Kontrolní otázky
1. Jaké dvČ základní úlohy se Ĝeší v matematické statistice? Uvećte konkrétní pĜíklady.
2. Definujte náhodný výbČr a jeho realizaci.
3. Definujte výbČrovou charakteristiku a empirickou charakteristiku.
4. Popište princip statistické indukce.
5. Popište základní vlastnosti výbČrového prĤmČru a výbČrového rozptylu.
6. Jaká základní tzv. statistická rozdČlení pravdČpodobnosti používáme?
7. Jaké rozdČlení pravdČpodobnosti má výbČrový prĤmČr, jestliže pozorovaná náhodná
veliþina má normální rozdČlení?
8. Jakým rozdČlením pravdČpodobnosti mĤžeme pro dostateþnČ velký rozsah náhodného
výbČru aproximovat rozdČlení výbČrového prĤmČru?
-9-
2 ODHADY PARAMETRģ
Bodové a intervalové odhady
PĜedpokládáme, že pozorovaná náhodná veliþina X (pĜípadnČ náhodný vektor) má distribuþní
funkci F(x,-) známého tvaru, kde - je parametr (reálné þíslo nebo reálný vektor) rozdČlení
pravdČpodobnosti X. Skuteþnou hodnotu parametru - obvykle neznáme a odhadujeme ji
pomocí získaného statistického souboru. Parametrem - mĤže také být þíselná charakteristika
náhodné veliþiny (náhodného vektoru), napĜ. stĜední hodnota E(X), rozptyl D(X), koeficient
korelace U(X,Y) apod., pĜípadnČ tzv. parametrická funkce, tj. funkce parametrĤ rozdČlení.
Množina všech uvažovaných hodnot parametru - se nazývá parametrický prostor. Podle
zpĤsobu provedení rozdČlujeme odhady na odhady bodové a intervalové.
Odhadem T parametru - je statistika T(X1,..., Xn), která na celém parametrickém
prostoru nabývá hodnot blízkých parametru -. Používáme zejména tyto odhady:
1. Odhad T parametru - je nestranný (nevychýlený), jestliže jeho stĜední hodnota E(T) = -.
Pokud je E(T) z -, jde o stranný (vychýlený) odhad.
2. Je-li rozptyl nestranného odhadu T nejmenší z rozptylĤ všech nestranných odhadĤ téhož
parametru -, je T nejlepší nestranný odhad.
3. Odhad T je konzistentní, jestliže lim P T - ¢ H 1 pro libovolné reálné þíslo H ² 0 .
n of
Platí:
a)
X je nestranný konzistentní odhad stĜední hodnoty E(X),
b)
n
S 2 je nestranný konzistentní odhad rozptylu D(X),
n 1
c)
odhady a) a b) jsou pro normální rozdČlení X také nejlepší.
Další typy odhadĤ (napĜ. maximálnČ vČrohodné odhady) jsou popsány v [2], [3], [8], [15],
[17], [30].
Bodový odhad parametru - je pozorovaná hodnota t
T x1 ,..., xn odhadu T na
statistickém souboru x1 ,..., xn . Bodové odhady základních þíselných charakteristik jsou
EX x, D X n 2
s ,V X n 1
n
s, U X , Y n 1
r,
kde x , s 2 , s, r jsou empirické charakteristiky získané ze statistického souboru
resp.
x1 ,..., xn ,
x , y ,! , x , y , a znaménko = vyjadĜuje pouze odhad a nikoli rovnost hodnot.
1
1
n
n
- 10 -
Interval spolehlivosti (konfidenþní interval) pro parametr - se spolehlivostí 1 D ,
kde D 0;1 , je dvojice takových statistik T1 ; T2 , že P T1 d - d T2 1 D pro každou
hodnotu parametru -. Intervalový odhad parametru - se spolehlivostí 1 D je interval
t1 ; t2
a píšeme - t1 ; t2 , kde t1 , t2 jsou hodnoty statistik T1 , T2 na daném statistickém
souboru x1 ,..., xn , resp.
x , y ,! , x , y .
1
1
n
n
Spolehlivost 1 D volíme blízkou jedné, podle konvence obvykle 0,95 nebo 0,99, a
uvádíme ji také v %. Spolehlivost 1 D znamená, že pĜi mnoha opakovaných výbČrech
s konstantním rozsahem n z daného základního souboru zhruba (1 D)100 % všech
intervalových odhadĤ obsahuje skuteþnou hodnotu parametru - a naopak D100 % jich tuto
hodnotu neobsahuje. Situaci ilustruje poþítaþovČ simulovaný pĜíklad na obr. 2.1, kde - = 0 a
tuþnČ jsou vyznaþeny pĜípady odpovídající riziku chybného odhadu D, tj. intervalové odhady,
které nezachytily hodnotu parametru -.
4 intervalové odhady z 50 provedených intervalových odhadĤ se spolehlivostí 0,95
neobsahují odhadovanou hodnotu 0, tj. pozorovaná spolehlivost odhadĤ je 0,92
Obr. 2.1
Snížení rizika D, tedy zvýšení spolehlivosti 1 D, vede pĜi zachování rozsahu výbČru
n ke zvČtšení velikosti intervalového odhadu. Pro D = 0, tedy pro 100 % spolehlivost, je
intervalovým odhadem celý parametrický prostor a to nemá v aplikacích rozumný význam.
Zmenšit velikost intervalového odhadu je možno:
a) snížením spolehlivosti, což není vhodné, protože se tím vlastnČ nepĜesnost odhadu zvČtší,
b) zvýšením rozsahu výbČru n, ovšem s ohledem na "kletbu statistiky", neboĢ velikost
intervalového odhadu se zmenší víceménČ úmČrnČ n1/2,
c) volbou jiného a souþasnČ "užšího" intervalu spolehlivosti pro daný parametr, pokud
takovou statistiku T známe.
Na druhé stranČ je zĜejmé, že bodový odhad má spolehlivost nulovou anebo blízkou nule (pro
- 11 -
diskrétní rozdČlení pravdČpodobnosti pozorované náhodné veliþiny X). Intervalové odhady
proto poskytují významnČ dokonalejší pohled na vlastnosti pozorované náhodné veliþiny než
odhady bodové a navíc bodový odhad obsahují.
Intervalové odhady dČlíme na dvoustranné (oboustranné) a jednostranné podle toho,
zda je ohraniþujeme oboustrannČ anebo jednostrannČ. ýasto volíme statistiky T1 , T2 ve tvaru
T1
T G1 a T2
T G 2 , kde G1 t 0 a G 2 t 0 jsou vhodná reálná þísla (závisející na
spolehlivosti 1 D a rozsahu náhodného výbČru n) a T je nČjaký odhad parametru - .
Poznamenejme, že z pĜedem dané délky ' dvoustranného odhadu intervalového odhadu a
spolehlivosti 1 D je možno urþit potĜebný rozsah výbČru.
Odhady parametrĤ normálního rozdČlení
PĜedpokládáme, že pozorovaná náhodná veliþina X, resp. náhodný vektor
X ,Y ,
má
normální rozdČlení pravdČpodobnosti s parametry P, V 2 , resp. U.
Bodové odhady jsou
P
x, V 2
n 2
s , V
n 1
n
s, U
n 1
r .
Intervalový odhad stĜední hodnoty P pĜi neznámém rozptylu V 2 je
x t1D 2
s
; x t1D 2
n 1
s
,
n 1
§ D·
kde t1D 2 je ¨ 1 ¸ - kvantil Studentova rozdČlení S(k) s k = n – 1 stupni volnosti. Kvantily
2¹
©
tohoto rozdČlení jsou uvedeny v tabulce T2.
Intervalový odhad rozptylu V 2 je
ns 2
;
ns 2
F12D 2 FD2 2
,
kde F P2 je P - kvantil Pearsonova rozdČlení Ȥ 2 ( k ) s k = n – 1 stupni volnosti. Kvantily tohoto
rozdČlení jsou uvedeny v tabulce T3. Z uvedeného intervalového odhadu získáme po
odmocnČní jeho mezí intervalový odhad smČrodatné odchylky V .
PĜíklad 2.1
MČĜením délky 10 váleþkĤ byl získán statistický soubor s empirickými charakteristikami
x
5, 37 mm, s2 = 0,0019 mm2 a s = 0,044 mm (viz pĜíklad 2.1 z uþebního textu MME 2).
Urþete bodové odhady stĜední hodnoty, rozptylu a smČrodatné odchylky. Za pĜedpokladu, že
- 12 -
namČĜená délka X má normální rozdČlení pravdČpodobnosti, urþete intervalové odhady tČchto
þíselných charakteristik se spolehlivostí 0,95.
ě e š e n í:
Bodové odhady jsou:
stĜední délka váleþku P = 5,37 mm,
rozptyl délky váleþku V 2 =
2
10
0,0019 = 0,00211 mm ,
9
smČrodatná odchylka délky váleþku V =
0, 00211 | 0,046 mm.
Intervalový odhad stĜední délky váleþku P se spolehlivostí 0,95 je, neboĢ t0,975 = 2,262 pro
9 stupĖĤ volnosti z tabulky T2,
P <5,37 2,262
0, 0019
0, 0019
; 5,37 + 2,262
> | <5,337; 5,403> mm.
10 1
10 1
2
= 2,700 a
Intervalový odhad rozptylu délky váleþku V2 se spolehlivostí 0,95 je, neboĢ F 0,025
2
= 19,023 pro 9 stupĖĤ volnosti z tabulky T3,
F 0,975
V 2 <
10.0, 0019 10.0, 0019
;
> | <0,00100; 0,00704> mm2,
19, 023
2, 700
takže intervalový odhad smČrodatné odchylky délky váleþku V je
V < 0, 00100 ; 0, 00704 > | <0,0316; 0,0839> mm.
Intervalový odhad koeficientu korelace U pro n t 10 a r z r1 je
tgh z1 ; tgh z2 ,
kde
z1
w
u1D 2
n3
, z2
w
u1D 2
n3
, w
1 § 1 r
r ·
¨ ln
¸ , tgh z
2 © 1 r n 1¹
e z e z
e z e z
e2 z 1
,
e2 z 1
§ D·
a u1D 2 je ¨ 1 ¸ - kvantil normovaného normálního rozdČlení N(0;1), jehož hodnoty lze
2¹
©
získat z tabulky T1 s hodnotami distribuþní funkce )(u). Pro 1 D = 0,95 je u0,975
pro 1 D = 0,99 je u0,995
1, 960 a
2, 576 . Uvedený odhad je pouze pĜibližný, avšak jeho pĜesnost je
v praktických úlohách zcela postaþující (pĜesný odhad není znám).
PĜíklad 2.2
Sledováním nákladĤ X a ceny stejného výrobku Y u 10 výrobcĤ byl získán dvourozmČrný
statistický soubor s koeficientem korelace r = 0,82482 (viz pĜíklad 2.3 z uþebního textu
- 13 -
MME 2). Urþete bodový odhad a intervalový odhad se spolehlivosti 0,99 koeficientu korelace
U základního souboru.
ě e š e n í:
Bodový odhad koeficientu korelace nákladĤ a ceny je U
w
0,82482. Po dosazení je
1 § 1 0,82482 0,82482 ·
| 1, 21753 .
ln
2 ¨© 1 0,82482
10 1 ¸¹
Z tabulky T1 je u0,995 = 2,576, takže
z1
1, 21753 2, 576
| 0, 24397 , z2
10 3
1, 21753 2, 576
| 2,19110
10 3
a intervalový odhad koeficientu korelace nákladĤ a ceny U se spolehlivostí 0,99 je
U tgh 0, 24397; tgh 2,19110 | 0, 239242; 0, 975313 .
Odhady parametru binomického rozdČlení
PĜedpokládáme,
že
pozorovaná
náhodná
veliþina
X
má
alternativní
rozdČlení
pravdČpodobnosti s parametrem p, tedy binomické rozdČlení Bi(1; p). PĜi odhadu parametru
p jde vlastnČ o odhad velikosti podílu prvkĤ základního souboru majících sledovanou
vlastnost. PĜitom Xi nabývá hodnotu xi = 1, resp. 0, jestliže i-tý náhodnČ vybraný prvek má,
resp. nemá, sledovanou vlastnost, i = 1,…, n. NechĢ x je poþet prvkĤ se sledovanou vlastností
n
z n náhodnČ vybraných prvkĤ, tedy x
¦x
i
.
i 1
Bodový odhad je p
x
.
n
Intervalový odhad p je pro n > 30
x
u1D / 2
n
x§
x·
x§
x·
¨1 ¸ x
¨1 ¸
n©
n¹
n©
n¹
; u1D / 2
n
n
n
,
§ D·
kde u1D 2 je ¨ 1 ¸ - kvantil normovaného normálního rozdČlení, jehož hodnoty lze získat
2¹
©
z tabulky T1. Uvedený odhad je pouze pĜibližný, avšak jeho pĜesnost je pro velká n
v praktických úlohách obvykle postaþující.
PĜíklad 2.3
PĜi prĤzkumu zájmu o nový výrobek odpovČdČlo ze 400 dotázaných zákazníkĤ supermarketu
- 14 -
STAMET kladnČ na otázku, zda si nový výrobek koupí, 80 zákazníkĤ. Urþete bodový a
intervalový odhad podílu zákazníkĤ p ze základního souboru všech zákazníkĤ supermarketu
STAMET.
ě e š e n í:
Protože x = 80 a n = 400, je bodový odhad p
80
400
0, 2 , tedy 20 % všech zákazníkĤ
supermarketu STAMET si chce koupit nový výrobek.
Z tabulky T1 pro spolehlivost 0,95 je u0,975 = 1,960, takže intervalový odhad podílu zákazníkĤ
p se spolehlivostí 0,95 je
p
80 §
80 ·
80 §
80 ·
1
1
¨
¸
¨
¸
80
400 ©
400 ¹ 80
400 ©
400 ¹
;
1, 960
1, 960
400
400
400
400
… 0,1608; 0,2392 !.
Pro spolehlivost 0,99 obdržíme analogickým zpĤsobem intervalový odhad
p 0,1485; 0,2515 !.
Se spolehlivostí 0,95, resp. 0,99, si nový výrobek koupí pĜibližnČ 16 až 24 %, resp. 15 až 25
%, všech zákazníkĤ supermarketu STAMET. Pokud má STAMET celkem 10 000 zákazníkĤ,
lze víceménČ oþekávat, že prodá cca 2 000 nových výrobkĤ. Z intervalového odhadu mĤžeme
pak se spolehlivostí 0,95 usuzovat, že STAMET prodá pĜibližnČ 10 0000,16 = 1 600 až
10 0000,24 = 2 400 nových výrobkĤ.
PĜíklady k procviþení
PĜíklad 2.4
Urþete bodový a intervalový odhad se spolehlivostí 0,99 parametrĤ P a V2 normálního
rozdČlení, jestliže realizací náhodného výbČru byl získán statistický soubor o rozsahu n = 18
s aritmetickým prĤmČrem x = 50,1 a s rozptylem s2 = 17,64.
V ý s l e d e k: P = 50,1; V2 = 18,678; P <47,09; 53,10>; V2 <8,894; 55,705>
PĜíklad 2.5
Statistický soubor o rozsahu n = 12 má aritmetický prĤmČr x = 77,55 a rozptyl s2 = 1045,65.
Urþete bodový a intervalový odhad P a V základního souboru se spolehlivostí 0,99.
V ý s l e d e k: P = 77,55; V = 33,78; P <47,267; 107,833>; V <21,638; 69,47>
- 15 -
PĜíklad 2.6
U sta náhodnČ vybraných pracovníkĤ stejné kategorie byla zjištČna hodinová tarifní mzda
(Kþ) a vypoþteny empirické charakteristiky x = 98,64 Kþ a s2 = 1,1979 Kþ. Urþete bodové a
intervalové odhady stĜední hodinové tarifní mzdy P a smČrodatné odchylky V se spolehlivostí
99% za pĜedpokladu, že základní soubor má normální rozdČlení.
V ý s l e d e k: P = 98,64 Kþ; V = 1,10 Kþ;
P <98,35; 98,93> Kþ; V <0,93; 1,34> Kþ
PĜíklad 2.7
Z patnácti nezávislých pozorování byl vypoþten bodový odhad stĜední hodnoty 424,7 ms-1 a
smČrodatné odchylky 8,7 ms-1 maximální rychlosti letadla. Urþete intervalový odhad stĜední
hodnoty a smČrodatné odchylky maximální rychlosti se spolehlivostí 95% za pĜedpokladu
normálního rozdČlení maximální rychlosti.
V ý s l e d e k: P <419,88; 429,52> ms-1 ; V <6,37; 13,72> ms-1
PĜíklad 2.8
Bylo provedeno 5 nezávislých a stejnČ pĜesných mČĜení ke stanovení objemu nádoby: 4,781;
4,792; 4,795; 4,779; 4,769 (v litrech). Stanovte intervalový odhad stĜední hodnoty objemu
nádoby se spolehlivostí 0,99 za pĜedpokladu normálního rozdČlení.
V ý s l e d e k: <4,761; 4,805> l
PĜíklad 2.9
PĜi kontrole záruþních listĤ urþitého druhu masové konzervy ve skladu hypermarketu bylo
náhodnČ vybráno 320 konzerv a zjištČno, že 59 jich má prošlou záruþní lhĤtu. Stanovte
bodový a intervalový odhad se spolehlivostí 95% procenta konzerv s prošlou záruþní lhĤtou
ve skladech hypermarketu firmy. Totéž urþete pro roþní sklad hypermarketu s poþtem 20 000
konzerv.
V ý s l e d e k: p = 0,184 = 18,4 %; p <0,142; 0,226> = <14,2; 22,6> %; N = 3680;
N <2840; 4520>
PĜíklad 2.10
PĜi náhodném výbČru pneumatik vyrábČných velkou evropskou nadnárodní spoleþností 10%
pneumatik nevyhovČlo nové normČ. Pro rozsah výbČru (a) n = 100, (b) n = 400, (c) n = 1600
urþete 95%-ní interval spolehlivosti pro podíl p pneumatik vyrábČných touto spoleþností,
které nevyhovují nové normČ.
V ý s l e d e k: (a) <0,041; 0,159>; (b) <0,071; 0,129>; (c) <0,085; 0,115>
- 16 -
Kontrolní otázky
1. Definujte pojem odhadu parametru a jeho druhy.
2. Definujte bodový odhad a uvećte bodové odhady základních þíselných charakteristik.
3. Popište interval spolehlivosti a intervalový odhad parametrĤ.
4. Jaký význam má spolehlivost intervalového odhadu?
5. Jaké druhy intervalových odhadĤ používáme?
6. Jaký vliv má zmČna spolehlivosti na velikost intervalového odhadu pĜi zachování rozsahu
náhodného výbČru?
7. Jaký obecný vliv má zmČna rozsahu náhodného výbČru na velikost intervalového odhadu
pĜi zachování jeho spolehlivosti?
8. Jakou spolehlivost má bodový odhad?
- 17 -
3 TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Statistická hypotéza a její test
PĜi sledování náhodných veliþin a náhodných vektorĤ jsme þasto nuceni ovČĜit urþité
pĜedpoklady þi domnČnky o jejich vlastnostech pomocí jejich pozorovaných hodnot. Jedná se
napĜ. o rozhodnutí, zda nová technologie, seĜízení stroje, reklama, zmČna financování, Ĝízení
firmy apod. vedly ke zmČnČ ve sledovaných parametrech výrobku, obratu, zisku apod., anebo
zda jakost dodávky výrobkĤ þi surovin má dohodnutou úroveĖ.
Statistická hypotéza H je tvrzení o vlastnostech rozdČlení pravdČpodobnosti
pozorované náhodné veliþiny X s distribuþní funkcí F x, - nebo náhodného vektoru (X, Y)
se simultánní distribuþní funkcí F(x,y,-) apod. Postup, jímž ovČĜujeme danou hypotézu, se
nazývá test statistické hypotézy. Proti testované hypotéze H, nazývané také nulová hypotéza,
stavíme tzv. alternativní hypotézu H , kterou volíme dle požadavkĤ úlohy. Jestliže H je
hypotéza, že parametr - má hodnotu -0 , píšeme H : dvoustranná alternativní hypotéza a
H : - ! -0 , resp.
-0 . PĜípad H : - z -0 je
H : - -0 , je jednostranná
alternativní hypotéza. Hypotéza mĤže být jednoduchá, jestliže uvažujeme jedinou
hypotetickou hodnotu -
-0 anebo naopak složená, napĜ. - z -0 . Dále rozdČlujeme
hypotézy na parametrické, kdy jde tvrzení o parametrech pozorované náhodné veliþiny X, a
na neparametrické, kdy jde o tvrzení o kvalitativních vlastnostech této náhodné veliþiny.
Testovaná hypotéza H se nČkdy v literatuĜe, resp. aplikacích na PC, oznaþuje
symbolem H0, resp. H0, a alternativní hypotéza H symbolem H1, HA, resp. HA.
Pro testování hypotézy H : -
-0 proti nČjaké zvolené alternativní hypotéze H se
konstruuje vhodná statistika T X 1 ,..., X n , tzv. testové kritérium. Obor hodnot testového
kritéria T X 1 ,..., X n se za pĜedpokladu, že platí hypotéza H : -
-0 , rozdČlí na dvČ
disjunktní podmnožiny: kritický obor WD a jeho doplnČk W D (viz obr. 8.2). Kritický obor
WD se vzhledem k alternativní hypotéze H stanoví tak, aby pravdČpodobnost toho, že testové
kritérium T X 1 ,..., X n nabude hodnotu z kritického oboru WD , byla D (pĜesnČji pro diskrétní
náhodnou veliþinu T nejvýše D). ýíslo D 0;1 je hladina významnosti testu a volíme ji
blízkou nule, obvykle 0,05 anebo 0,01. Hladina významnosti se nČkdy uvádí také v % (napĜ.
v nČkterých softwarových aplikacích pro PC), tedy obvykle 5 % anebo 1 %.
- 18 -
Rozhodnutí o hypotéze H pomocí pozorovaných hodnot náhodné veliþiny X je
pak založeno na následující konvenci. Jestliže tzv. pozorovaná hodnota testového kritéria
t
T x1 ,..., xn na získaném statistickém souboru x1 ,..., xn padne do kritického oboru, tedy
t WD , zamítáme hypotézu H a souþasnČ nezamítáme hypotézu H na hladinČ významnosti
D . Jestliže naopak nepadne t do kritického oboru, tedy t W D , nezamítáme hypotézu H a
souþasnČ zamítáme hypotézu H na hladinČ významnosti D . Nezamítnutí hypotézy H, resp.
H , neznamená ještČ prokázání její platnosti, neboĢ jsme na základČ realizace náhodného
výbČru získali pouze informace, které nestaþí na její zamítnutí. Je-li to možné, je vhodné pĜed
pĜijetím dané hypotézy zvČtšit rozsah statistického souboru a znovu hypotézu H testovat.
PĜi testování hypotézy H mohou nastat þtyĜi možnosti znázornČné na obr. 3.1. Jestliže
zamítáme neplatnou hypotézu anebo nezamítáme platnou hypotézu, je vše v poĜádku, avšak
pĜi rozhodnutí o hypotéze H na základČ testu se mĤžeme dopustit jedné ze dvou chyb:
1. Chyba prvního druhu nastane, jestliže hypotéza H platí, avšak t WD , takže hypotézu H
zamítáme. PravdČpodobnost této chyby je hladina významnosti D
P T WD H .
2. Chyba druhého druhu nastane, jestliže hypotéza H neplatí, avšak t WD (tj. t W D ),
takže hypotézu H nezamítáme. PravdČpodobnost této chyby je E
pravdČpodobnost 1 E
P T WD H a
P T WD H je tzv. síla testu.
H
PLATÍ
NEPLATÍ
ZAMÍTÁME
CHYBA 1. DRUHU
-------
NEZAMÍTÁME
-------
CHYBA 2. DRUHU
Obr. 3.1
Hladina významnosti, tj. pravdČpodobnost chyby prvního druhu D má ten praktický
význam, že pĜi mnoha opakovaných realizacích náhodného výbČru (napĜ. ĜádovČ v tisících) a
souþasné platnosti testované hypotézy H se v pĜibližnČ 100D % testech této hypotézy
zmýlíme, tedy zamítneme platnou hypotézu. PodobnČ když hypotéza H neplatí, tak se
v pĜibližnČ 100E % testech zmýlíme a nezamítneme ji. Avšak snížením hladiny významnosti
D se pĜi nezmČnČném rozsahu statistického souboru n zvýší E a naopak, takže pro zvolenou
hladinu významnosti D zajišĢujeme snížení E zvýšením rozsahu n. Riziko chyb prvního i
druhého druhu nelze v reálných úlohách eliminovat, pouze je mĤžeme snížit. Vztah mezi D a
- 19 -
E je ilustrován na obr. 3.2, kde pro jednoduchost je i alternativní hypotéza H jednoduchá. Na
tomto obrázku kĜivky vlevo odpovídají hustotČ (pravdČpodobnostní funkci) testového kritéria
T pĜi platnosti hypotézy H a kĜivky vpravo odpovídají hustotČ (pravdČpodobnostní funkci)
testového kritéria T pĜi platnosti hypotézy H .
E
D
WD
WD
E
D
WD
WD
Obr. 3.2
Vzhledem k tomu, že testové kritérium T je náhodná veliþina, bývá obor W D ve tvaru
intervalu, napĜ. t1 ; t2 , kde t1 , t2 jsou kvantily statistiky T stejnČ jako u intervalových
odhadĤ. PĜi testování statistických hypotéz se jim také Ĝíká kritické hodnoty. Poznamenejme,
že intervalové odhady lze pĜímo použít k testování statistických hypotéz. NapĜ. pĜi testu
hypotézy H : -
-0 proti alternativČ H : - z -0 na hladinČ spolehlivosti D, mĤžeme místo
testového kritéria vzít oboustranný intervalový odhad parametru - se spolehlivostí 1 D..
Jestliže tento intervalový odhad obsahuje hodnotu -0 , hypotézu H nezamítáme na hladinČ
významnosti D a naopak. Více o statistických hypotézách a jejich testech lze nalézt napĜ.
v [2], [3], [8], [15], [17], [30].
PĜi testování statistických hypotéz na PC pomocí statistického software se místo
kritického oboru W D obvykle používá následující tzv. P-hodnota. Jestliže napĜ. testujeme
hypotézu
H :P
P0 proti dvoustranné alternativní hypotéze
H : P z P0 , pak pro
pozorovanou hodnotu t testového kritéria T je P-hodnotou je þíslo 1 P t d T d t . Výše
- 20 -
uvedené konvenci rozhodnutí o daných hypotézách pomocí kritického oboru, resp. oboru
nezamítnutí, odpovídá následující adekvátní postup. Jestliže P D , pak zamítáme hypotézu
H a souþasnČ nezamítáme hypotézu H na hladinČ významnosti D . Jestliže naopak P t D ,
pak nezamítáme hypotézu H a souþasnČ zamítáme hypotézu H na hladinČ významnosti D .
Testy hypotéz o parametrech normálního rozdČlení
PĜedpokládáme, že náhodné veliþiny X a Y , resp. náhodný vektor (X, Y), mají normální
rozdČlení pravdČpodobnosti. PĜedpoklad o normálním rozdČlení pravdČpodobnosti lze testovat
pomocí testĤ popsaných v dalším odstavci této kapitoly. Dále uvádíme pouze testová kritéria
pro dvoustranné alternativní hypotézy, napĜ. H : P z P0 apod. Testy hypotéz H pro
jednostranné alternativní hypotézy H : P ! P0 a H : P P0 se provádČjí pomocí stejných
testových kritérií a odlišují se pouze jednostrannými kritickými obory, resp. obory
nezamítnutí, a odpovídajícími kritickými hodnotami - viz napĜ. [2], [3], [8], [15], [17], [30].
Test hypotézy H : P
P0 pĜi neznámém rozptylu V 2 . Pozorovaná hodnota testového
kritéria je
t
a WD
x P0
s
n 1
§ D·
t1D 2 ; t1D 2 , kde t1D 2 je ¨ 1 ¸ -kvantil Studentova rozdČlení S(k) s k = n – 1
2¹
©
stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T2. Jedná se o tzv. t - test
nebo StudentĤv test pro jeden výbČr.
PĜíklad 3.1
MČĜením délky 10 váleþkĤ byly získány empirické charakteristiky x = 5,37 mm a
s2 = 0,0019 mm2 (viz pĜíklad 2.1). Na hladinČ významnosti 0,05 testujeme hypotézu, že
stĜední namČĜená délka váleþku je 5,40 mm, tedy H : P = 5,40.
ě e š e n í:
Pozorovaná hodnota testového kritéria je
t
5, 37 5, 40
10 1 = 2,0647.
0, 0019
Pro 10 1 = 9 stupĖĤ volnosti je t0,975 = 2,262 z tabulky T2, takže W0,05 = <2,262; 2,262>.
Protože t W0,05 , hypotézu nezamítáme. Pro testování této hypotézy bylo možno použít také
intervalový odhad se spolehlivostí 0,95 z pĜíkladu 2.1. Protože tento odhad obsahuje
- 21 -
hypotetickou hodnotu 5,40, nezamítáme danou hypotézu na hladinČ významnosti 1 0,95 =
= 0,05.
Test hypotézy H : V 2
V 02 . Pozorovaná hodnota testového kritéria je
t
a WD
ns 2
V 02
FD2 2 ; F12D 2 , kde F P2 je P-kvantil Pearsonova rozdČlení F 2 ( k ) s k = n – 1 stupni
volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T3. Jedná se o tzv. PearsonĤv test.
PĜíklad 3.2
Na hladinČ významnosti 0,05 testujte hypotézu, že rozptyl namČĜené délky váleþku z pĜíkladu
2.1 je 0,0025 mm2, tedy H : V 2 = 0,0025.
ě e š e n í:
t
10 0, 0019
= 7,6.
0, 0025
2
2
Pro 10 1 = 9 stupĖĤ volnosti je F 0,025
= 2,700 a F 0,975
= 19,023 z tabulky T3, takže
W0,05 = <2,700; 19,023>. Protože t W0,05 , hypotézu nezamítáme.
Test hypotézy H : U
U0 . Pozorovaná hodnota testového kritéria pro n t 10,
r z 1 a U 0 z 1 je
t
a WD
u1D 2 ; u1D 2
§ 1 r
1 U0
U · n3
ln
0 ¸
¨ ln
1 U0 n 1 ¹ 2
© 1 r
§ D·
, kde u1D 2 je ¨ 1 ¸ -kvantil normálního rozdČlení N(0; 1), jehož
2¹
©
hodnoty lze získat z tabulky T1.
PĜíklad 3.3
Sledováním nákladĤ X a ceny Y stejného výrobku u deseti výrobcĤ byl získán dvourozmČrný
statistický soubor s koeficientem korelace r = 0,82482 (viz Ĝešený pĜíklad 2.2). Na hladinČ
významnosti 0,01 testujte hypotézu, že veliþiny X a Y jsou nekorelované (tj. vzhledem
k normálnímu rozdČlení nezávislé), tedy H : U = 0.
ě e š e n í:
- 22 -
t
1 0
0 · 10 3
§ 1 0,82482
| 3,1001.
¨ ln 1 0,82482 ln 1 0 10 1 ¸
2
©
¹
Pro danou hladinu významnosti je u0,995 = 2,576 z tabulky T1, takže W0,01 = <2,576; 2,576 >.
Protože t W0,01 , hypotézu zamítáme a považujeme X, Y za závislé.
Test hypotézy H : P X Y 0 pro dvojice X , Y za pĜedpokladu, rozdíl X Y
má normální rozdČlení pravdČpodobnosti. Oznaþme pro pozorované dvojice
i = 1,…, n, jejich rozdíly d i
xi , yi ,
kde
xi yi a odpovídající empirické charakteristiky d a s 2 d .
t
a WD
d
n 1
s d § D·
t1D 2 ; t1D 2 , kde t1D 2 je ¨ 1 ¸ -kvantil Studentova rozdČlení S(k) s k = n – 1
2¹
©
stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T2. Uvedený test se také
nazývá t - test (StudentĤv test) pro párové hodnoty.
PĜíklad 3.4
MČĜením teploty dvČma pĜístroji byly bČhem osmi dnĤ získány dvojice (xi, yi) = (51,8; 49,5),
(54,9; 53,3), (52,2; 50,6), (53,3; 52,0), (51,6; 46,8), (54,1; 50,5), (54,2; 52,1), (53,3; 53,0)
(oC). Na hladinČ významnosti 1% testujte hypotézu, že stĜední hodnota rozdílu pozorovaných
dvojic teplot rozdíl stĜedních hodnot je nevýznamný, tedy H : P(X) = P(Y).
ě e š e n í:
o
o
Pro di = xi yi, i = 1,..., 8, dostaneme d = 2,2 C a s(d) = 1,3172 C. Pozorovaná hodnota
testového kritéria je
t
2, 2
8 1 | 4,4190.
1, 3172
Pro 8 1 = 7 stupĖĤ volnosti je t0,995 = 3,499 z tabulky T2, takže W0,01 = <3,499; 3,499>.
Protože t W0,01 , hypotézu zamítáme na hladinČ významnosti 1 % a považujeme rozdíl
namČĜených hodnot za statisticky významný.
U dalších testĤ pĜedpokládáme, že pozorováním dvou nezávislých náhodných veliþin
X a Y s normálními rozdČleními s parametry P X , V 2 X a P Y , V 2 Y byly získány
realizace nezávislých náhodných výbČrĤ s rozsahy n1 a n2 .
- 23 -
Test hypotézy H : P X P Y P0 pĜi neznámých rozptylech V 2 X V 2 Y .
t
a WD
x y P0
n1 s 2 x n2 s 2 y n1 n2 n1 n2 2 n1 n2
§ D·
t1D 2 ; t1D 2 , kde t1D 2 je ¨ 1 ¸ -kvantil Studentova rozdČlení S(k) s k =
2¹
©
= n1 n2 2 stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T2. Jedná se o
tzv. t - test nebo StudentĤv test pro dva výbČry pĜi stejných rozptylech.
PĜíklad 3.5
Zkouškami pevnosti drátĤ vyrobených dvČma rĤznými technologiemi byly získány dva
statistické soubory s charakteristikami n1 = 33, x = 5,4637 kN, s2(x) = 0,3302 kN2, n2 = 28,
y = 6,1179 kN, s2(y) = 0,4522 kN2. Na hladinČ významnosti 0,05 testujte hypotézu, že
rozdílné technologie nemají vliv na stĜední pevnost drátu (za pĜedpokladu stejných rozptylĤ
V 2 ( X ) a V 2 (Y ) , tedy H : P(X) P(Y) = 0.
ě e š e n í:
t
5, 4637 6,1179 0
33 0, 3302 28 0, 4522
33 28 33 28 2 | 4,030.
33 28
Pro 33 + 28 2 = 59 stupĖĤ volnosti je t0,975 = 2,001 interpolací z tabulky T2, takže W0,05 =
= <2,001; 2,001>. Protože t W0,05 , hypotézu zamítáme. Rozdílné technologie mají vliv na
stĜední pevnost drátu.
Test hypotézy H : P X P Y P0 pĜi neznámých rozptylech V 2 X z V 2 Y .
t
a WD
x y P0
s x s2 y n1 1 n2 1
2
t1D 2 ; t1D 2 , kde
t1D / 2
s2 ( x)
s2 ( y)
t( x) t( y)
n1 1
n2 1
s2 ( x) s2 ( y )
n1 1 n2 1
- 24 -
§ D·
a t(x), resp. t(y), je ¨ 1 ¸ -kvantil Studentova rozdČlení S(k) s k = n1 – 1, resp. n2 – 1,
2¹
©
stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T2. Jedná se o tzv. t - test
nebo StudentĤv test pro dva výbČry pĜi rĤzných rozptylech.
PĜíklad 3.6
PĜi vyšetĜování životnosti výrobkĤ v rĤzných systémech extrémních provozních podmínek
byly získány dva statistické soubory s charakteristikami n1 = 21, x = 3,581, s2(x) = 0,114,
n2 = 23, y = 3,974, s2(y) = 0,041 (životnost výrobkĤ je v hodinách). Za pĜedpokladu rĤzných
rozptylĤ V 2 ( X ) a V 2 (Y ) testujte na hladinČ významnosti 0,05, že druhý systém extrémních
provozních podmínek zvyšuje oproti prvnímu systému extrémních provozních podmínek
stĜední životnost výrobku o 0,5 hod., tedy hypotézu H : P(X) P(Y) = 0,5.
ě e š e n í:
t
3, 581 3, 974 ( 0, 5)
|1,2303.
0,114 0, 041
21 1 23 1
Z tabulky T2 pro 1 D/2 = 0,975 je t(x) = 2,086 pro 21 1 = 20 stupĖĤ volnosti a
t(y) = 2,074 pro 23 1 = 22 stupĖĤ volnosti, takže
t0,975
0,114
0, 041
2, 086 2, 074
21 1
23 1
| 2,083.
0,114 0, 041
21 1 23 1
a W0,05 = <2,083; 2,083>. Protože t W0,05 , hypotézu o zvýšení stĜední životnosti o 0,5 hod.
nezamítáme.
Test hypotézy H : V 2 X V 2 Y . Pozorovaná hodnota testového kritéria je
t
kde klademe WD
§ n s 2 ( x ) n2 s 2 ( y ) ·
max ¨ 1
;
¸
© n1 1 n2 1 ¹ ,
§ n s 2 ( x ) n2 s 2 ( y ) ·
min ¨ 1
;
¸
© n1 1 n2 1 ¹
§ D·
1 ; F1D / 2 a F1D / 2 je ¨ 1 ¸ -kvantil Fisherova - Snedecorova rozdČlení
2¹
©
F(k1, k2) se stupni volnosti k1
n1 1 a k2
n2 1 pro
- 25 -
n1 s 2 ( x ) n2 s 2 ( y )
anebo k1
t
n1 1
n2 1
n2 1
a k2
n1 1 pro
n1 s 2 ( x ) n2 s 2 ( y )
. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T4.
d
n1 1
n2 1
Jedná se o tzv. F - test nebo FisherĤv test. Pomocí nČho lze testovat pĜedpoklady o rozptylech
v obou pĜedcházejících testech.
PĜíklad 3.7
Na hladinČ významnosti 0,05 ovČĜte pĜedpoklad o rĤzných rozptylech v Ĝešeném pĜíkladu 3.6,
tedy že V 2 ( X ) z V 2 (Y ) , kde s2(x) = 0,114, n1 = 21, s2(y) = 0,041, n2 = 23.
ě e š e n í:
Testujeme naopak hypotézu H : V 2 ( X ) = V 2 (Y ) . Pozorovaná hodnota testového kritéria je
t
§ 21.0,114 23.0, 041 ·
max ¨
;
¸
23 1 ¹ max 0,11970; 0, 04286 © 21 1
|
§ 21.0,114 23.0, 041 · min 0,11970; 0, 04286 min ¨
;
¸
23 1 ¹
© 21 1
0,11970
| 2,7928.
0, 04286
Z tabulky T4 je pro k1 = 21 – 1 = 20 a k2 = 23 – 1 = 22 stupĖĤ volnosti F0,975 = 2,389, takže
W0,05 = <1; 2,389>. Protože t W0,05 , hypotézu zamítáme a pĜedpoklad o rĤzných rozptylech
v pĜíkladu 3.6 považujeme za správný.
Testy hypotéz o parametru binomického rozdČlení
PĜedpokládáme,
že
pozorovaná
náhodná
veliþina
X
má
alternativní
rozdČlení
pravdČpodobnosti s parametrem p, tedy binomické rozdČlení Bi(1; p). PĜi testování hypotézy
H : p = p0 jde vlastnČ o test hypotézy, že podíl prvkĤ p0 základního souboru má sledovanou
vlastnost na základČ zjištČní, že x prvkĤ z n náhodnČ vybraných prvkĤ ze základního souboru
má sledovanou vlastnost. Dále uvádíme pouze testová kritéria pro dvoustranné alternativní
hypotézy, neboĢ testy hypotéz pro jednostranné alternativní hypotézy se odlišují pouze tím, že
mají jednostranné kritické obory a odpovídající kritické hodnoty. Testy o parametru
binomického rozdČlení se používají þasto v jakosti (test podílu neshodných výrobkĤ nebo
zmetkĤ v celkové produkci) a pĜi prĤzkumu zájmu o výrobek, služby apod.
Test hypotézy H : p = p0 . Pozorovaná hodnota testového kritéria pro n ! 30 je
t
a WD
x
p0
n
p0 (1 p0 )
n
§ D·
u1D 2 ; u1D 2 , kde u1D 2 je ¨ 1 ¸ -kvantil normálního rozdČlení N(0; 1), jehož
2¹
©
- 26 -
hodnoty lze získat z tabulky T1. Uvedený test je pouze pĜibližný, avšak jeho pĜesnost je pro
velká n v praktických úlohách obvykle postaþující.
PĜíklad 3.8
Podle expertního pĜedpokladu bude mít zájem o nový výrobek 20 % zákazníkĤ. Ze 400
dotázaných zákazníkĤ projevilo zájem 62 zákazníkĤ. Na hladinČ významnosti 0,05 testujme
hypotézu o reálnosti pĜedpokladu, tedy H : p = 0,2.
ě e š e n í:
Rozsah obou výbČru je dostateþnČ velký a pro x = 62 a n = 400 je pozorovaná hodnota
testového kritéria
t=
62
0, 2
400
0, 2(1 0, 2)
400
0, 045
0, 02
2, 25 .
Z tabulky T1 je u0,975 = 1,960. Protože t = 2,25 W0,05 = <1,960; 1,960>, hypotézu o
pĜedpokladu 20 % zájmu zamítáme na hladinČ významnosti 0,05. Skuteþný zájem bude
pravdČpodobnČ menší. Na hladinČ významnosti 0,01 však hypotézu nezamítáme, neboĢ
u0,995 = 2,576.
U dalšího testu pĜedpokládáme, že pozorováním dvou nezávislých náhodných veliþin
X, Y s alternativními rozdČleními s parametry p1, p2 byly získány realizace vzájemnČ
nezávislých náhodných výbČrĤ s rozsahy n1 , n2 a poþty x, y prvkĤ se sledovanou vlastností.
Test hypotézy H : p1 = p2 . Pozorovaná hodnota testového kritéria za pĜedpokladu
n1 ! 50 a n2 ! 50 je
t
x
y
n1 n2
f (1 f )
pro f
x y
a WD
n1 n2
n1n2
n1 n2
§ D·
u1D 2 ; u1D 2 , kde u1D 2 je ¨ 1 ¸ -kvantil normálního rozdČlení
2¹
©
N(0; 1), jehož hodnoty lze získat z tabulky T1. Uvedený test je pouze pĜibližný, avšak jeho
pĜesnost je pro velké rozsahy n1 a n2 v praktických úlohách obvykle postaþující.
PĜíklad 3.9
Obchodní inspekce provedla 250 kontrolních nákupĤ potravináĜského zboží a 200 kontrolních
nákupĤ prĤmyslového zboží. Zjistila pĜitom nedostatky u 108 nákupĤ potravináĜského zboží a
u 73 nákupĤ prĤmyslového zboží. Na hladinČ významnosti 0,05 testujme, zda kvalita nákupĤ
- 27 -
je stejná u obou druhĤ zboží, tedy hypotézu H : p1 = p2, kde p1, p2 jsou teoretické podíly
(pravdČpodobnosti) nákupĤ s nedostatky u daných druhĤ zboží.
ě e š e n í:
Rozsahy obou výbČrĤ jsou dostateþnČ velké a pro x = 108, n1 = 250, y = 73, n2 = 200 je
f
108 73
= 0,40222,
250 200
takže pozorovaná hodnota testového kritéria je
t
108 73
250 200
0, 40222(1 0, 40222)
250 200 0, 067 10, 5409
|
| 1, 4403 .
250 200
0, 49035
Z tabulky T1 je u0,975 = 1,960. Protože t = 1,4403 W0,05 = <1,960;1,960>, hypotézu o
rovnosti podílĤ nákupĤ s nedostatky nezamítáme na hladinČ významnosti 0,05 a považujeme
prodej obou druhĤ zboží za stejnČ nekvalitní.
Testy hypotéz o rozdČlení
Vzhledem k tomu, že testy o parametrech rozdČlení (a také intervalové odhady parametrĤ)
závisejí na tvaru pozorovaných rozdČlení, je zapotĜebí testovat, zda pozorovaná náhodná
veliþina (náhodný vektor) má pĜedpokládané rozdČlení pravdČpodobnosti. NejþastČji se
užívají následující testy hypotéz o rozdČlení (testy dobré shody).
Grafická metoda je orientaþní test pomocí tzv. pravdČpodobnostního papíru, který
obsahuje síĢ dvou navzájem kolmých soustav rovnobČžných pĜímek. MČĜítko ve svislém
smČru (souĜadná osa y) je zvoleno vzhledem k mČĜítku ve vodorovném smČru (souĜadná osa
x) tak, aby grafem uvažované distribuþní funkce F(x,-) byla pro libovolné (v našem pĜípadČ
obvykle neznámé) hodnoty - pĜímka. Na osu y se vynáší hodnoty distribuþní funkce, nČkdy i
v % a nČkdy jsou na této ose vyznaþeny také hodnoty odpovídající stĜední hodnotČ a
celoþíselným násobkĤm smČrodatné odchylky základního souboru. Na pravdČpodobnostním
papíru znázorĖujeme graf tzv. empirické distribuþní funkce statistického souboru ( x1 ,..., xn )
následujícím zpĤsobem. UspoĜádáme pĤvodní statistický soubor podle velikosti, takže
získáme uspoĜádaný soubor ( x(1) ,..., x( n ) ) , kde x( i ) d x( i 1) pro i = 1,..., n . Do souĜadného
systému pak vyneseme body ª¬ x( i ) ; (i 0, 5) / n º¼ , resp. ª¬ x( i ) ; i /( n 1) º¼ , pro i = 1,..., n . Je-li
statistický soubor realizací náhodného výbČru ze základního souboru s rozdČlením
pravdČpodobnosti pro daný pravdČpodobnostní papír, leží výše uvedené body pĜibližnČ na
pĜímce a naopak. V souþasné dobČ se obvykle nepoužívá pravdČpodobnostní papír, ale
- 28 -
metoda se realizuje na PC. Na obr. 3.3 je ukázka grafického výstupu z PC pro normální
rozdČlení pravdČpodobnosti. Z grafu usuzujeme, že pozorovaná náhodná veliþina má
normální rozdČlení pravdČpodobnosti.
Obr. 3.3
Test chí-kvadrát (PearsonĤv test) o rozdČlení, tj. hypotézy H, že pozorovaná náhodná
veliþina X má distribuþní funkci F(x), proti alternativní hypotéze H , že X nemá distribuþní
funkci F(x). RoztĜídíme získaný statistický soubor ( x1 ,..., xn ) do m tĜíd s þetnostmi fj a
vypoþteme teoretické absolutní þetnosti fˆ j , j = 1,...,m , resp. jejich odhady, pro hypotetické
rozdČlení. Statistický soubor roztĜídíme tak, aby ve všech tĜídách byly dostateþnČ velké
teoretické absolutní þetnosti - obvykle požadujeme, aby fˆ j ! 5 . Toho lze pĜi dostateþnČ
velkém rozsahu n dosáhnout vhodnou volbou tĜíd nebo slouþením již získaných sousedních
tĜíd. Pozorovaná hodnota testového kritéria je
( f j fˆ j ) 2
¦
fˆ
j 1
m
t
j
a WD
§ m f j2 ·
¨¦
¸n
¨ j 1 fˆ ¸
j
©
¹
0 ; F12D , kde F12D je (1 D)-kvantil Pearsonova rozdČlení F 2 ( k ) s k
m q 1
stupni volnosti. Kvantily tohoto rozdČlení jsou uvedeny v tabulce T3. ýíslo q je poþet
parametrĤ hypotetického rozdČlení náhodné veliþiny X, které jsme nuceni odhadnout
z roztĜídČného statistického souboru pro urþení hodnot distribuþní funkce F(x). Uvedený test
je asymptotický (tj. vhodný pro dostateþnČ velké rozsahy výbČru n, ĜádovČ aspoĖ desítky) a
zjednodušenou, ale obvykle používanou variantou pĜesného testu chí-kvadrát, který se
realizuje pomocí statistického softwaru na PC. Více o tomto a dalších testech dobré shody
v [2], [3], [8], [15], [17], [30].
- 29 -
PĜíklad 3.10
Bylo provedeno 120 hodĤ se šestistČnnou hrací kostkou se stČnami oþíslovanými od 1 do 6.
Získané výsledky jsou v následující tabulce:
x*j
1
2
3
4
5
6
fj
11
18
15
21
24
31
Na hladinČ významnosti 0,05 testujte hypotézu, že kostka není falešná, tj. pravdČpodobnosti
padnutí každého ze všech 6 þísel jsou stejné.
ě e š e n í:
Testujeme hypotézu H, že pozorovaná náhodná veliþina X má tzv. klasické (uniformní)
1
pro x
6
rozdČlení pravdČpodobnosti s pravdČpodobnostní funkcí p x pĜípadČ je x j
x a fˆ j
np x j 120
1
6
20 pro j
1, ! , 6 . V našem
1, ! , 6 . Další potĜebné výpoþty jsou
v tabulce:
j
fj
fˆ j
( f j fˆ j ) 2
fˆ
j
1
2
3
4
5
6
11
18
15
21
24
31
20
20
20
20
20
20
4,05
0,20
1,25
0,05
0,80
6,05
¦
120
120
12,40
Podmínka fˆ j ! 5 je pro všechna j splnČna a hodnota testového kritéria je t
Neodhadujeme žádný parametr rozdČlení pravdČpodobnosti, takže q
volnosti je k
12, 40 .
0 a poþet stupĖĤ
6 0 1 5 . Z tabulky T3 je pro hladinu významnosti 0,05 a daný poþet
2
stupĖĤ volnosti kvantil F 0,95
11, 070 . Protože t
12, 40 W 0,05
0;11, 070 , zamítáme na
hladinČ významnosti 0,05 hypotézu, že kostka není falešná. Na hladinČ významnosti 0,01 ale
2
tuto hypotézu nezamítáme, neboĢ F 0,99
15, 086 . Oba zdánlivČ protichĤdné závČry mĤžeme
také získat z Phodnoty 0,02969946, kterou vypoþteme napĜ. pomocí statistické funkce
CHIDIST v Excelu.
- 30 -
Neparametrické testy hypotéz
Neparametrické testy statistických hypotéz se používají v pĜípadech, kdy neznáme rozdČlení
pozorované náhodné veliþiny X, resp. náhodného vektoru X , Y , anebo pro známé rozdČlení
nemáme potĜebná testová kritéria. Omezením neparametrických metod je obvykle požadavek,
že pozorované náhodné veliþiny mají spojitá rozdČlení, avšak v nČkterých pĜípadech staþí znát
pouze poĜadí uspoĜádaných hodnot daného statistického souboru, tj. hodnoty odpovídajícího
ordinálního statistického znaku. Slabší pĜedpoklady o rozdČlení (na rozdíl od parametrických
testĤ - viz napĜ. výše uvedené testy parametrĤ normálního a binomického rozdČlení) mají za
následek, že neparametrické metody nejsou tak silné, jako jejich parametrické protČjšky.
Základním principem neparametrických testĤ je nahrazení pĤvodních pozorovaných hodnot
jejich poĜadími co do velikosti a proto se také v literatuĜe hovoĜí o poĜadových testech.
Jestliže pozorovaný statistický soubor x1 ,..., xn sestává pouze z navzájem rĤzných
reálných þísel, pak poĜadím Ri prvku xi , i
1,..., n , rozumíme poþet prvkĤ z daného
statistického souboru, jejichž hodnota je menší nebo rovna xi . Nahrazením prvku xi jeho
poĜadím Ri tak získáme soubor poĜadí R1 ,..., Rn . NapĜ. statistickému souboru
x1 ,..., x7 5;8; 2; 3; 0; 2;1
odpovídá uspoĜádaný statistický soubor
x
(1)
,..., x(7) 3; 2; 0;1; 2;5;8 ,
takže soubor poĜadí je
R1 ,..., R7 6; 7; 2;1; 3;5; 4 .
Jestliže nejsou všechna þísla xi navzájem rĤzná, pak všem stejným þíslĤm xi pĜiĜadíme
aritmetický prĤmČr takových poĜadí, jakoby následovala tČsnČ za sebou. NapĜ. ve statistickém
souboru
x1 ,..., x7 5;8; 2; 3; 0; 2; 0 je þíslo 0 dvakrát, takže soubor poĜadí je
R1 ,..., R7 6; 7; 2;1; 3, 5;5; 3, 5 .
n
I v pĜípadČ shodných prvkĤ je souþet všech poĜadí
¦R
i
i 1
n n 1
.
2
PĜi neparametrických testech pracujeme s testovými kritérii (statistikami), které
nabývají diskrétních hodnot. Jde proto o testy s hladinou významnosti nejvýše rovnu D. Je
- 31 -
proto na rozdíl od bČžné definice kvantilu vhodné definovat jejich kritické hodnoty pro
nezamítnutí anebo zamítnutí hypotéz tak, že P-kvantilem (kritickou hodnotou) daného
diskrétního rozdČlení je takové maximální þíslo tP , pro které je pravdČpodobnost náhodného
jevu T d tP menší nebo rovna þíslu P. V našem pĜípadČ jde o dále používané binomické,
Wilcoxonovo a Mannovo-Whitneyovo rozdČlení (tabulka T5 a T6). Poznamenejme ještČ, že
níže použitá asymptotická testová kritéria mají normované normální rozdČlení, které je
spojité, takže naše definice P-kvantilu dává tytéž hodnoty jako definice bČžnČ používaná.
Znaménkový test H : x0,5
c . Testujeme hypotézu, že medián x0.5 spojité náhodné
veliþiny X je roven c. Jde o neparametrickou verzi odpovídající Studentovu testu stĜední
hodnoty normálního rozdČlení, které je symetrické a proto má stĜední hodnotu rovnu mediánu.
Oznaþme y poþet kladných rozdílĤ xi c . PĜípady xi
c vynecháváme. Jestliže hypotéza H
platí, pak má náhodná veliþina Y nabývající hodnot y binomické rozdČlení Bi(n;0,5). ýíslo y je
pĜímo pozorovaná hodnota testového kritéria Y a obory nezamítnutí hypotézy H jsou:
a)
WD
b) W D
c)
WD
kD / 2 1, n kD / 2 1
pro alternativní hypotézu H : x0,5 z c ,
kD 1, n
pro alternativní hypotézu H : x0,5 c ,
0, n kD 1
pro alternativní hypotézu H : x0,5 ! c ,
kde k P je P-kvantil uvedeného binomického rozdČlení, tj. je maximální þíslo splĖující
kP
§n·
nerovnost 2 n ¦ ¨ ¸ d P . Hodnoty k P jsou pro D
k 0 ©k ¹
0, 05 a D
0, 01 tabelovány a je možno
je také vypoþítat pomocí statistické funkce BINDIST v Excelu anebo „ruþnČ“. Pro n t 20
mĤžeme použít asymptotickou verzi testu s testovým kritériem
u
2y n
n
a obory nezamítnutí hypotézy H jsou
a)
WD
u1D / 2 , u1D / 2
b)
WD
u1D , f pro alternativní hypotézu H : x0,5 c ,
c)
WD
f, u1D
kde uP je P-kvantil normovaného normálního rozdČlení N(0;1) – viz tabulku T1.
Znaménkový test se þasto používá pro tzv. párové hodnoty X 1 , X 2 , kdy testujeme
hypotézu, že medián rozdílu X
X 1 X 2 je roven hodnotČ c (nejþastČji pro c
- 32 -
0 ). Existuje
také obecnČjší varianta znaménkového testu (tzv. kvantilový test), když testujeme hypotézu
H : xq
c , kde xq je q-kvantil pozorované náhodné veliþiny X.
PĜíklad 3.11
PĜi pĜípravČ nové písemné práce pro zkoušku ze statistiky chceme ovČĜit správnost
pĜedpokladu, že medián získaných bodĤ je roven 60. Vyskytly se námitky, že písemná práce
je tČžká a poþty získaných bodĤ jsou pĜevážnČ nižší než 60. K ovČĜení bylo náhodnČ vybráno
25 výsledkĤ z minulé zkoušky a v nich byla zjištČna tato bodová hodnocení: 62; 61; 27; 84;
50; 90; 49; 32; 48; 43; 55; 54; 53; 34; 68; 80; 39; 56; 52; 91; 45; 47; 78; 46; 74. Pro test
hypotézy zvolme hladinu významnosti 0,05.
ě e š e n í:
Znaménkovým testem testujeme nulovou hypotézu H : x0,5
60 proti alternativní hypotéze
H : x0,5 60 . PĜípravný výpoþet je v tabulce:
i
xi
xi 60
Znaménko
i
xi
xi 60
Znaménko
1
62
2
+
14
34
-26
-
2
61
1
+
15
68
8
+
3
27
-33
-
16
80
20
+
4
84
24
+
17
39
-21
-
5
50
-10
-
18
56
-4
-
6
90
30
+
19
52
-8
-
7
49
-11
-
20
91
31
+
8
32
-28
-
21
45
-15
-
9
48
-12
-
22
47
-13
-
10
43
-17
-
23
78
18
+
11
55
-5
-
24
46
-14
-
12
54
-6
-
25
74
14
+
13
53
-7
-
Z tabulky získáme poþet kladných znamének y
9 . Postupným souþtem zjistíme, že
k
0, 05
§ 25 ·
maximální þíslo k0.05 splĖující nerovnost 225 ¦ ¨ ¸ d 0, 05 , je k0,05
k 0 ©k ¹
7 . NapĜ. pomocí
funkce BINOMDIST v Excelu snadno ovČĜíme, že pro horní mez sumace 7 je levá strana
nerovnosti rovna 0,021642625 a pro 8 je 0,053876072. Kvantil k0,05
v tabulce T7. Protože y
hypotézu H : x0,5
9 W 0,05
7 mĤžeme také najít
8; 25 , nezamítáme na hladinČ významnosti 0,05
60 proti alternativní hypotéze H : x0,5 60 a zamítáme námitku, že
- 33 -
statisticky významnČ pĜevažují písemné práce s hodnocením menším než 60 bodĤ. Protože
rozsah souboru je 25, mĤžeme použít také asymptotický test. Dostaneme tentýž závČr, neboĢ
u
2 9 25
25
1, 645; f , kde kvantil u0,95
1, 4 W 0,05
1, 645 získáme z tabulky T1.
K pĜesnČjšímu závČru pomocí obou testových kritérií bychom dospČli zvýšením rozsahu
výbČru, neboĢ tak bychom zvČtšili sílu testu, tj. snížili pravdČpodobnost chyby druhého druhu
(nezamítnutí neplatné nulové hypotézy).
WilcoxonĤv jednovýbČrový test H : x0,5
c . Testujeme hypotézu, že medián x0,5
spojité náhodné veliþiny X, která má symetrické rozdČlení vzhledem k mediánu, je roven c.
Jde opČt o neparametrickou verzi odpovídající Studentovu testu stĜední hodnoty normálního
rozdČlení. PĜedpokládáme, že je xi z c pro všechna i
1,..., n . PĜípady xi
c vynecháváme.
VytvoĜme rozdíly xi c a jejich absolutní hodnoty xi c . NechĢ Ri znaþí poĜadí hodnot
xi c , kde respektujeme pĜípadné shody poĜadí. Oznaþme dále souþty poĜadí S ¦
Ri
xi c ! 0
a S
¦
n n 1 / 2 . Hypotézu H : x0,5
Ri . Platí, že S S c nezamítáme, jestliže:
xi c 0
a)
S W D
wD / 2 1,
b)
S W D
wD 1,
c)
S W D
0,
n n 1
2
wD / 2 1
n n 1
n n 1
2
pro alternativní hypotézu H : x0,5 c ,
2
wD 1
kde wP je P-kvantil Wilcoxonova rozdČlení, které je tabelováno – viz tabulku T5. Pro velká n
mĤžeme také použít asymptotickou verzi testu s testovým kritériem
n n 1
4
n n 1 2n 1
S u
24
a obory nezamítnutí hypotézy H jsou
a) W D
u1D / 2 , u1D / 2
b) W D
u1D , f pro alternativní hypotézu H : x0,5 c ,
c) W D
f, u1D
- 34 -
kde uP je P-kvantil normovaného normálního rozdČlení N(0;1) – viz tabulku T1.
WilcoxonĤv jednovýbČrový test a také znaménkový test se þasto používá pro tzv.
párové hodnoty X 1 , X 2 , kdy testujeme hypotézu, že medián rozdílu X
hodnotČ c (nejþastČji pro c
X 1 X 2 je roven
0 ).
PĜíklad 3.12
Na hladinČ významnosti 0,05 testujte pomocí Wilcoxonova jednovýbČrového testu hypotézu
H : x0,5
60 proti alternativní hypotézu H : x0,5 60 pro data z pĜíkladu 3.11.
ě e š e n í:
PĜípravný výpoþet je v tabulce:
i
xi
xi 60
xi 60
Ri
Ri pro xi 60 ! 0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
6
62
61
27
84
50
90
49
32
48
43
55
54
53
34
68
80
39
56
52
91
45
47
78
46
74
---
2
1
-33
24
-10
30
-11
-28
-12
-17
-5
-6
-7
-26
8
20
-21
-4
-8
31
-15
-13
18
-14
14
---
2
1
33
24
10
30
11
28
12
17
5
6
7
26
8
20
21
4
8
31
15
13
18
14
14
---
2
1
25
20
9
23
10
22
11
16
4
5
6
21
7,5
18
19
3
7,5
24
15
12
17
13,5
13,5
325
2
1
Z tabulky je S 126 a S 199 . Protože S Ri pro xi 60 0
25
20
9
23
10
22
11
16
4
5
6
21
7,5
18
19
3
7,5
24
15
12
17
13,5
13,5
126
126 W 0,05
- 35 -
199
101; 325 , kde pro n
25 je
kvantil w0,05
100 z tabulky T5, nezamítáme hypotézu H : x0,5
60 . Naopak zamítáme
hypotézu, že pĜevažují písemné práce s nižším bodovým hodnocením. Souþet S jsme
nemuseli poþítat, ale pĜi „ruþním“ výpoþtu a malém poþtu hodnot Ri pro xi 60 0 je
n n 1 / 2 . Protože rozsah souboru je dostateþnČ
nČkdy vhodné využít toho, že S S velký, mĤžeme také aplikovat asymptotický test dané hypotézy. Dostaneme tentýž závČr,
25 26
4 0, 98210 W 0,05
25 26 51
24
126 neboĢ u
1, 645; f , pĜiþemž kvantil u0,95
1, 645 je
z tabulky T1.
WilcoxonĤv dvouvýbČrový test a MannĤv-WhitneyĤv test. PĜedpokládáme, že jsme
pozorováním náhodné veliþiny X se spojitým rozdČlením s distribuþní funkcí F získali
statistický soubor
x1 ,..., xm a pozorováním náhodné veliþiny Y se spojitým rozdČlením
s distribuþní funkcí G statistický soubor y1 ,..., yn . Testujeme hypotézu H : F
G , tj. X a
Y mají stejné rozdČlení pravdČpodobnosti, proti alternativní hypotéze H : F z G , tj. X a Y
nemají stejné rozdČlení pravdČpodobnosti. Slouþíme oba statistické soubory do jednoho
statistického souboru o rozsahu m n , uspoĜádáme tento soubor vzestupnČ podle velikosti a
urþíme poĜadí všech m n hodnot. Oznaþme T1 souþet všech poĜadí odpovídajících
statistickému souboru
souboru
y1 ,..., yn .
x1 ,..., xm a T2 souþet všech poĜadí odpovídajících statistickému
ZĜejmČ je T1 T2
m n m n 1 / 2 .
Statistika T1 je testovým
kritériem Wilcoxonova dvouvýbČrového testu a její kritické hodnoty jsou tabelovány, ale
v souþasné dobČ se pro testování pĜevážnČ používá ekvivalentní varianta nazývaná MannĤvWhitneyĤv test. Pro tento test vypoþteme hodnotu statistiky
U1
a hypotézu H : F
mn m m 1
T1
2
vD / 2 1, mn vD / 2 1 , kde vD / 2 je
G nezamítáme, jestliže U1 W D
( D / 2 )-kvantil Mannovy-Whitneyovy statistiky – viz tabulku T6. Hodnotu statistiky U1
mĤžeme také urþit bez slouþení pĤvodních statistických souborĤ a výpoþtu souþtu poĜadí T1
pĜímo ze vztahu
m
U1
n
¦¦ h
ij
i 1 j 1
- 36 -
,
kde klademe hij
1 pro xi d y j a hij
0 pro xi ! y j . Jestliže m ! 10 a n ! 10 , mĤžeme také
použít asymptotickou verzi testu s testovým kritériem
mn
2
.
mn m n 1
12
U1 u
Oborem nezamítnutí hypotézy H je pak W D
§ D·
u1D / 2 , u1D / 2 , kde u1D / 2 je ¨ 1 ¸ -kvantil
2¹
©
normovaného normálního rozdČlení N(0;1) – viz tabulku T1. Poznamenejme, že v MannovuWhitneyovu testu mĤžeme také použít místo U1 druhou statistiku U 2
mn n n 1
T2 .
2
PĜíklad 3.13
Byly vybrány dvČ skupiny m 13 a n
12 firem, které vyrábČjí tytéž výrobky. Firmy
v první skupinČ nevyužívají statistické metody Ĝízení jakosti, naopak firmy ve druhé skupinČ
tyto metody využívají. U obou skupin byl zjištČn zisk v Kþ získaný prodejem jednoho
výrobku. Na hladinČ významnosti 0,05 posućte, zda aplikace metod Ĝízení jakosti má
statisticky významný vliv na zisk u daného výrobku. Získané hodnoty jsou tabulce, kde xi je
zisk i-té firmy z první skupiny a y j je zisk j-té firmy ze druhé skupiny:
i
xi
j
yj
1
66,7
1
67,7
2
57,7
2
67,2
3
58,8
3
69,3
4
66,1
4
65,8
5
57,1
5
61,6
6
62,2
6
67,3
7
64,6
7
65,3
8
58,4
8
68,8
9
59,6
9
64,1
10
60,5
10
61,3
11
61,8
11
67,1
12
59,2
12
63,3
13
66,9
- 37 -
ě e š e n í:
Pomocí Mannova-Whitneyova testu testujeme hypotézu, že náhodná veliþina X (zisk firmy
z první skupiny) s neznámou distribuþní funkcí F má stejné rozdČlení jako náhodná veliþina Y
(zisk firmy ze druhé skupiny) s neznámou distribuþní funkcí G, tedy H : F
G proti
alternativní hypotéze H : F z G . Slouþíme oba soubory do jednoho souboru s rozsahem
mn
13 12
25 a uspoĜádáme jej vzestupnČ podle velikosti. Další výpoþty jsou
v následující tabulce, kde podtržená þísla odpovídají druhému souboru, tj. Y :
k
Slouþený
soubor
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
6
66,7
57,7
58,8
66,1
57,1
62,2
64,6
58,4
59,6
60,5
61,8
59,2
66,9
67,7
67,2
69,3
65,8
61,6
67,3
65,3
68,8
64,1
61,3
67,1
63,3
---
UspoĜádaný
slouþený
soubor
57,1
57,7
58,4
58,8
59,2
59,6
60,5
61,3
61,6
61,8
62,2
63,3
64,1
64,6
65,3
65,8
66,1
66,7
66,9
67,1
67,2
67,3
67,7
68,8
69,3
---
Hodnoty
prvního
souboru
57,1
57,7
58,4
58,8
59,2
59,6
60,5
61,8
62,2
12
13
14
65,3
65,8
66,1
66,7
66,9
15
16
17
18
19
67,1
67,2
67,3
67,7
68,8
69,3
---
---
130 W 0,05
U1
10
11
64,6
v0,025
PoĜadí
pro druhý
soubor
8
9
63,3
64,1
117 . Odtud U1
Protože
PoĜadí
pro první
soubor
1
2
3
4
5
6
7
61,3
61,6
Z tabulky vidíme, že T1
41 .
Hodnoty
druhého
souboru
13 12 13 14
117 130 a z tabulky T6 je
2
41 1;156 (41 1)
- 38 -
117
20
21
22
23
24
25
208
42;114 ,
zamítáme
na
G . Aplikace statistických metod Ĝízení jakosti
hladinČ významnosti 0,05 hypotézu H : F
má patrnČ vliv na výši zisku a po jejich nasazení mĤžeme oþekávat jeho vyšší úroveĖ,
samozĜejmČ pokud se nevyskytují ve firmách ze druhé skupiny další faktory, které zisk
pozitivnČ ovlivĖují. Vzhledem k dostateþnČ velkým rozsahĤm obou souborĤ mĤžeme také
13 12
2 2,828 a z tabulky T1 u
0,975
13 12 26
12
130 použít asymptotický test. Pak je u
Hypotézu H : F
G opČt zamítáme, protože u
2,828 W 0,05
1, 960 .
1, 960;1, 960 .
WilcoxonĤv dvouvýbČrový test a také MannĤv-WhitneyĤv test vychází z porovnání
mediánĤ dvou nezávislých pozorovaných náhodných veliþin a oba testy jsou neparametrickou
obdobou Studentova dvouvýbČrového testu rovnosti stĜedních hodnot tČchto veliþin, kdy ale
pĜedpokládáme, že obČ mají normální rozdČlení. V aplikacích se úspČšnČ používá Ĝada dalších
neparametrických testĤ – viz napĜ. [2], [3], [4], [6], [10], [22], [28].
PĜíklad 3.14
Statistický soubor o rozsahu n = 10 má aritmetický prĤmČr x = 32 a rozptyl s2 = 15. Na
hladinČ významnosti 0,05 testujte hypotézu, že stĜední hodnota pozorované náhodné veliþiny
s normálním rozdČlením je P = 30.
V ý s l e d e k: t = 1,549; t0,975 = 2,262; hypotézu nezamítáme
PĜíklad 3.15
Realizací náhodného výbČru z normálního rozdČlení byl po roztĜídČní získán statistický
soubor:
x j
-2
-1
0
1
2
3
fj
1
4
7
3
3
2
Na hladinČ významnosti 0,05 testujte hypotézu, že P = 0,1.
V ý s l e d e k: x = 0,45; s = 1,3592; t = 1,1224; t0,975 = 2,093; hypotézu nezamítáme
PĜíklad 3.16
Požadovaná stĜední hodnota vlhkosti v pražené kávČ je 4,2 % a smČrodatná odchylka 0,4 %.
Ve 20 vzorcích byly analýzou zjištČny tyto skuteþné hodnoty vlhkosti v %: 4,5; 4,3; 4,1; 4,9;
4,6; 3,2; 4,4; 5,1; 4,8; 4,0; 3,7; 4,4; 3,9; 4,1; 4,2; 4,1; 4,7; 4,3; 4,2; 4,4. Na hladinČ
- 39 -
významnosti 5% testujte hypotézy, že základní soubor s normálním rozdČlením, z nČhož
vzorky pocházejí, má (a) požadovanou stĜední hodnotu vlhkosti a (b) variabilitu.
V ý s l e d e k: (a) t = 1,033; t0,975 = 2,093; hypotézu nezamítáme
2
2
(b) t = 22,25; F 0,025
= 8,907; F 0,975
= 32,852; hypotézu nezamítáme
PĜíklad 3.17
Pomocí statistického souboru o rozsahu 10 a s rozptylem s2 = 2,0 testujte na hladinČ
významnosti 0,01 hypotézu, že základní soubor s normálním rozdČlením má rozptyl V 2 = 0,2.
2
2
V ý s l e d e k: t = 100; F 0,005
= 1,735; F 0,995
= 23,589; hypotézu zamítáme
PĜíklad 3.18
Pro posouzení pĜesnosti dvou mČĜících metod bylo provedeno 8 mČĜení a byly urþeny rozdíly
dvojic (odchylky) odpovídajících si výsledkĤ. Odtud pak byla urþena prĤmČrná odchylka
d = 0,244 a smČrodatná odchylka s(d) = 0,192. ZjistČte na hladinČ významnosti 0,05, zda obČ
metody mĤžeme považovat za stejnČ pĜesné, jestliže rozdíly mají normální rozdČlení.
V ý s l e d e k: t = 3,362; t0,975 = 2,365; hypotézu zamítáme
PĜíklad 3.19
Na dvou váhách bylo provedeno vážení 10 vzorkĤ s výsledky xi , yi = (25; 28), (30; 31),
(28; 26), (50; 52), (20; 24), (40; 36), (32; 33), (36; 35), (42; 45), (38; 40) (g). Na hladinČ
významnosti 0,01 zjistČte, zda rozdílné výsledky jsou statisticky nevýznamné za pĜedpokladu,
že rozdíly získaných dvojic hodnot mají normální rozdČlení.
V ý s l e d e k: t = -1,13; t0,995 = 3,250; hypotézu nezamítáme, tedy rozdíly jsou statisticky
nevýznamné
PĜíklad 3.20
PĜed seĜízením a po seĜízení váhy na balícím automatu byly získány statistické soubory
s charakteristikami n1 = 12, x = 31,2 g, s 2 x = 0,770 g2 a n2 = 18, y = 29,2 g, s 2 y =
= 0,378 g2. Za pĜedpokladu stejných rozptylĤ a normálního rozdČlení testujte na hladinČ
významnosti 0,05 hypotézu, že se stĜední hodnota nastavení váhy seĜízením nezmČnila.
PĜíklad 3.21
Studijní prĤmČry 20 studijních skupin daného roþníku jsou:
x j
1,70
1,86
2,01
2,23
2,27
2,411
fj
2
3
5
7
2
1
- 40 -
Celkový studijní prĤmČr v minulém roþníku byl y = 2,201 a rozptyl s 2 y = 0,012 pro 20
studijních skupin. Testujte hypotézu, že se stĜední hodnoty studijních výsledkĤ mezi obČma
roþníky neliší, pĜedpokládáme-li normální rozdČlení studijních prĤmČrĤ se stejnými rozptyly.
V ý s l e d e k: x = 2,0795; s 2 x = 0,0399; t = - 2,325;
t0,975 = 2,023 (lineární interpolací); hypotézu zamítáme;
t0,995 = 2,712 (lineární interpolací); hypotézu nezamítáme
PĜíklad 3.22
Bylo provedeno po 18 zkouškách pevnosti v tahu na vzorcích dvou druhĤ lan s výsledky: x =
= 3389,3 N, s 2 x = 1144,4 N2, y = 3339,2 N, s 2 y = 3453,5 N2. Za pĜedpokladu rĤzných
rozptylĤ pevností v tahu s normálním rozdČlením testujte na hladinČ významnosti 0,05
hypotézu, že stĜední pevnosti v tahu obou druhĤ lan jsou stejné.
PĜíklad 3.23
Dva statistické soubory s rozsahy n1 = 20 a n2 = 10 a charakteristikami x = 10,24; y = 11,09;
s 2 x = 4,231 a s 2 y = 18,457 byly získány nezávislými náhodnými výbČry z nezávislých
normálních rozdČlení s rĤznými rozptyly. Testujte na hladinČ významnosti 1% hypotézu, že
uvedená rozdČlení mají stejné stĜední hodnoty.
V ý s l e d e k: t = -0,5637; t0,975 = 3,212; hypotézu nezamítáme
PĜíklad 3.24
PĜi urþování tuku v mléce byly použity dvČ rĤzné metody. První metoda pĜi provedení 12
analýz dala rozptyl namČĜených hodnot s 2 x = 0,0224 a druhá metoda dala rozptyl pĜi
provedení 8 analýz s 2 y = 0,0263. Testujte na hladinČ významnosti 0,01 hypotézu, že obČ
metody jsou vzhledem k rozptylu stejnČ pĜesné, jestliže mají namČĜené hodnoty normální
rozdČlení.
V ý s l e d e k: t = 1,23; F0,975 = 3,759; hypotézu nezamítáme
PĜíklad 3.25
Testujte pĜedpoklad o stejných rozptylech základních souborĤ z pĜíkladu 3.20 na hladinČ
významnosti 0,05.
V ý s l e d e k: t = 2,1; F0,975 = 2,87 (lineární interpolací); hypotézu nezamítáme
- 41 -
PĜíklad 3.26
PĜedstavenstvo velké akciové spoleþnosti zvažuje prodej akcií svým zamČstnancĤm a
odhaduje, že asi 20 % z nich si je zakoupí. PĜi prĤzkumu u náhodnČ vybraných 400
zamČstnancĤ projevilo zájem o akcie 66 zamČstnancĤ. Testujte na hladinČ významnosti 0,05,
zda pĜedpoklad pĜedstavenstva je reálný.
V ý s l e d e k: t = -1,75; u0,975 = 1,960; hypotézu nezamítáme, pĜedpoklad je reálný
PĜíklad 3.27
Z 200 výrobkĤ vyrobených novou technologií bylo 31 zmetkĤ. OvČĜte, že na hladinČ
významnosti 1 % nová technologie zmČnila zmetkovitost oproti dĜívČjším dlouhodobČ
zjištČným 10 % zmetkovitosti.
V ý s l e d e k: t = 2,593; u0,995 = 2,576; hypotézu zamítáme, nová technologie zmČnila
zmetkovitost
PĜíklad 3.28
Ve dvou závodech vyrábČjí tentýž výrobek. Podíl vadných výrobkĤ v obou závodech by mČl
být stejný, protože používají týchž technologií výroby. V prvním závodČ bylo 10 vadných
výrobkĤ mezi 200 kontrolovanými a ve druhém závodČ bylo 23 vadných výrobkĤ mezi 250
kontrolovanými. Na hladinČ významnosti 0,01 ovČĜte, zda mezi obČma závody je statisticky
významný rozdíl v jakosti výroby tČchto výrobkĤ.
V ý s l e d e k: t = -1,699; u0,995 = 2,576; hypotézu nezamítáme, mezi závody není statisticky
významný rozdíl v jakosti výroby
PĜíklad 3.29
Mezi 58 zemČdČlci z jisté lokality bylo zjištČno 23 nemocných a mezi 43 dČlníky z téže
lokality 28 nemocných. Testujte na hladinČ významnosti 5 % hypotézu, že u dČlníkĤ je stejná
nemocnost jako u zemČdČlcĤ.
V ý s l e d e k: t = -2,534; u0,975 = 1,960; hypotézu zamítáme, výskyt onemocnČní je u dČlníkĤ
spíše vČtší než u zemČdČlcĤ
PĜíklad 3.30
Deset osob mČlo nezávisle na sobČ bez pĜedchozího nácviku odhadnout, kdy od daného
signálu uplyne jedna minuta. Byly získány výsledky v sekundách: 53, 48, 45, 55, 63, 51, 66,
56, 50, 58. Testujte na hladinČ významnosti 0,05 znaménkovým testem hypotézu, že polovina
lidské populace délku jedné minuty podhodnotí a polovina ji nadhodnotí, proti hypotéze, že je
to jinak.
V ý s l e d e k: y
2 W 0,05
2;8 ; hypotézu nezamítáme
- 42 -
PĜíklad 3.31
Pomocí náhodného výbČru 16 firem ovČĜte domnČnku, že burzovní experti systematicky
podhodnocují odhady cen akcií na burze. Odhady expertĤ a skuteþnČ dosažené ceny jsou
v tabulce:
Firma
1
2
3
4
5
6
7
8
Odhad x1i
123
764
905
3200
1356
724
254
2255
Cena x2i
113
680
901
3310
1280
733
330
2358
Firma
9
10
11
12
13
14
15
16
Odhad x1i
55
173
894
2784
142
423
674
3556
Cena x2i
57
185
866
2890
153
431
688
3560
Zvolte hladinu významnosti D = 0,05. (Návod: Použijte párový WilcoxonĤv a znaménkový
test hypotézy, že medián rozdílu X
V ý s l e d e k: S 47 W 0,05
X 1 X 2 je roven 0 proti alternativČ, že je menší než 0.)
36;136 , resp. u
1, 2669 W 0,05
1, 645; f ;
Wilcoxonovým testem nezamítáme nulovou hypotézu (tj. domnČnku o
podceĖování cen zamítáme)
y
5 W 0,05
5;16 , resp. u
1, 5 W 0,05
1, 645; f ; znaménkovým
testem nezamítáme nulovou hypotézu (tj. domnČnku o podceĖování cen
zamítáme)
PĜíklad 3.32
Výrobce urþitého výrobku se má rozhodnout mezi dvČma dodavateli polotovarĤ vyrábČjících
je rĤznými technologickými postupy. Rozhodující je procentní obsah úþinné látky. Pro
ovČĜení, zda procentní obsah této látky je pĜi použití obou technologií stejný, bylo náhodnČ
vybráno 5 kusĤ vyrobených první technologií a 9 kusĤ vyrobených druhou technologií:
xi
1,52 1,57 1,71 1,34 1,68
yj
1,75 1,67 1,56 1,66 1,72 1,79 1,64 1,55 1,65
Testujte na 5% hladinČ významnosti hypotézu, že obČ technologie poskytují stejné procento
úþinné látky.
V ý s l e d e k: U1
31 W 0,05
8; 37 ; hypotézu nezamítáme
u 1,13333 W 0,05
1, 960;1, 960 ; hypotézu nezamítáme (rozsahy výbČrĤ
jsou ale dosti malé!)
- 43 -
Kontrolní otázky
1. Definujte statistickou hypotézu a popište její druhy.
2. Co je testové kritérium a kritický obor?
3. Jakou konvenci používáme pĜi testování statistické hypotézy?
4. Popište chybu 1. druhu pĜi testování statistické hypotézy. Jaký je její praktický význam?
5. Popište chybu 2. druhu pĜi testování statistické hypotézy. Jaký je její praktický význam?
6. Jaký je vztah mezi pravdČpodobnostmi chyb 1. a 2. druhu a rozsahem náhodného výbČru?
7. Jak souvisejí intervalové odhady s testy parametrických hypotéz?
8. Jakým zpĤsobem používáme tzv. P-hodnotu pĜi testování parametrické hypotézy na PC?
9. Popište grafickou metodu testu hypotézy o rozdČlení pravdČpodobnosti pozorované
náhodné veliþiny.
10. Proþ používáme neparametrické testy a co omezuje jejich použití?
11. Popište princip transformace pĤvodního souboru na soubor poĜadí a to i s ohledem na
shodu poĜadí.
- 44 -
4 REGRESNÍ ANALÝZA
Regresní funkce
DĤležitou statistickou úlohou v ekonomických aplikacích je hledání a zkoumání závislostí
promČnných, jejichž hodnoty získáme pĜi realizaci experimentĤ. Jde o stanovení závislosti
pozorované náhodné veliþiny Y na reálném vektoru nezávisle promČnných X
X 1 ,..., X k ,
který mĤže ale nemusí být náhodný (jeho pĜípadná náhodnost není v našem pĜípadČ
podstatná). Náhodnou veliþinou Y mĤže být napĜ. výsledná cena výrobku a složky X 1 ,..., X k
vektoru X tvoĜí: ceny materiálu a energie, mzdy, danČ a zisk. K popisu, stanovení a
vyšetĜování závislosti Y na X užíváme regresní analýzu, pĜiþemž tuto závislost vyjadĜuje
regresní funkce
y
M x, ȕ E Y | X
x ,
kde x = x1 ,..., xk je vektor nezávisle promČnných (pozorovaná hodnota vektoru X), y je
závisle promČnná (pozorovaná hodnota náhodné veliþiny Y) a ȕ
reálných parametrĤ, tzv. regresních koeficientĤ Ej , j
E1 ,..., E m 1,..., m . E Y | X
je vektor
x je podmínČná
stĜední hodnota náhodné veliþiny Y , tj. její stĜední hodnota pro x = x1 ,..., xk .
f
y
x
E(Y/X=x)
Obr. 4.1
PĜi vyšetĜování závislosti Y na X získáme realizací n experimentĤ (k + 1)-rozmČrný
statistický soubor
x , y ,..., x
1
1
n
, yn x
11
,..., xk 1 , y1 ,..., x1n ,..., xkn , yn s rozsahem n,
kde yi je pozorovaná hodnota náhodné veliþiny Yi (Yi odpovídá i-tému pozorování Y) a
- 45 -
xi
x1i ,..., xki je pozorovaná hodnota vektoru nezávisle promČnných X, i
1,..., n . Na obr.
4.1 je znázornČn pĜípad pro k = 1, tedy pro x = x1 = x (jde o tzv. regresní pĜímku), a
s opakovanými pozorováními. Opakování pozorování pro danou hodnotu nezávisle promČnné
x však není v regresní analýze nezbytné. Pro urþení odhadĤ neznámých regresních koeficientĤ
E j minimalizujeme tzv. reziduální souþet þtvercĤ
n
S*
¦ ª¬ y
i
i 1
M x i , ȕ º¼
2
a hovoĜíme o tzv. metodČ nejmenších þtvercĤ.
PĜed výpoþtem regresních koeficientĤ volíme obvykle takový tvar regresní funkce,
který co nejvíce odpovídá vyšetĜované nebo uvažované závislosti. Bývá zvykem volit regresní
funkci s co nejmenším poþtem regresních koeficientĤ a jednoduchým pĜedpisem, avšak
dostateþnČ flexibilní a s požadovanými vlastnostmi: monotonie, pĜedepsané hodnoty,
asymptoty aj. Vychází se pĜitom povČtšinou ze zkušenosti, avšak v souþasné dobČ se pĜi
realizaci regresní analýzy na PC dají þasto úspČšnČ použít vhodné databáze regresních funkcí.
Regresní funkce rozdČlujeme na lineární a nelineární regresní funkce, a to vzhledem
k regresním koeficientĤm, nikoli k vektoru nezávisle promČnných x. NČkteré nelineární
regresní funkce mĤžeme vhodnou linearizací pĜevést na lineární (napĜ. mocninnou nebo
exponenciální funkci logaritmujeme). Jde sice o bČžnČ používaný postup, kdy ale Ĝešíme jiný
regresní model nežli pĤvodnČ uvažovaný. Blíže o linearizaci nelineární regresní funkce je
pojednáno napĜ. v [2], [3], [17], [19], [21], [29].
Lineární regresní model
Lineární regresní funkce má tvar
m
y
¦ E f x ,
j
j
j 1
kde f j x jsou známé funkce neobsahující regresní koeficienty E1 ,..., E m .
Uvažujeme tzv. lineární regresní model založený na pĜedpokladech:
1. Funkce f j x nabývají hodnot f ji
2. Matice F
§ f11 "
¨ # %
¨
¨f
© m1 "
f j x i pro j
1,..., m a i
1,..., n .
f 1n ·
# ¸¸ typu (m, n) s prvky f ji má hodnost m n .
f mn ¸¹
- 46 -
3. Náhodná veliþina Yi má stĜední hodnotu E Yi m
¦E
j
f ji
a konstantní rozptyl
j 1
D Yi V 2 ! 0 pro i
1,..., n .
4. Náhodné veliþiny Yi jsou nekorelované a mají normální rozdČlení pravdČpodobnosti pro
i
1,..., n .
PĜedpoklady 1 a 2 zaruþují jednoznaþnou existenci minima uvedeného reziduálního
souþtu þtvercĤ, tj. urþení bodových odhadĤ regresních koeficientĤ. PĜedpoklady 3 a 4 pak
slouží k intervalovým odhadĤm a testováním hypotéz. V literatuĜe se místo popsaného
lineárního regresního modelu také uvádí ekvivalentní model ve tvaru
m
Yi
¦ E f x E ,
j
j
i
i
i
1,..., n ,
j 1
kde Ei jsou nekorelované náhodné veliþiny (vyjadĜující napĜ. náhodné chyby mČĜení)
s normálním rozdČlením pravdČpodobnosti N(0, V2).
Odhady regresních koeficientĤ, rozptylu a funkþních hodnot, a také testy statistických
hypotéz o regresních koeficientech provádíme pomocí následujících vztahĤ. Oznaþíme-li
matice
H
FF
T
kde horní index
§ n
¨ ¦ f1i f1i "
ï1
#
%
¨
¨ n
¨ ¦ f mi f1i "
¨
©i1
T
n
·
f1i f mi ¸
¦
i 1
¸
#
¸,b
¸
n
¸
f
f
¦
mi mi ¸
i 1
¹
§ b1 ·
¨ # ¸, y
¨ ¸
¨b ¸
© m¹
§ y1 ·
¨ # ¸, g
¨ ¸
ÿ ¸
© n¹
Fy
§ n
·
¨ ¦ f1i yi ¸
ï1
¸
#
¨
¸,
¨ n
¸
¨ ¦ f mi yi ¸
¨
¸
©i1
¹
oznaþuje transpozici matice, pak platí:
1. Bodový odhad regresního koeficientu E j je þíslo b j , j
1,..., m , kde matice b je Ĝešení
soustavy lineárních algebraických rovnic (tzv. soustavy normálních rovnic)
Hb = g .
2. Bodový odhad lineární regresní funkce je funkce
m
¦ b f x ,
yˆ
j
j
j 1
jejíž konkrétní hodnota pro dané x je bodový odhad jak stĜední hodnoty, tak i individuální
(predikované) hodnoty náhodné veliþiny Y.
3. Bodový odhad rozptylu V 2 náhodné veliþiny Y je
s2
*
Smin
,
nm
- 47 -
m
§
·
y
¨ i ¦ b j f ji ¸
¦
i 1 ©
j 1
¹
n
kde S
*
min
2
n
m
i 1
j 1
¦ yi2 ¦ b j g j a g j je prvek matice g.
4. Intervalový odhad regresního koeficientu E j se spolehlivostí 1 D, j
1,..., m , je
b j t1D 2 s h jj ; b j t1D 2 s h jj ,
kde h jj je
§ D·
j-tý diagonální prvek matice H 1 a t1D 2 je ¨ 1 ¸ -kvantil Studentova
2¹
©
rozdČlení s n m stupni volnosti - viz tabulku T2.
5. Intervalový odhad stĜední funkþní hodnoty y regresní funkce (konfidenþní interval pro
E Y | X
x ) se spolehlivostí 1 D je
m
¦b
m
*
j f j ( x ) t1D / 2 s h ;
j 1
*
T
¦b
j
f j ( x ) t1D / 2 s h* ,
j 1
-1
kde h = f(x) H f(x), pĜiþemž f ( x )
§ f1 ( x ) ·
§ D·
¨ # ¸, a t
je
1
D
2
¨ 1 ¸ -kvantil Studentova
¨
¸
2¹
©
¨ f (x) ¸
© m ¹
rozdČlení s n m stupni volnosti - viz tabulku T2. Intervalový odhad individuální
funkþní hodnoty y regresní funkce (predikþní interval pro Y | X
x ) se spolehlivostí
1 D obdržíme analogicky, avšak místo h* vezmeme 1 + h*.
6. Test hypotézy H : E j
E j 0 proti alternativní hypotéze H : E j z E j 0 na hladinČ
významnosti D, kde j je jeden pevnČ zvolený index, j
1,..., m , provádíme pomocí
pozorované hodnoty testového kritéria
t
WD
t1D 2 ; t1D 2
bj E j0
s h jj
,
§ D·
a t1D 2 je ¨ 1 ¸ -kvantil Studentova rozdČlení s n m stupni
2¹
©
volnosti - viz tabulku T2. Tento test je možno také provést pomocí výše uvedeného
intervalového odhadu koeficientu E j se spolehlivostí 1 D .
Z intervalových odhadĤ stĜední funkþní hodnoty, resp. individuální funkþní hodnoty,
se konstruuje pás spolehlivosti pro stĜední hodnotu (konfidenþní pás), resp. pás spolehlivosti
pro individuální hodnotu (predikþní pás) – viz napĜ. užší, resp. širší, pás kolem regresní
pĜímky na obr. 4.2. Poznamenejme ještČ, že test hypotézy H : E j
- 48 -
E j 0 se týká pouze
jednoho (byĢ libovolného) regresního koeficientu. Souþasný test více regresních koeficientĤ
je nutno provést pomocí tzv. sdružené hypotézy - viz napĜ. [2], [3], [17], [19], [21], [29].
Orientaþní mírou vhodnosti vypoþtené regresní funkce pro získaná data je koeficient
vícenásobné korelace
1
r
*
Smin
¦y
ny
2
i
2
,
nazývaný také index (koeficient) determinace r 2 ( y je aritmetický prĤmČr hodnot yi ), který
nabývá hodnot z intervalu 0;1 . ýíslo r 2 100 % vyjadĜuje procentuální podíl z rozptylu
hodnot yi "vysvČtlený" vypoþtenou regresní funkcí. Hodnoty r (a tím také r 2 ) blízké 1
naznaþují vhodnost zvoleného tvaru regresní funkce. Pro bližší posouzení vhodnosti
vypoþtené regresní funkce se provádí její grafický rozbor vzhledem k pozorovaným bodĤm
>x1 , y1 @ ,..., >x n , yn @ . Pro rigorózní závČr je však nutné
provést tzv. regresní diagnostiku a
testovat další statistické hypotézy - viz napĜ. [2], [3], [17], [19], [21], [29].
Nejvíce užívanou lineární regresní funkcí pro pozorovaný dvourozmČrný statistický
soubor x1 , y1 ,..., xn , yn je funkce
E1 E 2 x ,
y
jejímž grafem je regresní pĜímka. Pro tuto funkci je k = 1, x = x1 = x (píšeme x místo x1),
m = 2, f1(x) = 1, f2(x) = x, takže
F
§1 " 1 ·
¨x " x ¸ , y
n ¹
© 1
§ y1 ·
¨ # ¸.
¨ ¸
ÿ ¸
© n¹
E1 E 2 x použít explicitní vztahy, kde
PĜi „ruþním“ výpoþtu mĤžeme pro regresní funkci y
det H znaþí determinant matice H:
a) H
§ n
¨ ¦1 ;
ï1
¨ n
¨ ¦ xi ;
©i1
n
·
i ¸
i 1
¸, g
n
2¸
xi ¸
¦
i 1
¹
¦x
§ n
·
¨ ¦ yi ¸
ï1
¸,
¨ n
¸
¨ ¦ xi yi ¸
©i1
¹
n
¦1
n,
i 1
n
b) det H
n
§ n ·
n ¦ xi2 ¨ ¦ xi ¸ ,
i 1
©i1 ¹
n
n
i 1
i 1
n ¦ xi yi ¦ xi ¦ yi
2
b2
i 1
det H
aritmetické prĤmČry,
- 49 -
, b1
y b2 x ,
xa y
jsou
n
¦ yi b1 b2 xi *
c) Smin
2
n
n
n
i 1
i 1
i 1
¦ yi2 b1 ¦ yi b2 ¦ xi yi , s 2
i 1
*
Smin
,
n2
n
¦x
2
i
d) h11
e) h
*
i 1
det H
1
n
, h 22
x x
n
¦x
2
i
n
,
det H
2
2
nx
1 nx x
,
n
det H
2
i 1
n
¦x y
i
r ( x, y ) , kde r x, y f) r
statistického souboru
i
xy
i 1
n
§ n 2
2 ·§
2·
2
¨ ¦ xi n x ¸ ¨ ¦ yi n y ¸
¹
©i1
¹© i 1
je koeficient korelace
x , y ,..., x , y .
1
n
1
n
V ekonomických úlohách se také þasto potkáváme s lineárními regresními funkcemi:
a)
regresní rovina y
f 2 x1 , x2 E1 E 2 x1 E 3 x2 , kde k = 2, x
x1 , f 3 x1 , x2 x , f3 x f1 x1 , x2 1 ,
x2 ,
E1 E 2 x E 3 x 2 , kde k = 1, x
b) regresní parabola y
f2 x x1 , x2 , m = 3,
x1
x , m = 3, f1 x 1 ,
x2 .
Jejich „ruþní“ výpoþet je však namáhavý a je lépe aplikovat profesionální statistický software
(Minitab, Statistica, Statgraphics, QC Expert, SPSS, SAS aj.) anebo použít potĜebné funkce a
maticové operace v Excelu.
PĜíklad 4.1
U osmi náhodnČ vybraných firem poskytujících konzultace v oblasti jakosti výroby byly
v roce 1993 zjištČny poþty zamČstnancĤ x a roþní obraty y (mil. Kþ):
xi
3
5
5
8
9
11
12
15
yi
0,8
1,2
1,5
1,9
1,8
2,4
2,5
3,1
VyjádĜete závislost roþního obratu firmy na poþtu zamČstnancĤ ve tvaru y = E1 + E 2 x,
vypoþtČte intervalový odhad E 2 se spolehlivostí 0,95, testujte na hladinČ významnosti 0,05
hypotézu H : E1 = 0,2, urþete bodový a intervalový odhad y(10) se spolehlivostí 0,95. Pomocí
grafu a koeficientu korelace r posućte vhodnost regresní funkce. PĜedpokládejte, že roþní
obrat má podmínČné normální rozdČlení s konstantním rozptylem vzhledem k poþtu
zamČstnancĤ.
- 50 -
ě e š e n í:
V tabulce jsou pomocné výpoþty:
i
xi
yi
x i2
x iy i
y i2
1
2
3
4
5
6
7
8
3
5
5
8
9
11
12
15
0,8
1,2
1,5
1,9
1,8
2,4
2,5
3,1
9
25
25
64
81
121
144
225
2,4
6,0
7,5
15,2
16,2
26,4
30,0
46,5
0,64
1,44
2,25
3,61
3,24
5,76
6,25
9,61
6
68
15,2
694
150,2
32,80
Vlastní výpoþty provedeme v následujících krocích.
1) Jde o regresní pĜímku, takže s využitím výše uvedených vzorcĤ obdržíme pro n = 8
§ 8 68 ·
2
z tabulky matici H = ¨
¸ , jejíž determinant je det H = 8694 – 68 = 928, takže
68
694
©
¹
bodový odhad E 2 je
b2
8 150, 2 68 15, 2
= 0,1810344 | 0,181.
928
Dále je x = 68/8 = 8,5, y = 15,2/8 = 1,9, takže bodový odhad E1 je
b1 = 1,9 0,18103448,5 = 0,3612068 | 0,361.
Potom bodový odhad regresní funkce je y = 0,361 + 0,181x.
2) Minimální hodnota reziduálního souþtu þtvercĤ je
Smin
= 32,80 – 0,3612068.15,2 – 0,1810344150,2 | 0,1182758
a bodový odhad rozptylu V 2, resp. smČrodatné odchylky V , je
s2 = 0,1182758/(8 2) = 0,0197126, resp. s =
0, 0197126 | 0,1404017.
3) Diagonální prvky matice H 1 jsou
h11 = 694/928 | 0,7478448, h22 = 8/928 | 0,00862069.
Z tabulky T2 je pro 8 2 = 6 stupĖĤ volnosti t0,975 = 2,447. Intervalový odhad regresního
koeficientu E 2 je
E 2 < 0,1810344 – 2,4470,1404017 0, 00862069 ;
0,1810344 + 2,4470,1404017 0, 00862069 > = < 0,1491353; 0,2129334 > |
| < 0,149; 0,213 >.
- 51 -
Bodový odhad pĜírĤstku roþního obratu odpovídajícího zvýšení poþtu zamČstnancĤ firmy o
jednoho je tedy 181 000 Kþ a intervalový odhad tohoto pĜírĤstku se spolehlivostí 0,95 je
149 000 Kþ až 213 000 Kþ.
4) Pozorovaná hodnota testového kritéria pro H : E1 = 0,2 je
t=
0, 3612068 0, 2
| 1,3277.
0,1404017 0, 7478448
Pro alternativní hypotézu H : E1 z 0,2 je W0,05 = < -2,447; 2,447 >. Vzhledem k tomu, že
t W0,05 , hypotézu E1 = 0,2 na hladinČ významnosti 0,05 nezamítáme. Na dané hladinČ
významnosti vlastnČ nezamítáme hypotézu, že firma bez zamČstnancĤ (pracují jen majitelé),
neboĢ y(0) = E1 , bude mít roþní obrat okolo 200 000 Kþ.
5)
Bodový odhad stĜední i individuální hodnoty roþního obratu firmy pro 10
zamČstnancĤ je
y(10) = 0,3612068 + 0,181034410 = 2,1715508 | 2,172.
U dané firmy lze tedy oþekávat roþní obrat okolo 2 172 000 Kþ. Protože
h* =
1 8(10 8, 5) 2
= 0,1443965,
8
928
je intervalový odhad se spolehlivostí 0,95 stĜední hodnoty roþního obratu firmy s 10
zamČstnanci
y(10) < 2,1715508 2,4470,1404017 0,1443965 ;
2,1715508 + 2,4470,1404017 0,1443965 > = < 2,0409985; 2,3021031 > |
| < 2,040; 2,302 >.
Se spolehlivostí 0,95 lze oþekávat, že stĜední hodnota roþního obratu takové firmy bude od
2 040 000 Kþ do 2 302 000 Kþ. Jestliže použijeme ve výpoþtu 1 + h* místo h*, dostaneme
intervalový odhad se spolehlivostí 0,95 individuální hodnoty roþního obratu firmy s 10
zamČstnanci
y(10) < 2,1715508 – 2,4470,1404017 1,1443965 ;
2,1715508 + 2,4470,1404017 1,1443965 > = < 1,8040193; 2,5390823 > |
| < 1,804; 2,539 >.
Se spolehlivostí 0,95 lze oþekávat, že individuální hodnota roþního obratu takové firmy bude
od 1 804 000 Kþ do 2 539 000 Kþ.
6) Koeficient korelace je r = 0,984798, takže index determinace je r 2 | 0,969827 .
- 52 -
Z grafu na obr. 4.2 a velikosti koeficientu korelace vidíme, že zvolený tvar regresní funkce
vcelku dobĜe vystihuje danou závislost. Podle þasto používané konvence lze Ĝíci, získaná
regresní
funkce vyjadĜuje celkem r 2 100 % | 96, 98 % zmČn (variability) pozorovaného
obratu firmy.
Závislost obratu na poþtu zamČstnancĤ
3.6
3.2
2.8
2.4
y
2
1.6
1.2
0.8
0.4
0
18
12
6
0
x
Obr. 4.2
PĜíklad 4.2
PĜi sledování prĤmČrných cen y (Kþ) v roce 2005 a prĤmČrných cen x (Kþ) v roce 2004 u 6
vybraných druhĤ zboží byly získány následující hodnoty:
xi
3,4
4,3
5,4
6,7
8,7
10,6
yi
4,5
5,8
6,8
8,1
10,5
12,7
Urþete regresní funkci y = E1 + E 2 x, bodový odhad y(5,4), intervalové odhady E1 , E 2 a y(5,4)
se spolehlivostí 0,95, a koeficient korelace.
V ý s l e d e k: y | 0,7744 + 1,1190 x; E1 < 0,3095; 1,2394 >; E 2 < 1,0524; 1,1856 >;
y(5,4) | 6,8171; y(5,4) < 6,6350; 6,9992 >, resp. < 6,3710; 7,2632 >;
r | 0,999082
- 53 -
PĜíklad 4.3
Poptávka po urþitém výrobku y* (v tis. ks) pĜi jeho rĤzných cenách x* (Kþ) zjištČná
statistickým prĤzkumem uvedena v tabulce:
xi
100
110
140
160
200
yi
120
89
56
41
22
VyjádĜete závislost poptávky na cenČ mocninnou regresní funkcí y G
J x , urþete bodové a
intervalové odhady (se spolehlivostí 0,95) regresních koeficientĤ a poptávky pro cenu
výrobku 120 Kþ. (Návod: logaritmujte mocninnou funkci.)
V ý s l e d e k: ln y* | 15,64395 2,36035 ln x* ; y 6,224 106 x 2,36
;
ln J = E1 < 13,95342; 17,33448 >; G = E 2 < -2,37817; -2,34253 >;
y*(120) | 77; y*(120) < 69,8; 84,9 >, resp. < 62,0; 95,6 >
PĜíklad 4.4
U 6 výrobkĤ jedné firmy byly zjištČny náklady y (Kþ) a ceny x (Kþ):
xi
40
64
34
15
57
45
yi
33
46
23
12
56
40
Urþete regresní funkci y = E1 + E2 x, bodový odhad rozptylu V 2 , intervalový odhad
koeficientu E2 se spolehlivostí 0,95 a testujte hypotézu E2 = 0 na hladinČ významnosti 0,05.
V ý s l e d e k: y = 1,3082 + 0,8543 x; V 2 | 39,8439; E2 ¢0,404; 1,305², takže hypotézu
zamítáme
PĜíklad 4.5
Pro posouzení závislosti letošní poptávky y na loĖské poptávce x na jistý druh zboží byly u
6 obchodníkĤ zjištČny údaje (ks):
xi
20
60
70
100
150
260
yi
50
60
60
120
230
320
Urþete bodové a intervalové odhady (se spolehlivostí 95 %) koeficientĤ regresní pĜímky a
hodnoty letošní poptávky pro loĖskou poptávku 110 kusĤ. Na hladinČ významnosti 5 %
testujte hypotézu, že E1 = 0 a urþete koeficient korelace.
V ý s l e d e k: y | 0,687 + 1,266x; E1 < -57,194; 58,568 >; E 2 < 0,836; 1,696 >;
y(110) | 140; y(110) < 106,55; 173,45 >, resp. < 51,50; 228,50 >;
- 54 -
hypotézu nezamítáme; r | 0,97198
PĜíklad 4.6
Pozorováním množství y prodaných akcií v závislosti na odchylce ceny x (kþ) jedné akcie
firmy STAMET od emisní hodnoty byla získána data:
xi
-60
-32
-15
1
15
30
55
yi
781
824
840
855
868
882
897
VypoþtČte regresní funkci y = E1 + E2 x, bodový odhad rozptylu V 2 , intervalový odhad
koeficientu E2 se spolehlivostí 0,95 a bodový i intervalový odhad hodnoty y pro x = 30 a
x = 15.
V ý s l e d e k: y = + 0,991x; V 2 | 46,67; E2 ¢0,773; 1,208²; y(30) | 820,7;
y(30) ¢810,6; 830,8²; y(15) | 865,3; y(15) ¢861,8; 868,8²
PĜíklad 4.7
Velikost þistého zisku y* (tis. Kþ) firmy STATEX v prvních 6 letech x* její þinnosti je
v následující tabulce:
xi
1
2
3
4
5
6
yi
112
149
238
354
580
867
Aproximujte data exponenciální regresní funkcí y* = J exp(G x*) a urþete bodové i intervalové
odhady (se spolehlivostí 95 %) regresních koeficientĤ a pĜedpovČdi zisku v 7. roce þinnosti
firmy, a koeficient korelace. (Návod: logaritmujte exponenciální funkci.)
V ý s l e d e k: ln y* | 4,22798 + 0,42020 x*; y* = 68,57875 exp(0,42020 x*);
J = exp( E1 ) < 59,40715; 79,16632 >; G = E 2 < 0,38333; 0,45706 >;
y*(7) | 1299,04; y*(7) < 1125,30; 1499,59 >, resp. < 1052,24; 1603,71 >;
r | 0,99801 pro linearizovanou regresní funkci
PĜíklad 4.8
MČĜením byly získány hodnoty:
xi
0,75
1,50
2,25
3,00
3,75
4,50
5,10
6,10
6,70
7,50
yi
0,017
0,046
0,075
0,110
0,142
0,167
0,188
0,224
0,262
0,282
Urþete regresní funkci y = E1 + E2 x, vypoþtČte bodový odhad rozptylu V 2 , testujte hypotézu
- 55 -
E1 = 0 na hladinČ významnosti 5 % a vypoþtČte intervalový odhad koeficientu E2 se
spolehlivostí 95 %.
V ý s l e d e k: y = 0,012009 + 0,039686x; V 2 | 2,0710-5; hypotézu E1 = 0 zamítáme;
E2 ¢0,038066; 0,041064²
PĜíklad 4.9
Na souĜadnicové vrtaþce byla za teploty 20 qC nastavena vzdálenost 1 m od poþátku souĜadné
soustavy a mČĜena diference y (m) mezi skuteþnou a nastavenou vzdáleností v závislosti na
pĜírĤstku teploty x (qC):
xi
yi
10
20
30
40
50
60
0,00018 0,00035 0,00048 0,00065 0,00084 0,00097
Pomocí regresní funkce y = E1 + E 2 x vypoþtČte bodový a intervalový odhad chyby poþáteþního
nastavení E1 , koeficientu tepelné roztažnosti E 2 a skuteþné vzdálenosti d = y + 1 od poþátku
souĜadné soustavy pro teplotu 35 qC se spolehlivostí 95 %.
V ý s l e d e k: E1 | 1,9333310-5 m; E1 ¢-2,3175610-5; 6,1842310-5² m;
E 2 | 1,5971410-5 mqC-1; E 2 ¢1,4879910-5; 1,7063010-5² mqC-1;
d(35) | 1,000578333 m; d(35) ¢1,00055966910-5; 1,00059699810-5² m,
resp. d(35) ¢1,00052895310-5; 1,00062771410-5² m;
PĜíklad 4.10
Urþete odhad regresní funkce
y
E1 E 2 x1 E 3 x2 a vypoþtČte intervalové odhady
koeficientu E 2 , E 3 se spolehlivostí 0,95, jestliže pro každou dvojici (x1, x2) je Y náhodná
veliþina s normálním rozdČlením a veliþiny Y jsou pro rĤzné dvojice (x1, x2) nezávislé.
Experimentem byla získána data uvedená v tabulce:
x1i
1,0
3,0
3,0
5,0
7,0
7,0
9,0
11,0
11,0
13,0
x2 i
0,2
0,7
0,1
0,3
0,2
0,6
0,2
0,2
0,7
0,5
yi
2,0
2,8
5,3
5,9
7,4
5,6
8,7
11,2
10,4
13,2
V ý s l e d e k: y = 1,82 + 0,918x1 – 2,7x2 ; V 2 = 0,5419; E 2 0, 768;1, 068 ;
E 3 5, 291; 0,119
PĜíklad 4.11
U osobního automobilu byla mČĜena spotĜeba paliva y (v litrech na 100 km) v závislosti na
- 56 -
jeho rychlosti x (km/hod.) za konstantních podmínek. Byly získány hodnoty:
xi
40
50
60
70
80
90
100
yi
6,4
6,1
6,3
6,8
7,1
8,4
10,3
Urþete regresní funkci y
E1 E 2 x E 3 x 2 , bodový odhad rozptylu V 2 a na hladinČ
významnosti 0,05 testujte hypotézu, že závislost je lineární (tj. E 3
V ý s l e d e k: y
0 ).
11, 693 2, 073 101 x 1, 917 102 x 2 ; V 2 = 5,20210-2 ; hypotézu E 3
zamítáme, neboĢ 0 ¢1,59010-3 ; 2,24210-3² pro spolehlivost 1 D 0, 95
Kontrolní otázky
1. Co se rozumí regresní analýzou a jaký je statistický princip regresní analýzy?
2. Definujte regresní funkci a lineární regresní funkci?
3. Na jakých pĜedpokladech je založen lineární regresní model?
4. Jaké odhady a testy statistických hypotéz používáme v regresní analýze?
5. Jaký je rozdíl mezi odhady stĜední a individuální funkþní hodnoty regresní funkce?
6. Jak posuzujeme vhodnost vypoþtené regresní funkce?
7. Uvećte konkrétní pĜíklady lineární a nelineární regresní funkce.
8. Uvećte konkrétní aplikaci regresní analýzy ve svém oboru.
- 57 -
0
5 ANALÝZA ROZPTYLU
Motivace a základní pojmy
V ekonomických, finanþních a výrobních aplikacích statistických metod se þasto setkáváme
s problémy posouzení vlivu nČjakých faktorĤ na pozorovanou náhodnou veliþinu. Jde
napĜíklad o ovČĜení vlivu výše vzdČlání na velikost pĜíjmu jedince, druhu obchodu na cenu
daného zboží, typu reklamy a vČkové kategorie zákazníka na objem jím nakupovaného zboží,
dne v týdnu a smČny na kvalitu výroby, banky a þasu na kurz mČnové jednotky apod.
Uvažované faktory mají obvykle charakter kategoriálního znaku, který nabývá známých a
rozlišitelných hodnot. V dále popsaných základních metodách jde sice pĜevážnČ o posouzení
vlivu faktorĤ na stĜední hodnotu pozorované náhodné veliþiny, ale vlastní analýza vychází
z rozptylu pozorovaných hodnot této veliþiny, takže hovoĜíme o analýze rozptylu, jejíž
zkratka je ANOVA (z anglického „analysis of variance“). Analýzu rozptylu rozlišujeme podle
poþtu ovlivĖujících faktorĤ (tĜídících znakĤ). V pĜípadČ jednoho znaku A hovoĜíme o analýze
rozptylu jednoduchého tĜídČní, v pĜípadČ dvou znakĤ A a B jde o analýzu rozptylu dvojného
tĜídČní. Analýzu rozptylu dvojného tĜídČní se dvČma tĜídícími znaky A, B dále rozdČlujeme na
analýzu bez interakce tČchto znakĤ, když nepĜedpokládáme jejich spoleþné pĤsobení, a na
analýzu s interakcí tČchto znakĤ, když uvažujeme jejich spoleþné pĤsobení, tj. jakoby tĜetího
znaku oznaþeného AB. V pĜípadČ vČtšího poþtu tĜídících znakĤ pak jde o modely s dalšími
možnými interakcemi. Poznamenejme ještČ, že „ruþní“ zpracování analýzy rozptylu je únosné
nejvýše pro analýzu rozptylu s jedním nebo dvČma tĜídícími znaky. Metody analýzy rozptylu
jsou velmi rozpracované a implementované do profesionálního statistického softwaru a
þásteþnČ i do Excelu.
Analýza rozptylu jednoduchého tĜídČní (ANOVA 1)
PĜedpokládáme, že pozorováním náhodné veliþiny X byl získán statistický soubor x1 ,..., xn s rozsahem n a dále, že znak A nabývá I rĤzných kvalitativních hodnot A1 ,..., AI , kde I t 2 .
PĜitom hodnotČ Ai daného znaku odpovídá skupina xi1 ,..., xini
s rozsahem ni , i
1,..., I ,
prvkĤ pĤvodního statistického souboru tak, že je pĤvodní soubor statistický soubor x1 ,..., xn I
rozdČlen do I disjunktních skupin (podsouborĤ). ZĜejmČ je
¦n
i
i 1
rozptylu používáme tyto þíselné charakteristiky:
- 58 -
n . Pro zpracování analýzy
xi <
ni
a) aritmetický prĤmČr i-té skupiny xi <
prvkĤ i-té skupiny, i
b) celkový prĤmČr x<<
1
ni
ni
¦ xij , kde xi <
j 1
ni
¦x
ij
je souþet
j 1
1,..., I ,
x<<
n
1 I
¦ ni xi < , kde x<<
ni1
I
ni
I
¦x
¦¦ x
i<
ij
i 1
je souþet všech
i 1 j 1
prvkĤ pĤvodního souboru.
Analýza rozptylu jednoduchého tĜídČní vychází z modelu ve tvaru
P Di Eij ,
X ij
kde Eij jsou nezávislé náhodné veliþiny s normálním rozdČlením N(0, V 2 ) a P , D i , V 2 jsou
neznámé parametry. Hypotéze, že znak A nemá vliv na pozorovanou náhodnou veliþinu X,
odpovídá sdružená hypotéza H : D1
" DI
0 s alternativní hypotézou H , že aspoĖ jedno
D i je rĤzné od ostatních D k , tj. že znak A má vliv na náhodnou veliþinu X.
Pro testování použijeme rozklad souþtu þtvercĤ
S A Se ,
St
kde
I
a) celkový souþet þtvercĤ St
nI
¦¦ x
ij
x<< I
2
¦¦ x
ij
i 1 j 1
¦n x
i
i<
x<< i 1
I
c) reziduální souþet þtvercĤ Se
2
x<< nI
¦¦ x
ij
xi < 2
2
2
I
xi < i 1
ni
¦
,
n
i 1 j 1
I
b) souþet þtvercĤ mezi skupinami S A
nI
2
x<< 2
n
,
St S A .
i 1 j 1
Hypotézu H testujeme pomocí testovacího kritéria
F
s oborem nezamítnutí W D
rozdČlení s k1
I 1 a k2
SA
I 1
Se
nI
0; F1D , kde F1D je 1 D -kvantil Fisherova-Snedecorova
n I stupni volnosti – viz tabulku T4. Pro I
2 mĤžeme
použít StudentĤv dvouvýbČrový test, avšak nikoli pro I ! 2 všechny dvouvýbČrové testy,
protože vzniká problém s nastavením hladiny významnosti a závislostí testových kritérií.
Testování zapisujeme obvykle do následující tabulky analýzy rozptylu:
- 59 -
Zdroj
variability
Souþet
þtvercĤ
Poþet stupĖĤ
volnosti
Podíl
Znak A
SA
I 1
S A / I 1
Reziduální
Se
nI
Se / n I S A / I 1
Se / n I ---
Celkový
St
n 1
---
---
Testové
kritérium
PĜi výpoþtu na PC bývá tabulka zprava doplnČna o sloupec obsahující P-hodnotu, která
umožĖuje test bez použití kvantilu F1D .
Jestliže pĜijmeme alternativní hypotézu, že daný tĜídící znak má vliv na tĜídČní, pak
obvykle testujeme tzv. kontrasty, tj. hledáme dvojice Ai a Ak , které vliv tĜídícího znaku
zpĤsobují. Použijeme k tomu postupnČ hypotézy H : Di
i
1,..., I , k
D k s alternativami H : Di z D k pro
1,..., I , i k . Tyto hypotézy mĤžeme testovat Studentovým dvouvýbČrovým
testem anebo pomocí adekvátního testového kritéria
xi < xk < ni nk
ni nk
I 1
Se
nI
F
se stejným oborem nezamítnutí W D
2
0; F1D
jako má pĤvodní sdružená hypotéza o vlivu
znaku A.
Pro úplnost analýzy rozptylu je zapotĜebí rozhodnout, zda všechny rozptyly V i2
náhodných veliþin odpovídajících jednotlivým skupinám jsou stejné. Jde o test sdružené
hypotézy H : V 12
" V I2 s alternativou, že aspoĖ dva rozptyly jsou rĤzné. NejþastČji se
k tomu používá BartlettĤv test s kritériem
I
1ª
º
2
ln
n
I
s
ni 1 ln si2 » ,
¦
«
C¬
i 1
¼
B
kde
C
1
§ I 1
1
1 ·
¨¦
¸,
3 I 1 © i 1 ni 1 n I ¹
s
2
1 ni
xij xi < ¦
ni 1 j 1
s2
1
nI
2
i
I
¦ n
i
1 si2
i 1
- 60 -
2
1 § ni 2 xi < ·
¨ ¦ xij ¸,
ni 1 ¨© j 1
ni ¸¹
Se
.
nI
0, F12D , kde F12D je 1 D -kvantil Pearsonova
Obor nezamítnutí hypotézy H je W D
I 1 stupni volnosti – viz tabulku T3. Jde o pĜibližný, ale plnČ
rozdČlení chí-kvadrát s k
dostaþující test.
Poznamenejme, že zamítnutí sdružené hypotézy o skupinových rozptylech má také za
následek odhalení vlivu znaku A na pozorovanou náhodnou veliþinu X. Další testy používané
pĜi analýze rozptylu jednoduchého tĜídČní (vþetnČ neparametrického Kruskalova-Wallisova
testu) a metodách analýzy rozptylu s více tĜídícími znaky bez i s interakcemi lze nalézt napĜ.
v [2], [3], [4], [6], [10], [22], [28].
PĜíklad 5.1
Sledováním mČsíþních platĤ (v tisících Kþ) tĜí pracovníkĤ vykonávajícím stejnou práci bČhem
pĤl roku byly získány následující údaje, kde Ai odpovídá i-tému pracovníku, i
1, 2, 3 , a xij
jsou jeho mČsíþní platy:
A1 … x1 j = 22; 20; 19; 20; 21; 19,
A2 … x2 j = 20; 22; 21; 22; 24; 23,
A3 … x3 j = 29; 28; 26; 26; 27; 25.
Pomocí ANOVA 1 testujeme na hladinČ významnosti 0,05 hypotézu, že stĜední mČsíþní platy
všech tĜí pracovníkĤ jsou stejné.
ě e š e n í:
Pomocné výpoþty jsou v tabulce:
j
x1 j
x2 j
x3 j
x12j
x22 j
x32 j
1
22
20
29
484
400
841
2
20
22
28
400
484
784
3
19
21
26
361
441
676
4
20
22
26
400
484
676
5
21
24
27
441
576
729
6
19
23
25
361
529
625
6
121
132
161
2447
2914
4331
66
Ze zadání I
414
3, n
18 , n1
I
St
nI
n2
¦¦ xij i 1 j 1
2
9692
n3
x<< n
6 a z tabulky pomocných výpoþtĤ dostaneme
2
9692 - 61 -
4142
18
170 ,
I
SA
¦
xi < ni
i 1
Se
2
x<< 2
1212 1322 1612 414 2
142, 33333 ,
6
6
6
18
n
St S A 170 142, 33333
Poþty stupĖĤ volnosti jsou I 1 2 a n I
27, 66667 ,
15 , takže
S A / I 1 142, 33333 / 2
71,16667 ,
Se / n I 27, 66667 /15 1,84444 ,
F
SA
I 1 71,16667 38, 58434 .
Se
1,84444
nI
Tabulka analýzy rozptylu pak je:
Zdroj
variability
Souþet
þtvercĤ
Poþet stupĖĤ
volnosti
Podíl
Testové
kritérium
Znak A
142,33333
2
71,66667
38,58434
Reziduální
27,66667
15
1,84444
---
Celkový
170,00000
17
---
---
Pro k1
I 1 2 a k2
nI
15 stupĖĤ volnosti je F0,975
4, 765 z tabulky T4. Tabulka
T4 neobsahuje kvantily F0,95 , ale je F0,95 F0,975 , což k našemu testu staþí, ale napĜ. z Excelu
pomocí funkce FINV dostaneme F0,95
3, 682 . Protože F
38,58434 W 0,.05
0; 3,862 ,
zamítáme sdruženou hypotézu H o stejných stĜedních mČsíþních platech na hladinČ
významnosti 0,05. Testujeme proto dále kontrasty, tj. rozdíly stĜedních mČsíþních platĤ dvojic
pracovníkĤ.
Z tabulky pomocných výpoþtĤ je
x1<
x1<
n1
x2 <
n2
121
20,16667 , x2 <
6
132
6
22, 00000 , x3<
x3<
n3
161
26,83333 .
6
PĜi testech kontrastĤ obdržíme:
a) 1. pracovník l 2. pracovník:
x1< x2< F
I 1
Se
nI
2
20,16667 22, 00000 n1n2
n1 n2
2
1,84444
2
66
2, 73343 W 0,.05
66
0; 3,862 ,
takže hypotézu o rovnosti stĜedních mČsíþních platĤ 1. a 2. pracovníka nezamítáme,
- 62 -
b) 1. pracovník l 3. pracovník:
x1< x3< F
2
20,16667 26,83333
n1n3
n1 n3
I 1
Se
nI
2
66
36,14458 W 0,.05
66
2
1,84444
0; 3,862 ,
takže hypotézu o rovnosti stĜedních mČsíþních platĤ 1. a 3. pracovníka zamítáme,
c) 2.pracovník l 3. pracovník:
x2< x3< F
I 1
Se
nI
2
22, 00000 26,83333
n2 n3
n2 n3
2
2
1,84444
66
38, 99849 W 0,.05
66
0; 3,862 ,
takže hypotézu o rovnosti stĜedních mČsíþních platĤ 2. a 3. pracovníka zamítáme.
Pro BartlettĤv test rovnosti skupinových rozptylĤ je:
1
C
§ I 1
1
1 ·
1 §1 1 1 1 ·
¨¦
¸ 1
¨ ¸ 1,08889 ,
3 I 1 © i 1 ni 1 n I ¹
3 2 © 5 5 5 15 ¹
2
1
2
1 § n1 2 x1< ·
¨ ¦ x1 j ¸
n1 1 ¨© j 1
n1 ¸¹
2
2
2
1 § n2 2 x2 < ·
¨ ¦ x2 j ¸
n2 1 ¨© j 1
n2 ¸¹
1§
1322 ·
2914
¨
¸
5©
6 ¹
2
3
s
2
1 § n3 2 x3< ·
¨ ¦ x3 j ¸
n3 1 ¨© j 1
n3 ¸¹
1§
1612 ·
4331
¨
¸ 2,16667 ,
5©
6 ¹
s2
Se
1,84444 ,
nI
s
s
1§
1212 ·
¨ 2447 ¸ 1, 36667 ,
5©
6 ¹
2, 00000 ,
takže
I
1ª
º
2
ln
n
I
s
ni 1 ln si2 » ¦
«
C¬
i 1
¼
B
Protože B
1
ª15ln1,84444 5ln1, 36667 5ln 2 5ln 2,16667 º¼ 0, 26548 .
1, 08889 ¬
0, 26548 W 0,95
2
0;5, 991 , kde F 0,95
5, 991 pro k
I 1
2 stupĖĤ volnosti
z tabulky T3, nezamítáme sdruženou hypotézu o rovnosti skupinových rozptylĤ.
Na obr. 5.2 jsou pro ilustraci krabicové grafy skupin (mČsíþních platĤ jednotlivých
pracovníkĤ), které naznaþují nenormální rozdČlení pravdČpodobnosti (kladná asymetrie pro 1.
a 3. pracovníka), takže by bylo pro analýzu rozptylu adekvátnČjší použít neparametrický
- 63 -
KruskalĤv-WallisĤv test [2], [3]. Vzhledem k tomu, že rozsahy skupin jsou pomČrnČ malé, to
ale není zcela nezbytné.
Box-and-Whisker Plot
1
A 2
3
19
21
23
25
27
29
X
Obr. 5.2
Test sdružené hypotézy H o rovnosti stĜedních hodnot v analýze rozptylu s jedním
nebo dvČma tĜídícími znaky (faktory) mĤžeme také realizovat snadno v Excelu, kde zvolíme
Nástroje/Analýza dat/Analýza: jeden faktor. Ukázka kompletního výstupu této analýzy pro
náš pĜíklad 5.1 je v následující tabulce:
Anova: jeden faktor
Faktor
VýbČr
Poþet Souþet PrĤmČr
Rozptyl
A1
6
121 20,16667 1,366667
A2
6
132
A3
6
161 26,83333 2,166667
22
2
ANOVA
Zdroj variability
SS
Rozdíl
MS
F
Hodnota P
F krit
Mezi výbČry
142,3333
2
71,16667 38,58434 1,22E-06 3,682317
Všechny výbČry
27,66667
15
1,844444
Celkem
170
17
PĜíklad 5.2
U þtyĜ odrĤd brambor oznaþených A1 , A2 , A3 , A4 se zjišĢovala celková hmotnost brambor
vyrostlých vždy z jednoho trsu. Výsledky (v kg) jsou v následující tabulce:
- 64 -
OdrĤda
Hmotnost
A1
0,9 0,8 0,6 0,9
A2
1,3 1,0 1,3
A3
1,3 1,5 1,6 1,1 1,5
A4
1,1 1,2 1,0
Na hladinČ významnosti 0,05 testujte hypotézu, že stĜední hodnota hmotnosti trsu brambor
nezávisí na odrĤdČ. Zamítnete-li nulovou hypotézu, zjistČte, které dvojice odrĤd se liší na
hladinČ významnosti 0,05.
V ý s l e d e k: k1
3 , k2
11 , F
9, 97 W 0,95
0; 3, 59 ; hypotézu o nezávislosti na
odrĤdČ zamítáme; statisticky významnČ se liší pouze odrĤdy A1 a A3
PĜíklad 5.3
Ve firmČ PRASTAT se mČĜil þas, který potĜeboval každý ze tĜí dČlníkĤ D1, D2 a D3
k uskuteþnČní téhož pracovního úkonu. Dosažené þasy v minutách:
D1
3,6
3,8
3,7
3,5
D2
4,3
3,9
4,2
3,9
4,4
4,7
D3
4,2
4,5
4,0
4,1
4,5
4,4
Na hladinČ významnosti 0,05 testujte hypotézu, že výkony tČchto tĜí dČlníkĤ jsou stejné.
Zamítnete-li tuto hypotézu, urþete dvojice dČlníkĤ, jejichž výkony se liší na dané hladinČ
významnosti.
2 , k2
13 , F
9, 665 W 0,05
0; 3,806 ; hypotézu o stejných
výkonech zamítáme; liší se výkony dvojic dČlníkĤ (D1,D2), (D1,D3) a
neliší se (D2,D3).
PĜíklad 5.4
Pracovníci vybrané firmy byly školeni z metod Ĝízení jakosti za využití pČti výukových
metod: tradiþní zpĤsob, programová výuka, audiotechnika, audiovizuální technika a vizuální
technika. Z každé skupiny byl vybrán náhodný vzorek pracovníkĤ a všichni byli podrobeni
témuž písemnému testu. Na hladinČ významnosti 0,05 testujte hypotézu, že znalosti všech
pracovníkĤ jsou stejné a nezávisí na použité výukové metodČ. V pĜípadČ zamítnutí hypotézy
zjistČte, které metody se liší na hladinČ významnosti 0,05. Dosažené body dle metod jsou
v následující tabulce:
- 65 -
tradiþní
76,2 48,3 85,1 63,7 91,6 87,2
programová 85,2 74,3 76,5 80,3 67,4 67,9 72,1 60,4
metoda
audio
67,3 60,1 55,4 72,3 40
audiovizuální 75,8 81,6 90,3 78 67,8 57,6
vizuální
4 , k2
50,5 70,2 88,8 67,1 77,7 73,9
26 , F
1, 624 W 0,05
0; 2, 743 ; hypotézu nezamítáme,
znalosti nezávisí na použité výukové metodČ
PĜíklad 5.4
Student soukromé vysoké školy Akademie Sting v BrnČ mĤže cestovat ze svého brnČnského
bydlištČ do školy tĜemi rĤznými zpĤsoby: trolejbusem (A), autobusem (B) a osobním autem
(C). Máme k dispozici jeho namČĜené þasy cestování do školy v dobČ ranní špiþky (vþetnČ
þekání na pĜíslušný spoj) v minutách:
A
32
39
42
37
34
B
30
34
28
26
32
C
40
37
31
39
38
38
33
34
Na hladinČ významnosti 0,05 testujte hypotézu, že doba cestování do práce nezávisí na
zpĤsobu dopravy. V pĜípadČ zamítnutí nulové hypotézy zjistČte, které zpĤsoby dopravy do
práce se od sebe liší na hladinČ významnosti 0,05.
2 , k2
15 , F
6, 715 W 0,05
0; 3, 682 ; hypotézu zamítáme, zpĤsob
dopravy má vliv na dobu cestování; neliší se zpĤsoby (A,C) a liší se zpĤsoby
(A,B) a (B,C)
Kontrolní otázky
1. Popište motivaci analýzy rozptylu a uvećte pĜíklady na ANOVA 1 a ANOVA 2 bez i
s interakcí.
2. Popište model ANOVA 1 pro sdruženou hypotézu stĜedních hodnot.
3. Co rozumíme rozkladem celkového souþtu þtvercĤ?
4. Kdy a jakým zpĤsobem testujeme kontrasty a rovnost skupinových rozptylĤ?
- 66 -
6 KATEGORIÁLNÍ ANALÝZA
Motivace
PĜi statistickém vyhodnocování prĤzkumu napĜ. zájmu o výrobky, služby, zboží a úspČšnosti
reklamy jde þasto o posouzení a postižení závislosti a vzájemného ovlivĖování sledovaných
vícerozmČrných kategoriálních (kvalitativních) znakĤ jak nominálního, tak i ordinálního typu.
Vycházíme pĜitom pĜevážnČ pouze z absolutních þetností nastoupení náhodných jevĤ, které
odpovídají uvažovaným kategoriálním znakĤm. Byla proto vypracována Ĝada efektivních
metod tzv. kategoriální analýzy pro aplikace v rĤzných oblastech: sociologie, marketing,
psychologie, medicína, pedagogika apod. Tyto metody jsou povČtšinou implementovány do
profesionálního statistického softwaru, neboĢ pĜi statistických šetĜeních dostáváme v souþasné
dobČ velmi rozsáhlé databázové soubory, pro nČž není „ruþní“ zpracování únosné. V této
kapitole je pouze nepatrný nástin tČchto metod a více mĤžeme nalézt v [2], [3], [22], [28].
PearsonĤv test nezávislosti a homogenity
MČjme náhodný vektor X , Y s koneþným diskrétním sdruženým rozdČlením pravdČpodobnosti, pĜiþemž náhodná veliþina X nabývá hodnot i
j
1,..., r a náhodná veliþina Y hodnot
1,..., c , kde r t 2 a c t 2 . PĜedpokládejme, že se uskuteþnil náhodný výbČr o rozsahu
n t 4 z X , Y a nij je poþet pĜípadĤ, kdy se ve výbČru vyskytla dvojice i, j . Matice
absolutních þetností nij má pak multinomické rozdČlení pravdČpodobnosti s parametrem n a
s pravdČpodobnostmi pij . Pozorované hodnoty nij zapisujeme do tzv. kontingenþní tabulky:
Y
X
c
kde nix
1
…
c
6
1
n11
…
n1c
n1x
…
…
…
…
…
r
nr 1
…
nrc
nr x
6
nx1
…
nx c
n
¦ nij , nx j
j 1
r
¦ nij jsou marginální þetnosti a platí n
i 1
- 67 -
r
¦ nix
i 1
c
¦ nx j
j 1
r
c
¦¦ n
ij
i 1 j 1
.
Test nezávislosti X a Y je ekvivalentní testu sdružené hypotézy H : pij
všechny dvojice i, j , kde pix
pix px j pro
r
c
¦p
ij
a px j
j 1
¦p
ij
jsou tzv. marginální pravdČpodobnosti
i 1
složek X a Y náhodného vektoru X , Y . Hypotézu H testujeme pomocí Pearsonova testového
kritéria
F
2
nix nx j ·
§
n ¸
r
c ¨ ij
n ¹
©
¦¦
nix nx j
i 1 j 1
2
r
c
n ¦¦
i 1 j 1
nij2
nix nx j
n.
n
Hypotézu H nezamítáme na hladinČ významnosti D, jestliže F 2 WD
0; F12D , kde F12D je
1 D -kvantil Pearsonova (chí-kvadrát) rozdČlení s
stupni volnosti – viz
r 1 c 1
k
tabulku T3. Test je asymptotický a obvykle požadujeme, aby pro všechny dvojice i, j bylo
nix nx j
n
! 5.
Uvedený test lze také použít k tzv. testu homogenity, kdy testujeme hypotézu, že
pozorované þetnosti ve všech Ĝádcích kontingenþní tabulky mají multinomická rozdČlení
pravdČpodobnosti s parametry nix a se stejnými pravdČpodobnostmi q j
j
p1 j
"
prj ,
1,..., c . Místo ĜádkĤ mĤžeme se stejným výsledkem testu zapsat pozorované þetnosti do
sloupcĤ kontingenþní tabulky.
Jestliže r
2 a c
2 , jde o tzv. þtyĜpolní tabulku pro alternativní (dichotomické)
statistické znaky X a Y (napĜ. pro odpovČdi respondentĤ „ano“ anebo „ne“). Pro dostateþnČ
velké þetnosti nij mĤžeme opČt použít PearsonĤv test nezávislosti X a Y s výše uvedeným
testovým kritériem anebo ve tvaru
F
Poþet stupĖĤ volnosti je k
2
n
n11n22 n12 n21 n1x n2x nx1nx2
2
.
1 . Tento test lze také aplikovat pĜi testování hypotézy o rovnosti
parametrĤ dvou binomických rozdČlení místo testu uvedeného v kapitole 3.
PĜíklad 6.1
PrĤzkumem bylo zjištČno hodnocení televizního seriálu u jednotlivých skupin televizních
divákĤ. Hodnocení mČlo škálu: výborný, velmi dobrý, dobrý, špatný. Byly zvoleny skupiny
divákĤ podle jejich nejvyššího dosaženého vzdČlání: ZŠ, SŠ, VŠ. Pomocí Pearsonova testu
- 68 -
posućte na hladinČ významnosti 0,05 závislost hodnocení televizního seriálu a nejvyššího
dosaženého vzdČlání televizních divákĤ, jestliže byly získány þetnosti:
Hodnocení televizního seriálu
VzdČlání
Výborný
Velmi dobrý
Dobrý
Špatný
ZŠ
9
15
4
4
SŠ
6
11
14
5
VŠ
5
7
10
13
ě e š e n í:
Pomocné výpoþty byly „ruþnČ“ provedeny v Excelu a jsou uvedeny v následující tabulce, kde
vnitĜní buĖky (ve 2. až 4. Ĝádku a 2. až 5. sloupci) obsahují tyto hodnoty:
nij
nix nx j
n
nij nix nx j
n
nix nx j ·
§
¨ nij ¸
n ¹
©
Y
2
nix nx j
n
Výborný
Velmi dobrý
Dobrý
Špatný
6
ZŠ
9
6,21359223
2,78640777
1,24952973
15
10,2524272
4,74757282
2,19844991
4
8,69902913
-4,6990291
2,53831484
4
6,83495146
-2,8349515
1,17586055
32
32
0
7,162155
SŠ
6
6,99029126
-0,9902913
0,14029126
11
11,5339806
-0,5339806
0,02472132
14
9,78640777
4,21359223
1,81418554
5
7,68932039
-2,6893204
0,94058301
36
36
0
2,9197811
VŠ
5
6,7961165
-1,7961165
0,47468793
7
11,2135922
-4,2135922
1,5832892
10
9,51456311
0,48543689
0,02476719
13
7,47572816
5,52427184
4,08222166
35
35
0
6,164966
6
20
33
28
22
103
X
F
2
16,246902
- 69 -
Z tabulky vidíme, že hodnota testového kritéria je
2
F2
nix nx j ·
§
n
ij
¨
¸
3
4
n ¹
©
16, 247 .
¦¦
nix nx j
i 1 j 1
n
Poþet stupĖĤ volnosti k
3 1 4 1
6 a kritická hodnota pro hladinu významnosti 0,05,
2
tj. 0,95-kvantil chí-kvadrát rozdČlení se 6 stupni volnosti, je z tabulky T3 F 0,95
12, 592 ,
takže na této hladinČ významnosti hypotézu o nezávislosti zamítáme. Pro významnost 0,01 je
však kritická hodnota 16,812, takže na této hladinČ významnosti hypotézu o nezávislosti
nezamítáme.
PĜíklad 6.2
Celkem 180 náhodnČ vybraných matek bylo dotázáno, zda jejich kojenec dostává dudlík.
ZjišĢoval se též nejvyšší stupeĖ dosaženého vzdČlání matky. ZjištČné þetnosti jsou v tabulce:
VzdČlání matky
Poþet matek
Poþet dČtí s dudlíkem
Základní
39
27
StĜedoškolské
47
34
Vysokoškolské
18
15
Na hladinČ významnosti 0,05 testujte hypotézu, že podíly dČtí s dudlíkem nezávisí na vzdČlání
matky.
V ý s l e d e k: k
2 , F2
0,19 W 0,95
0;5, 992 ; hypotézu o nezávislosti na vzdČlání
nezamítáme
PĜíklad 6.3
Na soukromou vysokou školu bylo pĜijato 142 studentĤ. Ti byli náhodnČ rozdČleni do skupin
A, B, C, D. V každé skupinČ pĜedmČt M vyuþován jinou metodou. Na konci semestru roku
psali všichni studenti stejnou písemnou práci a byly zaznamenány poþty studentĤ
z jednotlivých skupin, kteĜí vyĜešili všechny zadané úkoly:
Skupina
A
B
C
D
Poþet studentĤ
35
36
37
34
Poþet úspČšných studentĤ
9
12
27
32
- 70 -
Na hladinČ významnosti 0,05 testujte hypotézu, že rozdíly mezi skupinami jsou zpĤsobeny
pouze náhodnými vlivy.
V ý s l e d e k: k
3, F2
12, 66 W 0,95
0; 7,815 ; hypotézu zamítáme, metoda výuky
ovlivnila výsledky (šlo také souþasnČ o test homogenity rozdČlení pravdČpodobnosti odpovídajících ĜádkĤm tabulky)
PĜíklad 6.3
PrĤzkumem byl zjišĢován zájem mezi potenciálními zákazníky o nový typ mobilu s kamerou.
Výsledky prĤzkumu u 140 respondentĤ jsou po roztĜídČní podle zájmu a toho, zda dotázaný je
þi není majitel mobilu, v tabulce:
Zájem
Majitel mobilu
Ano
Ne
Je
49
25
Není
30
36
Testujte, zda zájem o nový typ mobilu závisí na tom, zda zákazník již mobil vlastní.
V ý s l e d e k: F 2
6,12 W 0,95
0; 3,841 ; na hladinČ významnosti 0,05 hypotézu o
závislosti zájmu na vlastnictví mobilu zamítáme,
F2
6,12 W 0,99
0; 6, 654 ; na hladinČ významnosti 0,01 hypotézu o
závislosti zájmu na vlastnictví mobilu nezamítáme,
(pro snížení pravdČpodobnosti chyby druhého druhu by bylo vhodné zvýšit
rozsah výbČru a testovat hypotézu znovu)
Kontrolní otázky
1.
Popište motivaci a princip kategoriální analýzy na konkrétním pĜíkladu ze svého okolí.
2.
Co je kontingenþní tabulka a jak se konstruuje?
3.
Jaká omezení má PearsonĤv test nezávislosti?
4.
Co rozumíme testem homogenity?
5.
Kdy se používá þtyĜpolní tabulka?
- 71 -
LITERATURA
Uþebnice a monografie
1. Aczel, A. D. Complete Business Statistics. Chicago : IRWIN, 1989.
2. AndČl, J. Matematická statistika. 1. vyd. Praha : SNTL/ALFA, 1978.
3. AndČl, J. Statistické metody. 1. vyd. Praha : MATFYZPRESS, 1993.
4. Bowerman, B. L. - OĆonnell, R. T. Applied Statistics - Improving Business Processes.
Chicago : IRWIN, 1997.
5. Cyhelský, L. - Kahounová, J. - Hindls, R. Elementární statistická analýza. 1. vyd. Praha :
Management Press, 1996.
6. Dowdy, S. - Wearden, S. Statistics for Research. New York : John Wiley & Sons, Inc.,
1983.
7. Hahn, G. J. - Shapiro, S. S. Statistical Models in Engineering. New York : John Wiley &
Sons, Inc., 1994.
8. Hátle, J. - Likeš, J. Základy poþtu pravdČpodobnosti a matematické statistiky. 1. vyd.
Praha : SNTL/ALFA, 1974.
9. Hebák, P. - Hustopecký, J. VícerozmČrné statistické metody. 1. vyd. Praha : SNTL/ALFA,
1987.
10. Hebák, P. - Hustopecký, J. PrĤvodce moderními statistickými metodami. 1. vyd. Praha :
SNTL, 1990.
11. Chatterjee, S. - Price, B. Regression Analysis by Example. New York : John Wiley &
Sons, Inc., 1991.
12. Kupka, K. Statistické Ĝízení jakosti. 1. vyd. Pardubice : TriloByte, 1997.
13. Lamoš, F. - Potocký, R. PravdepodobnosĢ a matematická štatistika. 1. vyd. Bratislava :
ALFA, 1989.
14. Likeš, J. - Machek, J. Poþet pravdČpodobnosti. 1. vyd. Praha : SNTL, 1981.
15. Likeš, J. - Machek, J. Matematická statistika. 1. vyd. Praha : SNTL, 1983.
16. Meloun, M. - Militký, J. Statistické zpracování experimentálních dat. 1. vyd. Praha :
PLUS, 1994.
17. Montgomery, D. C. - Renger, G. Probability and Statistics. New York : John Wiley &
Sons, Inc., 1996.
18. Potocký, R. et. al. Zbierka úloh z pravdepodobnosti a matematickej štatistiky. 1. vyd.
Bratislava : ALFA/SNTL, 1986.
19. Rao, C. R. Lineární metody statistické indukce a jejich aplikace. Praha : Academia, 1978.
20. Rényi, A. Teorie pravdČpodobnosti. 1. vyd. Praha : Academia, 1972.
21. Ryan, T. P.: Modern Regression Methods. New York : John Wiley & Sons, Inc., 1997.
22. Seger, J. - Hindls, R. Statistické metody v tržním hospodáĜství. 1. vyd. Praha : Victoria
Publishing, 1995.
23. Swoboda, H. Moderní statistika. 1. vyd. Praha : Svoboda, 1977.
- 72 -
24. ŠtČpán, J. Teorie pravdČpodobnosti. 1. vyd. Praha : Academia, 1987.
25. ŠĢastný, Z. Matematické a statistické výpoþty v Excelu. 1. vyd. Brno : Computer Press,
1999.
26. Sprinthall, R. C. Basic Statistical Analysis. 5th ed. Boston : Allyn and Bacon, 1997.
27. Triola, M. F. Elementary Statistics. Redwood City : B/C Publishing Comp., 1989.
28. Wonnacot, T. H. - Wonnacot, R. J. Statistika pro obchod a hospodáĜství. 1. vyd. Praha :
Victoria Publishing, 1993.
29. Zvára, K. Regresní analýza. 1. vyd. Praha : Academia, 1989.
30. Zvára, K. - ŠtČpán, J. PravdČpodobnost a matematická statistika. 1. vyd. Praha :
MATFYZPRESS, 1997.
31. Plesník, J. – Dupaþová, J. – Vlach, M. Lineárne programovanie. Bratislava : Alfa, 1990.
32. Taha, H. A. Operations Research: An Introduction. 8th r. e. New York : Macmillan, 2006.
Uþební texty
33. Budíková, M. - Mikoláš, Š. - Osecký, P. Teorie pravdČpodobnosti a matematická
statistika - Sbírka pĜíkladĤ. 1. vyd. Brno : MU, 1996.
34. Jarošová, E. Statistika B - ěešené pĜíklady. 1. vyd. Praha : VŠE, 1994.
35. Karpíšek, Z. PravdČpodobnostní metody. 6. vyd. Brno : FP VUT u vydavatele Ing.
ZdenČk Novotný, CSc., 2003.
36. Karpíšek, Z. - Drdla, M. Statistické metody. 7. vyd. Brno : FP VUT u vydavatele Ing.
ZdenČk Novotný, CSc., 2003.
37. Karpíšek, Z. - Drdla, M. Applied Statistics. 1. vyd. Brno : FP VUT v PC - DIR, 1999.
38. Karpíšek, Z. - Drdla, M. Aplikovaná statistika. 2. vyd. Brno : BIBS, 2003.
39. Karpíšek, Z. – Popela, P. – BednáĜ, J. Statistika a pravdČpodobnost. Uþební pomĤcka studijní opora pro kombinované studium. FSI VUT v CERM Brno, Brno 2002.
40. Koutková, H. - Moll, I. Úvod do pravdČpodobnosti a matematické statistiky. 1. vyd.
Brno : ES VUT, 1990.
41. Kropáþ, J. Úvod do poþtu pravdČpodobnost a matematické statistiky. 1. vyd. Brno : VA,
2000.
42. Likeš, J. - Cyhelský, L. - Hindls, R. Úvod do statistiky a pravdČpodobnosti - Statistika A.
1. vyd. Praha : VŠE, 1995.
43. Michálek, J. Matematická statistika pro informatiky. 1. vyd. Praha : SPN, 1987.
44. Reif, J. Metody matematické statistiky. 1. vyd. PlzeĖ : Západoþeská univerzita, 2000.
45. Seberová, H. Statistika I, II. 1. vyd. Vyškov : VVŠ PV, 1995.
46. Šikulová, M. - Karpíšek, Z. Matematika IV - PravdČpodobnost a matematická statistika.
6. vyd. Brno : ES VUT, 1996.
47. Zapletal, J. Základy poþtu pravdČpodobnosti a matematické statistiky. 1. vyd. Brno : ES
VUT, 1995.
48. Klapka, J. – DvoĜák, J. – Popela, P. Metody operaþního výzkumu. Brno: PC-DIR, 1996.
- 73 -
WWW odkazy
49. http://badame.vse.cz/
50. http://davidmlane.com/hyperstat/
51. http://home.zcu.cz/~friesl/Vyuka/Odkazy.html
52. http://math.uc.edu/~brycw/classes/147/blue/tools.htm#texts
53. http://www.graphpad.com/welcome.htm
54. http://www.math.csusb.edu/faculty/stanton/m262/index.html
55. http://www.md-stat.com/
56. http://www.psychstat.smsu.edu/sbk00.htm
57. http://www.ruf.rice.edu/~lane/rvls.html
58. http://www.stat.sc.edu/rsrch/gasp/
59. http://www.statsoft.com/textbook/stathome.html
60. http://www.statsoft.cz/
61. http://www.trilobyte.cz/
62. http://www.fme.vutbr.cz/opory/
63. http://home.eunet.cz/berka/o/
64. http://www.mujweb.cz/www/januska/
65. http://www.fm.vslib.cz/~ksi/cz/mater/oa/linprog
- 74 -
STATISTICKÉ TABULKY
T1 Hodnoty distribuþní funkce )(u) normovaného normálního rozdČlení N(0;1)
u
0
1
0,0 0,50000 50399
0,1
53983
54380
0,2
57926
58317
0,3
61791
62172
0,4
65542
65910
0,5
69146
69498
0,6
72575
72907
0,7
75804
76115
0,8
78815
79103
0,9
81594
81859
1,0
84135
84375
1,1
86433
86650
1,2
88493
88686
1,3
90320
90490
1,4
91924
92073
1,5
93319
93448
1,6
94520
94630
1,7
95543
95637
1,8
96407
96485
1,9
97128
97193
2,0
97725
97778
2,1
98214
98257
2,2
98610
98645
2,3
98928
98956
2,4
99180
99202
2,5
99379
99396
2,6
99534
99547
2,7
99653
99664
2,8
99744
99752
2,9
99813
99819
3,0
99865
99869
3,1
99903
99906
3,2
99931
99934
3,3
99952
99953
3,4
99966
99968
3,5
99977
99978
3,6
99984
99985
3,7
99989
99990
3,8
99993
99993
3,9
99995
99995
4,00 99997 4,10
2
50798
54776
58707
62552
66276
69847
73237
76424
79389
82121
84614
86864
88877
90658
92220
93574
94738
95728
96562
97257
97831
98300
98679
98983
99224
99413
99560
99674
99760
99825
99874
99910
99936
99955
99969
99978
99985
99990
99993
99996
99998
3
4
5
6
51197 51596 51994 52392
55172 55567 55962 56356
59096 59484 59871 60257
62930 63307 63683 64058
66640 67003 67365 67724
70195 70540 70884 71226
73565 73892 74216 74537
76731 77035 77337 77637
79673 79955 80234 80511
82382 82639 82894 83147
84850 85083 85314 85543
87076 87286 87493 87698
89065 89251 89435 89617
90824 90988 91149 91309
92364 92507 92647 92786
93699 93822 93943 94062
94845 94950 95053 95154
95819 95907 95994 96080
96638 96712 96784 96856
97320 97381 97441 97500
97882 97932 97982 98030
98341 98382 98422 98461
98713 98745 98778 98809
99010 99036 99061 99086
99245 99266 99286 99305
99430 99446 99461 99477
99573 99585 99598 99609
99683 99693 99702 99711
99767 99774 99781 99788
99831 99836 99841 99846
99878 99882 99886 99889
99913 99916 99918 99921
99938 99940 99942 99944
99957 99958 99960 99961
99970 99971 99972 99973
99979 99980 99981 99981
99986 99986 99987 99987
99990 99991 99991 99992
99994 99994 99994 99994
99996 99996 99996 99996
4,20 99999 4,30 99999 4,40
7
52791
56750
60642
64431
68082
71566
74857
77935
80785
83398
85769
87900
89796
91466
92922
94179
95254
96164
96926
97558
98077
98500
98840
99111
99324
99492
99621
99720
99795
99851
99893
99924
99946
99962
99974
99982
99988
99992
99995
99996
99999
8
53188 53586
57143 57535
61026 61409
64803 65173
68439 68793
71904 72241
75175 75490
78231 78524
81057 81327
83646 83891
85993 86214
88100 88298
89973 90147
91621 91774
93056 93189
94295 94408
95352 95449
96246 96327
96995 97062
97615 97670
98124 98169
98537 98574
98870 98899
99134 99158
99343 99361
99506 99520
99632 99643
99728 99736
99801 99807
99856 99861
99896 99900
99926 99929
99948 99950
99964 99965
99975 99976
99983 99983
99988 99989
99992 99992
99995 99995
99997 99997
4,50 99999
Poznámka: )(u) = 1 )(u) ; u0,95 | 1,645; u0,975 | 1,960; u0,99 | 2,326; u0,995 | 2,576 .
- 75 -
9
T2 Kvantily tP Studentova rozdČlení S(k)
P
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
70
80
90
100
120
140
160
180
200
300
500
1000
f
0,95
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,690
1,684
1,679
1,676
1,671
1,667
1,664
1,662
1,660
1,658
1,656
1,654
1,653
1,653
1,650
1,648
1,646
1,645
0,975
0,99
0,995
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,030
2,021
2,014
2,009
2,000
1,994
1,990
1,987
1,984
1,980
1,977
1,975
1,973
1,972
1,968
1,965
1,962
1,960
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,438
2,423
2,412
2,403
2,390
2,381
2,374
2,368
2,364
2,358
2,353
2,350
2,347
2,345
2,339
2,334
2,330
2,326
63,656
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,724
2,704
2,690
2,678
2,660
2,648
2,639
2,632
2,626
2,617
2,611
2,607
2,603
2,601
2,592
2,586
2,581
2,576
0,999
0,9995
318,289
22,328
10,214
7,173
5,894
5,208
4,785
4,501
4,297
4,144
4,025
3,930
3,852
3,787
3,733
3,686
3,646
3,610
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385
3,340
3,307
3,281
3,261
3,232
3,211
3,195
3,183
3,174
3,160
3,149
3,142
3,136
3,131
3,118
3,107
3,098
3,090
636,578
31,600
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,768
3,745
3,725
3,707
3,689
3,674
3,660
3,646
3,591
3,551
3,520
3,496
3,460
3,435
3,416
3,402
3,390
3,373
3,361
3,352
3,345
3,340
3,323
3,310
3,300
3,290
Poznámka: Pro 0 d P d 0,5 použijeme vztah tP = t1 P .
- 76 -
2
T3 Kvantily F P2 Pearsonova rozdČlení F (k)
P
0,005
0,01
0,025
0,05
0,95
0,975
0,99
0,995
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
0,000
0,010
0,072
0,207
0,412
0,676
0,989
1,344
1,735
2,156
2,603
3,074
3,565
4,075
4,601
5,142
5,697
6,265
6,844
7,434
8,034
8,643
9,260
9,886
10,520
11,160
11,808
12,461
13,121
13,787
14,458
15,134
15,815
16,501
17,192
17,887
18,586
19,289
19,996
20,707
21,421
22,138
22,860
23,584
24,311
0,000
0,020
0,115
0,297
0,554
0,872
1,239
1,647
2,088
2,558
3,053
3,571
4,107
4,660
5,229
5,812
6,408
7,015
7,633
8,260
8,897
9,542
10,196
10,856
11,524
12,198
12,878
13,565
14,256
14,953
15,655
16,362
17,073
17,789
18,509
19,233
19,960
20,691
21,426
22,164
22,906
23,650
24,398
25,148
25,901
0,001
0,051
0,216
0,484
0,831
1,237
1,690
2,180
2,700
3,247
3,816
4,404
5,009
5,629
6,262
6,908
7,564
8,231
8,907
9,591
10,283
10,982
11,689
12,401
13,120
13,844
14,573
15,308
16,047
16,791
17,539
18,291
19,047
19,806
20,569
21,336
22,106
22,878
23,654
24,433
25,215
25,999
26,785
27,575
28,366
0,004
0,103
0,352
0,711
1,145
1,635
2,167
2,733
3,325
3,940
4,575
5,226
5,892
6,571
7,261
7,962
8,672
9,390
10,117
10,851
11,591
12,338
13,091
13,848
14,611
15,379
16,151
16,928
17,708
18,493
19,281
20,072
20,867
21,664
22,465
23,269
24,075
24,884
25,695
26,509
27,326
28,144
28,965
29,787
30,612
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
44,985
46,194
47,400
48,602
49,802
50,998
52,192
53,384
54,572
55,758
56,942
58,124
59,304
60,481
61,656
5,024
7,378
9,348
11,143
12,832
14,449
16,013
17,535
19,023
20,483
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
35,479
36,781
38,076
39,364
40,646
41,923
43,195
44,461
45,722
46,979
48,232
49,480
50,725
51,966
53,203
54,437
55,668
56,895
58,120
59,342
60,561
61,777
62,990
64,201
65,410
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
52,191
53,486
54,775
56,061
57,342
58,619
59,893
61,162
62,428
63,691
64,950
66,206
67,459
68,710
69,957
7,879
10,597
12,838
14,860
16,750
18,548
20,278
21,955
23,589
25,188
26,757
28,300
29,819
31,319
32,801
34,267
35,718
37,156
38,582
39,997
41,401
42,796
44,181
45,558
46,928
48,290
49,645
50,994
52,335
53,672
55,002
56,328
57,648
58,964
60,275
61,581
62,883
64,181
65,475
66,766
68,053
69,336
70,616
71,892
73,166
k
- 77 -
2
T3 Kvantily F P2 Pearsonova rozdČlení F (k)
(pokraþování)
P
k
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
80
85
90
95
100
110
120
130
150
200
500
1000
0,005
0,01
0,025
0,05
0,95
0,975
0,99
0,995
25,041
25,775
26,511
27,249
27,991
28,735
29,481
30,230
30,981
31,735
32,491
33,248
34,008
34,770
35,534
36,300
37,068
37,838
38,610
39,383
40,158
40,935
41,714
42,493
43,275
44,058
44,843
45,629
46,417
47,206
51,172
55,170
59,196
63,250
67,328
75,550
83,852
92,223
109,142
152,241
422,303
888,563
26,657
27,416
28,177
28,941
29,707
30,475
31,246
32,019
32,793
33,571
34,350
35,131
35,914
36,698
37,485
38,273
39,063
39,855
40,649
41,444
42,240
43,038
43,838
44,639
45,442
46,246
47,051
47,858
48,666
49,475
53,540
57,634
61,754
65,898
70,065
78,458
86,923
95,451
112,668
156,432
429,387
898,912
29,160
29,956
30,754
31,555
32,357
33,162
33,968
34,776
35,586
36,398
37,212
38,027
38,844
39,662
40,482
41,303
42,126
42,950
43,776
44,603
45,431
46,261
47,092
47,924
48,758
49,592
50,428
51,265
52,103
52,942
57,153
61,389
65,647
69,925
74,222
82,867
91,573
100,331
117,985
162,728
439,936
914,257
31,439
32,268
33,098
33,930
34,764
35,600
36,437
37,276
38,116
38,958
39,801
40,646
41,492
42,339
43,188
44,038
44,889
45,741
46,595
47,450
48,305
49,162
50,020
50,879
51,739
52,600
53,462
54,325
55,189
56,054
60,391
64,749
69,126
73,520
77,929
86,792
95,705
104,662
122,692
168,279
449,147
927,594
62,830
64,001
65,171
66,339
67,505
68,669
69,832
70,993
72,153
73,311
74,468
75,624
76,778
77,930
79,082
80,232
81,381
82,529
83,675
84,821
85,965
87,108
88,250
89,391
90,531
91,670
92,808
93,945
95,081
96,217
101,879
107,522
113,145
118,752
124,342
135,480
146,567
157,610
179,581
233,994
553,127
1074,68
66,616
67,821
69,023
70,222
71,420
72,616
73,810
75,002
76,192
77,380
78,567
79,752
80,936
82,117
83,298
84,476
85,654
86,830
88,004
89,177
90,349
91,519
92,688
93,856
95,023
96,189
97,353
98,516
99,678
100,839
106,629
112,393
118,136
123,858
129,561
140,916
152,211
163,453
185,800
241,058
563,851
1089,53
71,201
72,443
73,683
74,919
76,154
77,386
78,616
79,843
81,069
82,292
83,514
84,733
85,950
87,166
88,379
89,591
90,802
92,010
93,217
94,422
95,626
96,828
98,028
99,227
100,425
101,621
102,816
104,010
105,202
106,393
112,329
118,236
124,116
129,973
135,807
147,414
158,950
170,423
193,207
249,445
576,493
1106,97
74,437
75,704
76,969
78,231
79,490
80,746
82,001
83,253
84,502
85,749
86,994
88,237
89,477
90,715
91,952
93,186
94,419
95,649
96,878
98,105
99,330
100,554
101,776
102,996
104,215
105,432
106,647
107,862
109,074
110,285
116,321
122,324
128,299
134,247
140,170
151,948
163,648
175,278
198,360
255,264
585,206
1118,95
- 78 -
T4 Kvantily FP Fisherova – Snedecorova rozdČlení F(k1,k2) pro P = 0,975
k1
k2
1
2
3
4
5
6
7
8
9
10
1 647,793 799,482 864,151 899,599 921,835 937,114 948,203 956,643 963,279 968,634
2 38,506 39,000 39,166 39,248 39,298 39,331 39,356 39,373 39,387 39,398
3 17,443 16,044 15,439 15,101 14,885 14,735 14,624 14,540 14,473 14,419
4 12,218 10,649
9,979
9,604
9,364
9,197
9,074
8,980
8,905
8,844
5 10,007
8,434
7,764
7,388
7,146
6,978
6,853
6,757
6,681
6,619
6
8,813
7,260
6,599
6,227
5,988
5,820
5,695
5,600
5,523
5,461
7
8,073
6,542
5,890
5,523
5,285
5,119
4,995
4,899
4,823
4,761
8
7,571
6,059
5,416
5,053
4,817
4,652
4,529
4,433
4,357
4,295
9
7,209
5,715
5,078
4,718
4,484
4,320
4,197
4,102
4,026
3,964
10
6,937
5,456
4,826
4,468
4,236
4,072
3,950
3,855
3,779
3,717
11
6,724
5,256
4,630
4,275
4,044
3,881
3,759
3,664
3,588
3,526
12
6,554
5,096
4,474
4,121
3,891
3,728
3,607
3,512
3,436
3,374
13
6,414
4,965
4,347
3,996
3,767
3,604
3,483
3,388
3,312
3,250
14
6,298
4,857
4,242
3,892
3,663
3,501
3,380
3,285
3,209
3,147
15
6,200
4,765
4,153
3,804
3,576
3,415
3,293
3,199
3,123
3,060
16
6,115
4,687
4,077
3,729
3,502
3,341
3,219
3,125
3,049
2,986
17
6,042
4,619
4,011
3,665
3,438
3,277
3,156
3,061
2,985
2,922
18
5,978
4,560
3,954
3,608
3,382
3,221
3,100
3,005
2,929
2,866
19
5,922
4,508
3,903
3,559
3,333
3,172
3,051
2,956
2,880
2,817
20
5,871
4,461
3,859
3,515
3,289
3,128
3,007
2,913
2,837
2,774
21
5,827
4,420
3,819
3,475
3,250
3,090
2,969
2,874
2,798
2,735
22
5,786
4,383
3,783
3,440
3,215
3,055
2,934
2,839
2,763
2,700
23
5,750
4,349
3,750
3,408
3,183
3,023
2,902
2,808
2,731
2,668
24
5,717
4,319
3,721
3,379
3,155
2,995
2,874
2,779
2,703
2,640
25
5,686
4,291
3,694
3,353
3,129
2,969
2,848
2,753
2,677
2,613
26
5,659
4,265
3,670
3,329
3,105
2,945
2,824
2,729
2,653
2,590
27
5,633
4,242
3,647
3,307
3,083
2,923
2,802
2,707
2,631
2,568
28
5,610
4,221
3,626
3,286
3,063
2,903
2,782
2,687
2,611
2,547
29
5,588
4,201
3,607
3,267
3,044
2,884
2,763
2,669
2,592
2,529
30
5,568
4,182
3,589
3,250
3,026
2,867
2,746
2,651
2,575
2,511
35
5,485
4,106
3,517
3,179
2,956
2,796
2,676
2,581
2,504
2,440
40
5,424
4,051
3,463
3,126
2,904
2,744
2,624
2,529
2,452
2,388
45
5,377
4,009
3,422
3,086
2,864
2,705
2,584
2,489
2,412
2,348
50
5,340
3,975
3,390
3,054
2,833
2,674
2,553
2,458
2,381
2,317
55
5,310
3,948
3,364
3,029
2,807
2,648
2,528
2,433
2,355
2,291
60
5,286
3,925
3,343
3,008
2,786
2,627
2,507
2,412
2,334
2,270
70
5,247
3,890
3,309
2,975
2,754
2,595
2,474
2,379
2,302
2,237
80
5,218
3,864
3,284
2,950
2,730
2,571
2,450
2,355
2,277
2,213
90
5,196
3,844
3,265
2,932
2,711
2,552
2,432
2,336
2,259
2,194
100
5,179
3,828
3,250
2,917
2,696
2,537
2,417
2,321
2,244
2,179
120
5,152
3,805
3,227
2,894
2,674
2,515
2,395
2,299
2,222
2,157
150
5,126
3,781
3,204
2,872
2,652
2,494
2,373
2,278
2,200
2,135
250
5,085
3,744
3,169
2,837
2,618
2,459
2,338
2,243
2,165
2,100
500
5,054
3,716
3,142
2,811
2,592
2,434
2,313
2,217
2,139
2,074
5,024
3,689
3,116
2,786
2,566
2,408
2,288
2,192
2,114
2,048
f
- 79 -
(pokraþování)
k1
k2
12
15
20
24
30
40
60
100
250
f
1 976,725 984,874 993,081 997,272 1001,40 1005,60 1009,79 1013,16 1016,22 1018,26
2 39,415 39,431 39,448 39,457 39,465 39,473 39,481 39,488 39,494 39,498
3 14,337 14,253 14,167 14,124 14,081 14,036 13,992 13,956 13,924 13,902
4
8,751
8,657
8,560
8,511
8,461
8,411
8,360
8,319
8,282
8,257
5
6,525
6,428
6,329
6,278
6,227
6,175
6,123
6,080
6,041
6,015
6
5,366
5,269
5,168
5,117
5,065
5,012
4,959
4,915
4,876
4,849
7
4,666
4,568
4,467
4,415
4,362
4,309
4,254
4,210
4,170
4,142
8
4,200
4,101
3,999
3,947
3,894
3,840
3,784
3,739
3,698
3,670
9
3,868
3,769
3,667
3,614
3,560
3,505
3,449
3,403
3,361
3,333
10
3,621
3,522
3,419
3,365
3,311
3,255
3,198
3,152
3,109
3,080
11
3,430
3,330
3,226
3,173
3,118
3,061
3,004
2,956
2,912
2,883
12
3,277
3,177
3,073
3,019
2,963
2,906
2,848
2,800
2,755
2,725
13
3,153
3,053
2,948
2,893
2,837
2,780
2,720
2,671
2,626
2,595
14
3,050
2,949
2,844
2,789
2,732
2,674
2,614
2,565
2,519
2,487
15
2,963
2,862
2,756
2,701
2,644
2,585
2,524
2,474
2,427
2,395
16
2,889
2,788
2,681
2,625
2,568
2,509
2,447
2,396
2,349
2,316
17
2,825
2,723
2,616
2,560
2,502
2,442
2,380
2,329
2,280
2,247
18
2,769
2,667
2,559
2,503
2,445
2,384
2,321
2,269
2,220
2,187
19
2,720
2,617
2,509
2,452
2,394
2,333
2,270
2,217
2,167
2,133
20
2,676
2,573
2,464
2,408
2,349
2,287
2,223
2,170
2,120
2,085
21
2,637
2,534
2,425
2,368
2,308
2,246
2,182
2,128
2,077
2,042
22
2,602
2,498
2,389
2,332
2,272
2,210
2,145
2,090
2,039
2,003
23
2,570
2,466
2,357
2,299
2,239
2,176
2,111
2,056
2,004
1,968
24
2,541
2,437
2,327
2,269
2,209
2,146
2,080
2,024
1,972
1,935
25
2,515
2,411
2,300
2,242
2,182
2,118
2,052
1,996
1,942
1,906
26
2,491
2,387
2,276
2,217
2,157
2,093
2,026
1,969
1,915
1,878
27
2,469
2,364
2,253
2,195
2,133
2,069
2,002
1,945
1,891
1,853
28
2,448
2,344
2,232
2,174
2,112
2,048
1,980
1,922
1,867
1,829
29
2,430
2,325
2,213
2,154
2,092
2,028
1,959
1,901
1,846
1,807
30
2,412
2,307
2,195
2,136
2,074
2,009
1,940
1,882
1,826
1,787
35
2,341
2,235
2,122
2,062
1,999
1,932
1,861
1,801
1,743
1,702
40
2,288
2,182
2,068
2,007
1,943
1,875
1,803
1,741
1,680
1,637
45
2,248
2,141
2,026
1,965
1,900
1,831
1,757
1,694
1,631
1,586
50
2,216
2,109
1,993
1,931
1,866
1,796
1,721
1,656
1,592
1,545
55
2,190
2,083
1,967
1,904
1,838
1,768
1,692
1,625
1,559
1,511
60
2,169
2,061
1,944
1,882
1,815
1,744
1,667
1,599
1,532
1,482
70
2,136
2,028
1,910
1,847
1,779
1,707
1,628
1,558
1,488
1,436
80
2,111
2,003
1,884
1,820
1,752
1,679
1,599
1,527
1,455
1,400
90
2,092
1,983
1,864
1,800
1,731
1,657
1,576
1,503
1,428
1,371
100
2,077
1,968
1,849
1,784
1,715
1,640
1,558
1,483
1,407
1,347
120
2,055
1,945
1,825
1,760
1,690
1,614
1,530
1,454
1,374
1,310
150
2,032
1,922
1,801
1,736
1,665
1,588
1,502
1,423
1,340
1,271
250
1,997
1,886
1,764
1,697
1,625
1,546
1,457
1,374
1,282
1,201
500
1,971
1,859
1,736
1,669
1,596
1,515
1,423
1,336
1,235
1,137
1,945
1,833
1,708
1,640
1,566
1,484
1,388
1,296
1,183
1,000
f
- 80 -
k1
k2
1
2
3
4
5
6
7
8
9
10
1 16212,5 19997,4 21614,1 22500,8 23055,8 23439,5 23715,2 23923,8 24091,5 24221,8
2 198,503 199,012 199,158 199,245 199,303 199,332 199,361 199,376 199,390 199,390
3 55,552 49,800 47,468 46,195 45,391 44,838 44,434 44,125 43,881 43,685
4 31,332 26,284 24,260 23,154 22,456 21,975 21,622 21,352 21,138 20,967
5 22,785 18,314 16,530 15,556 14,939 14,513 14,200 13,961 13,772 13,618
6 18,635 14,544 12,917 12,028 11,464 11,073 10,786 10,566 10,391 10,250
7 16,235 12,404 10,883 10,050
9,522
9,155
8,885
8,678
8,514
8,380
8 14,688 11,043
9,597
8,805
8,302
7,952
7,694
7,496
7,339
7,211
9 13,614 10,107
8,717
7,956
7,471
7,134
6,885
6,693
6,541
6,417
10 12,827
9,427
8,081
7,343
6,872
6,545
6,303
6,116
5,968
5,847
11 12,226
8,912
7,600
6,881
6,422
6,102
5,865
5,682
5,537
5,418
12 11,754
8,510
7,226
6,521
6,071
5,757
5,524
5,345
5,202
5,085
13 11,374
8,186
6,926
6,233
5,791
5,482
5,253
5,076
4,935
4,820
14 11,060
7,922
6,680
5,998
5,562
5,257
5,031
4,857
4,717
4,603
15 10,798
7,701
6,476
5,803
5,372
5,071
4,847
4,674
4,536
4,424
16 10,576
7,514
6,303
5,638
5,212
4,913
4,692
4,521
4,384
4,272
17 10,384
7,354
6,156
5,497
5,075
4,779
4,559
4,389
4,254
4,142
18 10,218
7,215
6,028
5,375
4,956
4,663
4,445
4,276
4,141
4,030
19 10,073
7,093
5,916
5,268
4,853
4,561
4,345
4,177
4,043
3,933
20
9,944
6,987
5,818
5,174
4,762
4,472
4,257
4,090
3,956
3,847
21
9,829
6,891
5,730
5,091
4,681
4,393
4,179
4,013
3,880
3,771
22
9,727
6,806
5,652
5,017
4,609
4,322
4,109
3,944
3,812
3,703
23
9,635
6,730
5,582
4,950
4,544
4,259
4,047
3,882
3,750
3,642
24
9,551
6,661
5,519
4,890
4,486
4,202
3,991
3,826
3,695
3,587
25
9,475
6,598
5,462
4,835
4,433
4,150
3,939
3,776
3,645
3,537
26
9,406
6,541
5,409
4,785
4,384
4,103
3,893
3,730
3,599
3,492
27
9,342
6,489
5,361
4,740
4,340
4,059
3,850
3,687
3,557
3,450
28
9,284
6,440
5,317
4,698
4,300
4,020
3,811
3,649
3,519
3,412
29
9,230
6,396
5,276
4,659
4,262
3,983
3,775
3,613
3,483
3,376
30
9,180
6,355
5,239
4,623
4,228
3,949
3,742
3,580
3,451
3,344
35
8,976
6,188
5,086
4,479
4,088
3,812
3,607
3,447
3,318
3,212
40
8,828
6,066
4,976
4,374
3,986
3,713
3,509
3,350
3,222
3,117
45
8,715
5,974
4,892
4,294
3,909
3,638
3,435
3,276
3,149
3,044
50
8,626
5,902
4,826
4,232
3,849
3,579
3,376
3,219
3,092
2,988
55
8,554
5,843
4,773
4,181
3,800
3,531
3,330
3,173
3,046
2,942
60
8,495
5,795
4,729
4,140
3,760
3,492
3,291
3,134
3,008
2,904
70
8,403
5,720
4,661
4,076
3,698
3,431
3,232
3,076
2,950
2,846
80
8,335
5,665
4,611
4,028
3,652
3,387
3,188
3,032
2,907
2,803
90
8,282
5,623
4,573
3,992
3,617
3,352
3,154
2,999
2,873
2,770
100
8,241
5,589
4,542
3,963
3,589
3,325
3,127
2,972
2,847
2,744
120
8,179
5,539
4,497
3,921
3,548
3,285
3,087
2,933
2,808
2,705
150
8,118
5,490
4,453
3,878
3,508
3,245
3,048
2,894
2,770
2,667
250
8,021
5,412
4,382
3,812
3,444
3,183
2,987
2,833
2,709
2,607
500
7,950
5,355
4,330
3,763
3,396
3,137
2,941
2,789
2,665
2,562
7,879
5,298
4,279
3,715
3,350
3,091
2,897
2,744
2,621
2,519
f
- 81 -
(pokraþování)
k1
k2
12
15
20
24
30
40
60
100
250
f
1 24426,7 24631,6 24836,5 24937,1 25041,4 25145,7 25253,7 25339,4 25413,9 25466,1
2 199,419 199,434 199,449 199,449 199,478 199,478 199,478 199,478 199,507 199,507
3 43,387 43,085 42,779 42,623 42,466 42,310 42,150 42,022 41,906 41,829
4 20,705 20,438 20,167 20,030 19,892 19,751 19,611 19,497 19,394 19,325
5 13,385 13,146 12,903 12,780 12,656 12,530 12,402 12,300 12,206 12,144
6 10,034
9,814
9,589
9,474
9,358
9,241
9,122
9,026
8,938
8,879
7
8,176
7,968
7,754
7,645
7,534
7,422
7,309
7,217
7,132
7,076
8
7,015
6,814
6,608
6,503
6,396
6,288
6,177
6,087
6,006
5,951
9
6,227
6,032
5,832
5,729
5,625
5,519
5,410
5,322
5,242
5,188
10
5,661
5,471
5,274
5,173
5,071
4,966
4,859
4,772
4,692
4,639
11
5,236
5,049
4,855
4,756
4,654
4,551
4,445
4,359
4,279
4,226
12
4,906
4,721
4,530
4,431
4,331
4,228
4,123
4,037
3,958
3,904
13
4,643
4,460
4,270
4,173
4,073
3,970
3,866
3,780
3,700
3,647
14
4,428
4,247
4,059
3,961
3,862
3,760
3,655
3,569
3,490
3,436
15
4,250
4,070
3,883
3,786
3,687
3,585
3,480
3,394
3,314
3,260
16
4,099
3,920
3,734
3,638
3,539
3,437
3,332
3,246
3,166
3,111
17
3,971
3,793
3,607
3,511
3,412
3,311
3,206
3,119
3,039
2,984
18
3,860
3,683
3,498
3,402
3,303
3,201
3,096
3,009
2,929
2,873
19
3,763
3,587
3,402
3,306
3,208
3,106
3,000
2,913
2,832
2,776
20
3,678
3,502
3,318
3,222
3,123
3,022
2,916
2,828
2,747
2,690
21
3,602
3,427
3,243
3,147
3,049
2,947
2,841
2,753
2,671
2,614
22
3,535
3,360
3,176
3,081
2,982
2,880
2,774
2,685
2,602
2,546
23
3,474
3,300
3,116
3,021
2,922
2,820
2,713
2,624
2,541
2,484
24
3,420
3,246
3,062
2,967
2,868
2,765
2,658
2,569
2,486
2,428
25
3,370
3,196
3,013
2,918
2,819
2,716
2,609
2,519
2,435
2,377
26
3,325
3,151
2,968
2,873
2,774
2,671
2,563
2,473
2,389
2,330
27
3,284
3,110
2,927
2,832
2,733
2,630
2,522
2,431
2,346
2,287
28
3,246
3,073
2,890
2,794
2,695
2,592
2,483
2,392
2,307
2,247
29
3,211
3,038
2,855
2,759
2,660
2,557
2,448
2,357
2,270
2,210
30
3,179
3,006
2,823
2,727
2,628
2,524
2,415
2,323
2,237
2,176
35
3,048
2,876
2,693
2,597
2,497
2,392
2,282
2,188
2,099
2,036
40
2,953
2,781
2,598
2,502
2,401
2,296
2,184
2,088
1,997
1,932
45
2,881
2,709
2,527
2,430
2,329
2,222
2,109
2,012
1,918
1,851
50
2,825
2,653
2,470
2,373
2,272
2,164
2,050
1,951
1,855
1,786
55
2,779
2,608
2,425
2,327
2,226
2,118
2,002
1,902
1,804
1,733
60
2,742
2,570
2,387
2,290
2,187
2,079
1,962
1,861
1,761
1,689
70
2,684
2,513
2,329
2,231
2,128
2,019
1,900
1,797
1,694
1,618
80
2,641
2,470
2,286
2,188
2,084
1,974
1,854
1,748
1,643
1,563
90
2,608
2,437
2,253
2,155
2,051
1,939
1,818
1,711
1,602
1,520
100
2,583
2,411
2,227
2,128
2,024
1,912
1,790
1,681
1,570
1,485
120
2,544
2,373
2,188
2,089
1,984
1,871
1,747
1,636
1,521
1,431
150
2,506
2,335
2,150
2,050
1,944
1,830
1,704
1,590
1,471
1,374
250
2,446
2,275
2,089
1,989
1,882
1,765
1,636
1,516
1,387
1,274
500
2,402
2,230
2,044
1,943
1,835
1,717
1,584
1,460
1,319
1,184
2,358
2,187
2,000
1,898
1,789
1,669
1,533
1,402
1,245
1,000
f
- 82 -
T5 Kvantily wP Wilcoxonova rozdČlení
(n = 5,…, 30)
0,005
0,01
0,025
0,05
5
---
---
---
0
6
---
---
0
2
7
---
0
2
3
8
0
1
3
5
9
1
3
5
8
10
3
5
8
10
11
5
7
10
13
12
7
9
13
17
13
9
12
17
21
14
12
15
21
25
15
15
19
25
30
16
19
23
29
35
17
23
27
34
41
18
27
32
40
47
19
32
37
46
53
20
37
43
52
60
21
42
49
58
67
22
48
55
65
75
23
54
62
73
83
24
61
69
81
91
25
68
76
89
100
26
75
84
98
110
27
83
92
107
119
28
91
101
116
130
29
100
110
126
140
30
109
120
137
151
P
n
- 83 -
T6 Kvantily vP Mannova – Whitneyova rozdČlení pro P = 0,025
(m = 2,…, 20; n = 9,…, 20)
n
9
10
11
12
13
14
0
2
4
7
10
12
15
17
20
23
26
28
31
34
37
39
42
45
48
0
3
5
8
11
14
17
20
23
26
29
33
36
39
42
45
48
52
55
0
3
6
9
13
16
19
23
26
30
33
37
40
44
47
51
55
58
62
1
4
7
11
14
18
22
26
29
33
37
41
45
49
53
57
61
65
69
1
4
8
12
16
20
24
28
33
37
41
45
50
54
59
63
67
72
76
1
5
9
13
17
22
26
31
36
40
45
50
55
59
64
67
74
78
83
15
16
17
18
19
20
1
5
10
14
19
24
29
34
39
44
49
54
59
64
70
75
80
85
90
1
6
11
15
21
26
31
37
42
47
53
59
64
70
75
81
86
92
98
2
6
11
17
22
28
34
39
45
51
57
63
67
75
81
87
93
99
105
2
7
12
18
24
30
36
42
48
55
61
67
74
80
86
93
99
106
112
2
7
13
19
25
32
38
45
52
58
65
72
78
85
92
99
106
113
119
2
8
13
20
27
34
41
48
55
62
69
76
83
90
98
105
112
119
127
m
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
n
m
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
- 84 -
T7 Kvantily kP binomického rozdČlení Bi(n;0,5)
P
0,005
0,01
0,025
0,05
6
-
-
0
0
7
-
0
0
0
8
0
0
0
1
9
0
0
1
1
10
0
0
1
1
11
0
1
1
2
12
1
1
2
2
13
1
1
2
3
14
1
2
2
3
15
2
2
2
3
16
2
2
3
4
17
2
3
4
4
18
3
3
4
5
19
3
4
4
5
20
3
4
5
5
21
4
4
5
6
22
4
5
5
6
23
4
5
6
7
24
5
5
6
7
25
5
6
7
7
26
6
6
7
8
27
6
7
7
8
28
6
7
8
9
29
7
7
8
9
30
7
8
9
10
n
- 85 -
DODATEK 1 – ZÁKLADY POPISNÉ STATISTIKY
1.1 Základní pojmy
PĜi statistickém zkoumání se zabýváme jevy a procesy, které mají hromadný charakter a
vyskytují se u rozsáhlého souboru individuálních objektĤ (výrobky, osoby apod.), nazývaného
základní soubor nebo také populace. Zkoumané objekty jsou tzv. statistické jednotky a
sledujeme u nich vytypované vlastnosti - statistické znaky (veliþiny, parametry atd.), které
nabývají pozorovatelných hodnot (úrovní).
Podle druhu hodnot dČlíme statistické znaky na kvantitativní, které nabývají þíselných
hodnot (hmotnost, délka, pevnost, cena, doba, životnost, ...) a kvalitativní, které nemají
þíselný charakter a lze je vyjádĜit slovnČ (barva, jakostní tĜída, podmínky provozu, tvar, ...).
Sledujeme-li jen jeden znak, hovoĜíme o jednorozmČrném znaku, naopak o vícerozmČrném
znaku.
Kvantitativní znaky dČlíme na diskrétní, jestliže nabývají pouze oddČlených þíselných
hodnot (poþet zmetkĤ, poþet vad, kusová produkce apod.) a spojité, které nabývají všech
hodnot z nČjakého intervalu reálných þísel (rozmČr výrobku, doba do poruchy, cenový index
apod.).
Kvalitativní znaky dČlíme na ordinální, jejichž slovní hodnoty má smysl uspoĜádat
(jakostní tĜídy, klasifikace apod.) a nominální, jejichž slovní hodnoty postrádají význam
poĜadí (barva, tvar, dodavatelé apod.).
Podstatou statistických metod je, že informace o základním souboru nezjišĢujeme u
všech jeho jednotek, ale jen u nČkterých, které získáme tzv. výbČrem. Vedou nás k tomu rĤzná
omezení, napĜ. dosažitelnost všech jednotek, velký rozsah základního souboru, zpĤsob
získávání informací (zkoušky životnosti, ovČĜení opotĜebení atd.), náklady na statistické
sledování a další. Poþet vybraných jednotek je rozsah výbČru. Dle rozsahu dČlíme výbČry na
malé (obvykle do 30 až 50) a velké (ĜádovČ stovky, tisíce i více). Toto dČlení je relativní a
závisí na okolnostech statistického sledování. VýbČr by mČl být reprezentativní (poskytovat
informace bez omezení) a homogenní (bez vlivu dalších rĤzných faktorĤ). To však þasto
nelze v plné míĜe verifikovatelnČ zajistit a proto obvykle vybíráme statistické jednotky do
výbČru náhodnČ, ovšem s rizikem, že výbČr mĤže poskytnout více þi ménČ zkreslené
informace o základním souboru. Podle zpĤsobu provedení rozlišujeme výbČry:
bez opakování (každá jednotka mĤže být vybrána nejvýše jednou),
s opakováním (každá jednotka mĤže být vybrána vícekrát),
- 86 -
zámČrný (vybíráme typické jednotky),
oblastní (základní soubor rozdČlíme na podmnožiny a z nich provedeme þásti výbČru),
systematický nebo mechanický (vybíráme vždy nČkolikátou jednotku co do poĜadí pĜi
realizaci výbČru).
Hodnoty znaku, pozorované þi zjištČné na statistických jednotkách z výbČru o rozsahu
n, tvoĜí statistický soubor s rozsahem n. Pro jednorozmČrný znak X získáme jednorozmČrný
statistický soubor
x1 ,..., xn ,
kde xi je pozorovaná hodnota znaku X u ité statistické
jednotky, i = 1,..., n. Analogicky pro dvourozmČrný znak (X, Y) obdržíme dvourozmČrný
statistický soubor ( x1 , y1 ),..., ( xn , yn ) apod.
1.2 JednorozmČrný statistický soubor s kvantitativním znakem
Získaný statistický soubor x1 ,..., xn s rozsahem n se také nazývá neroztĜídČný statistický
soubor. Dle potĜeby jej mĤžeme uspoĜádat podle rostoucích hodnot xi a obdržíme
uspoĜádaný statistický soubor x(1) ,..., x( n ) , kde xi d xi+1 pro všechny indexy i. Interval
x(1) ; x( n ) je variaþní obor a jeho délka x( n ) x(1) je rozpČtí statistického souboru.
PĜi velkém rozsahu statistického souboru nebo z dĤvodu dalšího zpracování (nČkterá
grafická vyjádĜení anebo užití matematicko - statistických metod) pĤvodní soubor roztĜídíme.
RoztĜídČný statistický soubor získáme pokrytím variaþního oboru systémem disjunktních
intervalĤ (obvykle zleva otevĜených a zprava uzavĜených), tzv. tĜíd o poþtu m, které mají
obvykle stejnou délku h. Každá tĜída je reprezentována uspoĜádanou dvojicí x*j , f j , kde x*j
je stĜed j-té tĜídy, x*j x*j+1 , a f j je absolutní þetnost j-té tĜídy, j = 1,...,m . Absolutní
þetnost f j je poþet prvkĤ xi pĤvodního neroztĜídČného statistického souboru, které leží v j-té
tĜídČ. ýíslo
fj
n
m
je relativní þetnost a uvádí se též v %. Platí
¦f
j
Poþet tĜíd m volíme obvykle pĜibližnČ 1 3, 3log n
symetrického charakteru) anebo
charakteru). Délka tĜídy je h |
n.
j 1
(pro statistický soubor
n až 2 n (pro statistický soubor asymetrického
x( n ) x(1)
m
a stanovujeme ji tak, aby odpovídala pĜesnosti
získání hodnot xi a aby stĜed tĜídy x*j byl zaokrouhlené þíslo. U diskrétního znaku volíme
obvykle za stĜedy tĜíd pĜímo hodnoty, kterých tento znak mĤže nabývat. Pokud tĜídČní
- 87 -
provádíme na PC, mČli bychom zkontrolovat, zda nastavení parametrĤ m, resp. h použitého
statistického software odpovídá našim požadavkĤm.
j
¦f
ýíslo F j
k
Fj
je kumulativní absolutní þetnost, þíslo
n
k 1
þetnost, j
1,..., m , a uvádí se též v %. Platí, že F j 1
f1 , takže Fm
F1
je kumulativní relativní
F j f j 1 pro j
1,..., m 1 , kde
n.
RoztĜídČný statistický soubor zapisujeme do tzv. þetnostní tabulky pro rĤzné typy
þetností, napĜ. pro absolutní þetnosti:
x j
x1
...
xm
fj
f1
...
fm
Významné vlastnosti statistického souboru vyjadĜují v koncentrované formČ jeho
následující þíselné (empirické) charakteristiky. Jde zejména o charakteristiky polohy,
promČnlivosti a soumČrnosti.
Základní charakteristiky polohy statistického souboru jsou:
1. Aritmetický prĤmČr
x
1 n
¦ xi
ni1
pro neroztĜídČný soubor,
x
1 m
¦ f j xj
n j1
pro roztĜídČný soubor.
Vlastnosti aritmetického prĤmČru jsou:
ax b y
ax b
a)
y
pro reálné konstanty a, b,
b)
x y
c)
x(1) d x d x( n ) ,
d)
x má tentýž rozmČr jako znak X .
xy,
NČkdy se užívá též vážený aritmetický prĤmČr
n
¦w x
i i
x
i 1
n
,
¦w
i
i 1
kde wi t 0 jsou váhy (vhodnČ stanovená reálná þísla, z nichž aspoĖ jedno je nenulové)
hodnot xi , které vyjadĜují jejich význam, napĜ. pĜesnost.
2. Medián pro neroztĜídČný statistický soubor
- 88 -
pro lichá n ,
x§ n 1 ·
¨
¸
° © 2¹
°
®1 ª
º
° « x§ n · x§ n · » pro sudá n .
¨ 1 ¸ »
°¯ 2 «¬ ¨© 2 ¸¹
©2 ¹¼
x
Vlastnosti mediánu:
ax b y
ax b
a)
y
b)
x(1) d x d x( n ) ,
c)
x má tentýž rozmČr jako znak X .
Medián rozdČluje statistický soubor na "dolní polovinu" a "horní polovinu" hodnot xi (viz
obr. 1.1). Jde o robustní charakteristiku, která je oproti aritmetickému prĤmČru málo citlivá
na extrémnČ odchýlené hodnoty. Pro roztĜídČný soubor se k výpoþtu mediánu užívá vhodná
aproximace.
3. Modus x̂ je þíslo, v jehož okolí je nejvíce hodnot xi , resp. je to stĜed x*j tĜídy
s nejvČtší absolutní þetností f j . Modus má tytéž vlastnosti jako aritmetický prĤmČr i medián
a dle potĜeby se poþítá vhodnou aproximací (napĜ. pro roztĜídČný soubor).
Základní charakteristiky promČnlivosti (variability) statistického souboru jsou:
1. Rozptyl (disperze, variance)
s2
1 n
2
xi x ¦
ni1
§1 n 2·
2
¨ n ¦ xi ¸ x
© i1 ¹
s2
2
1 m
f j x j x ¦
n j1
§1 m
2 ·
2
¨ ¦ f j x j ¸ x pro roztĜídČný soubor.
©n j 1
¹
Dle potĜeby a také pro zdĤraznČní znaku X nČkdy píšeme s 2 ( x ) apod. Vlastnosti rozptylu
jsou:
a)
s2 t 0 ,
b)
y
ax b s 2 y c)
s2
0 x1
"
a2 s2 x xn , resp. x1
"
xm ,
d) s 2 má rozmČr rovný kvadrátu rozmČru znaku X .
VČtší promČnlivosti znaku X odpovídá vČtší rozptyl a naopak. PĜi výpoþtech se také užívá jiný
- 89 -
vzorec pro rozptyl, když výraz
1
1
zamČníme výrazem
. Takto vypoþtený rozptyl je
n
n 1
1
n 2
plyne z požadavkĤ
s ! s 2 (pro s 2 z 0 ). ZdĤvodnČní výrazu
n 1
n 1
roven þíslu
uvedených v kapitole 6 a 7.
s2 .
2. SmČrodatná odchylka s
Dle potĜeby také píšeme s(x). Vlastnosti smČrodatné odchylky jsou:
a) s t 0,
b)
y
ax b s ( y )
c)
s
0 x1
"
a s ( x ) pro reálné konstanty a, b,
xn , resp. x1
"
xm
d) s má tentýž rozmČr jako znak X .
VČtší promČnlivosti znaku X odpovídá vČtší smČrodatná odchylka a naopak.
3. Variaþní koeficient v
s
.
x
Dle potĜeby také píšeme v(x). Vlastnosti variaþního koeficientu jsou:
a)
v ( ax )
a
v ( x ) pro reálnou konstantu a z 0 ,
a
b) v je bezrozmČrné þíslo.
Jde o relativní míru variability znaku X a uvádí se též v %. Má smysl pouze pro znak X, který
nabývá pouze kladných anebo záporných hodnot. Není proto napĜ. vhodný pro znak X
vyjadĜující odchylky od nČjaké nominální hodnoty.
4. RozpČtí x( n ) x(1) . RozpČtí má stejné vlastnosti jako smČrodatná odchylka.
Základní charakteristikou soumČrnosti statistického souboru je koeficient šikmosti
(koeficient asymetrie)
A
A
1 n
3
xi x ¦
ni1
s3
3
1 m
f j x j x ¦
n j1
s3
pro roztĜídČný soubor.
Dle potĜeby také píšeme A(x). Vlastnosti koeficientu šikmosti jsou:
- 90 -
a)
A ! 0 vČtšina hodnot xi je menší než (leží pod) x ,
b)
A
0 hodnoty xi jsou rozloženy soumČrnČ vzhledem k x ,
A 0 vČtšina hodnot xi je vČtší než (leží nad) x ,
a
d) y ax b A( y )
A( x ) pro reálné konstanty a, b, a z 0,
a
e) A je bezrozmČrné þíslo.
c)
Existuje Ĝada dalších þíselných charakteristik statistického souboru. NapĜ. pro
pomČrové znaky (cenové a objemové indexy, úrokové míry apod.) se místo aritmetického
prĤmČru užívá geometrický prĤmČr
xg
n
x1 ... xn
a ve speciálních pĜípadech (napĜ. pro znaky vyjadĜující rychlost nČjakého dČje) poþítáme
harmonický prĤmČr
1
xh
§1 n 1 ·
¨ ¦ ¸ .
© n i 1 xi ¹
Dle potĜeby se také nČkdy poþítá koeficient špiþatosti (koeficient excesu)
1 n
4
xi x ¦
ni1
3,
s4
který vyjadĜuje specifickým zpĤsobem míru koncentrace hodnot statistického souboru.
0
4
8
12
16
(u 1 0 0 0 )
Obr. 1.1
Mnoho rychlých a cenných informací poskytují o statistických souborech jejich
grafická vyjádĜení. Pro jednorozmČrný neroztĜídČný resp. uspoĜádaný statistický soubor se
zejména užívá krabicový graf - obr. 1.1, kde tuþnČ vyznaþený obdélník obsahuje stĜední þást
uspoĜádaného souboru (cca polovinu všech jeho hodnot) tak, že nalevo a napravo od
- 91 -
obdélníku leží vždy cca þtvrtina hodnot uspoĜádaného souboru. Levá (pravá) svislá strana
obdélníku odpovídá tzv. dolnímu (hornímu) kvartilu statistického souboru a svislá þára
uvnitĜ je v místČ mediánu. Výška obdélníku je úmČrná rozsahu souboru a úseþky ("vousy")
vlevo a vpravo zakonþené krátkými svislými þarami vyjadĜují pĜijatelné obory pro zbývající
dolní a horní þtvrtinu souboru. Hodnoty mimo tyto úseþky jsou považovány za podezĜelé,
pĜípadnČ extrémnČ odchýlené. Existují další modifikace tohoto grafu a jiná vyjádĜení.
Pro jednorozmČrný roztĜídČný statistický soubor s diskrétním znakem X se užívají
obvykle následující grafy. Sloupcový graf na obr. 1.2 je podobný histogramu z obr. 1.4, avšak
vyznaþené obdélníky na sebe nenavazují a nČkdy se kreslí ve vodorovné poloze. Koláþový
(výseþový) graf na obr. 1.3 je kruh rozdČlený na výseþe, jejichž úhel odpovídá þetnostem tĜíd,
pĜípadnČ jsou nČkteré zvolené výseþe vysunuty z kruhu. V uvedených grafech se rĤznými
barvami nebo šrafováním zvýrazĖují potĜebné informace a mnohdy se dále geometricky a
výtvarnČ prezentaþnČ modifikují.
Obr. 1.2
Obr. 1.3
F 50
f 15
40
10
30
20
5
10
0
-3 -2 -1 0 1 2 3 4 5
0
-3 -2 -1 0 1 2 3 4 5
x
x
Obr. 1.4
- 92 -
Pro jednorozmČrný roztĜídČný statistický soubor se v pĜípadČ spojitého znaku X
užívají nejþastČji následující dva typy grafĤ. Histogram na obr. 1.4 je soustava obdélníkĤ v
kartézské souĜadné soustavČ, jejichž základny jsou tĜídy a výšky jsou þetnosti tĜíd (absolutní,
relativní, kumulativní atd.). Polygon na obr. 1.5 je lomená þára v kartézské souĜadné soustavČ
spojující body, jejichž x-ová souĜadnice je stĜed tĜídy, pĜíp. horní hranice tĜídy pro
kumulativní þetnosti, a y-ová souĜadnice je þetnost tĜídy.
f
F 50
15
40
10
30
20
5
10
0
0
-3 -2 -1 0 1 2 3 4 5
-3 -2 -1 0
x
1 2 3 4 5
x
Obr. 1.5
ěešený pĜíklad 1.1
MČĜením délky X (mm) 10 váleþkĤ byly získány hodnoty: 5,38; 5,36; 5,35; 5,40; 5,41;
5,34; 5,29; 5,43; 5,42; 5,32. Urþete rozsah, variaþní obor, variaþní rozpČtí, aritmetický
prĤmČr, rozptyl, smČrodatnou odchylku, variaþní koeficient a medián statistického souboru.
ě e š e n í:
Rozsah daného souboru je n = 10, takže nemá smysl jej tĜídit. Protože x(1)
x(10)
5,43 mm, je variaþní obor <5,29; 5,43> mm a variaþní rozpČtí je 5,43 5,29 = 0,14
mm. Dále je:
x
(5,38 +}+ 5,32)/10 = 53,70/10 = 5,37 mm … prĤmČrná délka,
s 2 (5,382 + }+ 5,322)/10 5,372 = 288,388/10 28,8369 = 0,0019 mm2,
s
0, 0019 | 0,0435889894 | 0,044 mm,
v
0, 0019 /5,37 | 0,0435889894/5,37 | 0,00811713 | 0,8117 %,
x
5,29 mm a
(5,36 + 5,38)/2 = 5,37 mm …medián délky.
Pro grafické vyjádĜení tohoto statistického souboru by byl vhodný krabicový graf.
- 93 -
PĜi kontrole byl zjišĢován objem nápoje X v 50 lahvích a byly namČĜeny následující odchylky
(ml) od hodnoty na etiketČ:
1,2;
2,1;
1,7;
0,9;
0,3;
2,0; -1,3; -0,1;
0,8;
4,4;
2,9;
1,2;
0,0; -2,3;
0,1;
1,9; -1,9; -0,2; -1,3;
0,9;
1,0;
0,4;
1,8;
0,0;
4,1;
3,2;
1,2;
0,9;
1,5;
0,5;
2,0; -1,3;
1,9;
1,4; -1,3;
1,6;
1,4;
1,3;
3,0;
3,8; -0,8;
0,4;
2,8;
2,3; -0,2;
3,7;
3,1; -0,1;
3,1;
0,9.
RoztĜićte daný statistický soubor, graficky jej znázornČte a vypoþtČte x , s 2 , s, x̂ , A.
ě e š e n í:
Rozsah souboru n = 50; x(1)
2,3 ml a x(50)
4,4 ml, takže variaþní obor je <2,3; 4,4>
ml a rozpČtí je 4,4 (2,3) = 6,7 ml. Volíme poþet tĜíd m = 7 (tj. asi
50 ) a délku tĜídy h = 1
(tj. asi 6,7/7). Volba tĜíd a jejich stĜedĤ, roztĜídČní do tĜíd a výpoþet absolutních a
kumulativních þetností je v následující tabulce, kde napĜ. // znaþí 2 hodnoty a //// znaþí 5
hodnot ležících v dané tĜídČ:
j
tĜída
x j
zaĜazení do tĜíd
fj
Fj
1
-2,5; -1,5
-2
//
2
2
2
-1,5; -0,5
-1
////
5
7
3
-0,5; 0,5
0
//// //// /
11
18
4
0,5; 1,5
1
//// //// ///
13
31
5
1,5; 2,5
2
//// ////
9
40
6
2,5; 3,5
3
//// /
6
46
7
3,5; 4,5
4
////
4
50
Histogramy a polygony tohoto statistického souboru jsou na obr. 1.4 a 1.5. Další výpoþty jsou
pro pĜehlednost znázornČny v následující tabulce, ze které dostaneme:
x = 56/50 = 1,12 ml; s 2 = 180/50 1,122 = 2,3456 ml2; s
2, 3456 |1,532 ml;
stĜed tĜídy s nejvČtší þetností x̂ = 1 ml; dalším výpoþtem obdržíme A | 0,098502.
- 94 -
j
x j
fj
f j x j
f j x j 2
1
-2
2
-4
8
2
-1
5
-5
5
3
0
11
0
0
4
1
13
13
13
5
2
9
18
36
6
3
6
18
54
7
4
4
16
64
¦

50
56
180
1.3 DvourozmČrný statistický soubor s kvantitavními znaky
Získaný statistický soubor
( x1 , y1 ),..., ( xn , yn ) s rozsahem n je neroztĜídČný statistický
soubor. Vynecháním první, resp. druhé, hodnoty v každé dvojici obdržíme jednorozmČrné
statistické soubory
x1 ,..., xn a
y1 ,..., yn .
Zpracováním tČchto souborĤ získáme jejich
þíselné charakteristiky x , y , s 2 ( x ) , s 2 ( y ) atd.
RoztĜídČný dvourozmČrný statistický soubor získáme roztĜídČním jednorozmČrných
statistických souborĤ x1 ,..., xn a
y1 ,..., yn ,
pĜiþemž oba roztĜídČné soubory mohou mít
rĤzné poþty tĜíd i jejich délky. Dostaneme tak dvourozmČrné tĜídy se stĜedy
absolutními þetnostmi f jk , j
þetnosti
f jk
n
1, ..., m1 a k
x , y j
k
a
1,..., m2 . Dle potĜeby se dále urþují relativní
, kumulativní þetnosti F jk atd.
RoztĜídČný dvourozmČrný statistický soubor zapisujeme do þetnostní tabulky pro
rĤzné typy þetností. Následující tabulka je pro absolutní þetnosti f jk , kde þísla f xj a f yk jsou
marginální (okrajové) þetnosti a platí
m2
f xj
¦
k 1
m1
f jk , f yk
¦
j 1
m1
f jk ,
¦
j 1
- 95 -
m2
f xj
¦
k 1
m1
f yk
m2
¦¦ f
j 1 k 1
jk
n.
yk
y1
...
ym 2
f xj
x1
f11
...
f1 m2
fx1
...
...
...
...
...
xm 1
f m11
...
f m1 m2
f x m1
f yk
fy1
...
f y m2
n
x
j
Pro roztĜídČné jednorozmČrné statistické soubory x j , f xj , j
k
1,..., m1 , a yk , f yk ,
1,..., m2 , obdržíme jejich þíselné charakteristiky x , y , s 2 ( x ) , s 2 ( y ) atd.
Mírou závislosti znakĤ X a Y je koeficient korelace (korelaþní koeficient)
r
r
1 n
¦ xi x yi y ni1
s( x ) s( y )
1 n
¦ xi yi xy
ni1
s( x ) s( y )
1 m1 m2
f jk x j x yk y ¦¦
n j1k1
s( x ) s( y )
1 m1 m2
f jk x j yk xy
¦¦
n j1k1
s( x ) s( y )
pro roztĜídČný soubor,
pĜiþemž þitatelé ve všech zlomcích vyjadĜují tzv. kovarianci, kterou znaþíme cov. NČkdy pro
zdĤraznČní znakĤ X, Y píšeme r(x, y), resp. cov(x, y). Vlastnosti koeficientu korelace:
a)
u
ax b, v
cy d r (u, v )
ac
r ( x, y ) pro reálné konstanty a, b, c, d,
ac
a z 0, c z 0,
b) r ( y , x )
c)
r ( x, y ) ,
1 d r d 1 ,
d) r
r1 y
ax b, a z 0 ,
e) r je bezrozmČrné þíslo.
Koeficient korelace r je pouze mírou lineární závislosti mezi znaky X a Y. ýím je jeho
hodnota bližší 1 anebo -1, tím je závislost bližžší lineární závislosti a body xi , yi bližší
pĜímce. Jeho kladná (záporná) hodnota odpovídá celkovČ rostoucí (klesající) závislosti mezi X
- 96 -
a Y. Hodnota blízká 0 vyjadĜuje, že závislost není lineární a znaky X, Y mohou být nezávislé.
Obr. 1.6
- 97 -
Pro grafické vyjadĜení dvourozmČrného neroztĜídČného statistického souboru se užívá
rozptylový graf na obr.1.6, kde jsou rovnČž uvedeny pro ilustraci hodnoty koeficientu
korelace, a pro dvourozmČrný roztĜídČný statistický soubor tĜírozmČrný histogram na obr.
1.7, pĜípadnČ tĜírozmČrný sloupcový graf pro diskrétní znaky X, Y.
Obr. 1.7
Statistickým šetĜením nákladĤ X (Kþ) a cen Y (Kþ) pro stejný výrobek u 10 výrobcĤ byl
získán dvourozmČrný statistický soubor:
(30,18; 50,26), (30,19; 50,23), (30,21; 50,27), (30,22; 50,25), (30,25; 50,22),
(30,26; 50,32), (30,26; 50,33), (30,28; 50,29), (30,30; 50,37), (30,33; 50,42).
VypoþtČte x , y , s 2 ( x ) , s 2 ( y ) , s(x), s(y), c, r.
ě e š e n í:
Vzhledem k malému rozsahu n = 10 soubor netĜídíme. Použitím výše uvedených vztahĤ
dostaneme:
x = (30,18 + ... + 30,33)/10 = 30,248 Kþ … prĤmČrné náklady,
y = (50,26 + ... + 50,42)/10 = 50,296 Kþ … prĤmČrná cena,
s 2 ( x ) = (0,182 + ... + 30,332)/10 - 30,2482 = 0,002096 Kþ2,
s 2 ( y ) = (50,262 + ... + 50,422)/10 - 50,2962 = 0,003684 Kþ2,
s(x) =
0, 002096 | 0,0457821 Kþ | 0,0458 Kþ,
s(y) =
0, 003684 | 0,0606960 Kþ | 0,0607 Kþ,
cov = (30,18.50,26 + ... + 30,33.50,42)/10 - 30,248.50,296 = 0,002292 Kþ2,
- 98 -
r = 0,002292/(0,04578210,0606960) = 0,82481996263 | 0,8248.
Vzhledem k velikosti koeficientu korelace r lze pĜedpokládat, že mezi obČma znaky X a Y
(náklady a cenou) je závislost víceménČ blízká lineární. Jeho kladná hodnota odpovídá tomu,
že s rostoucími náklady roste cena výrobku. Rozptylový graf daného statistického souboru je
na obr. 1.8.
50,45
50,40
50,35
y
50,30
50,25
50,20
30,15
30,20
30,25
x
30,30
30,35
Obr. 1.8
1.4 Statistické soubory s kvalitativními znaky
JednorozmČrný statistický soubor s kvalitativním znakem
x1 ,..., xn s rozsahem n
vyjadĜujeme pomocí þetnostní tabulky, kde x j jsou možné slovní hodnoty znaku X a f j jsou
þetnosti tČchto hodnot v pĤvodním souboru, j
1,..., m . ýíselné charakteristiky se až na
výjimky (variabilitu) nepoužívají - viz napĜ. [40]. Ke grafickému vyjádĜení souboru slouží
sloupcový graf, koláþový graf apod. DvourozmČrný statistický soubor s kvalitativními znaky
x , y ,..., x , y 1
1
n
n
s rozsahem n vyjadĜujeme pomocí þetnostní tabulky podobnČ jako pro
kvantitativní znaky, kde
x , y j
k
kvalitativního znaku (X, Y) a
pro j
1,..., m1 a k
jsou dvojice možných slovních hodnot dvourozmČrného
f jk jsou þetnosti tČchto hodnot v pĤvodním souboru
1,..., m2 . Z þíselných charakteristik se užívají pĜedevším rĤzné míry
závislosti znakĤ X a Y - viz napĜ. [2], [3], [8], [15], [17], [30]. Ke grafickému vyjádĜení
souboru slouží tĜírozmČrný sloupcový graf podobný tĜírozmČrnému sloupcovému grafu pro
dvourozmČrný diskrétní kvantitativní znak.
- 99 -
DODATEK 2 – ELEMENTY TEORIE PRAVDċPODOBNOSTI
2.1 Náhodné jevy
Náhodný jev je výsledek pokusu (realizace urþitého systému podmínek), který mĤže,
ale nemusí nastat. Míru možnosti jeho nastoupení vyjadĜuje v þíselné formČ jeho
pravdČpodobnost. U náhodných jevĤ požadujeme hromadnost a stabilitu, tj.
dostateþnou opakovatelnost a nemČnnost pokusu. Nezbytným pĜedpokladem je také
rozpoznatelnost náhodných jevĤ.
Jednotlivým
možným
(uvažovaným)
výsledkĤm
pokusu
odpovídají
elementární jevy, které vyjadĜujeme pomocí jednoprvkových množin ^Z`. Všechny
možné výsledky pokusu tvoĜí množinu : nazývanou základní prostor, pĜiþemž
Z :. PĜi pokusu nastane právČ takový náhodný jev A, který obsahuje pozorovaný
elementární jev ^Z`. Náhodné jevy A, B, A1, Ai,… proto vyjadĜujeme jako
podmnožiny :. Jistý jev nastane pĜi každém pokusu a je ekvivalentní základnímu
prostoru :. Nemožný jev nenastane pĜi žádném pokusu a vyjadĜuje jej prázdná
množina .
Vztahy mezi náhodnými jevy vyjadĜujeme pomocí množinových inkluzí:
a) A B znamená, že nastoupení náhodného jevu A má za následek nastoupení
náhodného jevu B.
b) A = B vyjadĜuje rovnost náhodných jevĤ A a B.
Operace s náhodnými jevy vyjadĜujeme pomocí množinových operací:
a) Sjednocení A B nastane, jestliže nastane aspoĖ jeden z náhodných jevĤ A
f
n
a B, tedy A nebo B. Analogicky definujeme
*A
i 1
i
a
*A
i
, které nastanou, jestliže
i 1
nastane aspoĖ jeden jev Ai.
b) PrĤnik A B nastane, jestliže nastanou oba náhodné jevy A a B. Analogicky
n
definujeme
Ai a
i 1
f
A
i
, které nastanou, jestliže nastanou všechny jevy Ai .
i 1
c) Rozdíl A – B nastane, jestliže nastane náhodný jev A a nenastane náhodný
jev B.
d) Opaþný náhodný jev A
: A k náhodnému jevu A nastane, jestliže
nenastane jev A.
e) Náhodné jevy A a B jsou disjunktní, jestliže A B = .
- 100 -
Vlastnosti operací s náhodnými jevy jsou samozĜejmČ totožné s vlastnostmi
operací s množinami. Abychom mohli definovat pravdČpodobnost náhodného jevu,
zabýváme se jenom takovými náhodnými jevy na :, které tvoĜí následující strukturu.
Jevové pole 6 je množina náhodných jevĤ (systém podmnožin základního
prostoru :) s vlastnostmi:
1. 6, : 6 .
2. Pro každý náhodný jev A 6 také A 6 .
f
3. Pro každou posloupnost náhodných jevĤ Ai 6, i = 1, 2, … také
A 6 .
i
i 1
P Ĝ í k l a d 2.1
Náhodný pokus spoþívá v jednom hodu hrací kostkou ve tvaru krychle se stČnami
oþíslovanými od 1 do 6. Náhodný jev A nastoupí, jestliže padne sudé þíslo a
náhodný jev B nastoupí, jestliže padne þíslo vČtší než 4. Urþete :, A, B , A B,
A B, A B, B A, 6.
ě e š e n í:
Základní prostor je : = {1, 2, 3, 4, 5, 6} je koneþný a elementární náhodné jevy jsou
{1}, {2}, {3}, {4}, {5}, {6}. Dále je A = {2, 4, 6} a B ={5, 6}, takže
A = {1, 3, 5} ... padne liché þíslo,
B = {1, 2, 3, 4} ... padne þíslo menší než 5,
A B = {2, 4, 6} {5, 6} = {2, 4, 5, 6} ... nepadne þíslo 1 a 3,
A B = {2, 4, 6} {5, 6} = {6} ... padne þíslo 6,
A B = {2, 4, 6} {5, 6} ={2, 4} ... padne þíslo 2 nebo 4,
B A = {5, 6} {2, 4, 6} = {5} ... padne þíslo 5.
Protože nejsou stanovena žádná omezení na náhodné jevy, mĤžeme uvažovat
maximální jevové pole (tj. množinu všech podmnožin základního prostoru :)
6 = {, {1}, {2}, {3}, {4}, {5}, {6}, {1, 2}, {1, 3},…,{5, 6},…, {2, 3, 4, 5, 6}, : },
které obsahuje 26 = 64 náhodných jevĤ.
2.2 PravdČpodobnost a její vlastnosti
Jestliže pĜi opakovaných sériích náhodných pokusĤ, které sestávají vždy z N pokusĤ,
sledujeme chování relativní þetnosti nastoupení náhodného jevu A, tj. posloupností
- 101 -
þísel
N(A)
, kde N(A) je poþet nastoupení jevu A v dané sérii N pokusĤ, pak vidíme,
N
že posloupnosti relativních þetností mají ve skoro všech sériích snahu konvergovat
pro dostateþnČ velký poþet pokusĤ N k jisté pevné hodnotČ P(A) viz na obr. 2.1.
N(A)
N
P(A)
N
Obr. 2.1. PĜíklad posloupnosti
N(A)
N
Teoretická hodnota P(A) vyjadĜuje míru možnosti nastoupení náhodného jevu A
v jednotlivém pokusu a hovoĜíme o tzv. „statistické definici pravdČpodobnosti“
náhodného jevu A. Z jakékoliv realizované série N pokusĤ však mĤžeme
pravdČpodobnost P(A) náhodného jevu A pomocí zjištČné relativní þetnosti
N(A)
N
pouze více þi ménČ pĜesnČ odhadnout. Naopak pravdČpodobnost P(A) znamená, že
pĜi mnoha pokusech (ĜádovČ tisíce a více) nastoupí náhodný jev
A
zhruba ve
100P(A) % pokusĤ. Na vlastnostech relativní þetnosti
0d
N(A)
d 1, A B
N

N(A B)
N
N(A) N(B)
,
N
N
je založena následující obecná (axiomatická) definice pravdČpodobnosti náhodného
jevu.
PravdČpodobnost P(A) náhodného jevu A 6 je reálná funkce definovaná na 6
s vlastnostmi:
1. P(A) t 0 pro všechny náhodné jevy A 6.
2. P(:) = 1.
3. Pro každou posloupnost disjunktních náhodných jevĤ Ai 6, i = 1, 2,… , je
§f ·
P¨¨ * A i ¸¸
©i 1 ¹
- 102 -
f
¦ P A .
i
i 1
UspoĜádaná trojice (:, 6, P) se nazývá pravdČpodobnostní prostor.
Platí:
1 PA ; P() = 0; 0 d P(A) d 1.
a)
P( A)
b)
A B P(A) d P(B),
c)
PA 1 ... A n 1 P( A 1 ... A n )
P(B – A) = P(B) – P(A).
n
n
i 1
i, j 1
i¢ j
¦ PA i ¦ PA i A j ... 1 PA 1 ... A n ,
n 1
speciálnČ pro n = 2 je PA B 1 P( A B )
PA PB PA B .
Pro koneþný nebo spoþetný základní prostor : (tj. elementární jevy ^Z` lze
uspoĜádat do posloupnosti) je
PA ¦ P^Z` .
Z A
SpeciálnČ pro základní prostor : s n stejnČ pravdČpodobnými elementárními
jevy je
m
,
n
P( A )
kde m je poþet elementárních jevĤ ^Z`, z nichž sestává náhodný jev A. ěíkáme, že
„m je poþet pĜíznivých výsledkĤ pokusu“ a „n je poþet výsledkĤ pokusu“ a že jde o
tzv. klasickou definici pravdČpodobnosti.
P Ĝ í k l a d 2.2
VypoþtČte pravdČpodobnosti P(A), P(B), P( A ), P( B ), P(A B), P(A B), P(A B),
P(B A) náhodných jevĤ z pĜíkladu 1, jestliže kostka je z homogenního materiálu.
ě e š e n í:
Elementární náhodné jevy mají vzhledem k pravidelnosti a homogennosti hrací
kostky stejnou pravdČpodobnost P({Z})
1
a n = 6. PĜímým výpoþtem z „klasické
6
definice pravdČpodobnosti“ obdržíme
P(A)
3
6
1
,
2
P(B)
2
6
1
,
3
P(A)
3
6
1
,
2
P(B)
4
6
2
,
3
- 103 -
P(A B)
4
6
2
,
3
P(A B)
1
,
6
P(A B)
2
6
1
,
3
P(A B)
1
.
6
Z vlastností pravdČpodobnosti lze napĜ. urþit
P( A ) = 1 P(A) = 1 1
2
1
,
2
P(A B) = P(A) + P(B) P(A B) =
1 1 1
2 3 6
2
.
3
P Ĝ í k l a d 2.3
V dodávce 100 hĜídelí nemá požadovaný prĤmČr 10 kusĤ, požadovanou délku nemá
20 kusĤ a souþasnČ nemá požadovaný prĤmČr i délku 5 kusĤ. Urþete
pravdČpodobnost toho, že náhodnČ vybraný hĜídel má požadovaný prĤmČr i délku.
ě e š e n í:
Jestliže A, popĜ. B, znaþí, že náhodnČ vybraný hĜídel nemá požadovaný prĤmČr,
popĜ. délku, potom pravdČpodobnost toho, že náhodnČ vybraný hĜídel má
požadovaný prĤmČr i délku je
P( A B ) 1 P A B
1 P( A B) 1 >P( A ) P(B) P( A B)@
1 (0,10 0,20 0,05)
0,75 .
2.3 PodmínČná pravdČpodobnost a nezávislé jevy
PravdČpodobnost náhodného jevu A 6 za podmínky (pĜedpokladu), že nastane
náhodný jev B 6, P(B) z 0, je podmínČná pravdČpodobnost
P( A B)
.
P(B)
P( A / B)
Platí:
a)
P(A1 … An) = P(A1)P(A2/A1) … P(An/A1 … An – 1),
speciálnČ je P(A B) = P(A)P(B/A) = P(B)P(A/B),
n
b)
Pro náhodný jev A * B i , kde Bi, jsou disjunktní náhodné jevy,
i 1
i = 1, …, n, je tzv. úplná pravdČpodobnost
n
P( A )
¦ P(B )P( A / B )
i
i 1
- 104 -
i
a pro P(A) z 0 platí BayesĤv vzorec
P(B j / A )
P(B j )P( A / B j )
j = 1, …, n.
,
n
¦ P(B )P( A / B )
i
i
i 1
P Ĝ í k l a d 2.4
Ze skupiny 100 výrobkĤ, která obsahuje 10 zmetkĤ, vybereme náhodnČ bez vracení
3 výrobky. PravdČpodobnost toho, že první výrobek není zmetek - náhodný jev A1,
druhý výrobek není zmetek – náhodný jev A2 a tĜetí výrobek je zmetek – náhodný jev
A 3 , je
P( A 1 A 2 A 3 ) P( A 1 )P( A 2 / A 1 )P( A 3 / A 1 A 2 )
90 / 100 89 / 99 10 / 98 | 0,08256 .
P Ĝ í k l a d 2.5
Do obchodu s potravinami dodávají rohlíky 3 pekárny v poþtech 500, 1000 a 1500
kusĤ dennČ. Zmetkovitost jejich dodávek je 5%, 4% a 3%.
Jejich dodávky jsou
v obchodČ smíchány do celkové zásoby. Urþete pravdČpodobnost, že
a) náhodnČ vybraný rohlík z celkové zásoby je zmetek,
b) náhodnČ vybraný rohlík z celkové zásoby, který je zmetek, byl dodán druhou
pekárnou.
ě e š e n í:
Oznaþme náhodné jevy
A ... vybraný rohlík je zmetek,
Bi ... rohlík byl dodán i-tou pekárnou, i = 1, 2, 3.
PravdČpodobnosti jsou
P(B1 )
500
500 1000 1500
1
, P( A / B1)
6
0,05 ,
P(B 2 )
1000
500 1000 1500
2
, P( A / B2 )
6
0,04 ,
P(B3 )
1500
500 1000 1500
3
, P( A / B3 )
6
0,03 .
a) Podle vzorce pro úplnou pravdČpodobnost je
P(A)
0,05
1
2
3
0,04 0,03
6
6
6
0,22
6
- 105 -
0,036 | 0,03667 ,
takže zmetkovitost z hlediska zákazníka je pĜibližnČ 3,667%.
b) Z Bayesova vzorce je pro j = 2
2
6
0,22
6
0,04
P(B2 / A)
0,08
0,22
0,36 | 0,36364 .
Analogicky lze získat P(B1 /A) | 0,22727 a P(B3 /A) | 0,40909, takže nejvČtší podíl
na zmetkovitosti celkové zásoby má 3. pekárna. PĜitom má absolutnČ nejmenší
zmetkovitost ze všech tĜí dodavatelĤ, avšak dodává nejvČtší poþet rohlíkĤ.
Náhodné jevy A, B 6 jsou nezávislé, jestliže P(A/B) = P(A) anebo P(B) = 0.
Náhodné jevy A1,…, An 6 jsou vzájemnČ nezávislé, jestliže jsou nezávislé všechny
náhodné jevy ve dvojicích
Ai, Aj pro i z j,
Ai, Aj Ak pro i z j, i z k,
Ai, Aj Ak Am pro i z j, i z k a i z m,
atd.
Platí:
a) A, B jsou nezávislé, právČ když P(A B) = P(A)P(B).
b) Jestliže A1, …, An jsou vzájemnČ nezávislé, pak
P(A1 … An) = P(A1) … P(An),
P(A1 … An) = 1 >1 – P(A1)@ … >1 – P(An)@,
B1, …, Bn jsou vzájemnČ nezávislé pro libovolné varianty B i
A i, A i, : .
P Ĝ í k l a d 2.6
Jaká je pravdČpodobnost, že v prvním hodu pravidelnou homogenní šestistČnnou
kostkou padne sudé þíslo (náhodný jev A) a ve druhém hodu touto kostkou padne
liché þíslo (náhodný jev B)?
ě e š e n í:
Náhodné jevy A a B jsou nezávislé a jejich pravdČpodobnosti jsou P(A) = P(B) = 1/2,
takže P(A B) = (1/2).(1/2) = 1/4.
- 106 -
P Ĝ í k l a d 2.7
Výrobek prochází tĜemi nezávislými operacemi, pĜi kterých jsou pravdČpodobnosti
výroby zmetku P(A1) = 0,05, P(A2) = 0,08 a P(A3) = 0,03. Urþete pravdČpodobnost
výroby zmetku po všech tĜech operacích.
ě e š e n í:
Vzhledem k nezávislosti operací jsou vzájemnČ nezávislé náhodné jevy A1, A2, A3 a
výrobek je zmetek, jestliže nastane aspoĖ jeden z tČchto jevĤ, takže
P(A1 A2 A3) = 1 >1 – P(A1)@>1 – P(A2)@>1 – P(A3)@ =1 – 0,950,92.0,97 = 0,15222.
2.4 Náhodná veliþina a její funkþní charakteristiky
Náhodná veliþina (náhodná promČnná) X je reálná promČnná, která nabývá náhodnČ
reálných þíselných hodnot x – blíže v [1], [2], [3]. Její distribuþní funkce je
F(x) = P(X x) = P>X(-f; x)@, x(-f;+f).
Distribuþní funkce má vlastnosti:
a)
0 d F(x) d 1 pro všechna x(-f;+f),
b)
F(x) je neklesající a zleva spojitá na (-f;+f).
lim F( x )
c)
x o f
0 , lim F( x ) 1 ,
x o f
d)
P(a d X b) = F(b) – F(a) pro libovolná reálná þísla a b,
e)
P( X
c)
lim F( x) F(c) pro libovolné reálné þíslo c .
xo c NČkdy se distribuþní funkce definuje vztahem F(x) = P(X d x). Tato distribuþní
funkce je zprava spojitá, P(a X d b) = F(b) – F(a) a P( X
c)
F(c) lim F(x) .
x oc Potkáme se s ní zejména ve statistických softwarových produktech.
Náhodná veliþina X je diskrétní a Ĝíkáme, že má diskrétní rozdČlení
pravdČpodobnosti, jestliže nabývá nejvýše spoþetnČ mnoha hodnot x = x1, x2, ….
Její pravdČpodobnostní funkce je posloupnost
p(x) = P(X = x) ! 0 pro x = x1, x2, ….
Platí:
a)
¦ p( x)
1,
x
b) F( x )
¦ p(t )
pro všechna x(-f;+f),
t¢x
c)
P X M
¦ p( x)
pro libovolnou množinu reálných þísel M.
xM
- 107 -
Distribuþní funkce diskrétní náhodné veliþiny má “schodovitý tvar” – viz obr. 2.2.
P Ĝ í k l a d 2.8
PravdČpodobnost poruchy každé ze tĜí nezávisle pracujících výrobních linek je
0 p 1. Diskrétní náhodná veliþina X, která vyjadĜuje poþet výrobních linek
v poruše, nabývá hodnot x = 0, 1, 2, 3 a hodnoty její pravdČpodobnostní funkce jsou
p(0) = (1 – p)3,
p(1) = 3p(1 – p)2,
p(2) = 3p2(1 – p),
p(3) = p3.
Její distribuþní funkce je
F(x) = 0 pro x (-f, 0²,
F(x) = p(0) = (1 – p)3 pro x (0, 1²,
F(x) = p(0) + p(1) = (1 + 2p)(1 – p)2 pro x (1, 2²,
F(x) = p(0) + p(1) + p(2) = (1 + p + p2)(1 – p) = 1 – p3 pro x (2, 3²,
F(x) = p(0) + p(1) + p(2) + p(3) = 1 pro x (3; f).
Na obr. 2.2 jsou grafy p(x) a F(x) pro p = 0,5. PravdČpodobnost toho, že alespoĖ
jedna linka má poruchu je
P(X t 1) = P(1 d X +f) = F(+f) F(1) = 1 – (1 – p)3.
Prob. Mass Fcn.
Binomial
Cum. Dist. Fcn.
Binomial
n = 3, p = 0.5
0.5
1
0.4
0.8
0.3
prob. mass
0.6
cum. prob.
0.2
0.4
0.1
0.2
0
0
0
1
2
-1
3
X
0
1
2
n = 3, p = 0.5
3
4
X
(a)
(b)
Obr. 2.2 Grafy pravdČpodobnostní funkce (a) a distribuþní funkce (b) diskrétního
rozdČlení pravdČpodobnosti
- 108 -
Náhodná veliþina X je spojitá a Ĝíkáme, že má spojité rozdČlení
pravdČpodobnosti,
jestliže má spojitou distribuþní funkci (tedy X nabývá všech
hodnot z nČjakého intervalu apod.). Její hustota pravdČpodobnosti, je taková
nezáporná funkce f(x), že
x
³ f ( t)dt
F( x)
pro všechna x(-f;+f).
f
Platí:
f
a)
³ f ( x)dx
1,
f
b)
f(x) = Fc( x ) , pokud derivace existuje,
c) F(x) je spojitá funkce pro všechna x(-f;+f),
b
d) P(a d X d b)
P(a X b)
³ f (x)dx
P(a X d b) P(a d X b)
F(b) F(a)
a
pro libovolná reálná þísla a d b,
e) P(X = c) = 0 pro libovolné reálné þíslo c.
P Ĝ í k l a d 2.9
Náhodná veliþina X má hustotu pravdČpodobnosti f(x) = cx pro x ¢0; 2² a 0 pro
x ¢0; 2². Z vlastností spojité náhodné veliþiny získáme následující výsledky. Je
f
0
f
2
³ f ( x )dx ³ 0dx ³ cxdx ³ 0dx
f
takže c = 1/2 a f( x)
f
0
...
2c
1,
2
x
pro x ¢0; 2². Distribuþní funkce náhodné veliþiny X je
2
Fx x
³ 0dt
0 pro x (- f; 0²,
0
x
f
F( x )
t
³f0dt ³0 2dt ...
0
F( x )
2
x2
4
pro x ¢0; 2²,
x
t
³f0dt ³0 2dt ³2 0dt
... 1 pro x ¢2;+f).
Na obr. 2.3 jsou grafy f(x) a F(x). PravdČpodobnost toho, že náhodná veliþina
nabude hodnotu x ¢1; 3² je P(1 d X d 3) = F(3) – F(1) = 1 – (12/4) = 0,75.
- 109 -
1.5
1.5
1
1
f(x)
F(x)
0.5
0.5
0
0
-2
-1
0
1
2
3
4
-2
-1
0
1
x
2
3
4
x
(a)
(b)
Obr. 2.3 Grafy hustoty pravdČpodobnosti (a) a distribuþní funkce (b) spojitého
rozdČlení pravdČpodobnosti
2.5 ýíselné charakteristiky náhodné veliþiny
ýíselné charakteristiky náhodné veliþiny X jsou reálná þísla, která koncentrovanČ
vyjadĜují její dĤležité vlastnosti.
Polohu rozdČlení pravdČpodobnosti charakterizuje stĜední hodnota náhodné
veliþiny X
E( X)
¦ xp( x )
pro diskrétní náhodnou veliþinu X,
x
f
E( X)
³ xf ( x)dx
pro spojitou náhodnou veliþinu X,
f
pokud sumace, pĜíp. integrál, konverguje absolutnČ.
StĜední hodnota má vlastnosti:
a)
E(aX + b) = aE(X) + b pro libovolná reálná þísla a, b,
b)
·
§ n
E¨¨ ¦ X i ¸¸
©i1 ¹
n
¦ E X i
pro náhodné veliþiny X1,…, Xn.
i 1
Míru kolísání hodnot náhodné veliþiny X kolem její stĜední hodnoty E(X)
>
@
vyjadĜuje její rozptyl (disperze, variance) D( X) E ( X E( X)) 2 .
Rozptyl má vlastnosti:
a) D( X)
¦ ( x E( X))
x
2
p( x )
¦ x p( x) (E( X))
2
x
- 110 -
2
pro diskrétní náhodnou
veliþinu X,
f
D( X )
f
³ (x E( X))
2
³x
f ( x )dx
f
2
f ( x )dx (E( X ))2 pro spojitou náhodnou
f
veliþinu X, pokud sumace , pĜíp. integrál, konvergují,
b) D(X) t 0,
c) D(aX + b) = a2 D(X)
pro libovolná reálná þísla a, b,
·
§ n
e) D¨ ¦ X i ¸
©i1 ¹
pro nezávislé náhodné veliþiny X1, …, Xn.
n
¦ D X i
i 1
D X .
SmČrodatná odchylka náhodné veliþiny X je V( X )
SmČrodatná odchylka má vlastnosti:
a) V(X) t 0;
b) V(aX + b) = _a_ V(X)
pro libovolná reálná þísla a, b.
StĜední hodnota, popĜ. rozptyl, náhodné veliþiny X je speciální pĜípad tzv.
obecného, popĜ. centrálního momentu. Blíže o momentových charakteristikách
(variaþním koeficientu, koeficientech šikmosti a špiþatosti) v [1], [2], [3].
P-kvantil nebo také 100P%-kvantil náhodné veliþiny X je pro 0 P 1 její
hodnota xP = inf ^x; F(x) t P`. Pro spojitou náhodnou veliþinu X s rostoucí distribuþní
funkcí je F(xP) = P. Medián náhodné veliþiny X je její kvantil x0,5 a charakterizuje její
polohu. Další kvantilové charakteristiky jsou v >2@, >3@.
Modus x̂ náhodné veliþiny X je její hodnota, v níž nabývá pravdČpodobnostní
funkce nebo hustota pravdČpodobnosti maximum, pĜíp. suprémum.
P Ĝ í k l a d 2.10
Náhodná veliþina X z pĜíkladu 2.9 má stĜední hodnotu
0
E X 2
³ x 0dx ³ x
f
0
x
dx 2
f
³ x 0dx
2
...
4
| 1,33333 ,
3
rozptyl
0
D( X )
2
x
³fx 0dx ³0 x 2 dx 2
2
f
§4·
³2 x 0dx ¨© 3 ¸¹
a smČrodatnou odchylku
V X 2
| 0,47140 .
9
- 111 -
2
2
2
16
9
2
| 0,22222 ,
9
P-kvantil xP je koĜen rovnice
x2
4
z intervalu ¢0; 2², tedy xP = 2 P . Odtud
P
medián náhodné veliþiny X je x0,5 = 2 0,5 | 1,41421 . Z grafu f(x) na obr. 3 vidíme, že
modus náhodné veliþiny X je x̂ = 2.
2.6 NČkterá významná rozdČlení pravdČpodobnosti
Diskrétní rozdČlení pravdČpodobnosti
a) Binomické rozdČlení Bi(n, p), kde n je pĜirozené þíslo, p je reálné þíslo, 0 p 1:
§ n· x
n x
¨ ¸ p 1 p ,
© x¹
p( x)
E(X) = np;
Toto
rozdČlení
D(X) = np(1 – p);
má
poþet
x = 0, 1, …, n;
(n + 1)p – 1 d x d (n + 1)p.
nastoupení
sledovaného
náhodného
jevu
v posloupnosti n vzájemnČ nezávislých pokusĤ (napĜ. poþet zmetkĤ x mezi n
výrobky, když p je pravdČpodobnost výroby zmetku). Jedná se také o popis tzv.
výbČru s vracením, kdy napĜ. postupnČ vybíráme z dodávky n výrobkĤ a každý
vybraný výrobek vracíme zpČt do dodávky.
P Ĝ í k l a d 2.11
V sérii 50 výrobkĤ je 5 zmetkĤ. Ze série jsou náhodnČ vybrány 3 výrobky. Poþet
zmetkĤ mezi vybranými výrobky je náhodná veliþina X. Urþete typ jejího rozdČlení
pravdČpodobnosti, její pravdČpodobnostní funkci p(x), stĜední hodnotu E(X), rozptyl
D(X), smČrodatnou odchylku V(X), medián x0,5, modus
x
a P(1 < X d 3).
PĜedpokládejte, že každý vybraný výrobek se vrátí nazpČt do série, takže jde o
náhodný výbČr s vracením.
ě e š e n í:
Náhodná veliþina X má rozdČlení Bi(n,p), kde n = 3 a p = 5/50 = 0,1. X nabývá
hodnot x = 0, 1, 2, 3. PravdČpodobnostní funkce je
p( x)
§ 3· x
, .0,93 x pro x = 0, 1, 2, 3.
¨ ¸ 01
© x¹
StĜední hodnota je E(X) = np = 3.0,1 = 0,3,
rozptyl je D(X) = np(1 - p) = 3.0,1.0,9 = 0,27,
smČrodatná odchylka je V(X) =
D( X)
0,27 | 0,51962,
- 112 -
medián x0,5 = 0, neboĢ p(0) = 0,729,
modus x = 0, neboĢ (n + 1)p -1 = -0,6 a (n + 1)p = 0,4,
P(1 < X d 3) = p(2) + p(3) = 0,027 + 0,001 = 0,028.
b) Hypergeometrické rozdČlení H(N,M,n), kde N, M a n jsou pĜirozená þísla,
1 d n d N, 1 d M d N:
E X p( x)
§ M· § N M·
¨ ¸¨
¸
© x ¹ ©n x ¹
,
§ N·
¨ ¸
©n¹
M
;
N
D X n
n
x = max ^0, M – N + n`, …, min ^M, N`;
M § M· N n
;
¨1 ¸
N © N¹ N 1
a – 1 d x d a, kde a
M 1n 1
N 2
.
Toto rozdČlení popisuje tzv. náhodný výbČr bez vracení, kdy napĜ. N je
celkový poþet výrobkĤ, M poþet zmetkĤ a vybereme náhodnČ (bez vracení)
n výrobkĤ, mezi nimiž je x zmetkĤ.
P Ĝ í k l a d 2.12
V sérii 50 výrobkĤ je 5 zmetkĤ. Ze série jsou náhodnČ vybrány 3 výrobky. Poþet
zmetkĤ mezi vybranými výrobky je náhodná veliþina X. Urþete typ jejího rozdČlení
pravdČpodobnosti, její pravdČpodobnostní funkci p(x), stĜední hodnotu E(X), rozptyl
D(X), smČrodatnou odchylku V(X), medián x0,5, modus
x
a P(1 < X d 3).
PĜedpokládejte (na rozdíl od pĜíkladu 2.11), že vybraný výrobek se nevrací nazpČt,
takže jde o náhodný výbČr bez vracení.
ě e š e n í:
Náhodná veliþina X má rozdČlení H(N,M,n), kde N = 50, M = 5 a n = 3. X nabývá
hodnot x = 0, 1, 2, 3. PravdČpodobnostní funkce je
p( x )
StĜední hodnota je E(X) = n
§ 5 ·§ 45 ·
¨¨ ¸¸¨¨
¸¸
© x ¹© 3 x ¹ pro x = 0, 1, 2, 3.
§ 50 ·
¨¨ ¸¸
©3 ¹
M
= 3.0,1 = 0,3,
N
- 113 -
rozptyl je D(X) = D X n
M § M· N n
= 3.0,1.0,9. (47/49) | 0,25898,
¨1 ¸
N © N¹ N 1
smČrodatná odchylka je V(X) =
D( X) | 0,25898 | 0,50890,
medián x0,5 = 0, neboĢ max p(x) = p(0) | 0,724,
modus x = 0, neboĢ a
M 1n 1
N 2
| 0,46154, a – 1 | -0,53846,
P(1 < X d 3) = p(2) + p(3) | 0,023 + 0,0005 = 0,0235.
c) Poissonovo rozdČlení Po(O), kde O je reálné þíslo, O ! 0:
p( x)
Ox O
e ,
x!
x = 0, 1, … ;
E(X) = O; D(X) = O;
O - 1 d x d O.
Toto rozdČlení se obvykle užívá pro vyjádĜení pravdČpodobnosti poþtu
nastoupení sledovaného jevu v urþitém þasovém intervalu (poþet poruch, nehod,
katastrof, zmetkĤ apod.) s malou pravdČpodobností výskytu.
P Ĝ í k l a d 2.13
BČhem 1 minuty navštíví prodejnu prĤmČrnČ 3 zákazníci. NajdČte vhodný typ
rozdČlení pravdČpodobnosti náhodné veliþiny X vyjadĜující poþet zákazníkĤ, kteĜí
navštíví prodejnu za 1 minutu, stĜední poþet zákazníkĤ, rozptyl jejich poþtu a
nejpravdČpodobnČjší poþet zákazníkĤ za 1 minutu. Urþete dále pravdČpodobnost, že
bČhem 1 minuty pĜijde a) právČ 1 zákazník, b) aspoĖ 1 zákazník.
ě e š e n í:
Nahradíme-li stĜední poþet zákazníkĤ, kteĜí navštíví prodejnu bČhem 1 min, jejich
prĤmČrným poþtem, mĤžeme vyjádĜit náhodnou veliþinu X pomocí Poissonova
rozdČlení pravdČpodobnosti Po(O) s pravdČpodobnostní funkcí
p( x )
3x 3
e ,
x!
x = 0, 1, … .
StĜední hodnota E(X) = O = 3, rozptyl D(X) = O = 3, pro modus je O - 1 d x d O, takže
x = 2 a 3,
P(X = 1) = p(1) =
31 3
e | 0, 14936,
1!
P(X t 1) = p(1) + p(2) + … = 1 – p(0) = 1 –
30 3
e | 1 – 0, 04979 = 0,95021.
0!
- 114 -
Spojitá rozdČlení pravdČpodobnosti
a) RovnomČrné rozdČlení R(a, b), kde a b jsou reálná þísla:
f (x)
F( x )
1
pro x a; b ,
ba
0
pro x a; b ,
0 pro x f; a ,
xa
pro x ¢a; b²,
ba
1 pro x b;f ,
E X x 0,5
ab
2
D( X )
b a 2
12
.
Toto rozdČlení slouží pĜedevším k simulaci reálných procesĤ nebo
numerickým výpoþtĤm tzv. metodou Monte Carlo na poþítaþi a pro výpoþty pomocí
tzv. geometrické pravdČpodobnosti.
P Ĝ í k l a d 2.14
K pĜerušení optického kabelu v délce 500 m mĤže dojít v libovolné vzdálenosti od
jeho poþátku, pĜiþemž pravdČpodobnost náhodného jevu, že dojde k pĜerušení
v nČjakém úseku je pĜímo úmČrná délce úseku a nezávisí na jeho poloze. Urþete
rozdČlení pravdČpodobnosti náhodné veliþiny X vyjadĜující vzdálenost místa
pĜerušení kabelu od jeho poþátku, její hustotu pravdČpodobnosti a základní þíselné
charakteristiky a pravdČpodobnost, že k pĜerušení kabelu dojde v úseku od 300 m do
400 m od poþátku.
ě e š e n í:
Náhodná veliþina X má rozdČlení R(a, b), kde a = 0 a b = 500 s hustotou
pravdČpodobnosti f(x)
1
pro x 0; 500 a f(x)
500
StĜední vzdálenost a medián EX rozptyl D( X)
500 0 2
12
x 0,5
| 20833,3 m
smČrodatná odchylka V(X) =
2
0 pro x 0; 500 .
0 500
= 250 m,
2
,
D( X) | 20833,3 | 144,34 m,
- 115 -
pravdČpodobnost P(300 d X d 400) = F(400) - F(300) =
400 300
= 0,2.
500 500
b) Normální rozdČlení N(P, V2), kde P, V2 jsou reálná þísla, V2 ! 0:
f x
ª x P 2 º
»,
exp«
2V 2 »
V 2S
«¬
¼
1
x (- f, + f);
E(X) = x0,5 = x = P, D(X) = V2.
Toto nejrozšíĜenČjší rozdČlení (nazývané také Gaussovo rozdČlení) se užívá
k vyjádĜení náhodných veliþin, které lze interpretovat jako aditivní výsledek mnoha
nezávislých vlivĤ (napĜ. chyba mČĜení, odchylka rozmČru výrobku apod.). NČkdy se
také hovoĜí o zákonu chyb.
Transformací
XP
V
U
dostaneme normované (základní) normální rozdČlení N(0;1), jehož distribuþní funkce
)(x) je tabelována (viz tabulku T1) anebo její hodnoty urþíme výpoþtem na PC, napĜ.
pomocí software Excel. Platí
)(-x) = 1 - )(x).
Pro náhodnou veliþinu X s normálním rozdČlením N(P, V2) je
§xP·
)¨
¸,
© V ¹
F( x )
a napĜ. P(P - 3V d X d P + 3V) | 0,9973 (tzv. pravidlo tĜí sigma).
P Ĝ í k l a d 2.15
Jaká je pravdČpodobnost, že náhodná veliþina X, která má rozdČlení
N(20;16),
nabude hodnotu a) menší než 16, b) vČtší než 20, c) v mezích od 12 do 28, d) menší
než 12 nebo vČtší než 28 ?
ě e š e n í:
Ze vztahu F( x )
§xP·
)¨
¸ a tabulky T1 dostaneme
© V ¹
a) P(X 16) = F(16) – F(f) = F(16) – 0 = )((16 – 20) / 4) = )(-1) = 1 - )(1) |
| 1 – 0,84135 = 0,15865 ;
b) P(X ! 20) = 1 – P(X d 20) = 1 – F(20) = 1 - )((20 – 20) / 4) = 1 – )(0) =
- 116 -
= 1 – 0,5 = 0,5 ;
c) P(12 d X d 28) = F(28) – F(12) = )((28 – 20) / 4) – )((12 – 20) / 4) =
= )(2) – )(-2) = )(2) – (1 – )(2)) = 2)(2) – 1 | 2.0,97725 – 1 =
= 0,9545 ;
d) P((X 12) (X ! 28)) = 1 – P(12 d X d 28) | 1 – 0,9545 = 0,0455 .
Informace o dalších v praxi þasto užívaných rozdČleních pravdČpodobnosti a
náhodných vektorech lze najít napĜ. v [1], [2], [3].
- 117 -

SA ZK - ÚM FSI VUT

Transkript

Podobné dokumenty

Lekce 7 a 8

Environment6lni prohl65eni 201 0

fronte VR 38 EUROPE - Viroplastic CZ, as

Podzimní Benátky: Ombra, Tizian a klid

Skotntzralost

Rozklikněte si též článek o našem projektu v časopise Chatař

Od moře je to kousek k vysokým horám ve vnitrozemí

Článek si můžete prohlédnout ZDE

EVO - Ssangyong

Regresní model s fixními a náhodnými efekty (s príklady)