matematické metody vyhodnocování experimentů

Transkript

matematické metody vyhodnocování experimentů
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
MATEMATICKÉ METODY
VYHODNOCOVÁNÍ EXPERIMENTŮ
Miroslav Pokorný
Moravská vysoká škola Olomouc, o. p. s.
Olomouc 2010
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Projekt
„Aplikovatelný
systém
dalšího
vzdělávání
ve
VaV“
(dále
jen
APSYS)
OP VK č. CZ.1.07/2.3.00/09.0134 je spolufinancován Evropským sociálním fondem a státním
rozpočtem České republiky.
Text neprošel jazykovou úpravou.
© Moravská vysoká škola Olomouc, o. p. s.
Autor:
prof. Dr. Ing. Miroslav POKORNÝ
Recenzovali:
prof. Dr. Zdeněk SOUČEK, DrSc.
Mgr. Antonín SEDLÁČEK
Olomouc 2010
ISBN 978-80-87240-29-8
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Obsah
Úvod ........................................................................................................................................................... 5
1
Matematická statistika ................................................................................................................. 7
Cíl ................................................................................................................................................... 7
1.1
Statistika a pravděpodobnost ............................................................................................ 7
1.2
Náhodná veličina ............................................................................................................... 8
1.3
Funkční charakteristiky náhodné veličiny ......................................................................... 9
1.4
Číselné charakteristiky náhodné veličiny ........................................................................ 10
Shrnutí kapitoly ............................................................................................................................ 11
Literatura ke kapitole .................................................................................................................... 11
2
Vlastnosti datových souborů.................................................................................................... 13
Cíl ................................................................................................................................................. 13
2.1
Statistické datové soubory .............................................................................................. 13
2.2
Vlastnosti reprezentativního datového souboru .............................................................. 13
Shrnutí kapitoly ............................................................................................................................ 15
Literatura ke kapitole .................................................................................................................... 15
3
Průzkumová analýza naměřených dat ..................................................................................... 16
Cíl ................................................................................................................................................. 16
3.1
Ověření vlastností výběrového souboru ......................................................................... 16
3.2
Grafy identifikace vlastností výběrového souboru .......................................................... 17
3.3
Histogram ........................................................................................................................ 19
3.4
Ověření předpokladů o datech ........................................................................................ 20
Shrnutí kapitoly ............................................................................................................................ 24
Literatura ke kapitole .................................................................................................................... 24
4
Statistická analýza naměřených dat ........................................................................................ 25
Cíl ................................................................................................................................................. 25
4.1
Cíle statistické analýzy .................................................................................................... 25
4.2
Bodové odhady parametrů náhodné veličiny .................................................................. 26
4.3
Intervalové odhady parametrů náhodné veličiny ............................................................ 27
4.4
Vybrané typy funkcí rozloţení hustoty pravděpodobnosti .............................................. 28
Shrnutí kapitoly ............................................................................................................................ 32
Literatura ke kapitole .................................................................................................................... 33
5
Testování statistických hypotéz ............................................................................................... 34
Cíl ................................................................................................................................................. 34
5.1
Metoda statistických testů ............................................................................................... 34
5.2
Testy o reprezentativnosti výběrového souboru ............................................................. 35
5.3
Testy hypotéz o statistických parametrech jednoho souboru ......................................... 37
Modul: Exaktní metody řešení projektů VaV
5.4
Předmět: Matematické metody vyhodnocování
experimentů
Testy hypotéz o statistických parametrech dvou souborů .............................................. 38
Shrnutí kapitoly ............................................................................................................................ 40
Literatura ke kapitole .................................................................................................................... 40
6
Robustní metody statistické analýzy ....................................................................................... 41
Cíl ................................................................................................................................................. 41
6.1
Robustní odhady parametrů ............................................................................................ 41
6.2
Vyhodnocení malých výběrů ........................................................................................... 43
Shrnutí kapitoly ............................................................................................................................ 45
Literatura ke kapitole .................................................................................................................... 46
7
Zkoumání statistických závislostí ............................................................................................ 47
Cíl ................................................................................................................................................. 47
7.1
Závislost náhodných veličin............................................................................................. 47
Shrnutí kapitoly ............................................................................................................................ 48
Literatura ke kapitole .................................................................................................................... 49
8
Ekonomická statistika ............................................................................................................... 50
Cíl ................................................................................................................................................. 50
8.1
Statistika a ekonomie ...................................................................................................... 50
8.2
Statistické ukazatele a šetření ........................................................................................ 52
8.3
Organizace statistických experimentů a šetření ............................................................. 54
Shrnutí kapitoly ............................................................................................................................ 54
Literatura ke kapitole .................................................................................................................... 55
Literatura ................................................................................................................................................. 56
Seznam obrázků ..................................................................................................................................... 57
Seznam tabulek ...................................................................................................................................... 58
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Úvod
Od odborných pracovníků (zvláště pak manaţerů) se stále více očekává, ţe budou rozhodovat
především na základě logických úvah a důkladných analýz, nikoliv pouze intuitivně na základě svých
zkušeností. Právě metody pro vyhodnocení statistických šetření jsou pro analýzu řešených problémů
a následné rozhodování často pouţívány. Patří mezi tzv. kvantitativní metody a jsou určeny pro
zdokonalení řešení našich profesních problémů a úloh. Můţeme říci, ţe slouţí podpoře a zdokonalení
našeho profesního rozhodování.
Pro úspěšné řešení všech rozhodovacích úloh jsou kromě odborných znalostí nutné také kvalitní
informace, týkající se daného problému. Informace získáváme shromáţděním a analýzou nejrůznějších
údajů. Údaje jsou obvykle číselná data nebo mají formu, kterou lze na číselná data převést. Údaje jsou
přitom získávána různými metodami – od pouţití měřicích přístrojů (experimentů) aţ po akce
hromadných průzkumů (šetření). O problematice vlastností ekonomických údajů a problematice jejich
získávání pojednává kapitola 8.
V této souvislosti je třeba poznamenat, ţe současná (superturbulentní) doba je v oblasti
společenské a ekonomické charakterizována existencí silně nestacionárních jevů a procesů. Jejich
modelování výlučně konvenčními matematicko-statistickými metodami je stále obtíţnější a výsledky,
které jsou získány simulacemi pomocí takových modelů (např. predikce s vyuţitím extrapolací, trendů
a řad) jsou často velmi odlišné od skutečnosti. Stoupá význam znalostí a metod, které jsou schopny je
do procesu modelování a simulací zahrnout. To platí zvláště v oblasti taktického a strategického
rozhodování.
V praxi jsou veškerá měření zatíţena řadou vlivů, které způsobují chyby – odchylky velikosti
hodnot naměřených od jejich hodnot skutečných. Vlivy, které tyto odchylky způsobují, nelze ve většině
případů exaktně popsat ani předvídat – jsou nahodilé, náhodné. Měřené hodnoty tak získávají
charakter náhodné veličiny (charakter nahodilý, stochastický). Charakteristickou vlastností je
skutečnost, ţe velikost takové náhodné veličiny nelze zjistit naprosto přesně - lze jen vypočítat odhad
velikosti takové hodnoty a stanovit interval, v němž se bude její přesná hodnota nacházet (vţdy ale
pouze s určitou pravděpodobností).
Náhodné veličiny jsou ve své podstatě sloţitější, neţ veličiny nenáhodné (deterministické). Proto
je problematika jejich měření a vyhodnocování rovněţ sloţitější. Veškerá vyhodnocení vycházejí
ze zpracování souborů dat, naměřených na studovaných objektech. Podmínky, za kterých jsou soubory
dat pořizovány, mají rozhodující vliv na kvalitu vyhodnocených výsledků. Cílem statistického
vyhodnocení datových souborů je pak získání grafických nebo numerických charakteristik, které
kvantitativně vyjadřují základní vlastnosti těchto souborů a tím i náhodných veličin, které tyto soubory
reprezentují.
Zdůrazněme znovu, ţe kvalita výsledků, získaných aplikací metod statistické analýzy
na konkrétních souborech naměřených dat, je přímo závislá na vlastnostech těchto souborů. V případě
nevhodných vlastností datových souborů je pouţití mnohých metod (tak jak se často stává) nekorektní
– výsledky, které dostaneme, neodpovídají skutečnosti. Vlastnosti datových souborů jsou přitom dány
způsobem, jakým jsou data získána.
Učební látka zahrnuje vysvětlení metody správného měření (získávání datových souborů)
a metod zpracování naměřených dat (statistických analýz). Důraz je kladen na vysvětlení významu tzv.
průzkumových (předsledných, exploratorních) analýz, které mají za úkol poskytnout předběţné
-5-
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
informace o kvalitě souborů před jejich vlastním statistickým zpracováním. Text seznamuje
s moţnostmi nápravy nevhodných vlastností souborů a způsobem výběru takových metod statistické
analýzy, které zajistí i v případech ne zcela vhodných datových souborů maximální moţnou správnost
výsledků. V textu je uvedena řada odkazů na odbornou literaturu, v nichţ lze nalézt podrobnější
informace.
Velkým přínosem pro kvalitu výsledků statistického zpracování dat znamenalo rozšíření počítačů,
které přineslo moţnost vyuţití specializovaných programů. I kdyţ úkolem našeho kurzu není dokonalé
zvládnutí takových programů, je třeba se o nich zmínit. Dovolují nejen rychlé provádění
komplikovaných výpočtů, ale umoţňují hlavně zvolit z velkého počtu různých statistických metod
metodu vhodnou, a to podle vlastností datového souboru a podle toho, jakou informaci z něj pro naši
další práci máme získat. Pro podporu statistických výpočtů mají dnes odborníci k dispozici nabídku
řady specializovaných interaktivních programových balíků (STATGRAPHIC, ADSTAT, MATLABStatistics Toolbox, S-PLUS). Pro naši potřebu můţe být zajímavý statistický paket NCSS (Number
Cruncher Statistical Systems) jako universální soubor statistických procedur, doporučovaný zejména
uţivatelům – nestatistikům. Pokud jsou obrázky, uvedené v textech jednotlivých kapitol, vytištěny
z počítačové předlohy, byl k jejich vytvoření pouţit Statistic Tool Box systému MATLAB.
Vyuţitím programových paketů se statistické výpočty zpracování dat stávají zcela rutinními
procedurami a záleţí pouze na jejich uţivatelích, aby byly správně pouţívány, aby výsledky
statistických analýz byly korektní a efektivní pro správné rozhodování.
Neţ se začneme věnovat obsahu dalších kapitol, ujasníme si problém jejich pochopení
z hlediska našich dosavadních znalostí – zvláště znalostí matematiky. Statistické metody jsou
metodami exaktními, jejich vysvětlení a popis není proto moţný bez pouţití matematického formálního
aparátu (matematické výrazy, rovnice, nerovnosti a relace). Texty kapitol musí být doprovázeny
matematickými vztahy. Kvůli úplnosti a praktické použitelnosti textu jsou do nezbytné hloubky
vysvětleny. Nemusíme se jich obávat. Matematická statistika však (aţ na výjimky) nevyuţívá aparátu
vyšší matematiky a proto jsou pouţité vztahy jednoduché. V textech (aţ na výjimku) nebylo třeba pouţít
vztahů, vyuţívajících diferenciálního a integrálního počtu. Vztahy, pouţité pro vysvětlení principů, jsou
jednoduché a dobře pochopitelné i se znalostí středoškolské matematiky. Jiné, sloţitější, jsou
prezentovány z důvodů komplexnosti a homogenity látky, pro orientaci těch čtenářů, kteří se statistikou
zabývají nebo budou zabývat prakticky. Nejsou v ţádném případě určeny k učení nazpaměť.
Systematicky se texty odvolávají na odbornou literaturu, uvedenou v seznamu. V těchto
pramenech naleznou rovněž zájemci bližší vysvětlení původu hodnot řady empirických číselných
konstant, které jsou pro řadu statistických vztahů charakteristické.
Kapitoly také (z důvodu omezeného rozsahu) nezahrnují ţádné řešené příklady a není v nich ani
zařazena příloha se statistickými tabulkami (které jsou pro řešení statistických úloh nezbytné). Příklady
praktického použití všech v textu uvedených metod a statistických tabulek budou hlavní náplní tutoriálů,
které jsou součástí kurzů.
Učební látka představuje pouze základy matematické statistiky a její aplikace v ekonomii,
prohloubení znalostí je věcí dalšího studia odborné literatury nebo dalších specializovaných kurzů.
-6-
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
1 Matematická statistika
CÍL
Po prostudování budete umět:



charakterizovat teorie pravděpodobnosti a matematickou statistiku,
definovat náhodnou veličinu a její charakteristiky,
vyjmenovat a popsat charakteristiku funkční a praktické vyuţití
charakteristik číselných.
KLÍČOVÁ SLOVA
Matematická pravděpodobnost, matematická statistika, náhodná veličina,
funkční charakteristiky, funkce rozloţení hustoty pravděpodobnosti, číselné
charakteristiky, charakteristiky polohy, charakteristiky rozptýlení, charakteristiky
tvaru.
1.1 Statistika a pravděpodobnost
Pojmem statistiky můţe být chápán v několika svých významech, které však
spolu v praxi úzce souvisí [1]: Statistiku tedy chápeme jako:



údaj nebo souhrn údajů (datový soubor), který byl získán sběrem nebo
dalším zpracováním.
praktickou činnost, spočívající ve sběru, zpracování a vyhodnocování
číselných údajů.
vědní disciplínu, která se zabývá metodami sběru, zpracování
a vyhodnocování číselných údajů.
V souvislosti se statistikou vznikla a byla široce rozpracována jiná matematická
disciplína – teorie pravděpodobnosti. Zjednodušeně lze říci, ţe statistika zkoumá
hromadné jevy, kdeţto teorie pravděpodobnosti zkoumá jevy individuální, jedinečné.
Pravděpodobnost, jak uvidíme dále, je přitom chápána jako šance, zda daný jev
nastane nebo nikoliv.
Statistika a teorie pravděpodobnosti spolu velmi úzce souvisí, neboť
představují dva pohledy na stejný problém. Kaţdý hromadný jev je totiţ tvořen
jednotlivými jevy individuálními a naopak opakováním individuálního jevu získáme jev
hromadný. V současné době nelze teorii pravděpodobnosti a statistiku od sebe
oddělit – teorie pravděpodobnosti je povaţována za součást moderní statistiky a tvoří
její teoretický základ.
Původní, tzv. popisná (deskriptivní) statistika byla rozvinuta do statistiky
matematické. Matematická statistika na základě teorie pravděpodobnosti umoţňuje
-7-
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
získat kvalifikované závěry (odhady) o sledovaném jevu i z menšího počtu dat
(údajů). Nové statistické postupy otevřely moţnosti pro průzkumy veřejného mínění,
namátkové testy a další postupy, ve kterých z vlastností části usuzujeme na chování
celku.
Statistika byla zpočátku vyuţívána spíše ve vědách přírodních a technických,
dnes však zaznamenává rozvoj svých aplikací v disciplínách humanitního charakteru,
například v psychologii, sociologii a ekonomii.
1.2 Náhodná veličina
Jak jiţ bylo řečeno, praktická měření jsou zatíţena řadou vlivů, které způsobují
chyby - odchylky velikosti hodnot naměřených od jejich hodnot skutečných (okolní
teplota, únava pozorovatele, nálada respondenta apod.). Důsledky těchto vlivů nelze
exaktně popsat ani predikovat. Měřené hodnoty pak získávají charakter náhodné
veličiny, u níţ nelze určit její velikost a lze jen stanovit odhady jejích charakteristik
a intervaly, v němţ se budou skutečné hodnoty charakteristik nacházet s určitou
pravděpodobností. Seznámíme se nyní se základními pojmy teorie náhodných
veličin [3], [1].
Uvaţujme jev A, který můţe být výsledkem daného pokusu (respondent odpoví
„ano“). Předpokládejme, ţe jsme pokus opakovali n-krát a ţe v sérii těchto n pokusů
jev A nastal k-krát. Pravděpodobnost jevu A označíme
.
Rovnice 1.1
Jestliţe pak vykonáme za určitých, a to nezměněných (reprodukovatelných)
podmínek, velké mnoţství pokusů (přičemţ v kaţdém z nich jev A nastat můţe nebo
nemusí), pak pravděpodobnost P(A) bude konvergovat k určité konstantní hodnotě,
kterou označíme p(A) a nazveme ji statistickou pravděpodobností jevu A, přičemţ
hodnota
odpovídá velikosti
vypočítané v případě nekonečně mnoha
pokusů.
Rovnice 1.2
Problémem matematické statistiky je skutečnost, ţe nekonečného počtu
pokusů nelze dosáhnout. Dále budeme proto pracovat s pravděpodobností
.
Počet pokusů n – jak uvidíme dále – by měl být vţdy co největší.
Pro velikost pravděpodobnosti jevu A pak platí, ţe:
Rovnice 1.3
kdy pravděpodobnost jevu jistého je
nemoţného je P(A) = 0.
-8-
a pravděpodobnost jevu
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
1.3 Funkční charakteristiky náhodné veličiny
Náhodná veličina je definována svými charakteristikami. Základní
charakteristikou je charakteristika funkční. Pokud známe její tvar (nebo analytické
vyjádření), pak známe náhodnou veličinu dokonale.
Diskrétní náhodná veličina můţe nabývat pouze určitých hodnot. Uvaţujme
diskrétní náhodnou veličinu X a mnoţinu jejích hodnot
Rovnice 1.4
Kaţdá z hodnot xi je moţná, ale není jistá, náhodná proměnná X jí můţe nabýt
pouze s určitou pravděpodobností, kterou označíme
. Označme dále:
Rovnice 1.5
Funkce p(x) se nazývá se funkce rozloţení pravděpodobnosti náhodné
veličiny X.
Uvaţujme nyní náhodnou veličinu X, která můţe nabývat nekonečně mnoha
hodnot z intervalu reálných čísel (je definována na intervalu
 ,  ).
Taková
náhodná veličina je nazývána spojitou náhodnou veličinou. Její funkční
charakteristika
se nazývá funkce rozloţení hustoty pravděpodobnosti (někdy
zkráceně hustota pravděpodobnosti). Tato funkce má následující vlastnosti:

pravděpodobnost, ţe náhodná veličina nabude hodnot z intervalu a, b
je rovna ploše pod křivkou f(x) omezenou hodnotami a,b, coţ lze
matematicky vyjádřit velikostí integrálu
Rovnice 1.6

celková plocha pod křivkou
je rovna jedné, neboť
pravděpodobnost, ţe náhodná veličina X nabude některé z hodnot
intervalu (
je rovna 1 (jistota).
Rovnice 1.7
Tyto vlastnosti funkce
jsou znázorněny na obrázku 1.1a – b, kde je
nakreslen moţný příklad jejího tvaru. Tvar křivky
můţe být různý – závisí
na vlastnostech (neboli typu) konkrétní náhodné veličiny. S některými typy se
seznámíme v kap. 4.
-9-
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Vlastnosti funkce rozložení hustoty pravděpodobnosti
Funkce rozloţení hustoty pravděpodobnosti náhodné veličiny f(x) je nositelem
úplné informace o vlastnostech náhodné veličiny X. Problémem je, ţe získat její tvar
(případně analytické vyjádření) můţe být velmi obtíţné. V praxi se (naštěstí) bez této
funkce obejdeme, známe-li alespoň její vybrané parametry. Tyto parametry
nazýváme číselnými charakteristikami náhodné veličiny.
1.4 Číselné charakteristiky náhodné veličiny
Funkční charakteristiky jsou obtíţně dosaţitelné a navíc mnohdy i málo
přehledné. Pro lepší představu o chování náhodné veličiny proto hledáme častěji její
číselné charakteristiky, které jsou významnými parametry křivky
. Číselné
charakteristiky náhodné veličiny (často nazývané jejími momenty), dělíme do tří
skupin:



charakteristiky polohy nás informují o střední hodnotě (středu)
rozloţení. Kromě střední hodnoty patří mezi charakteristiky polohy i tzv.
medián, modus a kvantily. Střední hodnota náhodné veličiny vţdy
odpovídá poloze maxima na křivce
a udává, jak je poloha křivky
posunuta ve směru vodorovné osy souřadnic.
charakteristiky rozptýlení (variability) udávají, v jak velké míře kolísají
(jsou rozptýleny) hodnoty náhodné veličiny kolem své střední hodnoty.
Patří sem disperze (rozptyl) a směrodatná odchylka. Čím má náhodná
veličina větší rozptyl, tím je křivka
širší a niţší.
charakteristiky tvaru, tedy šikmosti – které udávají nesouměrnost křivky
vzhledem k její střední hodnotě - a špičatosti, které hodnotí, jak
dalece je křivka funkce rozloţení hustoty pravděpodobnosti f(x)
ve střední hodnotě špičatá. Patři sem koeficient šikmosti (asymetrie)
resp. koeficient špičatosti (excesu)
Jak vidíme, číselné charakteristiky reprezentují tvar funkční charakteristiky
a jsou schopny zastoupit celý její průběh. Jako čísla mají ten význam, ţe je můţeme
pouţít dále ve všech výpočtech.
- 10 -
Obrázek 1.1
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
V tomto místě jsme uvedli pouze vysvětlení významu charakteristik náhodné
veličiny pro pochopení látky v kapitole následující. V této souvislosti bylo třeba pouţít
některé pouze částečně a jen kvalitativně vysvětlené pojmy (charakteristiky polohy,
rozptýlení a tvaru).
Vztahy pro výpočet velikosti odpovídajících číselných
charakteristik závisí na typu náhodné veličiny a budou uvedeny v kap. 4.
SHRNUTÍ KAPITOLY
Teorie pravděpodobnosti a matematická statistika se jako vědní obory zabývají
studiem vlastností a vyhodnocováním charakteristik náhodných veličin. Náhodná
veličina je zatíţena řadou vlivů, které způsobují takové změny její velikosti, které
nelze predikovat. Měřené hodnoty náhodné veličiny mají stochastický charakter.
Přesné charakteristiky náhodné veličiny určit nelze, lze jen stanovit intervaly, v nichţ
se budou hodnoty těchto charakteristik nacházet s určitou pravděpodobností.
Nejdůleţitější funkční charakteristikou náhodné veličiny je funkce rozloţení její
hustoty pravděpodobnosti. Prakticky významné jsou číselné charakteristiky, které
představují relevantní parametry funkce rozloţení. Nejdůleţitější číselné
charakteristiky náhodné veličiny jsou její střední hodnota a rozptyl. Tyto parametry
pouţíváme pro reprezentaci náhodné veličiny při jejím pouţití ve výpočtech.
ÚKOLY
1.
Vysvětlete oblasti zájmu
a matematické statistiky!
vědních
oborů
teorie
pravděpodobnosti
2.
Jak vypočítáte pravděpodobnost náhodného jevu?
3.
Jaký praktický význam má funkce rozloţení hustoty pravděpodobnosti
náhodné veličiny?
4.
Popište
vzájemnou
souvislost
mezi
funkcí
rozloţení
pravděpodobnosti, střední hodnotou a rozptylem náhodné veličiny!
hustoty
LITERATURA KE KAPITOLE
Základní literatura:
[1]
HÁJOVSKÝ, R., POKORNÝ, M., KOZUB, R. Statistické zpracování měřených
dat I. Ostrava: FEI VŠB-TUO, 2005.
[2]
FRIEDRICH, V. Statistika pro ekonomy – Ekonomické ukazatele a statistické
zjišťování
[on line].
[cit.
2010-02-15].
Dostupný
z WWW:
<moodle.vsb.cz/statistika/01.pdf>.
- 11 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Doporučená literatura:
[3]
LIKEŠ, J., MACHEK, J. Matematická statistika. Praha: SNTL, 1988.
- 12 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
2 Vlastnosti datových souborů
CÍL
Po prostudování budete umět:



vysvětlit poţadavky na vlastnosti výběrového souboru,
vyjmenovat základní výsledky statistické analýzy souboru,
porozumět principu vyhodnocení vlastností náhodné veličiny.
KLÍČOVÁ SLOVA
Náhodný výběr hodnot, výběrový soubor prvků, reprezentativnost souboru, rozsah
výběrového souboru, střední hodnota, rozptyl.
2.1 Statistické datové soubory
Jedním ze základních předpokladů pouţití matematické statistiky pro potlačení
chyb měření, vzniklých působením náhodných vlivů, je moţnost pořízení souboru
dostatečného počtu pozorovaných (měřených) hodnot sledované veličiny
za reprodukovatelných podmínek. Tento poţadavek můţe být hlavním problémem při
realizaci konkrétních měření. Nesplnitelnost předpokladů vede k v praktických
případech k pořízení datových souborů, jejichţ vlastnosti nezaručují korektnost
pouţití metod statistické analýzy a vedou k získání výsledků, které jsou v rozporu se
skutečností.
V etapě získávání dat (měření) vytváříme náhodný výběr dat, jehoţ prvky
(jednotlivá měření, pozorování) náhodnou veličinu reprezentují. Podstatné je získat
tzv. reprezentativní náhodný výběr, který je základním předpokladem korektnosti
pouţití statistických metod pro vyhodnocení výsledků měření.
Úplným (případně základním) souborem rozumíme mnoţinu všech moţných
(někdy i nekonečně mnoha) hodnot náhodné veličiny. Všechny hodnoty však mnohdy
získat nemůţeme a proto omezeným měřením získáme soubor výběrový – vlastně
náhodný výběr hodnot z úplného souboru. Aby výsledky statistické analýzy takového
náhodného výběru byly správné - odpovídaly parametrům souboru úplného – musí
mít výběrový soubor určité vlastnosti – musí být reprezentativní [1], [2].
2.2 Vlastnosti reprezentativního datového souboru
Statistickým vyhodnocením úplného (základního) souboru dat bychom obdrţeli
přesné (deterministické) hodnoty parametrů náhodné veličiny. Jelikoţ však máme
- 13 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
k dispozici pouze výběrový soubor - konečnou mnoţinu dat, výběr z mnoţiny úplné
(někdy nekonečné) - nemůţeme jeho statistickým vyhodnocením získat parametry
deterministické, nýbrţ opět jen stochastické (které mají opět charakter náhodných
veličin!). Tyto parametry musíme povaţovat pouze za odhady skutečných hodnot
parametrů. Jde nyní o to, aby tyto odhady (statistické odhady) byly co nejbliţší
hodnotám skutečným, abychom se nedopustili nepřípustných chyb.
Prvním předpokladem kvality statistických odhadů je – jak jsme jiţ uvedli pořízení reprezentativního výběrového souboru. Znaky takového reprezentativního
výběru jsou:



vzájemná nezávislost jednotlivých prvků výběru – velikost jednoho
prvku nesmí být ovlivněna velikosti prvku jiného (např.
předcházejícího),
homogenita výběru - podmíněná tím, ţe všechny prvky výběru
pocházejí ze stejného druhu rozloţení hustoty pravděpodobnosti –
výběrový soubor nesmí být sloţen z více podsouborů odlišných
náhodných veličin,
stejná pravděpodobnost všech prvků – ţe budou do výběru zařazeny,
ţádná hodnota nesmí být upřednostněna před ostatními.
Významnou podmínkou korektnosti výběrového souboru je, aby všechna
měření byla provedena za stejných podmínek (podmínka reprodukovatelnosti
podmínek měření).
Prvotním úkolem pracovníka, který organizuje etapu získání dat (etapu měření
– viz kap.8), je vyloučení vlivů, které by mohly reprezentativnost budoucího souboru
porušit. Prvotním úkolem pracovníka, který pak přistupuje ke statistické analýze
výběrového souboru, musí být ověření vlastností tohoto souboru a potvrzení jeho
reprezentativnosti.
Základním výsledkem statistické analýzy
vyhodnocované náhodné veličiny. Jsou to obvykle



jsou
odhady
charakteristik
typ funkce rozloţení hustoty pravděpodobnosti měřené náhodné
veličiny.
střední (nejpravděpodobnější) hodnota náhodné veličiny
disperze (rozptyl) - rozptýlení hodnot náhodné veličiny kolem této
střední hodnoty
Základním předpokladem správnosti získaných výsledků je poţadavek, aby
parametry náhodné veličiny, získané analýzou výběrového souboru jako jejich
odhady, se co nejméně odlišovaly od parametrů skutečných, tedy takových, které
bychom získali analýzou úplného souboru (kdybychom jej měli k dispozici).
Jak ukáţeme dále, jsou vlastnosti souboru velice významně ovlivněny jeho
rozsahem – počtem naměřených hodnot n. Lze říci, ţe čím je rozsah souboru větší,
tím přesnější odhady velikostí parametrů náhodné veličiny (střední hodnota, rozptyl)
jsme schopni získat. Platí, ţe přesnost a spolehlivost všech statistických výpočtů je
přímo úměrná rozsahu výběrového souboru.
- 14 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
V mnohých případech není moţné dostatečně velký počet měření získat
(důvody časové, ekonomické, věcné). V takových případech se musíme spokojit
s malým rozsahem souboru a k analýze musíme pouţít speciální metody (metody
robustní – viz kap. 6). Jak uvidíme, lze stanovit minimální nutný počet měření,
potřebný k dosaţení předem stanovené (poţadované) přesnosti výpočtů.
Problematika získávání datových souborů v ekonomii je uvedena v kap. 8.
SHRNUTÍ KAPITOLY
Vlastnosti náhodné veličiny vyšetřujeme prostřednictvím výběrového souboru jejích
naměřených dat. Výběrový soubor musí splňovat podmínky reprezentativnosti.
Vyhodnocením náhodného výběru hodnot získáme pouze odhady charakteristik
náhodné veličiny, skutečné hodnoty bychom mohli získat ze souboru základního. Ten
obsahuje všechny moţné hodnoty náhodné veličiny a není proto prakticky dostupný.
ÚKOLY
1.
Definujte základní a výběrový soubor hodnot náhodné veličiny!
2.
Jaké jsou vlastnosti reprezentativního náhodného výběru?
3.
Jmenujte náhodnou veličinu, u níţ lze získat základní soubor jejích hodnot!
LITERATURA KE KAPITOLE
Základní literatura:
[1]
HÁJOVSKÝ, R., POKORNÝ, M., KOZUB, R. Statistické zpracování měřených
dat I. Ostrava: FEI VŠB-TUO, 2005.
Doporučená literatura:
[2]
LIKEŠ, J., MACHEK, J. Matematická statistika. Praha: SNTL, 1988.
- 15 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
3 Průzkumová analýza naměřených dat
CÍL
Po prostudování budete umět:




vyjmenovat základní metody průzkumové analýzy,
charakterizovat grafy identifikace vlastností souboru a pouţít je v praxi,
ověřit předpoklady o naměřených datech,
porozumět významu průzkumové analýzy statistického souboru dat.
KLÍČOVÁ SLOVA
Průzkumová analýza, kvantil, diagram rozptýlení, krabicový graf, histogram,
předpoklady o vlastnostech naměřených dat, vybočující data.
3.1 Ověření vlastností výběrového souboru
Ověření vlastností výběrového souboru provádíme pomocí metod, které jsou
zahrnuty do tzv. průzkumové analýzy, kterou nesmíme nikdy vynechat. Průzkumová
analýza poskytuje také mnohé moţnosti ke zlepšení vlastností výběrového datového
souboru, coţ vede k získání lepších výsledků statistické analýzy [1].
Úkolem průzkumové analýzy dat je prvotní zhodnocení jejich vlastností s cílem
stanovení předpokladů pro jejich následné statistické zpracování. Jejím cílem je
především nalezení zvláštností statistického chování dat. Jako metody průzkumné
analýzy pouţíváme pouze takové, které nejsou ovlivněny typem vyšetřované
náhodné veličiny.
Pro pochopení konstrukce a významu nástrojů průzkumové analýzy je nutno
vysvětlit pojem tzv. kvantilů.
Kvantily jsou zvláštním druhem číselných charakteristik polohy. Označujeme je
jako P-kvantily. Jsou to vybrané hodnoty výběrového souboru studované náhodné
veličiny.
P-procentní kvantil je taková hodnota náhodné veličiny x, která má tu vlastnost,
ţe pod ní leţí p% procent prvků náhodného výběrového souboru. Tak např.
100procentní kvantil
je největší prvek souboru (všechny ostatní leţí velikostí
pod ním), 60procentní kvantil
je takový prvek, pod ním svojí velikostí leţí 60%
zbývajících prvků souboru apod. Význam kvantilů ve statistice bude vysvětlen
v dalších podkapitolách a kapitolách.
- 16 -
Kvantily
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
3.2 Grafy identifikace vlastností výběrového souboru
Jednou z nejjednodušších metod průzkumové analýzy výběrového souboru je
konstrukce identifikačních grafů. Jednotlivé grafy identifikace poskytují informace
o velmi důleţitých statistických rysech výběru, jako je




stupeň symetrie výběru,
stupeň rozptylu výběru,
lokální koncentrace (shluky) dat
přítomnost abnormálních (vybočujících) dat.
Tyto rysy jsou velice důleţitými informacemi, které nám umoţňují na jedné
straně předběţně odhadnout tvar funkce rozdělení hustoty pravděpodobnosti
výběrového souboru, odhalit nehomogenity souboru a upozornit na existenci
takových dat, které se od hodnot ostatních hrubě odlišují a mohou, jak bude ukázáno
dále, reprezentativnost výběrového souboru významně poškodit.
Uvaţujme výběrový soubor sloţený z n jednotlivých prvků (naměřených
hodnot)
. Seřaďme hodnoty
podle velikosti (od nejmenší
po největší
) a vynesme je podle velikosti do řady na vodorovnou osu (obrázek
Diagram
rozptýlení
3.1).
Diagram rozptýlení
Obrázek 3.1
Získáme tzv. graf rozptýlení (hodnot náhodné veličiny ve výběrovém souboru).
Je to sice primitivní graf, odhalí však okamţitě lokální koncentrace dat (je-li jich více
neţ jedna, svědčí to o nehomogenitě výběrového souboru – data nepatří pouze
jedné náhodné veličině, nebyly dodrţeny poţadavky opakovatelnosti podmínek
měření) a velmi nebezpečné abnormální (vybočující) hodnoty měření. Náhodná
veličina s grafem rozptýlení na Obrázku 3.1 má zřejmě symetrickou funkci
,
výběrový soubor je homogenní (pouze jeden shluk přibliţně uprostřed grafu)
a neobsahuje zřejmě vybočující data.
Jestliţe koncentrace dat v určitých úsecích diagramu znepřehledňuje obraz,
použijeme rozmítnutého diagramu rozptýlení (vychýlením některých hodnot ve směru
svislé osy) podle Obrázku 3.2.
- 17 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Rozmítnutý diagram rozptýlení
Obrázek 3.2
Krabicový graf
Pro lepší informaci o vlastnostech výběrového souboru vyuţijeme tzv.
krabicového grafu, který umoţňuje


určení mediánu M jako charakteristiky polohy (střední hodnoty)
identifikaci odlehlých dat.
Krabicový graf (Obrázku 3.3) je konstruován jako obdélník o délce
Rovnice 3.1
kde
souboru.
je 75procentní (horní) a
25procentní (dolní) kvantil výběrového
V místě mediánu je obdélník rozdělen vertikální čarou. Od obou protilehlých
stran obdélníku pokračují úsečky, které jsou ukončeny tzv. přilehlými hodnotami
a
. Tyto hodnoty leţí uvnitř tzv. vnitřních hradeb nejblíţe k jejich hranicím
a
:
Rovnice 3.2
Rovnice 3.3
Významné je, ţe prvky výběrového souboru, leţící mimo vnitřní hradby, jsou
povaţovány za podezřelé a jako takové mohou být ze souboru vyloučeny jako
hodnoty vybočující (odlehlé). Na Obrázku 3.3 jsou vybočující data jsou označena
kříţky. Tvar grafu svědčí o mírné nesymetrii křivky
.
Krabicový graf
Obrázek 3.3
- 18 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Obdobou krabicového grafu je vrubový krabicový graf, který umoţňuje posoudit
navíc variabilitu (rozptyl) mediánu. Ta je vyjádřena intervalem
, pro jehoţ
meze platí vztahy:
Rovnice 3.4
Rovnice 3.5
Interval rozptylu mediánu je na obrázku 3.4 vyznačen tečkovanými čarami,
vybočující data jsou opět označena kříţky.
Vrubový krabicový graf
Obrázek 3.4
Krabicové grafy se pouţívají také často k porovnání dvou výběrů. Dobře
indikují asymetrii rozdělení a podezřelá měření.
3.3 Histogram
Histogram je jedna z nejstarších metod odhadu tvaru funkce rozloţení hustoty
pravděpodobnosti
. Jde o obrys sloupcového grafu, kde jsou na ose x vyneseny
tzv. třídy definující počet (a tedy i šířku) sloupců, přičemţ výšky sloupců odpovídají
empiricky zjištěným hustotám pravděpodobnosti jako četnosti výskytu hodnot
v jednotlivých třídách.
Setřídění dat do tříd předpokládá určení počtu tříd L, který kvalitu
histogramu značně ovlivňuje. Pro přibliţně symetrická rozloţení výběru volíme
Rovnice 3.6
nebo empiricky pro široké rozmezí velikosti výběru n
Rovnice 3.7
Pro rozloţení, u nichţ předpokládáme přibliţnou symetrii, volíme délku třídních
intervalů konstantní.
- 19 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Na Obrázku 3.5 je nakreslen příklad histogramu, které naznačuje moţný typ
funkce f(x) odpovídající funkci Gaussova rozloţení hustoty pravděpodobnosti.
Histogram homogenního souboru s Gaussovým rozložením
Histogramy jsou velmi důleţitou metodou průzkumové analýzy, protoţe
dovolují předběţně posoudit nejen velikost číselných charakteristik, ale i tvar funkce
rozloţení hustoty pravděpodobnosti
– tedy typu analyzované náhodné veličiny.
Histogram známe např. jako grafickou metodu posouzení kvality snímku (rozdělení
jasů) digitálního fotoaparátu.
3.4 Ověření předpokladů o datech
V minulé podkapitole jsme uvedli ty metody průzkumové analýzy, které
umoţňují získat rychle a spolehlivě základní informace o typu rozloţení náhodné
veličiny a o homogenitě souboru. Nyní si ukáţeme, jak lze ověřit, zda rozsah
výběrového souboru je pro naše potřeby dostatečný, zda neobsahuje vybočující data
a zda můţeme předpokládat, ţe náhodná veličina má normální rozloţení hustoty
pravděpodobnost.
Ověření minimální velikosti výběru
Jak jiţ bylo řečeno a bude ukázáno i dále, počet naměřených hodnot (tzv.
rozsah) výběru n je pro kvalitu statistické analýzy velmi významný. U velmi
malých výběrů se stává, ţe přesnost výsledků statistických výpočtů jsou více
ovlivněny hodnotou velikosti výběru n neţ variabilitou dat!
- 20 -
Obrázek 3.5
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Určení minimálního rozsahu výběru pro dodržení požadované velikosti
konfidenčního intervalu stanovení střední hodnoty  .
Konfidenční interval definuje hranice, v nichž leží skutečná velikost střední
hodnoty μ. Postup určení minimálního potřebného rozsahu výběru
je následující.
Nejprve je třeba z předběţných n1 hodnot výběru určit odhad výběrového rozptylu
podle vztahu:
Rovnice 3.8
Pokud se jedná o výběr z Gaussova normálního rozloţení, určí se
minimální rozsah výběru
tak, aby s pravděpodobností
platilo:
Rovnice 3.9
kde d je námi stanovené číslo, reprezentující poţadovanou přesnost.
Parametr  je tzv. hladina významnosti,   0,1 . Ten se vyskytuje ve
statistických výpočtech velmi často. Všechny statistické odhady jsme schopni učinit
pouze s určitou pravděpodobností jejich platnosti. Tuto pravděpodobnost můţeme
volit právě volbou hodnoty α. Např. pro hodnotu α = 0,1 je pravděpodobnost platnosti
výsledků rovna:
Rovnice 3.10
Pro minimální nutnou velikost výběru pak platí vztah:
Rovnice 3.11
kde
je kvantil Studentova rozdělení s (n-1) stupni volnosti. Ten
nalezneme ve statistických tabulkách [3], [4].
Určení minimálního rozsahu výběru pro dodržení požadované velikosti

relativní chyby stanovení směrodatné odchylky  s .
Velmi často pouţívaným statistickým parametrem náhodné veličiny je velikost
její směrodatné odchylky
  s . Ta je dána jako druhá odmocnina rozptylu (viz dále).
Pro zadanou velikost relativní chyby směrodatné odchylky
výběru rovna:
- 21 -
  s je minimální velikost
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Rovnice 3.12
kde
je koeficient špičatosti Gaussova normálního rozloţení (jeden z
parametrů tvaru funkce
).
Rovnice 3.13
Uveďme si příklad vlivu rozsahu výběrového souboru na přesnost stanovení
často pouţívané směrodatné odchylky σ. Zvolíme-li např. chybu (s) = 0.1 (tj. 10%),
vychází minimální rozsahy výběru podle Tabulky 3.1.
Minimální rozsahy výběrových souborů
Rozdělení
Rovnoměrné
Normální
Exponenciální
Tabulka 3.1
Minimální rozsah
21
51
126
Výsledky, uvedené v této tabulce, nám ukazují, jaké nekorektnosti se
dopouštíme, kdyţ zpracováváme statistické soubory bez předchozího ověření jejich
funkce rozloţení (např. kdyţ chybně předpokládáme, ţe se jedná o rozloţení
Gaussovo) a navíc s malými rozsahy výběrů.
Odhalení vybočujících (odlehlých) dat
Velké chyby odhadů parametrů výběrového souboru mohou způsobit tzv.
vybočující (odlehlá) data. Jsou to hrubě nepřesné hodnoty, způsobené okamţitým
výkyvem podmínek měření. Taková data musíme odhalit a ze souboru vyloučit.
Za předpokladu Gaussova normálního rozloţení náhodné veličiny můţeme
eliminovat vybočující data pomocí tzv. modifikovaných vnitřních hradeb B*D a B*H
podle Obrázku 3.6.
Modifikované vnitřní hradby
Obrázek 3.6
kde velikosti modifikovaných vnitřních hradeb určíme podle vztahů:
Rovnice 3.14
Rovnice 3.15
- 22 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Konstanta K se volí tak, aby pravděpodobnost, ţe z výběru velikosti n
pocházejícího z Gaussova normálního rozloţení, nebude ţádný prvek mimo
modifikované vnitřní hradby B*D, B*H, byla dostatečně vysoká. Pro hodnotu této
pravděpodobnosti P = 0.95 tak platí vztah
Všechny prvky výběru, leţící mimo modifikované vnitřní hradby, jsou
povaţovány za prvky vybočující a jako takové musí být z výběrového souboru
vypuštěny.
Ověření předpokladu Gaussova normálního rozložení výběru a ověření
předpokladu nezávislosti prvků výběru.
V literatuře jsou velmi často přednostně uváděny vztahy statistické analýzy,
které platí pouze pro náhodnou veličinu s Gaussovým normálním rozloţením funkce
hustoty pravděpodobnosti. Pokud chceme pouţít tyto vztahy, musíme napřed tento
předpoklad potvrdit.
Poţadavek nezávislosti jednotlivých dat ve výběrovém souboru je důleţitým
předpokladem reprezentativnosti výběrového souboru. Předpoklad nezávislosti prvků
výběru můţeme potvrdit (nebo vyvrátit).
Ověření těchto dvou velice důleţitých vlastností výběrového souboru pouţívá
metody dokazování platnosti statistických hypotéz. Proto budou jejich postupy
uvedeny aţ v kap. 5.
Vraťme se ještě k homogenitě výběrového souboru. Jedná se o důleţitý
poţadavek reprezentativnosti výběrového souboru. Je-li výběrový soubor
homogenní, pochází všechna jeho data z jediné náhodné veličiny. K porušení
homogenity dojde např. tehdy, pokud se skokem změní podmínky měření (změna
teploty, osvětlení, různé skupiny respondentů, nálady respondentů apod.). Pokud
tuto změnu nerespektujeme, je soubor sloţen ze dvou (nebo i více) podsouborů
s různými statistickými parametry.
Pomocí histogramu můţeme identifikovat nehomogenní výběrový soubor.
Pokud je soubor sloţen z více podsouborů, má histogram více maxim (polymodální
tvar). Měření se pak musí opakovat nebo soubor rozdělit. Histogram homogenního
souboru je uveden na obrázku 3.5.
Závěry o homogenitě souboru můţeme také učinit na základě vyhodnocení
diagramu rozptýlení posouzením počtu shluků dat na ose diagramu.
Pokud metody průzkumové analýzy odhalí závaţné nedostatky výběrového
souboru (jeho nehomogenitu, nesplnění podmínek reprezentativnosti), je třeba
měření opakovat a vyvarovat se chyb, které nedostatky způsobily.
- 23 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
SHRNUTÍ KAPITOLY
Pro moţnost volby správných procedur pro stanovení charakteristik náhodné veličiny
pomocí statistické analýzy a její korektnost je třeba především zjistit základní
vlastnosti a zvláštnosti výběrového souboru. Satistické analýze musí proto vţdy
předcházet předsledná analýza výběrového souboru. Jejími hlavními nástroji jsou
grafy identifikace vlastností výběrového souboru – diagram rozptýlení, krabicový graf
a histogram. Jejich prostřednictvím lze odhadnout typ rozloţení hustoty
pravděpodobnosti zkoumané náhodné veličiny, stupeň rozptylu výběru, lokální
koncentrace dat a přítomnost abnormálních vybočujících dat. Předsledná analýza
také umoţňuje ověření předpokladů o datech – ověření Gaussova normálního
rozloţení a ověření minimální nutné velikosti výběru.
ÚKOLY
1.
Proč je nutno ověřovat zvláštnosti výběrového souboru pomocí jeho
předsledné analýzy?
2.
Vyjmenujte a vysvětlete grafy identifikace vlastností výběrového souboru!
3.
Popište postup konstrukce histogramu!
4.
Jakými způsoby lze zjistit nehomogenitu výběrového souboru dat?
LITERATURA KE KAPITOLE
Základní literatura:
[1]
HÁJOVSKÝ, R., POKORNÝ, M., KOZUB, R. Statistické zpracování měřených
dat I. Ostrava: FEI VŠB-TUO, 2005.
Doporučená literatura:
[2]
LINCZÉNI, A. Inženierská statistika. Bratislava: ALFA, 1973.
- 24 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
4 Statistická analýza naměřených dat
CÍL
Po prostudování budete umět:




vysvětlit význam a cíle statistické analýzy naměřených dat,
vypočítat základní číselné charakteristiky,
stanovit konfidencí intervaly charakteristik pro náhodné veličiny,
vysvětlit význam intervalových odhadů velikostí číselných charakteristik
náhodné veličiny.
KLÍČOVÁ SLOVA
Statistická analýza, střední hodnota, rozptyl, směrodatná odchylka, hladina
významnosti, konfidenční interval, Poissonovo diskrétní rozloţení, rovnoměrné
rektangulární rozloţení, Gaussovo normální rozloţení, exponenciální rozloţení,
statistické tabulky.
4.1 Cíle statistické analýzy
V rámci kapitoly, věnované průzkumové analýze dat, jsme se seznámili
s metodami, které nám poskytnou informace jak o kvalitě námi naměřeného
výběrového souboru dat (splňuje-li podmínky souboru reprezentativního), tak
i orientační informace o základních parametrech jemu odpovídající náhodné veličiny,
(např. o její střední hodnotě a rozptylu).
Pokud průzkumová analýza potvrdí dostatečnou kvalitu našeho výběrového
souboru, můţeme přistoupit k jeho vlastní statistické analýze. Jejím cílem je určení
odhadů jeho číselných charakteristik, a jejich konfidenčních intervalů.
Problém bodových (číselných) odhadů statistických parametrů jsme jiţ uvedli.
Jsou to samy o sobě opět náhodné veličiny a jejich velikosti mají samy o sobě
význam problematický. Neříkají totiţ nic o tom, jak jsou vzdáleny od hodnot
statistických parametrů skutečných (které bychom získali statistickou analýzou
základního souboru, tj. souboru o nekonečně mnoha měřeních). Jejich spolehlivost,
která závisí především na míře reprezentativnosti základního souboru, je v mnohých
případech nízká.
Z tohoto hlediska jsou mnohem důleţitější tzv. odhady intervalové –
konfidenční intervaly. Jsou reprezentanty skutečnosti, ţe pro náhodnou veličinu nelze
stanovit přesné hodnoty jejích parametrů, nicméně lze vypočítat velikost číselného
intervalu, v němţ tato (přesná) hodnota (s předepsanou pravděpodobností.) leţí [1]
- 25 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
4.2 Bodové odhady parametrů náhodné veličiny
V kapitole 1.4 jsme se seznámili s pojmem číselných charakteristik (neboli
momentů) náhodné veličiny. Číselné charakteristiky určují různé vlastnosti
(parametry) funkce rozloţení hustoty pravděpodobnosti
, jako je poloha jejího
maxima, její štíhlost a symetrie [2].
V dalším textu se budeme zabývat pouze základními a pro praktickou
statistickou analýzu nejdůleţitějšími číselnými charakteristikami. Jsou to
charakteristiky polohy a charakteristiky variability.
Charakteristiky polohy nás informují o střední hodnotě (středu) rozdělení.
Kromě střední hodnoty patří mezi charakteristiky polohy i tzv. medián, modus
a kvantily. Střední hodnota náhodné veličiny vţdy odpovídá poloze maxima na křivce
a udává, jak je poloha křivky posunuta ve směru vodorovné osy souřadnic.
Nejčastěji pouţívanou charakteristikou polohy je střední hodnota (někdy
nazývaná matematická naděje, očekávaná hodnota, nejpravděpodobnější hodnota
vyšetřované náhodné veličiny). Je to hodnota, kterou pouţíváme v dalších výpočtech
jako výsledek měření.
Uveďme – pouze pro úplnost textu - její matematickou definici. Je definována
jako tzv. první obecný moment náhodné veličiny X. Určuje posunutí funkce rozdělení
oproti počátku osy hodnot x náhodné veličiny. Její skutečná hodnota se označuje μ
a je určena vztahem prvního obecného momentu náhodné veličiny
Rovnice 4.1
Jak jsme jiţ poznali, statistickou analýzou nejsme schopni vypočítat skutečnou
hodnotu μ – z výběrového souboru můţeme určit pouze její (bodový) odhad. Vztahy
pro výpočet bodových odhadů polohy závisí na typu náhodné veličiny a budou
uvedeny dále.
I kdyţ známe střední hodnotu náhodné veličiny, nemáme ještě přesnou
představu o tom, jaký má náhodná veličina charakter. K tomu je potřebná další
doplňující charakteristika, která nás informuje o tom, jak dalece jsou hodnoty
náhodně veličiny soustředěny kolem hodnoty střední – do jaké míry jsou kolem ní
rozptýleny, jak dalece kolem ní kolísají. Z praktického hlediska – čím jsou hodnoty
náhodné veličiny rozptýlenější, tím jsou vlivy, které náhodnost veličiny způsobují,
silnější. Tuto variabilitu náhodné veličiny podchycují charakteristiky rozptýlení
(variability).
Charakteristiky rozptýlení (variability) udávají, v jak velké míře kolísají (jsou
rozptýleny) hodnoty náhodné veličiny kolem střední hodnoty. Patří sem disperze
(rozptyl) a směrodatná odchylka náhodné veličiny. Čím má náhodná veličina větší
rozptyl, tím je křivka
širší a niţší.
Matematická definice rozptylu (disperze)  2 je dána vztahem druhého
- 26 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
centrálního momentu náhodné veličiny:
Rovnice 4.2
Disperze je tedy mírou rozptylu hodnot náhodné veličiny kolem její střední
hodnoty. Pro její bodový odhad platí totéţ, co bylo řečeno o bodovém odhadu střední
hodnoty.
Kromě rozptylu (disperze) se pro kvantifikaci rozptýlení pouţívá i jeho druhá
odmocnina, zvaná směrodatná (standardní) odchylka:
Rovnice 4.3
Směrodatná odchylka má oproti disperzi výhodu v tom, ţe má s vyšetřovanou
náhodnou veličinou shodný rozměr. Proto se směrodatná odchylka v praxi velmi
často pouţívá pro finální vyjádření charakteru náhodné veličiny. Udává se její střední
hodnota doplněná údajem o její variabilitě ve tvaru:
Rovnice 4.4
4.3 Intervalové odhady parametrů náhodné veličiny
Praktický význam intervalových odhadů – konfidenčních intervalů – byl jiţ
zdůrazněn výše. Číselná charakteristika je pouze (bodovým) odhadem hodnoty
skutečné. Intervalový odhad proto definuje číselné rozmezí, ve kterém se bude se
zadanou pravděpodobností (1- ) tato skutečná hodnota daného parametru (střední
hodnota, rozptyl - označme jej obecně  ) nacházet. Tak budeme znát alespoň její
pravděpodobnou maximální či minimální hodnotu (skutečná hodnota parametru
nemůţe být větší nebo menší neţ hranice intervalu).
V případě bodového odhadu byl neznámý parametr  určen jedinou číselnou
hodnotou; v případě odhadu intervalového je určen dvěma hraničními hodnotami L1
a L2 , které tvoří meze konfidenčního intervalu:

Rovnice 4.5
kde parametr  je opět hladina významnosti. Rovnice představuje tvrzení, ţe
pravděpodobnost, s níţ se bude skutečná hodnota  nacházet v mezích L1 a L2 je
rovna právě (1 -  ).
Hladina významnosti se volí jako hodnota z intervalu   0,1 , nejčastěji pak
0.05 nebo 0.1. Intervalový odhad pak představuje interval, v němţ leţí skutečná
(přesná, deterministická) hodnota parametru s pravděpodobností 0.95 nebo 0.90.
- 27 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Intervaly spolehlivosti se vyznačují těmito vlastnostmi:



čím je rozsah výběru n větší, tím je konfidenční interval uţší;
čím je odhad přesnější a má menší rozptyl, tím je konfidenční interval
uţší;
čím vyšší je statistická jistota (1-), tím je interval spolehlivosti širší.
Matematické vztahy pro výpočet bodových odhadů parametrů náhodné veličiny
a mezí jejich konfidencích intervalů závisí na typu náhodné veličiny, tedy na tvaru
funkce rozloţení její hustoty pravděpodobnosti
a budou uvedeny dále.
Vybraným typům náhodných veličin je věnována následující část kapitoly. V ní
jsou také uvedeny příslušné matematické vztahy pro praktický výpočet bodových
odhadů a konfidenčních intervalů středních hodnot a rozptylů.
4.4 Vybrané typy funkcí rozložení hustoty pravděpodobnosti
Rovnoměrné (rektangulární) rozložení
Toto rozdělení se týká oboustranně omezených náhodných veličin, jejichţ
hodnoty leţí v intervalu a  x  b . Důleţité je, ţe v tomto intervalu se hodnoty
vyskytují se stejnou pravděpodobností. Označme b  a  h.
Funkce hustoty pravděpodobnosti má analytický tvar:
Rovnice 4.6

Funkce má dva parametry, jejichţ odhady označíme x (střední hodnota) a
(rozptyl). Tvar funkce rozloţení hustoty pravděpodobnosti rovnoměrného rozdělení je
uveden na Obrázku 4.1. Na osu x vynášíme hodnoty náhodné veličiny, na osu
y vynášíme odpovídající velikost hustoty pravděpodobnosti.
Odhad střední hodnoty , získaný z prvků
výběrového souboru je:
Rovnice 4.7
Odhad rozptylu
je roven:
Rovnice 4.8
- 28 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Funkce rozdělení hustoty pravděpodobnosti rovnoměrného rozdělení
Obrázek 4.1
Pro určení konfidenčních intervalů těchto odhadů se pouţívá vztahů:
Rovnice 4.9
Rovnice 4.10
kde
Rovnice 4.11
Rovnice 4.12
jsou rozptyly příslušných odhadů. Veličina u1 / 2 je (1 – α/2)kvantil Gaussova
normálního rozdělení, který pro zvolenou hladinu významnosti α nalezneme
ve statistických tabulkách [4], [3].
Gaussovo (normální) rozložení
Toto symetrické rozloţení je velmi rozšířené. Normálně rozloţená (Gaussova)
náhodná veličina vzniká součtem různých náhodných sloţek, vlivů a veličin, které
jsou navzájem nezávislé, a ţádná z nich není dominantní. Pro hustotu rozdělená
takové spojité náhodné veličiny X platí analytický vztah:
Rovnice 4.13
kde μ představuje její střední hodnotu,  2 rozptyl a σ směrodatnou
odchylku. Charakteristický (zvonový) tvar funkce Gaussova rozloţení je uveden
- 29 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
na obrázku 4.2.
Funkce Gaussova rozložení hustoty pravděpodobnosti
Obrázek 4.2
Odhad střední hodnoty μ (výběrový průměr, označovaný x ) je dán známým
vztahem pro stanovení velikosti aritmetického průměru
Rovnice 4.14
a pro odhad rozptylu (označovaného
) platí rovnice
Rovnice 4.15
Konfidenční interval střední hodnoty je dán vztahem
Rovnice 4.16
kde
) kvantil speciálního Studentova t- rozloţení s (n-1)
je (
stupni volnosti.
Hodnoty kvantilů různých rozloţení pro dané  a daný počet stupňů volnosti
nalezneme ve statistických tabulkách [4], [3].
Konfidenční interval rozptylu pak vztahem
Rovnice 4.17
Kde
a
jsou kvantily Pearsonova
 2 (chí-kvadrát)
rozloţení s (n-1) stupni volnosti, které pro dané α opět vyhledáme ve statistických
- 30 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
tabulkách [3], [4].
Jak jiţ bylo uvedeno, pro praktické posouzení stupně rozptýlení velmi dobře
poslouţí hodnota směrodatné odchylky σ.
Pro náhodnou veličinu s Gaussovým rozloţením platí, ţe v intervalu
  
leţí asi 62 % a v intervalu   2 leţí přibliţně 95 % všech jejích hodnot.
V praxi neznáme střední hodnotu  ani směrodatnou odchylku základního
souboru  a proto je musíme nahradit jejich výběrovými charakteristikami výběrovou střední hodnotou a výběrovou směrodatnou odchylkou s, vypočítanými
z výběrových souborů.
Exponenciální rozložení
Je příkladem nesymetrického rozloţení náhodné veličiny, jejíţ hodnoty jsou
jednostranně ohraničené zdola. Je typické např. pro ţivotnost strojních součástek.
Jeho hustota pravděpodobnosti je dána analytickým vztahem:

kde
parametr 
reprezentuje
Rovnice 4.18

střední
hodnotu
a
 rozptyl. Funkce
exponenciálního rozloţení hustoty pravděpodobnosti je uvedena na Obrázku 4.3.
Funkce exponenciálního rozložení hustoty pravděpodobnosti
Obrázek 4.3
Odhad parametru střední hodnoty  je roven:
Rovnice 4.19
Střední hodnota odpovídá opět maximu funkce
- 31 -
– v našem případě jejím
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
odhadem je minimální ze všech hodnot výběrového souboru, hodnota
.
Zde si uvědomíme chybu, kterou bychom učinili, kdybychom neprovedli
předběžnou analýzu, neznali typ rozložení a pro stanovení střední hodnoty použili
běžného vztahu po výpočet aritmetického průměru hodnot výběru
!!
Odhad rozptylu  pak vypočítáme podle vztahu:
Rovnice 4.20

Pro určení konfidenčního intervalu střední hodnoty můţeme pouţít vztahů, kdy
horní mez intervalu je rovna:
Rovnice 4.21

kde
je (1 – α/2) kvantil speciálního Fischerova F- rozloţení s (2n1) stupni volnosti, který pro zvolené α opět nalezneme ve statistických tabulkách [4],
[3].
Dolní mez konfidenčního intervalu střední hodnoty je s pravděpodobností
blízkou jedné rovna nejmenšímu prvku výběru
.
Konfidenční interval rozptylu určíme vztahem:

kde
rozloţení se
je

a

je
Rovnice 4.22
kvantil Chí-kvadrát
stupni volnosti ze statistických tabulek [4], [3].
SHRNUTÍ KAPITOLY
Cílem statistické analýzy výběrového souboru jsou odhady číselných charakteristik
náhodné veličiny a stanovení jejich konfidenčních intervalů. Základními číselnými
charakteristikami jsou charakteristika polohy – střední hodnota náhodné veličiny –
a charakteristika rozptýlení – disperze neboli rozptyl či směrodatná odchylka.
Skutečné hodnoty číselných charakteristik leţí uvnitř konfidenčních intervalů. Vztahy
pro výpočet číselných charakteristik závisí na typu rozloţení vyšetřované náhodné
veličiny. Uvedeny jsou postupy praktického výpočtu číselných charakteristik a mezí
jejich konfidenčních intervalů náhodných veličin s rozloţením rovnoměrným,
Gaussovým a exponenciálním.
- 32 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
ÚKOLY
1.
Jaké jsou cíle statistické analýzy výběrového souboru dat?
2.
Jaké jsou základní číselné charakteristiky polohy a rozptýlení?
3.
Vysvětlete význam intervalových odhadů číselných charakteristik!
4.
Vyjmenujte nejdůleţitější typy rozloţení hustoty pravděpodobnosti náhodných
veličin!
5.
Vysvětlete chybu, která vznikne, pouţijeme-li pro výpočet střední hodnoty
náhodné veličiny s exponenciálním rozloţením vztahu aritmetického průměru!
LITERATURA KE KAPITOLE
Základní literatura:
[1]
KOŢÍŠEK, J. Statistická analýza. Praha: ČVUT, 1993.
[2]
HÁJOVSKÝ, R., POKORNÝ, M., KOZUB, R. Statistické zpracování měřených
dat I. Ostrava: FEI VŠB-TUO, 2005.
[3]
Kritické
hodnoty
a
tabulky
rozdělení
[on line].
[cit. 2010-0220]. Dostupný z WWW:
<www.kmt.zcu.cz/person/Kohout/info_soubory/letnisem/tabulky.htm>.
Doporučená literatura:
[4]
LIKEŠ, J., LAGA, J. Základní statistické tabulky. Praha: SNTL, 1978.
- 33 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
5 Testování statistických hypotéz
CÍL
Po prostudování budeme umět:



sestavit testy prokazující reprezentativnost výběrového souboru
a předpoklad jeho normality,
testovat hypotézy o statistických parametrech jednoho souboru
a shody parametrů dvou souborů,
porozumět významu statistických testů.
KLÍČOVÁ SLOVA
Statistický test, statistické hypotézy, testovací statistika, kritický obor, testy shody
parametrů, test Fischerův, test Studentův.
5.1 Metoda statistických testů
V průběhu průzkumové i statistické analýzy vyslovujeme různé
o vlastnostech výběrového souboru nebo vyslovujeme úvahy o
proporcích vlastností dvou souborů při jejich porovnávání. Takové
nazýváme statistické hypotézy a jejich platnost ověřujeme tzv. testy
hypotéz [1].
předpoklady
vzájemných
předpoklady
statistických
Ověřování platnosti nebo neplatnosti námi vyslovovaných statistických hypotéz
je prováděno pomocí testů, které patří ke sloţitějším analytickým procedurám. Při
výpočtech musíme často pouţívat hodnot, odečtených ve statistických tabulkách.
Reálné testy budou součástí tutoriálů. V dalším textu vysvětlíme jejich zásady
a postupy, doloţené potřebnými matematickými vztahy. Tyto vztahy však budou
vysvětleny do hloubky, nutné pro moţnost jejich praktického pouţití.
Pokud vyslovujeme předpoklad o vlastnosti parametru souboru, musíme
nejprve formalizovat dva základní výroky – tzv. nulovou hypotézu a tzv. alternativní
hypotézu. Nulovou hypotézu pak následným testem buď potvrdíme (a přijmeme),
nebo nepotvrdíme (a zamítneme). Alternativní hypotézu pak přijímáme v případě
zamítnutí hypotézy nulové. Postup testování pak můţeme chápat jako postup
zamítání alternativních hypotéz.
Při ověřování (testování) hypotézy postupujeme vţdy standardním způsobem,
který má tyto kroky:
1) Zformulujeme nulovou hypotézu
- 34 -
a alternativní hypotézu
podle
Modul: Exaktní metody řešení projektů VaV
2)
3)
4)
5)
6)
7)
Předmět: Matematické metody vyhodnocování
experimentů
povahy problému.
Zvolíme hladinu významnosti , čímţ určíme pravděpodobnost
platnosti výsledků testu.
Podle typu testu vybereme vztah pro výpočet odpovídající testovací
statistiky (testovacího kritéria).
Vybereme vztah pro určení mezí tzv. kritického oboru (intervalu) hodnot
testovací statistiky.
Vytvoříme náhodný výběr, vypočítáme hodnotu testovací statistiky
a určíme meze kritického oboru (pomocí statistických tabulek).
Rozhodneme o zamítnutí
a přijetí
v případě, ţe hodnota
testovacího kritéria padne do kritického oboru.
Rozhodneme naopak, pokud hodnota testovacího kritéria padne mimo
kritický obor.
Nyní uvedeme postupy nejpouţívanějších statistických testů. Začneme
hypotézami z oboru průzkumové analýzy, o kterých jsme se jiţ zmínili v podkap 3.4.
5.2 Testy o reprezentativnosti výběrového souboru
Ověření předpokladu nezávislosti prvků výběru
Při nesprávném postupu vytváření výběrového souboru můţe vzniknout
závislost mezi velikostí jeho prvků. Ta je z hlediska reprezentativnosti výběrového
souboru ovšem neţádoucí. Pro ověření (nebo popření) předpokladu o nezávislosti
dat výběru můţeme pouţít právě metodu testování hypotéz. Tak tedy pro ověření
předpokladu o závislosti prvků výběru testujeme významnost tzv. autokorelačního
koeficientu prvního řádu
Odpovídající nulová hypotéza o nezávislosti prvků
(závislost mezi prvky neexistuje) má tvar:
Rovnice 5.1
Alternativní hypotéza potvrzující závislost prvků (závislost mezi prvky existuje)
má tvar:
Rovnice 5.2
Testovací kritérium má v tomto případě tvar:
Rovnice 5.3
kde
Rovnice 5.4
a T je tzv. Neumannův poměr:
- 35 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Rovnice 5.5
Nyní provedeme posouzení velikosti testovacího kritéria. Platí-li
Rovnice 5.6
je nutno hypotézu o nezávislosti prvků výběru H 0: Pa  0
na hladině
významnosti α odmítnout (hypotéza o nezávislosti prvků výběru neplatí) a prvky
výběru je třeba povaţovat za závislé se všemi důsledky, které z toho vyplývají.
Výraz
je
kvantil Studentova t-rozdělení s (n-1) stupni
volnosti (statistické tabulky [3], [2]).
Ověření normality výběru
Jedná se o základní test, protoţe na předpokladu Gaussova normálního
rozloţení vyšetřované náhodné veličiny je zaloţeno mnoho vztahů statistické
analýzy. Uvedeme test kombinace výběrové šikmosti a špičatosti, jehoţ testovací
kritérium má tvar:
Rovnice 5.7
kde výběrové šikmosti
jsou dány vztahy
a špičatosti
resp. jejich rozptyly
a
Rovnice 5.8
Rovnice 5.9
Rovnice 5.10
Rovnice 5.11
Je-li
, je nutno hypotézu o normalitě rozloţení výběru na hladině
významnosti α odmítnout a výběr nelze povaţovat jako soubor s Gaussovým
normálním rozloţením.
- 36 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
5.3 Testy hypotéz o statistických parametrech jednoho souboru
Testy hypotéz o parametrech  a 2 normálního rozdělení
K dispozici je výběrový soubor o rozsahu n. Z něho vypočteme výběrový
průměr x a směrodatnou odchylku s. Testujeme, zda skutečná hodnota parametru 
(opět na zvolené hladině významnosti α) je nebo není rovna námi zvolené
a předpokládané hodnotě .
Rovnice 5.12
Jako testovací statistiku volíme veličinu t.
Rovnice 5.13
Pro parametr rozptýlení 2 jsou hypotézy vysloveny formou:
Rovnice 5.14
a testovací statistika má tvar:
Rovnice 5.15
Testy hypotéz o parametrech jednoho souboru
Tabulka 5.1
Nulová
Alternativní
Testová
Kritický
hypotéza H0
hypotéza HA
charakteristika
obor
  0
=0
  0
t 
x   0 
 2   20
t(n-1) je kvan-
t  t n  1
til Studentova
n
t t
 2   20
2=20
t  t1 n  1
s
  0
2 
n  1s 2

2
0
 2   20
Poznámka
1

n  1
rozdělení
2
 2   12 n  1
2(n-1) je
 2   2 n  1
kvantil 2
 2  n  1   2 
rozdělení
2
 2
1

n  1
2
Kritické obory testu hypotéz o střední hodnotě a disperzi souboru z normálního
- 37 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
rozdělení jsou pro hladinu významnosti  uvedeny v Tabulce 5.1.
5.4 Testy hypotéz o statistických parametrech dvou souborů
Velmi často je třeba porovnat dva výběry
a
.
Tato úloha se např. vyskytuje v případě nutnosti dělení heterogenních výběrů
do homogenních podskupin. Tyto testy se často nazývají testy dobré shody.
Test shody rozptylů (Test Fischerův)
Pro testování shody dvou rozptylů x a y se pouţívá test Fischerův. Hypotézy
jsou stanoveny takto:
Rovnice 5.16
Vycházíme z předpokladu, ţe oba výběry jsou z normálního rozdělení.
Testovací kritérium má potom tvar:
Rovnice 5.17
Platí-li:
Rovnice 5.18
je nulová hypotéza
shodě rozptylů na hladině významnosti  zamítnuta.
Počet stupňů volnosti kvantitu Fischerova rozloţení (statistické tabulky [3], [2])
stanovíme podle vztahu:
Rovnice 5.19
Testy shody rozptylů musíme pouţít mj. k rozhodnutí, zda lze při testování
shody středních hodnot vycházet z předpokladu
, nebo nikoliv (viz následující
Test Studentův).
Test shody středních hodnot (Test Studentův)
Pro Studentův test shody středních hodnot dvou výběrů vyslovíme tyto
hypotézy:
Rovnice 5.20
- 38 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Při testování postupujeme dvěma způsoby v závislosti na předpokladu rozdílu
velikosti hodnot rozptylů
a
(výsledek předcházejícího testu Fischerova).
Jestliţe platí
, pouţijeme testovací kritérium
Rovnice 5.21
Hypotéza
je na hladině významnosti  zamítnuta tehdy, pokud
Rovnice 5.22
Jestliţe platí
, má testovací kritérium tvar:
Rovnice 5.23
Hypotézu
tehdy, pokud:
o shodě středních hodnot na hladině významnosti  zamítáme
Rovnice 5.24
Stupeň volnosti   kvantilu Studentova t-rozloţení určíme podle vztahu:
Rovnice 5.25
- 39 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
SHRNUTÍ KAPITOLY
Předpoklady o vlastnostech výběrového souboru vyslovených formou statistických
hypotéz můţeme ověřovat metodami jejich testování. Výsledkem testu je přijetí
nulové hypotézy a zamítnutí hypotézy alternativní či naopak. Tak můţeme ověřit
platnost hypotézy o nezávislosti prvků výběru, o normalitě výběru a o střední
hodnotě či rozptylu normálního rozloţení. Jiné testy umoţňují ověření hypotéz
o statistických parametrech dvou souborů – testy shody jejich rozptylů a středních
hodnot. Všechny testy provádíme na určité hladině významnosti, která
určuje pravděpodobnost platnosti výsledku testu. V procedurách testování
hypotéz vyuţíváme
kvantily speciálních
umělých
rozloţení
(Fischerovo,
Studentovo, Chí-kvadrát). Potřebné hodnoty kvantilů vyhledáváme ve statistických
tabulkách.
ÚKOLY
1.
Uveďte obecný postup testování statistických hypotéz!
2.
Co je to hladina významnosti α a jaký je její význam pro platnost výsledku
testu?
3.
Vysvětlete pojem testovací statistiky a meze kritického oboru!
4.
Vyslovte příklad nulové a alternativní hypotézy!
LITERATURA KE KAPITOLE
Základní literatura:
[1]
ANDĚL, J. Matematická statistika. Praha: SNTL/ALFA, 1985
[2]
Kritické
hodnoty
a
tabulky
rozdělení
[on line].
[cit. 2010-0220]. Dostupný z WWW:
<www.kmt.zcu.cz/person/Kohout/info_soubory/letnisem/tabulky.htm>.
Doporučená literatura:
[3]
LIKEŠ, J., LAGA, J. Základní statistické tabulky. Praha: SNTL, 1978.
- 40 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
6 Robustní metody statistické analýzy
CÍL
Po prostudování budete umět:


provést statistickou analýzu souborů s neznámým rozloţením nebo
souborů s malým rozsahem výběrového souboru,
robustní odhady středních hodnot a rozptylů statisticky neurčitých
souborů.
KLÍČOVÁ SLOVA
Robustní odhad parametrů, medián, uřezaný průměr, modus, malý výběr, pivotová
polosuma, pivotové rozpětí.
6.1 Robustní odhady parametrů
Základním problémem statistické analýzy je korektnost jejich výsledků. Ta
závisí na kvalitě výběrového souboru (reprezentativnost), na moţné existenci
vybočujících hodnot, na dostatečném počtu prvků výběrového souboru, výsledcích
průzkumové analýzy (předběţná informace o typu rozloţení hustoty
pravděpodobnosti – soubor má pravděpodobně jiné rozloţení neţ Gaussovo).
Při narušení předpokladu normality dat, coţ je obvykle způsobeno vybočujícími
hodnotami měření, nebo existence dalších nejistot v rozloţení dat, lze získat
korektnější odhady parametrů s vyuţitím tzv. robustních metod.
Robustní metody umoţňují stanovení základních bodových odhadů - odhadů
parametrů polohy, u nichţ je moţné dále stanovit odhad velikosti jejich rozptylu
případně mezí konfidenčních intervalů.
Medián
Medián
Příkladem robustního odhadu polohy (střední, nejpravděpodobnější hodnoty) je
x0,5 . Má přesnou interpretaci pro symetrická i nesymetrická rozdělení. Jde
medián ~
vţdy o 50% kvantil, kdy polovina prvků výběrového souboru leţí pod a polovina nad
jeho hodnotou [1].
Uvedli jsme, ţe parametry získané z výběrového souboru jsou opět náhodné
veličiny a mají jako takové svoje parametry. Při pouţití robustních metod pro
určování nejpravděpodobnější hodnoty náhodné veličiny je uţitečné znát její rozptyl.
Tak např. pro medián existuje vztah pro odhad jeho robustního rozptylu jako
- 41 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
směrodatná odchylka mediánu sM, kterou určíme podle vztahu:
sM 
xn  k 1  x k
Rovnice 6.1
2u / 2
kde hodnotu k vypočteme podle rovnice:
k
n 1
n
 ua / 2 *
2
4
Rovnice 6.2
Veličina ua / 2 je přitom α/2 kvantil Gaussova normálního rozloţení (statistické
tabulky [3], [2]).
Konfidenční interval mediánu (ale pouze pro veličiny s normálním rozloţením)
moţno určit podle vztahu:
0,707 s
0,707 s
~
x0,5  u1 /2
 med  ~
x0,5  u1 /2
n
n
Uřezaný průměr a jeho rozptyl
Uřezaný průměr x
 
je jeden z nejefektnějších a přitom jednoduchých
Rovnice 6.3
Uřezaný
průměr a jeho
rozptyl
robustních odhadů parametrů polohy (střední hodnoty). Vypočte se podle vztahu:
x   
n M
1
 xi 
n  2 M i  M 1
Rovnice 6.4
kde:
M  int n / 100
Rovnice 6.5
Operátor int znamená výběr pouze celočíselné části argumentu v závorce.
Parametr  se obvykle volí roven hodnotě 10. Tak stanovíme 10ti procentní uřezaný
průměr  (vynecháme 10% nejniţších a nejvyšších hodnot výběru a ze zbývajících
vypočítáme aritmetický průměr). V případě předpokládaného většího počtu
vybočujících hodnot volíme  =20.
Modus
Modus
Dalším robustním odhadem parametru polohy (střední hodnot) je modus. Je
dán velikostí hodnoty náhodné veličiny, která odpovídá maximu na křivce rozloţení
hustoty pravděpodobnosti
. Tu lze při analýze nahradit např. histogramem.
- 42 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
6.2 Vyhodnocení malých výběrů
V některých případech není moţno získat dostatečný počet měření a odhady je
nutno provádět z malých výběrů. Výsledky analýzy malých výběrů jsou však zatíţeny
velkou mírou nejistoty. Pro zajištění maximální korektnosti výsledků analýzy volíme
opět robustní metody odhadů.
Pro n = 2
n=2
lze určit aritmetický průměr s dostatečnou jistotou, jsou-li hodnoty blízké.
Nejsou-li, je obtíţné určit, která z nich je vybočující. Pro (1-) konfidenční interval
střední hodnoty je moţno pouţít vztahu:
x  x2
x  x2
x1  x2
x  x2
 T 1
 1
 T 1
2
2
2
2
Rovnice 6.6
kde velikost T závisí na typu rozdělení dat. Pro normální rozdělení je
 
T  cotg

 2 
Pro 95% konfidenční interval je
Rovnice 6.7
. Pro rovnoměrné rozdělení je
T0,05  19,0 .
Pro n = 3
n=3
se lépe osvědčuje pouţití aritmetického průměru ze dvou hodnot bliţších, neţ
mediánu ze všech tří. Pro 1    konfidenční interval střední hodnoty lze pouţít
vztahu:
x  T
s
s
   x  T
3
3
Rovnice 6.8
Pro normální rozdělení je:
3 
Ta 

4

1
Rovnice 6.9
tedy pro =0,05 je Ta  4,3 . Pro rozdělení rovnoměrné je T0,05  5,74 .
Pro 4 < n < 20
4 < n < 20
se jako odhad polohy pouţívá tzv. pivotová polosuma
- 43 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
PL  0,5 xD  xH 
Rovnice 6.10
a jako odhad parametru rozptýlení tzv. pivotové rozpětí
RL  xH  xD
Rovnice 6.11
Hodnoty tzv. dolního a horního pivotu xD a xH jsou vybrané kvantily daného
rozdělení, jejichţ indexy H a D jsou určeny následovně:


H  intn  1 / 2 / 2
Rovnice 6.12
nebo


H  intn  1 / 2  1 / 2
Rovnice 6.13
podle toho, které z H bude celé číslo. Dolní pivot je pak:
xD  x H 
Rovnice 6.14
xH  xn  1  H 
Rovnice 6.15
a horní pivot:
Pivoty se pak pouţívají tak, ţe např. pro 95%ní interval spolehlivosti střední
hodnoty platí vztah:
PL  RL * t L 0,975n    PL  RL * t L 0,975n
Kvantily
z tabulky 6.1.
rozloţení TL, kde n je počet jejich stupňů volnosti, určíme
Literatura uvádí další robustní metody pro odhad rozptylů, nezávislé na
parametrech rozdělení dat (neparametrické metody). Příkladem jsou techniky
Bootstrap a Jackknife, které je moţno nalézt např. v [1].
- 44 -
Rovnice 6.16
Modul: Exaktní metody řešení projektů VaV
Kvantily
Předmět: Matematické metody vyhodnocování
experimentů
rozdělení
Tabulka 6.1
0,9
0,95
0,975
0,99
0,995
4
0,477
0,555
0,738
1,040
1,331
5
0,869
1,370
2,094
3,715
5,805
6
0,531
0,759
1,035
1,505
1,968
7
0,451
0,550
0,720
0,978
1,211
8
0,393
0,469
0,564
0,741
0,890
9
0,484
0,688
0,915
1,265
1,575
10
0,4
0,523
0,668
0,878
1,051
11
0,363
0,452
0,545
0,714
0,589
12
0,344
0,423
0,483
0,593
0,697
13
0,389
0,497
0,608
0,792
0,945
14
0,348
0,437
0,525
0,661
0,776
15
0,318
0,399
0,466
0,586
0,685
16
0,299
0,374
0,435
0,507
0,591
17
0,331
0,421
0,502
0,637
0,774
18
0,300
0,380
0,451
0,555
0,650
19
0,288
0,361
0,423
0,502
0,575
20
0,266
0,337
0,397
0,464
0,519
1-
n
SHRNUTÍ KAPITOLY
V případech, kdy výsledky předsledné analýzy nedávají jednoznačnou představu
o vlastnostech a zvláštnostech souboru nebo v případě, kdy musíme pracovat
s výběrovými soubory malých rozsahů, musíme ke statistické analýze pouţít
speciální robustní metody. Pro stanovení středních hodnot pouţíváme medián nebo
modus. Při vyhodnocování malých výběrů pro odhad střední hodnoty pivotovou
polosumu a pro odhad rozptýlení pivotové rozpětí.
ÚKOLY
1.
Vysvětlete význam robustních metod statistické analýzy!
2.
Z jakého grafu identifikace zvláštností výběrového souboru lze zjistit velikost
modusu?
3.
Jaké jsou problémy v případě potřeby zvýšení rozsahu výběrového souboru?
- 45 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
LITERATURA KE KAPITOLE
Základní literatura:
[1]
LIKEŠ, J., MACHEK, J. Matematická statistika. Praha: SNTL, 1988.
[2]
Kritické
hodnoty
a
tabulky
rozdělení
[on line].
[cit. 2010-0220]. Dostupný z WWW:
<www.kmt.zcu.cz/person/Kohout/info_soubory/letnisem/tabulky.htm>.
Doporučená literatura:
[3]
LIKEŠ, J., LAGA, J. Základní statistické tabulky. Praha: SNTL, 1978.
- 46 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
7 Zkoumání statistických závislostí
CÍL
Po prostudování budete umět:



vysvětlit pojem statisticky závislých veličin,
vypočítat stupeň závislosti statisticky závislých veličin,
vysvětlit praktický význam velikosti stupně závislosti.
KLÍČOVÁ SLOVA
Korelační analýza, koeficient korelace, lineární závislost, lineární nezávislost
náhodných veličin.
7.1 Závislost náhodných veličin
V praxi nás velmi často zajímá, zda hodnoty dvou náhodných veličin jsou nebo
nejsou závislé. Zkoumáním stupně statistické závislosti mezi náhodnými veličinami
se zabývá korelační analýza. Stupeň těsnosti (lineární) vazby mezi dvěma
náhodnými veličinami hodnotíme velikostí koeficientu korelace [1], [2].
Uvaţujme dvě náhodné veličiny X a Y, které jsou reprezentovány svými
výběrovými soubory naměřených hodnot xi a yi , i = 1, …, n Párový (Pearsonův)
koeficient korelace RXY vypočteme podle vztahu:
R XY 
 x  x  y  y 
 x  x    y  y 
i
i
2
i
2
i
kde x, y jsou střední hodnoty obou náhodných veličin.
Korelační koeficient RXY můţe nabývat hodnot z uzavřeného intervalu <-1, +1>.
Čím je korelační koeficient bliţší hodnotě 1, tím je závislost náhodných veličin vyšší.
Pro:
platí, ţe mezi oběma náhodnými veličinami existuje přímá a plná lineární
funkční závislost rostoucí, pro:
platí, ţe mezi oběma náhodnými veličinami existuje přímá a plná lineární
funkční závislost klesající. Platí-li:
- 47 -
Rovnice 7.1
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
jsou obě náhodné veličiny lineárně zcela nezávislé. Situace je nakreslena
na Obrázku 7.1.
V této souvislosti je třeba zdůraznit, ţe pomocí koeficientu korelace RXY jsme
schopni posoudit pouze stupeň lineární závislosti. V případě RXY = 0 můţeme pouze
říci, ţe mezi veličinami X a Y neexistuje lineární závislost, nelineární závislost mezi
nimi existovat můţe.
Závislost dvou náhodných veličin podle velikosti koeficientu korelace
SHRNUTÍ KAPITOLY
V případě nutnosti zkoumání statistických závislostí náhodných veličin pouţíváme
metody korelační analýzy. Jejím cílem je zjištění stupně těsnosti jejich vazby pomocí
koeficientu korelace. Párový koeficient korelace určuje stupeň lineární závislosti
- 48 -
Obrázek 7.1
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
náhodných veličin, mezi lineárně nezávislými veličinami můţe platit vztah závislosti
nelineární.
ÚKOLY
1.
Znázorněte graficky lineární a nelineární závislost mezi dvěma veličinami!
2.
Nakreslete moţné typy lineárních závislostí dvou náhodných veličin pro různé
hodnoty koeficientu korelace!
LITERATURA KE KAPITOLE
Základní literatura:
[1]
LIKEŠ, J., MACHEK, J. Matematická statistika. Praha: SNTL, 1988.
Doporučená literatura:
[2]
ANDĚL, J. Matematická statistika. Praha: SNTL/ALFA, 1985.
- 49 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
8 Ekonomická statistika
CÍL
Po prostudování budete umět:



vysvětlit důvody a zásady aplikace matematické statistiky v ekonomice,
vyjmenovat a vysvětlit statistické ukazatele získané na základě
statistických šetření,
způsob organizace statistických experimentů a šetření.
KLÍČOVÁ SLOVA
Ekonomická statistika, statistická jednotka, statistický objekt, výběrové šetření,
reprezentativní soubor, statistické znaky, statistický znak, obměna znaku, statistický
ukazatel, statistické šetření, organizace experimentu.
8.1 Statistika a ekonomie
Podívejme se nyní na problém aplikace metod matematické statistiky
v oblastech společenských, zvláště ekonomických oborů.
K základním aktivitám odborníků patří řešení rozhodovacích problémů.
Efektivní rozhodování je nemyslitelné bez obsáhlých a kvalitních informací. Jednou
z cest jejich získávání je analýza údajů, získaných z nejrůznějších měření a šetření.
Proto v současné době patří statistika (stejně jako informatika nebo operační
výzkum) ke standardnímu vybavení moderního ekonoma i manaţera. Je nutné, aby
odborníci v těchto oborech znali základy statistiky a měli základní znalosti jak
o moţnostech a nástrojích této disciplíny, tak i o jejich korektním pouţití v praxi.
Aplikací statistických metod na ekonomická a sociálně ekonomická data
vznikla samostatná statistická disciplína – ekonomická statistika. Předmětem
ekonomické statistiky je analýza stavu a vývoje jevů v hospodářské oblasti jako
východiska k hospodářskému rozhodování či stanovení hospodářské politiky.
Jak jiţ bylo řečeno, statisticky lze zpracovat a vyhodnotit pouze jevy, pro něţ
lze získat soubor údajů nebo dat – tedy jevy, které jsou hromadné a opakovatelné.
Jsou charakteristické tím, ţe


vztahují se k velkému počtu jedinců - například hrubý měsíční příjem
občanů České republiky, počet dětí v českých domácnostech apod.,
mnohokrát se opakují za jinak stejných podmínek - například denní
trţba v prodejně, teplota vzduchu naměřená v 8 hodin ráno apod.
Hromadné jevy lze pak popsat mnoţinou údajů, které získáváme statistickým
- 50 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
experimentem nebo statistickým šetřením. Jednotlivé subjekty nebo objekty, které
jsou při takovém statistickém zkoumání sledovány, se nazývají statistické jednotky.
Statistickými jednotkami mohou být například:




osoby - např. pracovníci firmy, studenti, voliči,
organizace - např. podniky, obce, školy,
věci - např. stroje, výrobky, budovy,
události - např. úrazy, meteorologické jevy, poruchy.
Před započetím statistického zkoumání musí být kaţdá statistická jednotka
přesně a jednoznačně vymezena, aby nedošlo k moţnému dvojímu výkladu
zjištěných skutečností. Statistické jednotky se obvykle vymezují z hlediska:



věcného - např. osoba muţského pohlaví
prostorového - např. občan České republiky
časového - např. jedinec, který letos dosáhne alespoň 18 let.
Souhrn statistických jednotek (prvků) stejného typu a vymezení tvoří statistický
objekt. Ve statistickém zjišťování rozlišujeme dva typy objektů:


úplný objekt (populace) – obsahuje všechny existující vymezené
statistické jednotky,
výběrový objekt (vzorek) – vybraná část populace, která se podrobuje
statistickému šetření.
Počet prvků úplného objektu je obvykle velmi vysoký (v případě experimentů
nekonečný). Cílem popisné statistiky bylo původně vyčerpávající šetření úplných
objektů. Matematická statistika však přinesla moţnost provádět pouze výběrová
šetření, kdy se namísto celé populace zkoumá pouze daný vzorek.
Výběrové šetření nemůţe dát tak přesné výsledky, jako by dalo vyšetření
úplného objektu, neboť vzorek nikdy nemůţe nahradit celek. Přesto mu obvykle
dáváme přednost před šetřením úplným, protoţe:



výběrové šetření je méně náročné na čas i finanční prostředky
úplný objekt nemusí být vţdy celý dostupný
některé průzkumy mohou testované jednotky znehodnotit (např.
degustace).
Sestavit výběrový objekt tak, aby co nejlépe kopíroval vlastnosti objektu
úplného, není nijak jednoduché. Problém spočívá v tom, ţe statistické údaje a data,
získaná vyšetřením výběrového objektu, musí co nejlépe reprezentovat vlastnosti
objektu úplného. Nazveme-li datový soubor, získaný vyšetřením výběrového objektu
souborem výběrovým, pak vyšetřením objektu úplného bychom získali soubor úplný
(základní soubor). Statistika definuje základní poţadavek na výběrový soubor – musí
nést znaky reprezentativnosti. Výsledky jeho statistické analýzy (statistické parametry
výběrového souboru) se musí co nejméně lišit od výsledků, kterých bychom dosáhli,
kdybychom analyzovali soubor úplný.
Údaje, které u statistických jednotek zjišťujeme a sledujeme, nazýváme
statistické znaky (proměnné). Jednotlivé hodnoty, kterých můţe statistický znak
nabývat, nazýváme obměny neboli varianty znaku. Podle způsobu zobrazení hodnot
- 51 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
dělíme statistické znaky na:


znaky kvalitativní – jsou vyjádřeny slovně a obvykle představují určitou
vlastnost (např. pohlaví, typ podnikání, apod.)
znaky kvantitativní – jsou vyjádřeny číselně (číselná data) a obvykle
představují mnoţství nebo velikost (např. počet studentů v ročníku,
cena výrobku, apod.).
Podle způsobu zpracování se obvykle rozlišují tři skupiny statistických znaků:



znaky nominální – obvykle jsou vyjádřeny kvalitativně, znaky jsou
rovnocenné, tj. nelze je navzájem porovnávat ani seřadit do hodnotové
stupnice (např. rodinný stav nebo typ podnikání),
znaky ordinální – bývají rovněţ vyjádřeny kvalitativně, jednotlivým
znakům lze přiřadit pořadí a navzájem je porovnávat nebo seřadit
(např. dosaţené vzdělání nebo jakostní třída výrobku),
znaky metrické – jsou vyjádřeny výhradně kvantitativně, jejich varianty
jsou plnohodnotná výška osoby nebo počet prodaných výrobků
za týden.
Podle počtu variant rozlišujeme statistické znaky:


alternativní – mohou nabývat pouze dvou různých hodnot (např. muţ –
ţena, ano – ne),
množné – nabývají více neţ dvou hodnot, jsou variantní.
Toto rozdělení má smysl pouze u znaků nominálních, znaky ordinální
a metrické mají obvykle více neţ dvě moţné varianty.
8.2 Statistické ukazatele a šetření
Ekonomické a sociální jevy jsou charakterizovány ukazateli – statistickými
znaky, které občan nebo instituce obvykle vykazují ve statistických výkazech [1].
Podle charakteru rozlišujeme ukazatele:


přímo zjistitelné – jde o statistické znaky, které daná statistická
jednotka přímo vykazuje, například ze svého účetnictví,
odvozené (agregované) – tyto ukazatele lze vypočítat na základě
daných pokynů z jiných ukazatelů - např. průměrný plat, úhrnná
produkce apod.
Většina ukazatelů je vyjádřena pomocí číselných (tedy metrických)
proměnných. Nominální a ordinální ukazatele se ve výkaznictví příliš často
nevyskytují, najdeme je však v anketách a průzkumech.
Statistické ukazatele můţeme dělit podle různých hledisek. Například podle
typu měrových jednotek můţeme členit ukazatele na:


naturální – jsou vyjádřeny v mnoţstevních či objemových jednotkách např. kusech, kilogramech, hektolitrech apod.,
hodnotové – jsou vyjádřeny v peněţních jednotkách - korunách,
- 52 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
eurech, dolarech apod.
Naturální ukazatele jsou snadno dostupné a stabilní, nepodléhají inflaci ani
změnám a kolísání cen v čase a prostoru (např. různé ceny v různých státech).
Oproti tomu hodnotové ukazatele umoţňují porovnat a agregovat veličiny různého
původu (např. trţba za prodej různých produktů).
Podle periodicity zjišťování dělíme ekonomické ukazatele na:
krátkodobé – měsíční a čtvrtletní (kvartální),
dlouhodobé – roční.
Krátkodobé ukazatele slouţí především k zjištění rychlých informací o vývoji
ekonomického objektu (např. cenovém vývoji, průmyslové produkci apod.), naopak
ukazatele.
Dlouhodobé ukazatele slouţí především k sestavování dlouhodobých výhledů,
ročních účtů apod.
Statistické ukazatele se získávají zjišťováním od zpravodajských jednotek.
Zpravodajská jednotka je fyzická nebo právnická osoba, která je ze zákona povinná
poskytovat poţadované údaje o dané statistické jednotce – má zpravodajskou
povinnost.
Jak jiţ bylo uvedeno, statistické údaje se získávají zjišťováním. Základní formy
statistického zjišťování jsou:




pozorování
dotazování (včetně výkaznictví)
experiment
sekundární výzkum.
Pozorování je obvykle soustředěno na chování lidských subjektů v různých
situacích prostřednictvím smyslového vnímání – sledováním, poslechem,
ochutnáváním apod. Výsledek pozorování je často subjektivní, závisí na osobě
pozorovatele a na okamţiku, kdy je pozorování prováděno.
Pozorování
Dotazování je nejčastější způsob získávání statistických dat, provádí se
obvykle prostřednictvím výkazů nebo anket. Zjišťování prostřednictvím výkazů
organizují státní instituce (Český statistický úřad, resortní ministerstva) na základě
zákonem schváleného programu statistických zjišťování, přičemţ zpravodajské
jednotky mají ze zákona povinnost výkazy vyplňovat a odevzdávat. Oproti tomu u
anketního dotazování zpravodajská povinnost nevzniká – účast v anketě je
dobrovolná.
Dotazování
Experimentem můţe být například testování nového výrobku na různé
podmínky, sledování chování testovaných osob v různých situacích a podobně. Při
experimentech se obvykle sleduje vliv určitého faktoru (např. mnoţství pouţitého
hnojiva) na testovaný ukazatel (např. na výnosnost sklizně).
Experiment
Sekundární výzkum pracuje s daty, která byla získána jiţ dříve za jiným
účelem (například jiným průzkumem). Sekundární data lze získat z literatury
Sekundární
- 53 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
(statistické ročenky, ekonomické sloupky novin), z počítačových databází, internetu
nebo datových nosičů, z firemních materiálů (účetnictví) a podobně.
výzkum
8.3 Organizace statistických experimentů a šetření
Organizace statistických experimentů a šetření má zajistit získání efektivních
a korektních statistických údajů a dat, jejich zpracování a správnou interpretaci
dosaţených výsledků. Významným poţadavkem a cílem je získání reprezentativního
souboru pořízených záznamů. Organizace zjišťování má obvykle tyto fáze [2]:
Přípravná etapa – zásadní metodická rozhodnutí, jako stanovení cílů Přípravná
experimentu, objektu měření, výběr, popis a příprava podmínek měření, příprava etapa
programu měření, volba metod získávání dat, výběr prostředků pro realizaci sběru
dat a jeho prověření.
Etapa sběru dat – činnosti, bezprostředně spojené se záznamem sledovaných
dat a doprovodných informací, které mají umoţnit popis, vyhodnocení a zpracování
výsledků podle předem zpracovaného programu.
Etapa sběru
dat
Kontrolní etapa – zjištění odstranění příčin zdrojů chybných dat, které by mohly
váţně narušit korektní zpracování výsledků. Pokud se ukáţe, ţe rozsah nedostatků
je tak velký, ţe by mohl ohrozit pouţitelnost získaných dat, je třeba přistoupit
k opakování měření s případnými úpravami jeho metodiky.
Kontrolní
etapa
Etapa přípravy dat ke zpracování – shrnutí všech poznatků a příprava
záznamů dat. V této části experimentu je moţno provést průzkumovou analýzu dat
a získat rámcové údaje o jejich kvalitě a vlastnostech. Pokud je reálná naděje
na úspěšné vyhodnocení datových souborů, etapa sběru dat je ukončena.
Etapa
přípravy dat
ke zpracování
Etapa zpracování dat – fáze statistické analýzy naměřených dat. V této fázi
musí být respektovány závěry průzkumové analýzy dat a voleny takové metody jejich
statistického zpracování, aby byla zajištěna korektnost získaných výsledků.
Etapa
zpracování
dat
Etapa interpretace výsledků – posouzení významu získaných výsledků
a rozhodnutí o způsobech jejich pouţití k dosaţení cílů experimentu.
Etapa
interpretace
výsledků
SHRNUTÍ KAPITOLY
Ekonomická statistika se zabývá aplikacemi statistických metod na ekonomická
a sociálně ekonomická data. Při takových aplikacích jsou zkoumány statistické
jednotky, jejichţ souhrnem jsou statistické objekty. Počet prvků objektu je obvykle
vysoký – zkoumány jsou proto pouze jejich výběry prostřednictvím výběrových
šetření. U statistických jednotek zkoumáme jejích statistické znaky, jejich moţné
hodnoty nazýváme obměny znaku. Ekonomické ukazatele jsou charakterizovány
- 54 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
číselnými hodnotami a tvoří tedy číselné proměnné. Základní formy statistického
zjišťování jsou pozorování, dotazování, experiment a sekundární výzkum. Statistické
experimenty a šetření vyţadují takovou organizaci, která zajistí reprezentativnost
pořízených záznamů a tím i korektnost statistických analýz.
ÚKOLY
1.
Jaké poţadavky musí splňovat ekonomické a společenské jevy vhodné
pro statistické zpracování?
2.
Vysvětlete pojem a význam výběrových statistických šetření!
3.
Jak dělíme statistické ekonomické ukazatele?
4.
Vyjmenujte etapy organizace statistických šetření!
LITERATURA KE KAPITOLE
Základní literatura:
[1]
FRIEDRICH, V. Statistika pro ekonomy - Ekonomické ukazatele a statistické
zjišťování. Dostupný z WWW: <moodle.vsb.cz/statistika/01.pdf>.
[2]
ČAČKO, J. a kol. Meranie, vyhodnocovanie a simulácia prevádzkových
náhodných procesov. Bratislava: VEDA - SAV, 1984.
- 55 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Literatura
Základní literatura:
[1]
ČAČKO, J. a kol. Meranie, vyhodnocovanie a simulácia prevádzkových náhodných procesov.
Bratislava: VEDA - SAV, 1984.
[2]
LIKEŠ, J., MACHEK, J. Matematická statistika. Praha: SNTL, 1988.
[3]
Kritické hodnoty a tabulky rozdělení [on line]. [cit. 2010-02-20]. Dostupný z WWW:
<www.kmt.zcu.cz/person/Kohout/info_soubory/letnisem/tabulky.htm>.
[4]
HÁJOVSKÝ, R., POKORNÝ, M., KOZUB, R. Statistické zpracování měřených dat I. Ostrava:
FEI VŠB-TUO, 2005.
[5]
FRIEDRICH, V. Statistika pro ekonomy – Ekonomické ukazatele a statistické zjišťování
[on line]. [cit. 2010-02-15]. Dostupný z WWW: <moodle.vsb.cz/statistika/01.pdf>.
[6]
KOŢÍŠEK, J. Statistická analýza. Praha: ČVUT, 1993
Doporučená literatura:
[7]
ANDĚL, J. Matematická statistika. Praha: SNTL/ALFA, 1985
[8]
LIKEŠ, J., LAGA, J. Základní statistické tabulky. Praha: SNTL, 1978.
[9]
LINCZÉNI, A. Inženierská statistika. Bratislava: ALFA, 1973.
- 56 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Seznam obrázků
Obrázek 1.1: Vlastnosti funkce rozloţení hustoty pravděpodobnosti ...................................................... 10
Obrázek 3.1: Diagram rozptýlení ............................................................................................................. 17
Obrázek 3.2: Rozmítnutý diagram rozptýlení........................................................................................... 18
Obrázek 3.3: Krabicový graf ..................................................................................................................... 18
Obrázek 3.4: Vrubový krabicový graf ....................................................................................................... 19
Obrázek 3.5: Histogram homogenního souboru s Gaussovým rozloţením ............................................ 20
Obrázek 3.6: Modifikované vnitřní hradby ............................................................................................... 22
Obrázek 4.1: Funkce rozdělení hustoty pravděpodobnosti rovnoměrného rozdělení ............................. 29
Obrázek 4.2: Funkce Gaussova rozloţení hustoty pravděpodobnosti .................................................... 30
Obrázek 4.3: Funkce exponenciálního rozloţení hustoty pravděpodobnosti .......................................... 31
Obrázek 7.1: Závislost dvou náhdoných veličin podle velikosti koeficientu korelace R XY ....................... 48
- 57 -
Modul: Exaktní metody řešení projektů VaV
Předmět: Matematické metody vyhodnocování
experimentů
Seznam tabulek
Tabulka 3.1: Minimální rozsahy výběrových souborů .............................................................................. 22
Tabulka 5.1: Testy hypotéz o parametrech jednoho souboru ................................................................. 37
Tabulka 6.1: Kvantily TL rozdělení ........................................................................................................... 45
- 58 -

Podobné dokumenty

Pravidla KORFBALU Text pravidel Tato část je nedílnou součástí

Pravidla KORFBALU Text pravidel Tato část je nedílnou součástí dovolit změny. Pokud je to nutné, rozhodčí provede změny v postavení tak, aby byly splněny podmínky uvedené výše, nebo když je počet hráčů bez přímého protihráče větší, než je bezpodmínečně nutné. ...

Více

SÓLOVÉ BRUSLENÍ

SÓLOVÉ BRUSLENÍ V případě žactva pokročilé úrovně nedochází v žádné disciplíně k vytvoření podskupin na základě věkového rozlišení. 3. Srážky za přerušení předvádění programu platné pro všechny kategorie žactva: Z...

Více

ČLENSKÝ Číslo 15 Listopad 2010 - Pelargonie

ČLENSKÝ Číslo 15 Listopad 2010 - Pelargonie P. papilionaceum x P. hispidum, P. tomentosum x P. papilionaceum, P. cucullatum x P. fulgidum a další. Nesmím zapomenout ani na nesmírně zajímavý hybrid z P. cucullatum, který se vyznačuje zářivě z...

Více