Vícerozměrné statistické metody

Transkript

Vícerozměrné statistické metody
Vícerozměrné statistické metody
Smysl a cíle vícerozměrné analýzy dat a modelování, vztah jednorozměrných a vícerozměrných statistických metod
Jiří Jarkovský, Simona Littnerová
Průběh výuky
•
13 přednášek doplněných o praktické cvičení v SW
•
Obsahem předmětu je přehled a úvod do praktické aplikace pokročilých statistických metod:
– Investigativní vícerozměrná analýza dat – Regresní modelování
– Analýza časových řad
•
Předpoklady ukončení
– Účast na cvičení (povoleny dvě absence)
– 3 průběžné testy (požadováno dosažení alespoň 50% bodů)
• Základy jednorozměrné statistické analýzy dat
• Popisné vícerozměrné metody a jejich aplikace
• Regresní modely a jejich aplikace
– Písemná závěrečná zkouška (požadováno dosažení alespoň 50% bodů)
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
2
Plán přednášek
•
•
•
•
•
•
•
•
•
•
•
•
•
8.2.2011 Smysl a cíle vícerozměrné analýzy dat a modelování, vztah jednorozměrných a vícerozměrných statistických metod
15.2.2011 Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi 22.2.2011 Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice I
1.3.2011 Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice II
8.3.2011 Shluková analýza
15.3.2011 Ordinační analýzy – principy redukce dimenzionality
22.3.2011 Ordinační analýzy – přehled metod
29.3.2011 Diskriminační analýza
5.4.2011 Principy stochastického modelování 12.4.2011 Logistická regrese, analýza ROC křivek
19.4.2011 Zobecněné lineární modely – základy; Pokročilé metody predikce ‐
přehled
26.4.2011 Strategie analýzy vícerozměrných klinických dat, vícerozměrná data v klinických studiích, základy metaanalýzy
3.5.2011 Přehled metod analýzy časových řad
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
3
FSTA: Pokročilé statistické metody
Smysl a cíle vícerozměrné analýzy dat
Cíle vícerozměrné analýzy dat
•
•
•
Každý objekt reálného světa můžeme popsat jeho pozicí v mnohorozměrném prostoru, v extrémním případě jde až o desetitisíce dimenzí Více než 3D prostor je pro nás vizuálně neuchopitelný a hledání vztahů ve více než 3 dimenzích je problematické Vícerozměrná analýza se tento problém snaží řešit různými přístupy:
– Redukce dimenzionality dat „sloučením“ korelovaných proměnných do menšího počtu „faktorových“ proměnných – Identifikace shluků objektů ve vícerozměrném prostoru a následná redukce vícedimenzionálního problému kategorizací objektů do zjištěných shluků
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Zjednodušení
Interpretace 5
Příklad vícerozměrného popisu objektů
Dimenze 1 Dimenze 2 Dimenze 3 Dimenze 4
ID objektu SEPALLEN SEPALWID PETALLEN PETALWID
SETOSA
5.0
3.3
1.4
0.2
VIRGINIC
6.4
2.8
5.6
2.2
VERSICOL
6.5
2.8
4.6
1.5
VIRGINIC
6.7
3.1
5.6
2.4
VIRGINIC
6.3
2.8
5.1
1.5
SETOSA
4.6
3.4
1.4
0.3
VIRGINIC
6.9
3.1
5.1
2.3
VERSICOL
6.2
2.2
4.5
1.5
VERSICOL
5.9
3.2
4.8
1.8
SETOSA
4.6
3.6
1.0
0.2
…
…
…
…
SEPALLEN
SEPALWID
PETALLEN
PETALWID
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
6
Vícerozměrná analýza dat = pohled ze správného úhlu
•
Vícerozměrná analýza nám pomáhá nalézt v x‐dimenzionálním prostoru nejvhodnější pohled na data poskytující maximum informací o analyzovaných objektech
Všechny obrázky ukazují stejný objekt z různých úhlů v 3D prostoru.
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
7
Obecný princip redukce dimenzionality dat
•
•
•
V převážné většině případů existují mezi dimenzemi korelační vztahy, tedy dimenze se navzájem vysvětlují a pro popis kompletní informace v datech není třeba všech dimenzí vstupního souboru
Všechny tzv. ordinační metody využívají principu identifikace korelovaných dimenzí a jejich sloučení do souhrnných nových dimenzí zastupujících několik dimenzí vstupního souboru
Pokud mezi dimenzemi vstupního souboru neexistují korelace, nemá smysl hledat zjednodušení vícerozměrné struktury takovéhoto souboru !!!
?
y ?
?
z
y
?
?
x
Jednoznačný vztah dimenzí x a y umožňuje jejich nahrazení jedinou novou dimenzí z ?
?
x
?
V případě neexistence vztahu mezi x a y nemá smysl definovat nové dimenze – nepřináší žádnou novou informaci oproti x a y
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
8
Obecný princip hledání shluků v datech
•
•
•
Vzájemnou pozici objektů ve vícerozměrném prostoru lze popsat jejich vzdáleností
Dle vzdálenosti objektů je můžeme slučovat do shluků a přiřazení objektů ke shlukům ve vícerozměrném prostoru následně využít pro zjednodušení jejich x‐
dimenzionálního popisu Smysluplnost výsledků shlukování závisí jednak na objektivní existenci shluků v datech, jednak na arbitrárně nastavených kritériích definice shluků Jednoznačné odlišení existujících shluků v datech (obdoba multimodálního rozložení)
Shluková analýza je možná i v tomto případě, nicméně hranice shluků jsou dány pouze naším rozhodnutím.
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
9
Omezení vícerozměrné analýzy dat
•
Vícerozměrná analýza může přinést zjednodušení dimenzionality dat pouze v případě, kdy data skrývají nějakou identifikovatelnou vícerozměrnou strukturu –
–
•
•
•
•
•
•
Mezi dimenzemi existují vztahy (korelace) umožňující nahrazení korelovaných dimenzí zástupnou souhrnnou dimenzí
Objekty vytváří v x‐dimenzionálním prostoru shluky nebo jiné nenáhodné struktury
Pro náhodně rozmístěné objekty bez korelací mezi dimenzemi jejich x‐dimenzionálního prostoru nepřináší vícerozměrná analýza žádné nové informace oproti původním dimenzím
Důležitý je poměr počtu objektů (řádky tabulky) a dimenzí (sloupce tabulky). Čím je tento poměr menší tím větší je šance, že výsledky analýzy jsou ovlivněny náhodnými procesy. Za minimální poměr pro získání validních výsledků je považováno 10 objektů na 1 dimenzi. Pro vícerozměrné analýzy platí obdobné předpoklady jako pro jednorozměrnou statistickou analýzu; vzhledem k jejich možnému porušení na úrovni kombinace několika dimenzí je tyto předpoklady třeba kontrolovat ještě pečlivěji než u jednorozměrné analýzy Kromě klasických statistických předpokladů je při vícerozměrných analýzách třeba věnovat pozornost výběru metrik vzdáleností mezi objekty (klíčové ovlivnění interpretace výsledků) a jejich předpokladům Pokud výsledky vícerozměrné analýzy nejsou interpretovatelné je třeba zvážit, zda použití vícerozměrné analýzy přináší oproti sadě jednorozměrných analýz nějakou přidanou hodnotou
Využitelná vícerozměrná analýza by měla být:
–
–
–
Vybrána vhodná metoda pro řešení daného problému
korektně spočítána za dodržení všech předpokladů Interpretovatelná a přinášející novou informaci oproti analýze původních dimenzí Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
10
Korelace jako princip výpočtu vícerozměrných analýz
Kovariance a Pearsonova korelace je základem analýzy hlavních komponent, faktorové analýzy jakož i dalších vícerozměrných analýz pracujících s lineární závislostí proměnných
Předpokladem výpočtu kovariance a Pearsonovy korelace je:
•
•
– Normalita dat v obou dimenzích – Linearita vztahu proměnných
Pro vícerozměrné analýzy je nejzávažnějším problémem přítomnost odlehlých hodnot
•
y
y
x
Lineární vztah –
bezproblémové použití Personovy korelace
y
x
Korelace je dána dvěma skupinami hodnot – vede k identifikaci skupin objektů v datech
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
x
Korelace je dána odlehlou hodnotu – analýza popisuje pouze vliv odlehlé hodnoty 11
Analýza kontingenčních tabule jako princip výpočtu vícerozměrných analýz
•
Abundance taxonů (nebo počet jakýchkoliv objektů) na lokalitách lze brát jako kontingenční tabulku a mírou vztahu mezi řádky (lokality) a sloupci (taxony) je velikost chi‐kvadrátu
2
Počítáno pro pozorovaná
očekávaná
‐ četnost
četnost
každou buňku 2
tabulky
(1) =
χ
očekávaná četnost
☺
☺
A
10
0
A
5
5
B
0
10
B
5
5
Pozorovaná tabulka
Očekávaná tabulka
Hodnota chi‐kvadrátu definuje míru odchylky dané buňky (v našem kontextu vztahu taxon‐lokalita) od situace, kdy mezi řádky a sloupci (taxon‐lokalita) není žádný vztah
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
12
Euklidovská vzdálenost jako princip výpočtu vícerozměrných analýz
•
•
Nejsnáze představitelným měřítkem vztahu dvou objektů ve vícerozměrném prostoru je jejich vzdálenost
Nejjednodušším typem této vzdálenosti (bohužel s omezeným použitím na data společenstev) je Euklidovská vzdálenost vycházející z Pythagorovy věty
X2
y22
c
y21
b
X1
a
y11
y12
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
13
Základní typy vícerozměrných analýz SHLUKOVÁ ANALÝZA
•
•
vytváření shluků objektů na základě jejich podobnosti
identifikace typů objektů
ORDINAČNÍ METODY
•
•
zjednodušení vícerozměrného problému do menšího počtu rozměrů
principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat
Typy vícerozměrných analýz SHLUKOVÁ ANALÝZA
ORDINAČNÍ METODY
y
Faktorové osy
y
x
x
podobnost
FSTA: Pokročilé statistické metody
Jednorozměrná statistická analýza jako předpoklad vícerozměrné analýzy dat Význam statistické analýzy dat
•
•
Výzkum na základě sběru dat je naším způsobem porozumění realitě
Ale jak přesné a pravdivé je naše porozumění? Statistika je jedním z nástrojů vnášejících do našich výsledků určitou spolehlivost.
Statistiku můžeme považovat za ekvivalent k mikroskopu či jinému laboratornímu nástroji
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
17
Variabilita jako základní pojem ve statistice
•
•
•
Naše realita je variabilní a statistika je vědou zabývající se variabilitou Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě
V případě deterministického světa by statistická analýza nebyla potřebná
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
18
Práce s variabilitou v analýze dat
•
V analýze dat existují dva hlavní přístupy k práci s variabilitou
Popisná analýza: charakterizace variability
Variabilita dat
Testování hypotéz: vysvětlení variability
?
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
19
Co může statistika říci o naší realitě? Možnosti
•
Statistika není schopna činit závěry o jevech neobsažených v našem vzorku.
•
Statistika je nasazena v procesu získání informací z vzorkovaných dat a je podporou v získání naší znalosti a pochopení problému.
•
Statistika není náhradou naší inteligence !!!
Realita
Vzorek
Data
Statistika
Informace
Znalost
Pochopení
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
20
Statistika a zobecnění výsledků
Neznámá cílová populace
•
Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci Vzorek
•
Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům
Analýza
Díky zobecnění výsledků známe vlastnosti cílové populace
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
21
Vzorkování a jeho význam ve statistice
•
•
Statistika hovoří o realitě prostřednictvím vzorku!!!
Statistické předpoklady korektního vzorkování je nutné dodržet
•
•
Náhodný výběr z cílové populace
Representativnost: struktura vzorku musí maximálně reflektovat realitu
•
Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
22
Velikost vzorku a přesnost statistických výstupů
•
Existuje skutečné rozložení a skutečný průměr měřené proměnné
•
Z jednoho měření nezjistíme nic ???
•
Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí
Odhad průměru atd.
•
Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný. Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
23
Předpoklady statistické analýzy
•
WWW.WIKIPEDIA.ORG:
– Statistika je matematickou vědou zabývající se shromážděním, analýzou, interpretací, vysvětlením a prezentací dat. Může být aplikována v širokém spektru vědeckých disciplín od přírodních až po sociální vědy. Statistika je využívána i jako podklad pro rozhodování, kdy nicméně může být záměrně i nevědomky zneužita. •
•
Statistika využívá matematické modely reality k zobecnění výsledků experimentů a vzorkování. Statistika funguje korektně pouze pokud jsou splněny předpoklady jejích metod a modelů. Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
24
Normální rozložení jako předpoklad statistické analýzy dat
•
•
Normální rozložení (Gaussova křivka) je jedním z hlavních modelů ve statistické analýze dat
Řada metod popisné statistiky je založena na modelu normálního rozložení
– Průměr, směrodatná odchylka atd.
•
Řada metod testování hypotéz je založena na modelu normálního rozložení
– T‐test, ANOVA, korelace, regrese Průměr a směrodatná odchylka dobře popisují realitu
Průměr a směrodatná odchylka nepopisují realitu
Reálná data
Model normálního rozložení
•
Použití modelu je možné pouze pokud reálná data odpovídají danému modelovému rozložení
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
25
Obecné schéma aplikace statistické analýzy
Experimentální design
Vzorkování
Jak velký vzorek je nezbytný pro statisticky relevantní výsledky? Klíčová stratifikační kritéria cílové populace.
Vzorkovací plán zabezpečující náhodnost a reprezentativnost vzorku.
Uložení a management dat
Uložení dat ve vhodné formě a jejich vyčištění předcházející vlastní analýze je klíčovým krokem statistické analýzy.
Vizualizace dat
Grafická inspekce dat je nezbytným krokem analýzy vzhledem ke schopnosti lidského mozku primárně akceptovat obrazová data. Poskytne vhled do dat, představu o jejich rozložení, vazbách proměnných apod.
Popisná analýza
Popisná analýza umožňuje vyhodnotit srovnáním s existující literaturou realističnost naměřených rozsahů dat.
Testování hypotéz
Modelování
Testování vazeb mezi různými proměnnými s cílem navzájem vysvětlit jejich variabilitu a tím přispět k pochopení řešeného problému.
Možným vyvrcholením analýzy je využití získaných znalostí a pochopení problému k vytvoření prediktivních modelů.
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
26
FSTA: Pokročilé statistické metody
Popisná statistika a její spolehlivost
Typy proměnných a jejich popisné statistiky
•
Kvalitativní/kategorická
– binární ‐ ano/ne
– nominální ‐ A,B,C … několik kategorií
– ordinální
‐ 1<2<3 …několik kategorií a můžeme se ptát, která je větší
– Popis procentuálním zastoupením kategorií
•
Kvantitativní
– nespojitá – čísla, která však nemohou nabývat všech hodnot (např. počet porodů)
– spojitá – teoreticky jsou možné všechny hodnoty (např. krevní tlak)
– Popis celou řadou deskriptivních statistik (průměr, medián, percentily, směrodatná odchylka, rozsah hodnot apod.)
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
28
Řada dat a její vlastnosti
Kvalitativní data
Tabulka s četností jednotlivých kategorií.
Kategorie
Četnost
B
5
C
8
D
1
Kvantitativní data
Četnost hodnot rozložení v jednotlivých intervalech.
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
29
Populace a vzorek
•
•
Populace představuje veškeré možné objekty vzorkování, např. veškeré obyvatelstvo ČR při sledování na úrovni ČR, z populace získáme reálné parametry rozložení
Z populace je prováděno vzorkování za účelem získání reprezentativního vzorku (sample) populace, toto vzorkování by mělo být náhodné, důležitá je také velikost vzorku, ze vzorku získáme odhady parametrů rozložení
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
30
Popisná statistika: odhad reality
•
•
Při výpočtu popisné statistiky počítáme popisnou statistiku vzorku, která je zároveň odhadem pro celou cílovou populaci
Skutečnou hodnotu statistiky v cílové populaci nemůžeme poznat bez vzorkování celé cílové populace Odhadujeme popisné statistiky populace
O populaci nevíme nic
Známe skutečnou hodnotu statistiky v populaci
Nesmyslné
Obvykle nerealizovatelné
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
31
Koncept intervalu spolehlivosti a jeho interpretace
•
Při výpočtu odhadu popisné statistiky nás zajímá nejenom její vlastní hodnota (bodový odhad) ale také její rozsah spolehlivosti
Průměr (odhadovaný parametr)
•
Interval spolehlivosti závisí na:
– Velikosti vzorku
– Variabilitě dat
– Požadované spolehlivosti
•
•
•
•
Rozložení parametru v populaci
Rozložení odhadu pro N=10
Rozložení odhadu pro N=100
Interval spolehlivosti lze spočítat pro jakoukoliv statistiku (průměr, směrodatná odchylka, korelace, procentuální zastoupení apod.)
Interval spolehlivosti poskytuje vodítko jak „spolehlivé“ jsou naše výsledky a s jakou pravděpodobností jich je možné opakovaně dosáhnout
95% interval spolehlivosti je rozsah hodnot do nějž se při opakování studie trefíme s 95% pravděpodobností
Tvrzení, že v rozsahu 95% intervalu spolehlivosti leží s 95% pravděpodobností skutečný průměr populace není pravdivé, skutečný průměr populace neznáme !!!
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
32
FSTA: Pokročilé statistické metody
Testování hypotéz
Testování hypotéz: základní principy
•
•
•
•
•
Formulace hypotézy
Výběr cílové populace a z ní reprezentativního vzorku
Měření sledovaných parametrů
Použití odpovídajícího testu
závěr testu
Interpretace výsledků
Cílová
populace
?
Závěr ?
Interpretace
Testy hypotéz
Vzorek
Reprezentativnost ?
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Měření parametrů
34
Statistické testování – základní pojmy
Nulová hypotéza HO
HO: sledovaný efekt je nulový
Alternativní hypotéza HA
HA: sledovaný efekt je různý mezi skupinami
Testová statistika
Pozorovaná hodnota – Očekávaná hodnota
Testová statistika =
*
Velikost vzorku
Variabilita dat
Kritický obor testové statistiky
0
T
Statistické testování odpovídá
na otázku zda je pozorovaný
rozdíl náhodný či nikoliv. K
odpovědi na otázku je využit
statistický model – testová
statistika.
Statistická významnost (p) – odvozena z testové statistiky a znamená
pravděpodobnost, že pozorovaný rozdíl je výsledkem pouhé náhody
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
35
Co znamená pravděpodobnost, že pozorovaný rozdíl je výsledkem pouhé náhody ?
Rozložení možných
náhodných rozdílů
Mnohokrát
X1
X1
X1
Rozdíl
Léčba
Rozdíl
….
Rozdíl ?
Je tu rozdíl?
Jak by vypadal
rozdíl, kdyby
byl náhodný?
Nasimulujme si
ho !!! ☺
Placebo
0
Rozdíl ?
X2
X2
X2
Kde leží skutečný
rozdíl?
Jak moc je
pravděpodobné, že je
náhodný?
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
36
Možné chyby při testování hypotéz
I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby.
Správné rozhodnutí
Závěr testu
H0
Platí
Hypotézu
zamítáme
1‐ α
α
H0
Neplatí
Hypotézu
nezamítáme
Skutečnost
•
β
1‐ β
Chyba I. druhu
Správné rozhodnutí
Chyba II. druhu
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
37
Klinická a statistická významnost
•
•
Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného jevu
Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty
Statistická významnost
Praktická významnost
ANO
NE
ANO
OK, praktická i statistická významnost je ve shodě, jednoznačný závěr
Významný výsledek je statistický artefakt velkého vzorku, prakticky nevyužitelné
NE
Výsledek může být pouhá náhoda, neprůkazný výsledek
OK, praktická i statistická významnost je ve shodě, jednoznačný závěr
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
38
Statistická vs. klinická významnost
Střední hodnota v populaci
Klinicky významná odchylka
a)
b)
c)
Bodový odhad efektu + IS
d)
e)
f)
Možnost
Statistická významnost
Klinická významnost
a)
ne
možná
b)
ne
možná
c)
ano
možná
d)
ano
ano
e)
ne
ne
f)
ano
ne
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
39
Parametrické vs. neparametrické testy
Parametrické testy
• Mají předpoklady o rozložení vstupujících dat (např. normální rozložení)
• Při stejném N a dodržení předpokladů mají vyšší sílu testu než testy neparametrické
• Pokud nejsou dodrženy předpoklady parametrických testů, potom jejich síla testu prudce klesá a výsledek testu může být zcela chybný a nesmyslný Neparametrické testy
• Nemají předpoklady o rozložení vstupujících dat, lze je tedy použít i při asymetrickém rozložení, odlehlých hodnotách, či nedetekovatelném rozložení
• Snížená síla těchto testů je způsobena redukcí informační hodnoty původních dat, kdy neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
40
One‐sample vs. two sample testy
One – sample testy
• Srovnávají jeden vzorek (one sample, jednovýběrové testy) s referenční hodnotou (popřípadě se statistickým parametrem cílové populace)
• V testu je tedy srovnáváno rozložení hodnot (vzorek) s jediným číslem (referenční hodnota, hodnota cílové populace)
• Otázka položená v testu může být vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek
Two – sample testy
• Srovnávají navzájem dva vzorky (two sample, dvouvýběrové vzorky)
• V testu jsou srovnávány dvě rozložení hodnot
• Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek
• Kromě testů pro dvě skupiny hodnot existují samozřejmě i testy pro více skupin dat
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
41
One‐tailed vs. Two‐tailed testy
One – tailed testy
• Hypotéza testu je postavena asymetricky, tedy ptáme se na větší než/ menší než
• Test může mít pouze dvojí výstup – jedna z hodnot je větší (menší) než druhá a všechny ostatní případy
Kritický obor
Two – tailed testy
• Hypotéza testu se ptá na otázku rovná se/nerovná se
• Test může mít trojí výstup – menší ‐ rovná se –
větší než
• Situace nerovná se je tedy souhrnem dvou možných výstupů testu (menší+větší)
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Kritický obor
42
Nepárový vs. párový design
Nepárový design
•
•
Skupiny srovnávaných dat jsou na sobě zcela
nezávislé (též nezávislý, independent
design), např. lidé z různých zemí, nezávislé
skupiny pacientů s odlišnou léčbou atd.
Při výpočtu je nezbytné brát v úvahu
charakteristiky obou skupin dat
Párový design
•
•
•
Mezi objekty v srovnávaných skupinách
existuje vazba, daná např. člověkem před a
po operaci, reakce stejného kmene krys atd.
Vazba může být buď přímo dána nebo pouze
předpokládána (v tom případě je nutné ji
ověřit)
Test je v podstatě prováděn na diferencích
skupin, nikoliv na jejich původních datech
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
43
Statistické testy a normalita dat
•
•
•
Normalita dat je jedním z předpokladů tzv. parametrických testů (testů založených na předpokladu nějakého rozložení) – např. t‐testy
Pokud data nejsou normální, neodpovídají ani modelovému rozložení, které je použito pro výpočet (t‐rozložení) a test tak může lhát
Řešením je tedy:
– Transformace dat za účelem dosažení normality jejich rozložení
– Neparametrické testy – tyto testy nemají žádné předpoklady o rozložení dat
Typ srovnání
Parametrický test
Neparametrický test
2 skupiny dat nepárově:
Nepárový t‐test
Mann Whitney test
2 skupiny dat párově:
Párový t‐test
Wilcoxon test, sign test
Více skupin nepárově:
ANOVA
Kruskal‐ Wallis test
Korelace:
Pearsonův koeficient
Spearmanův koeficient
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
44
FSTA: Pokročilé statistické metody
Základní statistické testy
One sample t‐test
V případě one sample testů jde o srovnání výběru dat (tedy one sample) s cílovou populací. Pro parametrické testy musí mít datový soubor normální rozložení. Průměr – cílová vs. výběrová populace
x −μ
t=
n
s
H0
HA
x≤μ
x≥μ
x>μ
x<μ
t
t > t1‐α(n‐1)
t
t < tα
x=μ
x≠μ
t
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Testová statistika Interval spolehlivosti
(n‐1)
(n‐1)
|t| > t1‐α/2
46
Dvouvýběrové testy: párové a nepárové • Při použití two sample testů srovnáváme spolu dvě rozložení. Jejich základním dělením je podle designu experimentu na testy párové a nepárové.
y Základním testem pro srovnání dvou nezávislých rozložení spojitých čísel je nepárový two‐sample t‐test
y Základním testem pro srovnání dvou závislých rozložení spojitých čísel je párový two‐sample t‐test
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
47
Dvouvýběrové testy: párové a nepárové
……….
……….
X2
……….
……….
X1 Nezávislé uspořádání
H0 : μ1 = μ2
n1 n 2
x2 x 2
X1‐ X2 = D
Párové uspořádání
Design uspořádání zásadně ovlivňuje interpretaci parametrů Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
……….
Data
X1 X2
n
D
s D2
s12 s 22
H0 : D = 0
(n = n2 = n1)
48
Dvouvýběrové testy: párové a nepárové
X1
X2
……….
……….
X1 r = 0,954
(p < 0,001)
X2
r = 0,218
(p < 0,812)
X1
X2
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
49
Předpoklady nepárového dvouvýběrového
t‐testu
•
•
•
•
•
Náhodný výběr subjektů jednotlivých skupin z jejich cílových populací
Nezávislost obou srovnávaných vzorků
Přibližně normální rozložení proměnné ve vzorcích, drobné odchylky od normality ovšem nejsou kritické, test je robustní proti drobným odchylkám od tohoto předpokladu, normalita může být testována testy normality
Rozptyl v obou vzorcích by měl být přibližně shodný (homoscedastic). Tento předpoklad je testován několika možnými testy – Levenův test nebo F‐test.
Vždy je vhodné prohlédnout histogramy proměnné v jednotlivých vzorcích pro okometrické srovnání a ověření předpokladů normality a homogenity rozptylu – nenahradí statistické testy, ale poskytne prvotní představu. ϕ(x)
0
|
μ
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
50
Nepárový dvouvýběrový t‐test – výpočet I
1.
2.
nulová hypotéza: průměry obou skupin jsou shodné, alternativní hypotéza je, že nejsou shodné, two tailed test
prohlédnout průběh dat, průměr, medián apod. pro zjištění odchylek od normality a nehomogenita rozptylu, provést F –test
H0
Testová statistika
σ >σ
2
2
s12
F= 2
s2
σ ≥σ
2
2
σ <σ
2
2
s22
F= 2
s1
σ =σ
2
2
σ ≠σ
2
2
σ ≤σ
2
2
2
1
2
1
2
1
•
HA
2
1
2
1
2
1
(
(
max s12 ; s22
F=
min s12 ; s22
F‐test pro srovnání dvou výběrových rozptylů
•Používá se pro srovnání rozptylu dvou skupin hodnot, často za účelem ověření homogenity rozptylu těchto skupin dat.
)
)
V případě ověření homogenity je testována hypotéza shody rozptylů (two tailed); v případě shodných rozptylů je vše v pořádku a je možné pokračovat ve výpočtu t‐testu, v opačném případě není vhodné test počítat. Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
51
Nepárový dvouvýběrový t‐test – výpočet II
3. Výpočet testové statistiky (stupně volnosti jsou):
υ = n1 + n2 − 2
t=
Rozdíl _ průrůmě
=
SE (rozdílprůo ěrů )
x1 − x 2
⎛1 1⎞
s 2 ⎜⎜ + ⎟⎟
⎝ n1 n2 ⎠
s =
2
(n1 − 1)s12 + (n2 − 1)s 22
n1 + n2 − 2
vážený odhad rozptylu 4. výsledné t srovnáme s tabulární hodnotou t pro dané stupně volnosti a
α (obvykle α=0,05)
5. Lze spočítat interval spolehlivosti pro rozdíl průměrů (např. 95%),
počet stupňů volnosti a s2 odpovídají předchozím vzorcům
( x1 − x2 ) ± t0,975 SE ( x1 − x2 ) = ( x1 − x2 ) ± t0,975
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
⎛1 1⎞
s ⎜ + ⎟
⎝ n1 n2 ⎠
2
52
Dvouvýběrový t‐test ‐ příklad
Průměrná hmotnost ovcí v čase páření byla srovnávána pro kontrolní skupinu a skupinu krmenou zvýšenou dávkou potravy. Kontrolní skupina obsahuje 30 ovcí, skupina se zvýšeným příjmem potravy pak 24 ovcí.
•
•
Vlastní experiment byl prováděn tak, že na začátku máme 54 ovcí (ideálně stejného plemene, stejně staré atd.), které náhodně
rozdělíme do dvou skupin (náhodné rozdělování objektů do pokusných skupin je objektem celého specializovaného odvětví statistiky nazývaného randomizace). Poté co experiment proběhne, musíme nejprve ověřit teoretický předpoklad pro využití nepárového t‐testu. Pro obě proměnné jsou vykresleny grafy (můžeme též spočítat základní popisnou statistiku), na kterých můžeme posoudit normalitu a homogenitu rozptylu, kromě okometrického pohledu můžeme pro ověření normality použít testy normality, pro ověření homogenity
rozptylu pak F‐test
Pokud platí všechny předpoklady Two sample nepárového t‐testu, můžeme spočítat testovou charakteristiku, výsledné t je 2,43 s 52 stupni volnosti, podle tabulek je a t0,975 (52)= 2,01, tedy t> t0,975 (52)= a nulovou hypotézu můžeme zamítnout, skutečná pravděpodobnost je pak 0,018. Rozdíl mezi skupinami je 1,59 kg ve prospěch skupiny s lepší výživou. t=
•
Rozdíl _ průrůmě
=
SE (rozdílprůo ěrů )
x1 − x 2
⎛1 1⎞
s 2 ⎜⎜ + ⎟⎟
⎝ n1 n2 ⎠
s2 =
(n1 − 1)s12 + (n2 − 1)s 22
n1 + n2 − 2
υ = n1 + n2 − 2
Pro rozdíl mezi oběma soubory jsou spočítány 95% konfidenční intervaly jako 1,59±2.01*(0,655) kg, což odpovídá rozsahu 0,28 až 2,91 kg. To, že konfidenční interval nezahrnuje 0 je dalším potvrzením, že mezi skupinami je významný rozdíl – jde o další způsob testování významnosti rozdílů mezi skupinami dat – nulovou hypotézu o tom, že rozdíl průměrů dvou skupin dat je roven nějaké hodnotě zamítáme v případě, kdy 95% konfidenční interval rozdílu nezahrnuje tuto hodnotu (v tomto případě 0).
⎛1 1⎞
( x1 − x2 ) ± t0,975 SE ( x1 − x2 ) = ( x1 − x2 ) ± t0,975 s 2 ⎜ + ⎟
⎝ n1 n2 ⎠
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
53
Test dobré shody ‐ základní teorie
Binomické jevy (1/0)
χ
pozorovaná
četnost
2
(1)
=
‐
očekávaná
četnost
2
pozorovaná
četnost
+
očekávaná četnost
‐
očekávaná
četnost
2
očekávaná četnost
I. jev 1
II. jev 2
Příklad
10 000 lidí hází mincí rub: 4 000 případů (R)
líc: 6 000 případů (L)
Lze výsledek považovat za statisticky významně odlišný
(nebo neodlišný) od očekávaného poměru R : L = 1 : 1 ?
χ
2
(1 )
=
(4000
)2
− 5000
5000
Tabulková hodnota:
χ
2
( 0 , 95 )
+
(6000
− 5000
5000
(ν = 1) = 3,84
)2
= 400
(0,95 = 1 − α )
Rozdíl je vysoce statisticky významný (p << 0,001]
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
54
Kontingenční tabulky ‐ 0 :Nezávislost dvou jevů A a B
A
B
+
Kontingenční tabulka
2 x 2
+
‐
a
b
‐
c
Podíl (+)
a
(a + c
Podíl (+)
a
(a + b
c
(c + d
d
)
b
(b + d
N = a + b + c + d
)
p1
)
p2
( ) (c +N d )
P B− =
)
Očekávané četnosti:
F( A) =
F( B ) =
(a + b ) (a + c )
N
(a + b )(b + d )
N
F(C ) =
F( D ) =
(a + c ) (d + c )
N
χ ν2 = 1 =
4
∑
(fi
i =1
− Fi
Fi
)2
(b + d ) (c + d )
N
ν = 1 = (r − 1) * (c − 1)
P( A ) ; P( B )
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
χ =
2
c
∑∑
(f
ij
− Fij − 0 , 5
)
Fij
55
2
Kontingenční tabulky: příklad
g
Ano
Ne
Σ
Ano
20
82
102
Ne
10
54
64
Σ
30
136
166
gen
FA = 102 * 30 / 166 = 18,43
FB = 102 * 136 / 166 = 83,57
FC = 11,57
FD = 52,43
2
2
2
2
(
20 − 18,43) (82 − 83,57) (10 − 11,57) (54 − 52,43)
χ =
+
+
+
= 0,423
2
(1)
18,43
83,57
11,57
52,43
0,423 < χ 02, 95(1) = 3,84
Kontingenční tabulka v obrázku
Gen: ANO
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Gen: NE
56
ANOVA – základní výpočet
•
Základním principem ANOVY je porovnání rozptylu připadajícího na:
– Rozdělení dat do skupin (tzv. effect, variance between groups)
– Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o náhodnou variabilitu (=error)
1.
Variabilita mezi skupinami
Rozptyl je počítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat
Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin ‐1)
2.
F=
ν1 = k −1
Výsledný poměr (F) porovnáme s tabulkami F rozložení pro v1 a v2 stupňů volnosti
Variabilita uvnitř skupin
Rozptyl je počítán pro průměry jednotlivých skupin a objekty uvnitř příslušných, celková variabilita je pak sečtena pro všechny skupiny
Stupně volnosti jsou odvozeny od počtu hodnot (= počet hodnot ‐ počet skupin)
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
between _ groups
within _ groups
ν2 = n − k
SS=sum of squares
57
Jednoduchý ANOVA design
Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru.
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
58
Nested ANOVA
• Rozdělení skupin na náhodné podskupiny (např. opakování experimentu)
• Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou
• Nejprve je testována shoda podskupin v hlavních skupinách, • pokud jsou shodné, je vše v pořádku
• pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové variability
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
59
Two way ANOVA
Pro rozdělení do kategorií je zde více parametrů
Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH a koncentrace O2)
Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
60
Modely analýzy rozptylu ‐ základní výstup
Základním výstupem analýzy rozptylu je
Tabulka ANOVA - frakcionace komponent rozptylu
Zdroj rozptylu
St. v.
SS
MS
F
Pok. zásah
(mezi skupinami)
a ‐1 SSB
SSB/(a ‐1) MSB/MSE
Uvnitř skupin
N ‐ a SSE SSE/(N ‐ a)
Celkem
N ‐1 SST
SSB/SST
Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu
MSB/MST
Statistická významnost rozdílu
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
61
Základy korelační analýzy I
Korelace ‐ vztah (závislost) dvou znaků (parametrů)
Y2
Y2
Y2
X1
X1
X1
ANO
NE
ANO
a
b
NE
c
d
X2
X1
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
62
Základy korelační analýzy II
Parametrické míry korelace
Kovariance
Cov( x, y) = E ( xi − x).( yi − y)
0
Pearsonův koeficient korelace
0
Y2
‐‐ x
r = 1
‐‐ y
r = ‐1
X1
0
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
63
Základy korelační analýzy III
PI (zem)
10
14
15
32
40
20
16
50
PI (rostl.)
19
22
26
41
35
32
25
40
I = 1,....., n; n = 8; v = 6
Cov ( x , y )
=
r=
S x .S y
I.
∑
1
⎡
2
x
−
⎢⎣ ∑ i n
1
∑ xi ∑ yi
n
2⎤ ⎡
1
x i ) ⎥ ⎢ ∑ y i2 −
n
⎦⎣
xi y i −
(∑
(∑ y )
2
i
⎤
⎥⎦
= 0 , 7176
H 0 : ρ = φ : α = 0,05
tab : r (v = 6 ) = 0,7076
II.
H0 : ρ = φ
n − 2
v = n−2
5
0
,
0
P
⎡
⎤
r
t = ⎢
⎥⋅
2
⎣ 1− r ⎦
0 , 7176
⎫
t=
⋅ 6 = 2 ,524 ⎪
≤
0 , 6965
⎬
(n−2)
tab : t 0 , 975 = 2 , 447 ⎪⎭
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
64
Základy regresní analýzy
Regrese ‐ funkční vztah dvou nebo více proměnných
Jednorozměrná
y = f(x)
Vícerozměrná
y = f(x1, x2, x3, ……xp)
Y
Deterministický
X
Vztah x, y
Y
Y
Regresní, stochastický
X
X
Pro každé x existuje pravděpodobnostní rozložení y
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
65
Regresní analýza přímky: lineární regrese
Y = a +b⋅x + e
≈
α + β ⋅ X +ε
α ≈ a (intercept ) : a = y − b ⋅ x
y
β ⋅ X ≈ b ⋅ x (sklon; slope)
ε ≈ e - náhodná složka : Ν (0; σ e2 ) = N (0; σ y2 x
}
)
Komponenty tvořící y se sčítají
ε ‐ náhodná složka modelu přímky = rezidua přímky
σ (σ
2
e
2
y⋅ x
) ⇒ rozptyl reziduí
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
66
Příprava nových učebních materiálů pro obor Matematická biologie
je podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 „VÍCEOBOROVÁ INOVACE STUDIA
MATEMATICKÉ BIOLOGIE“
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
67

Podobné dokumenty

Vícerozměrné statistické metody

Vícerozměrné statistické metody Nejběžnější metodu je tzv. k‐means clustering Metoda zařazuje objekty do shluků na principu ANOVA, analogií je Wardova metoda  shlukování v hierarchickém aglomerativním shlukování Počet shluků je p...

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody – Algoritmy typu dopředné a zpětné eliminace jsou pouze pomocným ukazatelem při  výběru proměnných finálního modelu – Při výběru proměnných se uplatní jak klasické statistické metody (ANOVA), tak e...

Více

from upol.cz

from upol.cz jiné podmíněna četností aplikovaných výzkumných metod (resp. počtem jejich dimenzí) a četností subjektů ve zkoumaném souboru. Obvykle platí, že čím náročnější je sběr či tvorba dat, tím menší může ...

Více

Open

Open critical value, we reject the tested hypothesis of independence of gross monthly wage on gender. Dependence of gross monthly wage on gender is proved on the significance level in this case. If the ...

Více

Prezentace aplikace PowerPoint - Institut biostatistiky a analýz

Prezentace aplikace PowerPoint - Institut biostatistiky a analýz Cílová populace – skupina subjektů, o které chceme zjistit nějakou informaci (např. všichni pacienti s danou diagnózou v ČR). Cílová populace = základní soubor Experimentální vzorek – podskupina (v...

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody euklidovské vzdálenosti objektů v prostoru PCA nejsou aproximací euklidovských vzdáleností v původním prostoru Projekce objektu v pravém uhlu na původní proměnnou aproximuje pozici objektu na této ...

Více

výzkum koncentrace rozpuštěného kyslíku v pivu

výzkum koncentrace rozpuštěného kyslíku v pivu kvalitu nápoje po napuštění do láhve. Kvalita výrobků může být značně ovlivněna pronikáním kyslíku do láhve a naopak únikem oxidu uhličitého z láhve. Stanovení koncentrace rozpuštěného kyslíku (O2)...

Více

IBM SPSS Statistics Base

IBM SPSS Statistics Base vybrat si i z rozsáhlého portfolia statistických procedur jak pro reportování, tak pro základní analýzy, včetně četností, kontingenčních tabulek, seskupování, popisné analýzy, faktorové analýzy, li...

Více