TRANSFORMACE DAT

Transkript

TRANSFORMACE DAT
TRANSFORMACE DAT
Pokud v EDA zjistíme, že rozdělení se příliš odlišuje od normálního (asymetrie,
odlehlé body, nehomogenita), vzniká problém, jak data vůbec vyhodnotit. Často lze
použít pro vyhodnocení dat jejich transformaci.
Je vyhledána vhodná transformace, která zajistí největší přiblížení normalitě, tato
transformace se provede, vypočte se průměr a jeho IS. Vypočtené údaje se přepočítají
do původních souřadnic.
 Důvody pro transformaci: vede ke stabilizaci rozptylu, zesymetričtění rozdělení, je
robustní k odlehlým bodům.
 Obvykle nastává jedna z následujících 3 situací:
1. Zamítnuta normalita v ZP, nejsou OB ⇒ TRANSFORMACE
2. Přijata/zamítnuta normalita v ZP, nalezeny OB, které nelze vyloučit ⇒
TRANSFORMACE
3. Přijata/zamítnuta normalita v ZP, nalezeny OB, které lze vyloučit ⇒
VYLOUČENÍ OB.
PRINCIP:
Původní data
x1, x2, …
Odhad polohy a
rozptylu
PŮVODNÍCH
Transformovaná data
y1, y2, …
Odhad polohy a
rozptylu
TRANSFORMOVANÝCH dat
(PROSTÁ) MOCNINNÁ TRANSFORMACE
 xλ

y = g ( x) − x−λ
ln x

ACH/CHEX1
o Symetrizující transformace.
λ > 0 o Optimální odhad se hledá minimalizací
λ < 0 asymetrie (klasického či robustního koeficientu
šikmosti).
λ = 0 o Pro λ = 0 jde o logaritmickou transformaci.
© David MILDE
1
BOX-COXOVA TRANSFORMACE
 xλ − 1

y = g ( x) =  λ
ln x

λ ≠0
λ =0
o Přibližuje rozdělení výběru k normálnímu vzhledem k šikmosti a špičatosti.
o Takto definovaná transformace je použitelná pouze pro kladná data. Tvar
transformační funkce pro některé parametry uvádí následující obrázek:
Posouzení (statistické) výhodnosti transformace:
o Q-Q graf (pro data před a po transformaci),
o graf logaritmu věrohodnostní funkce (osa y) na parametru λ (osa x).
Maximum = optimální parametr λ. Vodorovná přímka odpovídá 95 % IS maxima
věrohodnosti a svislé přímky odpovídají IS odhadu λ <λD, λH>. Obsahuje-li tento
interval +1, není nutné transformovat (transformace není přínosná).
ACH/CHEX1
© David MILDE
2
o Čím bude IS širší, tím je transformace méně významná.
o Logaritmus věrohodnostní funkce lnL se používá ve tvaru:
n
n
ln L(λ ) = − ln s ( y) + (λ − 1)∑ ln xi
2
i =1
2
ZPĚTNÁ TRANSFORMACE (RETRANSFORMACE)
Pokud se podaří nalézt vhodnou transformaci, která vede k přibližné normalitě, lze
určit průměr a rozptyl transformovaných dat. Pak je zapotřebí provést zpětnou
transformaci na původní proměnnou (data), protože požadujeme odhady parametrů
původních dat a ne transformovaných.
Lze použít dva přístupy:
- nekorektní (naivní): provedení prosté zpětné transformace
xR = g −1 ( y)
- korektní: vychází se z Taylorova rozvoje funkce y = g(x) v okolí
y.
DALŠÍ TRANSFORMACE
EXPONENCIÁLNÍ – založena na minimalizaci asymetrie.
MODIFIKOVANÁ MOCNINNÁ TRANSFORMACE – eliminace špičatosti u
symetrického rozdělení; nejprve se od dat odečte medián a následně se aplikuje
„Box-Coxova transformace“:
y = g ( x) = SIGN
x0,5 + 1) λ − 1
( x− ~
,
λ
kde SIGN má význam znaménka, než se aplikuje absolutní hodnota.
TRANSFORMACE STABILIZUJÍCÍ ROZPTYL – vyžaduje nalezení transformace y =
g(x), ve které je s2(y) konstantní:
y = g ( x) ≈ C ∫
ACH/CHEX1
dx
f ( x)
2
kde C = kons. ze vztahu
© David MILDE
 d g ( x) 
C=
f ( x)
 dx 
3

Podobné dokumenty

Ansorge - Zeman Metodika pro stanovení potřeb vody na základě

Ansorge - Zeman Metodika pro stanovení potřeb vody na základě prognóza na další období (VÚV TGM, 1997). Prognózu můžeme definovat jako systematicky odvozenou a co do spolehlivosti ohodnocenou výpověď o budoucím stavu objektivní reality, která se má uskutečnit...

Více

Rukovet ke GIS GRASS - Les-ejk

Rukovet ke GIS GRASS - Les-ejk Tento text vznikl z poznámek ze statistického kurzu, vedeného panem Ing. Karlem Drápelou, CSc., který proběl v lednu roku 2005. Řešení jednotlivých úloh statistické analýzy jsem se pokusil ukázat ...

Více

koktejl duben 2015

koktejl duben 2015 k nejmilejším indiánům v celých Andách. Usmívají se a někdy dokonce ani nemají problém s focením. Jinde vás na trzích rádi vidí jen do momentu, než spatří váš fotoaparát. V sobotu se v Otavalu koná...

Více

Software na zpracování dynamického harmonogramu Dynamic

Software na zpracování dynamického harmonogramu Dynamic téměř všechny parametry jednotlivých činností dány pravděpodobností. Toto tvrzení můžeme demonstrovat na případě stavebního procesu, kdy v plánovací fázi není možné s absolutní přesností určit nákl...

Více

Manuál pro vTuner na CDE-135BT

Manuál pro vTuner na CDE-135BT kategorie otočte otočným ovladačem a poté stiskněte. stále svítí, opakujte (4) Pokud po vykonaném kroku (3) kontrolka krok (3), dokud není vyhledána požadovaná stanice. (4) Uložení požadované stani...

Více

Strojírenství - Střední škola Strážnice

Strojírenství - Střední škola Strážnice 14. Komplexní čísla, Moivreova věta 15. Analytická geometrie lineárních útvarů 16. Analytická geometrie kuželoseček, vzájemná poloha přímky a kuželosečky

Více

Statistika, vědecký výzkum, měření v pedagogickém

Statistika, vědecký výzkum, měření v pedagogickém  25% kvantil = dolní kvartil  50% kvantil = medián  75% kvantil = horní kvartil  10% kvantily = decily  100% kvantily = percentily

Více