Konfirmační analýza dat

Transkript

Konfirmační analýza dat
ZPRACOVÁNÍ DAT V EKOLOGII
SPOLEČENSTEV
VÍT SYROVÁTKA
OSNOVA PŘEDNÁŠKY
o Příprava dat pro numerické analýzy
•
typy sbíraných dat, čištění dat, odlehlé body, transformace, standardizace, EDA
o Ekologická podobnost
•
indexy podobnosti a vzdálenosti mezi vzorky
o Ordinace
•
lineární vs. unimodální, přímá vs. nepřímá, artefakty, ordinační diagramy, permutační testy,
rozklad variance, parciální analýza, příkladové studie
o Klasifikace
•
hierarchická vs. nehierarchická, aglomerativní vs. divisivní, řízená vs. neřízená
o Použití druhových atributů v analýzách
•
funkční vlastnosti druhů (traits) vs. Ellenbergovy indikační hodnoty, vážený průměr, čtvrtý roh
o Indexy druhové bohatosti
•
alfa, beta a gama diverzita, akumulační druhová křivka, rarefaction
o Design ekologických experimentů
•
manipulativní experimenty vs. přírodní experimenty (pozorování)
o Případové studie na použití jednotlivých metod
2
SOFTWARE
o CANOCO 5 – ordinační analýzy, diagramy, odpovědní křivky druhů
o PC-ORD 5 – klasifikace (ordinační analýzy), analýza indikátorových druhů,
analýza odlehlých bodů
o STATISTICA 12 – korelace, ANOVA, regresní analýzy, klasifikace, ordinace
o R – vše, zadarmo + kvalitní grafika
Kde co sehnat:
•
•
•
R – https://cran.r-project.org/bin/windows/
CANOCO 5 a PC-ORD 5 – instalace z webových stránek předmětu
(http://vitsyrovatka.info/doku.php?id=zpradat:cs:software)
STATISTICA – licenci je třeba získat po přihlášení na https://inet.muni.cz/app/soft/licence
3
LITERATURA
Starší, ale doporučená
o Lepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat
•
v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of Ecological Data
using CANOCO 5 (v roce 2014 vyšlo druhé vydání pro CANOCO 5)
o Herben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1.
Data o druhovém složení
Pro zapálené
o Zuur A.F., Ieno E.N & Smith G.M. (2007) Analysing Ecological Data. Springer
o Gotelli N.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates.
o Oksanen J. (2004) Multivariate Analysis in Ecology, Lecture Notes.
•
http://cc.oulu.fi/~jarioksa/opetus/metodi/notes.pdf
o Palmer M. – Ordination methods for ecologists, website
•
http://ordination.okstate.edu/
o Legendre P. & Legendre L. (2012) Numerical Ecology (Third English Edition). Elsevier.
R friendly
o Borcard D., Gillet F. & Legendre P. (2011) Numerical Ecology with R. Springer.
4
DALŠÍ INFORMACE
o Webové stránky předmětu:
ve výstavbě, budu je postupně tvořit a doplňovat:
http://vitsyrovatka.info/doku.php?id=zpradat:cs:start
o Prozatím je možné využít pěkných stránek Davida Zeleného, který učil předmět do
loňského roku: www.bit.ly/ZpraDat
•
•
přednášky, software, příklady ke cvičení, studijní materiály
některé sekce vyžadují přihlášení
o Cvičení
•
•
•
probíhat bude v počítačové učebně blokově v dohodnutých termínech a zaměřené bude na analýzu dat a jejich vizualizaci v
programu CANOCO 5
tři čtyřhodinové bloky
v případě zájmu o program R je možné (v liché roky) zapsat si souběžně předmět Analýza dat v ekologii společenstev v
programu R (Bi7550)
o Domácí úkol
•
zadání bude sděleno v průběhu semestru
o Zkouška
•
•
vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce Závěrečná práce)
zhruba půlhodinová diskuze nad závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané látky
5
TYPY SBÍRANÝCH DAT
EDA
ÚPRAVA DAT PRO ANALÝZU
DATA V EKOLOGII SPOLEČENSTEV
Společenstvo je soubor druhů, které se
vyskytují společně v prostoru a v čase.
(Begon 2007)
o společenstvo je studovaná (závislá) „proměnná“ (response variable)
o společenstvo je vícerozměrná „proměnná“ – zaznamenána v matici (data
matrix)
o každý druh - jeho přítomnost nebo kvantita - představuje jeden rozměr
společenstva
o zaznamenaný vzorek společenstva je reprezentativní pro určitou plochu a
daný čas
(závislá, vícerozměná proměnná nemusí nutně být tvořena druhy: mohou to být např.
proměnné prostředí, vlastnosti druhů, atd.)
o prediktory (nezávislé proměnné) popisují najčastěji prostředí, zkoumáme
jejich efekt na strukturu společenstva
7
USPOŘÁDÁNÍ DAT
1. druhová tabulka (matice)
•
abundance, pokryvnosti, prezence/absence druhů
2. proměnné prostředí
•
hodnoty naměřených proměnných prostředí
3. (geografické proměnné)
•
souřadnice lokalit
4. (popisné proměnné)
•
další proměnné popisující vzorkovací schéma, např. studovaná oblast,
determinátor organismů, vzorkující, datum/období odběru...
8
TYPY PROMĚNNÝCH
o Kategoriální (kvalitativní, nominální, prezenčně-absenční)
•
•
•
•
např. substrát, půdní typy, geografická oblast
binární proměnné (přítomnost-absence druhu)
kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich)
kategorie nelze smysluplně seřadit
o Ordinální (semikvantitativní)
• např. Ellenbergovy indikační hodnoty pro druhy, Braun-Blanquetova stupnice pro
odhad pokryvnosti druhů
• jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi sousedními stupni jsou různě
velké
o Kvantitativní
• diskrétní (počty jedinců, měření s malou přesností), rozdíly mezi susedními stupni
jsou stejně velké
• kontinuální (přesná měření)
9
ALTERNATIVNÍ DĚLENÍ PROMĚNNÝCH
Typ proměnné
Příklady
binární (dvoustavová, 1/0)
přítomnost nebo absence
druhu, pohlaví
mnohostavová
neseřazená (nominální)
typ substrátu
seřazená
semikvantitativní (ordinální)
stupnice pokryvností druhů
kvantitativní (měření)
diskontinuální (počty, diskrétní)
počet jedinců
kontinuální
teplota, hloubka půdy
relativní stupnice (relative-scale) x intervalová stupnice (interval-scale)
abundance, rychlost proudu
°C, směr větru, datum
Legendre & Legendre 2012
10
KVANTITATIVNÍ VS. SEMIKVANTITATIVNÍ
o
o
o
o
kvantitativní sice přesnější
ale semikvantitativní rychlejší a levnější
trade-off mezi počtem vzorků a přesností
semikvantitativní často postačující
11
PRIMÁRNÍ DATA - SBĚR
12
PRIMÁRNÍ DATA – PŘEPIS
o tabulkový editor (spreadsheet)
• např. Microsoft Excel
o přepisujeme co nejdřív
•
•
•
•
zachycení chybějících dat
v poznámkách se snáz orientujeme, po čase přestanou být srozumitelné
dvě kopie je obtížnější ztratit nebo zničit
přítomnost dat v počítači podpoří jejich rychlé zpracování
o metadata – data o datech
•
•
•
•
•
•
jméno studie
kdo a kde data sbíral, za jakým účelem
popis experimentálních jednotek, objektů
metodika sběru dat a měření (velmi oceníme při psaní práce)
popis proměnných, jednotky
popisy zkratek
13
PRIMÁRNÍ DATA – SPREADSHEET
o v řádcích studované
objekty
•
vzorky
o v sloupcích proměnné,
kterými objekty
charakterizujeme
•
druhy, proměnné prostředí
vysvětlivky k proměnným
14
ZÁLOHA DAT
o Uchování a zpřístupnění primárních dat
•
•
•
problematika dlouhodobé archivace a nosičů dat
(nejlepší je stále papír bez volných kyselin +
laserová tiskárna)
zpřístupnění primárních dat (některé časopisy, např.
Ecological Monographs, Journal of Ecology aj., to
mají jako podmínku zveřejnění článku)
uložení dat ve veřejně dostupných elektronických
repositoriích (např. Dryad Digital Repository,
www.datadryad.org) nebo databázích (např. Česká
Národní Fytocenologická Databáze)
15
KONTROLA DAT
o
chyby (errors)
•
o
někdy se chovají jako odlehlé body, je třeba
zkontrolovat původní záznam a případně data
opravit
chybějící data (missing data, NA)
•
•
o
možnosti jejich nahrazení (interpolace, model)
vyloučení proměnné nebo vzorku který má
hodně chybějících hodnot
odlehlé body (outliers)
•
o
EDA – exploratory data analysis
další úpravy:
•
•
•
sjednocení taxonomické nomenklatury
taxonomická adjustace
někdy i vyloučení vzácných druhů (odstranění
šumu v datech)
16
KONFIRMAČNÍ VS. EXPLORAČNÍ ANALÝZA DAT
(hypothesis-driven vs data-driven science)
Konfirmační analýza dat (confirmatory data analysis, CDA)
o testuje hypotézy a generuje odhady parametrů
o např. regrese, ANOVA, testy signifikance
Explorační analýza dat (exploratory data analysis, EDA)
o průzkum dat a hledání hypotéz, které stojí za to testovat
pomocí experimentů s dalšího sběru dat
o slouží také k tzv. „vytěžování“ dat (data mining, data
dredging)
o grafická EDA slouží k
•
•
•
•
odhalení odlehlých bodů (outliers)
prozkoumání rozložení hodnot (střední hodnota, rozsah, tvar)
posouzení nutnosti transformace
odhalení vztahů mezi proměnnými
John Tukey
(1915-2000)
17
DATA EXPLORATION
o měla by zabrat 20% celkového času studie
Proč EDA:
o odhalení odlehlých bodů (outliers)
o prozkoumání rozložení hodnot
•
•
•
střední hodnota
rozsah
tvar rozložení (normalita, bimodalita, sešikmenost)
o odhalení vztahů mezi proměnnými
o posouzení nutnosti transformace
18
KRABICOVÝ GRAF (BOXPLOT)
outlier (hodnota je vyšší než horní kvartil + 1.5 x interkvartilový rozsah,
100
někdy ještě (STATISTICA) * – kvartil + 3 x interkvartilový rozsah)
maximální hodnota
50
Q3 – horní kvartil
Q2 - medián
Q1 – spodní kvartil
0
abundance Laeonereis acuta
150
Laeonereis acuta
data ze Zuur et al. 2007
minimální hodnota
19
50
100
150
0
50
100
150
Laeonereis acuta
5
10 15 20 25
0
0
Frequency
HISTOGRAM
Laeonereis acuta
20
KONDICIONÁLNÍ BOXPLOT
50
100
zde outlier už není
outlier
0
abundance Laeonereis acuta
150
Laeonereis acuta
1
2
Transekt
3
21
DOTCHART – CLEVELAND DOTPLOT
1
2
3
4
vzorky
0
50
100
Laeonereis acuta
150
22
KONDICIONÁLNÍ DOTCHART
HODNOTY ZOBRAZENY VE SKUPINÁCH
1
2
Transekt
3
outlier, potenciální
chybné měření
0
50
100
Laeonereis acuta
150
23
BODOVÝ GRAF (SCATTER PLOT)
A. outlier z hlediska
vztahu Y a X
Y
B
A
B. outlier z hlediska
rozložení hodnot X i Y
C.
outlier z hlediska
rozložení hodnot i
vztahu Y a X
C
X
24
BODOVÝ GRAF (SCATTER PLOT)
o dramatický vliv outlierů na výsledky analýz
A
C
25
400
300
200
Prec_anual
500
600
BODOVÝ GRAF (SCATTER PLOT)
-6
-4
-2
0
2
T_anual
data z Altaje, Chytrý et al., in prep.
26
PÁROVÝ GRAF (PAIR PLOT)
60
80
-26 -24 -22 -20
600
40
Prec_wetM
0.9
-6 -4 -2 0
0.4
0.6
0.5
-26
1.0
T_min.cold
ALTITUDE
200
400
-0.5
600
-1.0 -0.9
-6 -4 -2
0
2
1500
-0.7
500
-22
0.5
2
T_anual
2500
40
60
80
200
400
Prec_anual
500
1500
2500
27
400
300
200
Prec_anual
500
600
BODOVÝ GRAF (SCATTER PLOT)
-6
-4
-2
T_anual
0
2
28
COPLOT – KONDICIONÁLNÍ BODOVÝ GRAF
Given : Prec_anual
0
2
-6
-4
-2
0
500
2
-6
-4
-2
0
2
Open
Forest
Mire
20 40 60 80
Given : gr
-2
400
20 40 60 80
-4
300
20 40 60 80
richness
cévnatých rostlin
Druhová bohatost
-6
200
-6
-4
-2
0
2
-6
-4
-2
0
2
-6
-4
-2
0
2
T_anual
29
CO S OUTLIERY?
o automatické odstranění z datasetu – špatně!
o odstranění pouze když:
• data chybně zaznamenána
• nespadají do zamýšleného studovaného prostoru (sample space), např. v
důsledku havárie čističky nad lokalitou, nebo louka rozježděna čtyřkolkami
o některé body se jeví jako outliery jen proto, že je nutíme do
normálního rozložení
• extrémy v datech z log-normálního nebo exponenciálního rozložení po
transformaci krásně zapadnou mezi ostatní
30
TRANSFORMACE – CO TO JE?
o matematická funkce použitá na všechny původní hodnoty:
Y* = f(Y)
•
f() – kontinuální, monotónická, většinou jednoduchá funkce
o nemění pořadí hodnot
o mění relativní rozestupy mezi hodnotami a tudíž i varianci a tvar rozložení
o pořadí hodnot zůstane zachováno (transformace nemá vliv na neparametrické
testy)
o např. odmocnina, logaritmus
4
6
x2
8
10
2
1
0
-1
-2
-3
-4
x^0.5
2
ln(x)
80
x^2
60
40
20
0
0
ln(x)
0.0 0.5 1.0 1.5 2.0 2.5 3.0
x^0.5
100
x^2
0
2
4
6
x2
8
10
0
2
4
6
x2
8
10
31