Zpracování dat v ekologii společenstev

Transkript

Zpracování dat v ekologii společenstev
ZPRACOVÁNÍ DAT
V EKOLOGII SPOLEČENSTEV
David Zelený
OSNOVA PŘEDNÁŠKY
Příprava dat pro numerické analýzy

Ekologická podobnost


alfa, beta a gama diverzita, akumulační druhová křivka, rarefaction
Design ekologických experimentů


funkční vlastnosti druhů (traits) vs. Ellenbergovy indikační hodnoty, vážený průměr, čtvrtý roh
Indexy druhové bohatosti


hierarchická vs. nehierarchická, aglomerativní vs. divisivní, řízená vs. neřízená
Použití druhových atributů v analýzách


lineární vs. unimodální, přímá vs. nepřímá, artefakty, ordinační diagramy, permutační testy,
rozklad variance, parciální analýza, příkladové studie
Klasifikace


indexy podobnosti a vzdálenosti mezi vzorky
Ordinace


typy sbíraných dat, čištění dat, odlehlé body, transformace, standardizace, EDA
Zpracování dat v ekologii společenstev

David Zelený

manipulativní experimenty vs. přírodní experimenty (pozorování)
Případové studie na použití jednotlivých metod
2
LITERATURA
David Zelený
Doporučená (najdete na bit.ly/zpradat v sekci Studijní materiály)

Lepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat

Zpracování dat v ekologii společenstev

v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of
Ecological Data using CANOCO (v roce 2014 vyšlo druhé vydání pro CANOCO 5)
Herben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v
příkladech. Část 1. Data o druhovém složení
Pro fajnšmekry

Gotelli N.J. & Ellison A.M. (2004) A Primer of Ecological Statistics.
Sinauer Associates.

Oksanen J. (2004) Multivariate Analysis in Ecology, Lecture Notes.


Palmer M. – Ordination methods for ecologists, website


http://cc.oulu.fi/~jarioksa/opetus/metodi/notes.pdf
http://ordination.okstate.edu/
Legendre P. & Legendre L. (2012) Numerical Ecology (Third English
Edition). Elsevier.
3
SOFTWARE

PC-ORD 5 – numerické klasifikace, ordinační analýzy, analýza
odlehlých bodů

STATISTICA 12 – korelace, ANOVA, regresní analýzy, klasifikace,
ordinace
Zpracování dat v ekologii společenstev
CANOCO 5 – ordinační analýzy, kreslení ordinačních diagramů a
odpovědních křivek druhů
David Zelený

Kde co sehnat:


CANOCO 5 a PC-ORD 5 – instalace z webových stránek předmětu
(http://bit.ly/ZpraDat, záložka Software)
STATISTICA – licenci je třeba získat po přihlášení na http://inet.sci.muni.cz v sekci
Nabídka software
4
DALŠÍ INFORMACE
Webové stránky předmětu: www.bit.ly/ZpraDat


Cvičení




probíhat bude v počítačové učebně blokově v dohodnutých termínech a zaměřené
bude na analýzu dat a jejich vizualizaci v programu CANOCO 5
tři čtyřhodinové bloky
v případě zájmu o program R je možné (v liché roky) zapsat si souběžně předmět
Analýza dat v ekologii společenstev v programu R (Bi7550)
Domácí úkol


přednášky, software, příklady ke cvičení, studijní materiály
některé sekce vyžadují přihlášení
Zpracování dat v ekologii společenstev

David Zelený

zadání bude sděleno v průběhu semestru
Zkouška



vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce
Závěrečná práce)
půlhodinová diskuze nad závěrečnou prací, doplněná o rozšiřující otázky týkající se
probírané látky
možné dělat zároveň se zkouškou z předmětu Bi7550
5
David Zelený
Zpracování dat v ekologii společenstev
TYPY SBÍRANÝCH DAT
PŘÍPRAVA DAT PRO ANALÝZY
DATA V EKOLOGII SPOLEČENSTEV
popisují společenstvo, případně i jeho prostředí

ekologická data obsahují více proměnných (multivariate data) a dají
se vyjádřit maticí dat (data matrix)

společenstvo je typicky sledováno na určité ploše (v případě rostlin
a některých málo mobilních živočichů) nebo např. inventarizací
jedinců (např. ulovených v pastech v případě mobilních živočichů)

složení živého společenstva je popsáno přítomností jednotlivých
druhů daného typu organismů, na jedné ploše (v jedné pasti) se
většinou vyskytuje více než jeden druh

prostředí je popisováno jednou nebo více proměnnými, o kterých se
předpokládá, že ovlivňují studovaný typ organismů
Zpracování dat v ekologii společenstev

David Zelený
Společenstvo je skupina druhů,
které se vyskytují společně v
prostoru a v čase.
(Begon 2007)
7
TYPY PROMĚNNÝCH
Kategoriální (kvalitativní, nominální, prezenčně-absenční)

Ordinální (semikvantitativní)
např. Ellenbergovy indikační hodnoty pro druhy, Braun-Blanquetova stupnice pro
odhad pokryvnosti druhů
jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi stupni jsou různě velké



Zpracování dat v ekologii společenstev
např. geologický substrát, půdní typy, binární proměnné (přítomnost-absence druhu)
kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) a
nelze je smysluplně seřadit


David Zelený

Kvantitativní
diskrétní (počty jedinců, měření s malou přesností) x kontinuální (přesná měření)
relativní stupnice (relative-scale) x intervalová stupnice (interval-scale)


0
30
0
8
relativní stupnice (relative scale)
– nula znamená, že charakteristika chybí
intervalová stupnice (interval scale)
– nula je stanovena arbitrárně
TYPY PROMĚNNÝCH
ALTERNATIVNÍ TŘÍDĚNÍ
binární (dvoustavový, presence-absence)
přítomnost nebo absence
druhu
Zpracování dat v ekologii společenstev
Příklady
David Zelený
Typ proměnné
mnohostavový
neseřazený
geologický substrát
seřazený
semikvantitativní (ordinální)
stupnice pokryvností druhy
kvantitativní (měření)
diskontinuální (počty, diskrétní)
počet jedinců
kontinuální
teplota, hloubka půdy
9
Legendre & Legendre 1998
PRIMÁRNÍ DATA
David Zelený
Zpracování dat v ekologii společenstev
10
PRIMÁRNÍ DATA
David Zelený
Zpracování dat v ekologii společenstev
11

Zadávání primárních dat

spreadsheet, metadata
Zpracování dat v ekologii společenstev

David Zelený
http://www.cggveritas.com/data//1/rec_i
mgs/5152_Tapes-small.jpg
PRIMÁRNÍ DATA
Uchování a zpřístupnění primárních dat



problematika dlouhodobé archivace a nosičů
dat (nejlepší je stále papír bez volných
kyselin + laserová tiskárna)
zpřístupnění primárních dat (některé
časopisy, např. Ecological Monographs,
Journal of Ecology aj., to mají jako podmínku
zveřejnění článku)
uložení dat ve veřejně dostupných
elektronických repositoriích (např. Dryad
Digital Repository, www.datadryad.org) nebo
databázích (např. Česká Národní
Fytocenologická Databáze)
12
Programátorka Madeleine Carey s 60.000 děrnými štítky, na
kterých byl uložen program využívaný americkou leteckou
obranou. Zdroj: Science 2013
PRIMÁRNÍ DATA
David Zelený
Kontrola a čištění dat
chyby (errors)

někdy se chovají jako odlehlé body, je třeba
zkontrolovat původní záznam a případně data z
analýzy odstranit
Zpracování dat v ekologii společenstev

chybějící data (missing data, NA)



možnosti jejich nahrazení (interpolace, model)
vyloučení proměnné nebo vzorku který má hodně
chybějících hodnot
odlehlé body (outliers)



jejich detekce (outlier analysis)
EDA – exploratory data analysis
další úpravy:



sloučení taxonomické nomenklatury
někdy i vyloučení vzácných druhů (odstranění
šumu v datech)
13
KONFIRMAČNÍ VS. EXPLORAČNÍ ANALÝZA DAT
(hypothesis-driven vs data-driven science)
David Zelený
Konfirmační analýza dat (confirmatory data analysis, CDA)
testuje hypotézy a generuje odhady parametrů

např. regrese, ANOVA, testy signifikance
Zpracování dat v ekologii společenstev

Explorační analýza dat (exploratory data analysis, EDA)

průzkum dat a hledání hypotéz, které stojí za to testovat

slouží také k tzv. „vytěžování“ dat (data mining, data
dredging)

grafická EDA slouží k


odhalení odlehlých bodů (outlier analysis)
distribuce dat (normalita) a nutnost transformace
John Tukey
(1915-2000)
14
EDA – EXPLORATORY DATA ANALYSIS
ANALÝZA ODLEHLÝCH BODŮ
– BOX-PLOT & HISTOGRAM
David Zelený
XERSSW
potenciálně
chybná
hodnota
-6
-4
-2
0
2
4
Zpracování dat v ekologii společenstev
-8
Median
25%-75%
Range
Outliers
50
Frequency
40
30
20
10
0
-8
-7
-6
-5
-4
-3
-2
-1
0
XERSSW (head index)
1
2
3
4
15
DETAILY KE KRABICOVÝM GRAFŮM (BOXPLOT)
David Zelený
Klasický boxplot
(střední hodnota = medián)
Definice odlehlých bodů a
extrémů (STATISTICA)
Zpracování dat v ekologii společenstev
maximální hodnota
Q3 – horní kvartil
Q2 - medián
Q1 – spodní kvartil
minimální hodnota
16
outlier (hodnota nižší než spodní kvartil + 1.5 x interkvartilový rozsah)
EDA – EXPLORATORY DATA ANALYSIS
ANALÝZA ODLEHLÝCH BODŮ - SCATTERPLOT
David Zelený
3
2
-1
-2
-3
-4
-5
-6
-7
-3
-2
-1
0
1
2
3
4
5
3.0
6
XERSW
2.5
2.0
1.5
XERSSW
XERSSW
0
Zpracování dat v ekologii společenstev
příliš vlivný
vzorek
1
1.0
0.5
0.0
-0.5
17
-1.0
-3
-2
-1
0
1
XERSW
2
3
4
5
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
TRANSFORMACE
David Zelený
Transformace dat

Zpracování dat v ekologii společenstev
mění relativní vzdálenosti mezi jednotlivými
hodnotami a tím i tvar jejich distribuce
Proč data transformovat?

protože škála měření je arbitrární a nemusí
odpovídat ekologickému významu proměnné


protože (některé) statistické testy vyžadují, aby
residuály měly



deset prstů => používání desítkové soustavy
přibližně normální rozložení (normal distribution)
homogenní varianci (homoskedasticita, mezi průměrem a
směrodatnou odchylkou není žádný vztah)
protože lineární vztahy se interpretují lépe než
vztahy nelineární
18
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
TRANSFORMACE
David Zelený
Na co si dát při transformaci pozor?
aby transformace rozložení dat ještě nezhoršila a nevytvořila nové
odlehlé body

abychom při komentování výsledků používali netransformované
hodnoty proměnných
Zpracování dat v ekologii společenstev

Typy transformace

lineární




přičtení konstanty nebo vynásobení konstantou
nemění výsledky statistického testování nulových hypotéz
např. převod teploty měřené ve stupních Celsia na stupně Fahrenheita
nelineární


log transformace, odmocninová transformace atd.
může změnit výsledky statistického testování
19
600
500
400
0
100
200
200
300
symetrické
(symetrical)
2
4
6
8
10
12
negativně
(doleva)
zešikmené
(left skewed)
0
0
50
50
100
100
150
200
150
0
-8
-3
-2
-1
0
1
2
-6
-4
-2
0
2
3
* ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená
nulou na začátku
20
Zpracování dat v ekologii společenstev
pozitivně
(doprava)
zešikmené*
(right skewed)
David Zelený
700
ROZDĚLENÍ DAT (DATA DISTRIBUTION)
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
TRANSFORMACE
David Zelený

Logaritmická transformace
(log transformation)
pro data s výrazně pozitivně (doprava) šikmou
distribucí (right skewed), u kterých existuje vztah mezi
směrodatnou odchylkou a průměrem (lognormální
rozložení)
Zpracování dat v ekologii společenstev

Y* = log (Y), případně Y* = log (a*Y + c)





zdroj: wikipedia.org
na základě logaritmu nezáleží (10, 2, e)
konstanta a = 1; pokud je Y z intervalu <0;1>, potom a
>1
konstanta c se přidává, pokud proměnná Y obsahuje
nuly
c může být např. 1, nebo arbitrárně zvolené malé
číslo (0,001)
na konstantě c může záležet výsledek analýz
(ANOVA), a proto je dobré vybírat takové číslo, aby
transformovaná proměnná byla co nejvíce symetrická
21
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
TRANSFORMACE
David Zelený
Odmocninová transformace (square-root transformation)

Zpracování dat v ekologii společenstev
vhodná pro mírně doprava zešikmená data (right skewed), např. počty
druhů (Poisson distribution)
Y* = √ Y, případně Y* = √ (Y + c)



konstanta c se přičítá, pokud soubor obsahuje nuly
c může být např. 0,5, nebo 3/8 (0,325)
třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá
odmocnina se používá pro abundance druhů s mnoha nulami a několika
vysokými hodnotami)
Mocninná transformace (power transformation)

vhodná pro data negativně (doleva) sešikmená (left skewed)
Y* = Yp

pokud p < 1 - odmocninová transformace (p = 0,5 – druhá odmocnina, p = 0,25 – čtvrtá
odmocnina atd.)
22
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
TRANSFORMACE
David Zelený
Zpracování dat v ekologii společenstev
odmocninová
logaritmická
Legendre & Legendre (1998)
23
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
TRANSFORMACE
David Zelený
Zpracování dat v ekologii společenstev
24
Münch. Med. Wschr. 124, 1982
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
TRANSFORMACE
David Zelený
Transformace pomocí arcsin (angular transformation)

vhodná pro procentické hodnoty (a obecně podíly)
Zpracování dat v ekologii společenstev
Y* = arcsin Y nebo Y* = arcsin √ Y


použitelná pro hodnoty v intervalu <-1; 1>
transformované hodnoty jsou v radiánech
Reciproká transformace (reciprocal transformation)

vhodná pro poměry (například výška/hmotnost, počet dětí v populaci
na počet žen atd.)
Y* = 1/Y
25
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
TRANSFORMACE
David Zelený
Box-Cox transformace (zobecněná mocniná transformace)


Zpracování dat v ekologii společenstev

zobecněná parametrická transformace
iterativní hledání parametru λ (lambda), pro které je rozdělení transformované
proměnné nejblíže normálnímu rozdělení
používá se v případě, že nemáme a priori představu, jakou transformaci použít
Neparametrické metody transformace

např. metoda Omnibus pro ordinální data
26
Legendre &
Legendre 1998
MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ?
GRAFICKÁ ANALÝZA
Q-Q diagram
(Quantile-Quantile plot)
35
Zpracování dat v ekologii společenstev
3
30
2
Oček. normál. hodnoty
Počet pozorování
David Zelený
Histogram s křivkou
normálního rozdělení
25
20
15
10
5
1
0
-1
-2
0
-10
0
10
20
30
40
50
60
70
-3
-10
80
Soil depth

vizuální zhodnocení normality dat

Kolmogorovův-Smirnovův test
0
10
20
30
40
50
60
70
Pozorovaný kvantil

porovnání rozdělení dvou proměnných, vynáší
proti sobě kvantily jednotlivých proměnných

jedna proměnná může být teoretická distribuce
(v tomto případě normální rozdělení –
rankitový diagram)

na stejném principu pracuje Shapiro-Wilk test
27
MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ?
GRAFICKÁ ANALÝZA
-1
0
1
2
3
150
100
Frequency
0
0
-2
50
100 200 300 400 500
Frequency
150
100
50
0
Frequency
600
200
200
negativně zešikmené
Zpracování dat v ekologii společenstev
-3
David Zelený
pozitivně zešikmené
normální rozdělení
0
2
4
8
10
12
-8
-6
-4
variable
-2
0
2
variable
-2
-1
0
1
Sample quantiles
2
3
2
1
0
-1
Theoretical quantiles
-3
0
-3
-2
2
1
0
-1
-3
-2
Theoretical quantiles
2
1
0
-1
-2
-3
Theoretical quantiles
3
3
3
variable
6
5
10
15
Sample quantiles
20
-5
-4
-3
-2
-1
Sample quantiles
0
1
28
BIMODÁLNÍ DATA
David Zelený
20
15
0
5
10
Frequency
15
10
Frequency
5
0
6.0
6.5
7.0
7.5
8.0
6.0
6.5
7.0
7.5
8.0
Soil pH
7.0
29
6.0
6.5
6.5
7.0
Soil pH
7.5
7.5
8.0
8.0
Soil pH
Soil pH
Zpracování dat v ekologii společenstev
20
transformace nepomůže, možnost rozdělit na dva podsoubory
6.0

600
650
700
750
800
850
Annual precipitation [mm]
900
950
600
650
700
750
800
850
Annual precipitation [mm]
900
950
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
STANDARDIZACE JEDNOTLIVÝCH PROMĚNNÝCH
David Zelený
Centrování (centring)

výsledná proměnná má průměr roven nule
Zpracování dat v ekologii společenstev
Yi* = Yi – průměr (Y)
Standardizace v úzkém slova smyslu

výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné

„synchronizuje” proměnné měřené v různých jednotkách a na různých stupnicích
Yi* = (Yi – průměr (Y)) / směrodatná odchylka (Y)
Změna rozsahu hodnot (ranging)

výsledná proměnná je v rozsahu [0, 1]
(a) Yi* = Yi / Ymax nebo
(b) Yi* = (Yi – Ymin) / (Ymax – Ymin)
30
a - proměnná na relativní škále (začíná nulou), b - obecná proměnná
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
STANDARDIZACE MATICE SPOLEČENSTVA
David Zelený
Standardizace v případě matice společenstva (vzorky x druhy)

standardizace po druzích (standardization by species)
Zpracování dat v ekologii společenstev
dává velkou váhu vzácným druhům
 ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku,
standardizace po druzích dá tomuto snímku velkou váhu – bude velmi
odlišný od ostatních)


standardizace po vzorcích (standardization by samples)
pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich
absolutní abundance
 vhodné v případě, že výsledné abundance závisí na důkladnosti, s jakou
sbíráme data (např. při odchytu živočichů doba strávená na ploše, počet
pastí nebo vliv špatného počasí na mobilitu živočichů)

31
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
STANDARDIZACE MATICE SPOLEČENSTVA
David Zelený
původní matice
Druhy
druh 1
druh 2
druh 3
vzorek 1
1
3
5
vzorek 2
2
6
10
vzorek 3
10
30
50
standardizace po druzích
standardizace po vzorcích
Druhy
Druhy
Vzorky
druh 1
druh 2
druh 3
Vzorky
druh 1
druh 2
druh 3
vzorek 1
-0.68
-0.68
-0.68
vzorek 1
-1
0
1
vzorek 2
-0.47
-0.47
-0.47
vzorek 2
-1
0
1
vzorek 3
1.15
1.15
1.15
vzorek 3
-1
0
1 32
Zpracování dat v ekologii společenstev
Vzorky
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
matematická funkce, jejíž
argumenty nejsou odvozené z
dat, na která je transformace
aplikovaná (data independent)

nejčastější důvod je změnit tvar
rozložení proměnné, případně
zajistit homoskedasticitu
STANDARDIZACE

mění data pomocí statistiky,
která je spočtená na datech
samotných, např. průměr,
součet, rozsah aj. (data
dependent)

nejčastější důvod použití je
vyrovnat rozdíly v relativním
významu (váze) jednotlivých
ekologických proměnných,
druhů nebo vzorků

ve své podstatě je to další typ
transformace
Zpracování dat v ekologii společenstev

David Zelený
TRANSFORMACE
33
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
KÓDOVÁNÍ DAT (DATA CODING)
David Zelený

Dummy variables

Zpracování dat v ekologii společenstev

metoda, jak převést kvalitativní (kategoriální) proměnnou na kvantitativní (binární)
proměnné použitelné v analýzách
pokud má kategoriální proměnná n stavů (hodnot), pro její vyjádření stačí n-1
dummy proměnných (jedna z proměnných je vždy lineárně závislá na ostatních)
dummy proměnné
hodnoty
KAMB
kambizem
1
litozem
LITO
RANK
FLUVI
0
0
0
0
1
0
0
ranker
0
0
1
0
fluvizem
0
0
0
1
34
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
KÓDOVÁNÍ DAT (DATA CODING)
David Zelený

např. nahrazení kódů u alfa-numerických stupnic, např. BraunBlanquetovy stupnice dominance-abundance


Braun-Blanquetova stupnice:
ordinální hodnoty*:
střední hodnoty procent**:
Zpracování dat v ekologii společenstev

r + 1 2 3 4 5
1 2 3 4 5 6 7
1 2 3 13 38 63 88
*) van der Maarel (2007), Table 1
**) Turboveg for Windows 2
35
SOUBORY S VELKÝM POČTEM NUL
(ANEB VÝZNAM NULY V EKOLOGII)
dva možné významy nuly:
1.
hodnota může být ve skutečnosti nenulová, ale díky našim možnostem měření jsme
ji naměřili jako nulovou (například koncentrace látky v roztoku)
hodnota je skutečná nula – například absence druhu
Zpracování dat v ekologii společenstev
2.

David Zelený

data obsahující „pravé nuly“ obsahují dva typy informace:
1.
2.
druh chybí nebo je přítomen?
pokud je druh přítomen, jaká je jeho abundance?

v datech obsahujících velké množství „pravých nul“ je většina
informace prvního typu

problém „pravých“ nul při logaritmické transformaci – soubor s
velkým počtem „pravých“ nul není vhodné logaritmicky
transformovat (přičítat k nim konstantu c), ale lépe ji nahradit binární
proměnnou (prezence-absence)
36
99.0
98.5
98.0
97.5
Zpracování dat v ekologii společenstev
více než 90% hodnot tvoří nuly, u
velkých souborů až 99%
David Zelený
(SPARSE MATRIX, ŘÍDKÁ
MATICE)
97.0
EKOLOGII SPOLEČENSTEV
Zastoupení nul v matici [%]
MATICE „VZORKY × DRUHY“ V
100
2000
4000
6000
8000
vzorky
Počet vegetačních snímků v matici
37
druhy
David Zelený
(ECOLOGICAL RESEMBLANCE)
Zpracování dat v ekologii společenstev
EKOLOGICKÁ PODOBNOST
EKOLOGICKÁ PODOBNOST
David Zelený
jedinec
společenstvo
Zpracování dat v ekologii společenstev
jedinci stejného druhu
39
EKOLOGICKÁ PODOBNOST
David Zelený
Zpracování dat v ekologii společenstev
40
EKOLOGICKÁ PODOBNOST
Q VS R ANALÝZA
David Zelený
Vzorky
druh 1
druh 2
druh 3
vzorek 1
0
1
1
vzorek 2
1
0
0
vzorek 3
0
4
4
vztahy mezi druhy
(nebo obecně mezi deskriptory)
R analýza
vztahy mezi vzorky
Q analýza
41
Zpracování dat v ekologii společenstev
Druhy
PODOBNOSTI
X VZDÁLENOSTI (Q ANALÝZA)
David Zelený
Indexy podobnosti (similarity coefficients)
slouží k vyjádření podobnosti mezi vzorky, ne k jejich umístění do
mnohorozměrného prostoru (například ordinace)

nejnižší hodnota 0 – vzorky nesdílejí žádný druh

nejvyšší hodnota (1 nebo jiná) – vzorky jsou identické
Zpracování dat v ekologii společenstev

Vzdálenosti mezi vzorky (distance coefficients)

slouží k umístění vzorků v mnohorozměrném prostoru

nejnižší hodnota 0 – vzorky jsou identické (ve stejné lokaci)

hodnota se zvyšuje se zvyšující se nepodobností mezi vzorky
42
INDEXY PODOBNOSTI (SIMILARITY COEFFICIENTS)
David Zelený
kvalitativní vs kvantitativní
kvalitativní – pro presenčně-absenční data

kvantitativní – pro data vyjadřující abundance, počty aj.
Zpracování dat v ekologii společenstev

symetrické vs asymetrické

dvojité nepřítomnosti („double-zero“) – počet druhů, které chybí
zároveň v obou vzorcích, v kontrastu s počtem druhů které se
vyskytují zároveň v obou vzorcích

symetrické – dvojité nepřítomnosti hodnotí stejně jako dvojité
přítomnosti (totiž že vyjadřují podobnost mezi vzorky); v ekologii se
prakticky nepoužívají

asymetrické – dvojité nepřítomnosti ignorují; nejčastější typ indexů
podobnosti v ekologii
43
PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ (DOUBLE-ZEROS)
David Zelený
Skutečnost, že druh chybí zároveň v obou snímcích, může znamenat,
že:
vzorky leží mimo ekologickou niku druhu


Zpracování dat v ekologii společenstev

nemůžeme ale říci, zda oba vzorky leží na stejné straně ekologického gradientu
mimo niku druhu (a jsou si tedy docela podobné) nebo na stranách opačných (a jsou
pak úplně odlišné)
vzorky leží uvnitř ekologické niky druhy, ale druh se ve vzorku
nevyskytuje, protože



se tam nedostal (dispersal limitation)
jsme ho přehlédli a nezaznamenali (sampling bias)
nachází se právě v dormantním stadiu a není proto vidět (jednoletky, geofyty)
44
PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ
vlhkomilný
druh 2
mezický
druh 1
mezický
druh 2
suchomilný
druh 1
suchomilný
druh 2
1
1
0
0
0
0
vzorek 2
0
1
1
1
1
0
vzorek 3
0
0
0
0
1
1

vzorky 1 až 3 jsou seřazeny podle vlhkosti stanoviště – vzorek 1 je
nejvlhčí, vzorek 3 nejsušší

vzorek 1 a 3 neobsahují ani jeden mezický druh – vzorek 1 je pro
tyto druhy příliš vlhký, vzorek 3 příliš suchý

symetrické indexy podobnosti: dvojitá nepřítomnost mezických
druhů bude zvyšovat podobnost vzorků 1 a 3

asymetrické indexy: dvojité nepřítomnosti budou ignorovány
Zpracování dat v ekologii společenstev
vzorek 1
David Zelený
vlhkomilný
druh 1
(DOUBLE-ZEROS PROBLEM)
45
INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA
přítomen
nepřítomen
přítomen
a
b
nepřítomen
c
d
Zpracování dat v ekologii společenstev
ve vzorku č. 2
David Zelený
ve vzorku č. 1
druh je
a – počet druhů přítomných v obou vzorcích
b, c – počet druhů přítomných jen v jednom vzorku
d – počet druhů, které chybí v obou vzorcích („double zeros“)
Pokud nebereme v úvahu druhy
nepřítomné v obou vzorcích (d),
lze zobrazit i pomocí Vennova
diagramu 
c
a
b
46
vzorek č. 1
vzorek č. 2
INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA
Jaccardův koeficient
J = a / (a + b + c)

Sørensenův koeficient
S = 2a / (2a + b + c)


přítomnosti druhu v obou vzorcích (frakce [a]) přisuzuje dvojnásobnou váhu
na rozdíl od Jaccarda je semimetrický
Simpsonův koeficient

Zpracování dat v ekologii společenstev

David Zelený

Si = a / [a + min (b,c)]
vhodný pro vzorky velmi odlišné počtem druhů
c
a
b
47
vzorek č. 1
vzorek č. 2
INDEXY PODOBNOSTI PRO KVANTITATIVNÍ DATA
David Zelený

zobecněný Sørensenův koeficient (procentická podobnost,
percentage similarity)





Zpracování dat v ekologii společenstev
PS = [2 Σ min (xi, yi)] / Σ (xi + yi)
xi, yi ... kvantita i-tého druhu ve srovnávaných vzorcích
má rozsah od 0 do 1
pro presenčně absenční data přechází v 2a / (2a + b + c)
velmi vhodný pro ekologická data
percentage dissimilarity (PD, Bray-Curtis index) = 1 – PS
48
VZDÁLENOSTI MEZI VZORKY (DISTANCE COEFFICIENTS)
David Zelený

všechny indexy podobnosti (kvalitativní i kvantitativní) lze převést na
distance

Zpracování dat v ekologii společenstev
D = 1 – S, nebo D = √ (1 – S)
kde D je vzdálenost (distance) a S je podobnost (similarity)

odmocninový převod se používá například pro Sørensenův koeficient

neplatí obráceně - ne všechny vzdálenosti se dají převést na
podobnosti (např. Euklidovská vzdálenost)
49
VZDÁLENOSTI MEZI VZORKY (DISTANCE MEASURES)
Euklidovská vzdálenost (Euclidean distance)
David Zelený

ED = √ Σ (xi – yi)2

tětivová vzdálenost (chord distance, relativized Euclidean distance)



Euklidovská vzdálenost použitá na datech standardizovaných přes vzorky (by sample
norm)
rozsah: od 0 (identické vzorky) do √2 (vzorky nesdílí žádný druh)
Hellingerova vzdálenost (Hellinger distance)



rozsah: od 0 (identické vzorky), horní mez není dána
rozsah hodnot výrazně záleží na použitých jednotkách
míra citlivá na odlehlé body - nevhodná pro ekologická data
symetrická míra vzdálenosti – trpí problémem dvojitých nul
Zpracování dat v ekologii společenstev




možno vypočíst jako Euklidovská vzdálenost aplikovaná na data po aplikaci Hellingerovy
standardizace
netrpí problémem dvojitých nul
Chi-kvadrát vzdálenost (chi-square distance)


málokdy se používá přímo na výpočet vzdálenosti mezi vzorky
vyjadřuje vzdálenost mezi vzorky v unimodálních ordinačních metodách (např. v
korespondenční analýze, CA)
50
EUKLIDOVSKÁ VZDÁLENOST
PARADOX PŘI POUŽITÍ ABUNDANČNÍCH DAT
David Zelený

Druhy
Vzorky
druh 1
druh 2
druh 3
vzorek 1
0
1
1
vzorek 2
1
0
0
vzorek 3
0
4
4
1,732
4,243
Eucl (vzorek 1, vzorek 2) = √ (0-1)2 + (1-0)2 + (1-0)2 = 1,732
Eucl (vzorek 1, vzorek 3) = √ (0-0)2 + (1-4)2 + (1-4)2 = 4,243
51
Zpracování dat v ekologii společenstev
při použití abundančních dat se může stát, že dva vzorky, které sdílí
některé druhy (vzorky 1 a 3), budou mít větší vzdálenost než dva
vzorky, které nesdílí ani jeden druh (vzorky 1 a 2)
INDEXY PODOBNOSTI MEZI DRUHY (R ANALÝZA)
V kolika vzorcích je ...

Diceův index



přítomen
nepřítomen
přítomen
a
b
nepřítomen
c
d
Zpracování dat v ekologii společenstev
druh č. 2
David Zelený
druh č. 1
Dice = 2a / (2a + b + c)
stejný jako Sørensenův index pro podobnost mezi vzorky
uveden dříve než Sørensen (Dice 1945 vs Sørensen 1948)
Pearsonův korelační koeficient r

není vhodný pro data s velkým počtem nul, ani po transformaci
52
MATICE PODOBNOSTÍ (VZDÁLENOSTÍ) MEZI VZORKY (NEBO
DRUHY)

diagonála obsahuje pouze nuly (matice vzdáleností) nebo pouze
jedničky (matice podobností)
1
2
3
4
5
6
7
8
9
10
1
0
12.37
11.70
17.92
13.86
10.58
11.92
10.54
13.82
15.59
2
12.37
0
11.14
13.34
16.58
13.96
9.64
13.56
13.64
13.42
3
11.70
11.14
0
14.42
16.16
11.53
10.34
13.71
14.90
13.78
4
17.92
13.34
14.42
0
18.36
15.78
9.64
17.03
14.42
7.48
5
13.86
16.58
16.16
18.36
0
13.71
14.49
9.00
14.04
15.46
6
10.58
13.96
11.53
15.78
13.71
0
11.31
11.87
10.54
12.85
7
11.92
9.64
10.34
9.64
14.49
11.31
0
13.82
12.77
9.43
8
10.54
13.56
13.71
17.03
9.00
11.87
13.82
0
10.95
14.35
matice Euklidovských vzdáleností mezi 10 vzorky
9
13.82
13.64
14.90
14.42
14.04
10.54
12.77
10.95
0
10.39
Zpracování dat v ekologii společenstev
je symetrická (podobnost mezi 2. a 3. snímkem = podobnost mezi 3.
a 2. snímkem)
David Zelený

10
15.59
13.42
13.78
7.48
15.46
12.85
9.43
14.35
10.39
0
53
David Zelený
Zpracování dat v ekologii společenstev
ORDINAČNÍ ANALÝZA
KONCEPCE MNOHOROZMĚRNÉHO PROSTORU
David Zelený
Prostor může být definován:
Zpracování dat v ekologii společenstev
druhy (species space)
vzorky (sample space)
55
Zuur et al. (2007)
ORDINACE
RŮZNÉ FORMULACE PROBLÉMU
najdi skryté gradienty v druhovém složení (ordinační osy)
2)
rozmísti vzorky v zobrazitelném prostoru (ordinační prostor)
David Zelený
1)
Zpracování dat v ekologii společenstev
56
http://ordination.okstate.edu/
NEPŘÍMÁ VS PŘÍMÁ ORDINACE
UNCONSTRAINED VS CONSTRAINED ORD.
ordinační osy – směry největší
variability dat

popisu dat a generování
hypotéz

ordinační osy – variabilita dat
vztažená k daným proměnným

testování hypotéz
vzorky
druhová matice a matice
proměnných prostředí
proměnné
prostředí
druhy
Přímá ordinace

druhová
matice
druhová
matice
+
vzorky

Zpracování dat v ekologii společenstev
pouze druhová matice
vzorky
Nepřímá ordinace

David Zelený
druhy
matice
proměnných
prostředí
57
MODELY ODPOVĚDI DRUHŮ NA GRADIENT PROSTŘEDÍ
David Zelený
unimodální
Zpracování dat v ekologii společenstev
abundance
1.5
1.0
abundance
2.0
lineární
0.0
0.2
0.4
0.6
gradient
0.8
gradient
58
LINEÁRNÍ MODEL ODPOVĚDI DRUHU
JEN PŘI KRÁTKÉM EKOLOGICKÉM GRADIENTU
David Zelený
abundance druhu
abundance druhu
dlouhý ekologický gradient
Zpracování dat v ekologii společenstev
krátký ekologický gradient
gradient prostředí (pH, nadm. výška)
gradient prostředí (pH, nadm. výška)
59
Lepš & Šmilauer (2003) Multivariate analysis of ...
PŘEHLED METOD ORDINAČNÍ ANALÝZY
raw-data-based
(založené na primárních datech)
transformationbased
linear
unimodal
(lineární)
(unimodální)
(založené na
transformovaných
primárních datech)
CA, DCA
tb-PCA
distancebased
(založené na
distanční matici)
(analýza hlavních
koordinát)
PCoA
unconstrained
(nepřímé)
constrained
(přímé)
PCA
(analýza hlavních
komponent)
RDA
(redundanční analýza)
(korespondenční a
detrendovaná
korespondenční
analýza)
(analýza hlavních
komponent na
transformovaných
primárních datech)
NMDS
(nemetrické
mnohorozměrné
škálování)
CCA
tb-RDA
db-RDA
(kanonická
korespondenční
analýza)
(redundanční analýza na
transformovaných
primárních datech)
(redundanční analýza
založená na distanční
matici)
62
David Zelený
Zpracování dat v ekologii společenstev
NEPŘÍMÁ ORDINAČNÍ ANALÝZA
PŘEHLED METOD ORDINAČNÍ ANALÝZY
raw-data-based
(založené na primárních datech)
transformationbased
linear
unimodal
(lineární)
(unimodální)
(založené na
transformovaných
primárních datech)
CA, DCA
tb-PCA
distancebased
(založené na
distanční matici)
(analýza hlavních
koordinát)
PCoA
unconstrained
(nepřímé)
constrained
(přímé)
PCA
(analýza hlavních
komponent)
RDA
(redundanční analýza)
(korespondenční a
detrendovaná
korespondenční
analýza)
(analýza hlavních
komponent na
transformovaných
primárních datech)
NMDS
(nemetrické
mnohorozměrné
škálování)
CCA
tb-RDA
db-RDA
(kanonická
korespondenční
analýza)
(redundanční analýza na
transformovaných
primárních datech)
(redundanční analýza
založená na distanční
matici)
64
NEPŘÍMÁ ORDINACE
PRINCIP

první ordinační osa (ordination axis) a skóre vzorků na této ordinační
ose (sample scores)

odhad optima (odpovědi) jednotlivých druhů na této ose (species
scores)

druhá a vyšší ordinační osy – musejí být lineárně nezávislé na všech
nižších ordinačních osách
Zpracování dat v ekologii společenstev
hledání skryté proměnné (gradientu), který nejlépe reprezentuje
chování všech druhů podél tohoto gradientu
David Zelený

65
PCA – PRINCIP VÝPOČTU
(Principal Component Analysis, analýza hlavních komponent)
2
1
samp2
3
4
samp3
5
0
samp4
7
6
samp5
9
2
samp4
sp2
samp1
Zpracování dat v ekologii společenstev
sp2
David Zelený
sp1
samp2
samp5
samp1
samp3
sp1
a)
b)
c)
d)
rozmístění vzorků v
prostoru
definovaném druhy
výpočet těžiště
shluku
centrování os
rotace os
66
Legendre & Legendre (1998)
PCA – PRINCIP VÝPOČTU
(Principal Component Analysis, analýza hlavních komponent)
David Zelený
Zpracování dat v ekologii společenstev
3D
2D
67
http://cnx.org
Příklad: rozeznávání písmen v
analýze obrazu pomocí PCA
David Zelený
Zpracování dat v ekologii společenstev
A
B
C
D
E
F
.
.
.
X
Y
Z
a11 a12 a13 a14 a15 a21 a22 a23 a24 a25 a31 a32 a33 a34 a35 a41 a42 a43 a44 a45 a51 a52 a53 a54 a55
0
1
1
1
0
1
0
0
0
1
1
1
1
1
1
1
0
0
0
1
1
0
0
0
1
1
1
1
1
0
1
0
0
0
1
1
1
1
1
0
1
0
0
0
1
1
1
1
1
0
0
1
1
1
1
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
1
1
1
1
1
1
1
1
0
1
0
0
0
1
1
0
0
0
1
1
0
0
0
1
1
1
1
1
0
1
1
1
1
1
1
0
0
0
0
1
1
1
0
0
1
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
1
1
1
0
0
1
0
0
0
0
1
0
0
0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
0
0
0
1
0
1
0
1
0
0
0
1
0
0
0
1
0
1
0
1
0
0
0
1
1
0
0
0
1
0
1
0
1
0
0
0
1
0
0
0
0
1
0
0
0
0
1
0
0
1
1
1
1
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
1
1
1
1
68
Inspired by work of François Labelle (http://www.cs.mcgill.ca/~sqrt/dimr/dimreduction.html)
David Zelený
PCA1
(O-X)
PCA2
(H-I)
Zpracování dat v ekologii společenstev
vztah proměnných
A11 a A12
výsledek PCA
(1. a 2. PCA osa)
69
David Zelený
PCA1
(O-X)
PCA2
(H-I)
Zpracování dat v ekologii společenstev
vztah proměnných
A11 a A12
výsledek PCA
(1. a 2. PCA osa)
70
KTERÉ OSY PCA JSOU DŮLEŽITÉ?
David Zelený
Summary Table:
Statistic
Eigenvalues
Explained variation (cumulative)
Axis 1
0.242
24.2
Axis 2
0.2002
44.22
Axis 3
0.1608
60.3
Axis 4
0.0843
68.73
Axis 5
0.0608
74.81
Axis 6
0.0501
79.82
Axis 7
0.0389
83.71
Axis 8
0.0369
87.4
...
...
...
Axis 23
0.0002
99.99
Axis 24
0.0001
100
Zpracování dat v ekologii společenstev
25
% eigenvalue
Broken stick model
15
10
5
PC24
PC23
PC22
PC21
PC20
PC19
PC18
PC17
PC16
PC15
PC14
PC13
PC12
PC11
PC10
PC9
PC8
PC7
PC6
PC5
PC4
PC3
PC2
0
PC1
% variation
20
71
PODSTATA MODELU „ZLOMENÉ HOLE“ (BROKEN-STICK MODEL)
David Zelený
10
20
30
40
Zpracování dat v ekologii společenstev
0
hůl
hůl se po pádu na zem rozpadne
na 6 různě dlouhých částí
72
PCA: circle of equilibrium
contribution
(kruh rovnovážného příspěvku
proměnné)
poloměr = 𝑑/𝑝
kde d = počet os v zobrazení,
p = počet všech os v PCA
(rovno počtu deskriptorů)
vektory =
deskriptory
body =
vzorky
Legendre P. & Legendre L. (2012)
Numerical Ecology, p. 447
Interpretace: deskriptory (druhy
n. jiné proměnné) s vektory
delšími než poloměr kruhu
výrazně přispívají k interpretaci
daných ordinačních os (v tomto
případě první a druhé)
73
CA - PRINCIP VÝPOČTU
(Correspondence Analysis, korespondenční analýza)
David Zelený
5 výpočetních kroků
1.
3.
Zpracování dat v ekologii společenstev
2.
začni s arbitrárním (náhodným) skóre vzorků (xi)
vypočti nové skóre pro jednotlivé druhy (species score, yi) jako
průměr skóre vzorků xi vážený abundancí druhu ve vzorcích
vypočti nové skóre pro jednotlivé vzorky (sample score, xi) jako
průměr skóre druhů yi vážený abundancí druhů ve vzorku
4.
standardizuj skóre jednotlivých vzorků (natáhni osu)
5.
pokud se skóre nemění, zastav, pokud ano, pokračuj krokem 2
74
CA - PRINCIP VÝPOČTU
(Correspondence Analysis, korespondenční analýza)
David Zelený
Zpracování dat v ekologii společenstev
75
Lepš & Šmilauer (2003) Multivariate analysis of ...
CA - PRINCIP VÝPOČTU
(Correspondence Analysis, korespondenční analýza)
David Zelený
Zpracování dat v ekologii společenstev
76
Lepš & Šmilauer (2003) Multivariate analysis of ...
CA - PRINCIP VÝPOČTU
(Correspondence Analysis, korespondenční analýza)
David Zelený
Zpracování dat v ekologii společenstev
77
Lepš & Šmilauer (2003) Multivariate analysis of ...
CA - PRINCIP VÝPOČTU
(Correspondence Analysis, korespondenční analýza)
David Zelený
Zpracování dat v ekologii společenstev
78
Lepš & Šmilauer (2003) Multivariate analysis of ...
CA - PRINCIP VÝPOČTU
(Correspondence Analysis, korespondenční analýza)
David Zelený
Zpracování dat v ekologii společenstev
79
Lepš & Šmilauer (2003) Multivariate analysis of ...
CA2
CA2
CA1
pravidelné
rozložení
bodů na
konci
procesu
CA2
CA2
Zpracování dat v ekologii společenstev
CA1
David Zelený
náhodné
rozložení
bodů na
začátku
iterativního
procesu
80
CA1
CA1
SIMULOVANÁ DATA
JEDEN EKOLOGICKÝ GRADIENT

300 druhů s unimodální odpovědí, různými šířkami nik

500 vzorků náhodně rozmístěných podél gradientu
Zpracování dat v ekologii společenstev
simulovaný gradient dlouhý 5000 jednotek
David Zelený

81
SIMULOVANÁ DATA
ARTEFAKTY
David Zelený
PCA - podkova
CA - oblouk
Zpracování dat v ekologii společenstev
o vzorky
+ druhy
82
ARTEFAKTY V ORDINACÍCH
PŘÍČINY
důsledek algoritmu (lineární nezávislost všech os)

důsledek projekce (nelineární vztahy mezi druhy -> lineární prostor)
David Zelený

Zpracování dat v ekologii společenstev
http://ordination.okstate.edu
83
ORDINAČNÍ DIAGRAMY
David Zelený
Zpracování dat v ekologii společenstev
lineární metoda
unimodální metoda
84
DCA – PRINCIP VÝPOČTU, ODSTRANĚNÍ TRENDU
David Zelený
(Detrended Correspondence Analysis, detrendovaná
korespondenční analýza)
Krok 1 – rozdělení první osy na několik segmentů
Zpracování dat v ekologii společenstev
http://ordination.okstate.edu
Krok 2 – vycentrování druhé osy každého segmentu kolem nuly
86
DCA – PRINCIP VÝPOČTU, ODSTRANĚNÍ TRENDU
David Zelený
(Detrended Correspondence Analysis, detrendovaná
korespondenční analýza)
Krok 3 – nelineární přeškálování první osy
Zpracování dat v ekologii společenstev
http://ordination.okstate.edu
Výsledek škálování:
• osy naškálované v jednotkách směrodatné odchylky (SD)
• celé druhové složení se obmění na 4 SD
87
ROZDÍL MEZI CA A DCA NA STEJNÝCH DATECH
David Zelený
CA
CA
1
DCA
DCA
0
-4
-2
-3
-1
-2
CA2
DCA2
-1
1
0
2
Zpracování dat v ekologii společenstev
-1
0
1
CA1
2
3
4
-2
-1
0
1
2
3
DCA1
Animace: http://youtu.be/OHMf42Sy6KM
88
DCA – ROZDÍLNÉ VÝSLEDKY PŘI POUŽITÍ RŮZNÉHO POČTU
DETRENDOVACÍCH SEGMENTŮ
David Zelený
5 segmentů
16 segmentů
DCA, # segments = 15
0
DCA2
-1
0
-2
-1
-2
-2
-1
0
1
2
3
-2
-1
0
DCA1
1
2
3
DCA1
40 segmentů
26 segmentů
DCA, # segments = 40
-1
-2
0
-1
-2
0
DCA2
1
1
2
2
DCA, # segments = 26
DCA2
Zpracování dat v ekologii společenstev
DCA2
1
1
2
2
3
DCA, # segments = 5
89
-2
-1
0
1
DCA1
2
3
-2
-1
0
1
DCA1
2
3
DCA NA SIMULOVANÝCH DATECH (JEDEN GRADIENT)
David Zelený
Zpracování dat v ekologii společenstev
o vzorky
+ druhy
90
VÝBĚR ORDINAČNÍ METODY NA ZÁKLADĚ DCA
LINEÁRNÍ NEBO UNIMODÁLNÍ?
David Zelený
Pokud je délka 1. osy DCA
menší než 3 SD – homogenní data - lineární metoda

větší než 4 SD – heterogenní data - unimodální metoda

v rozmezí 3-4 SD – obě techniky pracují rozumně
Zpracování dat v ekologii společenstev

Platí jen pro detrendování po segmentech a délku první osy!
91
David Zelený
Zpracování dat v ekologii společenstev
92
TŘI ALTERNATIVNÍ PŘÍSTUPY K NEPŘÍMÉ ORDINAČNÍ ANALÝZE
David Zelený
(a) Klasický přístup
Zpracování dat v ekologii společenstev
(b) Transformace dat (např. Hellingerova) (tb-PCA)
(c) Přes matici nepodobností (PCoA, NMDS)
93
Legendre & Legendre (2012)
PŘEHLED METOD ORDINAČNÍ ANALÝZY
raw-data-based
(založené na primárních datech)
transformationbased
linear
unimodal
(lineární)
(unimodální)
(založené na
transformovaných
primárních datech)
CA, DCA
tb-PCA
distancebased
(založené na
distanční matici)
(analýza hlavních
koordinát)
PCoA
unconstrained
(nepřímé)
constrained
(přímé)
PCA
(analýza hlavních
komponent)
RDA
(redundanční analýza)
(korespondenční a
detrendovaná
korespondenční
analýza)
(analýza hlavních
komponent na
transformovaných
primárních datech)
NMDS
(nemetrické
mnohorozměrné
škálování)
CCA
tb-RDA
db-RDA
(kanonická
korespondenční
analýza)
(redundanční analýza na
transformovaných
primárních datech)
(redundanční analýza
založená na distanční
matici)
94
PCOA – PRINCIPAL COORDINATE ANALYSIS
(analýza hlavních koordinát)
metoda založená na distancích mezi vzorky

vstupní data – matice nepodobností mezi vzorky

pokud zvolím Euklidovskou vzdálenost -> identické s PCA
pokud zvolím Chi-kvadrát vzdálenost -> obdoba CA

umístí objekty na základě jejich vzdáleností (distancí) do
Euklidovského prostoru (tvořeného souřadnicemi – skóre vzorků na
osách)

použití nemetrických distancí může způsobit výskyt os ze zápornou
hodnotou eigenvalue

synonymum MDS – Metric Dimensional Scaling
Zpracování dat v ekologii společenstev

David Zelený

95
PCOA – PŘÍKLAD NA VZDÁLENOSTECH MEZI MĚSTY
Brussels
2963
1318
0
...
Calais
3175
1326
204
...
Cherbourg
3339
1294
583
...
Cologne
2762
1498
206
...
Copenhagen
3276
2218
966
...
Geneva
2610
803
677
...
Gibraltar
4485
1172
2256
...
Hamburg
2977
2018
597
...
...
...
...
...
...
Hamburg
...
0
Hook of Holland
Calais Cologne
Brussels
Cherbourg
Paris
0
3313
Copenhagen
1000
0
Lisbon
Lyons
Geneva
Marseilles
Milan
Madrid
Gibraltar
Munich
Vienna
Barcelona
-1000
Barcelona
...
PCoA2
Athens
Barcelona Brussels
Stockholm
Zpracování dat v ekologii společenstev
Athens
David Zelený
Vzdálenosti mezi městy (km)
Rome
Athens
-2000
-1000
0
1000
2000
PCoA1
96
PCOA – PŘÍKLAD NA VZDÁLENOSTECH MEZI MĚSTY
David Zelený
Stockholm
Zpracování dat v ekologii společenstev
1000
Copenhagen
0
Lisbon
Lyons
Geneva
Marseilles
Milan
Madrid
Gibraltar
Munich
Vienna
Barcelona
-1000
PCoA2
Hamburg
Hook of Holland
Calais Cologne
Brussels
Cherbourg
Paris
Rome
Athens
-2000
-1000
0
1000
2000
PCoA1
97
NMDS - NON-METRIC MULTIDIMENSIONAL SCALING)
ORDINACE ZALOŽENÁ NA DISTANCÍCH

vstupní data – matice nepodobností mezi vzorky

výpočet matice nepodobností – jakýkoliv index nepodobnosti

iterativní algoritmus, který nemusí pokaždé dojít ke stejnému
výsledku (lokální optima)

nutno určit počet dimenzí, se kterými bude metoda pracovat

při větším množství dat VELMI časově náročná

na rozdíl od PCoA optimalizuje výsledné vzdálenosti mezi vzorky do
několika málo (dvě – tři) dimenzí
Zpracování dat v ekologii společenstev
nemetrická varianta PCoA (nepracuje přímo s distancemi mezi
vzorky, ale s jejich pořadím)
David Zelený

98
NMDS
NON-METRIC MULTIDIMENSIONAL SCALING
David Zelený
Zpracování dat v ekologii společenstev
náhodné rozmístění vzorků v
prostoru
rozmístění vzorků v prostoru
respektuje jejich nepodobnost
99
Ukázka datového souboru (kódy A,B,C,D,E):
Rothkopfův experiment s
morseovkou
-.-.
-..
.
0
167
169
159
180
167
0
96
79
163
169
96
0
141
166
159
79
141
0
172
180
163
166
172
0
Zpracování dat v ekologii společenstev
50
100
. -
--
NMDS2
0
-.
..
-50
•
598 účastníkům byly přehrány
všechny dvojice kódů a pokaždé měli
rozhodnout, jestli jsou shodné nebo
jiné
matice nepodobností = počet odpovědí
„různé“
-...
David Zelený
•
.-...
-.-.
-..
.
.-
-100
.-
----.----.---.-----.----..
-.--..
.--.
.-..---.-.-.---...
.-.
-.. .-..
-... -.....-..-. -....
..- ....
...- .......
.....
--. ---
-50
0
NMDS1
50
100
NMDS – SHEPARDŮV DIAGRAM
David Zelený
stress-value = 0.18
vzdálenost mezi vzorky v
ordinačním diagramu
Zpracování dat v ekologii společenstev
Pro stress-value přibližně
platí:
< 0.05 – vynikající
< 0.1 – výborný
< 0.2 – dobrý
> 0.3 – špatný
(Clarke & Warwick 2001)
nepodobnost mezi vzorky
101
POROVNÁNÍ METOD DCA A NMDS
David Zelený
DCA
NMDS
Zpracování dat v ekologii společenstev
102
data z údolí Vltavy, klasifikace metodou TWINSPAN (Zelený & Chytrý 2007)
POROVNÁNÍ METOD DCA A NMDS
David Zelený
DCA
NMDS
Zpracování dat v ekologii společenstev
103
při větším počtu vzorků tvoří trojúhelník
nebo pěticípou hvězdu (artefakt)
má tendenci jakákoliv data zobrazit
jako kouli
POROVNÁNÍ METOD DCA A NMDS
SIMULOVANÁ DATA (JEDEN GRADIENT)
David Zelený
DCA
NMDS
Zpracování dat v ekologii společenstev
o vzorky
+ druhy
104
SIMULOVANÁ DATA
DVA RŮZNĚ DLOUHÉ GRADIENTY
David Zelený
Gradient 2 (kratší)
Zpracování dat v ekologii společenstev
Gradient 1 (delší)
105
SIMULOVANÁ DATA
DVA RŮZNĚ DLOUHÉ GRADIENTY
NMDS
Zpracování dat v ekologii společenstev
PCA
David Zelený
DCA
CA
106
SIMULOVANÁ DATA
DVA STEJNĚ DLOUHÉ GRADIENTY
NMDS
Zpracování dat v ekologii společenstev
PCA
David Zelený
DCA
CA
107
SIMULOVANÁ DATA
DVA RŮZNĚ DLOUHÉ GRADIENTY
David Zelený
krátké gradienty
dlouhé gradienty
Zpracování dat v ekologii společenstev
108
POUŽITÍ PROMĚNNÝCH PROSTŘEDÍ V ORDINACI
DVA ALTERNATIVNÍ POSTUPY
vzorky
ordinační
osy
korelace, regrese
proměnné prostředí
přímé srovnání
oba přístupy jsou
relevantní a navzájem
se doplňují!
vzorky
vzorky
matice:
Y – druhové složení
X – proměnné prostředí
přímá ordinace
109
Legendre & Legendre (1998)
Zpracování dat v ekologii společenstev
nepřímé srovnání
druhy
vzorky
David Zelený
proměnné prostředí
druhy
PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ
ORDINACI – KORELACE (REGRESE) S ORDINAČNÍMI OSAMI
David Zelený
Zpracování dat v ekologii společenstev
110
Korelace proměnných prostředí s ordinačními osami v nepřímé ordinaci (PCA)
skóre vzorků na první a
druhé ose PCA
...
sam2
...
sam2
sam2
sam3
...
sam3
sam3
sam4
...
sam4
sam4
...
...
...
...
...
sam1
...
...
...
sam1
...
...
SOILDPT
korelace
sam1
PH
PCA
PCA 2
PCA 1
...
spe4
spe3
spe2
spe1
matice druhových dat
proměnné
prostředí
r1
ordinační diagram PCA
vztah proměnných prostředí
(vektory) a ordinačních os
SOILDPT
PCA2
r2
PH
PCA1
PCA 1
r1
r3
PCA 2
r2
r4
korelace
proměnných
prostředí a
ordinačních os
111
Náhodně generované proměnné (rand 1 až rand 9)
pasivně promítnuté do ordinačního diagramu:
David Zelený
náhodné proměnné
reálné proměnné
Zpracování dat v ekologii společenstev
Data o druhovém složení: vegetace údolí Vltavy
Analýza: NMDS s Bray-Curtis distancí
rand 1 – rand 9: náhodně generované proměnné
ELEVATION, SOILDPT, … - reálně měřené proměnné prostředí
112
PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ
ORDINACI – KORELACE (REGRESE) S ORDINAČNÍMI OSAMI
David Zelený
Korelace mezi proměnnou prostředí a skóre vzorků na ordinačních
osách
pouze v ordinacích kde jsou skóre vzorků standardizované na
jednotkovou varianci (PCA)

v ostatních ordinacích, kde se variance os od sebe liší, je třeba
použít (váženou) mnohonásobnou regresi:
Zpracování dat v ekologii společenstev

env ~ b0 + b1 * score1 + b2 * score2
b0 = 0 (všechny proměnné jsou centrované)
b1, b2 – regresní koeficienty
113
Možnost otestovat signifikanci vztahu proměnných
prostředí k ordinačním osám
1
2
3
4
5
6
7
8
9
NMDS1
0.29292
0.77245
0.20627
-0.45286
-0.35271
-0.99408
-0.78399
-0.83597
0.13868
NMDS2
0.95614
0.63508
-0.97850
-0.89158
-0.93573
0.10869
-0.62078
-0.54878
-0.99034
r2 Pr(>r)
0.0166 0.453
0.0116 0.545
0.0092 0.641
0.0096 0.605
0.0554 0.057 .
0.0194 0.402
0.0318 0.230
0.0005 0.968
0.0044 0.817
reálné proměnné
ELEVATION
SLOPE
ASPSSW
HEAT.LOAD
SURFSL
SURFIS
FLUVISOL
SOILDPT
pH
NMDS1
-0.64612
-0.99803
-0.69422
-0.75226
-0.99376
-0.97546
0.81033
0.99979
0.55652
NMDS2
0.76324
0.06275
-0.71976
-0.65887
0.11158
-0.22018
-0.58597
-0.02036
-0.83084
r2 Pr(>r)
0.2626 0.001 ***
0.1682 0.001 ***
0.4065 0.001 ***
0.1668 0.003 **
0.3744 0.001 ***
0.0610 0.053 .
0.4202 0.001 ***
0.3322 0.001 ***
0.4769 0.001 ***
(výstup z funkce envfit v knihovně vegan, testující regresi ordinačních os na
proměnné prostředí)
Zpracování dat v ekologii společenstev
rand
rand
rand
rand
rand
rand
rand
rand
rand
David Zelený
náhodné proměnné
114
PASIVNĚ PROMÍTNUTÉ PROMĚNNÉ PROSTŘEDÍ V NEPŘÍMÉ
ORDINACI – NELINEÁRNÍ VZTAH ZOBRAZENÝ JAKO VRSTEVNICE
David Zelený
Zpracování dat v ekologii společenstev
Data o druhovém složení: vegetace údolí Vltavy
Analýza: DCA na log transformovaných datech
pH – měřené půdní pH
vrstevnice jsou výsledkem GAM modelu
115
David Zelený
Zpracování dat v ekologii společenstev
PŘÍMÁ ORDINAČNÍ ANALÝZA
PŘEHLED METOD ORDINAČNÍ ANALÝZY
raw-data-based
(založené na primárních datech)
transformationbased
linear
unimodal
(lineární)
(unimodální)
(založené na
transformovaných
primárních datech)
CA, DCA
tb-PCA
distancebased
(založené na
distanční matici)
(analýza hlavních
koordinát)
PCoA
unconstrained
(nepřímé)
constrained
(přímé)
PCA
(analýza hlavních
komponent)
RDA
(redundanční analýza)
(korespondenční a
detrendovaná
korespondenční
analýza)
(analýza hlavních
komponent na
transformovaných
primárních datech)
NMDS
(nemetrické
mnohorozměrné
škálování)
CCA
tb-RDA
db-RDA
(kanonická
korespondenční
analýza)
(redundanční analýza na
transformovaných
primárních datech)
(redundanční analýza
založená na distanční
matici)
117
10
60
5
15
20
25
30
sam 7
20
10
15
gradient
sam 3
25
30
sam 2
sam 3
sam 4
sam 5
-20
sam 4
20
0
5
species 1 (residual)
0
residuály
20
40
sam 1
sam 2
sam 6
sam 5
sam 6
sam 7
spe 3
sam 6
gradient
0
env 2
env 1
sam 1
spe 3
sam 5
40
species 1
sam 7
spe 2
sam 4
0
sam 6
spe 2
sam 5
spe 1
40
sam 3
80
sam 4
sam 2
60
80
100
sam 3
species 1 (predicted)
sam 2
sam 1
20
regrese
abundance druhu
na proměnné
prostředí
sam 1
predikované
hodnoty
0
spe 3
spe 2
spe 1
100
matice vzorky × druhy
spe 1
PRINCIP PŘÍMÉ ORDINAČNÍ ANALÝZY (RDA)
matice s
vysvětlujícími
proměnnými
sam 7
0
5
10
15
gradient
20
25
30
Princip přímé ordinační analýzy - pokračování
ordinační osy s omezením
(constrained axes)
spe 3
spe 2
spe 1
matice predikovaných
hodnot
počet ordinačních os
s omezením
=
počet vysvětlujících
proměnných
sam 2
PCA
ordinace
sam 3
RDA2
sam 1
sam 4
sam 5
sam 6
sam 7
spe 3
spe 2
spe 1
RDA1
(pokud je vysvětlující
proměnná kategoriální,
počet os je roven počtu
kategorií minus 1)
sam 2
sam 3
PCA
ordinace
PCA2
sam 1
sam 4
sam 5
sam 6
sam 7
matice residuálů
PCA1
ordinační osy bez omezení
(unconstrained axes)
119
Nepřímá a přímá ordinační analýza – PCA a RDA na datech z Vltavy (log + Hellinger)
Total variation is 55.45736, supplementary variables account for
(adjusted explained variation is
5.8%)
Axis 1
0.1149
11.49
0.4470
Axis 2
0.0871
20.20
0.5316
7.8%
Axis 3
0.0672
26.92
0.2164
Axis 4
0.0455
31.48
0.1728
Zpracování dat v ekologii společenstev
Summary Table:
Statistic
Eigenvalues
Explained variation (cumulative)
Pseudo-canonical correlation (suppl.)
David Zelený
Method: PCA with supplementary variables
(modře označená pole v PCA se objeví jen pokud jsou do analýzy přidány pasivní proměnné prostředí a
ukazují, kolik by tyto proměnné vysvětlily v přímé ordinační analýze)
Method: RDA
Total variation is 55.45736, explanatory variables account for
(adjusted explained variation is
5.8%)
Summary Table:
Statistic
Eigenvalues
Explained variation (cumulative)
Pseudo-canonical correlation
Explained fitted variation (cumulative)
Axis 1
0.0470
4.70
0.7638
60.39
Permutation Test Results:
On All Axes
pseudo-F=4.0, P=0.002
Axis 2
0.0308
7.79
0.6880
100.00
7.8%
Axis 3
0.0983
17.61
0.0000
Axis 4
0.0716
24.77
0.0000
121
KOEFICIENT DETERMINACE V REGRESI
David Zelený
celková suma
čtverců
residuální suma
čtverců
Zpracování dat v ekologii společenstev
122
http://en.wikipedia.org/wiki/Coefficient_of_determination
David Zelený
vysvětlená variabilita
VYSVĚTLENÁ VARIABILITA (R2)
● R2
○ R2Adj
Zpracování dat v ekologii společenstev
počet vysvětlujících
proměnných
počet vzorků v
datovém souboru

vysvětlená variabilita stoupá s počtem vysvětlujících proměnných
(i když jsou náhodné) a klesá s počtem vzorků v datovém souboru

platí pro přímou (kanonickou) ordinační analýzu i mnohonásobnou
regresi
Peres-Neto et al. (2006) Ecology
123
● R2
○ R2Adj
Zpracování dat v ekologii společenstev
počet vysvětlujících
proměnných

David Zelený
vysvětlená variabilita
VYSVĚTLENÁ VARIABILITA (R2) A ADJUSTOVANÝ R2
počet vzorků v
datovém souboru
adjustovaný R2 se nemění s počtem vysvětlujících proměnných a
počtem vzorků v souboru
124
Peres-Neto et al. (2006) Ecology
Výpočet adjustovaného R2 pomocí Ezekielovy formule (RDA)
n ... počet vzorků
p ... počet vysvětlujících proměnných
R2Y|X ... vysvětlená variabilita bez adjustace
Výpočet adjustovaného R2 permutačním modelem (RDA, CCA)
2
𝑅perm
variabilita vysvětlená
proměnnými prostředí
po jejich znáhodnění
R2
variabilita vysvětlená
proměnnými prostředí
𝑅2
𝑅 2 adj
o kolik variability
vysvětlí proměnné
prostředí víc než by
vysvětlily náhodné
proměnné?
2
𝑅adj
= 1−
1
1 − 𝑅2
2
1 − 𝑅perm
125
VYSVĚTLENÁ VARIABILITA A ADJUSTOVANÝ R2

i náhodná proměnná vysvětlí nenulové množství variability (při
následném testování signifikance ale bude neprůkazná)

množství vysvětlené variability stoupá s počtem vysvětlujících
proměnných (i když tyto jsou třeba úplně náhodné)

nelze srovnávat variabilitu vysvětlenou modelem s různým počtem
vysvětlujících proměnných (čím víc proměnných, tím víc vysvětlené
variability)

možné řešení – použití tzv. adjustovaného R2, tzn. vysvětlené variability
ošetřené o variabilitu, kterou by vysvětlil stejný počet náhodných
proměnných

adjustovaný R2 je možné spočítat pro lineární ordinační metody, pro
unimodální je třeba použít metody založené na permutacích

CANOCO umí adjR2 pro lineární i unimodální metody (CCA i RDA), eRko (vegan) jen pro
lineární (RDA)
Zpracování dat v ekologii společenstev
nelze srovnávat vysvětlenou variabilitu v analýzách založených na
různém počtu vzorků a druhů
David Zelený

126
PŘÍMÁ ORDINAČNÍ ANALÝZA
MONTE-CARLO PERMUTAČNÍ TEST

test první kanonické osy – vliv jen jedné kvantitativní proměnné

test všech kanonických os – vliv všech proměnných, nebo vliv jedné
kategoriální proměnné s více kategoriemi (počet os = počet kategorií – 1)

testová statistika – Fdata (pseudo-F)
Zpracování dat v ekologii společenstev
testuje nulovou hypotézu, že druhové složení je nezávislé na jedné nebo více
vysvětlujících proměnných
David Zelený

P – hladina signifikance
nx – počet permutací, kde Fperm >= Fdata
N – celkový počet permutací
127
PŘÍMÁ ORDINAČNÍ ANALÝZA
MONTE-CARLO PERMUTAČNÍ TEST
David Zelený
Zpracování dat v ekologii společenstev
128
Herben & Münzbergová (2001)
PŘÍMÁ ORDINAČNÍ ANALÝZA
MONTE-CARLO PERMUTAČNÍ TEST
David Zelený
Zpracování dat v ekologii společenstev
randomizace ploch bez
omezení (unrestricted
randomization)
randomizace ploch v blocích
(randomization within blocks
defined by covariables)
129
Herben & Münzbergová 2001
POSTUPNÝ VÝBĚR VYSVĚTLUJÍCÍCH PROMĚNNÝCH
FORWARD SELECTION

v každém kroku testuje zvlášť vliv jednotlivých proměnných (MonteCarlo permutační test)

vybere tu proměnnou, která vysvětlí nejvíce variability a zároveň je
signifikantní; tuto proměnnou pak do modelu zahrne jako kovariátu

v dalším kroku znovu testuje vliv jednotlivých proměnných na
druhová data (s odstraněním vlivu kovariát) a opakuje předchozí
kroky

testy signifikance jsou zatíženy mnohonásobným porovnáním, a jsou
proto poměrně liberální (počet signifikantních proměnných je často
nerealisticky vysoký a vyžaduje např. Bonferroniho korekci)
Zpracování dat v ekologii společenstev
ze souboru vysvětlujících proměnných umožňuje vybrat jen ty, které
mají průkazný vliv
David Zelený

130
PROBLÉM MNOHONÁSOBNÉHO POROVNÁNÍ
David Zelený
Simulace:
25 náhodně vygenerovaných
proměnných

otestování průkaznosti
korelace každé proměnné s
každou (čtvercová matice)

průkazné korelace (p < 0.05)
jsou označeny červeně

dohromady 300 analýz, z
nich je 16 průkazných
Zpracování dat v ekologii společenstev

131
PARCIÁLNÍ ORDINACE
PARTIAL ORDINATION

následně se přímou nebo nepřímou ordinací analyzuje zbytková
variabilita

„nezajímavé“ proměnné se definují jako kovariáty

pokud následuje přímá ordinace – ordinační osy představují čistý vliv
ostatních vysvětlujících proměnných bez vlivu kovariát

pokud následuje nepřímá ordinace – ordinační osy zachycují
zbytkovou variabilitu v druhových datech po odstranění vlivu kovariát
Zpracování dat v ekologii společenstev
odstraňuje část variability vysvětlené proměnnými, které jsou pro nás
nezajímavé (například vliv umístění ploch do bloků)
David Zelený

132
ROZKLAD VARIANCE
VARIANCE PARTITIONING
Zpracování dat v ekologii společenstev
vysvětlená variabilita sdílená proměnnou 1
a proměnnou 2
David Zelený
variabilita vysvětlená
proměnnou 1
variabilita vysvětlená
proměnnou 2
Borcard et al. 1992, Ecology 73: 1045–1055
zbytková variabilita
133
ROZKLAD VARIANCE
VARIANCE PARTITIONING
vysvětlená
variabilita
1a2
není
[a]+[b]+[c]
1
2
[a]
2
1
[c]
[d]
[a]
proměnná 1
[b]
Zpracování dat v ekologii společenstev
kovariáta
David Zelený
vysvětlující
proměnná
[c]
proměnná 2
sdílená variabilita [b] = ([a]+[b]+[c]) – [a] – [c]
nevysvětlená variabilita [d] = Total inertia – ([a]+[b]+[c])
[a]+[b] – celkový (marginal) vliv proměnné 1
[a] – čistý (partial, conditional) vliv proměnné 1 (bez vlivu prom. 2)
Borcard et al. 1992, Ecology 73: 1045–1055
134
NEVYSVĚTLENÁ VARIABILITA [d]
variance nevysvětlená modelem (složka D) ve skutečnosti obsahuje
variabilitu, která by mohla být vysvětlena některou z proměnných, pokud
by se data chovala podle teoretického modelu

varianci nevysvětlenou modelem tedy nelze interpretovat jen jako
zbytkovou variabilitu, která je dána šumem v datech a tím, že ne
všechny proměnné prostředí byly měřeny

Total inertia proto není měřítkem celkové variability v druhových datech,
ale variability, kterou je možné zachytit pomocí zvoleného modelu
(lineárního nebo unimodálního)

variabilita vysvětlená danou proměnnou prostředí a vypočtená jako
eigenvalue / total inertia je proto podhodnocená

vedle procenta vysvětlené variability (eigenvalue / total inertia) uvádějte
také relativní množství variability, kterou daná proměnná vysvětlí z
celkové variability vysvětlené všemi proměnnými prostředí
135
Zpracování dat v ekologii společenstev

David Zelený
ordinační metody jsou založené na modelu (lineární nebo unimodální)
odpovědi druhu na gradient prostředí, který je velkým zjednodušením
skutečnosti
Økland (1999) J. Veg.Sci. 10: 131-136

PŘÍKLAD NA ROZKLAD VARIANCE
SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH
pH
Ca
cond
Mg
Na
…
Zpracování dat v ekologii společenstev
Otázka: Je druhové složení společenstev
měkkýšů na slatiništích ovlivněno více
druhovým složením vegetace, nebo
stanovištními podmínkami?
David Zelený
druhové
složení
společenstev
měkkýšů
druhové
složení
slatiništní
vegetace
měřené
proměnné
prostředí
(ve vodě)
137
Horsák M. & Hájek M. (2003)
PŘÍKLAD NA ROZKLAD VARIANCE
SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH

druhové složení vegetace –> DCA (krátký gradient) -> PCA

postupný výběr proměnných (RDA) na měkkýších



Zpracování dat v ekologii společenstev
druhové složení měkkýšů (Hellingerova transformace) -> RDA
David Zelený

mezi PCA osami reprezentujícími vegetaci
mezi proměnnými prostředí reprezentujícími stanovištní podmínky
výsledek


z vegetačních dat nejlépe vysvětlí měkkýše první dvě osy PCA
z proměnných prostředí je nejlepší obsah vápníku a konduktivita slatiništní vody

rozklad variance mezi vegetaci a proměnné prostředí

test marginálních a parciálních frakcí vysvětlené variability
138
PŘÍKLAD NA ROZKLAD VARIANCE
SPOLEČENSTVA MĚKKÝŠŮ NA PRAMENIŠTÍCH
David Zelený
6%
p < 0.01
proměnné prostředí
[Ca + conduct]
20%
Zpracování dat v ekologii společenstev
vegetace
[PC1 + PC2]
2%
p = 0.072
[d] = 72%
139
ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A
PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY
David Zelený
Zpracování dat v ekologii společenstev
140
ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A
PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY
David Zelený
Zpracování dat v ekologii společenstev
141
PCNM
(PRINCIPAL COORDINATES OF NEIGHBOUR MATRICES)
ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A
PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY
David Zelený
Zpracování dat v ekologii společenstev
143
ROZKLAD VARIANCE MEZI PROMĚNNÉ PROSTŘEDÍ A
PROMĚNNÉ POPISUJÍCÍ PROSTOROVÉ VZTAHY
David Zelený
Zpracování dat v ekologii společenstev
144
JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD?
procento variability vysvětlené hlavními osami





CANOCO: cummulative percentage variance of species data
vypočte se také jako eigenvalue / total variance
ukazuje, jak úspěšný byl celý proces ordinace
čím více jsou jednotlivé druhy korelované, tím více variability bude vysvětleno
několika málo hlavními osami
má smysl srovnávat vysvětlenou variabilitu hlavních os různými ordinačními
technikami na stejných datech
nemá smysl srovnávat vysvětlenou variabilitu hlavních os stejnými ordinačními
technikami na různých datech (eigenvalues jsou závislé na počtu hráčů ve hře –
druhů, vzorků)
Zpracování dat v ekologii společenstev


David Zelený

skóre (souřadnice) závisle proměnných (druhů) na osách


u lineárních technik skóre = regresní koeficient, v ordinačních diagramech
zobrazeny jako šipky
u unimodálních technik skóre = optimum druhu, v ordinačních diagramech
zobrazeny jako body
145
JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD?
skóry vzorků (snímků) na osách

skóry nezávislých (vysvětlujících proměnných) *


v ordinačních diagramech vzorky zobrazeny jako body (lineární i unimodální
techniky)
vzdálenost mezi body v ordinačním prostoru odpovídá nepodobnosti mezi vzorky
(ne ale nepodobnosti celého floristického složení, ale jenom té části, která je
vyjádřena zobrazenými ordinačními osami)
Zpracování dat v ekologii společenstev


David Zelený

regresní koeficienty, důležitá jsou jejich znaménka
test signifikance (Monte-Carlo permutační test) *

ukazuje na statistickou významnost použitých vysvětlujících proměnných
146
* jen přímé ordinační techniky
JEDNOTLIVÉ PROMĚNNÉ
TERMINOLOGIE
vysvětlované / závislé proměnné

vysvětlující / nezávislé proměnné, prediktory *



CANOCO: proměnné prostředí (environmental variables)
měřené nebo odhadované proměnné
vzorky, objekty, případy (cases)


CANOCO: druhy (species)
Zpracování dat v ekologii společenstev

David Zelený

CANOCO: snímky (samples)
kovariáty, nezajímavé vysvětlující / nezávislé proměnné *


CANOCO: kovariáty (covariables)
proměnné, jejichž vliv nás nezajímá a chceme ho z analýzy odstranit
147
* jen přímé ordinační techniky
Nepřímá a přímá ordinační analýza – PCA a RDA na datech z Vltavy (log + Hellinger)
RDA s vysvětlujícími
proměnnými prostředí
David Zelený
PCA s pasivně
promítnutými
proměnnými prostředí
Zpracování dat v ekologii společenstev
149
ORDINAČNÍ DIAGRAMY
KONVENCE
-> body
zobrazení druhů
-> šipky (lineární metody)
-> body, centroidy (unimodální metody)

zobrazení ordinačních os



zobrazení proměnných prostředí



vodorovná bývá osa vyššího řádu (např. první)
orientace os je arbitrární
šipky (kvantitativní proměnné)
centroidy (kategoriální proměnné)
typ ordinačního diagramu:



scatterplot - 1 typ dat (vzorky nebo druhy)
biplot - 2 typy dat (např. vzorky a druhy)
triplot - 3 typy dat (např. vzorky, druhy a proměnné
prostředí)
150
Zpracování dat v ekologii společenstev

David Zelený
zobrazení vzorků
Lepš & Šmilauer (2003) Multivariate analysis of ...

ORDINAČNÍ DIAGRAMY
David Zelený
Zpracování dat v ekologii společenstev
přímá
ordinace
151
Lepš & Šmilauer (2003) Multivariate analysis of ...
nepřímá
ordinace
unimodální metoda
lineární metoda
HISTORICKÉ ORDINAČNÍ DIAGRAMY
BRAY & CURTIS 1957 - NEPŘÍMÁ GRADIENTOVÁ ANALÝZA
David Zelený
Zpracování dat v ekologii společenstev
152
Bray & Curtis (1957): An ordination of the upland forest communities of Southern Wisconsin. Ecological Monographs 27: 326-349
MODERNÍ ANALOGIE
(DCA V KNIHOVNĚ VEGAN)
153
TŘI ALTERNATIVNÍ PŘÍSTUPY K PŘÍMÉ ORDINAČNÍ ANALÝZE
David Zelený
(a) Klasický přístup: RDA zachovává euklidovské distance, CCA chi-kvadrát distance
Zpracování dat v ekologii společenstev
(b) Transformace dat (tb-RDA): používá distance vzniklé
transformací dat (např. Hellingerova distance)
(c) Přes matici nepodobností (db-RDA): zachovává
distance použité ve vstupní distanční matici
154
Legendre & Legendre (2012) podle Legendre & Gallagher (2001)
PŘEHLED METOD ORDINAČNÍ ANALÝZY
raw-data-based
(založené na primárních datech)
transformationbased
linear
unimodal
(lineární)
(unimodální)
(založené na
transformovaných
primárních datech)
CA, DCA
tb-PCA
distancebased
(založené na
distanční matici)
(analýza hlavních
koordinát)
PCoA
unconstrained
(nepřímé)
constrained
(přímé)
PCA
(analýza hlavních
komponent)
RDA
(redundanční analýza)
(korespondenční a
detrendovaná
korespondenční
analýza)
(analýza hlavních
komponent na
transformovaných
primárních datech)
NMDS
(nemetrické
mnohorozměrné
škálování)
CCA
tb-RDA
db-RDA
(kanonická
korespondenční
analýza)
(redundanční analýza na
transformovaných
primárních datech)
(redundanční analýza
založená na distanční
matici)
155
MANTEL TEST
KORELACE MEZI MATICEMI NEPODOBNOSTÍ
David Zelený
Zpracování dat v ekologii společenstev
156
Legendre & Legendre 1998
MANTEL TEST
David Zelený
De
proměnná prostředí
1
0
1
4.5
2
0.4
0
2
4.1
3
0.3
0.1
0
3
4.2
4
0.7
0.4
0.3
0
4
3.8
1
2
3
4
druhová data
Dsp
sp1
sp2
1
0
1
0
3
2
1.41
0
2
1
2
3
0.3
0.1
0
3
1
2
4
0.7
0.4
0.3
0
4
2
1
1
2
3
4
(eucl.)
De
Dsp
0.4
1.41
0.3
1.41
0.1
0
0.7
2.5
0.4
1.41
0.3
1.41
Zpracování dat v ekologii společenstev
pH
r = 0.965
p = 0.015
157
SHRNUTÍ
David Zelený
Zpracování dat v ekologii společenstev
158
Legendre & Legendre 1998
POUŽÍVÁNÍ ORDINAČNÍCH METOD A SOFTWARE
(VEGETAČNÍ STUDIE)
David Zelený
Zpracování dat v ekologii společenstev
159
von Wehrden et al. (2009) JVS
PCA – PŘÍKLAD
TRENDY V NÁZVECH ČLÁNKŮ V EKOLOGICKÝCH ČASOPISECH
David Zelený
Zpracování dat v ekologii společenstev
160
Nobis & Wohlgemuth (2004) Oikos
David Zelený
Zpracování dat v ekologii společenstev
161
Nobis & Wohlgemuth (2004) Oikos
DCA – PŘÍKLAD
FLORISTICKÁ DATA Z
NP PODYJÍ
David Zelený
Zpracování dat v ekologii společenstev
skóre pro jednotlivé
kvadráty z 1. a 2. osy
DCA (na základě jejich
floristického složení) byly
promítnuty do síťové
mapy
162
Chytrý et al. (1999) Preslia
PCA – PŘÍKLAD
Zpracování dat v ekologii společenstev
Výrazný úbytek druhové bohatosti
bylinného (E1) a keřového (E2) patra v
posledních 50ti letech. Data jsou
založená na zopakování
fytocenologických snímků na plochách
snímkovaných Jaroslavem Horákem v
šedesátých letech.
David Zelený
ZMĚNY V DRUHOVÉM SLOŽENÍ PÁLAVSKÝCH DUBOHABŘIN
(R. HEDL 2005, DISERTAČNÍ PRÁCE)
Změna v druhovém složení vegetace
v průběhu 50ti let samovolné sukcese
(PCA diagram).
163
NMDS PŘÍKLAD
VLIV SUCHA NA SLOŽENÍ SPOLEČENSTEV V EXPERIMENTÁLNÍ
David Zelený
STUDII
Zpracování dat v ekologii společenstev
164
Chase (2007) PNAS
NMDS PŘÍKLAD
ZOBRAZENÍ ZMĚN V DRUHOVÉM SLOŽENÍ V PROSTORU NA
David Zelený
PŘÍKLADU TRVALÝCH PLOCH V TROPICKÉM LESE
Zpracování dat v ekologii společenstev
Skóre ploch v 3D NMDS
ordinačním diagramu
vyjádřené pomocí RGB barev
Baldeck et al. (2013)
166
CCA – PŘÍKLAD
ROZDÍL MEZI PRADÁVNÝMI A DRUHOTNÝMI LESY
David Zelený
Zpracování dat v ekologii společenstev
Vojta (2007) Preslia
169
CCA – PŘÍKLAD
STANOVENÍ EKOLOGICKÉHO OPTIMA JEDNOTLIVÝCH
David Zelený
DRUHŮ MĚKKÝŠŮ PODÉL EKOLOGICKÝCH GRADIENTŮ
Zpracování dat v ekologii společenstev
170
Horsák et al. (2007) Acta Oecologica

Podobné dokumenty

Přímá ordinace

Přímá ordinace • kontinuální povaha společenstev

Více

práci s množstvím matematiky a grafiky

práci s množstvím matematiky a grafiky V tomto dodatku se budeme v přı́stupné formě zabývat Fourierovou transformacı́. Vzhledem k jejı́ důležitosti pro oblast analýzy a zpracovánı́ časového i obrazového signálu a také kvůl...

Více

Paraneoplastické neuronální autoprotilátky

Paraneoplastické neuronální autoprotilátky 2Krajská zdravotní a.s., nemocnice Teplice o.z., Neurologické oddělení, Teplice

Více

Automatizacni prostredky HYPEL

Automatizacni prostredky HYPEL 32KB. U variant s pamětí NVRAM jsou data uchována i při výpadku napájecího napětí a to po dobu nejméně deseti let. Základní provedení vždy reprezentuje konfiguraci s 8kB programové paměti a 32kB st...

Více