Keeley kuchaře

Transkript

Keeley kuchaře

ZPRACOVÁNÍ DAT
V EKOLOGII SPOLEČENSTEV
David Zelený
OSNOVA PŘEDNÁŠKY
Příprava dat pro numerické analýzy


Zpracování dat v ekologii společenstev
kalibrace
Indexy druhové bohatosti


zobecněné lineární modely, regresní a klasifikační stromy
Ellenbergovy indikační hodnoty


lineární vs unimodální, přímá vs nepřímá
Regrese


hierarchická vs nehierarchická, aglomerativní vs divisivní
Ordinace


indexy podobnosti a vzdálenosti mezi vzorky
Klasifikace


kategoriální vs kvantitativní, pokryvnosti, frekvence
Ekologická podobnost


manipulativní experimenty vs přírodní experimenty (pozorování)
Typy sbíraných dat


čištění dat, odlehlé body, transformace, standardizace, EDA
Design ekologických experimentů


David Zelený

alfa, beta a gamma diverzita, akumulační druhová křivka, rarefaction
Případové studie na použití jednotlivých metod
2
LITERATURA
David Zelený
Doporučená

Lepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat



v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of
Ecological Data using CANOCO
http://regent.jcu.cz/skripta.pdf
Herben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1.
Data o druhovém složení

ftp://botany.natur.cuni.cz/skripta/zpracovani_geobot_dat/multivar.pdf
Pro fajnšmekry

Wildi O. (2010) Data Analysis in Vegetation Ecology. Wiley-Blackwell.

Gotelli N.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates.

Palmer M. – Ordination methods for ecologists, website


Oksanen J. (2004) Multivariate Analysis in Ecology, Lecture Notes.


http://ordination.okstate.edu/
http://cc.oulu.fi/~jarioksa/opetus/metodi/notes.pdf
Legendre P. & Legendre L. (1998) Numerical Ecology (Second English Edition). Elsevier.
3
SOFTWARE

CanoDraw for Windows 4.0 – kreslení ordinačních diagramů
a odpovědních křivek druhů

PC-ORD 5 – numerické klasifikace, ordinační analýzy,
analýza odlehlých bodů

STATISTICA 9.0 – regrese, regresní a klasifikační stromy
CANOCO for Windows 4.5 – ordinační analýzy
David Zelený

Kde co sehnat:
CANOCO, CanoDraw a PC-ORD – instalace z AVRUMELu nebo
webových stránek předmětu (záložka Software)
 STATISTICA – licenci je třeba získat po přihlášení na
http://inet.sci.muni.cz v sekci Nabídka software

4
DALŠÍ INFORMACE
Webové stránky předmětu: www.bit.ly/zpradat


Cvičení



přednášky, software, příklady ke cvičení, studijní materiály
některé sekce vyžadují přihlášení

David Zelený

probíhat bude v Bohunicích v druhé půlce semestru a zaměřené
bude na analýzu dat v programu CANOCO a jejich vizualizaci v
programu CanoDraw
tři čtyřhodinové bloky
Zkouška


vypracování závěrečné práce (pokyny viz webové stránky předmětu,
sekce Závěrečná práce)
vlastní zkouška představuje asi půlhodinovou diskuzi nad
závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané
látky
5
David Zelený
TYPY SBÍRANÝCH DAT
PŘÍPRAVA DAT PRO ANALÝZY
DATA O EKOLOGII SPOLEČENSTEV
David Zelený

popisují společenstvo, případně i jeho prostředí
společenstvo je typicky sledováno na určité ploše (v případě
rostlin a některých málo mobilních živočichů) nebo např. v
pastech (v případě mobilních živočichů)
 složení živého společenstva je popsáno přítomností
jednotlivých druhů daného typu organismů, na jedné ploše (v
jedné pasti) se přitom vyskytuje většinou více než jeden druh
 prostředí je popisováno jednou nebo více proměnnými, o kterých
se předpokládá, že ovlivňují studovaný typ organismů

ekologická data jsou ve své podstatě mnohorozměrná a dají
se vyjádřit maticí dat (data matrix)

ekologická data vždy obsahují řadu zkreslení (bias)


např. sampling bias – přehlédnutí některých druhů
7
TYPY PROMĚNNÝCH
Kategoriální (kvalitativní, nominální, prezenčně-absenční)

Ordinální (semikvantitativní)



např. geologický substrát, půdní typy, binární proměnné (přítomnostabsence druhu)
kategorie jsou unikátní (každý jedinec/pozorování spadá právě do
jedné z nich) a nelze je smysluplně seřadit


David Zelený

např. Braun-Blanquetova stupnice pro odhad pokryvnosti druhů
jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi stupni jsou různě
velké
Kvantitativní


diskrétní (počty, měření s malou přesností) x kontinuální (přesná
měření)
poměrová stupnice (ratio scale) x rozdílová stupnice (interval scale)
8
0
100
0
TYPY PROMĚNNÝCH
ALTERNATIVNÍ TŘÍDĚNÍ
binární (dvoustavový, presence-absence)
přítomnost nebo absence
druhu
Příklady
David Zelený
Typ proměnné
mnohostavový
neseřazený
geologický substrát
seřazený
semikvantitativní (ordinální)
stupnice pokryvností druhy
kvantitativní (měření)
diskontinuální (počty, diskrétní)
počet jedinců
kontinuální
teplota, hloubka půdy
9
Legendre & Legendre 1998
PRIMÁRNÍ DATA
David Zelený
10
PRIMÁRNÍ DATA
David Zelený
11
Zadávání primárních dat

Uchování a zpřístupnění primárních dat




spreadsheet, metadata
David Zelený

http://www.cggveritas.com/data//1/rec_i
mgs/5152_Tapes-small.jpg
PRIMÁRNÍ DATA
problematika dlouhodobé archivace a nosičů dat
zpřístupnění primárních dat
Kontrola a čištění dat





sloučení taxonomické nomenklatury
chyby a chybějící data (možnosti nahrazení chybějících dat)
analýza odlehlých bodů (outlier analysis)
někdy i vyloučení vzácných druhů (odstranění šumu v datech)
EDA – exploratory data analysis
12
EDA – EXPLORATORY DATA ANALYSIS
David Zelený

obecně: metoda pro odhalení různých vlastností dat
(description of pattern in data)

slouží např. k „vytěžování“ dat (data mining, data
dredging – moderní, ale problematická metoda zpracování
dat)

grafická EDA:
John Tukey
(1915-2000)
odhalení odlehlých bodů (outlier analysis)
 distribuce dat (normalita) a nutnost transformace
 box-plot (krabicový graf) a histogram pro jednorozměrná
data
 scatterplot (bodový graf) pro dvou a vícerozměrná data

13
ANALÝZA ODLEHLÝCH BODŮ
– BOX-PLOT & HISTOGRAM
David Zelený
XERSSW
-6
-4
-2
0
2
4
-8
Median
25%-75%
Range
Outliers
50
Frequency
40
30
20
10
0
-8
-7
-6
-5
-4
-3
-2
-1
0
XERSSW (head index)
1
2
3
4
14
ANALÝZA ODLEHLÝCH BODŮ - SCATTERPLOT
David Zelený
3
2
1
-1
-2
-3
-4
-5
-6
-7
-3
-2
-1
0
1
2
3
4
5
3.0
6
XERSW
2.5
2.0
1.5
XERSSW
XERSSW
0
1.0
0.5
0.0
-0.5
15
-1.0
-3
-2
-1
0
1
XERSW
2
3
4
5
DETAILY KE KRABICOVÝM GRAFŮM (BOXPLOT)
David Zelený
Klasický boxplot
(střední hodnota = medián)
Definice odlehlých bodů a
extrémů (STATISTICA)
maximální hodnota
Q3 – horní kvartil
Q2 - medián
Q1 – spodní kvartil
minimální hodnota
16
outlier
PŘÍPRAVA DAT PRO NUMERICKÉ ANALÝZY
TRANSFORMACE
David Zelený
Transformace dat

mění relativní vzdálenosti mezi jednotlivými
hodnotami a tím i tvar jejich distribuce
Proč data transformovat?

protože škála měření je arbitrární a nemusí
odpovídat ekologickému významu proměnné


protože (některé) statistické testy vyžadují,
aby data



deset prstů => používání desítkové soustavy
byla normálně rozložená (normal distribution)
měla homogenní varianci (homoskedasticita,
mezi průměrem a směrodatnou odchylkou
není žádný vztah)
protože lineární vztahy se interpretují lépe
než vztahy nelineární
17
TRANSFORMACE
David Zelený
Na co si dát při transformaci pozor?
aby transformace rozložení dat ještě nezhoršila a nevytvořila
nové odlehlé body

abychom při komentování výsledků používali netransformované
hodnoty proměnných

Typy transformace

lineární




přičtení konstanty nebo vynásobení konstantou
nemění výsledky statistického testování nulových hypotéz
např. převod teploty měřené ve stupních Celsia na stupně
Fahrenheita
nelineární


log transformace, odmocninová transformace atd.
může změnit výsledky statistického testování
18
600
500
400
0
100
200
200
300
symetrické
(symetrical)
2
4
6
8
10
12
negativně
(doleva)
zešikmené
(left skewed)
0
0
50
50
100
100
150
200
150
0
-8
-3
-2
-1
0
1
2
-6
-4
-2
0
2
3
* ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená
nulou na začátku
19
pozitivně
(doprava)
zešikmené*
(right skewed)
David Zelený
700
ROZDĚLENÍ DAT (DATA DISTRIBUTION)
TRANSFORMACE
David Zelený

Logaritmická transformace
(log transformation)

pro data s výrazně pozitivně (doprava)
šikmou distribucí (right skewed), u kterých
existuje vztah mezi směrodatnou odchylkou
a průměrem (lognormální rozložení)
Y* = log (Y), případně Y* = log (a*Y + c)





zdroj: wikipedia.org
na základě logaritmu nezáleží (10, 2, e)
konstanta a = 1; pokud je Y z intervalu
<0;1>, potom a > 1
konstanta c se přidává, pokud proměnná Y
obsahuje nuly
c může být např. 1, nebo arbitrárně zvolené
malé číslo (0,001)
na konstantě c může záležet výsledek
analýz (ANOVA), a proto je dobré vybírat
takové číslo, aby transformovaná proměnná
byla co nejvíce symetrická
20
TRANSFORMACE
David Zelený
Odmocninová transformace (square-root transformation)

vhodná pro mírně doprava zešikmená data (right skewed), např.
počty druhů (Poisson distribution)
Y* = √ Y, případně Y* = √ (Y + c)



konstanta c se přičítá, pokud soubor obsahuje nuly
c může být např. 0,5, nebo 3/8 (0,325)
třetí a vyšší odmocnina je účinnější na více zešikmená data
(čtvrtá odmocnina se používá pro abundance druhů s mnoha
nulami a několika vysokými hodnotami)
Mocninná transformace (power transformation)

vhodná pro data negativně (doleva) sešikmená (left skewed)
Y* = Yp

pokud p < 1 - odmocninová transformace (p = 0,5 – druhá
odmocnina, p = 0,25 – čtvrtá odmocnina atd.)
21
TRANSFORMACE
David Zelený
odmocninová
logaritmická
Legendre & Legendre (1998)
22
TRANSFORMACE
David Zelený
23
Münch. Med. Wschr. 124, 1982
TRANSFORMACE
David Zelený
Transformace pomocí arcsin (angular transformation)

vhodná pro procentické hodnoty (a obecně podíly)
Y* = arcsin Y nebo Y* = arcsin √ Y
použitelná pro hodnoty v intervalu <-1; 1>
 transformované hodnoty jsou v radiánech

Reciproká transformace (reciprocal transformation)

vhodná pro poměry (například výška/hmotnost, počet dětí v
populaci na počet žen atd.)
Y* = 1/Y
24
TRANSFORMACE
David Zelený
Box-Cox transformace (zobecněná mocniná transformace)
zobecněná parametrická transformace
 iterativní hledání parametru λ (lambda), pro které je rozdělení
transformované proměnné nejblíže normálnímu rozdělení
 používá se v případě, že nemáme a priori představu, jakou
transformaci použít

Neparametrické metody transformace

např. metoda Omnibus pro ordinální data
25
Legendre &
Legendre 1998
MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ?
GRAFICKÁ ANALÝZA
Q-Q diagram
(Quantile-Quantile plot)
35
3
30
2
Oček. normál. hodnoty
Počet pozorování
David Zelený
Histogram s křivkou
normálního rozdělení
25
20
15
10
5
1
0
-1
-2
0
-10
0
10
20
30
40
50
60
70
-3
-10
80
Soil depth

vizuální zhodnocení normality dat

možno otestovat Kolmogorov-Smirnov
testem
0
10
20
30
40
50
60
70
Pozorovaný kvantil

porovnání rozdělení dvou proměnných, vynáší
proti sobě kvantily jednotlivých proměnných

jedna proměnná může být teoretická distribuce
(v tomto případě normální rozdělení, kdy se
vychází z kumulativní distribuční funkce)

na stejném principu pracuje Shapiro-Wilk test
26
MAJÍ DATA NORMÁLNÍ ROZDĚLENÍ?
GRAFICKÁ ANALÝZA
-1
0
1
2
3
150
100
Frequency
0
0
-2
50
100 200 300 400 500
Frequency
150
100
50
0
Frequency
600
200
200
negativně zešikmené
-3
David Zelený
pozitivně zešikmené
normální rozdělení
0
2
4
8
10
12
-8
-6
-4
variable
-2
0
2
variable
-2
-1
0
1
Sample quantiles
2
3
2
1
0
-1
Theoretical quantiles
-3
0
-3
-2
2
1
0
-1
-3
-2
2
1
0
-1
-2
-3
3
3
3
variable
6
5
10
15
Sample quantiles
20
-5
-4
-3
-2
-1
Sample quantiles
0
1
27
BIMODÁLNÍ DATA
David Zelený
20
15
0
5
10
Frequency
15
10
Frequency
5
0
6.0
6.5
7.0
7.5
8.0
6.0
6.5
7.0
7.5
8.0
Soil pH
7.0
28
6.0
6.5
6.5
7.0
Soil pH
7.5
7.5
8.0
8.0
Soil pH
Soil pH
20
transformace nepomůže, možnost rozdělit na dva podsoubory
6.0

600
650
700
750
800
850
Annual precipitation [mm]
900
950
600
650
700
750
800
850
Annual precipitation [mm]
900
950
STANDARDIZACE PROMĚNNÝCH
David Zelený
Centrování

výsledná proměnná má průměr roven nule
Yi* = Yi – průměr (Y)
Standardizace v úzkém slova smyslu

výsledná proměnná má průměr roven nule a směrodatnou odchylku
rovnu jedné

„synchronizuje” proměnné měřené v různých jednotkách a na různých
stupnicích
Yi* = (Yi – průměr (Y)) / směrodatná odchylka (Y)
Změna rozsahu hodnot (ranging)

výsledná proměnná je v rozsahu 0 až 1
Yi* = Yi / Ymax nebo
Yi* = (Yi – Ymin) / (Ymax – Ymin)
29
STANDARDIZACE MATICE SPOLEČENSTVA
David Zelený
Standardizace v případě matice společenstva (vzorky x druhy)

standardizace po druzích (by species)
dává velkou váhu vzácným druhům
 ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom
snímku, standardizace po druzích dá tomuto snímku velkou
váhu)


standardizace po vzorcích (by samples)
pokud je analýza zaměřená na relativní proporce mezi druhy, ne
jejich absolutní abundance
 vhodné v případě, že výsledné abundance závisí na důkladnosti,
s jakou sbíráme data (např. při odchytu živočichů doba strávená
na ploše nebo počet pastí)

30
matematická funkce, jejíž
argumenty nejsou odvozené z
dat, na která je transformace
aplikovaná (data independent)

nejčastější důvod je změnit tvar
rozložení proměnné, případně
zajistit homoskedasticitu
STANDARDIZACE

mění data pomocí statistiky,
která je spočtená na datech
samotných, např. průměr,
součet, rozsah aj. (data
dependent)

nejčastější důvod použití je
vyrovnat rozdíly v relativním
významu (váze) jednotlivých
ekologických proměnných,
druhů nebo vzorků

ve své podstatě je to další typ
transformace

David Zelený
TRANSFORMACE
31
KÓDOVÁNÍ DAT (DATA CODING)
David Zelený

např. nahrazení kódů u alfa-numerických stupnic, např.
Braun-Blanquetovy stupnice dominance-abundance
r
1
1
+
2
2
Br.-Bl.:
 ordinální hodnoty:
 střední hodnoty procent:

1 2 3 4 5
3 4 5 6 7
3 15 38 63 88
32
KÓDOVÁNÍ DAT (DATA CODING)
David Zelený

Dummy variables
metoda, jak převést kvalitativní (kategoriální) proměnnou na
kvantitativní (binární) proměnné použitelné v analýzách
 pokud má kategoriální proměnná n stavů (hodnot), pro její
vyjádření stačí n-1 dummy proměnných (jedna z proměnných je
vždy lineárně závislá na ostatních)

dummy proměnné
hodnoty
KAMB
kambizem
1
litozem
LITO
RANK
FLUVI
0
0
0
0
1
0
0
ranker
0
0
1
0
fluvizem
0
0
0
1
33
SOUBORY S VELKÝM POČTEM NUL
(ANEB VÝZNAM NULY V EKOLOGII)
David Zelený

dva možné významy nuly:
hodnota může být ve skutečnosti nenulová, ale díky našim
možnostem měření jsme ji naměřili jako nulovou (například
koncentrace látky v roztoku)
2. hodnota je skutečná nula – například absence druhu
1.

data obsahující „pravé nuly“ obsahují dva typy informace:
druh chybí nebo je přítomen?
2. pokud je druh přítomen, jaká je jeho abundance?
1.

v datech obsahujících velké množství „pravých nul“ je většina
informace prvního typu

problém „pravých“ nul při logaritmické transformaci –
soubor s velkým počtem „pravých“ nul není vhodné
logaritmicky transformovat (přičítat k nim konstantu c), ale
lépe ji nahradit binární proměnnou (prezence-absence)
34
David Zelený
EKOLOGICKÝCH EXPERIMENTŮ
“To call in the statistician after the experiment is done may be
no more than asking him to perform a post mortem
examination: he may be able to say what the experiment died
of.”
Sir Ronald Fisher, Indian Statistical Congress, Sankhya 1939
DESIGN
ZÁKLADNÍ OTÁZKA: CO CHCI EXPERIMENTEM
ZJISTIT?
Jaká je variabilita proměnné Y v čase nebo prostoru?

Má faktor X vliv na proměnnou Y?



hypothesis testing, otázka pro manipulativní experiment
může platit i pro některé přírodní experimenty, ale výsledky těchto
testů jsou podstatně slabší (nemáme kontrolu nad vlivem
ostatních faktorů, které mohou výsledky ovlivnit)
Chová se proměnná Y tak, jak předpovídá hypotéza H?




pattern description
nejčastější otázka v ekologických observačních studiích


David Zelený

klasická konfrontace mezi teorií a reálnými daty
platí pro data získaná jak manipulativním tak přírodním
experimentem
ne vždy je snadné najít správnou hypotézu
Jaký model nejlépe vystihuje vztah mezi faktorem X a
proměnnou Y?

experimentem sbíráme podklady pro matematické modelování
36
MANIPULATIVNÍ VS PŘÍRODNÍ EXPERIMENTY
David Zelený

Manipulativní experimenty
uměle manipulujeme vysvětlující proměnnou (X) a sledujeme
reakci vysvětlované proměnné (Y)
 umožňuje přímé testování hypotéz
 známe směr vztahu mezi příčinou a důsledkem - kauzalita


Přírodní experimenty (pozorování, observační studie)
vysvětlující proměnnou „manipuluje“ sama příroda
 slouží spíše ke generování než testování hypotéz
 neznáme směr vztahu mezi příčinou a důsledkem - korelace

37
SROVNÁNÍ TESTOVANÝCH HYPOTÉZ
David Zelený
Příklad: na ostrovech v Karibiku sledujeme vztah mezi počtem
ještěrek na určité ploše a počtem pavouků (Gotelli & Ellison 2004)
Manipulativní experiment

Provedení:


Nulová hypotéza:


v jednotlivých plochách (klecích) je uměle ovlivněn počet ještěrek
a sledováno množství pavouků
počet ještěrek nemá vliv na počet pavouků v klecích
Alternativní hypotéza:

se vzrůstající hustotou ještěrek klesá počet pavouků (ještěrky
žerou pavouky)
38
SROVNÁNÍ TESTOVANÝCH HYPOTÉZ
David Zelený
Přírodní experiment (pozorování, observační studie)

Provedení:


na vybraných plochách je sledován počet ještěrek a počet
pavouků
Možné hypotézy:
1.
2.
3.
4.
počet ještěrek (negativně) ovlivňuje počet pavouků (ještěrky
žerou pavouky)
počet pavouků má vliv na počet ještěrek (draví pavouci
napadají mláďata ještěrek)
počet ještěrek i pavouků je ovlivňován neměřeným faktorem
prostředí (třeba vlhkostí)
některý faktor prostředí ovlivňuje sílu vztahu mezi ještěrkami a
pavouky (třeba zase vlhkost)
39
MANIPULATIVNÍ EXPERIMENT
„PRESS“ VS „PULSE“ EXPERIMENT
„Press“ experiment (experiment „pod
stálým tlakem“)
zásah je proveden jen jednou, obvykle na
začátku experimentu
 měří resilienci systému – jak pružně je
systém (společenstvo) schopné reagovat
na experimentální zásah

závisle proměnná
čas
závisle proměnná
„Pulse“ experiment (pulzní experiment,
„jednou a dost“)
zásah je proveden na začátku experimentu
a pak znovu v pravidelných intervalech
 měří resistenci systému na experimentální
zásah – jak je systém (společenstvo)
schopné odolávat, případně se přizpůsobit
změnám v podmínkách prostředí


David Zelený

40
čas
PŘÍRODNÍ EXPERIMENT (POZOROVÁNÍ)
„SNAPSHOT“ VS „TRAJECTORY“ EXPERIMENT
David Zelený

„Snapshot“ experiment (momentka)
opakuje se v prostoru, ale ne v čase
 sběr vzorků provedu na několika (mnoha) lokalitách v relativně
krátkém čase (týden, sezóna, dva roky sběru dat pro diplomku ...)
 představuje většinu přírodních experimentů v ekologii
 zahrnuje i sukcesní studie, kdy sledujeme zároveň různá
sukcesní stadia


„Trajectory“ experiment (sledujeme trajektorii procesu v čase)
opakuje se v čase (a případně i v prostoru)
 sběr vzorků se na daných (většinou pevně vymezených
plochách) opakuje několikrát za sebou
 sukcesní studie prováděné několik let, trvalé plochy v lesních
porostech opakovaně měřené jednou za x let

41
ZÁKLADNÍ TYPY ROZMÍSTĚNÍ PLOCH
David Zelený

kompletně znáhodněný design
nebere v úvahu heterogenitu
prostředí
 ne vždy je nejvhodnější


znáhodněné bloky
vlastní bloky jsou vnitřně
homogenní (pokud možno)
 počet bloků = počet opakování
 bloky jsou umístěné podle
gradientu prostředí
 v každém bloku je právě jedna
replikace každého zásahu

42
gradient prostředí
ZÁKLADNÍ TYPY ROZMÍSTĚNÍ PLOCH
David Zelený

latinský čtverec
předpokládá přítomnost dvou
gradientů v prostředí
 každý sloupec a každý řádek
obsahuje právě jednu variantu
zásahu
 možno použít i několik latinských
čtverců

gradient 2
gradient 1
43
NEJČASTĚJŠÍ CHYBY
David Zelený

pseudoreplikace
testovat lze jen rozdíly v
průměrech jednotlivých bloků
 plochy se stejným zásahem jsou
umístěny blízko sebe, a mají
proto větší pravděpodobnost, že
si budou podobné i bez vlivu
vlastního zásahu


neúplně znáhodněný design

v podstatě pseudoreplikace, jen
méně zřejmá
44
NEJČASTĚJŠÍ CHYBY
David Zelený
správně
design se znáhodněnými bloky – špatná orientace bloků

špatně
špatně
45
S VÍCE NEŽ JEDNÍM TYPEM ZÁSAHU
David Zelený

faktoriální design
každá hladina prvního faktoru je
kombinovaná s každou hladinou
druhého faktoru (případně třetího
atd.)
 například kombinace




koseno vs nekoseno
hnojeno vs nehnojeno
jednotlivé kombinace mohou být
rozmístěny v prostoru např. v
rámci latinského čtverce
ano
ne
koseno
46
hnojeno
S VÍCE NEŽ JEDNÍM TYPEM ZÁSAHU
David Zelený

split-plot design
faktory jsou strukturovány hierarchicky (nested)
 například plochy hnojené různými hnojivy (C, N, P) v rámci bloků
umístěných na vápenci (modrá) a žule (červená barva)

C
C
N
P
P
P
C
N
C
N
C
P
N
N
P
N
P
C
47
MANIPULATIVNÍ EXPERIMENTY – PŘÍPADOVÉ STUDIE
plán zásahů
letecký pohled
Silvertown et al. (2006) J.Ecol.
David Zelený
ROTHAMSTED (ENGLAND) – PARK GRASSLAND
EXPERIMENT (ZALOŽEN 1843)
48
ROTHAMSTED (ENGLAND) – PARK GRASSLAND EXP.
David Zelený
49
Třídění bylinné biomasy do druhů (kolem roku 1930) (http://www.rothamsted.ac.uk)
KOMPETICE O SVĚTLO V EXPERIMENTÁLNÍM PROSTŘEDÍ
David Zelený
Při vyšším přísunu živin rostou
rostliny rychleji a začnou si
konkurovat o světlo – tak proč
jim trochu nepřisvítit?
50
Hautier et al. (2009) Science 324: 636-638
STANOVENÍ POTENCIÁLNÍ STANOVIŠTNÍ PRODUKTIVITY V
David Zelený
DOUBRAVÁCH PĚSTOVÁNÍM ŘEDKVIČEK VE SKLENÍKU
51
Veselá et. al (2008): Bioassay experiment for assessment of site productivity in oak forests. - 17th International
Workshop European Vegetation Survey, Brno, Czech Republic, 1-4. 5. 2008.
VLIV HERBIVORNÍCH RYB NA DRUHOVÉ SLOŽENÍ
David Zelený
KORÁLOVÝCH ÚTESŮ
na začátku
experimentu ...
řídká klec – zabrání
jen velkým rybám
... a po čtyřech
měsících pod klecí
Atol Agatti
(Lakedivy, Indie)
52
Autor: Nicole Černohorská (v rámci vypracování její disertační práce na zoologii)
hustá klec – zabrání
všem rybám
detailní pohled na korálový útes s nárostem řas
(autor: Nicole Černohorská)
David Zelený
53
PŘÍRODNÍ EXPERIMENT (OBSERVAČNÍ STUDIE)
ROZMÍSTĚNÍ VZORKOVACÍCH PLOCH
David Zelený

Preferenční
54
David Zelený

Systematické rozmístění v síti (lattice)
55
David Zelený

Systematické rozmístění v síti (grid)
56
David Zelený

Systematické rozmístění na transektu
57
David Zelený

Náhodné rozmístění
58
David Zelený

Preferenční rozmístění
statistické hledisko: snímky nejsou náhodným výběrem, což
limituje jejich použití při statistických analýzách (Lajer 2007, Folia
Geobotanica)
 hledisko vegetačního ekologa: popisují maximální variabilitu
vegetace
 praktické důsledky: snímky bývají druhově bohatší, obsahují
větší počet diagnostických nebo vzácných druhů


Náhodné (a systematické) rozmístění



statistické hledisko: snímky jsou náhodným výběrem v reálném
prostoru (ne ale v ekologickém hyperprostoru)
hledisko veg. ekologa: nezachytí celou variabilitu vegetace chybí maloplošné a vzácné vegetační typy, převládají
velkoplošné a běžné typy, zahrnují řadu špatně klasifikovatelných
vegetačních přechodů
praktické důsledky: snímky odrážejí reálnou strukturu a
bohatost vegetace v krajině, ale metoda je neúměrně pracná
59
David Zelený

Stratifikované náhodné rozmístění
60
STRATIFIKACE
KRAJINY V GIS
Teplota
David Zelený
Srážky
Půdní
typy
Stratifikované jednotky
61
Austin et al. 2000
PROSTOROVÁ AUTOKORELACE
David Zelený

bližší plochy jsou si podobnější
62

běžná vlastnost prakticky všech reálných ekologických dat – příroda
se nechová podle zákonů statistiky

může být pozitivní (bližší vzorky jsou si podobnější než by
odpovídalo jejich náhodnému výběru) nebo negativní (sousední
vzorky jsou si méně podobné než kdyby byly vybrány náhodou)
vlastnosti určitého pozorování (vzorku) mohou být do určité míry
odvozeny z pozorování v jeho okolí – jednotlivá pozorování na sobě
nejsou nezávislá
David Zelený

„Vše souvisí se vším, ale bližší věci spolu souvisejí více
než ty vzdálené“
Waldo Tobler (1969), První zákon geografie
63
David Zelený
Co způsobuje prostorovou autokorelaci biologických dat?
omezené možnosti disperze, genetický tok nebo klonální růst – sousedé
jsou si podobnější

organismy jsou omezeny ekologickými faktory (například vlhkost nebo
teplota), které jsou samy o sobě prostorově autokorelovány

Jak se prostorová autokorelace projevuje při analýze dat?

pozitivní PA zvyšuje pravděpodobnost chyby prvního druhy (Type 1
error), totiž že zamítneme nulovou hypotézu, která platí (statistické
testy vycházejí průkazněji než by měly)

negativní PA způsobuje opačný efekt

problém je v počtu stupňů volnosti (degrees of freedom): pokud si
stupně volnosti představíme jako množství informace, kterou každý
nový vzorek přináší, pak každý nový nezávislý vzorek přináší jeden
stupeň volnosti, ale prostorově autokorelovaný vzorek přináší méně
64
David Zelený
Příklad: Vliv nadmořské výšky na vegetaci, studovaný pomocí
transektů vedených podél nadmořské výšky
prostorově autokorelované
transekty
(paralelně vedle sebe na jedné hoře)
×
65
prostorově neautokorelované
transekty
(každý transekt na různé hoře)
PROBLÉM PROSTOROVÉ ŠKÁLY
(SCALE OF THE STUDY)

rozsah (extent) – velikost studovaného území

interval – vzdálenost mezi vzorkovanými plochami
67
zrno (grain size) – velikost nejmenší studované jednotky,
zpravidla vzorkované plochy
David Zelený

PROBLÉM PROSTOROVÉ ŠKÁLY
(SCALE OF THE STUDY)
David Zelený
68
velikost zrna (plochy, vzorku) je dána vlastnostmi a velikostí
studovaných objektů
 různý prostorový rozsah – zachycení různých ekologických
procesů, vliv různých ekologických faktorů
 platí pravidlo, že studie malého rozsahu jsou hůře zobecnitelné

TVAR PLOCHY
David Zelený
obdélníková
kruhová
čtverec
obdélník
kruh
celková plocha
100 m2
100 m2
100 m2
rozměr tvaru
10 × 10 m
20 × 5 m
poloměr ≈ 5,64 m
obvod
40 m
50 m
čtvercová
~ 35 m
69
TVAR PLOCHY
David Zelený
Whittaker
Stohlgren
Keeley &
Fotheringham
(2005) J.Veg.Sci.
Kunin
70
VLIV TVARU A ORIENTACE PLOCHY NA
ZAZNAMENANOU DRUHOVOU BOHATOST
David Zelený

obdélníkové plochy mohou mít vyšší druhovou bohatost než
čtvercové plochy (o stejné ploše)
71
Stohlgren et al. (1995) Vegetatio 117:113-121; Condit et al. (1996) J.Ecol. 84: 549-562;
Keeley & Fotheringham (2005) J.Veg.Sci. 16: 249-256.
VELIKOST PLOCHY
STUDIUM VEGETACE NA VÍCE MĚŘÍTCÍCH SOUČASNĚ
David Zelený
72
VELIKOST PLOCHY
STUDIUM VEGETACE NA VÍCE MĚŘÍTCÍCH SOUČASNĚ
David Zelený
Vztah mezi velikostí snímku a počtem
druhů ve snímku – bělokarpatské louky ve
srovnání s jinými typy travinné vegetace
Jongepierová [ed.](2008): Louky Bílých Karpat.
73
David Zelený
(ECOLOGICAL RESEMBLANCE)
EKOLOGICKÁ PODOBNOST
EKOLOGICKÁ PODOBNOST
Q VS R ANALÝZA
David Zelený
Vzorky
druh 1
druh 2
druh 3
vzorek 1
0
1
1
vzorek 2
1
0
0
vzorek 3
0
4
4
vztahy mezi druhy
(nebo obecně mezi deskriptory)
R analýza
vztahy mezi vzorky
Q analýza
76
Druhy
PODOBNOSTI
X VZDÁLENOSTI
(Q ANALÝZA)
David Zelený
Indexy podobnosti
slouží k vyjádření podobnosti mezi vzorky, ne k jejich umístění
do mnohorozměrného prostoru (například ordinace)

nejnižší hodnota 0 – vzorky nesdílejí žádný druh

nejvyšší hodnota (1 nebo jiná) – vzorky jsou identické

Vzdálenosti mezi vzorky

slouží k umístění vzorků v mnohorozměrném prostoru

nejnižší hodnota 0 – vzorky jsou identické (ve stejné lokaci)

hodnota se zvyšuje se zvyšující se nepodobností mezi vzorky
77
INDEXY PODOBNOSTI
David Zelený
kvalitativní vs kvantitativní
kvalitativní – pro presenčně-absenční data

kvantitativní – pro data vyjadřující abundance, počty aj.

symetrické vs asymetrické

dvojité nepřítomnosti („double-zero“) – počet druhů, které chybí
zároveň v obou vzorcích, v kontrastu s počtem druhů které se
vyskytují zároveň v obou vzorcích

symetrické – dvojité nepřítomnosti hodnotí stejně jako dvojité
přítomnosti (totiž že vyjadřují podobnost mezi vzorky); v ekologii se
prakticky nepoužívají

asymetrické – dvojité nepřítomnosti ignorují; nejčastější typ indexů
podobnosti v ekologii
78
PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ
(DOUBLE-ZEROS)
David Zelený
Skutečnost, že druh chybí zároveň v obou snímcích, může
znamenat, že:
vzorky leží mimo ekologickou niku druhu



nemůžeme ale říci, zda oba vzorky leží na stejné straně
ekologického gradientu mimo niku druhu (a jsou si tedy docela
podobné) nebo na stranách opačných (a jsou pak úplně odlišné)
vzorky leží uvnitř ekologické niky druhy, ale druh se ve vzorku
nevyskytuje, protože
se tam nedostal (dispersal limitation)
 jsme ho přehlédli a nezaznamenali (sampling bias)
 nachází se právě v dormantním stadiu a není proto vidět
(jednoletky, geofyty)

79
vlhkomilný
druh 2
mezický
druh 1
mezický
druh 2
suchomilný
druh 1
suchomilný
druh 2
1
1
0
0
0
0
snímek 2
0
1
1
1
1
0
snímek 3
0
0
0
0
1
1

snímky 1 až 3 jsou seřazeny podle vlhkosti stanoviště – snímek 1 je
nejvlhčí, snímek 3 nejsušší

snímek 1 a 3 neobsahují ani jeden mezický druh – snímek 1 je pro
tyto druhy příliš vlhký, snímek 3 příliš suchý

symetrické indexy podobnosti: dvojitá nepřítomnost mezických
druhů bude zvyšovat podobnost snímků 1 a 3

asymetrické indexy: dvojité nepřítomnosti budou ignorovány
snímek 1
David Zelený
vlhkomilný
druh 1
PROBLÉM DVOJITÝCH NEPŘÍTOMNOSTÍ
(DOUBLE-ZEROS)
80
INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA
přítomen
nepřítomen
přítomen
a
b
nepřítomen
c
d
ve vzorku č. 2
David Zelený
ve vzorku č. 1
druh je
a – počet druhů přítomných v obou vzorcích
b, c – počet druhů přítomných jen v jednom vzorku
d – počet druhů, které chybí v obou vzorcích („double zeros“)
Pokud nebereme v úvahu druhy
nepřítomné v obou vzorcích (d),
lze zobrazit i pomocí Vennova
diagramu 
c
a
b
81
vzorek č. 1
vzorek č. 2
INDEXY PODOBNOSTI PRO KVALITATIVNÍ DATA
Jaccardův koeficient
J = a / (a + b + c)

Sørensenův koeficient
S = 2a / (2a + b + c)

přítomnosti druhu v obou vzorcích (a) přisuzuje dvojnásobnou
váhu
Simpsonův koeficient


David Zelený

Si = a / [a + min (b,c)]
vhodný pro vzorky velmi odlišné počtem druhů
c
a
b
82
vzorek č. 1
vzorek č. 2
INDEXY PODOBNOSTI PRO KVANTITATIVNÍ DATA
David Zelený

např. zobecněný Sørensenův koeficient (procentická
podobnost, percentage similarity)
PS = [2 Σ min (xi, yi)] / Σ (xi + yi)





xi, yi ... kvantita i-tého druhu ve srovnávaných vzorcích
má rozsah od 0 do 1
pro presenčně absenční data přechází v 2a / (2a + b + c)
velmi vhodný pro ekologická data
percentage dissimilarity (PD, Bray-Curtis index) = 1 – PS
83
VZDÁLENOSTI MEZI VZORKY
(DISTANCE MEASURES)
David Zelený

všechny indexy podobnosti (kvalitativní i kvantitativní) lze
převést na distance
D = 1 – S, nebo D = √ (1 – S)
kde D je vzdálenost (distance) a S je podobnost (similarity)
 odmocninový převod se používá například pro Sørensenův
koeficient
 neplatí obráceně (ne všechny vzdálenosti se dají převést na
podobnosti – např. Euklidovská vzdálenost)

84
VZDÁLENOSTI MEZI VZORKY
(DISTANCE MEASURES)
David Zelený

Euklidovská vzdálenost (Euclidean distance)
ED = √ Σ (xi – yi)2



tětivová vzdálenost (chord distance, relativized Euclidean
distance)



rozsah: od 0 (identické vzorky), horní mez není dána
rozsah hodnot výrazně záleží na použitých jednotkách
míra citlivá na odlehlé body - nevhodná pro ekologická data

Euklidovská vzdálenost použitá na datech standardizovaných přes
vzorky (by sample norm)
rozsah: od 0 (identické vzorky) do √2 (vzorky nesdílí žádný druh)
Chi-kvadrát vzdálenost (chi-square distance)


málokdy se používá přímo na výpočet vzdálenosti mezi vzorky
vyjadřuje vzdálenost mezi vzorky v unimodálních ordinačních
metodách (např. v korespondenční analýze, CA)
85
EUKLIDOVSKÁ VZDÁLENOST
PARADOX
David Zelený

Druhy
Vzorky
druh 1
druh 2
druh 3
vzorek 1
0
1
1
vzorek 2
1
0
0
vzorek 3
0
4
4
1,732
4,243
Eucl (vzorek 1, vzorek 2) = √ (0-1)2 + (1-0)2 + (1-0)2 = 1,732
Eucl (vzorek 1, vzorek 3) = √ (0-0)2 + (1-4)2 + (1-4)2 = 4,243
86
může se stát, že dva vzorky, které sdílejí některé druhy (vzorky 1 a
3), budou mít větší vzdálenost než dva vzorky, které nesdílí ani jeden
druh (vzorky 1 a 2)
INDEXY PODOBNOSTI MEZI DRUHY (R ANALÝZA)
V kolika vzorcích je ...

Diceův index
přítomen
nepřítomen
přítomen
a
b
nepřítomen
c
d
druh č. 2
David Zelený
druh č. 1
Dice = 2a / (2a + b + c)
stejný jako Sørensenův index pro podobnost mezi vzorky
 uveden dříve než Sørensen (Dice 1945 vs Sørensen 1948)


Pearsonův korelační koeficient r

není vhodný pro data s velkým počtem nul, ani po transformaci
87
MATICE PODOBNOSTÍ (VZDÁLENOSTÍ) MEZI
VZORKY (NEBO DRUHY)

diagonála obsahuje pouze nuly (matice vzdáleností) nebo
pouze jedničky (matice podobností)
1
2
3
4
5
6
7
8
9
10
1
0
12.37
11.70
17.92
13.86
10.58
11.92
10.54
13.82
15.59
2
12.37
0
11.14
13.34
16.58
13.96
9.64
13.56
13.64
13.42
3
11.70
11.14
0
14.42
16.16
11.53
10.34
13.71
14.90
13.78
4
17.92
13.34
14.42
0
18.36
15.78
9.64
17.03
14.42
7.48
5
13.86
16.58
16.16
18.36
0
13.71
14.49
9.00
14.04
15.46
6
10.58
13.96
11.53
15.78
13.71
0
11.31
11.87
10.54
12.85
7
11.92
9.64
10.34
9.64
14.49
11.31
0
13.82
12.77
9.43
8
10.54
13.56
13.71
17.03
9.00
11.87
13.82
0
10.95
14.35
matice Euklidovských vzdáleností mezi 10 vzorky
9
13.82
13.64
14.90
14.42
14.04
10.54
12.77
10.95
0
10.39
je symetrická (podobnost mezi 2. a 3. snímkem = podobnost
mezi 3. a 2. snímkem)
David Zelený

10
15.59
13.42
13.78
7.48
15.46
12.85
9.43
14.35
10.39
0
88
99.0
98.5
98.0
97.5
více než 90% hodnot tvoří nuly, u
velkých souborů až 99%
97.0
(SPARSE MATRIX, ŘÍDKÁ MATICE)
David Zelený
V EKOLOGII SPOLEČENSTEV
Zastoupení nul v matici [%]
MATICE „VZORKY × DRUHY“
100
2000
4000
6000
8000
vzorky
Počet vegetačních snímků v matici
89
druhy
David Zelený
NUMERICKÁ KLASIFIKACE
PROČ MÁ SMYSL VĚCI KLASIFIKOVAT?
http://wfc3.gsfc.nasa.gov
David Zelený
vlnová délka (~ ekologický gradient)
91
PROČ MÁ SMYSL VĚCI KLASIFIKOVAT?
http://wfc3.gsfc.nasa.gov
David Zelený
vlnová délka (~ ekologický gradient)
92
KLASIFIKACE
David Zelený
O klasifikaci obecně platí:
smyslem je najít diskontinuity v jinak kontinuální realitě, které
můžeme pojmenovat – například proto, abychom si usnadnili
komunikaci

cílem je seskupit podobné objekty (vzorky, druhy) do skupin, které
jsou vnitřně homogenní, dobře popsatelné a zároveň dobře
odlišitelné od ostatních skupin

O klasifikaci ekologických dat platí:

pokud analyzuji vzorky – daná skupina obsahuje vzorky s podobným
druhovým složením (např. podobná stanoviště)

pokud analyzuji druhy – daná skupina obsahuje druhy s podobným
ekologickým chováním
93
VYUŽITÍ KLASIFIKACE V PRAXI
KNIHY A KNIHOVNA
David Zelený
94
http://nd05.jxs.cz/
VYUŽITÍ KLASIFIKACE V PRAXI
VYHLEDÁVAČ GOOGLE
David Zelený
95
KLASIFIKACE
OBECNÉ ROZDĚLENÍ
David Zelený

neřízená (unsupervised, bez učitele)
cílem je vytvořit novou klasifikaci pomocí datového souboru
 výslednou klasifikaci můžeme ovlivnit pouze výběrem metody
(kombinace klasifikačního algoritmu a míry podobnosti), případně
požadovaného počtu shluků
 numerické metody klasifikace (cluster analysis, TWINSPAN)


řízená (supervised, s učitelem)
cílem je aplikovat již existující klasifikaci („danou učitelem“) na
datový soubor
 klasifikační systém musíme nejdříve naučit, jak má vypadat
výsledná klasifikace (training), a systém ji pak reprodukuje na
dalších vzorcích
 ANN – artificial neural networks, klasifikační stromy, náhodné
lesy (random forests), COCKTAIL

96
KLASIFIKACE
OBECNÉ ROZDĚLENÍ
David Zelený

subjektivní vs objektivní
v době rozkvětu metod numerické klasifikace se věřilo, že
numerické metody přinášejí klasifikaci založenou na objektivních
kritériích, tedy tu která „skutečně existuje“ (narozdíl od té
subjektivní, která je „výmyslem badatele“)
 všechny klasifikace jsou ale z principu subjektivní – v případě, že
Bůh není, pak není nikdo, kdo by řekl, která klasifikace je jediná
správná


neformalizovaná vs formalizovaná

formalizovaná klasifikace je taková, která je provedena na
základě jasných kritérií a díky tomu je možné ji znovu
reprodukovat – opakem je klasifikace založená na neformálních
kritériích (například pocitu), kterou pak není snadné zopakovat
97
OTÁZKY, KTERÉ BYCH SI MĚL POLOŽIT PŘED
TÍM, NEŽ ZAČNU NĚCO KLASIFIKOVAT
David Zelený

Pro jaký účel klasifikaci dělám?
chci klasifikovat můj datový soubor (srovnat knihy v mojí domácí
knihovničce)
 chci vytvořit obecný klasifikační systém, který bude použitelný i na další
soubory (vytvořit knihovnický systém kategorizace knih, používaný i v
jiných knihovnách)


Podle jakých kritérií budu objekty klasifikovat?
kritérium, podle kterého budu posuzovat, jestli si jsou objekty více či
méně podobné (knihy budu třídit podle obsahové podobnosti nebo např.
podle velikosti)
 odpovídá výběru indexu podobnosti mezi vzorky


Jak stanovím hranice mezi jednotlivými skupinami?

odpovídá výběru klasifikačního algoritmu
98
KLASIFIKACE
hierarchické
divisivní
monotetické
(asociační
analýza)
nehierarchické
(K-means
clustering)
David Zelený
klasifikační
metody
aglomerativní
(klasická cluster
analysis)
polytetické
(TWINSPAN)
99
KLASIFIKACE
hierarchické
divisivní
monotetické
(asociační
analýza)
nehierarchické
(K-means
clustering)
David Zelený
klasifikační
metody
aglomerativní
(klasická cluster
analysis)
polytetické
(TWINSPAN)
100
KLASIFIKACE
HIERARCHICKÁ A AGLOMERATIVNÍ
David Zelený
Shluková analýza (cluster analysis )

hierarchická metoda

shluky jsou tvořeny ‘odspodu’, tzn. postupným shlukováním
jednotlivých vzorků do větších skupin
základní volby:



shluky jsou hierarchicky uspořádány
aglomerativní metoda



míra nepodobnosti mezi vzorky (distance measure)
shlukovací (klastrovací) algoritmus (clustering algorithm)
pozor – NEJDE O OBJEKTIVNÍ metodu klasifikace (ta
neexistuje), protože výsledná podoba klasifikace je ovlivněna
řadou našich SUBJEKTIVNÍCH rozhodnutí
101
SHLUKOVÁ ANALÝZA (CLUSTER ANALYSIS)
David Zelený
Výsledek shlukové analýzy je ovlivněn celou
řadou rozhodnutí, které provádíme
na různých úrovních
zpracování dat
výsledná
klasifikace
matice
nepodobností
primární data
sběr dat
• transformace
• strandardizace
• míra
nepodobnosti
(Euklidovská,
Bray-Curtis atd.)
• volba důležitostní
hodnoty (pokryvnost,
početnost)
• výběr klastrovacího
algoritmu (single
linkage, complete
linkage atd.)
102
SHLUKOVACÍ ALGORITMY
páry vzorků seřazené
podle podobností
103
výsledný dendrogram
matice podobností
David Zelený
Metoda jednospojná (single linkage)
David Zelený
Metoda jednospojná (single linkage, nearest neighbour)
vzorky se pojí ke shluku, ve kterém je jim nejpodobnější vzorek

přidám se ke skupině, ve které je ten, kdo je mí nejvíc sympatický

Metoda všespojná (complete linkage, farthest neighbour)

vzorky se připojí ke shluku až v okamžiku, kdy shluk obsahuje
všechny podobné vzorky

přidám se ke skupině ve které je ten, kdo je mi nejmíň nesympatický
single linkage
complete linkage
104
DENDROGRAM

nezáleží na tom, který vzorek (skupina) je vpravo a který vlevo
9
8
3
4
12
13
20
15
16
14
19
17
18
11
10
2
7
6
5
1
0.0 0.5 1.0 1.5 2.0 2.5
distance
záleží na tom, které vzorky jsou spojeny na které úrovni
David Zelený

105
METODA JEDNOSPOJNÁ VS VŠESPOJNÁ
David Zelený
Bray-Curtis distance / Complete linkage
metoda jednospojná se výrazně řetězí
14
15
20
6
7
4
3
8
9
13
12
2
10
5
11
18
16
8
9
5
6
7
4
3
10
2
15
20
11
18
16
13
12
14
19
1
1
17
17
19
Bray-Curtis distance / Single linkage
106
METODA JEDNOSPOJNÁ
VLIV TRANSFORMACE DRUHOVÝCH DAT
David Zelený
Single linkage / Euclidean distance / LOG transformation
1
8
19
2
9
3
5
15
20
11
18
16
6
7
15
20
7
10
6
5
18
11
13
12
10
4
16
14
2
14
12
17
19
13
8
3
17
4
9
1
Single linkage / Euclidean distance / no transformation
transformace dat (např. logaritmická) může výrazně ovlivnit
výsledný dendrogram – v případě euklidovských vzdáleností a
jednospojné metody obzvlášť
107
16
8
3
13
12
9
14
4
1
15
20
přidám se ke skupině, ve které jsou mi
všichni v průměru nejvíc sympatičtí
11
18

2
10
17
19
UPGMA (unweighted pair-group method
using arithmetic averages) – vzorek se
připojí ke shluku, ke kterému má
největší (neváženou) průměrnou
podobnost se všemi jeho vzorky
6

5
7
zahrnuje řadu metod, které stojí mezi
single a complete linkage a v ekologii
jsou smysluplnější
Euclidean distance / UPGMA

David Zelený
Average linkage (např. UPGMA)
108
4
9
8
3
16
15
20
13
12
14
1
neměla by se kombinovat se Sørensenovým
(Bray-Curtis) indexem podobnosti
11
18

2
10
6
5
7
17
19
ke shluku se připojí vzorek, jehož
vzdálenost od centroidu shluku je nejmenší
(počítáno přes čtverce vzdáleností mezi
vzorky a centroidy shluků)
Euclidean distance / Ward's method

David Zelený
Wardova metoda (Ward’s minimum
variance method)
109

nejvíc se řetězí pro β ~ 1,
nejméně pro β = -1

optimální reprezentace
vzdáleností mezi vzorky je při
β = -0,25
nastavení parametru β ovlivňuje
řetězení dendrogramu
David Zelený

Flexible clustering (beta
flexible)
110
KLASIFIKACE
hierarchické
divisivní
monotetické
(asociační
analýza)
nehierarchické
(K-means
clustering)
David Zelený
klasifikační
metody
aglomerativní
(klasická cluster
analysis)
polytetické
(TWINSPAN)
111
KLASIFIKACE
HIERARCHICKÁ A DIVISIVNÍ
David Zelený
TWINSPAN (Two Way INdicator Species ANalysis)

divisivní metoda

začíná dělením celého souboru vzorků a postupuje směrem dolů
polytetická metoda



každé dělení závisí na několika (indikačních) druzích (x monotetická
metoda – dělení ovlivňuje jediný druh)
metoda velmi oblíbená mezi vegetačními ekology

ale – algoritmus je poměrně složitý, s řadou arbitrárních kroků, a proto má
také řadu zarytých odpůrců

vzorky jsou uspořádány podle první osy korespondenční analýzy (CA,
DCA) a podle ní jsou rozděleny do dvou shluků (vzorky s pozitivním
skóre a negativním skóre)

metoda ošetří vzorky, které leží blízko středu osy, a které tak mají
velkou pravděpodobnost, že budou špatně klasifikovány
112
KLASIFIKACE
HIERARCHICKÁ A DIVISIVNÍ
David Zelený
TWINSPAN (Two Way INdicator Species ANalysis)

pseudospecies
metoda primárně funguje pro kvalitativní data
 kvantitativní informace se dodává rozdělením druhů na pseudospecies
podle abundance (cut levels)


výsledkem je (mimo jiné) tabulka podobná fytocenologické

snímky z určitých klastrů a druhy s vysokou fidelitou k dané skupině jsou
seskupeny dohromady

metoda vhodná v případě, že jsou data strukturovaná podle jednoho
výrazného gradientu

vhodné na hledání (několika málo) ekologicky interpretovatelných
skupin v datech

PC-ORD, JUICE
113
TWINSPAN
David Zelený
114
MODIFIKOVANÝ TWINSPAN
(ROLEČEK ET AL. 2009)

algoritmus se po každém
dělení na dvě skupiny
rozhoduje, kterou ze skupin
bude dále dělit – vybere tu,
která je více „heterogenní“ na
základě její betadiverzity

míru betadiverzity je nutné
zvolit (např. Jaccardův index
podobnosti)

JUICE
na rozdíl od původního
algoritmu (a) umožňuje
modifikovaný TWINSPAN (b)
dopředu stanovit cílový počet
skupin
David Zelený

115
KLASIFIKACE
hierarchické
divisivní
monotetické
(asociační
analýza)
nehierarchické
(K-means
clustering)
David Zelený
klasifikační
metody
aglomerativní
(klasická cluster
analysis)
polytetické
(TWINSPAN)
116
NEHIERARCHICKÁ
(shlukování metodou K-průměrů)
nehierarchická metoda – všechny shluky jsou si rovny

minimalizuje sumy čtverců vzdáleností mezi vzorky uvnitř
shluků

na začátku uživatel zvolí počet shluků

iterativní metoda, začne od náhodného přiřazení vzorků do
shluků, postupně přehazuje vzorky mezi shluky a hledá
optimální řešení

výsledek do určité míry záleží na počátečním rozmístění
shluků do vzorků a je proto dobré proces mnohokrát
zopakovat (najít stabilní řešení)

STATISTICA, SYN-TAX 2000

David Zelený
K-means clustering
KLASIFIKACE
117
STANOVENÍ DRUHŮ TYPICKÝCH PRO
JEDNOTLIVÉ SHLUKY
David Zelený
Analýza indikačních druhů (Dufrêne & Legendre 1997) - IndVal


relativní abundance a frekvence druhu uvnitř a mimo shluk
možnost testování signifikance Monte-Carlo permutačním testem
Fidelita (věrnost) druhu ke vzorku (Chytrý et al. 2002)

Phi koeficient asociace (analogie Pearsonova korelačního
koeficientu r)
ϕ = (ad – bc) / √ (a + b)(c + d)(a + c)(b + d)



rozsah <-1, 1>, 0 při shodné frekvenci uvnitř a vně shluku
v JUICE možnost standardizace na velikost skupiny
exaktní Fisherův test pro testování signifikance
Počet vzorků
ve shluku A
mimo shluk A
obsahující daný druh
a
b
neobsahující daný druh
c
d
122
David Zelený
ORDINAČNÍ ANALÝZA
KONCEPCE MNOHOROZMĚRNÉHO PROSTORU
David Zelený
Prostor může být definován
1)
druhy (species space )


2)
vzorky (sample space)



3)
druhy jsou osami mnohorozměrného
prostoru
vzorky jsou body v tomto prostoru
zobrazení původní matice druhy-vzorky

vzorky jsou osami mnohorozměrného
prostoru
druhy jsou body v tomto prostoru
zobrazení původní matice druhy-vzorky
ekologickými gradienty
(ecological space)


osami jsou ekologické gradienty
jako body do něj lze zobrazit druhy i
vzorky
134
Zuur et al. (2007)
ORDINACE
OPODSTATNĚNÍ
David Zelený

jeden gradient prostředí většinou ovlivňuje chování
(abundanci) několika druhů najednou – základní chování
společenstev
druhová data jsou redundantní – pokud znám chování
(abundanci) jednoho druhu, můžu do určité míry odhadnout
chování i některých dalších druhů
 díky této redundanci je možné (a hlavně smysluplné) zredukovat
mnohorozměrný prostor, ve kterém jsou druhy/vzorky rozmístěny
(prostory 1 a 2), na několik málo dimenzí ekologického prostoru
(prostor 3)


pokud by chování druhů bylo na sobě úplně nezávislé,
existovala by celá řada ekvivalentních možností, jak
mnohorozměrný prostor zredukovat, a ani jedna by nepřinesla
nic nového
135
ORDINACE
RŮZNÉ FORMULACE PROBLÉMU
hledání skrytých proměnných (ordinačních os)

najdi několik proměnných (ordinačních os), které nejlépe vystihují
vliv všech druhů
eigenvalue based methods

2)
David Zelený
1)
rozmístění vzorků v ordinačním prostoru


najdi takové rozmístění vzorků v redukovaném ordinačním
prostoru, aby vzdálenost mezi vzorky co nejvěrněji odrážela jejich
nepodobnost vypočtenou z druhového složení jednotlivých vzorků
distance based methods
136
NEPŘÍMÁ VS PŘÍMÁ ORDINACE
UNCONSTRAINED VS CONSTRAINED ORD.
David Zelený
Nepřímá ordinace
vychází pouze z matice vzorky × druhy

hledá proměnné (ordinační osy), které nejlépe reprezentují
variabilitu v druhových datech

slouží k popisu mnohorozměrných dat (pattern description) a
generování hypotéz, ne k testování hypotéz

Přímá ordinace

vychází ze dvou matic: vzorky × druhy a vzorky × proměnné
prostředí

ordinační osy představují směr největší variability v druhových
datech, která může být vysvětlena na základě a priori známých
proměnných prostředí

slouží spíše k testování hypotéz o vlivu proměnných prostředí na
druhová data, neslouží k popisu dat
137
MODELY ODPOVĚDI DRUHŮ NA GRADIENT
PROSTŘEDÍ
David Zelený
unimodální
abundance
1.5
1.0
abundance
2.0
lineární
0.0
0.2
0.4
0.6
gradient
0.8
gradient
138
LINEÁRNÍ MODEL ODPOVĚDI DRUHU
JEN PŘI KRÁTKÉM EKOLOGICKÉM GRADIENTU
David Zelený
abundance druhu
abundance druhu
dlouhý ekologický gradient
krátký ekologický gradient
gradient prostředí (pH, nadm. výška)
gradient prostředí (pH, nadm. výška)
139
Lepš & Šmilauer (2003) Multivariate analysis of ...
ZÁKLADNÍ TYPY ORDINAČNÍCH TECHNIK
(ZALOŽENÝCH NA VÝPOČTU EIGENVALUES)
nepřímá
ordinace
(unconstrained)
PCA
(Principal Component Analysis,
analýza hlavních komponent)
CA
(Correspondence Analysis,
korespondenční analýza)
DCA
(Detrended Correspondence
analysis, detrendovaná
přímá ordinace
(constrained)
RDA
(Redundancy Analysis,
redundanční analýza)
CCA
(Canonical Correspondence
Analysis, kanonická
unimodální odpověď druhů
David Zelený
lineární odpověď druhů
140
NEPŘÍMÁ ORDINACE
PRINCIP

první ordinační osa (ordination axis) a skóre vzorků na této
ordinační ose (sample scores)

odhad optima (odpovědi) jednotlivých druhů na této ose
(species scores)

druhá a vyšší ordinační osy – musejí být lineárně nezávislé na
všech nižších ordinačních osách
hledání skryté proměnné (gradientu), který nejlépe
reprezentuje chování všech druhů podél tohoto gradientu
David Zelený

141
NEPŘÍMÁ ORDINACE
PRINCIP (PCA)
2
1
samp2
3
4
samp3
5
0
samp4
7
6
samp5
9
2
samp4
sp2
samp1
sp2
David Zelený
sp1
samp2
samp5
samp1
samp3
sp1
a)
b)
c)
d)
rozmístění vzorků v
prostoru
definovaném druhy
výpočet těžiště
shluku
centrování os
rotace os
142
NEPŘÍMÁ ORDINACE
ALGORITMUS (CA)
David Zelený
5 výpočetních kroků
1.
3.
2.
začni s arbitrárním (náhodným) skóre vzorků (xi)
vypočti nové skóre pro jednotlivé druhy (species score, yi) jako
průměr skóre vzorků xi vážený abundancí druhu ve vzorcích
vypočti nové skóre pro jednotlivé vzorky (sample score, xi) jako
průměr skóre druhů yi vážený abundancí druhů ve vzorku
4.
standardizuj skóre jednotlivých vzorků (natáhni osu)
5.
pokud se skóre nemění, zastav, pokud ano, pokračuj krokem 2
143
NEPŘÍMÁ ORDINACE
CA – UNIMODÁLNÍ METODA
David Zelený
144
NEPŘÍMÁ ORDINACE
David Zelený
145
NEPŘÍMÁ ORDINACE
David Zelený
146
NEPŘÍMÁ ORDINACE
David Zelený
147
NEPŘÍMÁ ORDINACE
David Zelený
148
ORDINAČNÍ DIAGRAMY
David Zelený
přímá
ordinace
149
nepřímá
ordinace
unimodální metoda
lineární metoda
ORDINAČNÍ DIAGRAMY
KONVENCE
-> body
zobrazení druhů
-> šipky (lineární metody)
-> body, centroidy (unimodální metody)

zobrazení ordinačních os



zobrazení proměnných prostředí



vodorovná bývá osa vyššího řádu (např. první)
orientace os je arbitrární
šipky (kvantitativní proměnné)
centroidy (kategoriální proměnné)
typ ordinačního diagramu:



scatterplot - 1 typ dat (vzorky nebo druhy)
biplot - 2 typy dat (např. vzorky a druhy)
triplot - 3 typy dat (např. vzorky, druhy a
proměnné prostředí)
150

David Zelený
zobrazení vzorků

ARTEFAKTY V ORDINACÍCH
151
Oblouk (Arch effect )
 CA
 pořadí vzorků podél první osy
stále odráží jejich nepodobnost
 druhá osa je nelineární kombinací
první osy
David Zelený
http://ordination.okstate.edu
Podkova (Horseshoe effect )
 PCA
 pořadí vzorků podél první osy
neodráží jejich skutečnou
nepodobnost
 v extrémním případě se mohou
okraje přiblížit nebo dokonce
překřížit
David Zelený
Podkova a oblouk (Horseshoe and arch effect)

důsledek projekce - nelineární vztahy mezi druhy a gradienty
prostředí se promítají do lineárního prostoru definovaného
Euklidovskými vzdálenostmi
152
důsledek algoritmu - každá následující osa musí být lineárně
nezávislá na předchozích osách, ale neuvažuje se nelineární
závislost

SIMULOVANÁ DATA
POUZE JEDEN EKOLOGICKÝ GRADIENT

300 druhů s unimodální odpovědí, různými šířkami nik

500 vzorků náhodně rozmístěných podél gradientu
simulovaný gradient dlouhý 5000 jednotek
David Zelený

153
SIMULOVANÁ DATA
ARTEFAKTY
David Zelený
PCA - podkova
CA - oblouk
o vzorky
+ druhy
154
MOŽNOSTI ŘEŠENÍ
David Zelený

odstranění trendu z ordinačních os (detrending)
detrendovaná korespondenční analýza, Detrended
Correspondence Analysis (DCA, Hill & Gauch 1980)
 detrending by segments (nejčastější)
 detrending by polynomials (pokud v analýze používám kovariáty)


použití takových ordinačních technik, které umožňují ordinaci
vzorků v prostoru pomocí jiných metrik než je Euklidovská
distance (PCA) nebo chi-kvadrát distance (CA)
analýza hlavních koordinát, Principal Coordinate Analysis (PCoA)
 nemetrické mnohorozměrné škálování, Non-metric
Multidimensional Scaling (NMDS)

155
DETRENDED CORRESPONDENCE ANALYSIS
PROCES ODSTRANĚNÍ TRENDU
David Zelený
Krok 1 – rozdělení první osy na několik segmentů
Krok 2 – vycentrování druhé osy každého segmentu kolem nuly
156
PROCES ODSTRANĚNÍ TRENDU
David Zelený
-> výsledný ordinační diagram má osy
naškálované v jednotkách směrodatné
odchylky (SD)
ter Braak (1987)
Krok 3 – nelineární přeškálování první osy,
které odstraňuje nahloučení vzorků na
koncích gradientů
-> platí, že druhové složení se změní o
polovinu na gradientu o délce 1-1,4 SD
(half-change in species composition), celé
druhové složení se obmění na 4 SD
157
VÝHODY A NEVÝHODY
David Zelený
 neelegantní metoda, která je někdy přirovnávána k použití
kladiva na data (hlavně část týkající se rozdělení osy na
segmenty a jejich centrování)
 výsledek je silně ovlivněn arbitrárním rozhodnutím o počtu
segmentů (doporučuje se vyzkoušet více možností)
 pokud jsou v datech dva nebo více hlavních gradientů
(ordinačních os), DCA si s nimi neporadí (detrending do určité
míry poškodí druhou a vyšší ordinační osy)
 i kladivo, pokud je v rukou odborníka, může být použito
efektivně - metoda často dává ekologicky dobře
interpretovatelné výsledky
 osy DCA jsou v jednotkách SD, které umožňují zjistit, jak
dlouhý gradient naše data pokrývají
158
SIMULOVANÁ DATA (JEDEN EKOLOGICKÝ GRADIENT)
DCA
David Zelený
o vzorky
+ druhy
159
VÝBĚR ORDINAČNÍ METODY NA ZÁKLADĚ DCA
LINEÁRNÍ NEBO UNIMODÁLNÍ?

kuchařka alá Lepš & Šmilauer (2003) - zjištění délky gradientu
(heterogenity dat) pomocí metody DCA, detrending by
segments

pokud je délka 1. osy DCA
lineární metody vyžadují homogenní data, unimodální jsou
vhodná i pro data heterogenní
David Zelený

menší než 3 SD – použiji lineární techniku
větší než 4 SD – použiji unimodální techniku
v rozmezí 3-4 SD – obě techniky pracují rozumně

alternativní doporučení (Legendre & Gallagher 2001) – na
data aplikovat Hellingerovu transformaci a dále je zpracovávat
pomocí lineárních metod, které jsou robustnější
160
PCOA (PRINCIPAL COORDINATE ANALYSIS)
ORDINACE ZALOŽENÁ NA DISTANCÍCH

alternativní metoda nepřímé ordinace

vstupní data – matice nepodobností mezi vzorky

výpočet matice nepodobností – jakýkoliv index nepodobnosti
syn. MDS – Metric Dimensional Scaling
David Zelený

pokud zvolím Euklidovskou vzdálenost -> identické s PCA
 pokud zvolím Chi-kvadrát vzdálenost -> obdoba CA


v CANOCO se počítá programem PrCoord
161
NMDS (NON-METRIC MULTIDIMENSIONAL SCALING)
ORDINACE ZALOŽENÁ NA DISTANCÍCH

vstupní data – matice nepodobností mezi vzorky

výpočet matice nepodobností – jakýkoliv index nepodobnosti

výsledek je značně ovlivněn výběrem indexu nepodobnosti

iterativní algoritmus, který nemusí pokaždé dojít ke stejnému
výsledku (lokální optima)

na začátku je nutno určit počet dimenzí, se kterými bude metoda
pracovat (obvykle k = 2 nebo 3)

při větším množství dat VELMI časově náročná

v CANOCO se počítá programem WinKyst, který je ke stažení
zde: http://www.canodraw.com/winkyst.htm
další alternativa nepřímých ordinací, nemetrická varianta PCoA
David Zelený

162
NMDS
NON-METRIC MULTIDIMENSIONAL SCALING
David Zelený
náhodné rozmístění vzorků v
prostoru
rozmístění vzorků v prostoru
respektuje jejich nepodobnost
163
NMDS
NON-METRIC MULTIDIMENSIONAL SCALING
David Zelený
stress = 7.47
vzdálenost mezi vzorky v
ordinačním diagramu
nepodobnost v druhovém
složení mezi vzorky
164
POROVNÁNÍ METOD DCA A NMDS
David Zelený
DCA
NMDS
165
data z údolí Vltavy, klasifikace metodou TWINSPAN (Zelený & Chytrý 2007)
David Zelený
DCA
NMDS
166
při větším počtu vzorků tvoří trojúhelník
nebo pěticípou hvězdu (artefakt)
má tendenci jakákoliv data zobrazit
jako kouli
SIMULOVANÁ DATA (JEDEN GRADIENT)
David Zelený
DCA
NMDS
o vzorky
+ druhy
167
SIMULOVANÁ DATA
DVA RŮZNĚ DLOUHÉ GRADIENTY
David Zelený
Gradient 2
168
Gradient 1
SIMULOVANÁ DATA
David Zelený
169
SIMULOVANÁ DATA
DVA STEJNĚ DLOUHÉ GRADIENTY
David Zelený
170
SIMULOVANÁ DATA
David Zelený
krátké gradienty
dlouhé gradienty
171
POROVNÁNÍ METOD ZALOŽENÝCH NA
VÝPOČTU EIGENVALUES A DISTANCÍ
David Zelený
Eigenvalue-based ordination methods
DCA, PCA a CA a jejich omezené (constrained) varianty
DCCA, RDA a CCA

vstupní data = matice vzorky x druhy, ze kterých se extrahují
hlavní ordinační osy (eigenvectors)

interpretace zaměřena na směry variability v datech,
vysvětlené jednotlivými ordinačními osami

Distance-based ordination methods

NMDS a PCoA

vstupní data = matice nepodobností

interpretace zaměřena se na vzdálenosti mezi vzorky v
redukovaném ordinačním prostoru
172
POUŽITÍ PROMĚNNÝCH PROSTŘEDÍ V ORDINACI
DVA ALTERNATIVNÍ POSTUPY
oba přístupy jsou
relevantní a navzájem
se doplňují!
173
X – samples × environmental
factors matrix
David Zelený
Y – samples × species matrix
POUŽITÍ PROMĚNNÝCH PROSTŘEDÍ V ORDINACI
DVA ALTERNATIVNÍ POSTUPY
nepřímá ordinace + korelace


získám skóre vzorků na hlavních ordinačních osách
skóre vzorků koreluji s jednotlivými proměnnými prostředí
+
‒
2.
David Zelený
1.
určitě zachytím hlavní gradienty v druhovém složení
nemusím zachytit tu část variability v druhovém složení, která je
vztažená k jednotlivým proměnným prostředí
přímá ordinace


+
‒
proměnné prostředí vstupují přímo jako vysvětlující proměnné do
ordinace
skóre vzorků na osách je ovlivněno vztahem k těmto proměnným
prostředí
určitě zachytím variabilitu v datech, která se vztahuje k jednotlivým
proměnným prostředím
nemusím zachytit část variability v druhových datech, která není
vysvětlena žádnou proměnnou prostředí
174
10
60
5
15
20
25
30
sam 7
20
10
15
gradient
sam 3
25
30
sam 2
sam 3
sam 4
sam 5
-20
sam 4
20
0
5
species 1 (residual)
0
residuály
20
40
sam 1
sam 2
sam 6
sam 5
sam 6
sam 7
spe 3
sam 6
gradient
0
env 2
env 1
sam 1
spe 3
sam 5
40
species 1
sam 7
spe 2
sam 4
0
sam 6
spe 2
sam 5
spe 1
40
sam 3
80
sam 4
sam 2
60
80
100
sam 3
species 1 (predicted)
sam 2
sam 1
20
regrese
abundance druhu
na proměnné
prostředí
sam 1
predikované
hodnoty
0
spe 3
spe 2
spe 1
100
matice vzorky × druhy
spe 1
PŘÍMÁ ORDINAČNÍ ANALÝZA
matice s
vysvětlujícími
proměnnými
sam 7
0
5
10
15
gradient
20
25
30
ordinační osy s omezením
(constrained axes)
spe 3
spe 2
spe 1
matice
predikovaných
hodnot
počet ordinačních os
s omezením
=
počet vysvětlujících
proměnných
sam 1
sam 2
ordinace
sam 3
sam 4
(pokud je vysvětlující
proměnná kategoriální,
počet os je roven počtu
kategorií minus 1)
sam 5
sam 6
spe 3
spe 2
spe 1
sam 7
sam 1
sam 2
ordinace
sam 3
sam 4
sam 5
sam 6
sam 7
176
matice residuálů
ordinační osy bez omezení
(unconstrained axes)
PŘÍMÁ ORDINACE
INTERPRETACE VÝSLEDKŮ
David Zelený
RDA
CCA
177
MONTE-CARLO PERMUTAČNÍ TEST

test první kanonické osy – vliv jen jedné kvantitativní proměnné

test všech kanonických os – vliv všech proměnných, nebo vliv jedné
kategoriální proměnné s více kategoriemi (počet os = počet kategorií – 1)

testová statistika – Fdata (pseudo-F)
testuje nulovou hypotézu, že druhové složení je nezávislé na vysvětlující
proměnné
David Zelený

P – hladina signifikance
nx – počet permutací, kde Fperm >= Fdata
N – celkový počet permutací
178
David Zelený
179
Herben & Münzbergová 2001
David Zelený
randomizace ploch bez
omezení (unrestricted
randomization)
randomizace ploch v blocích
(randomization within blocks
defined by covariables)
180
Herben & Münzbergová 2001
JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD?
procento variability vysvětlené hlavními osami





CANOCO: cummulative percentage variance of species data
vypočte se také jako eigenvalue / total variance
ukazuje, jak úspěšný byl celý proces ordinace
čím více jsou jednotlivé druhy korelované, tím více variability
bude vysvětleno několika málo hlavními osami
má smysl srovnávat vysvětlenou variabilitu hlavních os různými
ordinačními technikami na stejných datech
nemá smysl srovnávat vysvětlenou variabilitu hlavních os
stejnými ordinačními technikami na různých datech (eigenvalues
jsou závislé na počtu hráčů ve hře – druhů, vzorků)


David Zelený

skóre (souřadnice) závisle proměnných (druhů) na osách
u lineárních technik skóre = regresní koeficient, v ordinačních
diagramech zobrazeny jako šipky
 u unimodálních technik skóre = optimum druhu, v ordinačních
diagramech zobrazeny jako body

181
JAK ČÍST VÝSLEDKY ORDINAČNÍCH METOD?
David Zelený

skóry vzorků (snímků) na osách
v ordinačních diagramech vzorky zobrazeny jako body (lineární i
unimodální techniky)
 vzdálenost mezi body v ordinačním prostoru odpovídá
nepodobnosti mezi vzorky (ne ale nepodobnosti celého
floristického složení, ale jenom té části, která je vyjádřena
zobrazenými ordinačními osami)

skóry nezávislých (vysvětlujících proměnných) *



regresní koeficienty, důležitá jsou jejich znaménka
test signifikance (Monte-Carlo permutační test) *

ukazuje na statistickou významnost použitých vysvětlujících
proměnných
182
* jen přímé ordinační techniky
JEDNOTLIVÉ PROMĚNNÉ
TERMINOLOGIE
vysvětlované / závislé proměnné

CANOCO: druhy (species)

David Zelený

vysvětlující / nezávislé proměnné, prediktory *
CANOCO: proměnné prostředí (environmental variables)
 měřené nebo odhadované proměnné


vzorky, objekty, případy (cases)


CANOCO: snímky (samples)
kovariáty, nezajímavé vysvětlující / nezávislé proměnné *
CANOCO: kovariáty (covariables)
 proměnné, jejichž vliv nás nezajímá a chceme ho z analýzy
odstranit

183
* jen přímé ordinační techniky
POSTUPNÝ VÝBĚR VYSVĚTLUJÍCÍCH PROMĚNNÝCH
FORWARD SELECTION

v každém kroku testuje zvlášť vliv jednotlivých proměnných
(Monte-Carlo permutační test)

vybere tu proměnnou, která vysvětlí nejvíce variability a
zároveň je signifikantní; tuto proměnnou pak do modelu
zahrne jako kovariátu

v dalším kroku znovu testuje vliv jednotlivých proměnných na
druhová data (s odstraněním vlivu kovariát) a opakuje
předchozí kroky

testy signifikance jsou zatíženy mnohonásobným porovnáním,
a jsou proto poměrně liberální (počet signifikantních
proměnných je často nerealisticky vysoký a vyžaduje např.
Bonferroniho korekci)
ze souboru vysvětlujících proměnných umožňuje vybrat jen ty,
které mají průkazný vliv
David Zelený

184
PROBLÉM MNOHONÁSOBNÉHO POROVNÁNÍ
David Zelený
Simulace:
25 náhodně
vygenerovaných
proměnných

otestování průkaznosti
korelace každé proměnné
s každou (čtvercová
matice)

průkazné korelace (p <
0.05) jsou označeny
červeně

dohromady 300 analýz, z
nich je 16 průkazných

185
PARCIÁLNÍ ORDINACE
PARTIAL ORDINATION

následně se přímou nebo nepřímou ordinací analyzuje
zbytková variabilita

„nezajímavé“ proměnné se definují jako kovariáty

pokud následuje přímá ordinace – ordinační osy představují
čistý vliv ostatních vysvětlujících proměnných bez vlivu
kovariát

pokud následuje nepřímá ordinace – ordinační osy zachycují
zbytkovou variabilitu v druhových datech po odstranění vlivu
kovariát
odstraňuje část variability vysvětlené proměnnými, které jsou
pro nás nezajímavé (například vliv umístění ploch do bloků)
David Zelený

186
ROZKLAD VARIANCE
VARIANCE PARTITIONING
vysvětlená variabilita sdílená proměnnou 1
a proměnnou 2
David Zelený
variabilita vysvětlená
proměnnou 1
variabilita vysvětlená
proměnnou 2
Borcard et al. 1992, Ecology 73: 1045–1055
zbytková variabilita
187
ROZKLAD VARIANCE
VARIANCE PARTITIONING
vysvětlená
variabilita
1a2
není
[a]+[b]+[c]
1
není
[a]+[b]
2
není
[b]+[c]
1
2
[a]
2
1
[c]
[d]
[a]
proměnná 1
[b]
kovariáta
David Zelený
vysvětlující
proměnná
[c]
proměnná 2
sdílená variabilita [b] = (([a]+[b]) + ([b]+[c]) – ([a]+[b]+[c]))
nevysvětlená variabilita [d] = Total inertia – ([a]+[b]+[c])
[a]+[b] – celkový (marginal) vliv proměnné 1
[a] – čistý (partial, conditional) vliv proměnné 1 (bez vlivu prom. 2)
Borcard et al. 1992, Ecology 73: 1045–1055
188
David Zelený
vysvětlená variabilita
VYSVĚTLENÁ VARIABILITA A ADJUSTOVANÝ R2
● R2
○ R2Adj
počet vysvětlujících
proměnných
počet vzorků v
datovém souboru

vysvětlená variabilita stoupá s počtem vysvětlujících proměnných
(i když jsou náhodné) a klesá s počtem vzorků v datovém
souboru, adjustovaný R2 se nemění

platí pro přímou (kanonickou) ordinační analýzu i
mnohonásobnou regresi
Peres-Neto et al. (2006) Ecology
189
VYSVĚTLENÁ VARIABILITA A ADJUSTOVANÝ R2

i náhodná proměnná vysvětlí nenulové množství variability (při
následném testování signifikance ale bude neprůkazná)

množství vysvětlené variability stoupá s počtem vysvětlujících
proměnných (i když tyto jsou třeba úplně náhodné)

nelze srovnávat variabilitu vysvětlenou modelem s různým počtem
vysvětlujících proměnných (čím víc proměnných, tím víc vysvětlené
variability)

možné řešení – použití tzv. adjustovaného R2, tzn. vysvětlené variability
ošetřené o variabilitu, kterou by vysvětlil stejný počet náhodných
proměnných

adjustovaný R2 je možné spočítat pro lineární ordinační metody, pro
unimodální je třeba použít metody založené na permutacích
nelze srovnávat vysvětlenou variabilitu v analýzách založených na
různém počtu vzorků a druhů
David Zelený

190
NEVYSVĚTLENÁ VARIABILITA [d]
variance nevysvětlená modelem (složka D) ve skutečnosti obsahuje
variabilitu, která by mohla být vysvětlena některou z proměnných, pokud
by se data chovala podle teoretického modelu

varianci nevysvětlenou modelem tedy nelze interpretovat jen jako
zbytkovou variabilitu, která je dána šumem v datech a tím, že ne
všechny proměnné prostředí byly měřeny

Total inertia proto není měřítkem celkové variability v druhových datech,
ale variability, kterou je možné zachytit pomocí zvoleného modelu
(lineárního nebo unimodálního)

variabilita vysvětlená danou proměnnou prostředí a vypočtená jako
eigenvalue / total inertia je proto podhodnocená

vedle procenta vysvětlené variability (eigenvalue / total inertia) uvádějte
také relativní množství variability, kterou daná proměnná vysvětlí z
celkové variability vysvětlené všemi proměnnými prostředí
191

David Zelený
ordinační metody jsou založené na modelu (lineární nebo unimodální)
odpovědi druhu na gradient prostředí, který je velkým zjednodušením
skutečnosti
Økland (1999) J. Veg.Sci. 10: 131-136

MANTEL TEST
KORELACE MEZI MATICEMI NEPODOBNOSTÍ
David Zelený
193
MANTEL TEST
David Zelený
De
proměnná prostředí
1
0
1
4.5
2
0.4
0
2
4.1
3
0.3
0.1
0
3
4.2
4
0.7
0.4
0.3
0
4
3.8
1
2
3
4
druhová data
Dsp
sp1
sp2
1
0
1
0
3
2
1.41
0
2
1
2
3
0.3
0.1
0
3
1
2
4
0.7
0.4
0.3
0
4
2
1
1
2
3
4
(eucl.)
De
Dsp
0.4
1.41
0.3
1.41
0.1
0
0.7
2.5
0.4
1.41
0.3
1.41
pH
r = 0.965
p = 0.015
194
SHRNUTÍ
David Zelený
195
PCA – PŘÍKLAD
TRENDY V NÁZVECH ČLÁNKŮ V EKOLOGICKÝCH ČASOPISECH
David Zelený
199
Nobis & Wohlgemuth (2004) Oikos
David Zelený
200
Nobis & Wohlgemuth (2004) Oikos
DCA – PŘÍKLAD
FLORISTICKÁ DATA Z
NP PODYJÍ
David Zelený
skóry pro jednotlivé
kvadráty z 1. a 2. osy
DCA (na základě jejich
floristického složení) byly
promítnuty do síťové
mapy
201
Chytrý et al. (1999) Preslia
PCA – PŘÍKLAD
Výrazný úbytek druhové bohatosti
bylinného (E1) a keřového (E2) patra v
posledních 50ti letech. Data jsou
založená na zopakování
fytocenologických snímků na plochách
snímkovaných Jaroslavem Horákem v
šedesátých letech.
David Zelený
ZMĚNY V DRUHOVÉM SLOŽENÍ PÁLAVSKÝCH
DUBOHABŘIN (R. HEDL 2005, DISERTAČNÍ PRÁCE)
Změna v druhovém složení vegetace
v průběhu 50ti let samovolné sukcese
(PCA diagram).
202
NMDS PŘÍKLAD
David Zelený
ZMĚNY V DRUHOVÉM SLOŽENÍ KORÁLOVÝCH ÚTESŮ
ZASAŽENÝCH DISTURBANCÍ EL NINO
203
Anderson et al. (2011) Ecology Letters
RDA – PŘÍKLAD
VLIV ZÁSAHU NA KLÍČENÍ SEMENÁČŮ
David Zelený
RDA: počet semenáčů jednotlivých druhů v ploškách 10×10 cm jako závislá proměnná, zásah
jako vysvětlující proměnná; eig. 1. osy: 0,046, eig. 4. osy: 0,331, MC test 1. osy: p < 0,01
204
Špačková et al.(1998) Folia Geobotanica
CCA – PŘÍKLAD
ROZDÍL MEZI PRADÁVNÝMI A DRUHOTNÝMI LESY
David Zelený
Vojta (2007) Preslia
205
CCA – PŘÍKLAD
STANOVENÍ EKOLOGICKÉHO OPTIMA JEDNOTLIVÝCH
David Zelený
DRUHŮ MĚKKÝŠŮ PODÉL EKOLOGICKÝC GRADIENTŮ
206
Horsák et al. (2007) Acta Oecologica
David Zelený
ELLENBERGOVY INDIKAČNÍ HODNOTY
2
5
3 2 6 6
ELLENBERGOVY INDIKAČNÍ HODNOTY (EIH)

hodnoty na ordinální škále (1-9, případně 1-12 pro vlhkost)

optima stanovená na základě terénních pozorování, v některých
případech upřesněna experimentálně

hodnoty tabelované původně pro Německo, ale používané i v
okolních zemích, pro vzdálenější státy (Anglie, Itálie, Řecko) byly
tyto hodnoty překalibrovány, jinde (Maďarsko, Švýcarsko) se
používají alternativní hodnoty od jiných autorů (Borhidi, resp.
Landolt)

tabulky obsahují pouze údaje o druhových optimech, ne o
šířkách druhové niky

v případě, že nemám měřená data o proměnných prostředí,
průměrné EIH nabízejí ekologicky intuitivní odhad
stanovištních podmínek
optima druhů rostlin na gradientu živin, vlhkosti, půdní reakce,
kontinentality, teploty, světla a salinity (salinita se ve Střední
Evropě nepoužívá)
David Zelený

209
POUŽITÍ PRO KALIBRACI
David Zelený
1
2
3
6
7
7
4
7
5
3
2
1
2
3
1
0
1
0
1
0
1
0
1
0
0
0
1
0
1
1
0
1
1
1
0
1
0
1
1
0
0
1
0
1
0
1
0
Mycelis muralis
Moehringia trinervia
Mercurialis perennis
Lathyrus vernus
Myosotis sylvatica
Milium effusum
Melica nutans
Melampyrum pratense
Myosotis ramosissima
Lychnis viscaria
Melittis melissophyllum
EIV pro
půdní reakci
4.8
průměr
210
POUŽITÍ PRO KALIBRACI
David Zelený
1
2
3
6
7
7
4
7
5
3
2
1
2
3
1
0
1
0
1
0
1
0
1
0
0
0
1
0
1
1
0
1
1
1
0
1
0
1
1
0
0
1
0
1
0
1
0
průměrná
hodnota:
4.8
3.9
4.6
Mycelis muralis
Moehringia trinervia
Mercurialis perennis
Lathyrus vernus
Myosotis sylvatica
Milium effusum
Melica nutans
Melampyrum pratense
Myosotis ramosissima
Lychnis viscaria
Melittis melissophyllum
EIV pro
půdní reakci
211
PROČ SE EIH TVÁŘÍ JAKO LEPŠÍ PROMĚNNÉ
NEŽ MĚŘENÉ FAKTORY PROSTŘEDÍ?
díky způsobu jak jsou počítány, obsahují průměrné EIH informaci
o podobnosti v druhovém složení mezi vegetačními snímky

průměrná EIH pro daný vegetační snímek obsahuje dvojí
informaci:
1.
2.

vegetační snímky s úplně stejným druhovým složením budou mít
přesně stejné průměrné EIH – pro měřené faktory toto ale neplatí
malý rozdíl v druhovém složení mezi vegetačními snímky povede jen
k malému rozdílu v jejich průměrných EIH


David Zelený

ekologicky relevantní informaci o charakteru stanoviště, a to díky
použití tabelovaných druhových EIH, které jsou založeny na
empirických pozorování ekologických nároků druhů v terénu
informaci o podobnosti druhového složení daného snímku k
ostatním snímkům v datovém souboru, která je v nich „uložena“
díky způsobu, jak jsou průměrné EIH počítány
měřené faktory prostředí obsahují jen informaci o ekologickém
charakteru stanoviště, ne o podobnosti v druhovém složení
212
VÝPOČET PRŮMĚRNÝCH EIH
David Zelený
Empirická zkušenost
s ekologií druhů

průměrné
Ellenbergovy
indikační
hodnoty
H. Ellenberg
Data o druhovém
složení
průměrná EIH pro daný vegetační snímek obsahuje dvojí
informaci:
1.
2.
ekologicky relevantní informaci o charakteru stanoviště, a to
díky použití tabelovaných druhových EIH, které jsou založeny
na empirických pozorování ekologických nároků druhů v terénu
informaci o podobnosti druhového složení daného snímku k
ostatním snímkům v datovém souboru, která je v nich „uložena“
díky způsobu, jak jsou průměrné EIH počítány
213
David Zelený
s ekologií druhů

průměrné
Ellenbergovy
indikační
hodnoty
H. Ellenberg
Data o druhovém
složení
díky způsobu jak jsou počítány, obsahují průměrné EIH
informaci o podobnosti v druhovém složení mezi vegetačními
snímky
vegetační snímky s úplně stejným druhovým složením budou mít
přesně stejné průměrné EIH – pro měřené faktory toto ale neplatí
 malý rozdíl v druhovém složení mezi vegetačními snímky povede
jen k malému rozdílu v jejich průměrných EIH

214
David Zelený
s ekologií druhů
průměrné
Ellenbergovy
indikační
hodnoty
H. Ellenberg
Data o druhovém
složení
‼

problém nastává v okamžiku, kdy jsou průměrné EIH
analyzovány současně s daty o druhovém složení, ze kterých
jsou vypočteny
215
VYTVOŘENÍ PRŮMĚRNÝCH EIH, KTERÉ
NEOBSAHUJÍ EKOLOGICKOU INFORMACI
David Zelený
průměrné reálné EIH
pro půdní reakci:
průměrné znáhodněné EIH
pro půdní reakci:

průměrné reálné EIH – obsahují ekologicky relevantní
informaci a informaci o podobnosti v druhovém složení

průměrné znáhodněné EIH – obsahují pouze informaci o
podobnosti v druhovém složení (ekologicky relevantní
informace byla zničena promícháním druhových EIH mezi
druhy)
216
KORELACE PRŮMĚRNÝCH EIH SE SKÓRY
SNÍMKŮ NA OSÁCH DCA
David Zelený
Počet signifikantních korelací mezí osami
DCA a průměrnými znáhodněnými EIH
(šedé sloupečky) nebo náhodnými čísly
(bílé sloupečky) – 1000 opakování
průměrná EIH bude s velkou
pravděpodobností signifikantně
korelovaná s DCA, i když
neobsahuje ekologickou
informaci!
217
PRŮMĚRNÉ EIH V NEPŘÍMÉ ORDINACI
David Zelený
DCA2
R2
Porig
Pmodif
Světlo
0,477
0,879
0,600
< 0,001
0,004
Teplota
0,350
0,937
0,471
< 0,001
0,011
Kontinentalita
0,726
0,688
0,148
0,004
0,452
Vlhkost
-0,925
0,381
0,897
< 0,001
< 0,001
Živiny
-0,998
0,066
0,831
< 0,001
< 0,001
Půdní reakce
-0,653
0,757
0,429
< 0,001
0,032
DCA1
218
+
+
+
+
+
+
+ +
+ +
3
+
+
4
3
2
1
+
2
+
3.5
náhodná
čísla
5
++ + +
+
+
+
++
++
+ ++
+
+
+ ++
+
+ +++ +
++
+
++
+
+
++ +
+
+ + +
+
+
+
+
+
+
+
+ +
++ + +
+
+ +
+ +
+
+ +
++
+
+
++
+
průměrné
znáhodnéné EIH
+
+
++
průměrné reálné EIH
6
+
náhodná
čísla
+
+
měřené pH
+
++
[%]
Explained variability
variabilita
vysvětlená
[%]
Ellenberg
Mean
půdní reakci
proreaction
EIH
průměrná
5
7
4
David Zelený
POROVNÁNÍ MĚŘENÉHO PŮDNÍHO PH A
VYPOČTENÉ PRŮMĚRNÉ EIH PRO PŮDNÍ REAKCI
VYSVĚTLUJÍCÍ PROMĚNNÉ V CCA
0
4.0
4.5
měřené pH
Measured soil pH
5.0
real pH
měřené
pH
Ellenberg reaction
EIH pro půdní
reakci
Průměrná EIH pro půdní reakci vysvětlí víc variability než měřené
pH, i když obě proměnné jsou spolu těsně korelované
219
PRŮMĚRNÉ ELLENBERGOVY INDIKAČNÍ HODNOTY
PRAVIDLA POUŽITÍ

pokud jsou k dispozici relevantní měřené faktory prostředí, není
třeba používat zároveň i průměrné EIH jen proto, že je tak
snadné je vypočíst

průkaznost jejich vztahu s jinými proměnnými, které jsou
odvozeny ze stejných druhových dat, by měla být testována
modifikovaným permutačním testem, který bere v potaz
skutečnost, že testované proměnné na sobě nejsou nezávislé

průměrné EIH by neměly být bez dalšího statistického ošetření
srovnávány s analogickými měřenými faktory prostředí, protože
se oproti nim mohou neoprávněně jevit lepšími, než ve
skutečnosti jsou (například tím, že jsou lépe korelované nebo
častěji a více průkazné)
použití průměrných EIH v analýze spolu s jinými proměnnými
vypočtenými z těchto dat může vést k závěrům, které jsou
optimističtější, než by ve skutečnosti měly být
David Zelený

221
PŘÍKLADY NA POUŽÍTÍ PRŮMĚRNÝCH EIH
David Zelený
Použití na floristická data z NP Podyjí
– ekologické gradienty v krajině
(Chytrý et al. 1999, Preslia)
222
David Zelený
Ekologická
kalibrace
vegetačních
jednotek v přehledu
Vegetace ČR
(Chytrý [ed.] 2007)
223
David Zelený
ZOBECNĚNÉ LINEÁRNÍ MODELY
REGRESNÍ A KLASIFIKAČNÍ STROMY
REGRESE × KORELACE
David Zelený
Korelace
popis závislosti mezi dvěma proměnnými, bez znalosti
kauzálního vztahu

počítám: korelační koeficient (r), případně signifikanci
korelačního koeficientu (t-test)

Regrese

předpokládá kauzální vztah mezi vysvětlující (x) a vysvětlovanou
(y) proměnnou

jedná se o typ modelu – výběr nejlepší vysvětlující proměnné,
nejlepšího modelu, predikce vysvětlované proměnné

počítám: regresní koeficient (b = sklon regresní přímky),
koeficient determinace (R2), signifikanci regrese (t-test, ANOVA,
Monte-Carlo permutační test)
225
REGRESE × KORELACE
David Zelený
Ale:

většinou platí, že i když počítám korelaci, předpokládám (možná
jen podvědomě), že mezi proměnnými existuje nějaký kauzální
vztah – a tím se rozdíl mezi korelací a regresí stírají
Dvě situace:

vysvětlující proměnná (x) je měřená bez chyby (většinou proto,
že je kontrolovaná experimentálním designem)


použijeme regresi (korelace v tomto případě nemá smysl)
obě proměnné (x a y) jsou měřené s chybou (případ jak dat z
experimentů, tak z empirických pozorování)



záleží na tom, co od analýzy očekáváme
pokud je cílem vytvoření modelu nebo testování hypotéz, pak
použijeme regresi
pokud ne – použijeme korelaci
226
LINEÁRNÍ REGRESE
PŘEDPOKLADY
lineární model správně popisuje funkční vztah mezi vysvětlující
a vysvětlovanou proměnnou

vysvětlující proměnná je měřená přesně (bez náhodné složky)

3.
metoda nejmenších čtverců ale funguje i v případě, že vysvětlující
proměnná je měřená s chybou
každá hodnota vysvětlované proměnné (y) je nezávislá na
ostatních hodnotách y, náhodná složka vysvětlované proměnné
má normální rozdělení

4.
pokud je vztah nelineární a nepomůže transformace, je třeba
použít nelineární regresní model nebo zobecněný lineární model
2.
David Zelený
1.
zvláště pro data z observačních studií často neplatí pravidlo o
nezávislosti (a většinou ani nevíme, jak moc toto pravidlo neplatí)
variance vysvětlující proměnné je konstantní podél celé
regresní přímky (homoskedasticita)


transformace dat málokdy řeší oba problémy najednou –
ztransformovaná proměnná bude mít normální rozdělení, ale ne
konstantní varianci, a naopak
toto řeší metoda zobecněných lineárních modelů (GLM)
227
REGRESE
David Zelený
lineární model
yi = β0 + β1 xi + εi




yi ... hodnota vysvětlované (závislé) proměnné pro i-té
pozorování
xi ... hodnota vysvětlující (nezávislé) proměnné pro i-té
pozorování
β0 ... regresní koeficient, posun regresní přímky (intercept), udává
souřadnici průsečíku regresní přímky s osou y
β1 ... regresní koeficient, sklon regresní přímky (slope)
εi ... chyba

mnohonásobná regrese

regrese jedné vysvětlované proměnné na několika (j)
vysvětlujících proměnných
yi = β0 + Σj βj xij + εi
228
REGRESE
ZOBECNĚNÉ LINEÁRNÍ MODELY
umožňují modelovat vysvětlované proměnné s jiným než
normálním (Gaussovým) rozložením náhodné složky

počty jedinců – Poissonovo rozložení
presence/absence – binomické rozložení


David Zelený

(GLM)
zavádí tzv. link-funkci (η, theta), která překládá rozsah hodnot
vysvětlujících proměnných (pravá strana rovnice) na rozsah
hodnot vysvětlované proměnné (levá strana rovnice)
ηi = b0 + Σj bj xij

ηi ... lineární prediktor
yi = ŷi + εi

ŷi ... hodnota vysvětlované proměnné yi predikovaná modelem
-> platí g (ŷi) = ηi




g ... link funkce
Poissonovo rozložení – log link: η = log (ŷi)
Binomické rozložení – logit link: η = log [ŷi / (1–ŷi)]
Gaussovo rozložení – identity link: η = ŷi
229
REGRESSION AND CLASSIFICATION TREES,
David Zelený

CART
metoda podobná mnohonásobné regresi

jedna vysvětlovaná a několik vysvětlujících proměnných
má minimální předpoklady na charakter (rozložení) dat

explorativní analýza – slouží k popisu dat, ne k testování
hypotéz

vysvětlující proměnné mohou být kategoriální i kvantitativní

vysvětlovaná proměnná:

pokud je kategoriální – klasifikační strom
 pokud je kvantitativní – regresní strom

230
REGRESSION AND CLASSIFICATION TREES,
CART
David Zelený
FLUVISOL <> a
31.2 ; 71 obs; 35.8%
pH.H <> 4.23
28.63 ; 59 obs; 9.3%
COVERE32 <> 67.5
30.18 ; 17 obs; 3.4%
COVERE32 <> 87.5
33.65 ; 17 obs; 6.5%
pH.H <> 3.755
24.16 ; 25 obs; 2.8%
1
2
3
26.38
8 obs
33.56
9 obs
18.8
5 obs
6
7
39.57
7 obs
29.5
10 obs
8
9
49.17
6 obs
38.5
6 obs
ELEVATION <> 467.5
26.6 ; 42 obs; 5.7%
SOILDPT <> 36.585
43.83 ; 12 obs; 5.3%
SURFIS <> -0.5
25.5 ; 20 obs; 1.6%
4
5
21.6
5 obs
26.8
15 obs
Total deviance explained = 70.4 %
231
data o druhové bohatosti lesů na Vltavě v závislosti na měřených faktorech prostředí (Zelený, nepubl.)
David Zelený
INDEXY DIVERZITY
ALFA, BETA A GAMA DIVERZITA
Alfa diverzita

Beta diverzita (species turnover)
změna v druhovém složení mezi vzorky


druhová bohatost vzorku
Gama diverzita

celková druhová bohatost regionu
Jurasinski et al. (2009)

David Zelený

Robert Harding
Whittaker
(1920-1980)
234
David Zelený
ALFA, BETA A GAMA DIVERZITA
235
MÍRY ALFA DIVERZITY
DRUHOVÁ BOHATOST VS VYROVNANOST

vyrovnanost (evenness) vyjadřuje relativní zastoupení
jednotlivých druhů ve vzorku (nejvyšších hodnot dosahuje při
rovnoměrném relativním zastoupením všech druhů)

jednotlivé indexy alfa diverzity (např. Shannonův nebo
Simpsonův) se liší právě tím, jestli kladou větší důraz na
bohatost nebo vyrovnanost

alfa a gama diverzita se někdy označují jako inventární
diverzita (inventory diversity) – podstata je pro obě míry stejná
(vyjádřené počty druhů, případně indexem diverzity), liší se ale
škálou (alfa je diverzita na lokální škále, gama na regionální)

beta diverzita je výrazně odlišný koncept – jiná filozofie, jiné
jednotky
druhová bohatost (species richness) vyjadřuje počet druhů ve
vzorku
David Zelený

236
SHANNONŮV INDEX
David Zelený
H’ = - ∑ pi ln (pi)
pi ... relativní abundance druhu i
označovaný také jako Shannon-Wiener index (nesprávně jako ShannonWiever)

odvozen z informační teorie (entropie systému)

vyjadřuje nejistotu, se kterou jsem schopen předpovědět, jakého druhu bude
náhodně vybraný jedinec ze vzorku; nejistota klesá s klesajícím počtem druhů
a s klesající vyrovnaností (málo dominantních druhů)

hodnoty v ekologických datech většinou v rozmezí 1,5 – 3,5

maximální velikost indexu pro počet druhů S nastane, pokud mají všechny
druhy stejnou relativní abundanci:
H’max = ln (S)

počet druhů, které by se ve snímku vyskytovaly, pokud by se všechny druhy
vyskytovaly se stejnou frekvencí:
eH‘

vyrovnanost odvozená ze Shannonova indexu (Shannon’s evenness)
J = H’ / H’max = H’ / ln (S)

237
SIMPSONŮV INDEX (YULE INDEX)
David Zelený
D = ∑ pi2
SD = 1 – D nebo SD = 1/D
pi ... relativní abundance druhu i
vyjadřuje pravděpodobnost, že dva náhodně vybraní jedinci
budou patřit ke stejnému druhu

jeden z nejlepších (z hlediska interpretace) indexů diverzity

se zvyšující se diverzitou hodnota indexu klesá – proto se
častěji používá komplementární nebo reciproká forma indexu
(SD)

zdůrazňuje dominanci druhu (při počtu druhů > 10 záleží jeho
velikost prakticky už jen na dominanci druhů)

efektivní počet druhů: 1/(1-SD)

vyrovnanost odvozená ze Simpsona (Simpson’s evenness):
E = (1/D) / S

238
PŘÍKLAD – EFEKTIVNÍ POČET DRUHŮ
Simpson
efektivní
druhů
index
počet druhů
1122334455
5
0,81)
5,03)
Spol. 2:
1111112345
5
0,62)
2,54)
Spol. 1:
David Zelený
počet
Výpočet:
1)
1 – ∑ p2 = 1 - 5*(2/10) 2 = 1 – 5*0,04 = 1 – 0,2 = 0,8
2)
1 – ∑ p2 = 1 – ((6/10)2 + 4*(1/10)2) = 1 – (0,36 + 0,04) = 0,6
3)
1/(1-SD) = 1/(1-0,8) = 5
4)
1/(1-SD) = 1/(1-0,6) = 2,5
239
David Zelený

ad hoc doporučení:
nemá smysl počítat velké množství indexů alfa diverzity a
všechny je používat – vhodnější je rozhodnout se hned na
začátku, který z aspektů alfa diverzity (bohatost nebo
vyrovnanost) mě zajímá, a podle toho vybrat index
 nejjednodušší volba je použítí druhové bohatosti (počtu druhů)
 Simpsonův index je intuitivně interpretovatelný, naopak
interpretace Shannonova indexu je obtížná a je lépe ho
nepoužívat (i když je populární)


kde spočítat:
EstimateS (R. Colwell, http://viceroy.eeb.uconn.edu/estimates)
 BioDiversityPro (Neil McAleece,
http://www.sams.ac.uk/research/software/research/software/bdpro.zip)

240
MÍRY BETA DIVERZITY
David Zelený

popisuje rozdílnost v druhovém
složení mezi vzorky
Dva základní typy beta diverzity:
turnover (obrat druhů podél
ekologického, prostorového nebo
časového gradientu)
1.

Kolik nových druhů přibude a kolik
jich ubude, když se pohybuji podél
gradientu?
variation (variabilita v druhovém
složení mezi vzorky, bez ohledu na
směr nějakého gradientu)
2.


Opakují se v různých vzorcích pořád
ty samé druhy?
Jak moc celkový počet druhů v
regionu přesahuje průměrnou
druhovou bohatost vzorku?
241
Anderson et al. (2011)
KLASICKÉ INDEXY

Whittakerova beta diverzita (multiplikativní míra):
klasické indexy neberou v potaz druhové složení, ale jen počty
druhů na lokální (alfa) a regionální (beta) úrovni
David Zelený

βw = (γ / α’) - 1 α’ ... průměrná druhová bohatost vzorků
 kolikrát bohatost regionu přesahuje průměrnou bohatost vzorku

Additivní míra beta diverzity:
βAdd = γ – α‘
 průměrný počet druhů, které chybí v jednom náhodně vybraném
vzorku/ploše
 výhodou je, že jednotkami jsou počty druhů

Multiplikativní míra, která bere v potaz vyrovnanost:
βShannon = Hγ / Hα
 místo počtu druhů používá Shannonův index diverzity vypočtený pro
regionální a lokální druhovou bohatost
242
MNOHOROZMĚRNÉ INDEXY

používá indexy podobnosti (případně nepodobnosti) v
druhovém složení mezi páry vzorků/ploch



mnohorozměrné indexy pracují přímo s druhovým složením a
hledají rozdíly v druhovém složení dvou a více vzorků/ploch
David Zelený

Bray-Curtis, Jaccard, Sorensen, Euclidovská vzdálenost atd.
beta diverzita skupiny vzorků/ploch se spočte jako průměrná
hodnota těchto podobností
délka první osy DCA také vyjadřuje beta diverzitu (v
jednotkách s.d.)
243
David Zelený
Rozdíly v interpretaci beta diverzity založené na Bray-Curtis
indexu nepodobnosti a Euklidovské vzdálenosti
na příkladu rozdílu v druhovém složení korálových útesů
(Indonésie) v letech 1981, 1983 a 1985 (zásah El Nino v roce
1982)
 NMDS ordinace
Anderson et al. (2011)

244
David Zelený
Roleček et al. (2009) J. Veg. Sci.
245
INDEXY FUNKČNÍ DIVERZITY

druhová bohatost se často považuje za odhad funkční
diverzity, ale nepřesný – dva různé druhy mohou ve
společenstvu plnit stejnou funkci (mít stejnou kombinací
funkčních typů)

Rao index (Lepš et al. 2006 Preslia)
funkční diverzita – zohledňuje diverzitu funkčních typů
(functional traits), které se ve vzorku vyskytují
David Zelený

FD = ∑i ∑j dij pi pj
dij ... nepodobnost mezi druhem i a j
pi, pj ... relativní abundance druhu i a j

246
AKUMULAČNÍ DRUHOVÁ KŘIVKA
SPECIES ACCUMULATION CURVE

zvláštním typem je species-area curve (ale jen v případě, že plocha
narůstá v rámci určitého území, neplatí pro ostrovy)

čte se zlevo doprava

může být extrapolována (zvýší intenzita průzkumu celkový počet
nalezených druhů?)
vynáší kumulativní počet druhů (S) v závislosti na intenzitě vzorkování (n
– počet jedinců, počet ploch, čas)
David Zelený

247
RAREFAKČNÍ KŘIVKA
RAREFACTION CURVE

porovnání druhové bohatosti mezi společenstvy s různým počtem
jedinců/vzorků

čte se zprava doleva

rozdíl mezi sample based a individual based rarefaction
cílem je zjistit, jaká by byla druhová bohatost, pokud bychom v daném
společenstvu nasbírali menší počet jedinců/vzorků (to rarefy – rozředit)
David Zelený

248
Michalcová et al. (2011) Journal of Vegetation Science
SOFTWARE
(MIMO R, VE KTERÉM SPOČTETE VŠECHNO)
David Zelený

indexy alfa diverzity (Shannon, Simpson atd.) a beta diverzity
Biodiversity Pro (Neil McAleece, http://www.sams.ac.uk/research/software)
 EstimateS (Robert Colwell, http://viceroy.eeb.uconn.edu/estimates)
 PC-ORD 5
 JUICE


species accumulation curve a rarefaction
PC-ORD 5
 EstimateS (Robert Colwell,

http://viceroy.eeb.uconn.edu/estimates)
249

Keeley kuchaře

Transkript

Podobné dokumenty

Abstrakt česky

Fatka_Využití technologie 3D skenování - KO

PRODUCT DEVELOPMENT SPECIALIST – Big Data, Business