Konfirmační analýza dat
Transkript
Konfirmační analýza dat
ZPRACOVÁNÍ DAT V EKOLOGII SPOLEČENSTEV VÍT SYROVÁTKA OSNOVA PŘEDNÁŠKY o Příprava dat pro numerické analýzy • typy sbíraných dat, čištění dat, odlehlé body, transformace, standardizace, EDA o Ekologická podobnost • indexy podobnosti a vzdálenosti mezi vzorky o Ordinace • lineární vs. unimodální, přímá vs. nepřímá, artefakty, ordinační diagramy, permutační testy, rozklad variance, parciální analýza, příkladové studie o Klasifikace • hierarchická vs. nehierarchická, aglomerativní vs. divisivní, řízená vs. neřízená o Použití druhových atributů v analýzách • funkční vlastnosti druhů (traits) vs. Ellenbergovy indikační hodnoty, vážený průměr, čtvrtý roh o Indexy druhové bohatosti • alfa, beta a gama diverzita, akumulační druhová křivka, rarefaction o Design ekologických experimentů • manipulativní experimenty vs. přírodní experimenty (pozorování) o Případové studie na použití jednotlivých metod 2 SOFTWARE o CANOCO 5 – ordinační analýzy, diagramy, odpovědní křivky druhů o PC-ORD 5 – klasifikace (ordinační analýzy), analýza indikátorových druhů, analýza odlehlých bodů o STATISTICA 12 – korelace, ANOVA, regresní analýzy, klasifikace, ordinace o R – vše, zadarmo + kvalitní grafika Kde co sehnat: • • • R – https://cran.r-project.org/bin/windows/ CANOCO 5 a PC-ORD 5 – instalace z webových stránek předmětu (http://vitsyrovatka.info/doku.php?id=zpradat:cs:software) STATISTICA – licenci je třeba získat po přihlášení na https://inet.muni.cz/app/soft/licence 3 LITERATURA Starší, ale doporučená o Lepš J. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat • v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako Multivariate Analysis of Ecological Data using CANOCO 5 (v roce 2014 vyšlo druhé vydání pro CANOCO 5) o Herben T. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o druhovém složení Pro zapálené o Zuur A.F., Ieno E.N & Smith G.M. (2007) Analysing Ecological Data. Springer o Gotelli N.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates. o Oksanen J. (2004) Multivariate Analysis in Ecology, Lecture Notes. • http://cc.oulu.fi/~jarioksa/opetus/metodi/notes.pdf o Palmer M. – Ordination methods for ecologists, website • http://ordination.okstate.edu/ o Legendre P. & Legendre L. (2012) Numerical Ecology (Third English Edition). Elsevier. R friendly o Borcard D., Gillet F. & Legendre P. (2011) Numerical Ecology with R. Springer. 4 DALŠÍ INFORMACE o Webové stránky předmětu: ve výstavbě, budu je postupně tvořit a doplňovat: http://vitsyrovatka.info/doku.php?id=zpradat:cs:start o Prozatím je možné využít pěkných stránek Davida Zeleného, který učil předmět do loňského roku: www.bit.ly/ZpraDat • • přednášky, software, příklady ke cvičení, studijní materiály některé sekce vyžadují přihlášení o Cvičení • • • probíhat bude v počítačové učebně blokově v dohodnutých termínech a zaměřené bude na analýzu dat a jejich vizualizaci v programu CANOCO 5 tři čtyřhodinové bloky v případě zájmu o program R je možné (v liché roky) zapsat si souběžně předmět Analýza dat v ekologii společenstev v programu R (Bi7550) o Domácí úkol • zadání bude sděleno v průběhu semestru o Zkouška • • vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce Závěrečná práce) zhruba půlhodinová diskuze nad závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané látky 5 TYPY SBÍRANÝCH DAT EDA ÚPRAVA DAT PRO ANALÝZU DATA V EKOLOGII SPOLEČENSTEV Společenstvo je soubor druhů, které se vyskytují společně v prostoru a v čase. (Begon 2007) o společenstvo je studovaná (závislá) „proměnná“ (response variable) o společenstvo je vícerozměrná „proměnná“ – zaznamenána v matici (data matrix) o každý druh - jeho přítomnost nebo kvantita - představuje jeden rozměr společenstva o zaznamenaný vzorek společenstva je reprezentativní pro určitou plochu a daný čas (závislá, vícerozměná proměnná nemusí nutně být tvořena druhy: mohou to být např. proměnné prostředí, vlastnosti druhů, atd.) o prediktory (nezávislé proměnné) popisují najčastěji prostředí, zkoumáme jejich efekt na strukturu společenstva 7 USPOŘÁDÁNÍ DAT 1. druhová tabulka (matice) • abundance, pokryvnosti, prezence/absence druhů 2. proměnné prostředí • hodnoty naměřených proměnných prostředí 3. (geografické proměnné) • souřadnice lokalit 4. (popisné proměnné) • další proměnné popisující vzorkovací schéma, např. studovaná oblast, determinátor organismů, vzorkující, datum/období odběru... 8 TYPY PROMĚNNÝCH o Kategoriální (kvalitativní, nominální, prezenčně-absenční) • • • • např. substrát, půdní typy, geografická oblast binární proměnné (přítomnost-absence druhu) kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) kategorie nelze smysluplně seřadit o Ordinální (semikvantitativní) • např. Ellenbergovy indikační hodnoty pro druhy, Braun-Blanquetova stupnice pro odhad pokryvnosti druhů • jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi sousedními stupni jsou různě velké o Kvantitativní • diskrétní (počty jedinců, měření s malou přesností), rozdíly mezi susedními stupni jsou stejně velké • kontinuální (přesná měření) 9 ALTERNATIVNÍ DĚLENÍ PROMĚNNÝCH Typ proměnné Příklady binární (dvoustavová, 1/0) přítomnost nebo absence druhu, pohlaví mnohostavová neseřazená (nominální) typ substrátu seřazená semikvantitativní (ordinální) stupnice pokryvností druhů kvantitativní (měření) diskontinuální (počty, diskrétní) počet jedinců kontinuální teplota, hloubka půdy relativní stupnice (relative-scale) x intervalová stupnice (interval-scale) abundance, rychlost proudu °C, směr větru, datum Legendre & Legendre 2012 10 KVANTITATIVNÍ VS. SEMIKVANTITATIVNÍ o o o o kvantitativní sice přesnější ale semikvantitativní rychlejší a levnější trade-off mezi počtem vzorků a přesností semikvantitativní často postačující 11 PRIMÁRNÍ DATA - SBĚR 12 PRIMÁRNÍ DATA – PŘEPIS o tabulkový editor (spreadsheet) • např. Microsoft Excel o přepisujeme co nejdřív • • • • zachycení chybějících dat v poznámkách se snáz orientujeme, po čase přestanou být srozumitelné dvě kopie je obtížnější ztratit nebo zničit přítomnost dat v počítači podpoří jejich rychlé zpracování o metadata – data o datech • • • • • • jméno studie kdo a kde data sbíral, za jakým účelem popis experimentálních jednotek, objektů metodika sběru dat a měření (velmi oceníme při psaní práce) popis proměnných, jednotky popisy zkratek 13 PRIMÁRNÍ DATA – SPREADSHEET o v řádcích studované objekty • vzorky o v sloupcích proměnné, kterými objekty charakterizujeme • druhy, proměnné prostředí vysvětlivky k proměnným 14 ZÁLOHA DAT o Uchování a zpřístupnění primárních dat • • • problematika dlouhodobé archivace a nosičů dat (nejlepší je stále papír bez volných kyselin + laserová tiskárna) zpřístupnění primárních dat (některé časopisy, např. Ecological Monographs, Journal of Ecology aj., to mají jako podmínku zveřejnění článku) uložení dat ve veřejně dostupných elektronických repositoriích (např. Dryad Digital Repository, www.datadryad.org) nebo databázích (např. Česká Národní Fytocenologická Databáze) 15 KONTROLA DAT o chyby (errors) • o někdy se chovají jako odlehlé body, je třeba zkontrolovat původní záznam a případně data opravit chybějící data (missing data, NA) • • o možnosti jejich nahrazení (interpolace, model) vyloučení proměnné nebo vzorku který má hodně chybějících hodnot odlehlé body (outliers) • o EDA – exploratory data analysis další úpravy: • • • sjednocení taxonomické nomenklatury taxonomická adjustace někdy i vyloučení vzácných druhů (odstranění šumu v datech) 16 KONFIRMAČNÍ VS. EXPLORAČNÍ ANALÝZA DAT (hypothesis-driven vs data-driven science) Konfirmační analýza dat (confirmatory data analysis, CDA) o testuje hypotézy a generuje odhady parametrů o např. regrese, ANOVA, testy signifikance Explorační analýza dat (exploratory data analysis, EDA) o průzkum dat a hledání hypotéz, které stojí za to testovat pomocí experimentů s dalšího sběru dat o slouží také k tzv. „vytěžování“ dat (data mining, data dredging) o grafická EDA slouží k • • • • odhalení odlehlých bodů (outliers) prozkoumání rozložení hodnot (střední hodnota, rozsah, tvar) posouzení nutnosti transformace odhalení vztahů mezi proměnnými John Tukey (1915-2000) 17 DATA EXPLORATION o měla by zabrat 20% celkového času studie Proč EDA: o odhalení odlehlých bodů (outliers) o prozkoumání rozložení hodnot • • • střední hodnota rozsah tvar rozložení (normalita, bimodalita, sešikmenost) o odhalení vztahů mezi proměnnými o posouzení nutnosti transformace 18 KRABICOVÝ GRAF (BOXPLOT) outlier (hodnota je vyšší než horní kvartil + 1.5 x interkvartilový rozsah, 100 někdy ještě (STATISTICA) * – kvartil + 3 x interkvartilový rozsah) maximální hodnota 50 Q3 – horní kvartil Q2 - medián Q1 – spodní kvartil 0 abundance Laeonereis acuta 150 Laeonereis acuta data ze Zuur et al. 2007 minimální hodnota 19 50 100 150 0 50 100 150 Laeonereis acuta 5 10 15 20 25 0 0 Frequency HISTOGRAM Laeonereis acuta 20 KONDICIONÁLNÍ BOXPLOT 50 100 zde outlier už není outlier 0 abundance Laeonereis acuta 150 Laeonereis acuta 1 2 Transekt 3 21 DOTCHART – CLEVELAND DOTPLOT 1 2 3 4 vzorky 0 50 100 Laeonereis acuta 150 22 KONDICIONÁLNÍ DOTCHART HODNOTY ZOBRAZENY VE SKUPINÁCH 1 2 Transekt 3 outlier, potenciální chybné měření 0 50 100 Laeonereis acuta 150 23 BODOVÝ GRAF (SCATTER PLOT) A. outlier z hlediska vztahu Y a X Y B A B. outlier z hlediska rozložení hodnot X i Y C. outlier z hlediska rozložení hodnot i vztahu Y a X C X 24 BODOVÝ GRAF (SCATTER PLOT) o dramatický vliv outlierů na výsledky analýz A C 25 400 300 200 Prec_anual 500 600 BODOVÝ GRAF (SCATTER PLOT) -6 -4 -2 0 2 T_anual data z Altaje, Chytrý et al., in prep. 26 PÁROVÝ GRAF (PAIR PLOT) 60 80 -26 -24 -22 -20 600 40 Prec_wetM 0.9 -6 -4 -2 0 0.4 0.6 0.5 -26 1.0 T_min.cold ALTITUDE 200 400 -0.5 600 -1.0 -0.9 -6 -4 -2 0 2 1500 -0.7 500 -22 0.5 2 T_anual 2500 40 60 80 200 400 Prec_anual 500 1500 2500 27 400 300 200 Prec_anual 500 600 BODOVÝ GRAF (SCATTER PLOT) -6 -4 -2 T_anual 0 2 28 COPLOT – KONDICIONÁLNÍ BODOVÝ GRAF Given : Prec_anual 0 2 -6 -4 -2 0 500 2 -6 -4 -2 0 2 Open Forest Mire 20 40 60 80 Given : gr -2 400 20 40 60 80 -4 300 20 40 60 80 richness cévnatých rostlin Druhová bohatost -6 200 -6 -4 -2 0 2 -6 -4 -2 0 2 -6 -4 -2 0 2 T_anual 29 CO S OUTLIERY? o automatické odstranění z datasetu – špatně! o odstranění pouze když: • data chybně zaznamenána • nespadají do zamýšleného studovaného prostoru (sample space), např. v důsledku havárie čističky nad lokalitou, nebo louka rozježděna čtyřkolkami o některé body se jeví jako outliery jen proto, že je nutíme do normálního rozložení • extrémy v datech z log-normálního nebo exponenciálního rozložení po transformaci krásně zapadnou mezi ostatní 30 TRANSFORMACE – CO TO JE? o matematická funkce použitá na všechny původní hodnoty: Y* = f(Y) • f() – kontinuální, monotónická, většinou jednoduchá funkce o nemění pořadí hodnot o mění relativní rozestupy mezi hodnotami a tudíž i varianci a tvar rozložení o pořadí hodnot zůstane zachováno (transformace nemá vliv na neparametrické testy) o např. odmocnina, logaritmus 4 6 x2 8 10 2 1 0 -1 -2 -3 -4 x^0.5 2 ln(x) 80 x^2 60 40 20 0 0 ln(x) 0.0 0.5 1.0 1.5 2.0 2.5 3.0 x^0.5 100 x^2 0 2 4 6 x2 8 10 0 2 4 6 x2 8 10 31