Vícerozměrné statistické metody

Transkript

Vícerozměrné statistické metody
Vícerozměrné statistické metody
Shluková analýza
Jiří Jarkovský, Simona Littnerová
FSTA: Pokročilé statistické metody
Typy shlukových analýz
Shluková analýza: cíle a postupy •
Shluková analýza se snaží o identifikaci shluků objektů ve vícerozměrném prostoru a následnou redukce vícedimenzionálního problému kategorizací objektů do zjištěných shluků
•
Existuje řada různých metod pro shlukování dat lišících se:
• Měřením vzdálenosti mezi objekty
• Algoritmem spojování objektů do shluků • Interpretací výstupů
Každá z metod má své vlastní předpoklady výpočtu a je nasaditelná
pro různé typy úloh
Porušení předpokladů nebo nasazení chybné metody může vést k zavádějícím výsledkům
•
15
D
14
E
13
12
11
C
10
Dimenze 2
•
16
9
B
8
7
6
5
A
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Dimenze 1
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
3
Obecný princip hledání shluků v datech
•
•
•
Vzájemnou pozici objektů ve vícerozměrném prostoru lze popsat jejich vzdáleností
Dle vzdálenosti objektů je můžeme slučovat do shluků a přiřazení objektů ke shlukům ve vícerozměrném prostoru následně využít pro zjednodušení jejich x‐
dimenzionálního popisu Smysluplnost výsledků shlukování závisí jednak na objektivní existenci shluků v datech, jednak na arbitrárně nastavených kritériích definice shluků Jednoznačné odlišení existujících shluků v datech (obdoba multimodálního rozložení)
Shluková analýza je možná i v tomto případě, nicméně hranice shluků jsou dány pouze naším rozhodnutím.
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
4
Identifikace optimálního počtu shluků
Cílem analýzy může být jednak zjistit vazby mezi objekty (dostatečným výstupem je dendrogram) nebo identifikovat v datech shluky, které budou využity v další analýze jako zjednodušení vícedimenzionálního problému
Identifikace shluků ve výsledcích shlukové analýzy:
•
•
– Expertní/intuitivní – hranice oddělení shluků je určena podle zkušeností analytika a praktického významu výstupu
– Matematické metody (analýza mezishlukových/vnitroshlukových vzdáleností; silhouette
metoda aj.) fungují dobře v případě existence přirozených shluků
– V některých případech (při neexistenci přirozených shluků) je rozdělení souboru pouze arbitrární
Jednoznačný řez na více vzdálenostech
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VERSICOL
VIRGINIC
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
Jediný identifikovatelný řez, navíc na malé vzdálenosti
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
6.5
7.0
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
6.5
7.0
5
Identifikace optimálního počtu shluků
Mezi shlukovou analýzou a pozicí objektů ve vícerozměrném prostoru existuje vztah
•
Jednoznačný řez na více vzdálenostech
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VIRGINIC
VERSICOL
VIRGINIC
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
VERSICOL
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
Jediný identifikovatelný řez, navíc na malé vzdálenosti
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
SETOSA
6.5
7.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
6.5
7.0
SEPALLEN
SEPALLEN
SEPALWID
SEPALWID
PETALLEN
PETALLEN
PETALWID
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
PETALWID
6
Shluková analýza: typy metod
Shluková analýza
Hierarchické
shluky jsou definovány postupným skládáním objektů
Divizivní
Objekty jsou nejprve rozděleny do dvou shluků, tyto shluky jsou dále rozděleny atd.
Nehierarchické
Shluky jsou definovány v jednom kroku
Aglomerativní
Po spojení první dvojice objektů dochází k postupnému napojování dalších objektů.
Divizivní
Objekty jsou rozděleny do předem nastaveného počtu shluků.
Aglomerativní
síť spojených bodů
1. Krok
Kolik shluků chceme definovat? Například 4
Minimum spanning tree, Prim network
2. Krok
X. Krok
Atd.
Atd.
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Výpočet ukončen
Výpočet ukončen
7
FSTA: Pokročilé statistické metody
Hierarchické aglomerativní shlukování
Hierarchické aglomerativní shlukování
•
•
Při tomto způsobu shlukování jsou postupně shlukovány nejpodobnější objekty až do doby, kdy jsou všechny objekty propojeny do jednoho shluku spojujícího všechny objekty v analyzovaném souboru Analýza má dva hlavní kroky
– Výběr vhodné metriky vzdálenosti/podobnosti pro výpočet asociační matice (analýza může probíhat na libovolných metrikách vzdálenosti/podobnosti)
– Výběr shlukovacího algoritmu, který podstatným způsobem ovlivňuje výsledky analýzy a možnosti její interpretace
•
Algoritmus výpočtu postupuje v následujícím cyklu
– Výpočet asociační matice
– Spojení dvou nejpodobnějších objektů
– Přepočítání asociační matice tak, že spojené objekty již nadále vystupují jako jediný objekt (v tomto kroku se uplatňuje zvolený shlukovací algoritmus, který definuje jak bude počítána vzdálenost/podobnost spojených objektů vůči ostatním objektům) – Spojení dvou nejpodobnějších objektů z přepočítané asociační matice
– Atd. až do spojení všech objektů Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
9
Hierarchické aglomerativní shlukování: schéma výpočtu
Výběr metriky podobnosti/vzdálenosti
Ukončení výpočtu po spojení všech objektů
Dendrogram A
B
Asociační matice
C
D
E
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14
Linkage Distance
Amalgamation schedule/graph
Výběr shlukovacího algoritmu
Nalezení dvojice nejpodobnějších objektů
14
12
Linkage Distance
Výpočet podobnosti sloučené dvojice objektů k ostatním objektům
10
8
6
4
2
0
0
1
2
3
4
5
Step
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
10
Popis výstupů: dendrogram
Tree Diagram for 5 Cases
Complete Linkage
Euclidean distances
Výstupy shlukové analýzy musí být vždy popsány použitou metrikou vzdáleností a shlukovacím algoritmem
A
Shlukované objekty, jejich pořadí je dáno přiřazením do shluků, není problém jejich pořadí v grafu měnit (např. v tomto konkrétním grafu prohodit A a B), pouze nesmí dojít ke změně shluků
B
Propojení shlukovaných objektů
C
D
E
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14
Linkage Distance
Vzdálenost na níž došlo ke spojení shluku:
• je v rozměrech použité metriky vzdáleností/podobností a v tomto kontextu ji lze kvantitativně interpretovat
• interpretace vzdálenosti shlukování se liší podle použitého shlukovacího algoritmu
• někdy se uvádí ve škále 0‐100%, kde 100% je maximální vzdálenost shlukování Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
11
Popis výstupů: Amalgamation schedule/graph
Popis postupu shlukování
Využitelné pro identifikaci optimálního počtu shluků
•
•
Objekty spojené v jednotlivých krocích shlukování
14
Grafické vyjádření kroků shlukování a vzdálenosti na nichž došlo k propojení objektů
Linkage Distance
12
10
8
6
4
2
0
0
1
2
3
4
5
Pokud je v grafu dlouhá vzdálenost bez napojení shluku, jde o možné místo zastavení shlukování a definici finálních shluků
Step
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
12
Shlukovací algoritmy hierarchického aglomerativního
shlukování I
•
Metoda nejbližšího souseda (nearest neighbour, simple linkage) –
spojení dle nejmenší vzdálenosti mezi objekty shluků
•
Průměrná vzdálenost (pair group average) – spojení dle průměrné vzdálenosti mezi objekty shluků
–
–
•
Středospojná vzdálenost (pair group centroid) – spojení dle vzdálenosti centroidů shluků
–
–
•
Vážená (weighted) – odstranění vlivu velikosti shluků, shluky bez ohledu na velikost přispívají k výpočtu spojovací vzdálenosti stejnou vahou
Nevážená (unweighted) – výpočet spojovací vzdálenosti je ovlivněn velikostí spojovaných shluků
Vážená (weighted) – odstranění vlivu velikosti shluků, shluky bez ohledu na velikost přispívají k výpočtu spojovací vzdálenosti stejnou vahou
Nevážená (unweighted) – výpočet spojovací vzdálenosti je ovlivněn velikostí spojovaných shluků
Metoda nejvzdálenějšího souseda (farthest neigbour, complete linkage) – spojení dle největší vzdálenosti mezi objekty shluků
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
13
Shlukovací algoritmy hierarchického aglomerativního
shlukování II
•
Metoda nejbližšího souseda (nearest neighbour, simple linkage) – spojení dle nejmenší vzdálenosti mezi objekty shluků – vede na nejvíce zřetězené dendrogramy
•
Průměrná vzdálenost (pair group average) – spojení dle průměrné vzdálenosti mezi objekty shluků
•
Středospojná vzdálenost (pair group centroid) – spojení dle vzdálenosti centroidů shluků
•
Metoda nejvzdálenějšího souseda (farthest neigbour, complete
linkage) – spojení dle největší vzdálenosti mezi objekty shluků –
vede na dendrogramy s dobře oddělenými shluky
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Přechod mezi oběma extrémy (metoda flexible
clustering umožňuje dle nastavení zcela plynulý přechod)
14
Shlukovací algoritmy hierarchického aglomerativního
shlukování III: Wardova metoda
•
•
•
•
•
Principielně podobné ANOVA
Shluky jsou vytvářeny tak aby nově vzniklý shluk přispíval co nejméně k sumě čtverců vzdáleností objektů od centroidů jejich shluků
V počátečním kroku je každý objekt sám sobě shlukem a tedy vzdálenost od centroidu shluku je 0
Pro výpočet vzdáleností od centroidu je používána Euklidovská vzdálenost
Pro popis vzdálenosti shlukování je v dendrogramu
možné použít řadu postupů (nezbytné ověřit jaký přístup je k dispozici v použitém SW):
– Čtverce vzdáleností
– Odmocnina čtverce vzdáleností
– Podíl variability (čtverce vzdáleností) připadající na daný shluk
– Aj.
Krok 1: každý objekt je sám sobě centroidem
Krok 2: spojení objektů, které nejméně přispějí k sumě čtverců vzdáleností od centroidu
Krok 3: spojení objektů, které nejméně přispějí k sumě čtverců vzdáleností od centroidu
Krok 3: stejný postup až do spojení všech objektů
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
15
FSTA: Pokročilé statistické metody
Hierarchické aglomerativní shlukování:
Příklad výpočtu metody nejbližšího souseda
Metoda nejbližšího souseda: 1. krok výpočtu
Je vypočtena asociační matice
•
16
B
C
D
E
15
A
0.0
4.0
7.2
12.8
12.7
14
B
4.0
0.0
4.5
10.0
10.3
13
C
7.2
4.5
0.0
5.7
5.8
D
12.8
10.0
5.7
0.0
1.4
E
12.7
10.3
5.8
1.4
0.0
Je definován shluk dvou nejbližších objektů
D‐E
D
1
E
12
11
C
10
Dimenze 2
•
A
9
B
8
7
6
5
A
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Dimenze 1
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
17
Metoda nejbližšího souseda: 2. krok výpočtu
Je vypočtena asociační matice, kde objekty D‐E již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána nejmenší vzdáleností od jeho členů (D, E)
•
A
B
C
D+E
16
A
0.0
4.0
7.2
12.7
15
B
4.0
0.0
4.5
10.0
14
C
7.2
4.5
0.0
5.7
D+E
12.7
10.0
5.7
0.0
D
1
13
12
11
C
Je definován shluk dvou nejbližších objektů
A‐B
Dimenze 2
10
•
E
9
B
8
7
2
6
5
A
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Dimenze 1
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
18
Metoda nejbližšího souseda: 3. krok výpočtu
•
Je vypočtena asociační matice, kde objekty A‐B již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána nejmenší vzdáleností od jeho členů (A, B)
A+B
C
D+E
A+B
0.0
4.5
10.0
C
4.5
0.0
5.7
D+E
10.0
5.7
0.0
16
15
D
14
1
13
E
12
11
C
•
Je definován shluk dvou nejbližších objektů
(A‐B)‐C
Dimenze 2
10
3
9
B
8
7
2
6
5
A
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Dimenze 1
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
19
Metoda nejbližšího souseda: 4. krok výpočtu
•
Je vypočtena asociační matice, kde objekty (A‐B)‐C již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána nejmenší vzdáleností od jeho členů (A, B, C)
A+B+C
D+E
A+B+C
0.0
5.7
D+E
5.7
0.0
16
15
D
14
13
1
4
12
E
11
C
•
Je definován shluk dvou nejbližších objektů
((A‐B)‐C)‐(D‐E)
Dimenze 2
10
3
9
B
8
7
2
6
5
•
Všechny objekty jsou spojeny, algoritmus je ukončen
A
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Dimenze 1
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
20
Metoda nejbližšího souseda: výsledek analýzy
•
Výsledek analýzy je vizualizován ve formě dendrogramu
16
Tree Diagram for 5 Cases
Single Linkage
Euclidean distances
15
D
14
13
4
12
A
1
E
11
C
Dimenze 2
10
B
C
3
9
B
8
7
2
6
5
D
A
4
3
E
2
1
0
0
1
2
3
4
5
6
0
Linkage Distance
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Dimenze 1
21
FSTA: Pokročilé statistické metody
Hierarchické aglomerativní shlukování:
Příklad výpočtu metody nejvzdálenějšího souseda
Metoda nejvzdálenějšího souseda: 1. krok výpočtu
Je vypočtena asociační matice
•
16
B
C
D
E
15
A
0.0
4.0
7.2
12.8
12.7
14
B
4.0
0.0
4.5
10.0
10.3
13
C
7.2
4.5
0.0
5.7
5.8
D
12.8
10.0
5.7
0.0
1.4
E
12.7
10.3
5.8
1.4
0.0
Je definován shluk dvou nejbližších objektů
D‐E
D
1
E
12
11
C
10
Dimenze 2
•
A
9
B
8
7
6
5
A
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Dimenze 1
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
23
Metoda nejvzdálenějšího souseda: 2. krok výpočtu
Je vypočtena asociační matice, kde objekty D‐E již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána největší vzdáleností od jeho členů (D, E)
•
A
B
A
B
C
D+E
16
0.0
4.0
7.2
12.8
15
4.0
0.0
4.5
D
14
10.3
1
13
C
7.2
4.5
0.0
5.8
D+E
12.8
10.3
5.8
0.0
12
11
C
Je definován shluk dvou nejbližších objektů
A‐B
Dimenze 2
10
•
E
9
B
8
7
2
6
5
A
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Dimenze 1
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
24
Metoda nejvzdálenějšího souseda: 3. krok výpočtu
Je vypočtena asociační matice, kde objekty A‐B již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána největší vzdáleností od jeho členů (A, B)
•
A+B
C
A+B
C
D+E
16
0.0
7.2
12.8
15
7.2
D+E
0.0
D
14
5.8
1
13
12.8
5.8
0.0
12
11
Dimenze 2
Je definován shluk dvou nejbližších objektů
(D‐E)‐C
3
C
10
•
E
9
B
8
7
2
6
5
A
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Dimenze 1
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
25
Metoda nejvzdálenějšího souseda: 4. krok výpočtu
•
Je vypočtena asociační matice, kde objekty (D‐E)‐C již vystupují jako jeden objekt, jehož vzdálenost od ostatních objektů je dána největší vzdáleností od jeho členů (D, E, C)
A+B
D+E+C
16
A+B
0.0
12.8
15
D+E+C
12.8
0.0
14
D
1
13
E
12
11
Je definován shluk dvou nejbližších objektů
((D‐E)‐C)‐(A‐B)
Dimenze 2
•
3
C
10
9
B
8
7
4
2
6
5
•
Všechny objekty jsou spojeny, algoritmus je ukončen
A
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Dimenze 1
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
26
Metoda nejvzdálenějšího souseda: výsledek analýzy
Výsledek analýzy je vizualizován ve formě dendrogramu
•
16
Tree Diagram for 5 Cases
Complete Linkage
Euclidean distances
15
D
14
1
13
E
12
A
11
Dimenze 2
B
C
3
C
10
9
B
8
7
4
2
6
5
D
A
4
3
E
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14
0
Linkage Distance
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
Dimenze 1
27
Metoda nejbližšího a nejvzdálenějšího souseda: interpretace výsledků
Metoda nejbližšího souseda
A
Metoda nejvzdálenějšího souseda
A
B
Rozdílné zařazení objektu C
B
C
C
D
D
E
E
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14
Linkage Distance
Vzdálenost na níž došlo ke spojení shluku:
• u metody nejbližšího souseda znamená nejmenší vzdálenost objektů shluku, tedy ve shluku mohou existovat objekty s větší vzdáleností
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14
Linkage Distance
Vzdálenost na níž došlo ke spojení shluku:
• u metody nejvzdálenějšího souseda znamená největší vzdálenost objektů shluku, tedy objekty ve shluku už mohou být k sobě pouze blíže nebo stejně než je tato vzdálenost 28
FSTA: Pokročilé statistické metody
Hierarchické divizivní shlukování
Hierarchické divizivní shlukování: postup
•
Hierarchická divizivní shlukování fungují na principu výpočtu ordinační analýzy a dělení objektů podle os ordinačního prostoru, tedy dle směrů největší variability v datech
•
Shlukování může být zastaveno po rozdělení všech objektů do shluků, po předem daném počtu kroků nebo po dosažení kritéria minimálního rozdílu mezi shluky
Typickým příkladem je metoda TWINSPAN používaná v analýzách biologických společenstev
•
Obecný postup hierarchického divizivního shlukování
1. Krok
2. Krok
X. Krok
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
Atd.
30
FSTA: Pokročilé statistické metody
Nehierarchické aglomerativní shlukování
Nehierarchické aglomerativní shlukování: postup
•
•
•
•
Do této skupiny lze zařadit metody hledající nejkratší spojnici mezi objekty ve vícerozměrném prostoru (i když lze vznést námitky proti nazývání těchto metod nehierarchickými)
Metody hledají v asociační matici (prvním krokem je tak vždy výběr vhodné metriky vzdáleností/ podobností) propojení všech objektů s nejmenší sumou vzdáleností mezi propojenými objekty
Na rozdíl od klasického hierarchického aglomerativního shlukování může být na jeden objekt napojeno několik dalších objektů
Minimum spanning tree (Prim network)
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
32
FSTA: Pokročilé statistické metody
Nehierarchické divizivní shlukování
Nehierarchické divizivní shlukování: postup
•
•
•
•
•
•
Nejběžnější metodu je tzv. k‐means clustering
Metoda zařazuje objekty do shluků na principu ANOVA, analogií je Wardova metoda shlukování v hierarchickém aglomerativním shlukování
Počet shluků je předem definován, výběr nejvhodnějšího počtu shluků je prováděn buď expertně nebo pomocí matematických metod výběru optimálního počtu shluků (analýza vnitro a mezishlukových vzdáleností) V prvním kroku je určeno k objektů jako počáteční středy shluků (výběr může být náhodný, daný uživatelem nebo maximalizující počáteční vzdálenosti k objektů)
Následně jsou objekty zařazeny do k shluků tak, aby byla minimalizována suma čtverců vzdáleností objektů k centroidům jejich shluků Výpočet vzdáleností probíhá na bázi Euklidovské vzdálenosti, pro k‐means clustering na jiné metrice vzdálenosti/podobnosti je nezbytná kombinace s jinými metodami
K‐means k=2
K‐means k=3
Analýza vždy nalezne zadaný počet shluků, i když výsledek nemusí být vždy prakticky smysluplný
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
34
Příprava nových učebních materiálů pro obor Matematická biologie
je podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 „VÍCEOBOROVÁ INOVACE STUDIA
MATEMATICKÉ BIOLOGIE“
Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody
35

Podobné dokumenty

Vícerozměrné statistické metody

Vícerozměrné statistické metody IRISTYPE: SETOSA IRISTYPE: VERSICOL IRISTYPE: VIRGINIC

Více

Vícerozměrné statistické metody

Vícerozměrné statistické metody 15.2.2011 Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi  22.2.2011 Podobnosti a vzdálenosti ve vícerozměrném prostoru, asociační matice I 1.3.2011 Podobnosti a vzdálenost...

Více

Full text

Full text Obr. 1: a) Obraz původního nosiče s biofilmem, b) Detekovaný biofilm, c) Vizualizace vyjadřující objemový efekt a označení koeficientů tloušťky jednotlivých vrstev Prvním krokem je rozčlenění (segm...

Více

Stáhnout učebnici

Stáhnout učebnici • jednoduchá vizualizace dat, kdy se v jediném grafu skrývá informace např. z 20 proměnných; • umožnění a/nebo zjednodušení interpretace dat na základě jejich zjednodušení a vizualizace. Ačkoliv je...

Více

Jak překládat do angličtiny abstrakty publikovaných prací z oboru

Jak překládat do angličtiny abstrakty publikovaných prací z oboru Jak překládat do angličtiny abstrakty publikovaných prací z oboru geoinformatiky Neodmyslitelnou součástí publikace vědeckého sdělení, referátu, článku či monografie z oboru geoinformatiky je angli...

Více

Kapitola 2 Metody porovnávání dokumentů a dotazů

Kapitola 2 Metody porovnávání dokumentů a dotazů než q • d, čili „podobnost" dokumentu F vůči dotazu by měla hodnotu 1000. Má to smysl? Dokument, který označujeme F , může být např. rozsáhlá, ale již starší publikace, zatímco D může být stručný, ...

Více

Full Paper

Full Paper charakter. Vzhledem k tomu, že ČS je užíván, na rozdíl od ostatních bank, pro kalkulaci poplatků vlastní konfigurátor3, neobsahuje projekt Kalkulátor možnost jejich přímého výpočtu. Ve zmíněném kon...

Více