Prezentace

Transkript

Prezentace
Centrum teorie vzdělávání přírodovědných oborů
Reg. č.: CZ.1.07/2.3.00/20.0166
Vícerozměrné statistické
metody a možnosti jejich
realizace v systému STATISTICA
(vzdělávací kurz)
Doc. PhDr. Miroslav Chráska, Ph.D.
Faculty of Education, Palacký University Olomouc,
Žižkovo nám. č. 5, Olomouc 771 40, Czech Republic
Tel.: +042-58563-5811; E-mail address:
[email protected]
Stručná charakteristika
vícerozměrných metod
• Multivariační metody (metody vícerozměrné statistické
analýzy) jsou spojeny se statistickou analýzou
vícerozměrných dat .
• Pomocí vícerozměrné statistické analýzy se snažíme o
popis vztahů mezi proměnnými a toto zkoumání
probíhá pro všechny vztahy současně.
• S rostoucím počtem proměnných však zároveň roste i
složitost úlohy.
2
Stručná charakteristika
vícerozměrných metod
• Klasické multivariační metody pracují s kvantitativními
(přesněji poměrovými) daty, existují však i metody či
jejich modifikace pro kategorizovaná, nominální či
pořadová data.
• Problémem je však především potřeba standardizace
dat pro většinu metod (veličiny v modelu mají typicky
různé rozsahy hodnot, různé typy distribuce) a správný
způsob provedení standardizace, aby byly splněny
metodické požadavky příslušné metody a přitom byla
zachována i jistá variabilita veličin, která je předmětem
našeho zájmu.
3
Shluková analýza (CLU)
• Shluková analýza (též clusterová analýza, anglicky
cluster analysis) je vícerozměrná statistická metoda,
která se používá ke klasifikaci objektů.
• Slouží k třídění jednotek do skupin (shluků) tak, aby si
jednotky náležící do stejné skupiny byly podobnější
než objekty ze skupin různých.
• Shlukovou analýzu je možné provádět jak na množině
objektů, z nichž každý musí být popsán
prostřednictvím stejného souboru znaků, které má
smysl v dané množině sledovat, tak na množině znaků,
které jsou charakterizovány prostřednictvím určitého
4
souboru objektů, nositelů těchto znaků.
Shluková analýza (CLU)
• Shluková analýza je obecný název pro analytické
techniky, pomocí nichž hledáme klasifikační strukturu
proměnných nebo objektů. Využívají se k tomu různé
míry podobnosti. Více se uplatňuje shlukování při
klasifikaci objektů než proměnných.
• Shluková analýza patří mezi metody zabývající se
zkoumáním podobnosti vícerozměrných objektů
(objektů, u nichž je změřeno větší množství
proměnných) a jejich roztříděním do skupin (shluků).
Používá se především tam, kde objekty projevují
přirozenou tendenci se seskupovat (vznikla jako
taxonomická metoda), ale její použití je možné i v dalších
5
oblastech.
Podstata shlukové analýzy
• Shluková analýza může být prováděna pomocí tzv.
hierarchické i nehierarchické analýzy. Hierarchické
postupy jsou založeny na postupném spojování
objektů a jejich shluků do dalších (větších) shluků.
• Nejprve se vypočte základní matice vzdáleností mezi
objekty.
• Dva objekty, jejichž vzdálenost je nejmenší, se spojí
do prvního shluku a vypočte se nová matice
vzdáleností (v níž jsou vynechány objekty z prvního
shluku a naopak je zařazen tento shluk jako celek).
• Celý postup se opakuje tak dlouho, dokud všechny
objekty netvoří jeden velký shluk nebo dokud
nezůstane určitý předem zadaný počet shluků.
6
Problémy shlukové analýzy
Přitom vznikají dva základní problémy:
1. Způsob měření vzdálenosti mezi objekty
(euklidovská metrika nebo vícerozměrná
metrika),
2. Volba vhodné shlukovací procedury, při které
vlastně určujeme, jak se počítá vzdálenost mezi
shluky objektů (průměrová metoda, centroidní
metoda,
metoda
nejbližšího
souseda,
mediánová metoda apod.).
Tyto metodologické problémy se snaží různé
statistické systémy různým způsobem zahrnout
do parametrů svých procedur.
7
Dělení shlukovacích metod
1. Hierarchické shlukování je systém podmnožin, kde
průnikem dvou podmnožin - shluků je buď prázdná
množina, nebo jeden z nich. Pokud nastane alespoň
jednou druhý případ, je systém hierarchický. Hierarchické
shlukování nabízí více alternativních řešení, celý proces
shlukování je pak možné vyjádřit dendogramem. Tato
metoda však není vhodná pro velké datové soubory.
2. Nehierarchické shlukování je takový systém, kde je průnik
shluků prázdný, jedná se o disjunktní množiny.
Nehierarchickým metodám se také říká metody
nejbližších těžišť K-means. Tyto metody nevytvářejí
dendrogram, ale místo toho přidělují objekty do předem
známého počtu shluků
• Obě metody je někdy možné s výhodou kombinovat. 8
Metody hierarchického shlukování
Existují různé způsoby jak shlukovat objekty na
základě jejich vzdálenosti či podobnosti.
Mezi základní metody patří:
• Metoda nejbližšího souseda,
• Metoda nejvzdálenějšího souseda,
• Centroidní metoda,
• Párová vzdálenost,
• Wardova metoda.
9
Metody hierarchického shlukování
• Metoda nejbližšího souseda (single linkage,
nearest neighbor) – vzdálenost shluků je určována
vzdáleností dvou nejbližších objektů z různých
shluků. Při použití této metody jsou objekty
taženy k sobě, výsledkem jsou dlouhé řetězy.
• Metoda nejvzdálenějšího souseda (complete
linkage, furthest neighbor) - vzdálenost shluků je
určována
naopak
vzdáleností
dvou
nejvzdálenějších objektů z různých shluků.
Funguje dobře především v případě, že objekty
tvoří přirozeně oddělené shluky, nehodí se, pokud
10
je tendence k řetězení.
Metody hierarchického shlukování
• Centroidní metoda - vzdálenost shluků je
určována vzdáleností jejich center (hypotetická
jednotka s průměrnými hodnotami znaků). Může
být nevážená nebo vážená. Ta zohledňuje velikosti
klastrů a hodí se, pokud očekáváme jejich
rozdílnost. Požaduje vyjádření vzdálenosti objektů
čtvercovou euklidovskou vzdáleností.
• Párová vzdálenost (pair-group average) vzdálenost shluků je určována jako průměr
vzdáleností všech párů objektů z různých shluků.
Opět může být ve vážené i nevážené podobě.
11
Metody hierarchického shlukování
• Wardova metoda - vychází z analýzy rozptylu.
Vybírá takové shluky ke sloučení, kde je minimální
součet čtverců. Obecně lze říci, že je tato metoda
velmi účinná, ale má tendenci tvořit poměrně
malé shluky. Požaduje vyjádření vzdálenosti
objektů čtvercovou euklidovskou vzdáleností.
12
Posouzení míry podobnosti při
shlukování
• Cílem shlukové analýzy je přiřadit jednotky analýzy
(např. osoby, případy, události apod.) na základě
podobnosti ke skupinám (shlukům). Přitom
charakteristiky shluků ani jejich počet nejsou
předem známy - musí být odvozeny z výzkumných
dat. Mírou podobnosti (resp. nepodobnosti)
jednotek analýzy bývá obvykle tzv. euklidovská
distance . Euklidovská distance D je definována
jako
vzdálenost
dvou
bodů
(A,
B)
v n-dimenzionálním prostoru.
13
Posouzení míry podobnosti při
shlukování
• Jestliže bod A má souřadnice a1, a2, …, an a bod B
souřadnice b1, b2, …, bn, potom je jejich vzdálenost
dána vztahem
• Ve shlukové analýze potom vystupují jednotlivé
jednotky analýzy (např. osoby, případy apod.) jako
body v n-dimenzionálním prostoru. Souřadnice
těchto bodů jsou dány vlastnostmi, které jednotky
analýzy mají (které tyto jednotky charakterizují). 14
Posouzení míry podobnosti při
shlukování
• Shluky jednotek analýzy (např. shluky osob, případů
atd.) se mohou vytvářet na základě dvou, tří nebo i
více (n) vlastností.
• Distance a obdobně i další charakteristiky, které se
týkají vícerozměrných metod, lze prakticky počítat
pouze pomocí statistických paketů (na Univerzitě
Palackého v Olomouci je k dispozici multilicence
programu STATISTICA®), běžnými prostředky by byl
celý proces neúměrně zdlouhavý.
• Viz příklady.
15
Example: Joining (Tree Clustering) Cars
This example is based on a sample of different automobiles.
Specifically, one particular model was randomly chosen
from among those offered by the respective manufacturer.
The following data for each car were then recorded:
1. The approximate price of the car (variable Price).
2. The acceleration of the car (0 to 60 miles – about 96
kmph in seconds; variable Acceler).
3. The braking performance of the car (braking distance
from 80 mph – about 129 kmph to complete standstill;
variable Braking).
4. An index of road holding capability (variable Handling).
5. The gas-mileage of the car (miles per gallon – 3,8 l;
variable Mileage).
Example: Joining (Tree Clustering) Cars
Scale of Measurement
All clustering algorithms at one point need to assess the
distances between clusters or objects, and obviously, when
computing distances, you need to decide on a scale. Because
the different measures included here used entirely different
types of scales (e.g., number of seconds, thousands of dollars,
etc.), the data were standardized (in STATISTICA 12 via the
Standardize command from the Data menu) so that each
variable has a mean of 0 and a standard deviation of 1. It is
very important that the dimensions (variables in this example)
that are used to compute the distances between objects (cars
in this example) are of comparable magnitude; otherwise, the
analysis will be biased and rely most heavily on the dimension
that has the greatest range of values.
Example: Joining (Tree Clustering) Cars
Performance, fuel economy, and approximate price for various automobiles
PRICE - Approximate
Price
ACCELERATION Acceleration
BRAKING - Breaking
from 80 mph
HANDLING - Road
holding index
MILEAGE Miles per
gallon
Acura
-0,521
0,477
-0,007
0,382
2,079
Audi
0,866
0,208
0,319
-0,091
-0,677
BMW
0,496
-0,802
0,192
-0,091
-0,154
Buick
-0,614
1,689
0,933
-0,210
-0,154
Corvette
1,235
-1,811
-0,494
0,973
-0,677
Chrysler
-0,614
0,073
0,427
-0,210
-0,154
Dodge
-0,706
-0,196
0,481
0,145
-0,154
Eagle
-0,614
1,218
-4,199
-0,210
-0,677
Ford
-0,706
-1,542
0,987
0,145
-1,724
Honda
-0,429
0,410
-0,007
0,027
0,369
Isuzu
-0,798
0,410
-0,061
-4,230
1,067
Mazda
0,126
0,679
-0,133
0,500
-1,724
Mercedes
1,051
0,006
0,120
-0,091
-0,154
Mitsub.
-0,614
-1,003
0,084
0,382
0,718
Nissan
-0,429
0,073
-0,007
0,263
0,997
Olds
-0,614
-0,734
0,409
0,382
2,114
Pontiac
-0,614
0,679
0,536
0,145
0,195
Porsche
3,454
-2,215
-0,296
0,618
-1,026
Saab
0,588
0,679
0,246
0,263
0,021
Toyota
-0,059
1,218
0,228
0,736
-0,851
VW
-0,706
-0,128
0,102
0,382
0,195
Volvo
0,219
0,612
0,138
-0,210
0,369
Example: Joining (Tree Clustering) Cars
Purpose of the Analysis
• Given these data, can the taxonomy for the
automobiles included in the study be developed?
• In other words, do these automobiles form "natural"
clusters that can be labeled in a meaningful manner?
• First, perform a joining analysis (tree clustering,
hierarchical clustering) on this data.
Acura
Olds
Chrysler
Dodge
VW
Honda
Pontiac
Mitsub.
Nissan
Audi
Mercedes
BMW
Saab
Volvo
Mazda
Toyota
Buick
Ford
Isuzu
Eagle
Corvette
Porsche
Vzdálenost spoje
Example: Joining (Tree Clustering) Cars
Str. diagram pro 22 případů
Úplné spojení
Euklid. vzdálenosti
8
7
6
5
4
3
2
1
0
Example: Joining (Tree Clustering) Cars
Str. diagram pro 22 případů
Úplné spojení
Euklid. vzdálenosti
Acura
Olds
Chrysler
Dodge
VW
Honda
Pontiac
Mitsub.
Nissan
Audi
Mercedes
BMW
Saab
Volvo
Mazda
Toyota
Buick
Ford
Isuzu
Eagle
Corvette
Porsche
Cluster 1
Cluster 2
0
20
40
60
(dSpoj/dMax)*100
80
100
120
Example: Joining (Tree Clustering) Cars
Identifying Clusters
For this discussion, consider only horizontal hierarchical
tree diagrams (see the tree diagram with the
standardized scale), and begin at the top of the
diagram. Apparently, first there is a cluster consisting of
only Acura and Olds; next there is a group (i.e., cluster)
of seven cars: Chrysler, Dodge, VW, Honda, Pontiac,
Mitsubishi, and Nissan. As it turns out, in this sample
the entry level models (more or less) of these brands
were chosen. Thus, we may want to call this cluster the
"economy sedan" cluster.
Example: Joining (Tree Clustering) Cars
•
•
•
The first two cars, Acura and Olds, join this cluster at the
approximate linkage distance of 32; after that (to the
right), this branch of the tree extends out to 60. Thus,
these two cars could also be considered as members of
the economy sedan cluster.
Moving down the plot, a cluster starting with Audi
extends to Ford, perhaps all the way to Eagle. These cars
(i.e., the particular models chosen for the sample) more
or less represent high-priced, luxury sedans; thus, this
cluster can be identified as the "luxury" sedan cluster.
Finally, at the bottom of the plot there are the Corvette
and Porsche that are joined at the linkage distance of
approximately 30.
Example: K-means Clustering Cars
Example: Analysis of variance.
• In the k-means clustering was referred to as
"analysis of variance in reverse".
• In an analysis of variance, the between-groups
variance is compared to the within-groups variance
to decide whether the means for a particular
variable are significantly different between groups.
Example: K-means Clustering Cars
Analýza rozptylu (Cars)
Mezisk. - SČ
PRICE
sv
Vnitřní - SČ
sv
F
význam. p
9,08159
2
11,91841
19 7,23881
0,004602
ACCELERATION 6,74790
2
14,25210
19 4,49794
0,025163
0,001938
BRAKING
10,11892
2
10,88108
19 8,83457
HANDLING
10,87750
2
10,12250
19 10,20857 0,000975
MILEAGE
7,99118
2
13,00882
19 5,83575
0,010573
Example: K-means Clustering Cars
Identification of clusters - now, see how STATISTICA
assigned cars to clusters using these criteria. Cluster 1:
Členi shluku číslo 1 a vzdálenosti od příslušného středu shluku Shluk obsahuje 13 příp.
Vzdálen.
Acura
Buick
Chrysler
Dodge
Honda
Mitsub.
Nissan
Olds
Pontiac
Saab
Toyota
VW
Volvo
0,754166
0,766466
0,356816
0,384616
0,158199
0,614239
0,297823
0,889882
0,255611
0,508612
0,766000
0,284704
0,362700
Example: K-means Clustering Cars
Cluster 2 and 3
Členy shluku číslo 2 a vzdálenosti od příslušného středu shluku Shluk obsahuje 7 příp.
Vzdálen.
Audi
0,492166
BMW
0,414537
Corvette
0,636028
Ford
0,978105
Mazda
0,849100
Mercedes
0,509201
Porsche
1,319699
Členy shluku číslo 3 a vzdálenosti od přislušného středu shluku Shluk obsahuje 2 příp.
Vzdálen.
Eagle
1,360452
Isuzu
1,360452
Example: K-means Clustering Cars
Cluster 1 consists of Acura, Buick, Chrysler, Dodge, Honda,
Mitsubishi, Nissan, Olds, Pontiac, Saab, Toyota, VW, and
Volvo.
The second cluster contains Audi, BMW, Corvette, Ford,
Mazda, Mercedes, and Porsche.
The final cluster 3 consists of Eagle and Isuzu.
• These results do not entirely match the clusters found in
the previous analysis. However, the distinction between
economy sedan vs. high luxury sedan still seems tenable.
• The Eagle and Isuzu were probably moved into their own
category because they did not "fit" anywhere else, and
because any other split between cars did not improve the
solution (i.e., increase between-groups sums of squares).
Example: K-means Clustering Cars
Example: K-means Clustering Cars
Looking at the lines for the economy sedan cluster
(Cluster 1) as compared to the luxury sedan cluster
(Cluster 2) in the graph below, it is found that, indeed,
the cars in the latter cluster are:
1. More expensive.
2. Have slower acceleration (probably because of
greater weight).
3. Require about the same braking distances.
4. Are about equal in handling.
5. Get lower gas mileage.
Approaches of university student
to traditional and electronic study
materials – results of cluster analysis
•
The example presents the results of a research study
performed at the Faculty of Education, Palacky University,
Olomouc, which involved first grade students. The research
was aimed at various types of information resources the
students use during their study including their opinion
about electronic study materials. We used a cluster
analysis to investigate typical groups of students in the
research sample according to their use of and approach to
electronic study materials. A total of three groups of
students were identified that have completely different
approaches to using information resources.
Description of research study
• The objective of the research study performed in May
2013 at the Faculty of Education, Palacky University,
Olomouc was to find out whether the students had
come into contact with electronic study materials and
whether they are satisfied with these materials.
Another objective was to verify whether the students
prefer learning through the use of traditional printed
study materials or electronic study materials and
whether this preference differs by various fields of
study. The study also observed which information
resources the students use and to what extent. The
research method for data collection was a
questionnaire specifically designed for these purposes.
Research sample
• The research sample consisted of 180 students, out
of which 143 were women and 37 men.
• All of them were first grade students in a daily
bachelor’s study programme of the following fields:
Mathematics focused on education, Fundamentals
of the technical sciences and information
technologies in education, Teaching at primary
schools,
Education,
Pedagogy
–
public
administration, Speech and language therapy, Social
sciences with a focus on education and Czech
language and literature with an emphasis on
educational aspects.
Observed variables
• Which information resources do you use during your
study? Books, university textbooks, press,
magazines, own notes, Internet, electronic study
materials, learning programmes on CD/DVD, elearning course.
• Do you know the term of ‘Electronic study
materials’?
• Have you encountered electronic study materials
during your study at university or secondary school?
• Indicate on a scale to what degree you are satisfied
with electronic study materials?
Observed variables
• Do you prefer learning through the use of traditional
printed materials (books, university textbooks, press,
etc.) or electronic study materials?
• Which type of electronic study materials is most
suitable for you?
• Indicate on a scale to what degree you are satisfied
with traditional printed study materials?
• Would you like to use electronic study materials in
your further study?
• Field of study.
• Gender.
Cluster analysis
• For the purposes of better interpretation, the
observed variables were standardized and a cluster
analysis was performed (both dendrogram and Kmeans).
• The resulting dendrogram (see Fig. 1) indicates that
the observed students have a tendency to group into
three main significant clusters.
• However, the results of the cluster analysis show
that the same students can be (theoretically) divided
into four characteristic groups – see Fig. 2.
Cluster 1
Cluster 2
Cluster 3
Cluster analysis dendrogram – identification of 3 clusters
Cluster 2
Cluster 3
Cluster 4
Cluster 1
Cluster analysis dendrogram – identification of 4 clusters
Cluster analysis
• To allow a better interpretation of the results of the
cluster analysis, a graph of average values (including
an analysis of variance – see Table 1) of all three
identified clusters developed by the K-means
method is provided.
• The graph enables a better expression of the
characteristics of individual clusters as well as the
average values of individual features of the observed
clusters. For the purposes of completeness, Table 2
specifies the members (marked with student
numbers) of individual identified clusters as they
were determined by the STATISTICA 12 CZ
programme.
Cluster analysis
Variable
Information resource: books
Information resource: press
Information resource: own notes
Information resource: Internet
Information resource: electronic
study materials
Satisfaction with electronic study
materials
Preference for study materials
Satisfaction with traditional printed
study materials
Gender
Field of study
Use of electronic study materials in
further study
Cluster
1
0,225
-0,190
0,200
-0,318
Cluster
2
-0,215
0,930
-0,099
-0,188
Cluster Significance
3
-0,466
0,000
-0,257
0,000
-0,368
0,007
0,925
0,000
0,175 -0,358 -0,027
0,048
0,208 -0,479 -0,172
0,002
-0,134 -0,613
0,854
0,000
0,719 -0,580
0,000
-0,507 -0,324 1,590
0,249 -0,372 -0,386
0,000
0,000
-0,424
0,000
-0,022
1,830 -0,355
Cluster analysis – K-means
Cluster analysis
Cluster 1
• The first cluster consists of students whose most
used information resource includes books, own
notes and electronic study materials and whose
least used resource is the Internet.
• Electronic study materials are well assessed by the
students in this cluster.
• The cluster includes exclusively women and has 60 %
of respondents.
Cluster analysis
Cluster 2
• The second cluster consists of students whose most
used information resource includes press and whose
least used resource includes electronic study
materials, which are also badly assessed by these
students.
• On the contrary, well assessed and preferred are
traditional printed study materials.
• The cluster includes primarily women and consists
primarily of students of social sciences and Czech
language.
• This cluster has 16 % of respondents.
Cluster analysis
Cluster 3
• The third cluster consists of students whose most
used information resource includes the Internet,
other information resources are used the least of all
students.
• Most preferred are electronic study materials; on
the contrary, these students are least satisfied with
traditional study materials.
• This cluster has 24 % of respondents, mostly men.
Faktorová analýza
Pedagogický slovník definuje faktorovou analýzu jako:
„Soubor velkého počtu statistických postupů, které
slouží ke stanovení co nejmenšího počtu základních
dimenzí – faktorů z velkého počtu studovaných
proměnných. Jejich účelem je zredukovat výchozí
data a seskupit je do několika hierarchicky vyšších
celků. Faktorová analýza vychází z korelační matice
(zachycuje
hodnoty
korelačních
koeficientů)
a matematickými postupy extrahuje z matice malý
počet základních, obecnějších proměnných – faktorů,
které umožňují lépe vysvětlit studované vztahy.“
45
Podstata faktorové analýzy
• Cílem faktorové analýzy, řečeno matematicky, je
vyřešit základní rovnici:
k
xi   air Fr  ei (i  1, 2, ... m)
kde:
r 1
• xi je i-tý objekt,
• Fr je společný faktor,
• k je zjištěný počet faktorů,
• ei je zbytek (neobjasněná korelace, chyba), který lze připsat
na vrub pouze určité proměnné,
• m je počet proměnných.
• Koeficient air můžeme chápat jako určitou kvantifikaci vlivu
r-tého faktoru na i-tou proměnnou. Většinou ho nazýváme
46
faktorová zátěž nebo faktorový náboj.
Předpoklady faktorové analýzy
• Pro aplikaci faktorové analýzy musí být splněny
určité požadavky a uživatel si musí nejprve ověřit,
zda matice dat obsahuje dostatečné korelace pro
její použití.
• Jde zejména o následující testy:
• Bartlettův test sféričnosti,
• Výpočet parciálních korelačních koeficientů,
• Určení anti-image korelační matice,
• Keiser–Meyer–Olkinova (KMO) míra,
• Určení čtverce vícenásobného korelačního
koeficientu R2.
47
Explorativní faktorová analýza
Každá faktorová analýza vychází z matice dat Y, z níž
vypočítáme korelační matici R. V explorativní
faktorové analýze potom do diagonály matice R
dosadíme odhady komunalit (metod odhadu je více a
jsou různě přesné), čímž dostaneme redukovanou
faktorovou matici Rh. Z redukované korelační matice
Rh potom určitými metodami extrahujeme
(získáváme) faktory a jako výsledek dostaneme
faktorovou matici A. Protože však existuje mnoho
dalších matic A, které také reprodukují matici Rh,
provádíme ještě rotaci podle určitého kriteria. Tím
dostaneme rotovanou faktorovou matici V, kterou
48
potom interpretujeme.
Schéma průběhu explorativní FA
• Při provádění explorativní faktorové analýzy následují
tedy za sebou určité kroky a problémy, které se dají
shrnout do následujícího schématu, viz obr.
49
Explorativní faktorová analýza
Úlohou faktorové analýzy je tedy nalézt faktorovou
matici. Prvky matice nazýváme faktorové náboje. Pro
jejich velikost platí, že mají hodnoty mezi -1 a 1 (pro
ortogonální, tedy na sobě nezávislé faktory) a jsou to
vlastně korelace mezi určitou proměnnou a určitým
faktorem. Každý faktor je charakterizovaný jedním
sloupcem faktorové matice a každá proměnná jedním
řádkem matice. Aby interpretace faktorové matice
byla jednodušší, provádíme tzv. rotaci faktorů. Smysl
rotace je ověřit matematicky korektní transformaci
výsledků faktorové analýzy tak, aby shoda mezi
interpretací a výsledky faktorové analýzy byla co
50
největší.
Varimax rotovaná faktorová
matice (metoda centroidní)
51
Varimax rotovaná faktorová matice
Tabulka: Faktorová analýza škál
Škála
(předpokládaný typ
učitele)
Š1 (T2)
Š2 (T3)
Š3 (T5)
Š4 (T2)
Š5 (T3)
Š6 (T2)
Š8 (T1)
Š9 (T5
Š10 (T1)
Š11 (T4)
Š12 (T2)
Š13 (T1)
Š14 (T1)
Š15 (T5)
Š16 (T4)
Faktor 1
-0,39
0,08
0,76
-0,26
0,44
-0,22
-0,21
0,22
-0,32
0,27
0,14
-0,26
0,08
0,56
0,81
Faktor
2
Faktor
3
Faktor
4
-0,70
0,12
0,07
-0,47
0,24
-0,48
-0,80
0,06
-0,51
0,22
-0,80
-0,55
-0,20
0,07
0,18
0,32
-0,11
-0,03
0,32
-0,12
0,33
0,15
-0,59
0,38
-0,45
-0,01
0,56
0,84
-0,51
-0,09
-0,12
0,88
0,38
-0,45
0,70
-0,62
-0,28
0,34
-0,33
0,63
-0,10
-0,07
-0,12
0,17
0,11
Komunalita
(od 4 faktorů)
0,76
0,81
0,73
0,59
0,76
0,77
0,79
0,52
0,61
0,72
0,67
0,68
0,76
0,60
0,71
52
Explorativní faktorová analýza
• Celkový rozptyl v jedné proměnné se rozkládá na
jednotlivé části, které jsou reprezentované čtverci
faktorových nábojů. Součet čtverců nábojů
společných faktorů se nazývá komunalita hi2 a je to
ta část jednotkového rozptylu, která je společná se
společnými faktory.
• Rozdíl 1 – hi2 je tzv. specifický rozptyl ui2, což je ta
část rozptylu, která není společná se společnými
faktory. Specifický rozptyl dále můžeme rozdělit na
část bi2 , což je specifita, a na část ei2, což je zbytkový
rozptyl.
53
Explorativní faktorová analýza
• Avšak klasická explorativní faktorová analýza
umožňuje více různých ekvivalentních interpretací. Tak
se může stát, že navržený model není zcela v souladu
se skutečností. Je to způsobeno samou podstatou
metody, která do sebe vnáší celou řadu problémů a
dále sice přesně definovaná, ale ne příliš exaktní
pravidla.
• Pokud bychom chtěli tyto nepřesnosti omezit, mohli
bychom použít tzv. konfirmativní (někde též uváděnou
konfirmační nebo potvrzující) faktorovou analýzu,
která výše uvedené nedostatky nemá a umožňuje tak
54
přesný důkaz námi stanovené hypotézy.
Konfirmativní faktorová analýza
• Konfirmativní faktorová analýza slouží k dokazování
přesně definované hypotézy o struktuře dat. Je v ní
možné volit mezi na sobě nezávislými (ortogonálními)
faktory a mezi faktory šikmými, z nichž některé
mohou být na sobě nezávislé. Dokazovaná hypotéza
má obvykle podobu předepsané jednoduché
struktury dle Thurstonových zásad. Při důkazu se
vychází z analýzy korelační matice, která vede
k proložení modelu společných faktorů, ve kterém má
matice faktorových zátěží s obecně n testy a m
společnými faktory na předepsaných místech pevné
55
nuly.
Konfirmativní faktorová analýza
• Při konfirmativní faktorové analýze, buď na základě
předchozí explorativní analýzy nebo na základě vlastní
úvahy, určíme počet faktorů, které by měli objasnit rozptyl
jednotlivých proměnných a do těch míst, kde
předpokládáme nenulové faktorové zátěže, zapíšeme
jedničky (viz příklad dále).
• Dále můžeme předpokládat, že zkoumané faktory jsou na
sobě nezávislé nebo závislé. Vhodný statistický systém
(v našem případě již dříve zmíněný STATISTICA®) potom
spočítá odhady faktorového vzoru a jedinečný rozptyl
(faktory neobjasněný rozptyl proměnných). Na základě
výpočtu kriteria 2 potom můžeme rozhodnout, jak je naše
hypotéza o námi předložené struktuře pravděpodobná. 56
Doporučené schéma pro postup
při provádění faktorové analýzy
57
Děkuji Vám za pozornost
Kontaktní adresa:
doc. PhDr. Miroslav Chráska, Ph.D.,
Katedra technické a informační výchovy,
Žižkovo nám 5, Pedagogická fakulta Univerzity
Palackého, Olomouc, Česká republika,
tel. 00420 585 635 803, 00420 585 635 802
e-mail: [email protected]
58

Podobné dokumenty

Speciální prvky modelování I

Speciální prvky modelování I Slouží většinou pro tvorbu designových prvků modelu, montážních prvků, úpravu forem apod. Příkazy pro jejich tvorbu jsou k dispozici v panelu nástrojů montážní prvky, formy a také v nabídce roletov...

Více

Aplikace principů zelené ekonomiky v Evropské unii

Aplikace principů zelené ekonomiky v Evropské unii sil, pokud jde o řešení environmentálních problémů (Daly & Farley, 2004). Zelená ekonomika upřednostňuje tržní nástroje, pokud jde o změnu ve využívání přírodních zdrojů a ekosystémů. Jedná se o s...

Více

kompenzační pomůcky - Maxim-ZDR

kompenzační pomůcky - Maxim-ZDR je nestátní neziskovou organizací, která se hlásí k sociálnímu podnikání. Vytváří zisk, který reinvestuje do vývoje kompenzačních pomůcek, primárně pro Bazální stimulaci®, Výukového programu pro sp...

Více

remissed

remissed • Otočení lze provést tak, aby interpretace byla snazší a jednodušší. • Cílem je aby některé znaky dosahovaly maximálních hodnot jednoho faktoru a jiné znaky minimálních hodnot čili byly "faktorově...

Více

XI. Impresionismus, symbolismus, dekadence, fr. prokletí - X-ZIL

XI. Impresionismus, symbolismus, dekadence, fr. prokletí - X-ZIL • Confiteor I-III  (z lat. vyznávám se) vyjad°uje sv·j vnit°ní citový ºivot, nálady, postoje a provokativní otev°enost. • ƒt°i knihy sonet·  pozornost ke kaºdodennímu ºivotu, prostý nerudovský ve...

Více

PROHLÉDNOUT LETÁK

PROHLÉDNOUT LETÁK s UV ochranou a hliníkovou konstrukcí. Včetně podstavce. Prům. 300 x V270 cm 2999,-

Více