AKD 100518 (komentovaný syntax pro SPSS a PSPP)

Transkript

AKD 100518 (komentovaný syntax pro SPSS a PSPP)
Analýza kvantitativních dat 18/5 a 25/5 2010 (doplněno 2/9/2010 na
str. 25+)
Třídění 2. stupně: vztah mezi dvěma proměnnými v kontingenčních
tabulkách, průměry v podskupinách a intervalové odhady
OBSAH
1. kontingenční tabulky z 18/5/2010 – strana 1
2. průměry v podskupinách, intervalové odhady a grafy 25/5/2010 – strana 5
--------------------------------------------------------------------------------------------------------------
1. kontingenční tabulky (18/5/2010)
*Syntax SPSS nebo PSPP (grafy a příkaz MEANS fungují jen v SPSS).
*data: ISSP 2007: ISSP2007_v2_1.sav.
*soubor dat lze nahrát pomocí příkazu GET FILE (se zadáním přesné cesty, kde je soubor
umístěn) GET FILE='D:\ISSP2007_v2_1.sav'.
*z minula máme vytvořeny proměnné vzdělání na 4 kategorie vzd4 (nebo vzdel4) a osobní
příjem jednak jako spojitou kardinální proměnnou prijem (v Kč) a jednak na kvartily
prijem4 (čtyři stejně velké skupiny).
*Třídění dat v 2. stupni (a nebo vyšším) může být pro:
- dva (nebo více) nominální či ordinální znaky → CROSSTAB
- pro jeden spojitý/kardinální znak a jeden (nebo více) nominální znak → MEANS.
*CROSSTABS – kontingenční tabulky.
*pro nominální a ordinální proměnné (s menším počtem kategorií) je základem kontingenční
tabulka (tu jsme zatím používali pro kontrolu překódování).
*princip v syntaxu: CROSSTAB Var1→v řádcích BY Var2→ve sloupcích / doplnění
specifikace procent atd.
*Postup a logika kontingenčních tabulek je popsán v Prezentaci 2 (spss2_tabulky.ppt)
zopakujme si pro jistotu základní princip:.
Uspořádání tabulky
sloupcová procenta:
V kategoriích nezávislé proměnné ukazujeme kompletní (100 %) distribuci závislé proměnné.
NEZÁVISLÁ - vysvětlující
ZÁVISLÁ vysvětlovaná
Pohlaví
Spokojenost
Muž
Žena
1 (nespokojen)
41 % (5)
22 % (2)
7
2
41 % (5)
11 % (1)
6
3 (spokojen)
Celkový součet
Celkový součet
16 % (2)
66 % (6)
8
100 % (12)
100 % (9)
21
Nejčastěji bývá závislá proměnná nalevo v řádcích a nezávislá
(vysvětlující) ve sloupcích. Praktikum KMVP část 2
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
18
1
*na příkladu z minula (AD_100511.doc): příjem (kvartily) a vzdělání.
*V kategoriích nezávislé proměnné (zde Vzdělání) ukazujeme kompletní (100 %) distribuci
závislé proměnné (Příjem4).
*Pozor! Směr kauzality je vždy věcí teorie, nelze ji určit z dat samotných.
*Tabulku čteme tak, že porovnáme navzájem podskupiny nezávislé proměnné (stupně
vzdělání) podle vlastností závislé proměnné (kvartily příjmu) → tabulku čteme „po
řádcích“ (pokud máme nezávislý znak ve sloupcích, závislý v řádcích a sloupcová
procenta jako zde, což je nejobvyklejší).
*Tabulku lze otočit o 90st.: zaměnit řádky se sloupci a řádková %, pak ji čteme „po
sloupcích“.
*Při interpretaci procent obvykle stačí porovnávat extrémní hodnoty a ignorovat střední
kategorie.
*Kupení vysokých hodnot na diagonále tabulky naznačuje, že existuje souvislost mezi
proměnnými (s lineární charakterem), ale souvislost může mít i jinou formu, např. v každém
sloupci jsou pozorování nahromaděna do jediného pole, jehož pozice je pro každý sloupec
jiná.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
2
*zadání v SPSS / PSPP: COL = sloupcová procenta.
CROSSTAB prijem4 BY vzd4 /CELL=COL COUNT.
*nebo otočeno o 90st → ROW = řádková procenta a prohodíme proměnné!.
CROSSTAB vzd4 BY prijem4
/CELL=ROW COUNT.
*Pak četeme tabulku „po sloupcích“ – porovnáváme kvartily příjmu.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
3
*a ještě zadání přes menu: Analyze → Descriptive statistics → Crosstabs.
*ze seznamu proměnných nalevo přesunout pomocí šipky proměnné do řádků a sloupců, pak
v Cells přidat Column pro sloupcová procenta, pokud chceme řádková označíme Row
(absolutní četnosti Observed lze vypnout).
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
4
2. průměry v podskupinách, intervalové odhady a grafy (25/5/2010)
*MEANS – průměry pro podskupiny.
*Pozor: příkaz MEANS (zatím) nefunguje v PSPP.
*příkaz Means může být zadán jen pro jendu kardinální proměnnou, pak spočítá pouze její
průměrnou hodnotu (stejnou informaci získáme např. pomocí příkazu FREQ nebo DESC).
MEANS prijem.
*častěji jej ale používáme pro zjištění průměrů kardinální proměnné (závislé) podle kategorií
nominální či ordinální (nezávislé) proměnné.
*princip je jako u CROSSTAB (ale v obráceném pořadí):
MEANS Var1→závislá kardinální BY Var2→ nezávislá nominální/ordinální.
MEANS prijem BY vzd4.
*ze sloupce průměrů lze dodatečně poklikáním a pravým tlačítkem myši vytvořit graf.
*porovnejte s kontingenční tabulkou pro kategorizovaný příjmem prijem4 v CROSSTAB:.
CROSSTAB prijem4 BY vzd4 /CELL=COL.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
5
*v MEANS lze provést i třídění třetího (a vyššího) stupně, kdy přidáme například pohlaví
(s30).
MEANS prijem BY vzd4 BY s30.
*Při porovnání průměrů vždy kontrolujeme počet platných případů v buňce tabulky –
nízký počet může nevyzpytatelně vychýlit průměr (pravidlo „palce“: minimálně 5
případů).
*GRAF-ické znázornění průměru pro podskupiny.
*pozor tyto příkazy nefungují v PSPP, takže zatím pouze v SPSS.
*Graf znázorňující průměry spojité proměnné (prijem) pro podskupiny jiné
nominální/ordinální proměnné (vzd4):
* při klikání z menu:
Graphs → Legacy Dialogs → Line → Simple + Summaries for groups of cases.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
6
*Pozor: u zadávání závislé proměnné (příjem) je třeba označit Other statistics, což je
nastaveno na mean – průměr (lze zvolit i jinou míru např. medián).
*v syntaxu:.
GRAPH
/LINE=MEAN(prijem) BY vzdel4.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
7
*Třídění třetího stupně.
*přidáme další (nezávislou) kategoriální proměnnou, zde například věkové kategorie.
*nejprve při klikání z menu:
Graphs → Legacy Dialogs → Line → Muptiple + Summaries for groups of cases.
*nabídka je stejná, pouze přidáme proměnnou (vekakt) do kolonky Define Lines by.
*zadání grafu ze syntaxu je analogické předchozímu.
GRAPH
/LINE(MULTIPLE)=MEAN(prijem) BY vzdel4 BY vekkat.
*Nezapomeňte kontrolovat počet platných případů v jednotlivých kategoriích! (MEANS).
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
8
*Statisticko – induktivní usuzování: úvod pomocí intervalů spolehlivosti pro
průměr → intervalové odhady.
*Interval spolehlivosti = přesnost odhadu, resp.celková míra nepřesnosti odhadu parametru
(např. průměru) v celé populaci pomocí našeho výběrového souboru (vzorku).
*Hladina spolehlivosti je pravděpodobnost s jakou se parametr v populaci (např. průměr)
ocitne v tomto intervalu pokud bychom prováděli výběr znovu.
*Se zvolenou jistotou (95 %) jsme si tak jisti, že náš odhad (ve výběru) bude obsahovat
skutečnou populační hodnotu.
*Poznámka: Existuje jenom jeden průměr, ale mnoho intervalů spolehlivosti – podle toho
kolik jsme provedli náhodných výběrů z populace.
*výpočet CfI viz Prezentaci 2 (spss2_tabulky.ppt), viz též [Hendl 2006 170–172].
*Intervaly spolehlivosti a rozdíly průměrů v podskupinách nám umožní posoudit, zda se
rozdíly závislé proměnné (příjem) podle podskupin nezávislé proměnné (vzdělání)
naměřené v našem výběrovém vzorku vyskytují se zvolenou (nejčastěji 95%)
pravděpodobností v celé populaci (ČR).
*Na rozdíl od statistických testů významnosti nám interval spolehlivosti umožňuje posoudit
velikost diference (nebo odchylky od normy), výsledky statistických testů (p-hodnoty) ukazují
pouze, zda byla či nebyla překročena mezní hodnota testu.
*95% interval spolehlivosti (CfI) pomocí funce Explore = v syntaxu příkaz EXAMINE.
*Nejprve chceme zjistit jaký je interval spolehlivosti měření pro spojitou proměnou příjem
(třídění 1. stupně); tedy v jakém pásmu najdeme průměr (příjmu) v celé populaci (se zvolenou
hladinou spolehlivosti).
EXAMINE prijem.
*výpočet intervalu spolehlivosti na základě Standardní chyby průměru (s.e.)
CI = X ± C * s.e.
(kde C pro 95 % CfI = 1,96)
CI = X ± 1,96 * s.e. = 10,72 ± 1,96 * 0,229 → dolní mez = 10,27 a horní mez = 11,17.
*tedy průměrný příjem je 10.720 Kč (± 450 Kč); graficky vyjádřený intervalový odhad
průměru v populaci (v Kč) je: 10.270 ← 10.720 → 11.170.
*Příkaz MEANS nám také poskytuje další užitečné údaje jako medián (Median), vychýlení:
šikmost (Skewness) a strmost (Kurtosis) nebo 5% oříznutý průměr (počítán je bez 5 %
krajních hodnot).
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
9
*Pro podskupiny, tj. kategorie (nezávislého) znaku (vzdělání).
*Chceme vědět, zda rozdíly v průměrném příjmu mezi vzdělanostními kategoriemi naměřené
v našem výběrovém souboru nalezneme (s 95 % spolehlivostí) v celé skutečné populaci (ČR,
starší 18-let).
EXAMINE prijem BY vzdel4 /PLOT NONE /CINTERVAL 95.
*Sledujeme, za se hranice intervalů mezi kategoriemi vzdělání nepřekrývají.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
10
* Přehlednější je udělat graf průměrů s intervaly spolehlivosti – „fousy“ (+/- CFI).
*z menu (stejné jako v předchozím): Graphs → Legacy Dialogs → Line :.
*při zadávání grafu si přidáme v Options → Display error bars.
*v syntaxu:.
GRAPH /LINE(SIMPLE)=MEAN(prijem) BY vzdel4 /INTERVAL CI(95.0).
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
11
*Elegantnější je pak zadání pomocí Error Bar grafu (který je bez spojnicových čar).
*z menu: Graphs → Legacy Dialogs → Error Bar:.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
12
*v syntaxu:.
GRAPH /ERRORBAR(CI 95)=prijem BY vzd4.
*a opět lze zadat i jako Multiple tedy odděleně pro kategorie další proměnné (zde s20 =
pohlaví); dostáváme se tak k třídění 3 stupně.
GRAPH /ERRORBAR(CI 95)=prijem BY vzd4 BY s30.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
13
*Na hodině AkD 18/5/20010 jsme ještě sledovali vztah příjmu a velikosti bydliště.
CROSSTAB prijem4 by s20/cell=col.
MEANS prijem BY s20.
*počet kategorií proměnné s20 – velikostní kategorie obce (počet obyvatel) je ale relativně
velký a vztah tak poněkud nejasný, proto dále velikost bydliště překódujeme na menší počet
kategorií.
*vytvoření proměnné velikost města se třemi kategoriemi vesnice /město / Praha.
*s20: Do jaké velikostní kategorie patří obec, ve které bydlíte? (v ISSP je ještě proměnná s21
- Jak byste popsal místo, ve kterém žijete?).
FREQ s20.
RECODE s20 (1 2= 1) (3 thru 7 =2) (8=3) (ELSE = SYSMIS)
INTO ves_mes.
VAL LAB ves_mes
1 vesnice
2 města
3 Praha.
FORMATS ves_mes (F8).
FREQ ves_mes.
*ještě kontrola správnosti překódování.
CROSS s20 by ves_mes.
*nyní pro vztah příjmu pro rekódovanou proměnnou.
*pro příjem na kvartily.
CROSSTAB prijem4 BY ves_mes /CELL=COL COUNT.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
14
*a pro spojitý znak příjmu průměry.
MEANS prijem BY ves_mes.
*A nyní se podíváme jak do vztahu mezi vzděláním a příjmem intervenuje velikost bydliště.
GRAPH
/LINE(MULTIPLE)=MEAN(prijem) BY vzdel4 BY ves_mes.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
15
* pro kontrolu se podíváme se na vztah příjmu k velikosti bydliště v původní a rekódované
proměnné s 95% intervaly spolehlivosti pro podskupiny podle velikosti obce.
GRAPH /ERRORBAR(CI 95)=prijem BY s20.
GRAPH /ERRORBAR(CI 95)=prijem BY ves_mes.
*Následuje otázka (= kontrola četností a případně model elaborace): čím to, že jsou (v našem
výběrovém souboru) příjmy na vesnici (obce do 2tis.obyvatel) vyšší než ve městech?.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
16
*Můžeme také sledovat další souvislost se vzděláním (třídní 3.stupně).
MEANS prijem BY ves_mes BY vzd4.
*na hodině jsme dále sledovali rozdíly v příjmech podle pohlaví (s30).
*graf s intervaly spolehlivosti → liší se příjem mužů a žen (v celé populaci)?.
GRAPH
/ERRORBAR(CI 95)=prijem BY s30.
*Je z hlediska příjmu efekt vzdělání pro muže a ženy stejný?.
GRAPH
GRAPH
/LINE(MULTIPLE)=MEAN(prijem) BY vzdel4 BY s30.
/ERRORBAR(CI 95)=prijem BY vzd4 BY s30.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
17
*Testování hypotéz: statistický test nezávislosti rozdílu průměru pro dvě (či více)
kategorie nezávislé proměnné.
*Máme k dispozici dva parametrické testy:
1) dvouvýběrový T-test → dvě kategorie nezávislého znaku
2) One-way ANOVA → obecnější test pro dvě a více kategorií nezávislého znaku, včetně
porovnání rozdílu mezi podskupinami.
*princip statistického testování hypotéz je vysvětlen v Prezentaci 1
http://metodykv.wz.cz/spss1_hypotezy.ppt a např. v Ověřování statistických hypotéz
(Příručka pro sociology, 1980) http://metodykv.wz.cz/testhypotez1980.pdf a článcích
P.Soukupa, které jsou též na našem webu.
*Statistická indukce je zobecňování výsledků z výběrového souboru na základní soubor; při
tom musí být splněny předpoklady velkého náhodného výběru (n > 30) z dostatečně velké
populace (min 100x větší než plánovaný vzorek), viz [Soukup, Rabušic 2007].
*Statistická hypotéza H0: „žádný rozdíl“ (variabilita v datech je náhodná) → testem
hodnotíme sílu dokladu proti tomuto předpokladu.
Pozor: p-hodnoty nevypovídají nic o síle evidence → jsou závislé na velikosti výběru
Nezamítnutí H0 neznamená její důkaz.
*T-test o rovnosti průměrů příjmu (prijem) v podskupinách pro muže a ženy (s20).
T-TEST GROUPS=s30(1 2)
/VARIABLES=prijem
/CRITERIA=CI(.95).
*v zadání proměnné pro jejíž kategorie chceme testovat rozdíly v průměru, zde pohlaví (s30)
je třeba do závorky specifikovat které kategorie chceme porovnávat (zde to je 1=muž a
2=žena).
*Přes menu je to: Analyze → Compare means → Independent Sample T test
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
18
*Do Test variable dáme proměnnou, u níž chceme sledovat rozdíly v průměru (zde příjem)
podle dvou podskupin jiné proměnné (zde pohlaví), což nejčastěji bývá nominální znak se
dvěma kategoriemi (ale lze zvolit i dvě části pro spojitou proměnnou → Cut point).
*Ve výstupu máme dvě tabulky, první nás informuje o průměrech příjmu v kategoriích
pohlaví, druhá přináší samotný t-test.
*Nejprve se podíváme na výsledky Levenova testu rovnosti rozptylů v podskupinách
(muži/ženy), kdy H0 předpokládá, že rozptyly jsou stejné.Podle toho pak čteme pro t-test buď
první nebo druhý řádek.
*Zde tomu tak není – zamítáme H0 o rovnosti rozptylů, neboť dosažená hladina významnosti
Levenova testu (Sig.) je 0,000 (Sig. > α 0,05) a tedy rozptyly se liší. Proto výsledky pro
samotný t-test čteme v druhém řádku Equal variances not assumed.
*Pro T-test čteme dosaženou hladinu významnosti Sig. (2-tailed), která je zde 0,000. Je tedy
menší než zvolená hladina α 0,05 a proto nulovou hypotézu „o rovnosti průměrného příjmu
mezi muži a ženami“ nemůžeme přijmout.Připomínám, že jde o test, který v principu neříká
nic jiného, než že riziko zobecnění z našeho náhodného výběru na celý základní soubor je
pod 5 %.
*Dále nás proto zajímá hodnota rozdílu Mean Difference (3,870 tis.Kč) a jeho interval
spolehlivosti Confidence Interval of the Difference (2,960 až 4,781 tis.Kč).
*Nulová hypotéza předpokládá, že průměry se v podskupinách (zde pohlaví) v celé populaci
(dospělá populace v ČR) neliší, tedy že jsou způsobeny náhodou.
*Vzhledem k tomu, že dosažená p-hodnota je < 0,05 tak může konstatovat, že rozdíl 3870 Kč
v průměrném příjmu mužů a žen není způsoben náhodnými faktory.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
19
*Při interpretaci výsledků vždy sledujte věcnou významnost. Je rozdíl v průměrném
příjmu mezi muži a ženami 3870 Kč substantivní?.
* One-way ANOVA pro porovnání průměrů ve (dvou či) více podskupinách.
*tato metoda je dostupná v PSPP (pouze nefunguje příkaz pro Post-hoc test a pro Graf).
ONEWAY prijem BY s30
/STATISTICS DESCRIPTIVES.
*při zadání přes menu: Analyze → Compare Means → One-Way ANOVA.
*do Dependent dáme numerickou kardinální (závislou) proměnnou (prijem) a do Factor
kategoriální (nominální či ordinální) proměnnou (s30 – pohlaví; nebo dále vzdělání vzd4).
*v Options je vhodné přidat Descriptive a případně i graf Means plot.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
20
*One way Anova pro rozdíly v příjmu podle vzdělanostních kategorií.
ONEWAY prijem BY vzd4
/DESCRIPTIVES.
*Přidáme-li si v Options Means Plot, dostaneme ve výstupu navíc nám známý graf pro
průměrný příjem podle vzdělání.
*v syntaxu:.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
21
ONEWAY prijem BY vzd4 /STATISTICS DESCRIPTIVES /PLOT MEANS.
*tento graf zatím v PSPP nelze vytvořit, ale lze použít hodnoty z tabulky Descriptives a graf
nakreslit v Excelu – návod viz na konci.
*Pozor: zde máme více kategorií nezávislé proměnné. Nulová hypotéza zde říká pouze, že
minimálně jedna skupina (vzdělanostní kategorie) se liší od ostatních.Výsledek F-testu
nám neříká, která to je.K tomu je třeba ještě provést test porovnání skupin Post-hoc test
(např.Bonferroniho korekce).
ONEWAY prijem BY vzd4 /STATISTICS DESCRIPTIVES
/POSTHOC=BONFERRONI ALPHA(0.05).
*Ve výstupu nám pak rozdíly mezi skupinami vzdělání ukazují v další tabulce rozdílu
průměrů příjmu mezi skupinami vzdělání hvězdičky (p-hodnota < 0,05).
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
22
*Což je výsledek shodný s tím, co jsme již dříve viděli v grafu Error Bar s 95% intervaly
spolehlivosti pro průměry příjmu v podskupinách vzdělání.
GRAPH
/ERRORBAR(CI 95)=prijem BY vzd4.
*Příkaz pro Post-hoc test ani graf s Error Bars bohužel v PSPP zatím nafunguje.Pomocným
řešením je dívat se na překryv hranic 95% intervalu spolehlivosti pro jednotlivé podskupiny
vzdělání uvedených v tabulce Descriptives (a případně nakreslit v Excelu graf s CfI).
Poznámka: One-way ANOVA předpokládá, že rozptyl ve skupinách (zde kategorie
vzdělání) je stejný.Nicméně, pokud jsou skupiny této nezávislé proměnné přibližně stejně
velké, je Anova vůči porušení tohoto předpokladu odolná.Alternativně lze použít
neparametrické testy a nebo data transformovat.Otestovat rovnost rozptylů lze pomocí přidání
testu Homogenity (Levenův test, se kterým jsme se setkali v předchozím T-testu).
*v syntaxu zadáme:.
ONEWAY prijem BY vzd4
/STATISTICS HOMOGENEITY.
*v menu zaklikneme v Options volbu Homogenity of variance test:.
*Zde je třeba nulovou hypotézu o rovnosti rozptylů zamítnout, protože Sig. 0,000 < 0,05.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
23
Jak vytvořit graf Error Bar – průměry pro podskupiny s chybovými úsečkami pomocí
PSPP a Excelu (nově doplněno 2/9/2010)
1. V PSPP vypočítáte tabulku průměrů pro kategorie nezávislého znaku (zde vzdělání) s horní
a dolní hranicí dle konfidenčního intervalu – Lower a Upper Bound v proceduře Oneway
Anova (Analyze → Compare Means → One Way Anova)
v syntaxu:
ONEWAY vek by vzd4/statistics=descriptives.
přes menu:
Output uložíte a první tabulku pak vložíte do Excelu (zatím nelze jednoduše kopírovat)
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
24
2. V Excelu si musíte spočítat vstupy pro chybové úsečky – intervaly spolehlivosti.
Příjem (tis. Kč)
95% Confidence
Interval for Mean
Lower
Upper
Bound
Bound
5,54
7,41
chybové úsečky
1 ZŠ
107
Mean
6,48
Std.
Deviation
4,871
2 VYUČ
360
10,57
4,809
,253
10,07
11,07
0
38
3 SŠ
325
11,66
7,783
,432
10,82
12,51
0
55
4 VŠ
51
14,04
9,342
1,308
11,41
16,67
0
45
Total
843
10,68
6,682
,230
10,23
11,13
0
55
N
Std. Error
,471
Minimum
0
Maximum
28
(-)
-0,93
-0,50
-0,85
-2,63
(+)
-0,93
-0,50
-0,85
-2,63
Uděláte to pomocí vložení funkce do buňky, kdy v té které kategorii nezávislé proměnné od
hodnoty Lower Bound odečtete průměr tedy Mean a od průměru odečtete Upper Bound
(záhadou zatím je, že v druhém případě to musí být takto obráceně nelogicky, jinak se vám
spodní horní nezobrazí – v tabulce jsou tyto hodnoty oranžově).
Pak vytvoříte Spojnicový graf s průměry příjmu pro kategorie vzdělání:
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
25
Pokud chceme mít popisky vzdělání na ose X, zvolíme v Oblasti dat Sloupce a pak na
záložce Řada doplníme odkaz na Popisky osy X
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
26
Nakonec přijde to nejdůležitější: zadání chybových úseček: klikneme na spojnici nebo na
bod s průměrem a současně pravým tlačítkem myši zvolíme Formát datové řady.
Na záložce Chybové úsečky Y zadáme Vlastní hodnoty +/- pro chybové hodnoty z tabulky,
kde jsme si je předtím spočítali (zde žlutý a oranžový sloupec).
Výsledný graf po naformátování vypadá takto
Graf. Osobní čistý měsíční příjem podle vzdělání, ČR 2007, průměry a 95 % intervaly
spolehlivosti
Příjem (tis. Kč)
17
15
13
11
9
7
5
1 ZŠ
2 VYUČ
3 SŠ
4 VŠ
Zdroj: ISSP 2007, N valid = 843
Poznámka: počet chybějících hodnot u příjmu je 30 %.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
27
Spojnici trendu lze vypnout
Graf. Osobní čistý měsíční příjem podle vzdělání, ČR 2007, průměry a 95 % intervaly
spolehlivosti
Příjem (tis. Kč)
17
15
13
11
9
7
5
1 ZŠ
2 VYUČ
3 SŠ
4 VŠ
Zdroj: ISSP 2007, N valid = 843
Poznámka: počet chybějících hodnot u příjmu je 30 %.
Povšimněte si co je uvedeno v nadpisu grafu a jeho zápatí. Vždy uvádějte co je v grafu či
tabulce (k jaké populaci se vztahuje, jaké proměnné a jaké statistiky v něm jsou), zdroj dat a
počet platných odpovědí (N validní).
*----------------------------------------------------------------------------------------------------------.
*Příště 25/5/10 (setkání navíc) si ukážeme, na co vše si dát pozor a jak vztahy vizualizovat
pomocí grafů.
*Znovu také probereme, jak rozdíly či vztahy posoudit pomocí statistického testu nezávislosti.
*Soustředíme se hlavně na test vztahů kategoriálních (nominální a ordinální) znaků
v kontingenční tabulce.
FHS UK, Vytvořil Jiri Safr dne 2.9.2010 2:47:00, aktualizováno 2/2/2010
28

Podobné dokumenty

Studijní opora ke kurzu KMVP

Studijní opora ke kurzu KMVP Realizovat „kvantitativní“ sociologický výzkum, ba dokonce si jen jeho realizaci v konkrétních  krocích představit, je pro někoho, kdo s ním nemá zkušenosti poměrně obtížně, i když se to  na první ...

Více

verze v pdf - Analýza kvantitativních dat

verze v pdf - Analýza kvantitativních dat kategoriích vysvětlujícího znaku (např. průměr příjmu v kategoriích vzdělání). C) porovnání hodnoty s výsledky z jiného výzkumu (např.

Více

Přednáška 4

Přednáška 4 Použití funkce strcat k řetězení znakových polí: >> a1=input('jmeno :','s') jmeno :pokus a1 =pokus >> a2=input('pripona :','s') pripona :txt a2 =txt >> U1=strcat(a1,'.',a2) U1 =pokus.txt Použití fu...

Více

verze v pdf - Analýza kvantitativních dat

verze v pdf - Analýza kvantitativních dat závěr, že z výběru lze provést zobecnění (zde zobecnění, že v souboru studentů je počet spokojených větší než 50 %). • Statistická významnost tedy znamená pouze, že výsledek je „‚statisticky zobecn...

Více

Text zadání

Text zadání 10. Na ekonomické fakultě cvičí statistiku 4 pedagogové: Č, B, K a R. Statistická témata jsou rozdělena do 4 částí: Pravděpodobnost, deskriptivní metody, induktivní metody a regresní analýzy. Jedno...

Více

manual-lovtec-magic-verze-vstiky-JET

manual-lovtec-magic-verze-vstiky-JET kalibrace si řídící jednotka nastaví parametr „Naklonění“. V záložce modelování nyní můžeme zkontrolovat, zda se parametr „Naklonění“ nezměnil příliš. Změna větší než níže uvedená bude znamenat nes...

Více

Jiří Šafr - Pracoviště historické sociologie FHS UK

Jiří Šafr - Pracoviště historické sociologie FHS UK Šafr, J., J. Häuberer. 2007. „Měření přemosťujícího sociálního kapitálu: baterie PSK zjišťující odlišnosti v okruhu přátel.“ [Measuring Bridging Social Capital: the BSC Item Battery for Ascertainin...

Více

Návod na statistický software PSPP, část 1.

Návod na statistický software PSPP, část 1. Analýza dat 1. – popisné statistiky pomocí FREQUENCIES.......................................... 12 CSV – univerzální formát pro data ..................................................................

Více

zde ke stažení

zde ke stažení Žadate|ajisti' aby infoanee ojeho áněru a o ton, Že pod!| ádost o v.wdániúzemnihÓÍozhodnulí,byla bezodk]adněpolé,co by|o 'ařizeno v9iej'é úsE jední'i. qaěše|a na misléU enén Šavebíjň úřadom nebÓ n....

Více

TEC-3D mod

TEC-3D mod v každém směru (U, V) a má n+1 řídicích bodů. Tyto řídicí body tvoří řídicí polygon. Změnou polohy řídicího bodu se mění geometrie celé plochy. V případě, že je plocha vytvořena z křivek o více než...

Více