Datová infrastruktura pro sociální výzkum

Transkript

Datová infrastruktura pro sociální výzkum
Sociologický datový archiv
Infrastruktura pro empirický sociální výzkum
Sociologický ústav AV ČR, v.v.i.
Jilská 1, 110 00 Praha 1
 (knihovny, klasické archivy ...)
 Zdroje dat pro sekundární analýzu: datové archivy, sítě datových služeb,
statistické úřady, veřejně přístupné databáze, mezinárodní statistické služby,
mezinárodní organizace ...
Sociologie jako souč
současná
asná vědní
dní disciplí
disciplína
doktorandský kurz FSV UK
 Informační služby: přehledy a databáze projektů, datových souborů,
výsledků, výzkumníků, výměna informací...
 Metodologická centra: konzultační a analytické služby, standardizace a
Datová infrastruktura
pro sociální výzkum
harmonizace, kvalitativní standardy, kontrola kvality, metavýzkum
 Zdroje indikátorů: banky otázek, výzkum sociálních indikátorů
 Centra pro výuku metod a výzkumné pobyty
 Speciální výzkumná šetření: např. šetření typu General Social Survey,
Jindřich Krejčí
mezinárodní výzkum
•
[email protected]; SDA: http://archiv.soc.cas.cz; SOU: http://www.soc.cas.cz
příklady: GESIS (www.gesis.org), ICPSR (www.icpsr.umich.edu),
ESDS (http://www.esds.ac.uk/), IRISS -C/I (www.ceps.lu/iriss)
3
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
Sdílení dat
Obsah
volný pohyb informací
 infrastruktura výzkumu, sdílení dat,
autorská práva
ochrana osobních dat
 výzkum
 veřejná kontrola, otevřená debata
 podklady pro rozhodování, informační společnost
sekundární analýza dat
 kde hledat data
Význam sdílení dat pro výzkum
 systém NESSTAR
Â
Â
Â
Â
 Sociologický datový archiv
efektivita investic, důslednější využití informací v datech
archivace = zachování
zdroje pro výuku
vytváření nových zdrojů informací (propojování souborů), časová a
mezinárodní komparace
 organizační podmínky pro mezinárodní komparativní výzkum a mezinárodní
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
2
Â
Â
Â
Â
spolupráci
možnost kontroly
standardizace a harmonizace, systematičnost výzkumu
kvalitativní standardy
rozvoj sociálních věd - nová data, nové možnosti, nové metody
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
4
1
Sociálněvědní datové archivy
Sekundární analýza
Â
Â
Â
Â
Â
Â
Â
Â
 data pořízena pro jiný výzkumný záměr
 obrovská produkce dat, dostupnost => rostoucí význam s.a.
 nové možnosti výzkumu vs. nová rizika
•
•
•
•
•
•
•
•
koncepce výzkumu
vyhledání dat
studium metadat (kontext výzkumu, metodika, indikátory kvality...)
prozkoumání dat, zhodnocení a verifikace
úpravy, transformace  nezbytná podmínka efektivity výzkumu
analýza
 oddělení výzk.fází - riziko nesystematic.
interpretace
 nedostatečná dokumentace: znalost
dokumentace
původního konceptu? znalost kontextu
použitých
výzkumu? znalost průběhu sběru dat?...
dat součástí
 modifikace dat, kombinace více souborů
publikované stati
 problém srovnatelnosti
 omezení přístupu k datům
nekompatibilita formátů
Datová
3. 2008
Datová infrastruktura, doktorandský kurz, 11.Â
infrastruktura od 60. let 20. stol. - dnes standard
národní centra datových služeb
zázemí pro speciální výzkumné projekty
zázemí pro mezinárodní spolupráci a komparativní výzkum - sítě
zázemí pro výuku metod
zázemí pro metodologický výzkum
všeobecná podpora sekundárního využití dat
vývoj informačních technologií
Vývoj:
 technologie
•
•
Internet: globální, snadný, časově a finančně nenáročný přístup;
možnosti propojování.
Počítačová paměť: nové typy dat a nové metody (sociální sítě,
prostorová data, makrosociologické modely, simulační modelování).
 mezinárodní spolupráce
5
Kde hledat data
•
•
•
•
•
•
mezinárodní propojování datových služeb
srovnatelná data - harmonizace, propojování databází
zázemí pro komparativní výzkum a mez. spolupráci ve výzk.
standardizace a harmonizace technologií
spolupráce na nových technologiích
informační politika
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
7
Přístup přes internet
 ČR: Sociologický datový archiv SOÚ AV ČR
...na internetu:
http://archiv.soc.cas.cz
 sociálněvědní datové archivy (akademická infrastruktura)
 Mezinárodní sítě archivů:
 weby výzkumných projektů (ESS, ISJP,...)
 statistické úřady (Eurostat, národní s.ú.)
• Evropa - CESSDA http://www.cessda.org
 mezinárodní instituce (OECD, World Bank,...)
• USA - ICPSR http://www.icpsr.umich.edu/
(Council of European Social Science Data Archives)
 tématické archivy (Web of Happiness...)
(Inter-university Consortium for Political and Social Research)
• IFDO http://www.ifdo.org/
(International Federation for Data Organizations)
• IASSIST http://www.iassistdata.org
(International Association for Social Science Information Systems and
Technology)
• Východní Evropa: EDAN http://www.gesis.org/en/data_service/eastern_europe
 inventáře, adresáře datových služeb (NESSIE,...)
 publikace
 výzkumné instituce, autorské týmy
 Slovenský archív sociálnych dát FFUK http://www.sasd.konzum.sk/
Dátový archiv SÚ AV ČR http://www.sociologia.sav.sk/archiv/
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
6
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
8
2
Weby výzkumných projektů
Některé důležité archivy CESSDA
 Eurobarometers:
 ZA, Kolín nad Rýnem, http://www.gesis.org/ZA
• rozsáhlá datová knihovna včetně mezinárodních dat
• ISSP, EVS, Eurobarometer, East Europe, Election Studies
• jarní školy, centrum pro stážisty
 UK Data, Essex, http://www.data-archive.ac.uk/
• rozsáhlá datová knihovna včetně mezinárodních dat
• jarní školy, centrum pro stážisty
•
•
•
•
•
•
 ISSP (International Social Survey Programme): 39 zemí světa,
v ČR od 1992, www.issp.org , ZA (ZACAT, www.gesis.org/za), každý
rok jedno téma: Sociální nerovnosti, Životní prostředí, Rodina a gender,
Národní identita, Role vlády, Pracovní orientace, Náboženství, Sociální
sítě, Občanství, Volný čas a sport
 NSD, Bergen, Norsko, http://www.nsd.uib.no/
• rozsáhlá datová knihovna, regionální data
• vývoj technologií (statistika, informace)
 CEPS/INSTEAD, Lucembursko, http://www.ceps.lu/
• socioekonomická data, centrum pro stážisty
 výzkumy hodnot:
 SIDOS (Švýcarsko), DDA (Dánsko), FSD (Finsko)
 ADP (Ljubljana), TARKI (Budapest)
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
9
•
European Values Study (EVS): perioda cca 10 let, hodnoty sociální,
•
World Values Surveys (WVS): obdobná témata jako EVS,
Inglehartovy koncepty postmaterialismu, častější perioda, různé verze
datových souborů v archivech CESSDA nebo lze získat od autorů
kultura, politika, náboženství, téměř celá Evropa a Turecko, ČR 1991, 1999,
2008/09, ZA (ZACAT, www.gesis.org/za)
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
11
Kontinuální projekty - pokračování
Výuková a výzkumná centra
 ESS (European Social Survey): obecný sociální výzkum, většina
zemí EU a některé další, každé 2 roky od 2002, vybrané indikátory z
nejvýznamnějších oblastí a střídání specifických tématických modulů,
metodologický výzkum, www.europeansocialsurvey .org
 ECASS - European Centre for Analysis in the Social Sciences, Essex,
http://www.iser.essex.ac.uk/ecass/
 OECD projects on Education:
 Essex Summer School in Social Science Data Analysis and Collection,
•
http://www.essex.ac.uk/methods/
 ZA-EUROLAB, Köln, http://www.gesis.org/en/research/EUROLAB/
 ZA Spring Seminars, http://www.gesis.org/za
(http://www.gesis.org/Veranstaltungen/ZA/FS/index.htm)
 IRISS - Integrated Research Infrastructure in the Socio-economic Sciences
Â
at CEPS/INSTEAD, http://www.ceps.lu/iriss/
Â
 ICPSR Summer Program in Quantitative Methods,
http://www.icpsr.umich.edu/training/summer/index.html
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
Eurobarometer/ Standard Eurobarometer
Candidate Countries Eurobarometer (CCEB)
Central and Eastern Eurobarometer (CEEB)
Flash Eurobarometer
reports: EC: http://europa.eu.int/comm/public_opinion/
data: ZA (ZACAT)
Â
Â
Â
10
International Adult Literacy Survey (IALS) / Secondary International Adult
Literacy Survey (SIALS), data Statistics Canada: www.statcan.ca
timss.bc.edu, lighthouse.air.org/timss :
• Progress in International Reading Literacy Study (PIRLS)
• Trends in International Mathematics and Science Study (TIMSS)
• Programme for International Student Assessment (PISA), www.pisa.oecd.org
Luxembourg studies - socio-economic, www.lisproject.org
• Luxembourg Income Study (LIS), Luxembourg Employment Study (LES)
Eurofound, www.eurofound.eu.int/ewco/surveys :
• European Working Conditions Survey
Comparative Study of Electoral Systems (CSES), www.cses.org
Democracy and Local Governance (DLG), www.ssc.upenn.edu/dlg
Family and Fertility Surveys (FFS), www.unece.org/ead/pau/ffs
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
12
3
Statistické úřady
 zapojení do mezinárodních sítí:
 ČSÚ: www.czso.cz
 Eurostat: ec.europa.eu/eurostat
•
•
•
Mezinárodní instituce
EDAN (East European Data Archives Network)
REGIO (Regional Data Archives Network)
 spolupráce při organizaci mezinárodních šetření v ČR:
 OECD, www.oecd.org/statsportal
 World Bank, www.worldbank.org/data
 UN, unstats.un.org www.un.org/databases
•
•
•
•
•
•
•
UN Development Prog., lidské zdroje, hdr.undp.org/statistics
UNECE - UN Economic Commision for Europe, www.unece.org
UN FAO
UNICEF
UNIDO
 UNESCO: vzdělání, věda a výzkum, kultura, komunikace, www.unesco.org
 NATO Science, Technology and Research Network (STARNET) ,
starnet.rta.nato.int
 WHO (health), WHOSIS www.who.int/whosis
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
CESSDA (Council of European Social Science Data Archives)
13
pravidelně: ISSP (International Social Survey Programme),
ESS (European Social Survey),
další projekty: SIALS, PISA-L...
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
Datové služby
Archiv SDA a jeho poslání
 vlastní datová knihovna:
 veřejně přístupný národní archiv primárních dat
•
cca160 souborů z akademických sociologických výzkumů
pro sociologický výzkum
 založen 1998, oddělení Sociologického ústavu AV ČR
•
•
výzkumy veřejného mínění CVVM/IVVM od r. 1989
kvalitativní data: MEDARD
 infrastruktura
•
•
•
(včetně mezinárodních souborů z jiných archivů)
 přístup k datům v archivech CESSDA na zákl. smluv
o mezinárodní výměně dat
akvizice, archivace a poskytování dat
podpora sekundární analýzy sociálních dat
podpora pro speciální výzkumné projekty
 www adresář zdrojů dat na internetu
 metodologický výzkum, další výzkumné aktivity ve spolupráci s
 přístup k datům:
•
•
•
•
•
dalšími odděleními
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
15
14
dokumentace na Webu: http://archiv.soc.cas.cz
objednání - souhlas s podmínkami - distribuce email/Web
vybrané soubory on-line
NESSTAR (distribuce a analýza pře Web)
samostatný archiv MEDARD pro kvalitativní data
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
16
4
Dokumentace dat
 archivace - klasifikace, dohledatelnost
 základní informace pro účely sekundární analýzy
•
•
•
o původním projektu
o průběhu výzkumu
o datech
 trvalost a flexibilita = široká softwarová kompatibilita
 mezinárodní spolupráce, networking = kompatibilita
Mezinárodní standard DDI: www.icpsr.umich.edu/ddi
•
•
•
•
•
Document Description
Study Description
Data Files Description
Variable Description
Other Documentation
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
17
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
19
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
18
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
20
5
MEDARD
Â
Â
Â
Â
kvalitativní datový archiv
založen 2000
do 2005: Virtuální institut
od 10/2005 součástí SDA
služby:
 poskytování dat
(6 projektů)
 on-line poradna o
digitalizaci, technologiích
kvalitativního výzk. a
ochraně osobních údajů
 www odkazy na zdroje dat
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
21
Přístup k datům
•
•
23
Management dat
ICPSR: Planning Ahead for Archiving
 Kategorie přístupu:
•
•
•
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
O soubory přístupné on-line
A soubory dostupné za dodržení standardních podmínek
B soubory dostupné za dodržení standardních a specifických
podmínek určených depozitorem
C k poskytnutí je nutný písemný souhlas depozitora
X pouze pro vyjmenované instituce nebo osoby
 Standardní podmínky:
•
•
•
•
•
•
•
pouze nekomerční výzkum nebo výuka
dodržení předem stanoveného účelu použití dat
ochrana osobních údajů respondentů
respektování autorských práv, citace
zákaz další distribuce bez svolení archivu
sdělení bibliografických údajů publikací
archiv neodpovídá za spolehlivost dat
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
22
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
24
6
Ošetření dat součástí projektu výzkumu
Dokumentace
 review existujících dat: co chybí -> zda a jaká data pořídit, na co navázat
(mezinárodní srovnání, časové srovnání - konstrukce dotazníku)
•
•
•
•
•
 stanovení cíle: jaký je účel pořízení dat, kdo budou uživatelé
 copyright a ochrana osobních údajů: metodika, přístup k datům
 požadavky na přesnost:
•
•
velikost souboru, metoda výběru, metoda sběru...
náklady (kvalita: přesnost vs. náklady)
 management kvality dat (sledování ukazatelů, kontrolní body, úroveň
SIMAR, www.simar.cz
ESOMAR, www.esomar.org
EFAMRO, www.efamro.org
AAPOR (WAPOR), www.aapor.org
ČSN ISO 20252
 formát (word / text / PDF / XML...)
 standardizace (standardní položky, DDI)
kontroly): návratnost, kontrola tazatelů, kontrola vkládání dat atp.;
viz standardy též kvality: SIMAR, ESOMAR, WAPOR, AAPOR, ISO...
 dokumentace
•
•
 standardy:
DDI: www.icpsr.umich.edu/DDI/
formát dokumentace: tech. zpráva/codebook, elektr. formát,...
položky v dokumentaci (DDI): co a kdy zjistit
 způsob vkládání dat -> konstrukce dotazníku
 integrita dat: filtry, způsoby čištění dat -> konstrukce dotazníku
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
25
ICC/ESOMAR International Code (Rule 25)
...ošetření dat součástí projektu
27
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
http://www.esomar.org/
The Client is entitled to the following information...:
 jaké transformované proměnné (získat podklady pro transformaci)
1. Background (for whom the study was conducted, the purpose of the study names of
subcontractors and consultants performing any substantial part of the work).
-> konstrukce dotazníku
2. Sample (a description of the intended and actual universe covered, the size, nature and
geographical distribution of the sample (both planned and achieved);and where relevant, the extent
to which any of the data collected were obtained from only part of the sample, details of the
sampling method and any weighting methods used, where technically relevant, a statement of
response rates and a discussion of any possible bias due to non-response).
 navržení struktury datového souboru (1 nebo víc souborů)
 způsob označení proměnných
 chybějící hodnoty
 způsob uchování - media, formát, depozice v archivu
3. Data collection (a description of the method by which the information was collected, a
description of the field staff, briefing and field quality control methods used, the method of recruiting
Respondents; and the general nature of any incentives offered to secure their co-operation, when
the fieldwork was carried out, (in the case of ‘desk research') a clear statement of the sources of
the information and their likely reliability).
4. Presentation of results (the relevant factual findings obtained, bases of percentages (both
weighted and unweighted), general indications of the probable statistical margins of error to be
attached to the main findings, and of the levels of statistical significance of differences between key
figures, the questionnaire and other relevant documents and materials used (or, in the case of a
shared project, that portion relating to the matter rep.).
The Report on a project should normally cover the above points or provide a reference to a
readily available separate document which contains the information.
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
26
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
28
7
Obsah dokumentace
Návratnost v dokumentaci
 Institucionální kontext šetření: název šetření, název projektu,
 výpočet:
response rate =
autor, instituce, sponzor (včetně č. grantu), agentura sběru dat
 Popis projektu - abstrakt: témata, cíle, vztah projektu a datového
souboru, historie,kontext průběhu šetření,..., klíčová slova
 Čas a geografická lokace šetření
ineligibles: zpravidla špatné adresy (chyba opory)
field response rate: zohledňuje nemožnost provést interview (dlouhodobě
nemocné, neznalé jazyka atp.
co-operation rate: completed interviews / contacted
refusal rate, contact rate, nonresponse
 Metodologie šetření:
•
•
•
•
•
•
•
cílová populace
jednotka výběru (jednotlivec, domácnost,...)
opora výběru
metoda a design výběru
známé odchylky (bias)
návratnost (response rate, co-operation rate, nonresponse)
metoda sběru dat (interview, CAPI, CATI...počet tazatelů, údaje
o kontrole tazatelů atp.)
údaje o vkládání a čištění dat (automatické, osobní, kontroly...)
(informace o předvýzkumu)
•
•
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
 standard AAPOR/WAPOR
Standard Definitions. Final Dispositions of Case Codes and Outcome Rates for Surveys. 2000.
http://www.aapor.org/pdfs/newstandarddefinitions.pdf
29
Â
Â
Â
Â
v souboru, počet neplatných adres
 počet tazatelských míst
 různé druhy výpadků:
•
•
•
•
•
•
•
•
přesné znění otázky, číslo otázky v dotazníku
kdo na otázku odpovídal (např.: všichni/ pouze svobodní)
popis hodnot proměnné
popis transformací
chybějící hodnoty
(distribuce odpovědí (vážena/nevážená))
pozice v souboru
nesprávná adresa (v opoře jsou chyby, osoby mimo cílovou
populaci)
výpadek tazatele - nezpracované adresy
nezastižení domácnosti nebo respondenta
odmítnutí domácností nebo respondentem
nedokončený rozhovor
náhradní domácnosti
špatně vyplněné dotazníky
chyby při zpracování
 Souhrnné ukazatele:
formát a rozsah datového souboru
překlad a kontrola překladu
informace o problematických otázkách (srovnatelnost,...)
reference: publikace, www odkazy,...
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
31
 základní údaje: počet vydaných adres, počet dotazníků
ano/ne
zdůvodnění
popis procedury (algoritmus)
doporučení pro vážení
jména proměnných vah
 Informace o proměnných v souboru:
•
•
•
•
•
•
•
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
Sledování návratnosti
 Vážení
•
•
•
•
•
number of achieved interviews
number of individuals/households/addresses
selected, MINUS ineligibles
•
•
•
30
počet dotazníků ke zpracování / počet vydaných adres
počet dotazníků ke zpracování / počet použitelných adres
počet použitelných adres - odmítnutí a nezastižení / počet
použitelných adres
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
32
8
Kódování
 specifikace - kontrola (kódovník, školení, kontrolní body)
 způsob záznamu: po skončení sběru, skenování, CAPI, CATI...
 provázanost se sběrem dat: výcvik tazatelů, dodržování pokynů, filtry,
Formát datového souboru
 SPSS, SAS, STATA, Statistica...
přesnost odpovědí (zaměstnání), field coding
•
•
systémové soubory
exportní soubory (SPSS portable,...)
 Excel, D-Base,...
 ASCII formát + informace o počtu řádků, jménech,
pozici a velikosti proměnných
 kód + textové označení
 systematičnost, vyčerpávající výčet kategorií, exklusivita, konečný
počet kategorií, vhodnost pro analýzy
 co nejméně kroků k finálnímu záznamu = menší počet chyb
 systém označení:
•
•
•
Uchování dat - zálohy
Â
Â
Â
Â
Â
 server, CD / dat. kazeta ...
 kopie mimo budovu
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
33
pořadí v souboru (V1, V2,...)
jména otázek (Q1a, Q1b,...)
obsah proměnných (EDUC, AGE,..., MO_EDUC, FA_EDUC)
dávat pozor na formát (jedna, dvě číslice,..., desetinná místa)
nároky software (nezačínat název číslem, délka názvu...)
labels: povolená délka, vhodná délka, vkládat číslo otázky?, ...
možno více struktur kódování pro jednu položku
otevřené otázky - ekvivalence odpovědí?
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
Struktura souboru
Hodnoty proměnné
 čtvercová tabulka (flat file) nebo jiné uspořádání (např.
Â
Â
Â
Â
Â
Â
hierarchické uspořádání)
 jeden nebo více datových souborů (např. soubor
domácností, soubor jednotlivců)
 velikost datových souborů (formát proměnných, odstranění
prázdných míst)
35
string/number
labels (myslet na zobrazení v tabulkách)
exklusivní, vyčerpávající
systém
chybějící hodnoty
dávat pozor na formát
(jedna, dvě číslice,..., desetinná místa)
 definice platných hodnot - kontrola kódování
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
34
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
36
9
Chybějící hodnoty
Vážení
 které sledovat separátně? (odmítnutí, neví, chyba při
zpracování, nevyhovuje (např. při filtru), chybí ve zdroji (např. při
spojování souborů)
 jsou v souboru váhy?
 použít váhy?
 způsob kódování: system missings vs přidělit zvláštní hodnoty
•
•
•
(0, 9, 99 ..., -1, -2, -3, ...) Pozor např. 0 u příjmu by neměla
znamenat zároveň žádný příjem a chybějící odpověď
 způsob označení - systém zkratek:
•
•
•
•
•
•
NA: No answer
DK: Do not know
NAP: Not applicable, INAP: Inapplicable
Refusal
Processing error
No match
 různé důvody vážení - různé druhy vah:
•
•
•
•
•
•
 zařazení/vyřazení ze zpracování
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
popis vah, jaký je algoritmus, jaký je rozsah? DOKUMENTACE!!
pokud ano, v kterých analýzách?
jaký je výsledek s váhou a jaký bez váhy?
37
přizpůsobení poměrů skupin (např. země v ESS)
korekce zastoupení specifických skupin
vážení nerovných pravděpodobností výběru (design weights)
vážení chybějících údajů
poststratifikační váhy
celkové váhy
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
39
Čištění dat
 kontrola vkládání dat
 základní otázky:
•
•
•
odpovídá počet případů v souboru?
obsahuje soubor všechny proměnné?
známe obsah všech proměnných v souboru?
 nesmyslné znaky, kódy
 hodnoty mimo definovanou mez
 integrita souboru
•
filtry, konsistence odpovědí (např. počet členů domácnosti), vztahy v
souboru (souvislost počtu krav a produkce mléka, příjem a zaměstnání atp.),
srovnání s historickými a faktickými údaji, vyváženost (počet odpracovaných
hodin), kontrola extrémních hodnot (příjmy)
 chybějící hodnoty
 doplnění chybějících údajů?
 nahrazení - imputace?
Datová
Datová infrastruktura, doktorandský kurz, 11. 3. 2008
38
10

Podobné dokumenty

PDF článku ke stažení…

PDF článku ke stažení… Častým a důležitým zdrojem informací v sociálněvědním výzkumu jsou mimo klasické sociálněvědní archivy a databáze i archivy různých organizací či institucí. Ty kromě své další činnosti takto poskyt...

Více

SYSTÉM SEBEHODNOCENÍ TĚLESNÉ ZDATNOSTI V

SYSTÉM SEBEHODNOCENÍ TĚLESNÉ ZDATNOSTI V Tato zjištění jsou již několik let podnětem pro vytváření národních i nadnárodních strategií pro podporu pohybových aktivit a zdravého životního stylu v  řadě zemí celého světa [19, 10, 7, 17]. Kom...

Více

na počátku jsem články vystřiHoval, ale brzy jsem s tím

na počátku jsem články vystřiHoval, ale brzy jsem s tím vydání očekávám v nejbližších dnech. Editor této publikace, pan Mgr. Tomáš Pospěch, do ní začlenil několik kapitol z nevydané knížky o mauzoleu. Zdá se mně to logické. Převážná větši­ na nešťastník...

Více

Zpravodaj 52 - eurachem-čr

Zpravodaj 52 - eurachem-čr postupy pro personální řízení pro všechny pracovníky laboratoře. V kapitole 5.2. Prostory a podmínky prostředí pak jsou podrobně popsány a definovány podmínky pro prostředí vlastních laboratorních ...

Více

MALOOBCHODNÍ CENÍK (platný od 24.5.2012)

MALOOBCHODNÍ CENÍK (platný od 24.5.2012) MALOOBCHODNÍ CENÍK (platný od 24.5.2012) www.iriss.cz

Více

Seminář o digitálních zdrojích a službách ve společenských

Seminář o digitálních zdrojích a službách ve společenských Seminář o digitálních zdrojích a službách ve společenských a humanitních vědách (1st Workshop on Digital Humanities 2015 - WDH 2015) pořádá LINDAT/CLARIN, český uzel infrastruktury pro jazyková dat...

Více

Evaluace dopadu APZ - Evaluační teorie a praxe

Evaluace dopadu APZ - Evaluační teorie a praxe oblasti, principy a postupy hodnocení výsledků a dopadů programů aktivní politiky zaměstnanosti (APZ) s využitím administrativních dat systému OKpráce. Metodologickým postupem přitom máme na mysli ...

Více