Statisticka analyza prezivani s aplikaci na odchod od

Transkript

Univerzita Karlova v Praze
Přírodovědecká fakulta
Katedra demografie a geodemografie
STATISTICKÁ ANALÝZA PŘEŽÍVÁNÍ
S APLIKACÍ NA PROCES ODCHODU OD RODIČŮ V ČESKÉ REPUBLICE
Disertační práce
Plasy, Praha 2005
Mgr. Michal Škop
PODĚKOVÁNÍ
Dokončení disertační práce (bez toho, aniž bych zde předjímal výsledek obhajoby) je
vhodnou příležitostí poděkovat těm, bez nichž by nikdy nevznikla nebo by vznikala daleko
hůře. Přesto, že jsem si vědom, že zde nemohu poděkovat všem, kteří by si to zasloužili a
jimž děkuji alespoň v skrytu duše.
Na prvním místě bych tedy zde chtěl poděkovat svým rodičům, nejen za všechnu tu podporu
po dlouhé roky studia. Samozřejmě i svým sourozencům a jejich rodinám.
Dále bych chtěl poděkovat svojí školitelce prof. RNDr. Jitce Rychtaříkové, CSc. nejen
v souvislosti s celým doktorským studiem a vedením této disertační práce (včetně připomínek
k ní).
Velký dík patří také oponentům (v abecedním pořadí) doc. RNDr. Felixi Koschinovi, CSc.a
doc. RNDr. Janu Řehákovi, kteří připomínkovali tuto práci v průběhu její tvorby při státní
doktorské zkoušce. Díky nim doznala podstatných změn, o nichž věřím, že jsou jen k lepšímu.
Tato práce by také vznikala daleko obtížněji bez účasti v International Max Planck Research
School of Demography při Max-Planck Institute for Demographic Research v Rostocku v
zimním semestru 2003-2004. Zvláštní dík pak patří kolegům Lence, Kamilovi, Markétě,
Quing, Lee, Anně, Doře, Karin, Giancarlovi, ale samozřejmě i dalším. Prof. Jan Hoem zcela
jistě také přispěl ke směru této práce.
Za podporu bych chtěl také poděkovat Katedře demografie a geodemografie Přírodovědecké
fakulty UK, kde jsem byl studentem doktorského studia nejprve v kombinované a později
v denní formě studia.
Obdobně také patří dík mým pedagogům z ostatních škol, jež jsem navštěvoval, a kteří mě
pomohli na toto studium se připravit (všem dobrým pedagogům z Matematicko-fyzikální
fakulty v první řadě).
Nemalý dík patří také společnosti StatSoft CR nejen za umožnění práce se software
STATISTICA Data Miner, pomocí něhož byly vytvořeny všechny grafy v této práci a
odhadována většina zde použitých modelů. Také za umožnění práce na některém dalším
software i hardware.
Nejen za připomínky a návrhy ke grafickému vzhledu a typografii této práce děkuji Jarovi,
který mě také přivedl na www.e-motek.com, odkud jsou použité animace, za něž zase děkuji
amsterdamské společnosti Motek.
Také bych chtěl opravdu poděkovat všem autorům, kteří publikují svoje práce na internetu a
dávají tak vědecké výsledky volně k dispozici.
Podobně bych chtěl poděkovat i autorům vyhledávače Google (a jeho části Scholar.Google),
který byl jedním ze základních nástrojů (a bezpochyby nejsnáze použitelným) při vyhledávání
podkladů pro tuto práci.
ii
Poděkování je na místě i pro Irfana Skiljana, autora programu IrfanView, který byl často
použit při nejrůznější práci s obrázky.
The author wishes also to thank the Advisory Group of the FFS program of comparative
research for its permission, granted under identification number 75, to use the FFS data, on
which this study is based.
Poděkování patří také všem přátelům, jež zde nebudu jmenovat, abych udržel rozumnou délku
této části. Díky nim se tato práce psala o poznání snáze, než by to bylo bez nich.
Na závěr bych chtěl poděkovat Janě za všechno, i když se ke korektuře této práce samozřejmě
nedostala (-:
v Plasích
květen 2005
Michal Škop
iii
OBSAH
1
ÚVOD.................................................................................................................................1
1.1
1.1
1.2
1.3
1.4
2
ZAVEDENÍ ZÁKLADNÍCH POJMŮ ANALÝZY PŘEŽÍVÁNÍ ..............................8
2.1
2.1
2.2
2.3
3
PROLOG ............................................................................................................................3
PROLOG ............................................................................................................................3
CÍLE PRÁCE .......................................................................................................................3
STRUKTURA PRÁCE ...........................................................................................................4
VLASTNÍ PŘÍNOS K VĚDECKÉMU POZNÁNÍ .........................................................................6
ÚVOD ..............................................................................................................................10
ÚVOD ..............................................................................................................................10
PŘEŽÍVÁNÍ JAKO SPOJITÁ A SMÍŠENÁ NÁHODNÁ VELIČINA ..............................................10
FUNKCE TABULEK ŽIVOTA ..............................................................................................21
ZÁKLADNÍ MODELY ANALÝZY PŘEŽÍVÁNÍ.....................................................27
3.1 ÚVOD ..............................................................................................................................29
3.2 AKTUÁRSKÝ ODHAD (ACTUARIAL ESTIMATOR) .............................................................31
3.3 KAPLAN-MEIERŮV ODHAD (KAPLAN-MEIER ESTIMATOR)..............................................31
3.4 NELSON-AALENŮV ODHAD (NELSON-AALEN ESTIMATOR).............................................34
3.5 VZTAH MEZI KAPLAN-MEIEROVÝM A NELSON-AALENOVÝM ODHADEM........................36
3.6 KAPLAN-MEIERŮV A NELSON-AALENŮV ODHAD V PŘÍPADĚ ODCHODU OD RODIČŮ
V ČESKÉ REPUBLICE ...............................................................................................................37
4
MODELY S VYSVĚTLUJÍCÍMI PROMĚNNÝMI ..................................................43
4.1
4.1
4.2
4.3
4.4
ÚVOD ..............................................................................................................................45
ÚVOD ..............................................................................................................................45
OBECNÉ ZAVEDENÍ MODELU ...........................................................................................45
VYBRANÉ MODELY .........................................................................................................47
POROVNÁNÍ ZÁKLADNÍCH MODELŮ S VYSVĚTLUJÍCÍMI PROMĚNNÝMI V PŘÍPADĚ
ODCHODU OD RODIČŮ V ČR U OSOB BEZ A SE SOUROZENCI ...................................................51
5
LOG-LINEÁRNÍ MODEL INTENZITY.....................................................................60
5.1
5.2
5.3
5.4
5.5
5.6
ÚVOD ..............................................................................................................................62
ZAVEDENÍ MODELU .........................................................................................................63
D-FUNKCE VS. R-FUNKCE ...............................................................................................64
ZÁKLADNÍ FUNKCE (BASELINE) ......................................................................................67
ABSOLUTNÍ ČLEN (CONSTANT) .......................................................................................69
PODMÍNĚNÉ VS. NEPODMÍNĚNÉ FUNKCE (CONDITIONAL/KICK-IN AND UNCONDITIONAL
SPLINES).................................................................................................................................70
5.7 KOVARIANTA PROMĚNNÁ V ČASE (TIME-VARYING COVARIATE).....................................73
5.8 KOVARIANTA NEPROMĚNNÁ V ČASE (FIXED COVARIATE)...............................................76
5.9 INTERAKCE (INTERACTION) ............................................................................................78
5.10 VÍCEÚROVŇOVÝ MODEL (MULTILEVEL MODEL) ...........................................................88
5.11 MODEL S INTERAKCEMI VS. VÍCEÚROVŇOVÝ MODEL ....................................................89
5.12 NEVYSVĚTLENÁ HETEROGENITA (UNOBSERVED HETEROGENEITY) ..............................90
5.13 VÍCEPROCESOVÝ MODEL (MULTIPROCESS MODEL).......................................................92
iv
5.14
5.15
5.16
5.17
5.18
5.19
6
COXOVA REGRESE (COX’S REGRESSION) ......................................................................92
ANTICIPATORNÍ ANALÝZA (ANTICIPATORY ANALYSIS) ................................................93
ODHADOVÁNÍ PARAMETRŮ MODELU .............................................................................96
TVORBA MODELU (MODEL BUILDING) ..........................................................................98
LOGIT-LINEÁRNÍ MODEL PRAVDĚPODOBNOSTI ............................................................105
VÝZNAMNOST PROMĚNNÝCH ......................................................................................110
ODCHOD OD RODIČŮ V ČESKÉ REPUBLICE....................................................115
6.1 CÍLE ..............................................................................................................................117
6.2 ODCHOD OD RODIČŮ JAKO SOUČÁST PŘECHODU DO DOSPĚLOSTI ..................................117
6.3 ODCHOD OD RODIČŮ - PŘEHLED STUDIÍ.........................................................................121
6.4 DATA A METODY ...........................................................................................................122
6.5 PŘEDVÝBĚR ..................................................................................................................126
6.6 ZÁKLADNÍ PŘEHLED DAT ..............................................................................................137
6.7 TVORBA MODELU ..........................................................................................................140
6.8 VÝSLEDKY ....................................................................................................................144
6.9 VÝZNAMNOST PROMĚNNÝCH ........................................................................................201
6.10 ZÁVĚR ........................................................................................................................202
7
ZÁVĚR...........................................................................................................................205
DODATEK:
D.1
D.2
D.3
D.4
LOG-LINEÁRNÍ MODEL INTENZITY V PROGRAM AML ..........208
ÚVOD ...........................................................................................................................210
PRÁCE V PROGRAMU AML - POSTUP ZPRACOVÁNÍ.......................................................210
PŘEHLED MODELŮ........................................................................................................216
MODEL ODCHODU OD RODIČŮ V AML..........................................................................216
REFERENCE........................................................................................................................222
v
1 ÚVOD
Obsah kapitoly
1.1 PROLOG ............................................................................................................................3
1.2 CÍLE PRÁCE .......................................................................................................................3
1.3 ČLENĚNÍ PRÁCE ................................................................................................................4
První část ............................................................................................................................4
Druhá část...........................................................................................................................5
1.4 VLASTNÍ PŘÍNOS K VĚDECKÉMU POZNÁNÍ .........................................................................6
První část ............................................................................................................................6
Druhá část...........................................................................................................................7
2
1.1 Prolog
„Event History Analysis“ – pojem, jenž nemá ustálený český ekvivalent. Např. dle Jenkins
(2004) jde o označení pro modelování intenzity procesu. Tomu odpovídá i pojetí používané
v Hoem (2003). Takto se jedná o podmnožinu technik zvaných „analýza přežívání“ (Survival
Analysis), analýzy doby „života“ v nejširším smyslu (viz např. Jenkins (2004), ale už
i podobně Cox a Oakes (1984)). V souladu s tím je i definice pojmu „analýza přežívání“
uvedená v United Bristol Healthcare (2004), kde se hovoří o modelování času do první
události.
Naproti tomu např. Yamaguchi (1991) v poměrně často citované knize přímo s názvem
„Event History Analysis“ (např. druhý nejcitovanější zdroj pro tento termín dle Google
(2004)) pod tento termín zahrnuje jakoukoliv analýzu, v níž dochází k událostem. V tomto
přístupu tedy dochází k přímé záměně tohoto pojmu za pojem „analýza přežívání“, jak byl
uveden v předchozím odstavci.
V této práci bude používáno prvního pojmenování. Ovšem je dobré mít na paměti, že tyto
termíny nejsou ustáleny a jsou používány spíše volně.
Také pojem „odchod od rodičů“ není ještě ustáleně definován. Lze jej nahlížet nepřímo,
neboť se často řadí do širší oblasti „přechodu do dospělosti“ (např. Billari (2001), Corijn
(1996), Liefbroer a de Jong Gierveld (1995) či Iacovou a Berthoud (2001)). Přesto, že se
může fakticky jednat o komplexní proces, často bývá, jako v této práci, ztotožňován s prvním
odchodem od rodičů. I takto však zbývá otázka přesného určení tohoto prvního odchodu (viz
např. diskuse v Iacovou a Berthoud (2001)).
I z tohoto krátkého úvodu je zřetelné, že oblasti, jimiž se tato práce zabývá, nejsou ještě
„ustáleny“. Přesto – a snad právě proto – dosažené výsledky v těchto oblastech mohou mít
svoji hodnotu.
1.2 Cíle práce
Tato práce sleduje minimálně dva rozdílné cíle. První z nich se nachází v oblasti, kde se
demografie stýká s matematikou a statistikou. Demografie zde čerpá solidní základy z těchto
vědních oborů a naopak tyto obory zde nacházejí inspiraci pro další rozvoj.
Hlavní cíl v této oblasti je shrnutí a popis moderních přístupů modelování v demografii
(a to v českém jazyce z toho důvodu, aby práci bylo příp. možno použít i pro výuku na
magisterském studiu demografie).
Přidržíme-li se první definice uvedené výše v sekci 1.1 Prolog, je tedy prvním cílem práce
postupný popis modelů od základních technik analýzy přežívání po komplexnější model
spadající do oblasti Event History Analysis.
Druhým základním cílem práce je konkrétní analýza odchodu od rodičů v České
republice. Tato část zasahuje do oblastí, jež se jednak dotýkají sociálních věd, jednak mohou
ovlivnit i formulování strategií populační politiky.
Proces odchodu od rodičů byl volen proto, že se jedná o oblast, jež není pro Českou republiku
podrobně popsána. Přitom se jedná o jeden ze základních procesů přechodu do dospělosti
(Billari (2001), Iacovou a Berthoud (2001) a další), jež jsou důležitým polem zkoumání
v demografii. Cílem je tedy analýza odchodu od rodičů v ČR jednak v širším kontextu
3
přechodu do dospělosti (zkoumání vlivů ostatních procesů, jež se sem řadí), jednak
i v porovnání s jinými studiemi (tedy v širším geografickém komparativním kontextu).
V této analýze budou použity techniky modelování, jejichž popis je prvním hlavním cílem
této práce. Tím dojde k logickému spojení obou těchto cílů. Ve svém důsledku práce může
naznačit velikost prostoru, který moderní demografie dnes zahrnuje (viz také postavení
demografie mezi ostatními vědeckými disciplínami dle Pavlík (2000) nebo Kohler a Vaupel
(2000)).
1.3 Struktura práce
Tato práce je členěna do 8 kapitol včetně tohoto úvodu, závěru a přílohy. Zbývajících pět
kapitol je rozděleno do dvou logických částí. Kapitoly jsou značeny pořadovým číslem a je na
ně odkazováno pomocí tohoto čísla a názvu kapitoly (např. 4 Modely s vysvětlujícími
proměnnými). Každá kapitola začíná svým vlastním detailnějším obsahem (s výjimkou krátké
kapitoly 7 Závěr). Kapitoly se dále dělí na sekce, jež jsou značeny číslem kapitoly a
pořadovým číslem sekce v kapitole oddělenými tečkou. Je na ně v práci odkazováno číslem
sekce a jejím názvem (např. 4.3 Vybrané modely). Některé sekce ještě dále obsahují podsekce,
jež již jsou bez označení čísly. Na ně je odkazováno číslem s názvem sekce a názvem
podsekce (např. 4.3 Vybrané modely – Akcelerovaný model). Podsekce mohou dále obsahovat
členění o další dvě úrovně. Na ně se ovšem v textu odkazuje již neformálně či pomocí
příslušné podsekce.
Grafy a tabulky jsou číslovány a označeny číslem kapitoly a pořadovým číslem grafu nebo
tabulky v kapitole oddělenými pomlčkou. Číslovány jsou zvlášť grafy a zvlášť tabulky.
Odkazuje se na ně v textu pomocí jejich čísla (např. graf 6-2, tabulka 6-2).
První část práce je věnována obecně modelování v analýze přežívání. Tato část obsahuje
kapitoly 2 Zavedení základních pojmů analýzy přežívání, 3 Základní modely analýzy
přežívání, 4 Modely s vysvětlujícími proměnnými a 5 Log-lineární model intenzity. Druhá část
obsahuje vlastní analýzu studovaného demografického jevu v ČR za pomocí modelů
z předchozí části a je tvořena jedinou kapitolou 6 Odchod od rodičů v České republice.
První část
V první části je popsán metodologický vývoj od jednoduché tabulky života k obecnému
regresnímu modelu analýzy přežívání. Jedná se o popis modelů, jimiž lze modelovat velice
různé procesy jak demografické, tak např. z oblasti průmyslové analýzy přežívání nebo
z oblasti medicínského či biologického výzkumu. Obecně se v této části jedná o procesy, kdy
dochází k nevratnému přechodu mezi dvěma stavy. Důležité místo v této části zaujímají
příklady. Vše je ilustrováno na příkladu odchodu od rodičů v ČR (a tyto příklady mohou
sloužit jako úvod k detailní analýze, jež je obsahem kapitoly 6 Odchod od rodičů v České
republice). Výjimku tvoří kapitola 2 Zavedení základních pojmů analýzy přežívání, kde jsou
příklady z oblasti odchodu od rodičů doplněny dalšími z oblasti úmrtnosti.
Obecně jsou v této části (i celé práci) popisovány pouze modely neparametrické (de facto je
však spíše vystihuje název „mnohaparametické“). To je dáno tím, že, zdá se, (plně)
parametrické modely již nestačí potřebám moderního modelování v demografii. Mnohé
složité demografické procesy nelze dobře modelovat pomocí pouze několika parametrů.
Přesun k používání neparametrických modelů je dán také rozvojem nástrojů pro zpracování
dat. To se týká nástrojů jak hardwarových (možnost počítat iteračními postupy složité rovnice
vycházející z velkého množství dat), tak softwarových (k dispozici jsou nástroje, pomocí
4
nichž lze provádět vlastní analýzy bez nutnosti znát programovací jazyky). I v této práci jsou
použity výpočty modelů, jež by ještě před dvaceti lety byly prakticky neproveditelné (např.
hlavní model, na němž je založena analýza v kapitole 6 Odchod od rodičů v České republice).
Nejprve jsou v kapitole 2 Zavedení základních pojmů analýzy přežívání zavedeny formálním
způsobem základní funkce, jež se používají v analýze přežívání. Důležitými výsledky z této
kapitoly pro další části práce jsou odvozené vztahy mezi těmito základními funkcemi analýzy
přežívání. To v důsledku umožňuje převádět tyto funkce mezi sebou navzájem.
Kapitola 3 Základní modely analýzy přežívání popisuje tři z nejzákladnějších modelů analýzy
přežívání – aktuárský odhad, Kaplan-Meierův odhad a Nelson-Aalenův odhad, přičemž důraz
je kladen na poslední dva zde jmenované. Tyto modely představují první krok do modelování
procesů přežívání. Tyto modely však neobsahují vysvětlující proměnné těchto procesů (kromě
času).
Zahrnutí vysvětlujících proměnných do modelu je věnována kapitola 4 Modely
s vysvětlujícími proměnnými. Tato kapitola představuje další krok ke komplexnějšímu
modelování (nejen) demografických procesů. Jsou zde mj. uvedeny čtyři příklady možného
způsobu zahrnutí vlivu vysvětlujících proměnných. Z toho akcelerovaný model a model
s proporcionálním rizikem jsou patrně nejpoužívanější typy modelů. Závěr této kapitoly je
věnován praktické ukázce všech čtyř zde popsaných modelů.
Kapitola 5 Log-lineární model intenzity představuje nejdůležitější kapitolu první části, čemuž
odpovídá i její rozsah. Završuje proces tvorby modelů analýzy přežívání, jež je obsahem první
části. Přímo navazuje na předchozí kapitolu, neboť rozvíjí tam zavedený model
s proporcionálním rizikem. Dá se říci, že je obdobou obecného aditivního modelu
(s logaritmem jako linkující funkcí) ovšem pro data analýzy přežívání.
Tento model umožňuje velice flexibilní modelování demografických procesů včetně vlivu
různých vysvětlujících proměnných. Zde se může jednat o kovarianty proměnné
i neproměnné v čase, spojité R- i D-funkce a to jak nepodmíněné, tak podmíněné. Lze také
zkoumat interakce proměnných a pomocí nich jako jejich speciální případ je možné model
vystavět jako víceúrovňový. Pomocí modelování nevysvětlené heterogenity se lze jednak
přesunout z úrovně chování (sub-)populace až na úroveň individuální, jednak je možné
modelovat najednou více procesů (a souvislosti mezi nimi).
Část této kapitoly je také věnována praktickým otázkám použití modelu. Jsou zde popsány
způsoby tvorby modelu či popsán způsob, jak tento model převést na klasický obecný aditivní
model, jenž je softwarově lépe pokryt. Poslední sekce je také věnována otázce významnosti
vysvětlujících proměnných na sledovaný proces.
Tato kapitola také obsahuje hlavní vlastních příspěvek z první části, kdy je formalizován a
několika sekcemi rozvíjen přístup z Hoem (2003).
Druhá část
Druhou část práce tvoří analýza odchodu od rodičů v České republice (jedná se o jedinou
kapitolu). Jde po kapitole 5 Log-lineární model intenzity o druhou stěžejní kapitolu této práce,
neboť tento proces ještě nebyl pro ČR detailněji zkoumán.
5
Tento proces je analyzován v souvislosti širší skupiny demografických procesů, jež se řadí do
skupiny procesů přechodu do dospělosti. Jedna sekce této kapitoly je přímo věnována
základnímu porovnání procesů přechodu do dospělosti v Evropě. Vlastní analýza je založena
na datech z Fertility and Family Survey (UNECE (2003)).
Zkoumaná hypotéza v tomto případě byla pojata velice obecně. Bylo zkoumáno, zda daný
proces vůbec závisí (či souvisí) na použitých vysvětlujících faktorech a procesech. To lze
přirovnat k hypotéze při exploratorní analýze dat. Pokud byly k dispozici odpovídající
výsledky z jiných studií (za jiné země), bylo možné také zkoumat hypotézu, zda výsledky za
Českou republiku odpovídají výsledkům těchto studií.
Několik sekcí této kapitoly je věnováno tvorbě modelu od předvýběru proměnných po vlastní
tvorbu modelu dopřednou krokovou metodou.
Důležitou části této kapitoly je obsahově nejdelší sekce 6.8 Výsledky. Ta se detailně zabývá
vlivy jednotlivých vysvětlujících proměnných na sledovaný proces odchodu od rodičů.
Součástí je vždy diskuse výsledků a je-li to možné i srovnání s relevantními zahraničními
výsledky. Samotné výsledky jsou zde primárně podány v grafické formě (podobně jako v celé
práci).
1.4 Vlastní přínos k vědeckému poznání
V této sekci je shrnuta otázka přínosu této práce k současnému vědeckému poznání dle
nejlepšího vědomí autora. Vlastní příspěvky se objevují v obou částech této práce.
První část
V první části je vyvíjen obecný regresní model analýzy přežívání. Zde jsou nejdůležitější
vlastní příspěvky v kapitole 5 Log-lineární model intenzity. Tato kapitola formalizuje a
v několika sekcích rozvíjí přístup z Hoem (2003). Uvedený přístup je primárně rozpracován
v sekcích 5.9 Interakce, 5.11 Model s interakcemi vs. víceúrovňový model, 5.15 Anticipatorní
analýza, 5.17 Tvorba modelu, 5.18 Logit-lineární model a 5.19 Významnost proměnných.
V některých případech jde o vytvoření analogie ke klasickým regresním modelům (sekce
5.9 Interakce, 5.11 Model s interakcemi vs. víceúrovňový model, 5.17 Tvorba modelu,
5.19 Významnost proměnných). V sekci 5.15 Anticipatorní analýza jde o diskusi s běžným
pojetím nepřípustnosti anticipatorní analýzy (např. Hoem (1996)). Je zde také uveden příklad,
kdy model s anticipatorním vlivem proměnných dává opačné výsledky než klasický model a
přitom tento (anticipatorní) model vystihuje data lépe. Výsledkem sekce 5.18 Logit-lineární
model je alternativní způsob modelování pomocí log-lineárního modelu intenzity (pomocí
převedení na zobecněný aditivní model), který je v dnešní době prakticky jednodušší.
V ostatních kapitolách první části jsou vlastní příspěvky již méně zastoupeny. Jedná se zde o
použité příklady (např. sekce 4.4 Porovnání základních modelů s vysvětlujícími proměnnými
v případě odchodu od rodičů v ČR u osob bez a se sourozenci), nebo např. o formální
odvození některých vztahů (3.5 Vztah mezi Kaplan-Meierovým a Nelson-Aalenovým
odhadem).
Přínos pro českou (česko-slovenskou) demografii může spočívat také v tom, že práce je psána
česky a částečně shrnuje moderní přístupy k modelování v analýze přežívání, z nichž některé
nejsou ještě velmi rozšířeny.
6
Druhá část
Druhá část je prakticky celá vlastní prací. Na rozdíl od jiných procesů přechodu do dospělosti,
k nimž se často řadí, proces odchodu od rodičů v České republice zatím nebyl detailněji
zkoumán. V ČR se touto otázkou zabývala např. Rychtaříková et al. (2001), kde jsou uvedeny
základní popisné statistiky tohoto procesu. Jedním z přínosů této kapitoly je tedy částečné
zaplnění tohoto prostoru.
Proces odchodu od rodičů bývá řazen mezi nejdůležitější procesy přechodu do dospělosti
(např. Iacovou a Berthoud (2001)). Proto uvedené výsledky mohou dokreslit i pohled na
obecnější proces přechodu do dospělosti v České republice. V této souvislosti je také
zajímavé srovnání jednak procesů přechodu do dospělosti v Evropě, tak porovnání výsledků
této kapitoly pro Českou republiku s jinými zahraničními výsledky (hlavně Brinbau et al.
(2004), Flatau et al. (2003), Sienkiewicz (2003), Suzuki (2001), Billari, Philipov a Baizán
(2001), Aassve et al. (2001)).
7
2 ZAVEDENÍ ZÁKLADNÍCH POJMŮ
ANALÝZY PŘEŽÍVÁNÍ
Obsah kapitoly
2.1 ÚVOD ..............................................................................................................................10
2.2 PŘEŽÍVÁNÍ JAKO SPOJITÁ A SMÍŠENÁ NÁHODNÁ VELIČINA ..............................................10
Smíšená náhodná veličina (Mixed random variable) .......................................................10
Doba do sledované události (Time to event, time to occurence) ......................................11
Distribuční funkce doby do sledované události (Cumulative distribution function,CDF)11
Funkce přežívání (Survival, survivor function) ................................................................13
Funkce q(x, t) a p(x, t).......................................................................................................14
Intenzita (Intensity, hazard, risk) a kumulativní funkce intenzity (Cumulative hazard
function) ............................................................................................................................16
Hustota (Probability density function)..............................................................................20
2.3 FUNKCE TABULEK ŽIVOTA ..............................................................................................21
Střední doba ......................................................................................................................21
Funkce l(x) ........................................................................................................................22
Funkce d(x) .......................................................................................................................23
Funkce L(x) .......................................................................................................................23
Funkce T(x) .......................................................................................................................24
Funkce m(x, t) ...................................................................................................................26
9
2.1 Úvod
V této kapitole jsou zavedeny matematicko-statistickým formálním způsobem základní
funkce analýzy přežívání. Tyto funkce a vztahy mezi nimi jsou potom používány v dalších
kapitolách. Tato kapitola volně vychází, včetně použitého značení, hlavně z Mazurová (1997).
Celá tato práce se zaměřuje na modelování demografických procesů, jejichž výsledkem je (či
může být) nějaká pevně daná událost. Sledovaná událost je potom přechod z jednoho daného
stavu do druhého. Procesy se modelují pomocí modelování doby, kdy sledovaná událost
nastává. Např. může jít o proces úmrtnosti, kdy sledovanou událostí je úmrtí sledovaného
jedince. V tomto případě je událost jednak nevratná (nelze se nazpět dostat ze stavu „mrtvý“
do „živý“) a jednak nastávající u všech lidí.
Složitější situace nastává u jiných procesů jako např. u procesu vstupu do manželství. V tomto
případě může docházet i po sledované události „uzavření manželství“ k opětovnému návratu
do stavu „nežije v manželství“, atd. Také je běžné, že u někoho sledovaná událost nikdy
nenastane (do manželství nikdy nevstoupí). První problém se často řeší tak, že se proces
definuje tak, že může nastat pouze jedna taková událost a pokud nastane, již se proces
považuje za ukončený. To je použito i v této práci. Např. u procesu vstupu do manželství se
tento definuje jako proces uzavření prvního sňatku, apod.
Jako ilustrační příklady jsou v této kapitole používány procesy úmrtnosti a odchodu od
rodičů. V obou případech jsou použita data za ženy v České republice. V případě úmrtnosti
byla vzata jako podklad data z úmrtnostních tabulek pro rok 1999 (ČSÚ (2000)). Příklad
odchodu od rodičů je založen na datech z Fertility and Family Surveys (UNECE (2003)), což
představuje dobu přibližně 60. až počátek 90. let minulého století. Detailní analýza tohoto
procesu je v kapitole 6 Odchod od rodičů v České republice.
2.2 Přežívání jako spojitá a smíšená náhodná veličina
Smíšená náhodná veličina (Mixed random variable)
V této kapitole se používá pojem smíšená náhodná veličina (náhodná veličina se smíšeným
rozdělením). Tím se zde rozumí taková náhodná veličina X, která nabývá hodnot ze dvou
disjunktních množin D (z anglického discreet – diskrétní) a C (z anglického continuous –
spojitá) a platí:
D je spočetná,
existuje p z (0, 1) takové, že Pr[X je z D] = p a Pr[X je z C] = 1 – p,
Pr[X = x] > 0 pro x z D, Pr[X = x] = 0 pro x z C.
Znamená to, že taková náhodná veličina je složena z diskrétní složky a spojité složky. Spojitá
náhodná veličina by byla v tomto ohledu takový speciální případ, kdy by p = 0, naopak
diskrétní náhodná veličina by byla tehdy, pokud by p = 1.
Důvod zavedení obecně nepříliš často používané smíšené náhodné veličiny je v tom, že v této
práci (a v demografii obecně) jsou zkoumány procesy, jež lze takto vhodně modelovat. Jako
jednoduchý příklad může sloužit věk vstupu do manželství, pokud je modelován jako
náhodná veličina. Zde C by byla spojitá množina věku, kdy lze do manželství vstoupit a D by
obsahovala jedinou hodnotu „nikdy nevstoupí do manželství“, p by tedy potom byla
pravděpodobnost této hodnoty.
10
Doba do sledované události (Time to event, time to occurence)
Základem modelování demografických procesů je uvažování doby do sledované události za
náhodnou veličinu.
Dobu do sledované události T lze formálně definovat např. následujícím způsobem:
1. T je náhodná nezáporná veličina,
2. T je měřená v časových jednotkách.
Obecně není náhodná veličina nijak specifikována, což mimo jiné znamená, že různí lidé
mohou mít různě zadanou tuto náhodnou veličinu, přestože může jít o stejný demografický
proces.
Často je také zajímavá otázka, za jak dlouho sledovaná událost nastane, pokud již nějaký čas,
kdy k této události mohlo nastat, uběhl. Jako příklad může sloužit otázka zbývající doby
života v určitém věku, zbývající doba do narození druhého dítěte, když už uběhl určitý čas po
narození prvního, doba do odchodu od rodičů v situaci, kdy již před rokem došlo k nastoupení
do prvního zaměstnání apod.
Z předchozího lze tedy podobně definovat zbývající dobu do sledované události (kdy již
uběhla doba x, během které mohlo dojít k sledované události):
Tx je náhodná veličina, zadaná pomocí
Tx := T – x
Tx := 0
, pokud x > T,
, jinak,
kde x je nezáporné reálné číslo.
Zbývající doba života je opět náhodnou veličinou, kde obecně rozdělení není nijak
specifikováno, ale má samozřejmě pevně danou souvislost s délkou života T. Pokud je daná
veličina kladná, odpovídá to situaci, kdy okamžik definující počátek procesu byl v minulosti
(vzdálen x od současnosti), ale sledovaná událost ještě nenastala. Pokud je tato hodnota 0, tato
událost již nastala.
Distribuční funkce doby do sledované události (Cumulative distribution function,CDF)
Distribuční funkce je obecně základní funkcí popisující rozdělení náhodné veličiny. Z ní lze
potom odvozovat další funkce, jež popisují danou náhodnou veličinu. Lze ji definovat jako:
F(t) := Pr[T < t],
kde
t je reálné číslo,
Pr[.] značí pravděpodobnost.
Poněvadž z definice T je známo, že T je větší nebo rovno 0, stačilo by zavést F(t) pro
nezáporná t. Zde uvedený způsob je volen jen z důvodu větší obecnosti. V takovém případě je
samozřejmě:
F(t) = 0 pro t < 0.
11
Přímo z definice lze také odvodit, že:
Pr[a ≤ T < b] = F(b) – F(a).
Je také zřejmé, že hodnota distribuční funkce se pohybuje mezi 0 a 1. Hodnota 0 je na začátku
sledovaného procesu, hodnota 1 tehdy, kdy již je jisté, že ke sledované události muselo dojít
dříve. Z toho je také vidět, že u procesů, kdy ke sledované události musí dojít (např.
úmrtnost), je hodnota 1 po určitém čase dosažena. Naopak, u takových, kdy ke sledované
události vůbec nemusí dojít (např. narození prvního dítěte, odchod od rodičů), limitní hodnota
1 dosažena být nemusí.
Jako poznámku lze uvést, že definici lze mírně pozměnit i tak, že výraz T < t se nahradí
výrazem T ≤ t. První (zde použitý) způsob bývá častější, ale z praktického hlediska na tom ve
velké většině případů nezáleží. Např. pokud je tato distribuční funkce spojitá, jedná se
dokonce o ekvivalentní definici.
1.0
0.8
0.6
0.4
0.2
0.0
0
20
40
60
80
100
120
FM
FLPH
Věk
Graf 2-1: Příklad distribučních funkcí. Jedná se o distribuční funkci definující procesy úmrtnosti a odchodu od
rodičů u žen v ČR (za předpokladu homogenity).
Zcela obdobně se zavede distribuční funkce zbývající doby do sledované události (opět
zavedení pro záporná x je pouze formální):
Fx(t) := Pr[Tx < t],
kde t i x jsou reálná čísla.
Podobně také platí:
Fx(t) = 0 pro t < 0,
Fx(t) = F(t) pro x ≤ 0.
12
Neboť Fx(t) je odvozena z F(t), což je distribuční funkce T, je možné Fx(t) definovat i přímo
za použití T a nikoliv Tx (a např. následně z tohoto zavedení zavést také Tx ):
Fx(t) := Pr[T < x + t | T ≥ x],
kde Pr[A|B] značí podmíněnou pravděpodobnost jevu A v závislosti na jevu B.
Funkce přežívání (Survival, survivor function)
Zatímco ve většině případů, kdy se používá statistické modelování, je jako základ použita
distribuční funkce, v analýze přežívání na její místo nastupuje její doplněk a to funkce
přežívání. Tu lze zavést jako:
S(t) := 1 – F(t),
kde t je reálné číslo.
Lze uvést některé vlastnosti funkce přežívání:
S(t) = Pr[T ≥ t],
S(t) = 1 pro t < 0,
Pr[a < T ≤ b] = S(b) – S(a).
Funkce přežívání je „doplňkovou funkcí“ k distribuční funkci doby do sledované události.
V demografii bývá používána častěji než F(t), neboť např. pro proces úmrtnosti představuje
volně řečeno pravděpodobnost, že se daný jedinec (apod.) dožije věku t, což je pro většinu
analýz praktičtější než pravděpodobnost toho, že se daného věku nedožije (což je hodnota
F(t)).
1.0
0.8
0.6
0.4
0.2
0.0
0
20
40
60
80
100
120
SM
SLPH
Věk
Graf 2-2: Příklad funkcí přežívání, jež odpovídají ukázce distribučních funkcí z grafu 2-1. Jedná se o funkci
přežívání odpovídající procesům úmrtnosti a odchodu od rodičů u žen v ČR (za předpokladu homogenity).
13
Samozřejmě opět velmi obdobně lze zavést funkci přežívání ve věku x, která má i obdobné
vlastnosti:
Sx(t) := 1 – Sx(t),
kde x i t jsou reálná čísla.
Obdobně jako u distribuční funkce lze uvést některé základní vlastnosti:
Sx(t) = Pr[T ≥ t],
Sx(t) = 1 pro t < 0,
Sx(t) = S(t) pro x ≤ 0.
Funkce q(x, t) a p(x, t)
V mnoha aplikacích (například při tvorbě úmrtnostních tabulek, ale samozřejmě i v mnoha
jiných případech, zde budou použity při zavedení pojmu intenzity procesu) se používají další
funkce odvozené z distribuční funkce doby života nebo ekvivalentně z funkce přežívání.
Jednou z nich je pravděpodobnost, že u jedince, u něhož zatím po dobu x nedošlo k sledované
události, k ní dojde během doby t od daného okamžiku:
q(x, t) := Fx(t),
kde x a t jsou reálná čísla.
Smysl de facto druhého označení pro stejnou věc vyplyne později, kdy se q používá i v jiných
podobných významech.
Podobně se používá „doplňková funkce“ k předchozí:
p(x, t) := 1 – q(x, t),
kde x a t jsou reálná čísla.
Opět je zřejmé, že se jedná pouze o přepis již výše uvedené definice (jedná se
o pravděpodobnost, že u jedince, u něhož zatím po dobu x nedošlo k sledované události, k ní
nedojde ani po období dlouhé t), jejíž význam je znovu v tom, že p je používáno v dalších
podobných významech.
V obou definicích jsou z praktického hlediska důležité pouze případy, kdy x i t jsou nezáporná
čísla.
14
Lze uvést některé vlastnosti p(x, t) a q(x, t):
q(x, t) = Pr[T < t + x | T ≥ x],
p(x, t) = Pr[T ≥ t + x | T ≥ x],
p(x, t1 + t2) = p(x, t1) p(x+ t1, t2).
Třetí vlastnost lze slovy na příkladě procesu úmrtnosti popsat jako: Pravděpodobnost přežití
z věku x do věku x + t1 + t2 je rovna pravděpodobnosti přežití z věku x do věku x + t1 krát
pravděpodobnost přežití z tohoto věku do věku x + t1 + t2.
Pro ilustraci lze zobrazit odhadnutou hodnotu q(x, t) u procesů, jež slouží jako ilustrace v této
kapitole, tj. procesu úmrtnosti a odchodu od rodičů (grafy 2-3 a 2-4, mají rozdílné měřítko na
ose z). V obou případech se tedy jedná o zobrazení pravděpodobnosti sledované události
(úmrtí, odchodu od rodičů) počínaje věkem x (vodorovná osa) po dobu t (svislá osa)
v případě, že do věku x tato událost ještě nenastala. Grafy funkce p by vypadaly obdobně
(neboť p = 1 – q).
18
16
t (doba)
14
12
10
8
6
4
2
0
15 18 21 24 27 30 33 36 39 42
0.09
0.078
0.066
0.054
0.042
0.03
0.018
0.006
x (věk)
Graf 2-3: Příklad funkce q(x, t). Jedná se o funkci odpovídající procesu úmrtnosti u žen v ČR (za předpokladu
homogenity).
15
t (doba)
9
8
7
6
5
4
3
2
1
0
14 16 18 20 22 24 26 28 30 32 34 36 38
x (věk)
0.86
0.74
0.62
0.5
0.38
0.26
0.14
0.02
Graf 2-4: Příklad funkce q(x, t). Jedná se o funkci odpovídající procesu odchodu od rodičů u žen v ČR (za
předpokladu homogenity).
Celkově lze shrnout vztah Fx(t), Sx(t), F(t), S(t), q(x, t) a p(x, t) následovně:
Fx(t) = 1 – Sx(t) = q(x, t) = 1 – p(x, t),
F0(t) = q(0, t) = F(t) (= Fz(t) = q(z, t), kde z < 0),
S0(t) = p(0, t) = S(t) (= Fz(t) = q(z, t), kde z < 0).
Např. pro úmrtnost lze předchozí vzorce číst následovně: Distribuční funkce zbývající doby
života v dožitém věku x (Fx(t)) se rovná pravděpodobnosti, že úmrtí nastane během času t po
dožitém věku x. To je také rovno 1 – funkce přežívání z věku x (1 – Sx(t)) a také 1 –
pravděpodobnost, že jedinec ve věku x se dožije věku x + t (1 – p(x, t)).
Druhý vzorec říká, že pravděpodobnost úmrtí během doby t po dožitém věku 0 (tj. během
doby t po narození, q(0, t)) odpovídá distribuční funkci doby života (F(t)) a také distribuční
funkci zbývající doby života v dožitém čase 0 (F0(t)). Obdobou je poslední vzorec, pouze
doplňkově. Tj. pravděpodobnost přežití doby t v dožitém čase 0 (tedy dožití se věku t, p(0, t))
je rovno funkci přežívání (S(t)) a také funkci přežívání v dožitém čase 0 (S0(t)).
Intenzita (Intensity, hazard, risk) a kumulativní funkce intenzity (Cumulative hazard
function)
Pro zavedení dalšího pojmu intenzity procesu už je třeba přidat další omezení na funkci
přežívání či ekvivalentně na distribuční funkci F(t) náhodné veličiny délky života T. Tedy
doplnit tak dříve uvedenou obecnou definici distribuční funkce (či ekvivalentně funkce
přežívání):
F(t) (nebo ekvivalentně S(t)) je prvkem C[0, ∞ ) – je spojitá na intervalu [0, ∞ ). Je ovšem
možné, aby měla až spočetně bodů nespojitosti, ale takových, že existuje nějaké kladné číslo
d, že nejbližší 2 body nespojitosti jsou od sebe vždy minimálně o d.
Z praktického hlediska tomuto omezení vyhovují spojité funkce nebo např. funkce, kde se
funkce přežívání mění skokově vždy po nějaké stejně dlouhé době (např. po roce, dni apod.).
16
V takovém případě je možné již zavést pojem intenzity procesu jako
q( x , t )
.
t →0+
t
h(x) := lim
Tato funkce je velmi důležitou v mnoha demografických modelech, je například modelována
pomocí log-lineárního modelu intenzity, který je popsán v kapitole 5 Log-lineární model
intenzity. Někdy bývá označována také μ (x).
Význam této funkce je zřejmý z definice, jedná se o standardizovanou míru daného procesu
v určitém čase. Pro snazší představu ji lze (ale pouze částečně, jak je dále ukázáno) srovnávat
s hodnotou funkce q(x, 1).
Například pokud je h(x) konstantní na nějakém intervalu [a, b], potom i q(x, t) je konstantní
na intervalu [a, b – t] v první proměnné. Zároveň platí, že v takovém případě je h(x) ≥ q(x,1),
přičemž rovnost nastává pouze pro (triviální) případ h(x) = 0.
Pro ilustraci lze opět zobrazit odhadnutou funkci intenzity procesu úmrtnosti a odchodu od
rodičů (graf 2-5). Jako poznámku zde lze uvést, že funkce intenzity procesu obecně může na
rozdíl od funkce q(x, t) nabývat hodnot vyšších než je 1. To se týká např. úmrtnosti ve velmi
vysokých věcích (např. nad 115 let, za předpokladu homogenity úmrtnosti). Zde je intenzita
úmrtnosti již stále větší než 1, ovšem přesto se někteří lidé dožijí např. i 120 let (demonstruje
to rozdíl mezi intenzitou, jež je v bodě, a pravděpodobností, jež je za nějaký časový interval,
viz také níže).
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
20
40
60
80
100
120
hM
hLPH
Věk
Graf 2-5: Příklad funkcí intenzity. Jedná se o funkci přežívání odpovídající procesům úmrtnosti a odchodu od
rodičů u žen v ČR (za předpokladu homogenity).
Při modelování se také používá odvozená funkce a to kumulativní funkce intenzity procesu
(cumulative /integrated/ hazard function):
x
H(x) := ∫ h( s )ds .
0
17
Tato funkce nemá svoji jasnou interpretaci sama o sobě, jsou však užitečné její souvislosti
s ostatními funkcemi v analýze přežívání. Slouží také jako základ při modelování pomocí
Nelson-Aalenova modelu, jenž je popsán v sekci 3.4 Nelson-Aalenův odhad.
8
7
6
5
4
3
2
1
0
0
20
40
60
80
100
120
HM
HLPH
Věk
Graf 2-6: Příklad kumulativních funkcí intenzity. Jedná se o funkci přežívání odpovídající procesům úmrtnosti a
odchodu od rodičů u žen v ČR (za předpokladu homogenity).
Zajímavé vlastnosti intenzity sledovaného demografického procesu lze odvodit, pokud si
přidáme další podmínku pro funkci přežívání (či ekvivalentně pro distribuční funkci):
S(t) je prvkem C1[0, ∞ ) – tzn. má derivaci na celém intervalu.
Potom lze odvodit přímo z definice postupně např. následující souvislosti s ostatními dříve
definovanými funkcemi:
d l ( x)
d ln( p(0, x))
d ln(l ( x ))
d ( x, t )
l( x) − l( x + t)
= −
= lim
=−
= −
=
t →0+ l ( x )t
t →0 +
l ( x )t
dx
l ( x) dx
dx
d p(0, x)
=−
.
p (0, x) dx
h(x) = lim
Přitom ale namísto 0 v posledním výrazu lze dosadit libovolné číslo, z čehož potom je:
t
∫
− h ( x + s ) ds
p(x, t) = e
0
= e −( H ( x +t ) − H ( x )) ,
t
∫
− h ( x + s ) ds
q(x, t) = 1 – e
0
= 1 − e −( H ( x +t ) − H ( x )) .
Pro speciální případ x = 0 platí:
p(0, t) = S(t) = e–H(t).
18
1
.
e
Jednoduchým dosazením zjistíme, že v případě, že h(x) = 1, je q(x, 1) asi 0.63. Pokud tento
výsledek použijeme opačně, můžeme na výše uvedeném příkladě úmrtnosti ve velmi
vysokých věcích říci, že intenzita je již vždy vyšší než 1 právě tehdy, když pravděpodobnost
úmrtí v daném roce přesáhne hodnotu 0.63. Pro malé hodnoty se ale tyto dva údaje k sobě
velmi blíží a lze je často z praktického hlediska zaměňovat (viz grafy 2-7 a 2-8).
Z výše uvedeného je vidět, že při konstantní intenzitě h(x) je q(x, 1) = 1 –
h( x)
h(x), q(x,1)
h(x) = k
q(x,1) = 1-1/exp(k)
2.2
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
k
Graf 2-7: Porovnání q(x, 1) a h(x) při různých hodnotách konstantního h(x) = k.
h(x) = k
q(x,1) = 1-1/exp(k)
0.35
h(x), q(x,1)
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0.00
0.04
0.08
0.12
0.16
0.20
0.24
0.28
k
Graf 2-8: Porovnání q(x, 1) a h(x) při různých hodnotách konstantního h(x) = k pro malé hodnoty běžné
v demografii.
19
Hustota (Probability density function)
Za (zpřísněných) podmínek pro funkci přežívání jako v předchozí podsekci je možné zavést
hustotu pravděpodobnosti dané náhodné veličiny popisující studovaný demografický proces:
f(x) :=
d F ( x)
d S ( x)
=−
.
dx
dx
Hustota je nejlépe popsatelná následující vlastností:
b
Pr[a ≤ T < b] =
∫
a
b
f ( x)dx = ∫ 1 dF ( x) ,
a
což neznamená nic jiného, než že pravděpodobnost, že nastane sledovaná událost mezi časem
a a b je rovna ploše pod křivkou grafu f(x).
Na následujícím grafu 2-9 je příklad hustoty pro procesy úmrtnosti (což odpovídá rozložení
tabulkových zemřelých) a odchodu od rodičů. Z předchozí vlastnosti plyne, že plocha pod
grafem této křivky je rovna 1 v případě, že se jedná o proces úmrtnosti – obecně o spojité
rozdělení. V případě, že jde o smíšené rozdělení jako v příkladě procesu odchodu od rodičů
(kdy je jistá pravděpodobnost, že jedinec nikdy od rodičů neodejde), je plocha pod grafem
rovna pravděpodobnosti, že sledovaná událost vůbec nastane (v tomto příkladě
pravděpodobnosti, že sledovaný jedinec vůbec někdy od rodičů odejde).
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
0
20
40
60
80
100
120
fM
fLPH
Věk
Graf 2-9: Příklad hustoty pravděpodobnosti. Jedná se o funkci hustoty odpovídající procesům úmrtnosti a
odchodu od rodičů u žen v ČR (za předpokladu homogenity).
Také lze uvést některé vztahy mezi hustotou a dalšími funkcemi analýzy přežívání:
h(t) =
f (t )
,
S (t )
20
f(t) = h(t) e–H(t).
Druhá vlastnost plyne přímo z první (a ze speciálního případu vlastnosti uvedené u h(t)).
Z vlastnosti h(t) a z definice f(t) plyne i první výraz:
h(t) = −
d p (0, t )
d S (t )
f (t )
.
=−
=
p(0, t ) dt
S (t ) dt
S (t )
2.3 Funkce tabulek života
Při konstrukci tabulek života (nejčastěji se asi jedná o úmrtnostní tabulky) i při jiných
aplikacích se používají i další funkce. Tyto většinou nejsou použity v dalších kapitolách, ale
zde jsou uvedeny i pro úplnost.
Střední doba
Mezi tyto funkce patří střední doba do sledované události (např. střední doba života), resp.
střední doba do sledované události při dožitém věku x bez této události (např. střední doba
života při v dožitém věku x). Ty jsou definovány pro spojitá rozdělení jako:
°e := E[T],
°e(x) := E[Tx],
kde x je reálné číslo.
Pro smíšená rozdělení jsou definovány jako střední doba do sledované události, resp. střední
doba do sledované události při dožitém věku x bez této události, v případě, že tato událost
vůbec nastane:
°e := E[T | T < ∞ ],
°e(x) := E[Tx | Tx < ∞ ],
kde x je opět reálné číslo.
Samozřejmě pro x záporné nemá definice valného reálného smyslu a jsou zřejmé následující
vlastnosti:
°e = °e(0) = °e(z) , kde z je záporné číslo.
Následující graf 2-10 zobrazuje příklad průběhu funkcí °e(x) v případě úmrtnosti a odchodu
od rodičů.
21
80
70
60
50
40
30
20
10
0
0
20
40
60
80
100
120
°e(x)M
°e(x)LPH
Věk
Graf 2-10: Příklad funkce střední doby do sledované události. Jedná se o funkci střední doby do sledovaná
události odpovídající procesům úmrtnosti a odchodu od rodičů u žen v ČR. V případě odchodu od rodičů je věk
40 let zjednodušeně uvažován za nejvyšší možný. V případě úmrtnosti je °e(x)M = E[Tx], v případě odchodu od
rodičů je °e(x)LPH = E[Tx | Tx < ∞ ].
Funkce l(x)
Základní funkcí v tabulkách života je l(x) (označení pochází z použití v úmrtnostních
tabulkách jako „living“):
l(0) je zvolená konstanta, často bývá pro přehlednost volena 100 000,
l(t) := l(0)p(0, t).
V interpretaci této funkce se poprvé vyskytuje důležitý předpoklad stejného
pravděpodobnostního rozdělení doby do sledované události více jedinců. Doposud tento
předpoklad nebyl nutný a např. funkce přežívání S(t) mohla být pro každého jedince různá.
Zde čistě z definice také není tento předpoklad nutný, ale používá se v nejčastější interpretaci
této funkce. Potom lze slovy funkci l(t) popsat jako střední počet přežívajících (ti, u kterých
ještě nenastala sledovaná událost) do věku x z počátečního stavu l(0).
Plyne to z uvažovaného modelu, kdy máme l(0) jedinců a každý má pravděpodobnost dožití
se věku t rovnu p(0, t). Počet doživších se věku x bez sledované události má potom binomické
rozdělení s parametrem p(0, t). Takové rozdělení má potom střední hodnotu rovnu
l(t) = l(0) p(0, t) a rozptyl l(0) p(0, t) (1 – p(0, t)) = l(0) p(0, t) q(0, t).
Lze tedy ekvivalentně definovat l(t) jako:
Xi(t) je náhodná veličina, kdy
Xi(t) := 1,
Xi(t) := 0,
pokud Ti ≥ t,
pokud Ti < t,
kde i je index (nabývající hodnot mezi 1 a l(0)),
22
a dále zaveďme jejich součet přes všechna i:
N(t) :=
l0
∑X
i =1
i
(t ) ,
l(t) := E[N(t)].
V případě smíšených rozdělení se obvykle určí nějaká horní hranice věku a postupuje se
obdobně jako v případě střední doby do sledované události.
Tato ekvivalentní definice vychází z použití modelu, kdy máme l(0) jedinců se stejnou
pravděpodobností p(0, t), že u nich sledovaná událost nenastane do věku t. Xi(t) je potom
indikátor, zda u jedince s pořadovým číslem i zatím nenastala sledovaná událost do věku t, či
nastala (1 označuje zatím nenastala, 0 nastala). N(t) je potom počet jedinců, kteří jsou ve věku
t v souboru stále ještě vystavených riziku (událost ještě nenastala). Při použití této definice je
potom slovní popis funkce l(t) zjevný.
Funkce d(x)
Další s funkcí používaných pro tabulky života je d(x, t) (kde označení pochází z úmrtnostních
tabulek ze slova „dead“):
d(x, t) := l(x) – l(x + t).
Za použití výše uvedeného předpokladu lze tuto funkci interpretovat např. pro proces
úmrtnosti jako střední počet zemřelých od věku x do věku x + t, obecně jako střední počet
těch, u nichž v tomto časovém rozmezí dojde ke sledované události.
Samozřejmě d(x, t) lze vyjádřit i jinak, jedná se o ekvivalentní definici:
d(x, t) = l(x) q(x, t).
Že se jedná o ekvivalentní definici lze snadno dovodit s využitím vlastností funkce p(x, t):
d(x, t) = l(x) – l(x + t) = l(0) p(0, x) – l(0) p(0, x + t) = l(0) p(0, x) – l(0) p(0, x) p(x, t) =
= l(0) p(0, x) (1 – p(x, t)) = l(x) q(x, t).
Pro celá t platí i následující souvislost mezi l(x) a d(0, t):
t −1
l(x) = l(0) –
∑ d (i, i + 1) .
i =0
Funkce L(x)
Pro praktické odhadování střední doby do sledované události se zavádí další funkce L(x, t):
L(x, t) :=
x +t
t
x
0
∫ l (s)ds = ∫ l ( x + s)ds .
23
Za použití předpokladu o stejnosti rozdělení přežívání l(0) jedinců do sledované události lze
tuto funkci interpretovat jako střední dobu, kterou prožijí jedinci z původního počtu l(0) mezi
dožitým věkem x a x + t. Zjednodušeně řečeno jedinec, který se dožije věku x + t, „přispěje“
do tohoto počtu hodnotou t, jedinec, u kterého dojde ke sledované události před věkem x
hodnotou 0 a jedinec, u kterého dojde ke sledované události mezi věkem x a x + t ve věku v
hodnotou v – x.
Tento slovní popis lze zdůvodnit ekvivalentní definicí používající stejného modelu jako
v ekvivalentní definici l(t):
⎡ x +t
⎤
L(x, t) := E ⎢ ∫ N ( s )ds ⎥ .
⎣x
⎦
Přechod mezi oběma definicemi je snadný, pokud si člověk uvědomí, že střední hodnota je de
facto opět jen integrál a pořadí integrálů lze za velmi obecných podmínek měnit (kterým dané
funkce obecně vyhovují).
L(x) a l(x) jsou si svým průběhem velmi blízké, L(x) se používá při praktickém odhadu
tabulek života (viz graf 2-11):
100000
80000
60000
40000
20000
0
0
20
40
60
80
100
l(x)
L(x)
Věk
Graf 2-11: Příklad porovnání l(x) a L(x,1). Jedná se o proces úmrtnosti v případě žen v ČR. l(0) = 100 000.
Funkce T(x)
Další z funkcí užívaných při konstrukci tabulek života je T(x). Tato je de facto speciálním
případem předchozí funkce, kde integrál je shora brán až do ∞ :
∞
T(x) := ∫ l ( s )ds .
x
24
Obzvláště při konstrukci úmrtnostních tabulek se používá následující vlastnost, kdy se
interval, přes který je integrál počítán, rozdělí na menší intervaly s šířkou 1 (což je i motivace
počítání této funkce):
∞
T(x) =
∑ L( x + t, 1) .
t =0
Na následujícím grafu 2-12 je ukázka průběhu funkce T(x) v případě procesu úmrtnosti a
odchodu od rodičů:
8 000 000
7 000 000
6 000 000
5 000 000
4 000 000
3 000 000
2 000 000
1 000 000
0
0
20
40
60
80
100 120
T(x)M
T(x)LPH
Věk
Graf 2-12: Příklad funkce T(x). Jedná se o funkce odpovídající procesům úmrtnosti a odchodu od rodičů u žen
v ČR. V případě odchodu od rodičů je věk 40 let zjednodušeně uvažován za nejvyšší možný.
Význam zavádění T(x) spočívá v následující souvislosti s °e(x):
°e(x) =
T ( x)
.
l ( x)
Tento vztah plyne z definic a vlastností uvedených funkcí:
⎡ ∞ ⎡ x +t +1
⎡ x +t +1
⎤
⎡∞
⎤
⎤⎤
T(x) = ∑ L( x + t , 1) = ∑ ( E ⎢ ∫ N ( s )ds ⎥ ) = E ⎢∑ ⎢ ∫ N ( s )ds ⎥ ⎥ = E ⎢ ∫ N ( s )ds ⎥ =
t =0
t =0
⎣ x +t
⎦
⎣x
⎦
⎦ ⎦⎥
⎣⎢ t =0 ⎣ x +t
∞
∞
∞
∞
∞
x
x
x
∞
∞
x
x
∫ ( E[N(s)] )ds = ∫ l (s)ds = ∫ l (0) p(0, s)ds = ∫ l (0) p(0, x) p( x, s − x)ds = l(x) ∫ p( x, s − x)ds
∞
= l(x) ∫ (1 − Fx ( s ) )ds = l(x)E[Tx] .
o
V tomto postupu bylo použito možnosti záměny pořadí sumy a integrálu, záměny pořadí dvou
integrálů (neboť střední hodnota je integrál), přičemž to bylo možné díky vlastnostem
25
distribuční funkce a funkce N(x). V poslední rovnosti byl použit známý obecný vztah E[X] =
∫ (1 − F (s))ds , kde F je distribuční funkce X.
Funkce m(x, t)
Jako poslední funkce z tabulek života lze uvést funkci m(x, t):
m(x, t) :=
d ( x, t )
.
L( x , t )
Funkce m(x, t) je nazývána v souvislosti s úmrtností mírou úmrtnosti mezi věky x a (x + t).
26
3 ZÁKLADNÍ MODELY ANALÝZY
PŘEŽÍVÁNÍ
Obsah kapitoly
3.1 ÚVOD ..............................................................................................................................29
Použití modelů ..................................................................................................................29
Censorované údaje............................................................................................................30
Použité značení .................................................................................................................30
Předpoklady metod ...........................................................................................................30
3.2 AKTUÁRSKÝ ODHAD (ACTUARIAL ESTIMATOR) .............................................................31
3.3 KAPLAN-MEIERŮV ODHAD (KAPLAN-MEIER ESTIMATOR)..............................................31
Kaplan-Meierův odhad .....................................................................................................31
Přesnost odhadu................................................................................................................33
3.4 NELSON-AALENŮV ODHAD (NELSON-AALEN ESTIMATOR).............................................34
Nelson-Aalenův odhad ......................................................................................................34
Přesnost odhadu................................................................................................................36
3.5 VZTAH MEZI KAPLAN-MEIEROVÝM A NELSON-AALENOVÝM ODHADEM........................36
3.6 KAPLAN-MEIERŮV A NELSON-AALENŮV ODHAD V PŘÍPADĚ ODCHODU OD RODIČŮ
V ČESKÉ REPUBLICE ...............................................................................................................37
Odhad funkce přežívání do odchodu od rodičů v ČR a jejich srovnání ...........................37
Přesnost odhadů................................................................................................................40
28
3.1 Úvod
V této kapitole jsou zavedeny tři základní modely analýzy přežívání – aktuárský odhad,
Kaplan-Meierův odhad a Nelson-Aalenův odhad, přitom hlavní důraz je kladen na poslední
dva z nich. Z hlediska terminologického je používán výraz „odhad“ podle anglického
ustáleného názvu „estimator“, přestože by bylo možné je nazývat obecným názvem „model“.
Všechny uvedené modely jsou neparametrické (resp. mnohoparametrické). Jak již bylo
uvedeno, parametrické modely celkově nejsou v této práci rozváděny, neboť v analýze
přežívání (a hlavně v demografii) ustupují tyto, zdá se, do pozadí. To je mj. dáno rozvojem
výpočetních možností, kdy již je možné snadno prakticky používat neparametrické metody
(které mohou modelovat skutečnost podrobněji).
Základní vlastností těchto modelů je to, že modelují chování v celé populaci a nikoliv různých
subpopulacích (s výjimkou zmíněnou níže v podsekci Použití modelů této sekce). Proto
představují logický první krok do tvorby modelů analýzy přežívání a to je jedním z důležitých
důvodů, proč jsou v této práci zahrnuty. Jako vlastní příspěvek v této kapitole lze hlavně uvést
formální odvození v sekci 3.5 Vztah mezi Kaplan-Meierovým a Nelson-Aalenovým odhadem.
Základní myšlenkou těchto tří modelů je odhadnout z datového souboru jednu z funkcí, které
byly definovány v kapitole 2 Zavedení základních pojmů analýzy přežívání. Spolu s tím je
také snahou odhadnout přesnost takového odhadu. Z odhadnuté funkce je potom za pomocí
vztahů popsaných v kapitole 2 Zavedení základních pojmů analýzy přežívání možné odvodit
všechny ostatní. Konkrétně aktuárský odhad a Kaplan-Meierův odhad se týkají primárně
funkce přežívání S(t), Nelson-Aalenův kumulativní funkce intenzity H(t). Tyto lze tedy
následně jednak převést jednu na druhou navzájem, jednak z nich lze odvodit všechny další
funkce.
Kaplan-Meierův a Nelson-Aalenův odhad a jejich vlastnosti jsou v závěru této kapitoly
ilustrovány na příkladě odchodu od rodičů v České republice.
Použití modelů
Modely uvedené v této kapitole lze charakterizovat také jako popisné. Všechny obsahují
pouze proměnnou čas, kdy nastává studovaná událost, a příp. proměnnou indikující, zda došlo
k události, či zda bylo pozorování v daném čase censorováno (o censorování viz níže). Je
možné identifikovat minimálně tři možné typy použití.
Prvním z nich je použití jako základního popisu studované problematiky – např. graf
odhadnuté funkce přežívání bývá často používán a to nejen v demografii (viz např. Klein a
Moeschberger (1997) v biologii, Falk, Brugger a Adler-Kastner (2002) pro modelování
přežívání v lavinách a mnohé další).
Jejich vhodné použití je také v případě, kdy k dispozici není mnoho dat (např. jen řádově
desítky) a odhady komplikovanějších modelů s vysvětlujícími proměnnými by byly
nevěrohodné. Z tohoto hlediska speciálním případem, kdy se ale již přibírá další (vysvětlující)
proměnná, je porovnávání přežívání v několika skupinách (typicky dle pohlaví apod.).
V takovém případě lze testování o rozdílnosti přežívání v daných skupinách založit na těchto
modelech. Např. je možné odhadnout distribuční funkce a použít (upravený) KolmogorovSmirnovův test apod.
29
Třetím typickým použitím je situace, kdy k dispozici nejsou jiné údaje než jsou zapotřebí pro
použití těchto modelů. To je možné např. u délky života u lidí, kdy evidence je často jen dle
pohlaví (např. Max Planck Gesellschaft (2002)), nebo u živočichů (např. Carey a Judge
(2000)).
Censorované údaje
Analýza přežívání se liší od ostatních analytických problémů tím, že se zde velice často
vyskytují případy, kdy pozorování ještě není ukončeno, příp. ke sledované události vůbec
nemusí dojít. To je typické v demografických analýzách, ale i v průmyslové analýze
přežívání. V demografii se např. studuje vymírání populací, kde většina jedinců je ještě
naživu, tato studie obsahuje analýzu odchodu od rodičů, kdy některé ze zkoumaných osob
ještě od rodičů neodešly a některé ani vůbec neodejdou. V průmyslu se mohou některé stroje
nebo jejich součástky vyměnit vždy, když se porouchají, ale také např. po uplynutí určité
doby přesto, že k poruše nedošlo.
V takovém případě, stejně jako jinde (viz kapitola 2 Zavedení základních pojmů analýzy
přežívání), předpokládáme, že sledovaná událost u j-tého sledovaného objektu, má délku
života určenou náhodnou veličinou Tj. Ovšem známo je pouze to, že událost nenastala před
pozorovaným časem cj, kde cj < Tj. V takovém případě říkáme, že pozorování bylo
censorováno v čase cj. Proměnná určující, zda dané pozorování bylo censorováno, je potom
indikátor censorování (s hodnotami „censorováno“ a „necensorováno“, často kódováno jako 1
a 0).
Soubory dat, které se používají k odhadu pomocí zde uváděných metod, tedy obsahují jednak
údaje o době přežívání, ale také údaje o censorování. Ke každému studovanému objektu jsou
tedy uvedeny údaje za dvě proměnné.
Použité značení
U detailnějších popisů metod uvedených níže jsou potom používány také souhrnné údaje o
počtu stále vystavených riziku v určitém čase, resp. věku t (poté, co již přežili danou dobu,
tedy studovaná událost nastala nejdříve v tomto čase nebo nejdříve v něm bylo pozorování
censorováno) – označeno r(t). Druhým takovým údajem za celý soubor dat je počet
sledovaných událostí, které nastaly v daném přesném čase (často by mělo být nejvýše jedna,
neboť nelze v mnoha případech přepokládat, že by dva objekty měly přesně stejnou dobu
přežívání, ale jednak větší hodnota může být dána přesností údajů a také lze uvažovat např.
dobu trvání manželství, která je shodná vždy pro dvě osoby, apod.) – označeno d(t).
V případě metod této kapitoly je znalost výše uvedených souhrnných údajů dostačující pro
provedení analýzy a není třeba mít všechny individuální údaje k dispozici.
Předpoklady metod
Jedním z důvodu častého použití zde popsaných metod jsou jejich malé nároky na
předpoklady a z toho vyplývající šíře jejich použití. Jedná se o neparametrické metody a je
možné pomocí nich zkoumat prakticky jakékoliv soubory dat o přežívání.
Všechny modely používají základní princip statistické indukce. Konkrétně je tedy
předpokládáno, že jednotlivé zkoumané objekty, za něž jsou údaje k dispozici, mají délku
života určenou náhodnou veličinou a tyto jsou stejně rozdělené. A příp. obdobně stejné
rozdělení délek života mají i všechny objekty v celé populaci, na níž se výsledky analýzy
následně zobecňují.
30
Tento prakticky jediný předpoklad těchto metod samozřejmě často není ve skutečnosti splněn
– lidé mají různou šanci na dožití určitého věku v závislosti na životním stylu, různou šanci
ke vstupu do prvního manželství v závislosti na tom, zda mají přítelkyni či přítele, nebo
nikoliv, součástky strojů mají různou životnost dle způsobu používání, atd. Proto je vhodné
používat tyto modely ve výše popsaných možnostech použití (bez nároku na úplnost), ale
v jiných volit modely vhodnější, které mohou např. postihovat heterogenitu studované
populace.
3.2 Aktuárský odhad (Actuarial Estimator)
Aktuárský („pojistně matematický“) odhad je velmi jednoduchým modelem používaným při
analýze přežívání. Používá se např. pro konstrukci úmrtnostních tabulek či jiných tabulek
života. K tomu také viz sekce 2.3 Funkce tabulek života (s tím, že je uvažován předpoklad
rovnoměrného rozdělení pravděpodobnosti na každém časovém intervalu).
Aktuárský odhad je detailněji popsán např. v Cox a Oakes (1984), ReliaSoft (2004) nebo
StatSoft (1999) a je obsažen ve všech hlavních statistických programech (SAS, SPSS,
STATISTICA apod.). Zde je zmíněn pouze jako logický krok přechodu mezi zavedenými
funkcemi přežívání jako náhodné veličiny a modely analýzy přežívání.
Údaje o přežívání jsou uvažovány s přesností na vybranou jednotku (rok, měsíc apod.) a
v rámci intervalu délky této jednotky je uvažováno, že mají rovnoměrné rozdělení
pravděpodobnosti. Z praktického hlediska to je ekvivalentní s tím, kdyby se všechny události
staly přesně v polovině daného intervalu.
Pokud přiřadíme všem událostem čas tak, jak bylo výše popsáno – tedy doprostřed daného
intervalu – je aktuárský odhad shodný s níže popsaným Kaplan-Meierovým odhadem. Ten
bude také popsán podrobněji. Mnohé závěry lze potom aplikovat i na tento odhad.
3.3 Kaplan-Meierův odhad (Kaplan-Meier estimator)
Kaplan-Meierův odhad
Kaplan-Meierův odhad je patrně nejpoužívanějším odhadem při analýze přežívání. Jako
všechny modely popsané v této kapitole se jedná o neparametrický (resp.
mnohoparametrický) odhad funkce přežívání. Jde o speciální (limitní) případ aktuárského
odhadu funkce přežívání při zkracování použitých časových intervalů. (Konkrétně tak, že
žádné dvě události nenastanou během jednoho intervalu, pokud nenastanou ve stejný čas.)
Kaplan-Meierův odhad vychází z jednoho z nejcitovanějších vědeckých článků vůbec Kaplan
a Meier (1958), který vycházel mj. z Greenwood (1926). Detailněji je popsán např. v Borgan
(1997), Samuelsen (2004), Cox a Oakes (1984), atd. Zde je uváděn také v souvislosti
s porovnáním mezi tímto modelem a Nelson-Aalenovým odhadem.
Pokud je studován soubor dat dob přežívání, Kaplan-Meierův odhad je primárně definován
pouze v okamžicích, kdy dochází ke sledované události (úmrtí, první koncepce, apod.). Není
tedy primárně definován v okamžicích, kdy dochází pouze k censorování pozorování, nebo
jiných. V těchto ostatních okamžicích je třeba odhadnout funkci přežívání až následně.
31
Kaplan-Meierův odhad je definován následovně:
)
r (t + Δt )
S (t ) = ∏ ( i
),
r (ti )
ti ≤t
kde
)
S (t )
r(t)
Δt
ti
i
je odhadovaná funkce přežívání,
je empirická funkce počtu stále vystavených riziku v čase t (tj. počet těch, u kterých
nastala sledovaná událost nebo jejichž pozorování bylo censorováno až po čase t),
je dostatečně malý časový okamžik, kdy dvě události (sledovaná událost,
censorování), které nenastávají v přesně stejný čas, jsou od sebe časově vzdáleny
o více jak Δt,
jsou jednotlivé časové okamžiky, kdy nastávají sledované události,
je index.
Alternativně může být Kaplan-Meierův odhad definován v bodech, kdy dochází ke sledované
události, následovně:
)
)
r (t i + Δt )
S (t i ) = S (t i −1 )
,
r (t i )
kde
jsou časy, v nichž dochází ke studované události,
ti
ti-1< ti pro každý index i,
)
S (t 0 ) = 1 ,
jinak značení odpovídá předchozímu.
Tato alternativní definice zdůrazňuje způsob tvorby Kaplan-Meierova odhadu. Např.
v souboru dat dochází ke sledované události v přesném čase t a po tomto čase zbývá ještě
N t − 1 jedinců (u kterých dojde ke sledované události později, nebo budou jejich pozorování
censorována). Potom funkce přežívání je odhadnuta jako funkce přežívání v předchozím
bodě, kdy došlo ke studované události, krát odhad přežití v čase t, tedy krát (Nt – 1)/Nt.
Jedná se tedy o použití obecného rozkladu funkce přežívání, který lze zapsat následovně:
S(t) = S(x) Sx(t – x).
Příklad
K ilustraci Kaplan-Meierova odhadu lze použít následující situaci (v tomto případě výjimečně
na imaginárních datech). V lékařském výzkumu se zkoumá doba do vyléčení žaludečních
nevolností po zahájení léčby na lékařské pohotovosti (tedy sledovaná událost je zde
„vyléčení“, přechod ze stavu „nemocný“ do „zdravý“). Zjistilo se, že ze zkoumaného vzorku
100 osob na konci prvního dne po zahájení léčby 20 pacientů již bylo vyléčeno.
Ze zbývajících 80 osob se na konci druhého dne léčby zjistilo, že čtvrtina se vyléčila, čtvrtina
ještě ne, ale o zbývající polovině již nejsou informace (např. pokračovali v léčbě u svého
lékaře nebo se již vyléčili, ale není to známo). Z těchto dat lze odhadnout funkci přežívání
(v nemoci) pomocí Kaplan-Meierova odhadu v časech t1 = 1 den a t2 = 2 dni (tj. v časech,
ve kterých jsou data k dispozici).
32
V čase t1 = 1:
r(1) = 100 (tzn. uvažuje se počet všech, kteří první den byly léčeni, tj. celý soubor),
r(1 + Δt) = 80 (počet těch, kteří v léčbě prokazatelně pokračovali ještě po prvním dni), tedy:
)
r (1 + Δt ) 80
=
S (1) =
= 0.8 .
100
r (1)
V čase t2 = 2:
r(2) = 40 (tzn. zbývající počet těch, o kterých je známa informace k 2. dni léčby),
r(2 + Δt) = 20 (počet těch, kteří v léčbě prokazatelně pokračovali ještě po 2. dni), tedy:
)
)
r (2 + Δt 0)
20
S (2) = S (1) ⋅
= 0.8 ⋅
= 0.8 ⋅ 0.5 = 0.4 .
r (2)
40
Je vidět, že odhadnutá funkce přežívání může být výrazně vyšší než je odpovídající procento
stále ještě pozorovaných osob, u nichž ke sledované události zatím nedošlo (tj. r(t)) – zde
40 % oproti 20 %. To je dáno tím, že o některých osobách jsou údaje neúplné (censorované).
U nich se předpokládá homogenita v chování s osobami, o nichž jsou údaje kompletní.
Přesnost odhadu
Přesnost odhadu lze měřit pomocí standardní chyby tohoto odhadu. V případě, že v souboru
dat nejsou censorované údaje, jedná se o použití binomického rozdělení. V takovém případě
neboť platí, že S(t) je pravděpodobnost (viz kapitola 2 Zavedení základních pojmů analýzy
přežívání), potom je-li v souboru celkem N pozorování, standardní chyba odhadu v čase t je
rovna:
σ) 2 (t ) =
S (t )(1 − S (t ))
.
N
Tento odhad lze používat i v případě, že soubor obsahuje menší množství censorovaných
pozorování.
V ostatních případech se pro odhad standardní chyby nejčastěji používá tzv. Greenwoodův
odhad (např. Cox a Oakes (1984)):
)
σ) 2 (t ) = S (t ) 2 ∑
ti ≤t
d (t i )
r (t i )(r (t i ) − d (t i ))
)
Např. Samuelsen (2004) ukazuje, že odhad S (t ) má aproximativně normální rozdělení
s parametry S(t) a E[ σ) (t ) ]. Pomocí směrodatné chyby lze tedy potom konstruovat jednoduché
intervaly spolehlivosti pro odhad funkce přežívání v čase t. V takovém případě se použije
přiblížení pomocí normálního rozdělení. Oboustranný α.100% interval spolehlivosti je potom
určen jako:
)
)
[ S (t ) + zα/2 σ) (t ) , S (t ) + z1−α/2 σ) (t ) ],
33
kde
zχ
je χ-kvantil standardního normálního rozdělení.
V tomto případě je teoreticky možné, aby meze intervalu spolehlivost byly vyšší než 1, resp.
nižší než 0. To je způsobeno aproximací pomocí normálního rozdělení, která pro binomické
rozdělení nedává dobré výsledky v případě, že pravděpodobnost (zde S(t)) je blízká 0 nebo 1.
V takovém případě je vhodné interval spolehlivosti upravit tak, aby jeho horní mez byla 1,
resp. dolní mez byla 0. Příp. je možné tento interval spolehlivosti upravit tak, aby k tomu
nemohlo dojít. Např. je možné použít aproximaci nikoliv pomocí normálního rozdělení, ale
založenou na některém rozdělení, které je z jedné strany omezeno (např. rozdělení gama) –
)
s parametry odpovídajícími střední hodnotě dané S (t ) a standardní odchylce σ) (t ) .
Alternativně lze použít jiný odhad intervalu spolehlivosti (obzvláště pro krajní hodnoty S(t)).
Např. „přesný“ odhad pomocí binomického rozdělení. Tj. oboustranný α.100% interval
spolehlivosti je potom určen (zde i pro případ s censorovanými údaji):
[Sd (α, t), Sh (α, t)],
kde
Sd (α, t)
je určeno z rovnice
X (t )
∑ Bi( N (t ), S
i =0
Sh (α, t)
d
(α , t )) =
α
2
,
je určeno z rovnice
N (t )
∑ Bi( N (t ), S
i = X (t )
h
(α , t )) =
α
2
,
Bi(N, q)
je hodnota binomického rozdělení s parametry N a q,
N(t)
je určeno jako r (t ) + ∑ d (t i ) ,
X(t)
)
je určeno jako N (t ) ⋅ S (t ) (zaokrouhleno na jednotky) .
ti <t
Obě výše uvedené rovnice je obecně nutné spočítat iteračně.
3.4 Nelson-Aalenův odhad (Nelson-Aalen estimator)
Nelson-Aalenův odhad
Nelson-Aalenův odhad je dalším z používaných neparametrických (resp.
mnohoparametrických) odhadů základních funkcí v analýze přežívání. V tomto případě se
odhaduje kumulativní funkce intenzity H(t). Z ní je potom možné odvodit ostatní funkce
používané v analýze přežívání. Nelson-Aalenův odhad je podobně jako Kaplan-Meierův
odhad primárně definován v bodech, kdy dochází k některé sledované události ve zkoumaném
souboru dat. V ostatních bodech je třeba funkci následně odvodit.
34
Nelson-Aalenův odhad je detailněji popsán např. v Samuelsen (2004) nebo v Borgan (1997).
Zde je uváděn také v souvislosti s porovnáním mezi tímto modelem a Kaplan-Meierovým
odhadem.
Nelson-Aalenův odhad kumulativní funkce intenzity je definován následovně:
)
d (t )
H (t ) = ∑ i ,
ti ≤t r (t i )
kde
)
H (t ) je odhadovaná kumulativní funkce intenzity,
r(t)
je empirická funkce počtu stále vystavených riziku v čase t (tj. počet těch, u kterých
nastala sledovaná událost nebo jejichž pozorování bylo censorováno po čase t),
d(t) je počet sledovaných událostí, které nastaly v přesném čase t (nikoliv censorování),
jsou jednotlivé časové okamžiky, kdy nastávají události,
ti
i
je index.
Příklad
Můžeme zde navázat na příklad uvedený výše u Kaplan-Meierova odhadu.
V tomto případě je tedy v čase t1 = 1:
r(1) = 100 (počet všech, kteří první den byly léčeni, tj. celý soubor),
d(1) = 20 (počet těch, kteří se prokazatelně vyléčili během 1. dne léčby), tedy:
)
d (1) 20
H (1) =
=
= 0.2 ,
r (1) 100
v čase t2 = 2:
r(2) = 40 (tzn. zbývající počet těch, o kterých je známa informace k 2. dni léčby),
d(2) = 20 (počet těch, kteří se prokazatelně vyléčili během 2. dne léčby), tedy:
)
)
20
d (2)
H (2) = H (1) +
= 0.2 +
= 0.2 + 0.5 = 0.7 .
r (2)
40
V podsekci Intenzita (Intensity, hazard, risk) a kumulativní funkce intenzity (Cumulative
hazard function) sekce 2.2 Přežívání jako spojitá a smíšená náhodná veličina byl odvozen
vztah:
S(t) = e–H(t).
Ten lze nyní použít pro následný odhad funkce přežívání pomocí Nelson-Aalenova odhadu:
)
S (1) = e −0.2 = 0.82 ,
)
S (2) = e −0.7 = 0.50 .
Tyto údaje lze potom srovnat s odhadem pomocí Kaplan-Meierovy metody.
35
Přesnost odhadu
Podobně jako v případě Kaplan-Meierova odhadu lze přesnost měřit pomocí standardní chyby
odhadu. Ta je v případě Nelson-Aalenova odhadu rovna:
σ) 2 (t ) = ∑
ti ≤t
(r (t i ) − d (t i ))(d (t i ))
.
(r (t i ) − 1)(r (t i )) 2
Je vidět, že narozdíl od směrodatné chyby Kaplan-Meierova odhadu, zde směrodatná chyba
odhadu roste s časem. Ovšem podobně lze i zde ukázat, že Nelson-Aalenův odhad konverguje
v distribuci k normálnímu rozdělení s parametry H(t) a E[ σ) (t ) ] (viz např. Samuelsen (2004)).
Proto lze i zde konstruovat intervaly spolehlivosti založené na normálním rozdělení. Tedy
α.100% interval spolehlivosti je v tomto případě roven:
)
)
[ H (t ) + zα/2 σ) (t ) , H (t ) + z1−α/2 σ) (t ) ],
kde
zχ
je χ-kvantil standardního normálního rozdělení.
Podobně jako u Kaplan-Meierova odhadu mohou nastat problémy u malých hodnot H(t) (tedy
nyní v malých časech t), kdy by zde dolní mez intervalu spolehlivosti mohla být nižší než 0.
To je možné řešit obdobně jako v předchozím případě.
Bie et al. (1987) navrhl upravit intervaly spolehlivosti tak, aby lépe odpovídaly v případě
malých hodnot. V tom případě by α.100% interval spolehlivosti byl:
⎡)
⎛ zα / 2σ) (t ) ⎞ )
⎛ z1−α / 2σ) (t ) ⎞⎤
⎜
⎟
⎜⎜
⎟⎟⎥ .
⋅
⋅
H
(
t
)
exp
,
H
(
t
)
exp
)
)
⎢
⎜ H (t ) ⎟
⎝
⎠
⎝ H (t ) ⎠⎦
⎣
3.5 Vztah mezi Kaplan-Meierovým a Nelson-Aalenovým odhadem
Jako vlastní výpočet zde lze uvést vztah mezi Kaplan-Meierovým a Nelson-Aalenovým
odhadem (zjednodušeně podobně též v Samuelsen (2004)).
Obecně lze říci, že Kaplan-Meierův a Nelson-Aalenův odhad si přibližně odpovídají. Jeden
lze aproximovat pomocí druhého, kdy se pro aproximaci použije první prvek zápisu pomocí
mocninné (Taylorovy) řady funkce ln(1 – x).
Nejprve tedy uveďme poznatek matematické analýzy, že
ln(1 – x) = − x −
x2 x3
−
− ... ,
2
3
kdy daná řada konverguje pro –1 ≤ x < 1.
Z toho plyne, že pro x blízká 0 lze funkci ln(1 – x) aproximovat pomocí výrazu –x (rozdíl je
potom srovnatelný s x2). To je také základ vztahu mezi Kaplan-Meierovým a NelsonAalenovým odhadem.
36
Kaplan-Meierův odhad si lze přepsat:
)
r (t + Δt )
r (t ) − d (t i )
.
=∏ i
S (t ) = ∏ i
r (t i )
r (t i )
ti ≤t
ti ≤t
Obecně platí vztah mezi S(t) a H(t):
⎞
⎛t
S (t ) = exp⎜⎜ ∫ h( s )ds ⎟⎟ = exp(− H (t ) ) .
⎠
⎝0
Z toho již lze s využitím předchozího pro Kaplan-Meierovu metodu získat:
⎛
)
)
H (t ) = − ln (exp(− H (t ) )) = − ln⎜⎜
⎝
∏
ti ≤ t
⎛
r (t i ) − d (t i ) ⎞
⎟ = − ln⎜
⎟
⎜
r (t i )
⎠
⎝
d (t i ) ⎞
⎛
d (t i ) ⎞
⎝
i
∏1 − r (t ) ⎟⎟ = − ∑ ln⎜⎜1 − r (t ) ⎟⎟ .
ti ≤t
i
⎠
ti ≤t
⎠
Ovšem z toho již plyne aproximativně Nelson-Aalenův odhad, neboť za použití prvního členu
mocninného rozkladu funkce ln(1 – x):
⎛ d (t i ) ⎞
)
d (t ) )
⎟⎟ ≅ ∑ i = H NA (t ) ,
H KM (t ) = − ∑ ln⎜⎜1 −
r (t i ) ⎠ ti ≤t r (t i )
ti ≤t
⎝
kde indexy KM a NA označují odhad kumulativní funkce intenzity pomocí Kaplan-Meierovy
a Nelson-Aaleovy metody.
3.6 Kaplan-Meierův a Nelson-Aalenův odhad v případě odchodu od rodičů
v České republice
Odhad funkce přežívání do odchodu od rodičů v ČR a jejich srovnání
Jako ilustrace metod popsaných výše je volena problematika odchodu od rodičů v České
republice. Tato problematika je detailně analyzována v kapitole 6 Odchod od rodičů v České
republice.
Zde jen ve stručnosti lze uvést, že použitá data jsou z výzkumu Fertility and Family Surveys
(UNECE (2003)). Ta pro Českou republiku pokrývají přibližně období konce 60. až počátku
90. let minulého století. Pro Českou republiku jsou také omezena tím, že nezávisle byly
zkoumány pouze ženy.
K dispozici byly údaje o 1735 ženách, z toho 545 údajů bylo censorováno. V datovém
souboru byly také další údaje, které bylo možné použít pro detailnější analýzu. Proto
z možností pro použití těchto metod popsaných na začátku této kapitoly lze vybrat hlavně
první z nich – použití jako základní popis problematiky. Dat je jinak poměrně hodně a to jak
počet zkoumaných žen, tak lze zahrnout další možné vysvětlující proměnné. Proto pro
detailnější analýzu je na místě volit podrobnější model (jak je tomu dále v již zmíněné
kapitole 6 Odchod od rodičů v České republice).
37
V tomto případě tedy uvažujeme z celého souboru pouze údaje o věku při odchodu od rodičů
či při censorování a indikátory censorování. Z důvodu velkého počtu dat budou výsledky
uváděny pomocí grafů a nebudou použity tabulky.
Kaplan-Meierův odhad je odhadem funkce přežívání S(t), který je zobrazen na grafu 3-1.
Popisuje dobře situaci v celé populaci. Nejprve je vidět pouze slabý pokles funkce ve věku
kolem 15 – 18 let, kdy pouze necelých 10 % odešlo od rodičů. Potom následuje prudký sestup
do přibližně 25. roku věku, kdy již pouze kolem ¼ žen ještě od rodičů neodešlo. A nakonec je
dobře vidět, že málo přes 16 % žen nikdy od rodičů neodchází (95% interval spolehlivosti je
13.8 % – 18.2 %).
Kaplan-Meierův odhad
95% UCLKM
95% LCLKM
Funkce přežívání
1.0
0.8
0.6
0.4
0.2
0.0
10
15
20
25
30
35
40
45
50
Věk
Graf 3-1: Kaplan-Meierův odhad funkce přežívání do odchodu od rodičů žen v České republice. Vyznačeny
jsou 95% intervaly spolehlivosti odhadnuté Greenwoodovou metodou.
Nelson-Aalenův odhadem se odhaduje kumulativní funkce intenzity. Ta sama o sobě nemá
takový zřejmý charakter jako funkce přežívání. Ovšem strmost této funkce odpovídá intenzitě
studovaného procesu, tedy v tomto případě čím je tato funkce v daném věku strmější, tím je
v něm vyšší intenzita odchodu od rodičů. Opět, podobně jako v předchozím grafu 3-1, i
v grafu 3-2 Nelson-Aalenova odhadu kumulativní funkce intenzity je dobře patrné, že
nejvyšší intenzita odchodu od rodičů je přibližně mezi 18. – 25. rokem věku.
Také je dobře z grafu 3-2 patrné, že spolehlivost odhadu, zobrazená pomocí intervalů
spolehlivosti, výrazně klesá s přibývajícím věkem a tedy nižším počtem osob ve zkoumaném
souboru, jež ještě neodešly od rodičů.
38
95% UCLNA
95% LCLNA
Kumulativní funkce intenzity
2.2
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
10
15
20
25
30
35
40
45
50
Věk
Graf 3-2: Nelson-Aalenův odhad kumulativní funkce intenzity odchodu od rodičů žen v České republice.
Vyznačeny jsou 95% intervaly spolehlivosti.
Kumulativní funkci intenzity odhadnutou pomocí Nelson-Aalenova odhadu včetně mezí
spolehlivosti lze snadno převést na funkci přežívání pomocí vztahu
S(t) = exp(–H(t)).
V takovém případě lze sestrojit graf funkce přežívání odhadnuté pomocí Nelson-Aalenovy
metody včetně intervalů spolehlivosti. To je zobrazeno na grafu 3-3.
95% UCLNA
95% LCLNA
1.0
0.8
0.6
0.4
0.2
0.0
10
15
20
25
30
35
40
45
50
Věk
Graf 3-3: Odhad funkce přežívání do odchodu od rodičů u žen v České republice pomocí Nelson-Aalenovy
metody. Vyznačeny jsou 95% intervaly spolehlivosti.
Z grafů 3-1 a 3-3 je dobře patrné, že odhady pomocí obou metod se ve výsledku od sebe
velmi neliší. To je dáno i vztahem mezi těmito odhady, jak byl demonstrován v předchozí
sekci 3.5 Vztah mezi Kaplan-Meierovým a Nelson-Aalenovým odhadem.
39
0.0002
0.0000
-0.0002
-0.0004
-0.0006
-0.0008
-0.0010
-0.0012
-0.0014
-0.0016
-0.0018
-0.0020
10
15
20
25
30
35
40
45
1.001
1.000
0.999
0.998
0.997
0.996
0.995
0.994
0.993
0.992
0.991
0.990
50
SKM - SNA(L)
SKM / SNA(R)
Na grafech 3-4 a 3-5 je zobrazen rozdíl a podíl mezi odhadem funkce přežívání pomocí
Kaplan-Meierovy a Nelson-Aalenovy metody (křivky mají různá měřítka). Je jasně patrné, že
rozdíly jsou minimální, např. v podílovém vyjádření jejich odchylka nepřekročí 1 %. Přitom
s rostoucím věkem se podílová odchylka zvyšuje, což ale neplatí tak jednoznačně pro rozdíl
odhadů.
Věk
0.0002
0.0000
-0.0002
-0.0004
-0.0006
-0.0008
-0.0010
-0.0012
-0.0014
-0.0016
-0.0018
-0.0020
0.1
0.3
0.2
0.5
0.4
0.7
0.6
1.001
1.000
0.999
0.998
0.997
0.996
0.995
0.994
0.993
0.992
0.991
0.990
1.1
0.9
0.8
SKM - SNA(L)
SKM / SNA(R)
Graf 3-4: Porovnání Kaplan-Meierova odhadu a Nelson-Aalenova odhadu na funkci přežívání do odchodu od
rodičů u žen v ČR. Pro rozdíl je měřítko vlevo, pro podíl je měřítko vpravo. Na ose x je věk.
1.0
KM
Graf 3-5: Porovnání Kaplan-Meierova odhadu a Nelson-Aalenova odhadu na funkci přežívání do odchodu od
rodičů u žen v ČR. Pro rozdíl je měřítko vlevo, pro podíl je měřítko vpravo. Na ose x je hodnota KaplanMeierova odhadu funkce přežívání.
Přesnost odhadů
Dále je možné se zaměřit na přesnost odhadu pomocí obou metod. Tato přesnost je zde
vyjádřena pomocí intervalů spolehlivosti, které již byly zobrazeny na grafech 3-1 až 3-3. Nyní
se na ně lze zaměřit podrobněji.
40
Na následujících grafech 3-6 a 3-7 jsou srovnány odhady 95% intervalů spolehlivosti.
V případě Kaplan-Meierovy metody jsou uvedeny odhady pomocí Greenwoodovy metody a
„přesné“ intervaly spolehlivosti. V případě Nelson-Aalenovy metody jsou tyto intervaly
převedeny z kumulativní funkce intenzity na funkci přežívání obdobně jako samotný odhad.
Samuelsen (2004) uvádí pro tuto podsekci základní výsledek, kdy ukazuje, že intervaly
spolehlivosti k sobě konvergují pro velké množství dat (pro Nelson-Aalenův odhad a pro
Greenwoodův odhad u Kaplan-Meierova odhadu, podobně by bylo možné ukázat
i konvergenci s „přesným“ odhadem intervalu spolehlivosti).
0.06
UCLKM -KM, LCLKM -KM
UCLNA(S)-NA, LCLNA(S)-NA
UCLEXACT -KM, LCLEXACT -KM
0.05
0.04
0.03
0.02
0.01
0.00
-0.01
-0.02
-0.03
-0.04
10
15
20
25
30
35
40
45
50
Věk
Graf 3-6: Porovnání 95% intervalů spolehlivosti pomocí Greenwoodovy a „přesné“ metody odhadu u KaplanMeierova odhadu a 95% intervalů spolehlivosti u Nelson-Aalenova odhadu. Ve všech případech je odečtena
příslušná hodnota odhadu. Zkoumána je funkce přežívání do odchodu od rodičů u žen v ČR. Na ose x je věk.
0.05
UCLKM -KM, LCLKM -KM
UCLNA(S)-NA, LCLNA(S)-NA
UCLEXACT -KM, LCLEXACT -KM
0.04
0.03
0.02
0.01
0.00
-0.01
-0.02
-0.03
-0.04
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1
KM
Graf 3-7: Porovnání 95% intervalů spolehlivosti pomocí Greenwoodovy a „přesné“ metody odhadu u KaplanMeierova odhadu a 95% intervalů spolehlivosti u Nelson-Aalenova odhadu. Ve všech případech je odečtena
příslušná hodnota odhadu. Zkoumána je funkce přežívání do odchodu od rodičů u žen v ČR. Na ose x je hodnota
Kaplan-Meierova odhadu funkce přežívání.
41
Z grafů je patrné, že oba odhady intervalů spolehlivosti vycházející z Kaplan-Meierovy
metody odhadu funkce přežívání jsou takřka identické. Liší se nejvíce na počátku a na konci,
ale i tam velmi málo. Na druhou stranu odhad intervalu spolehlivosti pomocí NelsonAalenovy metody se od zbylých dvou liší, kdy ukazuje na přesnější odhad na počátku a
naopak na méně přesný na konci období. Při posuzování přesnosti analýzy je možné vzít
v úvahu všechny tyto údaje.
Pokud bychom předpokládali, že odchod od rodičů u žen v České republice lze považovat za
stejně rozdělené náhodné veličiny, pomocí těchto metod bychom z použitých dat získali
poměrně velmi přesné výsledky pro celou populaci. Prakticky také bylo vidět, že není
zásadního rozdílu mezi použitou metodou odhadu, krom stanovení přesnosti tohoto odhadu.
Neboť ovšem tento předpoklad nelze přijmout, je třeba na tuto analýzu z věcného hlediska
nahlížet jako na popisnou analýzu před detailnější analýzou uvedenou v kapitole 6 Odchod od
rodičů v České republice. Jedná se také o ilustraci modelů popsaných v této kapitole.
42
4 MODELY S VYSVĚTLUJÍCÍMI
PROMĚNNÝMI
Obsah kapitoly
4.1 ÚVOD ..............................................................................................................................45
4.2 OBECNÉ ZAVEDENÍ MODELU ...........................................................................................45
4.3 VYBRANÉ MODELY .........................................................................................................47
Akcelerovaný model (Accelerated life model) ..................................................................48
Proporcionální model (Proportional hazards model) ......................................................49
Aditivní model intenzity (Additive hazards model) ...........................................................50
Model s posunem intenzity (Transfered origin model) .....................................................51
4.4 POROVNÁNÍ ZÁKLADNÍCH MODELŮ S VYSVĚTLUJÍCÍMI PROMĚNNÝMI V PŘÍPADĚ
ODCHODU OD RODIČŮ V ČR U OSOB BEZ A SE SOUROZENCI ...................................................51
Akcelerovaný model ..........................................................................................................53
Proporcionální model .......................................................................................................55
Aditivní model intenzity.....................................................................................................56
Model s posunem intenzity ................................................................................................57
Srovnání modelů ...............................................................................................................58
44
4.1 Úvod
V předchozí kapitole 3 Základní modely analýzy přežívání byly popsány modely analýzy
přežívání, které závisely pouze na době přežívání. Data, z nichž se tyto modely odhadovaly,
obsahovala pouze údaje o době do výskytu sledované události, příp. do doby censorování.
V této kapitole jsou popsány modely, jež kromě na čase (době do sledované události) závisí
také na dalších parametrech (vysvětlujících proměnných). Takové modely mohou sloužit
k hlubšímu zkoumání studovaného procesu.
Příkladů použití takových modelů je mnoho. V medicínském výzkumu lze zkoumat dobu do
uzdravení při použití různých léčebných postupů (typ metody je tedy v tomto případě
vysvětlující proměnnou). Otázkou zde např. může být, zda některé léčebné postupy jsou
obecně lepší než jiné.
V demografii např. lze obdobně pomocí těchto modelů modelovat přirozené vymírání
populací v různých geografických regionech. Jiným příkladem použití v demografii je
studium obecného vlivu některých socio-ekonomických a osobnostních faktorů na procesy
přechodu do dospělosti, jak je např. uvedeno v této práci hlavně v kapitole 6 Odchod od
rodičů v České republice.
V průmyslové analýze přežívání mohou být tyto modely použity např. pro zkoumání doby do
poruchy u součástek či strojů v závislosti na podmínkách, v nichž jsou používány. V takovém
případě je např. snahou najít takové kritické faktory, jež nejvíce ovlivňují životnost daných
součástek či strojů.
Obecně otázky, jež lze pomocí těchto modelů zkoumat, lze shrnout do dvou základních.
Jednou z nich je, zda různé proměnné obecně působí na dobu do sledované události, a pokud
ano, tak jak lze popsat toto působení. Druhou je potom otázka prediktivní – pokud známe
některé vybrané údaje, jakou můžeme očekávat dobu do sledované události? Toto jsou dva
základní směry otázek, k čemu lze využít zde zaváděné modely s vysvětlujícími proměnnými.
Modely analýzy přežívání s vysvětlujícími proměnnými jsou ve svých základních podobách
popsány již delší dobu – např. již Cox a Oakes (1984) je popisují pro příklad úspěšnosti léčby.
Zde jsou tyto modely uvedeny jako logický základ detailněji popsaného log-lineárního
modelu intenzity a jeho použití pro analýzu odchodu od rodičů v České republice (což je
obsah následujících kapitol této práce). Zároveň je zde jako vlastní příklad uvedeno použití
porovnání vhodnosti několika modelů na modelování procesu odchodu od rodičů v ČR
v případě osob bez sourozenců a se sourozenci.
4.2 Obecné zavedení modelu
Model lze obecně zapsat pomocí základních funkcí analýzy přežívání jako:
Si(t) = S(t, ui(t), Ui)
nebo
hi(t) = h(t, ui(t), Ui)
nebo
45
fi(t) = f(t, ui(t), Ui)
a podobně. Význam označení je následující:
t
je čas,
je funkce přežívání i-tého subjektu (osoby, součástky, apod.)
Si(t)
v čase t,
je funkce intenzity i-tého subjektu (osoby, součástky, apod.)
hi(t)
v čase t,
je funkce hustoty pravděpodobnosti i-tého subjektu (osoby,
fi(t)
součástky, apod.) v čase t,
je vektor (soubor) parametrů (hodnot vysvětlujících funkcí)
ui(t)
příslušejících i-tému subjektu v čase t,
je vektor (soubor) náhodných veličin příslušejících i-tému
Ui
subjektu,
S(a,b,c), h(a,b,c), f(a,b,c)
jsou obecné funkce.
Modely mohou být zadány pomocí libovolné funkce z výše uvedených (S(t), h(t), f(t)) nebo i
pomocí jiné (např. kumulativní funkce intenzity H(t)). To je z toho důvodu, že vždy stačí znát
jednu z těchto funkcí a ostatní již z nich lze odvodit, jak bylo ukázáno v kapitole 2 Zavedení
základních pojmů analýzy přežívání. Nejčastěji jsou používány primárně funkce intenzity
nebo funkce přežívání.
Obecně tedy model s vysvětlujícími proměnnými pouze určuje, že zde je závislost mezi
přežíváním a vysvětlujícími proměnnými (a časem). To je však velice obecný předpoklad,
který obecně neumožňuje praktickou tvorbu modelů. Aby bylo možné modely odhadovat, je
třeba zavést další předpoklady – vytvořit podmodely tohoto obecného modelu.
Takových modelů lze samozřejmě vymyslet nekonečné množství. Ovšem obecně na
„použitelný“ model klademe několik požadavků. V první řadě, aby byl jednoduchý a
umožňoval interpretaci výsledků, což je obvykle důvod, proč model vůbec tvoříme. Na
druhou stranu ovšem je třeba, aby skutečnost popisoval dostatečně dobře. Z praktického
hlediska je zase zapotřebí, aby bylo možné model odhadnout z dat, jež jsou k dispozici.
46
4.3 Vybrané modely
Nyní zde budou uvedeny čtyři příklady modelů s vysvětlujícími proměnnými, které patří mezi
ty, jež splňují výše uvedené požadavky (viz také např. Cox a Oakes (1984)). Pro zjednodušení
zde budou uvažovány pouze takové vysvětlující proměnné, jejichž hodnota se nemění v čase.
Nezávislé proměnné, jejichž hodnota se s časem mění, by se modelovaly obdobně. Podobně
zde nyní nejsou uvažovány mezi parametry náhodné veličiny.
Zároveň zde opět pro jednoduchost bude použit princip, kdy modely jsou odvozovány od
určeného základního modelu. Takový základní model může být např. doba přežívání za
standardních podmínek, odhadnutá funkce doby přežívání všech zkoumaných osob (apod.)
dohromady, atd. To výrazně usnadňuje interpretaci výsledků.
Tyto čtyři modely lze rozdělit do dvou základních skupin. První z nich je založena na
modelování primárně funkce přežívání a je zde reprezentována prvním z modelů
(akcelerovaný model). Druhá z nich je založena na modelování primárně funkce intenzity a
patří do ní zbylé tři modely. Toto dělení odpovídá i dělení principiální. Modelování funkce
přežívání odpovídá spíše přístupu, kdy se modeluje celý proces najednou, za celý časový
úsek, v němž se projevuje. Tedy např. modelování celého procesu první koncepce
v populacích najednou. Naproti tomu modelování intenzity odpovídá spíše zaměření se na
daný okamžik. Např. intenzita první koncepce v daném věku. Zdá se, že právě tento druhý
přístup bude v demografii nyní stále více používán (viz např. Hoem (2003)).
Speciálnímu případu druhého zde popsaného modelu (proporcionální model) je věnována pro
svůj rozsah celá samostatná následující kapitola 5 Log-lineární model intenzity. V tomto
případě je model popsán i včetně vysvětlujících proměnných, jejichž hodnota se mění v čase,
a náhodných veličin, jejichž hodnota přísluší danému subjektu. Také je zde diskutována
otázka základního modelu, kdy je uvedeno, že může být volen libovolně bez újmy pro
modelování.
47
Akcelerovaný model (Accelerated life model)
Akcelerovaný model předpokládá, že jednotlivé vysvětlující proměnné obecně „zpomalují“
nebo naopak „zrychlují“ čas do sledované události. De facto jde o princip, jež byl již ve své
jednoduché formě použit v pohádce bratří Grimmů Der Gevatter Tod (Grimm a Grimm
(1857)). Zde Kmotr Smrt ukazuje svému kmotřenci-lékaři svíčky života všech lidí a svíčky
jsou různě tlusté, a tedy některé hoří pomaleji a některé rychleji – některým lidem běží život
rychleji a některým pomaleji. Tato pohádka je v ČR patrně známější v přepracované televizní
podobě Dařbuján a Pandrhola dle scénáře Jana Drdy s režií Martina Friče (Frič (1959)), kde je
ovšem ona část se svíčkami vypuštěna.
Ve své jednoduché formě lze takový model zapsat jako:
S i (t ) = S 0 (t ⋅ φ (u i )) ,
kde
t
i
Si(t)
S0(t)
ui
φ(x)
je čas,
je označení i-té osoby (příp. jiného objektu studia),
je funkce přežívání v čase t,
je vybraná základní funkce přežívání v čase t,
je vektor (soubor) vysvětlujících proměnných specifických pro i-tou osobu,
je funkce vysvětlujících proměnných, jak působí na přežívání.
Předpoklad modelu lze dobře vidět na grafu funkce přežívání 4-1. Předpoklad akcelerovaného
modelu znamená, že poměr časů od počátku pro stejné hodnoty funkce přežívání modelu
oproti základní funkci přežívání je konstantní. Jinými slovy – poměr délek zelené a modré
šipky je v každém místě stejný, pouze jeho velikost závisí na hodnotách vysvětlujících
proměnných.
1.0
S0
Akcelerovaný model
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Čas (t)
Graf 4-1: Ukázka akcelerovaného modelu. Poměr délek (pokud existuje) zelené a modré šipky pro dané hodnoty
vysvětlujících proměnných je pro každé y z intervalu [0,1] stejný. Červeně je označen počátek zkoumaného času.
48
Proporcionální model (Proportional hazards model)
Proporcionální model předpokládá, že vysvětlující proměnné působí ve svém důsledku
multiplikativně na intenzitu sledovaného procesu. V jednoduché formě lze takový model
zapsat jako:
hi (t ) = h0 (t ) ⋅ φ (u i ) ,
kde
je intenzita sledované události v čase t,
hi(t)
je vybraná základní intenzita sledované události v čase t,
h0(t)
jinak je označení shodné jako u akcelerovaného modelu.
Intenzita
h0
Proporcionální model
Předpoklad modelu znamená, že poměr intenzity proporcionálního modelu vůči základnímu
modelu je v každém okamžiku stejný. Velikost tohoto poměru závisí na hodnotách
vysvětlujících proměnných. Základní předpoklad tohoto modelu lze vidět na grafu 4-2.
V tomto případě to znamená, že poměr červené a modré šipky je v každém čase t shodný.
Čas (t)
Graf 4-2: Ukázka proporcionálního modelu. Poměr délek (pokud existuje) červené a modré šipky pro dané
hodnoty vysvětlujících proměnných je pro každé t stejný.
Speciálním případem proporcionálního modelu je log-lineární model intenzity. Tento model
je v této práci detailně popsán a je mu věnována následující kapitola práce (5 Log-lineární
model intenzity). Zároveň je použit pro analýzu odchodu od rodičů v ČR, jíž je věnována také
samostatná kapitola této práce (6 Odchod od rodičů v České republice).
49
Aditivní model intenzity (Additive hazards model)
Aditivní model intenzity předpokládá, že vysvětlující proměnné působí ve svém důsledku
aditivně na intenzitu sledovaného modelu. Lze jej zapsat jako:
hi (t ) = h0 (t ) + φ (u i ) ,
kde označení je shodné jako u proporcionálního modelu.
Intenzita
h0
Aditivní model
Přesněji řečeno tedy model předpokládá, že rozdíl intenzit aditivního modelu a základního
modelu je v každém okamžiku stejný. Velikost tohoto rozdílu závisí na hodnotách
vysvětlujících proměnných. Na grafu 4-3 je to zobrazeno tak, že vzdálenost dvojic šipek je
v každém čase t stejná.
Čas (t)
Graf 4-3: Ukázka aditivního modelu. Vzdálenost šipek pro dané hodnoty vysvětlujících proměnných je pro
každé t stejná.
Použití aditivního modelu intenzity s sebou nese jeden nepříjemný aspekt. Obecně je možné,
aby intenzita modelu vyšla nižší než je 0, což neodpovídá zavedení a chápání intenzity
procesu. V takovém případě je tedy třeba tento model upravit. Jednou z nejjednodušších
takových úprav může být následující přeformulace modelu:
hi (t ) = max(h0 (t ) + φ (u i ), 0) ,
kde označení je shodné s předchozím.
50
Model s posunem intenzity (Transfered origin model)
Model s posunem intenzity předpokládá, že vysvětlující proměnné působí ve svém důsledku
pouze na posun intenzity sledované události v čase. Model lze psát:
hi (t ) = h0 (t + φ (u i )),
kde označení je shodné jako u proporcionálního modelu.
Intenzita
h0
Model s posunem
Můžeme opět předpoklad modelu popsat slovně. Tedy předpokládáme, že existuje taková
hodnota, že model s posunem intenzity má stejnou intenzitu v čase t + tato hodnota jako
základní model v čase t. Tato hodnota závisí na vysvětlujících proměnných. Na grafu 4-4
tomu odpovídá vždy stejná vzdálenost dvojic šipek.
Čas (t)
Graf 4-4: Ukázka modelu s posunem intenzity. Vzdálenost šipek pro dané hodnoty vysvětlujících proměnných
je pro každou hodnotu y stejná.
4.4 Porovnání základních modelů s vysvětlujícími proměnnými v případě
odchodu od rodičů v ČR u osob bez a se sourozenci
Jako ilustrativní ukázka a pro porovnání modelů s vysvětlujícími proměnnými je zde zvolena
problematika porovnání procesů odchodu od rodičů v České republice u osob bez sourozenců
a se sourozenci. Jedná se o otázku, jež byla zkoumána již např. v Suzuki (2001) pro Japonsko,
v Flatau et al. (2003) pro Austrálii či v Sienkiewicz (2003) pro Polsko. Tato problematika je
pro ČR detailně analyzována v podsekci 6.8 Výsledky - Efekt počtu sourozenců.
Pro účely této analýzy zde jen ve stručnosti lze uvést, že použitá data jsou z výzkumu Fertility
and Family Surveys (UNECE (2003)). Data jsou omezena tím, že v České republice byly
nezávisle zkoumány pouze ženy.
Jako základ pro počet sourozenců byl brán údaj o počtu sourozenců, které měl respondent
v 15 letech věku. K dispozici jsou údaje o 1735 ženách, z toho 1597 mělo sourozence a 138
nikoliv. Z údajů za ženy se sourozenci bylo 497 dat censorováno časem interview (tzn. tyto
ženy v čase interview ještě neodešly od rodičů), z údajů za ženy bez sourozenců 48.
51
Jako základní model byl ve všech případech volen odhadnutý model za všechny ženy
dohromady. Vysvětlující proměnná je zde pouze jedna, a to počet sourozenců. U té zde pro
jednoduchost uvažujeme pouze dvě různé hodnoty a to „bez sourozenců“ a „se sourozenci“.
Z těchto údajů a z počtů žen v jednotlivých skupinách se dá předpokládat, že základní model
bude daleko spíše odpovídat skupině se sourozenci než skupině bez sourozenců.
Jako základní výsledky zde budou uváděny grafy intenzity a funkce přežívání. Pro odhad
základního modelu byl pro funkci přežívání použit Kaplan-Meierův odhad (viz sekce 3.3
Kaplan-Meierův odhad). To byl také základ pro akcelerovaný model. Intenzita byla
odhadnuta pomocí metod stejných jako v kapitole 6 Odchod od rodičů v České republice a
tam také detailněji popsaných. Tato intenzita byla poté základem pro ostatní tři modely.
Odhad parametrů modelů byl učiněn pomocí upravených metod nejmenších čtverců. Pro
snazší rozlišení je zde všude v grafech použitá jednotná barva pro jednotlivé typy modelů pro základní model a samostatné modely (viz níže) je použitá modrá barva, pro akcelerovaný
model zelená, pro proporcionální model červená, aditivní model je značen fialově a model
s posunem intenzity šedě.
Pro porovnání, jak dobře modely aproximují data, byly také podobně jako základní model za
všechny ženy odhadnuty „samostatné“ modely. Tj. takové, kdy byl odhadnut model pouze
z dat za jednu skupinu (např. „bez sourozenců“), aniž by vůbec data za ženy z druhé skupiny
byla vzaty v té chvíli v potaz.
0.26
0.24
0.22
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
h 0 (všechny osoby)
Osoby bez sourozenců
Osoby se sourozenci
Nejprve zde tedy můžeme uvést tyto modely za obě skupiny odhadnuté samostatně, tj. pro
každou skupinu je samostatný model odhadnutý pouze z dat za danou skupinu. Na
následujících grafech 4-5 a 4-6 je vidět rozdílnost procesů odchodu od rodičů v těchto dvou
skupinách (ta byla nakonec nalezena i při odstranění vlivu dalších proměnných, viz kapitola
6 Odchod od rodičů v České republice). Následující modely budou dobře odpovídat datům
tehdy, pokud odhady pro dané dvě skupiny se budou co nejvíce blížit těmto samostatným
odhadům.
15
20
25
30
35
40
45
Věk
Graf 4-5: Porovnání intenzity odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců a se sourozenci.
Vlastní výpočet.
52
1.0
S0 (všechny osoby)
Osoby bez sourozenců
Osoby se sourozenci
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
15
20
25
30
35
40
45
Věk
Graf 4-6: Porovnání funkce přežívání do odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců a se
sourozenci. Vlastní výpočet.
Akcelerovaný model
Jak bylo výše popsáno, akcelerovaný model byl zaveden ve tvaru:
S i (t ) = S 0 (t ⋅ φ (u i )) .
V tomto případě tedy šlo o nejjednodušší model:
Si(t) = S0(t.φ i(I i)),
kde
Ii
φ i(x)
S0(t)
i
je indikátor, zda i-tá osoba má či nemá sourozence (tj. mohou zde nastat dvě hodnoty),
je funkce tohoto indikátoru, výsledkem jsou zde opět pouze dvě hodnoty, tedy lze je
považovat za dva parametry – pro každou skupinu osob jeden,
je základní funkce přežívání odhadnutá za všechny osoby,
je index.
V tomto případě byly odhadnuty výsledné funkce:
Si(t) = S0( 1.121 ⋅ t )
pro osoby bez sourozenců a
Si(t) = S0( 0.986 ⋅ t )
pro osoby se sourozenci.
Tomu odpovídají funkce přežívání a funkce intenzity jak jsou zobrazeny na následujících
grafech 4-7 a 4-8.
53
1.0
S0
Samostatný model: bez/s
Akcelerovaný model: bez/s
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
15
20
25
30
35
40
45
0.26
0.24
0.22
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
h0
Akcelerovaný model: bez/s
Graf 4-7: Funkce přežívání do odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců a se sourozenci.
Porovnání samostatných odhadů a odhadu pomocí akcelerovaného modelu. Vlastní výpočet.
15
20
25
30
35
40
45
Věk
Graf 4-8: Funkce intenzity odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců a se sourozenci.
Porovnání samostatných odhadů a odhadu pomocí akcelerovaného modelu. Vlastní výpočet.
54
Proporcionální model byl výše zaveden ve tvaru:
hi (t ) = h0 (t ) ⋅ φ (u i ) .
V tomto případě tedy šlo o model:
hi(t) = h0(t).φ i(I i),
kde
h0(t) je základní funkce intenzity odhadnutá za všechny osoby,
jinak jsou označení shodná jako v předchozím případě.
V tomto případě proporcionálního modelu byly odhadnuty výsledné funkce:
hi(t) = 0.786 ⋅ h0(t)
hi(t) = 1.020 ⋅ h0(t)
pro osoby se sourozenci.
0.26
0.24
0.22
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
h0
Proporcionální model: bez/s
Následující graf intenzit 4-9 zobrazuje tyto výsledky graficky:
15
20
25
30
35
40
45
Věk
Porovnání samostatných odhadů a odhadu pomocí proporcionálního modelu. Vlastní výpočet.
55
Aditivní model intenzity
Aditivní model byl zaveden ve dvou tvarech (viz výše) a to:
hi (t ) = h0 (t ) + φ (u i ) ,
resp.
hi (t ) = max(h0 (t ) + φ (u i ), 0) .
V tomto konkrétním případě tedy šlo o modely:
hi(t) = h0(t) + φ i(I i),
hi(t) = max(h0(t) + φ i(I i), 0),
kde označení jsou shodná jako v předchozím případě.
Výsledné modely měly potom tvar:
hi(t) = -0.004 + h0(t)
hi(t) = 0.000 + h0(t)
pro osoby se sourozenci (tedy prakticky identický jako základní model).
0.26
0.24
0.22
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
h0
Aditivní model: bez/s
Na následujícím grafu 4-10 je dobře patrné, že aditivní modely se pro obě skupiny prakticky
neliší:
15
20
25
30
35
40
45
Věk
Porovnání samostatných odhadů a odhadu pomocí aditivního modelu intenzity. Vlastní výpočet.
56
Model s posunem intenzity
Model s posunem intenzity byl zaveden výše obecně jako:
hi (t ) = h0 (t + φ (u i )).
Zde konkrétně tedy šlo o model:
hi(t) = h0(t + φ i(I i)),
kde označení jsou shodná jako v předchozích případech.
Výsledné modely měly potom pro dané dvě skupiny tvar:
hi(t) = h0(t – 0.710)
pro skupinu osob bez sourozenců a
hi(t) = h0(t + 0.101)
pro skupinu osob se sourozenci.
0.26
0.24
0.22
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
h0
Model s posunem: bez/s
Tyto výsledky jsou graficky zobrazeny na následujícím grafu 4-11:
15
20
25
30
35
40
45
Věk
Porovnání samostatných odhadů a odhadu pomocí modelu s posunem intenzity. Vlastní výpočet.
57
Srovnání modelů
Jak již bylo výše naznačeno, modely se více liší pro skupinu osob bez sourozenců. To je dáno
tím, že jako základní model byl použit model odhadnutý za všechny osoby a osob bez
sourozenců bylo přibližně jen 8 % z celkového počtu.
0.26
0.24
0.22
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
Samostatný model
Akcelerovaný model
Aditivní model
Na grafu intenzit odchodů od rodičů 4-12 je porovnání jednotlivých odhadnutých modelů pro
tuto skupinu osob. Je vidět, že v tomto případě proporcionální a akcelerovaný model se blíží
skutečnosti (modelu, jenž byl odhadnut pouze z osob bez sourozenců) nejvíce. Na grafu 4-13
je toto srovnání provedeno pro funkce přežívání.
15
20
25
30
35
40
45
Věk
Graf 4-12: Funkce intenzity odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců. Porovnání
samostatných odhadů a odhadu pomocí proporcionálního modelu, akcelerovaného modelu, aditivního modelu
intenzity a modelu s posunem intenzity. Vlastní výpočet.
1.0
0.9
Samostatný model
Akcelerovaný model
Aditivní model
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
15
20
25
30
35
40
45
Věk
Graf 4-13: Funkce přežívání do odchodu od rodičů u žen v ČR ve skupině osob bez sourozenců. Porovnání
58
0.26
0.24
0.22
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
Samostatný model
Akcelerovaný model
Aditivní model
Na následujících dvou grafech 4-14 a 4-15 je pro úplnost provedeno stejné srovnání
jednotlivých modelů pro skupinu osob se sourozenci. Je patrné, že v tomto případě se všechny
modely velmi neliší ani od modelu, získaného pouze z dat o ženách se sourozenci, ani od sebe
navzájem.
15
20
25
30
35
40
45
Věk
Graf 4-14: Funkce intenzity odchodu od rodičů u žen v ČR ve skupině osob se sourozenci. Porovnání
1.0
0.9
Samostatný model
Akcelerovaný model
Aditivní model
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
15
20
25
30
35
40
45
Věk
Graf 4-15: Funkce přežívání do odchodu od rodičů u žen v ČR ve skupině osob se sourozenci. Porovnání
59
5 LOG-LINEÁRNÍ MODEL INTENZITY
Obsah kapitoly
5.1 ÚVOD ..............................................................................................................................62
5.2 ZAVEDENÍ MODELU .........................................................................................................63
5.3 D-FUNKCE VS. R-FUNKCE ...............................................................................................64
Příklady.............................................................................................................................65
5.4 ZÁKLADNÍ FUNKCE (BASELINE) ......................................................................................67
5.5 ABSOLUTNÍ ČLEN (CONSTANT) .......................................................................................69
Příklad...............................................................................................................................70
5.6 PODMÍNĚNÉ VS. NEPODMÍNĚNÉ FUNKCE (CONDITIONAL/KICK-IN AND UNCONDITIONAL
SPLINES).................................................................................................................................70
Příklad...............................................................................................................................71
5.7 KOVARIANTA PROMĚNNÁ V ČASE (TIME-VARYING COVARIATE).....................................73
Příklad...............................................................................................................................73
Zjednodušený zápis ...........................................................................................................76
5.8 KOVARIANTA NEPROMĚNNÁ V ČASE (FIXED COVARIATE)...............................................76
Příklad...............................................................................................................................76
Zjednodušený zápis ...........................................................................................................78
5.9 INTERAKCE (INTERACTION) ............................................................................................78
Interakce kategorické (diskrétní) a spojité proměnné ......................................................78
Interakce mezi dvěma kategorickými (diskrétními) proměnnými .....................................81
Interakce mezi dvěma spojitými proměnnými ...................................................................82
Interakce vyšších řádů ......................................................................................................87
Interakce v krátkosti..........................................................................................................88
5.10 VÍCEÚROVŇOVÝ MODEL (MULTILEVEL MODEL) ...........................................................88
Příklad...............................................................................................................................88
5.11 MODEL S INTERAKCEMI VS. VÍCEÚROVŇOVÝ MODEL ....................................................89
5.12 NEVYSVĚTLENÁ HETEROGENITA (UNOBSERVED HETEROGENEITY) ..............................90
5.13 VÍCEPROCESOVÝ MODEL (MULTIPROCESS MODEL).......................................................92
5.14 COXOVA REGRESE (COX’S REGRESSION) ......................................................................92
5.15 ANTICIPATORNÍ ANALÝZA (ANTICIPATORY ANALYSIS) ................................................93
Příklad...............................................................................................................................94
5.16 ODHADOVÁNÍ PARAMETRŮ MODELU .............................................................................96
5.17 TVORBA MODELU (MODEL BUILDING) ..........................................................................98
Předvýběr proměnných do analýzy...................................................................................98
Test χ2 rozdílu log-věrohodností modelů........................................................................100
Metoda nejlepší podskupiny............................................................................................101
Krokové metody ..............................................................................................................102
5.18 LOGIT-LINEÁRNÍ MODEL PRAVDĚPODOBNOSTI ............................................................105
Příklad.............................................................................................................................107
5.19 VÝZNAMNOST PROMĚNNÝCH ......................................................................................110
Porovnání založené na důležitosti pro model .................................................................110
Porovnání založené na velikosti efektu ...........................................................................112
61
5.1 Úvod
Tato kapitola je věnována detailnějšímu systematickému popisu log-lineárního modelu
intenzity procesu, který se stále spíše jen začíná používat v demografickém zkoumání (jeho
jednodušší formy byly použity např. v Kreyenfeld (2002), Baizán, Aassve a Billari (2001)).
Jako základ pro tuto kapitolu sloužil přístup použitý v Hoem (2003), který byl nadále jako
vlastní příspěvek rozšiřován (hlavně sekce 5.9 Interakce, 5.11 Model s interakcemi vs.
víceúrovňový model, 5.15 Anticipatorní analýza, 5.17 Tvorba modelu, 5.18 Logit-lineární
model a 5.19 Významnost proměnných) a formalizován. Jiný popis základů modelu je také
v Hastie a Tibshirani (1997).
Z hlediska předchozí kapitoly 4 Modely s vysvětlujícími proměnnými, v níž byly uvedeny čtyři
případy základních typů modelů s vysvětlujícími proměnnými používaných v demografii, se
jedná o proporcionální model.
V demografii lze tento model s úspěchem použít při detailním zkoumání mnoha nejrůznějších
procesů. Může jít o procesy z okruhu formování či rozpadu rodiny nebo charakteru
prokreakčního chování, ale model jde použít i při zkoumání dalších procesů jako např.
úmrtnosti. Lze jej obecně aplikovat na libovolné procesy, kde dochází k jednosměrným
přechodům mezi dvěma stavy. Tedy například proces první či druhé (či další) koncepce,
proces odchodu od rodičů, proces nástupu do zaměstnání (první zaměstnání, opětovné
zaměstnání ženy po porodu atd.), proces úmrtnosti apod.
Model umožňuje zkoumat různé vlivy proměnných na daný proces. Lze jej použít pro hledání
odpovědí na otázky, zda působí zkoumané proměnné na sledovaný proces, ale také jak tyto
proměnné působí. Zda je jejich vliv stejný v čase, či zda např. se projevuje pouze v určitém
věku. Zda je tento vliv homogenní v celé populaci, či různý v různých subpopulacích, např.
daná proměnná má vliv pouze v některé subpopulaci a v jiných nikoliv. Tento model lze
použít i pro zkoumání souvislostí více procesů, ale i pro mnohé další otázky.
Je na místě zde poznamenat, že model v první řadě modeluje chování celé populace či jejích
subpopulací. Jednotlivé výsledky obecně nelze vztahovat na úroveň jedince. Je-li např.
v určitém věku nejvyšší intenzita odchodu od rodičů, znamená to, že z celé populace v daném
věku odchází od rodičů nejvíce osob. Nelze však říci, že by šance odejít byla v daném věku
nejvyšší i pro jednotlivce. Tato otázka souvisí s heterogenitou dané (sub-)populace a byla
zkoumána již např. ve Vaupel a Yashin (1985), kde byly uvedeny různé souvislosti mezi
intenzitou na úrovni jedince a na úrovni populace. Proto, mluví-li se zde např. o chování
osoby narozené v roce 1960, jedná se o zjednodušení popisu a je tím vždy míněno hromadné
chování (průměrné chování) za skupinu osob narozených v tomto roce. Na úroveň jedince se
model dostává zahrnutím prvku nevysvětlené heterogenity (viz sekce 5.12 Nevysvětlená
heterogenita).
Model je zde popsán s důrazem na obecnost. Z toho potom vyplývají společné vlastnosti
modelování různých typů proměnných, jejichž vlivy jsou zkoumány. Popis modelu je
rozdělen do jednotlivých sekcí. Nejprve jsou popsány různé speciální části modelu, které
umožňují modelovat různé typy vlivů vysvětlujících proměnných na sledovaný proces. To je
obsahem následujících sekcí 5.2 až 5.15 věnovaných postupně od absolutního členu (žádný
vliv vysvětlujících proměnných) po použití anticipatorních vlivů proměnných.
62
Další tři sekce 5.16 až 5.18 jsou potom věnovány spíše praktickým aspektům použití modelu.
Nejprve je sekce zaměřená na způsob odhadování parametrů modelu. Dále jde o různé
způsoby tvorby modelu. Jako třetí z této spíše praktické části je popis logit-lineárního modelu
pravděpodobnosti, který představuje snáze použitelnou alternativu k log-lineárnímu modelu
intenzity.
Závěr této kapitoly je věnován způsobům určování významnosti vlivů jednotlivých
proměnných na sledovanou intenzitu (sekce 5.19).
Jednotlivé části modelu jsou ilustrovány na příkladu odchodu od rodičů v ČR (vlastní analýza
odchodu od rodičů je potom náplní následující kapitoly 6 Odchod od rodičů v České
republice). V této kapitole proces odchodu od rodičů slouží pouze k ilustraci různých typů
vlivů vysvětlujících proměnných, jež lze pomocí tohoto modelu modelovat, resp. jak je tento
model modeluje. Proto nelze zobrazené výsledky brát jako směrodatné z faktického hlediska –
např. zde není kladen důraz na statistickou významnost modelu a jeho částí (ač téměř všude
byly voleny příklady tak, aby i toho bylo dosaženo).
Jako primární metodou v příkladech bylo voleno zobrazení v grafech. Zde záměrně nejsou
udávány hodnoty osy y, neboť hlavní význam tohoto modelu spočívá v rozdílech (příp.
poměrech v nezlogaritmované verzi modelu) působených jednotlivými vlivy a nikoliv jejich
absolutní hodnotou. Hodnoty jsou v grafech obecně hodnoty zlogaritmovaného (aditivního)
modelu. Pro zobrazení bylo často voleno použití kubického splinu, který byl odhadnut
z reálných dat, ale v případě popisu modelu představuje „skutečné“ efekty.
5.2 Zavedení modelu
Log-lineární model intenzity (hazardu, rizika), jak již název napovídá, je lineárním modelem
pro logaritmus intenzity. Tj. jedná se o multiplikativní model pro samotnou intenzitu. Jde tedy
o jisté zobecnění modelu s proporcionální intenzitou (modelu proporcionálních rizik).
Vysvětlující (nezávislé) proměnné mají tedy multiplikativní efekt na studovanou intenzitu,
aditivní efekt na logaritmus studované intenzity. Jedná se tedy o obdobu obecného aditivního
modelu s logaritmem jako linkující funkcí pro použití v analýze přežívání (viz také Hastie a
Tibshirani (1997)). Ve své obecné formě je model definován takto:
ln hi (t ) = ∑ f k (u ik , t ) + ∑ U mi
k
m
nebo ekvivalentně v nezlogaritmované verzi:
hi (t ) = ∏ exp( f k (u ik , t ))∏ exp(U mi ) ,
k
kde
t
i
hi(t)
fk(uik, t)
Umi
m
je čas,
je index, označení i-té osoby (příp. jiného objektu studia),
je intenzita události v čase t,
je funkce (spline), která popisuje vliv k-té proměnné na výslednou intenzitu; uik
je specifická hodnota vysvětlující proměnné pro i-tou osobu,
je náhodná veličina; jedná se o stejně rozdělené nezávislé náhodné veličiny pro
konstantní m a různá i.
63
V závislosti na specifických vlastnostech (a počtech) funkcí a náhodných veličin lze sestavit
velmi různé modely tak, aby co nejvíce odpovídaly požadavkům zkoumaného problému.
Obvyklé je uvádění modelu ve více konkrétní formě, ale zde je zvolena jako základní forma
co nejobecnější, aby byly zřetelnější souvislosti mezi jednotlivými speciálními případy
modelů (a jejich částí).
Ze zavedení modelu jsou dobře vidět předpoklady, které model pro popsání skutečného
procesu používá. Model jako asi většina statistických modelů vychází z toho, že výsledek (zde
sledovaný proces) je popsatelný danými vysvětlujícími proměnnými, tedy že subpopulace se
stejnými vysvětlujícími proměnnými jsou homogenní. (V této souvislosti je ovšem zajímavé
použití náhodných veličin přímo v modelu, které zde mají na rozdíl od běžně používané
klasické regrese i faktický význam – důsledkem ovšem je, že při zahrnutí těchto náhodných
veličin do modelu de facto každá zkoumaná osoba je samostatnou subpopulací.)
Z toho plyne základní požadavek pro praktické použití modelu. Již v podsekci 4.3 Vybrané
modely – Proporcionální model při popisu základního proporcionálního modelu byl vidět
hlavní praktický předpoklad modelu, tedy předpoklad proporcionality. Tzn., že model
předpokládá, že vysvětlující proměnné působí multiplikativně na výslednou intenzitu,
aditivně na její logaritmus. Tomu odpovídá i tvorba vhodného modelu. Model v případě, že
proporcionality není dosaženo pomocí základních vysvětlujících proměnných, umožňuje další
modelování např. pomocí interakcí až do té doby, kdy odpovídá sledovanému procesu.
5.3 D-funkce vs. R-funkce
Vysvětlující proměnné lze obecně rozdělit na dvě základní skupiny – zda se jejich hodnoty
mění v čase, či nikoliv. Tomu odpovídají i rozdílné možnosti zahrnutí jejich vlivů do modelů.
Jejich vlivy jsou popsány obecně funkcí fk(uik, t).
Tyto funkce tedy lze rozdělit na dvě základní skupiny – D-funkce a R-funkce. Jejich
pojmenování se v angličtině standardně (např. Hoem (2003)) odvíjí od jejich reprezentace
pomocí splinů jako „duration spline“ a „regression spline“. Druhý z nich lze do češtiny
překládat jako regresní spline. Problém je s překladem „duration spline“, proto bylo zvoleno
univerzální pojmenování D-funkce a R-funkce (kdy namísto „spline“ bylo voleno obecnější a
patrně běžnější pojmenování „funkce“).
Použitá funkce v obecném modelu je obecně funkcí dvou proměnných – specifické hodnoty
uik a času t. Pro každý model je jednou ze základních náležitostí vymezení podmínky, jak
počítat čas t (tj. podmínky, kdy pro i-tou osobu je t = 0).
Pokud
fk(uik, t) je konstantní pro všechna t, potom se jedná o R-funkci; tj. je funkcí pouze uik a lze ji
psát zjednodušeně jako fk(uik);
fk(uik, t) není konstantní pro všechna t (alespoň pro některá uik) a fk(uik, t) = fk(uik + t), jedná
o D-funkci.
Jiné funkce než R- a D-funkce se obvykle nepoužívají (ač je možné je teoreticky připustit) a
zde dále nejsou uvažovány.
64
Hodnota R-funkce je tedy stejná pro všechny osoby se stejnou hodnotou uik a pro tyto osoby
konstantní po celou dobu expozice až do okamžiku sledované události nebo do okamžiku
censorování. Na druhou stranu hodnota D-funkce je pouze shodná pro všechny osoby se
stejnou hodnotou uik po celou dobu expozice, ale během ní může být v různých okamžicích
různá.
D-funkce bývají obvykle častější a pokud je na místě volba mezi D-funkcí a R-funkcí, častěji
bývá jako lepší volena D-funkce. R-funkce často nahrazují D-funkce v případě, že z povahy
dat je není možné použít.
Příklady
Pro odchod od rodičů lze určit, že čas t = 0 bude pro každou (i-tou) osobu v čase jejího
narození. Potom typickou R-funkcí je efekt daný kohortou narození, typickými D-funkcemi
jsou věk nebo období (perioda, kalendářní čas).
Pro názornost můžeme porovnat 2 modely s výše uvedenými proměnnými:
První model zahrnuje vliv věku a kohorty:
ln hi (t ) = f věk (u i , věk + t ) + f kohorta (u i ,kohorta ) .
Druhý model zahrnuje vliv věku a období (periody, kalendářního času):
ln hi (t ) = f věk (u i , věk + t ) + f období (u i ,období + t ) .
Efekt kohorty
Efekt období
Efek t věku (dolní osa x)
Jednotlivé funkce mohou mít průběh jako na následujícím grafu 5-1:
1950
1960
1970
1980
1990
2000
0
10
20
30
40
50
Graf 5-1: Příklad průběhu efektů na studovanou intenzitu pomocí log-lineárního modelu intenzity. Na ose y je
logaritmus intenzity.
65
Pro příklad si vezměme průběh intenzity u dvou skupin osob narozených v roce 1960 a 1975.
Potom první model (věk jako D-funkce, kohorta jako R-funkce) lze zapsat v závislosti na
věku (proměnná t) jako:
ln h1 (t ) = f věk (t ) + f kohorta (1960) ,
ln h2 (t ) = f věk (t ) + f kohorta (1975) ,
kde indexy 1 a 2 označují první a druhou skupinu osobu.
1960
1975
Tomu potom odpovídá graf 5-2, kdy vzdálenost červené a modré čáry ve směru osy y je pro
každý věk konstantní:
10
15
20
25
30
35
40
45
Věk
Graf 5-2: Příklad porovnání funkcí efektu věku na studovanou intenzitu odchodu od rodičů pomocí loglineárního modelu intenzity s proměnnými věk a kohorta u osob narozených v roce 1960 a 1975. Na ose y je
V závislosti na věku jde tedy o stejný průběh, pouze je logaritmus intenzity pro osobu
narozenou později snížen v každém věku o (konstantní) rozdíl hodnot
fkohorta(1960) - fkohorta(1975).
V absolutních hodnotách intenzity jde tedy o snížení o exp(daný rozdíl)-násobek (rozdíl již
tedy není konstantní pro všechny věky). Pomocí tohoto modelu lze také „předpovědět“ ještě
neprožitou část u osob narozených v roce 1975.
Pro druhý model (věk a období jako D-funkce) lze model opět v závislosti na věku (t) zapsat
jako:
ln h1 (t ) = f věk (t ) + f období (1960 + t ) ,
ln h2 (t ) = f věk (t ) + f období (1975 + t ) ,
66
1960
1975
čemuž odpovídá graf 5-3:
10
15
20
25
30
35
40
Věk
Graf 5-3: Příklad porovnání funkcí efektu věku na studovanou intenzitu odchodu od rodičů pomocí loglineárního modelu intenzity s proměnnými věk a období u osob narozených v roce 1960 a 1975. Na ose y je
V tomto případě je výsledná funkce součtem obou funkcí, které se mění v čase. Proto zde
nelze odvodit žádné zjednodušující závěry.
Na výše uvedeném grafu 5-3 je vidět změnu výsledné funkce v případě, že efekt období se
projevil výrazně – případ odchodu od rodičů v ČR po roce 1990, kdy došlo k poklesu
intenzity. Tedy pro osoby narozené v roce 1960 to nastalo až ve 30 letech, zatímco pro osoby
narozené v roce 1975 už v 15 letech.
5.4 Základní funkce (baseline)
Je obvyklé a smysluplné, že při studiu intenzity přechodu z jednoho stavu do druhého se
používá jedna z funkcí jako základní. Tj. taková, ke které se vztahují ostatní efekty. Tento
přístup byl použit již v předcházející kapitole 4 Modely s vysvětlujícími proměnnými při
popisu základních modelů s vysvětlujícími proměnnými. Obecně touto základní funkcí je
nepodmíněná (viz níže) D-funkce. Volba základní funkce v případě, že v modelu je více
D-funkcí, závisí na problematice studia.
Obvyklé je volit „přirozenou” základní funkci – např. věk při odchodu od rodičů, věk při
první koncepci, dobu od prvního porodu do druhé koncepce apod.
Standardizovanou metodou je možné zvolit takovou nepodmíněnou D-funkci, která má
nejvýraznější efekt – viz sekce 5.19 Významnost proměnných. Obvykle se potom volí uik = 0
pro každou osobu (pro každé i, pokud základní funkce je označena jako k-tá funkce
v modelu).
Rovnici modelu je potom možno přepsat jako:
ln hi (t ) = ZákladníFunkce(t ) + ∑ f k (u ik , t ) + ∑ U mi .
k
m
67
Volba základní funkce je čistě záležitostí konvence a nemá žádný vliv na výsledný model. To
je zřejmé i z toho, že pro R-funkce v modelu se změnou volby základní funkce nemění nic,
pro D-funkce je pouze třeba upravit (posunout) počáteční hodnoty uik.
V případě zkoumání intenzity odchodu z domova a modelů (věk + kohorta) a (věk + období):
Volba základní funkce je jednoduchá v případě prvního modelu (věk a kohorta), neboť zde je
jediná D-funkce a to věk.
V druhém modelu jsou již dvě D-funkce (věk i období jsou D-funkce), a proto je třeba zvolit
„lepší” z nich. V tomto případě je zřejmě lepší volit věk jak z hlediska logiky věci, tak např.
z pohledu na graf srovnávající velikosti efektů (věk má výrazně vyšší vliv na výslednou
intenzitu), tak i v případě, že bychom použili jako kritérium devianci nebo dopřednou
krokovou metodu (viz sekce 5.19 Významnost proměnných).
Ovšem pro ilustraci je možné použít oba způsoby a volit t = 0 jak pro věk, tj. okamžik
narození i-té osoby, tak t = 0 jako např. počátek letopočtu. Po úpravě počátečních hodnot uik
jsou modely ekvivalentní. Např. pro osobu narozenou v roce 1960 (tedy uik = 1960, resp.
uik = -1960):
ln hi (t ) = f věk (t ) + f období (1960 + t )
(funkce reprezentující vliv věku je jako základní, proměnná t reprezentuje věk),
nebo:
ln hi (t ) = f věk (−1960 + t ) + f období (t )
(funkce reprezentující vliv období je jako základní, proměnná t reprezentuje období).
Pokud opět použijeme příkladu osob narozených v roce 1960 a 1975 a zobrazíme logaritmus
intenzity v závislosti na t, jediný rozdíl je v grafickém zobrazení (grafy 5-4 a 5-5).
68
1960
1975
10
15
20
25
30
35
40
t
(= 0 při narození osoby)
1960
1975
Graf 5-4: Příklad porovnání funkcí efektu věku na studovanou intenzitu odchodu od rodičů pomocí loglineárního modelu intenzity s proměnnými věk a období u osob narozených v roce 1960 a 1975. Základní funkce
je zde věk. Na ose y je logaritmus intenzity.
1970
1975
1980
1985
1990
1995
2000
t
(= 0 při počátku kalendáře)
Graf 5-5: Příklad porovnání funkcí efektu období na studovanou intenzitu odchodu od rodičů pomocí loglineárního modelu intenzity s proměnnými věk a období u osob narozených v roce 1960 a 1975. Základní funkce
je zde období. Na ose y je logaritmus intenzity.
5.5 Absolutní člen (Constant)
Absolutní člen nebo též konstanta je de facto nejjednodušším modelem intenzity. Přitom ve
složitějších modelech může, ale nemusí být zahrnuta. Je však obvyklé a ve většině případů
lepší ji do modelu zahrnovat a pojmout ji jako součást základní funkce.
Rozdíl mezi tímto pojetím a pojetím, kdy je uvedena jako samostatná, se projeví právě
u posunu základní funkce o danou konstantu v logaritmickém vyjádření. Samozřejmě, jak již
bylo konstatováno, lze ji přiřadit k libovolné nepodmíněné D-funkci, neboť ty jsou z pohledu
69
modelu rovnocenné (dokonce je možné ji uvažovat s libovolnou nepodmíněnou funkcí, tedy
i R-funkcí).
Příklad
V případě odchodu od rodičů lze konstantu jako model intenzity psát například následujícím
způsobem:
ln hi (t ) = f x (0) ,
kde fx je libovolná nepodmíněná funkce.
Zjednodušeně lze model zapsat jako:
ln hi (t ) = k ,
kde k je konstanta (pro všechny osoby stejná).
10
15
20
25
30
35
40
45
1985
1990
1995
2000
1970
1975
1980
Věk
1965
1970
1975
1980
konstanta
Samozřejmě takovýto model má zcela jednoduchý graf, kde nezáleží na ose x, např. jako na
následujícím grafu 5-6:
Kalendářní rok
1945
1950
1955
1960
1965
Kohorta
Graf 5-6: Příklad studované intenzity odchodu od rodičů pomocí log-lineárního modelu intenzity s jedinou
proměnnou – konstantou. Výsledný model je model s konstantní intenzitou a nezáleží, jaká proměnná se zvolí na
osu x.
Pro dokreslení lze uvést, že tento model je identický s modelem, kdy doba do sledované
události u jednotlivých osob je považována za náhodnou veličinu s exponenciálním
rozdělením s (pro všechny stejným) parametrem k (tj. střední hodnotou 1/k).
5.6 Podmíněné vs. nepodmíněné funkce (Conditional/kick-in and unconditional
splines)
Efekty některých proměnných se neliší svým dopadem na celkovou intenzitu pouze různým
počátkem, kdy začnou u různých osob působit, ale také tím, že u některých osob se neprojeví
vůbec.
70
Například u rizika první koncepce může být zkoumána jako jedna z vysvětlujících
proměnných délka manželství. Její vliv může být reprezentován pomocí D-funkce s počátkem
v době svatby, ale tento efekt se projeví pouze u sezdaných osob.
Podobně u zkoumání odchodu od rodičů lze s úspěchem pozorovat vliv těhotenství u žen na
intenzitu tohoto jevu – a opět funkce reprezentující efekt těhotenství se projeví pouze
u některých osob.
Takovéto funkce se potom nazývají podmíněné. Jak již z názvu plyne, obecně je lze
charakterizovat tak, že pokud se má projevit jejich efekt, je potřeba, aby byla splněna nějaká
podmínka. Nepodmíněné funkce potom reprezentují efekty, které se uplatňují u všech
zkoumaných osob.
Formálně lze podmíněné funkce definovat např. takto:
Bez ztráty obecnosti můžeme zavést pro každou funkci, že fk( ∞ , t) = 0. Potom fk(uik, t) je
podmíněná, pokud fk( ∞ , t) = 0 a pro některé uik platí, že uik = ∞ . Pokud tedy daná (k-tá)
podmíněná funkce se nemá vztahovat na i-tou osobu, potom lze jeho počátek uik položit
roven ∞ a definice odpovídá záměru.
Nepodmíněná funkce je doplněk výše uvedeného, tj. taková, kde není žádná (i-tá) osoba, pro
kterou by uik = ∞ .
Jako poznámku lze uvést, že podmíněné funkce mohou být jak D-funkce, tak R-funkce.
Příklad
Na příkladě odchodu od rodičů lze ilustrovat podmíněnou funkci na modelu s efekty věku
(reprezentovaný nepodmíněnou funkcí) a doby od první koncepce u žen (reprezentované
podmíněnou funkcí). Samotná proměnná může mít vliv např. jak je zobrazeno v následujícím
grafu 5-7 (kde modrou barvou je zobrazen daný vliv, červenou bez vlivu – nejzajímavější část
od 0 do 2 let po 1. koncepci).
71
0.2
Narození dítěte
0.6
1.6
1.2
2.0
Doba od první koncepce
Graf 5-7: Příklad podmíněné funkce. Jedná se o efekt první koncepce na odchod od rodičů. Červeně je
zobrazena intenzita pro skupinu osob bez první koncepce, modře po první koncepci. Na ose y je logaritmus
intenzity.
Vezměme potom příklad tří skupin žen, u první uvažujme věk první koncepce 18 let, u druhé
25 let a třetí uvažujme vůbec bez první koncepce. Potom sledovanou intenzitu lze popsat
modelem pro všechny tři skupiny ženy:
ln h1 (t ) = f věk (t ) + f1.koncepce (−18 + t ) ,
ln h2 (t ) = f věk (t ) + f1.koncepce (−25 + t ) ,
ln h3 (t ) = f věk (t ) + f 1.koncepce (∞ + t ) = f věk (t ) + 0 = f věk (t ) ,
kde f1.koncepce(x) = 0 pro x < 0.
V případě třetí skupiny žen (vůbec bez první koncepce) je tedy u3,1.koncepce = ∞ .
Daný příklad v závislosti na věku může být shrnut v následujícím grafu 5-8.
72
1. koncepce v 18 letech
1. koncepce v 25 letech
bez 1. koncepce
10
15
20
25
30
35
40
45
50
Věk
Graf 5-8: Příklad efektu podmíněné funkce na studovanou intenzitu. Zobrazen je vliv doby od první koncepce
na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání efektu u žen s první
koncepcí v 18 letech, ve 25 letech a bez koncepce. Na ose y je logaritmus intenzity.
Lze poznamenat, že výsledný graf nemusí být spojitý, jako je na výše uvedeném grafu 5-8, ale
podmíněná funkce může skokově změnit hodnotu výsledné funkce např. po úrazu, ale často se
používá při modelování, kdy podmíněná funkce je zjednodušeně uvažována za konstantní.
5.7 Kovarianta proměnná v čase (Time-varying covariate)
Pod pojmem kovarianta proměnná v čase se obvykle rozumí kategorická (diskrétní)
proměnná, která nabývá jen několika hodnot, které se mění v čase. Typicky jde např.
o nejvyšší ukončené vzdělání, počet sourozenců, zemi pobytu apod. Každé takové hodnotě
dané kovarianty potom odpovídá v modelu jedna hodnota efektu, kterým působí na výslednou
intenzitu (aditivně v zlogaritmované verzi, multiplikativně v nezlogaritmované verzi modelu).
Z formálního hlediska je její zavedení v rámci zde uvedeného modelu trochu
komplikovanější. Zde se použije soubor podmíněných konstantních funkcí. Existuje několik
možností, jak požadovaný efekt získat pomocí takovýchto funkcí. Nejjednodušší je
pravděpodobně ten, kdy pro každou úroveň proměnné existují dvě podmíněné funkce, z nichž
jedna má hodnotu efektu a druhá jeho zápornou hodnotu. Potom lze jejich kombinací získat
požadovaný efekt pouze na určitou dobu (kdy první z nich má počátek v čase požadovaného
začátku vlivu dané úrovně, druhý z nich v čase konce – tj. po tomto čase je součet obou
funkcí opět 0).
Příklad
Pro příklad lze uvést model odchodu od rodičů s proměnnými věk a nejvyšší dosažené
vzdělání (v daném okamžiku). Potom efekt nejvyššího dosaženého vzdělání u skupiny osob,
které ukončily základní vzdělání v 16 letech, střední ve 20 letech a vysokoškolské v 25 na
logaritmus intenzity odhodu lze zobrazit jako v následujícím grafu 5-9.
73
Efekt vzdělání
10
15
20
25
30
35
40
Graf 5-9: Příklad efektu kovarianty proměnné v čase. Jedná se o efekt aktuálního vzdělání na odchod od rodičů
u skupiny osob, které ukončily základní vzdělání v 16 letech, střední ve 20 a vysokoškolské v 25 letech věku. Na
ose y je logaritmus intenzity, na ose x věk.
12
16
14
20
18
24
22
28
26
32
30
Výsledný efekt
(součet os tatních funkcí)
Bez ukončeného vzdělání (základ)
2 funkce - zákl. vzd. jako nejvyšší
ukonč.
2 funkce - střed. vzd. jako nejvyš ší
ukonč.
VŠ vzdělání jako nejvyšší ukončené
Tento efekt nejvyššího vzdělání lze složit z několika podmíněných funkcí, jak ukazuje
následující graf 5-10:
36
34
38
Věk
Graf 5-10: Příklad možnosti složení kovarianty proměnné v čase pomocí několika podmíněných D-funkcí. Jedná
se o efekt aktuálního vzdělání na odchod od rodičů. Na ose y je logaritmus intenzity.
Samozřejmě, takováto reprezentace pomocí složení několika podmíněných splinů není
obvykle vhodná k prezentaci výsledků modelu. Hodnoty odpovídající jednotlivým úrovním se
proto často uvádějí v tabulce, v grafu je možné je zobrazit například jako na následujícím
grafu 5-11.
74
Vysokoškolské vzd.
Střední vzdělání
Základní vzdělání
Bez vzdělání
Graf 5-11: Příklad efektu kovarianty proměnné v čase. Jedná se o efekt aktuálního vzdělání na odchod od
rodičů. Na ose y je použito logaritmické měřítko.
Pro ilustraci lze podat ukázku grafu logaritmu intenzity odchodu od rodičů s vlivem
nejvyššího ukončeného vzdělání (tj. model s vlivem věku a nejvyššího ukončeného vzdělání)
– pro dvě skupiny osob s tím, že první skupina osob ukončila základní vzdělání v 16 letech,
střední ve 20 letech a vysokoškolské v 25, zatímco druhá skupina osob ukončila základní
vzdělání v 15 letech, střední v 18 letech a to je jejich nejvyšším vzděláním (viz graf 5-12).
Model pro první ze skupin osob bude mít tvar:
ln h1 (t ) = f věk (t ) + f1.stupeň (−16 + t ) + f −1.stupeň (−20 + t ) + f 2.stupeň (−20 + t ) +
+ f − 2.stupeň (−25 + t ) + f 3.stupeň (−25 + t ),
kde pro x < 0 všechny podmíněné funkce f1.stupeň(x) = 0, f-1.stupeň(x) = 0, f2.stupeň(x) = 0, f2.stupeň(x)
= 0 a f3.stupeň(x) = 0 a pro x ≥ 0 jsou tyto funkce konstantní nenulové.
Zároveň pro všechna x platí, že:
f1.stupeň(x) = - f-1.stupeň(x)
f2.stupeň(x) = - f-2.stupeň(x)
V případě druhé skupiny osob se upravily pouze počáteční hodnoty u2,k, kde v případě funkcí
reprezentujících ukončení vlivu 2. stupně vzdělání jako nejvyššího a počátku vlivu 3. stupeň
vzdělání, by u2,k bylo rovno ∞ (neboť 3. stupně vzdělání nebylo danými osobami vůbec
dosaženo). Tj. výsledný model by měl tvar:
ln h1 (t ) = f věk (t ) + f1.stupeň (−15 + t ) + f −1.stupeň (−18 + t ) + f 2.stupeň (−18 + t ) + 0 + 0 .
75
Ukonč. stupňů vzd. v 16, 20 a 25 letech
Ukončení stupňů vzd. v 15 a 18 letech
10
15
20
25
30
35
40
45
Graf 5-12: Příklad efektu kovarianty proměnné v čase na studovanou intenzitu. Zobrazen je efekt aktuálního
vzdělání na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání efektu u žen,
z nichž jedna skupina ukončila základní vzdělání v 16 letech, střední ve 20 letech a vysokoškolské v 25, zatímco
druhá skupina osob ukončila základní vzdělání v 15 letech, střední v 18 letech a to je jejich nejvyšším
vzděláním. Na ose y je logaritmus intenzity, na ose x je věk.
Zjednodušený zápis
Zjednodušeně lze zapisovat k-tou kovariantu proměnnou v čase s J různými úrovněmi jako:
J
∑
j =1
β jk wijk (t ) ,
kde funkce wijk(t) má hodnotu 1, pokud k-tá proměnná u i-té osoby v čase t je na j-té úrovni a
0 jinak (tj. w jsou různé pro různé osoby!). βj jsou koeficienty odpovídající efektu pro každou
úroveň. Tento nebo obdobné zápisy bývají používány pro větší přehlednost, ale naopak
postrádají prvek souvislosti s obecnými (podmíněnými) spliny.
5.8 Kovarianta neproměnná v čase (Fixed covariate)
Pod tímto pojmem se obvykle rozumí kategorická či diskrétní proměnná, jejíž hodnota se
nemění v čase. Může jít např. o místo narození, počet sourozenců při narození, bydliště
v 15 letech, pohlaví apod. Často se také o takové proměnné mluví jako o faktoru a hodnoty
jsou potom označovány za jednotlivé úrovně faktoru.
Z formálního hlediska log-lineárního modelu intenzity představuje taková proměnná
kategorickou (diskrétní) R-funkci – tj. takovou, která nabývá pouze několika hodnot.
Alternativně lze na tuto proměnnou pohlížet jako na soubor podmíněných konstantních
D-funkcí.
Příklad
Ilustrovat tento typ proměnné lze pomocí modelu pro odchod od rodičů sestaveném
z proměnné reprezentující věk a počet sourozenců (např. ve věku 15 let). Takový efekt lze
potom zobrazit podobně jako v případě kovarianty proměnné v čase (graf 5-13).
76
>3 sourozenci
3 sourozenci
2 sourozenci
1 sourozenec
0 sourozenců
Graf 5-13: Příklad efektu kovarianty neproměnné v čase. Jedná se o efekt počtu sourozenců ve věku 15 let na
odchod od rodičů. Na ose y je použito logaritmické měřítko.
Pokud si nyní pro příklad vezmeme skupinu osob, které neměly sourozence, a skupinu osobu,
které měly 3 sourozence, model pro tyto osoby má tvar:
ln h1 (t ) = f věk (t ) + f sourozenci (0) ,
ln h2 (t ) = f věk (t ) + f sourozenci (3)
0 sourozenců
3 sourozenci
a můžeme zobrazit výslednou intenzitu podle věku v daném modelu (zahrnujícím věk a počet
sourozenců) v grafu 5-14:
10
15
20
25
30
35
40
45
Věk
Graf 5-14: Příklad efektu kovarianty neproměnné v čase na studovanou intenzitu. Zobrazen je efekt počtu
sourozenců na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání efektu u osob
bez sourozenců a se třemi sourozenci. Na ose y je logaritmus intenzity.
77
I z grafu je vidět, že se jedná o R-spline, neboť efekt je obdobný jako v případě modelu
tvořeného proměnnou reprezentující věk a proměnnou kohorty (tj. pouze posun po ose y
u logaritmu intenzity).
Zjednodušený zápis
Podobně jako u kovariant proměnných v čase i zde se častěji používá alternativního zápisu,
kdy k-tá kovarianta s J úrovněmi je popsána jako:
J
∑
j =1
β jk wijk ,
tj. wijk je 1, pokud k-tá proměnná je na úrovni j u i-té osoby, jinak 0.
5.9 Interakce (Interaction)
Při snaze vystihnout nějaký demografický proces pomocí log-lineárního modelu je možné
(a běžně se toho využívá) uvažovat i situace, kdy není zachována aditivita pro logaritmus
intenzity v případě použití pouze vysvětlujících proměnných vzájemně na sobě nezávisle.
Například je možné zkoumat hypotézu, že počet sourozenců má vliv na intenzitu odchodu od
rodičů u mužů, ale nikoliv u žen. V případě zájmu o proces druhé koncepce je možné
zkoumat, zda se projevuje např. kombinovaný efekt vzdělání a věku. Tento „kombinovaný
efekt“ se obvykle nazývá interakce.
Jedná se o obdobu modelování pomocí klasického obecného lineárního modelu, jehož
speciálními případy jsou mj. vícerozměrná regrese a ANOVA (viz např. Hastie, Tibshirani a
Friedman (2001), StatSoft (1999) a mnoho dalších).
V interakci mohou být proměnné reprezentované funkcí libovolného typu – tj. například
podmíněná spojitá D-funkce s R-funkcí (např. efekt první koncepce pro různé kohorty
v případě odchodu od rodičů), speciální typy jako kovarianty proměnná v čase a neproměnná
v čase (různý efekt počtu sourozenců dle vzdělání) apod.
Interakce kategorické (diskrétní) a spojité proměnné
Vezměme si jeden z nejjednodušších případů interakce v případě modelu odchodu od rodičů
s proměnnými věk a počet sourozenců. Lze zde například zkoumat hypotézu, že počet
sourozenců a věk nejsou aditivní (vzhledem k logaritmu intenzity) a že tedy průběh intenzity
je odlišný. Pokud budeme rozlišovat pouze dvě skupiny osob – se sourozenci a bez nich,
aditivní model bez interakce by byl:
ln hi (t ) = f věk (t ) + f sourozenci ( s i ) ,
kde si = 0, pokud i-tá osoba nemá sourozence, si = 1 jinak.
Takovému modelu odpovídá graf 5-15.
78
Bez sourozenc ů
Se sourozenci
10
15
20
25
30
35
40
45
Věk
Graf 5-15: Příklad efektu kovarianty neproměnné v čase na studovanou intenzitu. Zobrazen je efekt počtu
sourozenců na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání efektu u osob
bez sourozenců a se sourozenci. Na ose y je logaritmus intenzity.
Pokud se přidá do modelu interakce, přidá se de facto jedna nová proměnná určená tak, že je
rovna proměnné věku pro osoby bez sourozenců, zatímco pro zbylé osoby není definována
(prakticky se to řeší tak, že se definuje jako 0, příp. jiná vhodná hodnota). Potom výsledný
model je:
ln hi (t ) = f věk (t ) + f sourozenci ( si ) + f věk ⋅sourozenci ( si ⋅ t )
kde opět
si = 0,
si = 1
fvěk.sourozenci(0, t) = 0
pokud i-tá osoba nemá sourozence,
jinak, a tedy
(pokud i-tá osoba nemá sourozence).
Zároveň se velmi často v tomto případě definuje, že všechny funkce kromě základní jsou
rovny nule v bodě nula (i když v případě odchodu od rodičů není toto samozřejmě na závadu
ani u základní funkce reprezentující efekt věku).
Alternativně lze model zapsat též jako:
ln hi (t ) = f věk (t ) + f sourozenci ( s i ) + si ⋅ f věk ⋅sourozenci (t )
Obvykle se v takovém modelu označují původní proměnné jako „hlavní efekty“, aby se
odlišily právě od interakcí.
Tento model popisuje intenzitu odchodu od rodičů graficky tak, jak je vidět na následujícím
grafu 5-16.
79
Bez sourozenc ů
Se sourozenci
10
15
20
25
30
35
40
45
Věk
Graf 5-16: Příklad efektu interakce na studovanou intenzitu. Zobrazen je efekt interakce počtu sourozenců a
věku na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání intenzity u osob bez
sourozenců a se sourozenci. Na ose y je logaritmus intenzity.
Se sourozenci
Interakce
Efekt interakce v tomto případě znamená odchylku sledované intenzity (resp. jejího
logaritmu) pro osoby bez sourozenců vůči ostatním osobám po odečtení hlavních efektů (graf
5-17):
10
15
20
25
30
35
40
45
Věk
Graf 5-17: Příklad efektu interakce na studovanou intenzitu. Zobrazen je efekt interakce počtu sourozenců a
věku na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání efektu interakce a
výsledné intenzity. Na ose y je logaritmus intenzity.
Pokud je interakce se spojitou proměnnou konstantní, jako je skoro ve výše uvedeném
případě, je efekt interakce velice slabý a prakticky by se v tomto případě neuvažoval a bylo by
možné použít aditivní model.
80
Interakce mezi dvěma kategorickými (diskrétními) proměnnými
Patrně nejčastějším typem interakcí je interakce mezi kategorickými proměnnými. Takový
příklad může být model odchodu od rodičů se zahrnutím proměnných věku, místa pobytu
v 15 letech a počtu sourozenců. Ve zjednodušeném případě lze uvažovat rozdělení v případě
ČR pouze na Prahu a ostatní a podobně jako výše u počtu sourozenců dělení na osoby se
sourozenci a bez nich. Původní model bez interakcí, pouze se zahrnutím hlavních efektů, by
vypadal takto:
ln hi (t ) = f věk (t ) + f sourozenci ( s i ) + f bydliště (bi ) ,
kde podobně jako výše si = 0 pro osoby bez sourozenců a si = 1 jinak. Dále nyní obdobně
bi = 0 pro osoby bydlící v Praze a bi = 1 jinak. Opět tyto funkce položíme rovny nule pro body
0. V tomto případě tedy základní funkce fvěk(t) představuje intenzitu pro osoby bez sourozenců
a bydlící v Praze. Efekt reprezentovaný pomocí fsourozenci(si) má pouze dvě hodnoty – 0 a
hodnotu rozdílu (posunu) mezi výslednými funkcemi intenzity pro osoby se sourozenci a pro
osoby bez sourozenců (opět v logaritmickém vyjádření intenzity). Podobně to platí i pro
hlavní efekt bydliště reprezentovaný pomocí fbydliště(bi).
Pokud nyní přidáme do modelu efekt interakce, získáme „úplný“ model (s ohledem na dané
dvě proměnné, nikoliv ohledně základní proměnné věk, jež v tomto příkladě nevstupuje do
interakcí):
ln hi (t ) = f věk (t ) + f sourozenci ( si ) + f bydliště (bi ) + f sourozenci⋅bydliště ( I i ) ,
kde Ii bude rovno 1, pokud osoba bude mimopražská a se sourozenci, rovno 0 jinak. Tedy Ii je
možno nahradit součinem si.bi.
V praxi bude hodnota interakce, tj. fsourozenci.bydliště, pro tuto osobu (mimopražská, se
sourozenci) rovna rozdílu efektu pro tuto skupinu osob po odečtení hlavních efektů (funkce
zde bude nabývat opět pouze 2 hodnot, z nichž jedna bude 0).
Schématicky lze zobrazit tento model pomocí tabulky 5-1. Zde Z(t) reprezentuje základní
funkci fvěk(t), A je již pouze jedna hodnota fsourozenci(1) a podobně B odpovídá fbydliště(1). Model
bez interakce pouze s hlavními efekty odpovídá případu, kdy v pravé dolní buňce tabulky (Se
sourozenci x Ne-Praha) je výraz Z(t) + A + B. Pokud je interakce v modelu zahrnuta, je v této
buňce výraz Z(t) + A + B + C, kde C potom reprezentuje hodnotu fsourozenci.bydliště(1). Jako
poznámku lze uvést, že při praktickém použití by se odhady hodnot Z(t), A a B v obou
modelech samozřejmě od sebe lišily (tj. např. hodnota A by byla pro dané dva modely různá).
Bydliště
Sourozenci
Bez sourozenců
Praha
Z(t)
Se sourozenci
Z(t) + A
Ne-Praha
Z(t) + B
Z(t) + A + B (+ C)
Tab 5-1: Schématické zobrazení modelu s interakcí dvou kategorických proměnných. V případě, že model
obsahuje interakci, je v něm zahrnut člen + C; pokud obsahuje pouze hlavní efekty, tento člen v něm není
zahrnut.
81
Praha (tečkovaně model s interakcí)
Ne-Praha (teèkovanì model s interakcí)
Jednou z možností, jak graficky zobrazit vliv tohoto typu interakcí je pomocí následujícího
typu grafu, jak je vidět na grafu 5-18:
Bez sourozencù
Se sourozenci
Graf 5-18: Příklad zobrazení efektu interakcí dvou kategorických kovariant na studovanou intenzitu. Zobrazena
je interakce efektu počtu sourozenců na odchod od rodičů v Praze a mimo Prahu v log-lineárním modelu se
základní proměnnou věk. V případě, že se směry čar liší, je interakce významná. Na ose y je použito
logaritmické měřítko.
V tomto grafu (a poznamenejme, že je pouze na vlastním uvážení, která z proměnných bude
použita na ose x a která na ose y) lze pozorovat vliv interakce tak, že čím více se liší směry
křivek obou modelů (tj. zde plných a tečkovaných čar), tím více se projevuje efekt interakce.
Pokud dochází ke křížení (výraznému) těchto čar, interakce je významná a je tedy dobré (a
správné) ji do modelu zahrnout.
Interakce mezi dvěma spojitými proměnnými
Zatím byly uvedeny dva příklady interakcí a to mezi spojitou proměnnou a diskrétní a dvěma
diskrétními proměnnými. Samozřejmě je i možnost použít interakce mezi dvěma spojitými
proměnnými a to reprezentovanými jak podmíněnou, tak nepodmíněnou funkcí. Situace je
ovšem v tomto případě složitější než v předchozích případech, kde v interakci byla alespoň
jedna kategorická proměnná.
Vraťme se nejprve k důvodu zavedení interakcí, kterým byl fakt, že dané dvě vysvětlující
proměnné neměly aditivní vliv na sledovaný proces. V případě, že alespoň jedna z nich byla
kategorická, bylo možno model de facto rozdělit na dva (či více) tak, že v každém z nich byl
vliv této dvojice proměnných zcela jiný. Tomu by ovšem v případě dvou spojitých
proměnných odpovídala situace, kdy by každé dvojici hodnot těchto dvou proměnných
odpovídal jiný model. To je samozřejmě prakticky nepoužitelné.
Prakticky je možno přidat interakci tím, že se přidá do modelu nová proměnná, jež je
kombinací těchto dvou proměnných. Takových kombinací samozřejmě může být libovolně
mnoho, v následujícím příkladě budou použity tři možné způsoby.
Nejprve však ještě uveďme, že v případě interpretace je situace změněna a nelze obecně
(a obzvláště ne u dvou D-funkcí) uvažovat, že samotné hlavní efekty jsou vhodným odhadem
82
vlivu proměnných a z nich něco usuzovat. V tomto případě je třeba většinou použít celý
model.
Jako příklad lze použít model odchodu od rodičů, který zahrnuje proměnné věk (nepodmíněný
spline) a doba od prvního pohlavního styku (podmíněný spline, před 1. pohlavním stykem je
roven 0). Tento model bez použití interakce je dán:
ln hi (t ) = f věk (t ) + f1. pohlavní styk (− s i + t ) ,
kde s je věk při prvním pohlavním styku.
Doba od prvního
sexuálního styku
Nyní lze do modelu zahrnout efekt interakce. Budeme zde uvažovat tři možné způsoby –
součet proměnných, jejich rozdíl a součin (byly by možné libovolné další, lze použít např.
maximum, různé kombinace mocniných funkcí atd.). Na grafu 5-19 s osami věk a doba od
prvního sexuálního styku jsou tyto možnosti schématicky naznačeny. Modré a červené čáry
označují konstantní hodnoty dvou základních proměnných modelu, tedy věk a dobu od
prvního pohlavního styku. V tomto modelu bez interakcí by např. odhadu intenzity u osob,
které měly první sexuální styk v 17 letech a nyní jim je 19 let, odpovídala hodnota součtu
vlivu věku (19 let) a doby od prvního sexuálního styku (2 roky) – tedy v červeně označeném
bodě.
4
2
0
15
17
19
21
23
25
27
29
Věk
Graf 5-19: Schématické zobrazení prostoru, v němž je modelována intenzita odchodu od rodičů. Naznačeny jsou
čáry, pro které je vždy daná část modelu shodná. (Modré pro věk, červené pro dobu od prvního sexuálního styku,
zelené pro interakci mezi těmito proměnnými danou jejich rozdílem, fialové jejich součtem a šedé jejich
součinem; červený bod označuje situaci, kdy k prvnímu sexuálnímu styku došlo před dvěma roky v 17 letech
věku.)
Zelené čáry v grafu 5-19 označují místa se stejnou hodnotou vlivu interakce mezi danými
dvěma základními vysvětlujícími proměnnými v případě, že tato interakce je dána jako rozdíl
těchto proměnných. V tomto případě to je mj. ekvivalentní se situací, kdy by se do modelu
přidala proměnná (podmíněná R-funkce) reprezentující věk při prvním sexuálním styku
(jedná se o ekvivaletní modely, pouze jinak zavedené). V takovém případě je model
(odpovídá mu model složený z modrých, červených a zelených čar):
ln hi (t ) = f věk (t ) + f1. pohlavní styk (− si + t ) + f věk x 1. pohlavní styk (− si + t − t ) .
Fialové čáry v grafu 5-19 naopak označují místa se stejnou hodnotou vlivu interakce
v případě, že je tato zadána jako součet dvou základních vysvětlujících funkcí. Tento případ
nemá jasnou interpretaci v příkladě, jež je zde používán jako ilustrativní, ovšem tomu může
83
být v jiných případech jinak. V tomto případě je model dán (odpovídá mu model složený
z modrých, červených a nyní fialových čar):
ln hi (t ) = f věk (t ) + f1. pohlavní styk (− si + t ) + f věk x 1. pohlavní styk (− si + 2t ) .
Posledním zde uvedeným příkladem je interakce zavedená jako součin dvou základních
vysvětlujících proměnných. V ilustračním příkladě jde o součin doby od prvního sexuálního
styku a věku minus 15 let (tedy byl posunut počátek sledovaného věku do 15 let). Opět pro
tento ilustrativní příklad není možné najít jednoduchou interpretaci této interakce. Model je
v tomto případě (odpovídá tomu model složený z modrých, červených a šedých čar):
ln hi (t ) = f věk (t ) + f1. pohlavní styk (− s i + t ) + f1. pohlavní styk ⋅věk ((−( si − 15) + t ) ⋅ t )
Doba od prvního
sexuálního styku
Na grafu 5-20 je zobrazena odhadnutá intenzita přímo z dat, za použití plně neparametrického
modelu (tzn. za každý čtverec o rozměru rok x rok byl učiněn odhad zvlášť, de facto se jedná
o zobecněný aktuárský odhad pro dvourozměrná data; u tohoto grafu je použito jiné měřítko
než u ostatních grafů). Na grafech 5-21 až 5-24 jsou zobrazeny výsledné odhady intenzity
odchodu od rodičů za pomocí různých modelů. Dle kritéria maximální věrohodnosti se jako
nejlepší model s interakcí ze zde uvažovaných tří modelů ukázal první z nich, tedy model, kde
interakce de facto odpovídá zahrnutí do modelu proměnné reprezentující věk při prvním
sexuálním styku.
4-5
3-4
2-3
1-2
0-1
14
16
18
1
20
0.8
22
Věk
0.6
24
26
0.4
28
30
0.2
Graf 5-20: Příklad vlivu dvou spojitých proměnných na sledovanou intenzitu. Zobrazen je vliv věku a doby od
prvního sexuálního styku na odchod od rodičů v plně neparametrickém modelu. Hodnota sledované intenzity je
tedy odhadnuta přímo z dat aktuárským odhadem zobecněným na dvourozměrná data. Hlavní oblast, kde bylo
nejvíce dat, byla přibližně mezi 16. a 20. rokem věku a do 4 let od prvního sexuálního styku.
84
Doba od prvního
sexuálního styku
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
Bez
14.5
17
19.5
22
24.5
27
29.5
32
Věk
0.37
0.14
0.05
0.018
0.007
Doba od prvního
sexuálního styku
Graf 5-21: Příklad vlivu dvou spojitých proměnných na sledovanou intenzitu. Zobrazen je vliv věku a doby od
prvního sexuálního styku na odchod od rodičů v log-lineárním modelu pouze s těmito dvěma proměnnými.
Hodnota sledované intenzity je tedy dána součtem dvou proměnných. Proužek v dolní části grafu označuje
odhad intenzity u žen v daném věku, které ještě neměly první sexuální styk. Na ose z je použito logaritmické
měřítko.
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
Bez
14.5
17
0.37
19.5
0.14
22
24.5
Věk
0.05
27
0.018
29.5
0.007
Doba od prvního
sexuálního styku
Graf 5-22: Příklad vlivu dvou spojitých proměnných na sledovanou intenzitu v modelu s interakcí. Zobrazen je
vliv věku a doby od prvního sexuálního styku na odchod od rodičů v log-lineárním modelu s těmito dvěma
proměnnými a jejich interakcí danou rozdílem hodnot. Hodnota sledované intenzity je tedy dána součtem třech
proměnných. Proužek v dolní části grafu označuje odhad intenzity u žen v daném věku, které ještě neměly první
sexuální styk. Na ose z je použito logaritmické měřítko.
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
Bez
14.5
17
0.37
19.5
0.14
22
Věk
0.05
24.5
27
0.018
29.5
0.007
proměnnými a jejich interakcí danou součtem hodnot. Hodnota sledované intenzity je tedy dána součtem třech
85
Doba od prvního
sexuálního styku
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
Bez
14.5
17
0.37
19.5
0.14
22
24.5
Věk
0.05
27
0.018
29.5
0.007
proměnnými a jejich interakcí danou součinem hodnot. Hodnota sledované intenzity je tedy dána součtem třech
Jiným způsobem zobrazení je použití typických scénářů. Můžeme např. zvolit skupiny, kde
k prvnímu sexuálnímu styku došlo v 16 letech či ve 20 letech a můžeme sledovanou intenzitu
srovnávat se skupinou, kdy k sexuálnímu styku nedošlo vůbec.
Bez sexuálního styku
1.sexuální styk v 16 letech
1.sexuální styk ve 20 letech
Při zahrnutí efektu prvního sexuálního styku do modelu bez interakcí získáme intenzitu
odchodu od rodičů v závislosti na věku prostým sečtením funkcí popisujících efekt prvního
sexuálního styku a věku. Ve výše popsaných případech osob (či spíše skupin osob) získáme
následující graf 5-25:
14
16
18
20
22
24
26
Věk
Graf 5-25: Příklad efektu podmíněné funkce na studovanou intenzitu v modelu bez interakcí. Zobrazen je efekt
prvního sexuálního styku na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání
intenzity u osob bez sexuálního styku, s prvním sexuálním stykem v 16 letech a 20 letech. Na ose y je logaritmus
intenzity.
Pokud do modelu zahrneme interakci mezi věkem a dobou od prvního sexuálního styku,
potom je výsledný graf intenzity v závislosti na věku pro dané tři skupiny osob (graf 5-26):
86
Bez sexuálního styku
1.sexuální styk v 16 letech
1.sexuální styk ve 20 letech
14
16
18
20
22
24
26
Věk
Graf 5-26: Příklad efektu interakce dvou spojitých proměnných na studovanou intenzitu. Zobrazen je efekt
interakce prvního sexuálního styku a věku na odchod od rodičů v log-lineárním modelu se základní proměnnou
věk. Plnou čárou je označen model s interakcí danou pomocí rozdílu dvou základních proměnných, čárkovaně
pomocí součtu a tečkovaně pomocí součinu. Porovnání intenzity u osob bez sexuálního styku, s prvním
sexuálním stykem v 16 letech a 20 letech. Na ose y je logaritmus intenzity.
Je vidět, že v tomto případě je interakce výrazná, je zřetelně vidět, že efekt prvního
sexuálního styku na intenzitu odchodu z domova je vyšší v případě osob, u nichž došlo
k prvnímu sexuálnímu styku dříve.
Lze jen opět poznamenat, že zobrazení samotného grafu interakce by v tomto případě bylo
zavádějící a proto je třeba zvolit alternativní zobrazení (např. jak je provedeno výše pomocí
dvou grafů, jeden bez interakcí a druhý s interakcí a zobrazením výsledných intenzit pro
několik různých skupin osob).
Interakce vyšších řádů
Interakce více proměnných, nebo též interakce vyšších řádů, je možná a princip je shodný
jako u interakce dvou proměnných. Pokud například u dvou kategorických proměnných
přidáním interakce de facto přidáváme třetí proměnnou, která je součinem dvou předchozích,
interakce třetího řádu s další kategorickou proměnnou je potom interakcí mezi takto vzniklou
proměnnou a touto další kategorickou proměnnou (tj. interakce je asociativní). V tomto
případě potom lze mluvit o interakci třetího řádu. Asociativitu lze zapsat např. následovně:
Interakce(A, B, C) = Interakce(Interakce(A, B), C) = Interakce(Interakce(C, B), A) apod.
Model se třemi proměnnými tak může obsahovat interakci až třetího řádu a tři interakce
druhého řádu. Obdobně u více proměnných a interakcí vyšších řádů.
Použití interakcí vyšších řádů není časté a to jak z důvodu, že obvykle není použití
odůvodněno zlepšením modelu, tak i proto, že interakce vyšších řádů lze obtížně
interpretovat.
87
Interakce v krátkosti
Jako shrnutí lze uvést, že, volně řečeno, interakce mezi proměnnými částečně vysvětlují
zbylou variabilitu po odečtení vlivu hlavních efektů. Tj. lze si jejich použití představit jako
nasazení další vysvětlující proměnné (či dalších proměnných) na zkoumaný proces upravený
odstraněním vlivu hlavních efektů.
5.10 Víceúrovňový model (Multilevel model)
Poměrně často je snahou sestavit model, který zohledňuje, že některé proměnné mají vliv na
všechny zkoumané osoby, zatímco některé vlivy jsou společné pouze pro jistou menší část
osob.
Jako příklad zde může sloužit sledování první koncepce v závislosti na věku v různých
zemích. Pokud některá země zavede pronatalitní opatření, lze zkoumat hypotézu, že se tím
změní celkový tvar sledované intenzity. Potom je možné chtít zkoumat tento proces
v několika úrovních. Vrchní úroveň by byla společná všem osobám (např. efekt daný
vzděláním), zatímco dolní úroveň by byla různá pro osoby z různých zemí (např. efekt daný
věkem). Takto lze samozřejmě sestavit i víceúrovňový model. Např. tříúrovňový model může
být rozšířením předchozího, kdy nejvýše by byly proměnné s efektem společným pro všechny
osoby, níže např. proměnné se stejným efektem pro všechny osoby v dané zemi a jako spodní
úroveň by byly proměnné např. s efektem stejným pro všechny členy jedné domácnosti.
Podobně lze sestavit model s libovolným počtem úrovní.
Příklad
Pro ilustraci dvouúrovňového modelu lze např. zkoumat hypotézu, že v procesu odchodu od
rodičů se projevuje rozdílně efekt období v Praze a ve zbytku ČR. Tedy pro Prahu je model
následující:
ln hi (t ) = f věk (t ) + f období v Pr aze (− si + t ) ,
zatímco pro osoby žijící mimo Prahu má model tvar:
ln hi (t ) = f věk (t ) + f období mimo Pr ahu (− si + t ) .
V obou případech je si datem narození i-té osoby.
Jak je vidět, na nejvyšší úrovni je funkce, reprezentující efekt věku. Jinými slovy to znamená,
že je společná všem osobám. Na druhé úrovni jsou potom funkce, které reprezentují efekt
období. Tyto jsou v tomto případě dvě a jedná se o dvě zcela různé funkce, jež mezi sebou
obecně nemají žádnou souvislost. Potom obě tyto funkce lze srovnat graficky (graf 5-27).
88
Ne-Praha
Praha
1965
1970
1975
1980
1985
1990
1995
2000
Kalendářní čas
Graf 5-27: Příklad efektu stejné proměnné na studovanou intenzitu ve víceúrovňovém modelu. Zobrazen je efekt
období na odchod od rodičů v Praze a mimo Prahu v log-lineárním modelu se základní proměnnou věk. Na ose y
je použito logaritmické měřítko.
Přitom základní funkce (reprezentující efekt věku) by byla shodná pro obě skupiny.
5.11 Model s interakcemi vs. víceúrovňový model
Rozdíl v modelu s interakcemi a víceúrovňovém modelu je v hypotéze, kterou chceme
zkoumat pomocí daného modelu. Rozdílný je pohled na model, jeho možná interpretace.
Jinak v principu je víceúrovňový model speciálním typem modelu s interakcemi. Každý
víceúrovňový model lze převést na model s interakcemi zavedením indikujících proměnných,
což jsou kovarianty neproměnné v čase s dvěma hodnotami ∞ a 1 (v praxi se samozřejmě ∞
nahrazuje nejčastěji nulou, příp. jinou vhodnou hodnotou).
Jako příklad lze uvést v předchozí sekci uvedený dvouúrovňový model odchodu od rodičů
v ČR s druhou úrovní „Praha“ a „ostatní část ČR“. V takovém případě lze definovat indikující
proměnnou Ii, jež bude rovna 1 pro osoby žijící v Praze a ∞ jinak. Potom lze model zapsat
jako:
ln hi (t ) = f věk (t ) + f období (− si + t ) + f období ⋅místo ( I i ⋅ t ) ,
kde si je obdobně jako výše datem narození i-té osoby.
V tomto případě je funkce fobdobí(x) totožná s fobdobí mimo Prahu(x) ve víceúrovňovém modelu, tj.
fobdobí(x) = fobdobí mimo Prahu(x).
Funkce reprezentující efekt interakce je potom rozdílem
fobdobí.místo(x) = fobdobí v Praze(x) - fobdobí mimo Prahu(x).
Je vhodné poznamenat, že tento model s interakcí není úplný, neboť neobsahuje (hlavní) efekt
místa bydliště. Ovšem ten je de facto obsažen v interakci – tak, že pro každou osobu je model
shodný s úplným modelem.
89
Podobně je možno převést i modely s více úrovněmi či více skupinami na každé úrovni na
modely s interakcemi zahrnutím vhodných hlavních efektů a interakcí do modelu. V této
souvislosti bývají víceúrovňové modely nazývány hierarchickými modely (nested models).
V literatuře (např. Beise a Voland (2002)) se lze setkat s tím, že nejvyšší úroveň, která
zahrnuje proměnné se společnou funkcí pro všechny osoby, bývá naopak považována za
úroveň nejnižší a to zvláště u dvouúrovňových modelů. Takové pojetí ale ztrácí na logice
u víceúrovňových modelů.
Pro praktické použití modelů je vhodné dodat, že teoreticky stejné modely nemusejí dávat
shodné výsledky při použití některých typů splinů reprezentujících obecné funkce v modelu.
Shodné výsledky se získají např. při použití lineárních splinů (tj. přímek) či po částech
lineárních splinů se shodnými body zlomu (nodes). Naopak odlišné výsledky lze získat např.
při různě vypočtených (jako víceúrovňový model či jako model s interakcemi) po částech
lineárních splinech s odhadem bodů zlomu či kubických splinech (které jsou např. použity zde
ve všech ilustrativních grafech). Pokud však model dobře vystihuje data, výsledky by měly
být velmi obdobné a je jedno, který z modelů se použije. Také lze této vlastnosti využít jako
jeden z ukazatelů vhodnosti modelu (pokud dostáváme různé výsledky při různém přístupu, je
pravděpodobné, že model nevystihuje data dobře).
5.12 Nevysvětlená heterogenita (Unobserved heterogeneity)
Při tvorbě modelu lze zohlednit i veličinu, jež umožňuje přechod od zkoumání chování celé
populace (či subpopulace) ke zkoumání na úrovni jednotlivce. To vychází z představy, že
chování (intenzita nějakého demografického procesu) se liší na úrovni (sub-)populace a na
úrovni jednotlivce. Takové příklady jsou např. ukázány ve Vaupel a Yashin (1985).
Jedná se o modelování vlivů, jež nelze vysvětlit na základě proměnných, jejichž hodnoty jsou
k dispozici. Např. pokud zkoumáme intenzitu první koncepce, je snadno představitelné, že
nejsou k dispozici proměnné jako je „snaha otěhotnět“ apod.
Proto je možné do modelu přidat náhodné proměnné, které mají reprezentovat tento vliv.
Např. v jednoúrovňovém modelu odchodu od rodičů s vysvětlující proměnnou popisující
efekt věku, lze přidat náhodnou proměnnou takto:
ln hi (t ) = f věk (t ) + U i ,
kde Ui je náhodná veličina, jedná se o stejně rozdělené nezávislé náhodné veličiny (pro různá
i). Obvykle se o Ui předpokládá, že má normální rozdělení, příp. některé z často používaných
zešikmených rozdělení jako gama nebo log-normální rozdělení. Tento přístup je detailněji
popsán v Aalen (1994).
Ve výše uvedeném případě jednoúrovňového modelu zavedení této náhodné proměnné lze
chápat jako přidání nové nižší úrovně do modelu. Potom vyšší úroveň je tvořena funkcí, která
je shodná pro všechny osoby (a tedy i hodnoty funkce jsou shodné pro všechny osoby ve
stejném věku), zatímco hodnota Ui je naopak jedinečná pro každou z osob.
V případě, že uvažujeme předpoklad, že Ui je normální, výsledný model lze zobrazit např.
jako na následujícím grafu 5-28.
90
20
25
30
35
40
Průměr
+ - standardní odchylka (2/3 osob)
+ - 1.96 stand. odchylky (95 % osob)
15
Věk
Graf 5-28: Příklad efektu náhodné veličiny reprezentující nevysvětlenou heterogenitu na studovanou intenzitu.
Zobrazen je její efekt na odchod od rodičů v log-lineárním modelu se základní proměnnou věk. Porovnání
intenzity u „průměrných“ osob a zobrazení intervalů, v nichž jsou 2/3 a 95 % osob. Na ose y je logaritmus
intenzity.
Pokud bychom chtěli popsat tento graf, tak modrá funkce reprezentuje efekt věku na intenzitu
odchodu u rodičů u průměrné osoby, přibližně 2/3 osob mají funkci popisující vliv věku mezi
červenými funkcemi a rozpětí mezi zelenými zachycuje asi 95 % osob.
Z toho lze následně odvozovat různé interpretace – např. že nejméně „náchylné“ osoby
k odchodu od rodičů (2.5% kvantil, odpovídá jim dolní zelená funkce) mají intenzitu odchodu
od rodičů v nejrizikovějších letech kolem 23. roku věku srovnatelnou s nejnižšími hodnotami
(za sledované věky od 14.5 do 39 let) nejvíce „náchylných“ osob (kolem 97.5% kvantilu,
horní zelená funkce), tj. na krajích sledovaného věkového intervalu.
Jednou z dobrých vlastností při použití víceúrovňového modelu je, že umožňuje použít
několik takových náhodných proměnných. S tím, že např. u dvouúrovňového modelu jedna
náhodná proměnná je použita pro všechny osoby (tj. pro každou osobu je jedna náhodná
proměnná s tím, že všechny jsou dohromady na sobě nezávislé a stejně rozdělené) a jedna je
použita pro všechny osoby z každé skupiny v nižší úrovni. Opět zavedením náhodné
proměnné nezávislé a stejně rozdělené pro všechny osoby se zavádí de facto nová (nejnižší)
úroveň modelu. Jako příklad lze uvést, že takto lze v různých demografických procesech
modelovat heterogenitu na úrovni zemí nebo regionů, dále na úrovni rodin a naposledy na
nejnižší úrovni jednotlivců.
V každém víceúrovňovém modelu lze použít tímto způsobem tolik náhodných proměnných,
kolik je úrovní původního modelu. Toto lze nahlédnout tak, že u výsledného modelu dojde
k vytvoření nové nejnižší úrovně pomocí nezávislých stejně rozdělených náhodných veličin
shodných pro všechny osoby (jejich rozdělení bude shodné, nikoliv hodnoty). Naopak použití
náhodné veličiny pro nejvyšší úroveň modelu postrádá smyslu, neboť pro všechny osoby by
byla hodnota jediná a tedy shodná. Pro všechny ostatní úrovně lze přidat také náhodné
proměnné a proto jejich počet je shodný jako počet úrovní.
91
5.13 Víceprocesový model (Multiprocess model)
Se zařazením proměnné reprezentující nevysvětlenou heterogenitu do modelu (viz předchozí
sekce 5.12 Nevysvětlená heterogenita) souvisí víceprocesový model. Jako příklad použití
takového modelu lze uvést výzkum, jak spolu souvisí např. proces odchodu od rodičů
s procesem první koncepce (tj. zda např. platí hypotéza, že u těch, které dříve odcházejí
z domova, dochází také dříve k první koncepci).
Tuto otázku lze jednak zkoumat v rámci zkoumání jednoho z těchto procesů s proměnnou
charakterizující druhý (jako je tomu např. v následující kapitole 6 Odchod od rodičů v České
republice). V této souvislosti je možné zmínit, že i v takovém případě se může ukázat jako
vhodné použití anticipatorní analýzy (viz sekce 5.15 Anticipatorní analýza). Alternativou
k tomuto přístupu je použití víceprocesorového modelu. Víceprocesový model je spojení dvou
(či více) procesů pomocí proměnných reprezentujících nevysvětlenou heterogenitu. V jeho
nejjednodušší verzi se jedná tedy o dvouprocesový model, v němž každý z procesů má jen
jednu úroveň. Mějme tedy dva různé procesy popsané pomocí log-lineárních modelů
intenzity:
ln hi (t ) = ∑ f k (u ik , t ) + U i ,
k
ln hi′(t ) = ∑ f j′ (u ij , t ) + U i′ .
j
Princip víceprocesového modelu je v tom, že uvažujeme možnost korelace s koeficientem ρ
mezi náhodnými veličinami Ui a U’i . Hodnotu koeficientu korelace ρ lze potom interpretovat
jako jistou míru souvislosti mezi oběma procesy. Při velké kladné hodnotě lze usuzovat, že
osoby „náchylné“ k události prvního procesu jsou také mezi těmi, které jsou „náchylné“
ke sledované události druhého procesu. Velkou zápornou hodnotu lze potom interpretovat
opačně. Je-li hodnota blízká 0, lze to považovat za znak toho, že dané procesy spolu příliš
nesouvisí.
5.14 Coxova regrese (Cox’s regression)
Velmi častým modelem, s kterým se lze v literatuře setkat, je tzv. Coxova regrese (např.
studie Flatau et al. (2003) a Brinbau et al. (2004), které jsou použity pro srovnání v kapitole
6 Odchod od rodičů v České republice). Někdy se používá termínu Coxův model
proporcionálního hazardu (intenzity) apod. (např. „Proportional hazards model“ v NIST,
SEMATECH (2004)). Tento model je detailně zaveden např. v Cox a Oakes (1984).
Poněvadž se jedná o často používaný model, je vhodné se o něm zmínit i v kontextu zde
popisovaného log-lineárního modelu intenzity.
Tento model má několik forem dle míry zobecnění – obecně jej lze zapsat jako:
hi (t ) = f ( xi , β )h0 (t ) ,
kde
f(.)
h0(t)
je funkcí parametrů modelu příslušných i-té osobě,
je základní intenzita (pokud jsou všechny parametry rovny 0).
92
Obvyklá jeho forma (použitá např. i v Flatau et al. (2003)) je potom:
∑ β k zki
hi (t ) = h0 (t )e k
,
tedy po zlogaritmování:
ln hi (t ) = h0 (t ) + ∑ β k z ki ,
k
kde
βk
zki
jsou parametry odpovídající k-té vysvětlující proměnné,
je hodnota k-té vysvětlující proměnné u i-té osoby.
Z druhého předpisu je vidět, že se jedná o speciální případ log-lineárního modelu intenzity.
Tento model v tomto případě obsahuje jednu (základní) D-funkci a k kovariant neproměnných
v čase.
V některých případech se tento model Coxovy regrese rozšiřuje i o některé vybrané typy
D-funkcí (např. podmíněný lineární spline apod.), které se v této souvislosti také označují
jako kovarianty proměnné v čase a v logice Coxova modelu často slouží k postupnému
potlačení efektu některé proměnné – původně kovarianty neproměnné v čase (viz např.
StatSoft (1999)).
5.15 Anticipatorní analýza (Anticipatory analysis)
Běžné pojetí při modelování za pomoci log-lineárního modelu intenzity nějakého
demografického procesu předpokládá, že intenzita je vysvětlována pouze pomocí hodnot
proměnných v daném okamžiku, příp. jejich kumulace z historie. Například při modelování
první koncepce a její závislosti na tom, zda žena žije v manželství, se nerozlišuje případ, kdy
žena má svatbu dva měsíce po porodu a kdy ji nemá vůbec. Stejně tak se v tomto běžném
pojetí nepoužívají např. proměnné s odpověďmi na hodnotové otázky, neboť na ty je
odpovídáno v čase interview, což je zpravidla např. v různých věcích, a v čase, kdy došlo
k sledovanému přechodu mezi stavy, mohl být hodnotový postoj jiný.
Anticipatorní modelování znamená, že i hodnoty proměnných z pozdější doby jsou zahrnuty
do modelování. Důvodů k použití takovýchto proměnných je několik. Jedním z nich je širší
chápání demografických procesů a jejich vzájemné provázanosti. Je pravděpodobné, že pokud
dojde k porodu několik měsíců před svatbou, tak porod (a jeho očekávání) měl dopad na
rozhodování o svatbě a zahrnutí délky období od porodu do svatby má svoje opodstatnění pro
studium procesu vstupu do manželství. Stejně tak je ovšem pravděpodobné, že porod (ale
i koncepce) několik měsíců po svatbě mohl ovlivnit toto rozhodování o svatbě. Lze např.
sestavit hypotézu, že daní dva lidé se rozhodli uzavřít sňatek a mít spolu děti a na daném
pořadí těchto událostí již tolik nezáleží. Proto je vcelku logické, že i tuto druhou možnost je
vhodné mít v patrnosti při studiu procesu vstupu do manželství přesto, že jde o časově opačné
pořadí.
Jiným příkladem anticipatorní analýzy může být nějaký hodnotový postoj v čase, kdy
docházelo k přechodu mezi stavy daného demografického procesu, ale tento postoj nelze
získat. Ovšem je možné získat jeho dobrý odhad z pozdější doby (může být známo, že tento
postoj se mění velmi málo apod.). I potom je namístě zahrnovat tuto anticipatorní vysvětlující
proměnnou do analýzy.
93
Otázkou anticipatorní analýzy se zabývá Hoem (1996), který před jejím použitím odrazuje.
Zde jsou shrnuty problémy, jež jej k tomu vedou, a jako vlastní příspěvek naznačeno jejich
možné řešení.
Použití anticipatorní analýzy má několik úskalí. Prvním z nich je neekvivalence dat.
Vezměme si opět jako příklad vliv procesu první koncepce na manželství – i zpětně, tj.
můžeme mít hypotézu, že několik měsíců před první koncepcí je intenzita sňatečnosti větší.
Potom nastává problém u osob, které mají právě po sňatku a nelze získat údaj o jejich
případné pozdější koncepci. To samozřejmě ovlivňuje následně odhad takového (skutečného)
vlivu. V takovém případě je jedno z možných řešení omezit se pouze na určitou dobu po
sňatku a vyřadit údaje za osoby, které této doby ještě nedosáhly. Tento problém je tedy spíše
technického rázu (neideální data).
Druhým problémem, tentokrát principiálním, je opačná kauzalita. Například pokud sledujeme
proces rozvodovosti v závislosti na vzdělání a použijeme nejvyšší dosažené vzdělání
(i později), je možné, že efekt je opačný a pravě rozvod ovlivnil pozdější vzdělání. Tento
problém nemá snadné řešení. Ovšem otázka kauzality vyvstává i při běžné analýze, která se
přesto používá. Tedy je to otázka spíše interpretace výsledků, nikoliv vlastní použití
anticipatorní analýzy.
Příklad
Jako příklad porovnání obou přístupů lze zkoumat modely odchodu od rodičů s vysvětlujícími
proměnnými věk a vzdělání. V běžném případě bychom uvažovali vzdělání v daném
okamžiku, v případě použití jako anticipatorní proměnné nejvyšší dosažené vzdělání do
okamžiku censorování (interview).
Porovnáním těchto modelů docházíme k (zdánlivě) paradoxním výsledkům, kdy vzdělání
v daném okamžiku má opačný vliv než nejvyšší vzdělání kdy ukončené. Podobného
(opačného) vlivu je dosaženo i při odstranění vlivu dalších proměnných. Vliv proměnné
studium (indikátor, zda daná osoba právě studuje či nikoliv) je v obou případech shodný
(aktuální studium snižuje intenzitu odchodu od rodičů). Vliv vzdělání je vidět z grafu 5-29.
94
Střední
Základní
Střední
Základní
Nejvyšší vzdělání (anticipatorní)
Aktuální vzdělání
Vysokošk.
Vysokošk.
Graf 5-29: Příklad porovnání efektu stejné proměnné s anticipatorním a aktuálním vlivem na sledovanou
intenzitu. Jedná se o efekt nejvyššího dosaženého a aktuálně nejvyššího vzdělání na odchod od rodičů v loglineárním modelu se základní proměnnou věk u žen v ČR.
Pro ilustraci rozdílu mezi modely můžeme zobrazit intenzitu odchodu pro stejné skupiny osob
jako v příkladu s časově proměnnými kovariantami – budeme uvažovat dvě skupiny osob
s tím, že první skupina ukončila základní vzdělání v 16 letech, střední ve 20 letech a
vysokoškolské v 25, zatímco druhá skupina ukončila základní vzdělání v 15 letech, střední
v 18 letech a to je jejich nejvyšším vzděláním. Potom lze oba modely zobrazit v grafu s tím,
že plnou čarou je zobrazena intenzita (resp. logaritmus intenzity) modelu, kde vzdělání je
bráno v daném okamžiku (kovarianta proměnná v čase), kdežto tečkovaně je zobrazena
intenzita v modelu, který používá nejvyšší dosažené vzdělání (anticipatorní proměnná –
kovarianta neproměnná v čase) – graf 5-30.
95
15
20
25
30
35
40
45
Ukonč. stupňů vzd. v 16, 20 a 25 letech
Ukončení stupňů vzděl. v 15 a 18 letech
10
Věk
Graf 5-30: Příklad porovnání efektu kovarianty s anticipatorním a aktuálním vlivem na studovanou intenzitu.
Zobrazen je efekt nejvyššího ukončeného a nejvyššího aktuálního vzdělání na odchod od rodičů v log-lineárním
modelu se základní proměnnou věk. Porovnání efektu u žen, z nichž jedny ukončily základní vzdělání v 16
letech, střední ve 20 letech a vysokoškolské v 25, zatímco druhé ukončily základní vzdělání v 15 letech, střední
v 18 letech a to je jejich nejvyšším vzděláním. Plnou čarou je zobrazena intenzita modelu s nejvyšším aktuálním
vzděláním (kovarinta proměnná v čase), tečkovaně s nejvyšším dosaženým vzděláním vůbec (kovarianta
neproměnná v čase). Na ose y je logaritmus intenzity.
Je vidět, že zatímco pro osobu, která ukončila svoje školní vzdělávání v 18 letech středním
vzděláním, oba modely jsou obdobné, pro osobu s vysokoškolským vzděláním se tyto modely
rozcházejí.
Jako určité vodítko v takovémto případě, kdy se modely rozcházejí, pro výběr „lepšího“
modelu může sloužit porovnání významnosti obou přístupů (viz sekce 5.19 Významnost
proměnných). V tomto případě se ukázalo, že anticipatorní přístup popisuje skutečnost
věrněji. Lze však najít případy, kdy model, používající anticipatorní proměnné, je naopak
horší (a dá se i očekávat, že to bude častější, viz Hoem (1996)).
Obecně lze říci, že při zahrnutí širšího pohledu na demografické procesy a jejich vzájemné
ovlivňování je použití anticipatorních proměnných zcela na místě. Jejich použití ale přináší
některé obtíže a proto použití modelu bez nich je sázkou na jistotu. Při jejich řádném (a
opatrném) použití ale mohou přinést další informace o zkoumaném demografickém procesu.
5.16 Odhadování parametrů modelu
Praktické odhadování parametrů modelu při zvolených vysvětlujících proměnných (k tomu
viz také sekce 5.17 Tvorba modelu) se obvykle provádí metodou maximální věrohodnosti (viz
EconWare (2003), Cox a Oakes (1984)). Jde tedy o maximalizaci tzv. věrohodnostní
(likelihood) funkce přes všechny přípustné funkce intenzity (resp. přes funkce, na které lze
funkci intenzity převést). Co jsou přípustné funkce je třeba stanovit – např. v případě studie
v kapitole 6 Odchod od rodičů v České republice se jednalo o kubické spliny (resp. po částech
lineární spliny) reprezentující spojité proměnné, kovarianty proměnné a neproměnné v čase a
jejich interakce.
96
Věrohodnostní funkce má při použití značení z kapitoly 2 Zavedení základních pojmů
analýzy přežívání tvar:
J
J +K
j =1
k = J +1
l = ∏ f j (t j ) ∏ Fk (t k )
kde
fj(tj)
Fk(tk)
je funkce hustoty u j-té osoby, u níž došlo ke sledované události v čase tj,
je distribuční funkce u k-té osoby, u níž došlo k censorování pozorování
sledované události v čase tk.
J je tedy počet osob v pozorovaném souboru, jejichž pozorování skončilo sledovanou
událostí, a K počet osob, jejichž pozorování skončilo censorováním.
Za pomocí vztahů mezi funkcemi analýzy přežívání (viz kapitola 2 Zavedení základních
pojmů analýzy přežívání) lze tuto věrohodnostní funkci vyjádřit také jako:
J
J +K
j =1
k = J +1
l = ∏ h j (t j ) ⋅ exp(− H j (t j )) ∏1 − exp(− H k (t k )) ,
kde
hj(tj)
je funkce intenzity u j-té osoby, u níž došlo ke sledované události
v čase tj,
tk
Hk(tk) =
∫h
k
( s )ds
je kumulativní funkce intenzity u k-té osoby, u níž došlo k censorování
0
pozorování sledované události v čase tk, obdobně označeno j pro osoby,
kde došlo ke sledované události v čase tj.
Prakticky vždy se věrohodnostní funkce maximalizuje za pomoci jejího logaritmu. To je
umožněno tím, že maximum funkce i jejího logaritmu je shodné. Tzv. log-věrohodnostní
(log-likelihood) funkce má potom aditivní tvar, jež lze snáze maximalizovat:
J
J +K
j =1
k = J +1
ll = ∑ f j (t j ) +
∑ F (t
k
k
),
nebo tomu odpovídající:
J
[
] ∑ ln[1 − exp(− H
ll = ∑ ln(h j (t j )) − H j (t j ) +
j =1
J +K
k = J +1
k
(t k ))] .
Maximalizace log-věrohodnostní funkce se obvykle provádí pomocí iteračních postupů (např.
EconWare (2003)).
V praxi mimo úplně nejjednodušších modelů se používá odhad pomocí software. Mezi
aktuálně používané lze zařadit software aML, pomocí něhož lze používat odhad až po
po částech lineární spliny s tím, že zde je nutné předem definovat jednotlivé uzly (zlomy po
97
částech lineární funkce) a není možné např. nalézt nejlepší možný model za daného počtu
uzlů. Také není možné použít žádnou z metod tvorby modelu (viz sekce 5.17 Tvorba modelu).
Obecné statistické programy (mj. STATISTICA, SPSS, SAS, R) většinou umožňují odhad
parametrů modelu až po Coxovu regresi. V této souvislosti zajímavé možnosti otevírá
aproximace pomocí logit-lineárního modelu pravděpodobnosti, která je popsána níže v sekci
5.18 Logit-lineární model pravděpodobnosti. V takovém případě lze využít daleko větších
možností, které poskytují obecné statistické programy jednak pro reprezentaci funkcí hladkou
křivkou (např. kubický spline), pro automatické vyhledávání nejlepšího umístění uzlů, pro
automatické zjišťování optimálního počtu uzlů a také pro automatickou tvorbu modelu
pomocí některé z metod popsané v sekci 5.17 Tvorba modelu. Část z těchto nástrojů může být
již přímo v daném programu zabudována, některé tyto možnosti lze doprogramovat pomocí
zabudovaných programovacích jazyků, které jsou již v obecných statistických programech
standardem (dle znalostí autora minimálně lze takto použít programy STATISTICA a R).
5.17 Tvorba modelu (Model building)
Pokud chceme zkoumat nějaký demografický proces, velmi snadno se můžeme dostat do
situace, že k dispozici je velké množství možných vysvětlujících proměnných (např. pokud
data pocházejí z obecného výběrového šetření). Zvláště v poslední době lze jednoznačně
sledovat velký rozvoj v dostupnosti dat (a to samozřejmě nejen demografických, ale i těch).
V takovém případě často není možné zahrnou do analýzy všechna data – ať už z důvodů
výpočetních nebo i principiálních – některé proměnné se mohou opakovat nebo zaznamenávat
prakticky shodnou událost (proměnné by byly vysoce korelované), v datech mohou být
kontrolní proměnné apod., některé (většina) proměnných nemusí mít žádný nebo
neprokazatelný vliv či souvislost se zkoumaným demografickým procesem. Potom je na místě
použít metod tvorby modelu a vytvořit model takový, který co nejlépe popisuje daný
demografický proces, ale přitom je dostatečně jednoduchý.
Tvorba modelů je podrobně zpracována v případě klasické analýzy dat (tedy v případech, kdy
nejde o analýzu přežívání). Přirozeně se tedy nabízí upravit tyto postupů i pro analýzu
přežívání. Zde je jako základ použito shrnutí tvorby modelu, jak je uvedeno v StatSoft (1999).
Předvýběr proměnných do analýzy
Jednou z nových oblastí se stává, jak získat zajímavé výsledky z velké databáze. Vezměme si
pro příklad klasický průzkum Fertility and Family Survey (FFS) (UNECE (2003)), který
představoval dotazníkový sběr údajů o přibližně 150 000 osobách z 24 zemí, přičemž
dotazník obsahoval minimálně asi 230 otázek, které byly následně rozděleny asi do 1 500
proměnných. Čili celkem kompletní databáze představuje asi 225 miliónů údajů.
Nastává otázka, jak s takovým množstvím dat pracovat tak, abychom v něm objevili zajímavé
údaje – abychom se neztratili v záplavě dat, ale i v záplavě výsledků. První a běžnou
variantou je použít našich dosavadních znalostí a vybrat si pouze několik málo proměnných,
které nás zajímají. Vezměme si opět příklad, kdy chceme studovat věk při odchodu od rodičů.
V tomto případě nás samozřejmě budou zajímat proměnné jako kohorta a pohlaví daného
člověka, z které země pochází (příp. menší region), velikost obce, údaje o jeho rodině (zda žil
s oběma rodiči, počet sourozenců, apod.), očekávání dítěte či manželství atd. Takto se dá
předpokládat, že se získá jistá část vysvětlujících (či obecněji souvisejících) proměnných
(použito např. v Sienkiewicz (2003)). Je však možné či pravděpodobné, že i jiné proměnné,
které nejsou tak zřejmé, by mohly pomoci vysvětlit daný fenomén. Proto jsou rozvíjeny
98
takové metody, které napomáhají najít takové proměnné, na které je následně možné se
zaměřit detailněji.
Proč nepoužít všechny proměnné?
Nabízí se otázka, proč prostě nepoužít všechny dostupné informace. Jak již bylo uvedeno
výše, těch důvodů je několik. Prvním je možná interpretovatelnost. Není snahou popsat
skutečnost do všech detailů za cenu ztráty jednoduchosti. Dochází zde ke klasickému
„obchodu“ mezi jednoduchostí a přesností (dobrý jednodušší model bude méně přesný než
dobrý složitější model, ale zase bude snáze pochopitelný).
Druhým důvodem je praktická použitelnost. Výkon výpočetní techniky roste takřka
exponenciálně, ovšem spolu s tím i objem zpracovávaných dat. V této souvislosti záleží na
použité metodě. Většina metod používá jako vstup matici všech dat nebo korelační příp.
kovarianční matici – v takovém případě však často potřebuje její inverzi. Tedy pokud bychom
se vrátili k příkladu studia věku při odchodu z domova rodičů z dat získaných z FFS, by bylo
třeba provádět výpočty na 225 miliónech údajů, v případě korelační či kovarianční matice by
bylo třeba provést inverzi matice o více jak 1 miliónu údajů. Toto jednak stále ještě je
poměrně časově náročné, ale také chyby při zaokrouhlování, které je běžně možno bez
problémů zanedbat, se při takovémto velkém počtu dílčích výpočtů (např. při inverzi
korelační matice) mohou akumulovat a zcela výsledek znehodnotit.
V této souvislosti se používá termín „prokletí“ dimensionality (curse of dimensionality).
Tento termín (např. Bellman (1961), Bishop (1995)) se obecně používá pro potíže, které se
objevují při modelování v mnoha dimenzích. Často (v závislosti na metodě) totiž složitost
hledání optima bývá exponenciálně závislá na počtu proměnných. Prakticky již počet
několika set proměnných může být limitující.
Z těchto důvodů je vhodné udělat předběžný výběr proměnných jednoduchou metodou, která
takto upozorní na nejvhodnější proměnné – jedná se o heuristický postup. Výsledek takové
analýzy lze potom brát jako doplněk k předem vytipovaným proměnným jiným způsobem, tj.
jako vstup pro následnou detailní analýzu pomocí log-lineárního modelu.
Možné postupy I
Jednou z jednoduchých metod pro hledání možných vysvětlujících proměnných je použití
lineárních statistik. To je z toho důvodu, že tyto lze počítat velice jednoduše – všechna data je
třeba použít pouze několikrát a lze je počítat postupně (tj. není třeba přistupovat najednou ke
všem údajům). V případě spojitých proměnných se použije (Pearsonův) korelační koeficient,
v případě kategorických, ale uspořádaných, Spearmanův korelační koeficient – resp. jim
odpovídající hladina p (z důvodu možného nestejného počtu dat v různých proměnných).
Samozřejmě zde vyvstává problém, že se jedná o výpočet lineární závislosti (resp. lépe řečeno
souvislosti). Velké množství aplikací (a demografických zvlášť) je ovšem nelineárních.
Potom by takto byly upřednostňovány ty proměnné, které jsou lineárně závislé (a i výsledný
model by byl tímto výběrem ovlivněn). Což ale není natolik závažný důvod, proč se této
metody zříci. Pokud dokáže upozornit na některou zajímavou proměnnou, bylo by chybou
toho nevyužít.
Příklad I
Můžeme uvést ilustrativní příklad procesu odchodu od rodičů. Jako základní data zde lze
použít věk při odchodu od rodičů u těch žen, které již od rodičů odešly. Omezíme-li se pouze
99
na data za ženy v ČR, tato metodu navrhuje přidat k již uvedeným např. více otázek týkajících
se partnera – věkový rozdíl a jeho vzdělání.
Dalším příkladem může být poměrně velká (pozitivní) korelace mezi věkem při odchodu
z domova rodičů a věkem při prvním sexuálním styku, který je samozřejmě jistým ukazatelem
o každé ženě.
Podobně se ukázaly slabší korelace mezi zkoumaným věkem a např. otázkami na některé
hodnotové otázky, což může mít souvislost s obecnými postoji dané ženy (např. otázka
„Považovala byste následující důvody za dostatečné pro rozchod?“ a odpovědi „nedostatek
lásky ze strany partnera“ a „neuspokojující rozdělení úkolů v domácnosti s partnerem“).
Stejně tak odpověď na otázku, kdy by chtěla (již po odchodu z domova rodičů) mít první dítě.
Tyto otázky je potom možné zahrnout do analýzy.
Možné postupy II
Jinou metodou, která nemá omezení dané linearitou v případě spojitých proměnných, nebo
nutností uspořádání, jako v případě kategorických, je obdoba metody shlukování pomocí
k-průměrů. V metodě shlukování pomocí k-průměrů je snaha maximalizovat poměr
meziskupinového rozptylu vůči vnitroskupinovému za pomoci přemísťování středů shluků.
V tomto případě se použije stejná statistika, ale shluky se určí přímo (postupně) z dat.
V případě spojitých proměnných se tyto (podobně jako při testování typu spojitých rozdělení)
rozdělí, tj. kategorizují, do určitého počtu intervalů (často se používá 10, ale není k tomu
žádný speciální důvod). Kategorické proměnné v tomto případě zůstanou bez úprav.
K výpočtu hladiny p se potom použije F-test. Pokud by zkoumaná proměnná byla
kategorická, postup by byl shodný, pouze by se k výpočtu použil test χ2. Takovýto postup je
tedy obecnější (neboť proměnné doporučené pomocí lineární metody budou vybrány zde
opět) a lze ho doporučit spíše.
Příklad II
Pro zmíněný příklad odchodu žen z domova rodičů v ČR tato metoda např. upozorní na
možný zajímavý vliv (či spíše souvislost) s odpovědí na otázku: „Ze seznamu 4 cílů
společnosti, o který by se mělo nejvíce usilovat v následujících 10 letech?“ – „udržování
pořádku v zemi“, „nechat lidi více mluvit do rozhodování vlády“, „boj proti inflaci“, „ochrana
svobody projevu“. Podíl žen, které zvolily možnost „nechat lidi více mluvit do rozhodování
vlády“ byl například výrazně vyšší v kategorii žen, které odešly z domova mezi 15.-20.
rokem, než mezi 20.-25. rokem. Což samozřejmě může být pouze náhoda, ale je možné i tuto
proměnnou dále zkoumat.
Test χ2 rozdílu log-věrohodností modelů
Při tvorbě modelů a odhadování jejich parametrů se k určování statistické významnosti
používá nejčastěji testu χ2 na rozdíl log-věrohodností dvou modelů (např. EconWare (2003),
StatSoft (2004)).
Tento test porovnává dva modely, z nichž jeden je částí druhého. To znamená, že druhý
model obsahuje všechny proměnné (o stejném počtu stupňů volnosti) a k tomu navíc jsou
přidány buď další vysvětlující proměnné nebo větší počet stupňů volnosti u již zahrnutých
(nebo oboje).
100
Potom za platnosti nulové hypotézy o tom, že tyto nově přidané proměnné či stupně volnosti
u stávajících proměnných nezlepšují stávající model, má výraz (testovací statistika):
2(lln – lls)
rozdělení χ2 o (dfn – dfs) stupních volnosti.
Přitom
je log-věrohodnost starého (méně složitého) modelu,
lls
je log-věrohodnost nového (složitějšího) modelu,
lln
je celkový počet stupňů volnosti starého (méně složitého) modelu,
dfs
je celkový počet stupňů volnosti nového(složitějšího) modelu.
dfn
Často se také používá pod názvem „test podílu věrohodností“ (likelihood ratio test)
ekvivalentně s testovací statistikou zapsanou jako:
⎛l ⎞
2 ln⎜⎜ n ⎟⎟ ,
⎝ ls ⎠
kde
ls
ln
je věrohodnost starého modelu,
je věrohodnost nového modelu.
Vypočtená testovací statistika z dat se při posuzování statistické významnosti na hladině
α porovnává s (1-α)-kvantilem χ2 rozdělení s daným počtem (dfn – dfs) stupňů volnosti.
Pokud je testovací statistika větší než tento kvantil, nulovou hypotézu můžeme zamítnout a
lze přijmout nové proměnné či další stupně volnosti do modelu.
Metoda nejlepší podskupiny
Obecně při zkoumání nějakého demografického procesu je snaha najít takovou skupinu
proměnných a jejich interakcí z dostupných dat, aby výsledný model byl „co nejlepší“.
Samozřejmě je nejprve třeba se rozhodnout, jaké kritérium bude rozhodovat o tom, který
model je lepší a který horší.
Jedním z takových kritérií, které je statisticky zcela přirozené, je porovnání p-hladin modelů
vůči základnímu modelu. Jako základní model lze vzít model s konstantní intenzitou (tj.
odpovídající exponenciálnímu rozdělení časů studovaných demografických jevů). Tedy
model:
ln hi(t) = k,
kde k je konstanta (např. odhadnutá z dat).
Můžeme si dále označit:
llkonst log-věrohodnost základního modelu – konstantní intenzity procesu,
log-věrohodnost i-tého modelu,
lli
počet stupňů volnosti i-tého modelu minus počet stupňů volnosti základního modelu
dfi
s konstantní intenzitou.
101
Jen pro dokreslení, počet stupňů volnosti základního modelu konstantní intenzity je 1, pokud
je tato odhadována z dat, nebo 0, pokud je pevně určena.
S použitím aproximace výrazu 2(lli –llkonst) pomocí χ2 rozdělení s dfi stupni volnosti lze potom
určit:
p-leveli := 1 – cdfi(2(lli –llkonst)),
kde
cdfi
p-leveli
je distribuční funkce χ2 rozdělení s dfi stupni volnosti, a tedy
je běžně používaná p-hladina významnosti i-tého modelu vůči základnímu
modelu.
Na základě této definice již lze označit za nejlepší takový (i-tý) model, pro který platí:
p-leveli je nejmenší ze všech možných modelů.
Bohužel, praktické použití této metody je často nemožné z prostého důvodu velkého množství
modelů (a příp. i jejich velikosti). Pro tuto metodu je zapotřebí otestovat modely sestávající se
ze všech možných kombinací proměnných a jejich interakcí (nemluvě o možných různých
počtech stupňů volnosti u spojitých modelů). Takových kombinací je ovšem v případě
n proměnných jen pro model bez interakcí 2n. Což samozřejmě u většího počtu proměnných
přestává být realizovatelné. Přesto, že tato metoda je z teoretického hlediska nejlepší, v praxi
ji lze použít pouze u nižšího počtu vysvětlujících proměnných (např. jako další etapu po
redukci počtu proměnných jinou metodou).
Někdy se z tohoto důvodu metoda modifikuje tak, že se určí rozsah počtu proměnných (tj. že
model bude obsahovat minimálně určitý počet proměnných – často 0 – a hlavně určitý
maximální počet proměnných). Potom se samozřejmě obecně nezíská nejlepší model dle výše
uvedené definice, ale nejlepší model za této omezující podmínky.
Krokové metody
Pro tvorbu log-lineárního modelu lze použít krokových metod známých např. z klasické
regrese. Jejich použití je přitom zcela obdobné. Základem je postupné (po krocích) přidávání
či odebírání proměnných v modelu tak, aby se výsledný model co nejvíce přiblížil
k nejlepšímu modelu, který by byl odhadnut metodou nejlepší podskupiny. Není v praxi
výjimečné, že takového modelu je skutečně krokovými metodami dosaženo.
Jako vysvětlující proměnné jsou v následném textu uvažovány obecně i interakce mezi
proměnnými (což jsou de facto nové vysvětlující proměnné).
Dopředná kroková metoda (pouze s přidáváním)
Toto je nejjednodušší kroková metoda, na níž je nejsnáze vidět princip krokových metod.
Nejprve definujme tzv. ukončující podmínku (stopping value). Nejčastěji je to hodnota
p-hladiny zlepšení modelu oproti předchozímu a běžně se používá 5 %, příp. také často 10 %
nebo 1 %. Tato p-hladina se získá zcela obdobně jako v případě metody nejlepší podskupiny
s tím rozdílem, že namísto llkonst se použije log-věrohodnost modelu z předchozího kroku.
102
Typicky je průběh metody v případě n vysvětlujících proměnných, které jsou k dispozici,
následující:
1. krok: odhadne se základní model s konstantní intenzitou,
2. krok: odhadne se n modelů obsahujících vždy konstantu a jednu z proměnných; u těchto
n modelů se vypočte p-hladina zlepšení oproti předchozímu modelu a proměnná z modelu
s nejnižší hodnotou p-hladiny se přidá do modelu.
3. krok: odhadne se n-1 modelů obsahujících vždy konstantu, proměnnou, přidanou do
modelu v předchozím kroku, a jednu ze zbylých proměnných; opět se u každého z těchto n-1
modelů vypočte příslušná p-hladina zlepšení vůči předchozímu modelu (získanému v 2.kroku)
a vybere taková proměnná, jejíž zahrnutí zlepší model nejvíce (tj. příslušná p-hladina je
nejmenší).
Další kroky: Obdobně se postupuje dále s tím, že celý postup se zastaví v případě, že
přidáním žádné ze zbylých proměnných nelze zlepšit model tak, aby toto zlepšení bylo
významné na hladině určené ukončující podmínkou. Samozřejmě postup se ukončí i tehdy,
jsou-li všechny proměnné již zahrnuty do modelu.
Zpětná kroková metoda (pouze s odebíráním)
Tato metoda je jistým způsobem opačnou k předchozí dopředné krokové metodě (pouze
s přidáváním). Opět je zde nejprve třeba určit ukončující podmínku, nejčastěji jako hodnotu
p-hladiny.
Metoda se potom v případě n vysvětlujících proměnných používá následovně:
1. krok: odhadne se tzv. saturovaný model – model obsahující všech n proměnných.
2. krok: odhadne se n modelů vždy s vynecháním 1 z proměnných; u těchto n modelů se vždy
vypočte p-hladina tak, že se určí „zlepšení“ saturovaného modelu vůči tomuto novému
modelu a odebere se proměnná, která nebyla obsažena v modelu s nejvyšší takovou hodnotou
p-hladiny. Její odebrání má tedy nejmenší vliv na daný model.
3. krok: odhadne se n-1 modelů vždy s vynecháním proměnné odebrané v předchozím kroku a
jedné další proměnné; opět se určí taková proměnná, jejíž odebrání mělo nejmenší vliv, tedy
p-hladina při porovnání modelu bez této proměnné a modelu po 2. kroku je nejvyšší.
Další kroky: Obdobně se postupuje v dalších krocích opět s tím, že celý proces se zastaví
v případě splnění ukončující podmínky. To v tomto případě znamená, že odebrání libovolné
další proměnné již způsobí vážné zhoršení modelu – tedy všechny p-hladiny jsou nižší než
daná podmínka. Opět postup končí i tehdy, nezbyla-li již žádná proměnná (což je ale v tomto
případě neobvyklé).
Dopředná kroková metoda (s odebíráním)
Jedná se o jisté zobecnění (a vylepšení) výše popsané dopředné krokové metody, kde bylo
možné pouze proměnné přidávat. V tomto případě je možné proměnné z aktuálního modelu
i odebírat. Nyní je třeba definovat dvě ukončující podmínky – jednu pro přidání nové
proměnné a druhou pro odebrání. Jejich nejčastější forma je v podobě použití podmínek
z obou předchozích metod, tj. jedna p-hladina pro přidání proměnné a druhá pro odebrání
(samozřejmě mohou být – a většinou jsou – shodné).
Metoda se potom používá následujícím způsobem (opět s n vysvětlujícími proměnnými):
První 3 kroky: tyto jsou shodné jako v případě výše popsané dopředné krokové metody pouze
s možností přidávat proměnné.
103
4. krok: použije se zpětného kroku jako v případě zpětné metody s možností proměnné pouze
odebírat a je-li možnost odebrat nějakou proměnnou, tak se odebere; není-li možné odebrat
z modelu nějakou proměnnou, tak se pokračuje jako v případě dopředné krokové metody
s možností proměnné pouze přidávat a přidá se jedna proměnná, která nejvíce zlepší daný
model.
Další kroky: Takto se potom postupuje obdobně dále s tím, že proces se ukončí v případě, že
již není možno ani přidat žádnou proměnnou tak, aby se model zlepšil na dané p-hladině, ani
nelze žádnou proměnnou odebrat, aniž by se model významně (na p-hladině pro odebírání
proměnných) nezhoršil.
Tato metoda je zobecněním dopředné krokové metody (jen s přidáváním), neboť pokud se zde
určí p-hladina pro odebírání proměnných z modelu jako 1, výsledkem je výše jmenovaná
metoda.
Jako poznámku zde lze uvést, že obecně by neměla být p-hladina pro odebírání nižší než
hladina pro přidávání, neboť potom by se mohl celý proces zacyklit s tím, že jedna proměnná
by se vždy přidala a v následujícím kroku opět odebrala a toto by se mohlo opakovat neustále.
Zpětná kroková metoda (s přidáváním)
Tato metoda je zobecněním (a vylepšením) zpětné krokové metody s možností proměnné
pouze odebírat a jedná se o doplněk k dopředné krokové metodě s možností proměnné
i opětovně z modelu odebírat. Opět se zde definují dvě ukončující podmínky obdobně jako
v předchozí dopředné krokové metodě s možností odebírání.
Celý proces je potom de facto opakem předchozí metody:
První 3 kroky: tyto jsou nyní shodné jako v případě zpětné krokové metody s možností
proměnné pouze odebírat.
4. krok: použije se dopředného kroku jako v dopředné metodě z možností proměnné pouze
přidávat a je-li možnost některou proměnnou přidat, tak se do modelu (opětovně) přidá; neníli možné žádnou proměnnou přidat, použije se jeden zpětný krok jako v metodě pouze
s odebíráním proměnných.
Další kroky: Takto se potom postupuje obdobně dále s tím, že proces se ukončí v případě, že
již není možno ani odebrat proměnnou, aniž by se model významně (na p-hladině pro
odebírání proměnných) nezhoršil, ani přidat žádnou proměnnou tak, aby se model nezlepšil na
dané p-hladině.
Předchozí zpětná metoda (pouze s odebíráním) je speciálním případem této metody, neboť
pokud je nyní p-hladina pro přidání rovna 0, jedná se o danou předchozí metodu.
Opět je zde na místě poznámka, že p-hladina pro odebírání by neměla být nižší než p-hladina
pro přidávání, neboť by mohlo dojít k zacyklení celého procesu (zcela obdobně jako v případě
předchozí metody).
Výběr metody
Problematika výběru metody je velmi závislá na konkrétní situaci každého výzkumu. Obecně
lze říci, že nejlepší metodou je metoda nejlepší podskupiny, kde je však hlavním limitujícím
faktorem nutnost odhadnout velké množství modelů. U zpětných krokových metod může být
problém v tom, že na počátku je třeba odhadnout model se všemi proměnnými (saturovaný
model), což je leckdy velmi obtížné. Výhodou krokových metod pouze s přidáváním a pouze
104
s odebíráním je v tom, že počet modelů, které je třeba odhadnout, se každým krokem o jeden
zmenšuje, naopak krokové metody s možností přidávání i odebírání proměnných jsou obecně
lepší (tj. častěji naleznou lepší model ve smyslu přiblížení se nejlepšímu modelu). Z těchto
důvodů nelze dát přesný návod, kterou metodu je obecně nejlépe použít.
Ukázku krokové metody lze uvést na tvorbě modelu pro popis odchodu od rodičů pomocí tří
vysvětlujících proměnných – věku, doby od prvního sexuálního styku a vzdělání (v tomto
ilustrativním příkladě nebyly uvažovány interakce proměnných). V případě, že se použije
dopředná kroková metoda s možností odebírání, postup je zobrazen v následující tabulce 5-2.
Výpočty se provádějí postupně od shora dolů. Proměnná, která je zahrnuta v modelu je
označena +, pokud není, je označena –. Je vidět, že proces končí po pátém kroku, kdy jsou
v modelu zahrnuty již všechny proměnné a žádnou nelze odebrat.
Hladina p
1.krok
2.krok
3.krok
4.krok
5.krok
model po 1.kroku
p-hladina na odebrání
p-hladina na přidání
model po 2.kroku
model po 3.kroku
model po 4.kroku
model po 5.kroku
Konstanta
Věk
+
–
+
3.3*10-318
+
3.3*10-318
+
+
< 10-325
1.sexuální
styk
–
Vzdělání
–
7.3*10-217
–
7.2*10-10
–
6.5*10-37
–
3.4*10-44
+
3.4*10-44
+
+
7.5*10-155
1.6*10-31
+
1.5*10-31
+
+
+
+
9.0*10-39
+
Tab. 5-2: Příklad tvorby modelu pomocí dopředné krokové metody pouze s přidáváním. Jedná se o studium
procesu odchodu od rodičů pomocí log-lineárního modelu intenzity s proměnnými věk, doba od prvního
sexuálního styku a vzdělání. Proměnná, která je zahrnuta v modelu je označena +, pokud není, je označena –.
Z uvedené tabulky 5-2 je také patrné, že v případě použití zpětné krokové metody by nedošlo
k odebrání ani jedné proměnné, neboť proces by se zastavil již v druhém kroku. Ten by totiž
byl totožný s pátým krokem uvedeným v tabulce.
5.18 Logit-lineární model pravděpodobnosti
Zajímavou praktickou možností, jak odhadovat log-normální model intenzity, je jeho
aproximace pomocí logit-lineárního modelu. Logit-lineární model je zobecněním běžně
známé logitové regrese. Název logit-lineární model je zde volen z důvodu shodnosti pojetí
s log-lineárním modelem. Snaha použít logit-lineární model je motivována tím, že tento je
příkladem zobecněného aditivního modelu (s rozdělením binomickým a linkující funkcí logit)
(zobecněný aditivní model je popsán např. v Hastie, Tibshirani a Friedman (2001)). Nástroje
(software) na použití tohoto modelu jsou snáze dostupné (a dle názoru autora lepší) než na
analýzu za pomocí log-lineárního modelu intenzity.
Pro srovnání zopakujme, že log-lineární model je definován jako:
ln hi (t ) = ∑ f k (u ik , t ) + ∑ U mi
k
m
105
hi (t ) = ∏ exp( f k (u ik , t ))∏ exp(U mi ) ,
k
kde
t
i
hi(t)
fk(uik, t)
Umi
m
je čas,
je označení i-té osoby (příp. jiného objektu studia),
je intenzita události v čase t,
je D-funkce nebo R-funkce, která popisuje vliv k-té proměnné na výslednou
intenzitu; uik je specifická hodnota vysvětlující proměnné pro i-tou osobu,
je náhodná veličina, jedná se o stejně rozdělené nezávislé náhodné veličiny pro
konstantní m a různá i.
Logit-lineární model je potom definován jako:
ln
q i (t , Δt )
′
= ∑ f k′ (u ik , t ) + ∑ U mi
1 − q i (t , Δt )
k
m
qi (t , Δt )
′ ),
= ∏ exp( f k′ (u ik , t ))∏ exp(U mi
1 − qi (t , Δt )
k
m
kde
qi(t,Δt)
je pravděpodobnost, že nastane sledovaná událost u i-tého jedince mezi časem
t a dalším sledovaným časovým okamžikem, který nastane za Δt,
ostatní proměnné a funkce mají stejný význam jako v definici log-lineárního modelu, pouze
pro odlišení jsou funkce a náhodné veličiny zde označeny čárkou.
Namísto modelování intenzity procesu sledované události je tedy modelována
pravděpodobnost, že tato událost nastane během nějakého krátkého časového intervalu. Bude
ukázáno, že z praktického hlediska jde o totéž a výsledky obou modelů lze interpretovat
oběma způsoby (jak jako intenzitu procesu v bodě, tak jako pravděpodobnost výskytu události
v krátkém časovém intervalu).
Zůstává otázka, proč namísto logitu hodnoty qi(t, Δt) nepoužít přímo její logaritmus. Důvod je
zde v praktickém odhadování modelu. Zatímco hi(t) může nabývat libovolných nezáporných
hodnot a tedy její logaritmus libovolných reálných hodnot, qi(t, Δt) je omezena na interval
[0,1]. Tedy její logaritmus může nabývat pouze nekladných hodnot a při odhadu parametrů by
mohlo dojít k porušení této podmínky. Proto se používá logit, který pro qi(t, Δt) může nabývat
opět hodnoty libovolného reálného čísla. (Ve všech případech zbývá problém, kdy je hodnota
qi(t, Δt) nebo hi(t) rovna 0, což ale při praktickém odhadování nečiní problém – obvykle
metody odhadování fungují tak, že těchto hraničních bodů nelze dosáhnout, pouze se k nim
libovolně blízko přiblížit.)
Ve výše uvedené definici logit-lineárního modelu je nejednoznačný výraz „mezi časem t a
dalším sledovaným časovým okamžikem“. Určení tohoto výrazu je základem aproximace loglineárního modelu intenzity pomocí tohoto logit-lineáního modelu pravděpodobnosti.
106
Vyjděme z definice intenzity, že nastane sledovaná událost:
q (t , Δt )
.
Δt →0 +
Δt
h(t) := lim
Ovšem z toho také plyne:
lim
Δt →0 +
q(t , Δt )
= h(t).
Δt (1 − q (t , Δt ))
To znamená, že pro malé časové intervaly Δt lze výraz h(t)Δt aproximovat výrazem:
q(t , Δt )
.
(1 − q(t , Δt ))
Potom ale také platí, že:
ln h(t ) + ln(Δt ) = ln
q(t , Δt )
.
1 − q(t , Δt )
Z toho je tedy zřejmé, že logit-lineární model pravděpodobnosti se blíží limitně k loglineárnímu modelu intenzity upravenému o konstantu ln(Δt) (příp. vydělenému Δt
v nezlogaritmované verzi). To ovšem přináší zásadní výsledek a to, že:
fk(uik,t) = f’k(uik,t) (pro Δt limitně jdoucí k nule),
tedy odhadnuté funkce v logit-lineárním modelu pravděpodobnosti i log-normálním modelu
intenzity jsou shodné (jediný rozdíl je v konstantě, která bývá přiřazována k základní funkci,
která se tedy může lišit, ale pouze posunutím po ose y).
Z praktického hlediska zbývá určit vhodné Δt. To lze odvodit z požadované přesnosti
výsledků a také z přesnosti dat. Pokud např. data mají přesnost jeden rok, nemá velkého
smyslu snažit se o větší přesnost výsledků. Jako vodítko může sloužit to, že z důvodu dobré
aproximace je třeba, aby výraz q(t, Δt) byl co nejnižší. Samozřejmě zde platí, že čím nižší h(x)
na intervalu (t, t+Δt), tím nižší je i tato hodnota. Ovšem intenzitu sledovaného procesu h(x)
nelze ovlivnit, proto pokud je obecně výraz q(t, Δt) příliš velký, lze ho snižovat zmenšováním
intervalu Δt. Zhruba lze říci, že při hodnotách q(t, Δt) < 0.1 je aproximace obvykle naprosto
dostačující.
V praxi je tedy data třeba upravit tak, že dojde k rozdělení expozice na pravidelné intervaly
o délce Δt a na konci takového intervalu je vždy pro sledovaný proces určena hodnota, zda
daný proces pokračuje přes další interval či je v něm censorován, nebo naopak zda v tomto
dalším intervalu dojde k sledované události a proces je tak ukončen.
Příklad
Pro ilustraci toho postupu je možné uvést následující příklad. Vezměme si dvě osoby, z nichž
první se narodila 15.7.1977, druhá 1.1.1979. Z dotazníkového šetření bylo zjištěno, že u druhé
107
1991
1992
1993
1994
1995
1996
1997
1998
1999
Ka len dá řní rok
14
15
16
17
18
19
20
21
Expozice 1. osoby
Expozice 2. o sob y
z nich nastala sledovaná událost (např. odchod od rodičů, první koncepce apod.) v červnu
1995, zatímco u první z nich ještě nenastala a je tedy censorována časem interview (zde
prosinec 1997). Dále můžeme předpokládat, že sledovaný proces chceme studovat od 14.5
roku věku. Potom expozice daných dvou osob lze zobrazit např. takto (graf 5-31):
Vě k 1.o sob y; na roz en a 1 5.7 .1 977 , c en soro vá no ča sem in tervi e w
v prosi nci 1997
12
13
14
15
16
17
18
19
20
Vě k 2.o sob y; na roz en a 1 .1. 19 79, sled ov an á u dá lost na stala
v č ervnu 1995
Graf 5-31: Příklad expozice při zkoumání intenzity procesu. Jedná se o příklad intenzity odchodu od rodičů
u dvou osob, z nichž první se narodila 15.7.1977 a druhá 1.1.1979. První byla censorována v prosinci 1997,
u druhé z nich nastala sledovaná událost v červnu 1995.
Je vidět, že zatímco datum narození je k dispozici přesně na den, čas sledované události a čas
censorování jsou pouze s přesností na měsíc. Proto i krok (Δt) pro logit-lineární model
pravděpodobnosti nemá smysl stanovovat menší než jeden měsíc (za předpokladu, že sama
intenzita nedosahuje vysokých hodnot, např. 1; tento předpoklad je v naprosté většině
demografických procesů splněn).
Pokud chceme sestavovat jednoduché modely s kombinací D-funkcí věk a kalendářní rok
(období) a R-funkce kohorta (např. model (věk + období) nebo (věk + kohorta)), potom data
lze upravit pro potřeby logit-lineárního modelu pravděpodobnosti například do následující
podoby v tabulce 5-3 (přičemž měsíc, kdy expozice začala, v datech není, zatímco když
končila, tak ano, což je jenom jeden z možných způsobů).
V tabulce 5-3 jsou potom hodnoty proměnných skutečně použitých v odhadování modelu
označeny červeně. Samotný model je potom odhadován se závislou proměnnou q(t, Δt) a
ostatní proměnné jsou nezávislé.
108
1.osoba
2.osoba
Další
osoby
údaje
kalendářní
za měsíc
rok
únor 1992
1992.13
březen 1992
1992.21
duben 1992
1992.29
…
…
říjen 1997
1997.79
listopad 1997 1997.88
prosinec 1997 1997.96
srpen 1993
1993.63
září 1993
1993.71
říjen 1993
1993.79
…
…
duben 1995
1995.38
květen 1995
1995.46
červen 1995
1995.54
…
…
14.50
14.58
14.67
…
20.17
20.25
20.33
14.63
14.71
14.79
…
17.75
17.83
17.92
kohorta
(dat. naroz.)
1977.63
1977.63
1977.63
…
1977.63
1977.63
1977.63
1979.00
1979.00
1979.00
…
1979.00
1979.00
1979.00
…
…
Věk
událost
poznámka
(q(t,Δt))
0
0
0
…
0
0
0
čas censorování
0
0
0
…
0
0
1
událost nastala
…
Tab. 5-3: Příklad uspořádání dat pro použití logit-lineárního modelu pravděpodobnosti. Jedná se o studium
procesu odchodu od rodičů s proměnnými období, věk a kohorta. Červeně jsou označeny údaje, jež vstupují do
odhadování modelu.
Zásadní výhoda tohoto přístupu je v tom, že tímto postupem jsme problém převedli z modelu
s nutností odhadu intenzity s censorovanými pozorováními, na model logit-lineární s dvěma
stavy závislé proměnné q(t, Δt) – „censorováno“ a „událost“. Ovšem toto je pouze případ
zobecněného aditivního modelu s výsledným binomickým rozdělením a linkující funkcí logit.
A narozdíl od případu odhadu intenzity s censorovanými pozorováními, odhad tohoto modelu
je součástí minimálně několika běžných statistických programů (minimálně je autorovi
známo, že se jedná o STATISTICA, R) včetně příslušných analytických nástrojů jako je např.
analýza reziduí apod. Velkou výhodou je v tomto případě automatické nalezení míst pro
umístění uzlů při jejich volitelném počtu.
Pro ilustraci odhadu intenzity pomocí logit-lineárního (proložení kubickým splinem s 6 stupni
volnosti – 5 uzly) a log-lineárního modelu (proložení lineárním spline s 8 stupni volnosti – 7
uzly) lze uvést graf 5-32 s křivkami odhadnutými pomocí obou metod s příslušnými 95%
intervaly spolehlivosti – jedná se o model intenzity odchodu od rodičů s jedinou vysvětlující
proměnnou věk (model je v zlogaritmované verzi).
109
log(intenzita)
-2
-3
-4
-5
-6
-7
10
15
20
25
30
35
40
45
50
Odhad pomocí logit-lineárního modelu + 95 % CL
(STATISTICA)
Odhad pomocí log-lineárního modelu + 95 % CL
(aML)
-1
Věk
Graf 5-32: Příklad na porovnání odhadu studované intenzity pomocí log-lineárního modelu intenzity a logitlineárního model pravděpodobnosti. Jedná se o intenzitu odchodu od rodičů s modely v závislosti na věku.
Aproximace log-lineárního modelu pomocí logit-lineárního modelu pravděpodobnosti přináší
zcela nové možnosti v používání tohoto modelu. Zásadně rozšiřuje množství (kvalitnějších)
nástrojů, které slouží ke zkoumání dat pomocí takového modelu – minimálně do doby, kdy
budou k dispozici lepší nástroje pro přímě použití log-lineárního modelu intenzity.
5.19 Významnost proměnných
Při použití log-lineárního modelu intenzity zkoumáme vliv dalších (vysvětlujících)
proměnných na daný demografický proces. V této souvislosti je potom logické se také ptát,
které z proměnných ovlivňují daný proces více a které méně. K této otázce lze potom
přistupovat minimálně ze dvou pohledů. Jeden z nich je založen na porovnávání logvěrohodnosti modelů (a tedy kvalitě proložení; na tom, jak dobře různé modely popisují data),
druhý na porovnání skutečného vlivu dané proměnné na sledovaný proces (porovnání hodnot
splinů).
Porovnání založené na důležitosti pro model
Při odhadování parametrů různých modelů pro stejný proces (při použití stejného datového
souboru) je hlavním ukazatelem hodnota log-věrohodnosti, příp. z ní odvozené statistiky
kvantil χ2 rozdělení a odpovídající p-hladina (pro porovnání dvou modelů, z nichž jeden je
rozšířením druhého). Zde bude použita pro porovnání hodnot log-věrohodnosti s tím, že
použití dalších statistik by bylo obdobné. Na tomto základě lze používat minimálně tři různé
metody.
Zhoršení modelu oproti úplnému modelu (deviance)
V tomto případě se pro porovnání použijí rozdíly v log-věrohodnosti u úplného
(saturovaného) modelu, tj. nejlepšího modelu, který byl nalezen, a log-věrohodnosti modelu,
z kterého byla odebrána jedna proměnná. Tento rozdíl (vůči úplnému modelu) se obvykle
nazývá deviance. Jedná se tedy o identický výpočet jako při jednom kroku zpětné krokové
metody (pouze s odebíráním).
110
Zlepšení vůči předchozímu modelu
Tato metoda odpovídá dopředné krokové metodě s možností proměnné pouze přidávat. Pro
každou proměnnou se použije hodnota rozdílu log-věrohodnosti modelu, kdy byla daná
proměnná právě do modelu zahrnuta, a log-věrohodnosti předchozího modelu.
Zlepšení vůči základnímu modelu
Při použití této metody se za hodnotu bere rozdíl mezi log-věrohodností základního modelu
(např. s konstantní intenzitou) a modelu, kam byla přidána jedna daná proměnná. Při tomto
postupu tedy dojde k odhadnutí modelů stejně, jako při prvním kroku dopředné metody
s možností proměnné pouze přidávat (podobně jako minulá metoda) po ustanovení základního
modelu.
Jako příklad k těmto metodám založeným na rozdílu log-věrohodností (či obecně na
důležitosti pro model) lze porovnat vliv proměnných věk, nejvyšší vzdělání a doba od prvního
sexuálního styku na proces odchodu od rodičů. Tedy jedná se o tři různé typy proměnných
(nepodmíněný a podmíněný D-spline – věk a doba od prvního sexuálního styku – a kovarianta
neproměnná v čase jako speciální typ R-splinu reprezentující vliv nejvyššího dosaženého
vzdělání).
V tabulce lze shrnout přehled modelů a rozdíl jejich log-věrohodnosti od základního modelu
s konstantní intenzitou (tab. 5-4):
Model s proměnnými
Konstanta
Věk
1.sexuální styk
Vzdělání
Věk + 1.sexuální styk
Věk + vzdělání
1.sexuální styk + vzdělání
Vše (úplný model)
Rozdíl log-věrohodností
0.0
742.9
512.1
28.3
836.4
853.5
565.8
934.3
Tab. 5-4: Příklad rozdílů log-věrohodností různých modelů pro potřeby porovnání významnosti proměnných na
studovanou intenzitu. Jedná se o významnost proměnných věk, doba od prvního sexuálního styku a vzdělání při
studiu odchodu od rodičů.
Potom, pokud standardizujeme všechny hodnoty příslušných rozdílů (dle každé metody) tak,
aby jejich součet byl roven 1, lze zobrazit výsledky všech tří metod např. pomocí Paretova
grafu 5-33 (tedy takového grafu, který zobrazuje jak hodnoty proměnných, tak jejich
kumulativní hodnotu; tento graf je výhodný hlavně u vyššího počtu proměnných, u 3 v tomto
případě jde spíše jen o ukázku, neboť graf zobrazující pouze hodnoty by pro přehlednost
stačil).
111
Zlepšení vůči základnímu modelu
Zlepšení vůči předchozímu modelu
Zhoršení vůči plnému modelu
Vek
1. sexuální
styk
Vzdelání
0.0
0.2
0.4
0.6
0.8
1.0
Graf 5-33: Příklad grafického porovnání významnosti proměnných metodami založenými na důležitosti pro
model. Jedná se o příklad porovnání metod založených na důležitosti pro model při studiu odchodu od rodičů s
proměnnými věk, doba od prvního sexuálního styku a vzdělání.
Je vidět, že různé metody odhadují vliv proměnných na model různě. Zatímco věk byl určen
jako nejdůležitější všemi metodami, proměnné doba od prvního sexuálního styku a nejvyšší
dosažené vzdělání se v pořadí důležitosti lišily (ve dvou případech bylo nalezeno jako
důležitější – i když jen nepatrně – vzdělání, v jednom doba od 1.sexuálního styku).
Porovnání založené na velikosti efektu
Druhým typem porovnání vlivu proměnných je porovnání založené na vlivu efektu.
V nejjednodušším případě kovariant neproměnných v čase s dvěma stavy je samozřejmě
zajímavé vědět, zda proměnné zvyšují zkoumanou intenzitu demografického procesu 5x nebo
jen 1.25x (oproti základnímu stavu). Přesto, že pro kvalitu modelu může být důležitější
proměnná, jež zvyšuje intenzitu pouze 1.25x. Jedná se tedy o jiný pohled na důležitost
proměnných.
Dobrou metodou určování tohoto vlivu může být metoda grafického zobrazení průběhu efektů
výsledného modelu, kterou však nelze použít pro velký počet proměnných. Ve výše
uvedeném příkladě zkoumání procesu odchodu od rodičů s třemi vysvětlujícími proměnnými
věk, doba od prvního sexuálního styku a nejvyšší dosažené vzdělání, lze tyto zobrazit např.
následovně (graf 5-34).
112
20.0
9.0
7.0
5.0
3.0
1.0
0.8
10
15
20
25
30
35
40
45
Věk
-2
-1
0
1
2
3
4
Věk
Doba od prvního sexuálního styku
Nejvyš ší dosažené vzdělání
Efekt (násobek)
40.0
5
Doba od 1. sexuálního styku
Graf 5-34: Příklad grafického porovnání významnosti proměnných pomocí metody založené na velikosti efektu.
Jedná se o příklad prostého grafického zobrazení efektů v modelu při studiu odchodu od rodičů s proměnnými
věk, doba od prvního sexuálního styku a vzdělání.
Pro tento graf bylo použito skutečné velikosti efektu (tj. bylo použito funkce exp(.)) jako
hodnot na ose y, ale bylo použito logaritmického měřítka pro zachování poměrů. To znamená,
že tvar funkcí je stejný jako v případě zobrazení funkcí v logaritmické verzi modelu. Což také
znamená, že takto zobrazené funkce jsou aditivní. Jako poznámku lze dodat, že všechny
funkce byly standardizovány tak, aby měly minimum rovno 1.
Metoda rozsahu
Při větším počtu proměnných, kdy by zobrazení celého průběhu funkcí bylo již nepřehledné,
je možné použít metody rozsahu. Tzn. pro každou proměnnou vypočítat rozsah jejího vlivu
(tj. maximální minus minimální hodnotu). Rozsah by se měl počítat buď v zlogaritmované
verzi modelu, nebo ve standardizované nezlogaritmované verzi (z funkce exp(f(.))) tak, že
minimum všech funkcí je 1. Pro potlačení extrémních hodnot, které mohly vzniknout malým
počtem dat, lze tuto metodu různě pozměňovat. Jednou z možností je např. vynechat 5 %
nejvyšších a 5 % nejnižších hodnot pro každou funkci váženo přes délku expozice (tzn.
omezíme se na 90 % „prostředních“ hodnot každé funkce).
Jako příklad můžeme opět použít proces odchodu od rodičů s vysvětlujícími proměnnými
věk, doba od prvního sexuálního styku a nejvyšší dosažené vzdělání. Pokud použijeme
korekci na extrémní hodnoty 2.5 % maximálních hodnot a 2.5 % minimálních (tedy 95 %
„prostředních hodnot“), de facto jediná změna tím bude u proměnné vzdělání. Tady dojde
k vynechání nejnižší úrovně „bez ukončeného vzdělání“, neboť hodnota expozice je nižší než
1 %. Její zahrnutí by spíše zkreslilo výsledek. Výsledek lze potom zobrazit v grafu 5-35 jako
u metod založených na důležitosti proměnných pro model.
113
0
5
10 15 20 25 30 35 40 45 50
Rozsah efektu
Vek
1.sexuální
styk
Vzdelání
0%
20%
40%
60%
80%
100%
Graf 5-35: Příklad grafického porovnání významnosti proměnných pomocí metody založené na velikosti efektu.
Jedná se o příklad použití metody rozsahu modelu při studiu odchodu od rodičů s proměnnými věk, doba od
prvního sexuálního styku a vzdělání.
I na základě tohoto grafu můžeme konstatovat, že nejvyšší intenzita pro skupinu osob v tomto
příkladě (za použití úplného modelu) je asi 480x vyšší než nejnižší (asi 40x díky efektu věku,
3x díky efektu 1.sexuálního styku a 4x díky efektu vzdělání). Jedná se o osoby kolem 23 let
věku, jež již měly první sexuální styk a mají vysokoškolské vzdělání vs. osoby, kterým je
kolem 15 let (nebo naopak kolem 40 let), mají nejvyšší ukončené základní vzdělání a zatím
neměly sexuální styk (což zahrnuje většinu osob kolem 15 let věku).
114
6 ODCHOD OD RODIČŮ
V ČESKÉ REPUBLICE
Obsah kapitoly
6.1 CÍLE ..............................................................................................................................117
6.2 ODCHOD OD RODIČŮ JAKO SOUČÁST PŘECHODU DO DOSPĚLOSTI ..................................117
Přechod do dospělosti v Evropě a ČR ............................................................................119
6.3 ODCHOD OD RODIČŮ - PŘEHLED STUDIÍ.........................................................................121
6.4 DATA A METODY ...........................................................................................................122
Data.................................................................................................................................122
Model ..............................................................................................................................123
Zkoumané procesy či vlastnosti reprezentované pomocí D-funkcí.................................125
Zkoumané procesy či vlastnosti reprezentované pomocí R-funkcí .................................126
6.5 PŘEDVÝBĚR ..................................................................................................................126
Cíle..................................................................................................................................126
Postup .............................................................................................................................126
0. krok .............................................................................................................................127
1. a 2. krok ......................................................................................................................127
3. krok .............................................................................................................................129
4. krok .............................................................................................................................130
5. krok .............................................................................................................................131
6. krok .............................................................................................................................132
7. krok .............................................................................................................................133
6.6 ZÁKLADNÍ PŘEHLED DAT ..............................................................................................137
6.7 TVORBA MODELU ..........................................................................................................140
1. stupeň ..........................................................................................................................140
2. stupeň ..........................................................................................................................140
3. stupeň ..........................................................................................................................140
Shrnutí tvorby modelu.....................................................................................................141
6.8 VÝSLEDKY ....................................................................................................................144
Efekt věku ........................................................................................................................144
Efekt první koncepce .......................................................................................................149
Efekt prvního sexuálního styku .......................................................................................163
Efekt vzdělání ..................................................................................................................169
Efekt manželství ..............................................................................................................172
Efekt počtu sourozenců ...................................................................................................179
Efekt období (periody, kalendářního roku).....................................................................182
Efekt rozvodu rodičů .......................................................................................................185
Efekt soužití s partnerem.................................................................................................188
Přehled výsledků .............................................................................................................198
6.9 VÝZNAMNOST PROMĚNNÝCH ........................................................................................201
6.10 ZÁVĚR ........................................................................................................................202
116
6.1 Cíle
Studie, jež je obsahem této kapitoly, je zaměřena na proces odchodu od rodičů (leaving
parental home) v České republice. Tento proces je zkoumán v souvislosti širší skupiny
procesů přechodu do dospělosti (transition to adulthood). Přechod do dospělosti je v současné
době již jedním z hlavních bodů moderního demografického zkoumání.
Jedním cílem studie je tedy určit faktory, které ovlivňují odchod od rodičů (a obecně přechod
do dospělosti) a zjistit, jaký je jejich vliv. S tím souvisí i porovnání dosažených výsledků
s výsledky z jiných zemí. Odchod od rodičů bývá označován za jeden z hlavních indikátorů
přechodu do dospělosti (např. Iacovou a Berthoud (2001)), proto zjištěné výsledky mohou mít
i obecnější platnost pro celkový přechod do dospělosti.
Na rozdíl od jiných procesů, které lze zahrnout do přechodu do dospělosti, jako jsou narození
prvního dítěte nebo uzavření prvního sňatku, odchod od rodičů nebyl zatím pro Českou
republiku důkladněji zkoumán. Dalším cílem je tedy alespoň částečně zaplnit tento prostor.
Zkoumanou hypotézu v tomto případě lze definovat velice obecně. Zkoumalo se, zda odchod
od rodičů vůbec závisí na některých vybraných faktorech či procesech, což částečně odpovídá
hypotéze při exploratorní analýze dat či data miningu. V některých případech bylo na základě
znalostí z jiných zemí možno definovat hypotézu konkrétněji.
Třetí cíl této studie je metodický. Pro podobné studie bývá patrně nejčastěji používán Coxův
model. Zde je namísto toho použito jeho zobecnění popsané v kapitole 5 Log-lineární model
intenzity. Tento model umožňuje výrazně flexibilnější modelování oproti Coxovu modelu
právě pro podobné procesy (zde se tato možnost výrazně projevuje např. při modelování vlivu
první koncepce).
S tím souvisí i způsob prezentace výsledků, kdy bylo voleno primárně grafické zobrazení. Mj.
zde byla snaha zahrnout do grafů i informaci o statistické validitě a porovnání statistické síly
pro jednotlivé části modelu. Proto zde byla použita metoda zobrazení, kdy do grafů s jednou
proměnnou byly zahrnuty i odhady intervalů spolehlivosti, což není v demografické literatuře
obvyklé. V případě zobrazení vlivu více proměnných byly použity grafické mapy (viz např.
Vaupel et al.(1997)), jejich řezy a typické scénáře.
6.2 Odchod od rodičů jako součást přechodu do dospělosti
V případě studia procesu přechodu do dospělosti se často uvažují některé konkrétní procesy
jako klíčové. Např. Billari (2001) sem zahrnuje konec celodenního vzdělávání, získání
prvního zaměstnání, odchod od rodičů, první soužití s partnerem a narození prvního dítěte.
Corijn (1996) přidává ještě další tři procesy - první sexuální styk, první partnerství a první
sňatek. Naopak Liefbroer a de Jong Gierveld (1995) v této souvislosti studují pouze odchod
od rodičů, první soužití s partnerem a narození prvního dítěte. Iacovou a Berthoud (2001)
rozdělují proces přechodu do dospělosti na dvě oblasti: První oblast zahrnuje přechod
z celodenního vzdělávání do zaměstnání, resp. nezaměstnanosti. Druhou oblast představuje
odchod od rodičů a založení vlastní rodiny. Furstenberg et al. (2003) uvádějí na základě
amerického výzkumu, že manželství a narození prvního dítěte již ztrácí na významu pro
definování dospělosti, a uvádějí jako určující procesy získání finanční nezávislosti, odchod od
rodičů, dokončení celodenního vzdělávání a začátek zaměstnání.
117
Arnett (2003) opět pro případ Spojených států (oblast San Francisca) prováděl výzkum, kdy
se dotazoval mladých lidí, co oni sami považují za indikátor dospělosti. Např. uvádí, že
získání celodenního zaměstnání bylo důležité pro sebehodnocení jako dospělého pro přibližně
jednu třetinu dotazovaných. Zatímco uzavření manželství bylo důležité jen asi pro 15 %
dotazovaných. Přes polovinu z nich však považovalo za důležitý odchod od rodičů.
Iacovou a Berthoud (2001) na příkladě zemí Evropské unie (15) i Furstenberg et al. (2003)
nebo Rumbaut (2003) na příkladě USA konstatují, že zatímco před několika desetiletími se
přechod do dospělosti sestával u většiny lidí z poměrně dobře definovaných fází (první
zaměstnání a poté rychlý přechod do dospělosti, kdy dojde při odchodu od rodičů k uzavření
manželství, k narození prvního dítěte a získání dlouhodobé práce, či u žen partner získá
takovéto zaměstnání), v současném „severním“ světě je tomu již jinak. Přechod do dospělosti
se stal déle trvajícím, hůře predikovatelným procesem. Rozdělily se procesy odchodu od
rodičů (počátek žití samostatně), počátek žití s partnerem, vstup do manželství a narození
prvního dítěte. Změny na pracovním trhu vedly mladé lidi k delšímu setrvání ve škole a na
důležitosti vzrostl faktor nezaměstnanosti a dočasného zaměstnání.
Podobně Morrow a Richards (1996) konstatují, že přesto, že definice dospělosti je komplexní,
hranice mezi dětstvím a různými aspekty dospělosti jsou stále více rozmazané. Rozdělují
různé typy přechodu do dospělosti. První oblast nazývají legální nebo politická, kdy hlavní
určující věk je 18 let. Druhou oblastí je finanční či ekonomická, kdy může dojít
k osamostatnění již v 15 letech, ale také až později jak v 25 letech. Jako třetí oblast udávají
sexuální a sociální, kdy např. konstatují, že doba mezi prvním sexuálním stykem a uzavřením
manželství se neustále zvyšuje.
Billari (2003) nastiňuje další možnosti zkoumání přechodu do dospělosti (rozdělením
pozornosti na makro a mikro úroveň) a demonstruje dva základní typy - Lowest Low
[intensity] v jižní Evropě a Highest High [intensity] v severní Evropě s tím, že ostatní
evropské země se pohybují mezi těmito dvěma extrémy.
I na základě výše uvedeného se projevuje důležitost odhodu od rodičů jako jednoho
z klíčových indikátorů přechodu do dospělosti. Klíčovou otázkou zde je časování odchodu od
rodičů a jeho závislost (či souvislost) na prostředí dané osoby a jeho vlastních
charakteristikách - jedná se tedy jak o socio-ekonomické, tak o psychologické faktory.
Středem zájmu je také souvislost odchodu od rodičů s ostatními procesy přechodu do
dospělosti. V této souvislosti jsou v této studii uvažovány stejné procesy jako v Billari (2001)
s jednou změnou, kdy jsou odděleně zkoumány procesy soužití s partnerem a manželství.
Zkoumání odchodu od rodičů v sobě zahrnuje i jisté konceptuální problémy. Zatímco datum
narození prvního dítěte nebo sňatku mohou být určeny naprosto přesně, odchod od rodičů
není vždy tak jednoznačný. Může se jednat o postupný odchod, kdy daný mladý člověk již
může žít odděleně od svých rodičů, ale ubytování mohou platit oni. Případně – např. v případě
vysokoškoláků studujících v jiném městě, než žijí rodiče – mohou mít mladí lidé dvě bydliště.
Podobně mohou mladí lidé nějakou dobu žít sami a potom se opět navrátit k soužití s rodiči.
Poslední problém se obvykle řeší zaměřením na první odchod od rodičů. Složitější je problém
postupného odchodu. V takovém případě je možné se zaměřit např. na další indikátory, které
mohou poskytnout detailnější náhled - např. otázku finanční výpomoci, otázku praní oblečení
atd. (viz např. Iacouvou a Berthoud (2001)). V případě této studie se tento problém řešil tak,
že byl uvažován první odchod od rodičů a byl považován za sebedeklarativní.
118
Přechod do dospělosti v Evropě a ČR
Pro získání základního náhledu na proces přechodu do dospělosti zde můžeme uvést základní
porovnání časování těchto procesů v Evropě. Následující grafy odpovídají až 12 evropským
zemím, jež se zúčastnily průzkumu FFS (jež byl základem této studie, viz níže v sekci
6.4 Data a metody). Byly vybrány ty země, v nichž byly v případě žen zjišťovány časy
u všech šesti zde zvolených procesů přechodu do dospělosti. Data se vztahují přibližně k době
od poloviny 60. let do poloviny 90. let minulého století.
U jednotlivých procesů je vždy na ose x zobrazen mediánový věk a na ose y je mezikvartilové
rozpětí, jež je zde ukazatelem heterogenity daného procesu v populaci. Všechny hodnoty jsou
odhady pomocí Kaplan-Meierovy metody (viz sekce 3.3 Kaplan-Meierův odhad). Pro snazší
orientaci byly procesy seřazeny tak, jak odpovídají většinovému pořadí (dle mediánů) a
označeny různými barvami - tj. nejprve dokončení celodenního vzdělávání, potom počátek
zaměstnání, odchod od rodičů, počátek soužití s partnerem, uzavření manželství a nakonec
narození prvního dítěte.
Na prvním z grafů (graf 6-1), který zahrnuje pouze ženy, je dobře patrná velká časové
koncentrace všech procesů u zemí dříve patřících do „východního bloku“ (Česká republika,
Maďarsko, Litva, Polsko a Slovinsko). V těchto zemích jednak všechny procesy přechodu do
dospělosti proběhly brzy po sobě, ale i heterogenita v celé populaci byla nízká. Tyto země lze
srovnat s další skupinou, kam lze zařadit Belgii, Finsko, Norsko, Švýcarsko a částečně
i Španělsko. V těchto zemích byly jak věkově tak heterogenitou v populaci podobné
předchozí skupině první čtyři procesy - tj. dokončení celodenního vzdělávání, počátek
zaměstnání, odchod od rodičů a počátek soužití s partnerem. Ovšem už obecně později zde
docházelo k uzavření manželství a narození prvního dítěte. Extrémní jsou v tomto pohledu
Itálie, s velikou heterogenitou ukončení vzdělávání a počátkem zaměstnání v populaci, a
Švédsko, s vysokým věkem a velikou heterogenitou v populaci při uzavření sňatku.
16
12
8
4
0
16
20
24
28
16
Heterogenita
Belgie
16
12
8
4
0
16
20
24
20
28
16
20
Itálie
16
12
8
4
0
16
20
24
Slovinsko
24
28
16
Česká republika
24
28
16
20
24
Švédsko
24
28
16
Finsko
16
Litva
28
20
20
24
16
20
24
Švýcarsko
24
28
Maďarsko
28
16
Norsko
28
20
20
24
28
Polsko
28
16
20
24
28
Španělsko
Mediánový věk
Graf 6-1: Porovnání mediánových věků a heterogenity v populaci u dokončení celodenního vzdělávání, počátku
zaměstnání, odchodu od rodičů, počátku soužití s partnerem, uzavření manželství a narození prvního dítěte u žen
ve 12 zemích Evropy (Belgie, Česká republika, Finsko, Maďarsko, Itálie, Litva, Norsko, Polsko, Slovinsko,
Švédsko, Švýcarsko a Španělsko). Heterogenita je reprezentována mezikvartilovým rozpětím. Odhady hodnot
jsou vypočteny Kaplan-Meierovou metodou. Vlastní výpočet.
119
Následující graf 6-2 je de facto detailním výřezem předchozího grafu 6-1 pro Českou
republiku. Je na něm dobře patrné, že spolu velmi souvisejí procesy dokončení celodenního
vzdělávání a počátek zaměstnání a potom trojice počátek soužití s partnerem, odchod od
rodičů a uzavření manželství. Dále je také vidět „anomálie“ pořadí procesů, kdy mediánový
věk při odchodu od rodičů je mírně vyšší než u počátku žití s partnerem (za všechny země
bylo pořadí opačné).
5.5
Heterogenita
4.5
3.5
2.5
1.5
18
19
20
21
22
Mediánový věk
České republice. Heterogenita je reprezentována mezikvartilovým rozpětím. Odhady jsou vypočteny KaplanMeierovou metodou. Vlastní výpočet.
Z důvodů omezení českých dat pouze na ženy (viz sekce 6.4 Data a metody) není možné
provést pro Českou republiku porovnání mužů a žen. Ovšem pokud bylo dokumentováno, že
v případě zemí patřících dříve do „východního bloku“ byly výsledky velmi podobné pro ženy,
lze podle těchto zemí získat alespoň hrubou představu, jak by asi vypadaly výsledky pro muže
v České republice.
Z grafu 6-3 je patrné, že procesy ukončení vzdělávání a počátek zaměstnání se prakticky kryjí
s ženami (na grafu jsou značky ukončení vzdělávání zakryty značkami počátku zaměstnání,
hodnoty jsou prakticky shodné). Naopak počátek soužití s partnerem, uzavření manželství a
narození prvního dítěte jsou asi o dva až čtyři roky opožděné. Podobné hodnoty lze očekávat i
pro Českou republiku, jak naznačuje věk mužů při prvním sňatku. Zde byl medián v roce
1989 roven 23.6 letům věku a mezikvartilové rozpětí bylo 4.4 roku (Pavlík a Kučera, eds.
(2002)). Největší rozdíly byly v případě odchodu od rodičů, který byl u mužů obecně opožděn
mezi několika měsíci (v případě Litvy) až přes tři roky (v případě Maďarska). Je
pravděpodobné, že pro Českou republiku bude tento údaj mít obdobné hodnoty.
120
12
8
Heterogenita
4
0
17
19
21
23
25
27 17
19
Maďarsko
21
23
25
27
25
27
Litva
12
8
4
0
17
19
21
23
25
27 17
19
Polsko
21
23
Slovinsko
Mediánový věk
a u mužů v Maďarsku, Litvě, Polsku a Slovinsku. Hodnoty pro ženy jsou označeny plným kroužkem, pro muže
křížkem. Na grafu jsou značky ukončení vzdělávání zakryty značkami počátku zaměstnání, hodnoty jsou
prakticky shodné. Heterogenita je reprezentována mezikvartilovým rozpětím. Odhady jsou vypočteny KaplanMeierovou metodou. Vlastní výpočet.
6.3 Odchod od rodičů - přehled studií
V této sekci jsou stručně shrnuty některé studie, jež se zabývají odchodem od rodičů podobně,
jako tato studie. Dále v textu slouží jako srovnání pro výsledky za Českou republiku. U každé
je také uvedena metoda, jež byla použita pro výpočet výsledků. Použitá metoda samozřejmě
má vliv na získané výsledky.
Brinbau et al. (2004) se zajímali primárně o procesy získání prvního zaměstnání a odchodu od
rodičů v Evropě. Analyzují situaci v Rakousku, Belgii, Dánsku, Německu, Francii, Řecku,
Irsku, Itálii, Lucembursku, Portugalsku, Španělsku, Nizozemí, Velké Británii a také ve dvou
ze zemí Visegrádské čtyřky - v Polsku a v Maďarsku. Mezi jejich hlavní výsledky ohledně
odchodu od rodičů lze zařadit: Muži odcházejí od rodičů obecně později než ženy.
Ekonomická neaktivita či nezaměstnanost mají záporný vliv na proces odchodu od rodičů.
Naopak být studentem zvyšuje intenzitu tohoto procesu. Příjem rodičů působí proti odchodu
od rodičů. Jako metody pro zkoumání odchodu od rodičů použili popisné metody a Coxovu
regresi. Data pocházejí z Consortium of Household Panels for European Socio-Economic
Research.
Flatau et al. (2003) se zaobírají odchodem od rodičů v Austrálii během 20. století. Zaměřují se
na tři základní otázky - jaké pozorovatelné proměnné měly vliv na odchod od rodičů, zda se
proces odchodu od rodičů změnil v průběhu století a zda současná generace odchází dříve či
později. Docházejí k závěru, že počet sourozenců působí kladně na intenzitu odchodu od
rodičů, stejně tak jako fakt, kdy daný člověk je nejstarším ze sourozenců. Pokud daný člověk
aktuálně studuje, působí to výrazně proti odchodu od rodičů. Intenzitu zvyšuje také fakt, že
rodiče se rozvedli před 15. rokem daného člověka, příp. že otec není přítomen v rodině z jiné
příčiny (např. úmrtí). Zabývají se také vlivem zaměstnání rodičů na intenzitu odchodu.
Ukazují, že obyvatelé velkých měst na východním pobřeží mají nižší intenzitu odchodu než
obyvatelé mimo východní pobřeží. Jako metodu výpočtu používají Coxovu regresi, kdy věk
121
rozdělili (kategorizovali) na několik skupin. Neboť tato studie je použitou metodou
i proměnnými blízká zde popisované analýze, je často použita pro srovnání.
Sienkiewicz (2003) se zajímá odchodem od rodičů v Polsku. Používá stejně jako v případě
této studie data získána z výzkumu FFS. Mezi jeho hlavní zjištění patří, že kohorta má
záporný vliv na odchod od rodičů (1945–1974) a to více u mužů, počet sourozenců má kladný
vliv, vliv má i zaměstnání rodičů. Nezjistil vliv u místa bydliště. Pokud žil mladý člověk s
oběma rodiči, tak je intenzita nižší oproti jiným možnostem. Také uvádí kladný vliv vzdělání
na intenzitu odchodu od rodičů, zatímco pokud člověk aktuálně studoval, intenzita se výrazně
snížila. Uzavřené manželství zvyšovalo velmi výrazně intenzitu odchodu. Z pohledu vlivu
věku byl tento maximální mezi 15–19 rokem. Jako analytickou metodu použil analýzu
rozptylu. Neboť se jednak jedná o sousední zemi České republiky a také použité vysvětlující
proměnné byly mnohdy obdobné, je také tato studie použita často pro srovnání. Při
interpretaci výsledků je však třeba mít na zřeteli důležitý fakt a to, že výzkum FFS se
v Polsku uskutečnil na konci roku 1991, zatímco v České republice na konci roku 1997.
Změny v demografickém chování po roce 1990 se tedy v polské studii ještě nemohly projevit.
Suzuki (2001) analyzuje odchod od rodičů v Japonsku. Ukazuje, že kohorta má záporný vliv
na odchod od rodičů. Ukazuje též, že v metropolitní oblasti odcházejí mladí lidé od rodičů
později než mimo tuto oblast. Mezi hlavní výsledky lze také zařadit, že v případě žití s oběma
rodiči dochází k odchodu obecně později. K analýze použil logistickou regresi a analýzu
kontingenčních tabulek.
Billari, Philipov a Baizán (2001) provádějí srovnání časování odchodu od rodičů v Evropě na
základě stejných dat (FFS) jako v této studii. Jejich výsledkem jsou detailní popisné statistiky
odchodu od rodičů v Evropě a vztah tohoto procesu (zda předchází, dochází k němu současně,
nebo je později) k jiným procesům přechodu do dospělosti.
Aassve et al. (2001) analyzují odchod od rodičů v 13 zemích tehdejší Evropské unie (kromě
Švédska a Lucemburska). Používají data z European Community Household Panel. Zaměřují
se hlavně na ekonomické aspekty odchodu od rodičů, ale zahrnují i otázku vzdělání. Jako
model použili zobecněnou probitovou regresi.
Rychtaříková et al. (2001) je jednou z mála studií, jež se (kromě jiného) zabývá odchodem od
rodičů v České republice. Je založena na stejném zdroji dat jako tato studie (FFS) a uvádí
základní popisné statistiky odchodu od rodičů.
6.4 Data a metody
Data
Data použitá při studiu odchodu od rodičů v ČR byla získána z Fertility and Family Survey
(FFS) (viz UNECE (2003)). Jednalo se o průzkum Ekonomické komise pro Evropu
Spojených národů (United Nations Economic Commission for Europe) a byl koordinován
Skupinou populačních aktivit (Population Activities Unit). Průzkum probíhal v 90. letech
minulého století v 21 evropských zemích, na Novém Zélandě, v Kanadě a v USA.
Průzkum probíhal dotazníkovým šetřením a byl v ČR specifický tím, že náhodně vybrány pro
dotazování byly pouze ženy. Muži, kteří se zúčastnili tohoto projektu, byli partnery těchto
žen. Proto v této studii jsou použity údaje pouze o ženách a je to také důvod, proč celá studie
122
je zaměřena pouze na ženy. Dotazníkové šetření v České republice proběhlo v posledním
čtvrtletí roku 1997. Ve zkoumaném vzorku bylo 1735 žen.
Klíčová otázka, na jejíž odpovědích je tato studie založena, zněla: „Ve kterém měsíci a roce
jste odešla od rodičů (rodiče) nebo pěstounů (pěstouna), abyste začala žít samostatně?“ Na
tuto otázku bylo 1190 odpovědí s uvedením času odchodu, zbylých 545 pozorování bylo
censorováno časem interview.
U většiny proměnných byla přesnost dat na celý měsíc. V takovém případě se uvažovalo, že
daná událost nastala v polovině měsíce. Výjimkou byla proměnná reprezentující věk při
prvním pohlavním styku, jež byla s přesností na celý rok. V tomto případě se tedy uvažoval
celý věk a polovina roku (tj. „přesný věk“). Pokud v datech chyběl údaj ze měsíc, použila se
polovina roku.
Model
Pro studium tohoto procesu byl použit log-lineární model intenzity (viz kapitola 5 Loglineární model intenzity) odchodu od rodičů a parametry byly odhadnuty pomocí software
aML verze 2.00 (EconWare (2003)) a STATISTICA Data Miner verze 6.1 a 7 (StatSoft (2003),
StatSoft (2004)). Dopředná kroková metoda (viz sekce 5.17 Tvorba modelu) byla použita při
tvorbě log-lineárního modelu intenzity. Pro srovnání byl konečný model ještě odhadnut jako
logit-lineární model pravděpodobnosti (viz sekce 5.18 Logit-lineární model
pravděpodobnosti) s krokem Δt rovným jedné desetině roku (tj. všechny expozice byly
rozděleny na intervaly s délkou jedné desetiny roku). Pro naznačení důvěryhodnosti odhadů
parametrů modelu byly použity intervaly spolehlivosti tak, jak byly odhadnuty použitým
softwarem. Tzn. v případě spojitých funkcí u log-lineárního modelu jsou intervaly
spolehlivosti vyznačeny pro každou směrnici části splinu. Naopak v případě alternativního
odhadu pomocí logit-lineárního modelu pravděpodobnosti se intervaly spolehlivosti vztahují
k jednotlivému bodu.
Použitý log-lineární model měl tvar:
ln hi (t ) = ∑ f k (u ik + t ) + ∑ f l ( wil ) + U i
k
l
nebo (ekvivalentně)
hi (t ) = ∏ exp( f k (u ik + t ))∏ exp( f l ( wil )) exp(U i ) ,
k
kde
t
hi(t)
fk
fl
Ui
uik
l
je čas – věk ženy v této studii,
je zkoumanou intenzitou – intenzitou odchodu od rodičů i-té ženy v čase t
je k-tou D-funkcí,
fk(x) = 0, když x<0,
je l-tou R-funkcí,
fl(x) = 0, když x<0,
je hodnotou i-té nezávislé stejně rozdělené náhodné veličiny s průměrem = 0 a
standardní odchylkou σ,
je minus věk i-té ženy na počátku funkce fk (v okamžiku události, kterou „startuje“
daná funkce),
123
wil
pokud událost, která „odstartovává“ danou funkci, vůbec v případě i-té ženy nenastane
(v čase před odchodem od rodičů), přiřadí se uik := - ∞ (prakticky např. uik := -10 000),
čímž se zajistí, že hodnota funkce je v tom případě rovna 0 – jedná se o podmíněný
spline, jehož podmínka nenastala,
je hodnota argumentu l-té R-funkce odpovídající i-té ženě;
podobně jako v případě D-funkce i zde je této proměnné přiřazena hodnota wik := - ∞
(a opět prakticky např. wik := -10 000) v případě, že daný efekt, reprezentovaný touto
funkcí, se i-té ženy netýká (a tedy jeho hodnota je 0) – opět se jedná o podmíněný
spline, jehož podmínka nenastala.
Logit-lineární model je potom definován jako:
ln
qi (t , Δt )
= ∑ f k′ (u ik + t ) + ∑ f l′( wil ) + U i′
1 − qi (t , Δt )
k
l
qi (t , Δt )
= ∏ exp( f k′ (u ik + t ))∏ exp( f l′( wil )) exp(U i′) ,
1 − qi (t , Δt )
k
l
kde
qi(t,Δt) je pravděpodobnost, že nastane sledovaná událost u i-tého jedince mezi časem t a
dalším sledovaným časovým okamžikem, který nastane za Δt, tedy v čase t + Δt, zde
Δt = 0.1 roku.
ostatní proměnné a funkce mají stejný význam jako v definici log-lineárního modelu, pouze
pro odlišení jsou funkce zde označeny čárkou.
Idea použití logit-lineárního modelu spočívá v tom, že obecně limitně se jednotlivé sobě
odpovídající funkce log-lineárního modelu intenzity a logit-lineárního modelu
pravděpodobnosti sobě rovnají, liší se pouze konstanta modelů.
Jednotlivé typy proměnných v modelu
Základní funkce / intenzita (baseline hazard)
Základní funkce je obecně (nepodmíněná) D-funkce, kde uik = 0 pro každé i. Obecně není
nutné určit základní funkci, ale v případě této studie byl zvolen věk (viz diskuse v předvýběru
níže). Skutečný vliv ostatních proměnných na základní intenzitu je potom multiplikativní.
Kovarianty neproměnné v čase (fixed covariates)
Pokud jsou hodnoty argumentu l-té R-funkce kategorické, potom se jedná o kovariantu
neproměnnou v čase. Pro reprezentaci obecné kovarinanty neproměnné v čase (tj. s více
úrovněmi) bylo použito sigma-omezené kódování (viz např. StatSoft (2004)). To znamená, že
bylo použito M-1 dvouúrovňových (s úrovněmi 0 a 1) kovariant neproměnných v čase, kde M
je počet úrovní původní proměnné. Jedna úroveň potom byla určena jako základní (hodnoty
všech M proměnných jsou v takovém případě rovny 0). Tedy kovarianty neproměnné v čase
mohou být ekvivalentně zapsány složením (součtem) M-1 následujících členů:
βmwim,
124
kde
βm
wim
je efekt m-té kovarianty neproměnné v čase,
je opět jako v obecném zápise hodnota argumentu (0 nebo 1) m-té kovarianty
neproměnné v čase i-té ženy.
Spojité R-funkce
Pokud jsou hodnoty argumentu l-té regresní funkce (R-funkce) spojité, potom je tato funkce
v případě této analýzy aproximována pomocí po částech lineárního splinu v případě loglineárního modelu intenzity, resp. pomocí kubického splinu v případě logit-lineárního modelu
pravděpodobnosti.
Kovarianta proměnná v čase
Podobně jako u kovariant neproměnných v čase, i u kovariant proměnných v čase bylo
použito sigma-omezeného kódování. Tedy pro reprezentaci kovarianty proměnné v čase s N
úrovněmi bylo použito N-1 dvouúrovňových kovariant proměnných v čase. (Každá taková
dvouúrovňová kovarianta proměnná v čase může být reprezentována pomocí jednoho nebo
dvou podmíněných konstantních D-funkcí, viz sekce 5.7 Kovarianta proměnná v čase.)
Obdobně i zde jedna z úrovní byla vždy zvolena jako základní. Potom lze ekvivalentně psát
kovarianty proměnné v čase jako složení (součet) N-1 následujících členů:
γnzin(t),
kde
γn
zin(t)
je efekt n-té kovarianty proměnné v čase,
je pro každou (i-tou) ženu specifická funkce času s hodnotami rovnými buď 0 nebo 1.
Spojité D-spliny
Pokud fk není součástí některé kovarianty proměnné v čase, potom je tato funkce
aproximována pomocí po částech lineárního splinu v případě log-lineárního modelu intenzity,
resp. pomocí kubického splinu v případě logit-lineárního modelu pravděpodobnosti. Jedná se
o obecnou D-funkci.
Shrnutí
Log-lineární model intenzity může být tedy ekvivalentně zapsán jako:
ln hi (t ) = y (t ) + ∑ f k (u ik + t ) + ∑ f l (vil ) + ∑ β m wim + ∑ γ n z in (t ) + U i
k
l
m
n
Obdobně by vypadal i přepis logit-lineárního modelu pravděpodobnosti. Snaze vyloučit
anticipatorní vliv proměnných v této studii odpovídá i to, že všechny funkce jsou rovny 0 pro
hodnoty nižší než 0.
Zkoumané procesy či vlastnosti reprezentované pomocí D-funkcí
• Věk; tato proměnná byla v této studii zvolena jako základní, neboť se nejedná
o podmíněný spline a mezi takovými byla zjištěna jako nejdůležitější.
• Čas od prvního početí (početí bylo určeno jako 9 měsíců před okamžikem, kdy se dítě
narodilo) (podmíněná funkce).
• Čas od narození prvního dítěte (podmíněná funkce).
125
•
•
•
•
•
•
•
•
Čas od prvního sexuálního styku (podmíněná funkce).
Čas od prvního sňatku (podmíněná funkce).
Čas od počátku žití poprvé s prvním partnerem (podmíněná funkce).
Čas od prvního ukončení žití s prvním partnerem (podmíněná funkce).
Kalendářní čas.
Čas od rozvodu rodičů (podmíněná funkce).
Aktuální úroveň vzdělání (podmíněné funkce).
Pohlaví prvního dítěte (podmíněná časově proměnná kovarianta).
Zkoumané procesy či vlastnosti reprezentované pomocí R-funkcí
• Počet sourozenců v původní rodině (kovarianta neproměnná v čase).
• Typ původní rodiny (kovarianta neproměnná v čase).
• Velikost místa pobytu ve věku 15 let (kovarianta neproměnná v čase).
• Kohorta.
• Rozdíl mezi věkem partnerů (s prvním partnerem) (podmíněná funkce).
• Věk prvního partnera v okamžiku, kdy daná žena odcházela od rodičů (podmíněná
funkce).
6.5 Předvýběr
Cíle
Na počátku studia byl proveden předvýběr proměnných, aby bylo možno eliminovat některé
z nich, u kterých byla velká pravděpodobnost, že nebudou mít vliv na proces odchodu od
rodičů, případně tento vliv bude velmi malý. Tento důvod byl uvažován, neboť samotný
výpočet s mnoha proměnnými byl velmi pracný.
Druhým cílem předvýběru bylo vybrat nejlépe vysvětlující proměnné v případě, že odhady
parametrů dvou (nebo více) proměnných by byly již z podstaty problému vysoce korelovány.
To by bylo např. v případě použití dvojic proměnných kohorta vs. kalendářní čas (obě
proměnné v modelu s věkem) a čas od prvního početí vs. čas od prvního porodu.
Tento předvýběr také zahrnoval nalezení interakcí mezi zkoumanými proměnnými tak, aby
bylo zajištěno splnění podmínky proporcionality intenzity a tedy použitelnosti modelu
(obdobně jako např. Kreyenfeld (2002)).
Postup
Přesto, že jedním z důvodů předvýběru bylo eliminovat některé proměnné a také jejich
interakce, byl veden způsobem, který preferoval vybrání proměnných či jejich interakcí, které
se v další analýze mohly ukázat jako nevýznamné. Tedy byla větší šance zahrnout
nevýznamné proměnné či jejich interakce do dalšího zkoumání, než vyloučení některé
významné.
Postupovalo se krokově s tím, že se přidávaly nejprve jednotlivé samotné proměnné a potom
jejich interakce stále vyšších řádů a to nejprve vždy s proměnnou věk a potom i mezi sebou.
V následujících krocích se použili vždy ty proměnné a jejich interakce, které se ukázaly
významné v předchozích krocích. Předvýběr byl ukončen, když už žádná další interakce se
neukázala jako statisticky významná. Výsledný postup je ilustrován na grafu 6-4.
126
Testovaly se vždy nový model s přidanou proměnnou či interakcí proměnných vůči
referenčnímu modelu bez této proměnné či interakce. Testování bylo založeno standardně na
aproximaci dvojnásobku rozdílu log-věrohodností modelů pomocí χ2 rozdělení s počtem
stupňů volnosti, který závisí na reprezentaci vlivu jednotlivé proměnné či interakce. Z toho
byla vypočtena p-hladina a proměnné či interakce se zahrnovaly do dalšího zkoumání při
p-hladině menší než 5 %.
0. krok
Na počátku byl byla použita znalost získaná z literatury, a to, že zásadní vliv na odchod od
rodičů má věk (viz např. Iacovou a Berthoud (2001), Brinbau et al. (2004), Flatau et al.
(2003), Sienkiewicz (2003) a mnohé další). Předvýběr byl založen na modelech, které
obsahují věk jako základní funkci (spline).
1. a 2. krok
V prvním kroku byl vždy testován model, který obsahoval proměnnou popisující věk a jednu
další proměnnou z výše uvedeného seznamu. V případě podmíněných proměnných
reprezentovaných D-funkcí nebo R-funkcí se testoval nejprve pouze vliv jejich identifikátoru
(první krok). Podobně se testoval vliv kovariant proměnných nebo neproměnných v čase.
Jako referenční model byl použit model obsahující pouze proměnnou věk. Druhý krok se
týkal pouze proměnných reprezentovaných pomocí podmíněné D-funkce nebo R-funkce,
které se testovaly oproti modelu z předchozího kroku.
V případě logicky vysoce korelovaných proměnných kohorta vs. kalendářní čas a čas od
prvního početí vs. čas od prvního porodu byly vybrány ty proměnné, jejichž model byl lepší.
Tedy model, jenž je obsahoval, dosáhl nižší p-hladiny v porovnání s referenčním modelem.
Při použití výše zavedeného značení lze zapsat testované modely následovně:
Pro m-tou kovariantu neproměnnou v čase byl použit model:
ln hi (t ) = f věk (t ) + β m wim .
Pro n-tou kovariantu proměnnou v čase byl použit model:
ln hi (t ) = f věk (t ) + γ n z in (t ) .
Jako referenční model, vůči němuž se provádělo porovnání, byl použit jednoduchý model
obsahující pouze proměnnou věk:
ln hi (t ) = f věk (t ) .
Pro l-tou proměnnou reprezentovanou pomocí obecné R-funkce se nejprve (1.krok) použil
model obdobný modelu pro kovariantu neproměnnou v čase, tj.
ln hi (t ) = f věk (t ) + I l ( wil ).
kde
Il(wil)
je indikátor l-té proměnné reprezentované pomocí R-funkce, tedy
Il(x) = 1, když x ≥ 0,
127
Il(x) = 0, když x < 0.
Referenční model byl shodný jako v předchozích případech, tedy pouze model zahrnující
proměnnou věk.
V druhém kroku se pro proměnné, jež byly vybrány v kroku prvním, následně použil model:
ln hi (t ) = f věk (t ) + f l ( wil ) ,
který se porovnával s modelem z předchozího kroku.
Pro k-tou proměnnou, jejíž vliv byl reprezentován pomocí obecné D-funkce, byl v prvním
kroku použit model:
ln hi (t ) = f věk (t ) + I k (u ik + t ).
kde obdobně jako v předcházejícím případě
je indikátor k-té proměnné reprezentované pomocí D-funkce, tedy
Ik(uik + t)
Ik(x) = 1, když x ≥ 0,
Ik(x) = 0, když x < 0.
Jako referenční model byl opět použit model pouze s proměnnou věk.
V případném, druhém, kroku byl použit model:
ln hi (t ) = f věk (t ) + f k (u ik + t ) ,
který se porovnával s modelem předcházejícím.
Jako poznámku lze uvést, že není nutné používat různé indikátory funkcí (Il(.), Ik(.)), neboť
všechny tyto indikátory jsou jako funkce shodné (stačilo by použít jediný identifikátor I(.)).
Výše uvedený zápis je volen pro větší přehlednost a aby vynikla souvislost v interakci.
V případě, že v druhém kroku nebyla nalezena dostatečná podpora pro použití obecné funkce,
byla nadále proměnná uvažována jako kovarianta proměnná v čase (resp. neproměnná v čase,
ale takový případ se nevyskytl).
V prvním a druhém kroku byly zahrnuty do dalšího zkoumání proměnné:
•
•
•
•
•
•
•
Čas od prvního početí
Čas od prvního sexuálního styku
Čas od prvního sňatku
Kalendářní čas
Počet sourozenců v původní rodině
Typ původní rodiny
Velikost místa pobytu ve věku 15 let
Během druhého kroku bylo také zjištěno, že nelze odůvodnit použití obecné spojité funkce
pro reprezentaci vlivu těchto proměnných na výslednou intenzitu:
128
•
•
•
Čas od počátku soužití s prvním partnerem
Aktuální úroveň vzdělání
Čas od rozvodu rodičů
Proto efekt těchto proměnných byl nadále reprezentován pouze jako kovarianta proměnná
v čase.
Po prvním kroku byly eliminovány z dalšího zkoumání proměnné:
•
•
•
•
•
•
Kohorta
Čas od narození prvního dítěte
Pohlaví prvního dítěte
Rozdíl mezi věkem partnerů
Věk prvního partnera
Čas od ukončení žití s partnerem
Zde je zajímavé, že došlo k eliminaci proměnné reprezentující kohortu, neboť ta bývá často
zkoumána. Je to důsledek toho, že zde byla de facto určena jako nejhůře vysvětlující
zkoumaný proces z trojice důležitých proměnných, jež jsou spolu provázány, tedy věk, období
a kohorta. Odpovídá to ale přístupu, kdy jsou preferovány „aktuální“ údaje (viz např. Hoem
(1996)).
3. krok
V dalším kroku začala být zkoumána možná porušení podmínky proporcionality zkoumané
intenzity odchodu od rodičů. Tzn. začaly být zkoumány interakce mezi proměnnými
vybranými v předchozím kroku a proměnnou reprezentující věk. Tedy testovaný model
obsahoval proměnnou věk, jednu další proměnnou a jejich vzájemnou interakci. Jako
referenční model byl v tomto případě použit model, který obsahoval pouze proměnnou věk a
danou další proměnnou. V případě, že tato interakce byla statisticky významná, byla zahrnuta
do dalšího studia.
Pro m-tou kovariantu neproměnnou v čase byl použit model:
ln hi (t ) = f věk (t ) + β m wim + f věk ⋅m ( wim ⋅ t )
oproti referenčnímu:
ln hi (t ) = f věk (t ) + β m wim .
Pro n-tou kovariantu proměnnou v čase byl použit model:
ln hi (t ) = f věk (t ) + γ n z in (t ) + f věk ⋅n ( z in (t ) ⋅ t )
oproti referenčnímu:
ln hi (t ) = f věk (t ) + γ n z in (t ).
129
Pro l-tou proměnnou reprezentovanou pomocí R-funkce byl použit model:
ln hi (t ) = f věk (t ) + f l ( wik ) + f věk ⋅l ( I l ( wil ) ⋅ t ) .
Jako referenční model zde byl použit model:
ln hi (t ) = f věk (t ) + f l ( wik ) .
A podobně pro k-tou proměnnou, jejíž vliv byl reprezentován pomocí D-funkce, byl použit
model:
ln hi (t ) = f věk (t ) + f k (u ik + t ) + f věk ⋅k ( I k (u ik + t ) ⋅ t ) .
Jako referenční model byl použit:
ln hi (t ) = f věk (t ) + f k (u ik + t ) .
V druhém kroku byly pro další zkoumání vybrány tyto interakce:
•
•
•
•
•
Věk a čas od prvního početí
Věk a čas od prvního sexuálního styku
Věk a čas od prvního sňatku
Věk a soužití s prvním partnerem
Věk a indikátor rozvodu rodičů
V prvních třech případech jde o interakci věku a proměnné reprezentované podmíněnou
D-funkcí. Ve zbylých dvou případech o interakci věku a kovarianty proměnné v čase.
4. krok
V čtvrtém kroku bylo zkoumáno porušení podmínky proporcionality modelů se zahrnutím
interakcí z třetího kroku. Toto se týkalo pouze proměnných, jejichž vliv na zkoumanou
intenzitu byl popsán obecnou funkcí. Tedy zda interakce pouze s indikátorem dané proměnné
již splňuje podmínku proporcionality. V tomto případě byly rozděleny proměnné (věk a vždy
jedna další) do několika skupin a jejich kombinací vznikla další proměnná, jejíž vliv byl
zkoumán.
Prakticky šlo vždy o kategorickou proměnnou s 6 úrovněmi:
• Nižší věk a sledovaná událost nenastala (tj. indikátor proměnné roven 0)
• Vyšší věk a sledovaná událost nenastala
• Nižší věk a sledovaná událost nastala před kratší dobou
• Vyšší věk a sledovaná událost nastala před kratší dobou
• Nižší věk a sledovaná událost nastala před delší dobou
• Vyšší věk a sledovaná událost nastala před delší dobou
Rozdělení do skupin nižší a vyšší věk bylo provedeno na základě mediánů dané proměnné,
které byly odhadnuty pomocí Kaplan-Maierovy metody (viz sekce 3.3 Kaplan-Meierův
odhad). Pro tuto proměnnou bylo použito sigma-omezené parametrizace (viz např. StatSoft
(2004)). Tedy byla reprezentována 5 proměnnými s hodnotami 0 a 1. Jako základní úroveň
130
(pro niž všechny proměnné jsou rovny 0) byla použita ta, jež obsahovala největší celkovou
expozici.
Testovaný model:
5
ln hi (t ) = f věk (t ) + f k (u ik + t ) + f věk ⋅k ( I k (u ik + t ) ⋅ t ) + ∑ J k ,q (t , u ik + t ) ⋅ v k ,q ,
q =1
kde
Jk,q(t, uik + t) je q-tá z výše popsaných 5 proměnných vztahujících se ke k-té
sledované proměnné (prakticky šlo o čas od prvního početí, čas od
prvního sexuálního styku a čas od uzavření prvního manželství);
tyto proměnné reprezentují vliv kategorické proměnné o 6 úrovních;
hodnoty v argumentu funkce jsou věk a doba od dané k-té události
u i-té ženy;
nabývá hodnot 0 nebo 1,
je odhadovaná hodnota vlivu na studovanou intenzitu u výše uvedené
vk,q
proměnné.
Jako referenční model byl použit:
ln hi (t ) = f věk (t ) + f k (u ik + t ) + f věk ⋅k ( I k (u ik + t ) ⋅ t ) .
Zde nebyla nalezena žádná taková významná proměnná a tedy žádné další porušení podmínky
proporcionality tímto směrem.
5. krok
Pátým krokem bylo zkoumání dvojných interakcí jiných proměnných než věk mezi sebou.
Byly zkoumány pouze takové proměnné, jejichž interakce s věkem byly významné v třetím
kroku. To lze odůvodnit tím, že vliv na podmínku proporcionality mají pouze ty proměnné,
jež mají interakci s proměnnou věk. Tedy byly zkoumány modely obsahující věk, dané dvě
jiné proměnné, interakce těchto dvou proměnných s věkem a interakci těchto dvou
proměnných mezi sebou. (Z povahy věci nebyla zkoumána interakce mezi proměnnou
reprezentující první početí a první sexuální styk.) Jako referenční model byl použit model bez
posledně uvedené interakce. Opět při nalezení statisticky významné interakce byla tato
zahrnuta do dalšího studia.
V případě dvou proměnných reprezentovaných pomocí (podmíněné) D-funkce šlo o testování
modelu:
ln hi (t ) = f věk (t ) + f k1 (u ik1 + t ) + f k2 (u ik 2 + t ) +
+ f věk⋅k1 ( I k1 (u ik1 + t ) ⋅ t ) + f věk ⋅k2 ( I k2 (u ik2 + t ) ⋅ t ) + I k1 (u ik1 + t ) ⋅ I k2 (u ik2 + t ) ⋅ v k1 ,k2 ,
kde
k1 a k2
v k1 ,k2
označují dvě zkoumané proměnné (dvě z trojice čas od prvního početí,
čas od prvního sexuálního styku a čas od uzavření prvního manželství);
je odhadovaná hodnota vlivu dané interakce na výslednou intenzitu.
131
Jako referenční model byl použit model bez poslední interakce, tedy:
+ f věk⋅k1 ( I k1 (u ik1 + t ) ⋅ t ) + f věk⋅k2 ( I k2 (u ik2 + t ) ⋅ t ).
V případě jedné proměnné reprezentované pomocí D-funkce a jedné kovarianty proměnné
v čase:
ln hi (t ) = f věk (t ) + γ n z in (t ) + f k (uik + t ) + f věk ⋅n ( z in (t ) ⋅ t ) + f věk ⋅k ( I k (uik + t ) ⋅ t ) +
+ γ n z in (t ) ⋅ I k (u ik + t ) ⋅ v n ,k ,
kde
vn,k
je odhadovaná hodnota vlivu dané interakce na výslednou intenzitu.
Referenční model bez zkoumané interakce:
ln hi (t ) = f věk (t ) + γ n z in (t ) + f k (u ik + t ) + f věk ⋅n ( z in (t ) ⋅ t ) + f věk ⋅k ( I k (u ik + t ) ⋅ t ).
V posledním možném případě interakce mezi dvěma kovariantami proměnnými v čase
(konkrétně zde tedy indikátory rozvodu rodičů a žití s partnerem), byl zkoumaný model:
ln hi (t ) = f věk (t ) + γ n1 z in1 (t ) + f věk ⋅n1 ( zin1 (t ) ⋅ t ) + γ n2 z in2 (t ) + f věk ⋅n2 ( zin2 (t ) ⋅ t ) +
+ γ n1 z in1 (t ) ⋅ γ n2 z in2 (t ) ⋅ vn1 ,n2
kde
n1 a n2
v n1 ,n2
označují dvě zkoumané proměnné (tedy indikátor rozvodu rodičů a
indikátor žití s partnerem);
je hodnota vlivu dané interakce na výslednou intenzitu.
Jako referenční model zde byl:
ln hi (t ) = f věk (t ) + γ n1 z in1 (t ) + f věk ⋅n1 ( z in1 (t ) ⋅ t ) + γ n2 z in2 (t ) + f věk ⋅n2 ( z in2 (t ) ⋅ t ).
V tomto kroku byly vybrány pro další analýzu interakce:
•
•
•
Indikátor prvního početí a prvního sňatku.
Indikátor prvního sexuálního styku a prvního sňatku.
Indikátor soužití s partnerem a prvního sňatku.
Ostatní interakce se ukázaly jako nevýznamné.
6. krok
Šestý krok předvýběru proměnných opět vycházel pouze z interakcí získaných v předchozím
kroku (ze stejného důvodu jako krok pátý vycházel z proměnných z třetího kroku) a hledaly
se možné interakce mezi dvěma jinými proměnnými než věk a proměnnou věk. V tomto
případě se tedy testoval model obsahující věk, dané dvě jiné proměnné, interakce těchto dvou
proměnných s věkem, interakci těchto dvou proměnných mezi sebou a interakci těchto dvou
132
proměnných a proměnné věk. Jako referenční model byl opět použit model bez zde posledně
uvedené interakce. Nalezené statisticky významné interakce byly zahrnuty do dalšího studia.
Konkrétně tedy byly zkoumány interakce mezi věkem a dvěma proměnnými, jejichž vliv na
studovanou intenzitu byl reprezentován D-funkcí (čas od uzavření prvního manželství a čas
od prvního početí, resp. čas od prvního sexuálního styku, zde reprezentovány pouze svými
indikátory), a interakce mezi věkem, jednou proměnnou reprezentovanou D-funkcí a jednou
kovariantou proměnnou v čase (čas od uzavření prvního manželství, resp. jeho indikátor, a
indikátor žití s partnerem).
Testovaný model měl tedy v prvním případě podobu:
+ f věk ⋅k1 ( I k1 (u ik1 + t ) ⋅ t ) + f věk⋅k2 ( I k2 (u ik2 + t ) ⋅ t ) + I k1 (u ik1 + t ) ⋅ I k2 (u ik2 + t ) ⋅ vk1 ,k2 +
+ f věk ⋅k1 ⋅k2 ( I k1 (u ik1 + t ) ⋅ I k2 (u ik2 + t ) ⋅ t ).
Jeho referenční model byl:
+ f věk ⋅k1 ( I k1 (u ik1 + t ) ⋅ t ) + f věk⋅k2 ( I k2 (u ik2 + t ) ⋅ t ) + I k1 (u ik1 + t ) ⋅ I k2 (u ik2 + t ) ⋅ v k1 ,k2 .
V druhém případě byl testovaný model:
+ z in (t ) I k (u ik + t ) ⋅ v n ,k + f věk ⋅n⋅k ( z in (t ) ⋅ I k (u ik + t ) ⋅ t ).
K tomu referenční model měl tvar:
+ z in (t ) I k (u ik + t ) ⋅ v n ,k .
V tomto kroku byly nalezeny jako významné následující interakce, které byly zahrnuty do
dalšího zkoumání:
•
•
Interakce věku a indikátorů prvního sexuálního styku a prvního sňatku.
Interakce věku a indikátorů soužití s partnerem a prvního sňatku.
7. krok
Jako další krok byly zkoumány interakce vycházející z předchozího kroku, kdy vždy vliv
jedné z proměnných byl uvažován jako reprezentovaný obecnou D-funkcí. Prakticky šlo o tři
modely, neboť soužití s partnerem bylo reprezentováno pouze indikátorem, jak vzešlo
z předchozích kroků. Testování se provádělo obdobně jako ve čtvrtém kroku tohoto
předvýběru.
133
V prvním případě tedy šlo o model:
+ f věk⋅k1⋅k2 ( I k1 (uik1 + t ), uik2 + t , t )
porovnávaný s modelem z předchozího kroku, tj. lišícím se pouze posledním výrazem:
+ f věk⋅k1⋅k2 ( I k1 (uik1 + t ) ⋅ I k2 (uik2 + t ) ⋅ t ).
V tomto případě tedy indexy k1 a k2 označovaly vždy jednu z proměnných reprezentující první
sexuální styk a první vstup do manželství.
Obdobně se vytvořil model pro zbylou interakci:
+ zin (t ) I k (uik + t ) ⋅ vn , k + f věk ⋅n ⋅ k ( zin (t ) , (uik + t ), t ) ,
který se porovnával opět s modelem z předchozího kroku, tj. lišícím se pouze posledním
výrazem:
+ zin (t ) I k (uik + t ) ⋅ vn , k + f věk ⋅ n ⋅ k ( zin (t ) ⋅ I k (uik + t ) ⋅ t ) .
V tomto případě n reprezentovalo proměnnou žití s partnerem a k proměnnou první vstup do
manželství.
Žádná významná interakce již v tomto kroku nalezena nebyla. Tímto sedmým krokem tedy
skončil krokový proces předvýběru proměnných a jejich interakcí do samotné analýzy
odchodu od rodičů v České republice.
Byly nalezeny takové interakce mezi proměnnými, jejichž zahrnutím do modelu je splněn
základní předpoklad použitelnosti modelu, tedy předpoklad proporcionality.
Celý krokový postup nalézání možných významných proměnných a jejich interakcí je
znázorněn schématicky na grafu 6-4.
Tabulky 6-1 a 6-2 podávají přehled o vysvětlujících proměnných a jejich interakcích jako
výsledek procesu předvýběru.
Celkem bylo po předvýběru zahrnuto do analýzy 21 proměnných, 11 z toho základní
proměnných a 10 interakcí.
134
Proměnné, jejichž vliv je
popsán obecnou D-funkcí
nebo R-funkcí
Kovarianty proměnné
nebo neproměnné
v čase
Věk
0.krok
V
1 proměnná (+věk)
V+I
1.krok
V+P
2.krok
V+P+IV
3.krok
V+P+IV+VP
V+I
V+I+IV
4.krok
2 proměnné (+věk)
5.krok
V+P1+P2+
+P1V+P2V+I1I2
V+P1+I2+
+P1V+I2V+I1I2
6.krok
V+P1+P2+
+P1V+P2V+I1I2V
V+P1+I2+
+P1V+I2V+I1I2V
7.krok
V+P1+P2+
+P1V+P2V+P1I2V
V+P1+P2+
+P1V+I2V+P1I2V
V+I1+I2+
+I1V+I2V+I1I2
Graf 6-4: Postup při předvýběru proměnných. Obdélníky představují jednotlivé typy modelů a obsahují
zjednodušený zápis modelů, kde V značí proměnnou věk, P proměnnou, jež je reprezentována obecnou D- nebo
R-funkcí, I je indikátor této funkce či kovarianta proměnná či neproměnná v čase. Čárkovaně ohraničené ty
modely, u nichž už nebyly nalezeny žádné proměnné, které by daný model zlepšily oproti jejich referenčnímu
modelu.
135
Proměnná
D- nebo R-funkce
Podmíněná ? Speciální typ ? Po předvýběru
Věk (základní)
D
-
-
Akceptována
První koncepce
D
Podmíněná
-
Akceptována
První porod
D
Podmíněná
-
Eliminována
První pohlavní styk
D
Podmíněná
-
Akceptována
První sňatek
D
Podmíněná
-
Akceptována
Kalendářní rok
D
-
-
Akceptována
Žití s partnerem
D
Podmíněná
-
Kovarianta
proměnná
v čase
Konec žití s partnerem
D
Podmíněná
-
Eliminována
Rozvod rodičů
D
Podmíněná
-
Vzdělání
D
Několik
podmíněných
funkcí
-
Pohlaví prvního dítěte
D
Podmíněná
Místo pobytu v 15 letech
R
-
Rozdíl ve věku partnerů
R
Podmíněná
-
Eliminována
Kohorta
R
-
-
Eliminována
Věk partnera
R
Podmíněná
-
Eliminována
Typ původní rodiny
R
-
Sourozenci
R
-
Kovarianta
proměnná
v čase
Kovarianta
neproměnná
v čase
Kovarianta
neproměnná
v čase
Kovarianta
neproměnná
v čase
Kovarianta
proměnná
v čase
Kovarianta
proměnná
v čase
Eliminována
Akceptována
Akceptována
Akceptována
Tab. 6-1: Přehled zkoumaných vysvětlujících proměnných.
136
Interakce
D- nebo R-funkce Podmíněný ? Speciální typ ? Krok předvýběru
První koncepce (indikátor)
Věk
První pohlav. styk (indikátor)
Věk
První sňatek (indikátor)
Věk
Žití s partnerem (indikátor)
Věk
Rozvod rodičů (indikátor)
Věk
D
Podmíněný
3
D
Podmíněný
3
D
Podmíněný
3
D
Podmíněný
3
D
Podmíněný
3
D
Podmíněný
(indikátor)
D
Podmíněný
První koncepce (indikátor)
D
Podmíněný
D
Podmíněný
6
D
Podmíněný
6
Věk
První pohlav. styk (indikátor)
Věk
Kovarianta
proměnná
v čase
Kovarianta
proměnná
v čase
Kovarianta
proměnná
v čase
5
5
5
Tab. 6-2: Přehled interakcí mezi vysvětlujícími proměnnými, jež vzešly z předvýběru.
6.6 Základní přehled dat
V následujících tabulkách 6-3 je základní přehled o zkoumaném vzorku 1735 žen, které se
účastnili dotazníkového šetření v rámci FFS v České republice v roce 1997. Základní popisné
statistiky jsou zvýrazněny pro větší přehlednost barevně tak, že hodnoty nad 60 % jsou
zobrazeny červeně, hodnoty pod 15 % jsou zobrazeny šedě.
Proměnná
Úroveň
Odchod od rodičů
Kohorta
Kalendářní rok
ano
Ne
1945 – 1960 – 1975 – 1967 - 1977 - 1987 (událost) (censor.) 1959 1974 1989 1976 1986 1997
Počet žen
% z žen
1190
68.6%
Trvání (osoba*rok)
% trvání (expozice)
0.0
0.0%
545
31.4%
952
374
409
23.6% 54.9% 21.6%
11532.8 3124.3 6874.0 1534.5 804.3 3484.2 7244.3
100.0% 27.1% 59.6% 13.3% 7.0% 30.2% 62.8%
Tab. 6-3, 1. část: Základní popisné statistiky analyzovaných proměnných. Hodnoty nad 60 % jsou zobrazeny
červeně, hodnoty pod 15 % jsou zobrazeny šedě.
137
Proměnná
Úroveň
První porod
První koncepce
ano
ne
Počet žen
% z žen
1118.4
9.7%
10414.4
90.3%
ano
ne
ano
ne
676
39.0%
1059
61.0%
1456
83.9%
279
16.1%
1487.4
12.9%
10045.4
87.1%
6163.9
53.4%
5368.9
46.6%
Proměnná
Úroveň
První manželství
Rozdíl ve věku
partnerů
Žití s partnerem
ano
ne
ano
ne
Počet žen
% z žen
764
44.0%
971
56.0%
919
53.0%
816
47.0%
1202.0
10.4%
10330.8
89.6%
1367.8
11.9%
10165.0
88.1%
>2
-2 - 2
<-2
609
1112
14
35.1% 64.1% 0.8%
Konec žití s
partnerem
Proměnná
Partnerův věk
Úroveň
- 20 20 - 25 25 - 30 30 - 35 35 -
Počet žen
% z žen
92
540
229
40
18
46
5.3% 31.1% 13.2% 2.3% 1.0% 2.7%
%trvání (expozice)
ano
ne
1689
97.3%
Rozvedení
rodiče
ano
ne
261
1474
15.0% 85.0%
146.7 11386.1 1341.1 10191
1.3% 98.7% 11.6% 88.4%
138
Proměnná
Vzdělání /počet - v čase odchodu, trvání – nejvyšší v Pohlaví 1. dítěte
Úroveň
Žádný st. 1. stupeň 2. stupeň 3. stupeň
Počet žen
% z žen
daném okamžiku/
7
0.4%
793
45.7%
733
42.2%
202
11.6%
2052.5
17.8%
6210.4
53.8%
3028.9
26.3%
241.0
2.1%
ženské
mužské
143
43.3%
187
56.7%
Proměnná
Úroveň
Velikost současného bydliště
(počet obyvatel)
10 000 < 2000
2 000 - 9 999
99 999
100 000 999 999
≥ 1 000 000
Počet žen
% z žen
441
25.4%
253
14.6%
714
41.2%
158
9.1%
169
9.7%
3078.8
26.7%
1704.5
14.8%
4651.1
40.3%
996.5
8.6%
1101.9
9.6%
Proměnná
Úroveň
Velikost bydliště ve věku 15 let
( počet obyvatel)
10 000 < 2000
2 000 - 9 999
99 999
100 000 999 999
≥ 1 000 000
Počet žen
% z žen
558
32.2%
246
14.2%
642
37.0%
155
8.9%
134
7.7%
3882.6
33.7%
1709.2
14.8%
4075.5
35.3%
1011.9
8.8%
853.6
7.4%
139
Počet
sourozenců
Proměnná
Typ rodiny
Úroveň
S oběma
Jen
Jen
Ani s 1
rodiči s otcem s matkou rodičem
Počet žen
% z žen
1513
87.2%
0
1
2
3
>3
21
1.2%
184
10.6%
17
1.0%
138
831
455
179
132
8.0% 47.9% 26.2% 10.3% 7.6%
Trvání (osoba*rok) 10183.2 126.1
% trvání (expozice) 81.1% 1.0%
1154.4
9.2%
69.0 1025.4 5641.4 2999.8 1103.4 762.9
0.5% 8.2% 44.9% 23.9% 8.8% 6.1%
6.7 Tvorba modelu
Kroková metoda o 3 stupních byla použita při odhadování parametrů modelu.
1. stupeň
Jako zcela základní model byl odhadnut model s konstantní intenzitou. (Dále v této studii je
nazýván model 1.stupně.)
2. stupeň
Jednoduchý model s jedinou proměnnou (věk) byl odhadnut jako druhý stupeň tvorby modelu
– základní model. (V této studii se dále nazývá model 2.stupně.)
3. stupeň
Pro zařazení dalších proměnných do modelu byla použita kroková dopředná metoda (pouze
s přidáváním) – viz sekce 5.17 Tvorba modelu. To znamenalo, že např. v prvním kroku byly
odhadnuty parametry 20 různých modelů s proměnnými věk a jedna další proměnná (resp.
interakce). Potom byl vybrán nejlepší model z těchto 20 dle kritéria nejvyššího zlepšení
hodnoty log-věrohodnosti (což byl v tomto případě model s proměnnými věk a doba od
prvního početí) s přihlédnutím k hodnotě p-hladiny (např. u modelů zahrnujících stejnou
proměnnou reprezentovanou jako obecná D-funkce a kovarianta proměnná v čase).
Alternativně mohl být vybrán model pomocí kritéria nejnižší p-hladiny. V první kroku byla
vybrána proměnná reprezentující dobu od prvního početí. Jako další krok bylo tedy
odhadnuto 19 modelů s proměnnými věk, doba od prvního početí a jedna další proměnná atd.
Celá procedura končí v okamžiku, kdy už není další proměnná, kterou by bylo možno přidat
do modelu a významně ho tím zlepšit. V tomto případě byla použita hodnota p-hladiny rovna
7.5 %. Toho bylo dosaženo po 12 krocích a výsledný model je dále nazýván konečný model
3. stupně. V případě použití logit-lineárního modelu pravděpodobnosti byl odhadnut nakonec
pouze tento konečný model 3. stupně.
Jako přirozenou alternativu k tomuto postupu bylo možno použít zpětnou metodu (pouze
s odebíráním nebo s možností opětovného přidávání proměnných), dopřednou metodu
(s možností opětovného odebírání proměnných) či metodu nejlepší podskupiny. První krok
zpětné metody (pokud bychom uvažovali pouze proměnné a interakce z konečného modelu
3. stupně) – vynechání jedné z proměnných z konečného modelu 3. stupně – je použit pro
porovnání důležitosti proměnných (deviance).
140
Shrnutí tvorby modelu
Shrnutí krokové metody je v dále uvedených dvou tabulkách 6-4 a 6-5. První z nich obsahuje
hodnoty log-věrohodnosti daných modelů. Druhá z nich obsahuje příslušné p-hladiny, které
jsou založeny na aproximaci pomocí χ2 rozdělení s df stupni volnosti (tyto hodnoty – počty
stupňů volnosti /uzly/ - byly následně upraveny u některých proměnných tak, aby co nejlépe
vystihovaly studovaný efekt). Tyto hodnoty p-hladin byly použity pro rozhodování
o zastavení tvorby modelu (pokud zlepšení nebylo průkazné alespoň na 7.5% hladině
významnosti, čehož bylo dosaženo v 12. kroku v 3. stupni).
Do výsledného modelu tedy nebyly vůbec zahrnuty informace o typu rodiny (což se ale
mohlo krýt s proměnnou reprezentující rozvod rodičů) a velikosti bydliště (tedy se pro
Českou republiku nepotvrdily závěry uvedené v Flatau et al. (2003) pro Austrálii, kdy
obyvatelé velkých měst na východě mají mírně nižší intenzitu odchodu).
141
Tab. 6-4: Log-věrohodnosti při tvorbě modelu, červeně jsou zvýrazněny řády lišící se od konečného
modelu 3. stupně. Hodnota log-věrohodnosti tohoto konečného modelu je označena fialově.
142
-23127 -22423 -22349 -22336 -22324 -22310 -22293 -22283 -22275 -22266
-23137 -22432 -22353 -22339 -22327 -22315 -22297 -22288 -22279 -22272 -22263
-23130 -22427 -22353 -22339 -22328 -22314 -22298 -22288 -22279 -22272
-23130 -22432 -22355 -22341 -22327
-23136 -22428 -22353 -22339 -22327 -22314 -22296 -22287 -22278 -22270 -22264 -22262
-23138 -22431 -22355 -22341 -22329 -22316 -22299 -22290 -22281 -22273 -22266 -22260
-23121 -22424 -22350 -22339 -22327 -22317 -22298 -22289 -22280 -22272 -22263 -22260
-22872 -22410 -22344 -22331 -22322 -22313 -22294 -22285 -22278 -22271 -22262 -22259
-23008 -22358 -22354 -22341 -22329 -22317 -22299 -22290 -22281 -22273 -22266 -22261
-23009 -22357 -22349 -22335 -22323 -22312 -22295 -22285 -22280 -22272 -22263 -22260
-23105 -22417 -22346 -22335 -22323 -22301 -22298 -22289 -22281 -22273 -22264 -22261
Rozvod rodičů x věk
Období
Rozvod rodičů
Žití s partnerem
Typ rodiny
Místo bydliště
1. manž. x věk
1. koncepce x věk
1. manž. x 1. sex. styk
1. manž. x 1. sex.s. x věk
1. manž. x žití s par. x věk
4
1
1
1
3
4
4
4
1
9
9
x
-23126 -22427 -22349 -22335 -22324 -22311 -22294 -22283 -22275
Sourozenci
4
x
-23012 -22359 -22346 -22332 -22320 -22309 -22291 -22282
1. sex. styk x věk
4
x
-23119 -22421 -22346 -22332 -22320 -22308 -22291
Vzdělání
4
x
-23124 -22429 -22354 -22339 -22328 -22300
1. manž. x žití s partn.
1
x
-23119 -22417 -22344 -22332 -22318
Žití s partn. x věk
4
x
x
-22933 -22416 -22345 -22330
1. manž. x 1. konc.
1
12
-23106 -22418 -22342
11
1. manželství
10
5
9
-23005 -22356
8
1. sex. styk
7
5
6
-22433
5
1. koncepce
4
5
-23138
3
Věk
2
6
1
3. stupeň
Konstanta
-23611
1.
2.
stupeň stupeň
1
df
Log-věrohodnost
Tab. 6-5: Hladiny p při tvorbě modelu. Červeně jsou označeny hodnoty nižší než 5 %, fialově potom
hodnoty vyšší než 5 %, ale nižší než 10 %.
143
Konstanta
Věk
1. koncepce
1. sex. styk
1. manželství
1. manž. x 1. konc.
Žití s partn. x věk
1. manž. x žití s partn.
Vzdělání
1. sex. styk x věk
Sourozenci
Rozvod rodičů x věk
Období
Rozvod rodičů
Žití s partnerem
Typ rodiny
Místo bydliště
1. manž. x věk
1. koncepce x věk
1. manž. x 1. sex. styk
1. manž. x 1. sex. s. x věk
1. manž. x žití s par. x věk
1
6
5
5
5
1
4
1
4
4
4
4
1
1
1
3
4
4
4
1
9
9
df
p-hladina
S
1.
4.0E-202
2. stupeň
2
3
4
5
0.011
0.027
2.9E-09
6
7
8
0.031
0.0072 0.0048
0.010
0.010
0.010 0.0022 0.0039
9
10
0.10
0.22
0.028
0.42
5.3E-05
0.15
0.89
0.077
5.4E-11 0.00020 0.012
0.11
0.12
9.3E-05
0.24
0.92
0.27
0.11
0.11
1.3E-50 5.9E-28
0.16
0.09
0.12
0.053
1.9E-58 3.5E-34
0.12
0.019
0.72
0.047
x
0.024
0.013
3.7E-114 5.0E-09 4.1E-05 0.00014 0.00178 0.035
0.14
0.53
0.040
x
0.0085
0.019
0.38
0.19
6.7E-07 0.00174 0.012
0.63
0.058
0.012
0.016
0.012
0.90
0.65
0.56
0.054
0.067
0.016
2.7E-05 0.00041 0.0059
0.070
0.0086
0.37
0.012
0.14
0.86
0.23
0.067
0.019
0.31
0.73
0.043
x
0.013
0.016
0.97
0.79
0.11
0.091
0.28
0.74
0.046
x
0.016
0.009
11
0.97
0.73
0.089
0.14
0.24
0.52
0.037
x
0.015
0.11
0.22
0.27
0.49
12
0.89
0.76
0.90
0.73
0.40 0.084
0.11
0.24
0.99
0.32
x
x
0.023 0.016
0.00014 0.00041 0.00447 0.0086 0.0085 0.0034 0.0052 0.0026 0.006 0.0016
4.7E-05
1.3E-53 7.6E-31 0.00033 0.00044 0.00045 0.0012 0.0015 0.0013
1.2E-07 8.6E-05 0.00025 0.00029 0.00022 0.00079 0.0013
1.3E-07 0.00439 0.037
9.2E-08 3.0E-06 3.7E-05 0.00047 4.6E-05
2.0E-91 9.0E-09 2.5E-06 1.0E-06
1.5E-12 1.9E-05 3.7E-05
1.3E-55 3.4E-31
5.1E-303
1
3. stupeň
6.8 Výsledky
Výsledky jsou uváděny postupně po jednotlivých vysvětlujících proměnných. U každé
proměnné je vždy nejprve formována hypotéza a shrnuty výsledky některých zahraničních
studií. Potom jsou zobrazeny a diskutovány výsledky analýzy pro tuto proměnnou a nakonec
je shrnutí a porovnání výsledků s ostatními studiemi.
Jednotlivé výsledky jsou primárně zobrazeny pomocí grafů. Tyto grafy (až na výjimky, kde je
na to upozorněno) zobrazují skutečné hodnoty efektu (vlivu proměnné). Jedná se tedy
o hodnoty exp(.) verze modelu. Ovšem na ose y (resp. ose z v případě grafických map) je
použito logaritmické měřítko. To je použito z důvodu jasnějšího grafického vyjádření
skutečné velikosti efektů („½ je stejně daleko od 1 jako je 2 od 1, pouze v opačném směru“).
Graficky jsou ve většině případů zobrazeny výsledky obou modelů - log-lineárního modelu
intenzity i logit-lineárního modelu pravděpodobnosti. Grafy se tedy většinou vyskytují ve
dvojicích. To umožňuje porovnat výsledky obou modelů a i takto (vedle odhadů intervalů
spolehlivosti) posoudit důvěryhodnost odhadů. V jednodušších případech je zobrazen i třetí
graf srovnávající oba modely.
Efekt věku
Zatímco v 15 letech v českých podmínkách žijí prakticky všichni u rodičů (pěstounů apod.),
ve 30 letech to je již méně než 20 %. Je tedy nasnadě, že lze předložit hypotézu, že věk je
důležitým faktorem pro zkoumání intenzity odchodu od rodičů.
Věk bývá brán jako základní ukazatel při studiu odchodu od rodičů či obecněji procesů
přechodu od dospělosti. Např. Billari, Phillipov a Baizán (2001) srovnávají odchod od rodičů
v evropských zemích a jedním z ukazatelů je medián věku při tomto odchodu.
Sienkiewicz (2003) zahrnuje věk do analýzy odchodu od rodičů v Polsku. Používá čtyři
skupiny věků – po pěti letech počínaje 15. rokem věku. Udává, že intenzita odchodu od
rodičů klesá s věkem (v první věkové skupině je tato intenzita zhruba 4x vyšší než
v poslední).
Aassve et al. (2001) mají věk jako jednu z vysvětlujících proměnných odchodu od rodičů
v 13 zemích tehdejší Evropské unie (krom Švédska a Lucemburska). Vliv věku nebyl hlavním
cílem jejich studie a zahrnuli jej pouze tak, že je možno rozeznat růst či pokles intenzity
v závislosti na věku. Ve většině případů ukazovali, že s věkem dochází k vzestupu intenzity
odchodu od rodičů. Ale v Řecku, u žen ve Francii, v Německu, v Dánsku, v Irsku a u mužů ve
Velké Británii byl zjištěn pokles.
Analýza
Podobně jako ve výše citované studii Billari, Phillipov a Baizán (2001) můžeme nejprve
srovnat odchod od rodičů v závislosti na věku v zemích, kde proběhl výzkum FFS. Toto
srovnání je na grafu 6-5 za pomocí odhadnutých statistik – mediánu a dolního a horního
kvartilu. Je vidět, že Česká republika je v tomto případě poměrně uprostřed. Extrémy
představují Švédsko, Litva nebo Švýcarsko, kde dochází k brzkým odchodům, na druhé straně
jsou jihoevropské země Itálie, Španělsko a Portugalsko doplněné Polskem, kde dochází
k pozdějším odchodům od rodičů.
144
Muži (dolní kvartil, madián, horní kvartil)
Ženy (dolní kvartil, madián, horní kvartil)
34
32
30
Věk
28
26
24
22
20
18
16
Swe Lit Fra Aus Ger Slo Bel Por Spa
Swi Fin Nor Est Cze Hun Lat Pol Ita
Graf 6-5: Porovnání věku při odchodu od rodičů v 18 zemích Evropy (postupně Švédsko, Švýcarsko, Litva,
Finsko, Francie, Norsko, Rakousko, Estonsko, Německo, ČR, Slovinsko, Maďarsko, Belgie, Lotyšsko,
Portugalsko, Polsko, Španělsko, Itálie). Zobrazeny jsou vždy medián a dolní a horní kvartil odhadnuté pomocí
Kaplan-Meierovy metody, rozděleně dle pohlaví. Vlastní výpočet.
Detailnější pohled na odchod od rodičů u žen v České republice nabízí graf 6-6. Jedná se
o odhadnutou funkci přežívání. Je na ní dobře patrný prudký pokles po 18 roku věku, trvající
přibližně do 25 let věku, kdy už asi 75 % žen odešlo od rodičů.
Censorováno
1.0
0.9
0.7
0.6
0.5
Odchod od rodičů
0.8
0.4
0.3
0.2
0.1
0.0
15
20
25
30
35
40
Věk
Graf 6-6: Odhad funkce přežívání (žití s rodiči) v závislosti na věku u žen v České republice. Odhad pomocí
Kaplan-Meierovy metody. Vlastní výpočet.
Pokud bychom uvažovali pouze model druhého stupně, tedy závisející pouze na věku,
odhadnutá intenzita odchodu by odpovídala výše uvedené funkci přežívání (jež je v grafu
6-6). Takový model lze však považovat za spíše popisný. (Proměnná věk v tomto případě de
facto zastupuje vlivy ostatních proměnných.) Intenzita odhadnutá tímto modelem je zobrazena
145
0.28
0.26
0.24
0.22
0.20
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
14
16
18
20
22
24
26
28
30
32
34
Log-lineární model intenzity
Logit-lineární model pravděpodobnosti
v grafu 6-7. Je zřetelně vidět, že nejvyšší intenzity je dosaženo kolem 19. nebo 20. roku věku,
kdy tato intenzita dosahuje přibližně 0.25. Tedy v tomto období každý rok odejde z domova
asi 1/4 žen, které ještě do té doby neodešly. Maximum je v tomto případě poměrně ostré.
Věk
Graf 6-7: Odhadnutá funkce intenzity odchodu od rodičů v závislosti na věku v modelu zahrnujícím pouze
proměnnou věk. Porovnání výsledků získaných pomocí logit-lineárního modelu pravděpodobnosti a loglineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí kubických resp. po částech
lineárních splinů. Graf byl zjednodušen použitím lineárních čar, které reprezentují zkoumaný efekt v loglineárním modelu intenzity. Skutečné hodnoty jsou zlogaritmovány a tedy dané čáry by měly být částečně
prohnuté (dolů). Taková korekce je však prakticky zanedbatelná. Vlastní výpočet.
Po předvýběru se zkoumal vliv věku v souvislosti s mnoha dalšími (manželství, rozvod
rodičů, atd.). V případě konečného modelu třetího stupně byl vliv věku významný nadále
v interakci s indikátory soužití s partnerem, prvního sexuálního styku a rozvodu rodičů.
Ovšem ty nadále byly v interakci s indikátorem manželství a ten zase s indikátorem první
koncepce. To znamená, že analýza by se rozpadala na velké množství skupin. Tyto skupiny
zde nebudou popsány, nýbrž je volen způsob, kdy efekt věku je v případě jednotlivých skupin
popsán u jednotlivých dalších proměnných.
Nicméně odhadnutý vliv věku v konečném modelu třetího stupně nabízí zajímavé srovnání
s výše popsaným modelem druhého stupně (pouze s proměnnou reprezentující věk). Tento
vliv je zobrazen v grafech 6-8 až 6-10. Jedná se tedy o vliv věku v „základní“ skupině žen,
které nežily s partnerem, nebyly vdány, neměly ještě první koncepci atd. Je vidět, že po
počátečním období, kdy dochází k prudkému vzestupu intenzity (do věku asi 18 - 20 let),
který ještě lze připsat proměnné reprezentující věk, již věk není určující a intenzita procesu
odchodu od rodičů závisí na jiných faktorech.
146
20.0
Intenzita
95% UCL
95% LCL
9.0
7.0
5.0
3.0
1.0
0.8
0.6
0.4
14
16
18
20
22
24
26
28
30
32
Věk
Graf 6-8: Odhadnutá funkce efektu věku na intenzitu odchodu od rodičů pomocí log-lineárního modelu
intenzity pro „základní“ skupinu žen – tedy skupinu žen, které nežijí s partnerem, nejsou vdané, neměly první
koncepci, neměly první sexuální styk, atd. Hodnota posunu na ose y byla určena tak, aby minimum z obou
modelů (viz také graf 6-9) bylo jedna. Spojité proměnné jsou reprezentovány pomocí po částech lineárních
splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každou část (směrnici) splinu. Na ose y je použito
logaritmické měřítko. Vlastní výpočet.
20.0
Intenzita
95% UCL
95% LCL
9.0
7.0
5.0
3.0
1.0
0.8
0.6
0.4
14
16
18
20
22
24
26
28
30
32
Věk
Graf 6-9: Odhadnutá funkce efektu věku na intenzitu odchodu od rodičů pomocí logit-lineárního modelu
pravděpodobnosti pro „základní“ skupinu žen – tedy skupinu žen, které nežijí s partnerem, nejsou vdané, neměly
první koncepci, neměly první sexuální styk atd. Hodnota posunu na ose y byla určena tak, aby minimum z obou
modelů (viz také graf 6-8) bylo jedna. Spojité proměnné jsou reprezentovány pomocí kubických splinů.
Zobrazeny jsou 95% intervaly spolehlivosti pro každý bod splinu. Na ose y je použito logaritmické měřítko.
Vlastní výpočet.
147
9.0
7.0
5.0
3.0
1.0
0.8
0.6
0.4
14
16
18
20
22
24
26
28
30
32
20.0
Věk
Graf 6-10: Odhadnutá funkce efektu věku na intenzitu odchodu od pro „základní“ skupinu žen – tedy skupinu
žen, které nežijí s partnerem, nejsou vdané, neměly první koncepci, neměly první sexuální styk atd. Porovnání
výsledků získaných pomocí logit-lineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Spojité
proměnné jsou reprezentovány pomocí kubických resp. po částech lineárních splinů. Hodnota posunu na ose y
byla určena tak, aby minimum z obou modelů bylo jedna. Na ose y je použito logaritmické měřítko. Vlastní
výpočet.
Jako poznámku lze uvést, že proměnná reprezentující věk byla zvolena jako základní funkce
v této studii. Jak již bylo uvedeno výše, základní funkce je de facto pouze jednou
z nepodmíněných D-funkcí, ale z důvodu interpretace výsledků je obvykle vhodné volit jednu
z proměnných jako základní a vlivy ostatních proměnných vztahovat k této jedné.
Nepodmíněné D-funkce byly v této studii dvě – věk a kalendářní čas. Výběr věku jako
základního splinu byl jak přirozený, tak byl potvrzen analyticky větší hodnotou logvěrohodnosti z těchto dvou jednoduchých modelů (jeden pouze s proměnnou věk, druhý
pouze s proměnnou kalendářní čas). Počátek proměnné reprezentující věk byl určen na
14.5 let věku.
Shrnutí a porovnání
Efekt daný věkem se ukázal jako velmi silný a to hlavně v nejmladších věcích přibližně mezi
15. a 18. až 20. rokem věku. V této době dochází k prvním odchodům od rodičů a intenzita
tohoto procesu prudce roste. Po 18. až 20. roku věku je vliv věku již zanedbatelný a lze
očekávat, že se projevuje již vliv jiných faktorů.
Sienkiewicz (2003) na případě Polska ukázal, že vliv věku postupně klesá a maxima dosahuje
mezi 15 a 20 lety věku. To je v rozporu se zde uváděnými výsledky. Vysvětlení tohoto
rozporu je několik - může jít o důsledek použití jiných vysvětlujících proměnných, jiné
analytické metody i o samotný jiný průběh intenzity v závislosti na věku v České republice a
Polsku.
Aassve et al. (2001) použili věk jako jednu z vysvětlujících proměnných odchodu od rodičů
v 13 zemích tehdejší Evropské unie. Vliv věku však zkoumali pouze jako rostoucí, nebo
klesající. Ovšem v případě této studie byl zjištěn vliv věku nemonotónní a tedy nelze tyto
výsledky příliš porovnat. Spíše by však zde uvedené výsledky odpovídaly většinovým
148
výsledkům ze studie Aassve et al. (2001), neboť hlavní směr je zde také růst intenzity spolu
s věkem.
Efekt první koncepce
První koncepce či narození prvního dítěte bývá označována jako jeden za základních procesů
přechodu do dospělosti. Je tedy na místě předpokládat její vliv i na ostatní procesy přechodu
do dospělosti, odchod od rodičů z toho nevyjímaje. Přirozená hypotéza v tomto případě může
znít, že první koncepce zvyšuje riziko odchodu od rodičů.
Arnett (2003) ve studii zahrnující mladé lidi ve věku 19 až 29 let z oblasti San Francisca
udává, že 5 % (bílý Američané) až 32 % (Latinoameričané) z nich se domnívá, že přechod do
dospělosti nemůže být završen do narození prvního dítěte. Jedná se v tomto případě o jedny
z nejnižších hodnot (pro porovnání - odchod od rodičů považovalo za důležité 49 % až 56 %
respondentů). Na druhou stranu Billari (2001) jej řadí mezi pět základních procesů přechodu
do dospělosti, podobně jako Corijn (1996) mezi osm základních procesů nebo Liefbroer a de
Jong Gierveld (1995) mezi tři základní procesy přechodu od dospělosti.
První koncepce je často dle časování posledním z přechodů do dospělosti. Například pro
21 zemí, kde proběhl výzkum FFS (jehož data za Českou republiku jsou základem této
studie), ve všech z nich byl v případě ženské populace medián odchodu od rodičů nejvyšší
nebo druhý nejvyšší z proměnných reprezentujících šest zde používaných procesů přechodu
do dospělosti (první zaměstnání, ukončení celodenního vzdělávání, odchod od rodičů, počátek
žití s partnerem, vstup do manželství, narození prvního dítěte). Přitom ve 13 zemích byl
nejvyšší (včetně České republiky) a v dalších třech byl nižší o maximálně čtvrt roku oproti
mediánu sňatkového věku. Pouze v pěti zemích byl mediánový věk při sňatku výrazněji vyšší
než při první koncepci (Estonsko, Švédsko, Slovinsko, Francie a Portugalsko)(vlastní
výpočet, mediány odhadnuty pomocí Kaplan-Meierovy metody, viz graf 6-11).
1.koncepce - sňatek (roky)
4
2
0
-2
-4
-6
-8
Aus Bul Cze Fin Ger Ita Lit Nor Por Swe Spa
Bel Can1 Est Fra Hun Lat NZe Pol Slo Swi
Graf 6-11: Porovnání rozdílu mezi mediánovým věkem při první koncepci a při prvním sňatku u žen dle dat
získaných z výzkumu FFS. Mediány odhadnuty pomocí Kaplan-Meierovy metody. Vlastní výpočet.
149
Z tohoto pohledu se v případě této studie, kdy se neuvažují anticipatorní efekty proměnných,
zkoumala ta skupina žen, jež se nechovala podle „většinového scénáře“ a naopak první
koncepce u nich předchází odchodu od rodičů.
Baizán, Aassve a Billari (2001) zkoumali vliv první koncepce na dva jiné procesy přechodu
do dospělosti ve Španělsku - na počátek společného soužití a na uzavření manželství. Zjistili
velmi výrazný vzestup intenzity obou procesů po dobu těhotenství (více než 13x v případě
soužití a více než 100x v případě vstupu do manželství). V obou případech následoval pokles
a po jednom a půl až dvou letech byla intenzita již jen o něco vyšší (1.5x v případě počátku
soužití a asi 4x v případě vstupu do manželství) než v případě bez první koncepce. Zdá se
tedy, že první koncepce urychluje ostatní procesy přechodu do dospělosti, pokud ještě
neproběhly.
Podobně i v případě zde zkoumaného vzorku se během předvýběru pro další analýzu ukázal
důležitý nejen samotný fakt první koncepce, ale i doba od ní. Také se dále uvažovaly
interakce první koncepce s manželstvím a s věkem.
Analýza
Při samotné tvorbě modelu se potvrdila významnost doby od první koncepce (tedy
reprezentace jako obecné D-funkce) spolu s interakcí mezi proběhlou první koncepcí a
uzavřeným manželstvím. V případě interakce s manželstvím je ještě třeba podotknout, že vliv
zde dále závisel na délce od sňatku a na tom, zda žena žila s partnerem či nikoliv. Což je třeba
zohlednit i v interpretaci výsledků.
Nejprve můžeme učinit základní přehled o vztahu první koncepce a odchodu od rodičů. Jak je
vidět v tabulce 6-6, první koncepce předcházela odchodu od rodičů v přibližně polovině
případů.
Tabulky 6-7 a 6-8 dále uvádějí (mj.) rozklad expozice žen, u kterých první koncepce
předcházela odchodu od rodičů, dle soužití či nesoužití s partnerem a dle uzavřeného či
neuzavřeného manželství. Je vidět, že se z tohoto pohledu vydělují dvě hlavní skupiny
(označené červeně). Nejdelší expozice u žen, které již měly první koncepci a ještě neodešly
od rodičů, je pro případ, kdy již žily s partnerem v uzavřeném manželství. Druhou větší
skupinu tvoří ženy, které nežily s partnerem ani ještě neuzavřely první manželství. Tyto dvě
skupiny jsou také hlavně zohledněny při prezentaci výsledků.
Nejprve první
koncepce
48%
Nejprve odchod
Odchod i první
od rodičů
koncepce současně
49%
3%
Tab. 6-6: Rozdělení pořadí odchodu od rodičů a první koncepce ve zkoumaném souboru žen v ČR. Přesnost
jeden měsíc. Vlastní výpočet.
150
Manželství
Po první koncepci
Ne
Ne
10116.5
z toho soužití s partnerem (Ne/Ano)
9934.3
Ano
297.8
182.2
Ano
214.3
148.8
45.1
252.7
904.2
65.5
36.8
867.4
Tab. 6-7: Rozdělení expozice dle proměnných první koncepce, manželství a soužití s partnerem ve zkoumaném
souboru žen v ČR. Červeně jsou označeny hodnoty odpovídající dvěma hlavním skupinám žen s první koncepcí
před odchodem od rodičů. Vlastní výpočet.
Manželství
Po první koncepci
Ne
Ne
87.7%
z toho soužití s partnerem (Ne/Ano)
86.1%
Ano
2.6%
1.6%
Ano
1.9%
1.3%
0.6%
0.4%
2.2%
7.8%
0.3%
7.5%
Tab. 6-8: Rozdělení expozice v procentech dle proměnných první koncepce, manželství a soužití s partnerem ve
zkoumaném souboru žen v ČR. Červeně jsou označeny hodnoty odpovídající dvěma hlavním skupinám žen
s první koncepcí před odchodem od rodičů. Vlastní výpočet.
Grafy 6-12 a 6-13 (lišící se pouze rozdělením dle skupin pomocí barevného odlišení nebo do
samostatných grafů) ukazují na souvislost mezi věkem při první koncepci a věkem při
odchodu od rodičů v případě zde zkoumaného vzorku žen. Je vidět, že výše specifikované dvě
hlavní skupiny se od sebe liší. V případě žen, které nežily s partnerem ani nebyly vdány,
k odchodu od rodičů došlo ve velké většině případů velice brzy po první koncepci. Na druhé
straně v případě žen, které žily s partnerem a byly vdané, k odchodům došlo postupněji.
151
34
Nevdané, nežily s partnerem
Nevdané, soužití s partnerem
Vdané, nežily s partnerem
Vdané, soužití s partnerem
32
Věk při první koncepci
30
28
26
24
22
20
18
16
14
15
20
25
30
35
40
Věk při odchodu od rodičů
Graf 6-12: Porovnání věku při odchodu od rodičů s věkem při první koncepci u žen ze zkoumaného vzorku,
které měly první koncepci před odchodem od rodičů. Rozděleno dle proměnných soužití s partnerem a
manželství v okamžiku odchodu od rodičů. Vlastní výpočet.
Nežily s
partnerem
30
20
15
Žily s parterem
25
30
25
20
15
10 15 20 25 30 35 40 10 15 20 25 30 35 40
Nevda né
Vd ané
které měly první koncepci před odchodem od rodičů. Rozděleno dle proměnných soužití s partnerem a
manželství v okamžiku odchodu od rodičů. Vlastní výpočet.
Detailnější pohled na největší výše definovanou skupinu (žily s partnerem v uzavřeném
manželství) přináší graf 6-14, kde jsou navíc barevně a značkami odlišeny délky soužití a
manželství v době odchodu od rodičů. Je patrný základní trend, kdy délka společného soužití
odpovídá délce manželství (tedy převážně soužití začínalo ve stejné době jako bylo uzavřeno
manželství).
152
34
32
30
28
26
24
22
20
18
16
14
15
20
25
30
35
40
Soužití: <= 1,
Manželství: <= 1
Soužití: <= 1,
Manželství: (1;3]
Soužití: (1;3],
Manželství: <= 1
Soužití: (1;3],
Manželství: (1;3]
Soužití: (1;3],
Manželství: (3;5]
Soužití: (3;5],
Manželství: (1;3]
Soužití: (3;5],
Manželství: (3;5]
Soužití: > 5,
Manželství: (3;5]
Soužití: > 5,
Manželství: > 5
které měly první koncepci před odchodem od rodičů a při odchodě od rodičů žily s partnerem v sezdaném
soužití. Rozlišeno barevně a pomocí značek dle délky soužití a manželství. Vlastní výpočet.
První skupina - skupina žen, které nežily s partnerem ani ještě neuzavřely manželství
Jako první se zaměříme na skupinu žen, které nežily s partnerem ani nebyly vdané. V tomto
případě byl nalezen prudký vzestup intenzity odchodu po první koncepci, následovaný
opětovným poklesem přibližně po okamžiku porodu (grafy 6-15 až 6-17). Maximálních
hodnot intenzita tedy dosahuje kolem času porodu (až asi 4x více oproti referenční skupině
bez první koncepce). Je vidět, že přibližně do dvou let po první koncepci se intenzita vrací na
původní hodnotu. Ovšem je také třeba připomenout, že z těch žen, které byly v této skupině
i v době odchodu od rodičů, již bylo jen velmi málo takových, které do této doby (asi dva
roky po první koncepci) ještě neodešly od rodičů (viz grafy 6-12 a 6-13).
Je také zajímavé, že velikost a tvar (špičatost) křivek reprezentujících efekt doby od první
koncepce, se u obou zde použitých modelů liší. Vysvětlení tohoto jevu může být ve způsobu
odhadu logit-lineárního modelu pravděpodobnosti. V případě tohoto modelu se jedná o případ
obecného aditivního modelu s kubickými spliny jako smoothery (použité aproximujícící
křivky). Což znamená, že v takovém případě je optimální model hledán pomocí penalizace
integrálem druhých mocnin druhých derivací, tedy změn zakřivení smootherů. To má ale za
důsledek, že výsledné křivky mají „averzi“ vůči velkým (prudkým) změnám zakřivení.
Celkově tedy v tomto případě (a podobných s extrémním zakřivením či dokonce zlomem
skutečné aproximované funkce) je reprezentace pomocí po částech lineárních splinů lepší.
(Viz také Hastie a Tibshirani (1991) a Hastie, Tibshirani a Friedman (2001).) Na druhou
stranu průběh odhadnuté funkce logit-lineárním modelem pravděpodobnosti je obdobný a
tedy alespoň takto potvrzuje odhad druhým z modelů.
153
7.50
Intenzita
95% UCL
95% LCL
5.00
2.50
1.00
0.75
0.50
0
Porod
2
3
4
5
Doba o d první konce pce
Graf 6-15: Odhadnutá funkce efektu první koncepce na intenzitu odchodu od rodičů pomocí log-lineárního
modelu intenzity pro skupinu žen, které nežijí s partnerem a nejsou vdané. Referenční skupinu, již odpovídá
hodnota 1, představují ženy, které ještě neměly první koncepci, nežijí s partnerem a nejsou vdané. Spojité
proměnné jsou reprezentovány pomocí po částech lineárních splinů. Zobrazeny jsou 95% intervaly spolehlivosti
pro každou část (směrnici) splinu. Na ose y je použito logaritmické měřítko. Vlastní výpočet.
7.50
Intenzita
95% UCL
95% LCL
5.00
2.50
1.00
0.75
0.50
0
Porod
2
3
4
5
Doba o d první konce pce
Graf 6-16: Odhadnutá funkce efektu první koncepce na intenzitu odchodu od rodičů pomocí logit-lineárního
modelu pravděpodobnosti pro skupinu žen, které nežijí s partnerem a nejsou vdané. Referenční skupinu, již
odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci, nežijí s partnerem a nejsou vdané.
Spojité proměnné jsou reprezentovány pomocí kubických splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro
každý bod splinu. Na ose y je použito logaritmické měřítko. Vlastní výpočet. Viz také diskuse výše v této
podsekci.
154
5.00
2.50
1.00
0.75
0.50
0
Porod
2
3
4
5
7.50
Graf 6-17: Odhadnutá funkce efektu první koncepce na intenzitu odchodu od rodičů pomocí pro skupinu žen,
které nežijí s partnerem a nejsou vdané. Referenční skupinu, již odpovídá hodnota 1, představují ženy, které ještě
neměly první koncepci, nežijí s partnerem a nejsou vdané. Porovnání výsledků získaných pomocí logitlineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány
pomocí kubických resp. po částech lineárních splinů. Na ose y je použito logaritmické měřítko. Vlastní výpočet.
Ohledně odhadnuté křivky pomocí logit-lineárního modelu viz také diskuse výše v této podsekci.
Druhá skupina - skupina žen, které žily s partnerem v sezdaném soužití
V případě interpretace výsledků této skupiny je třeba vzít v potaz, že hledaná funkce vlivu na
intenzitu závisí dle odhadu modelu na třech proměnných – době od první koncepce, době od
uzavření manželství a věku. Což je třeba zohlednit při prezentaci výsledků (nemožnost
zakreslit čtyřdimenzionální graf).
Budou zde uvedeny dva mírně odlišné způsoby, jak se s touto situací vyrovnat. Nejprve
budou použity grafy, kde osy představují dobu od první koncepce a od uzavření sňatku. Vliv
věku bude odstraněn pomocí vhodně volené referenční skupiny, nebo se vyberou některé věky
první koncepce. Jako druhý způsob půjde o zobrazení do roviny doby od první koncepce a
věku, kam se zobrazí (v tomto případě dva) typické scénáře. První scénář, kdy první koncepce
proběhne ve stejnou dobu jako sňatek, a druhý scénář, kdy sňatek následuje půl roku po první
koncepci. Většina dat odpovídá těmto dvěma scénářům – pohybuje se mezi nimi či poblíž
těchto scénářů.
Pro první z možných z grafů s osami doba od první koncepce a od uzavření sňatku je tedy
třeba zvolit vhodnou referenční skupinu. V tomto případě je možné porovnat intenzity
s referenční skupinou žen, které žijí s partnerem, ale ještě neodešly z domova. V takovém
případě je vliv věku odstraněn a je možné výsledný vliv zobrazit (viz grafy 6-18 a 6-19).
V dalším případě porovnání s referenční skupinou, kterou tvoří ženy, u nichž nedošlo k první
koncepci ani nežijí s partnerem nebo nejsou vdány (srovnání se stejnou referenční skupinou
jako předchozí skupina), je možné použít některé vybrané hodnoty věku (grafy 6-20 až 6-25).
Je zajímavé, že hlavně při porovnání s referenční skupinou žen, které žijí v sezdaném soužití
s partnerem, brzy po porodu klesá celková intenzita na úroveň referenční skupiny, resp. i pod
ní.
155
Doba od uzavření sňatku
5
4
3
2
1
0
0
1
2
3
4
5
4.48
2.72
1.65
1.00
0.61
0.37
0.22
Dob a o d první kon ce pce
Graf 6-18: Odhadnutá funkce efektu první koncepce na intenzitu odchodu od rodičů pomocí log-lineárního
modelu intenzity pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční skupinu, již odpovídá
hodnota 1, představují ženy, které ještě neměly první koncepci a žijí s partnerem v sezdaném soužití. Spojité
proměnné jsou reprezentovány pomocí po částech lineárních splinů. Na ose z je použito logaritmické měřítko.
Vlastní výpočet.
5
4
3
2
1
0
0
1
2
3
4
5
4.48
2.72
1.65
1.00
0.61
0.37
0.22
Dob a o d první kon ce pce
Graf 6-19: Odhadnutá funkce efektu první koncepce na intenzitu odchodu od rodičů pomocí logit-lineárního
modelu pravděpodobnosti pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční skupinu, již
odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci a žijí s partnerem v sezdaném soužití.
Spojité proměnné jsou reprezentovány pomocí kubických splinů. Na ose z je použito logaritmické měřítko.
Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz také diskuse výše v této sekci u předchozí
skupiny žen.
156
Věk
18
19
20
21
22
23
5
4
3
2
1
0
0
1
2
3
4
5
4.48
2.72
1.65
1.00
0.61
0.37
0.22
Graf 6-20: Odhadnutá funkce efektu první koncepce v 18 letech věku na intenzitu odchodu od rodičů pomocí
log-lineárního modelu intenzity pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční skupinu,
již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci a nežijí s partnerem ani nejsou
vdané. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Na ose z je použito
Věk
18
19
20
21
22
23
5
4
3
2
1
0
0
1
2
3
4
5
4.48
2.72
1.65
1.00
0.61
0.37
0.22
logit-lineárního modelu pravděpodobnosti pro skupinu žen, které žijí s partnerem v sezdaném soužití. Referenční
skupinu, již odpovídá hodnota 1, představují ženy, které ještě neměly první koncepci a nežijí s partnerem ani
nejsou vdané. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Na ose z je použito logaritmické
měřítko. Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz také diskuse výše v této sekci u
předchozí skupiny žen.
157
Věk
20
21
22
23
24
25
5
4
3
2
1
0
0
1
2
3
4
5
4.48
2.72
1.65
1.00
0.61
0.37
0.22
Věk
20
21
22
23
24
25
5
4
3
2
1
0
0
1
2
3
4
5
4.48
2.72
1.65
1.00
0.61
0.37
0.22
158
Věk
24
25
26
27
28
29
5
4
3
2
1
0
0
1
2
3
4
5
4.48
2.72
1.65
1.00
0.61
0.37
0.22
Věk
24
25
26
27
28
29
5
4
3
2
1
0
0
1
2
3
4
5
4.48
2.72
1.65
1.00
0.61
0.37
0.22
V předchozí části byly prezentovány grafy odhadnutého vlivu první koncepce na intenzitu
odchodu od rodičů. V tomto případě vlivu první koncepce jsou spíše odpovídající grafy log-
159
lineárního modelu intenzity, kde jsou vlivy proměnných reprezentovány pomocí po částech
lineárních splinů (viz diskuse k předchozí skupině žen).
Nyní se můžeme soustředit na další možnost zobrazení výsledků a to v závislosti na věku a
době od první koncepce. Nyní půjde o dva typické scénáře – první, kdy první koncepce
proběhne ve stejnou dobu jako sňatek, a druhý, kdy sňatek následuje půl roku po první
koncepci. Jak již bylo konstatováno výše, většina dat za tuto skupinu odpovídá těmto dvěma
scénářům – pohybuje se mezi nimi či poblíž těchto scénářů.
Pokud se podíváme na první scénář (grafy 6-26 a 6-27), tedy koncepce je ve stejnou dobu
jako sňatek, lze dobře pozorovat, že hodnota je poměrně brzy (v závislosti na věku) dokonce
celkově mírně nižší než v případě referenční skupiny. Jako poznámku lze uvést, že opět je zde
namístě upřednostnit výsledky dosažené pomocí log-lineárního modelu intenzity (viz diskuse
u první zde popsané skupiny).
Graf 6-26: Odhadnutá funkce efektu první koncepce v závislosti na věku a době od první koncepce, resp. délce
manželství, na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství (doba první
koncepce je shodná s dobou sňatku). Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou
reprezentovány pomocí po částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují
osoby, které nežijí s partnerem, nejsou vdané a neměly ještě první koncepci. Na ose z je použito logaritmické
měřítko. Vlastní výpočet.
manželství, na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství (doba první
koncepce je shodná s dobou sňatku). Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité
proměnné jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1,
představují osoby, které nežijí s partnerem, nejsou vdané a neměly ještě první koncepci. Na ose z je použito
logaritmické měřítko. Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz diskuse výše v této sekci.
160
V případě druhého typického scénáře (grafy 6-28 a 6-29), kdy k uzavření manželství dochází
půl roku po okamžiku první koncepce (a tedy tři měsíce před narozením prvního dítěte), je
vidět, že se příliš neliší od předchozího scénáře. Rozdíl je dán převážně rozšířením doby
maximálního vlivu (a tomu odpovídající mírné zploštění tohoto vlivu) brzy po první koncepci
a uzavření sňatku.
Graf 6-28: :Odhadnutá funkce efektu první koncepce v závislosti na věku a době od první koncepce, resp. délce
manželství, na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství (sňatek následuje
půl roku po čase první koncepce). Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou
osoby, které nežijí s partnerem, nejsou vdané a neměly ještě první koncepci. Na ose z je použito logaritmické
manželství, na intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství (sňatek následuje
půl roku po čase první koncepce). Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné
jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby,
které nežijí s partnerem, nejsou vdané a neměly ještě první koncepci. Na ose z je použito logaritmické měřítko.
Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz také diskuse výše v této sekci.
Průběh rozdílu obou scénářů (sňatek v době první koncepce a sňatek půl roku po první
koncepci) oproti skupině sezdaných osob, u nichž (zatím) nedošlo k první koncepci, je
sumarizován v grafech 6-30 a 6-31. Je vidět, že celkově je intenzita odchodu od rodičů
v případě, kdy spolu narození prvního dítěte a sňatek souvisí, výrazně (asi 2x až 3x) nižší než
v případě, kdy k sňatku dojde bez souvislosti s narozením prvního dítěte. Srovnatelná je
pouze v době těsně před a kolem porodu.
161
čas 1. koncepce = sňatek
sňatek půl roku po první koncepci
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0
1
2
3
4
5
Graf 6-30: Odhadnutá funkce vlivu první koncepce na intenzitu odchodu od rodičů ve skupině osob žijících
s partnerem v sezdaném soužití. Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou
osoby, které žijí s partnerem v sezdaném soužití, u nichž (zatím) nedošlo k první koncepci. Na ose y je použito
čas 1. koncepce = sňatek
sňatek půl roku po 1. koncepci
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0
1
2
3
4
5
Graf 6-31: Odhadnutá funkce vlivu první koncepce na intenzitu odchodu od rodičů ve skupině osob žijících
s partnerem v sezdaném soužití. Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné
jsou reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby,
které žijí s partnerem v sezdaném soužití, u nichž (zatím) nedošlo k první koncepci. Na ose y je použito
logaritmické měřítko. Vlastní výpočet. Pro odhad výsledných absolutních hodnot viz také diskuse výše v této
sekci.
Celkově lze konstatovat, že i u této skupiny se vliv první koncepce projevil jako velmi
výrazný. Průběh v závislosti na době od první koncepce je shodný jako v předchozím případě
– ostré maximum v době kolem porodu. V závislosti na době od sňatku se projevuje menší
vliv, který již není tolik ostrý, s maximy brzo po sňatku a po přibližně čtyřech letech (viz také
např. diskuse v podsekci 6.8 Výsledky – Efekt soužití s partnerem). V závislosti na věku
(v okamžiku první koncepce) intenzita klesá, avšak jedná se spíše o mírný pokles (viz např.
srovnání grafů 6-20, 6-22 a 6-24, které odpovídají první koncepci v 18, 20 a 24 letech věku).
162
Bylo zde konstatováno, že první koncepce či (tím spíše) narození prvního dítěte velmi často
uzavírá proces přechodu do dospělosti. Baizán, Aassve a Billari (2001) dokumentují na
případě Španělska výrazný vliv první koncepce na intenzitu počátku společného soužití
s partnerem a na uzavření manželství. Podobně zde byla vznesena hypotéza, že první
koncepce má vliv také na odchod od rodičů (v případě žen v České republice) a že lze na
první koncepci nahlížet i tak, že urychluje ostatní procesy přechodu do dospělosti v případě,
že ještě neproběhly.
V prvním případě se hypotéza potvrdila. Neukázal se tak obrovský vliv jako v případě studie
Baizán, Aassve a Billari (2001) na uzavření manželství (více jak 100-násobný vzrůst
intenzity). Ovšem i více jak čtyřnásobný vliv je poměrně značný (obdobný jako v případě
výše jmenované studie na intenzitu počátku soužití s partnerem). Také průběh vlivu byl velice
obdobný s ostrým maximem kolem doby porodu a návratem na původní hodnoty během
přibližně následující roku.
V případě hypotézy, že první koncepce urychluje ostatní procesy přechodu do dospělosti
v případě, že ještě neproběhly: I zde výsledky odpovídají této hypotéze. Byl dokumentován
rozdíl mezi skupinami žen žijících v sezdaném soužití na jedné straně a ženami, které nežijí
s partnerem ani nejsou vdané. V prvním případě (kdy již bylo ukončeno více z procesů
přechodu do dospělosti) byla intenzita odchodu od rodičů obecně nižší než ve druhém.
Efekt prvního sexuálního styku
První sexuální styk bývá považován za jeden z indikátorů přechodu do dospělosti. Je proto na
místě očekávat, že bude mít vliv i na další procesy přechodu do dospělosti, odchod od rodičů
nevyjímaje.
Vliv samotného prvního sexuálního styku a jeho časování byl převážně studován v rámci širší
rodiny procesů přechodu do dospělosti. Arnett (2003) na datech z oblasti San Francisca uvádí
na výzkumu lidí mezi 19 a 29 rokem věku, že pro 14 % (bílí Američané) až 35 %
(Latinoameričané) z nich je první sexuální styk nutnou podmínkou pro přechod do dospělosti.
Zároveň první sexuální styk je často prvním z indikátorů přechodu do dospělosti (Meier
(2001)). Např. Morrow a Richards (1996) na příkladě amerických dat uvádějí, že zatímco se
obecně snižuje věk při prvním sexuálním styku, věk při uzavření manželství a při narození
prvního dítěte se zvyšují. Podobně Ongaro (2001) na případu Itálie ukazuje, že zatímco zde
v posledních 20 letech obecně věk při prvním sexuálním styku roste, rozvolňuje se časová
souvislost s dalšími procesy jako je uzavření manželství.
Ongaro (2001) také zkoumala opačnou závislost než v případě této analýzy – tj. závislost
věku při prvním sexuálním styku na faktu, zda daná osoba již odešla od rodičů či nikoliv.
V tomto případě se tato závislost potvrdila jako poměrně silná (intenzita se zvýšila ve
skupině, jež odešla z domova, asi na 1.75 oproti druhé skupině).
V případě této studie se ukázalo, že velká většina, takřka 85 %, žen mělo první pohlavní styk
před odchodem od rodičů. Z pohledu doby expozice to představovalo přibližně jednu
polovinu (viz tab. 6-3). Porovnání věku při prvním pohlavním styku a při odchodu od rodičů
je v této skupině (tj. první pohlavní styk předcházel odchodu od rodičů) na grafu 6-32. Je také
třeba zmínit, že věk při prvním pohlavním styku nebyl měřen tak přesně jako ostatní
163
proměnné, tedy s přesností na jeden měsíc, ale s přesností pouze na celý rok. To je třeba vzít
v úvahu při interpretaci analýzy.
Věk při prvním sexuálním styku
34
32
30
28
26
24
22
20
18
16
14
12
14 16 18 20 22 24 26 28 30 32 34 36 38 40
Graf 6-32: Porovnání věku při odchodu od rodičů a při prvním sexuálním styku ve skupině žen, kde první
sexuální styk předcházel odchodu od rodičů. Aby bylo dosaženo větší vypovídající schopnosti grafu, bylo
v případě prvního sexuálního styku, který byl měřen pouze v celých letech, použito znáhodnění, tj. hodnota byla
vypočtena jako: celý věk z dotazníku + náhodné číslo mezi 0 a 1.
Analýza
Během předvýběru se ukázalo, že v ohledu na první pohlavní styk, intenzita odchodu může
souviset jak se samotným faktem, že k prvnímu sexuálnímu styku již došlo, tak se tento vliv
může měnit s věkem i dobou od něj. To se potvrdilo i v samotné analýze.
Touto analýzou bylo možno identifikovat velmi silný vliv proměnné, která představovala vliv
doby a časování prvního pohlavního styku. Je zde však spíše sporné, zda se jedná o skutečnou
kauzální závislost, či zda se jedná o indikátor faktoru, který je „v pozadí“. Také není bez
zajímavosti, že při zahrnutí tohoto vlivu do modelu již nebylo možné odhadnout standardní
odchylku náhodných stejně rozdělených proměnných reprezentujících nevysvětlenou
heterogenitu. Tato hodnota potom konvergovala k hodnotám velmi blízkým nule. Zdá se tedy,
že tato proměnná vysvětluje mnoho ze skryté heterogenity (či je s ní vysoce korelována).
Za nejdůležitější výsledek zde lze označit samotnou výši odhadnutých funkcí. Na základě této
analýzy vychází, že u žen, které již měly první sexuální styk, je intenzita odchodu obecně
několikanásobně vyšší než u žen, které ještě první sexuální styk neměly. Tento vliv je
nejvýraznější v mladších věcích a klesá s věkem. V závislosti na době od prvního sexuálního
styku lze pozorovat zprvu mírný nárůst a potom spíše již neměnný průběh. Tento průběh
rozdílu intenzity oproti referenční skupině, již tvoří osoby, které ještě neměly první sexuální
styk, je zobrazen na grafech 6-33 a 6-34. V grafech jsou naznačeny řezy plochou, které jsou
následně v grafech 6-35 až 6-40. U nich je potom také detailnější popis výsledků.
164
Doba od prvního
sexuálního styku
5
4
3
2
1
0
15
17
19
21
23
25
27
29
Věk
5.75
4.48
2.72
1.65
1
Doba od prvního
sexuálního styku
Graf 6-33: Odhadnutá funkce vlivu prvního sexuálního styku v závislosti na věku a době od tohoto styku na
intenzitu odchodu od rodičů. Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou
osoby, které ještě neměly první sexuální styk. Na ose z je použito logaritmické měřítko. Vlastní výpočet.
5
4
3
2
1
0
15
17
19
21
23
25
27
29
Věk
5.75
4.48
2.72
1.65
1
intenzitu odchodu od rodičů. Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou
reprezentovány pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby,
které ještě neměly první sexuální styk. Na ose z je použito logaritmické měřítko. Vlastní výpočet.
V následujících grafech 6-35 až 6-40 jsou zobrazeny řezy plochou předcházejících grafů 6-33
a 6-34. Barva orámování odpovídá barvě naznačených řezů v těchto předchozích grafech.
Zeleně jsou tedy označeny řezy, které odpovídají situaci, kdy k prvnímu sexuálnímu styku
došlo v 16, 18 a 21 letech. Řezy v pevně daném období po prvním sexuálním styku (1, 2.5 a
4 roky) jsou označeny červeně. Modře jsou označeny řezy v pevném věku (18, 21 a 25 let).
V pohledu dle věku při prvním sexuálním styku je vidět, že použité dva modely se od sebe ve
výsledcích mírně liší. To je patrné hlavně v prvních roce, příp. v prvních dvou letech po
okamžiku prvního sexuálního styku. Tato odchylka může být dána jiným způsobem výpočtu,
ale také na ni může mít vliv již zmiňovaný fakt, že data v tomto případě byla pouze
s přesností jednoho roku, což se projeví nejvíce právě na začátku. Nicméně stále je zde dobře
patrné, že intenzita odchodu je výrazně vyšší než v případě referenční skupiny (ženy, které
ještě neměly první sexuální styk). V pozdější době se již hodnota pohybuje u všech případů
kolem hodnoty 3, tj. 3x vyšší intenzita než v případě referenční skupiny.
165
VĘž
k při prvním sexuálním styku:
16
18
21
6.0
5.5
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
0
1
2
3
4
5
Doba o d prvního sexuálního styku
intenzitu odchodu od rodičů. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů.
Referenční skupinu, které odpovídá hodnota 1, představují osoby, které ještě neměly první sexuální styk. Jedná
se o řezy grafem 6-33 s daným věkem při prvním sexuálním styku. Na ose y je použito logaritmické měřítko.
Vlastní výpočet.
VĘž
k při prvním sexuálním styku:
16
18
21
6.0
5.5
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
0
1
2
3
4
5
Doba o d prvního sexuálního styku
intenzitu odchodu od rodičů. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Referenční
skupinu, které odpovídá hodnota 1, představují osoby, které ještě neměly první sexuální styk. Jedná se o řezy
grafem 6-34 s daným věkem při prvním sexuálním styku. Na ose y je použito logaritmické měřítko. Vlastní
výpočet.
166
6.0
5.5
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
14 16 18 20 22 24 26 28 30 32 34 36
Doba od prvního sexuálního styku:
1
2.5
4
Vliv proměnné reprezentující první pohlavní styk klesá s věkem. Nejvíce se projevuje
v nejmladších věcích po 15. roce věku, kolem 25. roku je již asi 1.5x až 2x menší. Pro
interpretaci vlivu této proměnné je to jistě důležitý výsledek. Dále je z tohoto pohledu dobře
patrno, že intenzita je přibližně shodná kolem 1 a 2.5 roku po prvním sexuálním styku
(maximum je mezi tímto obdobím) a potom klesá.
Věk
6.0
5.5
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
14 16 18 20 22 24 26 28 30 32 34 36
Doba od prvního sexuálního styku:
1
2.5
4
se o řezy grafem 6-33 s danou dobou po prvním sexuálním styku. Na ose y je použito logaritmické měřítko.
Vlastní výpočet.
Věk
grafem 6-34 s danou dobou po prvním sexuálním styku. Na ose y je použito logaritmické měřítko. Vlastní
výpočet.
167
Poslední dvojice řezů ukazuje výslednou intenzitu v konstantních věcích. Je možné vidět, že
až na výjimku prvního roku po prvním sexuálním styku (jež ale může i nemusí souviset
s nepřesností dat), je daná úroveň stále na přibližně stejné úrovni. Tato úroveň je ovšem
poměrně vysoká v porovnání s referenční skupinou.
21
25
6.0
5.5
5.0
4.5
4.0
3.5
3.0
2.5
18
2.0
1.0
Věk:
1.5
0
1
2
3
4
5
se o řezy grafem 6-33 s pevně daným věkem. Na ose y je použito logaritmické měřítko. Vlastní výpočet.
21
25
6.0
5.5
5.0
4.5
4.0
3.5
3.0
2.5
18
2.0
1.0
Věk:
1.5
0
1
2
3
4
5
grafem 6-34 s pevně daným věkem. Na ose y je použito logaritmické měřítko. Vlastní výpočet.
168
První sexuální styk byl převážně studován jako jeden z indikátorů přechodu do dospělosti.
V takovém případě se jedná často o první z takových indikátorů (viz Meier (2001)).
Souvislost s odchodem od rodičů byla zkoumána např. pro případ Itálie, kdy Ongaro (2001)
ukazuje, že existuje vliv mezi těmito dvěma procesy.
V případě této analýzy se takový vliv potvrdil, dokonce výrazný. Zdá se, že časování prvního
pohlavního styku těsně souvisí s časováním odchodu od rodičů. Nicméně, jak již bylo
uvedeno výše, je ale spíše otázkou, zda zde je nějaká přímá příčinná souvislost, či zda jde jen
o indikátor jiného procesu (např. navázání vážného partnerského vztahu). To by
korespondovalo s tím, že pro ženy může být nalezení partnera často klíčovým faktorem pro
odchod od rodičů (jak konstatují Aassve et al. (2001) opět na příkladě Itálie).
Efekt vzdělání
Ukončení každodenního vzdělávání je jedním ze základních indikátorů přechodu do
dospělosti. Podobně také úroveň vzdělání často vymezuje skupiny, které mají odlišné
demografické chování. Je tedy na místě předpokládat, že úroveň vzdělání, příp. to, zda daná
osoba studuje či již nikoliv, bude mít vliv i na proces odchodu od rodičů.
Sienkiewicz (2003) zahrnul úroveň vzdělání a probíhající studium do studie odchodu od
rodičů v Polsku. Dochází k závěru, že úroveň vzdělání silně koresponduje s intenzitou
odchodu od rodičů. Např. u žen je intenzita u vysokoškolsky vzdělaných více jak 3x vyšší než
u těch, které dokončily pouze základní vzdělání. S tím souvisí i vliv probíhajícího studia,
který také dokumentoval velmi silný - ve skupině studujících žen byla intenzita přibližně
třetinová oproti skupině již nestudujících.
Flatau et al. (2003) v australské studii dochází k částečně protichůdným výsledkům
s předchozím a to v případě úrovně ukončeného studia (zde používá jako indikátor věk při
ukončení studia). V tomto případě ukazuje, že věk při ukončení studia má mírně záporný vliv
na intenzitu odchodu od rodičů. Na druhou stranu v případě probíhajícího studia podává
shodné výsledky jako v případě Polska (takřka třetinová intenzita vůči skupině již
nestudujících).
Aassve et al. (2001) zahrnuli úroveň vzdělání jako vysvětlující proměnnou do analýzy
odchodu od rodičů v 13 zemích tehdejší Evropské unie (kromě Švédska a Lucemburska).
Použili však pouze rozdělení na dvě skupiny - s nízkým vzděláním a ostatní. Nerozlišovali
aktuální průběh vzdělávání a již ukončené vzdělávání. S několika málo výjimkami (Nizozemí,
ženy v Portugalsku a Řecku) ukázali, že lidé ze skupiny s nižším vzděláním měli intenzitu
odchodu od rodičů obecně nižší než lidé s vyšším vzděláním. Nejvyššího rozdílu pak bylo
dosahováno u mužů i u žen ve Francii.
Brinbau et al. (2004) zkoumali úroveň ukončeného vzdělání i aktuální vzdělávání
v souvislosti s jejich vlivem na odchod od rodičů v 15 zemích Evropy. Vzdělávání se ukázalo
jako významný faktor ve Velké Británii, Španělsku, Portugalsku, Polsku, Nizozemí a Řecku,
kde v průběhu vzdělávání byla intenzita vyšší (tedy pro Polsko opačně než Sienkiewicz
(2003)) a pouze v Německu byla intenzita v průběhu vzdělávání nižší. Z pohledu nejvyššího
ukončeného vzdělání v Dánsku, Německu, Itálii, Nizozemí, Portugalsku a Španělsku se
ukázal záporný vliv na intenzitu odchodu od rodičů (kromě Nizozemí tedy opačně než
odhadovali Aassve et al. (2001)), pouze v Irsku a Lucembursku platilo, že čím vyšší vzdělání,
169
tím vyšší intenzita odchodu od rodičů. Pro Rakousko, Belgii a Maďarsko nedosáhli žádných
statisticky podložených výsledků.
Analýza
V případě této analýzy bylo z dat možno rozlišit několik etap vzdělání - nedokončený první
stupeň, dokončený první stupeň (jako nejvyšší v daném čase), dokončený druhý stupeň (jako
nejvyšší v daném čase) a dokončený třetí stupeň (jako nejvyšší v daném čase). Také bylo
možno rozlišit období, kdy daná žena stále ještě studovala a kdy již studium ukončila.
Principiálně tedy bylo možné odlišit 4 krát 2 skupiny, což vede k reprezentaci pomocí
8 D-funkcí. Prakticky však již během předvýběru se ukázalo, že není možné nalézt podporu
pro vyšší rozlišení než na 5 stavů (bez vzdělání, 1. stupeň, 2. stupeň, 3. stupeň a aktuálně
studující) a ještě celkem považovat vzdělání pouze jako kovariantu proměnnou v čase. Stejně
tak nebylo možné najít podporu pro zahrnutí interakcí do vlastní analýzy - jak interakce mezi
jednotlivými stupni vzdělání a identifikátorem aktuálního studia, tak interakce s časem se
neukázaly jako významné.
28
26
Nejvyšší dosažené vzdělání:
1. stupeň
2. stupeň
3. stupeň
Věk ukončení studia (zatím posl. stupně)
Základní přehled je na grafu 6-41, kde je porovnáván věk při ukončení posledního stupně
studia před odchodem od rodičů a věk při tomto odchodu. Data jsou rozlišena barevně dle
stupně nejvyššího ukončeného vzdělání v čase odchodu od rodičů. Také je zde rozlišena
skupina žen, jež v době odchodu od rodičů stále studovaly (jsou označeny křížkem příslušné
barvy). Již z tohoto obrázku je patrné, že např. daleko více žen odešlo po ukončení studia než
během něho. Zároveň je vidět, že je potřebné odlišit efekt věku a efekt vzdělání (neboť tyto
proměnné spolu zjevně souvisí), což je možné právě za pomocí zde použitého log-lineárního
modelu intenzity.
24
22
20
18
16
14
12
14
18
22
26
30
34
Graf 6-41: Porovnání věku při odchodu od rodičů a v té době nejvyššího dosaženého vzdělání. Pokud daná žena
v době odchodu studovala, je označena příslušně barevným křížkem. Vlastní výpočet.
Efekt vzdělání lze shrnout v následujícím grafu 6-42, kde jako základní úroveň je největší
skupina s ukončeným prvním stupněm vzdělání (ke které jsou vztahovány intervaly
spolehlivosti). Je zřetelně vidět, že s rostoucím dokončeným vzděláním roste i intenzita
odchodu od rodičů, naopak v případě aktivního studia je tato intenzita významně nižší.
170
2.0
1.5
1.0
0.5
Studující
Žádný
1.
2.
3.
+ 95% CL
2.5
Stupeň vzdělání
Graf 6-42: Odhadnutá funkce efektu aktuálního vzdělání na intenzitu odchodu od rodičů. Porovnání výsledků
získaných pomocí logit-lineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Zobrazeny jsou
95% intervaly spolehlivosti pro každou úroveň faktoru oproti základní úrovni, jíž je zde první stupeň vzdělání.
Na ose y je použito logaritmické měřítko.
Ve většině porovnávaných studií odchodu od rodičů (s výjimkou většiny zemí v Brinbaum et
al.) v nichž byl zkoumán vliv vzdělání se ukázalo, že s rostoucím vzděláním roste intenzita
odchodu spolu s vyšším dosaženým vzděláním. Stejného výsledku bylo dosaženo i v případě
této studie.
Co se týče vlivu aktuálního studia na studovanou intenzitu, tato proměnná byla zahrnuta
v případě polské studie Sienkiewicz (2003), australské studie Flatau et al. (2003) a evropské
studie Brinbaum et al (2004). V prvních dvou případech byl vypočtený vliv na úrovni mezi
0.35- až 0.45-násobku oproti základní skupině (s již ukončeným vzděláním). To souhlasí
s nálezy v této studii, kdy aktuální studium také snižuje intenzitu odchodu od rodičů, liší se
pouze v hodnotě. V Brinbaum et al. (2004) se výsledky výrazně odlišovaly v závislosti na té
které zemi a jen pro Německo byl výsledný vliv srovnatelný.
Na následujícím grafu 6-43 je porovnání mezi hodnotami získanými v této studii pro ženy
v České republice a hodnotami za Polsko ze studie Sienkiewicz (2003). Je vidět, že v případě
České republiky je vliv obecně mírnější. Je ovšem otázkou, zda jde o skutečné rozdíly, či zda
se v tomto případě projevil vliv jiných použitých vysvětlujících proměnných či jiné použité
metody.
171
ČR, ženy (logit-lineární model)
ČR, ženy (log-lineární model)
Polsko, muži
Polsko, ženy
5.5
4.5
3.5
2.5
1.5
0.5
Studující
Žádný
1.
2.
3.
Stupeň vzdělání
Graf 6-43: Porovnání vlivu nejvyššího dosaženého vzdělání, resp. aktuálního vzdělávání, na intenzitu odchodu
od rodičů v ČR a v Polsku. Na ose y je použito logaritmické měřítko. Údaje za ČR vlastní výpočet, údaje za
Polsko na základě Sienkiewicz (2003).
Efekt manželství
Uzavření sňatku je jedním z indikátorů přechodu do dospělosti. U velké části mladých lidí
(viz např. tab. 6-9) je přímo spojen se zde studovaným procesem odchodu od rodičů. Proto je
namístě zkoumat hypotézu, že vstup do manželství má vliv, resp. souvisí s odchodem od
rodičů.
Sienkiewicz (2003) zkoumal tuto hypotézu pro Polsko a došel k závěru, že sňatek je zásadním
faktorem pro odchod od rodičů. V tomto případě uvádí, že sňatek zvyšuje intenzitu odchodu
přibližně 7x jak u mužů, tak u žen. Ovšem v jeho studii uvažoval v případě, že k odchodu od
rodičů i ke sňatku došlo ve stejnou dobu, že sňatek o půl měsíce předcházel tomuto odchodu,
čímž samozřejmě došlo k posílení reportovaného efektu. V případě této studie se naopak vliv
těchto současných sňatků nezkoumal.
Pro případ Austrálie Flatau et al. (2003) konstatuje, že mediánový věk při odchodu od rodičů
před sňatkem se stále snižuje. Zatímco v první polovině 20. století to bylo kolem 25 let, na
jeho konci již méně než 20 let u žen a kolem 20 let u mužů.
V případě této studie během předvýběru došlo podle očekávání k selekci proměnné
reprezentující dobu od manželství, ale také bylo manželství zahrnuto v interakci s dalšími
proměnnými (s první koncepcí, s indikátorem soužití s partnerem, s věkem, s indikátorem
prvního sexuálního styku a ve dvou trojných interakcích). Tyto byly dále zkoumány ve vlastní
analýze.
Analýza
Na základě použitých dat bylo možné určit (viz tab. 6-9), že odchod a sňatek nastaly ve
stejnou dobu u poloviny žen (z těch, u kterých již došlo k oběma událostem). Ze zbylé
poloviny mírně převažovala skupina těch, které nejprve odešly od rodičů a sňatek měly až
později. 22 % uzavřelo nejprve sňatek. Právě této skupiny (spolu s censorovanými údaji) se
týká tato část analýzy.
172
Nejprve
sňatek
22%
Nejprve
odchod od
rodičů
28%
Odchod i
sňatek
současně
50%
Tab. 6-9: Rozdělení pořadí odchodu od rodičů a uzavření sňatku ve zkoumaném souboru žen v ČR. Vlastní
výpočet.
Tabulky 6-10 a 6-11 udávají přehled expozice v jednotlivých skupinách rozdělených dle
manželství, soužití s partnerem a dle narození prvního dítěte (či jeho očekávání). V této
souvislosti lze vidět, že ve více jak 90 % expozice, kdy již byl uzavřen sňatek, ale ještě
nedošlo k odchodu od rodičů, se jedná o případ, kdy žena žila s partnerem. Skupina, kdy žena
nežila s partnerem je de facto marginální, a proto na ni nebude zaměřena větší pozornost.
V případě, že žena žila s partnerem, většinou již měla či očekávala narození prvního dítěte
(asi 75 % ku 25 %, kdy tomu tak nebylo).
Soužití s
partnerem
Manželství Ne
Ne
10116.5
z toho po první koncepci (Ne/Ano)
9934.3
Ano
214.3
65.5
Ano
81.9
45.1
148.8
182.2
1120.1
36.8
252.7
867.4
Tab. 6-10: Rozdělení expozice (osoba.rok) dle proměnných manželství, soužití s partnerem a první koncepce ve
zkoumaném souboru žen v ČR. Červeně označeny skupiny popsané detailněji níže. Vlastní výpočet.
Soužití s
partnerem
Manželství
Ne
Ne
87.7%
86.1%
Ano
1.9%
0.6%
Ano
0.7%
0.4%
0.3%
1.3%
1.6%
9.7%
2.2%
7.5%
Tab. 6-11: Rozdělení expozice (osoba.rok) dle proměnných manželství, soužití s partnerem a první koncepce
v procentech ve zkoumaném souboru žen v ČR. Červeně označeny skupiny popsané detailněji níže. Vlastní
výpočet.
Grafy 6-44 a 6-45 (lišící se pouze rozdělením dle skupin pomocí barevného odlišení nebo do
samostatných grafů) ukazují na souvislost mezi věkem při uzavření sňatku a věkem při
odchodu od rodičů v případě zde zkoumaného vzorku žen. Jedná o rozdělení dle stavů při
odchodu od rodičů. Na první pohled je patrné, že v případě, kdy ženy nežily s partnerem ani
ještě u nich nedošlo k první koncepci, prakticky vždy odešly od rodičů současně se sňatkem.
Proto také tato skupina vykazuje velmi malou délku expozice (viz tab. 6-10 a 6-11) a většina
těchto žen neměla vliv na samotnou analýzu (v případě reprezentace manželství).
V případě dvou skupin s větší expozicí je vidět, že tyto dvě skupiny se od sebe liší. V případě
žen, které nežily s partnerem a v okamžiku odchodu od rodičů již měly či očekávaly narození
prvního dítěte, k odchodu od rodičů došlo ve velké většině případů velice brzy po sňatku. Na
173
druhé straně v případě žen, které žily s partnerem a již měly či očekávaly první dítě, byla tato
skupina v tomto pohledu heterogennější a k odchodům docházelo postupněji.
34
Nežily s partnerem, před 1. koncepcí
Nežily s partnerem, po 1. koncepci
Soužití s partnerem, před 1. koncepcí
Soužití s partnerem, po 1. koncepci
32
30
Věk při sňatku
28
26
24
22
20
18
16
14
15
20
25
30
35
40
Před 1. koncepcí
Po první koncepci
Věk při sňatku
Graf 6-44: Porovnání věku při odchodu od rodičů a věku při sňatku u žen, kde sňatek předcházel odchodu od
rodičů. Barevně jsou odlišeny skupiny žen podle prvního soužití s partnerem a dle faktu, zda již došlo k první
koncepci, v době odchodu. Vlastní výpočet.
30
25
20
15
30
25
20
15
15
20
25
30
35
Neži ly s pa rt nere m
40 15
20
25
30
35
40
Sou ži t í s partn erem
Graf 6-45: Porovnání věku při odchodu od rodičů a věku při sňatku u žen, kde sňatek předcházel odchodu od
rodičů. Odlišeny jsou skupiny žen podle prvního soužití s partnerem a dle faktu, zda již došlo k první koncepci,
v době odchodu. Vlastní výpočet.
Vlastní analýza ukázala na ne zcela jednoduchý vliv manželství na intenzitu odchodu od
rodičů. Jako významné se ukázaly proměnné reprezentující dobu od uzavření sňatku,
interakce s indikátorem soužití s partnerem a interakce s první koncepcí. Ovšem tyto další
proměnné, které souvisí s proměnnou reprezentující sňatek, byly zase v interakci s jinými
proměnnými (např. věk). Proto vlastní interpretace nemůže být zcela přímočará. Bude tedy
174
rozdělena dle výše popsaných skupin. Prakticky zde však budou uvedeny výsledky za dvě
hlavní skupiny – rozděleně dle první koncepce, kdy ale žena vždy žila s partnerem.
Doba trvání
manželství
První skupina – sezdaná soužití před okamžikem první koncepce
Tuto analyzovanou skupinu představují ty osoby, které žijí s partnerem v sezdaném soužití,
ale zatím nemají ani nečekají první dítě. V tomto případě je zde závislost výsledné intenzity
na dvou faktorech a to na době od uzavření manželství, ale také na věku. Nejvyšší vliv na
intenzitu odchodu od rodičů je v době přibližně mezi 15. až 20. rokem života. Z pohledu
délky manželství se ukazuje jako nejrizikovější doba hned po uzavření sňatku a také po době
kolem čtyř let od uzavření sňatku. Průběh rozdílu intenzity oproti referenční skupině, již tvoří
osoby nežijící s partnerem a které ještě neuzavřely sňatek, je zobrazen na grafech 6-46 a 6-47.
V grafech jsou naznačeny řezy plochou, které jsou následně v grafech 6-48 až 6-53. U nich je
také detailnější popis výsledků.
5
4
3
2
1
0
15
17
19
21
23
25
27
29
31
33
35
Věk
7.39 4.48 2.72 1.65 1.00
Doba trvání
manželství
Graf 6-46: Odhadnutá funkce efektu manželského soužití s partnerem v závislosti na věku a délce manželství na
intenzitu odchodu od rodičů ve skupině žen žijících s partnerem v manželství, u nichž (zatím) nedošlo k první
koncepci. Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po
částech lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nejsou vdané
ani nežijí s partnerem. Na ose z je použito logaritmické měřítko. Vlastní výpočet.
5
4
3
2
1
0
15
17
19
21
23
25
27
29
31
33
35
Věk
7.39 4.48 2.72 1.65 1.00
koncepci. Odhad pomocí logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány
pomocí kubických splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nejsou vdané
ani nežijí s partnerem. Na ose z je použito logaritmické měřítko. Vlastní výpočet.
V následujících grafech 6-48 až 6-53 jsou zobrazeny řezy plochou předcházejících grafů 6-46
a 6-47. Barva orámování odpovídá barvě naznačených řezů v těchto předchozích grafech.
Zeleně jsou tedy označeny řezy, které odpovídají situaci, kdy ke sňatku došlo v 17, 22 a
27 letech. Řezy v pevně daném období po sňatku (1, 2.5 a 4 roky) jsou označeny červeně.
175
Modře jsou označeny řezy v pevném věku (20, 25 a 30 let). Vždy první dva řezy jsou
nejvýznamnější, neboť jsou v obdobích, kam připadá zdaleka nejvíce dat.
V případě pohledu na vliv soužití s partnerem v manželství (před první koncepcí) na intenzitu
odchodu od rodičů dle věku při sňatku (grafy 6-48 a 6-49) lze pozorovat, že nejvyšší intenzita
odchodu je v případě brzkých sňatků brzy po svatbě (přibližně 4x až 5x vyšší oproti
referenční skupině). Další navýšení intenzity (vlna odchodů) přichází již nezávisle na věku při
sňatku kolem 4. roku po svatbě (asi 1.5x až 3x více oproti referenční skupině).
27
5.0
4.5
4.0
3.5
3.0
Sňatek ve věku:
17
22
2.5
2.0
1.5
1.0
0
1
2
3
4
5
Doba od sňatku
koncepci, pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech
lineárních splinů. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nejsou vdané ani nežijí
s partnerem. Jedná se o řezy grafem 6-46 s konstantním věkem při sňatku. Na ose y je použito logaritmické
27
5.0
4.5
4.0
3.5
3.0
Sňatek ve věku:
17
22
2.5
2.0
1.5
1.0
0
1
2
3
4
5
Doba od sňatku
ani nežijí s partnerem. Jedná se o řezy grafem 6-47 s konstantním věkem při sňatku. Na ose y je použito
176
Na následujících grafech 6-50 a 6-51 jsou zobrazeny řezy grafy 6-46 a 6-47 v závislosti na
době od sňatku (1, 2.5 a 4 roky). Je na nich dobře viditelná silná závislost celkového vlivu
(klesající) na věku a nelineární vliv doby od sňatku (ze zde uvedených nejnižší vliv 2.5 roku
po sňatku, nejvyšší až 4 roky po sňatku).
Doba od sňatku v letech:
1
2.5
4
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
14 16 18 20 22 24 26 28 30 32 34 36
Věk
koncepci. Odhad pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po
ani nežijí s partnerem. Jedná se o řezy grafem 6-46 s konstantní dobou od sňatku. Na ose y je použito
Doba od sňatku v letech:
1
2.5
4
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
14 16 18 20 22 24 26 28 30 32 34 36
Věk
177
Poslední řezy grafy 6-46 a 6-47 jsou vedeny v konstantních věcích. Je na nich dobře patrný
průběh zvýšení intenzity odchodu od rodičů v závislosti na době od uzavření manželství
(maxima prakticky ihned po uzavření manželství a po době kolem 4 let).
30
5.0
4.5
4.0
3.5
3.0
25
2.5
2.0
Věk:
20
1.5
1.0
0
1
2
3
4
5
Doba od sňatku
koncepci. Odhady pomocí log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po
ani nežijí s partnerem. Jedná se o řezy grafem 6-46 s konstantním věkem. Na ose y je použito logaritmické
30
5.0
4.5
4.0
3.5
3.0
25
2.5
2.0
Věk:
20
1.5
1.0
0
1
2
3
4
5
Doba od sňatku
178
Druhá skupina - sezdaná soužití po okamžiku první koncepce
Největší skupinu žen (dle expozice), které uzavřely sňatek před odchodem od rodičů tvoří ty,
jež žily v sezdaném soužití po okamžiku první koncepce. Ovšem průběh intenzity odchodu od
rodičů této skupiny již byl popsán v případě proměnné první koncepce. Tato skupina je
samozřejmě identická jako druhá tam popsaná skupina. Proto zde nebude tento popis ani tam
uvedené grafy opakovány (jedná se primárně o grafy 6-20 až 6-29).
Jen zde zopakujme shrnutí - vliv na intenzitu odchodu v takovém případě nejvíce závisí na
procesu první koncepce. Dle věku dochází k mírnému poklesu. Při pohledu dle doby od
sňatku je stejně jako v předchozím případě dosahováno maxim hned po sňatku a poté několik
let od sňatku. V případě minima kolem dvou let po sňatku je intenzita dokonce spíše nižší
(převážně ve vyšších věcích a kromě času kolem porodu) než v případě referenční skupiny, již
tvoří svobodné ženy nežijící s partnerem před okamžikem první koncepce.
Na počátku byla vyslovena hypotéza, že uzavření sňatku ovlivňuje intenzitu pozdějšího
odchodu od rodičů. Tato hypotéza se potvrdila, když byl dokumentován různý vliv (převážně
kladný) nejen v závislosti na době od sňatku, ale také v závislosti na faktu a době od první
koncepce a také na věku. Detailněji byly zkoumány pouze převažující skupiny žen žijících
s partnerem.
Zde uvedené výsledky lze porovnat s výsledky pro Polsko uvedené v Sienkiewicz (2003). Ten
dokumentoval zásadní vliv uzavření sňatku na odchod od rodičů (přibližně sedminásobná
intenzita odchodu od rodičů po sňatku). Tak výrazné výsledky zde obecně nebyly dosaženy
(zde jen pro malou skupinu žen s velmi brzkým uzavřeným sňatkem), ovšem i zde byl
celkově dokumentován kladný vliv na studovanou intenzitu. Rozdíl je pravděpodobně na
prvním místě možno přičíst rozdílné použité metodice. V případě polské studie byly
uvažovány i ty případy, kdy ke sňatku došlo současně s odchodem od rodičů. Naopak zde
byly uvažovány pouze případy, kdy sňatek měl vliv na pozdější odchod od rodičů.
Efekt počtu sourozenců
Počet sourozenců může přímo souviset s kvalitou bydlení či žití v původní rodině. Proto se
vcelku přirozeně nabízí hypotéza, že počet sourozenců zvyšuje riziko odchodu od rodičů.
Tato hypotéza byla již několikrát zkoumána a v některých případech potvrzena pro některá
národní data. Např. pro japonská data Suzuki (2001) rozdělil zkoumané případy na dvě
skupiny podle počtu dětí v původní rodině (větší než 3 a menší nebo rovno 3). Pro australská
data Flatau et al. (2003) pojali počet dětí de facto jako spojitou proměnnou a zkoumali, zda
tato má (lineární) vliv na intenzitu odchodu od rodičů při odstranění vlivu množství dalších
proměnných. V této souvislosti také zkoumali, zda nejstarší dítě odchází obecně od rodičů
dříve než ostatní děti. Sienkiewicz (2003) zkoumal polská data a rozdělil pozorování dle
velikosti původní rodiny (dle počtu dětí) na čtyři skupiny s jedním, dvěma, třemi a čtyřmi a
více dětmi (opět kontrolován vliv dalších proměnných).
V případě polských a australských dat byla hypotéza potvrzena, tedy ukázalo se, že počet
sourozenců má kladný vliv na intenzitu odchodu rodičů. V případě japonských dat zde byl
také naznačen tento směr, ale nebyl statisticky průkazný.
179
Analýza
V případě této studie byl vliv počtu sourozenců zkoumán podobně jako v případě Sienkiewicz
(2003), tedy pozorování byla rozdělena podle počtu sourozenců v původní rodině, pouze bylo
použito pět skupin. Jako ukazatel byl vzat počet dětí narozených stejné matce. Data
nedovolovala vzít jako ukazatel počet dětí v rodině v okamžiku odchodu od rodičů, což by
mohl být další ukazatel.
Vliv počtu sourozenců se zkoumal jako kovarianta neproměnná v čase, neboť v předvýběru
proměnných se nepodařilo nalézt žádnou další proměnnou, s niž by tato měla interakci. Tento
vliv na zkoumanou intenzitu odchodu od rodičů se projevil vcelku jednoznačně. Jednalo se
o proměnnou, která mezi všemi zkoumanými R-funkcemi měla nejvyšší vliv na danou
intenzitu.
3.0
2.8
2.6
2.4
2.2
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0
1
2
3
>3
+ 95% CL
Výsledky ukazují na jednoduchý vliv, kdy intenzita odchodu od rodičů roste s počtem
sourozenců. I v případě, že jednotlivé výsledky nejsou statisticky prokazatelné, celkový trend
je zřejmý. Znovu je zde na místě připomenout, že jednotlivé intervaly spolehlivosti se vztahují
na porovnání se základní úrovní, za níž byla zde zvolena skupina osob bez sourozenců.
Počet sourozenců
Graf 6-54: Odhadnutá funkce efektu počtu sourozenců na intenzitu odchodu od rodičů. Porovnání výsledků
získaných pomocí logit-lineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Zobrazeny jsou
95% intervaly spolehlivosti pro každou úroveň faktoru oproti základní úrovni, jíž je zde nula sourozenců. Na
ose y je použito logaritmické měřítko. Vlastní výpočet.
Efekt počtu sourozenců lze representovat také jednou R-funkcí, podobně jako tomu bylo
v Flatau et al. (2003), i když jeho použití v tomto případě je problematické (počet sourozenců
je diskrétní a relativně malý, takže reprezentace pomocí kovarianty neproměnné v čase je
obecně lepší). Výsledky jsou ovšem velmi podobné (viz graf 6-55).
180
Intenzita
95% UCL
95% LCL
3.0
2.8
2.6
2.4
2.2
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0
1
2
3
4
5
Počet sourozenců
Graf 6-55: Odhadnutá funkce efektu počtu sourozenců na intenzitu odchodu od rodičů pomocí log-lineárního
modelu intenzity. Počet proměnných zde byl reprezentován pomocí lineárního splinu. Zobrazeny jsou 95%
intervaly spolehlivosti pro výsledný spline. Na ose y je použito logaritmické měřítko. Vlastní výpočet.
Při srovnání s jinými zemí je vidět, že výsledky jsou pro Českou republiku obdobné.
Obzvláště pro blízké Polsko (Sienkiewicz (2003)) jsou i výsledky velmi blízké a rozdíly
mohou mít příčinu v rozdílných modelech, které byly použity (ANOVA v polském případě,
odstranění vlivu jiných a méně proměnných).
3.0
ČR, ženy (logit-lineární model)
Polsko, muži
Polsko, ženy
2.8
2.6
2.4
2.2
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0
2
1
>2 (Polsko)
3
>3 (ČR)
Graf 6-56: Porovnání vlivu počtu sourozenců na intenzitu odchodu od rodičů v ČR a v Polsku. Na ose y je
použito logaritmické měřítko. Údaje za ČR vlastní výpočet, údaje za Polsko na základě Sienkiewicz (2003).
V porovnání s Austrálií (Flatau et al. (2003)) při respektování stejné reprezentace počtu
sourozenců se sklony křivek od sebe liší, ovšem opět to může být dáno jiným modelem
(Coxova regrese v případě Flatau et al. (2003)) a jinými proměnnými v něm použitém. Také
je možné, že se jedná alespoň částečně o důsledek výrazné koncentrace plodnosti na 2 děti
v případě České republiky. Jinak by výsledek mohl naznačovat, že počet sourozenců má
v České republice výraznější vliv na intenzitu odchodu od rodičů než v Austrálii (graf 6-57).
181
Austrálie, nejstarší děti v rodině
Aus trálie, ostatní
3.0
2.8
2.6
2.4
2.2
2.0
1.8
1.6
1.4
1.2
1.0
0.8
0
1
2
3
4
5
Počet sourozenců
Graf 6-57: Porovnání vlivu počtu sourozenců na intenzitu odchodu od rodičů v ČR a v Austrálii. Na ose y je
použito logaritmické měřítko. Údaje za ČR vlastní výpočet, údaje za Austrálii na základě Flatau et al. (2003).
Efekt období (periody, kalendářního roku)
Bezpochyby zajímavou otázkou je, jak se mění intenzita odchodu od rodičů v čase. Zda a jak
se tato intenzita mění při odstranění ostatních vlivů. V českých podmínkách samozřejmě
rozšířena o otázku, zda se tento vliv změnil začátkem 90. let 20. století.
Vliv období má samozřejmě těsnou souvislost s vlivem kohorty a tyto dva vlivy jsou spolu
vysoce korelovány. Pokud by byly zahrnuty ve zde použitém modelu obě proměnné, odhady
parametrů by mohly být nevěrohodné (viz např. Winship a Harding (2004)). Pro modelování
je tedy třeba se rozhodnout, kterou z těchto dvou proměnných zvolit. Např. ze srovnávaných
studií byly v australské studii Flatau et al. (2003) i ve studii polských dat Sienkiewicz (2003)
zvoleny proměnné s kohortou. Zde byla na základě předvýběru vybrána naopak proměnná
reprezentující období (kalendářní čas). To také koresponduje s argumentací upřednostňující
aktuální proměnné (viz např. Hoem (1996)).
I přes tento problém nemožnosti srovnat stejné proměnné, je možné alespoň nepřímo usuzovat
na vliv období. Z výsledků Flatau et al. (2003) vyplývá, že nejvyšší intenzity dosahoval
proces odchodu od rodičů v Austrálii ve dvacátém století (očištěný o další proměnné) kolem
sedmdesátých let tohoto století. Od té doby tato intenzita klesá. Podobné závěry vycházejí
i z polských dat (Sienkiewicz (2003)), které se týkají přibližně 70. až poloviny 90. let
minulého století.
Analýza
Z analyzovaných dat nebylo možno nalézt výrazný efekt kalendářního roku. To ostatně
i koresponduje s tím, že proměnná reprezentující období byla přidána při krokové tvorbě
modelu až jako poslední. Zároveň je třeba připomenout, že během předvýběru nebyla
indikována žádná možná interakce mezi touto proměnnou a jinými proměnnými. Takže vliv
období bylo možné modelovat pomocí jednoduché funkce.
Oba použité modely se shodují v tom, že dochází k poklesu intenzity v období přibližně po
roce 1980, do té doby se modely mírně liší, ale například změny v intenzitě (růst) odhadnuté
pomocí logit-lineárního modelu pravděpodobnosti jsou pro toto období statisticky
neprůkazné. Také byla zkoumána hypotéza o změně po roce 1990. Odhadnutý průběh funkce
182
naznačoval, že by mohlo dojít k trochu většímu poklesu sledované intenzity, ale tento pokles
nebyl statisticky významný (ostatně naznačuje jej i tvar křivky u logit-lineárního modelu
pravděpodobnosti).
Jako poznámku lze zde uvést, že v tomto případě je možné libovolně měnit posun
zobrazených splinů po ose y (jedná se o nepodmíněnou funkci a tedy by bylo možné ji brát
i za základní spline namísto věku). Posun na ose y byl určen tak, aby v prvním případě (graf
6-58) maximum bylo 1, v druhém případě (graf 6-59), aby se shodovala hodnota uprostřed
sledovaného intervalu (pro lepší porovnání).
1.1
1.0
0.9
Intenzita
95% UCL
95% LCL
0.8
0.7
0.6
0.5
1965 1970 1975 1980 1985 1990 1995 2000
Rok
Graf 6-58: Odhadnutá funkce vlivu období na intenzitu odchodu od rodičů pomocí log-lineárního modelu
intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Zobrazeny jsou 95%
intervaly spolehlivosti pro každou část (směrnici) splinu. Funkce byla standardizována tak, aby maximum bylo
rovno 1. Na ose y je použito logaritmické měřítko. Vlastní výpočet.
1.1
1.0
0.9
Intenzita
95% UCL
95% LCL
0.8
0.7
0.6
0.5
1965 1970 1975 1980 1985 1990 1995 2000
Rok
Graf 6-59: Odhadnutá funkce vlivu období na intenzitu odchodu od rodičů pomocí logit-lineárního modelu
pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Zobrazeny jsou 95%
intervaly spolehlivosti pro každý bod splinu. Funkce byla standardizována tak, aby její hodnota byla v polovině
intervalu shodná s hodnotou odhadnutou pomocí log-lineárního modelu intenzity. Na ose y je použito
183
1.0
0.9
0.8
0.7
0.6
0.5
1965 1970 1975 1980 1985 1990 1995 2000
1.1
Rok
Graf 6-60: Odhadnutá funkce vlivu období na intenzitu odchodu od rodičů. Porovnání výsledků získaných
pomocí logit-lineárního modelu pravděpodobnosti a log-lineárního modelu intenzity. Spojité proměnné jsou
reprezentovány pomocí kubických resp. po částech lineárních splinů. Funkce byly standardizovány tak, aby si
byly rovny v polovině intervalu a aby maximum bylo rovno 1. Na ose y je použito logaritmické měřítko. Vlastní
výpočet.
Již bylo konstatováno, že studie, s nimiž je tato analýza porovnávána (v tomto případě Flatau
et al. (2003) a Sienkiewicz (2003)), namísto proměnné období uvažovaly proměnnou
reprezentující kohortu. Tedy není možné přímé porovnání výsledků. Ovšem je možné toto
porovnání provést alespoň zhruba nepřímo. Můžeme uvažovat příslušné kohorty s rozdílem
25 let (přibližný mediánový věk při odchodu od rodičů), chyba, jíž se dopustíme tímto
postupem, bude malá. Potom lze pozorovat podobný trend ve všech třech těchto zemích.
1.1
Austrálie, ženy
Polsko, ženy
1.0
0.9
0.8
0.7
0.6
0.5
1965 1970 1975 1980 1985 1990 1995 2000
Rok
Graf 6-61: Porovnání vlivu období na intenzitu odchodu od rodičů v ČR, v Austrálii a v Polsku. Na ose y je
použito logaritmické měřítko. Údaje za ČR vlastní výpočet, údaje za Austrálii na základě Flatau et al. (2003),
údaje za Polsko na základě Sienkiewicz (2003).
184
Efekt rozvodu rodičů
Rozvod rodičů, a tedy soužití v neúplné rodině, je bezpochyby výraznou změnou v rodině,
která má vliv na další procesy uvnitř této rodiny. Lze tedy předpokládat, že může mít vliv i na
sledovaný proces odchodu od rodičů (v tomto případě často de facto od jednoho z nich).
Jedná se ovšem o předem obtížněji odhadnutelný vliv.
Například Richardson a McCabe (2001) uvádějí na základě amerických dat, že adolescenti
z rozvedených rodin cítí větší problémy a mají slabší vztah mezi rodiči a nimi v průběhu
dospívání než stejně staří z nerozvedených rodin. To může mít samozřejmě vliv i na odchod
od rodičů.
Skupina osob, jejichž rodiče se rozvedli, se velmi překrývá se skupinou osob, jež nežijí
v úplně rodině. Lze to ilustrovat i na datech z ČR, které byly použity pro tuto analýzu. V ní
byly tyto údaje zjišťovány pomocí otázek „S kým jste žila po většinu času do svých patnácti
let?“ a „Rozvedli se někdy Vaši rodiče?“, kdy tato byla doplněna otázkou „Kolik Vám bylo
let, když se tak stalo?“. Pokud uvažujeme rozdělení zkoumaných osob do dvou skupin dle
rozvodu rodičů, přibližně z 90 % toto rozdělení odpovídá i rozdělení dle typu rodiny (tj. oba
rodiče na straně jedné a zbylé případy na straně druhé). To je vidět i z tabulek 6-12 a 6-13,
které shrnují dobu expozice dle rozvodu rodičů a typu rodiny (červeně jsou vyznačeny
souhlasné části).
Ze srovnávaných studií se ve studii za Polsko (Sienkiewicz (2003)) a za Japonsko (Suzuki
(2001)) zkoumal vliv typu rodiny. V polském případě se uvažovalo dělení na dva stavy – žití
v úplné rodině (s oběma rodiči) a ostatní, v japonském případě se uvažovalo dělení na stavy
žití v úplné rodině a žití pouze s jedním z rodičů. V obou případech se ukázalo, že žití
v neúplné rodině zvyšuje intenzitu odchodu v porovnání s úplnou rodinou.
Rozvod Ne
rodičů Ano
Typ rodiny
Oba rodiče
9520.2
663.0
Pouze otec
37.2
88.9
Pouze matka Ani jeden rodič
438.5
12.7
716.0
56.3
Tab. 6-12: Rozdělení expozice dle proměnných rozvod rodičů a typ rodiny ve zkoumaném souboru žen v ČR.
Červeně jsou označeny souhlasné hodnoty. Vlastní výpočet.
Rozvod Ne
rodičů Ano
Typ rodiny
Oba rodiče
82.5%
5.7%
Pouze otec
0.3%
0.8%
Pouze matka Ani jeden rodič
3.8%
0.1%
6.2%
0.5%
Tab. 6-13: Rozdělení expozice v procentech celkové expozice dle proměnných rozvod rodičů a typ rodiny ve
zkoumaném souboru žen v ČR. Červeně jsou označeny souhlasné hodnoty. Vlastní výpočet.
Analýza
V případě vlivu rozvodu rodičů na studovanou intenzitu odchodu od rodičů (resp. od jednoho
z nich) se uvažovalo několik možností, které vzešly z předvýběru a možností zdrojových dat.
Jednalo se o možnou reprezentaci pomocí podmíněné D-funkce a pomocí kovarianty
proměnné v čase. Z předvýběru také vzešla možnost vlivu proměnného dle věku (interakce
s věkem). Stejně tak byla zkoumána možnost větší závislosti na typu rodiny než na rozvodu
rodičů.
185
V průběhu analýzy se ukázala jako nejlépe odpovídající varianta reprezentace pomocí
interakce s věkem. Výsledky ukazují (viz grafy 6-62 až 6-64), že největší vliv má rozvod
rodičů na intenzitu odchodu od rodičů v nejmladších zkoumaných věcích – kolem 15. roku je
tento vliv poměrně vysoký (zvyšuje danou intenzitu 2.5 až 3.5 krát), ale přibližně mezi 15. až
20. rokem tento vliv prudce klesá, v čemž se shodují oba použité modely. Po dvacátém roce
věku už je tento vliv spíše malý – použité dva modely se zde mírně rozcházejí, ale je třeba
připomenout, že jejich odhady zde nejsou velmi přesné (velké odhady chyb).
Intenzita
95% UCL
95% LCL
9
8
7
6
5
4
3
2
1
12 14 16 18 20 22 24 26 28 30 32 34 36
Věk
Graf 6-62: Odhadnutá funkce efektu rozvodu rodičů v závislosti na věku na intenzitu odchodu od rodičů pomocí
log-lineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů.
Zobrazeny jsou 95% intervaly spolehlivosti pro každou část (směrnici) splinu. Referenční skupinu, které
odpovídá hodnota 1, představují osoby, jejichž rodiče se (zatím) nerozvedli. Na ose y je použito logaritmické
Intenzita
95% UCL
95% LCL
9
8
7
6
5
4
3
2
1
12 14 16 18 20 22 24 26 28 30 32 34 36
Věk
Graf 6-63: Odhadnutá funkce efektu rozvodu rodičů v závislosti na věku na intenzitu odchodu od rodičů pomocí
logit-lineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů.
Zobrazeny jsou 95% intervaly spolehlivosti pro každý bod splinu. Referenční skupinu, které odpovídá hodnota 1,
představují osoby, jejichž rodiče se (zatím) nerozvedli. Na ose y je použito logaritmické měřítko. Vlastní
výpočet.
186
2
1
12 14 16 18 20 22 24 26 28 30 32 34 36
9
8
7
6
5
4
3
Věk
Graf 6-64: Odhadnuté funkce efektu rozvodu rodičů v závislosti na věku na intenzitu odchodu od rodičů.
Porovnání výsledků získaných pomocí logit-lineárního modelu pravděpodobnosti a log-lineárního modelu
intenzity. Referenční skupinu, které odpovídá hodnota 1, představují osoby, jejichž rodiče se (zatím) nerozvedli.
Na ose y je použito logaritmické měřítko. Vlastní výpočet.
Porovnání lze, podobně jako u vlivu období, provést se srovnávanými studiemi pouze
nepřímo. Studie, které zahrnovaly vliv rodiny zkoumaných osob, nezahrnovaly proměnnou
reflektující rozvod rodičů, ale typ rodiny. V případě této studie se však ukázal rozvod rodičů
jako lépe vysvětlující než typ rodiny. Nicméně, jak bylo ukázáno výše, jde o dvě velice
související proměnné (přibližně z 90 % si odpovídající) a lze tedy provést alespoň základní
srovnání.
V případě japonských dat (Suzuki (2001)) bylo pouze zkoumáno, zda se od sebe dané dvě
skupiny liší. V případě polské studie (Sienkiewicz (2003)) se také odhadovala velikost efektu.
Ovšem pouze velikost hlavního efektu, což také stěžuje porovnání. Obecně by mohlo být
konstatováno, že rozvod rodičů (resp. typ původní rodiny) zvyšuje studovanou intenzitu,
v případě ČR hlavně či převážně jen v nejranějším období po 15. roku života.
Pokud bychom provedli analýzu, která by měla za cíl srovnání s polskými daty (Sienkiewicz
(2003)), zjistili bychom, že velikost efektu je přibližně srovnatelná pro ČR i pro Polsko (viz
graf 6-65). Ovšem je třeba podotknout, že reprezentace pomocí podmíněného splinu závislém
na věku byla statisticky odůvodnitelná a proto její výsledky jsou z tohoto pohledu více
odpovídající skutečnosti.
187
Graf 6-65: Porovnání vlivu rozvodu rodičů, resp. žití v neúplné rodině na intenzitu odchodu od rodičů (rodiče)
v ČR a v Polsku. Na ose y je použito logaritmické měřítko. Údaje za ČR vlastní výpočet, údaje za Polsko na
základě Sienkiewicz (2003).
Efekt soužití s partnerem
Počátek soužití s partnerem je jedním ze základních procesů přechodu do dospělosti. Jedná se
dokonce o jeden z možných důvodů odchodu od rodičů. Je proto logické utvořit hypotézu, že
žití s partnerem bude mít vliv na intenzitu odchodu od rodičů.
Jako připomenutí zde lze uvést, že v této studii nebyly zkoumány anticipatorní vlivy
proměnných. Tedy např. fakt, že zkoumaná osoba odešla od rodičů, aby v brzké době začala
žít s partnerem, se v této studii neprojeví. Uvažují se pouze situace, kdy daná osoba začala
nejprve žít s partnerem a teprve později odešla z domova (tedy de facto partner žil spolu s ní
nějakou dobu v původní rodině).
Aassve et al. (2001) konstatují na základě aktuálních dat z Itálie, že obzvláště pro ženy
(v Itálii) je nalezení partnera klíčovým faktorem pro odchod od rodičů. Billari, Philipov a
Baizán (2001) toto potvrzují i pro Českou republiku pro kohortu narozenou kolem roku 1960,
když uvádějí, že ve střední a východní Evropě lidé častěji nejprve počínají žít s partnerem a
teprve poté odcházejí od rodičů. Pro Českou republiku uvádějí údaj 34 % žen, které nejprve
začnou žít s partnerem a teprve poté odcházejí od rodičů, naproti tomu 51 % odchází
z domova současně se sňatkem a jen 14 % nejprve odchází. (Pro porovnání se zde použitým
vzorkem viz tab. 6-14.)
Lze předpokládat, že daný vliv bude záviset také na dalších faktorech – na tom, zda
s partnerem uzavřeli manželství či zda spolu již mají nebo očekávají dítě. Otázkou také je, zda
se vliv mění v závislosti na věku. S těmito předpoklady souvisel i výsledek předvýběru, kdy
se do další analýzy vybraly proměnné reprezentující samotný fakt soužití s partnerem,
interakce s věkem, interakce s proměnnou reprezentující manželství a trojná interakce
s věkem a manželstvím. Dále se po předvýběru nezkoumala možnost souvislosti s narozením
prvního dítěte. Jak je ale vidět z tabulek 6-15 a 6-16, to velmi souvisí s tím, zda partneři spolu
žili v manželství či nikoliv. Také byla dále zkoumána (a ukázala se jako významná) interakce
mezi manželstvím a první koncepcí.
188
Tabulky 6-15 a 6-16 udávají přehled expozice v jednotlivých skupinách rozdělených dle
soužití s partnerem, dle manželství a dle prvního dítěte (resp. jeho očekávání). Pokud se nyní
zajímáme o vliv soužití s partnerem, je vidět, že přibližně v 80 % případů to znamená, že
zkoumaná žena žila s manželem. Také je vidět, že z toho opět asi v 80 % případů již měla či
očekávala první dítě (manželství zde bylo často uzavřeno velmi brzy po první koncepci, ještě
před narozením dítěte, příp. naopak k první koncepci došlo velmi brzo po uzavření manželství
– viz graf 6-66). Naopak, pokud partneři spolu žili, ale nebyli manželé, dítě měli či očekávali
pouze asi v 1/3 případů. Toto samo o sobě již udává jistou charakteristiku vlivu soužití
s partnerem a také to má důsledky na interpretaci výsledků.
Nejprve soužití
s partnerem
20%
Nejprve odchod
od rodičů
15%
Odchod i soužití
současně
65%
Tab. 6-14: Rozdělení pořadí odchodu od rodičů a soužití s partnerem ve zkoumaném souboru žen v ČR. Vlastní
výpočet.
Žití s partnerem
Ne
Manželství
Ne
10083.1
9934.3
Ano
81.9
148.8
Ano
247.7
182.2
45.1
36.8
1120.1 252.7
65.5
867.4
Tab. 6-15: Rozdělení expozice (osoba.rok) dle proměnných žití s partnerem, manželství a první koncepce ve
zkoumaném souboru žen v ČR. Červeně označeny jsou skupiny popsané detailněji níže v části této podsekce
Analýza. Vlastní výpočet.
Žití s partnerem
Ne
Manželství
Ne
87.4%
86.1%
Ano
0.7%
1.3%
Ano
2.1%
1.6%
0.6%
0.4%
0.3%
9.7%
2.2%
7.5%
Tab. 6-16: Rozdělení expozice (osoba.rok) dle proměnných žití s partnerem, manželství a první koncepce
v procentech z celkové expozice ve zkoumaném souboru žen v ČR. Červeně jsou označeny skupiny popsané
detailněji níže v části této podsekce Analýza. Vlastní výpočet.
189
34
32
30
28
26
24
22
20
18
16
14
12
14
16
18
20
22
24
26
28
30
32
Věk při sňatku
Graf 6-66: Závislost věku při sňatku a věku při první koncepci ve skupině žen, které žily s partnerem, vdaly se a
počaly první dítě před odchodem od rodičů. Zobrazena je také přímka y = x (tj. shodná doba početí a uzavření
manželství). Vlastní výpočet.
Analýza
Vlastní analýza ukázala poměrně složitý vliv soužití s partnerem na proces odchodu od
rodičů. Jako významné se ukázaly být proměnné reprezentující interakci mezi samotným
žitím s partnerem a věkem a dále interakce mezi žitím s partnerem a manželstvím. Ovšem
proměnná reprezentující manželství byla dále nalezena být v interakci s proměnnou
reprezentující první koncepci a také vliv manželství závisí na době od uzavření manželství.
Podle toho je také třeba rozdělit výsledky. Prakticky zde budou analyzovány tři nejpočetněji
zastoupené skupiny žijící s partnerem před odchodem od rodičů (viz tab. 6-15 a 6-16) –
skupina žen žijící v nesezdaném soužití bez prvního dítěte či jeho očekávání, skupina žen,
žijící v sezdaném soužití bez prvního dítěte či jeho očekávání a jako třetí a největší skupina
těch žen, které žijí v sezdaném soužití a mají či již očekávají první dítě. Tomu odpovídá
i rozdělení následného textu analýzy na tři části, čtvrtou část potom tvoří souhrn za všechny
tři zde uvedené skupiny. Vliv poslední skupiny - žen, jež žijí s partnerem v nesezdaném
soužití a očekávají nebo již mají první dítě, lze modelovat pomocí zde použitých modelů jako
prostý součet (v zlogaritmované verzi modelů) vlivů soužití s partnerem a první koncepce.
První skupina - nesezdaná soužití
Nejprve se zaměříme na skupinu těch, které žily s partnerem v nesezdaném soužití. V tomto
případě oba modely podobně ukazují na poměrně velký vliv hned na začátku zkoumaného
období (po 15. roce života). Tento vliv se strmě zmenšuje převážně v prvních přibližně pěti
letech. Je však třeba vzít v úvahu, že do 18 let je dat poměrně málo (což odpovídá i velké
odhadnuté chybě u počátku splinu). Kolem 25. roku života již v tomto případě není vliv
nikterak významný, což platí i pro další období. Průběh křivek a jejich srovnání je vidět na
grafech 6-67, 6-68 a 6-69.
190
20.0
Intenzita
95% UCL
95% LCL
6.0
4.0
2.0
1
0.6
0.4
0.2
12 14 16 18 20 22 24 26 28 30 32 34 36
Věk
Graf 6-67: Odhadnutá funkce efektu žití s partnerem v závislosti na věku na intenzitu odchodu od rodičů ve
skupině žen žijících v (zatím) nesezdaném soužití pomocí log-lineárního modelu intenzity. Spojité proměnné
jsou reprezentovány pomocí po částech lineárních splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro
každou část (směrnici) splinu. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí
s partnerem. Na ose y je použito logaritmické měřítko. Vlastní výpočet.
20.0
Intenzita
95% UCL
95% LCL
6.0
4.0
2.0
1
0.6
0.4
0.2
12 14 16 18 20 22 24 26 28 30 32 34 36
Věk
skupině žen žijících v (zatím) nesezdaném soužití pomocí logit-lineárního modelu pravděpodobnosti. Spojité
proměnné jsou reprezentovány pomocí kubických splinů. Zobrazeny jsou 95% intervaly spolehlivosti pro každý
bod splinu. Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem. Na ose y
je použito logaritmické měřítko. Vlastní výpočet.
191
6.0
4.0
2.0
1
0.6
0.4
0.2
12 14 16 18 20 22 24 26 28 30 32 34 36
20.0
Věk
skupině žen žijících v (zatím) nesezdaném soužití. Porovnání výsledků získaných pomocí logit-lineárního
modelu pravděpodobnosti a log-lineárního modelu intenzity. Referenční skupinu, které odpovídá hodnota 1,
představují osoby, které nežijí s partnerem. Na ose y je použito logaritmické měřítko. Vlastní výpočet.
Druhá skupina - sezdaná soužití před okamžikem první koncepce
Další analyzovanou skupinou budou ty osoby, které žijí s partnerem v sezdaném soužití, ale
zatím nemají ani nečekají první dítě. V tomto případě se jedná o stejnou skupinu, jako již byla
popsána při zkoumání vlivu sňatku na odchod od rodičů (první tam popsaná skupina).
Nebudou zde tedy opakovány grafy a diskuse tam uvedené (jedná se o grafy 6-46 až 6-53).
Jenom lze shrnout, že výsledný efekt závisel na dvou faktorech a to na věku, ale také na době
od uzavření manželství. Podobně jako u předchozí skupiny žen žijící v nesezdaném soužití,
i zde je nejvyšší vliv na intenzitu odchodu od rodičů v době přibližně mezi 15. až 20. rokem
života. Z pohledu délky manželství se ukazuje jako nejrizikovější doba hned po uzavření
sňatku a také po době kolem čtyř let od uzavření sňatku.
Třetí skupina - sezdaná soužití po okamžiku první koncepce
Poslední zkoumaná skupina jsou ženy žijící v sezdaném partnerském soužití, které mají nebo
očekávají první dítě. Opět se jedná o již dříve studovanou skupinu. Detailní popis průběhu
vlivu na intenzitu odchodu od rodičů je popsán v podsekci 6.8 Výsledky – Efekt první
koncepce (druhá skupina, grafy primárně 6-20 až 6-29). Jen zde lze shrnout, že v tomto
případě se projevuje nejvýrazněji vliv první koncepce, kdy kolem porodu je dosahováno
maxima, ale přibližně rok po porodu již intenzita výrazně klesá. V závislosti na věku intenzita
klesá a v závislosti na délce manželství jsou zde dvě maxima – brzy po sňatku a poté za
několik let po sňatku (odhad kolem čtyř let po sňatku). Kromě času kolem porodu je intenzita
na úrovni či i nižší v porovnání s referenční skupinou nežijících s partnerem (před sňatkem a
první koncepcí).
Souhrn všech skupin žijících s partnerem
Shrnutí vlivu soužití s partnerem na odchod od rodičů je dáno v souboru grafů 6-70 až 6-77.
Data byla analyzována rozděleně dle doby od případného sňatku a dle doby od případné první
koncepce. Nedostatek dat způsobil, že nebyla analyzována zvlášť nejmenší skupina žen
žijících v nesezdaném partnerství, které očekávají nebo již se jim narodilo první dítě.
192
V souhrnných grafech 6-70 až 6-77 jsou opět použity typické scénáře pro ilustraci vlivu
soužití s partnerem ve skupinách žijících s partnerem v manželství (obdobně jako u třetí
skupiny v této analýze, velká část dat se blíží těmto scénářům). V tomto případě jde u skupiny
osob bez první koncepce o uzavření sňatku v 17 letech věku a 22 letech věku. U skupiny žen,
které žily v sezdaném soužití a narodilo se jim první dítě (či jej očekávaly), se použily scénáře
stejné jako již dříve – tedy sňatek i první koncepce v 17 a 22 letech věku a sňatek navazující
půl roku po první koncepci v 17 a 22 letech věku.
První skupina grafů (grafy 6-70 až 6-73) shrnuje vliv soužití s partnerem v porovnání
s referenční skupinou, již tvoří ženy nežijící s partnerem. Je vidět, že obecně nejvyšší
(průměrně několikanásobná) intenzita odchodu od rodičů v porovnání s referenční skupinou je
ve skupině žijících v sezdaném soužití. Naopak ženy ze skupiny těch, které žijí v sezdaném
manželství již několik let s dítětem, odcházejí od rodičů stejně či dokonce méně než ženy
z referenční skupiny.
Referenční skupina
Nesezdané soužití
Sňatek v 17
Sňatek v 17, 1. koncepce v 17
Sňatek v 17.5, 1. koncepce v 17
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
17
18
19
20
21
22
Věk
Graf 6-70: Porovnání vlivu soužití s partnerem na odchod od rodičů ve skupinách dle typu soužití a první
koncepce ve věku 17 až 22 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí loglineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů.
Referenční skupinu, které odpovídá hodnota 1, představují osoby, které nežijí s partnerem (a nejsou vdané a
nemají ani nečekají první dítě). Na ose y je použito logaritmické měřítko. Vlastní výpočet.
193
Sňatek v 17
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
17
18
19
20
21
22
Věk
koncepce ve věku 17 až 22 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí logitlineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů.
Sňatek ve 22
Sňatek ve 22, 1. koncepce v e 22
Sňatek ve 22.5, 1. koncepce ve 22
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
22
23
24
25
26
27
Věk
koncepce ve věku 22 až 27 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí loglineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů.
194
Sňatek ve 22
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
22
23
24
25
26
27
Věk
koncepce ve věku 22 až 27 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí logitlineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů.
Druhou skupinu souhrnných grafů tvoří absolutní hodnoty intenzity ve stejných případech
jako v první skupině souhrnných grafů. Rozdíl je tedy v tom, že nyní je zohledněn i vliv věku.
Tento se projevuje převážně v prvních grafech zobrazujících průběh intenzity odchodu od
rodičů mezi 17. a 22. rokem věku, neboť zde intenzita odchodu ze samotné referenční skupiny
vzroste asi 2x až 3x. Na druhou stranu v dalším období mezi 22. a 27. rokem věku je intenzita
odchodu od rodičů v referenční skupině takřka konstantní (udržuje se na nejvyšších
hodnotách celkem) a grafy jsou tedy velmi obdobné grafům 6-72 a 6-73 (liší se pouze
měřítkem na ose y).
Jako poznámku lze na tomto místě uvést, že stejně jako i u všech předchozích grafů v této
analýze (i jiných) je i zde odstraněn vliv dalších proměnných, tedy absolutní hodnoty zde
nemusí odpovídat nejtypičtějšímu průběhu (pro porovnání viz graf 6-7). Opět, jako i u jiných
výsledných grafů, je nejdůležitější poměr mezi jednotlivými hodnotami.
Účelem těchto souhrnných grafů je tedy podat jiný pohled na chování v jednotlivých
skupinách žijících s partnerem (se zahrnutím chování samotné referenční skupiny).
195
Sňatek v 17
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
16
17
18
19
20
21
22
Věk
koncepce ve věku 17 až 22 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí loglineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Vliv
ostatních proměnných byl odstraněn, což má vliv na absolutní hodnoty na ose y – důležité jsou zde poměry mezi
jednotlivými hodnotami. Referenční skupina zahrnuje osoby, které nežijí s partnerem (a nejsou vdané a nemají
ani nečekají první dítě). Na ose y je použito logaritmické měřítko. Vlastní výpočet.
Sňatek v 17
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
16
17
18
19
20
21
22
Věk
koncepce ve věku 17 až 22 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí logitlineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Vliv
jednotlivými hodnotami. Referenční skupinu zahrnuje osoby, které nežijí s partnerem (a nejsou vdané a nemají
196
Sňatek ve 22
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
21
22
23
24
25
26
27
Věk
koncepce ve věku 22 až 27 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí loglineárního modelu intenzity. Spojité proměnné jsou reprezentovány pomocí po částech lineárních splinů. Vliv
Sňatek ve 22
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
21
22
23
24
25
26
27
Věk
koncepce ve věku 22 až 27 let. Pro některé skupiny jsou použity vybrané typické scénáře. Odhad pomocí logitlineárního modelu pravděpodobnosti. Spojité proměnné jsou reprezentovány pomocí kubických splinů. Vliv
197
Z porovnávaných studií konstatovali Aassve et al. (2001) pro případ Itálie velký vliv nalezení
partnera na proces odchodu od rodičů a to obzvláště pro ženy. Billari, Philipov a Baizán
(2001) takový závěr potvrzují pro země střední a východní Evropy, včetně České republiky.
V případě této studie lze učinit závěr poněkud komplikovanější. V první řadě je třeba
připomenout, že se týkala pouze žen, které nejprve počaly žít s partnerem a teprve později
odešly od rodičů. Takové chování se vyskytlo u přibližně 20 % žen ve zkoumaném souboru.
Pro ženy, které doposud nemají ani neočekávají první dítě, lze tento vliv na základě zde
uvedených výsledků potvrdit (v případě nesezdaného soužití hlavně v mladších věcích do
přibližně 25 let). Intenzita odchodu od rodičů je v takovém případě až několikanásobně vyšší
než u skupiny žen, které nežijí s partnerem. Jiná situace nastává v případě období po první
koncepci (to se týká největší skupiny a to převážně sezdaných soužití - viz více jak 10x větší
expozice v porovnání s nesezdanými soužitími v případě zde použitých dat, tab. 6-16).
V takovém případě je mírně zvýšená intenzita odchodu od rodičů brzy po sňatku, resp. v době
těhotenství, ale poté se poměrně brzy (do méně než dvou let) snižuje na hladinu skupiny žen
nežijících s partnerem nebo dokonce je tato intenzita i spíše nižší.
Přehled výsledků
V tabulkách 6-17 až 6-19 (resp. i 6-20 až 6-22) níže jsou odhadnuté parametry konečného
modelu 3.stupně v případě log-lineárního modelu intenzity:
ln hi (t ) = ∑ f k (u ik + t ) + ∑ f l ( wil ) ,
k
l
tj. pro model, kde jsou efekty jednotlivých proměnných reprezentovány pomocí po částech
lineárního splinu.
Hodnoty parametrů aproximace pomocí logit-lineárního modelu pravděpodobnosti zde nejsou
uvedeny z důvodu jejich velkého množství – spojité proměnné byly reprezentovány pomocí
kubických splinů, tedy pomocí neparametrických (resp. mnoho-parametrických) křivek.
Odhadnuté hodnoty parametrů modelu v zlogaritmované verzi
Po částech lineární spojité D-funkce
Hodnoty v tabulkách jsou počáteční hodnoty splinů (absolutní členy) nebo směrnice daného
splinu.
Věk
14.5 - 16 16 - 19 19 - 22 22 - 30
30 -
Doba od první koncepce (roky)
0
0 - 0.75 0.75 - 1.75 1.75 -
Hodnota
0.49
0.55
0.03
-0.04
-0.22
-0.33
2.29
-1.09
0.00
Standardní
chyba
0.43
0.10
0.07
0.09
0.79
0.30
0.54
0.26
0.00
Tab. 6-17, 1. část: Přehled odhadnutých efektů spojitých D-funkcí v log-lineárním modelu intenzity. Jedná se
o parametry po částech lineárních splinů (absolutní členy a směrnice křivek). Vlastní výpočet.
198
Doba od prvního
sexuálního styku (roky)
0
0-2
2-
Doba od sňatku (roky)
Rok
0
0-2
2-4
4-
1967 - 1997
Hodnota
1.87
0.20
0.00
1.69
-0.18
0.40
-0.15
-0.01
Standardní
chyba
0.34
0.08
0.03
0.18
0.14
0.15
0.08
0.00
Indikátor soužití s
partnerem x věk
Indikátor prvního sexuální styku x věk
14.5
14.5 - 20
20 -
14.5
14.5 - 20
20 - 25
25 - 30
30 -
Hodnota
1.68
-0.28
-0.02
0
-0.26
0.03
-0.10
0.05
Standardní
chyba
0.49
0.11
0.04
-
0.08
0.07
0.12
0.80
Indikátor rozvodu rodičů
x věk
14.5 14.5 - 19.5
Hodnota
19.5 -
1.19
-0.24
0.05
Standardní
0.39
chyba
0.09
0.04
Kovarianty proměnné v čase
Indikátor
Indikátor
manželství x
manželství x
Nejvyšší vzdělání, studium
indikátor
indikátor soužití s
1.koncepce
partnerem
Žádný
1.
2.
3.
Manž. +
Manž. +
Studující
Jinak
Jinak
stupeň stupeň stupeň stupeň 1.konc.
soužití
Hodnota
-0.27
-0.43
0
0.19
0.50
-1.12
0
-1.25
0
Standardní
chyba
0.18
0.17
-
0.08
0.14
0.20
-
0.20
-
Tab. 6-18: Přehled odhadnutých efektů kovariant proměnných v čase v log-lineárním modelu intenzity. Základní
úroveň každého faktoru má hodnotu 0 a jsou k ní vztaženy údaje o standardní chybě. Vlastní výpočet.
199
Konstanta a kovarianta neproměnná v čase
Konstanta
Počet sourozenců
0
1
2
3
>3
Hodnota
-5.30
0
0.11
0.15
0.34
0.47
Standardní
chyba
0.57
-
0.13
0.14
0.15
0.16
Tab. 6-19: Přehled odhadnutých efektů kovarianty neproměnné v čase a konstanty (de facto také kovarianty
neproměnné v čase) v log-lineárním modelu intenzity. Základní úroveň faktoru má hodnotu 0 a jsou k ní
vztaženy údaje o standardní chybě. Vlastní výpočet.
Odhadnuté hodnoty parametrů modelu v jeho exp(.) verzi
Standardní chyba v následujících tabulkách byla odhadnuta jako exp(SE)–1 původního
modelu (zlogaritmované verze).
Po částech lineární spojité D-funkce
Věk
14.5 - 16 16 - 19 19 - 22 22 - 30
30 -
Doba od první koncepce (roky)
0
0 - 0.75 0.75 - 1.75 1.75 -
Hodnota
1.63
1.73
1.03
0.96
0.80
0.72
9.87
0.34
1.00
Standardní
chyba
0.54
0.11
0.07
0.09
1.20
0.35
0.72
0.30
0.00
Tab. 6-20, 1. část: Přehled odhadnutých efektů spojitých D-funkcí v log-lineárním modelu intenzity v jejich
exp(.) verzi. V původní (zlogaritmované) verzi se jedná o po částech lineární spliny. Vlastní výpočet.
Doba od prvního
sexuálního styku (roky)
0
0-2
2-
Doba od sňatku (roky)
Rok
0
0-2
2-4
4-
1967 - 1997
Hodnota
6.49
1.22
1.00
5.42
0.84
1.49
0.86
0.99
Standardní
chyba
0.40
0.08
0.03
0.20
0.15
0.16
0.08
0.00
Indikátor soužití s
partnerem x věk
Indikátor prvního sexuální styku x věk
14.5
14.5 - 20
20 -
14.5
14.5 - 20
20 - 25
25 - 30
30 -
Hodnota
5.37
0.76
0.98
1
0.77
1.03
0.90
1.05
Standardní
chyba
0.63
0.12
0.04
-
0.08
0.07
0.13
1.23
200
Indikátor rozvodu rodičů
x věk
14.5 14.5 - 19.5
Hodnota
19.5 -
3.29
0.79
1.05
Standardní
0.48
chyba
0.09
0.04
Kovarianty proměnné v čase
Indikátor
Indikátor
manželství x
manželství x
Nejvyšší vzdělání, studium
indikátor
indikátor soužití s
1.koncepce
partnerem
Manž. +
Žádný
1.
2.
3.
Manž. +
Jinak
Jinak
Studující
soužití
stupeň stupeň stupeň stupeň 1.konc.
Hodnota
0.76
0.65
1
1.21
1.65
0.33
1
0.29
1
Standardní
chyba
0.20
0.19
-
0.08
0.15
0.22
-
0.22
-
Tab. 6-21: Přehled odhadnutých efektů kovariant proměnných v čase v log-lineárním modelu intenzity v jejich
exp(.) verzi. Základní úroveň každého faktoru má hodnotu 1 a jsou k ní vztaženy údaje o standardní chybě.
Vlastní výpočet.
Konstanta a kovarianta neproměnná v čase
Konstanta
Počet sourozenců
0
1
2
3
>3
Hodnota
0.00
1
1.12
1.16
1.40
1.60
Standardní
chyba
0.77
-
0.14
0.15
0.16
0.17
Tab. 6-22: Přehled odhadnutých efektů kovarianty neproměnné v čase a konstanty (de facto také kovarianty
neproměnné v čase) v log-lineárním modelu intenzity v jeho exp(.) verzi. Základní úroveň faktoru má hodnotu 1
a jsou k ní vztaženy údaje o standardní chybě. Vlastní výpočet.
6.9 Významnost proměnných
V této sekci je studována důležitost vlivu jednotlivých proměnných na zkoumanou intenzitu
odchodu od rodičů za použití metod popsaných v sekci 5.19 Významnost proměnných.
V této analýze byly použity interakce mezi proměnnými, což znesnadňuje přiřazení
významnosti jednotlivým proměnným, neboť některé proměnné jsou významnější u některých
skupin než u jiných. Proto zde je použita metoda založená na důležitosti pro model a to
porovnání oproti plnému modelu.
V tomto případě tedy byly porovnávány konečný model třetího stupně s modely, kdy byla
vždy vynechána jedna z proměnných. V případě, že vliv této proměnné se vyskytoval ve více
201
členech modelu (v interakcích s jinými proměnnými), byly vynechány všechny tyto členy.
Porovnávané hodnoty jsou potom rozdíly log-věrohodností těchto modelů a jsou zobrazeny
v grafu 6-78.
Hodnoty grafu 6-78 byly standardizovány tak, aby součet všech hodnot byl roven 1 (tedy zde
100 %). Pro zobrazení výsledků byl použit graf v Paretově stylu, kde se zobrazují jak dané
hodnoty, tak jejich kumulativní součty.
Pro samotný výpočet byl použit log-lineární model intenzity (s po částech lineárními
spojitými spliny).
1. koncepce
1. sex. styk
Věk
1. manželství
Soužití s partn.
Vzdělání a studium
Rozvod rodičů
Kalendářní rok
Počet sourozenců
0%
20%
40%
60%
80%
100%
Graf 6-78: Porovnání důležitosti proměnných na odchod od rodičů za použití metody založené na důležitosti pro
model – porovnání oproti plnému modelu. Vlastní výpočet.
Výsledky ukazují, že proměnné lze rozdělit do tří základních skupin. První skupinu tvoří
jediná proměnná a to proměnná reprezentující vliv první koncepce. Tedy ukazuje se, že
proces první koncepce má nejvýznamnější vliv na odchod od rodičů (samozřejmě jako v celé
této analýze – v případě, že k ní došlo ještě před odchodem). Do druhé skupiny středně
významných proměnných lze zařadit proměnné reprezentující první sexuální styk, věk a
proměnné reprezentující vliv manželství a soužití s partnerem. Třetí skupina nejméně
významných proměnných obsahuje všechny zbylé, které se ukázaly jako významné při tvorbě
modelu. Jedná se tedy o efekt vzdělání (a studia), rozvodu rodičů, období a počtu sourozenců.
6.10 Závěr
Studie v této kapitole se zabývala časováním odchodu od rodičů v České republice. Při studiu
byla použita data získaná z výzkumu Fertility and Family Survey (FFS), který v ČR proběhl
v roce 1997. Z důvodu specifičnosti FFS pro Českou republiku byla studována pouze ženská
část české populace. Studie se zabývala obdobím od 70. let 20. století po polovinu 90. let 20.
století. To je důležité vzít v potaz, neboť se ještě nestačily výrazně projevit obecně velké
změny v demografickém chování po pádu „komunistického“ režimu v roce 1989. Zde se
otevírá možnost porovnání výsledků této studie s budoucími výsledky za období po roce
1989, až budou k dispozici nová data.
202
Bylo konstatováno, že proces odchodu od rodičů bývá řazen mezi obecnější proces přechodu
do dospělosti. Spolu s ním sem bývají zařazeny další procesy – často to jsou ukončení
vzdělávání, počátek zaměstnání, počátek žití s partnerem a/nebo první sňatek a narození
prvního dítěte. V této souvislosti byl také proces odchodu od rodičů v České republice
zkoumán.
Ukázalo se, že odchodu od rodičů většinou předchází ukončení celodenního vzdělávání a
nástup do prvního zaměstnání. V případě vzdělávání se projevil vliv stupně vzdělání, kdy čím
vyšší bylo aktuální vzdělání, tím vyšší byla obecně i tendence k odchodu. Naopak v době
studia byla tato tendence výrazně nižší.
Pro ženy v České republice často platilo, že odchod od rodičů se kryl s uzavřením manželství
a počátkem žití s partnerem. V případě, že uzavření sňatku a/nebo počátek soužití s partnerem
předcházely odchodu od rodičů, posilovaly tendenci k odchodu. U sňatku byla tato tendence
nejvyšší v době brzy po sňatku a poté po několika letech. Naopak se ukázalo, že skupina žen,
které žily již několik let v sezdaném soužití, již měly menší tendenci od rodičů odejít než
jejich nevdané vrstevnice, jež nežily s partnerem.
Proces narození prvního dítěte byl v případě této studie nahrazen v tomto případě lépe
vypovídajícím procesem první koncepce. Samotné narození prvního dítěte většinou
přicházelo až po odchodu od rodičů, v případě první koncepce byl poměr přibližně vyrovnán.
Ovšem právě první koncepce obecně velmi uspíšila odchod od rodičů ve skupině žen, které do
té doby od rodičů neodešly. Poměrně krátké období kolem porodu bylo časem odchodu od
rodičů pro mnoho žen.
S procesy přechodu do dospělosti souvisí (a výjimečně mezi ně je i zařazován) také zjištěný
výrazný vliv prvního sexuálního styku. Ten se projevil převážně v mladších věcích, kdy
výrazně urychloval odchod od rodičů. V této souvislosti je možná hypotéza, že jde o indikátor
jiného procesu, např. počátku navázaní dlouhodobého partnerského vztahu. Nabízí se tedy
otázka, zda by tedy i jeden z těchto faktů (první sexuální styk nebo navázání dlouhodobého
partnerského vztahu) neměl být zařazován mezi klíčové procesy přechodu do dospělosti.
Celkově tyto výsledky potvrzují, že spojení procesů přechodu do dospělosti je oprávněné.
Vliv ostatních procesů přechodu do dospělosti na odchod od rodičů byl jednoznačně
dokumentován.
Na druhou stranu byl dokumentován i vliv původní rodiny, kdy vyšší počet sourozenců nebo
rozvod rodičů obecně mírně urychlovaly odchod od rodičů.
Byla také ukázána mírná tendence oddalování odchodu od rodičů během let pokrytých daty,
na nichž byla studie založena (tedy přibližně 70. léta až polovina 90. let minulého století) při
odstranění vlivu ostatních proměnných.
Naopak se zde nepotvrdil někdy uváděný rozdíl mezi obyvateli velkých měst a venkova (jako
dva extrémy). To může být dáno i metodou, která byla použita. V případě této studie se
hledaly takové okolnosti, které přímo působily na odchod od rodičů, nikoliv nepřímo
(hypoteticky např. obyvatelé velkých měst mohou odcházet později, ale proto, že i uzavírají
manželství později apod.).
203
Jedním z cílů této studie bylo také zkoumat možnosti log-lineárního modelu. V případě
odchodu od rodičů, kdy bylo zapotřebí modelovat chování různých skupin osob v závislosti
na několika dalších proměnných, lze říci, že se tento model ukázal jako dostatečně flexibilní.
Jako zobecnění často používaného Coxova modelu měl možnost podchytit „tradiční“ efekty –
kovarianty proměnné i neproměnné v čase. Zároveň však bylo možno modelovat změny vlivu
některé z proměnných v čase a to buď od okamžiku počátku (jako např. v případě manželství)
nebo v závislosti na věku (jako v případě vlivu prvního sexuálního styku). Také bylo možné
modelovat velice rychlé změny jako např. u vlivu první koncepce. Celkově je tedy dobré se
před použitím Coxova modelu (či podobných technik) ptát, zda není na místě spíše použití
tohoto obecnějšího modelu (zvláště, je-li k dispozici dostatek dat).
S tím souvisí i to, že Coxův model je populární také proto, že bylo poměrně snadné
odhadnout jeho parametry – proto je mj. zahrnut do mnoha softwarových statistických
nástrojů. Spolu s výrazným pokrokem ve výpočetních možnostech však tato výhoda padá a je
možno hledat odhady parametrů modelů, jež by např. před 20 lety byly neuskutečnitelné a
před 10 lety ještě stále poměrně obtížné.
V případě této studie byly pro odhad parametrů modelu použity dva způsoby – odhad přímo
log-lineárního modelu intenzity pomocí po částech lineárních splinů a aproximace pomocí
logit-lineárního modelu pravděpodobnosti pomocí kubických splinů (jako speciálního případu
zobecněného aditivního modelu). Obě tyto možnosti mají svá pro a proti.
Pro první způsob mluví možnost dobrého vystihnutí ostrých zlomů, jako v případě
modelování vlivu první koncepce. To způsobuje v druhém případě problémy, neboť druhý
způsob je založen na „averzi k prudkým změnám“. Zde je prostor pro další výzkum vhodného
nastavení parametrů – nastavení patrně nejen pouze technického, ale i na základě předběžných
znalostí. Na druhou stranu použití modelování pomocí logit-lineárního modelu
pravděpodobnosti přináší praktické klady. Použitím tohoto modelu je vyřešen problém
censorovaných dat a proto lze najít daleko více softwarových nástrojů pro praktické využití
modelu. To s sebou přináší další možnosti jako automatické hledání nejlepšího umístění uzlů
či nalezení jejich optimálního počtu.
Při prezentaci výsledků byly použity různé grafické metody. U jednodušších vlivů
proměnných byla snaha zahrnout údaje o odhadnuté přesnosti odhadu přímo do grafu pomocí
intervalů spolehlivosti (jak byly k dispozici z použitého softwaru). V případě složitějších
vlivů byly použity plošné mapy a jejich řezy a typické průběhy. Obecně byla snaha využití
barev jako nosiče další informace v grafech. Zvážení (či další výzkum), zda zde použitý
grafický způsob je optimální, jde ovšem již za hranice této práce.
204
7 ZÁVĚR
Tato disertační práce je z oboru demografie, ale není zcela v hlavním proudu současného
demografického zkoumání. Spíše svojí teoretickou částí, která je na pomezí demografie a
statistiky, odkazuje na interdisciplinární souvislosti demografie. Praktická část je potom
tvořena analýzou odchodu od rodičů jako jednoho z procesů přechodu do dospělosti.
V této práci byly převážně zkoumány vlastnosti neparametrických (mnohoparametrických)
modelů. Ty byly i prakticky používány při analýze odchodu od rodičů a tedy naopak modely
parametrické zde používány nebyly. Nicméně parametrické modely jsou využívány
v demografii již delší dobu a podle všeho stále budou. Mají totiž samozřejmou výhodu, kdy
v mnoha případech umožňují snazší interpretovatelnost výsledků. Také např. dovolují
jednoduché porovnání výsledných modelů pro různé populace. Tato vlastnost se např. dobře
využila v Schmertmann (2003) při srovnání časování plodnosti v různých zemích.
Parametrické modely byly více používány dříve i proto, že měly zásadní výhodu ve snadném
odhadování parametrů modelů. Tato výhoda však nyní stále více a více ztrácí na důležitosti
s bouřlivým rozvojem výpočetní techniky a vhodného software pro demografické
modelování. I výpočty v této práci by ještě před dvaceti lety byly prakticky nemyslitelné a
před deseti lety ještě velmi obtížné.
Na druhé straně zde použité neparametrické metody mají hlavní přínos v umožnění
detailnějšího a věrnějšího modelování skutečnosti. Také jejich praktická dostupnost je stále
lepší. Základní modely, jako je např. Kaplan-Meierův odhad, jsou již delší dobu v hlavních
statistických programech (jako jsou SAS, SPSS, STATISTICA, R a další). Některé speciálnější
modely, jako je např. log-lineární model intenzity, v těchto programech, alespoň dle znalosti
autora, ještě nejsou a je třeba použít specializovaný software (např. aML). To samozřejmě
velmi snižuje četnost používání těchto modelů. Nicméně je pravděpodobné, že v relativně
brzké době i takovéto modely bude možné používat v dnes běžném uživatelsky snáze
ovladatelném prostředí.
Pro analýzu odchodu od rodičů v České republice byl použit v této práci nejdetailněji popsaný
model a to log-lineární model intenzity. V této souvislosti je vhodné uvést, že tento použitý
model samozřejmě není zdaleka zcela přesným odrazem reality. Ta je bezpochyby složitější,
neboť nikdy nelze měřit vše a i přesnost naměřených dat nikdy nemůže být v stoprocentním
souladu se skutečností. To obecně platí v případě zkoumání lidských populací ještě více něž
např. v technických oborech. Také samotný model nepostihne data přesně. Přesto samozřejmě
výsledky modelování přinášejí informace o studovaném procesu.
Odchod od rodičů byl v této práci zkoumán v širším pojetí jako jeden z procesů přechodu do
dospělosti. Dalšími procesy spadajícími do této kategorie zde byly uvažovány ukončení
celodenního vzdělávání, počátek celodenního zaměstnání, počátek žití s partnerem, první
sňatek a narození prvního dítěte. Zde se i ukázalo, že tyto procesy mají největší vysvětlitelný
vliv na odchod od rodičů a tedy jejich spojení do procesu přechodu do dospělosti se potvrdilo
jako správné.
V této souvislosti bylo zjištěno, že v České republice obecně ukončení vzdělávání a nástup do
zaměstnání spíše předcházely odchodu od rodičů. K tomuto odchodu naopak velice často
docházelo současně s uzavřením manželství a s počátkem soužití s partnerem. Jako poslední
z procesů přechodu do dospělosti bylo obvykle narození (i početí) prvního dítěte. Zároveň zde
byl nalezen zřejmý vliv prvního sexuálního styku na odchod od rodičů. Proto zde byla
položena otázka, zda by i tento proces neměl být řazen mezi hlavní procesy přechodu do
206
dospělosti (resp. navázání prvního vážného partnerského vztahu, jehož může být tento jistým
ukazatelem).
Nabízí se pokračování tohoto výzkumu odchodu od rodičů v ČR v několika různých směrech.
Asi nejsamozřejmějším z nich je opakování analýzy, až budou k dispozici nová data za
Českou republiku. To by mohlo přinést odpověď na zajímavou otázku, zda (či spíše jak) se
přechod do dospělosti změnil po roce 1990, neboť zde zpracovaná analýza ještě nemohla tyto
změny podrobněji postihnout.
Druhým směrem je rozšíření vlastní detailní analýzy i na další země a jejich vzájemné
srovnání. To zde bylo provedeno pouze na základě popisných statistik odchodu do dospělosti.
Třetím směrem, který se zde nabízí, je rozšíření pole analýzy na celý proces přechodu do
dospělosti. Tedy zkoumání souvislostí mezi všemi jednotlivými procesy, které se sem řadí.
K tomu by bylo možné použít např. víceprocesový model.
207
DODATEK: LOG-LINEÁRNÍ MODEL
INTENZITY V PROGRAM AML
Obsah kapitoly
D.1 ÚVOD ...........................................................................................................................210
D.2 PRÁCE V PROGRAMU AML - POSTUP ZPRACOVÁNÍ.......................................................210
Příklad.............................................................................................................................210
Krok 1: Získání dat - .raw...............................................................................................210
Krok 2: .r2a.....................................................................................................................211
Krok 3: raw2aml .............................................................................................................212
Krok 4: .dat a .sum..........................................................................................................212
Krok 5: .aml ....................................................................................................................213
Krok 6: Výpočet ..............................................................................................................214
Krok 7: Výsledky - .out....................................................................................................215
D.3 PŘEHLED MODELŮ........................................................................................................216
D.4 MODEL ODCHODU OD RODIČŮ V AML..........................................................................216
Vstupní data ....................................................................................................................216
Soubor s informacemi o proměnných (.r2a) ...................................................................217
Soubor s nastavením analýzy (.aml) ...............................................................................218
Soubor s výsledky (.out) ..................................................................................................221
209
D.1 Úvod
Program aML (EconWare (2003)) je v současné době patrně jediným programem, který
umožňuje modelování pomocí log-lineárního modelu intenzity v jeho plné šíři včetně
modelování se zahrnutím členu, který reprezentuje nevysvětlenou heterogenitu. Tato příloha
se zabývá popisem základního použití programu a dále obsahuje kód analýzy, jež sloužila
jako základ výsledků kapitoly 6 Odchod od rodičů v České republice.
D.2 Práce v programu aML - postup zpracování
Příklad
Výpočet parametrů logitového modelu na datech ze souboru education.raw, který je
standardně k dispozici jako ukázkový spolu s programem v podadresáři Samples\Chapter.
Takový model samozřejmě nemá mnoho smyslu počítat v tomto programu, neboť jej lze
výrazně snadněji vypočítat v prakticky každém statistickém programu, ovšem pro ilustraci
nezbytných kroků při výpočtu je vhodný.
Krok 1: Získání dat - .raw
Nejprve je třeba zkopírovat soubor do pracovního adresáře, např. C:\Program files\aML (viz
obr. D-1).
Obr. D-1: Příklad umístění souboru .raw.
Poznámka k souboru dat: Je to textový soubor zadaný standardně, běžně se používá pro tyto
soubory přípona .txt (viz ukázka obr. D-2). Data, která se importují z jiných programů (Excel,
STATISTICA, apod.) je tedy potřeba v těchto programech Uložit jako textový soubor (což je
standard, který je podporován prakticky všemi statistickými programy) a následně jej
přejmenovat na .raw . Data také nemohou obsahovat chybějící údaje – takové je nutné již
předem nahradit např. pomocí průměrů apod., příp. daná pozorování z analýzy vypustit.
210
Obr. D-2: Příklad vstupního datového souboru .raw.
Krok 2: .r2a
Takovýto standardní datový soubor je nutné převést do speciálního datového typu programu
aML. K tomu je potřeba nejprve připravit soubor typu .r2a . Tento soubor lze připravit
v nějakém jednoduchém textovém editoru (aby v souboru byl opravdu jen ten viditelný text) –
zde je používán Notepad (Poznámkový blok). Nejpraktičtější je pojmenovávat všechny
soubory, které patří k sobě, stejným jménem, proto tento nový soubor se bude jmenovat
education.r2a (viz obr. D-3).Opět je třeba ho umístit do stejného adresáře, tj. zde
C:\Program files\aML (viz obr. D-4). Jednotlivé příkazy se oddělují pomocí ; . První příkaz
je zjevný, druhý specifikuje názvy proměnných (zde jsou názvy postupně educ, HSgrad, …).
211
Krok 3: raw2aml
Nyní již je možné spustit konverzi datového souboru, čehož lze dosáhnout spuštěním
programu raw2aml s parametrem jméno souboru (stačí bez přípony). Příklad spuštění a
výstupu je na obr. D-5.
Obr. D-5: Příklad spuštění programu raw2aml.
Krok 4: .dat a .sum
Předchozím krokem se vytvoří 2 nové soubory, jeden s příponou .dat, což je datový soubor
formátu programu aML, druhý je s příponou .sum a obsahuje výše uvedený přehled počtů,
průměrů, směrodatných odchylek, minim a maxim za jednotlivé proměnné (viz obr. D-6).
Toho lze použít pro kontrolu správnosti zadání dat.
212
Obr. D-6: Příklad umístění programu .dat a .sum po průběhu programu raw2aml.
Krok 5: .aml
Nyní je už možné přistoupit k odhadu parametrů modelu. Opět v některém ascii textovém
editoru (např. notepadu) je třeba připravit nastavení analýzy do souboru s příponou .aml (viz
obr. D-7).
Obr. D-7: Příklad nastavení vlastní analýzy v programu aML - soubor .aml.
Jednotlivé příkazy jsou zde opět oddělené středníkem. Příkaz dsn je zřejmý, v definici
množiny regresorů (define regressor set) je BetaX název této množiny, za var číslo 1
213
označuje zahrnutí konstanty (absolutního členu) do modelu. Ostatní hodnoty jsou názvy
proměnných v modelu. Příkaz logit model je zřejmý, outcome označuje závislou proměnnou
a model = regset uvádí nezávislé proměnné. Starting values uvozují počáteční hodnoty
(neboť jde o iterační výsledek, je někdy vhodné nastavit tyto hodnoty jinak než na 0, jak je
ukázáno zde). Potom je v každém řádku označení proměnné (nemusí být shodné s označením
v datovém souboru, ale je to velmi vhodné), T nebo F označuje, zda daná proměnná má být
odhadována (True – False) a 0 je počáteční hodnota.
Tento soubor se opět uloží do stejného adresáře (obr. D-8).
Obr. D-8: Příklad umístění souboru .aml před spuštěním vlastního výpočtu.
Krok 6: Výpočet
Model se odhadne pomocí příkazu aml s parametrem jména souboru (viz obr D-9).
Obr. D-9: Spuštění vlastního výpočtu v programu aML.
Poté proběhne celý výpočet (ukázka závěru výpisu výpočtu je na obr. D-10).
Obr. D-10: Výsledná obrazovka po průběhu vlastního výpočtu v programu aML.
214
Krok 7: Výsledky - .out
Zároveň se všechny výsledky zapíší do souboru s příponou .out, což je opět textový soubor,
který lze otevřít např. v notepadu (viz obr. D-11).
Obr. D-11: Příklad umístění vytvořeného souboru s výsledky .out .
Důležité výsledky jsou na konci tohoto souboru (viz obr. D-12).
Obr. D-12: Příklad výsledků získaných z programu aML - soubor .out.
215
D.3 Přehled modelů
Výběr typů modelů, které lze s programem používat:
Probit
Logit
Binomický
Poissonův
Negativní binomický
Uspořádaný probit a logit
Tobit
Multinomický logit a probit
Intenzita (hazard) – tj. log-lineární model intenzity
Tyto metody v jejich základní podobě lze samozřejmě daleko snadněji používat prakticky
v libovolném pokročilém statistickém software, zde je navíc např. možnost nastavení
korelační matice proměnných reprezentujících nevysvětlenou heterogenitu zcela dle vlastních
představ. Je tak k dispozici větší šíře modelů, které je možné použít, na druhé straně minusem
je obtížně ovládání a zápis analýz.
D.4 Model odchodu od rodičů v aML
V této části je popsáno zadání analýzy pro odhad log-lineárního modelu intenzity v případě
odchodu od rodičů v České republice – jedná se o příklad konečného modelu 3.stupně, jak je
popsán v sekci 6.7 Tvorba modelu v kapitole 6 Odchod od rodičů v České republice.
Vstupní data
Očištěný datový soubor pro odhad modelu obsahoval v každém řádku údaj o jedné etapě
života dané ženy, která se zúčastnila projektu FFS, v níž nedocházelo ke změnám ve
zkoumaných vysvětlujících proměnných. Tzn. že například záznam byl rozdělen na dva a
první z nich censorován v okamžiku, kdy žena dosáhla dalšího (vyššího) stupně vzdělání.
Celkově z údajů o 1727 ženách, které byly použity v analýze, bylo možno identifikovat 7890
různých životních fází (viz obr. D-13). Tento soubor byl uložen jako textový a přejmenován
na .raw .
Obr. D-13: Část vstupních dat pro analýzu odchodu od rodičů ČR.
216
Soubor s informacemi o proměnných (.r2a)
Soubor .r2a obsahuje informace o všech proměnných v souboru dat. V případě analýzy
odchodu od rodičů byl použit následující soubor (v poznámkách, které se v aML značí
pomocí /* poznámka*/, jsou jednotlivé proměnné popsány):
ascii data files = Data18.raw; /*vstupní soubor*/
output data file = Data18.dat (replace=yes); /*výstupní soubor*/
level 1 var = ;
data structure = 1;
level 2 var =
Censor
Lower
Upper
Resid
Intervu
Weight
V101G
Born
V103
V104
V105
V106A
V106T
AgeEv
TimeEv
V218I
V218A
V218T
v219
V220
V219Dif
V226I
V226A
V226T
V229I
V229A
V229T
V314I
V314A
V314T
V314PI
V314PA
V314PT
V315
V502I
V502A
/*první úroveň dat v tomto případě neobsahovala*/
/*žádné proměnné*/
/*druhá úroveň dat obsahovala všechny proměnné*/
/*tento způsob zápisu se ukázal jako nejlepší*/
/*proměnná obsahující údaj o censorování*/
/*dolní hodnota délky dané životní etapy*/
/*horní hodnota délky dané životní etapy*/
/*v případě, že daná životní etapa je censorována, */ /*musí
být Lower = Upper, pokud není */ /*censorována, musí být
Lower < Upper a jako*/ /*délka dané životní etapy se bere
průměr těchto*/ /*dvou hodnot*/
/*místo současného pobytu - není použito v modelu*/
/*kalendářní čas interview - není použito v modelu*/
/*váhy - není použito v modelu*/
/*upravený počet sourozenců*/
/*datum narození - v letech*/
/*místo pobytu do 15 let*/
/*typ rodiny*/
/*rozvedení vs. nerozvedení rodiče*/
/*pomocná proměnná*/
/*věk na začátku dané životní etapy*/
/*věk na konci dané životní etapy*/
/*identifikátor žití s prvním partnerem*/
/*věk a kalendářní čas počátku žití s 1. partnerem*/
/*věk partnera při počátku žití s ním - není použito*/
/* v modelu*/
/*počet dětí partnera při počátku žití s ním - není*/
/*použito v modelu*/
/*rozdíl věku dané ženy a jejího partnera - není*/ /*použito v
modelu*/
/*identifikátor času po 1. svatbě*/
/*věk a kalendářní čas při 1.svatbě*/
/*identifikátor rozchodu s prvním partnerem - není*/
/*věk a kalendářní čas rozchodu s prvním */
/*partnerem - není použito v modelu*/
/*identifikátor 1. porodu - není použito v modelu*/
/*věk a kalendářní čas 1.porodu - není použito*/
/*v modelu*/
/*identifikátor 1. koncepce - 9 měsíců*/
/* před 1. porodem*/
/*věk a kalendářní čas 1.koncepce*/
/*pohlaví 1.dítěte - není použito v modelu*/
/*identifikátor 1. pohlavního styku*/
/*věk a kalendářní čas 1. pohlavního styku*/
217
V502T
Contra
V506
V701
V704B
V704E
V801
V801Corr
V813I
V813A
V813T
V801old
IstI
IstA
IstT
IIndI
IIndA
IIndT
IIIrdI
IIIrdA
IIIrdT
Studying
NofCh
PChA
PChT
PChType
ChA
ChT
ChType
DivPare
LivPart
Married
NotLivP
IstCh
IstPreg
IstInter
IstEmpl
IstLev
IIndLev
IIIrdLev
ILevHi
IILevHi
IIILevHi
/*identifikátor použití antikoncepce při 1.pohlavním*/ /*styku není použito v modelu*/
/*typ antikoncepce použitý při 1. pohlavním*/
/*styku - není použito v modelu*/
/*Odpověď na otázku 701 - není použito v modelu*/
/*Odpověď na otázku 704B - není použito v modelu*/
/*Odpověď na otázku 704E - není použito v modelu*/
/*Nejvyšší dosažené vzdělání v čase interview */
/*není použito v modelu*/
/*Upravené nejvyšší dosažené vzdělání v čase*/
/*interview - není použito v modelu*/
/*identifikátor 1.zaměstnání - není použito v modelu*/
/*věk a kalendářní čas při 1.zaměstnání - není*/
/*identifikátor dosaženého 1.stupně vzdělání*/
/*věk a kalendářní čas při dosažení 1.stupně*/
/*identifikátor studia v dané životní fázi*/
/*počet životních fází - pomocná proměnná*/
/*věk a kalend. čas na začátku minulé životní fáze*/
/*věk a kalendářní čas na začátku dané životní fáze*/
/*identifikátor rozvodu rodičů*/
/*identifikátor žití s partnerem*/
/*identifikátor manželství*/
/*identifikátor konce žití s partnerem*/
/*identifikátor prvního porodu*/
/*identifikátor první koncepce*/
/*identifikátor prvního sexuálního styku*/
/*identifikátor prvního zaměstnání*/
/*identifikátor dosaženého 1. stupně vzdělání*/
/*identifikátor 1. stupně vzdělání jako nejvyššího*/
;
;
level 3 var = Time
/*Délka dané životní etapy*/
/*Vypočte se automaticky z Lower a Upper*/
;
Soubor s nastavením analýzy (.aml)
Soubor s příponou .aml obsahuje samotné zadání analýzy. V případě konečného modelu 3.
stupně analýzy odchodu od rodičů v ČR byl použit následující soubor (jednotlivé části
analýzy jsou popsány v poznámkách):
option title = "Data 18 Inter";
/*název modelu pro snazší identifikaci*/
218
/*option converge = wgn<.0001;*/
option iterations = 3000;
/*option file info level = 1;*/
option check99999 = no;
/*alternativně lze snížit podmínku pro konvergenci*/
/*alternativně lze zvýšit počet iterací*/
/*alternativně lze měnit obsáhlost výstupu*/
/*alternativně lze vypnout kontrolu dat*/
dsn = Data18I.dat;
/*vstupní soubor*/
define spline UniDur; node = 2.5 4 9.5 20.5;
define spline YearDur; node = ;
/*definice základního splinu s uzly po 2.5, 4*/
/*9.5 a 20.5 letech od počátku = věk 14.5*/
/*definice splinu efektu kalendářního času*/
define spline MarDur; ref = 1; Intercept = yes;
node = 2 4;
/*definice splinu efektu doby manželství*/
/*podmíněný spline*/
define spline InterDur; ref = 2; Intercept = yes;
node = 2;
/*definice splinu efektu 1.sex. styku*/
define spline IstPregn; ref = 3; Intercept = yes;
node =.75 1.75;
/*definice splinu efektu 1.koncepce*/
define spline InterI; ref = 5; Intercept = yes;
node = 5.5 10.5 15.5;
/*definice splinu interakce věku a doby*/
/*od prvního sexuálního styku*/
define spline DivI; ref = 8; Intercept = yes;
node = 5 ;
/*definice splinu interakce věku a rozvodu*/
/*rodičů*/
define regressor set UniReg;
var = 1
/*definice konstanty*/
(V101G==2)
(V101G==3)
(V101G==4)
(V101G==5)
/*definice kovarianty počtu sourozenců*/
/*bez sourozenců jako základní skupina*/
(Studying == 1)
/*studium v daném čase*/
((ILevHi==0) and (IILevHi==0) and (IIILevHi==0))
(IILevHi==1)
/*nejvyšší dosažené vzdělání v dané*/
(IIILevHi==1)
/*životní fázi - 1. jako základní úroveň*/
((Married == 1) and (IstPreg == 1))
/*interakce mezi manželstvím a*/
/*1. sexuálním stykem*/
;
/*define normal distribution; dim = 1; number of integration points = 4;
name = u1;*/
/*definice proměnné reprezentující*/
/*nevysvětlenou heterogenitu*/
/*nebyla zahrnuta v konečném modelu*/
hazard model;
/*počátek definice samotného modelu*/
censor = Censor; duration = Lower Upper; timemarks = Time;
/*základní nastavení log-lineárního modelu*/
/*intenzity obsahuje údaje o proměnných*/
/*censorování a doby životní fáze*/
model = durspline(origin = (PChA - 14.5), ref=UniDur) +
durspline(origin = (PChT-1967), ref = YearDur) +
durspline(origin = (PChA - V226A), refvar = Married) +
durspline(origin = (PChA - V502A), refvar = 2*IstInter) +
durspline(origin = (PChA - V314A), refvar = 3*IstPreg) +
219
durspline(origin = (PChA - 14.5), refvar = 5*IstInter)+
durspline(origin = (PChA - 14.5), refvar = 8*DivPare)+
/*definice D-splinů se správným počátkem*/
regset UniReg
/*definice kovariant*/
/*+ intres(draw = 1, ref = u1)*/;
/*definice proměnné reprezentující*/
/*nevysvětlenou heterogenitu*/
/*(nebyla použita v koneč. modelu)*/
starting values;
dur-17
dur17-18
dur18-24
dur24-35
dur35-
TTT
TTT
TTT
TTT
TTT
0
0
0
0
0
Yea1
FTT
0
MarC
Mar0
Mar1
Mar2
FTT
FTT
FTT
FTT
0
0
0
0
InterC
Inter0
Inter1
FTT
FTT
FTT
0
0
0
PregC
Preg0
Preg1
Preg2
FTT
FTT
FTT
FTT
0
0
0
0
IIC
II-1
II-2
II-3
II-4
FTT
FTT
FTT
FTT
FTT
0
0
0
0
0
ILwC
ILw1
ILw2
FTT
FTT
FTT
0
0
0
Constant
TTT
-6
Sibl1
Sibl2
Sibl3
Sibl>3
FTT
FTT
FTT
FTT
0
0
0
0
S1
S2
S3
S4
FTT
FTT
FTT
FTT
0
0
0
0
MxC
FFT
0
/*u1
;
FFT
1*/
/*počáteční hodnoty pro odhadování*/
/*v tomto případě odhadování probíhalo*/
/*tříkolově - z důvodu konvergence*/
/*parametry, které se odhadují*/
/*v jednotlivých kolech, jsou označeny T*/
/*(True), oproti F (False)*/
/*Počáteční hodnoty musí být v pořadí*/
/*jejich definice*/
220
Soubor s výsledky (.out)
Po spuštění této analýzy s definicí konečného modelu 3. stupně se získá soubor s výsledky
(.sum), jehož hlavní výsledky jsou uvedeny na konci. V prvních částech je průběh
konvergence a specifikace analýzy. Pro ilustraci je zde uvedena jeho závěrečná část
s odhadnutými parametry a odhadnutými směrodatnými chybami modelu:
======================================================================
=
ESTIMATION CONVERGED SUCCESSFULLY
=
=
RESULTS OF ESTIMATION
=
======================================================================
Convergence based on:
Weighted gradient norm:
.0210293 < .1
Relative function improvement: 3.49E-07
Gradient norm:
198.3469
Relative parameter change:
.7617526
======================================================================
Log Likelihood: -22323.1846
BHHH-based, non-corrected
Parameter Free? Estimate
Std Err
T-statistic
1 dur-17
T 0.4511826604 .43077706249
1.0474
2 dur17-18 T 0.5491512676 .09761966023
5.6254
3 dur18-24 T .02235719148 .06547703981
0.3415
4 dur24-35 T -.04194107039 0.0894949578
-0.4686
5 dur35T -.21880501803 .78694184442
-0.2780
6 Yea1
T -.01075936281 .00489906935
-2.1962
7 MarC
T 1.0938827293 0.1707897775
6.4048
8 Mar0
T -.47866706644 .14980013766
-3.1954
9 Mar1
T .38756525186 0.1514227455
2.5595
10 Mar2
T -.18839534546 .07699282919
-2.4469
11 InterC
T 1.9980383383 .33666935622
5.9347
12 Inter0
T .23820886201 .07830594864
3.0420
13 Inter1
T 0.0053967661 .03030229818
0.1781
14 PregC
T -.41793630759 .30031168042
-1.3917
15 Preg0
T 2.3527077956 .54306496659
4.3323
16 Preg1
T -1.0574283924 .26390910557
-4.0068
17 Preg2
T .00026628838 0.0000206244
12.9113
18 IIC
T
0.0
0.0
-----19 II-17
T -0.2730902891 .08231367458
-3.3177
20 II17-18 T .01932813773 .07459191942
0.2591
21 II18-24 T -.11229811924 .11452094847
-0.9806
22 II24T
0.006764306 .80046799889
0.0085
23 ILwC
T 1.1124842609 .38438703009
2.8942
24 ILw-17
T -.21543473457 .09186898368
-2.3450
25 ILw17-18 T .05357282382 .03860009034
1.3879
26 Constant T -5.2545649391 .56673058733
-9.2717
27 Sibl1
T .11638399119 .12423832008
0.9368
28 Sibl2
T .15504358227 .13211131157
1.1736
29 Sibl3
T .32730565318 .14882395045
2.1993
30 Sibl>3
T .48304531834 .15882646024
3.0413
31 S1
T -0.2988777789 .17256733893
-1.7319
32 S2
T -.42654735567 .17493572189
-2.4383
33 S3
T .19491767153 .07446994887
2.6174
34 S4
T .61554753549 .13887707886
4.4323
35 MxC
T -.94875474064 .20067732987
-4.7278
======================================================================
Elapsed clock time is 9 seconds.
221
REFERENCE
222
Aagresti, A., Coull, B.A. (1998). Approximate is Better than "Exact" for Interval Estimation
of Binomial Proportions. The American Statistician, Vol. 52, No. 2
Aalen, O.O. (1994). Effects of frailty in survival analysis. Statistical Methods in Medical
Research, Vol.3, No.3
Aassve, A., Billari, F.C., Mazzuco, S., Ongaro, F. (2001). Leaving Home Ain't Easy,
A comparative longitudinal analysis of EHCP data. MPIDR Working Paper WP
2001-038, Max Planck Institute for Demographic Research
Anděl, J. (1998). Statistické metody. MatfyzPress, Praha
Andersen, R. (2004). Generalized Linear Models. Lecture Notes, Regression III: Advanced
Models, McMaster University
Andersson, G., Sobolev, B. (2001). Small effects of selective migration and selection survival
in retrospective studies of fertility. MPIDR Working Paper WP 2001-031, Max Planck
Institute for Demographic Research
Arnett, J.J. (2003). Conceptions of the Transition to Adulthood Among Emerging Adults in
American Ethnic Groups. New Directions for Child and Adolescent Development, 100,
63-75
Baizán, P., Aassve, A., Billari, F.C. (2001). Cohabitation, marriage, first birth: The
interrelationship of family formation events in Spain. MPIDR Working Paper WP
2001-036, Max Planck Institute for Demographic Research
Beise, J., Voland, E. (2002). A multilevel event history analysis of the effects of
grandmothers on child mortality in a historical German population. Demographic
Research, Vol. 7, Art.13
Bellman, R. (1961). Adaptive Control Processes: A Guided Tour. Princeton University Press
Billari, F.C. (2001). The analysis of early life courses: complex description of the transition to
adulthood. Journal of Population Research, Vol 18-2, 2001, 119-142
Billari, F.C. (2004). Becoming an Adult in Europe: A Macro(/Micro)-Demographic
Perspective. Demographic Research, Special Collection 3, Article 2
Billari, F.C., Fuernkranz, J., Prskawetz, A. (2000). Timing, Sequencing and Quantum of Life
Course Events: a Machine Learning Approach. MPIDR Working Paper WP 2000-010,
Max Planck Institute for Demographic Research
Billari, F.C., Philipov, D., Baizán, P. (2001). Leaving home in Europe: the experience of
cohorts born around 1960. MPIDR Working Paper WP 2001-014, Max Planck Institute
for Demographic Research
Billari, F.C., Wilson C. (2001). Convergence towards diversity? Cohort dynamics in the
contemporary Western Europe. MPIDR Working Paper WP 2001-039, Max Planck
223
Bishop, C. (1995). Neural Networks for Pattern Recognition. University Press, Oxford
Borgan, Ø. (1997). Three contributions to the Encyclopedia of Biostatistics: The NelsonAalen, Kaplan-Meier, and Aalen-Johansen estimators. Statistical research report,
University of Oslo: Department of Mathematics
Brinbaum, Y., Degenne, A., Kieffer, A., Lebeaux, M.O. (2004). Getting job and leaving home
in Europe. Cahiers du Lasmams - Série Documents de travail, C04-1
Brostroem, G. (2001). Distribution and their non-parametrics estimation. Working Paper,
Umeå universitet
Brostroem, G. (2001). Event History Analysis. Lecture Notes, Fall 2001, Umeå universitet
Carey, J.R., Judge, D.S. (2000). Longevity Records: Life Spans of Mammals, Birds,
Amphibians, Reptiles, and Fish. Odense Monographs on Population Aging, 8., Odense
University Press, Odense,
Corijn, M. (1996). Transition into adulthood in Flanders: Results from fertility and family
survey 1991-92. NIDI-CBGS, The Hague, Brussels
Cox, D.R., Oakes, D. (1984). Analysis of Survival Data. Chapman and Hall, London, New
York
Český statistický úřad (2000). Pohyb obyvatelstva ČR (ČSR) 1950-1999. ČSÚ, Praha.
Dabrowska, D.M. (1997). Smoothed Cox regression. The Annals of Statistics, Vol. 25, No. 4,
1510-1549
Doblhammer, G., Oeppen, J. (2003). Reproduction and longevity among the British peerage:
the effect of frailty and health selection. Proceedings: Biological Sciences, vol. 270, no.
1524
EconWare (2003). aML, verze 2.00. www.applied-ml.com
Falk
M., Brugger H.,
www.avalanche.org
Adler-Kastner,
L.
(2002).
Avalanche
Survival
Chances.
Finkelhor, D., Hotaling, G., Sedlak, A. (1990). Missing, Abducted, Runaway, and
Throwaway Children in America. U.S. Department of Justice, Office of Juvenile Justice
and Delinquency Prevention
Flatau, P., James, I., Watson, R., Wood, G. (2003). Leaving the Parental Home in Australia
Over the 20th Century: Evidence from the Household Income and Labour Dynamics in
Australia (HILDA) Survey. HILDA Conference, Melbourne, 13.5.2003
Forste, R., Haas, D.W.(2002). The Transition of Adolescent Males To First Sexual
Intercourse: Anticipated or Delayed? Perspectives on Sexual and Reproductive Health,
2002, 34(4). 184-190
224
Fox, A.J., Collier, P.F. (1976). Low mortality rates in industrial cohort studies due to selection
for work and survival in the industry. British Journal of Preventive and Social
Medicine, 30, 225-230
Frič M. (1959). Dařbuján a Pandrhola. film, ČSR
Furstenberg Jr., F.F., Kennedy, S., McCloyd, V.C., Rumbaut, R.G., Settersten Jr., R.A.
(2003). Between Adolescence and Adulthood: Expectation about the Timing of
Adulthood. Research Network Working Paper No.1, The Network on Transitions to
Adulthood
Garrett, J.L. (2002). Transition to adulthood: Three guiding theories. Seminar Paper,
University of Michigan
Garson, G.D. (2004). Multi-Level Models, Including Hierarchical Linear Modeling. Lecture
Notes, PA 765, Spring 2004, NC State University: College of Humanities and Social
Science
Goel, P., Verducci, J. (2004). Generalized Additive Models & Friends: GAM, Trees, PRIM,
MARS, HME. Lecture Notes, STAT 894, Spring 2004, The Ohio State University:
Department of Statistics
Google (2004). Google Scholar Beta. www.scholar.google.com
Greenwood, M. (1926). The natural duration of cancer. Reports on Public Health and
Medical Subjects No. 33, His Majesty's Stationery Office
Grimm J.L.C., Grimm W.C. (1857). Kinder- und Hausmärchen. 7th ed., Berlin, in Projekt
Gutenberg - DE, Gutenberg.spiegel.de
Gut, C. (1999). Basic Mathematical Properties of the Lognormal Distribution. Working
Paper, Swiss Federal Institute of Technology Zurich: Department of Computer Science
Hastie, T., Tibshirani, R., Friedman, J. (2001). The elements of statistical learning: data
mining, interference and prediction. Springer Series in Statistics, New York, Berlin,
Heidelberg
Hastie, T.J., Tibshirani, R.J. (1997). Generalized Additive Models. Chapman and Hall,
London
Hoem, B. (1993). The Compatibility of Employment and Childbearing in Contemporary
Sweden. Acta Sociologica, 36, 101-120
Hoem, B., Hoem, J.M. (1992). The disruption of Marital and Non-Marital Unions in
Contemporary Sweden. in Trussell, J., Hankinson, R., Tilton, J. (eds.). Demographic
Application of Event History Analysis, Claredon Press
Hoem, J.M. (1996). The Harmfulness or Harmlessness of Using an Anticipatory Regressor:
How Dangerous Is It to Use Education Achieved as of 1990 in the Analysis of Divorce
Risks in Earlier Year? Yearbook of Population Research in Finland, 33, 34-43
225
Hoem, J.M. (2003). Advanced Event History Analysis. Course IMPRSD 302, Max Planck
Huang, J. (1999). Efficient estimation of the partly linear additive Cox model. The Annals of
Statistics, Vol. 27, No. 5, 1536-1563
Chang, Y.C. (2000). Residuals analysis of the generalized linear models for longitudinal data.
Statistics in Medicine, 19, 1277-1293
Cherlin, A.J., Kiernan, K.E., Chase-Lansdale, P.L. (1995). Parental Divorce in Childhood and
Demographic Outcomes in Young Adulthood. Demography, Vol. 32, 1995, pp. 299-316
Iacovou, M., Berthoud, R. (2001). Young People's Lives: A Map of Europe. Colchester:
University of Essex, Institute for Social and Economic Research
Jenkins, S.P. (2004). Survival Analysis. Course 2L, Essex Summer School in Social Science,
University of Essex
Kaplan, E.L., Meier, P. (1958). Nonparametric estimation from incomplete observations.
Journal of American Statistical Association, Vol. 53, 457-481
Klein J.P., Moeschberger M.L. (1997). Statistics for Biology and Health: Survival Analysis.
Springer-Verlag, Berlin, Heidelberg, New York, Tokyo
Kohler, H.P., Vaupel, J.W. (2000). Demography and its Relation to Other Disciplines. in ed.
Pavlík, Z. (2000), Position of Demography Among Other Disciplines, Univerzita
Karlova v Praze, Přírodovědecká fakulta, Praha
Kreyenfeld, M. (2002). Time-squeeze, partner effect of self-selection? An investigation into
the positive effect of women's education on second birth risks in West Germany.
Demographic Research, Vol. 7, Art. 2
Kučera M. (1994). Populace České republiky 1918-1991. Česká demografická společnost,
Sociologický ústav AV ČR, Praha
Lee, E.T. (1992). Statistical Methods for Survival Data Analysis. John Wiley & sons, New
York, Chichester, Brisbane, Toronto, Singapore
Leemis, L., Triveldi, K.S. (1996). A comparison of Approximate Interval Estimators for the
Bernoulli Parameter. The American Statistician, Vol. 50, No. 1
León, L.F., Tsai, C.-L. (2004). Functional form diagnostics for Cox's proportional hazards
model (2004). Biometrics, Vol. 60-1
Liefbroer, A.C., de Jong Gierveld, J. (1995). Standardization and individualization: The
transition from youth to adulthood among cohorts born between 1903 and 1965. in: J.C.
van den Brekel & F. Deven (eds.). Population and family in the Low Countries 1994,
Dordrecht: Kluwer Academic Publishers, pp. 57-80
226
Martikainen, P.T., Valkonen, T. (1996). Excess mortality of unemployed men and women
during a period of rapidly increasing unemployment. Lancet, Vol. 348, 909-901,
Mau, J. (1986). Counting processes and Markov models for longitudinal observations.
Research Report Series of the Statistics Project, University of Tuebingen, No. 1/86
Max Planck Gesellschaft (2002). Human Life-Table Database. www.lifetable.de
Mazurová, L. (1997). Demografie. Kurs FAP 001, Univerzita Karlova v Praze, Matematickofyzikální fakulta
Meier, A.M. (2001). Adolescents' Transition to First Intercourse, Religiosity and Attitudes
about Sex. CDE Working Paper No. 2001-02, University of Wisconsin-Madison: Center
for Demography and Ecology
Mode, C.J. (1985). Stochastics Processes in Demography and Their Computer
Implementation. Springer-Verlag, Berlin, Heidelberg, New York, Tokyo
Morrow, V., Richards, M. (1996). Transitions to Adulthood: a family matter? Joseph
Rowntree Foundation, York
Newcombe, R.G. (2001). Logit Confidence Intervals and Inverse Sinh Transformation. The
American Statistician, Vol. 55, No. 3
Ng'andu, N.H. (1997). An empirical comparison of statistical tests for assessing the
proportional hazards assumption of Cox's model. Statistics in Medicine, Vol. 16, 611626, 1997
NIST, SEMATECH (2004). e-Handbook of Statistical Methods.
www.itl.nist.gov/div898/handbook/
Ongaro, F. (2001). First sexual intercourse in Italy: a shift towards an ever more personal
experience? XXIV General Population Conference, Salvador (Brasil), 18-24.8.2001,
Session 24 - Sexual Behaviour
Pavlík, Z. (2000). What is Demography. in ed. Pavlík, Z. (2000), Position of Demography
Among Other Disciplines, Univerzita Karlova v Praze, Přírodovědecká fakulta, Praha
Pavlík, Z., Kučera, M. (eds.) (2002). Populační vývoj České republiky 2001. Univerzita
Karlova v Praze, Přírodovědecká fakulta, Katedra demografie a geodemografie, Praha
Persson, I. (2002). Essays on the Assumption of Proportional Hazards in Cox Regression.
Acta Universitatis Upsalliensis, Comprehensive Summaries of Uppsala Dissertations
from the Faculty of Social Sciences, Uppsala,
PracticalStats (2003). Correlation with censored data. PracticalStats Newsletter, Fall, 2003
Preston, S.H., Heuveline, P., Guillot, M. (2001). Demography: Measuring and Modeling
Population Processes. Blasckwell Publishers, Oxford
227
ReliaSoft (2004). Nonparametrics Analysis. www.Weibull.com
Ribar, D.C. (1996). The effects on teenage fertility on young adult childbearing. Journal of
Population Economics, 9, 197-218
Richardson, S., McCabe, M.P. (2001). Parental Divorce During Adolescence and Adjustment
in Early Adulthood. Adolescence, 2001
Rumbaut, R.G. (2003). Young Adults in the United States: A Profile. Research Network
Working Paper No.4, The Network on Transitions to Adulthood
Rychtaříková, J., Demko, G.J. (2001). Inequalities in Infant Survival: An Analysis of Czech
Linked Records. European Journal of Population, 17, 323-342
Rychtaříková, J., Pikálková, S., Hamplová, D. (2001). Diferenciace reprodukčního a
rodinného chování v evropských populacích. Sociologické texty, Sociological Papers,
2001:10
Samuelsen, S.O. (2004). Mer om Kaplan-Meier o.l.. Lecture Notes, STK4080 –
Forløpsanalyse, Universitetet i Oslo: Matematisk institutt
Schmertmann, C.P. (2003). A system of model fertility schedules with graphically intuitive
parameters. Demographic Research, Vol. 9, Art. 5
Siegrist, K. (1997). Virtual Laboratories in Probability and Statistics.
www.fmi.uni-sofia.bg/vesta/Virtual_Labs
Sienkiewicz, K. (2003). Leaving Parental Home in Poland. Internal Report, Max Planck
StatSoft, Inc. (1999). Electronic Statistics Textbook. StatSoft, Tulsa,
www.statsoft.com/textbook/stathome.html
StatSoft, Inc. (2003). STATISTICA (data analysis software system), version 6.
www.statsoft.com
StatSoft, Inc. (2004). STATISTICA Cz (softwarový systém na analýzu dat), verze 7.
www.StatSoft.cz
Suzuki, T. (2001). Leaving the Parental Household in Contemporary Japan. Review of
Population and Social Policy, No. 10, 2001, 23-35
Škop, M. (2004). Leaving Parental Home in the Czech Republic. Internal Report, Max Planck
Treasure, P. (2003). Counting processes. Lecture Notes, Survival Data Analysis, Univesity of
Cambridge: Statistical Laboratory
Ulpianus, D. (200). Ulpian's Table, in Haberman, S., Sibbett, T.A. (1995). History of
Actuarial Science, Pickering & Chatto, London
228
UNECE (2003). Population Activities Unit: Fertility and Family Surveys,
www.unece.org/ead/pau/ffs (2003)
United Bristol Healthcare (2004). Glossary.
www.ubht.nhs.uk/R&D/RDSU/Advisory/glossary.htm
Vaupel, J.W., Romo, V.C. (1999). How Mortality Improvement Increases Population Growth.
MPIDR Working Paper WP 1999-015, Max Planck Institute for Demographic Research
Vaupel, J.W., Romo, V.C. (2002). Analysis of population changes and differences. Lecture
Notes, Max Planck Institute for Demographic Research
Vaupel, J.W., Romo, V.C. (2003). Decomposing change in lige expectancy: A bouquet of
formulas in honor of Nathan Keyfitz's 90th birthday. Demography, Vol. 40-2, 201-216
Vaupel, J.W., Wang, Z., Andreev, K.F., Yashin, A.I. (1997). Population Data at a Glance:
Shaded Contour Maps of Demographic Surfaces over Age and Time. Odense
Monographs on Population Aging, 4, Odense University Press, Odense
Vaupel, J.W., Yashin, A.I. (1985). Heterogeneity's Ruses: Some Surprising Effects of
Selection on Population Dynamics. The American Statistician, Vol. 39, No.3
Wienke, A. (2003). Frailty Models. MPIDR Working Paper WP 2003-032, Max Planck
Wienke, A., Arbeev, K.., Locatelli, I., Yashin, A.I. (2003). A simulation study of different
correlated frailty models and estimation strategies. MPIDR Working Paper WP 2003018, Max Planck Institute for Demographic Research
Winship, C., Harding, D.J. (2004). A General Strategy for the Identification of Age, Period,
Cohort Models: A Mechanism Based Approach. Counterfactual Causal Analysis in
Sociology - Paper, Harvard University: William James Hall
Wu, L.L. (2001). Event History Models for Life Course Analysis. CDE Working Paper No.
2001-17, University of Wisconsin-Madison: Center for Demography and Ecology
Yamaguchi, K. (1991). Event History Analysis. Sage Publications, Newbury Park, London,
New Delhi
Yashin, A.I., Iachine, I.A. (1999). Dependent Hazards in Multivariate Survival Problems.
Journal of Multivariate Analysis, 71, 241-261
Zvárová, J. (2001). Základy statistiky pro biomedicínské obory. Karolinum, Praha
229

Statisticka analyza prezivani s aplikaci na odchod od

Transkript

Podobné dokumenty

FATTY ACID-BINDING PROTEIN (FABP3) POLYMORPHISM AND

zákony a prognózy úmrtnosti pro stárnoucí populace

Euro-50T Mini

Tivicay - GSK Kompendium

Stáhnout materiál Regresní a korelační analýza