1 – D i

Transkript

1 – D i
Hierarchický bayesovský model
ekologické inference
Kamil Gregor
Otázka: Kolik procent
podnikatelů volí TOP09?
To je snadné!
TOP09 v PSP 2010 (%)
30
25
20
15
10
5
10
15
20
25
OSVČ v ORP (%)
Odpověď: (Asi) hodně.
30
Otázka: Kolik procent Romů volí
DSSS?
Taky asi hodně…
WTF?
Ekologický klam
černoši
běloši
600
400
?
?
400
voliči
?
?
600
nevoliči
celkem
1000
Ekologický klam
černoši
běloši
600
400
?
?
400
?
?
600
černoši
běloši
600
400
voliči
0
400
400
voliči
nevoliči
0
0
600
nevoliči
celkem
1000
celkem
1000
Ekologický klam
černoši
běloši
600
400
?
?
400
?
?
600
černoši
běloši
600
400
400
0
400
200
400
600
černoši
běloši
600
400
voliči
0
400
400
voliči
nevoliči
0
0
600
nevoliči
černoši
běloši
600
400
voliči
200
200
400
voliči
nevoliči
400
200
600
nevoliči
celkem
1000
celkem
1000
celkem
1000
celkem
1000
Základní statistická neurčitelnost
černoši
běloši
Pi
Ai
Bi
1 – Pi
Di – Ai
(1 – Di) – Bi
Celkem
1
Di
1 – Di
Pi = AiDi + Bi(1 – Di)
voliči
nevoliči
Jak řešit neřešitelný problém?
1. Dotazníková šetření
Jak řešit neřešitelný problém?
1. Dotazníková šetření
2. Statistické modelování
Předpoklady modelů
• Populace obou pozorovaných proměnných
je totožná
• Neexistuje prostorová autokorelace
nepozorovaných proměnných
• Rozdělení nepozorovaných proměnných
odpovídá námi zvolenému rozdělení
Dvourozměrné normální rozdělení
Bayesovské modelování
Bayesovské modelování
• Na začátku velmi obecné apriorní
rozdělení hodnot nepozorovaných
proměnných
• Podmíněné rozdělení je rozdělení hodnot
pozorovaných proměnných
• Aposteriorní rozdělení se použije
K čemu je to dobré?
• Pokaždé, když máme agregovaná data, ale ne
individuální data
• Tedy když známe hodnoty dvou proměnných v
populaci, ale ne hodnoty v jejich kontingenční
tabulce
A
B
C
?
?
?
α
?
?
?
β
?
?
?
γ
Například
• Sociální složení elektorátu (například podíl
katolíků versus podíl voličů strany)
• Voličské přesuny (podíl voličů strany ve
dvou volbách)
• Ticket-splitting
• Sociální složení populace (například
národnost versus náboženské vyznání,
nezaměstnanost versus vzdělání)
Nebo
• V řadě vědních oborů, jako je
– Sociologie
– Historie
– Ekonomie
– Marketing
– Geografie
– Epidemiologie
– Ekologie
Jak přesné jsou tyto výsledky?
• Pořád čekáme na ekvivalent testu statistické
signifikance
• Řešením je (zdá se) vyšetření robustnosti
použitých rozdělení a výpočetních algoritmů
• Ještě si nikdo nedal tu práci s modelováním
milionů simulovaných datových setů
• Ale existují rozsáhlé empirické studie (např. 113
švýcarských referend)
Jak přesné jsou tyto výsledky?
• Přesnost lze zatím měřit srovnáním s
výsledky exit pollu
• Příklad: Voličské přesuny v rakouských
parlamentních volbách mezi lety 2006 a
2008 (exit poll SORA)
Jak přesné jsou tyto výsledky?
model
minus exit
poll
SPÖ_08
FPÖ_08
ÖVP_08
G_08
BZÖ_08
ost._08
nev._08
SPÖ_06
2,31%
0,18%
-0,47%
-0,38%
-0,54%
-0,58%
-0,54%
ÖVP_06
-0,80%
1,23%
1,29%
-0,57%
-1,89%
0,88%
2,26%
G_06
-0,29%
-0,09%
-0,28%
1,21%
-0,08%
-0,24%
-0,46%
FPÖ_06
-0,35%
0,11%
-0,09%
0,08%
-0,14%
-0,07%
0,06%
BZÖ_06
-0,14%
-0,38%
-0,09%
-0,05%
1,44%
-0,03%
-0,11%
ost._06
-0,31%
-0,61%
-0,04%
0,13%
-0,32%
0,42%
0,71%
nev._06
-0,42%
-0,44%
-0,29%
-0,44%
1,53%
-0,38%
-1,92%
Zelená – model „přeceňuje“ voličské přesuny
Červená – model „podceňuje“ voličské přesuny
Závěr: Model je „konzervativnější“ než exit poll, vytváření falešný dojem stability
Jak přesné jsou tyto výsledky?
• P – přesnost, mi – výsledek model, ei –
výsledek exit pollu
• Udává podíl voličů, které model „správně
zařadil“
m e

P  1
i
2
i
Jak přesné jsou tyto výsledky?
• Voličské přesuny při volbách do
rakouského parlamentu:
– 1999 → 2002: P = 82,84%
– 2002 → 2006: P = 83,33%
– 2006 → 2008: P = 86,15%
Jak přesné jsou tyto výsledky?
• Voličské přesuny při volbách do
Poslanecké sněmovny Parlamentu ČR:
– 2006 → 2010: P = 87,89%
• Je to hodně nebo málo?
• Neví někdo, jaká je statistická odchylka
hodnot v buňkách kontingenční tabulky
voličských přesunů při exit pollu?
Děkuji za pozornost