1 – D i
Transkript
1 – D i
Hierarchický bayesovský model ekologické inference Kamil Gregor Otázka: Kolik procent podnikatelů volí TOP09? To je snadné! TOP09 v PSP 2010 (%) 30 25 20 15 10 5 10 15 20 25 OSVČ v ORP (%) Odpověď: (Asi) hodně. 30 Otázka: Kolik procent Romů volí DSSS? Taky asi hodně… WTF? Ekologický klam černoši běloši 600 400 ? ? 400 voliči ? ? 600 nevoliči celkem 1000 Ekologický klam černoši běloši 600 400 ? ? 400 ? ? 600 černoši běloši 600 400 voliči 0 400 400 voliči nevoliči 0 0 600 nevoliči celkem 1000 celkem 1000 Ekologický klam černoši běloši 600 400 ? ? 400 ? ? 600 černoši běloši 600 400 400 0 400 200 400 600 černoši běloši 600 400 voliči 0 400 400 voliči nevoliči 0 0 600 nevoliči černoši běloši 600 400 voliči 200 200 400 voliči nevoliči 400 200 600 nevoliči celkem 1000 celkem 1000 celkem 1000 celkem 1000 Základní statistická neurčitelnost černoši běloši Pi Ai Bi 1 – Pi Di – Ai (1 – Di) – Bi Celkem 1 Di 1 – Di Pi = AiDi + Bi(1 – Di) voliči nevoliči Jak řešit neřešitelný problém? 1. Dotazníková šetření Jak řešit neřešitelný problém? 1. Dotazníková šetření 2. Statistické modelování Předpoklady modelů • Populace obou pozorovaných proměnných je totožná • Neexistuje prostorová autokorelace nepozorovaných proměnných • Rozdělení nepozorovaných proměnných odpovídá námi zvolenému rozdělení Dvourozměrné normální rozdělení Bayesovské modelování Bayesovské modelování • Na začátku velmi obecné apriorní rozdělení hodnot nepozorovaných proměnných • Podmíněné rozdělení je rozdělení hodnot pozorovaných proměnných • Aposteriorní rozdělení se použije K čemu je to dobré? • Pokaždé, když máme agregovaná data, ale ne individuální data • Tedy když známe hodnoty dvou proměnných v populaci, ale ne hodnoty v jejich kontingenční tabulce A B C ? ? ? α ? ? ? β ? ? ? γ Například • Sociální složení elektorátu (například podíl katolíků versus podíl voličů strany) • Voličské přesuny (podíl voličů strany ve dvou volbách) • Ticket-splitting • Sociální složení populace (například národnost versus náboženské vyznání, nezaměstnanost versus vzdělání) Nebo • V řadě vědních oborů, jako je – Sociologie – Historie – Ekonomie – Marketing – Geografie – Epidemiologie – Ekologie Jak přesné jsou tyto výsledky? • Pořád čekáme na ekvivalent testu statistické signifikance • Řešením je (zdá se) vyšetření robustnosti použitých rozdělení a výpočetních algoritmů • Ještě si nikdo nedal tu práci s modelováním milionů simulovaných datových setů • Ale existují rozsáhlé empirické studie (např. 113 švýcarských referend) Jak přesné jsou tyto výsledky? • Přesnost lze zatím měřit srovnáním s výsledky exit pollu • Příklad: Voličské přesuny v rakouských parlamentních volbách mezi lety 2006 a 2008 (exit poll SORA) Jak přesné jsou tyto výsledky? model minus exit poll SPÖ_08 FPÖ_08 ÖVP_08 G_08 BZÖ_08 ost._08 nev._08 SPÖ_06 2,31% 0,18% -0,47% -0,38% -0,54% -0,58% -0,54% ÖVP_06 -0,80% 1,23% 1,29% -0,57% -1,89% 0,88% 2,26% G_06 -0,29% -0,09% -0,28% 1,21% -0,08% -0,24% -0,46% FPÖ_06 -0,35% 0,11% -0,09% 0,08% -0,14% -0,07% 0,06% BZÖ_06 -0,14% -0,38% -0,09% -0,05% 1,44% -0,03% -0,11% ost._06 -0,31% -0,61% -0,04% 0,13% -0,32% 0,42% 0,71% nev._06 -0,42% -0,44% -0,29% -0,44% 1,53% -0,38% -1,92% Zelená – model „přeceňuje“ voličské přesuny Červená – model „podceňuje“ voličské přesuny Závěr: Model je „konzervativnější“ než exit poll, vytváření falešný dojem stability Jak přesné jsou tyto výsledky? • P – přesnost, mi – výsledek model, ei – výsledek exit pollu • Udává podíl voličů, které model „správně zařadil“ m e P 1 i 2 i Jak přesné jsou tyto výsledky? • Voličské přesuny při volbách do rakouského parlamentu: – 1999 → 2002: P = 82,84% – 2002 → 2006: P = 83,33% – 2006 → 2008: P = 86,15% Jak přesné jsou tyto výsledky? • Voličské přesuny při volbách do Poslanecké sněmovny Parlamentu ČR: – 2006 → 2010: P = 87,89% • Je to hodně nebo málo? • Neví někdo, jaká je statistická odchylka hodnot v buňkách kontingenční tabulky voličských přesunů při exit pollu? Děkuji za pozornost