pdf 2,33 MB

Transkript

pdf 2,33 MB
Mgr. Josef Šlerka
Studia nových médií
Digital humanities: Praktické využití volně dostupných nástrojů pro text a data mining
*den vědy (2012)
Overtura
Normalized Compression Distance
NCD
function ncd ($x, $y) {
$cx = strlen(gzcompress($x));
$cy = strlen(gzcompress($y));
return (strlen(gzcompress($x . $y)) min($cx, $cy)) / max($cx, $cy);
}
!)'St)ooo otiCrine
IDstCleYSkiPocrfol
IDstCJe'lS~rrOI
DoskleVSkiidi:lt
T_ _
TlIgeOeVGen6ej)l(s
TlIQE!nevE'"
T~
T~nosIi
T...._
T~;wt
-......""",...,...
T
."""...,
""'
"
""
......'"""-
---,
-
-
-,
~
Helgm
0.925 0.965
111111111
South.Park,S13E02'oSRXviD-OTV,txt
South.Park.S13E05'oSRXviD-OTV.txt
South .Park.S 13E03,OSR X viD-OlV .txt
South.Pa rk.S 13E06. HDlV XVI D-BAJSKORV ,txt
how,i.met. your.mother.s01 e01 ,txt
n
~
~
how .i.met. your .moth er. sO 1e04. txt
lir
~
~
~
how ,i ,met ,your ,moth er,sO 1e02,txt
g
how .i .met ,your .moth er.sO 1e03.txt
@
Q.
3
1x03-The _Big_ Bang_Theory-The J uzzLBoots _Coroll ary .txt
1x01-The_Big_Bang_Theory-Pilot.txt
1x02-Th e_ Big_Bang_Th eory-Th e_ Big_Bra n_H ypotesis,txt
1x04 -Th e_ Big_ Bang_Theory-Th e_ Lu mi nousJi sh _Effect.txt
Paradigma
Paradigma (je) souhrn základních domněnek,
předpokladů, představ dané skupiny vědců.
Ke každému paradigmatu patří i metodická
pravidla řešení, intuitivní postoje a hodnocení
problémů. Proměna vědeckého paradigmatu
se děje zvraty (tzv. vědeckými revolucemi).
(Wikipedia)
Čtyři paradigmata
empirický - založený na pozorování přírody
teoretický - vytváří modely, generalizuje
komputační - simulace komplexních systémů
datový - založený na analýze dat
Data: naivně viděno
vyjádření skutečností formálním způsobem tak, aby je
bylo možno přenášet nebo zpracovat (např. počítačem)
číselné nebo jiné symbolicky vyjádřené (reprezentované)
údaje a hodnoty nějakých entit nebo událostí
jakékoliv fyzicky (materiálně) zaznamenané znalosti
(vědomosti), poznatky, zkušenosti nebo výsledky
pozorování procesů, projevů, činností a prvků reálného
světa (reality)
Wikipedia
Změna paradigmatu
data-driven vs. knowledge-drive
komputační metody vs. modelování
skutečnosti
Peter Norvig vs Noam Chomsky
Digital Humanities
The digital humanities is an area of study,
research, teaching, and invention concerned
with the intersection of computing and the
disciplines of the humanities. Sometimes
called humanities computing, the field has
focused on the digitization and analysis of
materials related to the traditional disciplines
of the humanities.
Digital Humanities
první vlna: nástup korpusů, sofistikované
prohledávání etc.
druhá vlna: experimentování
třetí vlna: “computational turn”
Zdroje dat
Analogový (v počátcích, ale pro uni důležitý)
Digitální (velmi, velmi pokročilý díky internetu)
Analogový svět
nutné transformovat
představitelnější pro běžné akademiky
ve světě již hutně zastoupený
u nás pořád bída
zajímavé výsledky
Příklady
distant reading
cultural analysis
social network analysis
Distant reading
Franco Moretti
close reading vs distant reading
literaturu je třeba zkoumat jako živočišné
druhy
odmítnutí close readingu jako sekularizované
podoby čtení Bible
Analýza pohlaví
---_.----_.
------_.---------.-----,
._--_ _o
"""""',,, ""
"-
'"
,
_ _o
[,
......, .....
'" ,
~-
._ ......
""
""
=
lil.
Cultural analysis
Lev Manovich
analýza a vizualizace velkých, převážně
vizuálních korpusů
hledání patternů
Impressionisté
SNA v politologie
data mining politických akcí
vzorové studie jsou z oblati společných
hlasování
Pražský magistrát
analýza hlasování za tři volební období
vazba existuje při 75% shodných hlasování
ukazuje skutečné hlasovací jádro
ukazuje vazby napříč stranami
inspirace americkým experimentem
1998 - 2002
2002 - 2006
2006 - 2010
Digitální svět
vešekerá produkce na internetu
záznamy z digitálních zařízení
demokratizace velkých dat
demokratizace technologii
Co jsou to Big Data?
Big Data is a term applied to data sets whose
size is beyond the ability of commonly used
software tools to capture, manage, and
process the data within a tolerable elapsed
time. Big data sizes are a constantly moving
target currently ranging from a few dozen
terabytes to many petabytes of data in a
single data set.
Co je Data Science?
A data application acquires its value from the
data itself, and creates more data as a result.
It's not just an application with data; it's a
data product. Data science enables the
creation of data products.
Sexy job?
“Datový vědec je statistiky žijící v San
Franciscu...” (source: Twitter)
“I keep saying that the sexy job in the next 10
years will be statisticians...”
Hal Varian, chief economist at Google.
Data Science
3 000 000 000
počet hledání na Googlu denně
30 000 000 000
počet zpráv a příspěvků na Facebooku měsíčně
5 000 000 000
mobilních telefonů po celém světě
140 000 000
průměrný počet zpráv poslaných denně na Twitteru
1 000 000
počet denně vygenerovných zpráv na českém Facebooku v
otevřených profilech
600 dolarů
cena disku na který se vejde veškerá hudba na světě v MP3
100 dolarů
cena hodiny provozu klastru 10 počítačů na Amazonu
0 dolarů
cena open-source softwarů, jako je Hadoop,
Lucene,Cassandra, CouchDB, Elastich Search a dalších
Big Social Data
deep data vs. surface data
data-driven sociální a humanitní vědy
Lev Manovich: The Promises and the
Challenges of Big Social Data
Big (Social) Data
případové studie
Search Engine Based
normalized Google distance
Google Insight
search suggestion
Google distance
počítá se sémantická vzdálenost
autory jsou Rudi Cilibrasi a Paul M. B.
Vitanyi
podobné věci sdílí stejné vlastnosti
dvě reprezentace jsou si tím podobnější, čím
méně složitých změn je třeba k převodu jedné
v druhou
NGD je vyjádřená vzorcem:
m = log10(počet všech indexovaných
stránek);
fx = log10(počet výsledků pro slovo X);
fy = log10(počet výsledků pro slovo X);
fxy = log10(očet výsledků pro slovo X a Y);
GND = ((max(fx,fy) - fxy) / (m - min(fx,fy))
1
,
~pp l.
-
5
toyo ..
Additional keywords set (upto five, optional)
,
,
,
•
Restrict to domain (optional)
[)omajn ot no
Example keyword set: SPDIe.
m/~fOSOIt.
bmw. chrysler. toyota
Result matrix
apple
apple
microsoft
0.11519974
b~
0.77006889
b~
0.11519974
0.77006889
0.54669557
chrysler
toyota
0.54669557
0.73886136
0.06765933
"
chrysler
toyota
microsoft
'"",,,
0.73886136
0.06765933
0.28139269
0.28139269
0.42550257
0.42550257
http://www.mechanicalcinderella.com/
Dovolené podle jazyka
Search jako signál
Hyunyoung Choi, Hal Varia:
Predicting the Present with Google Trends
Chevrolet
I
,; i
i
I
-
GoogIo T _ .
- - -,- - Toyota
I
,; I
!
, I
,
, ,•• !
, I
,
, I
Chevrolet
- - - - .~
,
•
•
Toyota
•••
,
• ••
•
- - -,- - -
,
,
- - - - ~
(b) Act ua! &. Fitt<d Saleo
Jak je to možné?
Život je hledání... (taky)
a dříve než se rozhodneme, hledáme...(taky)
! ,----
I -r---'""'' ' ' "-c-l
I ~
I
•
•
i
I
Germlln y _
i
I
i
I
1 1,!-~~-,-J
I
France
,
i
I
I
i
•
I
....
...,.
"""
....
I
I
I
!
I
i
i
i
i __
i - I
I
I
I
!
Figure 2.9: Visí to... Statisti"" and Fittcd by Count ry
Ind ia
Google Insight
statistiky vyhledávání na Google
využitelné pro predikci nezaměstnanosti
zajímavé výsledky pro vztahy slov
Google a zaměstnanost
jol".alerk&@gmall.com l MyAqp'01 I I::1m1 I $190 OUI I D Download II esy I EogIIsh ruSl ..
Google Insights for Search
Comp.re by
0 Searchtenns
Searc:h lerm.
"", UOO QOJ<" ,,...
"'''
_»_.., __.
I'W>IO
Locabons
• volnoi mini.
T1me Rangoes
• oabldkil r.ice
+
MI
st'
tl ,
-.,
F Uter
~
-"-
wm
•
S.. "h
Web Sean;:h Interest: y oln á mlsw, nabldka prAce
Tatlrl
WOOdwide, 2004 - prasenl
CetegOl1es: Lor.al , Sodety. Eotertalnmenl. Healtb. Buslness. Travel
(J;
volnll mlsta
: : : : :: "
nabldka pnlce
42
dl An impn:lVflfT1enl to ou' lI"OII",phical 8S$ignment was appHed I1.!lroaclively fn.>m 1/112011 . l l am ...., ....
r,~"~,.~-~-~,~.~...~,~,~,~m .=-_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _~==___~"'_F~-::;:.~'.... News headlines
""
" m ....
."
."
,
,
."
Google Insight
Google suggestion
Google suggestion
Báječný svět API
Twitter
Facebook
Foursquare
OpenSubtitles
... korupsy u nohou
Twitter
Facebook
Foursquare
OpenSubtitles
_
__
5 \
-' _0. '
_ . c._ _ _ ,"_._" • •
,-,,,,",,_~_,,-.).
'1'. _
__
'
.
.- •.. ..
",_",~,-o",o,.,
"
"
."
,
'-
•
'- -
... -.,
-.-
I\i ,
.•,
!!!Ot
-...
........................
._..
~--
Wikipedia
více jak 500.000 kategorií
více jak 5.500.000 entit
pojmová síť
Sémantický analyzér
Text je systém, ve kterém jsou souvislosti mezi
větami dány i tím, že pojmy, které se v textu
vyskytují, náleží ke společnému tématu.
Správné určení tématu (témat) textu je
shodné s nalezením nejvyššího společného
slovníku pro co největší část použitých
termínů.
Ukázkový text...
TEHRAN — Thirty-six years after construction began under the shah, Iran finally
opened its first nuclear power plant at a ceremony on Saturday.
Attended by senior officials from Iran and Russia, the ceremony marked the
beginning of the transfer of low-enriched uranium fuel rods from a storage site
into the plant.
Officials of both countries said Saturday’s events signified the opening, not the
startup, of the plant near Bushehr, in southern Iran, as a working nuclear plant.
“This is a special day for both Russian and Iranian specialists,” the chief of
Russia’s Rosatom state nuclear power company, Sergei Kiriyenko, said, shaking
hands and smiling with his Iranian counterparts, in television reports broadcast
in Russia, which helped build the station through years of concern by the West
that Iran was using its civilian program to mask a plan to build a bomb....
Výsledek: kategorie
Energy
Nuclear technology
International relations
Chemistry
Countries
Výsledek: slova
russia
iran
uranium
nuclear power
nuclear power plant
fuel
Další studie...
prediktivní analýza pomocí velkých dat v praxi
Twitter a burza
Mobily a cholera
Facebook a filmy
zmínky o Inception na českém Facebooku 2010 a divácký ohlas
Facebook a filmy
Harry Potter na českém Facebooku 2010 a divácký ohlas
Facebook a filmy
Harry Potter na českém Facebooku 2010 a divácký ohlas
Indexy sociální akce
Realita
logy mobilů
Instagram
recenze 4SQ
4SQ check-in
Reakce
Akce
statusy na Twitteu
FB komentáře
FB statusy
členství ve FB skupinách
FB likes
Virtualita
Co dál?
Změnit imaginaci! A dát si pozor na intelektuální pasti.
Na co si dát pozor?
The lure of objectivity
The power of visual evidence
Black-boxing
Institutional perturbations
The quest for universalism
(Rieder, Rohle: Digital Methods)
Děkuji za pozornost!
Čas na otázky, čas na odpovědi:-)
mail: [email protected]
twitter: twitter.com/josefslerka

Podobné dokumenty

prezentace

prezentace  Josef Šlerka – Slovenský Facebook (28.9.2011) http://www.slideshare.net/josefslerka/slovensky-faceboook  Amazing Twitter Infographics - http://econsultancy.com/uk/blog/8049-10-twitterinfographics

Více

Peter Richelieu

Peter Richelieu „Nepřišel jsem vás obracet na nějakou novou víru nebo filozofii. Můj Pán mě neposlal proto, abych vám zodpověděl otázky, které vás zrovna teď trápí. Mohu to učinit jedině tak, že vám povím o základ...

Více

říjen - Městský Obvod Ostrava Vítkovice

říjen - Městský Obvod Ostrava Vítkovice obyčejnou mikrovlnku. A tak, aby výsledky jejich práce byly co nejlepší, měl kolektiv v prvních dnech k ruce i profesionálního kuchaře, který jim pomáhal „komunikovat“ se všemi těmi konvektomaty, k...

Více

Léčba dimethyletherem u condylomata accuminata u žen

Léčba dimethyletherem u condylomata accuminata u žen analýza výsledků je založena na 15 pacientkách, které studii dokončily. Jejich průměrný věk byl asi 22,2 let. U 14 z 15 (93 %; 95 % IS 81-100%) pacientek byly všechny bradavice se skóre pozitivní b...

Více

Get Social, 6. 11. 2013 Josef Šlerka, Studia nových médií, Ataxo Group

Get Social, 6. 11. 2013 Josef Šlerka, Studia nových médií, Ataxo Group Gamification is the use of game design techniques and mechanics to solve problems and engage audiences.

Více

Hyleg - sbírka horoskopů

Hyleg - sbírka horoskopů Slunce vyhovuje v roli Hylegu, Slunce má aspekt na Jupitera, ale ten je spálený (povýšení), má aspekt i na Lunu (vládce), ale Luna není postavena dobře, rozhoduji se pro Venuši, která je v MC (deka...

Více