On Some Methodological Issues of CADS

Transkript

On Some Methodological
Issues of CADS
Language in Politics in Slavic speaking countries
Václav Cvrček
CADS and KWAIj
Corpus-assisted Discourse Studies (CADS)
Use of corpora in discourse analysis
▶
goal: text/discourse interpretation
▶
▶
reduce researcher’s bias (Baker 2012)
▶
▶
▶
identification of prominent topics (⇐ prominent words)
▶
▶
▶
identification of prominent topics (⇐ prominent words)
▶
keywords identification and analysis
MethodsIj
Method of identification of prominent words
1. raw or relative frequency of words in a text/corpus
2. thematic concentration (TC)
3. keywords (KWs)
3. keywords (KWs)
⇒ starting point for the interpretation
Note on thematic concentration
Popescu–Altmann (2006)
Discussion on thematic concentration
J. David et al.: Slovo a text v historickém kontextu. Host. 2013
Features and consequences of thematic concentration
▶
TC = identification based on the frequency distribution of
units within a text
▶
units within a text
▶
no reference corpus is required
▶
units within a text
▶
no reference corpus is required
▶
”interpretation without the interpreter”× different readers ⇒
different interpretations
KeywordsIj
Keywords and KWA
Keywords
▶
homonymous term (!)
Keywords and KWA
Keywords
▶
homonymous term (!)
▶
words with higher relative frequency in a text
Keywords and KWA
Keywords
▶
homonymous term (!)
▶
▶
based on comparison with reference corpus
Keywords and KWA
Keywords
▶
homonymous term (!)
▶
▶
▶
significance testing: χ2 test, log-likelihood (G) test, Fisher test
Keywords and KWA
Keywords
▶
homonymous term (!)
▶
▶
▶
significance testing: χ2 test, log-likelihood (G) test, Fisher test
Keywords: Words which appear in a text or corpus that are
statistically significantly more frequent than would be expected by
chance when compared to a corpus which is larger or of equal size.
Keyword analysis (KWA)
Romeo and Juliet vs. all Shakespeare plays (Scott–Tribble 2006)
Keyword analysis (KWA)
Romeo and Juliet vs. all Shakespeare plays (Scott–Tribble 2006)
AH
ART
BACK
BANISHED
BENVOLIO
CAPULET
CAPULETS
CAPULET’S
CELL
CHURCHYARD
COUNTY
DEAD
DEATHLY
EARLY
FRIAR
JULIET
JULIET’S
KINSMAN
LADY
LAWRENCE
LIGHT
LIPS
LOVE
MANTUA
MARRIED
MERCUTIO
MONTAGUE
MONUMENT
NIGHT
NURSE
O
PARIS
POISON
ROMEO
ROMEO’S
SHE
SLAIN
THEE
THOU
THURSDAY
THY
TORCH
TYBALT
TYBALT’S
VAULT
VERONA
WATCH
WILT
Methodological issues of KWA
1. KW identification and the question of KWs ranking
2. Role of reference corpus
How to measure keynessIj
Keywords identification
How do we usually proceed?
1. count frequency of each word in a target text – most frequent
words are the, of, was…
2. compare it with a frequency of the same word in a reference
corpus
corpus
3. use statistical tests: χ2 , log-likelihood or Fisher to find out if
the difference is significant
corpus
3. use statistical tests: χ2 , log-likelihood or Fisher to find out if
the difference is significant
4. interpret top X most significant keywords
Significance versus relevance
Gabrielatos, C. & Marchi, A. (2012): there is a difference between
(statistical) significance and (linguistic) relevance (effect size)
Metrics used to calculate keyness
▶
significance – level of certainty we have that the difference
exists (N.B. χ2 test is asymptotically true)
▶
▶
relevance – importance of the difference (for interpretation)
▶
▶
crucial for the top X approach:
▶
▶
▶
▶
1. identification of KWs – statistical tests
▶
▶
▶
1. identification of KWs – statistical tests
2. ranking of KWs – task for a different metric
Metric for keyness
Gabrielatos, C. & Marchi, A. (2012): ProcDiff
ProcDiff =
RelFq(Target) − RelFq(Reference)
× 100
RelFq(Reference)
Metric for keyness
ProcDiff =
× 100
RelFq(Reference)
But what if RelFq(Reference) = 0?
Metric for keyness
ProcDiff =
× 100
RelFq(Reference)
But what if RelFq(Reference) = 0?
A. Kilgarriff’s (2009) Simple math approach: add X (=1, 10…)
ratio =
RelFq(Target) + X
RelFq(Reference) + X
Different values of X yield different results
DIN coefficient
Variation on the Sørensen–Dice’s coefficient1 :
DIN = 100 ×
▶
1
RelFq(Target) + RelFq(Reference)
values of DIN
cf. Hofland–Johansson (1982).
DIN coefficient
DIN = 100 ×
▶
values of DIN
▶
1
-100 (= when a word is present only in the reference corpus)
DIN coefficient
DIN = 100 ×
▶
values of DIN
▶
▶
1
0 (=when a word occurs equally in target and reference corpus)
DIN coefficient
DIN = 100 ×
▶
values of DIN
▶
▶
▶
1
100 (=when a word is present only in the target corpus)
DIN coefficient
DIN = 100 ×
▶
values of DIN
▶
▶
▶
▶
1
represents the proportion of the difference of relative
frequencies to their mean (× 50)
DIN coefficient
DIN = 100 ×
▶
values of DIN
▶
▶
▶
▶
▶
1
no zeroes in the denominator × identical value of DIN for
words appearing in a target text only
DIN coefficient
DIN = 100 ×
▶
values of DIN
▶
▶
▶
▶
▶
▶
1
no zeroes in the denominator × identical value of DIN for
words appearing in a target text only
useful for ranking of KWs (not for their identification!)
Example values
Size of a target corpus
Size of a reference corpus
Fq(target)
Fq(reference)
1,000,000
1,000,000
5500
5000
Example values
Fq(target)
Fq(reference)
1,000,000
1,000,000
5500
5000
LL = 23.82 ⇒ p < 0.001
The difference is highly significant, but…
Example values
Fq(target)
Fq(reference)
1,000,000
1,000,000
5500
5000
LL = 23.82 ⇒ p < 0.001
The difference is highly significant, but…
DIN = 100 ×
0.55 − 0.5
= 4.76
0.55 + 0.5
…almost irrelevant (the effect size of the difference is negligible)
Needle in a Haystack Project
Suitable data for testing the limits of KWA
▶
presidential New Year’s addresses (NYA) of Gustáv Husák
(1975–1989)
▶
(1975–1989)
▶
presumed to be flat, ritualistic and monotonous, full of cliches
– perfect for testing limits of keyword analysis (KWA)
▶
(1975–1989)
▶
▶
same author, same genre/situation × time (and topic)
▶
(1975–1989)
▶
▶
▶
manageable size of texts (1500 tokens per speech)
▶
(1975–1989)
▶
▶
▶
▶
reference corpus: Totalita – 15 mil. words (1952–1977) of
written Czech; communist newspaper
▶
(1975–1989)
▶
▶
▶
▶
reference corpus: Totalita – 15 mil. words (1952–1977) of
written Czech; communist newspaper
http://kwords.korpus.cz
Difference between LL and DIN (Dice)
300
200
100
0
Log−likelihood (rank)
400
500
All KWs
0
100
200
300
Dice (rank)
400
500
Example 1: Grammatical words
Keywords from all Husák’s New Year’s Addresses
400
300
200
100
0
500
600
All NYA (gram. words highlighted)
vlastenectví
zachování
světem ozbrojených
dalšímu
jakývědeckýchpotřeb strany
postupu
vědomím
odpovídá
prospěchu
rovnosti
vztahy
kterým
občanépotřebné
lidstva
hospodářského
odkaz
těžkosti
solidaritu
široká
růstu
aktivita
hospodařit
vstříc
energetické
odkazu
s
všestranného
příští
blaho
všechny
částech
řešení
zdravotnických
všestranné našimi
materiální
milióny nedostatků
vysokoumožností
továrnách
velký
pracovní
potvrzují
přínos
uspokojením
zničení
nezbytná
starat
pokrokovým
tvůrčí
zájmům
krizových
svobody
našem
obětavě
prosinci
krize
spojeno
pevnou
orgánů si
politiku
zajistili
duchovní
správnou
šesté kterém
mírovému
let
volby
ekonomického
společný
náročný
zmařit
láskou
dobrá zbrojení
stupních
drahé
díky
metra
podnětem
mezinárodním
stavbáchpozitivní
důvěra
bratrskými
otevřela
zásluhou
zhodnotil
zasedání
složitých
politiky
pracovišti
zdůraznit
důkaz
celého
plnění
sjezdu
odhodlání přání sovětskouplní nedostatky
problémů
jaderných
potřebám
rozvíjela
přispívat
politice síly
příznivý
progresivních
vývojem
svou
dařilo
hovoříme
naléhavě
složek
sil
zasedáních
konfrontace
hrdosti
náročných
1978
pracovištích
vztazích
postavení
naléhavé
čelit
spravedlnost
vysoce
pozvednout
národy svazu
kupředu rychleji našemu
angažovanost
katastrofy
každém
spolu
nemálo
cen
závěry
vítěznou
inteligence
ekonomiku
nadcházející
vyspělost
prohlubovat
složitou
děkuji
užívání
ve
loňském
stupňů
rostoucí
hladiny
to
dějinné
společné
výsledkům
veškeré
bratrský
úspěšně
kontinentě
vnější
školství
slabá
problémy
nám
společenské
věnovat
důstojně
rovnováhu
měny
abych
potvrdily
rozloučili
organizací které
správě
pracujícího
současnýchbezpečnost
obětavou
osvobozenecký
vyspělou
smyslem
soudružské
dobrý pokrok
zájmu
vykonali
odhodláni
kultuře
celém
společenský
otevřeně
spokojeně
celé
historickými
nezávislosti
připomínat
postup cíle
lidstvo
lidí
generace
sborů
prostá
velkou
hmotné
úspěšného
hrdostí
dynamiku
školských
vůle
hrdí
sjezd
sovětského
perspektivy
nejvyšších
všestranný
pracujících
vyžadovat
zlepšování ovzduší
službách
evropě
podílí
úseků
složitost
zřízením
upevnění spolupráci proto
xiv
příštích
rozdílným
záměry
připomněli
pevným
přestavby
republika
návrhy socialistickásplnění
vykonanou
začneme
obětavá
podporuje
činorodé
příznivé
spojenci
překonávání
přátelství
celkově
podíleli
šťastného
armádou
abyste
vyžadují
zajištění musíme
zápase
udrželi
osvobozování
horečného
bezpečnosti nových
složitá
mládeži
stručně
přestavbě
mírovou
efektivněji
zdrojem
politika
vůlí
minulém
bratrskému
pokračovat
díváme
pramení
důsledně
energičtěji
udržet
jednoty program
tužby
zlepšení
povinnosti
realisticky
jaderné
dobrých
opravňuje
novém krok
oblastech vše
přáteli
plně sociální
nimiž
bratrské
soužití
usilujeme
lid
pokračoval
samozřejmé
osmé
upřímné
budoucnosti
pozdravil
cesta
plodem
víme
úrovně
přesvědčen
1981
znovu
významné rozvíjet
nejspolehlivější
cestu
opravňují
bratrských
pro
obav
Úspěšně
překážek
překonání
vyvrcholení
jednou
československéholepší
pracíúkolů práce
plnou
přáním
uskutečňovat důrazmuselizdravotnictví
tvořivé urychlení
zabezpečit
ženám
generacím dialogu
vzestupný
rozkvětu
usilovat
kriticky
letošním mezinárodníchzeměmi
dělníkům
dnešním
radost socialistickými
odhodláním ústavechzastupitelských
společným
slováků
nadcházejícím
životních
poctivé
dovolte
Čechů
dopravě významných dobrou
podporu
dosažené
svým
rolníkům varšavské
důvěry
příslušníkům
občany
řešit
právem
spolehlivou
uplynulým
dalším
dopadynastávajícím
upevnili
pozitivních
československé
výhodnou tvořivou odpovědně
úspěchy
nestraníků
vzpomínat
udělejme
uskutečňování
států
vážíme
zlepšovat mírovýchuvolňování
prošli
1982 tvořiváoceňujeme
cestou
mnoho
reálné
dalšího
překonávat
země
konstruktivní
výročí
události národně
výsledků
mírové
odzbrojení
srdce
upevňování pracovat
vašim
podmínkách
1983
spolupráce
vývoj
náročně
další
kvalitněji
všude
přikládáme
vzájemně
prohlubování
úroveň
opíráme
osvobozeneckého
inteligenci Československá
sociálních
úspěšný
hranicemi
naši
vrstev
dalšími
svědomitou
žít
chceme
šťastný
uplynulých
rodinném
uplynulého
všestranná
považujeme
domovům hodnotíme
nadále
jistoty přesvědčeni
dále
jistot
hodně
aby
uvědomujeme
rozkvétala rozvíjelo
dosáhli
přátelům
desetiletí
národností
máme
vás
jdeme
věříme
zápasu
výboru
pevné
národů
úsilí
rozvoje
socialistických
vážené hrozby
pozdravuji
pokročili
míru
přejeme
rozvoji
dobrým
mezinárodní
napětí
vzkvétala podporujeme
úsecích zápas
lépe
zřízení
klademe
prožili
odvrácení
rozvoj
pohodě
náročné
1986
aktivně
pohodu
obětavé
zamýšlíme
vlast
spojenectví
Československo
životní
spokojený
abychom
pětiletky
úkoly
pokroku
úspěchů
sovětským
prahu
pozdravy
1987
vstupu
minulého
nás
občanům
mírový
občanů
střízlivým
dalších hospodářství
zdravíme
přičiňme
novoroční
práci
osobním
svazem říci
připomeneme
našim
spokojenost
poctivou
spokojenosti
dařilauplynulý
chci
státu
všech
přátele
socialistické
přispěli uplynulém
společnosti
mírového
důvěrou
komunistické
života
optimismem
xviixvi
štěstí
rozkvět
všem
poděkovat
náš
dobré státy
vážení upřímně
soudruzi
posíláme
můžeme
život výsledky
zdravím
srdečně
naše roce
rokem zdraví
společenství
a
národní
ústředního
vám fronty
našich
životě
nového
vstupujeme
rok
světě
vlasti
i
socialistického
jménem
jsme
Československa našeho
budeme
soudružky
přeji přátelé
spoluobčané
našílidu roku
drazí
0
100
200
300
Dice (rank)
400
500
600
Example 2: Topical words
našimi (”our”, Inst. pl.) × rest of the lemma náš (”our”, all cases)
600
All NYA (gram. words only)
jakýkterým
vstříc
našimi
500
svou
1978
našemu
každém
veškeré
abych
400
ve
to
nám
které
proto
300
abyste
vše
nimiž
1981
pro
200
svým
1982
1983
naši
aby
100
vás
1986
1987
abychom
nás
našim
všem
vám
našeho
0
s
všechny
si
našem
kterém
díky
0
100
200
300
Dice (rank)
náš
našich
naší
400
všech
naše
i
500
600
a
Reference corpus in KWAIj
Reference corpus in KWA
What does reference corpus affect?
size: bigger reference corpus ⇒ more KWs
composition: different reference corpora represent different readers
▶ balanced corpus ∼ general reader
▶ balanced corpus ∼ general reader
▶ specialized corpus ∼ specific reader (e.g. from
the past, with specific background…)
Husák: Influence of the reference corpora
What happens if we compare texts to different RefCs?
▶
the inventory of KWs does not differ substantially
▶
▶
the difference is in ranking (prominence of KWs – DIN)
▶
▶
Historical reader (Totalita)
→ genre differences
▶
Modal verbs: want, can
▶
Verbs: 1. sg./pl.
▶
▶
Historical reader (Totalita)
→ genre differences
▶
▶
Contemporary reader (SYN2010)
→ connected with historical events
Modal verbs: want, can
▶
ideology
Verbs: 1. sg./pl.
▶
archaisms, historism
Detailed comparison – 3 thematic groups
Cold war: mír, míru, mírová, mírové, mírového, mírovému,
mírovou, mírový, mírových, mírovými, mírumilovné,
mírumilovných, mírumilovným; napětí; odzbrojení,
výzbroje, zbrojení, zbrojením, ozbrojených
Collective possession: náš, naše, našeho, našem, našemu, naši,
naší, našich, našim, naším, našimi
Ideo markers: socialismu, socialismus, socialistická, socialistické,
socialistického, socialistickém, socialistickému,
socialistickou, socialistický, socialistických,
socialistickým, socialistickými; komunismu,
komunisté, komunistů, ksč, komunistům, komunisty
komunistická, komunistické, komunistickým
Cold war
90
100
Cold War KWs in SYN−KWA and TOT−KWA
70
60
50
40
DIN
80
SYN−KWA
TOT−KWA
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
Year
Fidler–Cvrcek (forthcomming)
Collective possession
80
85
90
95
KWs "our" in SYN−KWA and TOT−KWA
65
70
75
DIN
SYN−KWA
TOT−KWA
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
Year
Ideological markers
70
80
90
100
Ideological markers KWs in SYN−KWA and TOT−KWA
30
40
50
60
DIN
SYN−KWA
TOT−KWA
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
Year
ConclusionsIj
Conclusions
Ranking of keywords
▶
statistical significance ̸= relevance
Conclusions
Ranking of keywords
▶
▶
the effect size of the difference is as important as the
significance
Conclusions
Ranking of keywords
▶
▶
significance
Role of reference corpus
▶
different reference corpora can be used to model different
readings of the same text
Conclusions
Ranking of keywords
▶
▶
significance
▶
▶
the difference is in the sensitivity (suppressed or increased) to
certain topics
Conclusions
Ranking of keywords
▶
▶
significance
▶
▶
the difference is in the sensitivity (suppressed or increased) to
certain topics
▶
genre matters!
References
▶ Baker, P. (2012): Acceptable bias? Using corpus linguistics with critical
discourse analysis. Critical discourse studies 9(3): 247-256.
▶ David, J. et al.: Slovo a text v historickém kontextu. Host. 2013
▶ Fidler, M. – Cvrček, V. (forthcoming): A data-driven analysis of reader
viewpoints: Reconstructing the historical reader using keyword analysis.
▶ Gabrielatos, C. – Marchi, A. (2012) Keyness: appropriate metrics and
▶
▶
▶
▶
practical issues. CADS International Conference, Bologna, Italy
(www.gabrielatos.com/Presentations.htm).
Hofland – Johansson (1982): Word frequencies in British and American
English. Bergen: The Norwegian computing centre for the Humanities.
Kilgarriff, A. (2009): Simple maths for keywords proc. Corpus Linguistics.
Liverpool. UK
(http://ucrel.lancs.ac.uk/publications/cl2009/171_FullPaper.doc).
Popescu, I. – Altmann, G. (2006): Some aspects of word frequencies.
Glottometrics 13, p. 23–46.
Scott, M. – Tribble, C. (2006): Textual patterns: Keyword and corpus
analysis in language education. Amsterdam: Benjamins.
Thank you for your attention!

On Some Methodological Issues of CADS

Transkript

Podobné dokumenty

The Theory behind Keyword Analysis

Fractal

Aerator - scarifier 1. INTRODUCTION The rotary aerator is

11375 - CZ FERRO - STEEL, spol. s ro

Website review easyrocket.cz

chs-epoxy 211