Teorie sítí v lingvistice

Transkript

Teorie sítí v lingvistice
Teorie sítí v lingvistice
Radek Čech
www.cechradek.cz
Redukcionismus vs. komplexita


„Viděli jste někdy dítě rozebírat svou oblíbenou hračku? A viděli jste pak toho mrňouse, jak brečí, protože zjistil, že součástky ne a ne složit zase dohromady? Tak tady máte tajemství, které se nikdy neobjeví na prvních stránkách novin: rozebrali jsme svět na části a nemáme představu, jak ho zase složit zpět...“ (Barabási 2005)
„Redukcionismus nám říká, že pokud chceme přírodu pochopit, musíme nejdříve rozšifrovat, z čeho se skládá. Předpokládá se, že jakmile pochopíme části, bude jednoduché pochopit celek.“ (Barabási 2005)
Redukcionismus vs. komplexita

„Ukázalo se, že skládání dílů dohromady je úkol mnohem těžší, než vědci předpokládali. (…) Poučili jsme se, že příroda není chytře vymyšlená skládačka, která se dá složit jen jedním způsobem. V komplexních systémech se součástky dají sestavit tolika různými způsoby, že by nám trvalo miliardy let, než bychom je všechny vyzkoušeli. A přece příroda skládá dílky s lehkostí a přesností, zdokonalovanou miliony let. Využívá při tom všeobsáhlé zákony samoorganizace, jejichž původ je pro nás stále do značné míry tajemstvím.“ (Barabási 2005)
Sítě


jednou z možností, jak zachytit a analyzovat vlastnosti jevů a vztahů mezi nimi, je analýza sítí síť → graf sestávající z bodů reprezentujících entity a hran reprezentujících vztahy mezi entitami
Syntaktická
síť
Teorie komplexních sítí

konec 90. let 20. stol. → rozvoj teorie grafů, zejména tzv. teorie komplexních sítí (TKS) 

odhaluje společné vlastnosti systémů nejrůznějšího původu → internet, potravní řetězce, sexuální vztahy, neurální sítě, vědecké citace, ekonomické vztahy... jazyk
tyto společné statistické vlastnosti jsou výsledkem

struktury systémů

vývoje systémů
Komplexní sítě


komplexní síť → graf se specifickými vlastnostmi, zejména

efektivnost (efficiency)

zranitelnost (fragility, vulnerability)
tyto vlastnosti důsledkem

tzv. efektu malého světa

heterogennosti 
distribuce hran u uzlů se řídí mocninným zákonem

bezškálová síť
Heterogennost
Komplexní sítě

odkud se berou tyto vlastnosti?


dynamika sytému → růst
nestejné vlastnosti jednotlivých uzlů → preferenční připojování Jazyk & sítě

proč zkoumat jazyk prostřednictvím metod TKS?

(jazykové) univerzálie

vlastnosti jazyka jako komplexního systému


srov. redukcionismus vs. komplexita
„Unless we know something about the structure of these networks, we cannot hope to understand fully how the corresponding systems work.“ (M. Newman)

evoluce jazykového systému

nové interpretace jevů/procesů, např.

akvizice

dysfunkce – agramatismus

typologie
Jazyk v síti

„jaký“ jazyk lze zkoumat prostřednictvím teorie sítí?

jazyk jako vlastnost souboru (mluvčích)

jazyk jako projev chování
Jazyk & komplexní sítě

analýzy jazyka prostřednictvím TKS lze chápat jako test hypotézy, podle které je evoluce jazyka a jeho struktura výsledkem vlivu univerzálních mechanismů (růst, preferenční připojování) → ne­jazykové univerzálie
Jazyk & komplexní sítě

pokud hypotéza platí, jazyk musí vykazovat následující hodnoty


distribuce hran se musí řídit mocninným zákonem
−γ
P (k )≈k
fenomén malého světa


malá průměrná vzdálenost mezi uzly
vysoký koeficient shlukování



poměr mezi počtem hran, které existují mezi sousedy daného uzlu, a počtem všech možných hran mezi sousedy daného uzlu
u náhodných sítí velmi malý
pro celou síť se počítá jako aritmetický průměr koeficientů celé sítě
Jednotky & vztahy

kolokační sítě (co­occurence networks)



uzel → slovo
hrana → souvýskyt, tj. jsou spojena slova vyskytující se ve vetě vedle sebe
syntaktické sítě

uzel → slovo

hrana → syntaktický vztah (dependence)
Jednotky & vztahy


sémantické sítě

uzel → slovo

hrana → sémantický vztah (synonymie)
fonologické sítě



uzel → foném
hrana → fonémy jsou spojeny, pokud se vyskytují ve stejném slově
slabiční sítě


uzel → slabika
hrana → slabiky jsou spojeny, pokud se vyskytují ve stejném slově
Výsledky
Důsledky

výsledky odhalují

nový typ univerzálních vlastností jazyka




nejsou zaměřeny na tradiční jazykové vlastnosti, jako je slovosled či inventář fonémů
statistické vlastnosti, které lze chápat jako výsledek komunikačního procesu (v širokém slova smyslu)
rozdělení konektivit podle mocninného zákona → vztah k Zipf‘s principle of least effort
jazyk podobným typem systému, jako systémy sociálních vztahů, internet atd. → předpoklad obecných zákonů řídících chování tohoto typu systémů
Důsledky

interpretace výsledků (syntaktické sítě)

fenomén malého světa


ukazuje, jak „jednoduchá“ je mentální navigace → vezmeme­li libovolná 2 slova v síti, stačí nám několik málo kroků k tomu, abychom se dostali od jednoho k druhému (navzdory velikosti sítě)
heterogennost

nejvyšší počet konektivit mají funkční slova → odstraníme­li je, síť se rozpadá...
Důsledky


vlastnosti komplexních sítí výsledkem dynamiky systému (růst) → analýza

ontogeneze (akvizice)

evoluce
typologie → mohou rozdíly vlastností sítí reflektovat typologické rozdíly mezi jazyky?
Preferenční připojování

S. N. Dorogovtsev & J. F. F. Mendes: Language as an evolving word web (2001)
Preferenční připojování
Preferenční připojování –
syntaktická síť (PDT 2.0)
in-degrees
word
in-degrees
word
1
15044
a
15
1670
do
2
7441
být
16
1660
za
3
3935
v
17
1593
pro
4
3677
na
18
1570
že
5
3489
mít
19
1384
muset
6
3094
s
20
1333
stát
7
2832
z
21
1027
po
8
2447
o
22
969
od
9
2288
nebo
23
914
chtít
10
2167
moci
24
901
podle
11
2112
ale
25
899
říci
12
1936
k
26
794
při
13
1882
i
27
787
než
14
1704
či
28
772
však
Komplexní sítě & jazyková
akvizice


Corominas­Murtra, B., Valverde, S., & Solé, R. V. (2010). Emergence of scale­free syntax networks. sledování jazykového vývoje u jedinců → modelování sítí v jednotlivých fázích vývoje jazyka jedince
Komplexní sítě & jazyková
akvizice

jazykový materiál

Manchester corpus

spontánní řečové projevy dětí s dospělými

analyzovány korpusy 2 dětí (kluci)
Komplexní sítě & jazyková
akvizice

algoritmus




vybrány pouze ty řečové projevy dětí, které nejsou imitací, neberou se v potaz onomatopoeia a neidentifikovatelné lexikální jednotky
identifikace minimálních syntaktických konstrukcí → word grammar (Hudson 2006 )
slova spojena hranou, pokud je mezi nimi syntaktický vztah
izolovaná slova nebrána v potaz
Komplexní sítě & jazyková
akvizice
22 měsíců 23 měsíců 25 měsíců
Komplexní sítě & jazyková
akvizice
Komplexní sítě & jazyková
akvizice
Komplexní sítě & jazyková
akvizice

pokus vytvořit model



který bude vykazovat ostrý přechod mezi grafy (měřeno počtem konektivit)
jehož výsledkem by bude bezškálová síť
modely založené na principu preferenčního připojování však nevykazují fázový přechod k stromového grafu k bezškálové síti → nutnost udělat „data­driven“ model
Komplexní sítě & jazyková
akvizice

model 

z jednoho ze zkoumaných dětských korpusů využity informace o frekvenci slov a frekvenci syntaktických konstrukce o délce s = <1,11>
algoritmus (nesyntaktický)
1. náhodně vygenerováno číslo <1,11>
2. na základě Zipfova zákona vybrána „slova“ 3. po sobě jdoucí slova spojena hranou
4. body 1­3 opakovány do té doby, dokud není naplněn počet syntaktických konstrukcí v pozorovaný v dětském korpusu
Komplexní sítě & jazyková
akvizice

v modelu funguje


změna topologie sítě (vzhledem k tomu, že nejsou implementovány syntakt. vztahy, dají se vlastnosti syntakt. sítí vidět jako vedlejší produkt Zipfova zákona)
nefunguje

podoba syntaktických vztahů u subgrafů

změna hubs
Komplexní sítě & jazyková
akvizice


vzhledem k tomu, že žádný dosavadní model vývoje sítí nevykazuje kvalitativní změnu, jak se projevuje při jazykovém vývoji, nelze vidět vznik syntaktické sítě jako pouze jako výsledek samoorganizace
změna hubs a podoba subgrafů nemohou být vysvětlena přidáním dalších pravidel → předpokládá se vliv vnitřního mechanismu → podpora Miller & Chomsky (1965)
Komplexní sítě & jazyková
akvizice


Anat Ninio: Language and the Learning Curve. Oxford University Press, 2006.
“According to our model, children do not reinvent the linguistic network, nor they internalize it. Instead, when children begin to produce words of their own, they link into the linguistics network, becoming part of the system. Indeed, children acquiring language are just like new users ling into World­
Wide web: by linking into Web, users become part of it.“
Komplexní sítě & jazyková
akvizice

bipartite network → uzly 
a) mluvčí

b) jazykové jednotky
Komplexní sítě & jazyková
akvizice


„According our theory, children acquire lexicalist grammar in which information about the syntactic behaviour of individual predicates (e.g., verbs) is stored in their lexical entry, in form of valency information.“
proces modelovaní, např. VO syntaktické konstrukce


jakmile mluvčí vysloví VO konstrukci („dej čaj“), je zapojen do sítě
v jazykové části sítě se vytvoří uzel reprezentujíc lexikální jednotku verba
Komplexní sítě & jazyková
akvizice



hypotéza: nové uzly (mluvčí) připojující se k síti by se měly chovat podle principu preferenčního připojování a výsledkem by měla být bezškálová komplexní síť
na příkladu tranzitivních konstrukcí sleduje podobu sítě
porovnává sítě matek a dětí → děti okamžitě vytvářejí síť se stejnou strukturou (srov. hodnoty exponentů), přestože vůbec nekopírují jazyk, který matky používají → např. se zde nemá vliv frekvence slov
Komplexní sítě & jazyková
akvizice
matky

50
Number of mothers
40
30
20
10
0
0
25
50
75
100
125
150
175
200
225
250
Rank order of verbs
Figure 5.5 Rank-frequency Zipf curve of number of mothers producing VI sentences with each verb,
as a function of the verb's rank.
Komplexní sítě & jazyková
akvizice
děti
1st 2 verbs
1st 3 verbs
1st 4 verbs
1st 5 verbs
1st 6 verbs
1st 7 verbs
1st 8 verbs
1st 9 verbs
1st 10 verbs
Power (1st 2 verbs)
Power (1st 3 verbs)
Power (1st 4 verbs)
Power (1st 5 verbs)
Power (1st 6 verbs)
Power (1st 7 verbs)
Power (1st 8 verbs)
Power (1st 9 verbs)
Power (1st 10 verbs)
14
12
Number of children

10
8
6
4
2
0
0
5
10
15
20
25
30
35
40
45
50
55
60
Rank order of verbs
Figure 5.7 Distribution of number of children by rank order of verbs, for the first 2, 3, 4,
5, 6, 7, 8, 9 and 10 different verbs in VI sentences.
65
Komplexní sítě & jazyková
akvizice

2011
Syntaktické sítě

Ferrer i Cancho et. al (2004) → první analýza syntaktických sítí (Němčina, Rumunština, Čeština)
Syntaktické sítě

„One may argue that the regularities encountered here are not significant unless it is shown that they are not a trivial consequence of some pattern already present in the syntactic structure of isolated sentences.“
Syntax for free?
(Solé 2005, Nature)
Role syntaxe v syntaktické síti

H. Liu & F. Hu: What role does syntax play in a language network? (2008)


If dependencies are built by randomly linking words in the same sentence, would the network still follow the properties similar to the syntactic one?
Can the local (micro) syntactic analysis in a sentence be reflected in the global (macro) properties of a language network?
Role syntaxe v syntaktické síti

analýza „náhodného“ parsingu

algoritmus


ze syntaktického stromu reálné věty odstraněny všechny linky
náhodně vybrán kořenový uzel


R1 → náhodně generován každému uzlu jeho řídící uzel (kromě kořenového uzlu a sebe samého)
R2 → přidána podmínka projektivity
Role syntaxe v syntaktické síti
R1
R2
Role syntaxe v syntaktické síti
Syntaktická síť vs. náhodné sítě
d
D
k
C
S
3.372
10
6.48
0.128
R1
3.147
9
7.80
0.185
R2
3.129
9
7.95
0.175
Role syntaxe v syntaktické síti


„If non­syntactic and syntactic networks are scale­free, perhaps we might not argue that syntactic rules are just a by­product of scale­free networks (Solé 2005). Our findings probably are not enough to dismiss the claim in (Solé 2005), but they may show that the indicators of complex networks are not enough to study the syntax of human language.“
„Our study also shows that while the network analysis focuses on the global organization of a language, it may not reflect the subtle syntactic differences of the sentence structure. If we disregard the agency of the vertex (word) in a language network, it is difficult to study micro syntactic problems by macro means as a complex network.“
Role syntaxe v syntaktické síti


Jak zjistit, zda syntax má či nemá vliv na podobu syntaktické sítě?
východisko → najít nějakou „silnou“ vlastnost, která má výrazný vliv na podobu věty, která by mohla mít vliv i na podobu syntaktické sítě
(Čech et al. 2011)
Role syntaxe v syntaktické síti

slovesná valence (resp. plná valence)


hypotéza: lokální významnost sloves se projeví jako globální významnost v syntaktické síti, tj. slovesa by měla patřit mezi „významné“ prvky syntaktické sítě
lokální významnost → slovesná valence významný vliv na strukturu věty

plná valence → nerozlišuje komplementy a adjunkty, více viz Čech, R., Pajas, P., Mačutek, J. (2010). Full Valency. Verb Valency without Distinguishing Complements and Adjuncts. Journal of Quantitative Linguistics, 17, 291­302.
Role syntaxe v syntaktické síti

globální významnost
a) počet konektivit
b) centralita → dáno počtem cest, které procházejí daným uzlem, když jsou počítány nejkratší cesty mezi všemi uzly v síti (používáno u sociálních sítí) → betweenness centrality c) hub/authority měření
Role syntaxe v syntaktické síti

proč by slovesa měla být globálně významná?



alespoň jedno sloveso „nutně“ v každé větě → relativně vysoká frekvence
valence (resp. plná valence) si vynucuje doplnění → roste počet konektivit
! námitka → vysoký počet konektivit u sloves dán volbou formalismu, kdy sloveso je kořenem syntaktického stromu, tudíž se dá očekávat, že bude mít relativně vysoký počet konektivit
Role syntaxe v syntaktické síti

PDT 2.0 → z 54022 vět obsahujících jak podst. jméno, tak sloveso měla podstatná jména vyšší počet konektivit v 4261 případů → v každé 12. větě kořenové postavení slovesa automaticky nezajistilo jeho nejvyšší počet konektivit
Data & metoda

6 jazyků


Čeština, Holandština, Katalánština, Maďarština, Portugalština, Italština (treebanky)
lemmatické orientované sítě (tvorba pomocí Pajek 2.00)

multigraf

počítány pouze out­degrees

lemmata seskupena podle klesajících out­degrees a sledován poměr sloves a jiných slovních druhů
Syntaktické sítě & typologie



porovnání hodnot slovnětvarové (STS) a lemmatické sítě (LS)
východisko → jazyky bez flexe nebudou vykazovat žádné rozdíly mezi STS a LS
problém → příčiny rozdílů mezi STS a LS a jejich vliv na statistické charakteristiky (Čech & Mačutek 2009)
Vlastnosti syntaktických sítí →
lemmata vs. slovní formy

jazykový materiál → PDT 2.0

uzel sítě → lemma, resp. slovní forma


hrana → syntaktický vztah závislosti (dáno anotací na a­rovině)
lemmatická dependenční síť


otázka: vykazuje lemmatická síť vlastnosti komplexní sítě?
lemmata použita pouze 1x pro co­occurence síť (Caldeira et al. 2006)
Vlastnosti LS
n
k
C
d
LS
36037
13.34
0.18
3.58
Vlastnosti sítí
n
k
C
d

STS
73989
8.19
0.12
3.84
LS
36037
13.34
0.18
3.58
konektivita (k)

na základě čeho se projevují rozdíly k mezi STS a LS?
STS vs. LS


rozdíly v k způsobeny

flexí

realizací syntaktických vztahů
vliv jak gramatiky, tak užití jazyka → možnosti pro analýzy žánrů, autorství atd.
STS vs. LS



networks based on languages with no inflection (as a highly isolating language) will have zero discrepancy, networks based on languages with low inflection (as English) will have zero discrepancy or higher average degree of WFN, for networks based on highly inflectional languages it is not possible to make theoretical hypotheses; all the three potential kinds of discrepancy could appear because the discrepancy value is significantly influenced by language usage. STS & LS
koeficient shlukování (C)


u syntaktického vztahu slov bez flexe CSTS = CLS u syntaktického vztahu slova bez flexe a slova flektivního může nastat

CSTS < CLS 
CSTS = CLS 
CSTS > CLS Typologie

Liu, H. & Xu, C. (2011). Can syntactic networks indicate morphological complexity of a language? Europhysics Letters 93, 28005.

15 jazyků; STS & LS síť pro každý jazyk

parametry

konektivita

koeficient shlukování

průměrná vzdálenost mezi dvěma uzly

největší vzdálenost mezi uzly

exponent

počet linek

determinační koeficient
STS
SLS
LS
Syntaktické sítě & synergetická
lingvistika

synergetická lingvistika (Köhler 1986, 2005)

snaha o vytvoření jazykové teorie

teorie → chápána jako soubor univerzálních zákonů z nichž je možné odvodit empiricky testovatelné hypotézy

jazyk jako samoregulující se systém

navazuje na G. K. Zipfa (1935, 1949)

the principle of least effort
Hypotézy (synergetická lingv.)

vztah délky slova a počtu konektivit 

vztah polysémie a počtu konektivit


H: čím větší počet konektivit, tím kratší slovo
H: čím větší počet konektivit, tím větší polysémie
vztah synonymie a počtu konektivit

H: čím větší počet konektivit, tím má slovo více synonym
References







Barabási, A. L. (2005) V pavučině sítí. Praha: Paseka.
Caldeira, S.M.G., Petit Lobão, T.C., Andrade, R.F.S., Neme, A., & Miranda, J.G.V. (2006). The network of concepts in written texts. European Physical Journal B 49, 523­529.
Corominas­Murtra, B., Valverde, S., & Solé, R. V. (2010). Emergence of scale­free syntax networks. In: "Evolution of Communication and Language in Embodied Agents", Nolfi, E. & Mirolli, M. (eds.), Springer, pp. 83­99.
Čech, R. & Mačutek, J. (2009). Word form and lemma syntactic dependency networks in Czech: a comparative study. Glottometrics 19, 85­98.
Čech, R., Pajas, P., Mačutek, J. (2010). Full Valency. Verb Valency without Distinguishing Complements and Adjuncts. Journal of Quantitative Linguistics, 17, 291­302.
Čech, R., Mačutek, J., & Žabokrtský, Z. The role of syntax in complex networks: local and global importance of verbs in a syntactic dependency network, Physica A: Statistical Mechanics and its Applications 390 (20), 3614­3623. Dorogovtsev, S. N. & Mendes J. F. F. (2001). Language as an evolving word web. Proceedings of the Royal Sociey of London B 268, 2603­2606.
References







Ferrer i Cancho, R. & Solé, R. V. & Köhler, R. (2004). Patterns in syntactic dependency networks. Physical Review E 69, 051915. Hudson, R. (2006). Language networks. The new word grammar. New York: Oxford University Press.
Köhler, R. (1986). Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer.
Köhler, R. (2005). Synergetic linguistics. In: Köhler, R., Altmann, G., Piotrowski, R.G. (eds.), Quantitative Linguistik. Ein internationales Handbuch. An International Handbook: 760­774. Berlin­New York: de Gruyter.
Liu, H. & Hu, F. (2008). What role does syntax play in a language network? Europhysics Letters 83, 18002.
Liu, H. & Xu, C. (2011). Can syntactic networks indicate morphological complexity of a language? Europhysics Letters 93, 28005.
Miller, G. A. & Chomsky, N. (1963). Finitary models of language users. In R. D. Luce, R. Bush, and E. Galanter, editors, Handbook of Mathematical Psychology, volume 2, pages 419–491. Wiley, New York.
References






Ninio, A. (2006). Language and the learning curve: a new theory of syntactic development. Oxford: Oxford University Press.
Ninio, A. (2011). Syntactic development, its input and output. Oxford: Oxford University Press. Solé, R.V. (2005) Syntax for free? Nature 434, 289.
Zipf, G.K. (1935/1968). The psycho­biology of language. An introduction to dynamic philology. Cambridge, Mass: MIT.
Zipf, G.K. (1949). Human behaviour and the principle of least effort. Reading, Mass.: Addison­Wesley.
vice viz: Bibliography on linguistic and cognitive networks
http://www.lsi.upc.edu/~rferrericancho/linguistic_and_cognitive_n
etworks.html

Podobné dokumenty

zde - ATS-TELCOM PRAHA as

zde - ATS-TELCOM PRAHA as Zamyslete se, kdy jste si poprvé koupili iPhone nebo zařízení s OS Android. Učil vás někdo jak jej používat? Samozřejmě že ne. Prostě jste se chvíli rozhlíželi dokud jste na to nepřišli. Uživatelsk...

Více

Hesla a pojmy příbuzné oboru transformační generativní

Hesla a pojmy příbuzné oboru transformační generativní Chomsky: Struktura holé fráze Chomsky: Bariéry Chomsky: Kategorie a Transformace Chomsky: Pojmy a důsledky teorie řízenosti a vázání Chomsky: Podmínky transformací Chomsky: Fázová derivace Chomsky:...

Více

Několik teoreticko-metodologických poznámek k

Několik teoreticko-metodologických poznámek k jeho polysémie), polysémií a synonymií (čím je slovo polysémnější, tím více má synonym), polysémií a polytextualitou (čím je slovo polysémnější, tím větší je počet textů, ve kterých se v daném korp...

Více

Zpravodaj DEMAS 4

Zpravodaj DEMAS 4 Nové konsorcium ruských nevládních organizací, které bude implementovat druhou fázi projektu, povede German-Russian Exchange (GRE) a dalšími členy konsorcia jsou polská Stefan Batory Founda�on, Net...

Více

Čech, R. - Radek Čech

Čech, R. - Radek Čech Čech, R. – Mačutek, J. – Žabokrtský, J. (2011): The role of syntax in complex networks: local and global importance of verbs in a syntactic dependency network. Physica A: Statistical Mechanics and ...

Více

list of winners

list of winners BOTTENBERG, Youri (NED)

Více

Mäkkýše hlavných typov vôd dolného Hrona

Mäkkýše hlavných typov vôd dolného Hrona The aim of this study is to describe the main types of water bodies in the lower Hron River (Slovakia) using Mollusca as ‘functional describers’ of the ecosystem dynamics. In European context, the ...

Více