do divadla

Transkript

do divadla
Přirozený jazyk a matematika:
jak popsat češtinu tak, aby jí
„porozuměly“ počítače?
Markéta Lopatková
Ústav formální a aplikované lingvistiky, MFF UK
[email protected]
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Cíl – popsat přirozený jazyk
• akademická / filosofická perspektiva
• výzva ~ velice komplexní systém
• jazyk ~ myšlení, poznávání světa
• analytická filosofie (začátek 20. století)
Gottlog Frege, Bertrand Russell, George Edward Moore,
Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine,…
• skrze jazyk si uvědomujeme sebe sama
• prostředek porozumění (si navzájem)
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Cíl – popsat přirozený jazyk
• akademická / filosofická perspektiva
• výzva ~ velice komplexní systém
• jazyk ~ myšlení, poznávání světa
• analytická filosofie (začátek 20. století)
Gottlog Frege, Bertrand Russell, George Edward Moore,
Rudolf Carnap, Ludwig Wittgenstein, Willard Van Orman Quine,…
• skrze jazyk si uvědomujeme sebe sama
• prostředek porozumění (si navzájem)
• nástroje pro automatické zpracování přirozeného jazyka
• strojový překlad
• dialogové systémy
• vyhledávání informací
nestrukturovaná – (částečně) strukturovaná data
formální modely pro reprezentaci dat
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Osnova
• Jak se přirozený jazyk liší od formálního
• komplexnost
• víceznačnost
• volný slovosled  'nelokální' vztahy
neprojektivita (= long distance dependencies)
• Základní jazykové vztahy
• Stromové formalismy – složkové vs. závislostní přístupy
• OK pro např. pro angličtinu, ne pro češtinu
• proto závislostní
• Jaký modelovat (ne)závislosti?
•
•
•
•
jednoduchá redukční analýza
redukční analýza se 'shifty'
jak se to odráží v datech?
model – restartovací automat
• Závislostní popis v nástrojích NLP
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Komplexnost
význam
výraz
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Víceznačnost (a stejnoznačnost)
koleje; ?kohoutek; jeřáb; stát; žena; nakupovat
Seminář současné matematiky, 12.3.2014
lexikum
homonymie
Víceznačnost (a stejnoznačnost)
koleje; ?kohoutek; jeřáb; stát; žena; nakupovat
lexikum
Brňáci čekají na nádraží. (Petkevič)
morfologie
Jemnou dětskou pokožku chrání i pěstí. (Spoustová)
Chlapci přinesou velkou rybu. (Daneš, 1964)
Představil tchyni hospodyni. (Panevová, 1981)
Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes
A tahle kráva se jmenuje jak? (Zeman)
Baví se dva králové: „Můj šašek polyká meče!“ – „No, ten můj polyká mlaskaje.“ (Zeman)
Seminář současné matematiky, 12.3.2014
homonymie
Víceznačnost (a stejnoznačnost)
koleje; ?kohoutek; jeřáb; stát; žena; nakupovat
lexikum
Brňáci čekají na nádraží. (Petkevič)
morfologie
Jemnou dětskou pokožku chrání i pěstí. (Spoustová)
Chlapci přinesou velkou rybu. (Daneš, 1964)
Představil tchyni hospodyni. (Panevová, 1981)
Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes
A tahle kráva se jmenuje jak? (Zeman)
Baví se dva králové: „Můj šašek polyká meče!“ – „No, ten můj polyká mlaskaje.“ (Zeman)
… (úřad) hledá policisty na hranici. (MF Dnes, 1996)
Přijela policie, evakuovala téměř tisíc přítomných lidí
a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997)
Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku.
Dokonce kdysi válčil s nimi. (Třešňák – Klíč je pod rohožkou)
Seminář současné matematiky, 12.3.2014
syntax (povrchová)
homonymie
Víceznačnost (a stejnoznačnost)
koleje; ?kohoutek; jeřáb; stát; žena; nakupovat
lexikum
Brňáci čekají na nádraží. (Petkevič)
morfologie
Jemnou dětskou pokožku chrání i pěstí. (Spoustová)
Chlapci přinesou velkou rybu. (Daneš, 1964)
Představil tchyni hospodyni. (Panevová, 1981)
Prvořadým úkolem jednotek UNPROFOR je chránit bezpečnostní zóny vyhlášené OSN. (MF Dnes
A tahle kráva se jmenuje jak? (Zeman)
Baví se dva králové: „Můj šašek polyká meče!“ – „No, ten můj polyká mlaskaje.“ (Zeman)
… (úřad) hledá policisty na hranici. (MF Dnes, 1996)
Přijela policie, evakuovala téměř tisíc přítomných lidí
a bezpečně nastraženou bombu odpálila. (MF Dnes, 1997)
Pestrá přihrblá armáda. Jediná armáda, které pan P. nevyhlásil válku.
Dokonce kdysi válčil s nimi. (Třešňák – Klíč je pod rohožkou)
syntax (povrchová)
Spotřeba motorů stoupá. (Sgall, 1967)
Kritika brazilského delegáta byla ostrá. (Daneš, 1964)
Udělá to za dvě hodiny. (Panevová, 1980)
Nechceš udělat kávu?
syntax (hloubková)
Seminář současné matematiky, 12.3.2014
homonymie
Víceznačnost (a stejnoznačnost)
eliminace homonymie
• 'garden path sentences'
Vlaky u nás jezdí se zpožděním.
Před vlastním zásahem policie neprodyšně uzavřela okolí kostela.
Seminář současné matematiky, 12.3.2014
homonymie
Víceznačnost (a stejnoznačnost)
eliminace homonymie
• 'garden path sentences'
Vlaky u nás jezdí se zpožděním.
Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin)
Před vlastním zásahem policie neprodyšně uzavřela okolí kostela.
Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997)
Seminář současné matematiky, 12.3.2014
homonymie
Víceznačnost (a stejnoznačnost)
eliminace homonymie
• 'garden path sentences'
Vlaky u nás jezdí se zpožděním.
Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin)
Před vlastním zásahem policie neprodyšně uzavřela okolí kostela.
Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997)
• kontext, pragmatika
To se však nijak neprojevilo na výkonu závodnic, které noc před závodem
se soupeřkami strávily hrátkami v posteli. (iDnes)
Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001)
Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001)
[Ty ženy byly zkušené kapsářky.]
Seminář současné matematiky, 12.3.2014
homonymie
Víceznačnost (a stejnoznačnost)
eliminace homonymie
• 'garden path sentences'
Vlaky u nás jezdí se zpožděním.
Vlaky u nás jezdí se zpožděním i malí školáci. (Peregrin)
Před vlastním zásahem policie neprodyšně uzavřela okolí kostela.
Před vlastním zásahem policie [hlídka] neprodyšně uzavřela okolí kostela. (MF Dnes, 1997)
• kontext, pragmatika
To se však nijak neprojevilo na výkonu závodnic, které noc před závodem
se soupeřkami strávily hrátkami v posteli. (iDnes)
Banky snižují úroky z ekonomických důvodů / z krátkodobých půjček. (Kuboň, 2001)
Bezdomovci ukradly hodinky, ale další příležitost už nedostaly. (Kuboň, 2001)
[Ty ženy byly zkušené kapsářky.]
Dementi MŠMT ke spekulacím o zastavení Operačního
programu Vzdělávání pro konkurenceschopnost.
(TÝDEN, 6.2.2012, rubrika Zápisník z Malé Strany)
Seminář současné matematiky, 12.3.2014
homonymie
(Víceznačnost a) stejnoznačnost
borovice – sosna; kopaná – fotbal, obrátit se – otočit se
lexikum
konverzivní predikáty: prodávat – kupovat
symetrické predikáty: sousedit, vzít si
relační predikáty: bát následníkem – být předchůdcem; být vyšší – být nižší
Seminář současné matematiky, 12.3.2014
synonymie
(Víceznačnost a) stejnoznačnost
borovice – sosna; kopaná – fotbal, obrátit se – otočit se
lexikum
konverzivní predikáty: prodávat – kupovat
symetrické predikáty: sousedit, vzít si
relační predikáty: bát následníkem – být předchůdcem; být vyšší – být nižší
Knihu vydalo nakladatelství.
Kniha byla vydána nakladatelstvím (se ziskem?)
Otec děti bije.
Od otce jsou děti bity (s radostí?)
Po babiččině příjezdu půjdou rodiče do divadla.
Až babička přijede, půjdou rodiče do divadla.
?Když babička přijede, půjdou rodiče do divadla.
Seminář současné matematiky, 12.3.2014
syntax (povrchová)
synonymie
(Víceznačnost a) stejnoznačnost
borovice – sosna; kopaná – fotbal, obrátit se – otočit se
lexikum
konverzivní predikáty: prodávat – kupovat
symetrické predikáty: sousedit, vzít si
relační predikáty: bát následníkem – být předchůdcem; být vyšší – být nižší
Knihu vydalo nakladatelství.
Kniha byla vydána nakladatelstvím (se ziskem?)
Otec děti bije.
Od otce jsou děti bity (s radostí?)
Po babiččině příjezdu půjdou rodiče do divadla.
Až babička přijede, půjdou rodiče do divadla.
?Když babička přijede, půjdou rodiče do divadla.
syntax (povrchová)
Ten starý stůl je žlutý.
?Ten žlutý stůl je starý.
syntax (hloubková)
Seminář současné matematiky, 12.3.2014
synonymie
Volný slovosled
• změnou slovosledu se mění význam, ale …
Našeho Karla plánujeme poslat na příští rok o Anglie.
Plánujeme našeho Karla na příští rok poslat do Anglie.
Do Anglie plánujeme poslat našeho Karla na příští rok.
Poslat našeho Karla do Anglie plánujeme na příští rok.
Plánujeme poslat našeho Karla na příští rok do Anglie.
Na příští rok plánujeme poslat našeho Karla do Anglie.
Plánujeme poslat na příští rok do Anglie našeho Karla.
…
? Karla našeho plánujeme poslat na příští rok o Anglie.
* Našeho Karla plánujeme poslat příští rok na o Anglie.
…
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Volný slovosled
• změnou slovosledu se mění význam, ale …
Našeho Karla plánujeme poslat na příští rok o Anglie.
Plánujeme našeho Karla na příští rok poslat do Anglie.
Do Anglie plánujeme poslat našeho Karla na příští rok.
Poslat našeho Karla do Anglie plánujeme na příští rok.
Plánujeme poslat našeho Karla na příští rok do Anglie.
Na příští rok plánujeme poslat našeho Karla do Anglie.
Plánujeme poslat na příští rok do Anglie našeho Karla.
…
? Karla našeho plánujeme poslat na příští rok o Anglie.
* Našeho Karla plánujeme poslat příští rok na o Anglie.
…
• zdůrazněny jiné informace (distinkce staré-nové)
… informační struktura věty (Hajičová et al., 1998; 2004)
• stejné strukturní vztahy
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Volný slovosled
• změnou slovosledu se mění význam, ale …
Našeho Karla plánujeme poslat na příští rok o Anglie.
Plánujeme našeho Karla na příští rok poslat do Anglie.
Do Anglie plánujeme poslat našeho Karla na příští rok.
Poslat našeho Karla do Anglie plánujeme na příští rok.
Plánujeme poslat našeho Karla na příští rok do Anglie.
Na příští rok plánujeme poslat našeho Karla do Anglie.
Plánujeme poslat na příští rok do Anglie našeho Karla.
…
? Karla našeho plánujeme poslat na příští rok o Anglie.
* Našeho Karla plánujeme poslat příští rok na o Anglie.
…
• zdůrazněny jiné informace (distinkce staré-nové)
… informační struktura věty (Hajičová et al., 1998; 2004)
• stejné strukturní vztahy
neprojektivitní konstrukce
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Osnova
• Jak se přirozený jazyk liší od formálního
• komplexnost
• víceznačnost
• volný slovosled  'nelokální' vztahy
neprojektivita (= long distance dependencies)
• Základní jazykové vztahy
• Stromové formalismy – složkové vs. závislostní přístupy
• OK pro např. pro angličtinu, ne pro češtinu
• proto závislostní
• Jaký modelovat (ne)závislosti?
•
•
•
•
jednoduchá redukční analýza
redukční analýza se 'shifty'
jak se to odráží v datech?
model – restartovací automat
• Závislostní popis v nástrojích NLP
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Tři typy jazykových vztahů (Tesnière, 1959)
1. závislost … základní syntakticko-sémantická struktura věty
• binární vztah řídící – závislý větný člen
• valency ~ the range of syntactic elements either required or specifically
permitted by a verb or other lexical unit
(Concise Oxford Dictionary of Linguistics,1997)
• 'valenční' doplnění ~ slovníková informace
• volná doplnění
lexikalizace
Seminář současné matematiky, 12.3.2014
Tři typy jazykových vztahů (Tesnière, 1959)
1. závislost … základní syntakticko-sémantická struktura věty
• binární vztah řídící – závislý větný člen
• valency ~ the range of syntactic elements either required or specifically
permitted by a verb or other lexical unit
(Concise Oxford Dictionary of Linguistics,1997)
• 'valenční' doplnění ~ slovníková informace
• volná doplnění
lexikalizace
2. slovosled … lineární uspořádání slov
(a interpunkce) ve větě
Seminář současné matematiky, 12.3.2014
Tři typy jazykových vztahů (Tesnière, 1959)
1. závislost … základní syntakticko-sémantická struktura věty
• binární vztah řídící – závislý větný člen
• valency ~ the range of syntactic elements either required or specifically
permitted by a verb or other lexical unit
(Concise Oxford Dictionary of Linguistics,1997)
• 'valenční' doplnění ~ slovníková informace
• volná doplnění
lexikalizace
2. slovosled … lineární uspořádání slov
(a interpunkce) ve větě
3. koordinace … `zmnožení' syntaltické pozice
Po babiččině příjezdu půjdou rodiče do divadla.
Po babiččině příjezdu půjde maminka s tatínkem do divadla.
Po babiččině příjezdu půjdou maminka a tatínek do divadla.
Petr potkal Marii v divadle . Petr se potkal s Marií v divadle .
Petr a Marie se potkali v divadle.
Petr potkal Marii v divadle a Marie potkala Petra v divadle.
Tři typy jazykových vztahů (Tesnière, 1959)
1. závislost … základní syntakticko-sémantická struktura věty
2. slovosled … lineární uspořádání slov a interpunkce ve větě
3. koordinace … 'zmnožení' syntaktické pozice
stromové formalismy pro popis syntaxe
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Osnova
• Jak se přirozený jazyk liší od formálního
• komplexnost
• víceznačnost
• volný slovosled  'nelokální' vztahy
neprojektivita (= long distance dependencies)
• Základní jazykové vztahy
• Stromové formalismy – složkové vs. závislostní přístupy
• typologie jazyků: angličtina vs. čeština
• závislostní pro jazyky s volným slovosledem
• Jaký modelovat (ne)závislosti?
•
•
•
•
jednoduchá redukční analýza
redukční analýza se 'shifty'
jak se to odráží v datech?
model – restartovací automat
• Závislostní popis v nástrojích NLP
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složkové vs. závislostní přístupy
složkové přístupy ~ "context free grammars"
• N. Chomsky: Syntactic Structures (1957)
• rekurzivní
• vhodné pro jazyky s pevným slovosledem
(podmětná vs. přísudková část věty)
Mary will eat bread.
S
NP
N
Mary
VP
NP
VP
AuxV
will
V
N
eat bread
zásobníkové automaty
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složkové vs. závislostní přístupy
složkové přístupy ~ "context free grammars"
• N. Chomsky: Syntactic Structures (1957)
• rekurzivní
• vhodné pro jazyky s pevným slovosledem
(podmětná vs. přísudková část věty)
Mary will eat bread.
S
NP
N
Mary
What will Mary eat?
VP
AuxV
will
S
NP
VP
V
N
eat bread
NP
N
Mary
zásobníkové automaty
Seminář současné matematiky, 12.3.2014
VP
VP
AuxV
will
NP
V
N
eat bread
Složkové vs. závislostní přístupy
složkové přístupy ~ "context free grammars"
• N. Chomsky: Syntactic Structures (1957)
• rekurzivní
• vhodné pro jazyky s pevným slovosledem
(podmětná vs. přísudková část věty)
Mary will eat bread.
S
NP
N
Mary
What will Mary eat?
S'
NP
VP
NP
VP
AuxV
will
V
N
eat bread
what
T'
AuxV
will
S
N
Mary
zásobníkové automaty
Seminář současné matematiky, 12.3.2014
VP
NP
VP
AuxV
tracei
NP
V
eat
N
tracej
Složkové vs. závislostní přístupy
složkové přístupy ~ "context free grammars"
•
•
•
•
N. Chomsky: Syntactic Structures (1957)
rekurzivní
vhodné pro jazyky s pevným slovosledem
problém s volným slovosledem
S
VP
NP
VP
PrepP
Prep
po
NP
VP
V
Atr
N
babičině
příjezdu
půjdou
Seminář současné matematiky, 12.3.2014
N
PrepP
rodiče
Prep
NP
do
N
divadla
FJFI CVUT
Složkové vs. závislostní přístupy
závislostní přístupy ~ "valenční syntax"
•
•
•
•
L. Tesnière: Éléments de syntaxe structurale (1959)
lexikalizace
rekurzivní
vhodné pro jazyky s volným slovosledem
půjdou.Pred
po příjezdu.Adv
rodiče.Sb do divadla.Adv
babiččině.Atr
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složkové vs. závislostní přístupy
závislostní přístupy ~ "valenční syntax"
•
•
•
•
L. Tesnière: Éléments de syntaxe structurale (1959)
lexikalizace
rekurzivní
vhodné pro jazyky s volným slovosledem
půjdou.Pred
po příjezdu.Adv
rodiče.Sb do divadla.Adv
půjdou.Pred
babiččině.Atr
půjdou.Pred
po příjezdu.Adv
rodiče.Sb
rodiče.Sb do divadla.Adv
babiččině.Atr
Seminář současné matematiky, 12.3.2014
po příjezdu.Adv do divadla.Adv
babiččině.Atr
?? vhodný formální model
FJFI CVUT
Osnova
• Jak se přirozený jazyk liší od formálního
• komplexnost
• víceznačnost
• volný slovosled  'nelokální' vztahy
neprojektivita (= long distance dependencies)
• Základní jazykové vztahy
• Stromové formalismy – složkové vs. závislostní přístupy
• typologie jazyků: angličtina vs. čeština
• závislostní pro jazyky s volným slovosledem
• Jaký modelovat (ne)závislosti?
•
•
•
•
jednoduchá redukční analýza
redukční analýza se 'shifty'
jak se to odráží v datech?
model – restartovací automat
• Závislostní popis v nástrojích NLP
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Jak modelovat (ne)závislosti?
• metoda redukční analýzy (RA)
(Jančar et al., 1999, Lopatková et al., 2005; 2007)
• postupné zjednodušování věty při zachování správnosti a významu
– vypuštění slova/několika slov (a příp. přepsání jiných)
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Jak modelovat (ne)závislosti?
• metoda redukční analýzy (RA)
(Jančar et al., 1999, Lopatková et al., 2005; 2007)
• postupné zjednodušování věty při zachování správnosti a významu
– vypuštění slova/několika slov (a příp. přepsání jiných)
• určení formálních závislostních vztahů
(Lopatková et al., 2005)
– vzájemně nezávislé uzly vypouštěny v libovolném pořadí
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
tato, Texas …
vzájemně nezávislé
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Jak modelovat (ne)závislosti?
• metoda redukční analýzy (RA)
(Jančar et al., 1999, Lopatková et al., 2005; 2007)
• postupné zjednodušování věty při zachování správnosti a významu
– vypuštění slova/několika slov (a příp. přepsání jiných)
• určení formálních závislostních vztahů
(Lopatková et al., 2005)
– vzájemně nezávislé uzly vypouštěny v libovolném pořadí
– závislý uzel vypuštěn vždy dřív než řídící
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
firma
Tato firma sídlí ve státě Texas.
tato
Seminář současné matematiky, 12.3.2014
ve státě
Texas
FJFI CVUT
Jak modelovat (ne)závislosti?
• metoda redukční analýzy (RA)
(Jančar et al., 1999, Lopatková et al., 2005; 2007)
• postupné zjednodušování věty při zachování správnosti a významu
– vypuštění slova/několika slov (a příp. přepsání jiných)
• určení formálních závislostních vztahů
(Lopatková et al., 2005)
– vzájemně nezávislé uzly vypouštěny v libovolném pořadí
– závislý uzel vypuštěn vždy dřív než řídící
– některé uzly vypuštěny současně: redukční komponenty
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
firma
Tato firma sídlí ve státě Texas.
tato
firma sídlí ve státě.
firma sídlí ve státě.
firma sídlí ve státě.
Seminář současné matematiky, 12.3.2014
ve státě
Texas
firma, ve státě …
vzájemně nezávislé
FJFI CVUT
Jak modelovat (ne)závislosti?
• metoda redukční analýzy (RA)
(Jančar et al., 1999, Lopatková et al., 2005; 2007)
• postupné zjednodušování věty při zachování správnosti a významu
– vypuštění slova/několika slov (a příp. přepsání jiných)
• určení formálních závislostních vztahů
(Lopatková et al., 2005)
– vzájemně nezávislé uzly vypouštěny v libovolném pořadí
– závislý uzel vypuštěn vždy dřív než řídící
– některé uzly vypuštěny současně: redukční komponenty
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
Tato firma sídlí ve státě Texas.
sídlí
Tato firma sídlí ve státě Texas.
firma sídlí ve státě.
firma
firma sídlí ve státě.
tato
ve státě .
Texas
firma sídlí ve státě.
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Závislosti a slovosled při RA
Petr se rozhodl nekoupit knihu.
Petr se rozhodl nekoupit.
* se rozhodl nekoupit.
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Závislosti a slovosled při RA
• rozšíření redukční analýzy: operace shift
(Kuboň et al., 2012)
• změna slovosledu, pokud si vynucuje princip zachování správnosti
(permutace slov, zachování hran)
Petr se rozhodl nekoupit knihu.
Petr se rozhodl nekoupit.
* se rozhodl nekoupit.
rozhodl se nekoupit.
rozhodl
rozhodl
se
nekoupit
.
se
nekoupit
.
využít operaci shift pro měření volnosti slovosledu ??
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu
• (ne)projektivita ~ složitost slovosledu
• projektivivta (Marcus, 1965; Nebeský, 1975; Havelka et al.. 2004)
• počet 'děr' v pokrytí hrany (Plátek et al., 2000)
• (m-)planarita
(Kuhlmann, Nivre, 2006)
• 'zahnízděnost'
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu
(Kuhlmann, Nivre, 2006)
Složitost vs. volnost slovosledu
• (ne)projektivita ~ složitost slovosledu
• hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou ??
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu
• (ne)projektivita ~ složitost slovosledu
• hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou?
Pražský závislostní korpus (PDT) 1.0
(Hajič et al, 2001):
73 tis. vět, z nich 23% neproj. (17 tis.)
neprojektivity:
modální/fázové sloveso + infinitiv
(5,7 tis. v 4,7 tis. větách) (Zeman, 2004)
(Kuboň et al, 2012)
Seminář současné matematiky, 12.3.2014
Složitost vs. volnost slovosledu
• (ne)projektivita ~ složitost slovosledu
• hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou?
Pražský závislostní korpus (PDT) 1.0
(Hajič et al, 2001):
73 tis. vět, z nich 23% neproj. (17 tis.)
neprojektivity:
modální/fázové sloveso + infinitiv
(5,7 tis. v 4,7 tis. větách) (Zeman, 2004)
(Kuboň et al, 2012)
FJFI CVUT
Složitost vs. volnost slovosledu
• (ne)projektivita ~ složitost slovosledu
• hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou?
Pražský závislostní korpus (PDT) 1.0
(Hajič et al, 2001):
73 tis. vět, z nich 23% neproj. (17 tis.)
klitiky
Opravit jsem se mu to včera snažil marně.
(Hana, 2007)
neprojektivity:
modální/fázové sloveso + infinitiv
(5,7 tis. v 4,7 tis. větách) (Zeman, 2004)
snažil
opravit jsem se
včera
marně
mu to
(Kuboň et al, 2012)
FJFI CVUT
Složitost vs. volnost slovosledu
• (ne)projektivita ~ složitost slovosledu
• hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou
ALE: S těžkým se mu bála pomoci úkolem.
(s využitím Holan et al, 2000)
bála
se
.
pomoci
mu
s
úkolem
těžkým
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu
• (ne)projektivita ~ složitost slovosledu
• hypotéza: počet 'shiftů' ~ volnost slovosledu
• čím více omezení na slovosled, tím více shiftů při RA
• korelace s neprojektivitou
ALE: S těžkým se mu bála pomoci úkolem.
(s využitím Holan et al, 2000)
S těžkým se bála pomoci úkolem.
bála
* S se bála pomoci úkolem.
se
S úkolem se bála pomoci.
* se bála pomoci.
.
pomoci
mu
s
úkolem
* Bála se bála pomoci.
těžkým
(Kuboň et al, 2013)
Seminář současné matematiky, 12.3.2014
alespoň 2 shifty potřeba
FJFI CVUT
Složitost vs. volnost slovosledu
• (ne)projektivita ~ složitost slovosledu
• hypotéza: počet 'shiftů' ~ volnost slovosledu
• další zjemnění:
– vypouštění sousedících slov
– 'projektivizace' vypouštění
??? Jak se projevuje v českých větách?
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu
• PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací sada)
• automatická RA (řízená závislostními stromy)
'Podezřelé' jevy v PDT 2.0
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu
• PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací)
• automatická RA (řízená závislostními stromy)
– věty o 10-25 slovech (vč. interpunkce)
– bez koordinace
– jen věty s 1 určitým slovesem
– bez číslovkových výrazů
• testovací sada
2,5 tis. vět
• projektivní RA bez 'shiftů':
1800
10000
1640
1600
1640
1400
1000
354
1200
235
113
1000
100
800
44
29
21
600
10
354
400
10
5
235
200
113
29
2
44
21
10
5
2
6
7
8
9
10
0
1
1
2
3
4
5
Seminář současné matematiky, 12.3.2014
1
2
3
4
5
6
7
8
9
10
FJFI CVUT
Složitost vs. volnost slovosledu
• PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací)
• automatická RA (řízená závislostními stromy)
• testovací sada
– věty o 10-25 slovech (vč. interpunkce)
– bez koordinace
– jen věty s 1 určitým slovesem
– bez číslovkových výrazů
2,5 tis. vět
• projektivní RA bez 'shiftů':
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Složitost vs. volnost slovosledu
• PDT 2.0 (Hajič et al, 2006) … 38,7 tis. vět (trénovací)
• automatická RA (řízená závislostními stromy)
• testovací sada
– věty o 10-25 slovech (vč. interpunkce)
– bez koordinace
– jen věty s 1 určitým slovesem
– bez číslovkových výrazů
2,5 tis. vět
• projektivní RA bez 'shiftů':
• redukovaná věta s 10 uzly
??? Jak se projevuje ve složitějších větách?
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Formální model syntaxe
• struktura závislostních vztahů ve větě
• rekurzivita
• nelokální chování češtiny
• lexikalizace
jednoduchá RA ~ model závislostí
• slovosled
• míra volnosti slovosledu
• (ne)projektivita ~ míra složitosti slovosledu
RA se shifty
• závislostní stromy pro popis syntaktické struktury
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Restartovací automat
matematický model závislostní redukční analýzy
přirozeného jazyka
jednoduchý restartovací automat (simple restarting automaton)
(Jančar et al., 1995; Otto, 2006)
• zpracování vstupní věty
– delete, rewrite
výpočet v cyklech
rekurze
• nelokální chování ~ volný slovosled
• budování struktury věty
• restart
– DR-stromy, D-stromy (Plátek et al, 2000)
– (paralelní) závislostní struktury (Plátek et al., 2010)
– operace shift (Kuboň et al, 2012; Lopatková, Plátek 2013)
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Osnova
• Jak se přirozený jazyk liší od formálního
• komplexnost
• víceznačnost
• volný slovosled  'nelokální' vztahy
neprojektivita (= long distance dependencies)
• Základní jazykové vztahy
• Stromové formalismy – složkové vs. závislostní přístupy
• typologie jazyků: angličtina vs. čeština
• závislostní pro jazyky s volným slovosledem
• Jaký modelovat (ne)závislosti?
•
•
•
•
jednoduchá redukční analýza
redukční analýza se 'shifty'
jak se to odráží v datech?
model – restartovací automat
• Závislostní popis v nástrojích NLP
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Korpusová lingvistika a slovníky
• Pražský závislostní korpus (PDT)
• 3 roviny anotace: m-rovina, a-rovina, t-rovina
(semantické role, gramatémy, inf. struktura, koreference)
• PDT 3.0 (Hajič et al., 2003, Bejček et al, 2013)
http://ufal.mff.cuni.cz/pdt3.0/
http://ufal.mff.cuni.cz/pdt2.0/visual-data/sample/sample0_a_2.htm
• Prague Czech English Dependency Treebank (PCEDT)
(Hajič et al., 2010)
• texty z Penn Treebank (Wall Street Journal)
• přeloženy do češtiny (překladatelé)
• anotační schéma 'zděděné' z PDT
http://ufal.mff.cuni.cz/pcedt2.0/trees/00/01/wsj_0001_1.xhtml?lang=en
• Pražský závislostní korpus mluvené češtiny
• Prague Arabic Dependency Treebank
…
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Korpusová lingvistika a slovníky
Syntaktické slovníky
• Valenční slovník českých
sloves VALLEX
(Lopatkováet al., 2003, 2008)
• PDT-VALLEX
(Hajič et al., 2003; Urešová, 2011)
• EngVallex
(Šindlerová, Cinková, 2011)
• nejčastější česká slovesa
– valenční rámec
– glosa, příklady
…
• přístupnost pro uživatele
– NLP technologie (xml)
– člověk (html, pdf)
Seminář současné matematiky, 12.3.2014
Závislostní popis v datech a nástrojích
K čemu korpusy a slovníky?
• počítačové zpracování přirozeného jazyka
– data: statistické metody, strojové učení
– vyhodnocování experimentů
– datové formáty
• uživatel-člověk
– výuka češtiny,
– tradiční teoretická lingvistika
• formální modelování
– složitost přirozeného jazyka
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Strojový překlad
• frázový překlad: Moses, Joshua (Ondřej Bojar, …)
• En → Cz (Russian, Hindi, …)
http://quest.ms.mff.cuni.cz/khresmoi/demo/
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Strojový překlad
• překlad analýza – transfer – syntéza: TectoMT … En → Cz (Tamil)
• Zdeněk Žabokrtský, David Mareček, Martin Popel
transfer
She has never laughed in her new boss's office.
Seminář současné matematiky, 12.3.2014
Nikdy se nesmála v úřadu svého nového šéfa.
FJFI CVUT
Strojový překlad
Seminář současné matematiky, 12.3.2014
FJFI CVUT
Dialogové systémy
Companions
(Hajič, Cinková, Ptáček et al.)
• společník pro seniory
• prohlížení fotografií
"Petra je sympatický partner pro konverzaci,
zajímá se o Vaše fotky a o vzpomínky, které s
nimi máte spojené. Je jí kolem třiceti a je to
Češka jako poleno, názory na generaci jejích
rodičů odpovídají jejímu věku. Má svoje názory,
ale už nezná svoji biografii."
http://www.youtube.com/watch?v=SeUd4bSnL2I&feature=mfu_in_order&list=UL
http://www.youtube.com/watch?v=4DlLjJg_Ztk&feature=mfu_in_order&list=UL
http://www.youtube.com/watch?v=6aTuEST85pU&feature=mfu_in_order&list=UL
Seminář současné matematiky, 12.3.2014
Dialogové systémy
• automatické zpracování jazyka
– analýza vět (až na roviny významu)
– generování
• „dialog manager“ Dialog::DAFRunner
– DAF (= dialog action form)
– šablony pro sítě stavů
– instance těchto sítí
v průběhu dialogu
(aktuální stav pro každého uživatele)
• dialogové korpusy
Seminář současné matematiky, 12.3.2014
Malá Úpa,
Seminář
současné
3.6.2013matematiky, 12.3.2014
FJFI CVUT1

Podobné dokumenty

Teoretická východiska deduktivních databází

Teoretická východiska deduktivních databází (EDB) a intenzionální databáze (IDB). Deduktivní datový model využívá dvou typů konceptů. Základní koncepty jsou uloženy v databázi (EDB) a odpovídají relacím v relačním datovém modelu nebo objektů...

Více

Nové EU projekty (od 2010)

Nové EU projekty (od 2010) – 12 člověkoměsíců na výzkum – 28 člověkoměsíců na infrastrukturu (5) a „networking“

Více

Adamovy zápisky

Adamovy zápisky Jako důkaz sporem. Když zmizí všechny možnosti – jde o chybu (je třeba ještě zjistit kde). pravidla psána ručně, avšak na základě dat z korpusu pravidla vzájemně nezávislá 4 části: kontext, desambi...

Více

Nový tektonický model model Pavlovských vrchů: flat–ramp

Nový tektonický model model Pavlovských vrchů: flat–ramp oceánské kůry a později i částečně kontinentální kůry variscid pod rodící se Karpaty. Při zmíněných horotvorných pohybech, vznikl rozsáhlý pásemný akreční klín (obr. 5) tvořený velkým množství dílč...

Více

Asimilační dynamická psychoterapie závislosti – ADAPT (volný

Asimilační dynamická psychoterapie závislosti – ADAPT (volný versus větší, ale později dostupnou odměnou (např. 50 dolarů hned x 200 dolarů zítra, za týden…) Pozdnější, větší odměna leží daleko v budoucím čase, skrze postupné stezky. Většina lidí volí větší ...

Více

slovo a slovesnost - Ústav pro jazyk český Akademie věd ČR, vvi

slovo a slovesnost - Ústav pro jazyk český Akademie věd ČR, vvi ABSTRACT: The popularity of dependency-based syntax has grown in the last thirty years, in spite of the fact that phrase-structure-based descriptions have prevailed in so-called mainstream linguist...

Více

Jazykovědné aktuality 2015/3–4 - Jazykovědné sdružení České

Jazykovědné aktuality 2015/3–4 - Jazykovědné sdružení České 2. Valence ve francouzském pojetí 2.1 Valence a její „dědění“ a „vyhasínání“ Pojem valence je ve francouzském pojetí tradičně spojován s Lucienem Tesnièrem a jeho knihou Éléments de syntaxe structu...

Více