prezentace

Transkript

prezentace
Jak pracuje
automatický překlad
Ondřej Bojar
[email protected]
Ústav formálnı́ a aplikované lingvistiky
MFF UK
ELRC Training Workshop, 15. prosinec 2015
1 / 28
Osnova
◮
◮
◮
Úloha strojového překladu.
Obtı́žnost překladu.
Přı́stupy ke strojovému překladu.
◮
◮
◮
◮
Hloubkový překlad.
Frázový překlad
Automatické opravy chyb.
Shrnutı́.
2 / 28
Úloha strojového překladu
3 / 28
Úloha strojového překladu
Prague city public transport, including: City train, subway,
rail trams, buses. Metro, a total of A, B, C three lines,
criss-cross throughout Prague, three subway lines cross each
other in the city center can be converted.
3 / 28
Úloha strojového překladu
Prague city public transport, including: City train, subway,
rail trams, buses. Metro, a total of A, B, C three lines,
criss-cross throughout Prague, three subway lines cross each
other in the city center can be converted.
Praha městská hromadná doprava, včetně: městský vlak,
metro, tramvaj, autobus. Metro, celkem A, B, C tři řádky,
křı́žem krážem po celé Praze, tři linky metra křı́žı́ v centru
města může být převeden.
3 / 28
Úloha strojového překladu
4 / 28
Úloha strojového překladu
5 / 28
Jakou kvalitu lze očekávat
◮
◮
◮
Srozumitelné, s hrubými chybami.
Vhodné k úpravám (posteditaci).
Vhodné k vydánı́.
6 / 28
Jakou kvalitu lze očekávat
◮
Srozumitelné, s hrubými chybami.
◮
◮
◮
◮
Google Translate, Microsoft Bing, . . .
ÚFAL Moses:
http://lindat.mff.cuni.cz/services/moses/
Vhodné k úpravám (posteditaci).
Vhodné k vydánı́.
6 / 28
Jakou kvalitu lze očekávat
◮
Srozumitelné, s hrubými chybami.
◮
◮
◮
Vhodné k úpravám (posteditaci).
◮
◮
◮
Google Translate, Microsoft Bing, . . .
ÚFAL Moses:
http://lindat.mff.cuni.cz/services/moses/
Množstvı́ nástrojů pro podporu překladu (CAT).
Strojový překlad výrazně obohacujě překladovou paměť.
Vhodné k vydánı́.
6 / 28
Jakou kvalitu lze očekávat
◮
Srozumitelné, s hrubými chybami.
◮
◮
◮
Vhodné k úpravám (posteditaci).
◮
◮
◮
Google Translate, Microsoft Bing, . . .
ÚFAL Moses:
http://lindat.mff.cuni.cz/services/moses/
Množstvı́ nástrojů pro podporu překladu (CAT).
Strojový překlad výrazně obohacujě překladovou paměť.
Vhodné k vydánı́.
◮
I dnes jen velmi úzké oblasti (předpověď počası́).
6 / 28
Chyby dělajı́ i lidštı́ překladatelé
Základem tohoto loga je Nebojsa, postava Alsasana
zı́skaná Thomasem Fentimanem dvakrát
při profesionálnı́ch zkouškách Crufts Obedience Test.
7 / 28
Chyby dělajı́ i lidštı́ překladatelé
Základem tohoto loga je Nebojsa, postava Alsasana
zı́skaná Thomasem Fentimanem dvakrát
při profesionálnı́ch zkouškách Crufts Obedience Test.
The Fentimans Logo is a based on Fearless,
Thomas Fentiman’s prize Alsatian,
double winner of the Crufts Obedience Test.
7 / 28
Chyby dělajı́ i lidštı́ překladatelé
Základem tohoto loga je Nebojsa, postava Alsasana
zı́skaná Thomasem Fentimanem dvakrát
při profesionálnı́ch zkouškách Crufts Obedience Test.
The Fentimans Logo is a based on Fearless,
Thomas Fentiman’s prize Alsatian,
double winner of the Crufts Obedience Test.
7 / 28
Chyby dělajı́ i lidštı́ překladatelé
. . . nuts2severozapad.cz . . . Vize skončı́ jako sen.
8 / 28
Proč je překlad těžký
Na vstupu vı́ceznačnost všeho druhu:
The plant
is next to the bank.
9 / 28
Proč je překlad těžký
Na vstupu vı́ceznačnost všeho druhu:
The plant is next to the bank.
rostlina? továrna?
banka? břeh?
9 / 28
Proč je překlad těžký
Na vstupu vı́ceznačnost všeho druhu:
The plant is next to the bank.
rostlina? továrna?
banka? břeh?
Put it on the rusty coat rack.
. . . rezavá police na kabáty?
. . . police na rezavé kabáty?
9 / 28
Proč je překlad těžký
Na vstupu vı́ceznačnost všeho druhu:
The plant is next to the bank.
rostlina? továrna?
banka? břeh?
Put it on the rusty coat rack.
. . . rezavá police na kabáty?
. . . police na rezavé kabáty?
Z češtiny to nenı́ lepšı́:
Spal celou Petkevičovu přednášku.
Ženu holı́ stroj.
9 / 28
Proč je překlad těžký
Na vstupu vı́ceznačnost všeho druhu:
The plant is next to the bank.
rostlina? továrna?
banka? břeh?
Put it on the rusty coat rack.
. . . rezavá police na kabáty?
. . . police na rezavé kabáty?
Z češtiny to nenı́ lepšı́:
Spal celou Petkevičovu přednášku.
Ženu holı́ stroj.
9 / 28
Proč je překlad těžký
Na vstupu vı́ceznačnost všeho druhu:
The plant is next to the bank.
rostlina? továrna?
banka? břeh?
Put it on the rusty coat rack.
. . . rezavá police na kabáty?
. . . police na rezavé kabáty?
Reálné věty jsou stejně těžké:
SRC
REF
Moses 1
Moses 2
Google
One tap and the machine issues a slip with a number.
Jedno ťuknutı́ a ze stroje vyjede papı́rek s čı́slem.
Z jednoho kohoutku a stroj vydá složenky s čı́slem.
Jeden úder a stroj vydá složenky s čı́slem.
Jednı́m klepnutı́m a stroj problémy skluzu s čı́slem.
9 / 28
Při překladu se možnosti násobı́
I
já
saw
two
pila
dva
pily
dvě
...
dvou
viděl dvěma
viděla dvěmi
...
uviděl
uviděla
...
viděl jsem
viděla jsem
green
zelený
zelená
zelené
zelenı́
zeleného
zelených
zelenému
zeleným
zelenou
zelenými
...
striped
pruhovaný
pruhovaná
pruhované
pruhovanı́
pruhovaného
pruhovaných
pruhovanému
pruhovaným
pruhovanou
pruhovanými
...
cats
kočky
koček
kočkám
kočkách
kočkami
.
.
10 / 28
Do češtiny navı́c musı́me trefit tvar
I
já
saw
two
pila
dva
pily
dvě
...
dvou
viděl dvěma
viděla dvěmi
...
uviděl
uviděla
...
viděl jsem
viděla jsem
green
zelený
zelená
zelené
zelenı́
zeleného
zelených
zelenému
zeleným
zelenou
zelenými
...
striped
pruhovaný
pruhovaná
pruhované
pruhovanı́
pruhovaného
pruhovaných
pruhovanému
pruhovaným
pruhovanou
pruhovanými
...
cats
kočky
koček
kočkám
kočkách
kočkami
.
.
11 / 28
. . . ale tvar závisı́ na kontextu. . .
I
já
saw
pila
pily
...
viděl
viděla
...
two
dva
dvě
dvou
dvěma
dvěmi
zrak mi utkvěl na
...
viděl jsem
viděla jsem
green
striped
cats
.
zelený
pruhovaný
kočky .
zelená
pruhovaná
koček
zelené
pruhované kočkám
zelenı́
pruhovanı́
kočkách
zeleného pruhovaného kočkami
zelených pruhovaných
zelenému pruhovanému
zeleným pruhovaným
zelenou
pruhovanou
zelenými pruhovanými
...
...
12 / 28
Co všechno může být špatně
13 / 28
Co všechno může být špatně
14 / 28
Přı́stupy ke strojovému překladu
interlingva
hloubková syntax
povrchová syntax
morfologická rovina
s1
◮
linearizuj strom
frázový překlad
s2
T1
T2
angličtina
čeština
Čı́m vı́c vstup rozeberu, tı́m snazšı́ by měl být transfer.
◮
◮
◮
generuj povrchovou
realizaci
Rozbor ovšem také nenı́ snadný.
Navı́c čelı́m kumulaci chyb.
Pravidlový vs. statistický přı́stup:
◮
◮
Pravidlové systémy pı́šı́ lingvisté-programátoři.
Statistické systémy se naučı́ samy podle dat.
15 / 28
Překlad přes hloubkovou rovinu
TectoMT
16 / 28
Formálnı́ popis češtiny
Morfologická rovina:
Slovo
zákony
zákony
zákony
zákony
udělejte
udělejte
pro
lidi
lidi
lidi
Lema
zákon
zákon
zákon
zákon
udělat
udělat
pro-1
člověk
člověk
člověk
Morfologická značka
NNIP1-----A---NNIP4-----A---NNIP5-----A---NNIP7-----A---Vi-P---2--A---Vi-P---3--A---4
RR--4---------NNMP1-----A---NNMP4-----A---NNMP5-----A----
Analytická rovina
(povrchová syntax):
Tektogramatická rovina
(hloubková syntax):
17 / 28
TectoMT: Hloubkový překlad
18 / 28
TectoMT: Hloubkový překlad
""
$
#!
"
!
"
"
"
18 / 28
Jádro: Překlad stromu na strom
◮
Dı́ky t-rovině lze tvar stromu přenést beze změn.
19 / 28
Frázový překlad
Moses (a také Google)
20 / 28
Frázový překlad
Moses (a také MT@EC)
21 / 28
Frázový překlad
Trénovacı́ data:
◮ paralelnı́ korpus (česká věta =
anglická věta)
◮ automatické zarovnánı́ slov (české
slovo ∼ anglické slovo)
zar N
eag yn
dokovalyı́
onc
e
rycještě
hle
ji
.
.
faster
even
moving
’re
they
,
around
time
This
22 / 28
Frázový překlad
=
=
=
=
=
Nynı́
zareagovaly
dokonce ještě
dokonce ještě rychleji
...
Trénovacı́ data:
◮ paralelnı́ korpus (česká věta =
anglická věta)
◮ automatické zarovnánı́ slov (české
slovo ∼ anglické slovo)
zar N
eag yn
dokovalyı́
onc
e
rycještě
hle
ji
.
.
faster
even
moving
’re
they
,
around
time
This
This time around
they ’re moving
even
even faster
...
22 / 28
Frázový překlad
zar N
eag yn
dokovalyı́
onc
e
rycještě
hle
ji
.
.
faster
even
moving
’re
they
,
around
time
This
This time around
they ’re moving
even
even faster
...
=
=
=
=
=
Nynı́
zareagovaly
dokonce ještě
dokonce ještě rychleji
...
Trénovacı́ data:
◮ paralelnı́ korpus (česká věta =
anglická věta)
◮ automatické zarovnánı́ slov (české
slovo ∼ anglické slovo)
Při samotném překladu hledáme:
◮ takovou segmentaci vstupnı́ věty na
úseky (,,fráze“)
◮ a takové překlady frázı́
aby byl výstup co nejpravděpodobnějšı́.
22 / 28
Frázový překlad
zar N
eag yn
dokovalyı́
onc
e
rycještě
hle
ji
.
.
faster
even
moving
’re
they
,
around
time
This
This time around
they ’re moving
even
even faster
...
=
=
=
=
=
Nynı́
zareagovaly
dokonce ještě
dokonce ještě rychleji
...
Trénovacı́ data:
◮ paralelnı́ korpus (česká věta =
anglická věta) . . . 15 mil. párů vět
◮ automatické zarovnánı́ slov (české
slovo ∼ anglické slovo) ∼ 2×200 M
Při samotném překladu hledáme:
◮ takovou segmentaci vstupnı́ věty na
úseky (,,fráze“)
◮ a takové překlady frázı́
aby byl výstup co nejpravděpodobnějšı́.
22 / 28
Výhody a nevýhody frázového překladu
⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data.
⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát.
⊖ Neumı́ nové tvary slov, a to ani známých.
Natáhnout bačkory.
Kick the bucket.
√
23 / 28
Výhody a nevýhody frázového překladu
⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data.
⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát.
⊖ Neumı́ nové tvary slov, a to ani známých.
Natáhnout bačkory.
Proč musel natáhnout bačkory?
√
Kick the bucket.
√
Why did he kick the bucket?
23 / 28
Výhody a nevýhody frázového překladu
⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data.
⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát.
⊖ Neumı́ nové tvary slov, a to ani známých.
Natáhnout bačkory.
Proč musel natáhnout bačkory?
Proč natáhl bačkory?
√
Kick the bucket.
√
Why did he kick the bucket?
Why stretched slippers?
×
23 / 28
Výhody a nevýhody frázového překladu
⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data.
⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát.
⊖ Neumı́ nové tvary slov, a to ani známých.
Natáhnout bačkory.
Proč musel natáhnout bačkory?
Proč natáhl bačkory?
√
Kick the bucket.
√
Why did he kick the bucket?
Why stretched slippers?
×
Jan s Mariı́ se vzali.
John and Mary were married.
√
23 / 28
Výhody a nevýhody frázového překladu
⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data.
⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát.
⊖ Neumı́ nové tvary slov, a to ani známých.
Natáhnout bačkory.
Proč musel natáhnout bačkory?
Proč natáhl bačkory?
√
Kick the bucket.
√
Why did he kick the bucket?
Why stretched slippers?
×
Jan s Mariı́ se vzali.
John and Mary were married.
√
John and Mary married yesterday.
√
Jan s Mariı́ se včera vzali.
23 / 28
Výhody a nevýhody frázového překladu
⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data.
⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát.
⊖ Neumı́ nové tvary slov, a to ani známých.
Natáhnout bačkory.
Proč musel natáhnout bačkory?
Proč natáhl bačkory?
√
Kick the bucket.
√
Why did he kick the bucket?
Why stretched slippers?
×
Jan s Mariı́ se vzali.
John and Mary were married.
Jan s Mariı́ se včera vzali.
John and Mary married yesterday.
Jan s Mariı́ se včera v kostele vzali.
John and Mary are married in church yesterday.
√
√
∼
23 / 28
Výhody a nevýhody frázového překladu
⊕ Nenı́ třeba žádná znalost jazyka, stačı́ paralelnı́ data.
⊖ Nectı́ gramatiku, snadno sestavı́ slovnı́ salát.
⊖ Neumı́ nové tvary slov, a to ani známých.
Natáhnout bačkory.
Proč musel natáhnout bačkory?
Proč natáhl bačkory?
√
Kick the bucket.
√
Why did he kick the bucket?
Why stretched slippers?
×
Jan s Mariı́ se vzali.
John and Mary were married.
√
Jan s Mariı́ se včera vzali.
√
John and Mary married yesterday.
Jan s Mariı́ se včera v kostele vzali.
John and Mary are married in church yesterday. ∼
Jan s Mariı́ se včera v kostele svatého Ducha vzali.
John and Mary yesterday in the Church of the Holy Spirit took. ×
23 / 28
Problém negace
◮
Francouzská negace je okolo slovesa:
Je ne parle pas français.
24 / 28
Problém negace
◮
◮
Francouzská negace je okolo slovesa:
Je ne parle pas français.
Česká negace bývá zdvojená:
Nemám žádné námitky.
24 / 28
Problém negace
◮
◮
Francouzská negace je okolo slovesa:
Je ne parle pas français.
Česká negace bývá zdvojená:
Nemám žádné námitky.
Zdvojená negace vede ke ztrátě negace při překladu:
24 / 28
Problém negace
◮
◮
Francouzská negace je okolo slovesa:
Je ne parle pas français.
Česká negace bývá zdvojená:
Nemám žádné námitky.
Zdvojená negace vede ke ztrátě negace při překladu:
24 / 28
Problém negace
◮
◮
Francouzská negace je okolo slovesa:
Je ne parle pas français.
Česká negace bývá zdvojená:
Nemám žádné námitky.
Zdvojená negace vede ke ztrátě negace při překladu:
24 / 28
Problém negace
◮
◮
Francouzská negace je okolo slovesa:
Je ne parle pas français.
Česká negace bývá zdvojená:
Nemám žádné námitky.
Zdvojená negace vede ke ztrátě negace při překladu:
24 / 28
Problém negace
◮
◮
Francouzská negace je okolo slovesa:
Je ne parle pas français.
Česká negace bývá zdvojená:
Nemám žádné námitky.
Zdvojená negace vede ke ztrátě negace při překladu:
24 / 28
Problém negace
◮
◮
Francouzská negace je okolo slovesa:
Je ne parle pas français.
Česká negace bývá zdvojená:
Nemám žádné námitky.
Zdvojená negace vede ke ztrátě negace při překladu:
24 / 28
Oprava negace a gramatiky Depfix
25 / 28
Oprava gramatiky (depfix)
1. Zarovnánı́ vstupu a hypotézy.
2. Větný rozbor vstupu a
hypotézy.
3. Pravidla opravujı́cı́ časté
chyby:
◮
◮
Korekce rozboru hypotézy.
Negace, gramatické shody,
pády po předložce. . .
. . . 50–60 % změněných vět
změněno k lepšı́mu.
. . . přesnost vrácenı́ ztracené negace: 90 %
26 / 28
Nejlepšı́ je kombinace
WMT13
+ +
uedin-unconstr.
+
Google Translate
WMT15
Google Translate
WMT14
System
+ +
+
+ +
+
Google Translate
BLEU
20.0
20.1
19.5
18.9
14.7
21.1
21.6
20.9
20.2
15.2
18.8
18.7
17.6
16.4
13.4
TER Manual
0.693 0.664
0.696
0.637
0.713
–
0.720
0.618
0.741
0.455
0.670 0.373
0.667 0.357
0.674
0.333
0.687
0.168
0.716 -0.177
0.715 0.686
0.717
–
0.730
–
0.750
0.515
0.763
0.209
27 / 28
Náš vı́tězný systém: Chiméra
◮
Vstup:
◮
◮
Hloubkový překlad přeložı́ pomocı́ větného rozboru:
◮
◮
Slavné přı́pady se být týkajı́ grafické prvky.
Frázový překlad přidá 200M en-cs a 3,6G cs slov:
◮
◮
Famous cases also relate to graphic elements.
Slavné přı́pady se týkajı́ také grafické prvky.
Automatické opravy chyb jako shoda či negace:
◮
Slavné přı́pady se týkajı́ také grafických prvků.
(Google: Slavné přı́pady týkat i grafické prvky.)
28 / 28
Shrnutı́
◮
Nejlepšı́ výsledek: kombinace přı́stupů.
◮
◮
◮
◮
◮
Hloubkový +
frázový +
korektura.
Hloubkový překlad náročný na lingvistické zdroje.
Frázový překlad potřebuje jen paralelnı́ data.
Chyby v současných modelech zatı́m nevyhnutelné
(negace, . . . )
Při dostatku dat výstup vhodný k posteditaci.
29 / 28

Podobné dokumenty

Program pro automatickou opravu stochastické syntaktické anotace

Program pro automatickou opravu stochastické syntaktické anotace změní syntaktickou funkci u nesprávného podmětu, takže ve větě je sice už jen jeden podmět, ale ne ten správný). Za negativní, chybný zásah považujeme jednak zhoršení chybné struktury (např. změna ...

Více

velké

velké Existujı́ i dalšı́ metriky (Word Error Rate, Position-Independent WER, NIST) Ondřej Bojar

Více

k tisku

k tisku Souhrn série experimentů: co zlepšuje BLEU zarovnánı́ jiné než průnikové morfologické předzpracovánı́ (stemming) morfologické předzpracovánı́ (plná lematizace) přidánı́ nepředzpra...

Více

FFMI u pacientů s CHOPN a jeho stanovení

FFMI u pacientů s CHOPN a jeho stanovení • suprailiakální (bok) – nad okrajem hřebenu kosti kyčelní v přední axilární čáře

Více

časopis Forum

časopis Forum Není to jen otázka peněz, i když peníze jsou samozřejmě důležité. Nám se povedlo hned na začátku nasadit laťku vysoko a stále si ji držíme. Tím jsme si vybudovali reputaci v tom, jakou máme trajekc...

Více

Zpracování řeči

Zpracování řeči • Nejmenšı́ jednotka: foném • Lišı́ se podle způsobu a mı́sta tvořenı́, artikulujı́cı́ho orgánu nebo sluchového dojmu (fonologie). Celkem ve svět. jazycı́ch jen cca. 12 diferenciálnı́ch p...

Více

RNDr. Ondřej Bojar, Ph.D.

RNDr. Ondřej Bojar, Ph.D. RNDr. Ondřej Bojar, Ph.D. Narozen: E-mail, web:

Více