Problémy recyklován´ı systému automatického pˇrekladu

Transkript

Problémy recyklován´ı systému automatického pˇrekladu
Problémy recyklovánı́
systému automatického překladu
Ondřej Bojar, Petr Homola, Vladislav Kuboň
{bojar,homola,vk}@ufal.mff.cuni.cz
21. zářı́ 2005
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
1
Osnova
• Motivace: proč recyklovat systémy strojového překladu
• RUSLAN jako základ
• Syntaktická analýza v RUSLANu
• Nové moduly:
– Rozpoznávánı́ pojmenovaných entit
– Česko-anglický slovnı́k
• Problémy stávajı́cı́ gramatiky
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
2
Trojúhelnı́k strojového překladu (MT)
Interlingua
Hloubková syntax
DBM
Hloubková syntax
T
Povrchová syntax
Zdrojový text
RUSLAN
Povrchová syntax
přı́mý překlad
(Pharaoh, ReWrite)
Cı́lový text
DBMT a ReWrite viz ? a citované, Pharaoh viz ?
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
3
RUSLAN: Automatický překlad čeština→ruština
• ?1985 †1990; MFF UK + VÚMS; ?
• Automatický překlad manuálů k operačnı́m systémům sálových počı́tačů
• Překlad jedné věty trval asi 4 minuty na IBM PC 286
Nejcennějšı́ části systému:
• Syntaktický slovnı́k klı́čovou součástı́ systému
Obsahoval cca 8500 kmenů
• Gramatika češtiny založená na ručně psaných pravidlech (?)
Doposud jediná svého druhu
⇒Nový experiment:
• Je možné zachránit a znovu použı́t znalosti investované do systému RUSLAN
v kombinaci s novými moduly?
• Odpověď: Možná ano, ale je to výjimečně komplikované
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
4
RUSLAN do angličtiny
Cı́l:
• překládat ekonomické texty Wall Street Journalu
Prague Czech-English Dependency Treebank, PCEDT, ?
Zachovat:
• prostředı́ Q-systémů (bylo reimplementováno)
• gramatiku pro analýzu češtiny
Nově:
• česko-anglický slovnı́k (jiný jazyk, jiná doména!)
• modul pro pojmenované entity
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
5
Systémy Q (?)
• Grafový analyzátor (chart parser).
• Jednotlivá pravidla se uplatňujı́ nedeterministicky, dokud lze nějaké pravidlo
uplatnit.
• Poté následujı́ dvě fáze čištěnı́ výsledného grafu:
1. odstraněny použité vstupnı́ hrany
tj. hrany, které se objevily na levé straně kteréhokoli uplatněného pravidla
2. odstraněny vybočujı́cı́ hrany
tj. hrany, které neležı́ na cestě od počátečnı́ho uzlu ke koncovému
Pokud se čištěnı́m odstranil celý graf, použije se původnı́ graf z počátku fáze.
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
6
Přı́klad syntaktické analýzy
Kolem
Kolem.N7
Kolem.R2
Kolem.D
Bojar, Homola, Kuboň
rostl
černý
bez
.
černý.A1
rostl.Vfin
bez.N1
bez.R2
černý.A4
černý.A5
.
černý.A1/bez.N1
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
7
Kolem.N7
Kolem.R2
rostl.Vfin
černý.A1/bez.N1
.
Kolem.D
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
8
Přı́klad pravidla
A*(U*1,#(U*2,<,U*3,/,U*4,E*(F*,X*9,J*),U*5,/,U*6,>,U*7),U*8,
1(F*1(Y*),X*1,#(X*),X*2))
+ 7(W*,E*)
+ 1(B*,Z*1,F*(C*),Z*2,@(V*),#(Z*),Z*3)
== A*(U*1,#(U*2,<,/,U*4,U*5,/,>,U*7),U*8,1(F*1(Y*),X*1,#(X*),X*2),
1(E*(F*),B*(C*),@(V*),#(Z*),T(J*),SCF,Z*3))
/
-NON- (. + -DANS- X*9 -ET- +(V*) -HORS- X*9,+(VZT,OSOB) .)
-ET-(V*,CDSUS) -HORS- X*9,*
-ETVZT -HORS- V*,*
-ET/ -HORS- U*4,U*5,*
-ET<,> -HORS- U*3,U*6,*
-ET- AD(+(SP)) -HORS- Z*3
-ET- (. FM -HORS- Z*3 -OU- 5 -DANS- Z*3 .)
-ET- (. -NON- 1(FM,LMCN) -DANS- Z*3 -OU- 1(5) -DANS- Z*3 .)
-ET- (.
F* -HORS- Z*1,Z*2,*
-OU- C* = S -ET- -NON- *A,*C -HORS- V*
-OU- C* = P -ET*A,*C -HORS- V* .)
-ET- (.
A* -DANS- 1,2 -ET- 2(@),5,6 -HORS- U*8
-OU- A* -DANS- V,6
.)
-ET- (.
E*(F*) -HORS- X*
-OUE*(+(V*,*)) -HORS- X*
-OU- -NON- E*(-(V*)) -HORS- X* .)
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
Předložkový pád
vyplňuje pozici
ve
valenčnı́m
rámci zprava.
21. zářı́ 2005
9
Charakter překládaného textu
Vedenı́ Chrysleru oznámilo, že závod opět zahájı́ výrobu 20. listopadu, což se bude týkat 3300
dělnı́ků placených od hodiny.
Chrysler officials said the plant is scheduled to resume production on Nov. 20, and 3,300
hourly workers will be affected.
Modely Corsica a Beretta představujı́ největšı́ vozovou řadu Chevroletu, ale tržby pro tento
rok jsou o 9,6 % nižšı́ a na počátku tohoto měsı́ce prudce spadly až o 34,2 %.
The Corsica and Beretta make up the highest-volume car line at Chevrolet, but sales of the
cars are off 9.6% for the year, and fell a steep 34.2% early this month.
• obrovské množstvı́ čı́slovek v nejrůznějšı́ch formátech, kalendářových dat,
měnových výrazů, procent, zlomků apod.
• velkém množstvı́ pojmenovaných entit (názvy firem a institucı́, jména osob,
geografické názvy apod.)
• idiomy
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
10
Pojmenované entity
• Pojmenované entity: souhrnné označenı́ pro sémanticky atomické, ale často
vı́ceslovné jednotky v textu.
• Vnitřnı́ strukturou často odlišné od obecných částı́ gramatiky:
– časové údaje (dlouhé a krátké datum, čas, kombinace)
– čı́selné údaje s jednotkami (měna, metrické ap.; dle gazeteeru1)
– vlastnı́ jména osob, organizacı́, geografické názvy (dle gazeteeru)
prvnı́ dáma Laura Bushová
150 milionů dolarů
1
first lady Laura Bush
$ 150 millions
⇒stačı́ transliterace jmen + překlad titulů
⇒specifický transfer jmenné skupiny
Gazeteer = specializovaný, typicky strojově plněný slovnı́k s vysokým pokrytı́m.
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
11
Budovánı́ slovnı́ku
• Původnı́ slovnı́k obsahuje cenné informace: valenčnı́ rámce, sémantické rysy. . .
• Průnik s novou doménou je však poměrně malý a stará data se nevyplatı́ použı́t.
Budovánı́ nového slovnı́ku je věnován samostatný přı́spěvek na této konferenci.
?
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
12
Ukázka problémů stávajı́cı́ gramatiky
Kvůli klesajı́cı́mu prodeji svých lukrativnı́ch modelů sportovnı́ch aut Jeep Cherokee a Wagoneer
je společnost Chrysler Corp. nucena k dočasné odstávce svého montážnı́ho závodu v Toledu
ve státě Ohio, a to poprvé od dubna 1986.
Cherokee a Wagoneer
Jeep
Cherokee
a
Wagoneer
Jeep Cherokee
je
Wagoneer je ...
• Konstrukce typu Petr a Pavel šli je gramatikou řešena, vede však k tomu, že
skupina Cherokee a Wagoneer dostane množné čı́slo.
• Gramatika nepodporuje rozvitı́ Jeep (koordinovanou) skupinou v mn. č.
⇒ graf z nových hran přestane být souvislý ⇒ celý zapomenut.
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
...
13
Problémy jsou sice řešitelné, ale je nutné hluboko zasáhnout do gramatiky.
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
14
Shrnutı́
• Popsali jsme starý systém strojového překladu.
• Ilustrovali specifika odlišné domény překládaných textů.
• Nastı́nili nový modul pro rozpoznávánı́ jmenných entit.
• Popsali jsme problémy stávajı́cı́ gramatiky.
Závěr: Recyklace starých systémů se spı́še nevyplatı́.
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005
15
References
Bojar, Homola, Kuboň
Problémy recyklovánı́ systému automatického překladu
21. zářı́ 2005

Podobné dokumenty

k tisku

k tisku Lidé maximálně využı́vajı́cı́ strojové sı́ly. (Makra na každém kroku.) Práce nad společným softwarovým dı́lem, všichni přispı́vajı́. Komplexnı́ nástroj téměř zcela vlastnı́ proveni...

Více

matematika

matematika skalarnı́ součin jako projekce projekce obecné funkce do systému harmonických signálů využitı́ např při zpracovánı́ signálu (audio - rozpoznánı́ jednotlivých tónů) tzv. spektrálnı́ ...

Více

Zpracování řeči

Zpracování řeči • Řečnı́k mı́nı́ výrok P a formuluje ho tak, že řeč může mı́t vı́ce interpretacı́, ale za daného kontextu je nejlepšı́ způsob interpretace P. • Posluchač to zjistı́ a proto řeč interp...

Více

NEDEMOKRATICKÉ REŽIMY

NEDEMOKRATICKÉ REŽIMY podobě. Tato část záleží na zájmu a znalostech studentů, neboť bude stát převážně na jejich referátech.

Více

RNDr. Ondřej Bojar, Ph.D.

RNDr. Ondřej Bojar, Ph.D. publikační činnost v časopise MacWorld (PC World)

Více

Zpracování dat mluvené řeči v Pražském závislostním korpusu

Zpracování dat mluvené řeči v Pražském závislostním korpusu Mikulová et al. (2005): Anotace na tektogramatické rovině Pražského závislostního korpusu. Anotátorská příručka. Technická zpráva ÚFAL TR-2005-28. MFF UK, Praha. Nebeská, I. (1983): Kvantitativní c...

Více