k tisku

Transkript

k tisku
1
Osnova
• Statistický strojový překlad na 1 slide.
Experimenty s frázovým statistickým překladem
z češtiny do angličtiny
• Dostupná data.
• Zarovnávánı́ po slovech: ručnı́ a série experimentů se strojovým.
Ondřej Bojar
[email protected]
• Frázový statistický překlad: metrika, série experimentů.
27. únor, 2006
• Souhrn a varovánı́, výhled.
• Širšı́ zamyšlenı́ a “pracovnı́ návyky”.
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
2
3
Statistický překlad po slovech či frázı́ch
•
•
•
•
Dostupná data pro překlad (řı́jen 2005)
trénovacı́ soubor paralelnı́ch textů
zarovnánı́ po slovech
extrakce slovnı́ku (překlady slov či frázı́)
decoding (překlad) = hledánı́ “nejhladšı́ formulace”
nejhladšı́ ∼ 3-gramy v mé hypotéze ať jsou v průměru (součin pstı́) co nejběžnějšı́ (často
spatřeny korpusu cı́lového jazyka, tzv. jazykovém modelu)
We
ab ’re
ou
t
t
seo
adv
ert e
isinif
wo g
rks
.
.
funguje
reklama
zda,
Uvidı́me
Ondřej Bojar
Skóre
2.30
2.79
3.08
3.08
3.48
3.77
4.17
4.17
...
Zdrojová fráze
že bude
že bude
že bude
že bude
že bude
že bude
že bude
že bude
Cı́lová fráze
it would
he would
he will
it will
it will be
it would be
be
it is
Experimenty s frázovým překladem
Korpus a verze
Prague Cz-En Dep Tbk (PCEDT 1.0)
Reader’s Digest (PCEDT 1.0)
Kačenka
OPUS EU Constitution
Kolovratnı́k
Vět
22k/49k
44k/44k
128k/105k
11k/10k
107k/107k
Tokenů
0.5M/1.2M
658k/755k
1.5M/1.5M
127k/164k
1.3M/1.5M
Slovnı́k
57k/30k
84k/36k
102k/47k
?
190k/92k
Lemat
28k/25k
?
39k/22k
?
?
27. únor, 2006
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
5
Ručnı́ zarovnánı́ po slovech
Přı́klad téměř ideálnı́
.
Anotováno: 2x 515 vět z dev. a test. dat PCEDT 1.0.
Typy spojenı́: žádné/jisté/možné/bez ekvivalentu a žádné/frázové.
Inc
Technologies
United
pod
patřı́
Whitney
&
Pratt
Anotováno celkem 2x16 000=32 000 spojenı́.
Z toho 18 % (5 800) vytvořil jen jeden anotátor a druhý ne.
Pokud odhlédneme od typu spojenı́, neshoda klesne na 9 %.
Neshody zejména v:
27. únor, 2006
Pr
&a att
Wh mp;
itn
ey
is
a
un
it
Te Un of
chn ite
olo d
gie
s
Inc
.
• anotovánı́ součástı́ analytických predikátů (někdy je konstrukce paralelnı́, někdy
ne)
• anglických členech v přı́padech, kdy na české straně nelze určit řı́dicı́ podstatné
jméno, např. proto, že při překladu byl změněn slovnı́ druh
• interpunkci (zejména apozice, koordinace ad. v kombinaci)
Experimenty s frázovým překladem
beletrie
beletrie
špatná tok.
netokeniz.
BEAST: kompilace č-a slovnı́ků z webu (400k párů, 235k cs, 225k en hesel; pouze jednoslovná
hesla: 138k párů, 58k cs, 53k en)
4
Ondřej Bojar
Pozn.
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
6
7
Méně monotónnı́ překlad
Metrika kvality zarovnánı́
.
Referenčnı́ data standardně neobsahujı́ spojenı́ frázového typu.
Referenčnı́ data jsme vytvořili sloučenı́m obou anotacı́:
kontraktem
neplatným
již
prokousávajı́
stále
však
se
Odbory
• oba anotátoři volı́ jisté spojenı́ → jisté spojenı́
• jeden volı́ jisté a jeden nějaké jiné → jisté spojenı́
• alespoň jeden volı́ nějaké spojenı́ → možné spojenı́
Automat nechť přiřazuje pouze jeden druh spojenı́ (žádné/jisté).
P . . . možná spojenı́, S ⊆ P . . . jistá spojenı́, A . . . navrhovaná spojenı́
Th
un e
ion
con
tin is
uin
g
to
wo
thr rk
ou
gh
exp its
con ired
tra
ct
how ,
eve
r
.
precision =
|A∩P |
|A|
(chyba uvést falešný, takový, který nenı́ ani možný)
recall =
|A∩S|
|S|
(chyba zapomenout jistý)
|+|A∩S|
Alignment Error Rate, AER = 1 − |A∩P
|A|+|S|
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
8
9
Výsledky variant předzpracovánı́ a spojovánı́
Kde selhává GIZA, měli problémy i lidé
GIZA++ (Och and Ney, 2003) jednomu slovu vždy přiřadı́ nejvýše jedno
odpovı́dajı́cı́ slovo (alignment je (neprostou) funkcı́, 1-n).
Použita ve dvou směrech, konečný alignment lze zı́skat sjednocenı́m či průnikem
výsledků z obou směrů.
Baseline
Lematizace
Lematizace + čı́sla
Lematizace + singletony
Prec
97,4
97,9
97,9
97,4
Průnik (1-1)
Rec
57,6
75,0
75,2
75,8
AER
27,4
15,0
14,8
14,6
Sjednocenı́ (n-n)
Prec
Rec
AER
65,9
86,7
25,5
77,1
89,8
17,2
77,5
89,9
17,0
77,8
88,5
17,4
Podı́l tokenů, kde se zarovnánı́ shodovalo (OK) nebo neshodovalo (Potı́že):
• Lidé proti sobě
• GIZA++ proti referenci vzniklé spojenı́m obou ručnı́ch anotacı́
Lidé
Potı́že
Potı́že
OK
OK
Baseline
en
cs
14,3
15,5
0,1
0,1
38,6
35,7
46,9
48,7
GIZA++
Potı́že
OK
Potı́že
OK
Lematizace+singletony
en
cs
14,3
15,5
0,2
0,1
25,2
25,0
60,4
59,4
Použitı́m symetrizace (nejlevnějšı́ párovánı́) mı́sto průniku/sjednocenı́ (Matusov,
Zens, and Ney, 2004) lze dosáhnout prec 91,4, rec 85,0, AER 11,9 %.
⇒ U pozic, kde GIZA selhala, měli ve 38 % přı́padů potı́že i lidé.
⇒ Zlepšenı́ dı́ky lematizaci nepomáhá tam, kde lidé stejně měli potı́že.
Ondřej Bojar
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
Experimenty s frázovým překladem
27. únor, 2006
10
11
Hrubá kombinace pravidel a statistiky ubližuje
Souhrn zarovnánı́ po slovech
Členy v češtině nejsou, při jejich ručnı́m zarovnánı́ se postupuje podle předem
daných pravidel.
• Úloha zarovnánı́ po slovech by si zasloužila mı́rně předefinovat, přiřazovat
k sobě “tektogramatické uzly”, ne jednotlivá slova.
• Při staré definici je kvalita strojového zarovnánı́ po slovech velmi dobrá.
Úvaha: Když členy odstranı́m, nechám zarovnat ostatnı́ slova a pak členy přivěsı́m
podle pravidel, měl bych dosáhnout lepšı́ch výsledků shody.
Zklamánı́: členy majı́ “vı́ce významů”, někdy majı́ i svůj protiklad v češtině, a
pak metoda s jednoduchým pravidlem jen ublı́žı́.
dollar a share = dolar na akcii
the house = tento dům
• Vhodným předzpracovánı́m (lematizace+náhrada singletonů slovnı́m druhem)
lze chybu snı́žit na polovinu.
• Nejlepšı́ metodou spojovánı́ dvou směrů alignmentu je podle AER symetrizace,
z jednoduchých postupů je výrazně lepšı́ průnik než sjednocenı́.
Pokles o cca 0,5 procentnı́ho bodu v prec, rec i AER.
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
12
13
BLEU: standardnı́ metrika kvality překladu
Ukázka překladu z češtiny do angličtiny
Překlad (hypotéza):
n=1: For example , Fidelity prepares for case market plunge ads several months in advance .
n=2: For example , Fidelity prepares for case market plunge ads several months in advance .
Reference:
Fidelity Investments , for example , created their advertisements several months in advance , just in case the market
dropped .
For example , Fidelity prepared advertisements for a potential market slump a few months in advance .
For example , Fidelity prepared ads some months in advance for a case where the market fell .
For instance Fidelity prepared ads for the event of a market plunge several months in advance .
We ’ll see whether the campaigns work .
Immediately after Friday ’s 190 14-point stock market and a consequent
uncertainty excretes several big brokerage firms new ads UNKNOWN vytrubujı́cı́
usual message : Go on in investing , the market is in order .
Their business is persuade clients from escaping from the market , which individual
investors masse fact , after plunging in October .
Existujı́ i dalšı́ metriky (Word Error Rate, Position-Independent WER, NIST)
Uvidı́me , zda reklama funguje .
Okamžitě po pátečnı́m 190 bodovém propadu akciového trhu a následné nejistotě
vypouštı́ několik velkých brokerských firem nové inzeráty vytrubujı́cı́ obvyklé
poselstvı́ : Pokračujte v investovánı́ , trh je v pořádku .
Jejich úkolem je odradit klienty od útěku z trhu , což jednotlivı́ investoři hromadně
činili po propadu v řı́jnu .
Ondřej Bojar
Ondřej Bojar
BLEU = podı́l 1- až 4-gramů z hypotézy doložených v referenčnı́ch překladech
• v rozsahu 0-1, někdy zapisováno jako 0 až 100 %
• lidský překlad proti dalšı́m lidským překladům: cca 60 %
• Google čı́nština→angličtina: cca 30, arabština→angličtina cca 50.
Experimenty s frázovým překladem
27. únor, 2006
Experimenty s frázovým překladem
27. únor, 2006
14
Práce s neznámými slovy
Úprava tokenizace referenčnı́ch překladů
Neznámá slova
Přiznat
Smazat
Ponechat nepřeložená
DEV-FIX
30.2
31
32.4
TEST-FIX
25.9
26.5
27.3
DEV-ORIG
20.8
22.5
21.9
TEST-ORIG
17.6
19.1
18.4
• ORIG – referenčnı́ překlady ponechány v základnı́ podobě
• FIX – referenčnı́ překlady automaticky tokenizovány podobně jako trénovacı́
data
⇒posun BLEU o ∼10 procentnı́ch bodů (1/3 celkového skóre!)
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
15
Lematizace > jednoduchý stemming
stem42
baseline → formy
lemata + singletony
stem4
lemata
DEV-std
28.5
28.6
29.3
29.6
29.8
TEST-optbleu
26.1
25.8
27.1
26.7
27.3
Vstup do automatického zarovnánı́ po slovech
Formy
Produkce malých vozů se vı́ce než ztrojnásobila .
Stem4
Prod malý vozů se vı́ce než ztro .
Stem42
Prod/ce malých vozů se vı́ce než ztro/la .
Lem+Sing produkce malý vůz se hodně než-2 UNK-verb .
Lemata
produkce malý vůz se hodně než-2 ztrojnásobit .
Ondřej Bojar
Experimenty s frázovým překladem
TEST-std
23.5
23.6
24.9
23.9
24.6
Vocab
CZ
EN
57k 31k
17k 14k
52k 28k
15k 13k
28k 25k
Singl/Vocab
CZ
EN
55.1% 47.6%
36.5% 35.8%
51.2% 45.3%
0.1%
0.0%
46.4% 47.5%
27. únor, 2006
16
17
Vı́ce Dat? LM>paralelnı́ korpus>slovnı́k
baseline →
slovnı́k je horšı́ →
než par. korp. →
a než LM →
DEV-std
22.7
25.6
26.6
29.8
29.8
31.6
32.7
33.2
33.4
35.9
pcedt5k ali:lemata
pcedt5k lmpcedt ali:lemata
pcedt10k ali:lemata
pcedt20k ali:lemata
pcedt20k+dict ali:stem4
pcedt20k+stories ali:stem4
pcedt20k+dict lmpcedt ali:stem4
pcedt20k lmpcedt ali:lemata
pcedt20k lm600M4grKN ali:lemata
pcedt20k+stories lmpcedt ali:stem4
pcedt 5k 10k 20k
dict
stories
lmpcedt
lm600M4grKN
TEST-optbleu
21.5
24
23.7
27.3
27.5
28
29.6
29.4
31.9
32.3
Pravidlové řešenı́ vlastnı́ch jmen a čı́sel
Ponechat vlastnı́ jména v originále ubližuje (skloňovánı́ a tokenizace).
Pravidlové ošetřenı́ čı́sel mı́rně pomáhá.
TEST-std
19.1
21.2
21.2
24.6
24.6
25.9
26.9
26.4
27.3
29.7
jména+čı́sla
jména+čı́sla+začištěnı́ čı́sel
jména
čı́sla
čı́sla+začištěnı́ čı́sel
baseline
základnı́ paralelnı́ korpus, různé množstvı́ trénovacı́ch vět
nerozgenerovaný č-a slovnı́k z webu, 116k hesel, 198/202k tokenů, 20k/30k vocab.
dodatečné paralelnı́ texty, 85k vět, 1.5/1.7M tokenů, 118/44k vocab.
LM v dané doméně, (Čmejrek, Cuřı́n, and Havelka, 2003), n-gram vocab. 0.4:5:7M
“obecný” jazykový model, 600M tokenů, n-gram vocab. 1.7:26:38:63M
Ondřej Bojar
Experimenty s frázovým překladem
baseline
řešenı́ čı́sel
čı́sla+začištěnı́
27. únor, 2006
Ondřej Bojar
DEV-std
25.1
25.5
25.8
29.2
29.7
29.8
vstup
na 57,375 dolarech
na 57,375 dolarech
na 57,375 dolarech
TEST-optbleu
23.4
24.9
27.1
28.6
27.3
do překladače
na 57,375 dolarech
na NUM dolarech
na NUM dolarech
TEST-std
21.3
22.9
21.4
24.2
25.8
24.6
výstup
at UNK 57,375 $
at $ 57,375
at $ 57.375
Experimenty s frázovým překladem
27. únor, 2006
18
19
Umělé rozšiřovánı́ trénovacı́ch dat podle závislostı́
Nápad vytvořit nové trénovacı́ věty (věty s novými ngramy) promazánı́m listů
v závistlostnı́ch stromech (“redukce” vět).
• Off-line: vypiš všechny možné věty, které lze zı́skat postupnými redukcemi
trénovacı́ch vět.
⇒nepoužitelné, vede k explozi dat
• On-line: pro dané testovacı́ zdrojové věty (tj.
množinu “potřebných”
ngramů)
– Prohledej trénovacı́ korpus s cı́lem najı́t nesouvislé ukázkové výskyty
potřebných ngramů.
– Označ nalezené uzly, alignované uzly v cı́lovém jazyce a též všechny sousedy
v závislostnı́ch stromech tak, aby bylo dosaženo určité úrovně gramatičnosti.
– Vypiš označené uzly (pokud nebyla nakonec označena celá věta).
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
Detail o rozšiřovánı́ trénovacı́ch dat
263 testovacı́ch vět obsahuje 5146 bigramů.
• 60 % má v trénovacı́ch datech alespoň jeden nesouvislý výskyt
• 33 % nemá žádný výskyt
• 7 % má jen souvislé výskyty.
Z celkem 440 tisı́c dohledaných přı́kladů je:
• 20 % ignorováno (jsou souvislé)
• 60 % spı́še náhodné souvýskyty (přı́liš vzdálené v závislostnı́m stromě)
• Zbývajı́cı́ch 20 % (93 tisı́c) se zdá být k užitku.
Po dodánı́ uzlů nutných pro zlepšenı́ gramatičnosti ovšem 92 % z 93 tisı́c přı́kladů
svou užitečnost ztrácı́, protože se stanou opět nesouvislými. Nakonec je tedy
použito 7800 částı́ vět (jen 2000 unikátnı́ch) jako dodatečná trénovacı́ data.
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
20
21
Celkový přı́nos metody je zanedbatelný
Baseline
Rozšı́řená trénovacı́ data
Rozšı́řená po odfiltrovánı́ “L.J. Hooker”
pcedt 20k
27.3
27.4
27.8
pcedt 10k
23.7
23.4
-
Přı́činy nı́zkého skóre BLEU
pcedt 5k
21.5
21.2
-
Zarovnánı́ bylo vytvořeno pomocı́ sjednocenı́ a lematizovaných vět. Výsledky jsou uvedeny na testovacı́ch datech při
optimalizaci na BLEU.
Souhrnný dojem: rozšiřovánı́ korpusu podle závislostı́ mı́rně pomáhá, pokud
• zajistı́me gramatičnost dogenerovaných vět (pravidla závislá na jazyce
• zı́skané věty ještě pečlivě profiltrujeme od podezřelých vzorků
Ondřej Bojar
Experimenty s frázovým překladem
19
12
10
6
6
6
5
5
4
3
2
1
Nejvýznamnějšı́ chybějı́cı́ bigramy:
, "
12
” said
of the
10
Free Europe
Radio Free
7
. "
L.J. Hooker
6
United States
in the
6
the United
the strike
5
” We
,a
5
is a
margin calls
28 tokens, 7 types
54 tokens, 18 types
94 tokens, 47 types
698 tokens, 698 types
26
14
11
8
7
7
7
7
6
5
4
3
2
1
Nejvýznamnějšı́ nadbytečné bigramy:
, ’’
18
’’ .
” said
12
, which
Svobodná Evropa
8
, when
the state
7
, who
J. Hooker
7
L. J.
company GM
7
firm Hooker
radio Svobodná
7
spokesman for
the company
18 tokens, 3 types
35 tokens, 7 types
40 tokens, 10 types
117 tokens, 39 types
342 tokens, 171 types
3214 tokens, 3214 types
Chybějı́cı́ bigram = obsažen ve všech referencı́ch, ale ne hypotéze
Nadbytečný bigram = obsažen v hypotéze, ale v žádné z referencı́
27. únor, 2006
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
22
Oprava evidentnı́ch prohřešků proti referencı́m
pcedt5k
pcedt5k s opravou
pcedt20k
pcedt20k s opravou
pcedt20k lm600M4grKN
pcedt20k lm600M4grKN s opravou
DEV-std
22.7
24.5
29.8
31.6
33.4
35.1
TEST-optbleu
21.5
22.2
27.3
28.2
31.9
32.9
TEST-std
19.1
20
24.6
25.6
27.3
28.4
“Oprava” je přitom jen čtveřice pevných náhrad:
’’ .
’’
L. J. Hooker
the U.S.
Ondřej Bojar
→
→
→
→
. "
"
L.J. Hooker
the United States
Experimenty s frázovým překladem
27. únor, 2006
23
Souhrn série experimentů: co zlepšuje BLEU
zarovnánı́ jiné než průnikové
morfologické předzpracovánı́ (stemming)
morfologické předzpracovánı́ (plná lematizace)
přidánı́ nepředzpracovaného slovnı́ku
dodatečné paralelnı́ texty, použity i v jazykovém modelu
většı́ jazykový model v doméně
ještě většı́, ale obecný jazykový model
dodatečné paralelnı́ texty, ale jazykový model (většı́) v doméně
pravidlové zpracovánı́ čı́selných výrazů
umělé zvětšovánı́ trénovacı́ch dat na základě syntaktické struktury
oprava evidentnı́ch prohřešků proti referenčnı́m překladům
sjednocenı́ tokenizace v hypotéze a referenčnı́ch překladech
Ondřej Bojar
Experimenty s frázovým překladem
+1.5 až +2.0
+1.0
+1.5
+0.2
+0.7 až +1.7
+2.1 až +3.4
+4.6
+5.0 až +6.0
+0.5
+0.5
+1.0 až +1.5
+10.0
27. únor, 2006
24
25
Shrnutı́ a varovánı́
Výhled / přánı́
• Referenčnı́ překlady do češtiny. (Např. PCEDT.)
• Od začátku pracuj od konce.
Pokoušı́m se vytvořit společně se studenty na FJFI, ale kvalita bude nevalná.
Jinak se plýtvá časem na minoritnı́ problémy.
• Hledá se lepšı́ metrika.
• Dı́lčı́ metrika podúlohy nemusı́ korelovat s celkovým hodnocenı́m.
Hodnotit chyby v závislostech, specificky hodnotit chyby ve slovnı́m tvaru. Odstranit přı́lišnou
citlivost na detaily (určitého typu). Kontrolovat konzistenci věty jako celku.
AER doporučuje průnik alignmentů, BLEU řı́ká, že průnik překladu škodı́.
• Hledajı́ se data pro vyhodnocenı́ kvality metriky.
• BLEU je přı́liš citlivé na detaily.
Je potřeba soubor řady lidských hodnocenı́ nad množinou referenčnı́ch překladů. Dobrá metrika
je taková, která kandidátské/referenčnı́ překlady uspořádá podobně jako lidé.
⇒ pomáhá “normalizace” dat (Leusch et al., 2005).
• PCEDT nenı́ realistický zdroj dat pro překlad z češtiny do angličtiny.
Čeština je přı́liš anglická, překlad do angličtiny nespravedlivě snadný.
• Komunikujte! Komunikujte! Komunikujte!
Ručnı́ zarovnánı́ po slovech na stejných datech nezávisle a současně dělala
Ivana Kruijff-Korbayová a Klára Chvátalová, aniž bychom o sobě věděli.
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
Ondřej Bojar
Experimenty s frázovým překladem
26
27. únor, 2006
27
CzEng (pre-release)
Širšı́ zamyšlenı́
Paralelnı́ korpus, který jsme shromáždili se Zdeňkem Žabokrtským.
Česká strana
10 mil. slov
1 % Ostatnı́
5 % KDE
8 % Reader’s Digest EBooks 15 %
12 % Kačenka
•
•
•
•
•
1 % Ostatnı́
5 % WSJ
5 % WSJ
Ondřej Bojar
Modelový statistik usiluje o řešenı́ dané úlohy s co nejmenšı́ chybou.
Celex 50 %
Celex 55 %
EBooks 14 %
Modelový lingvista usiluje o popis jazyka, vysvětlenı́ toho, co se děje, když si lidé
rozumějı́.
Anglická strana
12 mil. slov
7 % KDE
9 % Reader’s Digest
Kačenka 13 %
Experimenty s frázovým překladem
27. únor, 2006
statistik potřebuje úlohu
statistik potřebuje metriku
statistik ctı́ princip Occamovy břitvy
statistik zohledňuje zákon klesajı́cı́ho zisku
povaha práce na SMT je velmi jiná, řešı́ se zejména inženýrské problémy, jak
rychle zpracovat velké množstvı́ dat ⇒ vı́ce informatiky než lingvistiky.
Ondřej Bojar
Experimenty s frázovým překladem
28
27. únor, 2006
29
Pracovnı́ návyky (jak se dělá špičkový ústav)
Literatura
Odborně vysoce fundovaný ředitel, mı́rně psı́ režim.
“Žádný krok mimo”.
Lidé maximálně využı́vajı́cı́ strojové sı́ly. (Makra na každém kroku.)
Práce nad společným softwarovým dı́lem, všichni přispı́vajı́.
Komplexnı́ nástroj téměř zcela vlastnı́ provenience (i vlastnı́ FSA).
⇒ lze velmi rychle adaptovat a testovat nové věci.
• Kvalitnı́ implementace (rychlá a úsporná):
⇒ umožňuje mnoho vývojových cyklů za jednotku času
• Vysoce kvalitnı́ infrastruktura.
•
•
•
•
•
Paralelnı́ výpočty s minimálnı́ režiı́: rychlý sı́ ťový souborový systém, uživatel nerozhoduje, na
kterém počı́tači se úloha spustı́.
Jednoduché je krásné. Kratšı́ je lepšı́.
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
Čmejrek, Martin, Jan Cuřı́n, and Jiřı́ Havelka. 2003. Czech-English Dependency-based Machine
Translation. In EACL 2003 Proceedings of the Conference, pages 83–90. Association for
Computational Linguistics, April. MSM113200006, LN00A063.
Leusch, Gregor, Nicola Ueffing, David Vilar, and Hermann Ney. 2005. Preprocessing and
Normalization for Automatic Evaluation of Machine Translation. In Proceedings of the ACL
Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or
Summarization, pages 17–24, Ann Arbor, Michigan, June. Association for Computational
Linguistics.
Matusov, E., R. Zens, and H. Ney. 2004. Symmetric Word Alignments for Statistical Machine
Translation. In Proceedings of COLING 2004, pages 219–225, Geneva, Switzerland, August
23–27.
Och, Franz Josef and Hermann Ney. 2003. A systematic comparison of various statistical
alignment models. Comput. Linguist., 29(1):19–51.
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006

Podobné dokumenty

velké

velké Ukázka překladu z češtiny do angličtiny We ’ll see whether the campaigns work . Immediately after Friday ’s 190 14-point stock market and a consequent uncertainty excretes several big brokerag...

Více

katalogovém listu

katalogovém listu • na druhém řádku je trojčíslí verze souboru, např. pro druhou verzi V002 Pozn. 1: Číslo verze a rok pořízení dat v hlásiči slouží k identifikaci obsahu hlásiče. Po každém zapnutí se u ICU 06/07 na...

Více

DOMSTUD 01 - APEX ® spol. s ro

DOMSTUD 01 - APEX ® spol. s ro • na druhém řádku je trojčíslí verze souboru, např. pro druhou verzi V002 Pozn. 1: Číslo verze a rok pořízení dat v hlásiči slouží k identifikaci obsahu hlásiče. Po každém zapnutí se u ICU 06/07 na...

Více

Pr´ıklady, 24.10. 2007

Pr´ıklady, 24.10. 2007 Průběh boje: má smysl uvažovat jen prvnı́ kvadrant, mohou nastat celkem tři různé průběhy a výsledky boje (viz obrázek, vodorovná osa je x, svislá osa je y) v závislosti na počáteč...

Více

RNDr. Ondřej Bojar, Ph.D.

RNDr. Ondřej Bojar, Ph.D. Scotland, July. Association for Computational Linguistics. Ondřej Bojar. 2011. Analyzing Error Types in English-Czech Machine Translation. Prague Bulletin of Mathematical Linguistics, 95:63–76, Mar...

Více

klotoida - Geometrie

klotoida - Geometrie vrchol oblouku. V praxi proto na vrcholu oblouku sice zůstává dráha ve tvaru kružnice, ale nájezd na nı́ je postaven do tvaru klotoidy a tı́m odpadajı́ výše popsané problémy. Sı́la, ktera...

Více

Detekce dopravních znacek z kamery ve vozidle

Detekce dopravních znacek z kamery ve vozidle Pro vyhodnocenı́ snı́mků z kamery byl vytvořen anotačnı́ program. Ve kterém se postupně zobrazujı́ snı́mky a pomocı́ myši je vybı́rána oblast objektu. Aplikace je navrhnutá tak, že vždy v...

Více

Modelování řečové produkce

Modelování řečové produkce Full-listing hypothesis (Butterworth, 1983): jednotlivé tvary jsou uloženy jako celky Computation hypothesis (v percepci affix striping, Taft & Forster, 1975): ohebné tvary jsou „poskládány dohroma...

Více