k tisku

Transkript

k tisku

1
Osnova
• Statistický strojový překlad na 1 slide.
Experimenty s frázovým statistickým překladem
z češtiny do angličtiny
• Dostupná data.
• Zarovnávánı́ po slovech: ručnı́ a série experimentů se strojovým.
Ondřej Bojar
[email protected]
• Frázový statistický překlad: metrika, série experimentů.
27. únor, 2006
• Souhrn a varovánı́, výhled.
• Širšı́ zamyšlenı́ a “pracovnı́ návyky”.
Ondřej Bojar
Experimenty s frázovým překladem
27. únor, 2006
Ondřej Bojar
27. únor, 2006
2
3
Statistický překlad po slovech či frázı́ch
•
•
•
•
Dostupná data pro překlad (řı́jen 2005)
trénovacı́ soubor paralelnı́ch textů
zarovnánı́ po slovech
extrakce slovnı́ku (překlady slov či frázı́)
decoding (překlad) = hledánı́ “nejhladšı́ formulace”
nejhladšı́ ∼ 3-gramy v mé hypotéze ať jsou v průměru (součin pstı́) co nejběžnějšı́ (často
spatřeny korpusu cı́lového jazyka, tzv. jazykovém modelu)
We
ab ’re
ou
t
t
seo
adv
ert e
isinif
wo g
rks
.
.
funguje
reklama
zda,
Uvidı́me
Ondřej Bojar
Skóre
2.30
2.79
3.08
3.08
3.48
3.77
4.17
4.17
...
Zdrojová fráze
že bude
že bude
že bude
že bude
že bude
že bude
že bude
že bude
Cı́lová fráze
it would
he would
he will
it will
it will be
it would be
be
it is
Korpus a verze
Prague Cz-En Dep Tbk (PCEDT 1.0)
Reader’s Digest (PCEDT 1.0)
Kačenka
OPUS EU Constitution
Kolovratnı́k
Vět
22k/49k
44k/44k
128k/105k
11k/10k
107k/107k
Tokenů
0.5M/1.2M
658k/755k
1.5M/1.5M
127k/164k
1.3M/1.5M
Slovnı́k
57k/30k
84k/36k
102k/47k
?
190k/92k
Lemat
28k/25k
?
39k/22k
?
?
27. únor, 2006
Ondřej Bojar
27. únor, 2006
5
Ručnı́ zarovnánı́ po slovech
Přı́klad téměř ideálnı́
.
Anotováno: 2x 515 vět z dev. a test. dat PCEDT 1.0.
Typy spojenı́: žádné/jisté/možné/bez ekvivalentu a žádné/frázové.
Inc
Technologies
United
pod
patřı́
Whitney
&
Pratt
Anotováno celkem 2x16 000=32 000 spojenı́.
Z toho 18 % (5 800) vytvořil jen jeden anotátor a druhý ne.
Pokud odhlédneme od typu spojenı́, neshoda klesne na 9 %.
Neshody zejména v:
27. únor, 2006
Pr
&a att
Wh mp;
itn
ey
is
a
un
it
Te Un of
chn ite
olo d
gie
s
Inc
.
• anotovánı́ součástı́ analytických predikátů (někdy je konstrukce paralelnı́, někdy
ne)
• anglických členech v přı́padech, kdy na české straně nelze určit řı́dicı́ podstatné
jméno, např. proto, že při překladu byl změněn slovnı́ druh
• interpunkci (zejména apozice, koordinace ad. v kombinaci)
beletrie
beletrie
špatná tok.
netokeniz.
BEAST: kompilace č-a slovnı́ků z webu (400k párů, 235k cs, 225k en hesel; pouze jednoslovná
hesla: 138k párů, 58k cs, 53k en)
4
Ondřej Bojar
Pozn.
Ondřej Bojar
27. únor, 2006
6
7
Méně monotónnı́ překlad
Metrika kvality zarovnánı́
.
Referenčnı́ data standardně neobsahujı́ spojenı́ frázového typu.
Referenčnı́ data jsme vytvořili sloučenı́m obou anotacı́:
kontraktem
neplatným
již
prokousávajı́
stále
však
se
Odbory
• oba anotátoři volı́ jisté spojenı́ → jisté spojenı́
• jeden volı́ jisté a jeden nějaké jiné → jisté spojenı́
• alespoň jeden volı́ nějaké spojenı́ → možné spojenı́
Automat nechť přiřazuje pouze jeden druh spojenı́ (žádné/jisté).
P . . . možná spojenı́, S ⊆ P . . . jistá spojenı́, A . . . navrhovaná spojenı́
Th
un e
ion
con
tin is
uin
g
to
wo
thr rk
ou
gh
exp its
con ired
tra
ct
how ,
eve
r
.
precision =
|A∩P |
|A|
(chyba uvést falešný, takový, který nenı́ ani možný)
recall =
|A∩S|
|S|
(chyba zapomenout jistý)
|+|A∩S|
Alignment Error Rate, AER = 1 − |A∩P
|A|+|S|
Ondřej Bojar
27. únor, 2006
Ondřej Bojar
27. únor, 2006
8
9
Výsledky variant předzpracovánı́ a spojovánı́
Kde selhává GIZA, měli problémy i lidé
GIZA++ (Och and Ney, 2003) jednomu slovu vždy přiřadı́ nejvýše jedno
odpovı́dajı́cı́ slovo (alignment je (neprostou) funkcı́, 1-n).
Použita ve dvou směrech, konečný alignment lze zı́skat sjednocenı́m či průnikem
výsledků z obou směrů.
Baseline
Lematizace
Lematizace + čı́sla
Lematizace + singletony
Prec
97,4
97,9
97,9
97,4
Průnik (1-1)
Rec
57,6
75,0
75,2
75,8
AER
27,4
15,0
14,8
14,6
Sjednocenı́ (n-n)
Prec
Rec
AER
65,9
86,7
25,5
77,1
89,8
17,2
77,5
89,9
17,0
77,8
88,5
17,4
Podı́l tokenů, kde se zarovnánı́ shodovalo (OK) nebo neshodovalo (Potı́že):
• Lidé proti sobě
• GIZA++ proti referenci vzniklé spojenı́m obou ručnı́ch anotacı́
Lidé
Potı́že
Potı́že
OK
OK
Baseline
en
cs
14,3
15,5
0,1
0,1
38,6
35,7
46,9
48,7
GIZA++
Potı́že
OK
Potı́že
OK
Lematizace+singletony
en
cs
14,3
15,5
0,2
0,1
25,2
25,0
60,4
59,4
Použitı́m symetrizace (nejlevnějšı́ párovánı́) mı́sto průniku/sjednocenı́ (Matusov,
Zens, and Ney, 2004) lze dosáhnout prec 91,4, rec 85,0, AER 11,9 %.
⇒ U pozic, kde GIZA selhala, měli ve 38 % přı́padů potı́že i lidé.
⇒ Zlepšenı́ dı́ky lematizaci nepomáhá tam, kde lidé stejně měli potı́že.
Ondřej Bojar
Ondřej Bojar
27. únor, 2006
27. únor, 2006
10
11
Hrubá kombinace pravidel a statistiky ubližuje
Souhrn zarovnánı́ po slovech
Členy v češtině nejsou, při jejich ručnı́m zarovnánı́ se postupuje podle předem
daných pravidel.
• Úloha zarovnánı́ po slovech by si zasloužila mı́rně předefinovat, přiřazovat
k sobě “tektogramatické uzly”, ne jednotlivá slova.
• Při staré definici je kvalita strojového zarovnánı́ po slovech velmi dobrá.
Úvaha: Když členy odstranı́m, nechám zarovnat ostatnı́ slova a pak členy přivěsı́m
podle pravidel, měl bych dosáhnout lepšı́ch výsledků shody.
Zklamánı́: členy majı́ “vı́ce významů”, někdy majı́ i svůj protiklad v češtině, a
pak metoda s jednoduchým pravidlem jen ublı́žı́.
dollar a share = dolar na akcii
the house = tento dům
• Vhodným předzpracovánı́m (lematizace+náhrada singletonů slovnı́m druhem)
lze chybu snı́žit na polovinu.
• Nejlepšı́ metodou spojovánı́ dvou směrů alignmentu je podle AER symetrizace,
z jednoduchých postupů je výrazně lepšı́ průnik než sjednocenı́.
Pokles o cca 0,5 procentnı́ho bodu v prec, rec i AER.
Ondřej Bojar
27. únor, 2006
Ondřej Bojar
27. únor, 2006
12
13
BLEU: standardnı́ metrika kvality překladu
Ukázka překladu z češtiny do angličtiny
Překlad (hypotéza):
n=1: For example , Fidelity prepares for case market plunge ads several months in advance .
n=2: For example , Fidelity prepares for case market plunge ads several months in advance .
Reference:
Fidelity Investments , for example , created their advertisements several months in advance , just in case the market
dropped .
For example , Fidelity prepared advertisements for a potential market slump a few months in advance .
For example , Fidelity prepared ads some months in advance for a case where the market fell .
For instance Fidelity prepared ads for the event of a market plunge several months in advance .
We ’ll see whether the campaigns work .
Immediately after Friday ’s 190 14-point stock market and a consequent
uncertainty excretes several big brokerage firms new ads UNKNOWN vytrubujı́cı́
usual message : Go on in investing , the market is in order .
Their business is persuade clients from escaping from the market , which individual
investors masse fact , after plunging in October .
Existujı́ i dalšı́ metriky (Word Error Rate, Position-Independent WER, NIST)
Uvidı́me , zda reklama funguje .
Okamžitě po pátečnı́m 190 bodovém propadu akciového trhu a následné nejistotě
vypouštı́ několik velkých brokerských firem nové inzeráty vytrubujı́cı́ obvyklé
poselstvı́ : Pokračujte v investovánı́ , trh je v pořádku .
Jejich úkolem je odradit klienty od útěku z trhu , což jednotlivı́ investoři hromadně
činili po propadu v řı́jnu .
Ondřej Bojar
Ondřej Bojar
BLEU = podı́l 1- až 4-gramů z hypotézy doložených v referenčnı́ch překladech
• v rozsahu 0-1, někdy zapisováno jako 0 až 100 %
• lidský překlad proti dalšı́m lidským překladům: cca 60 %
• Google čı́nština→angličtina: cca 30, arabština→angličtina cca 50.
27. únor, 2006
27. únor, 2006
14
Práce s neznámými slovy
Úprava tokenizace referenčnı́ch překladů
Neznámá slova
Přiznat
Smazat
Ponechat nepřeložená
DEV-FIX
30.2
31
32.4
TEST-FIX
25.9
26.5
27.3
DEV-ORIG
20.8
22.5
21.9
TEST-ORIG
17.6
19.1
18.4
• ORIG – referenčnı́ překlady ponechány v základnı́ podobě
• FIX – referenčnı́ překlady automaticky tokenizovány podobně jako trénovacı́
data
⇒posun BLEU o ∼10 procentnı́ch bodů (1/3 celkového skóre!)
Ondřej Bojar
27. únor, 2006
15
Lematizace > jednoduchý stemming
stem42
baseline → formy
lemata + singletony
stem4
lemata
DEV-std
28.5
28.6
29.3
29.6
29.8
TEST-optbleu
26.1
25.8
27.1
26.7
27.3
Vstup do automatického zarovnánı́ po slovech
Formy
Produkce malých vozů se vı́ce než ztrojnásobila .
Stem4
Prod malý vozů se vı́ce než ztro .
Stem42
Prod/ce malých vozů se vı́ce než ztro/la .
Lem+Sing produkce malý vůz se hodně než-2 UNK-verb .
Lemata
produkce malý vůz se hodně než-2 ztrojnásobit .
Ondřej Bojar
TEST-std
23.5
23.6
24.9
23.9
24.6
Vocab
CZ
EN
57k 31k
17k 14k
52k 28k
15k 13k
28k 25k
Singl/Vocab
CZ
EN
55.1% 47.6%
36.5% 35.8%
51.2% 45.3%
0.1%
0.0%
46.4% 47.5%
27. únor, 2006
16
17
Vı́ce Dat? LM>paralelnı́ korpus>slovnı́k
baseline →
slovnı́k je horšı́ →
než par. korp. →
a než LM →
DEV-std
22.7
25.6
26.6
29.8
29.8
31.6
32.7
33.2
33.4
35.9
pcedt5k ali:lemata
pcedt5k lmpcedt ali:lemata
pcedt10k ali:lemata
pcedt20k ali:lemata
pcedt20k+dict ali:stem4
pcedt20k+stories ali:stem4
pcedt20k+dict lmpcedt ali:stem4
pcedt20k lmpcedt ali:lemata
pcedt20k lm600M4grKN ali:lemata
pcedt20k+stories lmpcedt ali:stem4
pcedt 5k 10k 20k
dict
stories
lmpcedt
lm600M4grKN
TEST-optbleu
21.5
24
23.7
27.3
27.5
28
29.6
29.4
31.9
32.3
Pravidlové řešenı́ vlastnı́ch jmen a čı́sel
Ponechat vlastnı́ jména v originále ubližuje (skloňovánı́ a tokenizace).
Pravidlové ošetřenı́ čı́sel mı́rně pomáhá.
TEST-std
19.1
21.2
21.2
24.6
24.6
25.9
26.9
26.4
27.3
29.7
jména+čı́sla
jména+čı́sla+začištěnı́ čı́sel
jména
čı́sla
čı́sla+začištěnı́ čı́sel
baseline
základnı́ paralelnı́ korpus, různé množstvı́ trénovacı́ch vět
nerozgenerovaný č-a slovnı́k z webu, 116k hesel, 198/202k tokenů, 20k/30k vocab.
dodatečné paralelnı́ texty, 85k vět, 1.5/1.7M tokenů, 118/44k vocab.
LM v dané doméně, (Čmejrek, Cuřı́n, and Havelka, 2003), n-gram vocab. 0.4:5:7M
“obecný” jazykový model, 600M tokenů, n-gram vocab. 1.7:26:38:63M
Ondřej Bojar
baseline
řešenı́ čı́sel
čı́sla+začištěnı́
27. únor, 2006
Ondřej Bojar
DEV-std
25.1
25.5
25.8
29.2
29.7
29.8
vstup
na 57,375 dolarech
na 57,375 dolarech
na 57,375 dolarech
TEST-optbleu
23.4
24.9
27.1
28.6
27.3
do překladače
na 57,375 dolarech
na NUM dolarech
na NUM dolarech
TEST-std
21.3
22.9
21.4
24.2
25.8
24.6
výstup
at UNK 57,375 $
at $ 57,375
at $ 57.375
27. únor, 2006
18
19
Umělé rozšiřovánı́ trénovacı́ch dat podle závislostı́
Nápad vytvořit nové trénovacı́ věty (věty s novými ngramy) promazánı́m listů
v závistlostnı́ch stromech (“redukce” vět).
• Off-line: vypiš všechny možné věty, které lze zı́skat postupnými redukcemi
trénovacı́ch vět.
⇒nepoužitelné, vede k explozi dat
• On-line: pro dané testovacı́ zdrojové věty (tj.
množinu “potřebných”
ngramů)
– Prohledej trénovacı́ korpus s cı́lem najı́t nesouvislé ukázkové výskyty
potřebných ngramů.
– Označ nalezené uzly, alignované uzly v cı́lovém jazyce a též všechny sousedy
v závislostnı́ch stromech tak, aby bylo dosaženo určité úrovně gramatičnosti.
– Vypiš označené uzly (pokud nebyla nakonec označena celá věta).
Ondřej Bojar
27. únor, 2006
Detail o rozšiřovánı́ trénovacı́ch dat
263 testovacı́ch vět obsahuje 5146 bigramů.
• 60 % má v trénovacı́ch datech alespoň jeden nesouvislý výskyt
• 33 % nemá žádný výskyt
• 7 % má jen souvislé výskyty.
Z celkem 440 tisı́c dohledaných přı́kladů je:
• 20 % ignorováno (jsou souvislé)
• 60 % spı́še náhodné souvýskyty (přı́liš vzdálené v závislostnı́m stromě)
• Zbývajı́cı́ch 20 % (93 tisı́c) se zdá být k užitku.
Po dodánı́ uzlů nutných pro zlepšenı́ gramatičnosti ovšem 92 % z 93 tisı́c přı́kladů
svou užitečnost ztrácı́, protože se stanou opět nesouvislými. Nakonec je tedy
použito 7800 částı́ vět (jen 2000 unikátnı́ch) jako dodatečná trénovacı́ data.
Ondřej Bojar
27. únor, 2006
20
21
Celkový přı́nos metody je zanedbatelný
Baseline
Rozšı́řená trénovacı́ data
Rozšı́řená po odfiltrovánı́ “L.J. Hooker”
pcedt 20k
27.3
27.4
27.8
pcedt 10k
23.7
23.4
-
Přı́činy nı́zkého skóre BLEU
pcedt 5k
21.5
21.2
-
Zarovnánı́ bylo vytvořeno pomocı́ sjednocenı́ a lematizovaných vět. Výsledky jsou uvedeny na testovacı́ch datech při
optimalizaci na BLEU.
Souhrnný dojem: rozšiřovánı́ korpusu podle závislostı́ mı́rně pomáhá, pokud
• zajistı́me gramatičnost dogenerovaných vět (pravidla závislá na jazyce
• zı́skané věty ještě pečlivě profiltrujeme od podezřelých vzorků
Ondřej Bojar
19
12
10
6
6
6
5
5
4
3
2
1
Nejvýznamnějšı́ chybějı́cı́ bigramy:
, "
12
” said
of the
10
Free Europe
Radio Free
7
. "
L.J. Hooker
6
United States
in the
6
the United
the strike
5
” We
,a
5
is a
margin calls
28 tokens, 7 types
54 tokens, 18 types
94 tokens, 47 types
698 tokens, 698 types
26
14
11
8
7
7
7
7
6
5
4
3
2
1
Nejvýznamnějšı́ nadbytečné bigramy:
, ’’
18
’’ .
” said
12
, which
Svobodná Evropa
8
, when
the state
7
, who
J. Hooker
7
L. J.
company GM
7
firm Hooker
radio Svobodná
7
spokesman for
the company
18 tokens, 3 types
35 tokens, 7 types
40 tokens, 10 types
Chybějı́cı́ bigram = obsažen ve všech referencı́ch, ale ne hypotéze
Nadbytečný bigram = obsažen v hypotéze, ale v žádné z referencı́
27. únor, 2006
Ondřej Bojar
27. únor, 2006
22
Oprava evidentnı́ch prohřešků proti referencı́m
pcedt5k
pcedt5k s opravou
pcedt20k
pcedt20k s opravou
pcedt20k lm600M4grKN
pcedt20k lm600M4grKN s opravou
DEV-std
22.7
24.5
29.8
31.6
33.4
35.1
TEST-optbleu
21.5
22.2
27.3
28.2
31.9
32.9
TEST-std
19.1
20
24.6
25.6
27.3
28.4
“Oprava” je přitom jen čtveřice pevných náhrad:
’’ .
’’
L. J. Hooker
the U.S.
Ondřej Bojar
→
→
→
→
. "
"
L.J. Hooker
the United States
27. únor, 2006
23
Souhrn série experimentů: co zlepšuje BLEU
zarovnánı́ jiné než průnikové
morfologické předzpracovánı́ (stemming)
morfologické předzpracovánı́ (plná lematizace)
přidánı́ nepředzpracovaného slovnı́ku
dodatečné paralelnı́ texty, použity i v jazykovém modelu
většı́ jazykový model v doméně
ještě většı́, ale obecný jazykový model
dodatečné paralelnı́ texty, ale jazykový model (většı́) v doméně
pravidlové zpracovánı́ čı́selných výrazů
umělé zvětšovánı́ trénovacı́ch dat na základě syntaktické struktury
oprava evidentnı́ch prohřešků proti referenčnı́m překladům
sjednocenı́ tokenizace v hypotéze a referenčnı́ch překladech
Ondřej Bojar
+1.5 až +2.0
+1.0
+1.5
+0.2
+0.7 až +1.7
+2.1 až +3.4
+4.6
+5.0 až +6.0
+0.5
+0.5
+1.0 až +1.5
+10.0
27. únor, 2006
24
25
Shrnutı́ a varovánı́
Výhled / přánı́
• Referenčnı́ překlady do češtiny. (Např. PCEDT.)
• Od začátku pracuj od konce.
Pokoušı́m se vytvořit společně se studenty na FJFI, ale kvalita bude nevalná.
Jinak se plýtvá časem na minoritnı́ problémy.
• Hledá se lepšı́ metrika.
• Dı́lčı́ metrika podúlohy nemusı́ korelovat s celkovým hodnocenı́m.
Hodnotit chyby v závislostech, specificky hodnotit chyby ve slovnı́m tvaru. Odstranit přı́lišnou
citlivost na detaily (určitého typu). Kontrolovat konzistenci věty jako celku.
AER doporučuje průnik alignmentů, BLEU řı́ká, že průnik překladu škodı́.
• Hledajı́ se data pro vyhodnocenı́ kvality metriky.
• BLEU je přı́liš citlivé na detaily.
Je potřeba soubor řady lidských hodnocenı́ nad množinou referenčnı́ch překladů. Dobrá metrika
je taková, která kandidátské/referenčnı́ překlady uspořádá podobně jako lidé.
⇒ pomáhá “normalizace” dat (Leusch et al., 2005).
• PCEDT nenı́ realistický zdroj dat pro překlad z češtiny do angličtiny.
Čeština je přı́liš anglická, překlad do angličtiny nespravedlivě snadný.
• Komunikujte! Komunikujte! Komunikujte!
Ručnı́ zarovnánı́ po slovech na stejných datech nezávisle a současně dělala
Ivana Kruijff-Korbayová a Klára Chvátalová, aniž bychom o sobě věděli.
Ondřej Bojar
27. únor, 2006
Ondřej Bojar
26
27. únor, 2006
27
CzEng (pre-release)
Širšı́ zamyšlenı́
Paralelnı́ korpus, který jsme shromáždili se Zdeňkem Žabokrtským.
Česká strana
10 mil. slov
1 % Ostatnı́
5 % KDE
8 % Reader’s Digest EBooks 15 %
12 % Kačenka
•
•
•
•
•
1 % Ostatnı́
5 % WSJ
5 % WSJ
Ondřej Bojar
Modelový statistik usiluje o řešenı́ dané úlohy s co nejmenšı́ chybou.
Celex 50 %
Celex 55 %
EBooks 14 %
Modelový lingvista usiluje o popis jazyka, vysvětlenı́ toho, co se děje, když si lidé
rozumějı́.
Anglická strana
12 mil. slov
7 % KDE
9 % Reader’s Digest
Kačenka 13 %
27. únor, 2006
statistik potřebuje úlohu
statistik potřebuje metriku
statistik ctı́ princip Occamovy břitvy
statistik zohledňuje zákon klesajı́cı́ho zisku
povaha práce na SMT je velmi jiná, řešı́ se zejména inženýrské problémy, jak
rychle zpracovat velké množstvı́ dat ⇒ vı́ce informatiky než lingvistiky.
Ondřej Bojar
28
27. únor, 2006
29
Pracovnı́ návyky (jak se dělá špičkový ústav)
Literatura
Odborně vysoce fundovaný ředitel, mı́rně psı́ režim.
“Žádný krok mimo”.
Lidé maximálně využı́vajı́cı́ strojové sı́ly. (Makra na každém kroku.)
Práce nad společným softwarovým dı́lem, všichni přispı́vajı́.
Komplexnı́ nástroj téměř zcela vlastnı́ provenience (i vlastnı́ FSA).
⇒ lze velmi rychle adaptovat a testovat nové věci.
• Kvalitnı́ implementace (rychlá a úsporná):
⇒ umožňuje mnoho vývojových cyklů za jednotku času
• Vysoce kvalitnı́ infrastruktura.
•
•
•
•
•
Paralelnı́ výpočty s minimálnı́ režiı́: rychlý sı́ ťový souborový systém, uživatel nerozhoduje, na
kterém počı́tači se úloha spustı́.
Jednoduché je krásné. Kratšı́ je lepšı́.
Ondřej Bojar
27. únor, 2006
Čmejrek, Martin, Jan Cuřı́n, and Jiřı́ Havelka. 2003. Czech-English Dependency-based Machine
Translation. In EACL 2003 Proceedings of the Conference, pages 83–90. Association for
Computational Linguistics, April. MSM113200006, LN00A063.
Leusch, Gregor, Nicola Ueffing, David Vilar, and Hermann Ney. 2005. Preprocessing and
Normalization for Automatic Evaluation of Machine Translation. In Proceedings of the ACL
Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or
Summarization, pages 17–24, Ann Arbor, Michigan, June. Association for Computational
Linguistics.
Matusov, E., R. Zens, and H. Ney. 2004. Symmetric Word Alignments for Statistical Machine
Translation. In Proceedings of COLING 2004, pages 219–225, Geneva, Switzerland, August
23–27.
Och, Franz Josef and Hermann Ney. 2003. A systematic comparison of various statistical
alignment models. Comput. Linguist., 29(1):19–51.
Ondřej Bojar
27. únor, 2006

k tisku

Transkript

Podobné dokumenty

velké

katalogovém listu

DOMSTUD 01 - APEX ® spol. s ro

Pr´ıklady, 24.10. 2007

RNDr. Ondřej Bojar, Ph.D.

klotoida - Geometrie

Detekce dopravních znacek z kamery ve vozidle

Modelování řečové produkce

Problémy recyklován´ı systému automatického pˇrekladu

Zpracování dat mluvené řeči v Pražském závislostním korpusu

prezentace

RNDr. Ondrej Bojar, Ph.D.

Doporucován´ı multimediáln´ıho obsahu s vyuzit´ım