Učíme stroje česky

Transkript

Učíme stroje česky

Metody
automatického
překladu
Vladislav Kuboň
Ústav formální a aplikované lingvistiky
MFF UK
Automatické zpracování jazyka
… je obtížné:
Často loví tlouště na višni.
Otec Emmons bude trénovat Australany.
Soud shledal Hanu P. vinnou, že od června 2010 do srpna 2011 měla
v lesíku v Sobědruhách na Teplicku pohlavní styk s tehdy třináctiletým
hochem.
Loprais upustil kola a ujížděl.
V hotelu Corrado se za jeho nejslavnější éry scházely prostitutky. Často
tam bydlely špičky ČSSD jako Miloš Zeman, Jiří Paroubek nebo Petr
Benda.
Na trase C spadl člověk do kolejiště metra, nahradí ho autobusy.
© Tomáš Holan
Další příklady z tisku
Na českých silnicích umírá více lidí než ve zbytku EU, hůř jsou na tom
jen v Polsku.
Trenér Benítez rozhazoval rukama, nervózně přešlapoval před lavičkou.
Nakonec si však mohl ulevit.
Miss World bude kvůli islámu bez plavek.
Uštknutí zmijí je vzácné, ale když kousne dítě, může jít o život.
Sarah Palinová řekla Ne, Obamovi se nepostaví.
Dědeček se rozložil na gauči.
Proč zpracovávat jazyk počítačem?
Snahou o exaktní popis přirozeného jazyka zároveň lépe pochopíme, jak
přirozený jazyk funguje.
Nástroje jako kontrolor překlepů nebo kontrola gramatiky nám pomáhají při
psaní textů.
Automatické překladové nástroje umožňují porozumět (alespoň základnímu
smyslu) textům v cizích jazycích.
Dialogové systémy pomohou zodpovědět dotazy uživatelů.
Systémy vyhledávající v textu pomohou najít relevantní informace.
Automatická analýza sentimentu odhalí, jak lidé smýšlejí o nejrůznějších
tématech.
Uchování rozsáhlých jazykových dat v korpusech pomáhá zachránit ohrožené
jazyky.
....
Proč zpracovávat jazyk počítačem?
Snahou o exaktní popis přirozeného jazyka zároveň lépe pochopíme, jak
přirozený jazyk funguje.
Nástroje jako kontrolor překlepů nebo kontrola gramatiky nám pomáhají při
psaní textů.
Automatické překladové nástroje umožňují
porozumět (alespoň základnímu smyslu) textům
v cizích jazycích.
Dialogové systémy pomohou zodpovědět dotazy uživatelů.
Systémy vyhledávající v textu pomohou najít relevantní informace.
Automatická analýza sentimentu odhalí, jak lidé smýšlejí o nejrůznějších
tématech.
Uchování rozsáhlých jazykových dat v korpusech pomáhá zachránit ohrožené
jazyky.
....
Kageru-to mugade hala jo deka medsene
seno gejay!
kageru = sejít se, shromáždit se, oženit se
mugade = hlava
hala = skupina
jo = jeden, jedna
deka = pět
medse = hodina
seno = velký
gejay = není ve slovníku
Překlad:
Sejít se hlava skupina jeden pět hodina
velký ???.
Co nám chybí?
Tvarosloví (morfologie)
<Sloveso> + to = Budoucí čas
Přípona -ne = 6.pád (časová předl. v)
Předpona ge- = 9.pád (místní určení)
jay = muž, vládce
Sejde se hlava skupina jeden pět
v hodině velký u muže.
"Pravidla domorodého pravopisu"
•v
oznamovacích větách domorodci používají pevný
pořádek slov, kde se za slovesem ostatní větné členy
seřadí podle své důležitosti, počínaje podmětem.
• systém číslovek se podobá římským číslům - jeden
pět znamená čtyři.
• přídavná jména, zájmena a číslovky vždy rozvíjejí
bezprostředně následující jména podstatná
Sejde se hlava skupina ve čtyři hodiny
u velkého muže
Ustálená spojení
mugade hala se má překládat buď jako
skupina moudrých nebo ještě lépe jako
rada starších
seno jay není velký muž, ale náčelník
Rada starších se sejde ve čtyři
hodiny u náčelníka
Problémy překladu – rozdíly ve významu
anglicky
japonsky
bake
YAKU
IRU
barbecue
cook
grill
stir-fry
sauté
ABURU
ITAMERU
Deep-fry AGERU
French-fry FRY NI SURU
TEMPURA NI SURU
braise
ITAMENI NI SURU
NIRU
simmer stew
poach
TAKU
boil
boil
YUDERU
MUSU, FU
steam
fry
Vaření na oleji
broil
Vaření
ve
dodě
roast
Pouze
žár
toast
Víceznačnost slov
Remove the spark plugs
Remove the plug leads
Remove the dipstick
Remove the filter cap
Remove the distributor cap
Remove the rotor arm
Remove nipple
Remove the two bolts
Zündkerzen herausdrehen
Zündkabel abziehen
Öhlmeßstab herausziehen
Verschlußkappe aufdrehen
Verteildeckel abnehmen
Verteilerläufer abziehen
Schmiernippel herausdrehen
Beide Schrauben lösen
Složené výrazy
... remove defective left wing tip tank filler gap gasket...
... airport long term car park courtesy vehicle pickup point ...
Mädchenhandelsschule
Závislost na situaci
OPEN
Open
Open
Základní schéma
Cílový text
Zdrojový text
Analýza
Generování
Transfer
Interlingua
Vaquoisův trojúhelník
Výsledek analýzy
První pokusy, první metody, první generace
1946 A.D.Booth - idea automatického dvojjazyčného slovníku, text
zpracováván slovo od slova
1948 R.M.Richens - ve slovníku nejsou zachycena celá slova, ale
předpony, kmeny a přípony zvlášť
1950 E.Reifler - zavádí pre- a post- editing
1952 První konference o strojovém překladu na MIT
L.E.Dostert - pivotní jazyk pro překlad více jazyků
7.1.1954 Georgetownský experiment (do r. 1956)
45 vět s 250 slovy, 6 syntaktických „zákonů“, jednoduché
oznamovací věty, bez negací, slovesa ve 3.osobě, málo
předložek
Bouřlivý rozvoj
1955 Anglo-ruský překlad v Moskvě
1956 První mezinárodní konference
12 vědeckých skupin na amerických univerzitách
1957 N.Chomsky - Standard theory – základní práce umožňující
formálně popisovat syntaktickou strukturu přirozených jazyků,
základ tzv. transformační gramatiky
1960 Y.Bar Hillel: „Vysoce kvalitní plně automatický překlad
nemůže být nikdy dosažen.“
„The box was in the pen.“
Příklon k teorii, práce se syntaxí jazyka, nová generace systémů
Vystřízlivění
1966 Zpráva ALPAC (American
Language Processing Advisory
Committee)
• Konstatuje nutnost investic do
dlouhodobého teoretického
lingvistického výzkumu.
• Faktický důsledek: konec podpory
Zpráva nebyla negativní, negativní
byly její důsledky
Práce mimo USA pokračovaly (Francie, SSSR, Kanada)
První úspěšný komerční systém
TAUM - METEO (1976)
• překlad meteorologických zpráv A->F
• dobře definovaná a výrazně syntakticky i sémanticky
omezená podmnožina jazyka
• vhodné implementační prostředky
• systém sám rozezná text, který mu dělá potíže, a předá jej
lidskému překladateli
• v 90.letech překládali 45 000 slov denně
Další významné systémy I.
SYSTRAN
• Překlad dokumentů EU
• Přímý překlad (každý pár řešen zvlášť) mezi cca 20 páry,
ovšem uspokojivá kvalita pouze u nejstarších párů (A-F-N)
• Data oddělena od programu
• Problémy řešeny ad hoc
EUROTRA
• Oficiální projekt EU v 80.letech
• Megalomanie: 72 jazykových párů
• Nezvládnutá modularita
• Do jisté míry podobný negativní efekt jako zpráva ALPAC
Další významné systémy II.
VERBMOBIL
• Německý nástupce EUROTRy
• Překlad mluvené řeči
• Tématické omezení rozhovoru - plánování příští
schůzky dvou obchodníků
• Více než 30 výzkumných týmů
• Předváděn na Světové výstavě v Hannoveru, od té
doby se o něm příliš nepíše.
Malá odbočka
Systémy s překladovou pamětí
Překladová paměť je soubor spárovaných textů (věty nebo
menší úseky), který vznikne jako vedlejší produkt při lidském
překladu předchozí verze textu.
První takový systém vyvinula firma IBM pod názvem
Translation Manager. Současnými nejprodávanějšími systémy
jsou TRADOS Translator‘s Workbench firmy SDL a Dejà Vu
firmy Atril
Vhodné zejména pro lokalizace dokumentace k systémům,
které vycházejí ve stále aktualizovaných verzích.
Překladová paměť
<RTF Preamble>
<FontTable>
{\fonttbl
{\f1 \fmodern\fprq1 \fcharset0 Courier New;}
{\f2 \fswiss\fprq2 \fcharset0 Arial;}
{\f3 \froman\fprq2 \fcharset2 Symbol;}
{\f4 \froman\fprq2 {\*\falt Times}\fcharset0 Times New Roman;}
{\f5 \froman\fprq2 {\*\falt Times}\fcharset0 Times New Roman CE;}
…
<TrU>
<CrD>04021999
<CrU>SAP1
<Att L=Subunit>DOC
<Txt L=Text Field>ASAP_2/99
<Seg L=CS_01>Zahrňte informace o tom, jaká bude spolupráce
technického a aplikačních týmů).
<Seg L=PL_01>Włączcie informacje o tym, jaka będzie współpraca
technicznego a aplikacyjnych teamów).
</TrU>
Nová metoda - statistický překlad
• Podobně jako systémy s překladovou pamětí
využívá existující překlady
• Místo překladových pamětí používá mnohem větší
objemy paralelních dat
• Texty jsou spárovány (alignment) po úsecích
(větách)
• Hledá se nejpravděpodobnější překlad dané věty
• Průkopníkem firma IBM na konci 80. let
• V současné době je nejznámější Google Translate
Paralelní texty
Rosettská deska
objevena v Egyptě 1799
vytvořena v Memphisu
196 př.n.l.
jedná se o nejstarší
dochovaný paralelní
korpus
Paralelní korpusy
• Termínem jazykový korpus rozumíme velký objem
předzpracovaných (označkovaných) dat
• Velké paralelní korpusy:
Europarl (dokumety Evropského parlamentu)
Kanadský Hansard (Anglicko-francouzský korpus
parlamentních dokumentů, 1.7 milionu vět)
• Na MFF UK používáme např. korpus CzEng 1.0,
který obsahuje 15 milionů paralelních vět a přes
200 000 000 slov
• Webové stránky
• Překlady beletrie nejsou dobrými zdroji, překlad
bývá příliš volný, navíc bývají problémy
s autorskými právy
Pravděpodobnost vs. Relativní četnost
Příklad:
překlad předložky „in“ do francouzštiny:
3 možnosti – dans, à, de
Jak zjistit pravděpodobnost překladu?
Těžko.
Potřebujeme k tomu totiž obrovské množství událostí,
neboť při dostatečně dlouhé sérii pokusů se relativní
četnost jednotlivých výsledků začne blížit jejich
pravděpodobnosti.
Relativní četnost:
f(E) = c(E)/N
Odhad pravděpodobnosti
Jednoduchá pravděpodobnost výskytu konkrétního slova
v textu:
- máme 2 miliony slov v textu, slovo „read“ se v něm
vyskytuje 720 krát
=> p(read) ≈ 720/2000000 = 0,00036
Překlad „in“:
Posbíráme 500 vět obsahujících překlad „in“ do
francouzštiny
- 250 krát dans, 150 krát à, 100 krát de
- p(dans)=250/500=0,5
- p(à) = 0,3
- p(de) = 0,2
Modelování jazyka
Hlavní úkol: Předpovědět následující slovo v běžném textu
nebo promluvě.
Jak?
Pomocí podmíněné pravděpodobnosti na základě kontextu
(historie) předpovídáme následující slovní tvar
p(w|h)
w – předpovídané slovo,
h – historie, vše, co bylo dosud řečeno (napsáno)
Cíl: spočítat pravděpodobnost celé věty:
p(W)=p(<wi>i=1..n)
N-gramy
p(W)=p(<wi>i=1..n)=p(wn|<wi>i=1..n-1)* p(wn-1|<wi>i=1..n-2)*
p(wn-2|<wi>i=1..n-3)*…* p(w2|w1)*p(w1)
Problém:
příliš dlouhá historie znamená nedostatek (řídkost) dat a
obrovské nároky na výpočetní kapacitu => je nutné historii
včas „useknout“
n=3 trigramový model
p(W)= p(w3|w2w1)*p(w2|w1)* p(w1)
Kratší jsou bigramy (n=2), unigramy (n=1)
Vyhlazování
Problémem je velikost dat
Máme-li slovník (V) o 40000 slovech =>
-|V|=40k, velikost modelu = |V|3 =6,4x1013
- typická velikost trénovacích dat – stamiliony (108) slov
- příliš mnoho nulových pravděpodobností (nenulová
pouze jedna ze 100000 !) – řídká data
- některé z nich ale zastupují existující kombinace
- pokus o řešení – nahradit nulovou pravděpodobnost
nějakou velmi malou hodnotou
Frázový překlad
I
Já
saw
pila
pily
...
viděl
viděla
...
uviděl
uviděla
Viděl jsem
two
dva
dvě
dvou...
dvěma
dvěmi
green
striped
cats
zelené
zelená
zelení
zeleným
zelenými
zeleného
zeleném
....
green
pruhované
pruhovaná
pruhovaní
pruhovaným
pruhovanými
....
kočka
kočky
koček
kočkám
kočkami
zeleně pruhované
Samotný překladový model nestačí!
Jiný příklad
(příklad převzat z textu Koehna a Knighta)
Překlad ze španělštiny do angličtiny, možné překlady
jsou založeny pouze na překladovém modelu:
Que hambre tengo yo!
What hunger have
P(Š | E) = 0.000014
Hungry I am so
P(Š | E) = 0.000001
I am so hungry
P(Š | E) = 0.0000015
Have i that hunger
P(Š | E) = 0.000020
:::
Přidáme jazykový model angličtiny
Que hambre tengo yo!
What hunger have
P(S | E)P(E) = 0.000014 x 0.000001
Hungry I am so
P(S | E)P(E) = 0.000001 x 0.0000014
I am so hungry
P(S | E)P(E) = 0.0000015 x 0.0001
Have i that hunger
P(S | E)P(E) = 0.000020 x 0.00000098
:::
Pozorování
Jazykový model cílového jazyka může být založen na
mnohem rozsáhlejším korpusu, řádově stamiliony slov.
Překladový model je založen na mnohem menším
paralelním korpusu (miliony slov).
Jazykový model cílového jazyka odfiltruje nepodařené
překlady, vyrovná chyby překladového modelu.
Jazykový model vybírá pouze „hezké věty,“ nemá vztah
k originálu.
Hledání překladových hypotéz (dekódování) je
obtížným problémem samo o sobě.
Typické chyby stat. systémů
Ukázka překladu
Marsh & McLennan Cos. said it agreed to acquire the rest of Gradmann &
Holler, a leading West German insurance brokerage firm in which it has held a
15% stake for 15 years. The transaction, for cash and stock, would represent
the biggest European takeover since 1980 for New York-based Marsh &
McLennan, the world's largest insurance broker. It's also the first major sign of
the long-awaited consolidation in the European insurance industry as the
European Community Commission moves toward a single market by 1992
PC Translator 2003
Mokřina & McLennan kosinusy. řekly, že to souhlasilo se získat zbývající část
Gradmann & křičí, vůdčí západní německý pojišťovací makléřská firma v kterém
to držela 15% sázka pro 15 let. Transakce, za hotové a akcie, reprezentovala
největší evropské převzetí od roku 1980 pro New York-založená mokřina &
McLennan, světově největší pojišťovací agent. To je také první významnější
znamení dlouho očekávaného upevnění v evropském pojišťovnictví jak Evropské
společenství pověřovací pohyby směrem k jednotnému trhu do 1992.
Ukázka překladu
Marsh & McLennan Cos. said it agreed to acquire the rest of Gradmann &
Holler, a leading West German insurance brokerage firm in which it has held a
15% stake for 15 years. The transaction, for cash and stock, would represent
the biggest European takeover since 1980 for New York-based Marsh &
McLennan, the world's largest insurance broker. It's also the first major sign of
the long-awaited consolidation in the European insurance industry as the
European Community Commission moves toward a single market by 1992
Google Translate
Marsh & McLennan dohodnuta Cos. jí řekl, že k získání zbytku Gradmann &
křičet, přední pojišťovací makléřství západoněmecké firmy, v nichž má v držení
15% akcií za 15 let. Tato transakce, za výběr hotovosti a akciích, by
představovalo největší evropský převzetí od roku 1980 v New Yorku založenaMarsh & McLennan, který je největším na světě pojišťovací makléř. Je také
prvním hlavním znakem je dlouho očekávaná-konsolidace v evropském
pojišťovnictví, jako je Evropská společenství Komise podniká kroky směrem k
vytvoření jednotného trhu do roku 1992
Shrnutí
Po více než 60 letech intenzivního výzkumu stále neexistují kvalitní
obecně použitelné systémy.
Statistické metody přinesly systémy, které jsou akceptovány širokou
veřejností a umožňují hrubé překlady mezi mnoha jazyky.
Tyto systémy ale narážejí na nedostatek dat, jsou vhodnější pro
překlady mezi „velkými jazyky.“
Automatické metody se soustředí na transkripci (převod řetězec na
řetězec), opravdový překlad, tedy přenesení významu z jednoho
jazyka do druhého, stále zůstává doménou kvalifikovaných lidských
překladatelů.
Závěr
Automatické zpracování přirozeného jazyka pomáhá
překonat propast mezi počítačem a člověkem.
Automatický překlad s celou jeho bohatou historií je jen
jedním příkladem, který ukazuje, že má smysl učit
počítače česky.
Zároveň také dokumentuje, že někdy je k dosažení
vědeckého pokroku v určité oblasti nutné kompletně
změnit metodu řešení.

Učíme stroje česky

Transkript

Podobné dokumenty

Základy a principy World Wide Web-u

Státnice I3: Strojový p°eklad

Hlody - březen, duben.

analýza potenciálu jazykových technologií při revitalizaci

Environmentální archeologie – archeologie přírodního prostředí

Stáhnout zde - Svobodné noviny na internetu