analýza potenciálu jazykových technologií při revitalizaci

Transkript

analýza potenciálu jazykových technologií při revitalizaci
ANALÝZA POTENCIÁLU JAZYKOVÝCH TECHNOLOGIÍ
PŘI REVITALIZACI MENŠINOVÝCH JAZYKŮ
SE ZAMĚŘENÍM NA ROMŠTINU
Tato elektronická publikace vznikla v rámci následujícího projektu:
Poskytovatel dotace:
Úřad vlády České republiky
Dotační titul:
Podpora implementace Evropské charty regionálních či menšinových jazyků
Realizace v období:
r. 2015
Název projektu:
Analýza potenciálu jazykových technologií při revitalizaci menšinových jazyků se zaměřením na
romštinu
Hlavní řešitel:
PhDr. Bc. Tomáš Svoboda, PhD., garant německého oddělení, Ústav translatologie Filozofické
fakulty Univerzity Karlovy, zaměřuje se na moderní technologie v překladu, institucionální překlad
a problematiku překladu ve vztahu k menšinovým jazykům
Spoluřešitelé:
prom.fil. Ruben Pellar, soudní tlumočník/překladatel jazyka českého, nizozemského a romského
Mgr. Lucie Kadeřábková, doktorandka v Ústavu translatologie Filozofické fakulty Univerzity
Karlovy, se zaměřením na moderní technologie v překladu, překladatelka
1
OBSAH
ÚVODEM..................................................................................................................................... 3
1)
VYUŽITÍ TECHNOLOGIÍ HLT V OBLASTI MENŠINOVÝCH JAZYKŮ ................................................ 5
1.1
1.2
Obecně k využití technologií HLT v oblasti menšinových jazyků
Přehled dosavadních odborných publikací k tématu HLT a menšinových jazyků
2)
PŘEHLED JAZYKOVÝCH TECHNOLOGIÍ ZAHRNUJÍCÍCH INTERAKCI ČLOVĚKA A STROJE ............. 12
2.1
2.2
2.3
2.4
2.5
2.6
Digitalizace originálních textů (OCR)
Převod mluveného jazyka do psané podoby
Počítačem podporovaný překlad
Strojový překlad
Lokalizace
Crowdsourcing
3)
PŘÍKLADY JAZYKOVÝCH TECHNOLOGIÍ PŘI REVITALIZACI SEVEROCENTRÁLNÍHO DIALEKTU
ROMŠTINY Z POHLEDU ROMSKO-ČESKÉHO PŘEKLADATELE ..................................................... 42
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
Definice romštiny
Prostředky revitalizace romštiny – neúplný výčet
Knihovny, publikace, slovníky a databáze, internet, Romská Wikipedie
Skype
Facebook
Rozpoznávání řeči
Syntéza řeči
Překlad s pomocí počítače (CAT – Computer Aided Translation)
Různé
4)
URČENÍ POTŘEBY REVITALIZACE ROMŠTINY V ČR ..................................................................... 61
4.1
4.2
4.3
4.4
Revitalizace romštiny z moci úřední
Revitalizace romštiny jako potřeba samotných uživatelů romštiny, tedy především Romů
Situace „malého jazyka“ severocentrální romštiny
Shrnutí kapitoly čtvrté
ZÁVĚR ......................................................................................................................................... 66
Závěry a doporučení v oblasti využití HLT při revitalizaci menšinového jazyka, konkrétně ve
vztahu k romštině
SEZNAM POUŽITÉ LITERATURY ................................................................................................. 70
2
ÚVODEM
Cílem projektu bylo následující:



Zmapovat možnosti využití jazykových technologií zahrnujících interakci člověka a stroje
(Human-Language Technologies, HLT) pro standardizaci a revitalizaci romštiny.
Určit potřebu revitalizace romštiny konkrétně v ČR, včetně doporučení konkrétních kroků.
Doporučit další směr podpory tvorby nástrojů HLT usnadňujících revitalizaci romštiny.
Studie (elektronický dokument ve formátu *.pdf) je zpřístupněna na stránkách ÚTRL, a to na
speciálně k tomu účelu zřízené webové stránce: http://utrl.ff.cuni.cz/UTRLFF-453.html
Studie vznikla ve spolupráci řešitele T. Svobody a spoluřešitelů R. Pelara a L. Kadeřábkové, pod
vedením a v redakci hl. řešitele.
Studie obsahuje tyto stěžejní tematické oddíly:
1) Využití technologií HLT v oblasti menšinových jazyků
2) Přehled jazykových technologií zahrnujících interakci člověka a stroje
3) Příklady jazykových technologií při revitalizaci severocentrálního dialektu romštiny z pohledu
romsko-českého překladatele
4) Určení potřeby revitalizace romštiny v ČR
Autory jednotlivých kapitol jsou:
Úvod, Kapitola 1, Závěr – Tomáš Svoboda
Kapitola 2 – Lucie Kadeřábková
Kapitola 3 a 4 – Ruben Pellar
3
Tento projekt navazuje na tyto předchozí projekty týkající se tématu překladu mezi romštinou a
češtinou:
V rámci dotačního řízení Podpora implementace Evropské charty regionálních či menšinových
jazyků, vypisovaného Úřadem vlády ČR, na rok 2011 řešil tým pracovníků ÚTRL (Ústavu
translatologie FF UK) pod vedením Tomáše Svobody projekt PRETHODŽIPEN – PŘEKLAD. Analýza
potřeb v oblasti překladu a tlumočení mezi romštinou a češtinou. Výstupy z daného projektu
ukázaly na výraznou potřebu dalšího vzdělávání překladatelů v oblasti realizace překladů mezi
češtinou a romštinou (především severocentrální dialekt, avšak i olašská romština).
Na základě této potřeby tým pod vedením T. Svobody v r. 2014 realizoval v rámci téhož dotačního
titulu dva workshopy pro překladatele s romštinou (projekt Translatologické workshopy – Podpora
romštiny prostřednictvím rozvoje jazykové a translatologické kompetence překladatelů). Výměna
názorů a zkušeností mezi praktikujícími překladateli ukázala zájem ze strany účastníků o nové
technologie HLT a též na potenciál jejich využití, protože účastníci workshopů byli velmi otevřeni
technologickým inovacím a všemu, co může práci překladatele, ale i tvůrce původního textu,
usnadnit.
Jak v translatologii, tak v oboru literárních věd či v oboru komparatistiky panuje shoda v tom, že
překlady hrají pro menšinové jazyky klíčovou roli. Psaná romština je jazykem, který se
konstituoval teprve relativně nedávno a překladová výměna s většinovým jazykem tak postrádá
výraznější překladatelskou tradici. Na druhou stranu s ohledem na pokračující asimilaci romského
etnika na území ČR je mezi romisty rozšířený názor i praktická zkušenost z práce v terénu, že
zejména mezi mladou generací aktivních uživatelů romštiny ubývá. Romština se tak stává jazykem,
který stále naléhavěji vyžaduje jazykovou revitalizaci.
4
1)
VYUŽITÍ TECHNOLOGIÍ HLT V OBLASTI MENŠINOVÝCH JAZYKŮ
1.1
Obecně k využití technologií HLT v oblasti menšinových jazyků
Využití HLT (Human-Language Technologies – jazykových technologií zahrnujících interakci člověka
a stroje) pro účely revitalizace menšinových jazyků je nejlépe doloženo zatím na příkladu
baskičtiny (srov. např. články/publikace autorů: Dr. Kepa Sarasola z roku 2010), v r. 2007 byla
tématu obecně věnována konference v Maďarsku („Language Revitalisation through Multimedia
Technology“), včetně návrhů pro systémy strojového překladu na podporu menšinových jazyků.
Problematikou se již delší dobu též mimo jiné zabývá institut SSLMIT v italském Forli.
Využití HLT v oblasti menšinových jazyků se nabízí v těchto oblastech:
a) Tématické lexikony, které výrazně usnadňují praktickou práci s jazykem, kdy uživatel
v glosářích nevyhledává podle počátečních písmen hledaného slova (protože např. dané
slovo nezná, nebo si na ně nemůže vzpomenout), ale tyto databáze jsou řazeny tématicky
(tzv. tematická lexikografie a dialektologie umožňující tvorbu vícejazyčných tematických a
terminologických zdrojů).
b) Počítačem podporované nástroje HLT pro kvalitativní kontrolu textů (např. kontrola
gramatiky či pravopisu), nebo též textová predikce (podobná systému T-9), kdy po napsání
prvních písmen software nabízí relevantní slovíčka. Ze zahraniční zkušenosti se ukazuje, že
takovéto systémy mají nedocenitelný přínos pro standardizaci často výrazně rozkolísaného
pravopisu menšinového jazyka (což platí i o psané romštině v ČR).
c) Strojový překlad, jehož přínos je v této oblasti spíše sekundární, avšak nezanedbatelný.
Cílem tedy není vytvořit bezchybný systém, který by automaticky překládal, či dokonce
tlumočil mezi češtinou a romštinou; to není v současné době možné. Spíše jde o vytvoření
podpůrné technologie např. při realizaci vyhledávání na internetu či jako zdroj hrubé
informace o určitém textu, jehož povšechná recepce by byla pro mluvčího menšinového
jazyka zpočátku obtížná. Dále by strojový překladač založený na paralelních korpusech
češtiny a romštiny posloužil jako sofistikovaný slovník (podobně jako někteří uživatelé
využívají Překladač Google), kde lze k překladu zadat nejen osamocená slova, ale též
kolokace, a překladač zohledňuje kontext použití výrazu.
5
1.2
Přehled dosavadních odborných publikací k tématu HLT a menšinových jazyků
Níže uvádíme standardní práce z dosavadní světové publikační produkce konkrétně k tématu HLT
v oblasti menšinových jazyků.
Federici, Federico M. (2011) ‘Translating Dialects and Languages of Minorities. Challenges
and Solutions’. Bern: Peter Lang, 233 p.
Tato kolektivní monografie obsahuje úvod od editora a 10 studií. Navzdory tomu, že se jedná o
stěžejní publikaci pro problematiku překladu a menšinových jazyků, otázce počítačových
technologií se věnuje pouze Federico Federici v úvodní stati „Introduction: Dialects, idiolects,
sociolects: Translation problems or creative stimuli?“, a to jen krátce. V oddílu „Translation
problems“ konstatuje, že za posledních 10 let se v oblasti překladů menšinových jazyků stále více
uplatňuje využívání korpusové lingvistiky, a to jak pro účely zjišťování termínů, tak formulací.
Cronin, Michael (2001) ‘Minority’. Routledge Encyclopedia of Translation Studies. Ed.
Mona Baker. 2nd ed. London: Routledge, 169 – 172.
Encyklopedické dílo Routledge Encyclopedia of Translation Studies je stěžejní encyklopedií
v oblasti translatologie. Problematice menšinových jazyků se zde věnuje článek pod slovníkovým
heslem „Minority“. Oddíl se věnuje dynamickému pojetí menšinovosti a míře překládání mezi tzv.
většinovými a menšinovými jazyky, dále k problematice odborného a literárního překladu
K problematice technologií v překladatelském procesu se nevyjadřuje přímo, poukazuje však na
důležitý aspekt, a to, že je potřeba přihlížet k tomu, zda a do jaké míry jsou v určitém menšinovém
jazyce k dispozici jeho „strojově čitelné formy… pro účely výzkumu v oblasti překladu“1.
Datary, Farimah; Grin, Francois (2003) Nation-Building, Ethnicity and Language Politics in
Transition Countries. Budapešť: LGI, 314 s.
Tato studie obsahuje kapitolu I. F. Hancocka, nazvanou „Language Corpus and Language Politics:
The Case of the Standardization of Romani“, čili velmi relevantní text pro naši studii. V oddílu
„Orthography“ (Pravopis) se zamýšlí nad potenciálem standardizace romštiny, a to z hlediska
mezinárodního konsenzu či z hlediska využití počítačové technologie. Vyjadřuje se též
k nejednotnosti pravopisu, zjištěné u periodik vydávaných v české variantě romštiny. Uvádí, že se
zvýšeným používáním e-mailů došlo k opouštění písmen s diakritickými znaménky (např. č, š, ž) a
k jejich nahrazování písmeny bez diakritiky. Tento přístup je v dané kapitole označen jako funkční,
z pohledu zachování kvalit psaného jazyka však můžeme jen konstatovat, že dochází ke
standardizaci nežádoucím směrem.
1
„There is the issue of the availability of machine-readable forms of the language for translation research.“ (s. 171)
6
Hall, Pat (2015) Computerised writing for small languages. The Journal of Specialised
Translation. Sv. 24. s. 163–184. dostupné z:
http://www.jostrans.org/issue24/art_hall.pdf cit. 11. prosince 2015
V tomto článku se P. Hall vyjadřuje k problematice souvislosti ortografie (pravopisu) určitého
menšinového jazyka a počítačové podpory pro takový účel. Zabývá se nepálským jazykem,
využívajícím grafické znaky, avšak dochází k pozoruhodnému závěru:
V současné době se u mnoha větších jazyků pracuje na vývoji automatického překladu, a dokonce
automatického tlumočení (automatický převod mluveného slova jednoho jazyka do mluveného
slova jiného jazyka). Pro tento účel se využívá jako prostředník automatický překlad (čili převod
písemný), jemuž předchází převod z mluvené do psané verze v jazyce výchozím (speech-to-text).
Po automatickém překladu pak následuje převod z psané podoby do mluvené podoby (text-tospeech). Vzhledem k tomu, že nejsou dostupné systémy převodu přímo mezi mluveným slovem,
automatický převod mluveného jazyka je zásadním způsobem závislý na převodu písemném. A zde
je zapotřebí další výzkum. Dodejme, že automatický překlad (písemný) předpokládá z velké části
standardizovaný pravopis, protože systém jinak nedokáže přiřadit výrazy stejného významu, jež se
jinak píší.
Civil Society Platform on Multilingualism (2011) „Policy Recommendations for the
Promotion of Multilingualism in the European Union“ 06/06/10; FULL VERSION; dostupné
z:
http://www.poliglotti4.eu/docs/publications/CSPM%20Policy%20Recommendations_FU
LL%20VERSION.pdf cit. 11. prosince 2015
Dokument obsahuje oddíl věnovaný technologii v překladu. Nejprve se zaměřuje na umělecký
překlad a překlad dramatických děl a jeho doporučení směřují k problematice titulkování, a to jak u
filmových děl, tak u divadelních představení (promítané titulky nad scénou). Dotýká se též
problematiky školení v oblasti titulkování a školení pro překladatele obecně (tedy vč. problematiky
technologií), včetně mobility vyučujících a studentů překladu, podpory vzdělávání v oblasti
překladu již na střední škole a včetně založení překladatelských center, kde by podobná školení
probíhala.
Hovoří o strategiích sociální inkluze, které by se měly zaměřit na řešení nabízená moderní
technologií převodu psaného jazyka na řeč a mluveného slova na psaný text (speech-to-text, textto-speech). Dále zmiňuje potřebu sběru a šíření údajů, a to jak v oblasti literárního, tak
neliterárního překladu, podněcovaného či podporovaného státem.
Značný důraz pak klade na oblast výzkumu a vývoje překladových technologií, kde jako potřebná
opatření vyjmenovává vytvoření databáze umožňující propojení všech stávajících platforem či
podporu pro technologie vstupující do tvorby a překladu mnohojazyčného obsahu.
7
HUTCHINS, W. John. The State of Machine Translation in Europe and Future Prospects.
URL: http://www.hutchinsweb.me.uk/HLT-2002.pdf (cit. 9. listopadu 2015).
John Hutchins je stěžejní autoritou v oblasti výzkumu strojového překladu. Tento jeho kratší text
z roku 2002 zmiňuje menšinové jazyky a uvádí, že u nich „existuje potřeba jak plnohodnotných
překladačů, tak překladových pomůcek, slovníků, glosářů, dvojjazyčných korpusů či autorizovaných
překladů“ (str. 3, překlad TS).
MIKHAILOV, Mikhail. (2015) Minor language, major challenges: the results of a survey
into the IT competences of Finnish translators. The Journal of Specialised Translation,
Issue 24.
Ačkoli M. Mikhailov ve svém článku nepojednává výslovně o menšinovém jazyce, zabývá se
finštinou, již označuje jako jazyk s relativně menším počtem uživatelů (Less Commonly Spoken
Language). Ve věci technologií uvádí: „Čím méně je určitý jazyk užíván, tím méně je k dispozici
jazykových zdrojů. Je-li daný trh malý, snižuje se tím ekonomická návratnost projektů vytváření
slovníků… Je však důležité dodat, že databáze, překladové paměti a textové korpusy představují
levnější způsob tvorby jazykových zdrojů ve srovnání s kompilováním tradičních tištěných slovníků.
Ve srovnání jsou pak tyto zdroje mnohem důležitější pro jazyky s relativně menším počtem
uživatelů než pro světové jazyky“ (s. 90, překlad TS).
Pokud jde o školení v oblasti překladových technologií, uvádí se zde: „V rámci přípravy
překladatelů by se mělo pořádat mnohem více kurzů překladových technologií. Například pokročilá
schopnost využívat Word… Trados a další specializované překladové programy by se měly do
kurikula zahrnout ve větší míře.“ (s. 106, překlad TS)
LAZZARI, G. (2006) Human Language Technologies for Europe. ITC IRST/TC-Star project
report.
Tato zpráva si mimo jiné všímá tržních mechanismů, když konstatuje: „… tržní síly znevýhodňují
některé jazyky, zejména ty, které mají malý počet mluvčích, nebo ty, jež jsou spojovány se slabší
ekonomikou“ (s. 14, překlad TS). Z toho lze vyvodit, že takové stanovisko je argumentem pro
dotační politiku státu, která bude uvedené znevýhodnění částečně kompenzovat.
Soria, C., Mariani, J., Zoli, C. (2013) Dwarfs sitting on the giants’ shoulders – how LTs for
regional and minority languages can benefit from piggybacking major languages. URL:
http://www.smallcodes.com/ (cit. 9. listopadu 2015).
Jedná se o stěžejní text k tématu, jež je předmětem této studie. Vyzývá, aby „malé“ či regionální
jazyky měly své zastoupení ve smyslu technologického zázemí. Tyto jazyky čelí několika výzvám,
jednak takzvané digitální propasti (digital divide), kdy se na okraji současné společnosti, jež je
informační společností, ocitnou ty jazyky, které nebudou v dostatečné míře reprezentovány
v digitální podobě (např. na internetu). Dalšími problémy jsou podle článku sady znaků a jejich
8
digitální kódování, problémy s terminologií atd. Dále sem patří dostupnost a vývoj jazykových
technologií. Článek se zaměřuje na posledně jmenované.
Článek předkládá „Plán dalšího postupu v oblasti LRT Language Ressources and Technolgies,
jazykové zdroje a technologie“, který má mj. následující stádia:
a) propojení a spolupráce: je důležité, aby zúčastněné strany mnohem více spolupracovaly a
propojily se v rámci networkingu, než je tomu doposud;
b) používání sdílených standardů: bez používání jednotných standardů v oblasti technologií je
nemyslitelná interoperabilita a sdílení zdrojů;
c) shromažďování a utřídění jazykových zdrojů a dostupných technologií;
d) opakované využití stávajících technologií a zdrojů či jejich využití inovativním způsobem:
není vždy potřeba vytvářet zcela nové postupy a nástroje či překladatelské pomůcky pro
regionální či menšinové jazyky, lze použít metody, které se osvědčily u většinových jazyků;
e) crowdsourcing stávajících zdrojů: stávající zdroje je potřeba dát k dispozici a využít
potenciál sociálních médií k rozšiřování zdrojů;
f) zpřístupnit technologickou základnu softwarových nástrojů: používání otevřených licencí,
aby sdílení dat a programů bylo účinné;
g) sdílení a udržitelnost: sdílení zdrojů (vč. mezinárodní spolupráce) je v současné době –
s ohledem na omezené finanční zdroje – jedinou cestou, jak dosahovat hmatatelných
výsledků rychleji. Zároveň je potřeba zajistit, aby shromážděné a prezentované výsledky
obstály i vzhledem k vývoji technologií, aby byly udržitelné/využitelné i za určitou dobu.
V tomto kontextu lze uvažovat o využití již existujících (srov. web smallcodes.com či
slovník/překladač Glosbe.com) technologií pro menšinové/regionální jazyky, např. počítačové
nástroje usnadňující psaní (computer-aided writing tools), kam spadá automatická kontrola
pravopisu a gramatiky a dále prediktivní psaní, jako je např. technologie T9 známá z mobilních
zařízení.
Barnes, Janet. (1987) A user perspective on computer-assisted translation for minority
languages. Machine Translation (journal), Issue 2:2–3, s. 131-134.
Přínosem tohoto článku je reflexe nad možnostmi strojového překladu realizovat převod mezi
menšinovými/regionálními jazyky / dialekty, které jsou si podobné. Závěr je takový, že čas
investovaný do takové snahy, se vyplatí. Zde lze rozvinout uvedené reflexe dále a zamyslet se nad
možností využití strojového překladu k převodu mezi jednotlivými varietami romštiny. V oblasti
jazyků s větším zastoupením je známý obdobný případ, kdy se s úspěchem využívá (pravidlového)
strojového překladu k převodu mezi slovenštinou a češtinou.
9
Folaron, Debbie. (2015) Introduction: Translation and minority, lesser-used and lessertranslated languages and cultures. The Journal of Specialised Translation, Issue 24,
s. 16-27.
Debbie Folaron z Concordia University v tomto článku odkazuje na postoje, kdy zastánci myšlenky
záchrany jazyků ohrožených zánikem hledají kreativní způsoby podpory vitality jazyka. Mezi tyto
postupy spadají snahy odvrátit „digitální smrt jazyka“ (digital language death), pokud by se nenašel
dostatečný počet uživatelů jazyka v digitální podobě.
Vyjmenovává tyto oblasti digitálního využití regionálních, menšinových a ohrožených jazyků:
počítače, informační a komunikační technologie (IKT/ICT), internet a stále se vyvíjející web,
spolupráce v síti (networking). Dále vyjmenovává tyto mobilní technologie: platformy sociálních
médií, crowdsourceová prostředí pro spolupráci a budování komunity, komunikace v reálném
čase, učení on-line, mikroblogging, používání cloudových technologií, zdroje vědomostí umožňující
sdílení, webové stránky s možností nahrávání obrazového a video materiálu, sociální networking,
nástroje tvorby kreativních médií, stránky pro streamování videa, videohry, publikační zdroje
s otevřeným přístupem (open access), propojování informačních zdrojů a komunit a distribuované
virtuální týmy.
Blíže se pak věnuje se sociálním médiím a odkazuje na další článek, kde se hovoří o potřebě využití
překladu k upevnění pozice určitého menšinového/regionálního jazyka. Dané pojednání uzavírá
slovy, že se jedná o úkol, v němž překladové technologie hrají důležitou roli.
V této souvislosti lze zmínit skutečnost, že systémy HLT lze s úspěchem použít i při podpoře
uživatelů menšinového jazyka na sociálních sítích. O vzrůstající popularitě používání menšinových
jazyků on-line existují různé doklady a stejně hovoří i zkušenost uživatelů sociálních médií. Úvahy
směrem k revitalizaci menšinového jazyka pomocí technologických pomůcek on-line, včetně
propojení se sociálními sítěmi, se objevují ve vztahu k různým jazykům, například aragonštině
(srov. http://indigenoustweets.blogspot.cz/2011/12/language-revitalization-through-free.html).
Somers, Harold (1997) Machine Translation and Minority Languages, in Translating and
the computer, Issue 19, Papers from the Aslib conference, Londýn, s. 1–13.
Jedná se o starší, avšak určující článek. Harold Somers je stěžejním protagonistou myšlenky
strojového překladu a své úvahy vztáhl též k menšinovým jazykům. Nejprve se v daném článku
věnuje jazykovým technologiím obecně a uvádí, že je potřeba pro menší jazyky vypracovat
chybějící jazykové pomůcky, například editační programy, automatické dělení slov a sady fontů.
Uvažuje též směrem k nástrojům gramaticky sensitivního hledání a záměny či k automatické
kontrole stylu.
Zabývá se též problematikou shromažďování, avšak též tvorby terminologických zdrojů pro
menšinové jazyky. Dochází k závěru, že terminologii je zapotřebí harmonizovat, jinak její využívání
pozbývá smyslu.
V kapitole 4 pak přechází k jazykovým technologiím a klade otázku po možnostech vytvoření
takových jazykově-technologických zdrojů, které mají k dispozici překladatelé pracující
10
s rozšířenými jazyky (jazyky „první divize“). Uvádí potřebu práce v oblasti automatického dělení
slov, kontroly pravopisu apod. K tomuto účelu je však zapotřebí mít k dispozici digitalizovanou
podobu psaného jazyka. Dále hovoří o paralelních korpusech a jejich alignování. Vedle toho slouží
takové korpusy překladatelům při vyhledávání výrazů. V oblasti terminologie hovoří o automatické
extrakci termínů. V závěru se zamýšlí nad direkcionalitou překladu ve vztahu k minoritním
jazykům, tedy zda se překládá více do menšinových jazyků, nebo z nich. Konstatuje, že se patrně
překládá více do těchto jazyků.
11
2)
PŘEHLED JAZYKOVÝCH TECHNOLOGIÍ ZAHRNUJÍCÍCH INTERAKCI ČLOVĚKA
A STROJE
2.1
Digitalizace originálních textů (OCR)
O digitalizaci textů lze hovořit v souvislosti s druhou polovinou 20. století. Rozšíření počítačů a
nových technologií přineslo do vývoje psaných dokumentů obrovský zlom. Převádění textů do
digitální podoby předcházela metoda mikrofilmování dokumentů. Hlavním účelem mikrofilmování
byla primárně ochrana původních děl, která by mohla být častou manipulací poškozena či dokonce
zničena. Digitalizace nám ale nabízí mnohem více než jen ochranu původních dokumentů:
-
texty v digitalizované podobě mohou být jednoduchým a nenákladným způsobem
dostupné širší veřejnosti, a to především díky internetu,
digitalizací textů dochází k úspoře prostor,
digitalizace nám usnadňuje vyhledávání, na rozdíl od analogového dokumentu máme
možnost digitální dokument velice jednoduše prohledávat,
dochází také k ochraně původních děl, jejichž kvalita není ohrožena opotřebováním.
Zde je ovšem nutné brát v úvahu, že samotný proces digitalizace může ohrozit kvalitu originálu, a
to např. přitlačováním na skenovací zařízení nebo rozvázáním vazby dokumentu. Je důležité si
uvědomit, že digitalizace se netýká jen psaných dokumentů, ale i zvukových a obrazových
záznamů, ale například také doposud nezaznamenaných informací předávaných pouze ústní
tradicí.
Je-li originální dokument např. rukopis používán, je poškozován, a není-li používán, pak je dříve
nebo později zapomenut a přestává být tedy kulturním bohatstvím dané kultury. Digitalizovaný
dokument však může používat kdokoli a kdykoli, a je důležité, že se tento rukopis používáním
nepoškozuje. Digitální informace je možné dále šířit, v případě potřeby je přepsat na jiné digitální
medium, a díky internetu přenést během okamžiku i na druhý konec světa, a to bez jakékoli ztráty
obsahu informace.
2.1.1 Způsoby digitalizace písma
K dispozici máme několik dostupných způsobů digitalizace písma:
12
Manuální přepis na klávesnici
Jedná se o prostý přepis textu do elektronické podoby. Nástrojem digitalizace takového textu
mohou být počítače, notebooky, tablety nebo mobilní telefony. Přepis na klávesnici je
nejjednodušším způsobem převedení textu do digitální podoby. Tento proces je ale nejen velmi
časově náročný, manuálním převodem může také vzniknout řada chyb a nepřesností. Tento
způsob digitalizace je využíván především pro soukromé potřeby uživatelů.
Digitální fotoaparát
Tento převod lze praktikovat pomocí digitálních fotoaparátů nebo fotoaparátů zabudovaných
v mobilních telefonech. Tento způsob není vhodný pro digitalizace většího množství dat, vyfocený
text často není dostatečně čitelný. Grafický záznam není navíc převeden na znaky, a proto není
možné v něm vyhledávat. Tento způsob je stejně jako přepis textu vhodný spíše pro soukromé
účely a menší objem dat.
Skenování textu
Nejvhodnějším způsobem k digitalizaci textů je skenování. K dispozici máme několik druhů skenerů
např. ruční, stolní nebo 3D skenery. Skenování je možné dvěma způsoby:
-
skenováním snímku
skenování snímku bychom mohli přirovnat k fotografii, takový snímek neumožňuje následné
textové úpravy. Tato metoda je vhodná pro archivaci textu a jeho zpřístupnění širší veřejnosti,
-
skenování s možností editace digitalizovaného textu (OCR)
druhý způsob nám umožňuje editaci digitalizovaného textu. Naskenované texty je možné převést
do textového editoru a dále s nimi pracovat a upravovat je. Tuto možnost nám nabízejí skenery
s funkcí optického rozpoznávání znaků (Optical Character Recognition, OCR).
Metodu OCR lze využívat zejména při práci s texty, které nejsou k dispozici v digitální podobě.
Převod textu z tištěné do elektronické podoby je možné pro všechny tištěné výstupy z laserových,
inkoustových a dalších tiskáren, a samozřejmě také texty vytištěné knihtiskem.
13
Nevýhodou OCR je, že jednotlivá písmena nemusí být rozeznána, a v textovém editoru jsou
následně nahrazena čtverečky a jinými znaky. Takový text je nutné následně ručně opravit podle
originálního dokumentu. Kvalita digitalizovaného textu závisí na kvalitě originální předlohy, žádný
OCR nástroj nezaručí stoprocentní přesnost a digitalizované texty musí vždy projít důkladnou
kontrolou.
Na trhu existují i nástroje OCR nabízející možnost převodu ručně psaného textu. Kvalita
digitalizovaných textů bývá však často nedostačující. Tyto nástroje jsou navíc velmi finančně
náročné, a následná kontrola digitalizovaného textu vyžaduje důkladnou kontrolu.
2.1.2 Veřejně dostupné databáze digitalizovaných textů
Kramerius
V digitální knihovně Kramerius najdete více než 8 milionů naskenovaných stran textů kompletních
periodik a monografií. Vedle dokumentů v češtině obsahuje Kramerius také řadu dokumentů
v německém a ruském jazyce. Kramerius je zaměřen na mikrofilmování a digitalizaci dokumentů,
kterým hrozí nebezpečí poškození nebo zničení. Kramerius je dostupný na webové stránce
www.kramerius.nkp.cz. Prohlížení digitalizovaných textů je uživatelům umožněno bez registrace.
Manuscriptorium
Manuscriptorium je volně dostupná databáze digitalizovaných textů. Digitální knihovna je
dostupná na webové stránce: http://www.manuscriptorium.com/cs. Cílem knihovny je zpřístupnit
existující digitální obsah historických textů. Obsahem fondů Manuscriptoria nejsou pouze české
historické dokumenty, v databázi je možné dohledat také zahraniční texty a obrazové dokumenty.
Google Books
Mezinárodní online databáze Google Books (Google knihy) zpřístupňuje náhledy a plná zobrazení
knih nejrůznějšího tematického zaměření. Databáze Google Books je veřejně dostupná na
webových stránkách www.books.google.com a nevyžaduje registraci. Společnost Google nabízí své
služby čtenářům i vydavatelům bezplatně. V případě zájmu si lze knihu online koupit či zjistit
v jakých knihkupectvích a knihovnách je dostupná.
V souvislosti s publikováním digitalizovaných textů je nutné zmínit také autorský zákon.
Právní vztahy mezi autory a uživateli děl upravuje v České republice zákon č. 121/2000 sb. Zákon o
právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů.
14
Autorský zákon je předpisem speciálním ve vztahu k občanskému zákoníku. V souvislosti
s autorským zákonem zobrazují např. výše zmíněné Google Books jen náhledy či neúplné znění
některých děl.
Závěrem bychom chtěli zdůraznit, že v dnešní virtuální době, kdy se především díky
internetu snižuje poptávka po tištěných dokumentech, přispívá digitalizace textů k prohlubování
povědomí o knihách, periodicích a mnoha dalších typech textů. Zpřístupnění textů v digitální
podobě navíc zabraňuje opotřebení a riziku ztráty či zničení originálního dokumentu.
15
2.2
Převod mluveného jazyka do psané podoby
Audiovizuální překlad (Audiovisual translation, AVT) patří mezi mladé odvětví translatologie. Svou
pozici v moderní společnosti si AVT upevňuje od 90. let minulého století, a to především
v souvislosti s rozvojem digitálních technologií, šířením multimediálních obsahů a téměř
neomezenému přístupu k internetu.
2.2.1 Titulkování
Jednou z hlavních složek AVT jsou titulky. Integrováním zvuku do filmu se staly procesy spojené
s titulkováním důležitou oblastí specializace v translatologii. Titulky jsou úzce spjaty s vývojem
technologií, jejichž vývoj a popularita je z velké míry ovlivněn globalizací, narůstajícím počtem
amatérských překladatelů a produkcí např. filmů a TV seriálů, které jsou pod vlivem globalizace
dostupné nejen v zemi produkce, ale i v zahraničí.
Dříve vyžadovalo vytváření nového obsahu či jeho sdílení na internetu pokročilejší
technické znalosti, jednalo se navíc o proces finančně a časově náročný. Na tvorbě online obsahu
se podílela jen omezená skupina uživatelů a ostatní byli v pozici pasivních příjemců. Této éře se po
rozšíření aktivního a téměř neomezeného spolupodílení uživatelů na vytváření online obsahu
začalo říkat Web 1.0. Internetové prostředí současnosti zvané Web 2.0 nám tedy umožňuje sdílet
videa, fotografie, vytvářet blogy, spravovat obsah vlastních webových stránek nebo se podílet na
vzniku online aplikací. Uživatelé mohou také překládat obsah internetu do jiných jazyků, což je
dostupné široké veřejnosti bez translatologické průpravy především díky online strojovým
překladačům, jako je např. Google Translate. Trendem se stává tzv. fanouškovské titulkování (fan
translation nebo také fanslation), při kterém jsou audiovizuální média titulkována komunitami
fanoušků a dobrovolníků. Vedle profesionálních programů existuje řada volně dostupných
programů pro amatérské titulkování, např. stránka www.viki.com umožňuje uživatelům online
přeložit jakýkoliv audiovizuální obsah, např. epizodu seriálu nebo hudební videoklip do cílového
jazyka, můžeme zde navíc nalézt videa ve více než 200 jazycích. Dalším příkladem je YouTube,
který umožňuje svým uživatelům přidávat k videím titulky a komentáře. Audiovizuální překlad je
využívaný např. i pro lokalizaci software a videoher.
16
2.2.2
Automatické titulkování, překlad titulků a tlumočení v reálném čase
Systém automatického titulkování rozpoznává mluvenou řeč, kterou v reálném čase přepisuje
do psané podoby. Automatické titulkování je využíváno u živě vysílaných pořadů, jako jsou např.
zprávy či přímé přenosy. Pro řadu uživatelů, především neslyšících či špatně slyšících by mnohá
videa a záznamy bez titulků byly zcela nepřístupné. Vhodným příkladem je již výše zmíněný
internetový server YouTube, který vedle možnosti přidávání titulků uživateli nabízí u každého videa
možnost automatického titulkování.
Vedle automatického titulkování se stále častěji setkáváme s automatickým překladem
(automatických) titulků nebo také tlumočením v reálném čase. Např. YouTube nabízí automatický
překlad svých (automatických) titulků do cca 100 jazyků. K automatickému překladu je využíván
strojový překladač Google translator, kvalita překladu tedy odpovídá strojovému překladu.
Uživatel má však možnost strojivý překlad upravit (post-editovat) a uložit k videu. Google Translate
nám kromě strojového překladu do více než 90 jazyků nabízí také službu tzv. virtuálního
tlumočníka, jde o simultánní překlad řeči a její následný překlad do psané podoby, další možností
je převod psaného textu a jeho překladu do mluvené podoby. Skype v roce 2015 představil aplikaci
Skype Translator, který v reálném čase tlumočí hlasové hovory a videohovory do 7 jazyků, a
překládá rychlé zprávy do více než 50 jazyků. Skype Translator je také založený na strojovém
překladu, což odpovídá stejně jako u YouTube kvalitě překladu.
I přes své současné nedostatky se budou výše zmíněné technologie rozmáhat a vylepšovat,
jejich podíl na zprostředkovávání komunikace mezi jazyky po celém světě se bude bezpochyby
nadále zvětšovat.
17
2.3
Počítačem podporovaný překlad
Nástroje počítačem podporovaného překladu, takzvané nástroje CAT (Computer Aided Translation
či Computer Assisted Translation), se vyznačují především využíváním technologie překladové
paměti. Je důležité si uvědomit, že nástroje CAT nemají vyhotovit překlad za překladatele, ale jak
už vyplývá z názvu, mají překladatele v jeho práci podpořit. Nástroje CAT se na trhu objevily v 90.
letech, v té době byly ale finančně velmi nákladné, a další nevýhodou byly jejich vysoké technické
požadavky. K následnému rozšíření nástrojů CAT přispěl internet umožňující rychlou výměnu dat.
Nástroje CAT jsou vhodné zejména pro překlady technických, právních, lékařských, zkrátka
odborných textů s opakujícími se segmenty a ustálenou terminologií. Využití nástrojů CAT při
překladu beletrie je spíše omezené. Typický nástroj CAT pracuje na bázi překladové paměti,
umožňuje správu terminologie a zapojení strojového překladače, toto jsou tři nejzákladnější
součásti každého nástroje CAT, v dalších aspektech se však nástroje mohou lišit.
2.3.1
Základní pojmy
Překladová paměť
Zásadním prvkem nástrojů CAT je překladová paměť (Translation memory, TM). Překladová paměť
obsahuje předchozí překlady překladatele. Zdrojový text je rozdělen do segmentů (většinou
jednotlivých vět), k nimž jsou následně přiřazeny jejich ekvivalenty v cílovém jazyce. Během
překladu jsou nové segmenty (zdrojového i cílového textu) automaticky ukládány do překladové
paměti. Díky tomu překladatel může využít shody s překladovou pamětí a nemusí v případě
opakování překládat stejný či podobný segment znovu.
Shoda překladu
Shoda překládaného segmentu s překladovou pamětí může být částečná (fuzzy match) nebo úplná
(exact match, 100 % match). Úplná shoda znamená naprostou shodu zdrojového segmentu se
segmentem v překladové paměti. I úplnou shodu je vždy nutné překontrolovat, a to především
z hlediska jazykové správnosti, obsahové přesnosti a konzistentnosti terminologie. Vykazuje-li
překládaný segment a segment uložený v překladové paměti určitou míru shody jedná se o shodu
částečnou. Dolní hranici (threshold) částečné shody si nastavuje překladatel dle potřeby, dolní
hranice shody se nejčastěji pohybuje mezi 50-70 %.
18
Terminologická databáze
Terminologická databáze (Termbase, TB) je další důležitou součástí nástrojů CAT.
Terminologickou databázi si překladatel vytváří sám, neplní se tedy automaticky jako, je tomu
v případě překladové paměti. Terminologická databáze nám umožňuje ukládat nejen ekvivalenty
daného termínu ve zdrojovém a cílovém jazyce, ale například také přidávat definici tohoto termínu
a další doprovodné informace, jako např. foto. Vytváření terminologické databáze může být
časově náročné. Terminologická databáze se využívá zejména pro překlad ustálené terminologie.
Program automaticky rozpoznává termíny obsažené v databázi a generuje jejich překlady. Pokud
současně nedojde i ke shodě v překladové paměti, musí překladatel přeložit zbytek segmentu sám.
Jednoduchou terminologickou databázi s konkrétními termíny ve zdrojovém i cílovém
jazyce můžeme vytvořit například v Excelu, Wordu nebo Notepadu. Sofistikovaným nástrojem pro
správu terminologie je např. SDL MultiTerm, který nám umožňuje správu vícejazyčné terminologie,
dále také přidání obrázku či odkazu na webovou stránku.
Obr 1 Multiterm
19
2.3.2
Integrace strojového překladu
Nástroje CAT nám v současné době standardně nabízí možnost integrace strojového
překladu. Pokud nedojde ke shodě s překladovou pamětí, nabízí nástroj CAT výstup ze zvoleného
strojového překladače. Přestože je strojový překladač v nástroji integrován, je jen na překladateli,
zda strojový překlad využije. Zde bychom chtěli upozornit na úskalí spojené s využíváním
strojového překladače:
- používání komerčních strojových překladačů není doporučováno v souvislosti s ochranou
důvěrných dat,
- překlad za pomoci strojového překladače může být považován za porušení smluvních podmínek,
- z dvoujazyčného souboru, který agentury a zadavatelé často vyžadují, je patrné, zda byl strojový
překladač používán.
2.3.3
Typy nástrojů CAT
Nástroje CAT můžeme rozdělit na nástroje lokální či tzv. cloudové. Nástroje lokální vyžadují
instalaci software na konkrétní počítač. Práce je tedy možná jen na zařízeních, na kterých je nástroj
instalovaný. Naproti tomu nástroje cloudové nejsou závislé na instalaci na daném přístroji, přístup
je možný odkudkoli. Požadavkem je zde ovšem připojení k internetu a webový prohlížeč.
Nástroje s lokální instalací (rozšíření textového editoru)
Tyto nástroje s lokální instalací jsou rozšířením textového editoru. Příkladem tohoto typu
nástrojů je např. Wordfast Classic. Instalační balíček nástroje Wordfast je zdarma dostupný na
stránce: https://www.wordfast.net/, balíček obsahuje stručné pokyny a samotný instalační
soubor. Po dokončení instalace se v MS Word okamžitě objeví ovládací panel Wordfastu. Je nutné
upozornit, že tyto nástroje nijak neovlivňují běžný chod editoru.
Obr
2
Lišta CAT nástroje Wordfast, doplněk Microsoft Word
20
Výhody:
-
finanční dostupnost
poměrně snadná instalace
práce ve známém prostředí
nástroj zabírá málo místa na disku
vidíme, co překládáme tzv. zobrazení WYSIWYG (what you see is what you get)
Nevýhody:
-
omezený počet překládaných formátů
omezený počet funkcí
Nástroje pracující v nezávislém prostředí
Jedná se samostatné aplikace s lokální instalací. Tato samostatná překladová studia jsou nezávislá
na dalších aplikacích, vyžadují však instalaci, konfiguraci a další specifické systémové nároky. Mezi
nejznámější samostatná studia patří např. SDL Studio Trados, které je v současné době
nejvyužívanějším nástrojem CAT, dále je to např. MemoQ, Wordfast Pro nebo Star Transit.
Výhody:
-
práce v jednom integrovaném prostředí (kromě TM, také TB, MT, slovník, kontrola
pravopisu a další)
rozsáhlá škála podporovaných formátů
možnost práce v týmu
Nevýhody:
-
vyšší technická náročnost
při překladu nevidíme, jak text vypadá, práce v prostředí WYSINWYG (What you see is not
what you get)
jsme vázáni na zařízení, na kterém je nástroj nainstalovaný
-
nástroje jsou často finančně nákladné
-
21
Nástroje využívající online rozraní tzv. cloud
Cloudové nástroje využívají práce v tzv. cloudu, tzn. ve virtuálním prostředí na internetu. Tyto
nástroje se nenacházejí na jednom zařízeni, jako je tomu u nástrojů s lokální instalací. Nástroj
můžeme po přihlášení používat na jakémkoli zařízení, dokonce i na několika zařízeních současně.
Oblíbeným nástrojem je MemSource, český nástroj dostupný na trhu od roku 2010. MemSource
podporuje řadu formátů a umožňuje práci v offline rozhraní, v případě, že nemáme přístup
k internetu. Nástroj můžeme využívat zdarma za podmínky, že máme aktivní maximálně dva
překladatelské projekty. Dalším nástrojem je např. Wordfast Anywhere nebo Google Translator
Toolkit, který je zcela zdarma.
Výhody:
-
není nutná instalace
práce s nástrojem bývá jednoduchá a intuitivní
překládané soubory jsou přístupné z jakéhokoli zařízení (PC, notebook, tablet, smart
phone)
nehrozí ztráta dat (o zabezpečení se stará výrobce produktu)
nástroje jsou zdarma či finančně dostupné
Nevýhody:
-
je nutné kvalitní internetové připojení (nástroje ale často nabízí i možnost práce v offline
editoru)
2.3.4 Proces překladu v nástroji CAT
Poté co si vybereme vhodný nástroj, je nutné ho nakonfigurovat. Složitost konfigurace závisí na
daném nástroji. Do připraveného nástroje je následně možné nahrát či importovat překládané
soubory. Abychom mohli výhody nástroje CAT plně využít, je nutné vytvořit novou překladovou
paměť, případně importovat již existující paměť s uloženými segmenty. Dále můžeme importovat
terminologickou databázi, nebo například zapnout strojový překladač. Zásadním prvkem je ovšem
aktivní překladatelská paměť. Následně můžeme začít překládat. V případě shody zobrazuje
nástroj výstupy z překladové paměti, pokud není takový výstup k dispozici, je možné využít výstup
ze strojového překladače. Po dokončení překladu je nutné soubory z nástroje exportovat nebo
provést tzv. „vyčištění“ dokumentu. Dokončený překlad je poté možné odevzdat klientovi.
2.3.5
Výhody / nevýhody nástrojů CAT pro překladatele a klienty:
22
Používání CAT nástrojů s sebou nese hned několik výhod. Jejich používání zaručuje:
-
správnost terminologie
překlad je konzistentní
zachování formátu
urychlení procesu překladu
možnost týmových překladatelských projektů
sdílení překladatelských pamětí a terminologických databází
klienti mají k dispozici rychlejší, kvalitnější a zároveň levnější služby
Na závěr bychom chtěli zmínit několik úskalí nástrojů CAT:
-
termíny se zkracují, na překladatele je často vyvíjen časový tlak
částečné a úplné shody s překladovou pamětí jsou často honorovány nižší sazbou
nemáte-li k dispozici kvalitní OCR software, není možné tištěné dokumenty do
nástrojů CAT importovat
23
2.4
Strojový překlad
Strojový překlad (machine translation, MT) nebo také automatický překlad (automated translation,
AT) je automaticky provedený překlad z jednoho jazyka do druhého za pomoci speciálního
překladového nástroje. V současné době jsou dostupné mnohé nástroje umožňující automatický
překlad, jejichž výstupy však v současné době zatím nejsou dokonalé, a musí dále revidovány
(post-editovány).
Je nutné si uvědomit základní rozdíl mezi strojovým překladem a počítačem podporovaným
překladem (nástroje CAT). Nástroje CAT jsou založeny na technologii překladových pamětí (TM) a
terminologických databází (TB). Pokud text nevykazuje shodu s TM či TB, segment musí být
přeložen překladatelem, MT naproti tomu překládá celý text automaticky. Strojový překladač je
automaticky integrován do většiny moderních nástrojů CAT. Pokud zde není nalezena shoda mezi
překládaným segmentem a TM, nástroj nabídne strojový překlad daného segmentu. Překladatel si
sám zvolí, zda chce strojový překladač během překladu využívat.
4.1
Stručný vývoj strojového překladu
Zrod strojového překladu sahá do 40. let minulého století, a to do doby, kdy se objevily první
výpočetní technologie. V roce 1947 americký matematik Warren Weaver poprvé zformuloval
koncepci strojového překladu. Weaver představil také možná úskalí strojové překladu, a to např.
víceznačnost či univerzální vlastnosti jazyka. Záhy vznikla první publikace o strojovém překladu
Weaverovo memorandum z roku 1949, a byla uspořádána první konference. Hlavním zájmem byl
v té době rychlý a levný překlad z ruštiny do angličtiny. První pokus o realizaci strojového překladu
proběhl na Georgetownské univerzitě v USA ve spolupráci se společností IBM. Přeloženo bylo 50
pečlivě vybraných vět z ruštiny do angličtiny. Přestože byl nástroj velmi jednoduchý, slovník
obsahoval 250 slov a 6 gramatických pravidel, vyvolal tento experiment velkou odezvu. Díky němu
se stal strojový překlad předmětem dalšího výzkumu. Strojový překlad nevykazoval očekávané
výsledky a výdaje na projekty strojového překladu se postupně začaly snižovat. Neblaze proslulá
komise ALPAC (Automatic Language Processing Advisory Committee, ALPAC) roku 1966 zhodnotila
dostupné systémy pro strojový překlad jako v praxi nepoužitelné. Závěry této zprávy zhodnotily
strojový překlad jako pomalejší, nepřesnější a dražší než lidský překlad. Což vedlo k omezení
výzkumu automatického překladu v USA na přibližně 15 let. Vývoj strojového překladu v Evropě a
Japonsku však pokračoval dál.
24
V 70. letech došlo v souvislosti s rozvojem výpočetní techniky k tzv. „renesanci“ strojového
překladu. Nové, reálnější cíle předpokládali účast překladatele při různých stádiích procesu
překladu. Cílem již nebylo překladatele nahradit, ale ušetřit čas a lidské zdroje. V roce 1970 vznikl
v Kanadě první komerční program pro překlad předpovědí počasí, Meteo. Základem úspěchu
programu byly jednoduché a opakující se věty, dále omezená gramatika a slovní zásoba. Tento
přístup se nazývá pravidlový (rule-based). Velmi populárním překladovým systém se v té době stal
Systran, který byl od roku 1976 oficiálně používaný Evropským hospodářským společenstvím.
V 80. letech se dále rozvíjely pravidlové systémy, začaly se však již objevovat první statistické
systémy, fungující na principu rozsáhlých paralelních vícejazyčných korpusů.
Skutečnou revoluci však přinesla až 90. léta, kdy se osobní počítače staly běžným vybavením
domácností, a překladatelské systémy přestaly být doménou velkých nadnárodních korporací a
institucí. Na trhu se objevila celá řada softwarových produktů usnadňujících překladatelskou
činnost, došlo také k rozvoji překladových pamětí a nástrojů CAT. Mezi nejznámější komerční
systémy patřil Trados, založený v roce 1984.
Po roce 2000 se výzkum strojového překladu začal orientovat na hybridní překlad. Hybridní
překlad se snaží kombinovat výhody pravidlových a statistických systémů. Volně dostupný
automatický překlad je široké veřejnosti dostupný od roku 1997.
2.4.2
Rozdělení systémů strojového překladu
Pravidlový strojový překlad
Pravidlový strojový překlad (Rule based machine translation, RBMT) je založený na racionálním
směru zkoumání. Tvorba systému spočívá ve vytvoření pravidel a struktur, které následně slouží
k převodu ze zdrojového do cílového jazyka. Prvním pokusem byl výše zmíněný Georgetownský
experiment provedený ve spolupráci se společností IBM. Jednou z prvních společností, která se
vývojem pravidlových překladačů zabývala, byl Systran.
25
-
Přímý model překladu
Přímý model překladu (direct approach) je nejstarším a nejjednodušším přístupem ke strojovému
překladu. Jak vyplývá již z názvu, zdrojový text je přímo přeložen do cílového jazyka. Tento přístup
můžeme přirovnat k doslovnému překladu. Překlad tedy zahrnuje morfologickou analýzu, zcela zde
ale chybí syntaktická a sémantická analýza.
-
Nepřímý model překladu
Nepřímý model překlady (indirect approach) zahrnuje tzv. „mezistadium“ překladu, mezi hlavní
metody patří:
-
transferový přístup (transfer approach), tato metoda spočívá ve zpracování abstraktní
formy zdrojového jazyka do abstraktní formy cílového jazyka. Nevýhodou je, že tento
abstraktní model je jazykově specifický, přidání nového jazykového modulu je tedy velmi
časově náročné,
-
interlingvální model (interlingua model), cílem této metody je vytvořit samostatné
mezistadium překladu tzv. abstraktní formu, která je zcela nezávislá na zdrojovém textu, a
je následně dále zpracována v cílovém textu.
Nevýhody pravidlových strojových překladačů:
-
finanční náročnost
-
časová náročnost
-
omezený počet jazyků
-
potřeba velkého množství jazykovědných zdrojů a specialistů
26
Statistický strojový překlad (SMT)
Jako první navrhl použití statistických metod při překladu W. Weaver v roce 1955. Jak už bylo
zmíněno výše, vyvíjel se však strojový překlad nejprve jiným směrem a metoda statistického
strojového překladu se dostala do popředí až od 90. let. Statistický strojový překlad je založený na
paralelních textech. Tyto soubory textů tvoří paralelní korpus textů ve zdrojovém jazyce a jejich
překladů do cílového jazyka. Na základě statistických výpočtů vyhodnotí překladač následně
nejvhodnější překlad do cílového jazyka. Mezi základní modely patří:
-
model založený na slovech (word-based model), který byl jedním z prvních přístupů ke
statistickému překladu.
Překladač zaznamenává četnost výskytu jednotlivých slov,
nezohledňuje však kontext slov, v případě mnohoznačnosti,
-
model založený na frázích (phrase-based model) je dnes nejvyužívanějším přístupem
strojového překladu. Na rozdíl od slovního modelu pracuje tento model se segmenty
(frázemi či celými větami), což umožňuje správný překlad mnohoznačných slov.
Výhody statistických překladačů (v porovnání s pravidlovými nástroji):
-
menší časová a finanční náročnost
-
větší jazykové pokrytí
Nevýhody statistických překladačů:
-
nástroje bez lingvistických znalostí
Hybridní strojový překlad (HMT)
Vývoj strojového překladu se v současné době vyvíjí směrem k hybridním nástrojům, které
kombinují pravidlové a statistické systémy za účelem dosažení lepších výsledků. Mezi nejznámější
hybridní nástroje patří Systran.
27
2.4.3 Online strojové překladače
Prvním volně dostupným strojovým překladačem byl Babel Fish (Yahoo) od roku 1997. Strojový
překlad se mezi překladateli a širokou veřejností začal ve větším měřítku využívat od roku 2006,
kdy byl na trh představen překladače Google translate. Google translate je založený na principu
statistického strojového překladu, jedná se o dynamickou technologii závislou na měnícím se
jazykovém materiálu v korpusu, proto se výsledky strojově generovaného překladu liší v čase.
Google translate v současné době nabízí překlad z/do více než 90 jazyků. Je nutné upozornit, že
překlady mezi všemi jazyky probíhají zprostředkovaně přes angličtinu, tedy např. zdrojový jazyk ↔
en ↔ cílový jazyk. V případě některých menších jazyků jako např. slovenština či katalánština, je
překlad proveden zprostředkovaně přes další blízký jazyk, sk ↔ cs ↔ en ↔ cílový jazyk.
Překladatele mohou využít aplikaci Google translate API, která je zpoplatněná částkou 20 USD za 1
milion znaků, což odpovídá více než 500 normostranám překládaného textu.
Druhým nejvyužívanějším komerčním strojovým překladačem je Bing translator, produkt
společnosti Microsoft. Bing je stejně jako Google translate založený na principu statistického
strojového překladu, a v současné době překládá z/do 52 jazyků včetně češtiny. Dalším online
dostupným strojovým překladačem je MyMemory. Tento nástroj nabízí češtinu, a překlady je dále
možné specifikovat dle domény. MyMemory plug-in je možné zdarma integrovat do nástroje CAT.
Pro akademické účely je vhodný např. open-source SMT překladač Moses, který umožňuje
„vytrénování“ vlastního strojového překladače na základě vlastního paralelní korpusu pro jakoukoli
jazykovou dvojici.
2.4.4 Pre-editace a post-editace strojového překladu
Pre-editace předchází strojovému překladu. Zdrojový text je upraven tak, aby nedoházelo
k mnohoznačnosti, je uplatněn tzv. řízený jazyk (Controlled language, CL).
Obr 3 Proces pre-editace
28
Při post-editaci strojového překladu (Post-editing machine translation, PEMT) dochází k úpravě
výstupu strojového překladače. Můžeme se setkat s termíny post-editace částečná a úplná.
Asociace TAUS (Translation automation user society) v roce 2010 vydala zásady PEMT, kde rozlišují
kvalitu „good enough” a „similar or equal to human translation“. Z těchto zásad vyplývá, že od
výstupů strojového překladače nemůžeme očekávat kvalitu shodnou s lidským překladem a to
především v oblasti stylistiky.
Obr 4 Proces post-editace
29
2.4.5 Metody hodnocení kvality strojového překladu
Vzhledem k tomu, že strojový překlad neodpovídá kvalitě lidského překladu, je nutné takový
překlad před odevzdáním překontrolovat a opravit. Kvalitu strojového překladu lze ohodnotit
ručně nebo automaticky, a to za pomoci tzv. metrik.
Ruční hodnocení provádí anotátor, nejčastěji překladatel nebo rodilý mluvčí cílového
jazyka. Metod ručního hodnocení kvality překladu je celá řada, kritéria hodnocení mohou být např.
následující:
-
plynulost (fluency)
-
přesnost (adequacy)
-
srozumitelnost (intelligibility)
Další možností hodnocení MT je analýza chyb. Hodnotitel vypíše všechny chyby a následně určí
jejich závažnost. Nevýhodou ručního hodnocení je časová a finanční náročnost metody, a
především subjektivita hodnotitele, shoda mezi anotátory bývá nízká.
Automatické metody se nazývají metrika kvality strojového překladu (MT evaluation
metrics). Automatických metrik existuje celá řada, mezi nejznámější patří např. BLEU a METEOR,
metrika mají své specifické nedostatky, proto je vhodné je kombinovat. Výhodou automatických
metod je jejich objektivnost, výsledky nejsou ovlivněny hodnotitelem. Nevýhodou je, že
k hodnocení potřebujeme vždy minimálně jeden referenční překlad (manuálně přeložený
překladatelem), podle kterého se následně vyhodnocuje kvalita strojového překladu. Čím více
referenčních překladu máme k dispozici, tím je hodnocení přesnější.
30
2.5 Lokalizace
S termínem lokalizace se můžeme setkat v řadě vědních disciplín, např. matematice, biologii či
ekonomii. Asociace GALA (Globalization and localization association) definuje lokalizaci jako proces
lingvistické, kulturní a technické adaptace produktu požadavkům cílového trhu. Cílem lokalizace je
tedy adaptovat produkt podle zvyklostí cílové kultury. Asociace LISA (Localization industry
standards association) činná do roku 2011, definovala lokalizaci jako proces adaptace produktu
v souladu se sociokulturními zvláštnostmi cílové země. Jazykovou lokalizaci tedy můžeme chápat
jako přizpůsobení produktu národnímu prostředí, a to v oblasti jazyka, měrných jednotek,
kulturních zvyklostí apod. Nesmí být tedy patrné, že byl produkt primárně určený pro jiný trh.
Pro lokalizaci se často používá numeronym L10n, vycházející z anglického slova Localisation
(US localization), kdy je použito první a poslední písmeno slova L a N, a zbývajících deset písmen je
vyjádřeno číslem 10. Podobná zkratka se využívá i v případě anglických výrazů Internationalisation
(I18n) či Globalisation (G11n), které s lokalizací úzce souvisí.
2.5.1 Význam lokalizace
Lokalizace je především díky globalizaci a rozšíření internetu všudypřítomná. Cílem lokalizace je
zpřístupnit software, hry, internetové stránky, filmy, literaturu, manuály a další produkty a služby
všem v co nejkratší době. Bariérou je jazyk a lokalizace nám tuto bariéru pomáhá odstranit.
Lokalizace produktů a služeb umožňuje zahraničním firmám rychlý a úspěšný přístup na cílový trh,
příkladem úspěšné lokalizace je nejpoužívanější vyhledávací nástroj Google, který je v současnosti
lokalizovaný do více než 90 jazyků, stejně tak jako nejnovější verze MS Office a Windows nebo
sociální síť Facebook, která byla lokalizována do více než 70 jazyků díky 300 000 uživatelům, kteří
se na procesu lokalizace podíleli.
2.5.2 Lokalizace a překlad
31
Termíny lokalizace a překlad bývají často zaměňovány, nelze je však považovat za identické.
Překlad je nedílnou součástí procesu lokalizace, obsahuje však více než jen překlad. Proces
lokalizace zahrnuje celý tým odborníků. Lokalizace je řízena projektovým manažerem, který je
zodpovědný za koordinaci projektového týmu, který se kromě překladatelů skládá z terminologů,
editorů, programátorů, webdesignerů a techniků. Překlad je tedy pouze jednou
z činností během procesu lokalizace. Vedle jazykového hlediska hraje v procesu lokalizace
významnou roli také kulturní, technický a obchodní aspekt. Součástí procesu lokalizace je proto
celá řada činností, jejichž cílem je přizpůsobení cílovému trhu:
- přizpůsobení grafické stránky
- úprava obsahu
- přizpůsobení designu a rozvržení textu
- převod měn, měrných jednotek
- použití správného místního formátu pro data, adresy a telefonní čísla
- dále také znalost místního daňového a právního systému
Obr 5 Lokalizace hry pro americký trh
Obr 6 Lokalizace hry pro japonský trh
32
2.5.3 Lokalizace a internacionalizace
Nedílnou součástí procesu lokalizace je internacionalizace (i18n), která procesu lokalizace
předchází. Internacionalizace je primárně technická záležitost vývojářů a programátorů. Význam
lokalizace roste především díky rostoucí poptávce po vícejazyčných produktech a aplikacích. Cílem
internacionalizace je odstranit specifické kulturní prvky, a vytvořit tak neutrální technicky funkční
prostředí, přizpůsobené pro použití ve více jazycích. Neutrální produkt (nejčastěji software) je
následně možné lokalizovat do cílových kultur. Je nutné připravit neutrální software, který je
následně možné adaptovat, např. vložit do něj požadovaný počet znaků jakéhokoli cílového jazyka,
jako např. arabština psaná zprava doleva, azbuka či čínské znaky.
Po odstranění kulturních prvků přichází na řadu lokalizace, kdy se produkt přizpůsobuje specifikám
cílové kultury. Produkt je přizpůsoben tak, aby později přidané prvky, např. barvy, obrázky a další
aplikace vytvořily autentický produkt pro cílový trh.
Přínos internacionalizace:
-
výrazné snížení celkových finančních nákladů
-
úspora času
-
snadnější přizpůsobení produktu cílovému trhu
-
jeden internacionalizovaný zdrojový kód produktu pro všechny cílové trhy
-
produkt je jazykově a kulturně nezávislý
Vhodným příkladem je Wikipedie nabízející mnoho jazykových mutací, které zachycují kulturní
rozdíly. V arabské mutaci je písmo a celá koncepce stránky situována způsobem obvyklým pro
arabskou kulturu, a to zprava doleva, např. logo Wikipedie je na pravé straně a vyhledávání
najdete na levé straně. Celá stránka na nás tedy působí zrcadlovým dojmem. Porovnáme-li
pozorně českou, ruskou a arabskou verzi stránek, uvědomíme si, že písmo nebude jediným
kulturním rozdílem, např. úvodní stránka v české verzi je v pestrých barvách a obsahuje
barevné obrázky, arabská verze obsahuje obrázky černobílé a v ruské verzi obrázky nenajdeme
vůbec.
33
Obr. 7 Arabská verze Wikipedie (https://ar.wikipedia.org/wiki/)
Obr. 8 Česká verze Wikipedie (https://cs.wikipedia.org/wiki/)
¨
Obr. 9 Ruská verze Wikipedie (https://ru.wikipedia.org/wiki/)
2.5.4 Lokalizace a globalizace
Globalizace (Globalisation, G10n) je široký pojem, na který se můžeme odkazovat v různých
oblastech podnikání. Globalizovaný produkt je produkt, který může být bez větších úprav
představen na cizím trhu v různých částech světa. Globalizace se na rozdíl od internacionalizace a
lokalizace zabývá procesem uvedení produktu na cílový trh.
34
Tabulka Internacionalizace, Lokalizace, Globalizace
V souvislosti s lokalizací se můžeme setkat s akronymem GILT, který se skládá z následujících
konceptů:
-
Překlad (t9n)
-
Internacionalizace (I18n)
-
Lokalizace (L10)
-
Globalizace (G10)
Obr 10 GILT
Obrázek GILT ilustruje provázanost těchto čtyř konceptů. Globalizace se zabývá uvedením
produktu na cílový trh. Internacionalizace má za úkol vytvořit neutrální produkt funkční v různých
jazykových prostředích. Lokalizace následně přizpůsobuje internacionalizovaný produkt lokálním
konvencím, a překlad je dále nedílnou součástí procesu lokalizace.
2.5.5 Glokalizace
Pojem glokalizace vznikl spojením slov globalizace a lokalizace. Globalizovaný produkt je
celosvětově jednotný, glokalizovaný produkt je také globálně distribuovaný, je však následně
přizpůsobený cílovému trhu. Cílem glokalizace je rozšíření okruhu potencionálních zákazníků a
zvýšení zisku. Příkladem glokalizace jsou např. řetězce rychlého občerstvení McDonald, KFC či síť
kaváren Starbucks.
35
Obr 11 Produkt glokalizovaný pro český trh
Obr 12 Produkt glokalizovaný pro Nový Zéland
Dalším příkladem jsou loga vyhledávače Google zvané „Doodle“. Google vyhledávač je lokalizovaný
do více než 100 světových jazyků. Google Doodles představují významné události dané země, např.
svátky a výročí. Některá loga se zobrazují jen na domovské stránce konkrétní země, zatímco jiná se
objevují celosvětově.
Obr 13 Doodle glokalizovaný pro český Google
Obr 14 Doodle glokalizovaný pro nizozemský Google
2.5.6 Příklady nevhodné lokalizace
Vhodný název společnosti či produktu je pro mezinárodní společnost klíčovou podmínkou proto
to, aby byl produkt úspěšný na všech cílových trzích. To však může být velký problém, vzhledem
k tomu, že ne vždy je možné použít univerzální název pro všechny cílové trhy. Pokud se výrobce
rozhodne produkt představit pod společným názvem na všechny cílové trhy, měl by si být jist, že
tento název bude vhodný. Není-li název vhodně lokalizován, může v cílové kultuře vyvolat vtipné,
v horším případě urážlivé či dokonce vulgární konotace. Nevhodně lokalizovaný název může
následně způsobit neúspěch produktu na cílovém trhu. Dobrým příkladem je nadnárodní prodejce
nábytku IKEA, který se snaží zachovávat švédské názvy svých produktů, což není vždy vhodným
řešením. České zákazníky pobavil název hnědého koberce s názvem HOVEN, který byl následně
nabízený v akci pod cedulkou „Doprodej Hoven“. Nedůvěru českého zákazníka vzbudí prodlužovací
36
šňůra s názvem KOPPLA, a anglicky mluvící zákazníky v roce 2005 pobavila stolička s názvem
FARTFULL.
Příkladem z českého prostředí je např. motto programu Severozápad podporovaného
Evropskou Unií. Oficiální české motto „Vize přestane být snem“ bylo přeloženo jako „Vision ends
up being a dream“ tento překlad však význam hesla zcela obrací. Oficiální adresa programu
„www.nuts2severozapad.cz“ také nebyla nejšťastnější volbou, NUTS je sice zkratka evropského
standardu pro označování administrativních geografických jednotek (Nomenclature of territorial
units for statistics), anglické „nuts“ je však výrazem pro označení šíleného člověka.
Obr. 15 České logo programu
Obr. 16
Anglické logo programu
2.5.7 Současné softwarové nástroje pro lokalizaci
Překladatel má k dispozici moderní překladatelské technologie jako elektronické slovníky, nástroje
CAT s překladovou pamětí a terminologickou databází, dále také strojový překlad.
Příkladem speciálního nástroje sloužícího pro lokalizace software je SDL Passolo. Passolo je
produktem společnosti SDL stejně jako Studio Trados a Multiterm. Výhodou je, že práce
s nástrojem nevyžaduje zkušenosti s programováním, překladatel se tedy může plně soustředit na
překlad softwaru, aplikace či webového rozhraní. Dalším oblíbeným nástrojem je např. Alchemy
Catalyst.
37
Obr 17 SDL Passolo 2015
2.5.8 Lokalizace a minoritní jazyky
Vlivem globalizace jsou menšinové jazyky ohroženy více než kdy jindy. Uživatelé často dávají
přednost používání rozšířeného jazyka, např. angličtiny před vlastním jazykem. Technologie a
internet nám ale současně mohou pomoci zpřístupnit menšinové jazyky širšímu publiku.
Dobrovolnický překlad neboli crowdsourcing je mezi uživateli velmi oblíbený a může v tomto
ohledu sehrát důležitou roli, a to především díky sociálním sítím jako Facebook nebo Twitter
Příkladem lokalizace minoritního jazyka díky crowdsourcingu je např. lokalizace Facebooku do
velštiny.
38
2.6
Crowdsourcing
Neologismus crowdsourcing použil poprvé americký novinář Jeff Howe v červnu 2006 ve svém
článku „The Rise of Crowdsourcing“ v časopise Wired. Slovo crowdsourcing vzniklo kontaminací
výrazů outsourcing (využívání externích zdrojů) a crowd (dav). Crowdsourcing můžeme vnímat jako
„dobrovolnický“ překlad, tedy opak placených, profesionálních projektů. Neexistuje jednotná
ucelená definice, můžeme najít více než 40 anglických definic tohoto výrazu, který se navíc
postupně mění a získává nové rozměry, a to především díky masovému využívání sociálních sítí.
Myšlenku crowdsourcingu vhodně vystihuje také české přísloví „Víc hlav, víc ví“. Práce ve skupině
může přinést zajímavé a originální řešení.
2.6.1
Příklady úspěšného online crowdsourcingu
Přestože se jedná o nový termín spojovaný především s internetem, mohli jsme se s příklady
crowdsourcingu setkat již mnohem dříve. Roku 1714 britská vláda nabídla veřejnou odměnu za
vyřešení úlohy související se zeměpisnou délkou (The Longitude Price). V 19. století byl
napsaný Oxfordský slovník angličtiny (Oxford English Dictionary, OED) díky milionům útržků papíru
s příspěvky od veřejnosti. Skrze otevřenou výzvu organizátoři požádali obyvatele o zaslání slov a
jejich významů, které následně zaneseny do slovníku.
Denně se setkáváme s řadou úspěšných crowdsourcingových projektů, aniž bychom si byli
jejich poněkud netradičního vzniku vědomi.
Wikipedie
Wikipedie, otevřená encyklopedie, je jedním z nejznámějších příkladů crowdsourcingu. Specifikem
této encyklopedie je, že kdokoli může vytvářet a upravovat články na jakékoliv téma a v jakémkoli
jazyce. V roce 2015 obsahuje Wikipedie téměř 5 000 000 článků v anglickém jazyce, dalších 11
jazykových verzí má přes milion článků. Celkově se na Wikipedii vyskytuje 288 jazykových verzí.
České články představují necelé 1 % z celkového počtu článků na Wikipedii. Wikipedie představuje
užitečný zdroj informací pro širokou veřejnost. Je ale nutné si uvědomit, že informace zde nemusí
být zcela pravdivé a objektivní.
YouTube
Dalším úspěšným projektem crowdsourcingu je YouTube, největší internetový server pro sdílení
videosouborů. Služba YouTube byla spuštěna v květnu 2005 a umožňuje miliardám lidí po celém
39
světě objevovat, sledovat a sdílet videa. YouTube poskytuje prostor pro šíření informací a
vytváření spojení mezi lidmi po celém světě. Tato platforma podporuje distribuci originálního
obsahu malých i velkých autorů. YouTube má v roce 2015 dvě miliardy přístupů denně a každou
minutu uživatelé na platformu nahrají 300 hodin nových videí. YouTube je tak po internetovém
vyhledávači Google druhou nejnavštěvovanější webovou službou světa.
OpenStreetMap
Dalším příkladem crowdsourcingu je projekt OpenStreetMap. Jedná se o mapu tvořenou pouze
z volně dostupných zdrojů. U většiny volně dostupných map je jejich užívání technicky a právně
omezeno. Tento projekt uživatelům umožňuje volně nakládat s geografickými daty. Aktuální data
jsou zde dostupná bez dalších nákladů a omezení. Projekt je založen na podobném principu jako
Wikipedie, umožňuje jednoduchou editaci dat, uchovává historii provedených změn, vytvořené
mapy jsou následně dostupné veřejnosti.
OpenStreetMapy sehrály důležitou roli v roce 2010 během zemětřesení na Haiti. Přibližně
640 dobrovolníků z celého světa využilo prostřednictvím OpenStreetMap dostupné mapy a
satelitní snímky, a vytvořilo tak detailní mapu Haiti, zachycující silnice, mosty, budovy a tábory.
Výsledná mapa byla využita humanitárními organizaci, při poskytování humanitární pomoci
v zasažených oblastech.
2.6.2 Crowdsourcing a překlad
Překlady za pomoci crowdsourcingu by mohly být nazývány dobrovolnickým překladem. Stejně
jako lokalizace může i crowdsourcing sehrát významnou roli v zachování minoritního jazyka. Sami
uživatelé se mohou podílet na posilnění jazykové rozmanitosti. Příkladem crowdsourcingu může
být např. lokalizace Facebooku a Google translate.
Facebook
Sociální síť Facebook byla v roce 2008 lokalizována do více než 70 jazyků, a to především díky 300
000 uživatelům, kteří se na lokalizaci podíleli. Uživatelé mohou i nadále přispívat svými překlady
prostřednictvím aplikace Facebook translations.
Google translate
40
Google translate v současné době nabízí strojový překlad z/do 90 světových jazyků, denně tuto
službu využije více než 200 milionů uživatelů na celém světě, kterým tento nástroj usnadňuje
komunikaci. Uživatelé ale současně (často nevědomě) připívají ke zlepšování kvality strojového
překladu již podporovaných jazyků. Přispějete jednoduše tím, když se rozhodnete „vylepšit“
strojový překlad.
Obr 18 Google translate
Google v roce 2014 představil tzv. Google translate community (Společenství strojového
překladače Google), kde nadšenci nejen pomáhají zlepšit kvalitu pro již zavedené jazyky, ale
mohou se také podílet na přidávání nových jazyků. Uživatelé také přispívají lokalizaci stránek do
vybraného jazyka. Uživatelé zlepšují kvalitu Google překladače např. také překládáním
v CAT nástroji Google translate toolkit.
41
3)
PŘÍKLADY JAZYKOVÝCH TECHNOLOGIÍ PŘI REVITALIZACI
SEVEROCENTRÁLNÍHO DIALEKTU ROMŠTINY Z POHLEDU ROMSKOČESKÉHO PŘEKLADATELE
3.1. Definice romštiny
V tomto kontextu budu hovořit o takzvané „slovenské romštině“, respektive o takzvaném
„severocentrálním dialektu“, kterým se hovoří na území České republiky a na Slovensku.
Vyjmenované jazykové technologie by však s modifikacemi mohly platit i pro tzv. „olašskou
romštinu“, nebo „sintskou romštinu“, což jsou další významnější dialekty, jimiž se hovoří v České
republice a ve Slovenské republice.
3.2. Prostředky revitalizace romštiny – neúplný výčet
Zamýšlím-li se nad prostředky revitalizace romštiny, připadají mi na mysl především moderní
technické komunikační prostředky, spojené s Internetem, který je jakýmsi jejich zastřešujícím
prostředkem, rušícím informační bariéry. Informační bariéry však ruší již starší prostředky
předinternetové doby, jako je písmo, klasická pošta, knihovny, rádio a televize, telefon ….
3.2.1 Písmo
Odhlédneme-li od historie záznamů romštiny Neromy na našem území, kterou zahajuje Antonín
Puchmajer (Puchmajer, 1821), dochází k první kodifikaci romštiny Romy samotnými nebo ve
spolupráci s nimi až se vznikem až Svaz Cikánů-Romů v roce 1969. (O Svazu Cikánů-Romů viz např.
Lhotka, 2009.) Zde bych se chtěl jen krátce zmínit o speciálním písmu, kterým je těsnopis.
3.2.1.1 Romský těsnopis grafický
Podstatou grafického písma je používání zjednodušeného písma ručního, doplněného zkratkami a
samoznaky pro záznam slov a sousloví. Protože průměrný písař dosahuje při ručním psaní rychlosti
cca 20 slov za minutu, znamená již rychlost padesáti znaků značnou úsporu (Matula, 1983, s. 14).
V češtině se používá těsnopis systému Herout – Mikulík. Výhodou grafického těsnopisu je
nenáročnost prostředků a možnost použití takřka kdekoliv, s použitím nenáročných technických
prostředků – papíru a tužky. Nevýhodou grafického těsnopisu je skutečnost, že těsnopisný záznam
je dodatečně nutno přepisovat do běžného písma. Proto dnes grafický těsnopis pravděpodobně
ztrácí na významu, myslím však, že při dobrém ovládání může být ještě dnes přínosný, např. pro
studenta jazyků obecně, tedy i romštiny. Zkoumají se však již také možnosti, jak grafický těsnopis
převést do běžného písma pomocí strojového rozpoznávání textu, jedním z příkladů může být
převod anglického Pitmanova těsnopisu (Rajasekaran, 2012).
Autor této stati se zamýšlel nad možností použít český grafický těsnopis Herout-Mikulík i pro
romštinu. To by bylo po malých úpravách (např. psaní souhlásek s přídechem) bezpochyby možné.
42
3.2.1.2 Romský těsnopis strojový řetězcový a akordový
Princip strojového těsnopisu (tj. text se zadává prostřednictvím klávesnice) spočívá v tom, že místo
slova nebo sousloví přirozeného jazyka píšeme zkratku nebo znak, který se při psaní rozbalí do
nezkrácené podoby, která je pro tyto účely uložena do databáze zkratek a nezkrácených tvarů.
Takové zkratkové systémy existují pro řadu velkých i menších jazyků, například pro angličtinu
Agilityping, Fox, Shorthand for Windows, …. V češtině je znám systém ZAVPIS autora Jaroslava
Zaviačiče, s nímž čeští závodní písaři dosahují výtečných výsledků na mezinárodních soutěžích a
s kterým byl také dosažen světový rekord v rychlosti psaní (Ing. Helena Matoušková, 928 znaků za
minutu).
Akordový těsnopis využívá možnosti stisknout na klávesnici kombinaci více kláves najednou.
Akordový těsnopis lze dobře použít u jazyků s malou flexí a tedy s omezeným množstvím tvarů
(např. angličtina), v češtině se přes pokusy prováděné v minulosti a v současnosti dosud jeho
vytvoření nezdařilo.
Pro severocentrální romštinu systém strojového těsnopisu dosud neexistuje, ale bylo by možné ho
racionálně vytvořit, mimo jiné s pomocí romského korpusu.
Protože je romština tvarově jednodušší než čeština, je sice jazykem flektivním s osmi pády
substantiva a časováním slovesa, substantivum má koncovky u všech vzorů totožné a množné a
jednotné číslo nají jen fonetickou obměnu, sloveso má na rozdíl od pěti slovesných tříd v češtině
slovesné třídy tři, bylo by patrně možné vytvořit i strojový těsnopis akordový.
Obrázek 19. Ukázka stenografického stroje
3.2.1.3 Počítačový korektor romského pravopisu
Pokud vím, počítačový program pro pravopisnou korekci textů v severocentrální romštině
neexistuje. Vhodnou pomůckou pro jeho vytvoření by byl korpus severocentrální romštiny.
Nedokonalý korektor romského pravopisu si však může uživatel vytvořit např. v programu
WordPerfect, nebo také pro účely rozpoznávání romských textů v rozpoznávačích textů (např.
v programu ABBYY FineReader, kde je možné ukládat slova, která rozpoznávač nezná, do databáze
43
příslušného jazyka. V programu ABBYY FineReader je možno zvolit i romštinu, i když databáze slov
pro ni se dodává prázdná).
3.3. Knihovny, publikace, slovníky a databáze, internet, Romská Wikipedie
3.3.1 Klasické „papírové“ knihovny
Hlavní knihovnou, kde jsou uloženy romské texty a romistika, je samozřejmě Národní knihovna
v Praze (stránky www.nkp.cz), u níž se ukládá tzv. povinný výtisk, knihovnu má také Muzeum
romské kultury (stránky www.romske.muzeum.cz) v Brně, knihovna Katedry romistiky na Karlově
univerzitě v Praze, a jistě také katedry romistiky jinde v České republice. Tím se dostáváme
k položce:
3.3.2 Elektronické knihovny
Ve většině knihoven je možno již vyhledávat v elektronických katalozích, např. v Národní knihovně
v jejím online katalogu, ale také v Souborném katalogu České republiky (CASLIN).
V Online katalogu NK i v CASLINU je mimo jiné možné hledat podle různých kritérií, např. podle
hesla, kterým může být v tomto případě „romština“, ale také podle kódu jazyka, kterým je pro
romštinu zkratka ROM.
Rešerše na záznamy podle kódu ROM provedená 4. 11. 2015 přinesla 326 citací.
Řada českých knihoven již také archivuje a půjčuje elektronické texty a půjčuje také čtečky
elektronických knih. Elektronických publikací v romštině české provenience je zatím velmi málo,
vím jen o jedné, zato však velmi důležité – bibliografii Ctibora Nečase (Nečas, 2012):
Retrospektivní bibliografie české romistiky pod názvem „Pal o Roma – O Romech“ je údajně svého
druhu nejobsáhlejší soupis bibliografických údajů romistické literatury v ČR. Nečas zpracoval
k vydání téměř vyčerpávající všeobecný přehled literatury o Romech. Přehled zahrnuje publikace
vydané v období 1821 – 2011. Bibliografie obsahuje 3527 záznamů.
Speciální knihovna romských textů severocentrální romštiny v elektronické podobě dosud
neexistuje, i když pravděpodobně bychom řadu textů nalezli v elektronických archivech
vydavatelství, která vydala romské texty (např. Fortuna), případně v archivech romistických
časopisů a novin (soupis těchto periodik uvádí Nečas v kapitole 5 – Seriály pro Romy a o Romech)
(Nečas, 2012, str. 129).
Z knihovny Katedry romistiky je možno bezplatně stáhnout Nástin mluvnice slovenské romštiny
Hany Šebkové (Šebková, 1998).
Možnost vyhledávat informace elektronicky a Internet nám ovšem umožňuje získávat informace
z celého světa, využívat nástrojů jako jsou elektronické vyhledavače, komunikační nástroje Skype,
Facebook a další, internetové překladače.
3.3.3 Papírové a elektronické slovníky
44
Kromě papírových slovníků (Hübschmannová, 1998, Koptová, 1995 a Koptová 2011) může
zájemce využívat i lexikální databázi ROMLEX, vytvářenou v Rakousku na univerzitě v Grazu, jejíž
součástí je údajně i slovník slovenské romštiny, vycházející podle údajů na stránkách Katedry
romistiky v Praze ze slovníku Hübschmannové.
3.3.4 Databáze ROMLEX
Romlex je součástí široce pojatého projektu, s nímž se čtenář může seznámit na
http://romaniprojekt.uni-graz.at, a je členěn do oddílů: Romani Österreich, Dialekte / Varietäten,
Publikationen, Ressourcen und Links (tj. Romština, Rakousko, Dialekty / Variety, Publikace, Zdroje
a Odkazy), z toho romština je dále členěna na Úvod, Slovník, Fonologii, Morfologii, Syntax, Variety,
Sociolingvistiku, Odkazy a Zkratky.
Obrázek 20. Domovská stránka projektu Romani PROJECT vytvářeného Univerzitou ve Štýrském Hradci
Autoři databáze ROMLEX uvádějí o databázi tuto základní informaci (v angličtině):
45
ROMLEX is not a Romani dictionary in the usual sense, it is a lexical database. It contains data that
are representative of the variation in the lexicon of all Romani dialects, and offers almost complete
coverage of the basic lexicon of the Romani language. At present, data are available online
covering 25 different Romani dialects, see: http://romani.uni-graz.at/romlex. These entries resp.
glossaries are accompanied by translations into English and, depending on the Romani dialect, into
other European languages as well.
3.3.5 Multidialektní slovník romštiny MULTILEX
Katedra romistiky v Praze vytváří slovník MULTILEX, který jeho autoři na stránkách katedry popisují
takto:
Multidialektní slovník romštiny (MULTILEX) je on-line platformou, ve které budou postupně
zveřejňovány lexikální údaje z rozsáhlé dokumentace centrální romštiny, probíhající od r. 2008,
resp. z dalších jazykových výzkumů Semináře romistiky FF UK. V této chvíli (leden 2012) se jedná o
fragment zahrnující 780 romských hesel, která dále zahrnují na 11 000 lexémů (v zásadě
dialektních variant základních hesel). Slovník je v této chvíli semibilingvní - zahrnuje v zásadě jen
romsko-českou část slovníku.
Kromě knihovny tištěných publikací by bylo dobré vytvořit také knihovnu elektronických textů pro
severocentrální romštinu. V České republice patrně dosud taková knihovna neexistuje, pominemeli skutečnost, že jistě existují elektronické archivy časopisů, jako je Romano Džaniben, Lačho Lav,
…..
Co se týče zahraničních knihoven se specializací na romistiku, neprováděl jsem systematický
průzkum, rád bych však upozornil na sbírku romistik University Library of Liverpool
(http://www.liv.ac.uk/library/sca/colldescs/gypsy/), zvláště pak její odkaz na knihovnu Hathi
Trust Digital Library, poskytující v elektronické podobě časopis Journal of the Gypsy Lore Society,
historicky asi nejvýznamnější romistický časopis na světě. Jednotlivá čísla časopisu je možno
stáhnout ve formátu PDF.
46
Obrázek 21. Část stránky s odkazy na časopis Journal of the Gypsy Lore Society
3.3.6 Elektronická knihovna Gutenberg
Báze dat Gutenberg (www.gutenberg.org) je jedna z bází dat zpřístupňujících v elektronické
podobě zdarma díla v různých jazycích. Zjistil jsem, že ke dni 13. 11. 2015 je zde 25 anglických
titulů, v jejichž názvu se vyskytuje výrazy „Gypsy“ (cikán, Rom), např. dílo, vydané poprvé v roce
1873:
Borrow, George: ROMANO LAVO-LIL WORD-BOOK OF THE ROMANY OR, ENGLISH GYPSY
LANGUAGE WITH SPECIMENS OF GYPSY POETRY, AND AN ACCONT OF CERTAIN GYPSYRIES OR
PLACES INHABITED BY THEM, AND OF VARIOS THINGS RELATING TO GYPSY LIFE IN ENGLAND.
V severocentrálním dialektu však z asi 50 000 bezplatně stažitelných knih není pravděpodobně
žádná.
3.3.7 Elektronická knihovna zvukových záznamů Librivox
Báze dat Librivox (https://librivox.org), zpřístupňující literaturu ve zvukovém záznamu
v elektronické podobě zdarma neobsahuje žádný romský text (ostatně jen 2 texty české), oproti
19384 anglickým (ke dni 13. 11. 2015).
3.3.8 Wikipedie
3.3.8.1 Česká Wikipedie
Česká Wikipedie obsahuje např. hesla romština, Romové, Romové v Česku, Romové na Slovensku,
neobsahuje však zatím heslo Romská literatura a či Romští spisovatelé, z romských (českých a
slovenských) spisovatelů je zde zastoupena např. Tera Fabiánová či Margita Reiznerová, patrně
však většina českých slovenských romských spisovatelů není ještě heslově zpracována. Řadu údajů
o romských autorech a některé romské texty v romském originále a překladu však najdeme na
stránkách www.iliteratura.cz.
3.3.8.2 Slovenská Wikipedie
Při hledání jazykových a dalších informací nemůže český uživatel pominout slovenskou Wikipedii .
3.3.8.3 Romská Wikipedie
Jednou z asi 280 jazykových verzí Wikipedie je romská Wikipedie v dialektu, který jsem zatím
neidentifikoval (kalderašština?). Má však zatím jen ke dni 8. 11. 2015 jen asi 582 hesel (na rozdíl od
asi 5,005,306 článků v anglické Wikipedii a cca 336 601 článku v české Wikipedii k tomuto dni) a
její jazyk se liší od „severocentrálního dialektu“. Romská Wikipedie však může být inspirací pro
případnou Wikipedii v severocentrálním dialektu.
47
Obrázek 22. Úvodní strana romské Wikipedie
3.3.9 Korpusy romštiny
Při první chvatné rešerši se zdá, že korpusů romštiny není zatím ve světě mnoho. Zde uvádím
informace o třech.
3.3.9.1 Korpus ROMI
Z adresy http://lidemesta.cz/archiv/cisla/13-2011-1/romi-prvni-rozsahla-databanka-romskehoetnolektu-cestiny.html přejímám:
„ROMI je rozsáhlá databanka romského etnolektu češtiny. Vzniká jako subkorpus rozsáhlé
databanky CZESL, jejímž cílem je zachytit češtinu cizinců a Romů. Databanka má sloužit především
pro pedagogické účely - v první řadě jako zdroj pro analýzu jazykových kompetencí těchto skupin
uživatelů češtiny a její využití ve výuce: ke zmapování hlavních problémů, při sestavování cvičebnic,
při explanaci konkrétních jazykových jevů, vyhledání relevantních příkladů a podobně. Tomuto
48
zaměření odpovídá jednak uživatelská přístupnost databanky (snadné vyhledávání, široce
uživatelsky zaměřený přepis nahrávek a textů ad.), jednak věkové vymezení mluvčích a další
zohledňované parametry zaměřené na školní prostředí.
ROMI představuje naprosto ojedinělý, rozsáhlý soubor textů a nahrávek romských mluvčích češtiny
od předškolního věku do cca 26 let, který přináší poprvé v dějinách české lingvistiky a romistiky
takto rozsáhlý jazykový materiál romského etnolektu. ROMI bude přístupný ve formě přepisu textů
a nahrávek širší odborné veřejnosti (podobně jako např. Český národní korpus), nahrávky
a originály textů pak v určitých případech (např. za účelem fonetického rozboru). Jazykový materiál
je unikátní nejen svým rozsahem (k 17. 3. 2011 obsahuje 2 466 písemných textů a 497 zhruba 1020minutových nahrávek, přičemž sběr dat probíhá od října 2009 a pokračovat bude cca do října
2011), ale také celorepublikovým zaměřením (dosud jediná systematická studie romského
etnolektu M. Bořkovcové [Romský etnolekt češtiny. Signeta, Praha 2006] se zaměřuje v první řadě
na jednu konkrétní komunitu obývající v době výzkumu pražský Smíchov) a pestrostí zkoumaných
prostředí. Do projektu se zapojila řada základních škol všech typů (běžné základní školy, základní
školy speciální a praktické), ale také řada individuálních spolupracovníků z neziskových organizací
romských i neromských, romští pedagogičtí asistenti i individuální výzkumníci. Jako unikátní zdroj
nejen jazykových dat se osvědčila spolupráce s jedním romským sdružením, jehož členové dosud
nahráli několik desítek nahrávek přímo ve své komunitě (a v nahrávkách pokračují). Cílem projektu
totiž není jen shromáždit materiál „zvenku", ale zapojit do vybudování databanky i romské mluvčí.
3.3.9.2 Korpus severocentrální romštiny jako součást korpusu InterCorp
Autor tohoto textu navrhl asi před čtyřmi lety pracovníkům Ústavu Českého národního korpusu
(viz https://www.korpus.cz/), který je součástí Karlovy univerzity v Praze, vytvoření korpusu
vytvořeného z romských textů, nebo ještě spíše korpusu romsko-českého, který by se stal součástí
vícejazyčného korpusu InterCorp.
Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat
rozsáhlý paralelní synchronní korpus, pokrývající co největší počet jazyků.
Byl jsem ustanoven koordinátorem tohoto korpusu pro romštinu. Práce na romském korpusu jsou
ovšem na úplném počátku. Pro korpus jsem naskenoval zatím asi 10 romských děl, většinou
z krásné literatury, a připravil s pomocí Elišky Bokové, spolupracovnici ČNK dvě díla pro zařazení do
databáze InterKorpu.
Pro zařazení do korpusu byla v roce 2015 naskenována a k dalšímu zpracování připravena tato díla:
Fabiánová, Tera: Čavargoš : [romaňi paramisi] = Tulák : [romská pohádka] / Tera Fabiánová,
Milena Hübschmannová ; [ilustrovala Renata Fučíková] Vyd. 1. Apeiron, 1991
God’aver lava phure Romendar = Moudrá slova starých Romů / [přísloví sebrali Milena
Hübschmannová ... et al. ; přispěli Marta Bandyová ... et al. ; přeložila a uspořádala Milena
Hübschmannová]. 2., rozš. vyd., v nakl. Apeiron 1. vyd. Praha : Apeiron, c1991
49
Z druhého díla uvádím ukázku výskytu slova „lav“ (slovo), vytvořenou zatím je ručně ne mém
počítači:
Goďaver lava phure Romendar
Moudrá slova starých Romů
Maribnaha na kereha čhavoreha ňič, ča Ranami dítě nevychováš - jenom slovem.
laveha.
Lav šaj avel tho maro the čhuri.
Slovo může být chlebem i nožem.
Gule lavendar na čaľoha.
Sladká slova tě nenasytí.
Ma dikh pro lava, dikh pro vasta.
Nevšímej si slov, ale rukou.
Te našťi des maro, de choča lačho lav.
Nemůžeš-li dát chleba, dej alespoň dobré
slovo.
Tiri buťi tut bararel, na tire lava.
Povýší tě činy, ne slova.
Andro muj gule lava, e čhuri andre baj.
V ústech sladká slova, v rukávu nůž.
Lačho lav sar maro.
Dobré slovo je jako chleba.
Obrázek 5. Ukázka výskytu slova „lav“ v díle „Goďaver lava“.
Obrázek 23. Ukázka obrazovky nástroje Intertext, s jehož pomocí se zarovnávají uložené texty. V tomto
případě jde o text „Čavargoš“.
V roce 2016 se plánuje zařadit dalších asi šestnáct děl. Budou to například:
Fabiánová, Tera: Sar me phiravas andre škola = Jak jsem chodila do školy. 1. vyd. České Budějovice
: ÚDO ve spolupráci se Společenstvím Romů na Moravě, 1992
Giňa, Andrej: Paťiv : ještě víme, co je úcta : vyprávění, úvahy, pohádky. Vyd. 1. Praha : Triáda, 2013
50
Horvátová, Agnesa: Pal e Bari Rama the aver paramisa = O Velké Ramě a jiné příběhy. Praha :
Signeta, 2003
Hübschmannová, Milena: Romské hádanky : hin man ajsi čhaj, so-.Vyd. 2., přeprac., Ve Fortuně 1.
Praha : Fortuna, 2003
Po Židoch Cigáni : svědectví Romů ze Slovenska 1939-1945.Vyd. 1. Triáda, 2005Oláh, Vlado: Le khameskere čhave = Děti slunce : romská próza a poezie.Vyd. 1. Praha : Matice
romská, 2003
O evangelijum le Jaňustar. Vyd. 1. Praha : Česká biblická společnost, 1997
Pal oda, so kerenas le devleskere bičhade = Skutky apoštolů. 1. romsko-české vyd. Praha : G plus G :
Česká biblická společnost : Matice romská, 2000
Rád bych zařadil také texty z romských a romistických časopisů a novin.
Korpus může sloužit např. při praktickém používání jazyka (mimo jiné při překládání), lze s jeho
pomocí sledovat a předpovídat vývoj romštiny, vytvářet jeho pomocí (pravděpodobně
reprezentativnější, než klasickým způsobem) další jazykové pomůcky a nástroje, jako mimo jiné
slovníky (včetně frekvenčního a retrográdního a frazeologického) a korektor pravopisu.
3.3.9.3 Korpus olašské romštiny
Jako vhodné se jeví zahájit práce také na korpusu druhého významného dialektu romštiny v České
republice, totiž olašské romštiny. Olašských textů je publikováno značně méně než textů
v severocentrálním dialektu, je však pravděpodobné, že jich bude v budoucnu přibývat.
3.3.9.4 Korpus romštiny ve sbírce Pangloss Collection
Na webové stránce http://lacito.vjf.cnrs.fr/pangloss/languages/Romani_en.htm je údaj o romském
korpusu věnovaného romštině v Řecku (podle uvedené stránky se jedná o dvě varianty: olašskou
romštinu a romštinu „balkánskou“. Korpus, který se nezaměřuje jen na romštinu, obsahuje 3
vyprávění zaznamenaná badatelkou Evangelia Adamou ve zvukové a grafické podobě, přičemž
romský text je doprovozen souběžným anglickým překladem. Zvuková podoba je opatřena tagy.
Uvedeme ukázku prvního příběhu, nazvaného The louse and the Rom (Veš a Rom).
51
Obrázek 24: Ukázka z korpusu řecké romštiny ve sbírce Pangloss Collection
3.3.9.5 Korpus Opus
Bezplatný korpus Opus na stránkách http://opus.lingfil.uu.se/ obsahuje velké množství romských
textů. Jak je možno tento korpus využívat, a o jaké romské texty jde, musím teprve zjistit.
Obrázek 25. Začátek soupisu romských textů v korpusu Opus
3.3.9.6 Korpus AntConc
52
Uživatel romštiny, který chce romštinu, respektive texty v jiných jazycích podrobit zkoumání, může
využít bezplatný korpus AntConc autora Laurence Anthonyho, působícího na Faculty of Science
and Engineering na
Waseda Univesity v Japonsku. Korpus lze stáhnout z adresy
http://www.laurenceanthony.net/software.html spolu s dalšími užitečnými bezplatnými nástroji
vytvořenými autorem.
Obrázek 26. Výchozí obrazovka korpusu AntConc 3.4w
3.4. Skype
Jako takřka ideální nástroj revitalizace romštiny se jeví program Skype, umožňující bezplatnou
(nepočítáme-li samozřejmě náklady na pořízení hardwaru a softwaru) písemnou, hlasovou a
obrazovou komunikaci počítačem nebo smartphonem dvou a více mluvčích po celém světě. Dík
němu může (izolovaný) mluvčí romštiny zdarma komunikovat s jinými mluvčími romštiny, ať se
nacházejí kdykoliv. Zvláště přínosné se jeví telefonování v rámci sítě Skype, Instant messaging –
Zasílání zpráv a souborů mezi uživateli sítě a Skype Video Calling – Videokonference mezi uživateli
sítě Skype.
3.5. Facebook
Podobně významným nástrojem jako Skype je webový systém Facebook sloužící hlavně k tvorbě
sociálních sítí, komunikaci mezi uživateli, sdílení multimediálních dat, udržování vztahů a zábavě“.
Nevýhodou Skype a Facebooku je nutnost vlastnit komunikační zařízení jako je PC, notebook,
chytrý telefon, iPad a být připojen na Internet.
3.6. Rozpoznávání řeči
53
Čeština má od jisté doby k dispozici už programy na rozpoznávání řeči, např. My Dictate,
NewtonDictate, nebo ATT Toolkit nebo MegaWord. Protože tyto programy zvládají tvarově
bohatou češtinu (slovník programu MegaWord má v nejobsáhlejší verzi 1 milión slov) (jistě by bylo
možno vytvořit program pro rozpoznávání romštiny, která je oproti češtině tvarově chudší a její
slovník je mnohem méně rozsáhlý.
Totiž platí pro následující prostředek, kterým je
3.7. Syntéza řeči
Pro češtinu existuje např. program pro syntézu řeči firmy SpeechTech, kterým je SpeechTech TSS.
Autor tohoto textu vlastní program TextAloud pro syntézu řeči firmy NextUp Technologies, LLC,
od níž zakoupil mimo jiné i český hlas ScanSoft Zuzana22. Protože pravopis romštiny vychází
z českého, dokáže hlas předčítat – s určitými vadami – i romštinu.
Jistě by bylo možné vytvořit syntézu řeči i přímo pro severocentrální romštinu.
3.8. Překlad s pomocí počítače (CAT – Computer Aided Translation)
Dalším nástrojem pro revitalizaci romštiny může být některý z překladových systémů CAT, ať je to
Across, DéjàVu, Passolo, MemSource, MemoQ, SDL Trados 2007, SDL Trados Studio, Star Transit,
Wordfast, SDL Multiterm, SDLX či MateCat.
Protože Google nemá ve svém jazykovém vybavení žádnou romštinu, tedy ani slovenskou, není
v něm možné využívat nástroj Googlu pro automatický překlad (https://translate.google.com), ani
žádný další internetový překladač. Autor tohoto textu však při svých překladech do romštiny a
z romštiny využívá program TRANSIT XV a Transit NXT.
3.8.1 Překlad s pomocí programu Transit
Hlavní výhodou TRANSITu, stejně jako obdobných programů CAT, je časová úspora při překladu
díky překladové paměti, v níž jsou uloženy jazykové páry utvořené při starších překladech, které je
možno využít při překladech aktuálních. Další výhodou CAT je jednota terminologie díky slovníkům,
které lze pružně vytvářet a, a – kromě samozřejmě dalších pomůcek - nástroji „Konkordance“, kdy
je možno zobrazit starší použití slova nebo sousloví. TRANSIT NTX umožňuje využívat i internetové
překladače, jak již bylo řečeno, bohužel ne pro romštinu.
54
Obrázek 27. Část překladu Oznámení o době a místě konání voleb do zastupitelstev obcí v Transitu XV
55
Obrázek 28. Zobrazení několika výrazů ze slovníku neologismů použitých nebo vytvořených autorem
v Transitu pro potřeby překladů úředních textů.
Obrázek 29. Příklad konkordančního hledání výrazu „hlasovací lístky“.
3.8.2 Překladový nástroj Linguee
Internetový „slovník“ Linguee (v internetu je vždy stránka s označením příslušného jazyka, pro
češtinu tedy: http://www.linguee.cz/čeština) (je bezplatný internetový překladový nástroj
kombinující redakční slovník a vyhledávač, pomocí kterého je možné vyhledávat stovky milionů
dvojjazyčných textů slov a výrazů. Výsledky vyhledávání nástroje Linguee obsahují ukázkové věty
z různých zdrojů, aby bylo možno získat představu o tom, jak byl hledaný výraz přeložen
v kontextu. Ve srovnání s tradičními on-line slovníky, obsahuje nástroj Linguee údajně asi 1
000krát více přeložených textů, které jsou zobrazeny v celých větách.
56
V Linguee je možno vyhledávat ve dvoukombinacích různých jazyků, např. čeština - angličtina,
čeština – němčina, čeština – italština, angličtina – němčina, angličtina – italština, angličtina –
francouzština …
Uvádím příklad vyhledání výrazu „romština“ v páru „čeština – angličtina“
Obrázek 30. Výskyt výrazu „romština“ v česko-anglických větných párech ve vyhledávacím nástroji Linguee.
Žádný z dialektů romštiny, tedy ani „severocentrální romština“ ovšem mezi jazyky Linguee není.
3.9. Různé
V tomto oddíle uvádím dosti nesoustavně ještě několik nástrojů, které mohou „revitalizátorovi
romštiny“, nebo prostě uživateli romštiny pomoci.
3.9.1 Romština pro neslyšící
Jako soudní tlumočník se setkávám poměrně často s romským klientem handicapovaným
sluchově. Romské sluchově handicapované dítě (ať už zcela nebo částečně neslyšící) je v řadě
případů zcela výchovně zanedbáno (zvláště na Slovensku), protože se někdy stává nebo stávalo, že
je rodiče neposílají do školy, natož pak do školy pro neslyšící, nebo je naopak obecná škola
odmítne přijmout (to platí ostatně i pro děti mentálně handicapované), dítě je vychováváno jen
v rodině, kde si rodina vytvoří vlastní komunikační systém ať už znakový či jiný, který zůstává
ovšem omezen na rodinu, a postižená osoba se pak neschopna se mimo rodinu o čemkoliv
domluvit. Romský klient pak nedomluví ani s tlumočníkem romštiny, ani s tlumočníkem znakové
řeči.
Vytvořit znakovou či znakovanou romštinu je ovšem úkol dosti speciální a už velkým krokem by
bylo, kdyby sluchově, mentálně či jinak postižené romské dítě bylo vychováváno aspoň nějak, tj.
konkrétně aplikováno na problém hluchoty, aby se neslyšící dítě naučilo alespoň znakovou nebo
znakovanou češtinu či slovenštinu.
3.9.2 Sledování očí (eye tracking)
Jedná se o programy založené na výzkumu pohybu očí při dívání. Programy založené na sledování
očí umožňuje různé zajímavé aplikace. Např. program pro čtení knih ve smartphonu eyeBook
Reader údajně využívá eye tracking (sledování očí) e - např. když se někde zastaví pohled, zobrazí
se překlad nebo poznámka (Rylich, 2015).
57
Obrázek 31. Stránka v Googlu pro stažení programu Ebook Reader
(https://play.google.com/store/apps/details?id=com.ebooks.ebookreader&hl=cs
navštíveno 26. 11. 2015)
3.9.3 Program na psaní rozpoznávání písma dévanágarí
Jazyky sánskrt, hindština a další indické jazyky se jak známo zaznamenávají v jazyce dévanágarí.
Lingvista, který chce srovnávat novoindický jazyk romštinu s indickými jazyky, potřebuje jednak
klávesnici pro dévanágarí, případně též program OCR na rozpoznávání tohoto písma.
Program pro tento účel najdeme v Googlu např. při vyhledávací kombinaci „devanagari“ AND
„keyboard“ (tj. „devanagari“ a „klávesnice“, program pro rozpoznávání devangárí např. kombinací
hesel „devanagari“ AND „OCR“.
58
Obrázek 32. Záznam samohlásek v písmu dévángarí (převzato z české Wikipedie,
https://cs.wikipedia.org/wiki/D%C3%A9van%C3%A1gar%C3%AD)
Shrnutí kapitoly třetí
59
Současný individuální uživatel severocentrální romštiny má dnes k dispozici bohatý repertoár
nástrojů k její revitalizaci a dalšímu rozvíjení.
60
4)
URČENÍ POTŘEBY REVITALIZACE ROMŠTINY V ČR
4.1. Revitalizace romštiny z moci úřední
Revitalizace je úkolem takříkajíc ze zákona: vládní dokument „Strategie romské integrace do roku
2020“ v bodě 4.2 žádá „Poskytnout účinnou podporu užívání romského jazyka“, s tímto
zdůvodněním:
Podle výzkumů mapujících jazykovou situaci Romů provedených Ústavem jižní Asie Filozofické
fakulty Univerzity Karlovy (v roce 2009, 2010) dochází k postupné ztrátě kompetence hovořit
romským jazykem, zejména u neolašských Romů. Zároveň výsledky studií poukazují na určitou
nepřipravenost pedagogických pracovníků pro práci s dětmi z jinojazyčného prostředí.
Problematickou je i výuka romštiny, kterou komplikuje nedostatek lektorů. Zavedení výuky
romštiny jako nepovinného předmětu na školách se nesetkalo rovněž s podporou většinové
populace. Uchování jazyka je přitom pro rozvoj romské identity zcela klíčový.
a navrhuje toto opatření:
a) vytvořit podmínky pro efektivnější využití dotačního titulu Podpora implementace Evropské
charty menšinových či minoritních jazyků ve vztahu k romštině
b) podporovat výuku romštiny jako jazyka menšiny na základních školách, podporovat vývoj
metodických a didaktických materiálů a pomůcek pro její výuku
To je ovšem teorie, a obávám se, zda nejsme nuceni převrátit výrok autora básně “Zigeunerlied“2:
Zelená je veškerá teorie, ale strom žití usychá. Deklarace potřeby „revitalizace“ a i dobře míněná
podpora z vyšších míst nemusí požadovaného výsledku docílit.
4.2. Revitalizace romštiny jako potřeba samotných uživatelů romštiny, tedy především Romů
Myslím, že pro potřeby tohoto textu se nelze spokojit s deklaratorním požadavkem „Strategie“,
potřebu revitalizace je třeba hlouběji zdůvodnit, tj. zamyslet se nad důvody proti a pro revitalizaci.
4.2.1 Revitalizovat romštinu či nikoliv? Půjde o revitalizaci jazyka nebo jeho narození?
Úvodem bych rád uvedl krátkou úvahu, v níž se zamýšlím obecně a také konkrétněji nad úlohou
malých jazyků a nad tím, zda je zachovat a rozvíjet či nikoliv.
Co je to malý jazyk? A od kolika mluvčích je o něm možno hovořit? Jaký je význam malých jazyků?
Je třeba je uchovat a rozvíjet, nebo je vhodnější je v nejlepším případě dokumentovat a uložit do
2
Z hlediska aspoň trochu znalce romské písňové tvorby dosti neuspokojivou. (První sloka: Im Nebelgeriesel, im tiefen
Schnee,/ Im wilden Wald, in der Winternacht! / Ich hörte der Wölfe Hungergeheul, / Ich hörte der Eulen Geschrei: /
Wille wau wau wau! / Wille wo wo wo! / Wito hu!) Proti ní bych postavil mnohem kvalitnější původní romský a hlubiny
romské duše mnohem lépe osvětlující autentický text: Andro paňi lolokici žumajla, žumajla, cinďa mange bačkorici
žumajla žumajla./ Štar pari mange a paľis man čumidel, žumajla, žumajla. (Ve vodě se zrcadlí červené kytičky, žumajla,
žumajla, koupil mi bačkůrky, žumajla, žumajla. Dal mi čtyři páry a pak mi dal pusu, žumajla, žumajla.)
61
muzea? Jaké odpovědi zvolíme pro „severocentrální dialekt romštiny“, jinak též slovenskou
romštinu (dále jen romština)?
To všechno jsou otázky, na něž je možná pouze relativní odpověď. Ve srovnání s angličtinou (podle
české Wikipedie 1 miliarda mluvčích asi 990 000 slov) je čeština (13 milionů mluvčích, počet slov
nezjištěn, ale Wikipedie uvádí, že Příruční slovník jazyka českého, postupně vydaný v letech 1935–
1957, má zhruba 250 000 hesel.) malý jazyk. Vzhledem k češtině je severocentrální romština malý
jazyk (asi 60 romskými dialekty ve světě údajně hovoří 6 až 11 milionů, odhadovaný počet Romů
v České republice je mezi 250 000 a 300 000, z toho je asi 70 až 85% tzv. Slovenských Romů a 10%
Olašských Romů. Počet mluvčích, kteří ho ovládají částečně nebo dokonale, není znám.
Nejrozsáhlejší slovník „severocentrální romštiny“ Mileny Hübschmannové a kol. (Hübschmannová,
1998) má v romsko-české části odhadem asi 7 – 8 tisíc hesel, tj. je 30 až 40 x „menší“ než čeština,
protože v Příručním slovníku jazyka českého nejsou jistě všechny odborné výrazy z nesčetných
oborů specializovaného lidského poznání a činnosti, pro které existují pro češtinu odborné
slovníky, které však romština nemá a tyto specializované obory jí nebyly popsány.)
4.2.2 Důvody proti zachování a revitalizaci „malých jazyků“
Proti zachování a rozvoji (malých) jazyků však je možno mít i námitky. Pociťujeme často jejich
komunikační nedostatečnost, zvláště co se týče odborné komunikace (stačí jen srovnat objem
odborné literatury ve většině oborů v češtině a ve světových jazycích). Malé jazyky prostě
neposkytují tak úplný popis světa jako velké a pro určité druhy komunikace nepostačují dostatečně
nebo dokonce vůbec ne. Pak mají smůlu ti jazykově nenadaní, kteří nejsou schopni překonat ani
jazykovou bariéru a zůstávají uzavřeni v rodném jazyce a jeho omezených obzorech jako ve vězení.
Proto považuji za zcela legitimní i úvahy klonící se k závěru, že by bylo dobré malé jazyky zrušit,
nebo je alespoň odkázat do patřičných mezí, snad tento nástroj uložit do muzea, ale už ho
rozhodně aktivně nepoužívat. Opravdu se má zachovat k aktivnímu používání jazyk izolovaného
ostrovního nárůdku o počtu třiceti lidí na úrovni doby kamenné? Nesnaží se nakonec každý
spisovný jazyk nahradit omezený dosah a roztříštěnost dialektů - a tím je nutně odsouvá
v komunikaci na podřízené místo? Spisovný jazyk je pak nástrojem, který pak mohou používat ke
svému prospěchu všichni mluvčí dialektů (malých jazyků) ke vzájemnému dorozumění. Nejsou
moudří emigranti z malých zemí, když své děti nenaučí malému jazyku, kterým se v nové zemi
domluvím jen s rodinnými příslušníky, a dbají na to, aby se především naučily jazyk velkého
národa, do jehož země jejich rodina emigrovala? Minijazyk jejich předků je přinejmenším
ekonomicky znevýhodňuje, stejně tak jako setrvávání na identifikaci s mininárodem, z něhož
vzešli. Jsou mluvčí, jejichž vztah k rodnému jazyku je zcela oprávněně jen věcný, bez citové vazby,
a používají jej jen jako nástroj k dosažení nějakého zisku, který nelze označit jako „duchovní“. To je
případ autora prvního motta, mého známého – paradoxně však, přestože se neidentifikuje
s jazykem jako kulturní hodnotou, identifikuje se velice skupinou Českých Romů a jejich hodnotami
hodnotovými a etickými, především hodnotou „paťiv“ – široký pojem zahrnující důstojnost
člověka, vzájemnou úctu a také slušnost.
Pochybnost však platí, dokonce i co se týče zachování věrnosti kulturní identifikaci – Neruda a
Sládek nejsou možná tak docela špatní spisovatelé – ale dosahují hodnot Shakespeara,
62
Dostojevského nebo Goetha? – Národní kultura malého národa se dá také někdy pociťovat jako
halda podprůměrného zboží, v níž jen tu a tam najdeme opravdu prvotřídní kvalitu, zatímco
kultura velkého národa – samozřejmě díky statisticky výhodnější situaci – možnosti vybírat
z většího množství materiálu – může to průměrné a podprůměrné prostě vyloučit.
4.2.3 Důvody pro zachování a revitalizaci „malých jazyků“
Význam malých jazyků, dokonce i těch kdysi velkých, ale dnes mrtvých (v evropském kontextu
latina, řečtina, stará hebrejština) může být nezměrný, protože záznamy v nich zachované se staly
trvalým kulturním dědictvím lidstva a využívají se nadále v určitých oblastech (např. latina a řečtina
v tvorbě vědeckých terminologií). Malý jazyk nebo malým se stavší nebo dokonce „vymřelý“,
přestože je ze své podstaty jako nástroj obecné a odborné komunikace nástroj omezený, může
sloužit třeba jako nástroj komunikace slavnostní (latinské diplomy), jazyk náboženských textů
(latina, řečtina, stará hebrejština, staroslověnština) a naopak třeba důvěrné (mluvčí, který vyrostl
v nespisovné češtině, bude v určitých kontextech – např. v rodinné komunikaci a komunikaci
s důvěrnými přáteli pociťovat spisovnou češtinu, jako nevhodnou, protože právě postrádá aspekt
důvěrnosti. (Něco podobného bude pociťovat také člověk, který si jako důvěrný jazyk osvojil
češtinu (nyní nerozlišuji spisovnou a nespisovnou) vůči cizím jazykům. Jazyk a jazykové
společenství vytvářejí (i když nemusejí nutně) také společenství důvěrnosti, budí pocit
zakotvenosti, kontinuity (i dějinné) a domova3.
4.3. Situace „malého jazyka“ severocentrální romštiny
V pozici mezi těmito dvěma póly stojí i malý jazyk slovenská romština. Je, jak jsem již uvedl, malým
jazykem nejen vzhledem k světovým jazykům a češtině, ale dokonce i jedním z menších romských
dialektů. Rozhodování pro její revitalizaci, nebo lépe její rozvoj v plnohodnotný jazyk, je ještě
bolestnější než v jiných případech. Při jejím rozvoji nepůjde ani tak o revitalizaci, jako spíše o
narození, v lepším případě pracné "vypiplání" (zanedbaného?) batolete. Byla donedávna jazykem
mluvčích na okraji společnosti – od ostatní společnosti izolovaných často diskriminovaných
kočovníků a (již usazené) vesnické chudiny, jazykem negramotného lidu, který měl bezpochyby
nějakou elitu4 – ale velmi úzkou, bez vědeckých ústavů (tedy ani Ústavu pro romský jazyk5),
3
Odtud například pramení obrany jazyka vytvářené obrozenců, Sládkovo „jak znělas od věků, navěky zni“
(nechtějící zřejmě nic vědět o skutečnosti, že jazyky a národy vznikají a zanikají), nebo „Chrám a tvrz“ Pavla
Eisnera, kteří byli současně význačnými překladateli z „velkých“ jazyků.) a významně přispěli k „revitalizaci“
a komunikačního potenciálu češtiny . V kontextu německé literatury napsal apoteózu malého jazyka – dolní
němčiny Kurt Tucholsky, z níž krátce ocitujeme: „ (…) niederdeutsch. Es ist jener Weg, den die deutsche
Sprache leider nicht gegangen ist, wieviel kraftvoller ist da alles, wieviel bildhafter, einfacher,
klarer - und die schönsten Liebesgedichte, die der Deutsche hat, stehen auf diesen Blättern.“
(Tucholsky,) To, čím je člověku „rodný“ jazyk, vyjádřil vášnivě v době své emigrace Heinrich Heine. Je
pochopitelné, že takto zapálení uživatelé malých jazyků (ale i těch velkých) chtějí svůj jazyk zachovat a
rozvíjet.
4
Zapomínáme ovšem, nebo nevíme vůbec, že k romské elitě můžeme přiřadit významné představitele
„gádžovské“ kultury, jako je pýcha „české“ techniky Josef Ressel, jehož matka byla – podle některých
pramenů – česká Romka (a otec Němec), brazilského presidenta Juscelino Kubitscheka (syn opět české
romské matky – aspoň podle anglické Wikipedie - Julie Kubitschekové), Charlie Chaplin (jehož babička byla,
63
odborné literatury, církve a teologické literatury, bez státních orgánů, knih, časopisů a knihoven,
bez mimo jiné rozvinutého úředního a právního jazyka. Ne, že tu nebyla – ostatně nečetná „věčná“ a „všelidsky platná“ díla romské kultury a umění a myšlení, ale ta zůstávala v orální
podobě (přísloví, epická a lyrická tvorba a písně). Jako Romština měla a má – již jen kvůli malé
slovní zásobě – omezenou schopnost vyjadřování a řada mluvčích romštiny ji jistě také neovládala
dokonale a v řadě situací si raději vypomáhala jazykem majority. Za první republiky sice
v Československé vlastivědě vyšel sice popis romštiny z pera Vincence Lesného (Lesný, 1934),
Romové, respektive „Cikáni“ byli více méně považováni za kriminální skupinu6. Druhá světová
válka přinesla romský holocaust (vyvraždění velké většiny tzv. českých Romů za druhé světové
války), to znamená také fyzickou likvidaci velkého množství mluvčích romštiny. V důsledku toho
takřka zmizela z užívání česká romština. Co týče „slovenské romštiny“, neměla naštěstí druhá
světová válka takový vliv na postoj romských mluvčích, co se týče zatajování vlastního jazyka vůči
Neromům, jako v případě německé romštiny, sintštiny: Sintové údajně svůj jazyk (většinou) vůči
Neromům tají a jazykové skutečnosti a skutečnosti ze života jejich komunity jim nesdělují, údajný
důvodem je, že mohli svého jazyka za druhé světové války v koncentračních táborech používat jako
tajného jazyka neznámého pachatelům genocidy, což jim – nemnohým - pomohlo se zachránit.
V době socialismu byla romština potlačována státem a školou. Slovenská romština byla v minulosti
v nejlepším případě tím, čím jí sami Romové nazývali: domácí jazyk (kherutňi čhib).
O písemné a zvukové zaznamenání romštiny se v minulosti zasloužili především neromové
(počínaje u nás Antonínem Puchmajerem, autorem „Romaňi čhib“ (1821). Kodifikace pravopisu
romštiny a první romské písemné texty vytvářené vědomě Romy samotnými se objevují až se
vznikem Svazu Cikánů-Romů v roce 1969.
Tato skutečnost do jisté míry přetrvává, v průběhu času však díky Romům (pravděpodobně také
v důsledku demografických změn – mj. zvýšení procentního podílu Romů v obyvatelstvu) a
neromským sympatizantům romštiny působí emancipační úsilí. Po roce 1989 již nelze říci, že by
byla romština potlačována, naopak je de iure podporována, viz výše citovanou „Strategii“. Podle
zákona má nyní romský účastník řízení před soudem, na policii atd. právo na komunikaci
v romštině a úřady v mnoha případech soudního tlumočníka na základě vlastního uvážení nebo na
žádost romského klienta přibírají. Romské texty se objevují ve sdělovacích prostředcích, především
v rozhlasových a televizních vysíláních a časopisech věnovaných Romům, bylo založeno Romské
muzeum, romština se konečně stala vysokoškolským oborem. Romština se tedy rozvíjí, kultivuje a
přestává být pouhým „domácím“, ale stává alespoň do jisté míry spisovným jazykem
jak píše česká Wikipedie – ale Chaplin potvrzuje i ve své autobiografii – „poloviční cikánka“), podle
romského básníka Rajko Djuriće také rumunského spisovatele Ioana Budai-Deleanu (1760 či 1763 – 1820),
autor eposu Tiganiada (Cikaniáda).
5
Tady bych rád vzpomenul zemřelého romského básníka Vlado Oláha, který založil – po vzoru Slovenské
matice – Romskou matici. Zřejmě však – zatím - zemřela spolu s ním.
6
Ve své diplomové práci píše Lukáš Tůma (Tůma, 2011, str. 65) : „Cikáni“ byli za první republiky oficiálně
uznáni za svébytnou národnostní menšinu. Nicméně se dá říct, že se k nim obecně přistupovalo jako
k asociálnímu a kriminálnímu živlu. Podle zákona ze dne 14. července 1927 je „cikán“ nejen osoba, která
náleží k „cikánskému plemeni“, ale i osoba, která žije po způsobu „cikánů“.
64
s požadavkem, aby si osvojila řadu funkcí, které dříve neměla. Jednou z těchto funkcí, kterou jsme
takřka povinni rozvíjet z příkazu zákona je tvorba právnické terminologie, respektive „terminologie
pro soudní tlumočníky“. Jsme však v situaci, k osvojení těchto funkcí vede cesta, která je dlouhá,
obtížná a někdy se zdá i naprosto neschůdná (představme si například učebnici chemie v romštině
byť jen pro střední školy, anatomický atlas či překlad Kantovy „Kritiky čistého rozumu“ v romštině).
Současně ovšem působí opačná tendence: tím, jak se (aspoň část) romské populace dostala ze
společenské a komunikační izolace a zvyšuje se jejich společenský statut, začínají mluvčí a jejich
potomci nahrazovat romštinu češtinou.
Tyto dvě tendence – snaha zachovat romštinu, kultivovat ji a rozvíjet – a její opouštění působí
současně a nelze předvídat konečný výsledek.
4.4. Shrnutí kapitoly čtvrté
Jsem však přesvědčen, že romštinu je třeba – a stojí to za to – uchovávat, kultivovat a rozvíjet,
jakkoliv se romština paradoxně může stát v budoucnu „mrtvým“ jazykem (tak jako například
z českých židů již asi dnes nikdo nemluví jako rodným jazykem jidiš či hebrejsky, a nářečí češtiny
existují pouze ve zbytkové podobě). Stejně tak dobře se však může stát, že se romština zachová a
dokonce se její komunikační význam zvýší. Jako příklad živého malého jazyka bych jako
nizozemštinář v této souvislosti rád uvedl jako příklad fríštinu (Hofman, 2012) nebo nizozemské
dialekty, které si jejich mluvčí zachovávají, přestože bychom předpokládali, že jejich malé jazyky
v malé zemi bez přírodních bariér smete hladce unifikační koště spisovné a úřední nizozemštiny.
Neděje se tak, mluvčí jazykových společenství si uchovávají a rozvíjejí svůj malý jazyk jako jakýsi
komunikační přepych – jazyk rodinné a dějinné kontinuity, jazyk důvěrné komunikace, jazyk
slavnostního vyjádření a vlastní identifikace, tedy – doplníme-li Eisnera – nejen jako chrám a tvrz,
ale také místo odpočinku, prostředek vyjádření neformálního, uvolněného a citového, ale naopak
také slavnostního, jazyk krásné literatury vnímané jako „ta naše“, jakkoliv je – a možná právě proto
že je - „tak malička, že je tak chudička“ (abych znovu připomenul Nerudu), v neposlední řadě také
jazyk zakotvení v dějinách rodiny, rodu a národa, jazyk domova 7, tedy vlastně ne přepych, ale cosi
bytostně potřebného.
Bude však záležet na společenství uživatelů romštiny, tedy především na Romech, jejichž je
„rodným“ jazykem, zda bude mít o zachování, revitalizaci a další rozvíjení tohoto jazyka mít zájem.
7
Wolf píše v úvodu ke svému slovníku „Das Romani ist dem Zigeuner nicht allein Muttersprache, sondern auch geistige
Heimat, meistens die einzige, die er hat.“ (Wolf, 1960, str. 31). K tomu poznamenávám, že Rom se nemusí romštiny
vzdávat, i když bude mít (duchovních) jazykových domovů více, stejně tak my můžeme náš duchovní jazykový domov –
češtinu – doplnit nejen domovem třeba nějakého světového jazyka, ale i dosud ve výstavbě se nacházejícím malým
domkem romštiny. Kolik řečí člověk umí, tolikrát je člověkem paralela tohoto přísloví zní v severocentrálním dialektu:
Keci čhib, ajcik manuš.
65
ZÁVĚR
Tato studie se zabývá vazbou mezi jazykovými technologiemi zahrnujícími interakci člověka a
stroje (Human-Language Technologies, HLT) a menšinovými či regionálními jazyky, se zaměřením
na romštinu.
V úvodu se uvádějí cíle projektu a jeho návaznost na některé předchozí činnosti v oblasti
problematiky překladu a romštiny v ČR. První kapitola pojednává o využití technologií HLT v oblasti
menšinových jazyků, a to nejprve obecně, přičemž uvádí přehled dosavadních odborných publikací
k tématu.
Ve druhé kapitole je prezentován přehled HLT, včetně např. technologie OCR, převodu mluveného
jazyka do psané podoby, tzv. počítačem podporovaného překladu, strojového překladu, dále pak
lokalizace a crowdsourcing.
V kapitole třetí studie uvádí konkrétní příklady technologií při revitalizaci severocentrálního
dialektu romštiny. Patří sem např. elektronické knihovny, publikace, slovníky a databáze, ale i
platformy jako Skype a sociální média jako Facebook. Speciálními případy jsou pak rozpoznávání
řeči, syntéza řeči a počítačem podporovaný překlad.
Ve čtvrté kapitole je nastíněna problematika určení potřeby revitalizace romštiny v ČR.
Tento Závěr pak níže obsahuje oddíl Závěry a doporučení v oblasti využití HLT při revitalizaci
menšinového jazyka, konkrétně ve vztahu k romštině. Uvedený oddíl zahrnuje 23 doporučení, jež
mohou naznačit další směr podpory tvorby nástrojů HLT usnadňujících revitalizaci romštiny.
Publikace obsahuje též seznam použité literatury s uvedením bibliografických referencí, jež se
používají v průběhu celého textu.
Je zřejmé, že v souvislosti s romštinou v ČR je k dispozici již řada elektronických zdrojů (glosáře,
korpus), ale spojení jejich potenciálu do jednotné platformy elektronických nástrojů, včetně
strojového překladu, by zásadně přispělo k jejich využití nejen pro akademické účely, ale
k rozšíření i mezi širokou veřejností běžných uživatelů romštiny, kteří pracují s PC nebo využívají
chytrý telefon.
66
Závěry a doporučení v oblasti využití HLT při revitalizaci menšinového jazyka, konkrétně ve
vztahu k romštině
Závěry vyplývající buď z citovaných prací, nebo ze samotných podnětů a úvah obsažených v této
studii, ve vztahu k romštině, jsou tyto8:
Jazykové zdroje a technologie9 a jejich dostupnost
1) Je zapotřebí, aby byl dostatek strojově čitelných materiálů, ať už v jednojazyčné podobě
(v romštině), nebo (ještě lépe) ve dvojjazyčné podobě. Toto se týká potřeby tvorby a
udržování korpusů – jednojazyčných i překladových. (Kap. 1)
2) Panuje obecná potřeba sběru a šíření údajů/dat, a to jak v oblasti literárního, tak
neliterárního překladu, podněcovaného či podporovaného státem. Šíření zdrojů má být co
nejširší a mělo by zahrnovat crowdsourcing a používání otevřených licencí. (Kap. 1, kap. 2)
3) Kromě knihovny tištěných publikací by bylo potřeba vytvořit také knihovnu elektronických
textů pro severocentrální romštinu. V České republice podle informací autorů této stati
dosud taková knihovna neexistuje. (Kap. 2)
4) Doporučuje se vytvořit databázi přeložených děl, která bude dále využitelná jak pro
praktikující překladatele, tak pro výzkum v oblasti translatologie se zaměřením na
menšinové jazyky. Mělo by se jednat o „autorizované“ překlady. (Kap. 1)
Sady písma, pravopis
5) Z důvodu nejednotnosti pravopisu u varianty romštiny používané v České republice, a aby
se předešlo standardizaci nežádoucím směrem (např. opouštění písmen s diakritikou a
jejich nahrazování písmeny bez diakritiky), je patrný prostor pro kroky směřující ke
standardizaci písemné romštiny. (Kap. 1)
6) Je potřeba vypracovat chybějící jazykové pomůcky, například editační programy,
automatické dělení slov a sady fontů, dále počítačové nástroje usnadňující psaní, kam
spadá automatická kontrola pravopisu a gramatiky a dále prediktivní psaní, jako je např.
technologie T9 známá z mobilních zařízení. (Kap. 1)
7) Počítačový program pro pravopisnou korekci textů v severocentrální romštině dle
informací autorů této studie neexistuje. Vhodnou pomůckou pro jeho vytvoření by byl
korpus severocentrální romštiny. (Kap. 2; k problematice korpusů viz výše.)
8
Doporučení jsou řazena dle tematických okruhů. Údaj „Kap.“ a číslo, uvedený v závorce za jednotlivými
doporučeními, odkazuje na kapitolu, odkud je dané doporučení převzato.
9
Bližší popis technologií a jednotlivých odborných termínů je uveden v kapitole č. 2.
67
Terminologie
8) Pro oblast odborného překladu je zapotřebí pracovat na sjednocování terminologie a
kvalitních terminologických databázích. (Kap. 1)
9) Romština se rozvíjí, kultivuje a stává se (alespoň do jisté míry) spisovným jazykem
s požadavkem, aby si osvojila řadu funkcí, které dříve neměla. Jednou z těchto funkcí je
tvorba právnické terminologie. Osvojení takových funkcí je v dnešní době obtížně
představitelné bez podpory jazykovými a počítačovými technologiemi. (Kap. 2)
10) Je zapotřebí dalšího a systematického výzkumu v oblasti technologií v překladatelském
procesu. Sem patří otázka titulkovací technologie, terminologie, nástrojů počítačem
podporovaného a strojového překladu. (Kap. 1)
Počítačem podporovaný překlad (tzv. nástroje CAT)
11) Pro oblast menšinových jazyků je potřeba využití takových nástrojů jasně dána. (Kap. 1)
Strojový překlad a automatické tlumočení
12) Pro účely možné revitalizace romštiny pomocí systému automatického tlumočení
(automatický převod mluveného slova jednoho jazyka do mluveného slova jiného jazyka) je
nevyhnutelný automatický překlad (písemný). Ten předpokládá z velké části
standardizovaný pravopis, protože systém jinak nedokáže přiřadit výrazy stejného
významu, jež se jinak píší. (Kap. 1)
13) U rozkolísaných variant/variet menšinového/regionálního jazyka má velký potenciál
pravidlový strojový překlad: Bude-li existovat jedna centrální varianta a strojový překlad z
cizích jazyků bude relativně kvalitní, překlad do dalších variant bude realizován nikoli opět
z každého cizího jazyka zvlášť, ale již z centrální varianty (takto funguje např. Překladač
Google – překlad z EN do slovenštiny probíhá ve směru EN–CS–SK). (Kap. 1, kap. 2)
14) Systémy HLT lze s úspěchem použít i při podpoře uživatelů menšinového jazyka na
sociálních sítích. O vzrůstající popularitě používání menšinových jazyků on-line existují
různé doklady a stejně hovoří i zkušenost uživatelů sociálních médií. Jeví se proto jako
účelné využít k revitalizaci menšinového jazyka technologické pomůcky on-line (např.
strojový překlad) v propojení se sociálními sítěmi. (Kap. 1)
68
Technologie rozpoznávání řeči
15) Pro účely předcházení sociálního vyloučení je zapotřebí využívat moderní technologie
převodu psaného jazyka na řeč a mluveného slova na psaný text (speech-to-text, text-tospeech). (Kap. 1)
16) Bylo by možné vytvořit program pro rozpoznávání romštiny, která je oproti češtině tvarově
chudší a její slovník je mnohem méně rozsáhlý. Jistě by bylo možné vytvořit syntézu řeči i
přímo pro severocentrální romštinu. (Kap. 2)
Technika titulkování
17) Doporučuje se více užívat techniku titulkování tam, kde existují díla jazykově nedostupná
(např. filmy) pro členy té či oné komunity (menšinové i většinové). Titulkování filmů a
divadelních představení musí být kvalitní. (Kap. 1)
Výzkum a vývoj překladových technologií
18) Je zapotřební vytvořit databázi umožňující propojení všech stávajících platforem týkajících
se jazykových zdrojů či využívaných technologií. (Kap. 1)
19) Fenomén překladu má podstatný význam pro upevnění pozice určitého
menšinového/regionálního jazyka. V současné době pak jsou v tomto procesu překladové
technologie téměř neodmyslitelné. Je proto potřeba poskytovat podporu technologiím
vstupujícím do procesu překladu. (Kap. 1)
20) Výzkum v oblasti technologií a menšinových/regionálních jazyků by měl být mezinárodní,
aby se tak zvýšila produktivita takového přístupu – za předpokladu, že mezinárodní
partneři budou sdílet dostupné programy a data otevřeně. (Kap. 1)
Vzdělávání překladatelů
21) Je zapotřebí zajistit školení pro překladatele obecně, včetně mobility vyučujících a
studentů překladu, podpory vzdělávání v oblasti překladu již na střední škole a včetně
založení překladatelských center, kde by podobná školení probíhala. (Kap. 1)
22) Je potřeba zajistit kvalitní vzdělávání/školení pro překladatele pracující s technologií
titulkování. (Kap. 1)
23) Je zapotřebí zajistit školení pro překladatele zejména v oblasti problematiky překladových
technologií. (Kap. 1)
69
SEZNAM POUŽITÉ LITERATURY
Barnes, Janet. (1987) A user perspective on computer-assisted translation for minority languages.
Machine Translation (journal), Issue 2:2–3, s. 131-134.
Civil Society Platform on Multilingualism (2011) „Policy Recommendations for the Promotion of
Multilingualism in the European Union“ 06/06/10; FULL VERSION; dostupné z:
http://www.poliglotti4.eu/docs/publications/CSPM%20Policy%20Recommendations_FULL%20VER
SION.pdf cit. 11. prosince 2015
Cronin, Michael (2001) ‘Minority’. Routledge Encyclopedia of Translation Studies. Ed. Mona Baker.
2nd ed. London: Routledge, 169 – 172.
Datary, Farimah; Grin, Francois (2003) Nation-Building, Ethnicity and Language Politics in
Transition Countries. Budapešť: LGI, 314 s.
Federici, Federico M. (2011) ‘Translating Dialects and Languages of Minorities. Challenges and
Solutions’. Bern: Peter Lang, 233 p.
Folaron, Debbie. (2015) Introduction: Translation and minority, lesser-used and lesser-translated
languages and cultures. The Journal of Specialised Translation, Issue 24, s. 16-27.
Hall, Pat (2015) Computerised writing for small languages. The Journal of Specialised Translation.
Sv. 24. s. 163–184. dostupné z: http://www.jostrans.org/issue24/art_hall.pdf cit. 11. prosince
2015
HALWACHS, Dieter W. – SCHRAMMEL, / Barbara – RADER, Astrid: ROMLEX. THE LEXICAL
DATABASE OF ROMANI VARIETIES.pdf https://romaniprojekt.uni-graz.at/publications.de.html
naposledy navštíveno 15.11.2015
HOFMAN, Martha: Fríština / Het Fries. In: NE-BE 2012. Ročenka NE-BE, společnosti pro
nizozemskou a vlámskou kulturu za rok 2012. s. 37-40.
HÜBSCHMANNOVÁ, Milena ŠEBKOVÁ, Hana –ŽIGOVÁ, Anna: Romsko-český a česko-romský
kapesní slovník. 2., nezměn. vyd. Praha : Fortuna, 1998.
HUTCHINS, W. John. The State of Machine Translation in Europe and Future Prospects. URL:
http://www.hutchinsweb.me.uk/HLT-2002.pdf (cit. 9. listopadu 2015).
KOPTOVÁ, Anna - KOPTOVÁ, Martina: Slovensko-rómsky, rómsko-slovenský slovník = Slovačikoromano, romano-slovačiko lavustik = Slovaćiqo-rromano, rromano-slovaćiqo lavustik. 1. vyd.
Košice : Lagarto pre Nadáciu Dobrá rómska víla Kesaj, 2011.
KOPTOVÁ, Anna: romčina do vrecka. Vyd. 1. Košice : Pezolt, 1995
LAZZARI, G. (2006) Human Language Technologies for Europe. ITC IRST/TC-Star project report.
LESNÝ, Vincenc: Jazyk cikanů v ČSR. In: Československá vlastivěda. 3. Praha, Sfinx, 1934, s. 605–
612.
LHOTKA, Petr: Svaz Cikánů-Romů 1969-1973 : doprovodná publikace k výstavě Muzea romské
kultury "Svaz Cikánů-Romů (1969-1973) - z historie první romské organizace v českých zemích".
Brno : Muzeum romské kultury, 2009
70
MATULA, Miloš: Moderní těsnopis. Praha : SPN, 1983.
MIKHAILOV, Mikhail. (2015) Minor language, major challenges: the results of a survey into the IT
competences of Finnish translators. The Journal of Specialised Translation, Issue 24.
NEČAS, Ctibor: Pal o Roma [elektronický zdroj] = O Romech : výběrový a retrospektivní soupis
literatury, vzešlé z tvorby romských a neromských autorů. Brno : Muzeum romské kultury, 2012.
PDF.
PUCHMAJER, Antonín Jaroslav: Románi Čib, das ist, Grammatik und Wörterbuch der Zigeuner
Sprache, nebst einigen Fabeln in derselben : dazu als Anhang die Hantýrka, oder, die Čechische
Diebessprache / von Anton Jaroslaw Puchmayer. Prag : Auf Kosten der Josepha verwittweten
Vetterl von Wildenbrunn, 1821.
RAJASEKARAN, R. – RAMA, K.: Handwritten Gregg Shorthand Recognition. International Journal of
Computer Applications 41(9):31-38, March 2012.
RYLICH, Jan: Čtení a zprostředkování literatury v digitálním věku. Ikaros, 2015, roč. 19, č. 10 (viz
http://ikaros.cz/cteni-a-zprostredkovani-literatury-v-digitalnim-veku)
Somers, Harold (1997) Machine Translation and Minority Languages, in Translating and the
computer, Issue 19, Papers from the Aslib conference, Londýn, s. 1–13.
Soria, C., Mariani, J., Zoli, C. (2013) Dwarfs sitting on the giants’ shoulders – how LTs for regional
and minority languages can benefit from piggybacking major languages. URL:
http://www.smallcodes.com/ (cit. 9. listopadu 2015).
Strategie
romské
integrace
do
roku
2020.
Únor
2015.
Viz
http://ec.europa.eu/justice/discrimination/files/roma_czech_republic_strategy2_cs.pdf
(naposledy navštíveno 28. 11. 2015)
např.
ŠEBKOVÁ, Hana – ŽLNAYOVÁ, Edita : Nástin mluvnice slovenské romštiny : (pro pedagogické účely)
Vyd. 1. V Ústí nad Labem : Univerzita Jana Evangelisty Purkyně, Pedagogická fakulta, 1998.
TUCHOLSKY, Kurt: Gesammelte Werke 1931, Band 9. Reinbek bei Hamburg: Rowohlt, 1987.
TŮMA, Lukáš: Policejní identifikace osob v Československu mezi lety 1918 a 1938. Diplomová práce.
Praha, Univerzita Karlova v Praze, 2011.
Wolf, Siegmund A.: Grosses Wörterbuch der Zigeunersprache. Mannheim, Bibliographisches
Institut, 1960. 287 s.
71

Podobné dokumenty

Učíme stroje česky

Učíme stroje česky představovalo největší evropský převzetí od roku 1980 v New Yorku založenaMarsh & McLennan, který je největším na světě pojišťovací makléř. Je také prvním hlavním znakem je dlouho očekávaná-konsoli...

Více

II. Řešení sporů vznikajících ze spotřebitelských transakcí v EU MGr

II. Řešení sporů vznikajících ze spotřebitelských transakcí v EU MGr vydala další Doporučení č. 310/2001 EC, které obsahuje zásady mimosoudního řešení sporu, v němž však třetí subjekt vystupuje jako smírce, tedy vede strany ke kompromisu, ale sám žádné řešení nepřed...

Více

Výroční zpráva 2006 - Česká bankovní asociace

Výroční zpráva 2006 - Česká bankovní asociace prostředí. Míru soutěživosti na bankovním trhu pak dokládá i neustálé posilování úlohy středně velkých bank, doprovázené dopadem M&A aktivit podníceným fúzí mateřských společností v zahraničí nebo ...

Více

Kvalita a hodnocení překladu: Modely a aplikace

Kvalita a hodnocení překladu: Modely a aplikace a jejich testování v průběhu studia. Podle Carol Maierové (2000) byly úvahy o hodnotě a kvalitě překladatelské práce z historického hlediska mimořádně složité. V současnosti však rostoucí potřeba p...

Více

užitečný blbec

užitečný blbec nároky multijazykových komunit a mezinárodního obchodu zvýšily poptávku po překladech v Evropě, Kanadě a Japonsku nad kapacitu zavedených překladatelských služeb. Cílem se staly stroji podporované ...

Více

Šlapeme spolu. Instituce pouliční prostituce

Šlapeme spolu. Instituce pouliční prostituce V této práci jsem ovšem byl nucen orientovat se mnohem více na popis jednotlivých aktérů, jejich chování, interakce, než na samotnou hru. Důvodem je především neexistence popisů, ze kterých by byl...

Více