Slovenčina a čeština v počítačovom spracovaní

Transkript

Slovenčina a čeština v počítačovom spracovaní
VEDA
VYDAVATEĽSTVO SLOVENSKEJ AKADÉMIE VIED
JAZYKOVEDNÝ ÚSTAV ĽUDOVÍTA ŠTÚRA SLOVENSKEJ AKADÉMIE VIED
PEDAGOGICKÁ FAKULTA UNIVERZITY KOMENSKÉHO
RECENZENTI
Ing. Vladimír Benko
PhDr. Mária Šimková
SLOVENČINA
A ČEŠTINA
V PO ČÍ TA ČO V O M
SP R A C O VAN Í
Zborník referátov zo seminára
Bratislava 26. – 27. októbra 2001
EDITORKA
VEDA
vydavateľstvo
Slovenskej
akadémie
vied
Bratislava 2001
ALEXANDRA JAROŠOVÁ
© Vladimír Benko, František Čermák, Sachia Daržágín, Peter Ďurčo, Karol
Furdík, Jan Hajič, Jana Hašanová, Jozef Ivanecký, Alexandra Jarošová,
Eduard Kostolanský, Ľubomír Kralčák, Vlasta Křečková, Michal Křen,
Karel Pala, Milan Rusko, Pavel Smrž, Marián Trnka 2001.
Tento zborník je jedným z výsledkov účasti Jazykovedného ústavu Ľudovíta Štúra Slovenskej akadémie vied a Pedagogickej fakulty Univerzity Komenského v
mnohonárodnom projekte Transeurópska infraštruktúra jazykových zdrojov II
(Trans--European Language Resources Infrastructure II – TELRI II, PL 977085), ktorý sa ako súbor koordinovaných podujatí (coordinated action)
uskutočnil v rámci programu Európskej komisie INCO-COPERNICUS v
rokoch 1999 – 2001. Aktivity slovenských partnerov v tomto projekte boli čiastočne financované z prostriedkov štátneho rozpočtu Slovenskej republiky (grant
SAV pridelený na riešenie projektu medzinárodnej vedecko-technickej spolupráce č. 51-98-9205-00/1999 a grant Ministerstva školstva Slovenskej republiky č. PL 97-7085)
ISBN 80-224-0692-9
OBSAH
OBSAH.............................................................................................................5
Malá inventúra pred hľadaním spoločného jazyka..........................................7
Statistické modelování
a automatická analýza
přirozeného jazyka
(morfologie, syntax, překlad)..........................................................................11
Jan Hajič: Ústav formální a aplikované lingvistiky a Centrum komputační lingvistiky, Matematicko-fyzikální fakulta Univerzity Karlovy ([email protected])..............................................................................................................11
Identifikácia paradigmatických
a syntagmatických vzťahov v texte.................................................................35
Karol Furdík: Juvier, s.r.o., Košice.....................................................................35
Spracovanie morfologickej
roviny slovenčiny počítačom..........................................................................51
Eduard Kostolanský – Jana Hašanová: Laboratórium počítačovej lingvistiky,
Pedagogicka fakulta Univerzity Komenského, Bratislava.................................51
Databases for Speech Recognition and Synthesis in Slovak..........................92
Milan Rusko – Sachia Daržágín – Marián Trnka: Institute of Informatics,
Slovak Academy of Sciences, Bratislava............................................................92
SAMPA V SLOVENČINE A JEJ VÝZNAM
Z POHĽADU VIACJAZYČNÝCH
SYSTÉMOV NA ROZPOZNÁVANIE REČI .............................................102
Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej univerzity Košice ([email protected])................................................102
AUTOMATICKÁ TRANSKRIPCIA
SLOVENČINY V POČÍTAČOVOM
ROZPOZNÁVANÍ REČI .............................................................................114
Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej univerzity Košice ([email protected])...........................................114
viacjazyčný výslovnostný
slovník vlastných mien a názvov lokalít......................................................122
Peter Ďurčo: Akadémia Policajného zboru, Bratislava (durco@ minv.sk)......122
ČESKÝ NÁRODNÍ KORPUS:
Stav v roce 2001............................................................................................126
František Čermák: Ústav Českého národního korpusu, Filozofická fakulta University Karlovy, Praha ([email protected])...................................126
Český národní korpus –
počítačová demonstrace................................................................................142
Michal Křen: Ústav Českého národního korpusu, Filozofická fakulta University
Karlovy, Praha..................................................................................................142
Informácie v terminologických databázach a ich využívanie pri preklade odborných textov...............................................................................................148
Vlasta Křečková: Fakulta humanitných vied Univerzity Mateja Bela, Banská
Bystrica.............................................................................................................148
Projekt slovníka štúrovskej
slovenčiny a jeho počítačová podpora..........................................................156
Ľubomír Kralčák: Katedra slovenského jazyka, Filozofická fakulta Univerzity
Konštantína Filozofa, Nitra..............................................................................156
Návrh české lexikální databáze....................................................................161
Karel Pala: Katedra informačních technologií, Fakulta informatiky Masarykovy
university, Brno ([email protected])..................................................................161
Slovníková data ve formátu XML................................................................175
Pavel Smrž: Fakulta informatiky Masarykovy univerzity, Brno......................175
počítačová podpora SLOVENSKÝCH lexikografických projektov – retrospektívny pohľad............................................................................................188
Vladimír Benko: Laboratórium počítačovej lingvistiky Pedagogickej fakulty
Univerzity Komenského; Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied, Bratislava (Vladimir.Benko@fedu. uniba.sk)..................................188
MALÁ INVENTÚRA PRED HĽADANÍM
SPOLOČNÉHO JAZYKA
Seminár Slovenčina a čeština v počítačovom spracovaní sme organizovali
so zámerom zlepšiť vzájomnú informovanosť ľudí zaoberajúcich sa na Slovensku problematikou počítačov vo vzťahu k jazyku a naopak, jazyka vo vzťahu
k počítačom. V tejto oblasti sú u nás značne izolované ostrovčeky aktivít prebiehajúcich v odlišných vedných odboroch a teoreticko-aplikačných kontextoch. Tieto sa zameriavajú len na neveľké úseky a komponenty odboru počítačová lingvistika, pod ktorým možno chápať spolu s automatizovaným spracovaním jazykových dát (vývoj a použitie príslušných programových nástrojov) aj
teoretickú výstavbu jazykovedy v podobe modelov založených na využívaní
jazykových znalostí v procedurálnej aj deklaratívnej podobe (gramatické
pravidlá a počítačové lexikóny vybavené vysoko štruktúrovanou explicitnou informáciou, ako aj procedúry túto informáciu využívajúce), alebo v podobe
modelov založených na pravdepodobnosti (stochastické gramatiky). V tomto
zmysle môžu byť pre nás relevantné aj aktivity v oblasti umelej inteligencie a
niektoré komponenty kognitívnej lingvistiky (scenáre, rámce a prototypy). Rozšírenie záberu má svoje opodstatnenie, pretože v pozadí formalizovaných a explicitných modelov stojí zreteľ k možným aplikáciám a naopak, technické aplikácie implementujú modely a výrazne stimulujú pohyb v teoretickej jazykovede vo všeobecnosti.
Na rozdiel od Slovenska je situácia v Českej republike diametrálne odlišná. Keďže česká počítačová lingvistika je cieľavedome budovaná ako samostatný odbor už viac ako tridsať rokov, predstavuje dnes široké spektrum bádateľských a aplikovaných aktivít od formálnej (matematickej) lingvistiky cez počítačovú lexikografiu, strojový preklad, spracovanie rečového signálu až po
korpusovú lingvistiku. Druhým cieľom nášho seminára je preto poskytnúť
slovenskej odbornej verejnosti a študentom z lingvistických aj nelingvistických
odborov ucelenejší pohľad na výsledky práce v oblasti počítačového spracovania češtiny, ktorá patrí v tomto smere medzi európsku a vo viacerých parametroch aj medzi svetovú špičku. Tento prehľad nám sprostredkujú vedúce osobnosti
v danom teoretickom alebo aplikovanom úseku.
Naším seminárom by sme chceli nadviazať na vedeckú, pedagogickú a organizačnú prácu Jána Horeckého, ktorý sa od začiatku šesťdesiatych rokov
20. storočia usiloval uplatňovať princípy a metódy matematickej lingvistiky na
7
materiáli slovenského jazyka (v jeho bibliografii možno nájsť vyše päťdesiat
štúdií a článkov s danou problematikou). Tieto poznatky sprostredkoval aj svojim študentom a ašpirantom v prednáškach z matematickej lingvistiky a základov jazykovedy (skriptum Úvod do matematickej lingvistiky, Bratislava
1969 a učebnica Základy jazykovedy, Bratislava 1978). J. Horecký sa usiloval
zakotviť matematickú jazykovedu aj inštitucionálne, keď v roku 1962 založil
oddelenie matematickej lingvistiky a fonetiky v bývalom Ústave slovenského
jazyka SAV. V oddelení, ktoré viedol do roku 1970, pripravovali mladí adepti
vedy K. Buzássyová, J. Bosák a R. Gedeon pomocou diernoštítkového stroja
slovník tvarov a morfém a publikovali rad štúdií z oblasti štatistickej lingvistiky. V roku 1970 sa z iniciatívy J. Horeckého v uskutočnilo v Smoleniciach
medzinárodné sympózium o algebraickej lingvistike, na ktorom sa zúčastnili vedúce osobností pôsobiace v tomto odbore (materiály zo sympózia boli uverejnené v Recueil Linguistique de Bratislava, vol. IV, Bratislava 1973). Matematická jazykoveda v tom čase zahŕňala aj staršiu kvantitatívnu (štatistickú) lingvistiku, zaoberajúcu sa najmä skúmaním frekvencie jazykových jednotiek v textoch, a algebraickú jazykovedu ako súhrn teórií vypracovaných s použitím
matematickej logiky, teórie množín, teórie grafov a iných súčastí teoretického
aparátu matematiky.
Ak sme vyššie spomínali kvantitatívnu analýzu textov vyúsťujúcu do tvorby abecedných a konkordančných indexov a frekvenčných slovníkov, nemôžeme nespomenúť priekopníka kvantitatívnych metód v jazykovede a literárnej
vede na Slovensku G. Altmanna a tiež autora frekvenčného slovníka slovenčiny
(Frekvencia slov a tvarov, Bratislava 1969) a publikácie Frekvencia tvarov a konštrukcií v slovenčine (Bratislava 1985) J. Mistríka.
Počítačovú lingvistiku chápanú podľa J. Horeckého ako aplikovaná matematická lingvistika, predstavovali v tom čase vlastne len zahraničné práce na
strojovom preklade. Začiatkom sedemdesiatych rokov viaceré administratívne
rozhodnutia sčasti externé (vo vzťahu k odboru), sčasti vnútorné (súvisiace s
organizačnými zmenami v Jazykovednom ústave Ľudovíta Štúra) spôsobili, že
sa matematická lingvistika nemohla na Slovensku rozvíjať ako samostatný odbor. J. Horecký v nasledujúcich rokoch spolupracoval na niektorých problémoch automatizovanej morfologickej analýzy slovenčiny s českými kolegami z
Ústavu formální a aplikované lingvistiky na Matematicko-fyzikálnej fakulte Karlovej univerzity v Prahe.
Vybrané lingvistické problémy (napr. lematizácia, tvorba sémantických
sietí, rozpoznávací slovník) boli v osemdesiatych rokoch súčasťou riešenia úlohy
8
spracovania textu pre potreby informačných (najmä knižničných) systémov (M.
Cigánik, A. Appelová).
Absencia inštitucionálnej a personálnej základne počítačovej lingvistiky
sa odrazila na malej pripravenosti slovenskej jazykovedy vyrovnať sa s búrlivým zahraničným vývojom v oblasti automatizovaného spracovania prirodzeného jazyka (Natural Language Processing – NLP). Tento typ výskumu nahradil koncom šesťdesiatych rokov problematiku strojového prekladu (stiahnutú z agendy administratívnym zásahom). Bádanie sa začalo orientovať na
dostatočne presný opis základných prvkov a vzťahov jazykovej štruktúry vhodný na spracovanie do podoby počítačového programu. Mohlo preto slúžiť ako
vhodná základňa na etablovanie počítačovej lingvistiky ako samostatnej vednej
disciplíny a nie ako aplikácie matematickej lingvistiky.
Trocha lepšie je slovenská jazykoveda pripravená na novú empirickú orientáciu jazykovedy, ktorá sa prejavuje v budovaní reprezentatívnej materiálovej
základne jazykovedného výskumu. Tieto rozsiahle zdroje autentického materiálu majú podobu textových databáz – korpusov. Korpusová lingvistika, ktorá
sa zaoberá problematikou budovania a využívania textových korpusov, nie je
len súborom progresívnych metód zhromažďovania a spracúvania materiálu,
ale predstavuje v zásade iný pohľad na jazyk a jeho jednotky. Tu treba opäť
spomenúť osobnosť J. Horeckého, ktorý stál aj pri revitalizácii počítačovej lingvistiky v Jazykovednom ústave, keď v rokoch 1988 – 1989 pripravil projekt
bázy dát slovenského jazyka, v rámci ktorej sa začalo uvažovať aj o budovaní
korpusu. Vďaka ústretovému prístupu riaditeľa Informačného centra SAV E.
Kostolanského a jeho spolupracovníkov V. Benka a C. Belicu sa uskutočnilo
niekoľko pracovných stretnutí, na ktorých sa prerokúvali možnosti vytvorenia
spoločnej pracovnej skupiny počítačovej lingvistiky. V roku 1990 táto skupina
(J. Horecký, V. Benko, A. Jarošová, E. Páleš) vznikla v Jazykovednom ústave
Ľ. Štúra SAV a začala koncepčne pripravovať korpus a lexikálnu bázu dát.
Tento zámer sa začal v roku 1992 realizovať ako grantový projekt, bol však natoľko finančne a personálne poddimenzovaný (V. Benko, A. Jarošová, M. Šimková; všetci traja s polovičnou a menšou časovou kapacitou), že sa podarilo vybudovať len interný korpus Jazykovedného ústavu Ľ. Štúra. Ide zatiaľ o pomerne nevyvážený súbor textov (bez anotácií), rozdelený na niekoľko fragmentov,
ktoré doteraz nie sú spojené do jedného celku najmä preto, že používaný vyhľadávací program nedokáže naraz spracovať väčší objem textu.
Začiatkom deväťdesiatych rokov E. Páleš teoreticky a aplikačne dopracúval počítačový model slovenčiny, ktorý v roku 1994 publikoval v monografii
9
SAPFO – parafrázovač slovenčiny – počítačový nástroj na modelovanie v jazykovede. Začiatok deväťdesiatych rokov priniesol aj založenie Laboratória počítačovej lingvistiky na Pedagogickej fakulte Univerzity Komenského, kde sa
pripravuje morfologická databáza slovenčiny (E. Kostolanský, J. Hašanová, V.
Benko) a budúci učitelia a prekladatelia dostávajú v kurze prednášok informáciu
o počítačovej podpore prekladu, o jazykových zdrojoch a počítačovej podpore
výučby cudzieho jazyka. Nemáme presnú predstavu o mieste lingvistickej problematiky v štruktúre učebných predmetov v našich vzdelávacích inštitúciách
prírodovedného a technického smeru, ale aktívna účasť študentov Technickej
univerzity v Košiciach na medzinárodných kolokviách mladých jazykovedcov,
ktoré už desať rokov organizuje pracovníčka Jazykovedného ústavu Ľ. Štúra M.
Nábělková, svedčia o dobrých výsledkoch košických kolegov pracujúcich v odbore umelá inteligencia. Témy viacerých diplomových prác a tímových projektov študentov Matematicko-fyzikálnej fakulty a Fakulty elektrotechniky a informatiky Univerzity Komenského nás presviečajú o tom, že na týchto pracoviskách
nám vyrastajú partneri pre efektívny dialóg.
V roku 1999 sa v Bratislave uskutočnil medzinárodný seminár o inovačných prístupoch k viacjazyčným zdrojom a jazykovým technológiám Text Corpora and Multilingual Lexicography (Textové korpusy a viacjazyčná lexikografia). Toto podujatie, ktoré v spolupráci s Inštitútom nemeckého jazyka v
Mannheime (W. Teubert, A. Lawson) organizovali Jazykovedný ústav Ľ. Štúra
(A. Jarošová) a Pedagogická fakulta fakulta Univerzity Komenského (V. Benko), bolo súčasťou medzinárodného projektu Európskej komisie Trans-European
Language Resources Infrastructure – COPERNICUS (Transeurópska štruktúra
jazykových zdrojov). V týchto dňoch vrcholia organizačno-legislatívne aktivity
smerujúce k založeniu korpusového pracoviska v rámci Jazykovedného ústavu
Ľ. Štúra.
Veľmi si vážime záujem všetkých, ktorí sem prišli prednášať aj počúvať,
diskutovať a hľadať riešenia. Vitajte!
Alexandra Jarošová
10
STATISTICKÉ MODELOVÁNÍ
A AUTOMATICKÁ ANALÝZA
PŘIROZENÉHO JAZYKA
(MORFOLOGIE, SYNTAX, PŘEKLAD)
Jan Hajič: Ústav formální a aplikované lingvistiky a Centrum
komputační lingvistiky, Matematicko-fyzikální fakulta Univerzity
Karlovy ([email protected])
Abstract: Statistical modeling is now the prevailing method used in automatic procedures of analysis of
a natural language. Such an analysis can be performed at various levels, from phonetics to semantics. Two
levels of representation are described: a morphological one and a syntactic one that is further subdivided
into surface syntax and deep syntax (tectogrammatics). The role of linguistically annotated corpora will be
stressed as a necessary prerequisite for any supervised machine learning algorithms, showing examples
from the Prague Dependency Treebank (PDT) being developed at Charles University, Prague. A possible
application of some of the tools created during (and thanks to) the development of the PDT will be shown,
namely, a machine translation system translating from Czech to Slovak.
1. Úvod
Automatická analýza přirozeného jazyka1 počítačem vyžaduje – koneckonců jako každý problém, který řešíme – rozdělit práci na několik
menších, dobře definovaných podproblémů, které pak řešíme (pokud možno)
nezávisle. V oblasti zpracování přirozeného jazyka se mluví o tzv. rovinách popisu (a zpracování) jazyka. Tyto roviny jsou uspořádány zdola nahoru (pro účely analýzy jazyka), od roviny nejjednodušší (zabývající se ortografií či
akustickou stránkou věci) po rovinu nejsložitější, rovinu významu. Každá rovina má své jednotky popisu, definice vztahů na této rovině, a navazuje bezprostředně na rovinu nižší a vyšší. Obvykle se hovoří o pěti až šesti rovinách
(akustika/ortografie, fonetika, fonologie, morfologie, syntax, sémantika), ale
často se (například z praktických důvodů) některé roviny slučují dohromady
1
V tomto příspěvku se omezíme na zpracování textu. Rozpoznávání (a syntéza) mluvené řeči je
sice ve smyslu „porozumění“ jazyku podobný problém, avšak tradičně se soustředí zejména na zpracování akustického signálu, a v jistém smyslu – aspoň z dnešního pohledu, s existujícími aplikacemi a
systémy v ruce – se na něj lze dívat jako na přídavný krok, ve kterém nejprve převedeme řečené na text,
který dále zpracováváme.
11
JAN HAJIČ
(např. při zpracování textu je rovina ortografická a fonetická téměř vždy sloučena, často i s rovinou fonologickou). Syntax a sémantika rovněž úzce souvisí a
ne náhodou se analýza na strukturní úrovni často nazývá syntakticko-sémantická, přičemž se zde opět slučují dvě roviny. Naopak, někdy je výhodné (nebo
technicky lépe proveditelné) vložit mezi morfologii a syntax ještě jednu rovinu,
a to rovinu tzv. povrchové syntaxe. V zahraničních pojetích se obvykle setkáváme jen se dvěma rovinami, a to rovinou morfologickou a povrchově-syntaktickou.
V tomto příspěvku budeme mluvit jednak o rovině morfologické, která
v našem případě zahrnuje všechny roviny nižší, s výjimkou té části roviny ortografické, která se zabývá identifikací slov a interpunkce, a jednak o rovině syntaktické, a to jak o její povrchové podobě, tak i o tzv. hloubkové syntaxi, která
se zabývá reprezentací jazykového významu. Nebudeme však zde tyto roviny
popisu jazyka rozebírat z lingvistického pohledu, nýbrž se zaměříme na to, jak
se tyto roviny promítají do práce s textovými korpusy, zejména pro účely jejich
anotování a následného automatického zpracování.
V poslední části příspěvku popíšeme jednu zajímavou aplikaci, systém automatického překladu z češtiny do slovenštiny, který (trochu překvapivě)
funguje velmi dobře i přesto, že analýza jazyka je v něm omezena vlastně jen
na rovinu morfologickou.
2. Morfologická analýza a značkování textu
V úvodu jsme řekli, že v našem pojetí morfologická (tvaroslovná) analýza
spojuje všechny nižší roviny až k rovině tradičně nazývané morfématická. Nezabývá se však prvotním zpracováním textu, kterému se v počítačové analýze
nemůžeme vyhnout, a to tzv. tokenizací. Morfologická analýza tedy vstupuje
do hry až v okamžiku, kdy ve vstupním textu jsou identifikována slova, mezery,
interpunkce, a pokud možno i začátky a konce vět. Jakkoli triviální se tento
úvodní problém může zdát, není tomu tak; již jen definice toho, co to je
„slovo“2 je někdy nejasná: je byl-li, pracovals, technicko-hospodářský nebo
naň jedno slovo, nebo dvě? Je New York nebo Kostelec n./Č. lesy jedno slovo,
nebo dvě (resp. pět slov)? Obvykle se volí nějaký relativně dobře definovatelný
kompromis. Zdá se, že z hlediska dalšího zpracování je vhodné v nejasných
2
„Slovem“ se zde myslí slovo v tom tvaru, ve kterém se v textu vyskytuje, takže korunou a korunami jsou dvě různá slova.
12
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)
případech za slovo brát jednotku co nejkratší. V každém případě ale tokenizace
není vlastní součástí morfologické analýzy, v této kapitole tedy předpokládáme,
že tokenizace je již dokončena a jednotka zpracování pro morfologickou analýzu je tedy již jednoznačně určena3. Tento předpoklad je i z praktického hlediska
nepříliš omezující, neboť většina existujících textových korpusů je tokenizována, jako např. pro nás důležitý Český národní korpus (Čermák 2001).
2.1 Co je to morfologická analýza?
Na střední škole se učí, že úkolem morfologické analýzy slova2 je určit
morfologické kategorie danému slovu v textu příslušné. Pro člověka je tato definice přijatelná, a koneckonců každý z nás na oné střední škole nakonec nějak
uspěl. Při počítačovém zpracování je však situaci třeba definovat a popsat
mnohem přesněji.
Především je třeba jasně rozlišovat mezi morfologickou kategorií a její
hodnotou. Číslo je morfologickou kategorií, singulár (jednotné číslo) její
hodnotou. V češtině a slovenštině je možno rozlišovat mnoho kategorií, v našem systému jich používáme celkem 13: slovní druh, slovní „poddruh“, rod,
číslo, pád, přivlastňovací rod, přivlastňovací číslo, osobu, čas, slovesný rod,
negaci, stupeň a variantu. Hodnotami jsou např. čísla 1 až 7 pro české pády,
„aktivní“ a „pasívní“ pro slovesný rod, atd. Nejbohatší kategorií je slovní poddruh, který má celkem 75 možných hodnot, nejvíce z nich pro zájmena.
Pozornému čtenáři jistě neunikne, že v seznamu kategorií není nejen kategorie vzoru (vzor má v systému pouze pomocnou úlohu, a je zcela nepotřebný
pro navazující analýzu jazyka), ale ani např. kategorie způsobu; důvod je však
prostý: morfologická analýza v našem systému pracuje bez ohledu na kontext,
tj. zpracovává izolovaně vždy jen jedno slovo (slovní tvar). Tím „odsouvá“ řešení některých problémů na pozdější dobu, a jakkoli je to z lingvistického pohledu bolestné, je tento přístup (vyplývající z dělení popisu a zpracování jazyka
na jednotlivé roviny) jediný možný, neboť umožňuje nemíchat dohromady věci,
3
Mluvíme-li o jednoznačném určení (zde slovních jednotek, tokens), musíme zároveň říci, jak je
toto určení realizováno v textu. K tomu se používají dnes už téměř výhradně tzv. markup jazyky, definované na základě standardu SGML, který je dnes nahrazován jednodušším a pro počítačové zpracování příhodnějším XML (jež je svým způsobem podmnožinou SGML). (Známý jazyk pro popis
webových stránek, HTML, je rovněž specifikován pomocí SGML.) Zjednodušeně lze říci, že každá
značka – zde samozřejmě mluvíme o značce v technickém smyslu, nikoli o značce morfologické – má
své jméno, a pro účely rozlišení mezi textem a značkami je jednotně ohraničena symboly ‚<‚ a‘ >‘.
13
JAN HAJIČ
které k sobě nepatří a byly by tudíž těžko formalizovatelné a zpracovatelné. Ze
stejných důvodů je nutno brát kategorii slovesného času jako kategorii příslušnou k analyzovanému participiu (pracoval), nikoli k celému analytickému
tvaru (který v uvedeném příkladu může být jak času minulého pracoval jsem,
tak i času přítomného v podmiňovacím způsobu pracoval bych).
Vzhledem k tomu, že morfologická analýza pracuje s jednotlivými slovy
z textu izolovaně, bez ohledu na kontext, tak se na rozdíl od úloh řešených na
střední škole nezabývá ani jednoznačnou identifikací hodnot morfologických kategorií. Pochopitelně, ani nemůže: bez větného kontextu není možno mezi
jednotlivými možnostmi vůbec vybírat. Problémem jednoznačného určení hodnot
morfologických kategorií se zabývá tzv. značkování, ke kterému se vrátíme za
chvíli.
Pro počítačové zpracování se zavádí tzv. množina morfologických značek
(tagset). Každá značka shrnuje hodnoty morfologických kategorií pro jeden
slovní tvar. Pro vlastní zpracování se používá několik typů notací, z nichž nejrozšířenější je notace tzv. poziční. V této notaci se každé kategorii přiřadí pozice ve značce, a každé hodnotě jeden znak, který se zapisuje na příslušnou pozici. Slovní druh je tedy např. na první pozici, a jeho hodnoty jsou reprezentovány např. znaky N (pro podstatné jméno, noun), A (pro adjektivum) atd. Hodnoty pro daný slovní tvar irelevantních kategorií jsou označeny speciálním znakem, obvykle pomlčkou. Např. tedy pro obyčejné podstatné jméno rodu mužského neživotného ve 4. pádě jednotného čísla v pozičním systému s 15 kategoriemi má příslušná značka tvar NNIS4-----A---- (první pozice je slovní druh
(N), druhá slovní poddruh (zde N), třetí rod (I pro mužský neživotný, masc.
inanim.), čtvrtá číslo (S pro singulár), pátá pád (4 pro akuzativ), atd. (A na jedenácté pozici specifikuje, že dané slovo není negováno příslušnou předponou).
Co tedy (počítačová) morfologická analýza vlastně dělá? Po výše uvedeném
výčtu toho, co nedělá, by se zdálo, že nedělá téměř nic; samozřejmě, že tak tomu
není. Morfologická analýza pro každý slovní tvar určí všechny možnosti kombinací hodnot morfologických kategorií, které danému tvaru vůbec mohou příslušet. Že i to je obrovská pomoc pro další zpracování, je vidět z prostého číselného
srovnání: zatímco všech možných značek (kombinací hodnot morfologických kategorií) je v našem systému pro češtinu přes 4400, průměrný počet značek po
morfologické analýze je menší než 5 (na jedno slovo v běžném textu).
Počítačová morfologická analýza však musí řešit ještě jeden problém, na
zmiňované střední škole probíraný pouze okrajově: tzv. problém lematizace.
Lematizace určuje pro každý slovní tvar jeho základní podobu (obvykle tvar, ve
14
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)
kterém slovo najdeme ve slovnících). Ani lematizace není obecně při zpracování izolovaného slova jednoznačná. Navíc je nutno rozlišovat mezi slovy,
která jsou v základním tvaru homonymní – např. stát (jako státní útvar) a stát
(jako sloveso). Počítačová lematizace proto ještě navíc tato slova rozlišuje a
jednoznačně identifikuje (např. připojením číselného indexu k základnímu tvaru slova, např. stát-1, stát-2 atd.).
Formálně tedy můžeme popsat morfologickou analýzu jako matematickou
funkci, která posloupnosti znaků (písmen) jazyka přiřazuje množinu možných
výsledků, složených vždy z dvojic <lema,značka>:
Ma(f) → { <l,t>; l ∈ L, t ∈ T },
kde f ∈ A+ je slovní tvar složený z písmen abecedy A analyzovaného
jazyka (např. stát), L je množina identifikací lemat (obvykle ve formě řetězce
nějakých znaků, považovaného ovšem za nedělitelný) v daném případě bude
jedním z možných výsledků např. stát-1), a T je množina značek používaná pro
daný jazyk (jako např. NNIS4-----A----; opět jde o řetězec znaků, považovaný
z hlediska definice za atomický).
Prakticky morfologická analýza pracuje s (tokenizovaným) textem, v dohodnutém formátu, a na výstupu je tentýž text obohacený o lemata a morfologické značky (obr. 1 a 2).
<f cap>Pekař
<f>peče
<f>housky
<D>
<d>.
Obr. 1: Vstup do morfologické analýzy – tokenizovaný text
<f cap>Pekař<MMl>pekař<MMt>NNMS1----A---<f>peče<MMl>péci<MMt>VeYS------A----<MMt>VB-S---3P-AA--<f>housky<MMl>houska<MMt>NNFP1-----A----<MMt>NNFP4-----A---<MMt>NNFS2-----A---<D>
<d>.<MMl>.<MMt>Z:-------------
Obr. 2: Výstup z morfologické analýzy (zjednodušeno)
15
JAN HAJIČ
2.2 Proces morfologické analýzy
Morfologická analýza, jejíž definici jsme uvedli v předchozí sekci, je
ovšem realizována v počítači nikoli jako matematická funkce, ale jako výpočetní procedura. Jako základní datová struktura slouží pro daný přirozený jazyk
jeho morfologický slovník, který je používán vlastním algoritmem morfologické analýzy (v zásadě pak již na jazyce nezávislým). Způsobů, jak efektivně
provádět morfologickou analýzu, se používá několik (Koskenniemi 1983,
Mohri 1998), my zde popíšeme náš systém „přímé“ analýzy. Ten potřebuje ke
své práci morfologický slovník a samozřejmě i příslušný algoritmus, který
vlastní morfologickou analýzy na základě slovníku realizuje. Na základě stejného slovníku pak může probíhat i morfologická syntéza, o té se ale zmíníme až v
sekci 4 o strojovém překladu.
2.2.1. Morfologický slovník
Morfologický slovník obsahuje ke každému lematu informaci o kmeni
slova (v našem případě, kvůli sloučení nejnižších rovin popisu jazyka do jedné,
je za kmen slova považována ta část slova, která se při ohýbání nemění), a o
přípustných koncovkách. Množina koncovek tvoří vzor. U každé koncovky je
navíc informace o tom, které značky (kombinace hodnot morfologických kategorií) jí pro daný vzor odpovídají.
Příkladem vzoru je např. následující množina koncovek a jejich značek:
„„ NNIS1-----A----, NNIS4-----A---„u“ NNIS2-----A----, NNIS3-----A----, NNIS6-----A---1
„e“ NNIS5-----A---„ě“ NNIS6-----A---„em“ NNIS7-----A---„y“ NNIP1-----A----, NNIP4-----A----, NNIP5-----A----, NNIP7-----A---„ů“ NNIP2-----A---„ům“ NNIP3-----A---„ech“ NNIP6-----A----
Tento vzor je v našem systému označen hd2x. Tedy k lematu stát-1 bude
v morfologickém slovníku uveden kmen „stát“ a vzor hd2x.
16
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)
Pro každý vzor je dále ve slovníku uvedeno, zda připouští negaci slova pomocí předpony „ne-“ (tj. negaci) a u každé koncovky dále informace o tom, zda
připouští připojení předpony „nej-“ (stupňování).
Pro velmi nepravidelná slova jsou pak ve slovníku uvedeny všechny jejich
tvary i s příslušnými značkami.
2.2.2 Algoritmus morfologické analýzy
Tzv. „přímá“ analýza slovních tvarů je založena na vyčerpávající analýze
slova z hlediska možné segmentace na kmen a koncovku (případně i předpony
ne- a nej-). Pro každou takto získanou dvojici kmene a koncovky je nutno ověřit, zda se ve slovníku vyskytuje jak kmen, tak i koncovka a zda kmen i koncovka náleží ke stejnému vzoru. Všechny dvojice lemat (příslušných ke
kmeni/kmenům) a značek (nalezených ve slovníku u příslušných koncovek)
jsou pak prohlášeny za výsledek morfologické analýzy. Podrobněji o v současnosti používané morfologické analýze češtiny viz Hajič (2001).
Příkladem může být slovo (slovní tvar) housky. Toto slovo je možno rozdělit na kmen housky + nulovou koncovku, nebo na housk + y, nebo na hous +
ky, atd. až k h + ousky (kmen nulové délky se nepřipouští). Z těchto možností
nakonec bude správná jen možnost hous + ky, neboť ve slovníku je neměnná
část základu (zde jen hous, neboť 2. p. mn. čísla je hous+ek). Koncovky y, sky
a nulová koncovka jsou sice ve slovníku koncovek uvedeny také, ale kmen
housk (hou) je nepřipouští (resp. nejsou uvedeny v seznamu koncovek pro vzor
příslušný danému kmeni).
Modernější systémy používají pro jádro systému morfologické analýzy
aparát konečných automatů, resp. v kombinaci s fonologií aparát tzv. sekvenčních strojů (konečných převodníků)4. Prvním takovým systémem byla tzv.
„Two-level morphology“ (Koskenniemi 1983), následovníky pak Xerox
Language Tools (XLT, zpracována je i čeština, viz Skoumalová 1997), a v poslední době je volně k dispozici univerzální soubor nástrojů pro konečné automaty a převodníky (nejen pro morfologii) FSM od AT&T Research (Mohri et
al. 1998). Je však nutno podotknout, že v dnešní době už vnitřní struktura
(implementace) morfologického analyzátoru nehraje prvořadou roli – důležitá
je spíše udržovatelnost a rozšiřitelnost systému.
4
Podrobněji o konečných automatech a sekvenčních strojích viz např. (Chytil 1984).
17
JAN HAJIČ
2.3 Značkování (zjednoznačňování morfologické analýzy)
Značkování (anglicky poněkud nevhodně nazývané „Part-of-Speech tagging“) je v rámci popisu a zpracování jazyka pomocí rovin jakýsi „krok
stranou“: snažíme se totiž na úrovni morfologické analýzy o něco, co alespoň
teoreticky přísluší až rovině syntaktické (ať už povrchové nebo hloubkové).
Nicméně je to problém velmi praktický, jehož výsledky jsou použitelné ve třech
směrech: jednak jako (zatím) finální krok při značkování korpusů pro lexikografické účely, dále jako krok výrazně zrychlující syntaktickou analýzu (byť do
ní vnáší jistou míru chyb, jak uvidíme dále), a v neposlední řadě i pro některé
aplikace, které mohou s výhodou využít i jen částečnou jazykovou analýzu
(např. pro vyhledávání v elektronických slovnících, pro vyhledávání informací
obecně, a dokonce i pro strojový překlad pro blízké flektívní jazyky – viz dále
sekce 4).
Značkování již může využít pro zjednoznačnění výstupu morfologické
analýzy (na rozdíl od ní samé) kontext, ve kterém se analyzované slovo nachází. Dnes se téměř výhradně používají pro značkování metody statistické, založené na strojovém učení. Počítač se tedy naučí, že po určitých předložkách
následují jen některé pády, že na začátku věty nalezneme spíše pád první než
jakýkoliv jiný, nebo že slovo při je téměř vždy předložka, jen velmi málokdy
tvar slova pře, a téměř nikdy rozkazovací způsob od slovesa přít (a k tomu se,
doufejme, naučí i to, kdy jde přeci jen o (soudní) při).
Jak se však může počítač takovou věc naučit? Potřebuje k tomu (alespoň
v dosud nejúspěšnějších metodách) předem ručně označkovaný korpus. Takový
korpus je samozřejmě velmi pracnou záležitostí; pro spolehlivé naučení, kdy
procento chyb klesá (pro češtinu) pod 5 %, bylo třeba označkovat přes 1.5 miliónu výskytů slov v textu (přitom každé zdvojnásobení tohoto počtu přinese jen
několik desetin procenta zlepšení, a jistou hranici úspěšnosti zřejmě nelze překročit vůbec). Označkované korpusy jsou proto velmi cenným zdrojem lingvistických informací (nejen pro automatické strojové učení, ale samozřejmě i pro
vyhodnocování jiných metod, použitých pro značkování). Příkladem takových
korpusů jsou např. Brown Corpus (první značkovaný korpus na světě z konce
60. let), Penn Treebank (Marcus 1993) a pro češtinu čerstvě vydaný Pražský
závislostní korpus (Hajič et al. 2001b).
Učení z ručně označkovaného korpusu (takovému korpusu se říká trénovací data) může probíhat několika způsoby. Velmi jednoduchý a účinný (a
dosud prakticky nepřekonaný) je postup, při kterém se spočítají relativní
18
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)
četnosti značek následujících po dvojici bezprostředně předcházejících značek
v textu (takový způsob se nazývá HMM tagging: viz (Church 1992, Hladká
1994, Mírovský 1999, Hladká 2000, Hajič et al. 2001a). Pro každou dvojici
značek (tzv. historii) se tak vytvoří menší či větší tabulka, ve které jsou uvedeny relativní četnosti značek po ní následujících v trénovacích datech. Jakkoli je
tento systém lingvisticky jasně neadekvátní, značkování založené na efektivním
algoritmu aplikace těchto tabulek (virtuálně rozšiřujícím délku historie
(kontextu) na mnoho slov na obě strany od analyzovaného slova) na kontinuální text (Jelinek 1998) dává velmi dobré výsledky: pro angličtinu se dosahuje i méně než 3 % chyb na prakticky libovolném textu, pro češtinu pak
okolo 5 %.
Pro češtinu vyvíjíme při její bohatosti značek ještě jeden systém (Hajič
2001), který, jak doufáme, přiblíží úspěšnost značkování angličtině. Tento systém je založen na individuálním „předpovídání“ hodnot jednotlivých morfologických kategorií. Statisticky, automaticky vybraná vhodná „pravidla“ (features
neboli rysy) se ohodnotí váhami (opět zcela automaticky v procesu učení z předem ručně označkovaných dat). Takto ohodnocená „pravidla“ se pak používají
v procesu automatického značkování tak, že se pro každou hodnotu spočítá její
pravděpodobnost v daném kontextu, a výsledná značka je pak „kompromisem“,
neboť se pochopitelně vybírá pouze mezi značkami nabídnutými morfologickou
analýzou. Tato metoda je nyní stejně úspěšná jako výše uvedená metoda HMM
taggingu, potřebuje však méně statistických dat při vlastním značkování (avšak
je velmi náročná v průběhu učení na čas výpočtu).
Kromě čistě statistických přístupů uvažujeme rovněž o možné kombinaci
s metodami „nestatistickými“, tj. tradičně lingvistickými, které především
pracují s ručně vytvořenými pravidly s komplexními podmínkami. Tato
pravidla použitá samostatně vykazují poměrně malou úspěšnost z hlediska počtu víceznačností, které jsou schopny řešit, avšak jsou poměrně přesná (v případech, které řešit umějí). Systém pak pracuje tak, že tato „lingvistická“ pravidla
jsou aplikována nejdříve, čímž se víceznačnost zredukuje (aniž by byla ovšem
odstraněna správná varianta), a pak „statistická“, tj. automaticky naučená
„pravidla“ zjednoznačňování dokončí (Hajič et al. 2001a).
Jako konkrétní příklad uveďme opět větu Pekař peče housky. Funguje-li
disambiguace správně, na základě vstupu z obr. 2 obdržíme následující výstup
(obr. 3), ve kterém je pro každé vstupní slovo už jen jedna značka a jedno lema:
<f cap>Pekař<MDl>pekař<MDt>NNMS1----A----
19
JAN HAJIČ
<f>peče<MDl>péci<MDt>VB-S---3P-AA--<f>housky<MDl>houska<MDt>NNFP4-----A---<D>
<d>.<MDl>.<MDt>Z:-------------
Obr. 3: Zjednoznačněný výsledek morfologické analýzy
U slova Pekař nebylo nutno rozhodovat o ničem, neboť již bylo jednoznačně určeno morfologickým analyzátorem5. Slovo peče je samozřejmě v této
větě v přítomném čase a 3. osobě (nikoli jako přechodník!) a housky jsou zde
ve 4. pádě množného čísla.
3. Syntaktická závislostní analýza
Jakkoli jsou morfologická analýza a (morfologické) značkování zajímavé
a užitečné, nedotýká se přímo struktury věty. Z hlediska skladby věty potřebujeme zjišťovat, která slova jsou ve vztahu gramatické závislosti: řídící slovo je
„důležitější“, ve větě jej obvykle nelze vynechat bez narušení gramatické skladby věty, a obyčejně určuje většinu gramatických kategorií slova závislého (např.
na základě shody).
Přímo zjišťovat skladbu věty je však velmi obtížné: důvodem jsou kromě
již známé nejednoznačnosti jazyka i např. elipsy (slova ve větě vynechaná, byť
z hlediska významu a standardní definice syntaxe nezbytná), konstrukce bez
slovesa, koordinace a apozice, parenteze (vsuvky) apod. Proto jsme se rozhodli
vložit mezi rovinu morfologickou a syntaktickou tzv. rovinu analytickou, která
zhruba odpovídá rovině povrchové syntaxe známé z jiných teoretických přístupů. Pracujeme tedy se dvěma syntaktickými rovinami: rovinou analytickou
a rovinou vlastní syntaxe, tzv. rovinou tektogramatickou (Sgall et al. 1986).
3.1 Analytická rovina syntaxe
Na analytické rovině se reprezentace věty zachycuje závislostním stromem6 s vrcholy, případně i hranami ohodnocenými jedním nebo několika
atributy. Ke každému slovu z analyzované věty (token, tj. i interpunkce) příslu5
Lze ovšem oprávněně namítnout, že slovo Pekař mělo být morfologickým analyzátorem určeno
též jako první pád jednotného čísla rodu mužského životného od vlastního jména Pekař. To je samozřejmě nedostatek slovníku, ovšem jen těžko řešitelný v plném rozsahu.
20
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)
ší právě jeden vrchol závislostního stromu. Závislostní vztahy jsou určeny hranami takového stromu a hodnoty příslušné k jednotlivým hranám určují (povrchově) syntaktickou funkci závislého uzlu vzhledem k uzlu řídícímu. Hodnotami
u vrcholů jsou pak dva údaje: příslušné lema (pro interpunkci se definuje jako
identické s původní formou interpunkce) a morfologická značka (soubor značek –
tagset – se rovněž vhodně rozšiřuje kvůli interpunkci, podobně jako na rovině
morfologické). Pro lepší čitelnost se u každého vrcholu zaznamenává i původní
tvar daného slova (ačkoli jej lze jednoznačně vyvodit z lematu a morfologické
značky) a je zde i řada dalších, technických a pomocných atributů. Z technických
důvodů se rovněž hodnota hrany (tj. povrchově-syntaktická funkce závislého
slova) uvádí u závislého uzlu.
Jako příklad lze uvést jednoduchou větu Kominík vymetá komíny (obr. 4).
Obr. 4: Analytická reprezentace věty Kominík vymetá komíny.
Vidíme, že Kominík je podmětem věty (Sb), vymetá je predikát (řídící
sloveso hlavní věty, Pred), a komíny je předmět (Obj). Závěrečná interpunkce
podle zásady co slovo (token) to vrchol stromu je rovněž přítomna, a to s funkcí
AuxK (speciální funkce pro koncovou interpunkci).
Lze tedy říci, že analytická rovina je velmi podobná tomu, co jsme se
všichni učili na základní a střední škole, snad s výjimkou postavení podmětu
6
Strom je matematicky definován jako souvislý acyklický orientovaný graf s jedním kořenem
(tj. vrcholem, do kterého nevede žádná hrana). Obvykle se znázorňuje „vzhůru nohama“, tj. kořen se
kreslí nahoře a orientace hran se zachycuje pomocí šipek, které vedou shora dolů, od řídícího k závislému vrcholu. Z technických důvodů se ovšem v elektronické podobě využívá s výhodou toho, že do každého vrcholu (někdy nazývaného podle angličtiny též „uzlem“) vede pouze jedna hrana, a směr závislosti se uchovává obráceně – to však nemá žádný vliv na skutečný směr závislosti.
21
JAN HAJIČ
(podmět není na stejné úrovni jako predikát) a toho, že na analytické rovině
jsou přítomna všechna slova z věty (to se týká nejen interpunkce, ale samozřejmě i předložek, spojek, pomocných a sponových sloves atd.).
Účelem analytické anotace jako předstupně k rovině tektogramatické (sekce 3.2) je zachytit základní závislostní vztahy (tj. vybudovat kompletní závislostní strom s analytickými funkcemi), označit pomocná slova a jejich vztah k
jiným jednotkám na této rovině (i když jistě nejde o skutečnou závislost v obvyklém smyslu), označit elipsu, pospojovat koordinované a aponované členy
věty, označit vsuvky apod.
Podmínka, že každému slovu ze vstupního textu odpovídá právě jeden vrchol závislostního stromu, není náhodná. Umožňuje totiž vytvořit relativně
efektivní nástroj pro automatickou povrchově-syntaktickou analýzu vět přirozeného jazyka (tj. v našem případě češtiny). Obecný postup je zde podobný jako
při morfologickém značkování (sekce 2.3): používají se primárně statistické metody založené na strojovém učení parametrů (pravděpodobností), používaný pravděpodobnostní model pro takovou analýzu je však mnohem komplikovanější. V
našem případě používáme analyzátor (Collins 1997) adaptovaný pro češtinu na
letním Workshopu na Johns Hopkins University v roce 1998 (Hajič 1998), který
dokáže správně určit kolem 80 % všech závislostí v testovacím textu.
Pochopitelně i pro učení syntaktického analyzátoru jsou třeba trénovací data
(tj. ručně syntakticky anotovaný korpus). Práce na ručním syntaktickém
anotování je mnohem náročnější než obdobná práce na zjednoznačňování morfologickém, a to jak z hlediska softwarové přípravy (anotovací nástroje musí pracovat s grafickým obrázkem analyzovaného stromu, tak, jak jsou na to lingvistéanotátoři zvyklí), z hlediska přípravy pokynů pro anotování (s trochou nadsázky
lze říci, že jsme museli přepsat, či snad explicitně dopracovat povrchovou syntax
češtiny, viz Hajič et al. 1997), i z hlediska vlastní anotovací práce. Pro češtinu
jsou taková data obsažena na CDROM Pražský závislostní korpus (Hajič 1998,
Hajič et al. 2001b), spolu se všemi potřebnými nástroji na (ruční) syntaktické
anotování korpusu. Na tomto CD je anotováno téměř 1.5 miliónu slov (asi 90 tisíc
vět) na analytické rovině.
3.2 Tektogramatická rovina syntaxe
Naším cílem však není zastavit se na rovině povrchové syntaxe. Připravujeme proto anotaci na rovině tektogramatické, kde se používá jiný repertoár
závislostních funkcí (které označují význam, nikoli jen povrchový vztah), kde
22
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)
odpadají vrcholy s pomocnými slovy a částečně i s interpunkcí, naproti tomu
přibývají na povrchu vypuštěné, leč z významového hlediska přítomné elipsy.
Navíc zde přibývá označení koreference a aktuální členění. Příklad věty
anotované na této rovině je na obr. 5.
Obr. 5: Anotace věty na tektogramatické rovině
Bližší popis tektogramatické roviny je možné nalézt z teoretického hlediska v (Sgall et al. 1986, Petkevič 1995) a pak přímo ve formě příručky pro
anotátory (Hajičová et al. 2000).
Tektogramatická rovina je jakýmsi mezičlánkem mezi lingvistickou analýzou a další analýzou sémantickou, logickou, analýzou textu apod., vedoucí ke
skutečnému porozumění přirozenému jazyku. Předpokládáme, že pro češtinu
dokážeme na této rovině anotovat řádově obdobný počet vět jako na rovině
analytické (cca 60 tisíc) do konce r. 2004.
4. Strojový překlad mezi blízkými jazyky
4.1 Základní idea a její zjednodušení
23
JAN HAJIČ
Ačkoli reprezentaci věty na tektogramatické rovině, jak byla popsána
v předchozí sekci, považujeme za hlavní formální nástroj k popisu lingvistického významu, který by měl být jádrem každé aplikace vyžadující porozumění
přirozenému jazyku, někdy se obejdeme s prostředky mnohem jednoduššími.
Takovou aplikací je například strojový překlad mezi velmi blízkými
jazyky, jako je čeština a slovenština, a jistě by se našly další příklady (někdy
nejde jen o blízké jazyky, ale může jít i o varianty jednoho jazyka, ať už
pravopisné, nářeční apod.). Pro jazyky vzdálenější (jako např. čeština a ruština,
viz Hajič et al. 1987) je otázka složitější: je jasné, že syntax je v jistých okamžicích potřebná, avšak není jasné, zda chyby, jichž se nutně v syntaktické analýze
dopustíme, vyváží tuto výhodu.
I při zjednodušené analýze ve strojovém překladu mezi češtinou a slovenštinou (podrobněji viz Hajič et al. 2000) zachováváme tradiční scénář strojového překladu (obr. 6).
Analýza
Transfer
Syntéza
Zdrojový jazyk
Cílový jazyk
Obr. 6: Obecné schéma strojového překladu
4.2 Tři fáze překladu: analýza, transfer, syntéza
Při analýze zdrojového jazyka se jednotlivé věty analyzují bez ohledu na
to, do kterého jazyka se překládá. Buduje se reprezentace věty vhodná pro fázi
transferu („vlastního překladu“). Ve složitých systémech touto reprezentací
může být hloubková syntaktická reprezentace, nebo dokonce logická struktura
užité věty, avšak v našem zjednodušeném případě bude touto analýzou pouze
analýza morfologická, zjednoznačněná pomocí statistického modulu (taggeru,
viz sekce 2).
Transfer pak bude zcela deterministický proces, který nahradí každé
zdrojové (české) slovo (resp. jeho lemma) jeho cílovým (slovenským)
ekvivalentem, a českou morfologickou značku značkou slovenskou (ve většině
případů bude tato značka zcela stejná, nebo jen formálně odlišná). V některých
případech však musíme slovenskou značku poněkud zobecnit, neboť se výji24
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)
mečně mění rod substantiva, zvláštní varianta koncovky v určitém pádě se překládá standardně, apod.
Ve fázi syntézy (generování) se pak ze slovenských lemat a slovenských
morfologických značek vytvoří výsledná forma slovenského slova. Na závěr se
pak doplní velká písmena podle pravidel pravopisu a věta se zformátuje, případně se do textu vloží zpět původní formátování české věty, bylo-li v ní přítomno.
4.3 Analýza
Ve fázi analýzy proběhne tokenizace textu (pokud již vstupní text není
takto zpracován, což obvykle není), uchování formátovací informace (to je důležité např. tehdy, je-li původní text např. v HTML, RTF a chceme původní formátování pokud možno zachovat) a převedení do jednotného formátu pro další
zpracování, což je SGML formát obdobný formátu uchovávání textů v ČNK,
neboť se pochopitelně používají podobné nástroje (morfologie, tagger, atd.).
Proběhne i identifikace hranic vět, a speciálně se označí úseky, které je třeba
překládat (na rozdíl od např. formátovacích značek).
Příklad:
Věta Transakce slouží k zobrazení zamčených záznamů v databázi. bude
po tokenizaci a převodu do SGML vypadat takto:
<s id=„/disk1/home/hajic/f/projects/data/SMALL.tmq-p1s37“>
<f>Transakce
<f>slouží
<f>k
<f>zobrazení
<f>zamčených
<f>záznamů
<f>v
<f>databázi
<D>
<d>.
Obr. 7: Tokenizovaný vstup do systému překladu
SGML značkou <s> jsou označeny hranice vět, <f> označuje slova, <d>
interpunkci, a <D> je značka pro nepřítomnost mezery.
25
JAN HAJIČ
Po tokenizaci se text zpracuje morfologickou analýzou a značkovačem
(taggerem) (viz sekce 2). Na výstupu bude u každého slova uvedeno lemma a
tag po zjednoznačnění (jen připomínáme, že zjednoznačnění probíhá na základě kontextu, a to kontextu v české větě). Tato část systému je posledním
krokem ve zjednodušeném systému překladu, neboť další analýza (syntaktická)
již v systému není. Je tedy možné říci, že morfologické zjednoznačnění je
jádrem lingvistické analýzy celého systému překladu. Tato fáze je zároveň zcela
nezbytná, neboť i když čeština a slovenština mají prakticky shodnou syntax, liší
se výrazně právě ve slovníku a morfologii (v paradigmatech), a ve z toho vyplývajících typech homonymie. Např. české slovo zobrazení z výše uvedené věty
může být použito ve 12 různých morfologických interpretacích, řada z nich pak
má různý slovenský překlad: zobrazení, zobrazenia, zobrazenie, zobrazeniu atd.
Překlad „(slovní) tvar za tvar“ tedy evidentně není možný (i kdybychom vyřešili
technické obtíže s milióny slovních tvarů, které by musely být ve slovníku takového systému).
Příklad:
Výsledek po morfologické analýze a jejím zjednoznačnění je na obr. 8.
<f>Transakce<MDl>transakce<MDt>NNFS1-----A---<f>slouží<MDl>sloužit<MDt>VB-S---3P-AA--<f>k<MDl>k-1<MDt>RR--3---------<f>zobrazení<MDl>zobrazení<MDt>NNNS3-----A---<f>zamčených<MDl>zamčený<MDt>AAIP2----1A------1A---<f>záznamů<MDl>záznam<MDt>NNIP2-----A---<f>v<MDl>v-1<MDt>RR--6----------<D>
<f>databázi<MDl>databáze<MDt>NNFS6-----A---<D>
<d>.<MDl>.<MDt>Z:-------------
Obr. 8: Zjednoznačněný výsledek morfologické analýzy
SGML značky <MDl> slouží k označení lematu, <MDt> uvádí morfologickou značku. Slovo zobrazení se zde tedy jednoznačně určilo (velmi pravděpodobně díky předcházející předložce k, která vyžaduje třetí pád) jako neutrum v
dativu; jeho určení jako singuláru pak plyne spíše z faktu, že v obdobných konstrukcích se používá spíše singulár (kontext nic takového nevyžaduje).
26
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)
Věta je nyní připravena pro vlastní překlad, který nazýváme tradičně
transferem.
4.4 Transfer
Ve fázi transferu se nahradí česká lemata slovenskými a značky se rovněž
„přeloží“ do zobecněné formy, vyhovující slovenskému systému morfologických
značek. V této fázi tedy teprve do hry vstupuje slovenština (dosud se systém zabýval pouze zpracováním češtiny jako zdrojového jazyka). Podobně teprve zde
by se zapojila např. polština, pokud bychom chtěli překládat právě do ní.
Překlad značek lze zařídit poměrně snadno. Překlad je řízen tabulkou, ve
které je ke každé české morfologické značce přiřazena jedna nebo více zobecněných slovenských morfologických značek, v prioritním pořadí.
Zobecněnou morfologickou značkou se myslí morfologická značka, která není plně specifikována. Modul generování (viz dále sekce 4.5) je přizpůsoben tak, že za nespecifikovanou hodnotu určité morfologické kategorie (např.
rodu) dosadí všechny možnosti, které přicházejí pro dané slovo v úvahu. (V případě více možností vybere první, která zpracováním projde.) V námi používaném pozičním systému se pro nespecifikovanou hodnotu používá znak tečka
(‚.‘). Tedy například morfologická značka pro třetí pád (dativ) jednotného čísla
(sg.) obyčejných substantiv s nespecifikovaným rodem vypadá takto:
NN.S3-----A----
Prioritní seznam cílových morfologických značek pak ve spolupráci s modulem generování zajistí, že na výstupu se objeví první vytvořený slovní tvar
(za použití morfologické značky s nejvyšší prioritou). Tím se ošetřují jednotně
jak případy změny rodu u substantiv, tak i případy, kdy rod je nejednoznačný a
je třeba dát přednost rodu použitému v češtině.
Příkladem takového seznamu je např. posloupnost dvou značek:
NNNS3-----A---- NN.S3-----A----
která říká, že nejprve je třeba zkusit rod střední, ale pokud taková
značka s daným lematem nic nevygeneruje, má se použít libovolný rod.
Prioritní systém spolu s ideou zobecněných morfologických značek
umožňuje elegantně a bez dalších zásahů do slovníku řešit i případy, kdy některé gramatické charakteristiky slovenštiny neodpovídají češtině.
27
JAN HAJIČ
Vlastní slovník (tj. překladový slovník lemat) je vytvořen tak, že může zpracovávat i víceslovnou terminologii. Pomocí pravidla „delší vyhraje“ pak
umožňuje řešit i nejednoznačné případy, kdy ve slovníku je zvlášť uveden jak
několikaslovný termín, tak i jeho počátek.
Terminologický slovník však znamená jednu nevyhnutelnou komplikaci:
ve flektívních jazycích může být část termínu skloňovaná spolu s řídícím
slovem termínu, ale část může být fixní a tedy i ve slovníku uvedená v příslušném pádě (nebo i čísle). Při analýze češtiny však ještě nevíme, a ani nemůžeme
vědět, zda určité slovo je součástí nějakého termínu nebo ne, a proto všechna
slova jsou lematizována jednotlivě. Potřebujeme proto, aby slovník obsahoval
ve formě lemat i ty části termínů, které nepodléhají ohýbání.
Například termín daň z příjmů je třeba ve slovníku uvést jako daň z příjem, jinak by se v textu nemohlo najít poslední slovo termínu (příjmů).
Abychom vyloučili pracné ruční zpracování slovníku, používáme naprosto
stejný morfologický analyzátor a značkovač i pro předzpracování slovníku, a to
na obou jeho stranách (české i slovenské). Tím je zaručena naprostá shoda lemat s morfologickými moduly, a to i tehdy, jestliže lemata obsahují nějakou
vnější identifikaci, jako např. číslo významu (viz k-1, k jako předložka).
Transfer tedy vydá posloupnost slovenských lemat s morfologickými značkami; v této posloupnosti už česká slova ani značky nemusí být (obr. 9).
<Gil>transakcia<Git>NNFS1-----A----<Git>NN.S1-----A---<Gil>slúžiť<Git>VB-S---3P-AA--<Gil>k-1<Git>RR--3---------<Gil>zobrazenie<Git>NNNS3-----A----<Git>NN.S3-----A---<Gil>zamknutý<Git>AAIP2----1A---<Gil>záznam<Git>NNIP2-----A----<Git>NN.P2-----A---<Gil>v-1<Git>RR--6---------<Gil>databáza<Git>NNFS6-----A----<Git>NN.S6-----A---<D>
<Gil>.<Git>Z:-------------
Obr. 9: Výsledek transferu (vlastního překladu lemat a morf. značek)
SGML značky <Gil> označují slovenské lema, <Git> pak každou slovenskou morfologickou značku, a to jak v případě, že je uvedena značka jediná,
tak i v prioritním seznamu.
28
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)
4.5 Syntéza (Generování)
Vzhledem k tomu, že na české straně je analýza ukončena po morfologické
analýze a značkování, je i syntéza na slovenské straně výlučně morfologickou
(a formátovací) záležitostí. Morfologický generátor (program, jehož funkce je inverzní k funkci morfologického analyzátoru) pak z každého lematu a prioritního
seznamu zobecněných značek vytvoří posloupnost slovenských slov v odpovídajících formách.
Morfologický generátor slovenštiny používá stejná data jako morfologický
analyzátor slovenštiny použitý pro předzpracování slovníku pro transfer (viz
sekce 4.4), automaticky zkonvertovaný pro efektivní vyhledávání mezi kmeny,
vzory a koncovkami pro účely morfologické syntézy.
V našem příkladu je tedy výsledkem věta na obr. 10.
<Gef>transakcia
<Gef>slúži
<Gef>k
<Gef>zobrazeniu
<Gef>zamknutých
<Gef>záznamov
<Gef>v
<Gef>databáze
<D>
<Gef>.
Obr. 10: Výsledek překladu do slovenštiny
Po závěrečném formátování pak dostaneme konečný výsledek Transakcia
slúži k zobrazeniu zamknutých záznamov v databáze.
4.6 Použití v praktických systémech
Strojový překlad sám o sobě nemá valnou praktickou hodnotu, není-li použit ve vhodně koncipovaném softwarovém systému, ať už pro malé „domácí“
nebo on-line použití, nebo pro profesionální překlad ve velkém.
4.6.1 Systémy s překladovou pamětí
29
JAN HAJIČ
Nejefektivnější systémy pro profesionální strojový překlad jsou založeny
na využití tzv. překladových pamětí. Překladová paměť si pamatuje veškerý již
jednou přeložený text (ukládá si vždy dvojici zdrojová věta → její překlad)
a při překladu dalšího, nového textu je schopna porovnat nově překládanou větu
s touto pamětí, a nabídnout překladateli překlad, který je u příslušné zdrojové
věty uložen. Přitom tyto věty nemusí být zcela identické, mohou se lišit v
jednom nebo několika slovech, v číselné hodnotě, interpunkci apod. Efektivnost
systémů strojového překladu založených na překladových pamětech pak plyne z
faktu, že většina „průmyslově“ prováděných překladů se týká jen málo změněných verzí toho, co již jednou bylo přeloženo (např. příručka k textovému editoru se jistě změní od verze k verzi jen málo, zvlášť při vysoké frekvenci „upgradů“ takových softwarových produktů).
Do tohoto systému je velmi jednoduché zapojit strojový překlad tak, že vytvoříme „překladovou paměť“ a naplníme ji všemi překládanými větami spolu se
strojově vytvořeným překladem. Překladatel pak ke každé jím překládané větě
dostane pro něj obvyklým způsobem návrh překladu, jako kdyby daná věta byla
již někým v minulosti přeložena. Je samozřejmé, že překladatel musí být varován, že se jedná o strojový překlad, a ne o překlad „lidský“. Navíc je třeba zajistit (technickými prostředky), aby tatáž věta, byla-li dříve již přeložena
člověkem, dostala při výběru z překladové paměti přednost před větou přeloženou
strojově.
4.6.2 Vícejazyčný překlad
Jednoduchý, rychlý a relativně kvalitní překlad mezi blízkými jazyky pomocí popsané metody vede i k návrhu organizace překladu v případech, kdy
z textu v jednom jazyce je třeba vytvořit překlad v mnoha dalších jazycích. To
je případ návodů k domácím spotřebičům, příruček k softwarovým systémům,
a vůbec všech příruček, které doprovázejí výrobky nebo služby exportované do
mnoha různých jazykových oblastí.
Základní schéma je na obr. 11. Z původního jazyka se text přeloží ve vysoké kvalitě (tj. profesionálními překladateli) jen do několika „centrálních“
jazyků („bridge languages“), a z těch se při překladu do jazyků jim blízkých
použije automatický překlad (jen s manuální postredakcí).
30
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)
Obr. 11: Využití „centrálního“ jazyka při vícejazyčném překladu
4.7 Výsledky experimentů s překladem do slovenštiny a polštiny, další
výhled
Experimenty s úplným systémem překladu z češtiny do slovenštiny jsme
prováděli s technickými příručkami pro použití databázového software.
Úspěšnost jsme měřili s použitím software pro podporu překladu TRADOS,
resp. jeho části, která počítá tzv. „match“ (souhlas) mezi ručně „dopřeloženou
větou“ a její předchozí variantou (v našem příkladě touž větou přeloženou automaticky). Systém evaluace systému TRADOS je velmi přísný, neboť evaluační
systém se v tomto systému používá k určení obtížnosti překladu (obecně platí,
že překladatelské firmy účtují podstatně více, je-li shoda s předcházející verzí
(tj. v našem případě s výsledkem automatického překladu) menší než 90 %).
Shoda se počítá na základě modifikované Loewensteinovy vzdálenosti (zhruba
řečeno, jde o počet editačních zásahů, které je nutno udělat, aby věta byla v
„definitivně správné“ podobě).
Pro slovenštinu jsme tohoto cíle dosáhli (shoda se pohybovala těsně nad
hranicí 90 %, pro polštinu jsme však zůstávali na úrovni 75 % (na tomtéž textu). Texty použité pro testování byly texty, z nichž byl částečně zapracován
slovník, ale např. česká morfologická analýza a český značkovač (coby jádro
systému) pracovaly na nich nezávisle, tj. testy byly dostatečně realistické a
„férové“.
Předpokládáme, že systém budeme dále vyvíjet (zejména systém překladu
do slovenštiny) jak zvětšováním slovníku, tak i zlepšováním českého značkovače (a morfologie, pochopitelně). Polský systém bude nutno zdokonalit podstatněji, zejména s ohledem na jisté rozdíly v syntaxi – zdá se, že alespoň základní analýza jmenných frází bude nutná pro podstatnější zlepšení. Pak by
ovšem bylo možno uvažovat i o ruštině, ukrajinštině a dalších jazycích podobně
„vzdálených“ od češtiny.
5. Závěr
V tomto příspěvku jsme se snažili popsat metody počítačového zpracování
dvou klíčových rovin (morfologie a syntaxe) přirozeného jazyka, a také přiblížit
možnou aplikaci těchto metod na reálný problém. Ukazuje se, že ač v některých
aplikacích je možné použít i analýzu jen částečnou (a to nemluvíme o takových
31
JAN HAJIČ
z jazykového hlediska velmi jednoduchých aplikacích, jako je vyhledávání nebo
extrakce informací z textu), je jasné, že úplné porozumění vyžaduje analýzu
jazyka dost hlubokou. Právě pro tyto účely budujeme jazykové zdroje, jako jsou
morfologicky a důkladně syntakticky anotované texty.
Podrobnější informace o budování anotovaných korpusů je možno nalézt na
webových stránkách Ústavu aplikované a komputační lingvistiky a Centra komputační lingvistiky na MFFUK v Praze (http://ufal.mff.cuni.cz a http://ckl.
mff.cuni.cz). Pro hlubší studium statistických a pravděpodobnostních metod
v lingvistice, které jsou s danou problematikou úzce svázány, lze doporučit
zejména publikace Manning a Schuetze (2001), Jurafsky a Martin (2000),
Charniak (1998) a Jelinek (1998). Kompletní materiály k vlastnímu studiu této
problematiky jsou umístěny na volně dostupné adrese http://ufal.mff.cuni.cz/
~hajic/courses/pfl043/0102/syllabus.html. Téměř kompletní bibliografie jak k
problematice tvorby anotovaných korpusů, tak jejich zpracování a využití, je
pak na již zmíněném CD „Prague Dependency Treebank 1.0“ (Hajič et al.
2001b), ve většině případů s plnými texty článků, příruček a manuálů (a samozřejmě i s kompletními českými korpusy!); kopii dokumentace k tomuto CD je
pak možné nalézt i na webu na http://ufal.mff.cuni.cz/pdt.
Literatura
COLLINS, Michael. 1997. Three Generative, Lexicalised Models for Statistical Parsing. In:
Proceedings of the 35th ACL/EACL. Madrid, s. 16-23.
COLLINS, Michael – HAJIČ, Jan – BRILL, Eric – RAMSHAW, Lance – TILLMANN,
Christopher. 1998. A Statistical Parser for Czech. In: Proceedings of the 37th ACL. College Park, MD,
USA, s. 505 – 512.
ČERMÁK, František. 2001. Český národní korpus. In: Alexandra Jarošová (ed.). Slovenčina a
čeština v počítačovom spracovaní. Bratislava: Veda, s.168.
HAJIČ, Jan. 1998. Building a Syntactically Annotated Corpus: The Prague Dependency
Treebank. In: Eva Hajičová (ed.): Issues of Valency and Meaning. Studies in Honor of Jarmila
Panevová. Praha: Karolinum, Charles University Press, s. 12 – 19.
HAJIČ, Jan. 2001. Disambiguation of Rich Inflection (Computational Morphology of Czech).
Praha: Karolinum, Charles University Press.
HAJIČ, Jan – ROSEN, Alexandr – SKOUMALOVÁ, Hana. 1987. RUSLAN – systém strojového
překladu z češtiny do ruštiny. Výzkumná zpráva. Praha: Výzkumný ústav matematických strojů.
HAJIČ, Jan – PANEVOVÁ, Jarmila – BURÁŇOVÁ, Eva – UREŠOVÁ, Zdeňka – BÉMOVÁ,
Alla- ŠTĚPÁNEK, Jan – PAJAS, Petr – KÁRNÍK, Jiří. 1997. Anotace na analytické rovině (manuál
pro anotátory). Technická zpráva TR-1997-03. Praha: ÚFAL MFF UK.
32
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)
HAJIČ, Jan – BRILL, Eric – COLLINS, Michael – HLADKÁ, Barbora – JONES, Douglas –
KUO, Cynthia – RAMSHAW, Lance – SCHWARTZ, Oren – TILLMANN, Christopher – ZEMAN,
Daniel. 1998. Core Natural Language Processing Technology Applicable to Multiple Languages.
Research Note 37. Center for Language and Speech Processing, Johns Hopkins University, Baltimore,
MD, USA. http://www.clsp.jhu.edu.
HAJIČ, Jan – HRIC, Jan – KUBOŇ, Vladislav. 2000. Česílko: Machine Translation Between
Closely Related Languages. In: Proceedings of the 6th Applied NLP, Seattle, WA, USA. ACL / MIT
Press, s. 7 – 12.
HAJIČ, Jan – KRBEC, Pavel – KVĚTOŇ, Pavel – OLIVA, Karel – PETKEVIČ, Vladimir.
2001a. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. In: Proceedings of
ACL'01, Toulouse, France, s. 160 – 167.
HAJIČ, Jan – HAJIČOVÁ, Eva – PAJAS, Petr – PANEVOVÁ, Jarmila – SGALL, Petr –
VIDOVÁ HLADKÁ, Barbora. 2001b. The Prague Dependency Treebank 1.0. CDROM. Philadelphia:
Linguistic Data Consortium LDC2001T10. ISBN 1-58563-212-0.
HAJIČOVÁ, Eva – PANEVOVÁ, Jarmila – SGALL, Petr. 2000. Anotace na tektogramatické
rovině (manuál pro anotátory). Technická zpráva TR-2000-09. Praha: ÚFAL MFF UK.
HLADKÁ, Barbora. 2000. Czech Language Tagging. PhD thesis, Praha: ÚFAL MFF UK.
CHARNIAK, Eugene. 1996. Statistical Language Learning. Cambridge: The MIT Press.
CHURCH, Kenneth. 1992. Current Practice in Part of Speech Tagging and Suggestions for the
Future. In: Simmons (ed.), Studies in Slavic Philology and Computational Linguistics: In Honour of
Henry Kučera. Michigan Slavic Publications, s. 13 – 48.
CHYTIL, Michal. 1984. Automaty a gramatiky. Praha: SNTL. Matematický seminář, roč. 19.
JELINEK, Frederick. 1998. Statistical Methods for Speech Recognition. Cambridge: The MIT
Press.
JURAFSKY, Daniel – MARTIN, James. 2000. Speech and Language Processing. PrenticeHall.
KOSKENNIEMI, Kimmo. 1983. Two-level morphology. PhD thesis. Technical reports No. 11.
Helsinki: Dept. of Linguistics, University of Helsinki.
MANNING, Christopher – SCHUETZE, Heinrich. 1999. Foundations of Statistical Natural
Language Processing. Cambridge: The MIT Press.
MARCUS, Mitch – SANTORINI, Beatrice – Marcinkiewicz M. 1993. Building a Large
Annotated Corpus of English: the Penn Treebank. Computational Linguistics, 19 (2), s. 313 – 330.
MÍROVSKÝ, Jiří. 1999. Morfologické značkování textu: automatická disambiguace. Mgr.
Thesis. Praha: MFF UK.
MOHRI, Mehryar – RILEY, Michael – PEREIRA, Fernando C. N. 1998. A Rational Design for
a Weighted Finite-State Transducer Library. Lecture Notes in Computer Science 1436. Berlin:
Springer Verlag.
PETKEVIČ, Vladimír. 1995. A New Formal Specification of Underlying Representations. In:
Theoretical Linguistics, Vol. 21. s. 7 – 61
SGALL, Petr – HAJIČOVÁ, Eva – PANEVOVÁ, Jarmila. 1986. The Meaning of the Sentence
and Its Semantic and Pragmatic Aspects. Prague/Netherlands: Academia/Reidel Publishing Company.
SKOUMALOVÁ, Hana. 1997. Czech lexicon by two-level morphology. In:R. Marcinkevičiene
– N. Volz (eds.), Proceeedings of the 2nd European Seminar of TELRI -- Language Applications for
a Multilingual Europe. Mannheim/Kaunas: IDS/VSU. s. 123 – 145.
33
JAN HAJIČ
34
IDENTIFIKÁCIA PARADIGMATICKÝCH
A SYNTAGMATICKÝCH VZŤAHOV
V TEXTE
Karol Furdík: Juvier, s.r.o., Košice
Abstract: Paper describes the algorithm of inductive incremental learning for identification and representation of paradigmatic and syntagmatic relationships in written texts. Probabilistic methods are used for determination of structural similarities on morphological, syntactical, and semantic level.
1. Problematika analýzy textu
Analýza textu, čiže identifikácia jazykových jednotiek (znakov) a vzťahov
medzi nimi, je kľúčovým problémom azda všetkých súčasných systémov na
spracovanie prirodzeného jazyka. Dôvodov, prečo sa tento problém stále vymyká úspešnému a vyčerpávajúcemu riešeniu, je niekoľko. Predovšetkým je to
zložitosť samotného jazyka: „Jazyk je nesporně nejsložitější a nejbohatší
známý systém (mimo přírodní vědy) mající mnoho stránek, a tedy i možností
přístupu k jeho chápání, popisu, popř. i třídění; v důsledku toho je právě komplexní pohled na něj, jakkoliv žádoucí, také neobyčejně obtížný.“ (Čermák
1994, s. 13). Alebo, formálnejšie, prirodzený jazyk v celej svojej šírke nemôže
byť generovaný menej výkonnou gramatikou, ako je gramatika typu 0 (všeobecná) podľa delenia N. Chomského (Csontó – Sabol 1991, s. 42). Dôsledkom
toho je, že prirodzený jazyk môže byť bez dodatočných ohraničení akceptovaný
iba programom s výkonnosťou Turingovho stroja, čo znamená, že takýto program si bude vyžadovať neobmedzený prístup k dynamickej pamäti.
Druhým dôvodom, pre ktorý analýza textu v prirodzenom jazyku naďalej
ostáva výzvou, je tesná prepojenosť jazyka a myslenia. Pri pokuse analyzovať
text ako jazykový prejav nie je dosť dobre možné oddeliť to, ako jazyk funguje
(v zmysle formálneho systému), od toho, o čom vypovedá (v rovine sémantickej
a pragmatickej, v rovine vedomostí a ich reprezentácie, v konečnom dôsledku
v rovine vedomia a myslenia). Vzájomná podmienenosť jazyka a myslenia naznačuje, že tieto dva fenomény nemožno skúmať oddelene, že ide skôr o dve
strany jednej mince (dôkazom toho môže byť aj tzv. Linguistic Turn, posledný
veľký obrat vo filozofii – pozri napr. v Michalovič – Minár (1997, s. 12). Sú35
KAROL FURDÍK
vislosť je vari až taká, že vyriešenie problému analýzy jazyka predpokladá objavenie mechanizmov a prípadnú formalizáciu myslenia (a vice versa).
Posledným, možno trochu diskutabilným dôvodom, avšak rozhodne so silným vplyvom na skúmanie analýzy jazykového prejavu, je metodológia. Donedávna sa prakticky všetky prístupy k skúmaniu jazyka vyznačovali snahou o explicitný popis jednotiek, z ktorých jazykový systém pozostáva, vrátane vzťahov,
pravidiel, zásad a noriem ich vzájomného kombinovania. Tento prístup predpokladá, že existuje všeobecný, spoločný, a relatívne stály abstraktný systém jazyka – langue (Čermák 1994, s. 18). Percepcia jazyka sa v takomto prípade dá
modelovať ako „postupná identifikace povrchových (vnějškových) struktur slyšené / čtené promluvy srovnáváním se známým, t. j. jednotkami a pravidly v langue“ (tamže, s. 19). Hrubá schéma systému analyzujúceho text na základe
porovnávania s vopred známou a nemennou štruktúrou langue je na obrázku 1.
Problémom tohto prístupu však je otázka, či je vôbec možné vyčerpávajúco explicitne a formálne vyjadriť všetky jednotky a pravidlá v langue tak, aby sa
analyzovaný text (resp. jazykový prejav) dal s nimi porovnávať. Zrejme to možné nie je, pretože, ako bolo spomenuté vyššie, takýto formalizmus by musel byť
vyjadrený gramatikou typu 0 a zodpovedajúci porovnávací mechanizmus by
musel dosahovať potenciálne nekonečnú zložitosť a výkonnosť Turingovho
stroja.
Vstupný text
Porovnávací modul
Výstup
(parole)
Identifikácia
Znalostná báza
(Explicitné jednotky a pravidlá langue)
Obrázok 1. Známa a nemenná štruktúra langue.
2. Intencionalita, inkrementálne učenie
Aký prístup k analýze textu teda zvoliť, aby sa prekonali naznačené problémy? Musí to byť prístup, ktorý je dynamický, ktorý sa blíži k predpokladaným modelom myslenia, a ktorého formalizmus sa výkonnosťou blíži k výkonnosti Turingovho stroja. Jedným z možných riešení je napríklad subjektivizá36
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE
cia jazykovej percepcie (Furdík 1999, s. 276). Do popredia tu vystupuje mentálna (kognitívna) funkcia jazyka, zameraná najmä na predikciu budúcich interakcií subjektu s prostredím na základe vedomých subjektívnych skúseností.
Komunikačná funkcia jazyka, všeobecne považovaná za základnú a dominantnú funkciu langue (Michalovič – Minár 1997, s. 19), sa pri subjektívnom prístupe stáva sekundárnou. Langue (ako abstraktný systém, model jazyka) vzniká
a modifikuje sa pre každý subjekt zvlášť, a to na základe vstupov (zmyslovo
vnímaných ako parole) v interakcii s okamžitým stavom tohto „subjektívneho
langue“ (azda presnejší je v tomto prípade Chomského termín competence, čiže
„systém pravidel k produkování promluv a jejich rozumění, pojatý jako znalost
mluvčích; odpovídá langue“ (Čermák 1994, s. 62, 208)). Subjektivizácia však
sama osebe nie je dostatočná na konštrukciu systému schopného vnímať jazyk a
analyzovať text. Naopak, je iba nevyhnutným predpokladom cieľavedomého
budovania štruktúry vedomých subjektívnych skúseností, ktoré sa zvykne
označovať ako intencionalita. Ako uvádza van Gulick (1992, s. 86), zhŕňajúc
tvrdenia Searla a Nagela: „Schopnosť mať vedomé subjektívne skúsenosti je
nevyhnutnou podmienkou akýchkoľvek stavov s vlastným intencionálnym obsahom.“ Intencionalita v tomto zmysle nie je samoúčelná, jej cieľom je už
spomínaná predikcia možných budúcich stavov prostredia na základe už rozpoznaných stavov a ich porovnávania s okamžitými vnemami – subjekt si vytvára vnútorný model prostredia, konfrontuje ho so svojimi vstupmi, a pokúša
sa jednak interpretovať aktuálne vstupy na základe existujúceho modelu prostredia, a jednak meniť tento vnútorný model tak, aby čo najviac zodpovedal
vnímanému prostrediu. Tento proces „vedomej“ zmeny vnútornej reprezentácie
(samočinnej optimalizácie), ktorý je cieľovo zameraný na predikciu možných a
pravdepodobných budúcich stavov prostredia ako dôsledku „zmyslových“ vnemov (ukážkových príkladov), sa nazýva učenie (Furdík 1999, s. 277, pozri aj
Csontó – Sabol 1991, s. 83).
Realizovaný jazykový prejav (parole, resp. text), ktorý je vstupom pre subjektívny intencionálny systém, sa vyznačuje vlastnosťou sekvenčnosti – jednotlivé jazykové znaky sú zoradené a následne aj rozpoznávané sekvenčne, za
sebou, pričom ich poradie je relevantným štruktúrotvorným prvkom. Sekvenčný
prísun vstupnej informácie spolu s obmedzením pamäti systému implikuje inkrementálnosť učenia – učenie nie je jednorázový akt, ale skôr proces „permanentného doučovania“. Samozrejme, množina vstupných príkladov nemôže
byť nikdy úplná – systém musí mať schopnosť učiť sa induktívne, t. j. zovšeobecňovať. Pre takýto charakter vstupných príkladov sa dá použiť induktívne
37
KAROL FURDÍK
inkrementálne učenie (Csontó – Sabol 1991, s. 83), ktoré môže byť buď kontrolované, alebo nekontrolované. Pri nekontrolovanom učení (bez učiteľa) systém odvodzuje informáciu o správnosti svojho rozhodnutia pomocou spätnej
väzby; pri kontrolovanom učení (s učiteľom) je informácia o rozhodnutí a jeho
správnosti priamo súčasťou vstupu (pozri schému na obrázku 2).
Vstupný text
Výstup
Porovnávací modul
(parole)
Identifikácia
Adaptabilná znalostná báza
(Subjektívny abstraktný model jazyka)
Spätná väzba
systému
Modifikácia
znalostnej
bázy
Zásah učiteľa
Obrázok 2. Analyzátor textu ako učiaci sa systém.
3. Algoritmus inkrementálneho učenia
Ďalšou úlohou je špecifikovať vlastný algoritmus induktívneho inkrementálneho učenia. Je potrebné nájsť a identifikovať také javy v analyzovanom texte, ktoré dovoľujú inkrementálne vytvárať subjektívny abstraktný model jazyka
vo vnútri systému. Vstupný text v prirodzenom jazyku je realizáciou predpokladanej všeobecnej abstraktnej štruktúry langue. Preto jazykové jednotky v
ňom sú dozaista vzájomne prepojené syntagmatickými a paradigmatickými
vzťahmi. Tieto vzťahy možno považovať za vzájomne komplementárne, pričom syntagmatické vzťahy majú v zásade lineárnu povahu, kým paradigmatické zasa povahu asociačnú. Existencia oboch týchto vzťahov je však spôsobená
tým istým princípom, ktorý je vlastný jazykovému znaku – princípom différence. Odlišnosť, diferencia voči iným znakom systému je práve to, čo znak tvorí,
čo určuje jeho miesto v systéme. Prípadne, ak je to z praktických dôvodov výhodnejšie, dá sa vzťah rozdielnosti dvoch objektov jednoduchou inverziou zmeniť na vzťah vzájomnej podobnosti (porov. Michalovič – Minár 1997,
s. 35, 36).
Algoritmus učiaceho sa systému na analýzu textov by mal byť schopný abstrahovať, identifikovať, a následne explicitne vyjadriť vzájomné podobnosti
jazykových jednotiek. Explicitná reprezentácia identifikovaných podobností je
abstrakciou spoločných čŕt jazykových jednotiek, ktoré spôsobili jej vznik.
38
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE
Naviac, ak sa zvolí vhodný formálny jazyk na vyjadrenie explicitných reprezentácií podobností, je možné postulovať, že získané explicitné relácie sú meta-jazykovými znakmi. Dajú sa vzájomne porovnávať, dá sa vyjadriť ich vzájomná
podobnosť, čím môžu vzniknúť ďalšie meta-meta-jazykové znaky. Vzniká tým
štruktúra, zodpovedajúca subjektívnemu abstraktnému modelu jazyka – „subjektívnemu langue“.
V ďalšom sa pokúsime presnejšie popísať jednotlivé moduly a kroky navrhovaného algoritmu, ktorého schéma je zobrazená na obrázku 3.
Vstup
Text,
reťazec
znakov
Predspracovanie
vstupn ého
reťazca
Sekvencia
elementárnych
jazykových
jednotiek
Adaptabilná znalostná báza
(Subjektívny abstraktný model jazyka)
Štruktúra tried podobností jazykových jednotiek:
morfologický modul
•
syntaktický modul
•
sémantický modul
•
Výstup
Porovnávací
modul
Spätná väzba
systému
Identifikácia
Zásah
učiteľa
Zásahy na zmenu štruktúry
znalostnej bázy
Vznik novej triedy
Zánik existujúcej triedy
Zmena pravdepod. váh
Obrázok 3. Schéma algoritmu inkrementálneho učenia.
3.1 Predspracovanie vstupu
Vstupný analyzovaný text je pre počítačový systém sekvenciou, reťazcom
znakov. Úlohou modulu predspracovania vstupu je rozdeliť vstupný reťazec na
postupnosť jazykových jednotiek, t. j. rozpoznať jednotlivé jazykové jednotky
v tomto reťazci. Avšak identifikácia takých jazykových jednotiek, ako sú slová,
frazémy, vety a pod., je v učiacom sa systéme možná iba na základe konzultácie
so znalostnou bázou, teda s aktuálnym subjektívnym modelom jazyka. Inými
slovami, systém sa musí najprv naučiť, čo je slovo, veta, frazéma a podobne,
a až potom je schopný tieto jednotky vo vstupnom reťazci identifikovať.
Tento „dôsledný“ prístup však nie je veľmi výhodný, pretože na začiatku
predpokladáme prázdnu znalostnú bázu. V takomto prípade by systém nemal
žiadne „vedomosti“ o tom, čo považovať za jazykovú jednotku, a je otázkou, či
a za aký dlhý čas by tieto vedomosti získal.
39
KAROL FURDÍK
Tu je zrejme vhodné spomenúť miesto a vplyv apriórnych vedomostí na
činnosť učiaceho sa systému. Apriórne vedomosti sú také fakty, ktoré systém
nezíska sám v procese učenia, ale ktoré dodáme systému zvonka (kontrolované
učenie, pozri vyššie). Potom platí, že sa zrejme (ak sú učiteľom dodané fakty
„správne“, t. j. ak sa potvrdia v budúcich vstupoch) zvýši efektívnosť a rýchlosť
systému, skráti sa čas prehľadávania znalostnej bázy. Na druhej strane však
klesne univerzálnosť, systém sa bude snažiť aplikovať dodané fakty namiesto
toho, aby sa pokúšal prispôsobovať svoju znalostnú bázu aktuálnemu vstupu
vytváraním „svojich“ znalostí v procese učenia sa.1 Tento princíp, ktorý nazveme ako princíp apriórnych vedomostí, platí aj pri ďalších etápách algoritmu všade tam, kde sa uplatňuje inkrementálne učenie.
Zrejme je potrebné modul predspracovania vstupu vybaviť istými apriórnymi vedomosťami o tom, čo je tzv. elementárny jazykový znak. Modul potom bude schopný transformovať vstupný reťazec na sekvenciu takýchto
elementárnych jazykových znakov, ktoré sa v ďalších etapách algoritmu budú
môcť spájať do vyšších štruktúr.
Rozdelíme všetky znaky, ktoré sa môžu vyskytovať vo vstupnom reťazci,
do nasledujúcich kategórií:
a) alfanumerické znaky (pre slovenskú abecedu sú to znaky a – ž, A - Ž) ,
b) prázdne znaky (Space, Tab, EndOfLine, EndOfFile, ...),
c) špeciálne znaky (ostatné, t. j. 0 – 9, _, ?, „, :, ...).
Potom elementárnym jazykovým znakom bude každý reťazec:
a) zložený iba z alfanumerických znakov alebo
b) tvorený jedným špeciálnym znakom.
Na identifikáciu elementárneho jazykového znaku sa dajú použiť aj iné
metodiky, iné rozdelenia do kategórií, napríklad špeciálne kategórie pre číselné
reťazce, pre dátum, čas a podobne. Dá sa dokonca postulovať, že elementárnym
jazykovým znakom je každý jednotlivý znak zo vstupu. Pri každom z týchto
delení však platí princíp apriórnych vedomostí, teda čím „presnejšie“ určíme,
čo je elementárny jazykový znak, tým menej flexibilný bude systém.
3.2 Morfologické štruktúry
1
Určitým kompromisom môže byť kontrolované učenie s nedokonalým učiteľom (Csontó – Sabol 1991, s. 83), pri ktorom fakty dodané zvonka nemajú absolútnu platnosť, ale sú ohodnotené istou
pravdivostnou (alebo pravdepodobnostnou) váhou. Ak sa zmení charakter vstupu, systém môže po istom čase takéto fakty „zabudnúť“, čím sa adaptuje na novú situáciu.
40
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE
Úlohou modulu morfológie je zoskupovať rozpoznané jazykové jednotky
do tried podľa podobnosti ich formálnej reprezentácie. Týmto procesom vzniká
abstraktná štruktúra popisujúca paradigmatické vzťahy jazykových jednotiek.
Paradigmatický vzťah morfologickej úrovne asociuje jazykové jednotky na základe ich tvarovej, formálnej podobnosti. Z dvoch alebo viacerých jazykových
jednotiek vznikajú triedy (kategórie), ktoré abstrahujú spoločné formálne vlastnosti týchto jednotiek. Vzniknuté triedy však majú zároveň charakter (abstraktných) jazykových jednotiek, vyjadrujú, ktoré formálne vlastnosti sú pre systém
v danom okamihu relevantné.
Abstraktná jazyková jednotka má charakter triedy (kategórie) v tom
zmysle, že vieme povedať, ktoré jazykové jednotky do tejto triedy patria (spĺňajú formálne vlastnosti vyjadrené abstraktnou jazykovou jednotkou), a ktoré do
triedy nepatria. Zároveň má abstraktná jazyková jednotka charakter atribútu
pre tie jazykové jednotky, ktoré spĺňajú formálne vlastnosti abstraktnou jednotkou vyjadrené (Furdík 1999, s. 280). Dvojica atribút – trieda je komplementárna, t. j. ak nejaká jednotka patrí do určitej abstraktnej triedy, zároveň má aj
atribút (príznak, vlastnosť) príslušnosti k tejto triede. Relácia
Patriť_do_triedy(Ji , Tx) vytvára štruktúru v priestore jazykových jednotiek.
Triedy sa dajú explicitne vyjadriť napríklad pomocou vhodného formálneho jazyka. Formálny jazyk na explicitné vyjadrenie tried treba voliť tak, aby:
a) jazykové jednotky a triedy boli vyjadrené kvalitatívne rovnakým spôsobom, aby sa dali vzájomne porovnávať, zoskupovať a triediť,
b) triedy mohli byť použité ako klasifikačné pravidlá, t. j. aby bolo možné
rozhodnúť, či ľubovoľná jazyková jednotka do danej triedy patrí alebo
nie,
c) triedy boli generické v tom zmysle, aby bolo možné z danej triedy rekonštruovať jazykové jednotky, ktoré spôsobili vznik tejto triedy.
Samozrejme najdôležitejšou vlastnosťou formálnej reprezentácie abstraktných morfologických tried je schopnosť vyjadriť formálne, tvarové podobnosti
(resp. rozdiely) jazykových jednotiek.
Explicitné vyjadrenie triedy sa dá realizovať formálnym jazykom generovaným buď bezkontextovou, alebo kontextovou gramatikou. Bezkontextová
gramatika má síce menšiu vyjadrovaciu schopnosť, môže sa stať, že isté morfologické podobnosti sa pomocou nej nedajú vyjadriť, je však jednoduchšia a rýchlejšia. Kontextová gramatika má kapacitu vyjadriť azda všetky relevantné morfologické podobnosti, je tu však reálne riziko veľkej, až exponenciálnej výpočtovej zložitosti.
41
KAROL FURDÍK
V práci P. Kostelníka (2000, s. 33) bola navrhnutá a použitá metóda troch
operátorov prepisu, zodpovedajúca zložitosti bezkontextovej gramatiky. Táto metóda vychádza z predpokladu, že pre každé dve rôzne jazykové jednotky existujú transformácie, pomocou ktorých možno prepísať jednu jednotku na druhú.
Práve tieto transformácie sa definujú ako tzv. operátory prepisu. Rozlišujú sa tri
typy týchto operátorov:
1. operátor doplnenia zľava OL; napríklad reťazec ník je operátorom doplnenia zľava pre jazykové jednotky podvod a podvodník: OL(podvod,
podvodník)=ník.
2. operátor doplnenia sprava OP; napríklad reťazec ne je operátorom doplnenia sprava pre jazykové jednotky šťastie a nešťastie: OP(šťastie, nešťastie)=ne.
3. operátor zmeny OZ; napríklad dvojica reťazcov {imista, ímia} je operátorom zmeny pre jazykové jednotky alchimista a alchímia: OZ(alchimista, alchímia)= {imista, ímia}.
Metóda sa aplikuje postupne na každú dvojicu elementárnych jazykových
jednotiek identifikovaných na vstupe. Získava sa množina operátorov, ohodnotená pravdepodobnostnou váhou podľa toho, ako často sa ten-ktorý operátor
uplatnil pri transformácii. Operátory, ktorých pravdepodobnostná hodnota presiahne určitý prah, vytvoria tzv. priestor typických reťazcov, ktoré zodpovedajú abstraktným morfologickým triedam. Táto metóda pracuje iteračne, využíva princíp inkrementálneho učenia.
Modifikáciou metódy operátorov prepisu môže byť napríklad tzv. metóda
podreťazcov. Okrem operátorov sa zo vstupných jazykových jednotiek získavajú aj kontextové vyjadrenia zhodných podreťazcov. Napríklad vstupné jednotky
kniha a knihe generujú operátor zmeny {a, e}, a zároveň podreťazec knih*, kde
znak ‘*’ označuje ľubovoľný podreťazec. Nasledujúci príklad ukazuje použitie
tejto metódy na získanie štruktúry abstraktných morfologických tried:
Nech vstupom sú nasledujúce elementárne jazykové jednotky:
{kniha, knihe, knihou, mačka, mačke, mačkou}
Potom aplikáciou metódy podreťazcov dostávame nasledujúce abstraktné
morfologické triedy:
{a, e}; {a, ou}; {e, ou}; {knih*}; {mačk*}
Ďalej platí:
{kniha} patrí do tried {a, e}, {a, ou}, a {knih*},
{knihe} patrí do tried {a, e}, {e, ou}, a {knih*},
42
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE
{mačka} patrí do tried {a, e}, {a, ou}, a {mačk*},
{mačkou} patrí do tried {e, ou}, {a, ou}, a {mačk*} atď.
Ďalej:
do triedy {knih*} patria jednotky: {kniha}, {knihe}, {knihou},
do triedy {mačk*} patria jednotky: {mačka}, {mačke}, {mačkou}
Je zrejmé, že obe triedy podreťazcov zodpovedajú štruktúre, ktorá sa
zvykne označovať ako morfologické (resp. slovotvorné) hniezdo. Trieda podreťazcov obsahuje v tomto prípade niečo ako abstrahovaný koreň tých slov
(jazykových jednotiek), ktoré túto triedu vytvorili.
Teraz ak porovnáme operátory zmien členov oboch tried podreťazcov, zistíme, že sú rovnaké – tvoria ich operátory {a, e}; {a, ou}; {e, ou}. Tieto operátory možno považovať za abstraktné, pritom však explicitné, vyjadrenie skloňovacieho vzoru (resp. jeho časti).
Samozrejme, v skutočnosti sa pomocou tejto metódy generuje aj množstvo
chybných abstraktných tried. Tomuto javu sa nedá dosť dobre zabrániť, systém
nevie sám rozhodnúť, ktorá trieda je generovaná správne, a ktorá chybne.
Jednou z možností, ako sa dá eliminovať chybovosť, je zohľadnenie pravdepodobnosti výskytu jednotlivých abstraktných tried na základe ich rozpoznávania
v sekvenčnom vstupnom texte (pozri Furdík 1999, Kostelník 2000). Abstraktné
triedy sa generujú spolu s určitou počiatočnou hodnotou pravdepodobnosti P0.
Formalizmus ich explicitného vyjadrenia dovoľuje testovať ďalšie jazykové
jednotky na ich príslušnosť k tej-ktorej abstraktnej triede. Ak sa rozpozná taká
jednotka, ktorá vyhovuje vyjadreniu triedy, zvýši sa pravdepodobnostná hodnota tejto triedy o prírastok ΔP. Napríklad, nech trieda {knih*} z nášho príkladu vznikla z jednotiek {kniha} a {knihe}. V tom okamihu jej pravdepodobnosť bola P0. Po rozpoznaní jednotky {knihou} sa zdvihla hodnota pravdepodobnosti o ΔP na hodnotu P({knih*}) = P0 + ΔP, keďže táto jednotka spĺňa
kontextové vyjadrenie triedy {knih*}.
Ďalšou možnosťou zníženia chybovosti je kontrolovanie učenia zvonka.
Tento algoritmus je citlivý na poradie, v akom sa jazykové jednotky objavujú na
vstupe. Napríklad chybovosť a efektivita sa dajú zvýšiť vstupom textu, ktorý
obsahuje vyskloňované vzory substantív a podobne. Tiež možno zvonka doplniť
niektoré triedy, ktoré systém „neobjavil“, avšak používateľ „vie“, že sú
relevantné (viac o tom v časti 3.5).
Dôležitým predpokladom úspešnej činnosti algoritmu je pevná veľkosť
pamäti generovaných tried. Poradie abstraktných tried (a jazykových jednotiek
43
KAROL FURDÍK
vôbec) v pamäti je dané pravdepodobnosťou ich výskytu. Systém, ak má byť
schopný adaptovať sa na zmenené podmienky (t. j. na zmenený vstupný text),
musí „zabúdať“ to, čo je chybné, nepotrebné, teda málo pravdepodobné. Ak sa
pamäť zaplní, systém zmaže, zabudne triedy a jazykové jednotky s najmenšou
pravdepodobnosťou, aby mohol generovať nové triedy podľa nového vstupu.
3.3 Syntaktické štruktúry
Identifikácia syntagmatických (najmä syntaktických) štruktúr sa kvalitatívne líši od činnosti morfologického modulu. Syntaktický modul má za úlohu
hľadať štruktúry, ktoré popisujú lineárne vzťahy medzi jazykovými jednotkami,
pravidlá, ako za sebou jazykové jednotky nasledujú v texte. Činnosť modulu je
znova založená na princípe différence, avšak tentokrát sa skúmajú podobnosti
a rozdiely v poradí a zoskupení jednotiek. Triedy, ktoré sa identifikovali na úrovni morfologického modulu, slúžia pre identifikáciu syntagmatických štruktúr
ako vstup. Na výstupe modulu očakávame explicitnú reprezentáciu abstraktných štruktúr popisujúcich najfrekventovanejšie syntagmatické celky.
Je zrejmé, že pre potreby syntaktického modulu musia už elementárne
jazykové jednotky rozpoznávané vo fáze predspracovania niesť so sebou aspoň
minimálnu informáciu o svojej pozícii vo vstupnom texte. Stačí, ak touto informáciou bude údaj o tom, ktorá elementárna jednotka bola identifikovaná ako
predchodca práve rozpoznávanej elementárnej jednotky. Tieto smerníky spolu
s morfologickými charakteristikami by mali byť dostatočnou vstupnou informáciou pre činnosť syntaktického modulu.
Kľúčovým problémom pri identifikácii syntagmatických štruktúr je voľba
vhodného formalizmu na vyjadrenie ich explicitnej reprezentácie. Jednou z
možností je použiť algoritmus podmienených pravdepodobností, prípadne jeho
zjednodušenie – trigramový model (pozri napr. Furdík 1999, s. 286). Tento algoritmus však poskytuje iba implicitnú (pravdepodobnostnú), a nie explicitnú
reprezentáciu, a naviac, n-gramový model dovoľuje identifikovať iba syntagmatické štruktúry dĺžky maximálne n. Druhou možnosťou je zotrvať pri symbolickej reprezentácii pomocou formálnych jazykov – touto možnosťou sú rozšírené prechodové siete (ATN – Augmented Transition Networks), založené
na bezkontextovej gramatike s n-ticou argumentov (tzv. DCG gramatika, Definite Clause Grammar; Páleš 1993, s. 77). ATN sieť je syntaktický analyzátor
pozostávajúci z orientovaného grafu, zoznamu podmienok a zoznamu akcií.
Každá hrana grafu je samostatným pravidlom bezkontextovej gramatiky a zod44
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE
povedá podmienke vyjadrenej nutnosťou zhody argumentov ľavej a pravej časti
pravidla. Toto pravidlo zodpovedá podmienke, pri ktorej možno cez hranu
prejsť, a akcii, ktorú treba pri tom vykonať. Zvyčajne sú podmienky na hranách
označené slovným druhom s požadovanými gramatickými kategóriami, akcie
sú označenia zodpovedajúcich syntaktických kategórií (obrázok 4).
adj
NF
(nominálna fráza)
subst
Hrana
adj
subst
Podmienky
adj(_, P1, C1, R1, Z1)
subst(_, P1, C1, R1, Z1)
Akcie
DETERMINANT
Podmienky k hranám adj a subst požadujú zhodu vetných
členov v rode, čísle, páde a životnosti. Ak sú podmienky
splnené, potom akcie priraďujú syntaktické roly, ktoré sú
výsledkom analýzy.
Obrázok 4. Príklad fragmentu ATN siete pre nominálnu frázu.
Vstupom pre syntaktický analyzátor využívajúci ATN siete sú úplne morfologicky ohodnotené slová vety. Výstupom sú identifikované vetné členy – syntaktické kategórie. Samozrejme, predpokladá sa, že existuje nemenný a úplný zoznam všetkých ATN sietí pre daný jazyk. Tento prístup nezodpovedá princípom
systému založeného na inkrementálnom induktívnom učení, preto je nevyhnutné
formalizmus ATN sietí prispôsobiť potrebám učiaceho sa algoritmu analýzy textu.
Analogicky s morfologickým modulom, syntaktické štruktúry nesmú byť
pevné a vopred určené, ale musia vznikať ako abstrakcie v procese učenia. Ich
platnosť nie je absolútna, ale je daná pravdepodobnosťou, ktorá sa počas činnosti algoritmu môže meniť. Syntaktické štruktúry, ktoré sú pod určeným minimálnym prahom, zanikajú, zabúdajú sa.
Vstupom pre učiaci sa syntaktický analyzátor nie sú vety, pretože systém
apriórne nie je schopný členiť vstupný text na vety. Zároveň vstupom nemôžu
byť ani slová ohodnotené tradičnými gramatickými kategóriami, pretože učiaci
sa systém si vytvára svoje vnútorné kvázi-morfologické kategórie. Dokonca
apriórne morfologický modul nie je schopný určiť ani slovný druh jazykovej
jednotky. Vstupom pre učiaci sa syntaktický modul sú elementárne jazykové
jednotky rozpoznané vo fáze predspracovania, kontextovo pospájané smerníkmi na svojich predchodcov. Súčasťou tohto vstupu je aj celá štruktúra abstraktných tried, identifikovaných morfologickým modulom. Čiže syntaktické
štruktúry nemôžu byť pevné a dopredu určené, pretože gramatické kategórie,
ktoré sú ich súčasťou, sú premenlivé.
45
KAROL FURDÍK
Výstupom učiaceho sa syntaktického analyzátora nie sú syntaktické kategórie, ale vlastné pravdepodobnosťou ohodnotené ATN siete, ktoré sú explicitnou reprezentáciou abstraktných štruktúr popisujúcich najfrekventovanejšie
syntagmatické celky. Sú to vlastne abstraktné a elementárne jazykové jednotky,
ktoré sa spolu, v určitých syntagmatických vzťahoch, najčastejšie vyskytujú.
Nasledujúci príklad demonštruje, aké syntaktické štruktúry možno očakávať na
výstupe syntaktického modulu:
Nech na vstupe boli rozpoznané nasledujúce fragmenty textu:
–
Jano číta knihu
–
bol by som čítal tento zaujímavý časopis, keby...
–
Keby som to bol vedel, nebol by som sa začal venovať
spracovaniu prirodzeného jazyka na počítači.
Potom syntaktický modul generuje napríklad takéto fragmenty ATN siete:
Jano
zaujímavý
časopis
číta*
som
bol
sa
by
knih*
začal
som
čítal
kde každý z elementov je zároveň začlenený do paradigmatických štruktúr
morfologického modulu.
Chybovosť sa rieši, podobne ako pri morfologickom module, pravdepodobnostným ohodnotením generovaných syntaktických štruktúr. Tu sa však,
azda viac ako pri morfologických abstraktných štruktúrach, stáva aktuálnou
otázka „rozumného“ riadenia procesu učenia zvonka. Ako upozorňuje Páleš
(1993, s. 76), počet pravidiel DCG gramatiky pre slovenskú syntax je neúmerne veľký, a aj keď použitie ATN sietí reprezentáciu zjednodušuje, výpočet alternatív v procese učenia môže dosahovať exponenciálnu zložitosť. Do určitej
miery sa dá toto riziko eliminovať tým, že učiteľ vopred vloží „známe“ ATN
fragmenty do systému a priradí im vhodné pravdepodobnostné hodnoty.
3.4 Sémantické štruktúry
46
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE
Sémantický modul sa svojím charakterom odlišuje od oboch predchádzajúcich modulov. Na rozdiel od morfologických a syntaktických štruktúr, ktoré
sa viac či menej dajú abstrahovať z formy jazykového prejavu, sémantické
štruktúry sú primárne založené aj na iných než na jazykových skúsenostiach.
Riešením by azda bolo, ak by sme systému simulovali aj iné „zmysly“, teda aj
iné vstupy, ako len vstup písaného textu – napríklad vstupy zvukovej a obrazovej informácie. Takéto komplexné riešenie však zameraním aj zložitosťou presahuje problematiku analýzy textu.
Čiastočne sa isté sémantické podobnosti a vzťahy dajú abstrahovať aj zo
štruktúr identifikovaných predchádzajúcimi dvoma modulmi, napríklad:
• do triedy {knih*} patria slová ako kniha, knihár, knihovníčka a podobne,
ktoré rozhodne vzájomne sémanticky súvisia (patria do toho istého
slovotvorného hniezda),
• do triedy OL={ár} patria slová ako rybár, knihár, stolár, vinár a podobne,
ktoré patria k tomu istému slovotvornému typu – k typu „pracovať s ...“,
• z textov číta knihu a čítal tento zaujímavý časopis vzniká fragment ATN
siete, ktorá sa dá interpretovať ako časť valenčného rámca slovesa čítať.
Zároveň sa dá dedukovať, že {knih*} (ako abstrakcia tvaru knihu) a
časopis spolu sémanticky súvisia, a to tak, že sú v pravom valenčnom
okolí jazykovej jednotky číta (respektíve jej abstrakcie {číta*}).
Avšak prisudzovať sémantickú blízkosť slovám podľa ich pozície vo vete
je veľmi problematické, a to aj v jazykoch s oveľa prísnejšími pravidlami slovosledu, ako má slovenčina. Zdá sa byť nevyhnutnosťou doplniť do systému
niečo, čo by pomohlo spoľahlivejšie identifikovať vzťahy sémantickej podobnosti medzi rozpoznanými jazykovými jednotkami.
Zároveň vzniká problém, akú formálnu reprezentáciu zvoliť na explicitné
vyjadrenie štruktúr sémantickej podobnosti. Povaha týchto štruktúr je totiž
„zmesou“ paradigmatických a syntagmatických vzťahov, preto sa na ich reprezentáciu zvyknú používať špeciálne formalizmy, vyznačujúce sa sieťovou
štruktúrou. Patria medzi ne napríklad rámce a skripty, sémantické siete, ontológie a podobne (Csontó – Sabol 1991, s. 113, pozri tiež Furdík 2000). Tieto formalizmy umožňujú definovať tzv. znalosti pomocou pojmov a relácií medzi
nimi, pritom poskytujú aj isté možnosti odvodzovania, transformácií a vyhľadávania. Znalosti, explicitne vyjadrené zvoleným formalizmom, sú však doménovo závislé – opisujú iba určitý ohraničený „výsek“ reality, a aj to zväčša subjektívnym spôsobom. Ak by však intencionálny učiaci sa systém mal schopnosť
efektívne vytvárať a modifikovať na základe svojich vstupov a vnútorných
47
KAROL FURDÍK
stavov svoju subjektívnu štruktúru znalostí, formálne reprezentovaných napríklad ontológiou, potom by táto štruktúra znalostí mala pre systém absolútnu
platnosť. Ibaže, ako sme ukázali vyššie, samotná morfologická a syntaktická
analýza na budovanie subjektívnej štruktúry znalostí zrejme nestačí. Je potrebné doplniť ju o informácie „zvonka“, z reálneho sveta. Podmienkou je, aby formát napĺňaných externých znalostí zodpovedal formalizmu implementovanému
v systéme. Využiť sa pritom nemusia iba ontológie, sémantické siete a rôzne iné
sofistikované metódy reprezentácie znalostí. Cenným zdrojom externých
znalostí môže byť napríklad výkladový slovník, prípadne sémanticky anotovaný
korpus jazyka – v týchto prípadoch však bude zrejme potrebná transformácia
do formalizmu použitého v systéme. Systém by potom mohol v procese učenia
svoju reprezentáciu znalostí modifikovať na základe svojich nových vstupov, a
spätnou transformáciou by sa azda získal cenný materiál pre slovníky alebo pre
jazykový korpus.
3.5 Riadenie algoritmu
Ak sa má zachovať intencionálny charakter navrhovaného učiaceho sa
systému, je potrebné minimalizovať riadiace zásahy zvonka. Na druhej strane,
pri analýze textu hrozí neustále nebezpečenstvo príliš veľkej zložitosti, prílišného množstva alternatív. V takomto prípade je vhodné zvýšiť efektívnosť
metódou kontrolovaného učenia, dodaním vzorky „správnych“ údajov na
vstup. Tento prístup je najmenej „deštruktívny“, nemení samotný algoritmus
ani jeho parametre, aj tak však čiastočne znižuje „samostatnosť“ systému –
platí tu princíp apriórnych vedomostí, definovaný v časti 3.1. Metóda kontrolovaného učenia sa používa pri všetkých troch stupňoch analýzy textu. V morfologickom module je ňou napríklad vstup vyskloňovaných vzory substantív, v
syntaktickom naplnenie známych fragmentov ATN sietí, a v sémantickom doplnenie externých sémantických znalostí.
Ďalšou z možností, ako efektívne obmedziť priestor prehľadávania a zrýchliť činnosť systému, je riadenie zabúdania nastavením vhodných pravdepodobnostných prahových hodnôt. Na rozdiel od kontrolovaného učenia, prahové
hodnoty ovplyvňujú vlastný spôsob učenia, sú súčasťou kódu algoritmu. Zmenou pravdepodobnostných prahových hodnôt sa vlastne menia kľúčové konštanty algoritmu, aj keď samotná činnosť algoritmu ostáva nezmenená.
Je možné implementovať aj taký spôsob učenia, že rozhodovanie a činnosť algoritmu (napríklad porovnávacieho modulu) je funkciou vstupu a
48
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE
vnútorného stavu systému – tento spôsob sa zvykne nazývať ako výpočet
riadený údajmi. V takomto prípade sa nemení iba vnútorná štruktúra údajov v
znalostnej báze, ale mení sa samotný spôsob spracovania vstupného textu. Algoritmus však v takomto prípade stráca determinickosť v tom zmysle, že ak nevieme presne, v akom stave sa systém práve nachádza, nedokážeme predpovedať,
aké zmeny daný vstup v systéme spôsobí.
Napokon sa principiálne dá uvažovať nad riadením systému pomocou
metavedomostí. Systém v takomto prípade chápe vstupné údaje ako pokyny, a
mal by byť schopný adekvátne reagovať. To však už zrejme predpokladá, aby bol
systém schopný text nielen analyzovať, ale aj pochopiť jeho zmysel vo vzťahu k
sebe ako k subjektu, a na základe rozpoznaného zmyslu aj vykonávať príslušné
akcie.
4. Záver
Analýza písaného textu realizovaná pomocou algoritmu induktívneho inkrementálneho učenia transcenduje problém zložitosti jazyka a metodologický
problém jeho explicitného popisu tým, že buduje subjektívnu a v tomto zmysle
úplnú štruktúru abstraktných pravidiel a vzťahov, ktorá predstavuje subjektívny
model jazyka. Učenie je založené na porovnávaní podobností a rozdielov vo
vstupnom texte. Tieto podobnosti a rozdiely systém identifikuje a abstrahuje
z nich štruktúry na morfologickej, syntaktickej, a čiastočnej aj na sémantickej
úrovni. Navrhnuté formalizmy symbolickej reprezentácie týchto štruktúr dovoľujú jednak efektívne riadiť algoritmus pomocou vstupov, jednak zohľadňujú
prípadné využitie vytvoreného modelu jazyka v iných aplikáciách, napríklad pri
vyhľadávaní textov, v systémoch na spracovanie prirodzeného jazyka, v textových korpusoch a podobne.
Literatúra
CSONTÓ, Július – SABOL, Tomáš. 1991. Umelá inteligencia. Košice: Edičné stredisko TU v
Košiciach.
ČERMÁK, František. 1994. Jazyk a jazykověda. Praha: Pražská imaginace.
FURDÍK, Karol. 2000. Pojmové modelovanie. In: M. Nábělková (ed.), Varia IX. Zborník
materiálov z IX. kolokvia mladých jazykovedcov. Bratislava: SJS pri SAV (v tlači).
FURDÍK, Karol. 1999. Pravdepodobnostné modelovanie vzniku a vývoja jazykových štruktúr.
In: M. Nábělková – Ľ. Králik (ed.), Varia VIII. Zborník materiálov z VIII. kolokvia mladých
jazykovedcov. Bratislava: SJS pri SAV, s. 276 – 289.
van GULICK, Robert. 1992. Vedomie, vlastná intencionalita a stroje, ktoré rozumejú samy sebe.
In: E.Gál – J.Kelemen (eds.), Myseľ / telo / stroj. Bratislava: Bradlo, s. 80 – 100.
49
KAROL FURDÍK
KOSTELNÍK, Peter. 2000. Získavanie informácií s využitím algoritmov zhlukovej analýzy.
Diplomová práca. Košice: Katedra kybernetiky a umelej inteligencie.
MICHALOVIČ, Peter – MINÁR, Pavol. 1997. Úvod do štrukturalizmu a postštrukturalizmu.
Bratislava: Vydavateľstvo Iris.
PÁLEŠ, Emil. 1993. SAPFO – Parafrázovač slovenčiny. Doktorská dizertačná práca.
Bratislava: JÚĽŠ SAV.
50
SPRACOVANIE MORFOLOGICKEJ
ROVINY SLOVENČINY POČÍTAČOM
Eduard Kostolanský – Jana Hašanová: Laboratórium počítačovej lingvistiky, Pedagogicka fakulta Univerzity Komenského, Bratislava
1. Úvod
Lingvistický výskum, ktorého hlavným cieľom je tvorba adekvátnych lingvistických teórií umožňujúcich „vypočítať“ všetky slovné tvary daného slova,
resp. identifikovať príslušný slovný tvar, je v jazykoch európskeho typu, či už
s jednoduchou alebo rozsiahlou flektívnou morfológiou, zavŕšený. Pre väčšinu
týchto jazykov je algoritmicky spracovaná flektívna i derivačná morfologická
rovina. Základná schéma a automatizovaný postup rozpoznania/generovania
flektívnej morfológie jednotlivých ohybných slovných druhov sú spracované aj
pre slovenčinu.
Algoritmické spracovanie flektívnej slovenskej morfológie sa budovalo na
báze existencie virtuálneho slovníka. Tento slovník obsahuje iba vybrané údaje
o ohýbaných slovách a vzoroch ohýbania. Keď vznikne potreba sformovať
ktorýkoľvek tvar k ľubovoľnému slovu, vygeneruje sa s využitím virtuálneho
slovníka, ktorý obsahuje komplexné údaje o vzoroch ohýbania a vybrané údaje
o konkrétnych ohýbaných slovách. Pri každom vzore sú komplexné údaje
o zmenách v tvarotvornom základe (TZ), súbor ohýbacích prípon a výpočtové
pravidlá formovania jednotlivých slovných tvarov.
Systémy, ktoré vykonávajú algoritmickú analýzu textov, sú opatrené poznatkami o morfológii, syntaxi a sémantike príslušného jazyka. Potrebné informácie sa umiestňujú vo vhodne štruktúrovanej databáze.
2. Vývoj referenčnej morfologickej databázy
V tejto práci predstavíme opis morfologickej roviny lexikálnej databázy.
Príspevok sa delí na dve hlavné časti.
V prvej časti sa sústreďujeme na opis slovenskej flektívnej morfológie.
Ukážeme, ako sa formujú skupiny údajov a pravidiel potrebných na vytváranie
slovných tvarov jednotlivých slov. Napr. skupiny údajov predstavujú pádové
51
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
prípony skloňovacieho vzoru chlap: -ø, -a, -ovi, -a, -ovi, -om atď. alebo tvarotvorné základy pri vzore mráz: mráz-, mraz-. Príkladom pravidla je napr. alternácia spoluhlások ch/s v nominatíve plurálu pri vzore černoch: černoch –
černosi. Poznatky a skúsenosti z práce s rozsiahlou množinou podstatných
mien, ktoré sú obsiahnuté v Krátkom slovníku slovenského jazyka (1997), sme
zhrnuli vo viacerých prácach (Benko – Hašanová – Kostolanský 1996, 1997,
1998). V tomto príspevku podáme iba základnú informáciu o podstatných
menách a uvedieme údaje o ostatných ohybných slovných druhoch. Všetky poznatky plánujeme uverejniť v širšej knižnej forme.
Možno povedať, že explicitnosť opisu morfológie odstraňuje výnimky,
zvláštne prípady, varianty a stanovuje transformačné pravidlá, vzory a skupiny
prípon na presný opis formovania a analýzy slovných tvarov. Hlavným cieľom
je dosiahnuť, aby formovanie/analýza slovných tvarov boli mechanické postupy, t. j. vykonateľné aj strojom a aplikovateľné ku každému slovu. Prvá časť
sa teda sústreďuje na paradigmy vzorov. Skloňovací vzor chápeme v zmysle definície: „Skloňovací vzor je jednak množina slov s rovnakým skloňovaním,
jednak jedno vzorové slovo, ktoré danú množinu slov ako typický príklad vhodne reprezentuje svojimi (formálnymi i významovými) vlastnosťami“ (Oravec –
Bajzíková – Furdík 1984).
V druhej časti nášho príspevku opisujeme modelovanie referenčnej morfologickej databázy pomocou relačného dátového modelu. Ide o morfologické
údaje – primerane štruktúrované a detailizované – o najpoužívanejších slovách
v súčasnej spisovnej slovenčine (Krátky slovník slovenského jazyka 1997). Ku
každému slovu je priradený údaj o jeho slovnodruhovej príslušnosti a v závislosti
od toho ďalšie údaje, napr. pri jednotlivých podstatných menách vzor skloňovania a tvarotvorný základ (základy).
Predpokladá sa, že vo všeobecnosti sa bude môcť počet atribútov slov zvyšovať, takže morfologická databáza bude postupne prerastať na databázu, ktorá sa
využije aj pri analýze textu v iných smeroch (syntaktická rovina, sémantická
rovina, kvantitatívna analýza a pod.) a pri tvorbe iných, už spomenutých aplikácií.
Ďalej stručne opíšeme virtuálne slovníky patriace k jednotlivým ohybným
slovným druhom. Základnými zdrojmi morfologických údajov sú práce Morfológia slovenského jazyka (1966), Oravec – Bajzíková – Furdík (1984), Páleš
(1994), Pauliny – Ružička – Štolc (1968).
Opis morfológie slovného druhu má gramatickú časť, ktorá obsahuje
gramatické údaje, prípadne výsledky podrobnejšieho štúdia, potrebné pri algo52
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
ritmickom spracovaní morfologickej roviny. Potom nasledujú vzory ohýbania.
Informácie o každom slovnom druhu sú zhrnuté v prehľadných tabuľkách.
Zhromaždené morfologické údaje o vzoroch považujeme za vhodné predstaviť v dvoch rovinách.
V prvej rovine je základom, okolo ktorého sa zhromažďujú ďalšie údaje,
tvarotvorný základ (TZ) a zmeny v ňom, ktoré spôsobujú alternácie, ako aj
zmeny v sústave ohýbacích prípon. TZ chápeme ako bazálnu časť slova po oddelení tvarotvornej prípony – formantu. Pri každej zmene v týchto dvoch zložkách zavádzame nový vzor. Napr. pri stupňovaní prídavných mien majú slová
biely, blízky, krátky samostatné vzory, pretože pri ohýbaní má ich TZ rôznu
podobu – bel-ší, bliž-ší, krat-ší. Slovo čierny má iný vzor preto, že okrem zmeny
TZ má inú ohýbaciu príponu – čern-ejší. Túto rovinu voláme prvá rovina – lingvistická, pretože pri práci na nej bolo nahromadených mnoho údajov zaujímavých práve z lingvistického hľadiska. Údaje sú prezentované, pokiaľ možno,
v takej podobe, aby boli zrozumiteľné čo najširšiemu okruhu používateľov.
V druhej rovine hrá podstatnú úlohu sústava ohýbacích prípon. TZ boli
vytvorené v rámci prvej roviny a na to, aby počítač správne generoval/stanovil
príslušnú morfologickú podobu, potrebuje zodpovedajúcu skupinu prípon. Teda
za predpokladu existencie TZ a ich uvažovania ako doplňujúcich údajov pri
analýze/generovaní slovných tvarov sa redukuje počet ohýbacích vzorov, pretože
vzory sa charakterizujú predovšetkým sústavou prípon. TZ vstupujú do procesu
analýzy/generovania ako konštanty. TZ1, TZ2 sú podoby TZ pri ohýbaní. Dokumentovať to môžeme znovu na vzoroch stupňovania prídavných mien. Napr.
adjektíva biely, blízky, krátky majú v druhej rovine len jeden vzor, pretože majú
rovnakú ohýbaciu príponu komparatívu a príslušný TZ je k dispozícii ako konštanta: biely – belší (TZ1-y, TZ2-ší), blízky – bližší (TZ1-y, TZ2-ší), krátky –
kratší (TZ1-y, TZ2-ší) atď.
Na počítačové spracovanie morfologickej roviny je určená vlastne len
druhá rovina. Ale kvôli zachovaniu výsledkov analýzy a vzhľadom na možnosti využívania zhromaždených a štruktúrovaných údajov aj pre ďalšie výskumné práce, budeme pri každom slovnom druhu špecifikovať obe tieto
roviny. Prvá rovina je pritom prezentovaná formou základných informácií, na
ktorých možno stavať ďalší špeciálny jazykovedný výskum. Podrobnejšie informácie o prvej rovine podstatných mien sú obsiahnuté v už spomínanej
publikácii Benko – Hašanová – Kostolanský (1998). Úplný gramatický opis
vzorov všetkých ohybných slovných druhov je mimo rámca tohto príspevku,
53
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
preto pri každom slovnom druhu uvádzame len niekoľko príkladových opisov
vzorov prvej i druhej roviny.
3. Morfológia podstatných mien
Pri spracúvaní morfológie substantív a ostatných slovných druhov na
účely počítačového spracovania slovenských textov vychádzame zo všeobecných základných pojmov (Morfológia slovenského jazyka 1966). Základnou
jednotkou morfologickej roviny je slovný tvar, ktorý tvorí tvarotvorný základ
(TZ) a relačná časť. Pri substantívach relačnú časť predstavuje sústava pádových prípon, pomocou ktorých sa tvoria jednotlivé slovné tvary.
3.1 Podstatné mená – prvá morfologická informačná rovina
Skloňovací vzor chápeme, ako sme už uviedli, v zmysle definície podľa
Oravec – Bajzíková – Furdík (1984). Určenie formálnych vlastností vzoru je v
našej práci prísnejšie, podrobnejšie. Formovanie nových vzorov sa riadi pravidlom, že každá zmena v sústave ohýbacích prípon alebo zmena v TZ spôsobí zavedenie nového vzoru. Podľa toho napr. rôzne zakončenia substantív mužského
rodu v nominatíve plurálu (-i, -ia, -ovia), ktoré sa pri klasických vzoroch uvádzajú
ako variantné prípony (tamže), v našom chápaní vzoru vyžadujú nové vzory:
chlap – chlapi, kresťan – kresťania, sok – sokovia. Rozbor robíme pre potreby písaného textu, preto berieme do úvahy grafickú podobu slovných tvarov, nie fonetickú (napr. kosť--ø/kost-i – dva TZ: kosť-, kost-).
Vzory rozdeľujeme do okruhov, ktoré majú názvy klasických vzorov
(napr. „chlap“, „dub“), ale aj nové názvy („mláďa“). Pri určovaní členov týchto
okruhov sa vychádza zo sústavy prípon vzorového slova – reprezentanta
okruhu, prípadne zmeny v TZ. Reprezentant potom slúži ako porovnávací vzor
pre nové vzory patriace do jeho okruhu. Vzorové slová nemajú variantné prípony. Výnimkou sú vzory, ktoré majú pri svojom názve číslice 0, 1, 2, 3.
„Zvieracie“ vzory mužského rodu sú zaradené do osobitnej podskupiny,
pretože majú osobitné sústavy ohýbacích prípon: v singulári podľa vzorov mužských substantív životných a v pluráli podľa vzorov mužských substantív neživotných (had – hady, mravec – mravce).
Slová, ktoré nemajú úplnú paradigmu – hromadné a pomnožné – nemajú
samostatné vzory. Je im pridelený vzor zo skupiny substantív s úplnou paradigmou, ktorý má rovnaké skloňovanie v singulári alebo v pluráli ako príslušné
54
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
substantíva s neúplnou paradigmou (nožnice – vzor ulica). Pri jednotlivých
slovách je v databáze uvedený údaj v stĺpci SA (t. j. špecifické atribúty), ktorý
„upozorňuje“, že pomnožné podstatné mená treba skloňovať len v pluráli a
hromadné len v singulári.
V stĺpci SA sú zoskupené aj príznakové tvary oslovenia v pôvodnom vokatíve (Bože, synu).
Odlíšenie vzorov v rámci jedného okruhu sa vykonáva už spomenutým
porovnávaním s reprezentantom, pričom si najprv všímame zmeny v TZ a potom zmeny v sústave prípon.
Pod A sa uvádzajú typy alternácií, ktoré spôsobujú zmeny v TZ slova (k/c:
vodník-, vodníc-). Pod B sa uvádzajú odlišnosti v sústave ohýbacích prípon
(chlap-i, sok-ovia).
Niektoré skupiny slov s dubletnými príponami majú také sústavy ohýbacích prípon, ktoré zodpovedajú niektorému zo vzorov v zozname len v jednom
variante. V druhom variante sa skloňujú podľa osobitného vzoru, ktorý má pri
svojom názve číslicu 0. Napr. slovo tvár sa skloňuje podľa vzoru dlaň. V genitíve singuláru má aj príponu -i, preto sa skloňuje aj podľa vzoru tvár-ø. Niektoré
skupiny slov s dubletnými príponami sa skloňujú podľa osobitného vzoru v
jednom aj v druhom variante. Vtedy majú pri svojom názve číslice 1, 2. Napr.
oko-1 (očí), oko-2 (očú). Číslicu 3 majú pri svojom názve vzory zveličených
substantív, ktoré majú dva rody. (Číslica 3 je pri názve vzoru v inom ako strednom rode, napr. skalisko3 – ženský rod.)
Výsledkom takéhoto prístupu je podstatné rozšírenie počtu vzorov podstatných mien v porovnaní s doterajšími prácami (Morfológia slovenského
jazyka 1966, Pauliny – Ružička – Štolc 1968). V súčasnosti má náš systém 199
vzorov podstatných mien.
Homonymá sú do počtu substantív zarátané len jedenkrát, pretože sa berie
do úvahy len ich rovnaký morfologický tvar, nie rozdiel vo význame. Ak majú
v niektorých tvaroch rozdiely, sú uvedené dvakrát (napr. ucho – uši, ucho –
uchá).
Každý okruh je označený menom jeho vzoru – reprezentanta (napr.
„chlap“).
Pri podstatných menách sú to tieto okruhy: „chlap“, „hrdina“, „dub“,
„stroj“, „nesklonné“ – mužský rod; „žena“, „ulica“, „dlaň“, „kosť“, „gazdiná“, „nepravidelné“, „nesklonné“ – ženský rod; „mesto“, „srdce“, „vysvedčenie“, „mláďa“, „nesklonné“ – stredný rod. Samostatný okruh majú aj pod55
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
statné mená s nepravidelným skloňovaním, pričom žiaden zo vzorov okruhu
nie je reprezentant.
Napr. okruh vzorov „ulica“ obsahuje tieto vzory: ulica, fakľa, dyňa, funkcia, hrádza, jedľa, míľa, nedeľa, ovca, pomyje-ø, ruža, svieca, víchrica, vládkyňa, vôňa.
Morfologická databáza obsahuje v súčasnosti asi 22 500 podstatných
mien.
Podobný postup ako pri podstatných menách využívame aj pri ostatných
ohybných slovných druhoch.
Ako ukážku opisu vzorov uvedieme niekoľko príkladov ohýbacích typov
prvej roviny.
Okruh „chlap“ a jeho vybrané vzory.
Vzor chlap je vzor reprezentant, podľa ktorého sa skloňuje skupina životných podstatných mien mužského rodu zakončených v N sg. na nulovú morfému. V TZ u nich nedochádza k zmenám. Majú túto sústavu ohýbacích prípon:
N
G
D
A
L
I
chlap-ø
chlap-a
chlap-ovi
chlap-a
chlap-ovi
chlap-om
chlap-i
chlap-ov
chlap-om
chlap-ov
chlap-och
chlap-mi
Vzor vodník je príkladom vzoru, ktorý patrí do okruhu „chlap“ a od reprezentanta sa odlišuje takto:
N
G
D
A
L
I
A: alternácia spoluhlások k/c v N pl.
B: –
vodník-ø
vodníc-i
vodník-a
vodník-ov
vodník-ovi
vodník-om
vodník-a
vodník-ov
vodník-ovi
vodník-och
vodník-om
vodník-mi
Vzor černoch je príkladom vzoru, ktorý patrí do okruhu „chlap“ a od reprezentanta sa odlišuje takto:
A: alternácia spoluhlások ch/s v N pl.
56
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
B: –
N
černoch-ø
černos-i
G
černoch-a
černoch-ov
D
černoch-ovi
černoch-om
A
černoch-a
černoch-ov
L
černoch-ovi
černoch-och
I
černoch-om
černoch-mi
3.2 Podstatné mená – druhá morfologická informačná rovina
Ako sme už vyššie zdôraznili, vzor druhej roviny sa formuje zo sústavy
ohýbacích prípon a príslušných variantov TZ, ktoré vystupujú ako konštanty.
Napr. substantíva mesto, laso, gazdovstvo majú v prvej rovine každé osobitný
vzor, pretože pri ohýbaní dochádza v každom z ich TZ k inej zmene (miest,
lás, gazdovstiev). V druhej rovine je vzorec vyjadrujúci ich ohýbanie vždy rovnaký: TZ1, TZ2 (použité na rovnakom mieste) + rovnaká sústava ohýbacích
prípon, t. j. jeden vzor.
Aj keď sa počet vzorov v druhej rovine zredukuje, zostáva ich škála pomerne veľká, pretože je veľa odlišností v sústavách ohýbacích prípon aj v počtoch TZ.
Nasledujúce príklady ilustrujú opis vzorov druhej roviny.
N
G
D
A
L
I
Vzor 2chlap
TZ1-ø
TZ1-a
TZ1-ovi
TZ1-a
TZ1-ov
TZ1-om
TZ1-i
TZ1-ov
TZ1-om
TZ1-ov
TZ1-och
TZ1-mi
TZ1: chlapVzor 2vodník využíva oproti vzoru chlap dva druhy TZ na rovnakom
mieste.
N
TZ1-ø
TZ2-i
G
TZ1-a
TZ1-ov
D
TZ1-ov
TZ1-om
57
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
A
L
I
TZ1-a
TZ1-ovi
TZ1-om
TZ1-ov
TZ1-och
TZ1-mi
TZ1: vodník-, TZ2: vodnícVzor černoch je „pohltený“ vzorom 2vodník. Počítač vyberá zložky týchto
dvoch vzorov podľa rovnakej schémy.
4. Morfológia slovies
Požiadavka presnosti počiatočných údajov pri počítačovom spracovaní
morfológie slovies si vyžadovala dôslednú inventarizáciu informácií o morfologickej stavbe slovesa a poskytnutie základných informácií v jednoduchej podobe. Najprv bolo nevyhnutné skompletizovať potrebné údaje o časovacích vzoroch. Postupovalo sa ako pri podstatných menách. Nepripúšťali sa žiadne výnimky a sledovala sa homogenita informácií o vzoroch. Dôsledkom akceptovania výnimiek a alternácií bol nárast počtu vzorov slovies prvej roviny na 79. Pri
každom druhu alternácie a každej zmene v sústave ohýbacích prípon je zavedený nový vzor. Aj časovacie vzory sú rozdelené do okruhov. Koreň a tematická
morféma dohromady tvoria slovesný kmeň: robi-. Pri slovesách sa najvýraznejšie prejaví rozdiel pri prezentovaní nazhromaždených morfologických údajov o
vzoroch časovania (a o slovesách vôbec) v dvoch rovinách. V prvej rovine je základom, okolo ktorého sa zhromažďujú ďalšie údaje, slovesný koreň. Presnejšie, koreňom tu nazývame časť slovesa bez ohýbacej prípony a tematickej morfémy (rob-). V druhej rovine je týmto základom kmeň (robi-), teda koreň a tematická morféma spolu a najmä sústava ohýbacích prípon.
Keďže predmetom nášho záujmu v tejto práci je flektívna morfológia, pri
strojovom spracovaní tejto morfologickej roviny je jednotkou spracovania slovo,
t. j. reťazec znakov vymedzený dvoma medzerami. Z toho vyplýva, že súčasťou
vzoru sú len jednoduché slovesné tvary: indikatív prézenta, imperatív, prechodník, činné príčastie prítomné, neurčitok, l-ové príčastie, činné príčastie minulé,
n/t-ové príčastie, slovesné podstatné meno. Zložené slovesné tvary sú viacslovné
výrazy.
Pri nepravidelných slovesách vzhľadom na zložitosť zmien v často sa
meniacej báze neuvádzame typy alternácií v prvej rovine. Neuvádzame tiež tvary, ktoré sa pri nepravidelných slovesách nevyskytujú. Opierame sa pritom o
údaje uvedené v práci J. Mistríka (1988).
58
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
Neosobné slovesá nemajú osobitné vzory. Teoreticky je možné utvoriť pri
nich všetky jednoduché slovesné tvary. Majú pri sebe znak – 3. os. n., napr. vyčasiť sa. Pri slovesách, ktoré sa používajú len v 3. os. sg., je označenie – iba
3. os., napr. bolieť. Údaje sú v databáze slov pod atribútom SA.
4.1 Slovesá – prvá morfologická informačná rovina
Prvá rovina poskytuje v rámci jednotlivých vzorov údaje formou opisu
koreňov, tematických morfém, sústavy ohýbacích prípon a alternácií. Pre každý
druh zmeny je iný vzor. Pri opise alternácií, ktoré sa vyskytujú v jednotlivých
vzoroch, vychádzame z prác Morfológia slovenského jazyka (1966), Oravec –
Bajzíková – Furdík (1984), Pauliny – Ružička – Štolc (1968). Pri slovesách je
problematika alternácií v prvej rovine riešená menej podrobne ako pri podstatných menách. Napr. alternácia A1 zahŕňa spoločne zmeny spoluhlások pred tematickou morfémou -e-: t/c, d/dz, s/š, z/ž... Každý druh spoluhláskovej zmeny
nie je prezentovaný ako nová alternácia. Sústredili sme sa na správne vytváranie jednotlivých TZ a nie na presné pravidlá alternovania.
Časovacie vzory prvej roviny – zásady formovania
Do okruhu patrí vzor – reprezentant, ktorý je vo všetkých ukazovateľoch
zhodný s klasickým vzorom, resp. so vzorovým slovom, a skupina vzorov, ktoré
majú určité odchýlky. Napr. do okruhu vzorov „chytať“ patrí vzor – reprezentant chytať (chytá) a tiež vzor čítať (číta), ktorý má krátku prézentnú tematickú
morfému v dôsledku rytmického krátenia. Za každým vzorom, v ktorom dochádza k zmenám v koreni, je uvedený príslušný typ alternácie (napr. hynúť A4 –
hyň!).
Okruhy vzorov prvej roviny sú tieto: „brať“, „chudnúť“, „chytať“,
„hynúť“, „kričať“, „niesť“, „pracovať“, „robiť“, „rozumieť“, „trieť“,
„vidieť“, „česať“, „žať“, „žuť“, „nepravidelné“.
Napr. okruh vzorov „robiť“ obsahuje tieto vzory: robiť, hájiť, krášliť,
kresliť, kúpiť, tajiť.
Kompletný súbor morfologických informácií prvej roviny dokumentujeme
na dvoch príkladoch z okruhu „robiť“.
Vzor kresliť
sloveso v neurčitku:
kresl-i-ť
59
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
tematická morféma prítomníková TMPA1:
tematická morféma prítomníková TMPB1:
1. podoba prítomníkového koreňa RPA1:
2. podoba prítomníkového koreňa RPB1:
prítomník (okrem 3. os. pl.):
-í-økresl-(í-)
kresl-(0-)
RPA1 + -í-m, -í-š, -í-ø; -íme, -í-te
prítomník (3. os. pl.):
RPB1 + -ia
imperatív:
RPB1 + -ø!, -me!, -te!
prechodník:
RPB1 + -iac
činné príčastie prítomné:
RPB1 + -iaci, -iaca, -iace;
-iaci, -iace, -iace, -iace
vzor pre činné príčastie prítomné:
rýdzi
tematická morféma neurčitková TMIA1:
-itematická morféma neurčitková TMIB1:
-i1. podoba neurčitkového koreňa RIA1:
kresl-(i-)
2. podoba neurčitkového koreňa RIB1:
kresl-(i-)
minulý čas:
RIB1 + -i-l, -i-la, -i-lo; -ili
činné príčastie minulé:
RIB1 + -i-vší, -i-všia, -ivšie; -i-vší, -i-všie, -i-všie,
-i-všie
vzor pre činné príčastie minulé:
cudzí
trpné príčastie:
RPB1 + -ený, -ená, -ené;
-ení, -ené, -ené, -ené
vzor pre trpné príčastie:
pekný
slovesné podstatné meno:
RIB1 + -enie
vzor pre slovesné podstatné meno:
vysvedčenie
A:
A26 – IZ s morfémou -i
Aa: zmena tematickej morfémy oproti vzoru –
reprezentantu
B:
–
Vzor kúpiť
sloveso v neurčitku:
tematická morféma prítomníková TMPA1:
tematická morféma prítomníková TMPB1:
60
kúp-i-ť
-i-ø-
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
1. podoba prítomníkového koreňa RPA1:
2. podoba prítomníkového koreňa RPB1:
prítomník (okrem 3. os. pl.):
prítomník (3. os. pl.):
imperatív:
prechodník:
činné príčastie prítomné:
vzor pre činné príčastie prítomné:
tematická morféma neurčitková TMIA1:
tematická morféma neurčitková TMIB1:
1. podoba neurčitkového koreňa RIA1:
2. podoba neurčitkového koreňa RIB1:
minulý čas:
činné príčastie minulé:
vzor pre činné príčastie minulé:
trpné príčastie:
vzor pre trpné príčastie:
slovesné podstatné meno:
vzor pre slovesné podstatné meno:
A:
Aa:
B:
kúp-(i-)
kúp-(0-)
RPA1 + -i-m, -i-š, -i-ø; -ime, -i-te
RPB1 + -ia
RPB1 + -ø!, -me!, -te!
RPB1 + -iac
RPB1 + -iaci, -iaca, -iace;
-iaci, -iace, -iace, -iace
rýdzi
-i-ikúp-(i-)
kúp-(i-)
RIB1 + -i-l, -i-la, -i-lo; -ili
RIB1 + -i-vší, -i-všia, -ivšie; -i-vší, -i-všie, -i-všie,
-i-všie
cudzí
RPB1 + -ený, -ená, -ené;
-ení, -ené, -ené, -ené
pekný
RIB1 + -enie
vysvedčenie
–
TMPA1 -i- kúp-i-m
–
4.2 Slovesá – druhá morfologická informačná rovina
Druhá morfologická rovina, ktorá je hlavným predmetom nášho záujmu
v spojitosti s algoritmickým spracovaním morfológie slovies, je predstavená
prostredníctvom kmeňov a prípon.
Časovacie vzory druhej roviny – zásady formovania
61
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
Časovací vzor v našom ponímaní je sloveso alebo množina slovies s rovnakým súborom osobných, tvarových a menných prípon, príslušných variácií
podôb neurčitkových a prítomníkových kmeňov a imperatívneho základu. Základným dištinktívnym prvkom nie sú ani tematické morfémy, pretože počítač
pracuje s celým kmeňom, ktorého súčasťou je aj tematická morféma (chytá-m).
Opis vzorov časovania slovies druhej roviny obsahuje všetky jednoduché
tvary. Pri každom vzore sú uvedené podoby neurčitkových kmeňov, podoby
prítomníkových kmeňov a príslušná sústava ohýbacích prípon. Pre tvary, ktoré sa
skloňujú (činné príč. prít., činné príč. min., trpné príč., slovesné pods. meno), je
uvedená sústava ohýbacích prípon v základnom tvare a skloňovací vzor.
V druhej rovine sú tieto okruhy vzorov: „2chudnúť“, „2kričať“,
„2niesť“, „2česať“, „2robiť“, „2nepravidelné“.
Ako príklad opisu slovesných vzorov druhej roviny uvádzame vzor 2robiť.
Vzor 2robiť je vzor reprezentant. Charakterizuje ho príslušná množina
kmeňov a ohýbacích prípon.
neurčitok:
prítomníkový kmeň – 1. podoba KPA1:
2. podoba KPB1:
imperatívny základ IZ:
prítomník (okrem 3. os. pl.):
prítomník (3. os. pl.):
imperatív:
prechodník:
činné príčastie prítomné:
ohýbací vzor pre činné príčastie prítomné:
neurčitkový kmeň – 1. podoba KIA1:
2. podoba KIB1:
minulý čas:
činné príčastie minulé:
ohýbací vzor pre činné príčastie minulé:
trpné príčastie:
ohýbací vzor pre trpné príčastie:
62
KIA1 + -ť
robírobrobKPA1 + -m, -š, -ø; -me, -te,
KPB1 + -ia
IZ + -ø; -me, -te
KPB1 + -iac
KPB1 + -iaci, -iaca, -iace;
-iaci, -iace, -iace, -iace
rýdzi
robirobiKIB1 + -l, -la, -lo; -li
KIB1 + -vší, -všia, -všie;
-vší, -všie, -všie, -všie
cudzí
KIB1 + -ený, -ená, -ené;
-ení, -ené, -ené, -ené
pekný
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
slovesné podstatné meno:
ohýbací vzor pre slovesné podstatné meno:
KIB1 + -nie
vysvedčenie
Aj pri slovesných vzoroch vidíme, ako sa v druhej rovine redukuje počet
vzorov. Na ukážke môžeme sledovať, ako sa slová, ktoré sa v prvej rovine časovali podľa troch rôznych vzorov (robiť, kresliť, kúpiť), ohýbajú v druhej rovine
podľa jedného vzoru (2robiť).
V ďalšej časti sa budeme zaoberať zostávajúcimi ohybnými slovnými
druhmi, ktorými sú prídavné mená, príslovky, zámená a číslovky. Výsledkom
morfologickej analýzy sú aj v tomto prípade zoznamy a opisy vzorov, predstaviteľov ohýbacích typov. Ako príklad uvedieme pri každom z týchto
slovných druhov niekoľko vzorov. Kladieme si týmto za cieľ objasniť rozdiely
medzi prvou a druhou rovinou prezentácie morfologických údajov.
5. Morfológia prídavných mien
Skloňovací vzor prídavných mien má 38 tvarov. Oproti podstatným
menám je zmena v tom, že prídavné mená všetkých troch rodov sú reprezentované jedným heslovým slovom (pekný – N sg., mužský rod). Všetky majú v N
sg. rovnaký TZ. V mužskom rode pristupuje osobitná skupina ohýbacích prípon
pre mužskú osobu prídavných mien. Súčasťou vzoru je uvedenie prípadných alternácií v TZ a zmeny v sústave ohýbacích prípon.
Stupňovací vzor, pomocou ktorého sa určuje miera vlastnosti, je charakterizovaný použitím prípony -ší alebo -ejší v komparatíve (star-ší, jasn-ejší).
Mnohé prídavné mená nadobúdajú kategóriu stupňovania v prenesenom
význame. Preto sme stupňovací vzor pridelili každému stupňovateľnému
prídavnému menu. Delenie na stupňovateľné a nestupňovateľné prídavné mená
sme robili ručne na základe vlastného jazykového vedomia.
Superlatív – 3. stupeň – tvoríme pridaním predpony naj- k tvaru komparatívu (naj-starší, naj-jasnejší).
Stupňovací vzor prvej roviny teda obsahuje informáciu o stupňovacej
prípone a údaje o alternáciách v TZ.
5.1 Prídavné mená – prvá morfologická informačná rovina
63
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
Pri prídavných menách závisí sformovanie nového vzoru skloňovania od
zakončenia slova a zachovania rytmického krátenia v TZ. To má potom vplyv
aj na súbor ohýbacích prípon. Pri stupňovaní dochádza k väčším zmenám v TZ
a pri niektorých prídavných menách sa prejavuje aj supletívnosť bázy.
Postup rozširovania skupiny vzorov prídavných mien – prvá rovina
Okruhy vzorov skloňovania prídavných mien – prvá rovina: „pekný“, „cudzí“,
„extra“.
Okruhy vzorov stupňovania prídavných mien – prvá rovina: „nový“, „belasý“,
„bosý“.
Ako príklad opisu vzorov skloňovania prídavných mien prvej roviny je
uvedený vzor pekný ako reprezentant a vzor krásny ako člen okruhu. Napriek
tomu, že ide o všeobecne známe informácie, z dôvodu komplexnosti uvedieme
aj tieto údaje.
Okruh vzorov „pekný“: pekný, krásny, hoden.
Vzor pekný je vzor reprezentant. Skloňujú sa podľa neho prídavné mená
zakončené v N sg. mužského rodu na -ý. V TZ nie je alternácia.
Sg.
Pl.
M živ.
M neživ. F
N
M živ.
M neživ.
FN
N
pekn-ý
pekn-ý
pekn-á
pekn-é
pekn-í
pekn-é
G
pekn-ého pekn-ého pekn-ej
pekn-ého pekn-ých pekn-ých
D
pekn-ému pekn-ému pekn-ej
pekn-ému pekn-ým pekn-ým
A
pekn-ého pekn-ý
pekn-ú
pekn-é
pekn-ých pekn-é
L
pekn-om pekn-om pekn-ej
pekn-om pekn-ých pekn-ých
I
pekn-ým pekn-ým pekn-ou
pekn-ým pekn-ými pekn-ými
A: – B: –
Vzor krásny
Sg.
M živ.
M neživ.
N krásn-y
krásn-y
G krásn-eho krásn-eho
D krásn-emu krásn-emu
64
F
krásn-a
krásn-ej
krásn-ej
N
krásn-e
krásn-eho
krásn-emu
Pl.
M živ.
krásn-i
krásn-ych
krásn-ym
M neživ. F N
krásn-e
krásn-ych
krásn-ym
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
A krásn-eho krásn-y
krásn-u
L krásn-om krásn-om krásn-ej
I krásn-ym krásn-ym krásn-ou
A: – B: krátke ohýbacie prípony
krásn-e
krásn-om
krásn-ym
krásn-ych krásn-e
krásn-ych krásn-ych
krásn-ymi krásn-ymi
Príklady vzorov stupňovania prídavných mien.
Okruh vzorov „nový“: nový, tenký, vysoký, hlboký, pekný-s (stupňovací),
dobrý, malý, veľký, zlý, biely, blízky, krátky.
Vzor nový sa v N sg. mužského rodu v pozitíve končí na -ý. Stupňuje sa
pomocou prípony -ší. Pri stupňovaní nedochádza k alternáciám.
rod
M
F
N
M živ.
M neživ., F, N
A: – B: –
číslo
Sg.
Sg.
Sg.
Pl.
Pl.
1. stupeň
nov-ý
nov-á
nov-é
nov-í
nov-é
2. stupeň
nov-ší
nov-šia
nov-šie
nov-ší
nov-šie
3. stupeň
naj-novší
naj-novšia
naj-novšie
naj-novší
naj-novšie
Vzor biely sa v N sg. mužského rodu v pozitíve končí na -y. TZ sa končí
na jednu spoluhlásku, pred ktorou je dlhá samohláska, ktorá sa skracuje (A1).
Stupňuje sa pomocou prípony -ší.
rod
číslo
1. stupeň
2. stupeň
3. stupeň
M
Sg.
biel-y
bel-ší
naj-belší
F
Sg.
biel-a
bel-šia
naj-belšia
N
Sg.
biel-e
bel-šie
naj-belšie
M živ.
Pl.
biel-i
bel-ší
naj-belší
M neživ., F, N Pl.
biel-e
bel-šie
naj-belšie
A: A1 B: krátke ohýbacie prípony
Vzor vysoký sa v N sg. mužského rodu v pozitíve končí na -ý. TZ sa končí
na -ok-, pred ktorým je sykavka. Pri stupňovaní -ok- vypadáva (A4) a sykavka
sa zmäkčuje (A5). Stupňuje sa pomocou prípony -ší.
rod
číslo
1. stupeň
2. stupeň
3. stupeň
M
Sg.
vysok-ý
vyš-ší
naj-vyšší
F
Sg.
vysok-á
vyš-šia
naj-vyššia
65
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
N
Sg.
M živ.
Pl.
M neživ., F, N Pl.
A: A4, A5 B: –
vysok-é
vysok-í
vysok-é
vyš-šie
vyš-ší
vyš-šie
naj-vyššie
naj-vyšší
naj-vyššie
5.2 Prídavné mená – druhá morfologická informačná rovina
Okruhy vzorov skloňovania prídavných mien – druhá rovina: „2pekný“, „2cudzí“, „2extra“.
Okruhy vzorov stupňovania prídavných mien – druhá rovina: „2nový“, „2belasý“, „2bosý“.
Príklady na skloňovanie prídavných mien druhej roviny neuvádzame, pretože postup je jednoduchý. Vzory prvej roviny (pekný, krásny), ktoré sme
uviedli ako príklady, majú v druhej rovine rovnaký TZ a rozdiel v dĺžke prípon:
TZ1-ý (pekn-ý), TZ1-y (krásn-y).
Príklady vzorov stupňovania prídavných mien.
Okruh vzorov „2nový“: 2nový, 2vysoký, 2biely.
Vzor 2nový – stupňujú sa podľa neho prídavné mená zakončené na -ý,
u ktorých pri stupňovaní nedochádza k zmenám v báze a komparatív sa tvorí
pomocou prípony -ší.
rod
číslo
1. stupeň
2. stupeň
3. stupeň
M
Sg.
TZ1-ý
TZ1-ší
naj-TZ1-ší
F
Sg.
TZ1-á
TZ1-šia
naj-TZ1-šia
N
Sg.
TZ1-é
TZ1-šie
naj-TZ1-šie
M živ.
Pl.
TZ1-í
TZ1-ší
naj-TZ1-ší
M neživ., F, N Pl.
TZ1-é
TZ1-šie
naj-TZ1-ie
TZ1: novVzor 2vysoký – stupňujú sa podľa neho prídavné mená zakončené na -ý,
u ktorých pri stupňovaní dochádza k zmenám v báze a komparatív sa tvorí pomocou prípony -ší.
rod
číslo
1. stupeň
2. stupeň
3. stupeň
M
Sg.
TZ1-ý
TZ2-ší
naj-TZ2-ší
F
Sg.
TZ1-a
TZ2-šia
naj-TZ2-šia
N
Sg.
TZ1-e
TZ2-šie
naj-TZ2-šie
66
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
M živ.
Pl.
TZ1-i
M neživ., F, N Pl.
TZ1-e
TZ1: vysok-, TZ2: vyš-
TZ2-ší
TZ2-šie
naj-TZ2-ší
naj-TZ2-šie
Pod vzor 2vysoký patria prídavné mená viacerých vzorov prvej roviny,
napr. vysoký, hlboký, tenký, dobrý, malý, zlý a pod.
Vzor 2biely – stupňujú sa podľa neho prídavné mená zakončené na -y,
u ktorých pri stupňovaní dochádza k zmenám v báze a komparatív sa tvorí pomocou prípony -ší.
rod
číslo
1. stupeň
M
Sg.
TZ1-y
F
Sg.
TZ1-a
N
Sg.
TZ1-e
M živ.
Pl.
TZ1-i
M neživ., F, N Pl.
TZ1-e
TZ1: biel-, TZ2: bel-
2. stupeň
TZ2-ší
TZ2-šia
TZ2-šie
TZ2-ší
TZ2-šie
3. stupeň
naj-TZ2-ší
naj-TZ2-šia
naj-TZ2-šie
naj-TZ2-ší
naj-TZ2-šie
6. Morfológia prísloviek
Gramatická forma prísloviek – vzťah príslovky k nadradenému slovu je
nediferencovaný. Pri niektorých príslovkách sa uplatňuje kategória stupňovateľnosti, ktorou sa vyjadruje miera vlastnosti deja.
6.1 Príslovky – prvá morfologická informačná rovina
Prvý stupeň je zhodný so základným tvarom príslovky, t. j. s heslovým
slovom.
Druhý stupeň sa tvorí spravidla pomocou prípon -šie alebo -ejšie, zriedka
aj inými príponami. Tieto prípony sa pripájajú k TZ po odtrhnutí prípon pozitívu: -o, -e, -y. Pri tvorení druhého stupňa dochádza často k spoluhláskovým, samohláskovým a supletívnym zmenám v báze.
Tretí stupeň sa tvorí pripojením predpony naj- k druhému stupňu príslovky.
67
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
Stupňovateľnosť prísloviek sme zisťovali sčasti pomocou počítača, porovnaním stupňovateľných prídavných mien a im zodpovedajúcich deadjektívnych
prísloviek. Zároveň sme názvy stupňovacích vzorov prísloviek odvodili od príslušných vzorov prídavných mien (novo, bielo, zle...). Stupňovacie vzory prvej
roviny sa delia podľa toho, aká stupňovacia prípona sa v nich využíva a aký
druh alternácie sa v jednotlivých príslovkách pri ohýbaní prejavuje.
Okruhy vzorov stupňovania prísloviek – prvá rovina: „novo“, „belaso“,
„mocne“, „ľudsky“, „nepravidelné“, „boso“.
Napr. okruh vzorov „novo“: novo, bielo, tenko, hlboko, vysoko, krátko,
blízko, malo.
Vzor novo – stupňujú sa podľa neho príslovky zakončené v pozitíve na -o,
ktoré pri ohýbaní nemenia TZ. Stupňuje sa pomocou prípony -šie.
1. stupeň
2. stupeň
3. stupeň
nov-o
nov-šie
naj-novšie
A: – B: –
Vzor bielo je vzorom pre stupňovanie prísloviek zakončených v pozitíve
na -o, ktoré majú v TZ dvojhlásku alebo dlhú samohlásku, ktorá sa skracuje
(A4). Stupňuje sa pomocou prípony -šie.
1. stupeň
2. stupeň
3. stupeň
biel-o
bel-šie
naj-bel-šie
A: A1 B: –
6.2 Príslovky – druhá morfologická informačná rovina
Okruhy vzorov stupňovania prísloviek – druhá rovina: „2novo“, „2belaso“, „2mocne“, „2ľudsky“, „2nepravidelné“, „2boso“.
Napr. okruh „2novo“: 2novo, 2bielo.
Vzor 2novo
1. stupeň
2. stupeň
TZ1-o
TZ1-šie
TZ1: novVzor 2bielo
1. stupeň
2. stupeň
68
3. stupeň
naj-TZ1-šie
3. stupeň
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
TZ1-o
TZ2-šie
naj-TZ2-šie
TZ1: biel, TZ2: belVzor 2bielo zahŕňa v druhej rovine aj príslovky, ktoré v prvej rovine patria pod vzory krátko, blízko, hlboko, vysoko, tenko... a pod. Ich zložité zmeny
v TZ počas ohýbania sú k dispozícii vždy v rovnakom stĺpci pod rovnakým
atribútom. Vzorec stupňovania je, ako vidíme vyššie, vždy rovnaký.
7. Morfológia zámen
Zámená sú slová so všeobecným významom, vyjadrujú však gramatické
významy konkrétnych názvov (Morfológia slovenského jazyka 1966, s. 233).
Výsledkom analýzy morfológie sú aj v tomto prípade zoznamy a opisy vzorov,
predstaviteľov ohýbacích typov.
7.1 Zámená – prvá morfologická informačná rovina
Z hľadiska morfologického delíme zámená na zámená typu „ja“, „kto“,
„on“, „sám“, „môj“, „akýsi“, „čísi“, ktoré plnia úlohu reprezentantov jednotlivých okruhov.
Pri spracovaní zámen vychádzame sčasti z monografie J. Horeckého
(1964). Všímame si odlišnosti v sústave relačných morfém. Slovám, ktoré majú
niektoré tvary variantné, prideľujeme dva vzory. Pri osobných zámenách sú
slová, ktoré majú viac ako dva variantné tvary. Napr. genitív singuláru zámena
on (jeho, neho, ho). V takom prípade pridelíme vzory pre dva tvary a ostatné
uvedieme v databáze v stĺpci SA.
Napr. okruh vzorov „ja“: ja1, ja2, ty1, ty2, my, vy, sa1, sa2.
Vzory zodpovedajú (v zásade) svojím súborom ohýbacích prípon tomuto
typu:
Sg.
Pl.
N G
D
A
L
I
N
G
D
A
L
I
-ø -a
-e
-a
-e
-ou -ø
-ás -ám -ás -ás -ami
Vzor ja1 vyjadruje kategóriu 1. osoby, nerozlišuje rod, číslo – len singulár.
číslo
N
G
D
A
L
I
Sg.
ja-ø
mň-a
mn-e
mň-a
mn-e
mn-ou
A: ZB (zložité zmeny v báze) B: –
Vzor vy vyjadruje kategóriu 2. osoby, nerozlišuje rod, číslo – len plurál.
číslo
N
G
D
A
L
I
69
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
Pl.
vy-ø
v-ás
A: A6 (vy-/v-) B: –
v-ám
v-ás
v-ás
v-ami
7.2 Zámená – druhá morfologická informačná rovina
Vzory pre zámená druhej roviny v podstate zodpovedajú svojím obsahom
vzorom prvej roviny, odlišná je len forma opisu.
Napr. okruh vzorov „2ja“: 2ja1, 2ja2, 2ty1, 2ty2, 2vy, 2sa.
Vzor 2ja1
číslo
N
G
D
Sg.
TZ1-ø
TZ4-a
TZ2-e
TZ1: ja-, TZ2: mn-, TZ4: mňVzor 2vy
číslo
N
G
D
Pl.
TZ1-ø
TZ2-ás TZ2-ám
TZ1: vy-, TZ2: v-
A
TZ4-a
L
TZ2-e
I
TZ2-ou
A
TZ2-ás
L
TZ2-ás
I
TZ2-ami
8. Morfológia čísloviek
Číslovky nemajú osobitné gramatické vlastnosti, ale s mnohými obmedzeniami sa pri nich uplatňujú gramatické kategórie podstatných mien, prídavných
mien a prísloviek.
V jazykovedných prácach nájdeme rôzne charakteristiky čísloviek a ich
rozdelenia na jednotlivé skupiny. Pri našom spracovaní morfologických vlastností čísloviek sa budeme pridŕžať morfologických informácií uvedených
v Krátkom slovníku slovenského jazyka (1997):
1. ohybné podľa vzorov podstatných mien (sto, milión),
2. ohybné podľa vzorov prídavných mien (prvý, tretí),
3. nesklonné (tristo),
4. osobitné skloňovanie – so znakmi charakteristickými len pre číslovky
(šesť, dvanásť).
Prvé tri skupiny skloňovania sme riešili pri iných slovných druhoch, preto
sa budeme venovať najmä poslednej skupine.
8.1 Číslovky – prvá morfologická informačná rovina
70
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
Pri číslovkách, rovnako ako pri zámenách, neuvádzajú príručky slovenskej gramatiky žiadne pevné „klasické“ vzory. Opierame sa preto aj tu o už
citovanú prácu J. Horeckého (1964) a zoskupujeme jednotlivé číslovkové vzory
okolo autorom uvedených typických súborov relačných morfém. Z morfologického hľadiska je pri číslovkách charakteristická kategória mužského osobného
rodu (napr. tri – traja).
Okruhy vzorov: „jeden“, „dva“, „tri“, „štyri“, „päť“, „dvesto“.
Napr. okruh vzorov „päť“ obsahuje vzory: päť, sedem, jedenásť. V sústave relačných morfém zodpovedá nasledujúcej schéme:
Pl.
N
G
D
A
L
I
-ø
-ich
-im
-ø
-ich
-imi
-i
-ich
-im
-ich
-ich
-imi
Vzor päť – dochádza k alternácii A1 (zmena samohlásky na dvojhlásku)
a A21 (zmena ď/d, ť/t, ň/n, ľ/l) v TZ.
M, F, N
M živ.
N
päť-ø
piat-i
G
piat-ich
piat-ich
D
piat-im
piat-im
A
päť-ø
piat-ich
L
piat-ich
piat-ich
I
piat-imi
piat-imi
A: A1, A21 B: –
Vzor sedem – dochádza
v TZ.
M, F, N
N
sedem-ø
G
siedm-ich
D
siedm-im
A
sedem-ø
L
siedm-ich
I
siedm-imi
A: A1, A2 B: –
k alternáciám A1, A2 (vypustenie samohlásky)
M živ.
siedm-i
siedm-ich
siedm-im
siedm-ich
siedm-ich
siedm-imi
71
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
8.2 Číslovky – druhá morfologická informačná rovina
Okruhy vzorov: „2dva“, „2tri“, „2štyri“, „2päť“, „2dvesto“.
Napr. okruh vzorov „2päť“: 2päť.
Vzor 2päť
M, F, N
M živ.
N
TZ1-ø
TZ2-i
G
TZ2-ich
TZ2-ich
D
TZ2-im
TZ2-im
A
TZ1-ø
TZ2-ich
L
TZ2-ich
TZ2-ich
I
TZ2-imi
TZ2-imi
TZ1: päť-, TZ2: piatČíslovky vzoru sedem sa stávajú v druhej rovine súčasťou vzoru 2päť.
9. Dátový model referenčnej morfologickej databázy slovenského jazyka
Pripomeňme, že v tejto práci sa zaoberáme lingvistickými informáciami,
ktoré sú potrebné na vykonanie automatickej analýzy/generovania slovných
tvarov ohybných slov slovenského jazyka.
Potrebné informácie sú umiestnené v referenčnej morfologickej databáze slovenského jazyka (RMDSJ). Databáza obsahuje všetky morfologické informácie o najpoužívanejších slovách súčasnej slovenčiny (okrem vlastných
mien a pomenovaní) v rozsahu stanovenom v predchádzajúcich častiach, primerane štruktúrované a detailizované. Dynamika jazyka vyžaduje databázu vyvíjať tak, aby ju bolo možné rozširovať a použiť v pôvodnej podobe, s určitými
modifikáciami alebo v transformovanej podobe ako prvok komplexnejších systémov spracovania textov. Preto musí byť možnosť ku každému slovu priradiť
údaje, ktoré sú potrebné pri analýze textu v rôznych smeroch (morfologická
rovina, syntaktická rovina, sémantická rovina, kvantitatívna analýza a pod.).
Takými údajmi sú napr. štylistická charakteristika, frekvencia a pod. Typickú
skupinu údajov, ktorá sa využíva v kvantitatívnej lingvistike, uvádza Koehler –
Schmied (1992). Ďalej budeme špecifikovať konceptuálnu schému referenčnej
morfologickej databázy. Opisujeme konceptuálnu schému morfologickej databázy, ktorá pozostáva z konceptuálnych schém vzorov a z konceptuálnych
schém k jednotlivým slovným druhom. Pri algoritmickom spracovaní morfológie slovných tvarov využívame údaje obsiahnuté v databázach druhej roviny.
72
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
9.1 Modelovanie RMDSJ pomocou relačného dátového modelu
Na základe vykonanej analýzy slovenskej lexiky, vlastností morfologických údajov, očakávaného rozširovania databázy a vlastností relačného modelu
dát považujeme za výhodné využiť na modelovanie morfologických údajov
relačný dátový model.
Pripomeňme, že v relačnom modeli skupina príbuzných dát, nazývaných
relačné n-tice, tvorí reláciu. Reláciu si možno predstaviť ako tabuľku, v ktorej
každý riadok predstavuje jeden člen – (n-ticu) relácie – a každý stĺpec zodpovedá
zložke relácie, nazývanej atribút relácie. Každý stĺpec relácie obsahuje údaje toho
istého typu, napr. koncovka skloňovania v datíve singuláru. Teda napr. každá ntica relácie (riadok tabuľky) obsahuje všetky uvažované informácie o danom
slove.
Meno relácie a množina atribútov tvoria relačnú schému. Naplnenie (výskyt) relačnej schémy R sa volá relácia (Lanka – Pal 1993). Na zápis výskytu
relácie sa obyčajne využíva len meno relácie, čo realizujeme aj my. Vzhľadom
na rôznorodosť morfologických údajov pri jednotlivých slovných druhoch v
slovenčine sme k jednotlivým slovným druhom definovali samostatné relácie, t.
j. samostatné tabuľky. Uvádzame opisy relačných schém k týmto skupinám
slov: podstatné mená, slovesá, prídavné mená, zámená, príslovky, číslovky.
9.1.1 Relačné schémy a relácie k podstatným menám
Pri podstatných menách, podobne ako pri ostatných ohybných slovných
druhoch, budeme uvažovať dva typy relačných schém a relácií. Prvý typ zahŕňa
relačné schémy a relácie k vzorom skloňovania a druhý typ relačné schémy
a relácie k samotným podstatným menám ako heslovým slovám. Relácie skloňovacích vzorov budú obsahovať údaje o vzorových podstatných menách –
vzoroch skloňovania. Relácie k podstatným menám budú obsahovať údaje
o jednotlivých heslových slovách, ktoré sú potrebné na morfologické spracovanie podstatných mien. Pri stanovení relačnej schémy sa za menom relačnej
schémy v jednoduchých zátvorkách vymenujú mená atribútov relácie.
Relačné schémy a relácie vzorov skloňovania podstatných mien
Konkrétne relačné schémy vzorov skloňovania podstatných mien a príslušné relácie k týmto schémam sú uvedené v tvare tabuliek. Záhlavie tabuľky
– pomenovanie tabuľky a mená stĺpcov – formujú príslušnú relačnú schému a
samotná tabuľka je zodpovedajúcou reláciou k tejto schéme. Špecifikovanie
73
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
atribútov – stĺpcov tabuliek je uvedené za každou tabuľkou. Ukážky tabuliek
relácií vzorov skloňovania pre podstatné mená sú tieto:
1. rovina – okruh vzorov „ulica“
PODSP1:
SK
ALTER
R
VZOR SN SG SD SA SL SI PN PG PD PA PL PI -NÁCIA
i
dyň dyňa a e i u i ou e ø iame ach ami A1 A21
i
fak fakľa a e i u i ou e ø iame ach ami A10 A21
fun funkcia a e i u i ou e í ám e ách ami –
hrá hrádza a e i u i ou e í am e ach ami –
i
jea jedľa a e i u i ou e í iame ach ami A21
míľ míľa
a e i u i ou e ø am e ach ami A21
i
ned nedeľa a e i u i ou e ø iame ach ami A2 A21
i
ovc ovca
a e i u i ou e ø iame ach ami A10
pomypo0 je-0
– – – – – – e – am e ach ami A1
i
ruž ruža
a e i u i ou e í iame ach ami –
sva svieca a e i u i ou e ø am e ach ami –
i
ia
ac am
uli ulica a e i u i ou e ø m e h i
A1
víchrii
víc ca
a e i u i ou e ø iame ach ami –
vládkyi
vlá ňa
a e i u i ou e ø iame ach ami A21
vôň vôňa a e i u i ou e í am e ach ami A21
Relačná schéma má meno PODSP1 a obsahuje tieto atribúty: (SKR,
VZOR, SN, SG, SD, SA, SL, SI, PN, PG, PD, PA, PL,PI ALTERNÁCIA).
Špecifikácia atribútov:
74
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
SKR – skratka vzoru
VZOR – vzor skloňovania
SN, SG ... SI – 6 pádov singuláru
PN, PG ... PI – 6 pádov plurálu
ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)
2. rovina – okruh vzorov „2ulica“
PODSP2:
SKR VZOR
SN SG SD SA SL SI PN PG PD PA PL PI
Druhy
TZ
2dyň 2dyňa
a e i u i ou e ø iam e iach ami 1,2,4
2fun 2funkcia a e i u i ou e í ám e ách ami 1
2hrá 2hrádza
a e i u i ou e í am e ach ami 1
2jea 2jedľa
a e i u i ou e í iam e iach ami 1,4
2míľ 2míľa
a e i u i ou e ø am e ach ami 1,4
2po0 2pomyje-0 – – – – – – e ø am e ach ami 1,2
2ruž 2ruža
a e i u i ou e í iam e iach ami 1
2sva 2svieca
a e i u i ou e ø am e ach ami 1
2uli 2ulica
a e i u i ou e ø iam e iach ami 1,2
2víc 2víchrica a e i u i ou e ø iam e iach ami 1
2vlá 2vládkyňa a e i u i ou e ø iam e iach ami 1,4
2vôň 2vôňa
a e i u i ou e í am e ach ami 1,4
Špecifikácia atribútov je totožná s predchádzajúcou tabuľkou prvej roviny.
Namiesto atribútu ALTERNÁCIA je atribút Druhy TZ.
Druhy TZ – použité druhy TZ (TZ1, TZ2...).
Predpokladáme, že princíp relačnej schémy a relácie vzorov je dostatočne
vysvetlený a ďalej môžeme prezentovať len meno a záhlavie tabuľky ako relačnú schému vzorov.
Relačné schémy a relácie k jednotlivým podstatným menám:
Relačná schéma podstatných mien mužského rodu má 11 atribútov. Tie
isté atribúty má aj relačná schéma podstatných mien ženského rodu a stredného
rodu. Mená relačných schém sú: PMM – pre mužský rod, PMF – pre ženský
rod, PMN – pre stredný rod a PMD – pre podstatné mená dvojrodové.
Relačná schéma mužských podstatných mien:
75
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
PMM(PARA, PAR1, LEMMA, MORPH, TZ1, TZ2, TZ3, TZ4, SA, PARA2, PAR2_1)
Špecifikácia atribútov:
PARA
je skratka pre vzor ohýbania (paradigmy) – ok1 (oko1)
PAR1
je skratka pre druhý vzor, ak má podstatné meno variantné tvary
– ok2 (oko2)
LEMMA základný tvar slova, heslové slovo – oko
MORPH výber morfologických tvarov, ako ich ponúka KSSJ – -a s. 1.
mn. oči, očí/ arch. očú -iam –iach
TZ1,TZ2 obmeny tvarotvorného základu, ktoré sa vyskytnú pri ohýbaní
TZ3,TZ4 podstatného mena: TZ1 – ok-, TZ2 – očSA
špecifické atribúty, ktoré sa vyskytnú nad rámec štandardných
informácií (napr. uvedenie vokatívu pri niektorých podstatných
menách)
PARA2
je skratka pre vzor ohýbania v 2. rovine – 2ok1 (2oko-1)
PAR2_1
je skratka pre druhý vzor v 2. rovine, keď má podstatné meno
variantné tvary – 2ok2 /(2oko-2)
Všetky atribúty nadobúdajú reťazcové hodnoty.
9.1.2 Relačné schémy a relácie k slovesám
Relačné schémy a relácie vzorov skloňovania slovies
Relačné schémy a relácie k vzorom časovania slovies sú obsiahnuté v tabuľkách. Relácia obsahuje vzorové slová a ich atribúty. Z dôvodu väčšej efektívnosti a úspory tlače je tabuľka – relácia predstavená tak, že jej stĺpce (nie
riadky) tvoria n-ticu relácie, t. j. obsahujú príslušné údaje k vzoru. Mená
atribútov sú uvedené na začiatku riadkov. Špecifikácia atribútov a význam
značiek (TMPA1, RPB1... pre prvú rovinu, KPA1, KPB2... pre druhú rovinu) je
vysvetlený v prvej časti pri opise vzorov slovies.
1. rovina – ukážka z okruhu vzorov „chudnúť“: chudnúť, vládnuť, ľnúť,
KVITNÚŤ.
SLOVP1:
76
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
skratka
vzor
TMPA1
TMPB1
RPA1
RPB1
RPA2
RPB2
1.os.pr.č.j.č.
2.os.pr.č.j.č.
3.os.pr.č.j.č.
1.os.pr.č.mn.č.
2.os.pr.č.mn.č.
3.os pr.č.mn.č.
imper.2.os.j.č.
imper.1.os.mn.č.
imper.2.os.mn.č.
prechodník
čin.príč.prít.j.č.m.r.
čin.príč.prít.j.č.ž.r.
čin.príč.prít.j.č.s.r.
čin.príč.prít.mn.č.m.r.
čin.príč.prít.mn.č.ž.r.
čin.príč.prít.mn.č.s.r.
č.pr.prít.mn.č.m.r.živ.
vzor pre čin.príč.
TMIA1
TMIB1
RIA1
RIB1
min.čas m.r.j.č.
min.čas ž.r.j.č.
min.čas s.r.j.č.
min.čas.mn.číslo
čin.príč.min.j.č.m.r.
chu
chudnúť
e
ø
chudn
chudn
–
–
m
š
ø
me
te
ú
ø
me
te
úc
úci
úca
úce
úci
úce
úce
úce
rýdzi
ú
ø
chudn
chud
ol
la
lo
li
vší
vlá
vládnuť
e
ø
vládn
vládn
–
–
m
š
ø
me
te
u
ø
me
te
uc
uci
uca
uce
uci
uce
uce
uce
rýdzi
u
ø
vládn
vlád
ol
la
lo
li
vší
ľnú
ľnúť
e
ø
ľn
ľn
–
–
m
š
ø
me
te
ú
ø
me
te
úc
úci
úca
úce
úci
úce
úce
úce
rýdzi
ú
u
ľn
ľn
l
la
lo
li
vší
KVI
KVITNÚŤ
e
ø
kvitn
kvitn
pokvitn
pokvitn
m
š
ø
me
te
ú
ø
me
te
úc
úci
úca
úce
úci
úce
úce
úce
rýdzi
ú
ø
kvitn
kvitn
ol
la
lo
li
vší
77
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
2. rovina – ukážka z okruhu vzorov „2chudnúť“: 2chudnúť,
núť, 2KVITNÚŤ, 2HRNÚŤ, 2objať.
Tabuľka – relácia je riešená ako relácie pre 1. rovinu.
SLOVP2:
skratka
2chu
2vlá
2ľnú
vzor
2chudnúť
2vládnuť
2ľnúť
KPA1
chudne
vládne
ľne
KPB1
chudn
vládn
ľn
1.os.j.č.
m
m
m
2.os.j.č.
š
š
š
3.os.j.č.
ø
ø
ø
1.os.mn.č.
me
me
me
2.os.mn.č.
te
te
te
3.os..mn.č.
ú
u
ú
imperatív 2.os.j.č.
ø
ø
ø
imperatív 1.os.mn.č.
me
me
me
imperatív 2.os.mn.č.
te
te
te
prechodník
úc
uc
úc
čin.príč.prít.j.č.m.r.
úci
uci
úci
čin.príč.prít.j.č.ž.r.
úca
uca
úca
čin.príč.prít.j.č.s.r.
úce
uce
úce
čin.príč.prít.mn.č.m.r.živ úci
uci
úci
.
čin.príč.prít.mn.č.ž.r.
úce
uce
úce
čin.príč.prít.mn.č.s.r.
úce
uce
úce
čin.príč.prít.mn.č.m.r.
úce
uce
úce
oh.vzor pre čin.príč.prít. rýdzi
rýdzi
rýdzi
KIA1
chudnú
vládnu
ľnú
KIB1
chud
vlád
ľnu
KIB2
chudnu
vládnu
–
IZ
chudni
vládni
ľni
min.čas j.č.m.r.
ol
ol
l
min.čas j.č.ž.r
la
la
la
min.čas j.č.s.r.
lo
lo
lo
78
2vládnuť, 2ľ-
2objať
2objať
objíme
objím
m
š
ø
me
te
u
ø
me
te
uc
uci
uca
uce
uci
uce
uce
uce
rýdzi
obja
obja
–
objím
l
la
lo
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
min.čas mn.č.
čin.pr.m.čas j.č.m.r.živ.
čin.pr.m.čas j.č.ž.r.
čin.pr.m.čas j.č.s.r.
čin.pr.m.čas mn.č.m.r.
čin.pr.m.čas mn.č.ž.r.
čin.pr.m.čas mn.č.s.r.
čin.pr.m.čas m.r.
ohýb.vz.pre čin.pr.min.
trp.príč.j.č.m.r.
trp.príč.j.č.ž.r.
trp.príč.j.č.s.r.
trp.príč.mn.č.m.r.
trp.príč.mn.č.ž.r.
trp.príč.mn.č.s.r.
trp.príč.mn.č.iné
ohýb.vzor pre trp.príč.
slov.podstatné meno
ohýb.vzor pre sl.pod.m.
li
vší
všia
všie
vší
všie
všie
všie
cudzí
tý
tá
té
tí
té
té
té
pekný
tie
vysvedčenie
li
vší
všia
všie
vší
všie
všie
všie
cudzí
tý
tá
té
tí
té
té
té
pekný
tie
vysvedčenie
li
vší
všia
všie
vší
všie
všie
všie
cudzí
tý
tá
té
tí
té
té
té
pekný
tie
vysvedčenie
li
vší
všia
všie
vší
všie
všie
všie
cudzí
tý
tá
té
tí
té
té
té
pekný
tie
vysvedčenie
Relačné schémy a relácie k jednotlivým slovesám
VER(PARA, LEMMA, V, MORPH, RAD_INF_A, TM_INF_A, RAD_INF_B1,
TM_INF_B1, RAD_INF_B2, TM_INF_B2, RAD_PRZ_A1, TM_PRZ_A1,
RAD_PRZ_A2, TM_PRZ_A2, RAD_PRZ_B1, TM_PRZ_B1, RAD_PRZ_B2,
TM_PRZ_B2, IZ, SA, PARA_2, KME_INF_A, KME_INF_B1, KME_INF_B2,
KME_PRZ_A1, KME_PRZ_A2, KME_PRZ_B1, KME_PRZ_B2)
Meno schémy je VER, má 28 atribútov, ktoré sú špecifikované takto:
PARA
je skratka pre vzor ohýbania (paradigmy) – dža (džavotať)
LEMMA
základný tvar slova, heslové slovo – džavotať
V
informácia o poradí variantov
MORPH
výber morfologických tvarov, ako ich ponúka KSSJ – -ce
-cú -tajúc ndk
79
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
RAD_INF_A
TM_INF_A
RAD_INF_B1
TM_INF_B1
RAD_INF_B2
TM_INF_B2
RAD_PRZ_A1
TM_PRZ_A1
RAD_PRZ_A2
TM_PRZ_A2
RAD_PRZ_B1
TM_PRZ_B1
RAD_PRZ_B2
TM_PRZ_B2
IZ
SA
PARA_2
KME_INF_A
1. podoba neurčitkového koreňa – džavot1. podoba infinitívnej tematickej morfémy – -a1. variant 2. podoby neurčitkového koreňa – džavot1. variant 2. podoby infinitívnej tematickej morfémy – -a2. variant 2. podoby neurčitkového koreňa
2. variant 2. podoby infinitívnej tematickej morfémy
1. variant 1. podoby prítomníkového koreňa – džavoc1. variant 1. podoby prézentnej tematickej morfémy – -e2. variant 1. podoby prítomníkového koreňa
2. variant 1. podoby prézentnej tematickej morfémy
1. variant 2. podoby prítomníkového koreňa
1. variant 2. podoby prézentnej tematickej morfémy
2. variant 2. podoby prítomníkového koreňa – džavot2. variant 2. podoby prézentnej tematickej morfémy – -ajimperatívny základ – džavotajšpecifické atribúty nad rámec štandardných informácií
je skratka pre vzor ohýbania v 2. rovine – 2dža (2džavotať)
1. podoba neurčitkového kmeňa – základ neurčitku – džavotaKME_INF_B1 1. variant 2. podoby neurčitkového kmeňa – džavotaKME_INF_B2 2. variant 2. podoby neurčitkového kmeňa
KME_PRZ_A1 1. variant 1. podoby prítomníkového kmeňa – džavocKME_PRZ_A2 2. variant 1. podoby prítomníkového kmeňa
KME_PRZ_B1 1. variant 2. podoby prítomníkového kmeňa – džavocKME_PRZ_B2 2. variant 2. podoby prítomníkového kmeňa – džavotajVšetky atribúty majú ako hodnoty reťazce znakov.
9.1.3 Relačné schémy a relácie k prídavným menám
Relačné schémy a relácie vzorov skloňovania prídavných mien
Ukážka relačnej schémy a relácie k vzorom skloňovania prídavných mien.
(Ide o jednu tabuľku, ktorá je z tlačových dôvodov umiestnená v častiach pod
sebou.)
1. rovina
PRIDP1:
80
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
S
S
S
S
S
N_Ž_ G_Ž_ D_Ž A_Ž_ L_Ž
M
M
_M M
_M
ém
ý
ého u
ého om
em
y
eho u
eho om
i
cud cudzí í
ieho emuieho om
em
rýd rýdzi i
eho u
eho om
SK V
R
ZOR
pekpek ný
kráskry ny
⇒
SN
_F
á
a
S SD
G_F _F
ej ej
ej ej
SA
_F
ú
u
S S
L_F I_F
ej ou
ej ou
ia
a
ej
ej
iu
u
ej
ej
ej
ej
S
S
I_Ž_ SN SG D_ SA
M _M _M M _M
ém
ým ý ého u
ý
em
ym y eho u
y
i
i
ím í
eho emuí
em
im i
eho u
i
S
S
N_N G_N
é
ého
e
eho
ou ie
ou e
S
S
D_N A_N
ému é
emu e
i
ieho emu ie
eho emu e
S
L_ S
M I_M
om ým
om ym
om ím
om im
S
L_N
om
om
S
I_N
ým
ym
om ím
om im
PN PG PD PA P P
_Ž_ _Ž_ _Ž_ _Ž_ L_Ž I_Ž P
P
P
P
P
P
⇒
M M M M _M _M N_X G_X D_X A_X L_X I_X
í
ých ým ých ých ými é
ých ým é
ých ými
i
ych ym ych ych ymi e
ych ym e
ych ymi
í
ích ím ích ích ími ie ích ím ie
ích ími
i
ich im ich ich imi e
ich im e
ich imi
Špecifikácia atribútov:
SKR – skratka vzoru
VZOR – vzor skloňovania
SN_Ž_M, SG_Ž_M ... SI_Ž_M – 6 pádov singuláru pre mužský rod – životný
SN_M, SG_M ... SI_M – 6 pádov singuláru pre mužský rod
– neživotný
SN_F, SG_F ... SI_F – 6 pádov singuláru pre ženský rod
SN_N, SG_N ... SI_N – 6 pádov singuláru pre stredný rod
81
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský rod – životný
PN_X, PG_X ... PI_X – 6 pádov plurálu pre mužský rod –
neživotný, ženský rod, stredný rod
Druhá rovina obsahuje rovnaké vzory ako prvá rovina, preto ukážku neuvádzame.
Relačná schéma k jednotlivým prídavným menám
PRIDME(PARA, PRG, PRG1, LEMMA, MORPH, TZ1, TZ2, TZ_G1, TZ_G2,
SA, GR, PARA2, PRG2, PRG2_1)
Schéma má meno PRIDME a jej 12 atribútov je špecifikovaných nasledovne:
PARA
skratka pre vzor skloňovania prídavného mena – pek
(pekný)
PRG
skratka pre vzor stupňovania prídavného mena – dob
(dobrý)
PRG1
skratka pre 2. vzor stupňovania, ak má prídavné meno
variantné tvary
LEMMA
základný tvar slova, heslo – dobrý
MORPH
výber morfologických tvarov, ako ich ponúka KSSJ –
lepší príd.
TZ1,TZ2
obmeny TZ, ktoré sa vyskytnú pri skloňovaní prídavného mena – dobrTZ_G1,TZ_G2 obmeny TZ, ktoré sa vyskytnú pri stupňovaní prídavného mena – dobr- lepšSA
špecifické atribúty, ktoré sú nad rámec štandardných informácií
GR
údaj o stupňovateľnosti
PARA2
skratka pre vzor skloňovania prídavného mena v 2.
rovine – 2pek (2pekný)
PRG2
skratka pre vzor stupňovania v druhej rovine – 2bie
(2biely)
PRG2_1
skratka pre vzor stupňovania v druhej rovine ak má
slovo varianty
82
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
Hodnoty všetkých atribútov sú reťazcové hodnoty.
83
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
9.1.4 Relačné schémy a relácie k príslovkám, zámenám a číslovkám
Relačné schémy a relácie k vzorom stupňovania prísloviek
1. rovina
PRÍSLP1:
SKR VZOR
F_POZIT F_KOMP ALTERNÁCIA
noo
novo
o
šie
–
bio
bielo
o
šie
A1
kro
krátko
o
šie
A1 A3
beo
belaso
o
ejšie
–
čio
čierno
o
ejšie
A1
ľud
ľudsky
y
ejšie
–
moc mocne
e
ejšie
–
Špecifikácia atribútov:
SKR – skratka vzoru
VZOR – vzor stupňovania
F_KOMP – formant komparatívu
F_POZIT – formant pozitívu
ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)
2. rovina
PRÍSLP2:
SKR
VZOR
2noo 2novo
2beo 2belaso
2čie
2čierno
2ľud ľudsky
2moc mocne
F_POZIT
o
o
o
y
e
F_KOMP
šie
ejšie
ejšie
ejšie
ejšie
Špecifikácia atribútov:
SKR – skratka vzoru
VZOR – vzor stupňovania
F_KOMP – formant komparatívu
F_POZIT – formant pozitívu
84
DRUHY TZ_G
1
1
1,2
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
DRUHY TZ_G – počet použitých TZ pri stupňovaní (TZ_G1,
TZ_G2)
Relačné schémy a relácie k vzorom skloňovania zámen
1. rovina
ZÁMP1:
S
V
N_Ž SG_Ž SD_Ž_ SA_Ž_ SL_Ž_ SI_Ž_
SKR ZOR _M _M M
M
M
M
on2 on-2 ø
eho emu eho
om
ím
tvo tvoj ø
ho
mu
ho
om
ím
žiade
žia n
ø
eho emu eho
om
ym
ého- émuaže akýže ýže že
že
éhože omže ýmže
ieho- iemučže číže íže že
že
iehožeomže ímže
⇒
⇒
S
S
N_M G_M SD_M
ø
eho emu
ø
ho
mu
ø
eho emu
ého- émuýže že
že
ieho- iemuíže že
že
S
N_F
a
a
a
áže
iaže
SG_F SD_F
ej
ej
ej
ej
ej
ej
ejže ejže
ejže ejže
SA_M
ho
ø
ø
SL_M
om
om
om
SI_M
ím
ím
ym
ýže
omže ýmže
íže
omže ímže
SA_F
u
u
u
úže
iuže
SL_F
ej
ej
ej
ejže
ejže
SI_F
ou
ou
ou
ouže
ouže
85
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
⇒
⇒
S
N_N
o
e
e
S
G_N SD_N SA_N SL_N SI_N
eho emu ho
om
ím
ho
mu
e
om
ím
eho emu e
om
ym
ého- émuéže že
že
éže
omže ýmže
ieho- iemuieže že
že
ieže omže ímže
P
N_Ž PG_Ž PD_Ž_ PA_Ž_ PL_Ž_ PI_Ž_
_M _M M
M
M
M
i
ich
i
i
ich im
ych ym
ýchže
ýmže
íchže ímže
íže
íže
⇒
P
N_X
y
e
e
im
PG_XPD_X
ich im
ich im
ych ym
ýchéže že
ýmže
ieže íchže ímže
ich
ich
imi
ich
ych
ich
ych
imi
ymi
ýchže ýchže ýmiže
íchže íchže ímiže
PI_X
PA_X
e
e
e
éže
ieže
ALTERNÁCIA
ZB
–
A2
PL_X
ich
imi
ich
imi
ych
ymi
ýmiže
ýchže
–
íchže ímiže –
Špecifikácia atribútov:
SKR – skratka vzoru
VZOR – vzor skloňovania
SN_Ž_M, SG_Ž_M ... SI_Ž_M – 6 pádov singuláru pre mužský rod – životný
86
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
SN_M, SG_M ... SI_M – 6 pádov singuláru pre mužský rod
– neživotný
SN_F, SG_F ... SI_F – 6 pádov singuláru pre ženský rod
SN_N, SG_N ... SI_N – 6 pádov singuláru pre stredný rod
PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský rod – životný
PN_X, PG_X ... PI_X – 6 pádov plurálu pre mužský rod –
neživotný, ženský rod, stredný rod
ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)
Druhá rovina zámen obsahuje rovnaké vzory, len namiesto atribútu ALTERNÁCIA je atribút DRUHY TZ.
Relačné schémy a relácie k vzorom skloňovania čísloviek
1. rovina
ČÍSLP1:
P
P
P
V
P
G_ D_ A_ P
P
SKR ZOR N_M M M M L_M I_M
dva dva a
och om a
och oma
päť päť ø
ich im ø
ich imi
sede
sed m
ø
ich im ø
ich imi
⇒
⇒
P
N_Ž
_M
aja
i
i
P
P
P
P
G_Ž D_Ž A_Ž L_Ž
_M _M _M _M
och om och och
ich im ich ich
ich im ich ich
PI_Ž
_M
oma
imi
imi
P
P
P
P
P
P
ALTERNÁCIA
N_F G_F D_F A_F L_F I_F
87
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
N
e
ø
ø
N
och
ich
ich
N
om
im
im
N
e
ø
ø
N
och
ich
ich
N
oma–
imi A1
imi A1, A2
Špecifikácia atribútov:
SKR – skratka vzoru
VZOR – vzor skloňovania
PN_M, PG_M ... PI_M – 6 pádov plurálu pre mužský rod –
neživotný
PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský rod – životný
PN_FN, PG_FN ... PI_FN – 6 pádov plurálu pre ženský a
stredný rod
ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)
88
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
2. rovina
ČÍSLP2:
V
P
P
P
P
P
SKR ZOR N_M G_M D_M A_M L_M
2
dva 2dva a
och om a
och
2päť 2päť ø
ich im ø
ich
⇒
⇒
P
N_Ž
_M
aja
i
P
P
G_Ž_D_Ž
M
_M
och om
ich im
P
N_F
N
e
ø
P
G_F
N
och
ich
P
I_M
oma
imi
P
P
A_Ž_ L_Ž_ PI_Ž
M
M
_M
och och oma
ich ich imi
P
D_F
N
om
im
P
A_F
N
e
ø
P
L_F
N
och
ich
PI_F
N
DRUHY
TZ
oma 1
imi 1, 2
Špecifikácia atribútov:
SKR – skratka vzoru
VZOR – vzor skloňovania
PN_M, PG_M ... PI_M – 6 pádov plurálu pre mužský rod –
neživotný
PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský rod – životný
PN_FN, PG_FN ... PI_FN – 6 pádov plurálu pre ženský a
stredný rod
DRUHY_ TZ – druhy použitých TZ (TZ1, TZ2, ...)
Relačné schémy a relácie k jednotlivým príslovkám, zámenám a číslovkám, ak sú ohybné, sú tvorené podľa vyššie uvedených relačných schém pre
podstatné mená, slovesá a prídavné mená, preto ich nebudeme opakovať.
89
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ
9.2 Fyzická referenčná morfologická databáza slovenčiny
Cieľom nášho snaženia bolo zhromaždiť morfologické údaje o každom
slove súčasnej slovenskej lexiky, ako ju zachytáva Krátky slovník slovenského
jazyka (1997), a dať ich k dispozícii v štruktúrovanej podobe a usporiadané
napr. podľa slovných druhov a paradigiem. To sme dosiahli vytvorením relácií – počítačových súborov. Samostatný súbor tvoria vzory ohýbania slovných
druhov. Ku každému slovnému druhu existuje dátový súbor, ktorý obsahuje
najpoužívanejšie slová z daného slovného druhu v súčasnej spisovnej slovenčine. Tieto súbory sú k dispozícii na ďalší výskum alebo tvorbu jazykových
aplikácií.
10. Poznámky k realizácii (implementácii) referenčnej morfologickej databázy
Prvým krokom na ceste tvorby referenčnej morfologickej databázy slovenčiny bolo získanie elektronickej podoby KSSJ ako základného lexikálneho
zdroja, obsahujúceho tiež veľa gramatických údajov. Poznatky z práce na KSSJ
je možné aplikovať aj na iné informačné zdroje.
Literatúra
ALLÉN, Sture. 1981. The Lemma-Lexeme Model of the Swedish Lexical Data Base. In:
Progress in Empirical Semantics. Bochum: Brockmeyer.
BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1996. Počítačové
spracovanie slovenčiny – výskumná správa. Bratislava: Pedagogická fakulta UK.
BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1997. Morfologické
údaje o slovenských substantívach na účely algoritmickej analýzy textov. Slovenský jazyk a literatúra
v škole, č. 5, s. 154 – 166.
BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1998. Počítačové
spracovanie slovenského jazyka – časť: Morfológia podstatných mien. Bratislava: Pedagogická
fakulta Univerzity Komenského.
HORECKÝ, Ján. 1964. Morfematická štruktúra slovenčiny. Bratislava: Vydavateľstvo SAV.
KAČALA, Ján – PISÁRČIKOVÁ, Mária (eds.). 1997. Krátky slovník slovenského jazyka. (3.
vydanie) Bratislava: Veda.
KOEHLER, R. – SCHMIED, P. 1992. Lexikondateien fuer Quantitative Lexikologie. FB II,
Universitaet Trier.
LANKA, S. – PAL, S. 1993. Database Systems. New York: Elsevier Science Pub.
90
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM
MISTRÍK, Jozef. 1988. Moderná slovenčina. Bratislava: Slovenské pedagogické nakladateľstvo.
ORAVEC Ján – BAJZÍKOVÁ, Eugénia – FURDÍK, Juraj. 1984. Súčasný slovenský spisovný
jazyk. Morfológia. Bratislava: Slovenské pedagogické nakladateľstvo.
PÁLEŠ, Emil. 1994. SAPFO – parafrázovač slovenčiny, počítačový nástroj na modelovanie v
jazykovede. Bratislava: Veda.
PAULINY, Eugen – RUŽIČKA, Jozef – ŠTOLC, Jozef. 1968. Slovenská gramatika. Bratislava:
Slovenské pedagogické nakladateľstvo.
PECIAR, Štefan. (ed.). 1959 – 1968. Slovník slovenského jazyka. (6 zväzkov). Bratislava:
Vydavateľstvo SAV.
Projekt „Referenčná morfologická báza dát slovenského jazyka“. Záverečná správa.
Bratislava: Laboratórium počítačovej lingvistiky PdF UK 1998.
RUŽIČKA, Jozef. (ed.). 1966. Morfológia slovenského jazyka. Bratislava: Vydavateľstvo SAV.
91
DATABASES FOR SPEECH RECOGNITION
AND SYNTHESIS IN SLOVAK
Milan Rusko – Sachia Daržágín – Marián Trnka: Institute of Informatics, Slovak Academy of Sciences, Bratislava
1. Introduction
An effort of the scientists and developers to change the approach to automated speech processing systems building has become evident in recent years.
The older methods based on a set of human-expert defined rules has been replaced by systems with new architecture. In these systems the needed information on the properties and behavior of the speech signal is obtained automatically from large speech databases. This paper reflects an effort to apply the data
driven approach in the telephone-speech recognizer and speech synthesizer in
Slovak, at the Department of the Speech Synthesis and Speech Analysis of the
Institute of Informatics.
The automatic speech processing technology has reached such a high degree, that it is being implemented in various applications in different areas of life.
More and more voice driven teleservices (Rusko 1998) are offered by companies
to allow the customer easier access to information (e.g. traintable information), to
transaction services (e.g. teleshopping or telebanking), or more comfortable way
of communication (call processing services, e.g. voice mail handling).
The American companies having a benefit of a large and rich monolingual market are in a much better position than companies of the multilingual
Europe. Not to loose the market, the European companies have to create an effective infrastructure to deal successfully with their multilingual environment.
While the mathematical principles and algorithms of the speech recognition
and speaker identification systems (based usually on Hidden Markov Models
and Neural Nets) are more or less language independent, the training databases
must include native speakers recordings. Their preparation as well as postprocessing needs a skilled team of local scientists and engineers capable of solving
problems concerning computer linguistics, speech acoustics, phonetics, programming and management. Very similar situation is that in the field of the
modern speech synthesis.
92
DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK
2. Speech Recognition – The need of the speech database
After the era of rule-based speech recognition systems the Dynamic Time
Warping (DTW) algorithm has become most popular and many of the functional applications with a vocabulary up to several tenths of words use it also today
(e.g. voice dialed telephone).
The idea of the data driven approach is not to force the recognition system to follow the predefined rules, but rather to let the system extract the
knowledge on the properties and behavior of the speech signal automatically
from the information stored in huge speech databases. This process of extracting information and setting own rules for further recognition is called
training. Such a recognizer based generally on Hidden Markov Models
(HMMs) and/or Artificial Neural Nets (ANNs) can be considered as a selflearning system. The problem was, that no speech database had been built for
Slovak speech, that would be large enough for training before we started to
build our database.
Database
signal
interface
X
Feature
extraction
Y
Recognition
Speech
samples
Databases
Prob.
density
functions
P(Yt|St)
W*
HMMs
Transition
probabilities
P(St|St-1)
Phonetic
training
Word
statistics
P(Wt|Wt-1)
Word class
training
Strings of words: W
Fig. 1: Functional scheme of a data driven speech recognizer based on HMM
For HMM based speaker independent recognizer, a database containing
5000 recorded telephone calls (of different speakers) is considered a reasonable
volume. The database must have predefined structure and content (which can
93
MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA
be application-dependent), and must reflect all the phonetical and phonological
phenomena which the recognizer should be capable to employ in its work. The
most time-consuming phase of the database-building is that of annotation and
labelling. In this process an orthographic (written text) and orthoepic (phonetic
representation) information is linked to all the recorded speech files. Instead of
the fact, that there are some possibilities to do the annotation automatically, one
comes to a paradox:
a) an annotated training database is needed for the speech recognizer building,
b) a reliable speech recognizer is needed for the automatic speech-database
annotation.
Fig. 2: Display of the program Label 1.0, used for manual annotation of the database records and running check of the signal quality and some other database features.
This simply means, that the first speech database must be annotated
manually by human expert. After it is finished, it can be used for the first recognizer training, and this recognizer can possibly be included in a system for
automatic annotation of future databases.
94
DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK
For illustration we present on Fig. 2 a typical display of the program used
for manual annotation (program Label 1.0 developed at our Department of
Speech Analysis and Synthesis).
3. SpeechDat-e, the first Telephone speech database in Slovak
SpeechDat-E is a set of databases following the standard defined with
SpeechDat II (Winski 1997). The collection is performed automatically telephone via the ISDN connection (on the recording side). As a compromise
between the need and the economical possibilities, it was decided to build a
1000 speakers database for Czech, Polish, Slovak and Hungarian and a 2500
speakers database for Russian. After the preliminary statistical research a set of
the so called promptsheets had to be generated. The promptsheet is a list of
sentences and words to be read by the caller and a set of questions to be
answered. The promptsheets were formed according to the possible areas of the
speech recognizer applications (computers, banking, shopping, marketing, travelling and tourist information, telecommunication etc.). Every of them include:
–
isolated digits and its sequences
–
digit / number strings
–
natural number
–
money amounts in Slovak crowns, Dollars and Euro and their
smaller units
–
yes/no questions (spontaneous answer)
–
dates, prompted phrases with date, relative and general date expression
–
time and time-phrases
–
application words / keyphrases
–
word spotting phrase using embedded application word
–
directory assistance names: city of birth (spontaneous), company, agency, surname, forename plus surname, own forename
(spontaneous)
–
spellings: artificial sequence, city name, own forename (spontaneous)
–
phonetically rich words
–
phonetically rich sentences.
To reflex the real-life features the database has to be statistically balanced
according to:
95
MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA
a)
regional coverage – representation of the main phonetic groups. The repartition of speakers should be proportional to the population in regions
with 5 % tolerance and with a minimum 5 % speakers per region;
b) age of the callers;
c) sex of the callers.
It is the first large telephone speech corpus collected in Slovakia. SpeechDat-E Slovak is available for the users now. It is being used in our experiments
for training of several types of recognizers. The companies which are members
of the SpeechDat-E Consortium has already started to develop commercial recognizers using this database. We also hope that the database will be useful not
only for the universities and academic institutions, but primarily for companies
in the telecommunications and teleservices. The liberalization of the Slovak
telecommunication market, hand in hand with recent boom in speech processing technology, will lead to a competition among operators and also other
companies in the field of voice-driven teleservices. The created database can be
the first step to the professional design of such services.
A new database intended for building the speech synthesis systems in
Slovak is under development .
4. Data driven approach to speech synthesis
Speech synthesis has been considered to be less complex problem than
that of speech recognition. This statement is true only up to a certain level of
quality of the synthesis systems.
Fig. 3: Schematic diagram of the recent version of the Slovak speech synthesizer
96
DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK
Modern approaches aim at reaching high naturalness of speech. One of
the ways how to incorporate the difficult phenomena of the natural speech prosody and rhythm, is to use a large training database of the speech of one speaker,
optimized for text-to-speech applications.
The content of the database must allow for the extraction of the following
synthesis elements:
–
the basic elements of the signal waveform used for concatenative synthesis (e.g. diphones), these must be available in accented
an unaccented form, in different contexts, and positions in the
word and sentence. Advanced systems allow for the concatenation from the non-uniform speech units. The choose of these
units is optimized regarding the actual text and the speech material in the database;
–
the pitch and energy contours of the syllables, words and sentences;
–
rhythmical rules (e.g. phone and syllable durations) for different
speech rates and speaking styles.
Annotation of such a training database is extremely difficult task. The information which should be linked to the recorded speech is of several levels:
Level
Sentence level
Annotated information
orthographic and sentence type
orthoepic
(syntax)
representations
Word level
orthoepic
grammatical type
representation (syntax)
Syllable level
orthoepic
consonant-vocal
representation structure
Phoneme level
orthoepic representation
Microsegment level F0
energy
accent
sentence boundary
pointers (BP)
word BP
accent
syllable BP
syllable nuclei BP
BP to phonemes and pauses
BP to microsegments
Tab. 1: Level structure of the information annotated in the speech database
for speech synthesis purposes
For the automatic annotation we have developed a set of tools analyzing
the signal in the time and frequency domains, measuring energy, pitch, and the
97
MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA
position of important instants (boundaries) in the speech signal. The signal
analysis system (developed at the Department of Speech Analysis and Synthesis) is Called SOUNDY 4.0.
Fig. 4.: Typical appearance of the screen of the SOUNDY 4. 0. signal analysis system
5. The automatic phonetic labeller
Text to phoneme conversion is performed by an automatic orthographicto-orthoepic converter.
Many of modern speech synthesis and speech recognition systems require
phonetic information to be incorporated in the training database – namely
pointers to the phoneme boundaries and orthoepic transcription of the recorded
utterances.
The architecture of our automatic phonetic labeller is shown in Fig. 5.
98
DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK
Fig. 5: The architecture of the automatic phonetic labelling system
5.1 Pitch synchronous analysis on the microsegmental level
The microsegment recognition process itself can be divided into several
steps:
a) Microsegmentation
b) Time domain acoustic feature extraction
c) Filter-bank based frequency domain analysis
d) Assignment to one of the main phonetic groups
e) Identification of the microsegments (assignment to one of the phonemes).
5.2 Microsegmentation of the speech signal
99
MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA
For this purpose we use our rule-based microsegmentation procedure developed for the speaker-independent speech recognizer (Daržágín – Trnka
1995).
In the first step the voiced/unvoiced/pause decision must be taken for the
analyzed frame of the signal. In the next step of the acoustic pre-processing,
the speech signal is pitch-synchronously divided into frames of the length corresponding to one period of the fundamental on the voiced portion of the signal
and into frames of a constant length on the unvoiced part. These frames, called
microsegments, are the elementary analysis time-intervals in our system. Every
microsegment is then analyzed and a hypothesis on its correspondence to some
of the phonemes of the Slovak phoneme-inventory is created.
5.3 Text input and orthographical to orthoepical form conversion
The text of the utterance which was read by the speaker is sent to the input of the text processing branch in an ASCII-coded form. The automatic orthographic to orthoepic form conversion is made by a rule based routine that
was originally written for the Slovak speech synthesizer. This orthoepical transcription gives a sequence of the phonemes that should theoretically be pronounced when reading the source text. Thus the system can send the information on the expected actual phoneme and the succeeding one too.
5.4 Comparing logic and phoneme labelling
The comparison process of the expected phonemes and the sequence of
the microsegments has two levels:
a) a coarse phonetic labelling based on the automatically recognized phonetic structure of the utterance;
b) phoneme-boundary label position refining using the information from the
text processing branch. The acoustic characteristics of the microsegment
are compared to the typical acoustic characteristics of both of the phonemes at the actual boundary.
The pointer to the refined position of the phoneme-boundary in the wavesignal (the label) is then included into the output file.
5.5 Output – linked database files
100
DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK
The whole automatic labelling is finished by creating two types of linked
database-files, one of them containing the PCM coded wave-data, and the second
one containing the text, the phonetical (orthoepical) transcription of the given utterance as well as the pointers to the phoneme boundaries in the wave-file.
6. Conclusion
The important part of the datadriven speech recognizer – Slovak speech
database for training purposes is available now. This makes the development of
the HMM based recognition systems possible. The main areas of application
can be found for instance in telephone services. The developed speech signal
analysis system and the database labelling tool can be used for further database
building and speech research.
The recent version of the speech synthesizer in Slovak works rather well,
but a new, data driven version, is under development.
The described phonetic labelling tool executes its task in acceptable quality but the operator's assistance is needed. Most problems occur if the signal is
of poor quality, or if there are severe mistakes in the pronunciation of the
speaker. The tool is suitable for the speech-database building purposes and it is
now being used in the process of the "synthesis database" development.
The authors are members of the Department of Speech Analysis and Synthesis, Institute of Informatics of the Slovak Academy of Sciences.
This work is supported by the Slovak Grant Agency VEGA project number 47/0214/99.
References
DARŽÁGÍN, Sachia – TRNKA, Marian. 1995. Speaker independent speech recognition system
in Slovak. In: Proceedings of the international conference Telecommunications '95. Bratislava: Dom
techniky ZSVTS. s. 118 – 123.
RUSKO, Milan. 1998. Voice Driven Teleservices in Slovak. In: Proceedings of the 2nd international conference Where are You Going ATM? Bratislava: ADAPT. s. 45 – 49.
WINSKI, R. 1997. Definition of corpus, scripts and standards for fixed networks. Technical report. SpeechDat-II, January 1997, Deliverable SD 1.1.1., workpackage WP1, http://www.speechdat.org.
101
SAMPA V SLOVENČINE A JEJ VÝZNAM
Z POHĽADU VIACJAZYČNÝCH
SYSTÉMOV NA ROZPOZNÁVANIE REČI
Jozef Ivanecký: IBM Voice Systems, European Speech Research;
Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky
a informatiky Technickej univerzity Košice ([email protected])
Abstract: The paper deals with the phonetic alphabet SAMPA. In a brief survey of the development of
the SAMPA transcription we are indicating possible problems in the formation of the SAMPA transcription for new languages and the significance of the SAMPA transcription for computer speech recognition from the multilingual systems’ view. The core of the paper is the procedure used in the formation of
the SAMPA transcription for Slovak as well as for a current status of the Slovak version of the SAMPA
transcription.
1. Úvod
Význam fonetickej transkripcie v počítačovom rozpoznávaní reči nie je
potrebné zdôrazňovať. Transkripcia je použitie príslušných znakov abecedy na
reprezentáciu zvukov reči. Systém na počítačové rozpoznávanie reči rozpoznáva na najnižšej úrovni jednotlivé zvuky, ktoré sú označované znakmi fonetickej
abecedy zvolenej pre danú fonetickú transkripciu. Keďže ide o počítačové
spracovanie, znakmi sú vo väčšine prípadov kvôli jednoduchosti a prenositeľnosti 7 bitové ASCII znaky. Priradenie ASCII znakov jednotlivým zvukom – t.
j. kódovanie – je záležitosť tvorcu daného systému, pričom medzi konkrétnymi
transkripčnými systémami sú – aj vzhľadom na fonetické rozdiely v spracúvaných jazykoch – väčšie či menšie rozdiely.
Tento stav viac-menej pretrváva dodnes, aj keď potreba jednotného kódovania v poslednom desaťročí narastá. Dôvodom je nielen potreba vzájomnej
kompatibility (transkripčné systémy) a uľahčenie komunikácie pri výmene
skúseností, no v poslednom čase aj nárast viacjazyčných systémov na rozpoznávanie reči. Na tento účel sa dnes takmer výhradne používa kódovanie SAMPA (Speech Assestment Methods – Phonetic Alphabet).
2. SAMPA – vývoj a súčasnosť
102
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI
Transkripcia SAMPA vznikla na základe kódovania použitého v niekoľkých projektoch na rozpoznávanie reči na konci deväťdesiatych rokov. Každý
z týchto projektov sa zaoberal jednojazyčným systémom, no pre rôzne jazyky.
Kódovanie použité v týchto projektoch zobrazuje tabuľka 1.
Výsledkom dohôd v rámci SAM – European collaborative speech technology assessment research – boli odporúčania pre štandardný transkripčný
systém aplikovateľný na mnohé európske jazyky. Pojem transkripčný systém
má v tomto prípade oveľa širší význam. Problematika bola riešená v júni 1987
na University College v Londýne v rámci práce na Labelling, Transcription a
Management Methods for speech databases (Fourcin – Harland – Barry – Hazan 1989).
Súčasťou týchto prác bolo aj vytvorenie jednotného kódovania, dnes
známeho ako SAMPA abeceda. Z tabuľky č. 1 je evidentné, že kódovacie tabuľky COST 209, Esprit 291 a Alvey majú veľa spoločného. Na základe toho boli
postavené základy pre európsky štandard. Z princípov formulovaných v projekte Esprit 291 vyplýva nasledujúce: ASCII znaky v IPA tabuľke ostávajú nezmenené. Nie ASCII znakom – do tej miery, do akej je to možné – sú priradené
veľké ASCII znaky. Použitím týchto pravidiel na tabuľku č. 1 dostaneme ASCII
reprezentáciu pre nasledujúce znaky z fonetickej abecedy IPA:
IPA znaky
kódované
ako ASCII

A O D E @ G I
N T S U Y Z ? :
Na základe tohto a ďalších pravidiel bola formovaná SAM-PA fonetická
abeceda, prvýkrát publikovaná v práci J. C. Wellsa (1987). Táto fonetická abeceda, predstavujúca prvý – počítačovo jednoducho reprezentovateľný – kódovací systém dohodnutý medzi predstaviteľmi ôsmich európskych krajín spolupracujúcich na projekte SAM, je v tabuľke č. 2 a č. 3. Prvá verzia SAMPA pokrývala tieto jazyky: angličtina, dánčina, francúzština, nemčina, španielčina a taliančina.
V čase vzniku projektu SAMPA nebol doň zahrnutý žiaden zo slovanských jazykov, z čoho vyplýva značná limitácia použitia SAMPA abecedy pre
slovanské jazyky. Napriek týmto obmedzeniam sme v roku 1995 vytvorili prvú
neoficiálnu verziu SAMPA abecedy pre slovenčinu (Krokavec – Filasová – Ivanecký 1996).
103
JOZEF IVANECKÝ
V posledných piatich rokoch bola v rámci niekoľkých projektov SAMPA
značne rozšírená a dnes už pokrýva mnohé – nie len indoeurópske – jazyky.
104
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI
Tab. 1: Prehľad počítačovo reprezentovateľných fonetických transkripcií.
105
JOZEF IVANECKÝ
(Znak ’!’ v treťom stĺpci poukazuje na dohodu medzi COST 209, Esprit 291
a Alvey tabuľkami. Kódovanie v DIN a ISO stĺpci sú v hexa formáte.)
106
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI
Z priestorových dôvodov nie je možné, aby súčasná verzia SAMPA abecedy
bola súčasťou tohto príspevku. Aktuálny stav SAMPA abecedy je možné nájsť
na adrese http://www.phon.ucl.ac.uk/home/sampa/home.htm.
Napriek tomu, že zo slovanských jazykov dnes existujú oficiálne verzie
SAMPA abecedy pre bulharčinu, chorvátčinu, poľštinu, ruštinu a slovinčinu, oficiálna verzia pre slovenčinu a rovnako ani pre češtinu dodnes nie je k dispozícii.
3. SAMPA a slovenčina
Slovenskú fonetickú transkripciu ovplyvnili najmä dva činitele:
•
úzus v zapisovaní slovenských nárečových textov,
•
technické vybavenie tlačiarní.
Vývin našej fonetickej transkripcie súvisí aj s inými okolnosťami: s užším
využívaním transkripcie IPA u nás a s ťažkosťami pri jej používaní na zápis prejavov v slovanských jazykoch podobne ako aj v mnohých orientálnych jazykoch
(Isačenko – Romportl 1966). Zostavovatelia transkripcie IPA sa totiž opierali
predovšetkým o poznanie neslovanských jazykov. Vývin slovenskej transkripcie
závisel ďalej od toho, že staršie výskumné ciele nevyžadovali takú techniku
(podrobnosť) zápisu, akú umožňuje IPA. Zápisy slovenských textov boli určené
predovšetkým domácim bádateľom. Z tohto dôvodu sa vystačilo s jednoduchým
systémom založeným na gramatickej sústave jazyka, v ktorom sa na prepis hlásky volí to písmeno, ktoré je v ortografickej forme jeho základným ekvivalentom.
V tabuľke č. 4 je uvedený zoznam fónov spisovnej slovenčiny kódovaných
znakmi používanými v slovenskej fonetickej transkripcii podľa A. Kráľa
(1983). Takáto fonetická abeceda je síce plne vyhovujúca domácemu použitiu,
avšak v žiadnom prípade nevyhovuje pri použití na medzinárodnom poli, na čo
upozorňujú už A. V. Isačenko a M. Romportl (1966). Tento stav v oblasti
slovenskej fonetickej transkripcie pretrváva dodnes. Pri pokuse vytvoriť inventár slovenských fónov kódovaných pomocou SAMPA fonetickej abecedy sme
narazili na dva základné problémy:
•
Nekompatibilita slovenskej fonetickej transkripcie s tranksripciou IPA.
Riešenie tohto problému malo pre nás veľký význam z toho dôvodu, že
SAMPA je popisovaná práve na základe znakov IPA. Predpokladá sa roz107
JOZEF IVANECKÝ
šírenosť IPA systému a na základe toho jednoduchá konverzia zo znakov
IPA na znaky SAMPA.
•
SAMPA abeceda v čase svojho vzniku pokrývala len dosť malú časť repertoáru IPA. S určitými obmedzeniami a zavedením dvoch nových znakov ju
bolo možné použiť na vytvorenie fonematickej abecedy slovenčiny (Ivanecký 1996), avšak na vytvorenie jej fonetickej abecedy nebola vhodná vôbec.
Tento stav bolo možné zovšeobecniť pre väčšinu slovanských jazykov.
Pri vytváraní IPA verzie slovenskej transkripcie sme okrem deficitu zdrojov zaoberajúcich sa možnosťami aplikácie IPA systému na slovenčinu narazili
aj na isté malé rozdiely u A. Kráľa (1983) a J. Sabola (1988) v opise transkripčného systému používaného pre slovenčinu Na naše účely sme ako východiskový zdroj použili prácu A. Kráľa (1983).
Z vyššie uvedených problémov vyplýva, že naším prvým logickým krokom
malo byť vytvorenie IPA systému, na základe ktorého by sme mohli vytvoriť
SAMPA systém. Nakoniec ale vzhľadom na problémy so získavaním informácií
108
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI
Tab. 4: Tabuľka znakov slovenskej fonetickej transkripcie
o IPA systéme – získať informácie o SAMPA systéme bolo pre nás nepomerne
jednoduchšie – sme v mnohých prípadoch použili opačný postup. Najprv sme
vytvorili prepis zo slovenského transkripčného systému do systému SAMPA.
Znak IPA pre daný prepis sme na základe tohto prepisu už len vyhľadali v príslušnej tabuľke. Napriek nekompatibilite slovenskej transkripcie s IPA systémom sa určité percento znakov prekrýva. Medzi zhodné znaky patria:
a, p, b, m, t, d, n, k
109
JOZEF IVANECKÝ
Týmto znakom sme mohli priamo priradiť aj rovnaké SAMPA znaky, čo
vyplýva z princípov definovaných pre vytváranie transkripčného systému SAMPA. Ďalšie znaky, ktorých prepis bol relatívne bezproblémový napriek tomu, že
sú pre ne použité v IPA systéme odlišné symboly, boli:
 , l, ľ, ň, v, f, g, x, s, z, š, ž, j, c, č,  
Z tohto zoznamu sa môže zdať, že prepis prebiehal bez ťažkostí. Musíme
však poznamenať, že prvú verziu SAMPA pre slovenčinu sme vytvárali na
fonologickej úrovni, čo značne zjednodušovalo riešenie. Dôvodom na to bola
hlavne skutočnosť, že s prvou verziou SAMPA už táto úloha bola neriešiteľná
bez pridania vlastných znakov. Hlavným problémom boli v tomto prípade palatálne konsonanty ť a ď. Pre ne sme v prvej verzii používali náhradné znaky.
Znaky pre ť a ď boli do SAMPA zavedené až pri rozšírení SAMPA o gréčtinu,
keďže žiaden z jazykov, na základe ktorých bola vytváraná prvá verzia SAMPA, tieto palatálne konsonanty nemá.
Znak pre palatalizáciu, ktorý bol zavedený skôr ako rozšírenie pre gréčtinu, je nevyhovujúci napriek tomu, že sa používa v slovenskom aj v českom
transkripčnom systéme. Pretože slovenčina, rovnako ako čeština, obsahuje len
palatálne a nie palatalizované konsonanty (na rozdiel napr. od ruštiny), je používanie uvedeného znaku v našich jazykoch zavádzajúce.
Ďalším problémom pre nás boli samohlásky. V tomto prípade nešlo o nezrelosť SAMPA systému na opis samohlások. Problémom bol nejednotný prístup rôznych zdrojov k prepisu slovenských samohlások do IPA systému. Nakoniec sme sa rozhodli použiť informácie zo zborníka IPA z roku 1999, v
ktorom bola publikovaná aj IPA pre češtinu (Dankovičová 1999). Problém dvojhlások bol vyriešený po zavedení znaku pre neslabičnosť.
Na základe aktualizovanej verzie SAMPA, ktorá už pokrývala podstatne
väčšiu jazykovú skupinu ako na začiatku, sme sa v roku 2000 rozhodli zrevidovať našu verziu SAMPA pre slovenčinu a previesť ju z fonologickej do fonetickej roviny. V tomto procese rozširovania sme narazili na jeden vážnejší problém, ktorý sa nám doteraz nepodarilo celkom uspokojivo vyriešiť. Je to prepis
nazály n. Náš predpoklad je, že v rámci SAMPA, rovnako ako aj IPA, nie je
možné pre tento prípad také podrobné rozlíšenie, a preto sa nazálne n prepisuje
vždy ako n. Túto skutočnosť je však potrebné overiť.
110
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI
Tab. 5: Porovnanie slovenskej transkripcie, IPA a SAMPA systému
Tabuľka č. 5 obsahuje našu aktuálnu verziu SAMPA pre slovenčinu. Okrem
toho sú v nej uvedené aj príslušné IPA znaky. Problematické znaky sú označené
otáznikom. Keďže stále ide o pracovnú verziu, budeme vďační za akékoľvek pripomienky a návrhy, ktoré nám pomôžu ku konečnej realizácii SAMPA pre slovenčinu.
4. Viacjazyčné systémy
Prečo má fonetická abeceda použiteľná pre viaceré jazyky taký veľký význam? Niektoré odpovede sme naznačili už na začiatku. Ak sa na problematiku
pozrieme z pohľadu počítačového rozpoznávania reči, najväčší prínos vidíme
práve pri tvorbe viacjazyčných systémov. Systém, ktorý je schopný rozpoznávať
viaceré jazyky, môže pracovať dvoma spôsobmi:
• paralelne pracujúce systémy – každý systém vie rozpoznávať práve jeden
jazyk;
111
JOZEF IVANECKÝ
•
jeden systém schopný rozpoznávať viaceré jazyky.
V prípade prvého systému s počtom jazykov neúmerne narastá požiadavka
na výkon. Výhodou je, že takéto systémy dosahujú vyššiu úspešnosť rozpoznávania, avšak v prípade zlej začiatočnej identifikácie jazyka je celé rozpoznávanie chybné.
Pozrime sa teraz bližšie na druhú možnosť. V tomto prípade máme systém, ktorý zvláda rozpoznávanie celého fonetického repertoáru niekoľkých rôznych jazykov. Výkonovo je menej náročný ako paralelne pracujúce systémy a aj
v prípade chyby na začiatku môže správne pokračovať. Nevýhodou takýchto
systémov je menšia úspešnosť rozpoznávania ako v predchádzajúcom prípade.
Napriek tomu podľa nášho názoru patrí budúcnosť práve týmto systémom. Dôvodom je to, že vytvorenie kvalitného systému je časovo aj finančne značne
náročné, z čoho vyplýva, že pre jazyky, ktorými hovorí len malá skupina ľudí,
je to neefektívne. Použiť v takomto prípade systém natrénovaný na iný jazyk a
obsahujúci potrebný fonetický inventár môže byť oveľa schodnejšie. Z tohto dôvodu je podľa nášho názoru podpora a polupráca pri vytváraní počítačovo
jednoducho kódovateľnej medzinárodnej fonetickej abecedy viac než potrebná.
5. Záver
V príspevku sme sa zamerali na prezentáciu aktuálneho stavu pri vytváraní SAMPA abecedy pre slovenčinu a poukázali sme na dôležitosť tohto transkripčného systému z pohľadu viacjazyčných systémov na počítačové rozpoznávanie reči. V blízkej budúcnosti sa chceme zamerať na potvrdenie správnosti
nami navrhovanej verzie SAMPA pre slovenčinu a doplnenie kódovania pre poslednú chýbajúcu hlásku, poprípade jej vyradenie. V poslednom kroku chceme
zaradiť slovenčinu do oficiálneho zoznamu jazykov opísaných systémom SAMPA.
Literatúra
FOURCIN, A. – HARLAND, G. – BARRY, W. – HAZAN, V. 1989. Speech input and output
assestment–multilingual methods and standards. Ellis Horwood Limited.
DANKOVIČOVÁ, D. 1999. Czech IPA, Handbook of the International Phonetic Assocation.
Cambridge University Press.
ISAČENKO, A. V. – ROMPORTL M. 1966. Návrh fonetické a fonologické transkripce češtiny
a slovenštiny. Slovo a slovesnosť, roč. 27.
112
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI
IVANECKÝ, J. 1996. Automatizácia fonematickej transkripcie slovenčiny. In: Varia VII.
Bratislava: SJS pri SAV.
KRÁĽ, Á. 1983. Pravidlá slovenskej výslovnosti. Bratislava: Slovenské pedagogické
nakladateľstvo.
KROKAVEC, D. – FILASOVÁ, A. – IVANECKÝ, J. 1996. Basic Properties of the Phonetic
Transcription and the Sentence Description in Slovak Language. In: COST-249 Meeting. Košice: FEI
Technical University.
SABOL, J. 1988. Syntetická fonologická teória. Bratislava: Jazykovedný ústav Ľ. Štúra SAV.
WELLS, J. C. 1987. Computer-coded phonetic transcription. Journal of the International
Phonetic Association 17, č. 2, s. 94 – 114.
113
AUTOMATICKÁ TRANSKRIPCIA
SLOVENČINY V POČÍTAČOVOM
ROZPOZNÁVANÍ REČI
Jozef Ivanecký: IBM Voice Systems, European Speech Research;
Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky
a informatiky Technickej univerzity Košice ([email protected])
Abstract: The paper reacts on one of the important tasks in the computer speech recognition - phonetic
transcription - whose successful management has a significant impact on the process of both training
and the recognition itself. We present the problems of the automatic transcription, procedures used in the
formation of the system capable to transcribe a common text from an orthographic to orthoepical form.
Furthermore we deal with the need to cope with a various (not only standard) pronunciation in the automatic transcription.
1. Úvod
Medzi najrozšírenejšie techniky na počítačové rozpoznávanie reči patria
v dnešnej dobe skryté markovovské modely (HMM) a neurónové siete (NN).
V oboch prípadoch je na vytvorenie systému potrebné väčšie množstvo dát (niekoľko tisíc viet). V prípade kvalitnejších systémov ide o niekoľko desiatok až
stoviek tisíc viet. Vstupom na trénovanie takýchto systémov je okrem nahratých
viet aj ich fonetická transkripcia. Od jej kvality značne závisí kvalita výsledného systému.
Transkripciu môžeme vytvoriť manuálne, čo je v prípade väčšieho množstva viet značne prácne a môže viesť k väčšiemu množstvu chýb. V prípade použitia takýchto údajov pri trénovaní sa znižuje úspešnosť rozpoznávania. Ešte
väčší vplyv má na druhej strane nepoužitie takýchto údajov v procese samotného rozpoznávania.
Druhý prístup je automatická transkripcia. Na rozdiel od prvej je pri nej
možné vylúčiť mnohé chyby. Na druhej strane je vytvorenie systému na automatickú transkripciu značne zložitá záležitosť. V niektorých jazykoch natoľko
zložitá, že sa od nej celkom upúšťa. Automatickej transkripcii slovenčiny, určenej však na syntézu, sa venujú Daržágín – Franeková – Rusko (1994). Na automatickú transkripciu je potrebné nájsť všeobecné pravidlá, pomocou ktorých
by bolo možné fonetický, resp. fonematický prepis automaticky vytvárať. Tieto
114
AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI
pravidlá môžu byť formulované ako produkčné pravidlá a nazývajú sa transkripčné pravidlá.
Ďalším problémom, ktorým sa zaoberáme v tomto príspevku, je problematika spisovnej výslovnosti v rozpoznávaní reči. Použitie fonologických
pravidiel zadefinovaných na základe práce Á. Kráľa (1983) síce bude vytvárať
spisovný prepis, ale ten nemusí, a pravdepodobne ani nebude, presne zodpovedať skutočnej výslovnosti. O to výraznejšie to bude v prípade, keď nahrávky
pokrývajú všetky nárečové skupiny.
2. Transkripcia všeobecne
Úlohy obsiahnuté v systéme na automatickú fonetickú transkripciu môžeme rozdeliť na dve základné podskupiny:
• jazykovo nezávislé úlohy
• jazykovo závislé úlohy.
V tejto časti sa budeme venovať prvej skupine. Zjednodušene môžeme povedať, že sem patria všetky úlohy, ktoré sú na vstupnom texte vykonané predtým,
než sú aplikované vlastné jazykovo závislé transkripčné pravidlá.
Segmentácia: Prvým krokom je konverzia všetkých veľkých písmen na malé
a rozdelenie vstupného textu na segmenty vhodné na transkripciu. Na tomto mieste si musíme uvedomiť, čo je minimálny segment. V prípade, že
počas transkripcie nechceme brať do úvahy ortoepické javy vznikajúce na
hranici slov, realizujeme segmentáciu textu na jednotlivé slová. V opačnom
prípade musíme vstupný text rozdeliť na jednoduché vety s vyznačením
hraníc slov.
Filtrácia: V tomto kroku odstraňujeme všetky nepotrebné znaky z textu.
Kódovanie: Vstupný text môže byť v jednom z N rôznych kódovaní. V prípade
slovenčiny je N= . V našom prípade je kódovanie vstupného textu zmenené do interného kódovania, ktoré obsahuje len 7 bitové ASCII znaky. Dôvodom pre toto riešenie bola požiadavka na ľahkú prenositeľnosť medzi
jednotlivými operačnými systémami pri zaručenej čitateľnosti kódu. Celý
systém je napísaný v jazyku Perl a vytváraný pod operačným systémom
Linux. Z hľadiska internej štruktúry údajov bolo potrebné zaručiť jednoznačnú identifikáciu už prepísaných a ešte neprepísaných častí, keďže výstupná abeceda pozostáva taktiež zo 7 bitových ASCII znakov, vzhľadom
na to, že pre výstup zo systému bola zvolená SAMPA abeceda. Na tomto
mieste je dôležité poznamenať, že SAMPA abeceda použitá ako výstupná
115
JOZEF IVANECKÝ
abeceda v našom systéme zatiaľ nie je oficiálnou SAMPA abecedou pre
slovenčinu.
Použitie všetkých vyššie opísaných krokov demonštrujeme na nasledujúcej
vete:
Keby som bol vedel, ako je tam zle, nikam by som nešiel...
Po aplikovaní prvého kroku sa dopracujeme k nasledujúcemu tvaru vstupnej vety:
keby som bol vedel; ako je tam zle; nikam by som nešiel
Bodkočiarka v tomto prípade oddeľuje jednotlivé segmenty. Ak by najmenším segmentom bolo slovo, nachádzala by sa za každým slovom. Ďalšími
krokmi prechádza každý segment samostatne. Po aplikovaní filtrácie na tretí
segment dostaneme:
nikam–by–som–nešiel
Výsledkom záverečného prekódovania je:
!n! !i! !k! !a! !m! – !b! !y! – !s! !o! !m! – !n! !e! !S! !i! !e! !l!
Znak ! slúži na jasnú identifikáciu znakov patriacich k vstupnej abecede.
Znak – označuje hranicu slov. Všetky ďalšie kroky spadajú do kategórie jazykovo závislých.
3. Transkripcia slovenčiny
Pri vytváraní transkripčných pravidiel pre slovenčinu sme čerpali hlavne
z práce Á. Kráľa (1983). Na každý segment sú postupne aplikované všetky
pravidlá. Súbor pravidiel môžeme rozdeliť do skupín podľa rôznych kritérií,
napríklad fonetických, ale z nášho pohľadu sa pravidlá delia na dve základné
skupiny:
• jednoznačné transkripčné pravidlá
• nejednoznačné transkripčné pravidlá.
Medzi jednoznačné transkripčné pravidlá zaraďujeme také pravidlá, pri
ktorých je jednoznačný vzťah medzi ortografickou a ortoepickou reprezentáci116
AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI
ou, a teda transkripcia je možná bez akýchkoľvek ďalších znalostí. Typickým
príkladom tejto skupiny pravidiel sú pravidlá pre samohlásky. Pre samohlásky
sme preto zadefinovali nasledujúce transkripčné pravidlá:
Krátke samohlásky:
Dlhé samohlásky:
a
→
a
á
→
a:
e
→
E
é
→
e:
i
→
I
í
→
i:
y
→
i
ý
→
i:
o
→
o
ó
→
o:
u
→
u
ú
→
u:
ä
→
E
Vyššie uvedené pravidlá sú na samohlásku aplikované vtedy, ak sa samohláska nachádza medzi dvoma spoluhláskami alebo ak sa nachádza na hranici
slova. Znak ä prepisujeme v našom systéme ako E z nasledujúcich dôvodov:
• Výskyt spisovnej výslovnosti znaku ä je v súčasnosti minimálny. Len tento dôvod by však bol v rozpore s našimi ďalšími tvrdeniami uvedenými v
nasledujúcom texte.
• V slovenčine vieme len o jednom prípade, kde znak ä má význam pri
rozlíšení významu dvoch slov. Ak však aj v tomto jedinom prípade
berieme do úvahy predchádzajúce tvrdenie, domnievame sa, že prepis
znaku ä ako E je viac než opodstatnený.
Pre tretí segment z vyššie uvedeného príkladu dostaneme po aplikácii
pravidiel pre samohlásky tento výsledok:
!n! I !k! a !m! – !b! I – !s! o !m! – !n! E !S! !i! !e! !l!
Na poslednom slove si môžeme všimnúť, že dvojhlásky ostali nezmenené.
Podobné jednoznačné pravidlá, ako sme zadefinovali pre samohlásky, môžeme
zadefinovať aj pre niektoré spoluhlásky, napríklad p, r, l, m a iné. Na tomto
mieste je potrebné zdôrazniť, že jednoznačnosť pravidiel neznamená aj ich
jednoduchosť. Pre mnohé spoluhlásky existuje viacero transkripčných
pravidiel. Výber pravidla závisí od okolia znaku, na ktorý aplikujeme dané
transkripčné pravidlo. Ako jednoduchý príklad nám môže poslúžiť spoluhláska
m. Á. Kráľ (1983) o výslovnosti znaku m uvádza: „pred spoluhláskami v, f sa
vyslovuje namiesto pernoperného [m] pernozubné [m] ... Spoluhláska [m] sa v
117
JOZEF IVANECKÝ
spisovnej slovenčine vyslovuje vtedy, keď po m vnútri slova bezprostredne nasleduje v, f ako v slovách domvedúca, komfort...“ (s. 153, 155). Pre znak m sme
preto zadefinovali nasledujúce pravidlá:
!m! !v!
→
Fv
!m! !f !
→
Ff
!m!
→
m
Znak F je SAMPA znakom pre nosové m. Ak dodržíme pri aplikovaní
transkripčných pravidiel pre m vyššie uvedené poradie, dosiahneme presné aplikovanie pravidiel uvedených v citovanej konštatácii (Kráľ 1983). V tomto
prípade sme pravidlá uviedli v internom kódovaní, aby sme ukázali princíp činnosti transkripčného algoritmu. Z uvedeného príkladu vyplýva aj to, že pravidlá pre v a f musia nasledovať za pravidlom pre m.
V prípade nejednoznačných pravidiel nie je možné zadefinovať jednoduché transkripčné pravidlá, pomocou ktorých by bolo možné zaistiť správny prepis jednoduchým algoritmom len na základe okolia. V takomto prípade sú na
správnu transkripciu potrebné ďalšie informácie. Ako jednoduchý príklad nám
tentokrát poslúžia dvojhlásky.
V spisovnej slovenčine sú štyri dvojhlásky: ia, ie, iu, ô. V prípade, že po
samohláske i bezprostredne nasleduje ďalšia samohláska, nemusí ísť o dvojhlásku. Príkladom sú predponové slová (priučiť, vyučiť) a prevzaté slová
(Ázia). Prepis dvojhlásky ô a slov tvorených predponou vy- a základom začínajúcim samohláskou je jednoznačný, preto sa ním nebudeme zaoberať. Problémy vznikajú až pri slovách vytvorených predponou pri- a slovným základom
začínajúcim samohláskou. V tomto prípade už nie je možné len na základe
jednoduchých pravidiel určiť, či dvojice samohlások ia, ie, iu tvoria samohláskovú postupnosť alebo dvojhlásku. Prístup k riešeniu tohto problému rozoberieme pre každú dvojicu samostatne:
ia: Ak sa na začiatku slova nachádza postupnosť znakov pria, na určenie toho,
či ide o dvojhlásku alebo samohláskovú skupinu, sme využili skutočnosť,
že slovenčina má len 23 slov (pozri Kráľ 1983), v ktorých základnom tvare sa na začiatku vyskytuje postupnosť znakov pria a znaky ia tvoria dvojhlásku. V prípade, že slovo patrí do tejto skupiny slov, je použité pravidlo
^!p! !r! !i! !a!
v opačnom prípade
118
→
p r i ^a
AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI
^!p! !r! !i! !a!
→
prIa
Zoznam slov bez ohýbacej prípony bol vytvorený podľa počítačového korpusu slovenčiny a údajov z literatúry (Kráľ 1983) a začlenený do pomocnej databázy. Databáza obsahuje výnimky vzťahujúce sa na konkrétne
pravidlá, v tomto prípade všetky slová začínajúce na pria, kde ia tvorí
dvojhlásku a nie samohláskovú skupinu.
ie: V prípade postupnosti znakov prie sme zvolili opačný prístup, keďže slov,
v ktorých postupnosť pri netvorí predponu ako v predchádzajúcom prípade, je podstatne viac. V sledovanom korpuse sme našli 593 rôznych slov
začínajúcich sa na prie, pričom vo všetkých prípadoch išlo o dvojhlásku
a nie o spoluhláskovú postupnosť. Ani Á. Kráľ (1983) neuvádza slová,
v ktorých by prie obsahovalo spoluhláskovú postupnosť, teoreticky však
môžu takéto slová vzniknúť spojením prevzatého, resp. cudzieho slova začínajúceho na e a predpony pri- ako napríklad prielegantný. Pre tento
prípad je, za predpokladu, že dané slovo sa nachádza v pomocnom slovníku, použité nasledujúce pravidlo: V prípade, že v slovníku existuje výnimka pre predponu prie-, ktorá je aplikovateľná na dané slovo, použije sa
pravidlo
^!p! !r! !i! !e!
→
prIE
v opačnom prípade
^!p! !r! !i! !e!
→
p r i ^E
iu: Posledná z trojice je postupnosť iu. Keďže slovenčina nemá bezpredponové
slovo začínajúce na priu, kde iu predstavuje dvojhlásku, je možné na každé slovo aplikovať nasledujúce pravidlo
^!p! !r! !i! !u!
→
prIu
V sledovanom korpuse boli jedinými slovami s postupnosťou priu slová
odvodené od slova priučiť. Celkový výskyt dvojhlásky iu je v slovenčine
veľmi nízky, podľa J. Mistríka (1985) je to len okolo 0,016 %.
119
JOZEF IVANECKÝ
Postupy uvedené pre prípad nejednoznačnosti pravidiel pri dvojhláskach
používame aj pre spoluhlásky, rovnako je to pri jednoznačných pravidlách. Po
aplikovaní všetkých pravidiel v systéme na náš tretí segment uvedený na začiatku, získame nasledujúci prepis:
J I k a m – b I – s o m – J E S i ^E l
4. Správne verzus spisovne
V predchádzajúcej časti sme predpokladali, že text, ku ktorému potrebujeme vygenerovať fonetickú transkripciu, je vyslovovaný spisovne a zodpovedá
pravidlám, ktoré uvádza Á. Kráľ (1983), a teda rovnako aj nášmu výstupu,
ktorý bol podľa týchto pravidiel vytvorený. Hovorená forma jazyka sa v rôznych oblastiach viac či menej líši od formy spisovnej a zanedbanie tejto skutočnosti v prípade počítačového rozpoznávania reči môže viesť k chybnému
označeniu niektorých segmentov reči v prípade, že je tento proces vykonávaný
automaticky a v zozname možných výslovností sa výslovnosť, ktorá presne
zodpovedá nahovorenému textu, nevyskytuje.
Na získanie správneho prepisu výslovnosti sme museli do nášho systému
pridať možnosť generovať aj takzvanú „nespisovnú“ výslovnosť. Pri tvorbe
tohto druhu pravidiel sme čerpali z vlastných skúseností v oblasti rozpoznávania reči, ako aj z literatúry (Kráľ 1983). Na základe vlastných skúseností
sme vyrobili pravidlá na prepis dlhých samohlások na krátke, čo sa nám
osvedčilo v prípade hovoriacich z východných oblastí Slovenska. Z práce Á.
Kráľa sme napr. čerpali informáciu o hláske m: „V neutrálnom a vyššom štýle výslovnosti sa v slovenčine nepripúšťa výslovnosť pernozubnej spoluhlásky
m namiesto n, ň v slovách ako dezinfekcia, fanfáry, infekcia, informácia,
kanva, konfekcia, konferencia, konflikt, konvergencia, konvoj, panvica, panvička, skonfiškovať a v slovných spojeniach ako ten váš, len volaj, jeleň vyskočil“ (Kráľ 1983, s. 155). Pre nás bolo toto pravidlo indikáciou, že takáto
výslovnosť sa môže vyskytnúť, a pridali sme ho medzi pravidlá na generovanie nespisovnej výslovnosti.
5. Záver
Cieľom tohto príspevku bolo poukázať na problematiku automatizácie
fonetickej transkripcie a prezentovať nami zvolený spôsob riešenia tohto problému. Doterajšie výsledky dosiahnuté v budovaní systému sú porovnateľné s vý120
AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI
sledkami podobných systémov v iných jazykoch. Naším ďalším cieľom je zvýšenie robustnosti systému zameraním sa na frekventované prevzaté slová v
slovenčine, a tým aj rozšírenie databázy výnimiek. Z dlhodobejšieho hľadiska
sa chceme zamerať na kvalitu generovania nespisovnej výslovnosti, čo je však
už podmienené analýzou výsledkov reálnych systémov.
Poďakovanie. Chceli by sme na tomto mieste poďakovať pracovníkom
Jazykovedného ústavu Ľudovíta Štúra v Bratislave za ústretový prístup a možnosť použitia korpusu slovenčiny, bez ktorého by sme neboli schopní dopracovať sa k mnohým z našich záverov.
Literatúra
DARŽÁGÍN, Sachia – FRANEKOVÁ, Ľudmila – RUSKO, Milan. 1994. Konverzia a rečová
syntéza slovenčiny. Jazykovedný časopis, roč. 45, č. 1. s. 31 – 43.
KRÁĽ, Ábel. 1983. Pravidlá slovenskej výslovnosti. Bratislava: Slovenské pedagogické
nakladateľstvo.
MISTRÍK, Jozef. 1985. Frekvencia tvarov a konštrukcií v slovenčine. Bratislava: Vydavateľstvo VEDA.
121
VIACJAZYČNÝ VÝSLOVNOSTNÝ
SLOVNÍK VLASTNÝCH MIEN A NÁZVOV
LOKALÍT
Peter Ďurčo: Akadémia Policajného zboru, Bratislava (durco@
minv.sk)
Abstract: The ONOMASTICA project has successfully produced an important European linguistic resource in the form of a pronunciation lexicon containing 1.8 million European names in 7 languages, together with their pronunciations, namely Czech, Slovak, Slovenian, Polish, Estonian, Latvian and
Ukrainian.
The orthographic data is displayed using a True-Type font which matches the MS-DOS code
page of the PC which produced the original data. For most Copernicus languages, this is CP852, but for
Ukrainian, using Cyrillic alphabet, CP866 was used. Transcription data is mapped onto IPA from the
original language-specific ASCII phonemic alphabets developed by each Copernicus partner, and displayed using the freely available IPAKiel font. The transcription display may be switched between the
ASCII and IPA versions.
Letter-to-sound (grapheme-to-phoneme) correspondences can be difficult to specify, even in text
which does not contain names. The central observation here is that grapheme-to-phoneme correspondences are different for names with different languages of origin and that the general phonological systems of languages are only partially reflected in the names of those languages. Their anomalous pronunciations then often 'fossilise', and even when the names themselves become long-established, their phonemic form causes problems for grapheme-to-phoneme conversion rules.
The ONOMASTICA lexicon will form the foundation of a range of products in the telematics sector
and its emergent use in speech recognition and speech synthesis systems. Full coverage of names for Europe
will be an on-going task for the language industry in Europe. The ONOMASTICA lexicon provides a very
good research tool to enable to develop new services which require pronunciation of names. The ONOMASTICA lexicon provides a resource for evaluating multi-lingual systems.
Cieľom projektu COP-58 ONOMASTICA, ktorý bol financovaný Európskou komisiou v rámci programu COPERNICUS, bolo vytvorenie výslovnostného slovníka priezvisk, krstných mien, názvov lokalít a ulíc. Projekt viedol
prof. Mervyn Jack1 z Univerzity v Edinburgu. Do projektu bolo zapojených
sedem stredo- a východoeurópskych krajín.2 Projekt sa začal realizovať v janu1
Kontakt: Prof. Mervyn Jack, Centre for Communication Interface Research, The University of
Edinburgh, 80 South Bridge, Edinburgh EH1 1HN, UK, e-mail: Mervyn [email protected]
2
Zúčastnené inštitúcie a riešitelia: Pavel Kolár, Language Institute, Silesian University, Opava,
Czech Republic, e-mail: [email protected]; Peeter Päll, Inst. of Estonian Language, Estonian Academy of Sciences, Tallinn, Estonia, e-mail: [email protected]; Andrejs Spektors, Inst. of Mathematics
122
VIACJAZYČNÝ VÝSLOVNOSTNÝ SLOVNÍK VLASTNÝCH MIEN A NÁZVOV LOKALÍT
ári 1995 a bol ukončený v marci 1997. Informácie o výsledkoch projektu za
slovenčinu som predstavil na rôznych fórach a boli aj publikované. 3 Zatiaľ však
nedošlo k ich širšiemu využitiu. Hlavný problém spočíva v (ne)dostupnosti dát.
Vzhľadom na rozsah dát nie je možné ich publikovať v tlačenej podobe a všetky výsledky existujú len v elektronickej verzii. Právo voľne poskytovať údaje
má každý spoluriešiteľ len v rámci svojej časti.4
Hlavnou úlohou riešiteľov bolo spracovanie pravidiel výslovnosti vlastných
mien pre automatický výslovnostný transkriptor. Vypracovanie transkripčných
pravidiel výslovnosti vlastných mien bolo o to zložitejšie, že pri menách nefungujú
štandardné výslovnostné pravidlá a mechanizmy, typické pre daný jazyk. Jednou
z príčin týchto výslovnostných „anomálií“ je veľká mobilita mena spojená s vrstvením výslovnostných podôb v závislosti od miery jeho ustálenia a adaptovanosti. Pomenovania sú pritom veľmi často nositeľmi rôznych „fosilizovaných“ prvkov.
Veľmi zaujímavým sprievodným produktom z hľadiska korpusovej lingvistiky však bolo zhromaždenie prakticky úplných zoznamov krstných mien,
priezvisk, názvov lokalít, názvov ulíc, v niektorých prípadoch aj názvov firiem
v siedmich jazykoch. Vo väčšine prípadov sa to podarilo vďaka využitiu databáz registrov obyvateľov v jednotlivých krajinách. Aj v prípade slovenčiny boli
využité dáta bývalého Centrálneho registra pobytu obyvateľov. Takýmto spôsobom boli získané prakticky úplné údaje k uvedeným kategóriám mien5, čo otváand Computer Science, University of Latvia, Riga, Latvia: e-mail: [email protected]; Peter Ďurčo,
Dept. of Foreign Languages, Police Academy, Bratislava, Slovakia, e-mail: durco@ minv.sk; Zdravko
Kačic, Faculty of Technical Sciences, University of Maribor, Maribor, Slovenia, e-mail: [email protected]; Jevgenyj Ludovik, Institute of Cybernetics, Ukraine Academy of Sciences, Kiev, Ukraine, e-mail:
[email protected]; Prof. Wiktor Jassem, Inst. of Fundamental Technologogical Research, Polish Academy of Sciences, Poznań, Poland, e-mail: [email protected]
3
ĎURČO, Peter. 1996. Vlastné mená na Slovensku. In: Jozef Mlacek (ed.), Studia Academica
Slovaca, roč. 25. Bratislava: Stimul. s. 54 – 60; ĎURČO, Peter. 1997. Počítačové spracovanie vlastných mien na Slovensku. In: Slavomír Ondrejovič (ed.), Slovenčina na konci 20. storočia, jej normy a
perspektívy. Sociolinguistica Slovaca, roč. 3. Bratislava: Veda. s. 312 – 325; ĎURČO, Peter – MEDĽA, Milan – KOŠA, Jozef. 1996. Onomastica. Copernicus. Kop.exe. Users’ Guide. Dept. of Foreign
Languages, Police Academy of the Slovak Republic and Central Residence Register of the Inhabitants
of the Slovak Republic. Bratislava.; ĎURČO, Peter. 1996. Names in Slovakia: Occurrence, pronuntiation, transcription in computer compilation. In: Keith Edwards (ed.), Onomastica Research Colloquium digest, No. 1, 23. February, University of Edinburgh. s. 1 – 15.
4
CD s dátami možno získať na adrese: ELRA - [email protected]
5
Kvantitatívne údaje pre jednotlivé kategórie: krstné mená – 8433; priezviská – 208011; ulice –
8142; lokality – 4060.
123
PETER ĎURČO
ra novú perspektívu pre onomastické výskumy na Slovensku, pretože všetky
mená obsahujú kvantitatívny údaj (počet nositeľov daného krstného mena,
resp. priezviska) s priradením ku všetkým lokalitám jeho výskytu, resp. je možné zistiť výskyt všetkých priezvisk v príslušnej lokalite.
V tabuľke je uvedená veľkosť korpusov mien za jednotlivé krajiny:
Krajina
Česká republika
Estónsko
Lotyšsko
Poľsko
Slovensko
Slovinsko
Ukrajina
Spolu
Počet
244025
208380
245331
244632
228646
283449
251579
1 705256
Pred spustením aplikácie a prezeraním dát je nevyhnutné nainštalovať príslušné fonty, ktoré používa program a nie je možné ich nainštalovať automaticky.
Ide o štyri skupiny fontov: fonty IPAKiel na zobrazovanie výslovnosti znakmi
medzinárodnej fonetickej abecedy, ďalej tzv. fonty MRPA (Machine Readable
Phonetic Alphabet) na zobrazenie pomocou ASCII, font NRB CP852 na korektné
ortografické zobrazenie znakov pre MS-DOS s kódovou stránkou 852. Špeciálne
fonty existujú pre ukrajinskú databázu s kódovou stránkou 866.
Pre každý jazyk sú dáta uložené v dvoch ASCII textových formátoch. Prvá
tabuľka obsahuje východiskovú grafickú podobu každej jednotky, druhá tabuľka
obsahuje priradené výslovnostné polia, ktoré môžu obsahovať aj viac riadkov,
ak existujú dva alebo viaceré výslovnostné varianty.
Aj keď možno prezerať dáta v ktoromkoľvek bežnom databázovom programe, dochádza k ťažkostiam pri čítaní ortografických znakov v jednotlivých
jazykoch alebo pri zobrazovaní transkripčných symbolov v IPA štandarde. Aby
bolo možné zobraziť dáta korektne, bol vytvorený špeciálny prehliadač
COPDB, ktorý tento problém rieši. Používateľská obrazovka má nasledujúci
tvar:
124
VIACJAZYČNÝ VÝSLOVNOSTNÝ SLOVNÍK VLASTNÝCH MIEN A NÁZVOV LOKALÍT
V prvej položke je zobrazená grafická podoba. Druhá položka zobrazuje
výslovnosť, pričom tento nástroj umožňuje aj prepínanie medzi transkripciou
pomocou znakov ASCII a IPA. Položka „Etymology“ označuje krajinu výskytu
mena, ďalej je zobrazený kód mena v databáze. Položka „Quality“ označuje
stupeň presnosti transkripčného prepisu v zmysle výslovnostnej normy, pričom
I. stupeň znamená expertne overenú výslovnosť, II. stupeň výslovnosť skontrolovanú a upravenú po automatickej transkripcii, III. stupeň označuje výslovnosť, ktorá bola vykonaná automaticky len pomocou automatického transkriptora na základe predprogramovaných pravidiel. Položka „Comments“
označuje kategóriu pomenovania.
Myslím si, že výsledky tohto projektu možno využiť na ďalší výskum
v oblasti fonetiky, onomastiky a počítačovej lingvistiky.
125
ČESKÝ NÁRODNÍ KORPUS:
STAV V ROCE 2001
František Čermák: Ústav Českého národního korpusu, Filozofická
fakulta University Karlovy, Praha ([email protected])
Abstract: In a broad context, the contributions surveys the curreny state of preparation, build-up and perspectives of the Czech National Corpus and its various subcorpora. The corpus grew up out of real need of
better linguistic data and its relevance for various fields of linguistics and outside is paid some attention.
Some of the basic corpus-linguistics terms are revisited and redefined as well as a survey of current needs is
outlined. Finally, various subcorpora, especially the 100-million contemporary corpus of written Czech are
described and various criteria for its build-up discussed and given.
1. Úvod
Současný svět si stále více uvědomuje cenu informace, a to nejen jako pouhého zboží, ale především jako nezbytného předpokladu pro celkový rozvoj
společnosti. Zvláštní místo tu zaujímá informace jazyková, o jazyku a z jazyka.
Jazyk není jen nejcennější kulturní statek a dědictví společenství, které už dávno není jednonárodní, který podmiňuje a umožňuje existenci veškeré slovesné
kultury od literatury přes divadlo a žurnalistiku až po osobní korespondenci i
ústní komunikaci. Jazyk nám umožňuje své myšlenky a názory přenášet překladem jazykovým do jiné společnosti a nazpátek a překladem kulturním nahlížet do vlastní minulosti a udržovat kontinuitu toho, co stojí za to. Vedle své úlohy nástroje všeobecné komunikace společnosti je však jazyk i médiem vědeckého styku, nástrojem techniky a obchodu a všech dalších oblastí společenského
života zrovna tak jako nástrojem sebereflexe a poznání dění kolem nás, a bez
něj by tento život prostě nebyl. Jazyk je však přitom takovou samozřejmostí,
jakkoliv nezbytnou, že se na něj prostě zapomíná, zapomíná se – především investičně – na to, že je o něj jako o výsostný statek kulturní třeba pečovat co nejlépe (a nejen o statky hmotné, průmyslové apod.), a tedy co nejlépe ho poznávat, toto poznání využívat a zpřístupňovat ho všem. Dnes je už zřejmé, že
až dotud nevídanou, epochální možnost jeho poznání tu nabízejí komputery,
které hloubkou, šíří, kvalitou i objevností své nabídky předčí cokoliv, co tu bylo
až dosud.
126
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001
Mluví-li jeden z dokumentů Evropských společenství v r. 1991 (Commission 1991, s. 20) o tom, že „Technologie mluvy a jazyka vyžadují rozsáhlé
databázové korpusy... pro výzkum a rozvoj, účely testování a k podpoře spisovatelů a překladatelů“, a odpovídá tak na otázku Proč korpus?, pak o dva roky
později člen téže komise ES DG XIII J. Soler (Soler 1993) si už tuto otázku
vůbec neklade a uvažuje spíše o způsobech jeho využití: „...rozvoj standardizovaných korpusů a metod a nástrojů jejich správy i aplikace je dlouhodobý podnik přesahující možnosti projektu individuálního. Nesmírnost úkolu, jehož má
být dosaženo, i jeho náklady naznačují, že standardizované korpusy mají být
budovány spoluprací skrze evropskou koordinaci národních snah, která je otevřená mezinárodním výměnám, i to, že výsledné korpusy mají být veřejné a
orientované tak, aby uspokojovaly různé potřeby uživatelů.“
2. Pojem jazykového korpusu
Jazykovým korpusem lze rozumět vnitřně strukturovaný, unifikovaný a
obvykle i oindexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovávaných jazykových dat většinou v textové podobě, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž pak je také považován za reprezentativní. Existence a smysl tvorby korpusu vycházejí především ze dvou základních
teoretických předpokladů a jazykových faktů zároveň:
1) data nejrůznějšího druhu se v korpusu nacházejí ve své přirozené kontextové podobě a užití, což umožňuje jejich všestranné a objektivní studium
a indukci závěrů;
2) velký rozsah plánovitě vybudovaného korpusu minimalizuje to, že čistou náhodou – k níž u malých rozsahů dat dochází – převládnou zvláštní a
okrajová užití jazykových jednotek nad základními a typickými; minimalizuje
se tak však i problematická indukce opřená o nedostatečnou analogii.
Vedle primárně sledované reprezentativnosti korpusu v různém smyslu
a míře (včetně škály typický–zvláštní/výjimečný) se u tvorby korpusu též obvykle zdůrazňuje i nutnost zachytit v něm variabilitu jazyka v různém smyslu,
obojí výhodně i v kvantifikované podobě.
Možnost správy hromadných jazykových dat a práce s nimi na počítači
vedou ve svých důsledcích nejen k nesmírnému zrychlení a usnadnění lingvistovy práce, ale i k jejímu dotud nevídanému zkvalitnění. Data takto získaná,
která lze průběžně snadno modernizovat a doplňovat, tak představují dnes absolutně nejbohatší a nejrealističtější zdroj poznání jazyka vůbec. Možnostmi
127
FRANTIŠEK ČERMÁK
kvalitativními i kvantitativními tento zdroj vysoko předčí všechny lingvistovy
pracně budované kartotéky a archivy minulosti a nabízí se tak proti dosavadní a
tradiční individuální lingvistově introspekci a elicitaci informace od rodilých
mluvčích. Proto také je jazykový korpus předpokladem ke skutečné revoluci v
práci s jazykem a i proto se zcela právem o posledním desetiletí tohoto století
mluví také jako o dekádě korpusové lingvistiky. Mluví-li se v přírodních a dalších vědách zcela samozřejmě o základním výzkumu, na který navazuje veškerý
další výzkum a aplikace, pak v jazykovědě se právě takovým zdrojem a předpokladem základního výzkumu stává elektronický korpus. Docenění jeho prvotního významu vede pak i k pochopení toho, že jeho budoucí studium a široké využívání znamená skutečně novou epochu v lingvistice, nový způsob výzkumu
jak co do kvality a povahy dosahovaných výsledků (zahrnující do značné míry
poprvé i ve vědě obecně nutnou možnost verifikace), tak ovšem i podoby a povahy metodologie práce s ním; své důsledky bude mít i pro filozofii přístupu k
jazyku vůbec. Už na samotném začátku tu těsně spolupracují lingvisté s matematiky a odborníky v komputerové vědě a nové problémy a cíle, které se vynořují
v průběhu práce, si vyžadují a budou vyžadovat zcela nové způsoby řešení a
exaktnější metodologie, užité techniky a nástroje. Rostoucí význam tu nabývá
lingvistické modelování a statistické metody, propojované do probabilitních
modelů, ale i fuzzy logika apod. Lingvistika se právě až v této fázi stává i prakticky plně interdisciplinární.
3. Korpusová data
Je třeba lišit mezi povahou jazykových dat (data vnější a hrubá) ještě před
jejich vstupem do korpusu a po jejich vstupu do něj (data vnitřní a strojově
čitelná, resp. zpracovatelná), kdy nabývají především unifikovanou podobu.
Zdrojem korpusových dat (vnějších) jsou obě manifestace jazyka, psaná
i mluvená, resp. psané i mluvené texty, ne však zatím ve stejné míře, protože
záznam mluveného jazyka a jeho převod do počítačově čitelné podoby (vlastní
magnetofonová nahrávka a následný přepis) je dosud velmi nákladný; s
ohledem na zlepšující se možnosti počítačového rozpoznávání mluvy a jejího
přímého záznamu komputerem se však situace může dramaticky změnit.
Dosavadní zdroje dat se podle dostupných prostředků člení v zásadě na tři
druhy. Nejlevnější a nejsnadněji využitelná jsou data v podobě elektronické sazby textů, kterou dnes užívá už většina centrálních novin a časopisů a některá
nakladatelství. Druhou možností, různě úspěšnou v souvislosti s mírou typo128
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001
grafické náročnosti textu, je načítání textů, resp. jejich skenování do počítače
pomocí scannerů; na rozdíl od snímání obrázků je snímání písma v jeho různorodosti a různé velikosti (jen typografických sad jsou stovky), a tedy i optické
rozpoznávání znaků (OCR, Optical Character Recognition) spíše složitější a
vyžaduje velmi výkonný a specializovaný software. Zvlášť složité texty, např.
slovníkové, však přesto při tom vykazují mnoho chyb a vynucují si mnoho
oprav. Třetí možností je konečně manuální přepisování potřebných textů do počítače písařkou (prostřednictvím některého z běžných editorů).
Žádný z těchto způsobů tedy nevede k potřebným datům přímo a snadno,
vždy je zapotřebí kontroly a oprav, většinou bohužel i odborných (nejjednodušší
je paradoxně způsob třetí, který jazykového odborníka průběžně nepotřebuje),
každý z nich však navíc vyžaduje řadu větších či menších programátorských a
odborných zásahů v podobě preeditace či posteditace, různých konverzí, sjednocení aj. (viz 4., korpusová data interní), často v podobě zvláštních dalších
programů. Ať už je elektronický text pořízen tím či oním způsobem (převádí se
napřed většinou do neutrálního mezinárodního ASCII formátu), má pak v zásadě
trvalou, neomezenou platnost a lze ho opakovaně využít při různých dalších příležitostech, což ho dělá zvlášť cenným. Doprovodnými faktory bývají i některé aspekty další, zvláště právní.
Protože počet korpusů i jejich rozsah rychle roste, je dnes už zřejmá jak
potřeba standardizace sběru a označování textů, tak možnost jejich vícenásobného, sdíleného použití (reusability, znovupoužitelnost). Tomu prvnímu je
věnovaná mezinárodní iniciativa TEI (Text Encoding Initiative), sponzorovaná
mj. Evropskými společenstvími a americkou vládou; TEI v několika dokumentech doporučuje společný výměnný formát textů, zásad kódování nových a
způsoby převodu mezi formáty existujícími. Její různé subkomise už mj. specifikovaly a doporučily i vhodné znakové sady, zásady textové analýzy v návaznosti na různé obory i kódovací metajazyk. Za ten byl pro deskriptivní rámec
syntaktické analýzy zvolen SGML (Standard Generalized Markup Language),
uznávaný od r. 1986 jako mezinárodní standard (ISO 8879). Opakovaná, obecná znovupoužitelnost textů, aktuální zvl. ve světle nákladů na pořízení a přípravu elektronických textů i jejich mezinárodní výměny, vyžaduje ke své realizaci vyřešení především otázek polyfunkčnosti korpusu, jeho polyteoretičnosti (tj.
nepoplatnosti jedné úzké teorii), dostupnosti, intelektuálních vlastnických práv,
reprezentativnosti, standardizace aj.
129
FRANTIŠEK ČERMÁK
4. Český národní korpus
Pro češtinu vznikl r. 1994 z inciativy interdisciplinární skupiny Počítačového fondu češtiny a spojením sil více univerzitních pracovišť a Ústavu pro
jazyk český Akademie věd České republiky Ústav českého národního korpusu,
jehož cílem bylo a je vybudovat rozsáhlý a víceúčelový korpus češtiny obecné povahy na půdě Filosofické fakulty University Karlovy, korpus, který se nazývá
Český národní korpus. Svou povahou jde o projekt akademický, a tedy nekomerční, i když jedním ze sponzorů je jedno české nakladatelství. I když je nedostatek
novějších jazykových dat, která by měla být v lexikálním archívu Akademie věd
České republiky, ale bohužel nejsou, jednou z prvotních motivací ke tvorbě ČNK,
promítly se do snah o jeho vytvoření i motivace další a záhy začalo být jasné, že o
takovou informační základnu můžou mít zájem vlastně všichni synchronní lingvisté, i když si to zatím ne všichni připouštějí a postupný růst ČNK se vždy nesetkává s obecným porozuměním; nevraživost či lhostejnost zvláště některých
starších lingvistů je však jen přirozeným průvodním jevem, známým odleckud.
Typově projekt Českého národního korpusu předpokládá především vznik
korpusu současných českých textů a klasické slovníkové databáze, které se
můžou každá skládat z více částí. Vedle vlastního korpusu, u kterého se sleduje
naplňovaná struktura složení, vzniká však i volněji pojatý elektronický archív.
Všechny texty se mimoto evidují ve zvláštní evidenční databázi.
Korpus současných českých textů, základní část ČNK, sloužící mj. i jako
vydatný zdroj pro další dvě obecné složky, byl pro první fázi práce uvažován
jako stomiliónový. tj. o rozsahu 100 milónu textových slov (pro srovnání uveďme, že zahraniční zkušenosti i konkrétní projekty, např. uvedený Britský
národní korpus, dnes ukazují na potřebu 100 a více miliónů výskytů). Tento
první korpus je dokončený a byl uvolněn pro odbornou veřejnost r. 2000. Je nesporné, že v souvislosti s jeho výstavbou a využíváním se hledala a hledá odpověď na řadu otázek, především:
–
reprezentativní a vyvážené zdroje konkrétních textů, získaných
v elektronicky hotové podobě či optickým scannováním,
–
způsobů převodu/konverze textů do jednotného formátu, kompatibilního mj. i podle mezinárodních standardů (zvl. TEI),
–
jejich sloučení v organický celek, popř. propojení s dalšími složkami,
–
lingvistického označkování a utřídění i
130
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001
–
efektivního softwarového mapování a analýzy, korelování jeho
různých částí a především
–
rychlého prohlížení a vyhledávání podle dané potřeby, popř.
shromáždění vybrané, ale roztroušené informace v ucelený souhrn, s nímž lze dál pracovat.
Dodejme, že řada nakladatelství a redakcí je dnes už ochotná své texty,
ukládané elektronicky, dávat k dispozici, i když ne však všechna; na druhé
straně však řada typů textu není k dispozici a je třeba je skenovat.
Konkordanční báze, tvořená abecedně uspořádanými tvary slov s jejich
kontexty a jejich frekvencí ve formátu KWIC, je ideálním východiskem jak pro
tvorbu slovníků tak studium syntaxe či analýzu mikrostylistickou, a tedy i pro
poznání kombinatoriky jazyka obecně či zjištění tematizace textů. Mívá obvykle jen výběrovou ad hoc povahu vždy pro daný účel a může se pružně obměňovat. Hlavním důvodem této výběrovosti jsou neúnosně velké rozsahy potřebných konkordancí, které jakožto dvacateronásobky apod. délky původních textů
jsou velkým břemenem pro počítačovou paměť. Lze proto počítat se základní a
typologizovanou referenční konkordancí stálou, na jejímž základě bude možné
se kvalifikovaně rozhodovat o potřebě tvorby dočasných konkordancí dílčích. I
zde vyvstávají tytéž otázky a potřeba odpovědí na ně jako u textového korpusu;
přibývá pak potřeba speciálního softwaru tvorby konkordancí a především
programátorského zvládnutí úskalí obrovské záplavy jazykových dat, často pro
sledovaný cíl redundantních.
Vedle případných konkordancí se zakládají i slovníkové databáze. Budou
široce pojaté tak, aby – mj. v propojení s textovým korpusem – mohly sloužit
jako základní referenční zdroj pro autory budoucích slovníků nejrůznějšího
druhu. Z těchto tří typů svou strukturací do mnoha polí budou bází nejpropracovanější. Jejich prvním obsahem se stanou největší slovníky současného českého jazyka a na jejich pozadí bude možné později pro nový slovník češtiny snadno
ověřovat, za použití materiálu nabízeného z textových korpusů, co se v jazyce
změnilo, co chybí, jaké jsou objektivní proporce jevů aj. Konkrétně budou tuto
náplň tvořit především stávající slovníky: čtyřsvazkový Slovník spisovného
jazyka českého (SSJČ) o rozsahu 192 000 hesel na 5600 stranách, který už byl
opticky sejmut a dál se zpracovává; hotové 2. vydání jednosvazkového Slovníku spisovné češtiny o rozsahu asi 48 000 hesel vyšlo i v disketové podobě a je
tedy počítačově k dispozici hned. Protože i tato databáze bude složena z několika dílčích, může do sebe zahrnout po příslušné konverzi i počítačově už dostupné slovníky další, zvl. retrográdní, popř. frekvenční apod.; přepsat by bylo
131
FRANTIŠEK ČERMÁK
zřejmě vhodné pro tyto účely velkou část novodobých vrstev lexikografického
archívu Ústavu pro jazyk český, které už do SSJČ vstoupit nemohly.
Všechny formy či mody existence korpusu mj. závisejí na dobrém a rychlém vyhledávacím programu, resp. programech; většinou je přímo součástí základních databázových programů obou typů (viz výše), popř. i programu konkordančního.
Některá členění uvnitř uvedených složek Českého národního korpusu byla
naznačena už výše. Český národní korpus je střechový název pro několik entit
a složek v různém stadiu rozpracovanosti a vývoje. Všechny složky jsou vytvářeny výhradně z elektronických textů různé povahy, zaměření a rozsahu. Základní dělení je na (1) synchronní korpus a (2) diachronní korpus. V rámci
synchronního korpusu dominuje svou velikostí (1A) synchronní korpus psaný, patří sem však také (1B) synchronní korpus mluvený (zvl. Pražský mluvený korpus) a (1C) synchronní korpus nářeční. Zčásti obdobné je dělení diachronního korpusu na složku (2A) diachronního korpusu psaného a (2B) diachronního korpusu nářečního. Nářeční korpusy obojího typu však mají z praktických důvodů zatím jen výhledovou povahu. Postupně budovanou složkou,
která má však především pomocný charakter, je lexikografická databáze složená z dostupných elektronických slovníků různého druhu. I když u nás vznikají
specializované korpusy i jiné a jinde, je ČNK pro češtinu a Česko jediným
zdrojem svého druhu a jako takový má i určitý mezinárodní význam. ČNK je
bezprecedentně největší informační bází v ČR a patří dnes i k významným evropským projektům.
V jazyce se nenabízejí žádná jasná a nepochybná kritéria pro stanovení
časových rozmezí, a tedy ani pro stanovení hranic jednotlivých druhů korpusů.
Časová parcelace ČNK je také proto do jisté míry arbitrární a závislá na činitelích vnějších, historických. Jistým vodítkem pro oddělení současného jazyka od
jazyka staršího (resp. správněji řady jeho různých diachronních podob) je však
vždy to, jak se dnešní mluvčí k jednotlivým formám jazyka stavějí a co vyciťují
jako ještě živé a co už ne. V podstatě z těchto hledisek byly také vymezeny
spodní časové hranice synchronního korpusu psaného.
V oblasti pokrytí (1) novin a časopisů byl za základ a začátek textového
mapování a zařazování do korpusu vzat rok 1990 se svým přelomovým charakterem (1990–); starší noviny, plné dobového ideologického newspeaku, můžou
dnes už jen těžko představovat současný jazyk, který se právě v publicistické oblasti mění nejrychleji. Vzhledem k tomu, že knihy, zvláště beletristické, se nejen
znovu a znovu někdy přetiskují i později, ale že se hojně čtou i někteří autoři
132
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001
starší, kteří takto do současnosti patří, protože ji svým vlivem spoluvytvářejí, bylo
pro ně stanoveno několik vzájemně se doplňujících kritérií dalších. Vedle (2a)
knih (hlavně románů) poprvé vydaných po r. 1990 včetně (1990–, kritérium
shodné s (1)) bylo rozhodnuto respektovat i (2b) čtené autory starší, jako je Jaroslav Hašek a Karel Čapek, a to ty, kteří se narodili r. 1880 nebo později (tj. v
letech narození J. Haška a K. Čapka) a konečně (2c) knihy publikované od r.
1945, tj. od konce 2. sv. války (1945–); u tohoto posledního kritéria jde však o
procentuálně řidší zastoupení než u (2a). Jazyk takto vymezených autorů totiž
ještě žije. Jednotkou evidovanou, kterou lze v ČNK zvlášť identifikovat, je takto
buď jednotlivá kniha, nebo číslo novin; vzorky se v tomto přístupu neuplatňují.
Všechna ostatní díla, která těmto kritériím nevyhovují, jsou řazena do
korpusu diachronního. Je však třeba připomenout, že k dispozici ani zdaleka
ještě nejsou všichni vhodní kandidáti pro zařazení do ČNK (problém dostupnosti textů je trvalým problémem), a že i u dostupných a daným kritériím vyhovujících knih, textů bylo nutno přikročit k proporcionálnímu výběru (např.
beletrie je v celku synchronního korpusu jen něco přes 11 %). Bylo by tudíž
omylem domnívat se, že ČNK obsahuje celou českou literaturu daného období,
popř. že v rámci projektu ČNK je převod tak rozsáhlého souboru dat proveditelný. Korpus obsahující všechny texty a autory nikde neexistuje a zřejmě ani
existovat nebude. Jde však o to, mít ho co největší a pružně rozšiřovaný.
Horní časovou hranicí pro zařazení textů do synchronního psaného korpusu bylo časové rozmezí let 1999, dané v podstatě dostupností textů, které lze
získávat vždy jen s určitým časovým odstupem; nějaký čas si vždy ovšem vyžádá i jejich interní zpracování. Takto pokrytá časová etapa, tj. od roku 1990 (s
naznačenými přesahy do minulosti do roku 1998/99), je zastoupena k r. 2000,
tj. v době dokončení první etapy ČNK, synchronním korpusem v rozsahu cca
100 miliónů textových slov ve vyvážené reprezentativní podobě. Projekt ČNK
ovšem pokračuje dále a na první etapu a verzi navážou verze další a rozsáhlejší. Těchto 100 miliónů slov je zároveň označkováno vnějším značkováním co
do typu a původu textu i (pokusným) značkováním vnitřním. Takto je každý
tvar určen co do své morfologické platnosti a zařazení včetně slovního druhu;
přiřazena je lemmatizace. Jednotlivé typy anotace lze zároveň užít i pro vyhledávání, zadá-li si je uživatel.
Uvedený rozsah jen samotných textů bez označkování je nevídaně velký,
jaký dosud nikdy k dispozici nebyl; pohybuje se v rozmezí 1 – 2 gigabytů a jeho
prosté manuální prohlížení přesahuje lidské možnosti. Máme-li si ho nějak
přiblížit, pak toto číslo v podobě a velikosti průměrných tištěných knižních
133
FRANTIŠEK ČERMÁK
stránek (při knize o cca 250 standardních stranách běžného tisku a tenkého papíru), odhadem představuje asi 10 zaplněných metrů místa na polici. Jen pouhé
přečtení celého synchronního korpusu by pak při dost rychlém tempu (150 slov
za minutu, 8 hodin denně a 365 dní ročně) zabralo přes 4 roky. Podstatné je, že
příslušný software tento rozsah prohlédne a výsledek uživateli představí (podle
složitosti dotazu) maximálně za pár sekund.
Diachronní korpus je budován s cílem vytvořit elektronickou materiálovou základnu pro výzkum vývoje českého jazyka od prvních dochovaných
souvislejších záznamů (2. polovina 13. stol.) do doby, kterou pokrývá synchronní korpus (zhruba do poloviny 20. stol., s přesahem do konce 80. let 20. stol. v
případě novinových a časopiseckých textů). Do korpusu jsou zařazovány pouze
dobové a útvarově autentické texty, tj. texty, u nichž lze s rozumnou mírou jistoty vyloučit, že do nich byly vneseny prvky pozdějšího jazykového stavu nebo
jiného jazykového útvaru: jsou to především opisy a přetisky, které vznikly podstatně později než původní text (netýká se kritických edic), a ty, které původní
text zjevně zkreslují nářečními a jinými prvky.
Postup budování diachronního korpusu je pomalý a obtížný, neboť většinu
textů je třeba manuálně přepisovat nebo (v případě spolehlivých novodobých
edic) skenovat a manuálně korigovat. Vzhledem k tomu, že elektronické prohledávání různorodých paleografických podob textů z odlišných období vývoje
českého pravopisu je prakticky nezvládnutelné, vstupují texty z doby před
rokem 1849 do diachronního korpusu v transkribované podobě. V současné době
není v možnostech ČNK standardně připojovat k transkribovaným starším textům jejich transliterované podoby, avšak pro budoucnost se počítá s podstatně
užším spojením transkripce s originálem, a to ve formě elektronického propojení korpusových transkribovaných textů s digitalizovanými obrazy jednotlivých stránek původních předloh. Toto řešení by mělo nejen dát badatelům příležitost detailního ověřování jednotlivých případů transkripce, ale i podstatně
rozšířit možnosti korpusového výzkumu na oblast vývoje grafiky a pravopisu.
Jeho realizace je však velmi náročná.
Diachronní korpus dosáhl v roce 2000 celkového objemu 1 750 000 textových slov. Jeho součástí je mj. banka transliterovaných textů (o celkovém rozsahu přibližně 100 000 textových slov) a jazyková databáze (v níž se shromažďují
překlady starších českých slov, vysvětlivky jednotlivých obratů, míst v textech
ap., obsažené v jednotlivých edicích).
Mluvený korpus synchronní (Pražský mluvený korpus), který je samostatnou složkou ČNK, byl původně vytvářen z hlediska výzkumu frekvence
134
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001
autentické mluvené, především obecné češtiny a jeho rozsah a povaha byly do
vysoké míry dány pragmaticky, možnostmi, které byly k dispozici. Jeho dnešní
rozsah činí přes 700 000 slov. Kvůli limitujícím faktorům je prozatím omezený
na oblast Prahy a okolí, kde míra širší reprezentativnosti je nejvyšší (Praha
ovlivňuje ostatní území nejen mediálně, ale i tím, že v ní pracují lidé z celé
země); je však naděje na získání ještě obdobných korpusů dalších. Mluvený
korpus časově pokrývá období let 1988 – 1996 a představuje zdaleka největší a
nejreprezentativnější záznam autentického mluveného jazyka, který česká lingvistika ve svém uhranutí téměř výlučně jazykem psaným dosud tradičně ignorovala. Rozsah 700 000 textových slov je podle dnešních nároků a ve srovnání s psaným synchronním korpusem malý, ale je třeba vidět, že odpovídá reálným možnostem. Jde především o to, že získání takového korpusu je
mnohonásobně pracnější a dražší než vybudování korpusu psaného a že dosud
není k dispozici ani celková metodologie výzkumu mluveného jazyka, která –
měla-li být převzata z jazyka psaného – například v oblasti syntaxe zcela selhává. Povaha mluveného jazyka je v mnohém jiná než jazyka psaného a jeho
komplexní a systematický výzkum je dosud velkým úkolem.
Projekt mluveného korpusu, složený z cca 300 magnetofonových nahrávek v upraveném přepisu, sledoval reprezentativní zastoupení 4 hlavních sociolingvistických proměnných: pohlaví mluvčích (muž – žena), věku (vyšší –
nižší s hranicí kolem 35 let, ale s vyloučením jazyka nedospělé mládeže),
vzdělání (nižší – vyšší) a typu textu, resp. nahrávky (formální, tj. podle předem
připravených širokých otázek, nebo neformální, tj. neřízený dialog dvou mluvčích, kteří se znají). Tak vzniklo několik desítek kombinací těchto čtyř indexů,
které se nahrávkami naplňovaly tak, aby se dosáhlo vyvážené, proporcionální
podoby. Nahrávky se pak manuálně přepisovaly standardním způsobem do počítače a anotovaly.
Vedle neoznačené, tj. prostě textové podoby, která je už veřejně dostupná,
má být tento korpus po dokončení zpřístupněný včetně bohaté anotace textové
a lingvistické zahrnující i víceslovné jednotky a vůbec poprvé i frazeologii; je
to první korpus v Evropě vůbec obsahující mj. úplné značkování frazeologie.
Jeho hlavní využitelnost je specificky v oblasti lexikonu a morfologie; méně
vhodný je pro studium syntaxe (vzhledem k malému rozsahu) i ke zkoumání tématickému apod.
Zvláště mluvený korpus představuje značný a specifický problém: v důsledku v minulosti pěstovaného přezírání a následného opomíjení výlučně ve
prospěch spisovného jazyka tato část jazyka zůstává nemapovaná, a to je lin135
FRANTIŠEK ČERMÁK
gvisticky situace jak neudržitelná, tak neopodstatnitelná, na druhé straně však i
metodologicky náročná a nová. Kromě nového asi třičtvrtěmiliónového korpusu
mluvené češtiny, jehož zpracování bude dokončeno v r. 2001, a to zvláště pro
potřeby frekvenčního slovníku mluveného jazyka, k dispozici není nic, a musí
se tudíž, spolu s vypracováváním metodologie sběru a zpracování, která je tu
značně jiná, i začínat prakticky od nuly. Je třeba si uvědomit, že magnetofonové nahrávání, přepis do počítače a okódování každého slova složitým číselným kódem, který se realizuje, je jak pracné, tak nesmírně drahé. Dodejme, že
právě vzhledem k nesmírné absurdnosti situace zde, tj. vzhledem k tomu, že
většina naší komunikace je mluvená a přitom pro její výzkum a popis není v
daném smyslu k dispozici nic, kdežto pro menšinovou komunikaci psanou disponujeme už teď miliónovými záznamy, je třeba tento stav urychleně a koncepčně řešit v širším měřítku.
Výčet složek ČNK lze konečně uzavřít připomenutím toho, co bylo řečeno
už výše: podle potřeby a cíle i možností vzniku různých dílčích databází
specializovaných. K nim může nesporně patřit terminologická databáze lingvistická (zvlášť postrádaná mnohými) i z jiných oborů, databáze českých
kořenů a kmenů, registr všech evidovaných forem i lemmat v různých databázích apod.
5. Aspekty práce a využití
Složení korpusu se řídí řadou kritérií, stále dolaďovaných; jejich základ se
opírá o podniknutý sociologický výzkum. Vedle vlastních obsahových kritérií,
jako je podíl textů žurnalistických, beletristických či odborných, se výběr řídí
podle vymezení statistické populace, a to především kritérii (A) recepce či (B)
produkce, a tedy podle toho, jak jazyk lidé užívají (recepce, tj. jazyka ve skutečnosti jen několika málo spisovatelů, novinářů apod. pro velmi široké publikum
různých médií), či toho, jak ho píšou a mluví (produkce, tj. jazyka velmi
širokého vzorku aktivních uživatelů pro stejně široké spektrum příjemců).
K primárně řešeným otázkám patřila tedy reprezentativnost, jejíž průzkum dospěl k několika stupňům poznání. Už první její výzkum, který byl svou
podstatou sociologický a zabýval se průzkumem prosté recepce jazyka, tj. zjišťování proporcí, v nichž jsou lidé vystaveni různým druhům jazyka, přinesl
některá zásadní překvapení. Tak např. bylo zjištěno, že celá třetina pokrytí patří textům odborným (33,5 %), zatímco nespecializované, neodborné texty tvoří
zbývající dvě třetiny (66,5 %). Z toho noviny a časopisy pokrývají 56 %, zatím136
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001
co próza a poezie 10 %; 0,5 % připadlo na jiné, tj. okrajové a zvláštní typy textů.
Složité technické otázky značkování, resp. anotace či taggování korpusového materiálu a jeho automatizace přesahují možnosti této stručné informace,
naznačme jen, že zahrnují stejně tak oblast lemmatizace, a to lexémů jednoslovných i později víceslovných, jako syntaktického parseru, řešení jednoznačnosti záznamu či způsoby jeho uložení do korpusu. V pozdějších fázích snad
však zahrnou i propojení jednotlivých korpusů a databází dohromady i jejich
automatické on-line doplňování o nové formy, prvky a lexémy. Dodejme, že
ČNK je experimentálně morfologicky označkovaný a lemmatizovaný. V
současnosti se značkování i lemmatizace pro přílišnou chybovost reviduje a
předělává a výhledově bude nutné řešit i související problém víceslovnosti.
První zkušenosti s korpusy v různých jazycích přinesly už i některé zásadní zkušenosti metodologické povahy. Jednak je zřejmé, že analýza většiny sémantické stránky jazyka (srov. mj. Atkins 1987), která je na rozdíl od diskrétní
formy (tu lze opřít programově o binární volbu typu „ano – ne“) spíše většinou
kontinuální a škálové, resp. splývavé povahy (a tedy v závislosti především na
volbě typu „spíše toto než to, popř. ono“), bude mít jinou povahu (M. A. K. Halliday 1991: jazykový systém je inherentně probabilistický, jeho kontinuu s
komplementárními perspektivami gramatiky a lexikonu lépe vyhovuje koncepce lexikogramatiky). Významným přístupem, založeným na předpokladu různé
statistické pravděpodobnosti výskytu různých jevů formy, je vyhodnocování
těchto aspektů na základě probabilistických odhadů, měření a různých indexů
(o vztahu kvantitativních a kvalitativních aspektů viz mj. Itkonen 1980, srov.
i Brunet 1986). Vždy však ke studiu této stránky bude možné přejít pouze skrze
zřetelně a spolehlivě okódovanou stránku formální; jedno tu tudíž předpokládá
druhé. I ve formální stránce jazykových dat lze však pozorovat, resp. předpokládat nejednoduchost a nejednoznačnost, především ve smyslu časté variabilnosti formy, která jako jazykový fakt stojí proti snahám některých ligvistů o
zjednodušenou a násilně sjednocenou kodifikaci. Na druhé straně se jako odraz
určité skepse k síle jednotlivých jazykových teorií také doporučuje (srov. Leech
1993), aby značkování bylo spíše jednodušší, široké a konsensuální (viz dál) a
nevycházelo z jedné konkrétní teorie, protože se později nemusí osvědčit a
označkovaná data by nebyla jinak použitelná ani v přístupech dalších.
Obecně lze uvažovat o více typech zužitkování a třebaže konkrétní podoba
bude dána také zájmem z té či oné strany, lze přesto zmínit především či aspoň
137
FRANTIŠEK ČERMÁK
tři okruhy výstupů. Každý z nich bude mít ovšem různě přímou/nepřímou praktickou využitelnost a tudíž i různého příjemce.
První okruh představují slovníky výkladové i překladové, gramatiky a učebnice i samotná data v databázích, na nichž budou stavět, tedy výstupy společensky a zřejmě i komerčně bezprostředně zajímavé. Není jistě žádným tajemstvím, že mnohá slova ve slovnících nejsou, ať stará či nová, že mnohá informace je v lepším případě pokřivená či zastaralá, či že mnohé otázky třeba našich mluvnic nemohly být pro nedostatek dat vůbec řešeny a není proto ani tak
těžké si představit, co vše se může v této sféře nabídnout lepšího. A v horším
případě nemá už cenu nijak zastírat, že mnohé z autoritativních soudů předchozích normotvůrců a autorů především gramatik stojí na hliněných nohách, jsou
nepodložené, apriorní a, v tom lepším případě, minimálně problematické a
skutečnému vědeckému výzkumu vzdálené. V zrcadle korpusu a jeho informací
jsou pak především minulé soudy kodifikační povahy krajně problematické,
jazykový svět, stejně tak jako ten reálný, prostě není černobílý.
Hlavním úkolem však bude, což bude starostí některého z návazných pracovišť, nabídnout Čechům a bohemistům pořádný, objektivní a spolehlivý velký
slovník současné češtiny. Český národní korpus se tak stává hlavním a vlastně
jediným možným zdrojem poznání a dat pro tvorbu takového příštího slovníku.
Není žádným tajemstvím, že náš dosud největší výkladový slovník (SSJČ), jehož
poslední svazek vyšel už před 31 lety, tj. r. 1971, a první dokonce před více než
40 lety, už poněkud nutně zastarává, mnohé – zvláště v důsledku prudce se měnící češtiny dneška – v něm není a mnohé je nepříjemně poplatné komunistickým
dobám, kdy vznikal. Jakkoliv nelze podceňovat lidskou intuici, bude to především korpus, odkud bude možné čerpat poznání o tom, co je v jazyce typické, co se
nejčastěji a jak říká či píše a co je naproti tomu řídké a netypické. Na jeho obrovském podkladě pak bude taky mj. konečně možné zjistit ze skutečného úzu a
způsobů používání jazyka, pokud jde o jeho varianty, kam se ubírá vývoj, a ověřit
si tak objektivně např. i to, nakolik pravopisná pravidla odpovídají životu a nakolik nikoliv.
Druhý okruh představují zkušenosti, podklady i realizované dílčí výstupy
a programy ve sféře komputerizace jazyka. Půjde především o výstavbu dokonalejších spelling-, grammar- i style-checkerů, tedy korektorů pravopisu,
mluvnice i stylu, o dělicí programy, automatické gramatiky a analyzátory pro
dané účely i o moduly pro komunikaci s počítačem v přirozeném jazyce a možnosti další, především ve směru významového zkoumání jazyka. Významným
momentem tu jsou desiderata, která se už teď kladou na kvality a povahu kor138
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001
pusů ze strany Evropské unie především ve smyslu vzájemné kompatibility a
možnosti paralelního zkoumání jazykových dat: členové ÚČNK jsou partnery
dvou velkých evropských multinacionálních projektů v rámci iniciativy Copernicus, které jsou zaměřeny na otázky budování národních korpusů.
Třetí, nejužší okruh bude polem pro realizaci a precizaci samotné lingvistické teorie, jejíž bezprostřední využití sice žádné neexistuje, jejíž vliv však
může být zcela zásadní a všudypřítomný. Přestože korpus je pro lingvisty všeho
druhu obecným a základním zdrojem, popř. testovacím prostředím (viz výše),
lze s ohledem na jejich primární orientaci na něj rozlišit především následující
typy profesionálních uživatelů:
A – lexikografové/lexikologové (zdroj informací o skutečném úzu obecně
či specifických slov apod.),
B – komputační lingvisté (zdroj zjišťovaných statistických pravděpodobností jako klíč k analýze, prostředí k aplikaci teorií a modelů jazyka, automatické získávání lexikálně-sémantických znalostí, řešení vztahu gramatika – lexikon aj.),
C – teoretičtí lingvisté (zdroj vzorků jazykových jevů i prostředí ověřování
svých domněnek apod.),
D – úzcí specialisté (zdroj specifických informací, paralelních řešení i úzu
ap. pro překladatele, terminology, dialektology aj.),
E – aplikovaní lingvisté (autoritativní a typický zdroj dat, zvl. pro výuku,
tvorbu jazykových pomůcek.
Mimolingvistické využití korpusu se nabízí vlastně všem oblastem a disciplínám, které pracují s jazykem, a to hlavně jako referenční zdroj informací
o distribuci zjišťovaného jevu. Především tu jde však o specialisty různých
oborů zaměřené na obsah textů (historikové, literární kritikové, tvůrčí autoři,
sociologové, psychologové) či jejich formu (specialisté na média včetně např.
reklamy, stejně jako právníci apod.).
Do určité míry tu živnou půdu budou skýtat předchozí dva okruhy aplikací
v podobě zatím, tj. stávajícími technikami a teoriemi neřešitelných problémů či
prostých otázek; především však bude usilovat o posunutí hranice poznání
vlastní disciplíny tam, kde jsme se dosud museli spokojovat s prozatímními
závěry a předpoklady. Mám na mysli možnosti řešení, tj. na základě velkého
rozsahu dat a exaktních technik, takových otázek, jako jsou sémantické zákonitosti kombinace slov, podstata a hranice ustálenosti nebo metafory. Je zřejmé,
že na základě hlubšího poznání v první oblasti budeme pak schopni říct leccos
navíc i o zákonitostech našeho myšlení; v druhé oblasti si nejenom například
139
FRANTIŠEK ČERMÁK
lexikograficky ujasníme, při kolika výskytech dané formy v textu už lze místo
posunu starého významu uvažovat význam nový, popř. samostatnou kombinaci
slov, ale především budeme vědět víc o samotné hranici jazykové synchronie, a
tedy jazyka současného a živého, a o povaze přechodů k diachronii a minulým
stavům jazyka, s nimiž se lingvisté nejsou dnes schopni vyrovnat; konečně v
třetí oblasti naše poznatky umožní nejen kvalifikovaně hodnotit metafory
slovesného umění, jejich zpětný vliv na intelektuální vnímavost lidí, ale i jejich
podíl na samotném vývoji jazyka a tím i kultury.
Literatúra
ATKINS, Sue – CLEAR, Jeremy – OSTLER, Nicholas. 1992. Corpus Design Criteria. Literary
and Linguistic Computing, roč. 7, č. 1, s. 1 – 16.
BIBER, Douglas. 1993. Representativeness in Corpus Design. Literary and Linguistic
Computing, roč. 8, č. 4, s. 243 – 257.
British National Corpus. Written Corpus Design Specification. 1991 (a handout information).
BRUNET, É. (ed.). 1986. Méthodes quantitatives et informatiques dans l’étude des textes
(hommage à Charles Mueller). Collogue international de CNRS. Paris: Université de Nice.
ČERMÁK, František. 1995. Komputační lexikografie. In: F. Čermák – R. Blatná (eds.). Manuál
lexikografie. H+H: Praha.1995, s. 50 – 71.
ČERMÁK, František – BLATNÁ, Renata (eds.). 1995. Manuál lexikografie. H+H: Praha.
ČERMÁK, František. 1997. Czech National Corpus: A Case in Many Contexts. International
Journal of Corpus Linguistics, roč. 2, č. 2, s. 181 – 197.
ČERMÁK, František – KRÁLÍK, Jan – KUČERA, Karel. 1997. Recepce současné češtiny a reprezentativnost korpusu. Slovo a Slovesnost, roč. 58, s. 117 – 124.
ČERMÁK, František. 1995. Jazykový korpus: Prostředek a zdroj poznání. Slovo a slovesnost, roč.
56, s. 119 – 140 (revidovaná verze In: Studie z korpusové lingvistiky, 2000, s. 15 – 37).
ČERMÁK, František. 1998. Czech National Corpus: Its Character, Goal and Background. In: P.
Sojka – V. Matoušek – K. Pala – I. Kopeček (eds.). Text, Speech, Dialogue. (Proceedings of the First
Workshop on Text, Speech, Dialogue-TSD '98, Brno, Czech Republic, September.). Brno: Masaryk
University, s. 9 – 14.
ČERMÁK, František. 2001. Language Corpora: The Czech Case. In: V. Matoušek et al. (eds.).
Text, Speech and Dialogue, TSD 2001. Berlin – Heidelberg – New York: Springer, s. 21 – 30.
HALLIDAY, M. A. K. 1991. Corpus studies and probabilistic grammar. In: K. Aijmer et al.
(eds.). Corpus Linguistics. Studies in Honour of Jan Svartvik, s. 30 – 43.
ITKONEN, E.: Qualitative vs quantitative analysis in linquistics. In: T. Perry (ed.). Evidence
and Argumentation in Linguistics. Berlin 1980.
LEECH. G. 1993. Corpus annonation schemes. Journal of Literary and Linguistic Computing,
roč. 8, č. 4, s. 275 – 281.
KOCEK, J. – KOPŘIVOVÁ, M. – KUČERA, K. (eds.). 2000. Český národní korpus: Úvod
a příručka uživatele. Praha: Ústav Českého národního korpusu FFUK. (F. Čermák spoluautor. zvl. 1.1,
1.21-1.22 a předmluva.)
140
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001
KRUYT, J. G. 1993. Design Criteria for Corpora Construction in the Framework of
a European Corpora Network. Final Report. Leiden: Institute for Dutch Lexicology INL.
NORLING-CHRISTENSEN, Ole. 1992. Preparing a Text Corpus. Computational Tools and
Methods for Standardizing, Tagging and Structuring Text Data. In: R. Kiefer et al. (eds.), Papers in
Computational Lexicography COMPLEX '92. Budapest: Research Institute for Linguistics, Hungarian
Academy of Sciences, s. 251 – 259.
SINCLAIR, John McH. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University
Press.
ČERMÁK, F. et al. (eds.). 2000. Studie z korpusové lingvistiky. Praha: Karolinum.
ŠULC, Michal. 1999. Korpusová lingvistika. První vstup. Praha: Karolinum.
ŠULC, Michal. 2001. Tematická representativnost korpusů. Slovo a Slovesnost, roč. 62, s. 53 – 61.
141
ČESKÝ NÁRODNÍ KORPUS –
POČÍTAČOVÁ DEMONSTRACE
Michal Křen: Ústav Českého národního korpusu, Filozofická fakulta University Karlovy, Praha
Abstract: This paper briefly describes the structure of the Czech National Corpus, the acquisition of texts
and the whole process of their subsequent conversion into the final SGML format. It also deals with the architecture of the software tool that is provided to the registered users. The emphasis of the workshop
presentation is put on practical computer demonstration of the tool and possibilities of its usage for data
mining.
1. Složení Českého národního korpusu
Český národní korpus je zastřešujícím názvem projektu, který v sobě zahrnuje vytvoření více různých korpusů, kromě synchronního jsou to zejména diachronní a mluvený korpus. Nadále se však budu věnovat výhradně korpusu
SYN2000, což je reprezentativní synchronní korpus psaného jazyka, zachycující
nejrůznější žánry a typy textů psané češtiny devadesátých let. Jeho rozsah činí
100 miliónů slovních tvarů. Na základě řady výzkumů, při kterých se brala v
úvahu zejména recepce, bylo jeho složení stanoveno takto: 60 % tvoří publicistika, tedy především noviny, a to jak celostátní tak regionální, 25 % odborná literatura a 15 % beletrie. Těžištěm korpusu jsou texty vzniklé v letech 1990 – 1999.
Výjimkou z tohoto vymezení jsou pouze významná beletristická díla, která se stále čtou a vydávají; podmínkou však je, že se jejich autor narodil po roce 1880.
2. Získávání textů a jejich konverze do SGML
Nyní bych se chtěl ve stručnosti věnovat problematice získávání textů a zejména procesu jejich převodu do jednotného SGML formátu, ve kterém jsou nakonec uloženy a připraveny k využívání pomocí korpusových nástrojů. Protože tomuto tématu nebývá obvykle věnována dostatečná pozornost, chtěl bych celý tento proces shrnout a stručně popsat, jak probíhá v Ústavu Českého národního
korpusu.
2.1 Získávání textů
142
ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE
Texty do korpusu získáváme v zásadě třemi různými způsoby: nejvýhodnější je dostat texty v elektronické podobě přímo od vydavatele, a to na základě dohody o jejich nekomerčním využití. Bohužel ne všechna nakladatelství
s poskytnutím textů souhlasí, v ideálním případě však lze takto získat celé archivy jednotlivých titulů novin a časopisů nebo velké množství knih v jednom
formátu. Druhou možností je stahování z internetu. V této souvislosti bych
chtěl vyvrátit poměrně častou domněnku, že získávání textů není žádná velká
věda, stačí jich přeci pomocí automatických programů stáhnout z internetu co
nejvíce. To sice na první pohled vypadá jako velice rychlé a elegantní řešení, je
však použitelné jenom v omezené míře. Na internetu skutečně nalezneme velké
množství textů, jsou však často nekvalitní, bez korektur, v některých případech
dokonce chybí i diakritika. Také internetové archivy novin a časopisů jsou často
neúplné, a je tedy třeba si texty před stažením pečlivě vybírat. Při jakémkoli
získávání nových dat je navíc nutné vyjednat s vlastníky autorských práv podmínky použití jejich textů, což je časově nejnáročnější fáze, kterou nelze automatizovat. Při takovém jednání však již většinou není problém získat data
kompletní a v kvalitnější podobě, než by se podařilo on-line. Konečně třetí
možností získávání textů je jejich skenování a přepisování. Protože však jde o
způsoby zdlouhavé, pracné, a tedy drahé, používáme je pouze u textů, které
jsou z nějakého důvodu cenné a nelze je získat jinak. Každý text, který získáme
některým z uvedených způsobů, je ještě evidován v databázi a nakonec zálohován na CD.
2.2 Konverze do jednotného formátu
Cílem této konverze je dát všem textům jednotný tvar tak, aby další zpracování mohlo probíhat jednotně, bez ohledu na jejich původ. Texty jsou sice již
v elektronické podobě, ale v různých formátech, někdy jde doslova o změť nejrůznějších typů souborů, v rámci dat od jednoho nakladatelství lze třeba najít
jednu knihu v několika verzích nebo také nepotřebné soubory, ve kterých žádný
text není, jako například obrázky, spustitelné programy a podobně. Nejprve je
tedy třeba „oddělit zrno od plev“, a pak se pustit do převodu jednotlivých souborů s texty do meziformátu.
Meziformátem rozumíme prostý ASCII text, který však může navíc obsahovat SGML entity, v nichž jsou kódovány informace, které by se převodem
do ASCII ztratily: jde zejména o typografické značky (kurzíva, podtržení, horní
a dolní index apod.) a o nečeské znaky s diakritickými znaménky, které se ne143
MICHAL KŘEN
vyskytují v daném kódování češtiny. Postup konverze pochopitelně závisí na
tom, v jakém formátu byly soubory s texty vytvořeny. Nejjednodušší je z
prostého ASCII, HTML, RTF nebo z formátů jednoduchých textových editorů
(T602, WordPerfect) – pro tyto případy již máme vyvinuty spolehlivé konverzní
programy, které generují přímo meziformát bez nutnosti texty v těchto editorech otevírat a ukládat. U složitějších editorů (Word) nebo DTP programů
(QuarkXPress, PageMaker) to již nutné je – pokud jde o Word, problém řešíme
pomocí maker, která automaticky vyexportují všechny soubory v adresáři do
RTF. V případě DTP programů, jejichž používání je bohužel stále častější, však
není jednoduché text vůbec vyexportovat (zvlášť pokud jde o složitou sazbu), a
je proto nutné každý soubor tímto programem otevřít a všechny textové rámce
postupně uložit. Tato metoda je časově, a tedy i finančně náročná, snažíme se
proto takové texty zpracovávat v co nejmenší míře a podobně jako například
skenování ji používat pouze jako doplòkový zdroj textů. Přesto se však nedá
říci, že v případě relativně jednoduchých veřejných formátů zmíněných výše
stačí pouze spustit příslušný program a konverze do meziformátu je hotová.
Vždy je totiž nutné výsledek zkontrolovat a většinou také ještě napsat danému
textu „na míru“ jednoduchý program, který odstraní některé nevhodné jevy, jakými jsou například odkazy na literaturu, čísla stránek a obrázků a podobně.
2.3 Bibliografická anotace
Kromě vlastní konverze do SGML je ještě nutné k jednotlivým textům doplnit
základní bibliografické informace, aby bylo možné se při vytěžování korpusu na
jednotlivé zdroje odkazovat. Bibliografickou anotací textů zde tedy rozumíme
zjišťování informací o autorech, nakladatelství, roku vydání, typu textu,
žánrovém zařazení aj. a jejich zapsání do databáze a zároveň také přímo do textů v
meziformátu. Tuto část konverze samozřejmě nelze automatizovat a je tedy nutné
ji dělat ručně.
2.4 Převod do SGML, tokenizace, morfologické značkování a lemmatizace
Následuje poslední a také již plně automatická fáze konverze, a tou je
převod do SGML (mezinárodně standardizovaný metajazyk vhodný pro ukládání strukturovaných textů) a tokenizace (tj. segmentace textu do slov a vět),
následované několika čisticími a kontrolními programy. Zde je myslím třeba
zdůraznit, že se snažíme zachovat v co největší míře autenticitu textu, to znamená, že do něj nezasahujeme, neopravujeme zjevné chyby ani překlepy, s vý144
ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE
jimkou slov „natvrdo“ rozdělených pomlčkami. Odstraňujeme pouze některé
součásti textů, které nemají pro studium jazyka valný význam a které by svou
přítomností byly spíše na škodu. Jsou to především celky netextového charakteru (tabulky, vzorce, tiráž, seznamy literatury apod.) a celé odstavce psané cizími jazyky (nikoli tedy krátké citáty). U novin a časopisů se také poměrně často
stává, že dostaneme v datech z nakladatelství několik verzí jednoho článku, a
proto také kontrolujeme, zda mezi jednotlivými články nejsou dva stejné nebo
velmi podobné, a případné duplicity odstraňujeme.
Nyní je text již připraven k zařazení do korpusu, k jeho plnohodnotnému
používání však ještě chybí morfologická analýza, desambiguace a lemmatizace.
I tyto kroky je nutné vzhledem k obrovskému objemu dat dělat automaticky,
v současné době používáme programy vyvinuté na Úsavu formální a aplikované
lingvistiky Matematicko-fyzikální fakulty University Karlovy pod vedením
Jana Hajiče. Na zlepšení výsledků desambiguace pracuje v současné době tým
Vladimíra Petkeviče na Ústavu teoretické a komputační lingvistiky Filozofické
Fakulty University Karlovy. Výsledkem všech těchto kroků je tedy nakonec
anotovaný strukturovaný text ve formátu SGML, ve kterém je ke každému
slovnímu tvaru přiřazeno jeho lemma (základní slovníkový tvar) a spolu s ním
také morfologická značka, která vyjadřuje jednoznačnou morfologickou interpretaci daného slova, tedy údaj o slovním druhu a v závislosti na něm také
například o osobě, čísle a času u sloves, stupni u přídavných jmen a příslovcí a
podobně.
3. Programové nástroje pro práci s korpusem
Běžný způsob práce s korpusem, který nabízíme všem našim registrovaným uživatelům, je pomocí programu GCQP. Jeho autorem je Pavel Rychlý z Fakulty informatiky Masarykovy university v Brně. Uživatelé si ho mohou
stáhnout z internetových stránek Ústavu Českého náodního korpusu a podle návodu nainstalovat na svůj počítač. Jde o klientskou aplikaci napsanou v jazyce
Tcl/Tk, a tedy přenositelnou mezi jednotlivými operačními systémy, která
pracuje jak v systémech typu Unix/Linux, tak samozřejmě také pod Windows
95/98/NT/2000. Práce s korpusem tedy vypadá tak, že uživatel na svém počítači spustí program GCQP, který se přes internet připojí k našemu serveru, posílá
mu požadavky a dostává zpět data, která zpracovává a zobrazuje. Server běží u
nás v Ústavu Českého národního korpusu pod Linuxem, výkonným jádrem celého systému je program CQP (Corpus Query Processor), vyvinutý na univerzi145
MICHAL KŘEN
tě ve Stuttgartu. Nad tímto jádrem, které zajišťuje vlastní vyhledávání, běží
ještě program cqsd, který komunikuje s klientskými aplikacemi, předává jejich
požadavky CQP a posílá zpět výsledky vyhledávání.
Při práci s korpusem je možné používat bohatý dotazovací jazyk vycházející z regulárních výrazů, který umožňuje nejenom vyhledávat jednotlivá slova
a slovní spojení, ale samozřejmě také při hledání využívat lemmata a morfologické značky. Při další práci s konkordančními řádky je možné používat všechny běžné funkce, jako jsou například možnost jednotlivé řádky označit a dále s
nimi pracovat, třídit je, mazat, tisknout a ukládat na disk, dále lze také u každého konkordančního řádku zjistit zdrojový text. Velkou výhodou je možnost
takřka neomezeně rozšiřovat kontext vyhledaného slova nebo slovního spojení
a v neposlední řadě je třeba zmínit také statistické funkce GCQP – frekvenční
distribuci a výpočet nejčetnějších kolokací.
Program CQP byl v době svého vzniku bezesporu jedním z nejlepších
korpusových nástrojů, které byly k dispozici. Přestože většinou svých parametrů
stále ještě vyhovuje dnešním požadavkům, některá jeho omezení jsou takového
charakteru, že je nelze obejít ani pomocí nadstavby, jakou je například GCQP
nebo cqsd. Protože jsou navíc nejasnosti okolo dalšího vývoje CQP, nebylo by
z dlouhodobého hlediska vhodné se na něj vázat. Vytvoření zcela nového
korpusového nástroje se ujal Pavel Rychlý, autor GCQP. Tato nová aplikace,
používající opět architekturu klient/server a nazvaná Bonito/Manatee, by měla
v blízké budoucnosti nahradit celý současný systém, založený na CQP. Kromě
zrychlení vyhledávání by měla odstranit také některá omezení současného systému a umožnit tak zejména vytváření virtuálních korpusů a používání strukturních značek při vyhledávání, tj. vyhledávání pouze v textech, splňujících
určitá uživatelem zadaná kritéria.
4. Závěr
Další informace o dostupných korpusech a možnostech jejich využívání,
manuál ke GCQP, popis morfologických značek a jiné lze najít na adrese
http://ucnk.ff.cuni.cz, kde je možné vyzkoušet také veřejný přístup ke korpusu, ovšem s několika poměrně významnými omezeními. Lze totiž vyhledávat
jedině ve dvacetimiliónovém vyváženém korpusu PUBLIC (jde o menší obdobu
korpusu SYN2000), a to pouze jednotlivá slova (nikoli tedy slovní spojení),
dále nelze používat lemmata, morfologické značky ani statistické funkce, a konečně je omezen kontext i celkový počet zobrazených konkordančních řádků. V
146
ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE
případě vážnějšího zájmu tedy rozhodně doporučuji stát se naším registrovaným uživatelem a získat tak bezplatně plný přístup ke korpusu SYN2000
bez jakýchkoli omezení. Jedinou podmínkou k jeho získání je podepsání prohlášení o nekomerčním využití textů, kromě akademické obce tedy korpus
může plnohodnotně využívat i široká veřejnost.
Literatura
HAJIČ, Jan – HLADKÁ, Barbora. 1997. Probabilistic and Rule-Based Tagger of an Inflective
Language – a Comparison. In: Proceedings of the Fifth Conference on Applied Natural Language
Processing. Washington D. C.
HAJIČ, Jan – HLADKÁ, Barbora. 1998. Tagging Inflective Languages: Prediction of
Morphological Categories for a Rich, Structured Tagset. In: Proceedings of the Conference COLING
– ACL ’98. Montreal.
HLAVÁČOVÁ, Jaroslava. 1998. Technical Insight into Birth of a Corpus. In: P. Sojka – V. Matoušek – K. Pala – I. Kopeček (eds.), Proceedings of the First Workshop on Text, Speech and
Dialogue. Berlin: Springer, s. 55 – 60.
KOCEK, Jan – KOPŘIVOVÁ, Marie – KUČERA, Karel (eds.). 2000. Český národní korpus –
úvod a příručka uživatele. Praha: ÚČNK FF UK.
OLIVA, Karel – HNÁTKOVÁ, Milena – PETKEVIČ, Vladimír – KVĚTOŇ, Pavel. 2000. The
Linguistic Basis of a Rule-Based Tagger of Czech. In: P. Sojka – I. Kopeček – K. Pala (eds.), Proceedings
of the Third International Workshop on Text, Speech and Dialogue. Berlin: Springer, s. 3 – 8.
RYCHLÝ, Pavel. 2000. Korpusové manažery a jejich efektivní implementace. Brno: disertační
práce FI MU.
RYCHLÝ, Pavel. 2000. GCQP – Multiplatform Graphical User Interface to the CQP Corpus
Manager. In: Proceedings of the Ninth EURALEX International Congress. Stuttgart: Institut für
Maschinelle Sprachverarbeitung, s. 149 – 154.
147
INFORMÁCIE V TERMINOLOGICKÝCH
DATABÁZACH A ICH VYUŽÍVANIE PRI
PREKLADE ODBORNÝCH TEXTOV
Vlasta Křečková: Fakulta humanitných vied Univerzity Mateja
Bela, Banská Bystrica
Abstract: The basic unit of the terminological database is a terminological record, the structure of
which is formed by three kinds of information. The first group contains information of linguistic nature
related to the term: grammatical label, pronunciation, orthography, synonyms, abbreviations, context,
equivalents of the term in different languages etc. The second group is constituted by information of encyclopaedical character related to the concept: definition, graphic representation of the concept, subject
label etc. The third group includes „administrative“ information: term identifier, institution code, source
identifier documenting the terminological data, as well as documeting the source of particular pieces of
information etc. Different groups of users of terminological database make use of different terminological data, and that to a different extent. The analysis of the results of the translators’ terminological needs
survey organised in Slovakia in the second half of 2000 by the Section of Terminology and Lexicography of the Translators and Interpreters Union in cooperation with the participants of the research project VEGA No. 1/7296/20 presents information searched for by the scientific texts translators in the terminological dictionaries and databases.
1. Terminologická databáza a terminologický slovník
Terminologická databáza (TDB) má veľa spoločného s elektronickým terminologickým slovníkom, ale jej koncepcia a využitie sú rozdielne. Terminologická databáza predstavuje komplexný súbor informácií o termínoch z ľubovoľnej tematickej oblasti v jednom alebo vo viacerých jazykoch. Tento súbor je vytvorený a uložený na počítačových médiách vo forme terminologických záznamov, pričom jeden terminologický záznam zodpovedá jednému pojmu a je
spracovaný v jednom jazyku (Machová 1995). Tvorbu terminologických databáz umožňujú špeciálne počítačové programy a viaceré programy na počítačovú
podporu prekladu. Na rozdiel od „tradičných“ terminologických slovníkov
v elektronickej forme majú terminologické databázy mnohé výhody: aktualizácia údajov je veľmi jednoduchá; TDB môže poskytnúť používateľom oveľa viac
informácií ako terminologický slovník; TDB umožňuje identifikáciu všetkých
autorov terminologických záznamov a identifikáciu všetkých použitých zdrojov; z jednej terminologickej databázy je možné generovať rôzne typy termi148
INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV
nologických slovníkov publikovaných tlačou alebo na elektronických nosičoch
s rôznou štruktúrou hesiel podľa potrieb cieľovej skupiny používateľov. Prístup
k informáciám v terminologickej databáze je možný aj priamo z počítačovej
siete.
1.1 Tvorba terminologických databáz na Slovensku
Podľa výsledkov prieskumu terminologických aktivít na Slovensku a v Českej republike, ktorý spolu s prieskumom terminologických potrieb organizovala
v druhej polovici roka 2000 Sekcia terminológie a lexikografie Jednoty tlmočníkov a prekladateľov v spolupráci s riešiteľmi projektu VEGA č. 1/7296/20
Manažment terminologických údajov a možnosti jeho uplatnenia v oblastiach
poznania a praxe, existujú v súčasnosti na Slovensku viaceré terminologické
projekty. Ich výstupmi sú najmä tradičné knižné terminologické slovníky, terminologické slovníky v elektronickej forme, ale aj terminologické databázy.1
Vo Výskumnom ústave práce, sociálnych vecí a rodiny v Bratislave vznikla v rámci európskeho programu Consensus II (Phare) databáza termínov z oblasti sociálnej ochrany s názvom Glossary and Dictionary of Social Protection
Terms. Jedným z výstupov tejto TDB, ktorá je spracovaná v programe
TRADOS, je dvojjazyčný Terminologický slovník z oblasti sociálnej ochrany:
slovensko-anglický a anglicko-slovenský (European Commission, Consensus
Program, 2000), ktorý obsahuje 1100 hesiel a nasledujúce informácie: termín
vo východiskovom a v cieľovom jazyku, skratky, index, príklady a citácie, poznámky, definície. Ďalším výstupom projektu je viacjazyčný terminologický
slovník z oblasti sociálnej ochrany Glossary of Social Protection Terms English-Bulgarian--Macedonian-Romanian-Slovakian (European Commission,
Consensus Program, 2000).2
Terminológia vodohospodárstva a ochrany životného prostredia je obsiahnutá v TDB realizovanej inštitúciou CEIT Bratislava v databázovom počítačovom programe pre knižnice a terminológiu PROFLIB. Spracovaná terminoló1
KŘEČKOVÁ, Vlasta. 2001. Prieskum terminologických aktivít v SR (1. časť). ToP (tlumočení
– překlad), roč. XII, č. 56, s. 29/1447; KŘEČKOVÁ, Vlasta. 2001. Prieskum terminologických aktivít
v SR (2. časť). ToP (tlumočení – překlad), roč. XII, č. 58, s.10/1472 – 11/1473.
2
O projekte informoval v rámci Ankety o terminologických aktivitách v SR doc. PhDr. Rastislav
Bednárik, CSc. Autori projektu: VEGHTE, Benjamin – SCHMITZ, Klaus Dirk – BEDNÁRIK, Rastislav - BUJNOVSKÁ, Daniela – BRUCHÁČOVÁ, Zora – KRIŽKOVÁ, Elena – JAROŠOVÁ, Alexandra – ŠEBESTOVÁ, Anna.
149
VLASTA KŘEČKOVÁ
gia je publikovaná na CD disku, ktorý obsahuje terminológiu vodného hospodárstva (4 411 termínov s definíciami a obrázkami), vodohospodárske normy
a štvorjazyčný slovník termínov vodného hospodárstva a životného prostredia.3
Terminologická databáza, ktorá obsahuje terminológiu z oblasti knižničnej a informačnej vedy, vznikla na základe viacročného terminologického výskumu na Katedre knižničnej a informačnej vedy Filozofickej fakulty Univerzity Komenského v Bratislave. Pri jej tvorbe boli akceptované niektoré zásady
terminologickej práce obsiahnuté v norme STN ISO 10241 Medzinárodné terminologické normy – Tvorba a úprava. Na vytvorenie databázy bol použitý
databázový systém MS ACCESS. Východiskom pre tvorbu databázy bola jedna
z posledných počítačových verzií na katedre spracovaného terminologického a
výkladového slovníka Informačná výchova. Publikovaným výstupom TDB je
Terminologický slovník z knižničnej a informačnej vedy na CD disku.4 Všetky
spracované termíny sú systematicky zaradené do tematických oblastí podľa
čísla systematického triedenia. Štruktúra hesla (terminologického záznamu),
ktoré je spracované v slovenčine, je nasledujúca: poradové číslo terminologického záznamu, heslový termín v základnom tvare, ekvivalent termínu v angličtine, synonymum, skratka, neodporúčaný termín, systematické triedenie, definícia, autor záznamu, zdroj a poznámka, ktorá objasňuje použitie termínu, ak je
to potrebné. Elektronická podoba slovníka umožňuje rýchly prístup k termínom
niekoľkými spôsobmi. Termíny možno prezerať v základnom súbore v abecednom usporiadaní. Ďalej sú vytvorené registre: systematický (termíny sú
usporiadané podľa systematického triedenia do jednotlivých oblastí), abecedne
usporiadaný register anglických ekvivalentov termínov a autorský register. Zo
všetkých registrov sa dá pristúpiť priamo k celým terminologickým záznamom.
Najrýchlejším prístupom k termínom je vyhľadávanie podľa začiatočného
reťazca. Tento sa hľadá nielen v poli termín, ale aj v synonymách, neodporúčaných termínoch a v skratkách. Terminologická databáza sa v súčasnosti v rámci
projektu VEGA č. 1/7296 /20 ďalej aktualizuje a rozširuje o ďalšie príbuzné tematické oblasti a o ďalšie terminologické informácie.5
3
STANČÍKOVÁ, Pavla – ŠMIHLA, Marek. 2000. Multilingual Vocabulary of Water Terms
EN – SK – HU – RU (Viacjazyčný vodohospodársky slovník ang.-slov.-maď.-ruš.). Bratislava: CEIT.
4
KRIŠTOFIČOVÁ, Eva – JURČACKOVÁ, Zora – ONDRIŠOVÁ, Miriam. 1999. Terminologický slovník z knižničnej a informačnej vedy. Bratislava: Stimul.
5
Riešiteľmi projektu VEGA č. 1/7296/20 s názvom Manažment terminologických údajov
a možnosti jeho uplatnenia v oblastiach poznania a praxe sú Eva KRIŠTOFIČOVÁ, Zora JURČACKOVÁ, Miriam ONDRIŠOVÁ a Vlasta KŘEČKOVÁ.
150
INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV
2. Informácie v terminologickom zázname
Za základnú jednotku terminologickej databázy sa považuje terminologický záznam. Jeden terminologický záznam sa vzťahuje na jeden pojem a jeho
pomenovanie (termín) a je vytvorený v jednom jazyku. Ak má jeden termín
viac významov v jednom odbore, resp. v jednej tematickej oblasti, každý pojem
( ~ význam) je spracovaný na osobitnom zázname. Štruktúru terminologického
záznamu tvoria tri základné skupiny informácií (Jurčacková 1999, Gouadec
1990). Do prvej skupiny patria informácie jazykového charakteru, ktoré sa
vzťahujú na termín: termín (termíny) v základnej forme (synonymá, varianty
termínu, skrátené alebo úplné formy termínu, symboly, inojazyčné ekvivalenty
termínu), gramatické informácie, miera akceptovateľnosti termínu, kolokácie,
antonymá, kontext, odvodené termíny a pod. Druhú skupinu tvoria informácie
encyklopedického charakteru vzťahujúce sa na pojem: definícia, grafické reprezentácie pojmu, identifikátory tematickej oblasti, hyponymá, hyperonymá, encyklopedická poznámka a pod. Do tretej skupiny patria „administratívne“ informácie: identifikátor termínu, symbol jazyka, dátum vytvorenia terminologického záznamu, identifikátor tvorcu záznamu, kód inštitúcie, informácie o zdrojoch, z
ktorých pochádzajú termíny, ale aj o zdrojoch, z ktorých pochádzajú jednotlivé
informácie, identifikátor overovateľa správnosti a spoľahlivosti terminologického záznamu atď.
2.1 Informácie jazykového charakteru
Základnou jazykovou informáciou v terminologickom zázname je heslový
termín, ktorý sa uvádza vo svojej základnej gramatickej forme. Heslový termín
býva zvyčajne dokumentovaný kontextom, v ktorom sa vyskytol. Kontext poukazuje na existenciu termínu a zároveň termín vysvetľuje (objasňuje). Zohráva
významnú úlohu aj pri formulovaní definície termínu. V štruktúre terminologického záznamu sa k heslovému termínu vzťahujú všetky uvádzané informácie jazykového a encyklopedického charakteru.
Pokiaľ ide o informácie jazykového charakteru, sú to v prvom rade
gramatické informácie, ktoré sú rôzne podľa charakteru jednotlivých jazykov.
V slovenčine sa zvyčajne uvádza informácia o slovnom druhu. Z menných charakteristík sa uvádza najmä informácia o rode a čísle, prípadne zvláštnosti týkajúce sa deklinácie. Gramatické informácie využívajú nielen prekladatelia odborných textov, ale aj používatelia databázy, ktorých cieľom je písanie odbor151
VLASTA KŘEČKOVÁ
ných prác v materinskom alebo aj v cudzom jazyku. Nezanedbateľnou jazykovou informáciou sú informácie o variantoch termínu: zemepisné varianty (pri
termínoch vo svetových jazykoch, ako sú angličtina, španielčina, francúzština a
pod.; pravopisné varianty alebo morfologické a syntaktické varianty). Ak je výslovnosť termínu netypická, je vhodné uvádzať aj informáciu o výslovnosti,
ktorú uvítajú najmä tlmočníci.
Pri preklade odborných textov sa javí ako veľmi dôležitá informácia o
kolokáciách termínu, čiže o spojeniach, v ktorých sa termín v textoch najčastejšie vyskytuje. Nedostatočná znalosť kolokácií znižuje vo veľkej miere kvalitu
prekladu. Vyhľadávanie kolokácií je náročnou činnosťou, ale v súčasnosti ju
uľahčujú počítačové programy na textovú analýzu a programy na preklad podporovaný počítačom. Užitočná môže byť informácia o odvodených termínoch a
o synonymách. Medzi synonymiou vo všeobecnej slovnej zásobe a v terminológii je základný rozdiel. V terminológii sa považujú za synonymá len tie termíny, ktoré pomenúvajú ten istý pojem. Aj keď je synonymia v terminológii
javom nežiaducim, v praxi sa s ňou prekladatelia často stretávajú, najmä pokiaľ
ide o nové termíny. Preto je vhodné v terminologickom zázname uvádzať informáciu o spisovnosti, resp. „akceptovateľnosti“ termínu (termín spisovný, nespisovný, odporúčaný, neodporúčaný, zastaraný a pod.) a pokiaľ ide o tzv.
„čiastočné“ synonymá, špecifikovať oblasť a spôsob ich použitia. Zaujímavá
môže byť pre prekladateľov informácia o jazykovej štruktúre termínu.
Cennými informáciami sú informácie o skrátených alebo úplných formách
termínu a o inojazyčných ekvivalentoch. Pre kvalitu odborného prekladu je
žiaduce, aby boli inojazyčné ekvivalenty doplnené explicitným vyjadrením
miery ich ekvivalencie najmä vtedy, ak sa neuvádza pôvodná inojazyčná definícia. Ekvivalencia termínov sa realizuje na základe ekvivalencie pojmov, ktoré
sú v jednojazyčných terminologických záznamoch vyjadrené definíciou. Medzi
pojmom termínu v jazyku A a pojmom ekvivalentného termínu v jazyku B
môžu nastať tri základné typy vzťahov. Ekvivalencia pojmov, a teda i termínov,
môže byť úplná alebo čiastočná. Na čiastočnú ekvivalenciu je potrebné vo viacjazyčných terminologických súboroch upozorniť. Avšak môže nastať i situácia,
že pojem pomenovaný v jednom jazyku nemá v druhom jazyku žiadne pomenovanie. V takom prípade môže terminológ utvoriť (navrhnúť) termín pomenúvajúci pojem v tom jazyku, v ktorom termín chýba, avšak je potrebné používateľov terminologickej databázy na tento fakt upozorniť.
Jazykové zvláštnosti termínu, ktoré nemohli byť uvedené v rámci žiadnej
zvolenej jazykovej charakteristiky, bývajú uvádzané v jazykovej poznámke.
152
INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV
2.2 Informácie encyklopedického charakteru
V štruktúre terminologického záznamu je základnou encyklopedickou
informáciou definícia. Definícia vyjadruje jazykovými prostriedkami znaky,
ktorými je vymedzený príslušný pojem, ako aj jeho miesto v sústave pojmov
tematickej oblasti. Je dôležité, aby sa opis pojmu realizoval pomocou
známych pojmov a známych jazykových prostriedkov. Východiskom definície
je logické spektrum pojmu. Podľa medzinárodnej normy ISO 704 je pre terminologickú prácu najvhodnejšia tzv. klasická definícia (obsahová, intenzionálna: genus proximum + differentiam specificam alebo enumeratívna definícia (rozsahová, extenzionálna). Veľká opisnosť pri formulovaní terminologickej definície, definovanie vzorcom, číselným údajom, prípadne synonymom, kruhové definície alebo tautologické definície sa nejavia byť vhodnými
definíciami pre terminologickú prax. Okrem jazykového vyjadrenia pojmu
definíciou môže byť pojem v terminologickom zázname vyjadrený ikonickou
(nejazykovou) jednotkou, ktorá vyjadruje predstavu ľudí o reálnom objekte
(obrázok, vzorec, graf). Ilustrácia pojmu by však nemala nahrádzať definíciu
vyjadrenú jazykovými prostriedkami.
Ďalšie informácie dôležité pre opis pojmu, ktoré neumožňuje vyjadriť
štruktúra definície, sa zvyčajne uvádzajú v encyklopedickej (technickej) poznámke. Medzi informácie vzťahujúce sa na pojem patrí informácia o tematickej oblasti, do ktorej termín patrí. Informácie o antonymách, hyponymách
alebo hyperonymách umožnia prekladateľovi správne situovať termín v
štruktúre pojmov danej tematickej oblasti.
2.3 Administratívne informácie
Základnými administratívnymi údajmi sú číslo terminologického záznamu, dátum tvorby terminologického záznamu a meno alebo kód autora
(autorov) terminologického záznamu. V prípade potreby môžu byť tieto informácie doplnené kódom spoľahlivosti terminologického záznamu, bibliografickými údajmi o zdrojoch všetkých informácií uvedených v terminologickom zázname, informáciou o kontrole a potvrdení správnosti údajov v terminologickom zázname odborníkom, názvom inštitúcie, na ktorej bol terminologický záznam vypracovaný, prípadne i menami sponzorov, ktorí podporili tvorbu terminologickej databázy.
153
VLASTA KŘEČKOVÁ
3. Anketa o využívaní informácií v terminologických databázach a v terminologických slovníkoch pri preklade odborných textov
Rôzne skupiny používateľov terminologickej databázy využívajú v rôznej
miere jednotlivé terminologické informácie. Analýza výsledkov prieskumu terminologických potrieb prekladateľov, ktorý bol realizovaný na Slovensku v
rámci Jednoty tlmočníkov a prekladateľov, uvádza informácie, ktoré hľadajú v
terminologických slovníkoch a databázach prekladatelia odborných textov.
Okrem termínov vo východiskovom a v cieľovom jazyku sú to najmä definície
termínov, pričom pri dvojjazyčných alebo viacjazyčných terminologických
súboroch sú žiaduce pôvodné definície v každom zo zastúpených jazykov. Na
druhom mieste prekladatelia vyhľadávajú informácie o kolokáciách termínu a o
synonymách. Väčšina prekladateľov dáva prednosť terminologickým slovníkom a databázam, v ktorých nájde informáciu o tematickej oblasti, do ktorej
termín patrí, a informáciu o používaní terminologických skratiek. Prekladateľov zaujímajú aj gramatické informácie a informácie o spisovnosti termínu.
Výsledky uskutočneného prieskumu ukazujú, že len málo prekladateľov sa zaujíma o to, z akých zdrojov pochádzajú jednotlivé termíny, prípadne z akých
zdrojov pochádzajú jednotlivé informácie. Menej sú vyhľadávané informácie o
výslovnosti termínu, o pôvode termínu, o antonymách, hyponymách a hyperonymách. Veľmi málo prekladateľov hľadá v terminologickom slovníku grafické
reprezentácie pojmov, jazykové a encyklopedické poznámky, kontexty a informáciu o miere ekvivalencie inojazyčných termínov.6
V súvislosti s preberaním technických a iných noriem a ich prispôsobovaním európskym alebo svetovým normám, ako i v súvislosti s aproximáciou
práva právu krajín Európskej únie a vzhľadom na stále intenzívnejšie kontakty
slovenských inštitúcií a podnikov so zahraničím sa zvyšujú nároky na kvalitu
prekladov odborných textov. Kvalitné pomôcky (terminologické slovníky alebo
terminologické databázy) môžu v mnohom uľahčiť prekladateľom odborných
textov ich náročnú a zodpovednú prácu.
Tvorba veľkých terminologických databáz je činnosťou náročnou na
materiálne a ľudské zdroje a vyžaduje si spoluprácu odborníkov z jednotlivých
tematických oblastí s odborníkmi terminológmi a informatikmi. Možnosti využitia kvalitných terminologických databáz sú však veľké. Okrem odborného
6
KŘEČKOVÁ, Vlasta – DOVČIAKOVÁ, Anna. 2001. Analýza terminologických potrieb prekladateľov na Slovensku. ToP (tlumočení – překlad), roč. XII, č. 59, s. 12/1510 – 13/1511.
154
INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV
prekladu zohrávajú terminologické databázy dôležitú úlohu pri normalizácii
termínov, v dokumentácii, pri organizácii poznania. Viacjazyčná terminologická databáza je dôležitým nástrojom úspešnej komunikácie v rozvinutej viacjazyčnej informačnej spoločnosti.
Literatúra
BESSÉ, Bruno (de). 1992. Cours de terminologie. Genève: ETI Université de Genève.
CABRÉ, Maria Teresa. 1998. La terminologie. Théorie, méthode et applications. Paris –
Ottawa: Armand Colin – Les Presses de l´Université d´Ottawa.
GOUADEC, Daniel. 1990. Terminologie. Constitution des données. Paris: Afnor Gestion.
GOUADEC, Daniel. 1997. Terminologie et Phraséologie pour Traduire. Paris: La Maison du
Dictionnaire.
JURČACKOVÁ, Zora. 1999. Viacnásobné využitie terminologických údajov. In: Zborník
Filozofickej fakulty Univerzity Komenského. Knižničná a informačná veda, roč. XVIII. Bratislava:
Univerzita Komenského.
MACHOVÁ, Svatava. 1995. Terminografie. In: František Čermák – Renata Blatná (eds.). 1995,
Manuál lexikografie. Nakladatelství H&H, s. 137 – 157.
MASÁR, Ivan. 1991. Príručka slovenskej terminológie. Bratislava: Veda SAV.
Medzinárodné terminologické normy. Tvorba a úprava. STN ISO 102 41, január 2000.
Principes et méthodes de la terminologie. ISO 704, 1997 (F).
155
PROJEKT SLOVNÍKA ŠTÚROVSKEJ
SLOVENČINY A JEHO POČÍTAČOVÁ
PODPORA
Ľubomír Kralčák: Katedra slovenského jazyka, Filozofická fakulta Univerzity Konštantína Filozofa, Nitra
Abstract: The specificity of the dictionary of the Slovak language from the Štúr period lies in the fact
that it is a historical dictionary whose lexical basis is defined by the texts originated in a relatively exactly confined period, i.e. more or less in the first half of the nineteenth century. The conception of the
project requires that the following problems are considered: the specification of the Štúr Slovak texts
canon (for example, the question whether only the printed texts or also unpublished manuscripts will be
included), then to what extent new words occurring in the work of only one author and displaying signs
of being occasional words (which means that they have not occurred in any other periods of the existence of the Standard Slovak) can be included in the database, how to include the tautonyms (dialectical
synonyms) reflecting a momentary state of the emerging Štúr Slovak, how to assess the words which, in
spite of their occurrence in some texts, were linguistically refused by the contemporary criticism as inappropriate or un-Slovak, as well as some other specific problems.
In the lexicographic work at this dictionary we expect to make a significant use of computer technology.
The building of an electronic corpus of texts has already begun. So far the corpus has reached approximately half a million of verbal forms, although our aim is to reach the final size of 15 million verbal
forms. As a significant contribution of the computer technology can be considered, among other things,
also the fact that - having in mind the possibility of a relatively exact specification of the Štúr Slovak
text inventory - within individual entries it will be possible to give a frequency index of the word as
well. This would solve the problem of the occasional words, that is neologisms with low frequency rate.
Je celkom prirodzené a samozrejmé, že lexikografia a informatika našli
veľmi rýchlo spoločnú oblasť záujmu. Preto sa dnes stáva takmer nemysliteľné
uvažovať o tvorbe akéhokoľvek slovníka bez využitia počítačovej technológie.
Takéto využite sa dnes stáva bežnou praxou i v slovenskej lexikografii a uplatnilo sa pri zostavovaní Historického slovníka slovenského jazyka, Slovníka
slovenských nárečí, Krátkeho slovníka slovenského jazyka, Synonymického
slovníka slovenčiny i slovníkovej časti Pravidiel slovenského pravopisu. V niektorých prípadoch išlo, ako je známe, o konvertovanie tzv. papierovej podoby
ručne spracovaných lexikografických údajov na elektronickú lexikálnu databázu (porov. napr. Benko 1992, Jarošová 1997). Posledné tri menované slovníky
má možnosť využívať široká verejnosť aj v elektronickej podobe ako tzv. počítačové slovníky na kompaktnom disku.
156
PROJEKT SLOVNÍKA ŠTÚROVSKEJ SLOVENČINY A JEHO POČÍTAČOVÁ PODPORA
Ak sa dnes pozrieme na celé dlhé obdobie fungovania slovenčiny ako
spisovného alebo aspoň písaného (literárneho) jazyka, zreteľne sa ukazuje, že
lexikograficky je najskromnejšie spracované obdobie štúrovskej spisovnej
slovenčiny. Slovník štúrovskej slovenčiny (SŠS) je dávnejšie zamýšľaný projekt
na nitrianskej Katedre slovenského jazyka. Pôvodné predstavy sa však predtým
nepremietli do konkrétnej realizácie, neboli začaté práce na zhromažďovaní
jazykového materiálu, ba nebol načrtnutý ani špecifikovanejší postup či rozsah
lexikografických prác. V súčasnosti tu však projekt slovníka nadobúda zreteľnejšie kontúry, pričom podstatný vplyv na jeho oživenie malo to, že sa vyskytli
nové možnosti, ktoré ponúka využitie počítačovej podpory pri zbieraní a lexikografickom štruktúrovaní jazykového materiálu.
Projekt SŠS predpokladá tri okruhy prác: zhromažďovanie jazykového
materiálu, lexikografická analýza textov a vytvorenie lexikálnej bázy dát.
l. Zhromažďovanie jazykového materiálu
Táto etapa lexikografickej práce má dva aspekty: lingvistický a informatický. Lingvistická stránka zahŕňa v prípade SŠS potrebu riešenia otázok periodizácie štúrovskej slovenčiny a vymedzenia pramennej základne slovníka.
Informatická stránka sa týka predovšetkým problematiky elektronického zápisu
textov.
1.1 Problém periodizácie štúrovskej slovenčiny a vymedzenia pramennej
základne
1.1.1 Vertikálne vymedzenie inventára textov (periodizácia)
Pri skúmaní vývinového úseku v dejinách slovenčiny, ktorý sa všeobecne
nazýva štúrovská slovenčina, sa ukazuje ako jeden zo základných problémov
presnejšie časové ohraničenie tohto úseku. Časové ohraničenie potom, samozrejme, rozhoduje o rozsahu textového materiálu zahrnutého pod takéto periodické vymedzenie. Z tohto hľadiska však vzniká aj ďalší problém, a to časový
nesúlad pri vymedzovaní pojmov štúrovské obdobie a štúrovská slovenčina.
Štúrovské obdobie vymedzuje E. Pauliny (1983, s. 175), a to v lingvistickom
zmysle slova tridsiatymi a štyridsiatymi rokmi minulého storočia. Za spodnú
hranicu pokladá rok 1834, resp. 1835, keď sa objavili prvé básne písané zámerne strednou slovenčinou (Chalupka 1834, Kuzmány 1835). Hornú hranicu pod157
ĽUBOMÍR KRALČÁK
ľa neho udáva rok 1852, keď vyšla Hattalova Krátka mluvnica slovenská. Naproti tomu napr. J. Furdík (1971, s. 23) ohraničuje štúrovské obdobie štúrovskou kodifikáciou – podľa neho rok 1843 (ako spodná hranica) – a koncom
päťdesiatych rokov, t. j. do r. 1860.
Uvedené vymedzenia štúrovského obdobia sa teda rozchádzajú v stanovení hornej i dolnej hranice, pričom sa pracuje aj s takým výrazným periodizačným pojmom, akým je kodifikácia. Lingvistické vymedzenie štúrovského obdobia bude teda iné z hľadiska kodifikácie a iné z hľadiska výskytu textov písaných v štúrovskej (resp. strednej) slovenčine. Naše riešenie vertikálneho vymedzenia pramennej základne smeruje k maximalizácii, teda k vyčleneniu čo najširšieho inventára textov, aby sa nestratili niektoré vzácne jazykové prostriedky.
To predpokladá posunúť predovšetkým dolnú časovú hranicu pred kodifikáciu
štúrovskej slovenčiny.
1.1.2 Horizontálne vymedzenie inventára textov
Pokiaľ ide o vymedzenie šírky pramennej základne, ani tu, ako sa ukazuje
v predbežných diskusiách, sotva nastane všeobecná zhoda. Ak by aj bola zhoda
v periodizačnom ohraničení štúrovčiny, zostáva zatiaľ nevyjasnená otázka, či
do korpusu textov zaradiť aj rukopisné štúrovské texty, teda aj texty nepublikované. Vzhľadom na prirodzený dokumentačný charakter zamýšľaného
slovníka predpokladáme do korpusu zaradiť aj niektoré významnejšie rukopisné pamiatky, napr. texty levočských štúrovcov.
1.2 Informatický aspekt (tvorba korpusu)
Informatickú stránku zhromažďovania jazykového materiálu predstavuje
proces, ktorý možno charakterizovať ako vytváranie textového korpusu štúrovskej slovenčiny. Ide o kroky, ktoré sme už začali realizovať. Z dvoch možností
prepisovania textov do elektronickej podoby, a to pomocou textového editora
alebo pomocou optického snímača znakov, sme zvolili prvý postup, pretože
optické snímanie strácalo svoju efektivitu pre množstvo chýb, ktoré vznikali
najmä v dôsledku menej kvalitnej tlače spracovávaného materiálu. Doteraz vytvorený elektronický korpus textov má zatiaľ rozsah približne pol milióna
slovných tvarov, pričom náš plán je vytvorenie cieľového korpusu v rozsahu
najmenej 15 miliónov slovných tvarov s takýmto členením textov:
I.
umelecký štýl
158
PROJEKT SLOVNÍKA ŠTÚROVSKEJ SLOVENČINY A JEHO POČÍTAČOVÁ PODPORA
II.
III.
publicistický štýl
odborný štýl.
Tieto tri sféry predstavujú reálne funkčnoštýlové rozpätie štúrovskej
spisovnej slovenčiny. Oproti stavu v dnešnej slovenčine je tu zreteľná najmä
absencia administratívnej a právnej lexiky.
2. Lexikografická analýza
V rámci lingvistického prístupu k zostavovaniu SŠS je potrebné riešiť
viaceré špecifické lexikografické problémy:
Do rámca špecifickej diskusie zatiaľ patrí otázka, či súčastou lexikálnej
bázy slovníka majú byť aj také novotvary, ktoré vykazujú znaky okazionálnych
jazykových prostriedkov. Ide nielen o slová s neprehľadnou slovotvornou
štruktúrou, resp. s nejasným významom, ale aj o nové slová, ktoré sa objavia
iba raz alebo iba u jedného autora. V tejto súvislosti ide predovšetkým o niektoré texty M. M. Hodžu (porov. napr. Větín o slovenčine, Dobruo slovo Slovákom
súcim na slovo). Na ilustráciu možno uviesť napr. slová ako majeť (majetok),
osobňivec (sebec), ťäžkulavať si (ponosovať sa), živoch (živočích) a pod.
Sem patrí aj pokus M. Godru (porov. 1851, s. 95 – 103, 115 – 121) o zavedenie novej slovenskej odbornej terminológie z oblasti logiky, geometrie,
matematiky a techniky, ale aj pomenovania z oblasti všeobecných abstraktných
pojmov. Z týchto navrhnutých termínov (spolu okolo 700 odborných výrazov)
sa v neskoršom vývine ujal iba zlomok, no Godrov „slovníček“ je pozoruhodný
najmä preto, že sa v ňom nahrádzajú cudzie, zväčša latinské, ale aj české odborné termíny slovenskými novotvarmi (napr. rozväzba „analýza“, odlusk „odbor“, odsamnina „unikát“ a pod.).
Ďalšou špecifickou otázkou je výskyt tautoným. Ľ. Štúr pripúšťal obohacovanie lexikálneho fondu spisovnej slovenčiny z viacerých slovenských nárečí,
preto sa napr. v Slovenských národných novinách objavujú nárečové synonymá
ako zemjaki, švábka, krumple.
Iným špecifickým problémom je kritika jazykovej kultúry niektorých textov, ktorá odmieta už použité výrazy ako nesprávne, napr. Štúrova recenzia
spisu S. Vozára Hlas od Tatjer (porov. Štúr, 1851, s. 182 – 185). Ľ. Štúr ostro
odmieta v tomto spise použité cudzie slová ako napr. princíp (namiesto neho
navrhuje už prijaté slovo zásada), charakter (navrhuje ráz), organizácia (odporúča ustrojenosť, ústrojnosť) a pod.
159
ĽUBOMÍR KRALČÁK
Informatická stránka tejto etapy spracovania jazykového materiálu predpokladá využitie softvéru na vytvorenie kódovanej podoby korpusu textov. V
rámci nášho projektu sme zatiaľ skúšobne použili program WordCruncher. Za
významný prínos počítačovej podpory pokladáme napr. aj to, že vzhľadom na
možnosť pomerne presného vymedzenia inventára textov štúrovskej slovenčiny
(počet a rozsah textov dovoľuje ich takmer úplné elektronické spracovanie)
bude možné v hesle uvádzať aj index frekvencie slova, čím by sa vyriešila napr.
otázka okazionalizmov, resp. málo frekventovaných novotvarov.
3. Vytvorenie lexikálnej bázy dát
Táto etapa predstavuje elektronické kódovanie informačných kategórií pri
súčasnom uplatnení štandardnej lexikografickej analýzy. Na budovanie jednotlivých hesiel bude potrebné použiť aj taký špecifický počítačový program, ktorý
bude umožňovať vstup do databázy cez viaceré parametre hesla, teda napr. cez
gramatickú charakteristiku, štylistický kvalifikátor a pod., a zároveň bude
slúžiť na výrazné zefektívnenie prípravy slovníka do tlače. Pri použití tohto
programu predpokladáme nevyhnutnú spoluprácu s inými pracoviskami –
predovšetkým s Laboratóriom počítačovej lingvistiky Pedagogickej fakulty UK,
ale aj s Jazykovedným ústavom Ľ. Štúra SAV.
Literatúra
BENKO, Vladimír. 1992. (Neskorá) počítačová podpora lexikografického projektu: Slovník
slovenských nárečí. In: Zápisník slovenského jazykovedca, roč.11, s. 25 – 26.
FURDÍK, Juraj. 1971. Zo slovotvorného vývoja slovenčiny. In: Acta Facultatis Philosophicae
Universitatis Šafarikanae Prešovensis. Spoločenský zošit 7. Bratislava: SPN.
GODRA, Michal. 1851. Príňesok ku vedecko-slovenskjemu názvoslovú. Slovenskje Pohladi,
roč. II, č. 3, s. 95 –103 a č. 4, s. 115 – 121.
JAROŠOVÁ, Alexandra. 1997. Lexikografia a počítače – slovenský variant. In: S. Ondrejovič
(ed.), Slovenčina na konci 20. storočia, jej normy a perspektívy. Sociolinguistica Slovaca 3.
Bratislava: Veda, s. 304 – 311.
PAULINY, Eugen. 1983. Dejiny spisovnej slovenčiny od začiatkov po súčasnosť. Bratislava:
SPN.
ŠTÚR, Ľudovít. 1851. Úvahy o spise Hlas od Taťjer. Slovenskje Pohladi, roč. I., č. 5, s. 182 –
185.
160
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE
Karel Pala: Katedra informačních technologií, Fakulta informatiky
Masarykovy university, Brno ([email protected])
Abstract: In the contribution we describe a framework in which we plan to build a representative
Czech lexical database (CLD) that could serve as a base for the new representative Czech dictionary. It
should be also used as a resource for the partial knowledge representation in various NLP applications.
Within CLD the following basic units have to be considered: single lemmata: dům (house) as well as
standard collocations like vysoká škola (university). The assumed size of CLD is approximately 60 000
entries and 105 000 meanings, We intend to pay a special attention to the verbs that should represent
about one third of all entries.
1. Úvod
Cílem příspěvku je představit koncepci české lexikální databáze (CLD),
z níž by v blízké budoucnosti mohl a měl vzejít i nový reprezentativní slovník
současné češtiny. Danou koncepci chápeme jako východisko pro budování reprezentativní CLD, která by měla sloužit jako zdroj lexikální informace pro češtinu
a také jako dílčí reprezentace znalostí v různých aplikacích v oblasti počítačového zpracování přirozeného jazyka (dále NLP) (Ingria, Boguraev, Pustejovsky,
1992).
Základními jednotkami v CLD mohou být buď jednotlivá lemmata jako
dům, nebo standardní kolokace jako např. vysoká škola (=univers/zita). Předpokládaný rozsah navrhované CLD je přibližně 50 000 hesel. Na prvním místě
bychom se rádi maximálně soustředili na česká slovesa, tj. předpokládáme, že
počet zpracovávaných sloves by se měl pohybovat kolem 20 000 (podle našeho
odhadu je v češtině asi 40 000 sloves). Orientace na slovesa vychází z faktu,
že slovesa reprezentují v přirozených jazycích hlavní relační prvky, které na
sebe vážou ostatní prvky, většinou substantiva.
I když jsme si vědomi toho, že víceúčelové, plně univerzální slovníky jsou
do značné míry problematické, rádi bychom se pokusili o budování databáze,
která by obsahovala co nejvíce dostupných údajů o současné češtině.
2. Výchozí struktura CLD
161
KAREL PALA
Lze ji popsat pomocí vhodného datového typu, tj. DTD, který bude na základě dosavadních zkušeností definován v XML (k tomu např. Pala – Pavelek
2001) a tvořen následujícími poli (fields, viz např. Faber – Usón 1999):
a1) <fonologická (fonetická) informace> o zvukové struktuře výrazů konstituujících dané heslo. To ve skutečnosti znamená, že budeme usilovat o vybudování (paralelní) řečové databáze pro češtinu, která bude představovat soubor
dat vhodných pro tvorbu algoritmů schopných zpracovávat řečové signály, tj.
např. algoritmů pro syntézu a rozpoznávání řeči, včetně rozpoznávání a verifikaci mluvčích. Data v řečové databázi lze vhodně napojit na ostatní data v lexikální databázi. V tomto směru bude třeba vyřešit některé zajímavé problémy:
konkrétně, jednotlivé slovní tvary se budou muset generovat modulem pro řečovou syntézu, protože je prakticky nemožné charakterizovat všechny tvary všech
slov v lexikální databázi – v češtině existuje přibližně 5,5 milionů slovních tvarů.
a2) <morfologická informace> o struktuře hesla (heslového slova) – představuje informaci o slovním druhu a všech příslušných gramatických kategoriích s ním spojených plus údaje o základní segmentaci. U substantiv to lze zajistit
uvedením <kódu příslušného ohýbacího vzoru/paradigmatu>, protože počítáme
s tím, že morfologický analyzátor/generátor AJKA bude integrován do CLD
(Sedláček 1999) tak, že poskytne morfologickou informaci dynamicky na požádání. U sloves to standardně zahrnuje 8 kategorií (atributů): <negaci>,
<osobu>, <číslo>, <čas>, <způsob>, <rod slovesný, diatezi>, <vid> a <rod
jmenný>. Jejich hodnoty lze získávat dynamicky skrze <kód příslušného časovacího vzoru slovesa>. Je patrné, že tuto informaci bude možno z morfologického analyzátoru/generátoru získávat podobným způsobem jako u substantiv.
V samostatném podpoli lze mít i relevantní informaci slovotvornou, která zachytí relevantní a formálně zachytitelné vazby/vztahy mezi příslušnými heslovými slovy včetně zachycení jejich sémantické povahy, vztahů mezi slovními
druhy a vztahů slovotvorných (včetně směru fundace) jako např. řetězce typu:
práce pracovat, tj. v konečném úhrnu celé slovotvorné čeledi. Plyne z toho
potřeba co možná formálně formulovat slovotvorná pravidla (viz níže např.
Klímová – Pala, 2000). Lze tu vyjít z dřívějších popisů slovotvorných procesů
(Dokulil 1962), je však potřeba doplnit je a modifikovat tak, aby byly použitelné pro reprezentaci znalostí.
a3) <senses1...n>, kde pro každý z významů bychom rádi uvedli následující údaje:
162
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE
a3.1) <sémantické rysy> jež lze přiřadit heslovému slovu – nabízí se možnost použít hierarchický soubor sémantických rysů založený např. na vrcholové
ontologii (Top Ontology) vyvinuté v rámci projektu EuroWordNet a
hypero/hyponymických (H/H) hierarchických strukturách (stromech či grafech)
nebo jejich částech (podstromech nebo shlucích) (Vossen 1999). Je třeba zvážit
a rozhodnout, jak velké části stromů či podstromů lze použít – podle našeho
odhadu lze počítat, že rozumný počet použitých uzlů se může pohybovat kolem
5,
a3.2) <popisy využívající definice typu genus proximum (hypero/hyponymické vztahy mezi dvěma nejbližšími uzly v H/H stromech)> a <rozlišovatele
(differentia specifica)> se uvedou ve všech substantivních heslech, u nichž to
dává dobrý smysl. V dosavadních slovnících představuje informace o genu
proximum první část slovníkové definice. Rozlišovatele představují jistý problém: je velmi obtížné je uchopit formálně. Lze to doložit faktem, že jednotlivé
slovníky se mezi sebou nejvíce liší právě v tom, jak uvádějí rozlišovatele – existuje jen částečná shoda v tom, které rozlišovatele by měly nebo neměly být vybrány a začleněny v jednotlivých heslech.
a3.3) <sémantické třídy> – u sloves se definice typu genus proximum dají
použít jen pro jejich určitou část, proto u nich navrhujeme uvádět informaci
o sémantické třídě, do níž dané sloveso patří. V tomto ohledu připravujeme sémantickou klasifikaci českých sloves podobnou té, kterou pro angličtinu navrhla Levinová (Levin 1995). Je ovšem třeba vzít v úvahu, že v češtině je vybudování takové sémantické klasifikace spojeno s některými komplikacemi způsobenými primárně existencí kategorie vidu (díky níž se česká slovesa vyskytují ve
dvojicích. Na druhé straně je ovšem vidět, že sémantické třídy sloves mají těsný
vztah k valenčním rámcům sloves (a slovesným rámcům obecně). Tyto vztahy
bychom chtěli v databázi rovněž zachytit.
a3.4) <synonymické řady>, které lze najít pro dané heslo (lexikální
jednotku, lemma). Důvod pro použití synonymických řad (synsets) plyne ze
skutečnosti, že vztah synonymie (a antonymie) může sloužit jako jeden z mála
relativně spolehlivých způsobů, jimiž lze charakterizovat význam lexikálních
jednotek. Proto se s nimi běžně pracuje ve standardních slovnících.
a4) <syntaktická informace> o kombinatorických vlastnostech hesla a výrazech, které se s ním pojí. Je zřejmé, že syntaktické vlastnosti dané lexikální
jednotky úzce souvisí s jejím konkrétním významem a odlišují je od ostatních
významů. Informace uvedená v tomto poli bude zachycena prostřednictvím
<valenčních rámců> pro všechny slovní druhy, u nichž to má smysl, tj. u
163
KAREL PALA
sloves, substantiv, adjektiv, číslovek a některých adverbií. Je evidentní, že v
tomto ohledu musíme rozlišit formálně syntaktické (povrchové) valenční rámce, jež v češtině zahrnují kombinatorickou informaci o sedmi (šesti) morfologických pádech, případně informaci další, a hloubkové (sémantické) valenční
rámce obsahující potřebné údaje o sémantických pádech (rolích), které jsou vyjadřovány povrchovými pády. Příklad notace propojující syntaktické a sémantické valence je uveden níže, je však třeba pokládat ji za předběžnou, dokud
nebude stanoven finální inventář hloubkových pádů pro češtinu (viz např. Sgall
et al.1986, též Fillmore – Atkins 1998, s. 417 – 423, ).
To ale není všechno, podle našeho názoru bude užitečné začlenit do valenčních rámců i vhodné konkrétní lexikální údaje. Pro aplikace v oblasti NLP
nestačí znát jen odpovídající hodnoty morfologických (povrchových) pádů, ale
i jejich lexikální „obsazení“, což lze doložit např. relevantním rozdílem mezi
dvěma akuzativy v držet v ruce knihu a držet tvar. Dá se argumentovat, že sémantické valence by měly zachytit tyto významové diference, nezachycují ovšem přímo, jaké lexikální obsazení se skrývá za jednotlivými sémantickými
pády. Tento druh informace může být velmi užitečný pro praktické aplikace a z
tohoto důvodu pokládáme za výhodné mít je v CLD v explicitní podobě.
a5) <lokální kontexty>, tj. kontexty typické pro dané heslo, např. hezká
dívka nebo šikovný chlapec apod., jak patrno, lze je získat z korpusu,
a6) <příklady nebo typická užití>, např. držet nůž v ruce, otočit hlavu,
obrátit stránku, rovněž je můžeme získat z korpusových textů,
a7) <kolokace> doplněné o vhodnou subklasifikaci beroucí v úvahu jejich
sémantické i syntaktické vlastnosti. Např. je vidět, že slovesné kolokace by
měly být klasifikovány ve shodě s již zmíněnými sémantickými třídami sloves.
Podobné postupy lze uplatnit i u substantivních kolokací, ale jsme si vědomi
toho, že tento úkol bude vyžadovat rozsáhlá korpusová data a jejich pracnou
analýzu. Dobrým východiskem tu může být Slovník české frazeologie a idiomatiky (Čermák et al. 1983 – 1994).
a8) <pragmatická informace> – sem patří dostatečně strukturované údaje
o stylistických vlastnostech heslového slova včetně informace o regionálním
výskytu a sociálních aspektech. Počítáme však jen s uvedením základních informací tohoto druhu.
a9) <původ> – tj. stručná etymologická informace vztahující se k danému
heslovému slovu,
a10) <logický typ> – zde bude uveden údaj o logickém typu heslového
slova, jak se s ním pracuje v transparentní intensionální logice (TIL) (Materna
164
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE
2000, Pala 2000). Typy v TIL-u jsou budovány na základě rozvětvené teorie typů
a mohou tak vést k formálně konzistentnějším sémantickým reprezentacím výrazů přirozeného jazyka (češtiny). To podle našeho názoru spolu s hierarchickými hypero/hyponymickými strukturami umožní využívat posléze údaje z
CLD v systémech pro reprezentaci znalostí. Za samostatný úkol pokládáme
stanovení vztahů mezi vrcholovou ontologií, jak byla definována v projektu
EuroWordNet 1,2, a typovou ontologií definovanou v rámci TIL. To by mělo
poskytnout přesnější a méně arbitrární sémantickou klasifikaci, umožnit konzistentnější vymezení sémantických hierarchií, sémantických vztahů a sémantických rysů. Jsme si vědomi toho, že tyto pokusy budou spojeny s určitými
problémy, např. mohou být aplikovatelné jen pro některá hesla a jen pro některé slovní druhy (slovesa, substantiva, adjektiva, adverbia).
a12) <encyklopedické informace> – mohou být začleněny do CLD zejména
u hesel, u nichž je to vhodné či přímo potřebné z hlediska možných NLP aplikací. To např. platí o heslech, která se vztahují k informačním technologiím, ale i
mnoha dalším oblastem. Otázka je, zda usilovat o integrování encyklopedických
informací přímo do CLD nebo zvolit pragmatický postup a jen volně napojit
současné encyklopedické zdroje (slovníky) na CLD. V příkladech níže uvádíme
náznaky příkladů, které předpokládají integraci encyklopedických údajů do CLD.
3. Zdroje pro CLD
Situace je příznivá v tom, že nyní jsou k dispozici Český národní korpus
(ČNK na FF UK v Praze) a korpus ESO (na Fakultě informatiky Masarykovy
university, Brno) – můžeme tedy počítat s tím, že budování CLD bude založeno
hlavně na těchto dvou zdrojích. Dále počítáme s následujícími zdroji, konkrétně s existujícími českými slovníky:
– akademický Slovník spisovného jazyka českého (1960) (v elektronické
podobě), ,
– střední Slovník spisovné češtiny (1984) (v elektronické podobě).
Přirozeně budou použity i další vhodné zdroje, tj. vhodné existující slovníky, zejména terminologické. Je také potřeba ustavit skupinu odborníků (readers), kteří by spolupracovali na získávání terminologických a zejména dalších
dat, u nichž je zřejmé, že se nenajdou v korpusu. Má-li se začít pracovat na
novém slovníku češtiny, práce na něm se bez této skupiny neobejdou.
4. Nástroje
165
KAREL PALA
Nedávné výsledky získané u nás v oblasti NLP na Universitě Karlově
(v Ústavu Českého národního korpusu, Ústavu formální a aplikované lngvistikyMatematicko-fyzikální fakulty a Ústavu teoretické a aplikované lingvistiky
filozofické fakulty) v Praze a v Laboratoři zpracování přirozeného jazyka na
Fakultě informatiky MU v Brně poskytují základní soubor nástrojů, jichž lze
použít při budování CLD.
Konkrétně jde o morfologický analyzátor a generátor AJKA, syntaktické
analyzátory (DIS a GT, Žáčková – Popelínský – Nepil 2000, Horák – Smrž
2000), desambiguátory (Oliva – Petkevič et al. 2000, Hajič 2001), korpusový
manažer Manatee a grafické rozhraní GCQP využívající architektury klient-server (Rychlý 2000), slovníkový prohlížeč a editor využívající XML formátu, jenž
může pracovat s libovolným slovníkem konvertovaným do XML formátu (Karásek 2000). Vedle toho je k dispozici editor a prohlížeč VisDic, který je určen pro
lokální práci s lexikálními databázemi typu WordNet, ale může pracovat i s jakýmikoli dalšími slovníky, pokud jsou uloženy ve formátu XML (Pavelek 2001).
Další nástroje zahrnují různé konverzní programy, programy pro budování, údržbu a editování korpusů (Veber 2001), heuristické programy pro získávání valenčních rámců z korpusových textů. Samostatným nástrojem je i_par (Veber 2001), což je automatizovaná morfologická databáze, na niž budou navazovat programy pro automatické odvozování slov (Sedláček 2001) schopné v blízké budoucnosti pracovat s derivačními řetězy jako učit – učení – učitel – učitelka – učený – učenec – výuka atd. Je potřeba rozhodnout, zda data tohoto typu
mají být zahrnuta do CLD přímo, nebo by se měla získávat dynamicky ze samostatného morfologického modulu (viz např. Klímová – Pala 2000). Tento
bod byl dotčen již výše v souvislosti s morfologickými údaji pro jednotlivá hesla.
5. Závěry
V tomto krátkém příspěvku jsme prezentovali výchozí zásady, od nichž se
může odvíjet budování České lexikální databáze. Jsme si vědomi, že některé
probírané body bude potřeba propracovat hlouběji a systematičtěji, máme-li dospět k plně aplikovatelným výsledkům. Příklady hesel uvedené níže je proto
třeba v řadě ohledů chápat spíše jako experimentální skeletony než jako úplná
hesla. Jsme však přesvědčeni, že popsané techniky, zdroje a nástroje nám
umožní posléze dosáhnout vytčeného cíle.
5.1 Příklady
166
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE
Jako příklad uvádíme heslo pro držet (počítáme s formátem XML):
<entry <držet>>
<mf <k5> <eA> <nS> <pI> <t*> <m*> <aI> <kód vzoru>>
<sense:1 <def: uchopovat rukou, mít v ruce>>
<val: <ag<k1člověkc1>> <obj<k3něcoc4> <ins<<k7vc6> <k1rucec6>>>
<synset: <uchopovat> <mít v ruce> >
<sfeat: <činnost> <...> %(ve stylu EWN)
<semclass: <3.1> %(slovesa držení 1)
<kontexty: <držet dveře, d. pistoli v ruce> > %(příklady z korpusu)
<collocation: <> <> > %(+ sémantická třída kolokace)
<style: psaný, mluvený>
<etym: …
>
<logtyp: vztah mezi dvěma individui, relation-in-intension between
two individuals>
<encyk: ruka uchopuje fyzický objekt a je částí lidského těla nebo
robota> >
<sense:2 <def: být pevnou součástí jiného objektu>>
<val <obj<k1c1> <ins<<k7c6> <k1c6>>>
<synset: <být fixován> <být upevněn> >
<sfeat <...> <mero...> %(ve stylu EWN)
<semclass: <3.2> %(slovesa držení 1.1)
<kontexty: <omítka drž dobřeí> > %(příklady z korpusu)
<kolokace: <hřebík drží> <> > %(+ semantická třída kolokace)
<style: psaný, mluvený>
<etym: …
>
<logtyp: vlastnost individua, property of an individual >>
<encyk: upevnění objektu se provádí lepením, zatlučením, přišroubováním…> >
<sense:3 <def: zachovávat tvar>>
<val <obj<k1klouboukc1>> <forma<k1tvarc4> >>
<synset: <zůstávat v pevném tvaru> <neměnit formu> >
<sfeat <...> <...> > %(ve stylu EWN)
<semclass: <3.3> %(slovesa držení tvaru)
<kontexty: <vlasy drží fazónu> > %(příklady z korpusu)
167
KAREL PALA
<kolokace: <puky drží> <> > (roztřídit podle typů)
<styl: psaný>
<etym: …
>
<logtyp: vlastnost individua, property of an individual >>
<encyk: platí pro objekty jako součásti oděvu, šaty,
vlasy> >
<sense:4 <def: zachovávat polohu>>
<val <ag<k1člověkc1>> <obj<k1těloc4>> <mod<k6xMrovně> >>
<synset: <být ve stejné poloze> <neměnit polohu> >
<sfeat <...> <...> > %(ve stylu EWN)
<semclass: <4.1> %(slovesa polohy)
<kontexty: <držet tělo vzpřímeně> > %(příklady z korpusu)
<kolokace: <držet hlavu nad vodou> <> > %(+ sémantická třída kolokace)
<styl: psaný>
<etym: …
>
<logtyp: vlastnost individua, property of an individual >>
<encyk: platí pro polohu lidského těla> >
<sense:6 <def: vlastnit půdu>>
<val <ag<k1vlastníkc1>> <obj<k1majetekc4> > >
<synset: <vlastnit půdu, spravovat majetek> >
<sfeat <...> <...> > %(Ve stylu EWN)
<semclass: <2.1> %(slovesa vlastnění)
<kontexty: <držet zahradu> > %(příklady z korpusu)
<kolokace: <držet byt> <držet dům> > %(+ sémantická třída kolokace)
<styl: psaný>
<etym: ….
>
<logtyp: <vztah mezi individui, relation-in-intension>>
<encyk: vlastníkem je člověk, objektem nemovitost>
>
<sense:7 <def: >>
<val <ag<k1člověkc1>> <obj<k1zvířatac4> >>
<synset: <pěstovat> <chovat> >
<sfeat <...> <...> > %(Ve stylu EWN)
168
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE
<semclass: <5.1> %(slovesa chování zvířat)
<kontexty: <babička drží slepice> > %(příklady z korpusu)
<kolokace: <držet dobytek> <> > %(+ sémantická třída kolokace)
<styl: psaný>
<etym: …
>
<logtyp: <vztah mezi individui, relation-in-intension>>
<encyk: objekty držení jsou obvykle domácí zvířata>
>
<sense:8 <def: rezervovat>>
<val <ag<k1člověkc1>> <obj<k1člověkc3>> <loc<k1místoc4>> >
<synset: <rezervovat, obsadit> >
<sfeat <...> <...> > %(ve stylu EWN)
<semclass: <6.2> %(slovesa rezervování)
<kontexty: <drží nám místo v pořadí> > %(příklady z korpusu)
<kolokace: <držet komu místo> <> > %(+ sémantická třída
kolokace)
<styl: psaný>
<etym: …
>
<logtyp: <vztah mezi individui, relation-in-intension> >
<encyk: platí pro místo v dopr.prostředku nebo v seznamu> >
<sense:9 <def: oblíbit si koho, preferovat koho>>
<val <ag<k1člověkc1>> <obj <<k7na> <k1člověkac4>> | <věc <<k1tenisc4>>>
<synset: < oblíbit si koho, preferovat koho > >
<sfeat <...> <...> > %(Ve stylu EWN)
<semclass: <7.2.> %(slovesa emotional attitudes, liking)
<kontexty: <ona na něho drží> > %(příklady z korpusu)
<kolokace: <držet na sestru> <> > %(+ sémantická třída kolokace)
<styl: psaný>
<etym: …
>
<logtyp: <vztah mezi individui, relation-in-intension> >
<encyk: platí pro místo lidi nebo člověka a nějaký oblíbený objekt
(peníze)> >
169
KAREL PALA
<sense:10 <def: držet s kým>>
<val <ag<k1člověkc1>> <obj<k7sc7> k1člověkc7>> >
<synset: <držet s kým, držet spolu, být s kým v partě> >
<sfeat <...> <...> > %(Ve stylu EWN)
<semclass: <8.4> %(slovesa social grouping)
<kontexty: <držet partu> > %(příklady z korpusu)
<kolokace: <držet s komunisty> <> > %(+ sémantická třída kolokace)
<styl: psaný>
<etym: …
>
<logtyp: <vztah mezi individui, relation-in-intension> >
<encyk: platí pro místo v dopr.prostředku nebo v seznamu>
>
<sense:9 <def: uchopovat rukou, mít v ruce>>
<val: <ag<k1člověkc1>> <obj<k3něcoc4> <ins<<k7vc6> <k1rucec6>>>
<synset: <uchopovat> <mít v ruce> >
<sfeat: <činnost> <...> %(Ve stylu EWN)
<semclass: <3.1> %(slovesa holding and keeping)
<kontexty: <držet dveře, d. pistoli v ruce> > %(příklady z korpusu)
<collocation: <> <> > %(+ sémantická třída kolokace)
<styl: psaný>
<etym: …
>
<logtyp: vztah mezi dvěma individui, relation-in-intension between two individuals>
<encyk: ruka je část lidského těla nebo robota> >
5. 2 Example of the entry for Czech noun hlava (head):
<entry <hlava>>
<mf <paradigm code: 47a> <<k1> <gF> <nS> <c1>> >
<sense:1 <defgenprox: část těla>>
<difspec: >
<val <<k1hlavac1> <k1člověkac2>> <<k2psíc1> <k1hlavac1>> >
<synset: <kebule> <palice> <šiška>>
<sfeat <holo: tělo> <mero: tělo, oči, nos, tváře, ústa> > %ve stylu EWN
170
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE
<kontexty: <lidská hlava> > %(příklady z korpusu)
<kolokace: <c1> <c2> …<cn> > %(+ sémantická třída kolokace)
<styl: psaný>
<etym: ... >
<logtyp: vlastnost individua>
<encyk: platí pro hlavu člověka, zvířete nebo robota> >
<sense:2 <def: rozum, mysl>>
<difspec: >
<val <<k1hlavac1> <k7nac4> <k1fyzikuc4>> <<k2chytrác1> <k1hlavac1>> >
<synset: <mysl> <vědomí> >
<sfeat <hyper: abstr> > %ve stylu EWN
<kontexty: <chytrá hlava> > %(příklady z korpusu)
<collocation: <c1> <c2> …<cn> > %(+ sémantická třída kolokace)
<styl: psaný>
<etym: … >
<logtyp: vlastnost individua>
<encyk: sídlo myšlení, inteligence u lidí> >
<sense:3 <defgenprox: šéf, vedoucí skupiny>>
<difspec: >
<val <<k1hlavac1> <k1podnikuc2> > >
<synset: <boss> <náčelník> >
<sfeat <hyper: hum> <hypo: podřízený> > %ve stylu EWN
<kontexty: <hlava mafie> > %(příklady z korpusu)
<kolokace: <hlava rodiny> <c2> …<cn> > %(+ sémantická třída kolokace)
<style: <psaný>
<etym: …
>
<logtyp: vlastnost individua>
<encyk: v hierarchické organizaci, firmě, vládě> >
<sense:4 <defgenprox: přední část předmětu>>
<difspec: >
<val <<k1hlavac1> <k1kolac2>> >
<synset: <výstupek> <> >
171
KAREL PALA
<sfeat: <hyper: objekt> <hypo: > > %ve stylu EWN
<kontexty: <hlava šroubu> > %(příklady z korpusu)
<kolokace: <c1> <c2> …<cn> > %(+ sémantická třída kolokace)
<styl: psaný>
<etym: … >
<logtyp: vlastnost individua>
<encyk: součást dílu u technických zařízení> >
<sense:5 <defgenprox: jednotka textu >>
<difspec: >
<val <<k1hlavac1> <k1zákonac2 >>>
<synset: <oddíl, kapitola v knize> <> >
<sfeat: <holo: kniha> <mero: paragraf> > %ve stylu EWN
<kontexty: <hlava 22> > %(příklady z korpusu)
<kolokace: <> <> > %(+ sémantická třída kolokace)
<styl: psaný>
<etym: …
>
<logtyp: vlastnost individua>
<encyk: obsah knihy se člení na jednotky – kapitoly, hlavy >
Literatura
ČERMÁK, F. et al. 1983 – 1994. Slovník českých frazeologie a idiomatiky. Praha: Academia.
DOKULIL, M. 1962. Tvoření slov v češtině. Praha, Academia.
FABER, P. – USÓN R. M. 1999. Constructing a Lexicon of English Verbs, Berlin – New York:
de Gruyter.
FILLMORE, Ch. – ATKINS, B. 1998. FrameNet and Lexicographic Relevance, In: A. Rubio –
N. Gallardo – R. Castro – A. Tejada (eds.), Proceedings of the First National Conference on
Language Resources and Evaluation, vol. 1, Paris: ELRA, s. 417 – 423.
HAJIČ, J. et al. 2001. Prague Dependency Tree Bank, CD ROM. v. 1.0, Praha: ÚFAL MFF
UK.
INGRIA, R. – BOGURAEV, B. – PUSTEJOVSKY, J. 1992. Dictionary/Lexicon. In: S. C.
Shapiro (ed.), Encyclopedia of Artifical Intelligence. New York: John Wiley, s. 341 – 365.
KARÁSEK, L. 2000. Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků.
Diplomová práce. Brno: Fakulta informatiky MU.
KLÍMOVÁ, J. – PALA, K. 2000. Application of WordNet ILR in Czech Word-formation. In:
Proceedings of LREC Conference. Athens: ELRA, s. 987 – 991.
LEVIN, Beth. 1995. English Verb Classes and Alternations. Chicago: The University of
Chicago Press.
172
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE
MATERNA, P. 2001. Type-theoretical analysis as a preparation of analyzing expressions of a
natural language. Prague – Brno: Faculty of Informatics MU (manuscript), s. 110.
OLIVA, K. – PETKEVIČ, V. et al. 2000. The Linguistic Basis of a Rule-Based Tagger of Czech.
In: Proceedings of TSD 2000. Berlin: Springer Verlag, s. 3 – 8.
PALA, K. 2000. Word Senses and Semantic Representations - Can We Have Both? In:
Proceedings of TSD 2000. Berlin: Springer Verlag, s. 109 – 114.
PALA, K. – PAVELEK, T. 2001. A Proposal of XML Standard for WordNet (and Other
Dictionaries).In: Senseval Workshop, Conference ACL. Toulouse.
PAVELEK, T. 2001. VisDic. New Tool for Viewing and Editing WordNets – draft. Brno: Faculty
of Informatics MU (September 2001).
RYCHLÝ, P. 2000. Korpusové manažery a jejich efektivní implementace (Corpus Managers
and their Effective Implementation). Ph.D. Dissertation. Brno: Faculty of Informatics MU.
SEDLÁČEK, R. 1999. Morfologický analyzátor pro češtinu (Morphological analyser for
Czech). Master Thesis. Brno: Faculty of Informatics MU.
SEDLÁČEK, R. 2001. Teze disertační práce. Brno: Fakulta informatiky MU.
SGALL, P. et al. 1986. Úvod do syntaxe a sémantiky. Praha: Academia.
Slovník spisovného jazyka českého (Dictionary of Written Czech Language). 1960. Praha:
Academia.
Slovník spisovné češtiny (Dictionary of Written Czech). 1984. Praha: Academia.
VEBER, M. 2001. Teze disertační práce. Brno: Fakulta informatiky MU.
VOSSEN, P. et al. 1999. Final Report on EuroWordNet-2, 2D041. CD ROM, v. 1, Amsterdam:
University of Amsterdam.
ŽÁČKOVÁ, E. – POPELÍNSKÝ, L. – NEPIL, M. 2000. Recognition and Tagging of
Compound Verb Groups in Czech. In: Proceedings of CoNLL-2000 and LLL-2000, Lisbon, ACL New
Brunswick. s.219 – 225.
HORÁK, A. – SMRŽ, P. 2000. Large Scale Parsing of Czech. In: Proceedings of Efficiency in
Large-Scale Parsing Systems Workshop, COLING'2000. Saarbruecken: Universitat des Saarlandes, s.
43 – 50.
173
KAREL PALA
174
SLOVNÍKOVÁ DATA VE FORMÁTU XML
Pavel Smrž: Fakulta informatiky Masarykovy univerzity, Brno
Abstract: This paper deals with transformation, storage and processing of dictionaries in an electronic
form. Various aspects of the XML format are discussed first. Then, a transformation of source data into
a target format is taken into consideration. Such a process is called up-translation. The next section summarizes our experience with the transformation of large dictionaries, especially of the Dictionary of Literary Czech (SSJČ). The last section brings recommendations for those who will be engaged in similar
projects.
1. Úvod
Slovníky jsou nejvýznamnějším zdrojem informací o slovní zásobě jazyka.
Jejich užitečnost se však v současnosti neomezuje jen na lidské uživatele – aplikace v oblasti zpracování přirozeného jazyka potřebují slovníkové informace
téměř pro všechny úkoly, které řeší. Stovky, a snad i tisíce různých slovníků
jsou používány pro podporu vyhledávání informací, automatického vytváření
abstraktů, strojového překladu atd.
Většina v současnosti používaných slovníkových dat nebyla původně určena pro počítačové aplikace. Mnoho tištěných slovníků bylo v posledních
desetiletích převedeno do elektronické podoby zejména s cílem snížit náklady
spojené s editorskými úpravami, kontrolou konzistence a modifikacemi při
přípravě nových verzí. Ani ryze elektronický slovník, jakým je WordNet (Miller
et al. 1990), nebyl zprvu určen pro aplikační použití – jednalo se o experiment
zaměřený na modelování mentálního slovníku.
Nehledě na historii vzniku jsou dnes dostupné elektronické slovníky, resp.
elektronické lexikální databáze, z aplikačního pohledu nesmírně cenné, neboť
získávání lexikální informace je obyčejně drahé a představuje i dosti obtížný intelektuální výkon. Výhodnost používání existujících zdrojů platí i přes nutné
investice do nalézání relevantní informace, která je do jisté míry skryta díky
slabé strukturovanosti, nevyhnutelným chybám, nekonzistencím a opomenutím.
Rozumným cílem je potom ovšem uchovávání slovníků v univerzálním, široce
dostupném a znovupoužitelném formátu. Takové prostředí poskytuje rodina formátů a nástrojů sdružená kolem jazyka XML.
Následující oddíl je věnován stručnému seznámení s formátem XML a souvisejícími standardy. Dále se budeme zabývat vlastním převodem dat z vý175
PAVEL SMRŽ
chozích formátů do cílového XML, tzv. procesem zvyšování informačního obsahu. Poté uvedeme několik vybraných projektů, které se na různých místech
světa zabývaly tématy příbuznými naší problematice a jejichž výsledky v menší
či větší míře ovlivnily naše postupy. V dalším oddíle potom jako případovou
studii zmíníme převod SSJČ (Slovníku spisovného jazyka českého) do formátu
XML odpovídajícího doporučením TEI (Text Encoding Initiative). Závěrečná
kapitola shrne získané zkušenosti.
2. Formát XML
XML (eXtensible Markup Language; (Bray et al. 2000) je standardem pro
reprezentaci a výměnu dat. Jde o silný nástroj dovolující obecný způsob značkování všech forem struktury, vzájemné odkazy a víceúrovňové zanoření struktur. XML je tedy velmi vhodným formátem pro reprezentaci silně strukturované
informace.
V posledních letech vzneslo mnoho uživatelů požadavek převoditelnosti
mezi různými reprezentacemi dat. Dodavatelé programových produktů byli nuceni reagovat a akceptovat standardizovaný, neproprietární formát kódování
dat. Vývoj, přijetí a postupné nasazování technologií opírajících se o XML tak
souvisí zejména s možnostmi větší interoperability aplikací umožňujících výměnu dat ve formátu XML. Právě nemožnost převodu mezi formáty je často
důvodem používání starších programových produktů, které již nesplňují nové
požadavky. Je výhodnější použít široce podporovaný formát než navrhovat
vlastní, omezený. Oproti běžným binárním formátům získáváme také výhodu
deklarativnosti a transparentnosti reprezentace dat.
Jazyk XML, vyvinutý zejména s ohledem na použití ve webových aplikacích, je zjednodušeným dialektem SGML (Standard Generalized Markup Language). Teoreticky je tedy v některých ohledech méně silný, avšak díky celé
škále navazujících technologií, které např. dovolují transformace mezi dokumenty, definice omezujících podmínek, ověřování struktury a odkazy uvnitř
jednoho dokumentu i vzájemné odkazy mezi dokumenty, případně jejich částmi
(viz dále), je právě XML nástrojem umožňujícím udržet krok s rychlým tempem vývoje v oblasti informačních technologií.
Dokumenty založené na XML smazávají rozdíly mezi daty a klasickými
dokumenty. Některé dokumenty ve formátu XML nejsou ničím jiným než ASCII reprezentací dat, která jsou typicky ukládána např. do databází. Jiné dokumenty XML obsahují velmi málo struktury, vyznačeny jsou např. jen hranice
176
SLOVNÍKOVÁ DATA VE FORMÁTU XML
odstavců, jinak jde o volný text. Slovníková data jsou někde uprostřed mezi
těmito dvěma póly – obsahují složité hierarchické struktury, ale také relativně
nestrukturovaný volný text. XML dovoluje definovat přesnou sémantiku obsahu
slovníku a přitom nespecifikovat formát prezentace. Dovoluje tedy měnit
způsob, jakým jsou jednotlivé části textu tisknuty nebo zobrazovány.
Při práci se slovníkovými daty ve formátu XML můžeme využít mnoha
existujících mechanismů pro přístup k datům a manipulaci s nimi. Budeme
mluvit o rodině standardů XML. V základní formě je XML jazykem pro značkování dokumentů, který tudíž dovoluje vyznačit jednotlivé elementy textu,
hierarchickou strukturu a odkazy. Strukturu textu kódovaného v XML popisuje
tzv. DTD (Document Type Definition), objevující se již u standardu SGML.
DTD definuje zobecněná pravidla pro strukturu a určuje tak, co je v kódování
příslušného dokumentu dovoleno.
Schopnosti validace formy i obsahu dokumentu nabízené DTD rozšiřuje
definiční jazyk XML Schema (Thompson et al. 2001, Biron, Malhotra 2001).
Dovoluje omezit a dokumentovat význam, použití a vztahy jednotlivých částí
dokumentů XML. Mohou být zadávány např. předdefinované hodnoty pro
atributy a elementy. Z koncepčního pohledu lze definici XML Schematu chápat
jako abstraktní datový model popisované třídy dokumentů (Ide 2000).
Dalším členem „rodiny XML“ jsou formátovací jazyky XSL (eXtensible
Stylesheet Language; Adler et al. 2000) a XSLT (eXtensible Stylesheet Language for Transformations; Clark 1999, Clark 2001). Jde o deklarativní (neprocedurální) jazyky, kde „stylesheet“ udává, za jakých podmínek se vykoná jaká
akce. Tzv. procesory XSLT pracují s dokumentem XML, reprezentovaným
stromovou strukturou zanořených elementů, a mohou tento dokument transformovat do libovolného jiného formátu pomocí výběru, přeuspořádání nebo přidávání informací. Jazyk XSLT podporuje výběr obsahu elementů nebo jejich
částí z jednoho nebo více XML dokumentů a transformaci obsahu i názvů
elementů.
Pro efektivní přístup k obsahu rozsáhlých dokumentů v XML je potřeba
výkonný dotazovací mechanismus. V uplynulém období vzniklo hned několik
návrhů dotazovacích jazyků pro XML. K nejznámějším patří XQuery (XML
Query Language; Chamberlin et al. 2001) umožňující zadávat složité dotazy na
XML dokumenty ve formě snadno čitelné člověkem (alternativou je XqueryX
odpovídající syntaxi jazyka XML).
Bylo navrženo i několik standardů pro definici odkazů mezi dokumenty
XML. Základní mechanismus XLink (DeRose 2001a) dovoluje specifikovat
177
PAVEL SMRŽ
propojení mezi dvěma a více zdroji nebo jejich částmi. Jazyk XPath (XML Path
Language) (Clark, DeRose 1999) rozšiřuje syntaxi adresace o predikáty pro
manipulace s řetězci znaků, takže je možné odkazovat přímo na části jednotlivých elementů. Ještě propracovanějším je standard Xpointer (DeRose 2001a),
který rozšiřuje syntaxi XPath směrem k adresaci rozsahů, lokalizace informace
pomocí porovnávání řetězců a použití výrazů v odkazech jako identifikátorů
částí dokumentů.
Existuje ještě celá řada nejrůznějších standardů, které rozšiřují „rodinu
XML“ o více či méně specifickou funkcionalitu. Zmiňme na závěr za všechny
ještě alespoň XML Namespaces (Bray et al. 1999) – mechanismus povolující
stejná jména v různých kontextech pomocí definice tzv. prostorů jmen.
Přes všechny výše zmíněné výhody přetrvává i dnes při řešení zásadní otázky, zda se vyplatí převod již existujících zdrojů, určitá nedůvěra k formátu
XML. Na tomto postoji se jistě podepsal historický vývoj, kdy byly, nikoliv neoprávněně, technologie spjaté se standardem SGML považovány za příliš drahé.
Dobře placení poskytovatelé programových nástrojů manipulujících s SGML
pracovali pro ministerstva (zejména americké Ministerstvo obrany), mamutí
podniky typu Boeing (má svoji dokumentaci v SGML), pojišťovny a velké vydavatelské domy a menší firmy nebyly schopny výhod lépe strukturovaných dokumentů využít. Ne nadarmo byla zkratka SGML v této době vysvětlována jako
„Sounds Great! Maybe Later!“.
S příchodem formátu XML a jeho masivní popularizací se však situace výrazně zlepšila a tento příznivý vývoj neustále pokračuje. Formát XML je dnes
široce podporován, existuje mnoho komerčních i nekomerčních programů pracujících s XML. XML přímo podporují poslední verze webových prohlížečů, i když
zatím ne v plné šíři. Každopádně vše mluví pro použití technologií spojených s
XML v mnoha oborech informačních technologií a byla by samozřejmě škoda nevyužít nabízených možností i pro oblast reprezentace a výměny slovníkových dat.
3. Zvyšování informačního obsahu
Slovníky obsahují celou škálu různých typů informací, kódovaných různými způsoby. Jsou aplikovány různé strukturální a typografické normy pro reprezentaci homografů, lexikalizovaných flektivních variant, složených slov, frází
atd. Často se liší i taxonomie informací. Standardizovaný formalismus lexikální databáze musí definovat jednoznačný způsob reprezentace všech těchto entit.
178
SLOVNÍKOVÁ DATA VE FORMÁTU XML
Nehledě na nejednoznačnost kódování informací lidem obyčejně stačí
podívat se na slovníkové heslo a okamžitě pochopí, z jakých je složeno částí a
co tyto části znamenají. Zapojí tak ovšem znalost o tom, k čemu slovníky
slouží, jak jsou obecně používány. Aby byly stejné informace bez větší námahy
dostupné stroji, musí být z původně implicitní formy převedeny do explicitně
zaznamenaných údajů, s nimiž si počítačové programy snadno poradí.
Hodnota elektronických slovníků se dramaticky zvyšuje, pokud sdílí
společné značkování. Dosažení tohoto stavu je však nesmírně obtížné, neboť
dostatečně rozsáhlé zdroje jsou získávány obyčejně z existujících slovníků, které mají v převážné většině vlastní strukturu. Převod dat ze zdrojového do cílového formátu bývá označován jako proces zvyšování informačního obsahu (uptranslation). Z aplikačního pohledu se jedná o cestu k použitelnějšímu tvaru
slovníkových dat.
Jak vyplývá z předchozí kapitoly, bude naším cílem převod slovníkových
dat do formátu XML, takže procesem zvyšování informačního obsahu zde budeme rozumět konverzi z libovolného zdrojového formátu do platné instance
XML odpovídající nějakému cílovému DTD. Přitom se samozřejmě snažíme
nalézt (alespoň částečně) automatické metody převodu. Vývoj takových automatických metod má samozřejmě ekonomické opodstatnění.
Vzhledem k různorodosti zdrojových formátů je velmi obtížné definovat
obecný model procesu zvyšování informačního obsahu. Obecně lze nicméně
identifikovat 3 základní podprocesy (Chahuneau 1994):
1. identifikace skupin objektů zdrojového dokumentu, sdílejících společné
formátovací vlastnosti (typografické charakteristiky a typické textové vzory);
2. mapování nalezených tříd na typy elementů XML odpovídající cílovému
DTD;
3. generování cílové struktury, případná reorganizace dat a přidání chybějících struktur (elementů i atributů) tak, aby vše odpovídalo DTD.
Přestože lze v zásadě provést celý převod v jednom průchodu, má tento
postup mnoho nevýhod. Většinou je obtížné rozdělit úkoly tak, aby bylo možné
zapojit více programátorů. Monolitický tvar převodních programů navíc nepřispívá k čitelnosti kódu a problematické jsou rovněž nutné manuální opravy chyb
kódování, případně i chyb obsahu.
Řešením těchto problémů je postupný, víceprůchodový převod, kdy jsou
navíc již pro výstupy z jednotlivých fází definována příslušná DTD, jimž odpovídá výsledek ve formátu XML. Výhodou je vstup do „arény XML“ již v prv179
PAVEL SMRŽ
ních fázích transformace, což přináší výhodu explicitního modelu informačního obsahu pomocí DTD a dovoluje použití propracovaných nástrojů pro zpracování struktur XML. Snadněji lze také postihnout případy, kdy se zdrojový formát silně vymyká požadavkům cílového DTD.
Dekompozici procesu zvyšování informační úrovně na sérii postupných
kroků lze z teoretického pohledu chápat jako proces navazujících transformací
stromových struktur zanořených elementů, probíhajících při převodu z jednoho
stavu do stavu následujícího. Dnes jsou dokonce k dispozici nástroje nabízející
odvozování DTD z výstupů jednotlivých kroků.
Výše popsané transformace lze implementovat různými metodami. Výhodné je využít některý z řady populárních skriptovacích jazyků, jakými jsou Perl či
Python. Existují však i nástroje přímo specializované pro tento úkol. K nejznámějším patří produkt OmniMark (http://www.omnimark.com). Ten nabízí
mechanismus porovnávání vzorů podporující událostmi řízené programování,
založené na lexikálních událostech. Naproti méně specializovaným nástrojům je
úzce provázán se začleněným analyzátorem XML (SGML), takže výsledek
porovnávání vzorů může být závislý na kontextu XML. Vzory mohou být pojmenované, čímž lze zachytit i velmi složité konstrukce. Propracované je také zotavování z chyb analýzy dokumentu XML, které může sloužit k opravě generovaného XML tak, aby vznikla platná instance cílového DTD. Tento mechanismus
funguje výborně tam, kde je zdrojová podoba vzhledem k požadované cílové
struktuře jen mírně deformovaná. Mnohem obtížnější je naopak podchycení případů, kdy zjednoznačňování struktury dokumentu vyžaduje časté pohledy dopředu, začlenění dalších zdrojů a intenzivní generování přídavných struktur (Chahuneau 1994).
4. Obdobné a příbuzné projekty
Převodem slovníků do formátu XML se zabývala celá řada projektů v různých koutech světa. Přitom je nesmírně zajímavé a cenné sledovat, jak se v
rámci různých projektů řeší obdobné problémy, především nedostatky spojené s
nekonzistentní strukturou hesel. Uveďme tedy alespoň několik případů.
Jako typického zástupce převodu rozsáhlého výkladového slovníku zmiňme projekt OED (Oxford English Dictionary) Online (Elliott 2001). Převod do
strojově čitelné podoby začal již v polovině 80. let, kdy se nakladatelství OUP
(Oxford University Press) rozhodlo vydat druhé vydání svého největšího slovníku, zahrnující originální 12 svazkový soubor se všemi pozdějšími dodatky. Bez180
SLOVNÍKOVÁ DATA VE FORMÁTU XML
prostředním důvodem vzniku elektronické verze byla tehdy snaha o ekonomizaci nezbytných pozdějších revizí. Přibližně 150 písařek přepsalo celý obsah a
po sérii mnoha oprav byl slovník nakonec v roce 1989 úspěšně vydán.
Kódování OED neodpovídalo plně SGML, protože se autorům zdálo nemožné, „vzhledem k unikátnímu obsahu a dlouhému vývoji editorského stylu“,
svázat celý slovník jednotným formátem. Dokonce i dnes je OED revidován pomocí vlastního značkování, což vyžaduje speciální softwarové nástroje vyvinuté
na zakázku. Při analýze potřeb OED Online bylo však konstatováno, že by celý
projekt nesmírně komplikovalo, jestliže by nebyl text poskytnut ve standardní
formě. Všichni dodavatelé software by totiž byli nuceni proniknout do zvláštností interního formátu a nebylo by možné použít dostupná obecná řešení.
Proto bylo z interního formátu odvozeno standardní DTD, nepokrývající sice
všechny informace obsažené v OED, zahrnující však všechny hlavní vlastnosti
slovníku. Jasně jsou identifikovány definice výrazů, výslovnost, variantní ortografie, etymologie, doklady a jejich datace, včetně jmen autorů a názvů děl, z
nichž je citováno. Definice speciálního DTD pro výběr dat je v (Elliott 2001)
komentována slovy „ ...archeologové v roce 3000 nebudou moci rekonstruovat
všechny aspekty elektronického textu OED z tohoto DTD a úlomků tištěné verze. Jde o kompromisní řešení.“
Zajímavé jsou rovněž informace o finanční náročnosti celého projektu, které
příliš neodpovídají výše zmiňované dostupnosti příslušných technologií v dnešní době. Cena za vývoj programových produktů OED Online činila 400.000
amerických dolarů a nakladatelství OUP utratilo přibližně další milion dolarů
za výzkum trhu, konzultace atd.
Jiným projektem, cenným zejména díky praktickým výstupům ve formě
návrhu vhodného univerzálního DTD (Erjavec et al. 2000), byl grantový
projekt CONCEDE (Evans 1999), jehož cílem bylo vytvoření lexikálních databází, založených na informacích z tištěných slovníků, pro šest středoevropských a východoevropských jazyků, konkrétně bulharštinu, češtinu, estonštinu,
maďarštinu, rumunštinu a slovinštinu. Formátem lexikální databáze bylo
SGML odpovídající doporučením TEI. Vzhledem ke skutečnosti, že návrhy TEI
pro kódování slovníků podporují přesný popis existujících slovníků, spíše než
vytváření nových zdrojů ve formě přímo uzpůsobené pro použití v aplikacích
zpracování přirozeného jazyka, bylo druhým cílem projektu vyvinout silně
redukovanou variantu DTD, vhodnou pro tyto účely. Projekt se do značné míry
opíral o korpus Orwell“, vytvořený v rámci projektu EU MULTEXT-EAST (Erjavec – Ide 1998; většina partnerů byla i partnery CONCEDE), tvořený romá181
PAVEL SMRŽ
nem George Orwella 1984 v angličtině a překlady tohoto díla ve všech šesti
jazycích. Výběr zpracovávaných slov v projektu CONCEDE např. vycházel z
frekvenčního slovníku získaného z tohoto románu. Zajímavou informací o výstupech projektu je zmínka o nemožnosti převést veškeré informace do formátu
odpovídajícího cílovému DTD v důsledku limitovaných zdrojů (Kilgarriff
1999).
Historicky starším projektem je systém LDB, vytvořený v počítačové laboratoři Cambridgeské university jako součást projektu EU ESPRIT ACQUILEX (Copestake 1995). Systém podporuje uživatele při formulování dotazů a
vyhledávání částí hesel z jednoho a více slovníků, implementuje efektivní vyhledávání a dovoluje definovat subslovníky, tvořené výběrem hesel rozšířených
o doplňující informace, které nejsou dostupné pro ostatní hesla. Implementačním nástrojem byl v tomto případě jazyk Common Lisp.
5. Převod Slovníku spisovného jazyka českého
Projekt převodu SSJČ (osmisvazkového Slovníku spisovného jazyka českého) do formátu XML je realizován v rámci komplexního grantového úkolu
GAČR 405/96/K214 (Čeština ve věku počítačů). Laboratoři zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity v Brně, která se na
projektu podílí, byla předána již data ve formátu dokumentů aplikace MS
Word, vždy deset stran textu v jednom souboru. Data byla v předchozí fázi naskenována, pomocí OCR převedena a dále zkontrolována, aby byly odstraněny
okamžitě viditelné chyby rozpoznávání. To vše bylo provedeno na Ústavu pro
jazyk český na Akademii věd ČR.
Naším prvním úkolem byl tedy převod z formátu MS Word. Aplikace MS
Word 2000 slibuje uložení do HTML, které zachovává vše potřebné pro transformaci do prvotní verze XML. Zkušenosti však ukazují, že převod do formátu
XML odpovídajícího normě by vyžadoval enormní množství práce a že výsledek i potom nabízí malou podporu pro odvození struktury dokumentu ze
značkování. Jinou možností by bylo využití aplikací dostupných v rámci balíku
OpenOffice, který používá pro ukládání dokumentů přímo formát XML a v posledních verzích (které však nebyly dostupné v době převodu) by měl být
schopen korektně načíst i dokumenty české verze aplikace MS Word. My jsme
nakonec zvolili přímý převod dat za pomoci speciálně vyvinutého kódu v jazyce
Visual Basic for Application, který MS Word dokáže zpracovávat ve formě
182
SLOVNÍKOVÁ DATA VE FORMÁTU XML
maker. Vzhledem k jednorázovosti celého procesu nepředstavovala časová
náročnost tohoto postupu větší problém.
Další fáze představovala vyhledání anomálií ve vstupním formátu, vyřešení některých nejednoznačností a opravy chyb kódování. Přitom jsme si velmi
silně uvědomili, že definování kompletní gramatiky pro rozpoznání textových
vzorů a převod struktury je téměř nekonečný proces, kterým je možné projít
pravděpodobně pouze postupným úpravami kódu, časově velmi náročnými. V
této etapě se jedná ještě převážně o dosti mechanický převod dat, který se příliš
nesnaží „zvyšovat informační úroveň“. Pokud je tedy dostatečná pozornost
věnována odhalování a opravám chyb převodního kódu, může jít o přímočarý,
deterministický, a tudíž i spolehlivý proces.
Závěrečnou a nejobtížnější úlohou je transformace mezivýsledku do formátu XML odpovídajícího cílovému DTD (Petkevič 2000). V ideálním případě
odpovídá typ elementu přímo některému typu písma, jindy stačí uvažovat
jednoduchý, unikátní kontext (např. v hranatých závorkách je uváděna výslovnost), někdy je výhodné uvažovat omezení určitého typu informací, kdy
hodnota musí být v předem daném seznamu (výčty zkratek, jména autorů).
Úspěšnost převodu samozřejmě závisí podstatnou měrou na kvalitě zdrojových
dat, v našem případě především na konzistenci zpracování slovníku. Většina
těžkostí je spojena právě s nekonzistencí struktury hesel, která je potom nesmírně obtížné převést plně automaticky.
V současné fázi tedy pracujeme s dvěma variantami XML. Nízkoúrovňové
kódování (příklad 1) je výhodnější pro zanášení oprav nalezených chyb, forma
odpovídající cílovému DTD (příklad 2) je i přes dosud velké množství nesprávně rozpoznaných elementů vhodná pro některé typy dotazů na konkrétní
části hesel, např. pouze na doklady výskytu či původ hesla. Postupně jsou
opravovány nalezené chyby, zejména nesprávně rozpoznané typy písma, jejichž
výskyt by znemožňoval automatický převod do cílového tvaru. Speciální kategorii tvoří chyby a nekonzistence, které se vyskytují již v tištěné verzi slovníku.
Ty jsou zaznamenávány odděleně, aby bylo možné kdykoliv konfrontovat
původní podobu dat.
<entry>
<bold>terorismus</bold>
<ital>způsob vlády vymáhající terorem poslušnost; hrůzovláda, krutovláda,
despotismus:</ital>
<norm>vojenský t.; nesnesitelný t.; demagogie a t.; </norm>
183
PAVEL SMRŽ
<small>přen. expr.</small>
<norm>to je t., nedejte si to líbit</norm>
</entry>
Příklad 1: Nízkoúrovňové kódování dat – jsou vyznačeny jen různé typy písma
<entry>
<hw>
<orth>terorismus</orth>
</hw>
<morph>
<paradig>socialismus</paradig>
</morph>
<senses>
<sense>
<def>způsob vlády vymáhající terorem poslušnost</def>
<def>hrůzovláda</def>
<def>krutovláda</def>
<def>despotismus</def>
<eg>vojenský terorismus</eg>
<eg>nesnesitelný terorismus</eg>
<eg>demagogie a terorismus</eg>
<eg>
<usg type=style>přen. expr.</usg>
to je terorismus, nedejte si to líbit
</eg>
</sense>
</senses>
</entry>
Příklad 2: Formát kódování hesla SSJČ odpovídající cílovému DTD
Pro efektivní uložení slovníkových dat využíváme systém MAXXL, který
vznikl na Fakultě informatiky jako výsledek diplomové práce (Karásek 2000).
Základní charakteristikou je absolutní nezávislost na konkrétním formátu XML,
systém pracuje s daty na podkladě zadaného DTD a s využitím doplňující informace o typech jednotlivých elementů, především o elementu, který má sloužit
184
SLOVNÍKOVÁ DATA VE FORMÁTU XML
jako klíč při vyhledávání, vytváří indexy pro velmi výkonné vyhodnocování dotazů.
Systém MAXXL také definuje vlastní dotazovací jazyk, který dovoluje zadávat specializované dotazy potřebné pro přístup k slovníkovým datům
(spojené např. s propojením na morfologický analyzátor a expanzí dotazu na
všechny slovní tvary odpovídající příslušnému morfologickému vzoru). Nad
serverovou částí je vystavěno klientské grafické uživatelské rozhraní DictView,
zjednodušující zadávání nejčastějších typů dotazů.
Systém MAXXL je masivně využíván při přípravě dat pro nový morfologický analyzátor češtiny (Sedláček, Smrž 2001), kdy je vedle dat ze SSJČ prezentován rovněž obsah SSČ (Slovníku spisovné češtiny pro školu a veřejnost)
a SCS (Akademického slovníku cizích slov). Během tohoto používání již systém prokázal svoje kvality, především spolehlivost a rychlost vyhledávání.
Předpokládá se rovněž využití při práci na české části projektu Balkanet, jehož
cílem je rozšířit stávající lexikální databáze typu WordNet.
6. Závěrečná doporučení pro řešitele obdobných projektů
Shrňme na závěr tohoto článku naše zkušenosti získané během převádění
slovníků do formátu XML. Tato část může být chápána jako snaha o formulaci
jednoduchých doporučení, která by mohla pomoci řešitelům obdobných projektů.
Při převodu slovníkových dat, ať už z papírové podoby či z elektronické
verze v jiném formátu, se často nevyhneme použití WYSIWYG textových editorů typu MS Word (např. i díky přímému vstupu z aplikace OCR). Tyto prostředky obyčejně skrývají logickou strukturu textu, kterou je potom obtížné oddělit od konkrétní formy prezentace. Proto je vždy velmi výhodné:
1. Detailně rozmyslet a předem si uvědomit, které elementy bude třeba
identifikovat, aby byla respektována požadovaná cílová struktura dat.
2. Pokud jsou data převáděna z tištěné podoby, např. pomocí technologií
OCR, je nanejvýš vhodné, nejlépe ještě před započetím práce, rozhodně
však před provedením vizuálních kontrol, probrat tuto fázi s těmi, kdo
budou vlastní převodní programy implementovat. Předejde se tak totiž
zbytečné práci, kterou bylo možné provést již při prvotní kontrole a která
zdržuje všechny následné činnosti.
3. Používat přímo v editoru značkování, dovolující člověku snadno postřehnout i drobné nedostatky, např. chybně rozpoznaný řez písma, párové
185
PAVEL SMRŽ
znaky neodpovídající si typem písma atd. Nanejvýš vhodné je vedle typů
písma využít barevného rozlišení různé informace obsažené v heslech.
Například aplikace MS Word dovoluje takové náhrady pomocí definovaných maker, vše lze tedy provést stiskem jediného tlačítka a u kratších
dokumentů (např. výše zmíněná kontrola vždy po deseti stranách textu)
není záměna nijak časově náročná.
Aby se předešlo problémům spojeným s nejednoznačností obsahu slovníkových hesel, měly by být pro vytváření nových a rozsáhlejší úpravy existujících zdrojů používány pokud možno nástroje dovolující pracovat přímo s cílovou podobou XML. Takové nástroje často teprve vznikají a je otázkou, jak má
vypadat vizuální podoba vlastní editace složitějších struktur. Nabízí se možnost
vyplňování určitého formuláře a současné vytváření definované vizuální podoby, či přímá editace vizualizované podoby se striktní kontrolou konzistence dat,
odpovídající definovaným podmínkám. Toto je dosud otevřený problém, který
tak nabízí prostor pro další výzkum.
Na úplný závěr dovolte zopakovat ne příliš optimistické konstatování
z textu, totiž, že převod slovníkových dat do „vysněné“ zamýšlené struktury je
téměř nekonečný proces, kterým je možné projít pouze postupnými, časově velmi náročnými kroky.
Literatura
ADLER, S. et al. 2000. Extensible Stylesheet Language (XSL). Version 1.0. W3C Proposed
Recommendation. http://www.w3.org/TR/xsl/.
BIRON, P. – MALHOTRA, A. 2001. XML Schema Part 2: Datatypes. W3C Recommendation.
http://www.w3.org/TR/xmlschema-2/.
BRAY, T. et al. 1999. Namespaces in XML. W3C Recommendation.
http://www.w3.org/TR/REC-xml-names/.
BRAY, T. et al. 2000. Extensible Markup Language (XML) 1.0 (Second Edition). W3C
Recommendation. http://www.w3.org/TR/1998/REC-xml.
COPESTAKE, A. 1995. ACQUILEX. http://www.cl.cam.ac.uk/Research/NL/acquilex/.
CHAHUNEAU, F. 1994. Current Approaches to SGML Up-translation. http://www.oasisopen.org/cover/fcha.html.
CHAMBERLIN, D. et al. 2001. XQuery 1.0: An XML Query Language. W3C Working Draft.
http://www.w3.org/TR/xquery/.
CLARK, J. 1999. XSL Transformations (XSLT). Version 1.0. W3C Recommendation.
http://www.w3.org/TR/xslt/.
CLARK, J. 2001. XSL Transformations (XSLT). Version 1.1. W3C Working Draft.
http://www.w3.org/TR/xslt11/.
186
SLOVNÍKOVÁ DATA VE FORMÁTU XML
CLARK, J. – DEROSE, S. 1999. XML Path Language (XPath). Version 1.0. W3C
Recommendation. http://www.w3.org/TR/xpath/.
DEROSE, S. et al. 2001a. XML Linking Language (XLink). Version 1.0. W3C
Recommendation. http://www.w3.org/TR/xlink/.
DEROSE, S. et al. 2001b. XML Pointer Language (XPointer). Version 1.0. W3C Last Call
Working Draft. http://www.w3.org/TR/xptr/.
ELLIOTT, L. 2001. How the Oxford English Dictionary Went Online. Ariadne, č. 24.
http://www.ariadne.ac.uk/issue24/oed-tech/.
ERJAVEC, T. – IDE, N. 1998. The MULTEXT-East Corpus. In: Proceedings of the 1st
International Conference on Language Resources and Evaluation, s. 971 – 974.
ERJAVEC, T. et al. 2000. The Concede Model for Lexical Databases. In: Proceedings of the 2nd
International Conference on Language Resources and Evaluation, s. 355 – 362.
http://nl.ijs.si/et/Bib/LREC00/lrec-cnc.ps.gz
EVANS, R. 1999. CONCEDE: Consortium for Central European Dictionary Encoding.
http://www.itri.bton.ac.uk/projects/concede/.
IDE, N. 2000. The XML Framework and Its Implications for the Development of Natural
Language Processing Tools. In: Proceedings of the COLING Workshop on Using Toolsets and
Architectures to Build NLP Systems.
KARÁSEK, L. 2000. Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků.
Diplomová práce. Brno: Fakulta informatiky Masarykovy univerzity.
KILGARRIFF, A. 1999. Public Progress Report: Deliverable 0.2.1, CONCEDE Project.
http://www.itri.bton.ac.uk/projects/concede/DR0.2.1_no_pointers.html.
MILLER, G. 1990. Five Papers on WordNet. CSL Report 43. Princeton: Cognitive Science
Laboratory, Princeton University.
PETKEVIČ, V. 2000. Návrh DTD pro SSJČ – 1. verze.
SEDLÁČEK, R. – SMRŽ, P. 2001. A New Czech Morphological Analyser ajka. In:
Proceedings of the 4th International Conference on Text, Speech and Dialogue.
THOMPSON, H. S. et al. 2001. XML Schema Part 1: Structures. W3C Recommendation.
http://www.w3.org/TR/xmlschema-1/.
187
POČÍTAČOVÁ PODPORA SLOVENSKÝCH
LEXIKOGRAFICKÝCH PROJEKTOV –
RETROSPEKTÍVNY POHĽAD
Vladimír Benko: Laboratórium počítačovej lingvistiky Pedagogickej fakulty Univerzity Komenského; Jazykovedný ústav Ľudovíta
Štúra Slovenskej akadémie vied, Bratislava (Vladimir.Benko@fedu.
uniba.sk)
Abstract: A short case history of several computationally supported Slovak lexicographical projects is
presented. A proprietary Markup Language MOM is introduced, with examples of entry representiations
of the dictionaries in question, and also some technological problems of our approach are discussed.
1. Úvod
Lexikografia ako aplikovaná jazykovedná disciplína je oblasťou, ktorá sa
príchodom počítačov zmenila v rámci lingvistiky azda najviac. Myšlienka nahradenia tradičných lexikografických nástrojov – ceruzky, papiera a škatúľ s
excerpčnými lístkami – klávesnicou, obrazovkou a diskom počítača je natoľko
priamočiara, že pokusy o aplikáciu počítačov v lexikografii začali hneď, keď
ich cena poklesla na úroveň, ktorú si aj naše lexikografické pracoviská mohli
dovoliť zaplatiť. Dnes síce parametre počítačov toho obdobia vyvolávajú úsmev
(PC XT, 640 MB operačnej pamäte, pevný disk s kapacitou 20 MB, grafická
karta EGA), podstatné však bolo, že sa na nich dal spustiť textový procesor
schopný vytvoriť text so všetkými slovenskými diakritickými znamienkami a vytlačiť ho pomocou (rachotiacej 9-ihličkovej) tlačiarne na papier. Bolo to v roku
1990.
V skutočnosti sa počítače aj v našich podmienkach dotkli procesu zrodu
slovníka ešte o niečo skôr – v tlačiarňach sa už v polovici 80. rokov používali na
sadzbu počítačové terminály a počítačom ovládané osvitové jednotky. Tieto počítače však boli veľké („sálové“) a drahé a práce lexikografov sa priamo nedotkli.
Je zrejmé, že použitie počítačov pri tvorbe slovníka sa nemôže obmedziť
len na prípravu tlačových podkladov – právom sa očakáva, že pomôžu zefektívniť a skvalitniť všetky etapy životného cyklu lexikografického diela. V našom
príspevku chceme podať stručný pohľad na nedávnu históriu i súčasnosť niekoľkých počítačom podporovaných lexikografických projektov, ktorých výsled188
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD
kom bola publikácia slovníkov, či už nových alebo vydaných v opravených a
doplnených vydaniach. Príspevok má formu stručných prípadových štúdií
obohatených o niekoľko osobných postrehov.
2. Prvé kroky: Krátky slovník slovenského jazyka
Náš prvý kontakt s lexikografickým dielom v počítačovej podobe sa
uskutočnil v roku 1988. Bolo to v bratislavskej tlačiarni Svornosť, kde sme sa
náhodou a s úžasom dozvedeli, že sadzbu 1. vydania Krátkeho slovníka slovenského jazyka (1987, ďalej len KSSJ) bude pravdepodobne treba vymazať (tak,
ako sa to rutinne robilo aj s inými textami) pre nedostatok miesta na disku...
Príbeh „záchrany“ tohto cenného lexikálneho materiálu a jeho prevodu do tvaru spracovateľného na štandardnom osobnom počítači sme podrobnejšie opísali
na inom mieste (Benko – Kostolanský 1997). Tu sa obmedzíme len na konštatovanie, že toto dielo vlastne iniciovalo našu spoluprácu s Jazykovedným ústavom
Ľudovíta Štúra SAV (ďalej len JÚĽŠ), ktorá pretrváva až dodnes.
Naším cieľom pri tomto projekte bolo jednak to, aby autori slovníka mohli
v budúcnosti jednoduchšie a rýchlejšie pripraviť nové vydanie KSSJ, ako aj to,
aby sa materiál z diela mohol zužitkovať ako zdroj údajov do pripravovanej
lexikálnej databázy slovenského jazyka. Z dnešného pohľadu však za jeho hlavný výsledok možno považovať návrh značkovacieho jazyka MOM1, ktorý sa
osvedčil natoľko, že bol následne (s niektorými malými zmenami a rozšíreniami) použitý v niekoľkých ďalších lexikografických projektoch realizovaných
v JÚĽŠ. Tento jazyk vznikal postupne počas analýzy typografického formátu
KSSJ a pôvodne mal slúžiť len na vizualizáciu typografických povelov, ktoré v
pôvodnom formáte mali netlačiteľnú reprezentáciu. Nakoniec sa však podarilo
pomocou automatizovaných procedúr prekonvertovať do takejto formy celý text
KSSJ, pričom sa v plnej miere zachovali informácie o štruktúre slovníka z
hľadiska typografickej reprezentácie a vznikol materiál, ktorý sa mohol stať základom pre ručné opravy a modifikácie textu.
Zápis textu v jazyku MOM vychádza z týchto základných pravidiel:
1.
Text slovníka sa reprezentuje pomocou štandardnej množiny tlačiteľných
znakov na danej počítačovej platforme, napr. v prostredí systému MS-DOS
1
Názov pochádza z odpovede na otázku, ktorú sme často dostávali na odborných podujatiach:
„Are you using SGML?“ – „No, I am using My Own Markup.“
189
VLADIMÍR BENKO
2.
3.
4.
5.
6.
sa použilo tzv. kódovanie Kamenických, ktoré bolo v tom čase (1989)
u nás na osobných počítačoch de facto štandardom.
Základnou spracúvanou jednotkou textu je heslová stať, ktorú tvorí súvislý blok textu ukončený prázdnym riadkom.
Riadky začínajúce znakom „!“ sa považujú za identifikačné (môže to byť
napr. číslo kartotečného lístka, z ktorého bolo heslo prepísané do počítača, prípadne číslo hesla vytvorené ľubovoľným spôsobom).
Riadky začínajúce znakom „?“ sa považujú za komentár.
Typografické vlastnosti textu sa reprezentujú takto:
a) Text v "úvodzovkách" reprezentuje (polo)tučné písmo.
b) Text v 'apostrofoch' predstavuje kurzívu.
c) Text v |zvislých paliciach| reprezentuje zmenšené písmo (obyčajne
nonpareille).
d) Ďalšie typy, rezy, prípadne veľkosti písma možno reprezentovať pomocou dvojíc znakov percento (%), tilda (~), plus (+), rovná sa (=),
zavináč (@) alebo ampersand (&).
e) Pred horným indexom sa píše znak strieška (^).
f) Znaky s vysokou frekvenciou v texte, ktoré nie sú obsiahnuté v základnom súbore (napr. grafická značka pred frazeológiou, odkazová
šípka), sa zapisujú pomocou dvojice znakov, z ktorých prvý je znak
dolár ($).
g) Znaky s diakritikou, ktoré nie sú obsiahnuté v miestnom súbore
znakov a majú vysokú frekvenciu, sa reprezentujú pomocou trojice
znakov, z ktorých prvý je znak bez diakritického znamienka a druhý
je znak opačná lomka (\).
h) Na všetky ostatné typografické situácie (napr. grécke písmo, dolné indexy, špeciálne grafické symboly) je možné ad hoc zaviesť skratku
uzavretú v dvojici uhlových zátvoriek (< a >).
Na zvýšenie čitateľnosti textu sa odporúča členiť heslovú stať na odseky
predstavujúce štruktúrne jednotky textu (jednotlivé významy heslového
slova, prihniezdované heslové slová). Toto členenie sa však pri ďalšom
spracovaní ignoruje.
Ako príklad zápisu vo formáte MOM uvádzame úryvok textu KSSJ:
!041a03_
"baba^1" -y báb |ž.|
190
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD
"1." |hovor.| stará žena: ’stará b.’
"2." |pejor.| nepríjemná, zlá, protivná žena:
’klebetná, zlostná b.’
"3." |slang.| mladá žena, dievča: ’b-y z
internátu’
"4." |hovor.| pôrodná asistentka: ’pôrodná b.’
"5." |pejor.| zbabelec, bojazlivec, slaboch:
’nebuď b.!’
"6." ’slepá b.’ det. hra: ’hrať sa na slepú b-u’
|i fraz.| pretvarovať sa
$@ ’čo sa b-e (za)chcelo, to sa b-e (pri)snilo’;
"babský" |príd. k 1-5|: ’b-é lieky’ domáce,
ľudové; ’b-é klebety, reči’; |slang. pejor.| ’b.
internát’ dievčenský; ’b-é správanie’ zbabelé,
slabošské;
"babsky" |prísl.|;
"babisko" -a -bísk |s., N a A jedn. i ž. zvel.
pejor. k 1, 2|
!041a04_
"baba^2" -y báb |ž. hovor.|
"1." prázdny koláč
"2." haruľa: ’zemiaková b.’
"3." pandrava chrústa
"4." jaternica z hrubého čreva
!041a05_
"bába" -y báb |ž. det.| báb(i)ka: ’hrať sa s b-ou’
!041a06_
"bábä" -äťa |mn.| -ätá/-ence -bät/-beniec, "bábo"
-a báb |s. hovor.| novorodeniatko: ’budú mať b.’;
"bábätko" -a -tiek |s. zdrob.|
!041a07_
"babí" |príd.|: ’b-ie leto’ slnečné dni na konci
leta; pavučinkové vlákna poletujúce vo vzduchu v
tomto období;
|pren.| začiatok staroby
Ako sme už spomenuli, v čase spracovania textu KSSJ sa ešte vôbec neuvažovalo o ďalšom vydaní slovníka, takže sme údaje použili „len“ ako materiál pre morfologickú databázu slovenského jazyka (Benko – Hašanová –
Kostolanský 2001), ktorá neskoršie vznikla v Laboratóriu počítačovej lingvisti-
191
VLADIMÍR BENKO
ky Pedagogickej fakulty UK. Skúsenosti a nástroje vytvorené počas tohto
projektu sa však veľmi rýchlo uplatnili už v nasledujúcom slovníkovom diele.
3. Na konci životného cyklu slovníka: Slovník slovenských nárečí (I. zväzok)
Začiatkom 90-tych rokov pretrvávali pri vydávaní slovníkov ešte staré „socialistické“ pomery, kde nebolo nezvyčajné, že publikácia pripravená do tlače
čakala na svoje vydanie aj niekoľko rokov. Autori lexikografických diel tomu
čiastočne čelili (a čiastočne to aj zneužívali) tým, že koniec prác na slovníku
deklarovali v predstihu, pričom sa mlčky predpokladalo, že záverečné redakčné
práce sa vykonajú počas „čakacieho“ obdobia a dlhých intervalov tlačiarenských
korektúr.
Tak to bolo aj v prípade prvého zväzku Slovníka slovenských nárečí
(1994, ďalej len SSN): čistopis textu prepísaný na písacom stroji s (ručne) farebne vyznačenými typmi písma bol podľa vtedajších zvyklostí pripravený na
štítkoch v škatuliach a čakal na odvezenie do tlačiarne. Tak vznikla myšlienka
uskutočniť v tomto medzičase (nešpecifikovanej dĺžky) experiment, 2 ktorý by
overil možnosť využitia počítača pri ďalšom koncipovaní textu slovníka. Počas
experimentu bolo prepísaných niekoľko strán skoncipovaného diela vo formáte
MOM a bol vytvorený program na jeho prevod do formátu vhodného na import
do zalamovacieho systému FERRANTI-TRACT, ktorý sa vtedy používal v
tlačiarňach Svornosť na sadzbu slovníkov. Išlo vlastne o opačný smer prenosu
dát, ako sa predtým uskutočnil s textom KSSJ, takže získané skúsenosti boli veľmi cenné.
Experiment sa vydaril – autori slovníka po prvýkrát uvideli návrh grafickej podoby diela, na ktorom už veľa rokov pracovali, ale výsledok sa zdal byť
ešte v nedohľadne. Ukázalo sa tiež, že formát MOM sa dá dobre použiť nielen na
reprezentáciu textu získaného prevodom z iného systému, ale je vhodný aj na
prvotné písanie textu. „Prepisovači“ (a neskoršie aj autori) si na značkovanú
podobu textu veľmi rýchlo zvykli a prijali ju za svoju a neskoršie, keď sa robili
experimenty so systémami typu WYSIWYG, vyhlásili značkovanú podobu za výhodnejšiu pre prácu lexikografa. (Len malý príklad: na počítačovom termináli je
dosť ťažké rozlíšiť, či spojka „i“ je alebo nie je napísaná kurzívou.)
2
Treba poznamenať, že táto iniciatíva pochádzala od dvoch vtedajších mladých doktorandiek
Gabriely Barančokovej-Múcskovej a Ľubice Dvornickej z nárečového oddelenia JÚĽŠ, ktoré sa ujali
prvotného prepisovania textu na jednom z troch vtedajších počítačov v JÚĽŠ – na PC XT.
192
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD
Dôsledkom tohto experimentu bolo rozhodnutie prepísať na počítači časť
textu skoncipovaného slovníka pochádzajúceho od autorov, ktorí už kolektív
opustili, a vykonať s týmto textom ešte jedno kolo redakčných prác. Neskoršie,
keď sa tlačiarenský termín stále odďaľoval, sa takto spracoval aj zvyšok textu
slovníka.
Z hľadiska štruktúry heslovej state a zvolenej grafickej reprezentácie
jednotlivých jej prvkov sa SSN veľmi podobá na KSSJ. Na prvý pohľad udrie
do očí len pravopis používaný pri zápise nárečových dokladov, ktorý obsahuje
niektoré znaky neznáme v spisovnom pravopise (napr. ć alebo ś), a informácia
o lokalite, z ktorej daný doklad pochádza. Na zápis uvedených znakov sa použila
notácia so znakom „opačná lomka“, čiže napr. znak ć sa zapísal ako c\’, a na
lokality sa zaviedol „nový pár“ operátorových zátvoriek (hranatých) s tým, že
ich výsledná grafická podoba sa určí neskôr. Príklad časti textu SSN vo formáte
MOM je na nasledujúcom obrázku:
!1
"čaba" |ž.| i "čabiak" |m. vin.| sorta skorého bieleho stolového hrozna,
čabianska perla: ’Bola čaba, malaga, to boli skoré hrozni na jedzení’
[Limbach MOD]; ’To boli záliskové hrozni, na čabe ešče dozráli’ [Vinosady
MOD]; ’V águste uš čabág zraje’ [Jur p. Brat. BRA]; ’Bol bílí, červení tokaj,
portogézija, čabák’ [Bernolákovo BRA]
!2
"čabaňa^1" i "čabanka" |ž. trn, pov, jtrenč| malá nádoba s uškom (obyč.
porcelánová al. hlinená), z ktorej sa pije: ’Vipila sis kávu s čabani?’ [Vaďovce
MYJ]; ’Boli také kamené hrnčeki, kamenáčki, aj čabanka sa im hovorilo’
[Vinosady MOD]; ’čabaňa’ [Bošáca TRČ]; ’čabanka’ [Ružindol
TRN]
!3
"čabaňa^2" i "čabianka" |ž.| (’čabanka’) |vin.| sorta skorého bieleho
stolového hrozna, čabianska perla: ’Stolové hrozne boli strapág aj čabana’
[Vištuk MOD]; ’Mán tam rizlink, portugal, mán tan čabanu’ [Bučany HLO]; ’Je
čabaňa a bílí samorodák, kerí má velice slatkú chuť podobnú čabaňe’
[Nitra]; ’Mávali zme skorú sortu čabanku’ [Trakovice HLO]; ’čabianka’
[Pukanec LVI]
!4
"čabarok" |m.| druh chrobáka obžierajúceho lístie stromov, |zool.| chrúst
obyčajný (Melolontha vulgaris): ’Čabarog vľecel do chiži’ [Medzany SAB]
!6
"čabda" |ž. gem| pasca na vtáky: ’čabda’ [Revúca]
193
VLADIMÍR BENKO
Hlavným problémom reprezentácie slovníkového textu vo formáte MOM
bolo to, že sa pri prepise často zabudlo na otváraciu alebo zatváraciu operátorovú zátvorku. Rozhodli sme sa preto vytvoriť kontrolný program, ktorý zhodu
zátvoriek kontroluje a upozorňuje na všetky „nevyváženosti“ výpisom riadkov
textu, v ktorom sa problém vyskytol. Tento program sa neskôr stal základom
validačného parsera, ktorý kontroluje správnosť syntaxe heslových statí a štandardne upozorňuje na tieto chyby:
1.
2.
3.
4.
5.
6.
nevyváženosť nepárových operátorových zátvoriek;
nevyváženosť párových zátvoriek (pričom tieto môžu byť aj vnorené);
chýbajúce alebo nadbytočné medzery okolo interpunkčných znamienok
(ide o bodku, čiarku, dvojbodku, bodkočiarku, výkričník, otáznik a operátorové zátvorky);
viacnásobné medzery v texte (často indikujúce napr. chýbajúce jednoznakové predložky alebo spojky);
postupnosť čísel významov (označených polotučným písmom; algoritmus je tu veľmi jednoduchý: ak sa vyskytne polotučná číslovka, musí to
byť buď jednotka, alebo číslo o jednotku väčšie, ako bol jej predchádzajúci výskyt v danej heslovej stati);
postupnosť písmen „a)“ až „z)“ v rôznych zoznamoch (berie sa do úvahy
aj možnosť „ch)“).
Voliteľne možno navyše žiadať o tieto kontroly:
7.
8.
postupnosť čísel v identifikačných riadkoch začínujúcich výkričníkom
(takto sa často objaví vynechanie kartičky pri prepisovaní);
prítomnosť nadbytočných medzier na začiatku riadka.
Možno povedať, že pomocou validačného parsera sa hneď v zárodku dá
odstrániť veľké množstvo chýb, ktoré sa pri klasickom spôsobe práce zdĺhavo
hľadali v korektúrach. Zároveň sa postupne zlepšujú aj pisárske návyky autorov
textu s tým, že časom sa počet chýb kontrolovaných typov už pri prvotnom
vstupe podstatne zníži.
V prvých projektoch sme procedúru validačného parsera modifikovali pre
každý nový kontrolovaný slovník, dnešná podoba programu je už rovnaká pre
viacero projektov, pričom odlišnosť vo funkcii sa špecifikuje pomocou vstupných parametrov.
194
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD
Celkovo možno konštatovať, že použitie počítača v projekte SSN síce neprinieslo skrátenie prác, zato však kvalita textu podstatne stúpla.
4. Recyklácia skúseností a nástrojov: Historický slovník slovenského jazyka (III. a IV. zväzok)
V čase dokončovania prác na 1. zväzku SSN mal iný slovníkový projekt –
Historický slovník slovenského jazyka (ďalej len HSSJ) – za sebou už dva zväzky: HSSJ I (1992) a HSSJ II (1993), ktoré boli vytlačené tradičnou technológiou.
Po skúsenostiach so SSN sa vedenie JÚĽŠ rozhodlo využiť počítačovú
technológiu aj pri tomto projekte, ktorý bol v podobnej etape rozpracovania ako
SSN I. Vzhľadom na nedostatok pisárskej kapacity na pracovisku sa však text
prepisoval externe, pričom dodávateľ bol schopný pracovať len vo formáte textového procesora T602, na ktorý boli jeho pracovníčky zvyknuté. Keďže program T602 neumožňuje pracovať s rôznymi veľkosťami písma, bolo toto písmo
zapisované pomocou písma podčiarknutého.
Štruktúra heslovej state HSSJ je veľmi podobná s predchádzajúcimi, pričom rozdiely sú dané jednak charakterom dokladového materiálu (zapisovaného v historickom pravopise) a jednak tým, že bola zvolená „opačná“ konvencia
pri reze písma v zápise výkladov a dokladov: výklady sú v HSSJ zapísané kurzívou a doklady obyčajným stojatým písmom.3
!2774d
"oťažiť" [otíž-] |dk práv|
"1." |koho| ’zaťažiť obžalobou, obžalovať niekoho’: kdyz gemu to bude
nagdeno, ze on to dobrze muoz vdielati, tehdy otižes (!) geho podle prawa,
kterak sie gma geho podgiti, ze by gemu mohlo ku pomoczy przigiti k geho
prawu |ŽK 1473|
"2." |komu čo| ’priťažiť niekomu (v súdnom spore)’: kterzyz z nich nagprwe
vmrze, ten obdrzy zalobu a onomu geho rany obtizy |ŽK 1473|
!2774d
"otcovizeň" |p.| "otčizeň"
!2775a
"otcovsko-materinský" |príd| ’týkajúci sa otca i matky’: z običajuv, vúle,
zádosti a činuv otcovskomaterinskích mnoho do dítek prelívano bíva
|BR 1785|
3
Takáto konvencia je obvyklá v niektorých českých lexikografických dielach.
195
VLADIMÍR BENKO
!2775b
"otcovský" |p.| "otec"
!2775c
"otcovstvo" [-o, -í] |s| ’stav toho, kto je otcom’: klekam na swá kolena k Otcy
Pana nasseho Gežjsse Krysta, z kterehožto každe otcowstwo na neby y na
zemy gmenuge se |SK 1697|; nagmilostiwegšý ten Pán i w panstwú swém
na otcowstwj swé |BN 1790|; otcoustvi zalezi v tom, že gich za svich
uznava, duszi telem opatruge, wiučuge, napomina, pokutuge |SS 18. st|
!2775d
"otcozabíjač" |m| ’otcov vrah’: pribyhagú wogáci, publikáni, kúrwi,
modloslužebnjci, otcúwzabigaci, čzarodewnjci, swodnjci |BlR 18. st|
Pri spracovaní textu slovníka sa už do značnej miery dosiahla úspora
programátorskej práce – využili sa hotové nástroje, ktoré bolo treba len mierne
upraviť – a ako úplne nová vznikla len procedúra konverzie z formátu programu T602 do formátu MOM. Ukázalo sa, že je to proces vcelku priamočiary.
Jediným vážnejším problémom bola iná konvencia pri zápise „typu písma“ pri
znaku „medzera“: formát MOM predpokladá, že úvodná a koncová medzera
pri vyznačenom type písma je zapísaná obyčajným písmom, zatiaľ čo vo formáte T602 medzera vždy má rovnaký typ písma ako predchádzajúci text. Na elimináciu tohto problému sa však dala pomerne ľahko vytvoriť automatizovaná
procedúra, takže redakčné práce už mohli počítať s textom v štandardnej podobe.
Pri príprave tlačových podkladov sa ukázala ešte jedna výhoda toho, že
text je v počítačovej podobe: pri odhade počtu vytlačených strán vysvitlo, že
pripravený text bude potrebné rozdeliť do dvoch zväzkov (HSSJ III 1994
a HSSJ IV 1995) – počas celého obdobia koncipovania textu autori mali značne
skreslenú predstavu o tom, koľko ho vlastne je.
5. Trochu iný slovník: Synonymický slovník slovenčiny
Projekt Synonymického slovníka slovenčiny (1995, ďalej len SSS) sa z
pohľadu autorov líšil od predchádzajúcich najmä v spôsobe rozdelenia materiálu medzi jednotlivých členov kolektívu. Na rozdiel od tradičného členenia
textu na „písmená“ tu autori pracovali „podľa slovných druhov“ – táto taktika
bola asi jediná možná vzhľadom na to, že synonymia predstavuje vzťahy medzi
slovami toho istého slovného druhu, a tiež vzhľadom na veľké množstvo odka196
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD
zov, ktoré museli autori pri tvorbe synonymických radov zohľadniť a spracovať. O tomto projekte podrobnejšie porov. Pisárčiková – Benko (1996). Tu sa
obmedzíme len na niekoľko poznámok. Nasledujúci obrázok obsahuje príklad
textu SSS:
!a69
"čudácky" |p.| čudný
!s115
"čudák" človek, ktorého správanie, prejavy sa vymykajú norme: ’v mladosti
bol čudák’, |hovor. expr.| "patrón": ’je to čudný patrón, nechodí do
spoločnosti’, |expr.:| "odľud, čudo" [J. Horák], |zastar.| "podivín"
!a70
"čudesný" |p.| čudný
!s116
"čudeso" |p.| zázrak
!a71
"čudný" ktorý sa vyznačuje mimoriadnosťou, zriedkavosťou; ktorý je málo
známy, ktorý sa nedá presne pomenovať, určiť, "neobyčajný, nezvyčajný,
nevšedný, zvláštny" (|op.| obyčajný, bežný, všedný): ’čudný, neobyčajný
príbeh; čudné, nezvyčajné správanie; nezvyčajný, nevšedný, zvláštny
strom’, "divný, podivný, podivuhodný, podozrivý, znepokojujúci"
(vzbudzujúci údiv, počudovanie, znepokojenie): ’začuť divné, podivné,
podivuhodné zvuky; podozrivé, znepokojujúce ticho’, "čudácky" (typický pre
čudáka): ’vedie čudácky život’, |kniž.:| "bizarný, pitoreskný": ’bizarné,
pitoreskné tvary’, |expr.:| "čudesný, prečudesný, prečudný, predivný,
prepodivný, prapodivný, prazvláštny", |expr. zried.| "pračudný" (veľmi
čudný): ’čudesná, prečudesná, prečudná krajina; prepodivný, pračudný
pocit’, "nepochopiteľný, záhadný, tajomný" (plný tajomstva, nepoznaný,
nepreskúmaný): ’nepochopiteľná, záhadná osoba; tajomné symboly’,
"nevysvetliteľný": ’nevysvetliteľná záhada, nevysvetliteľný úkaz’
!s117
"čudo" "1." |p.| zázrak "2." |p.| strašidlo 1 "3." |p.| čudák
!v78
"čudovať sa" pociťovať a prejavovať prekvapenie, údiv, "diviť sa, byť
prekvapený": ’diváci sa čudujú, divia, sú prekvapení, že sa predstavenie
ešte nezačalo’, "žasnúť, byť ohromený" (čudovať sa vo veľkej miere): ’žasli
sme nad výkonmi športovcov’, |expr.:| "vyvaľovať oči, otvárať oči, híkať,
ochkať, achkať": ’čudujem sa toľkej odvahe, otváram oči nad toľkou
odvahou; čuduje sa, híka, achká nad toľkou krásou’, "prekvapuje ma" (iba v
3. os.): ’čudujem sa tomu, prekvapuje ma to’, |fraz. expr.| "oči mu vyliezajú
z jamiek/jamôk" (pri veľkom prekvapení)
197
VLADIMÍR BENKO
Aj keď sme sa o tom pri predchádzajúcich projektoch nezmieňovali,
jedným z nástrojov vytvorených na výsledné spracovanie textu slovníka bol
program na abecedné usporiadanie hesiel vo formáte MOM. Vzhľadom na to,
že autori dodávali jednotlivé úryvky textu už abecedne usporiadané, poslúžil
tento program „len“ na zisťovanie drobných chýb, ktorých sa autori pri ručnom
usporadúvaní dopustili. V projekte SSS však existencia takéhoto nástroja bola
takmer nevyhnutnosťou – ručné usporiadanie takto rozsiahleho textu je síce
možné uskutočniť, ale bola by to obrovská práca.
Nebudeme sa tu zmieňovať o nuansách a teoretických i praktických problémoch implementácie programu na abecedné usporadúvanie, spomenieme len, že
na danom projekte prešiel skúškou ohňom a že je to z celého balíka vytvorených
nástrojov pravdepodobne „najotestovanejší“ program. Jeho použitie umožňovalo
autorom, aby až do posledného momentu mohli pracovať len so „svojím“ textom,
ktorý sa stal súčasťou výsledného tvaru slovníka pri každom korektúrnom cykle
nanovo.
Druhou oblasťou problémov bola verifikácia správnosti odkazov: v heslových statiach sú jednotlivé členy synonymických radov uvádzané v poradí
klesajúcej zhody významu s tzv. dominantou, t. j. základným členom synonymického radu. Aby mohol používateľ slovníka nájsť príslušnosť jednotlivých
členov synonymického radu k dominantám, musí byť každý člen radu uvedený
v slovníku na správnom mieste podľa abecedného poradia vo forme odkazu.
V ideálnom prípade by sa všetky takéto odkazy dali vygenerovať automaticky – v praxi to však nebolo možné z viacerých dôvodov. Prvým je skutočnosť, že ak sa heslové slovo vyskytuje vo viacerých synonymických radoch,
musia byť aj odkazy členené podľa jednotlivých významov slova, t. j. autor
musí pri spracúvaní odkazov zohľadňovať polysémiu. Ďalej, koncepcia slovníka predpokladala, že členy radov s učitými charakteristikami (napr. nespisovné
alebo nárečové slová) sa vo forme odkazov uvádzať nebudú, pretože sa neočakáva, že by používateľ slovníka takúto informáciu v diele hľadal. A nakoniec,
technológia práce autora bola v skutočnosti iteratívna – v niekoľkých kolách sa
pre každý význam polysémického slova autor rozhodoval, či ho spracuje ako
dominantu synonymického radu alebo len vo forme odkazu. Tieto dôvody viedli
k tomu, že odkazy nebolo možné vytvoriť automaticky, ale bolo ich potrebné
verifikovať. Navrhnutá procedúra zaradila každý odkaz a každý výskyt slova v
synonymickom rade do jednej z kategórií:
198
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD
1.
2.
3.
Správny odkaz: pre člen synonymického radu existuje odkazová položka
na správnom mieste v abecede.
Chýbajúci odkaz: pre člen synonymického radu neexistuje odkazová
položka – príčinou môže byť buď rozhodnutie autora, alebo omyl.
Nadbytočný odkaz: pre danú položku neexistuje buď daná dominanta,
na ktorú slovo odkazuje, alebo pri existujúcej dominante dané slovo
nefiguruje ako člen synonymického radu.
Okrem toho procedúra umožnila odhaliť duplicity v synonymických radoch, t. j. situácie, keď sa dané slovo vyskytuje v synonymickom rade viackrát
(obyčajne na rôznych miestach), ktorých bolo na počudovanie niekoľko
desiatok. Chyby druhého a tretieho typu boli buď „čisté“, t. j. autorské omyly
v zmysle definície, alebo sa často vyskytovali aj v dôsledku preklepov v zápise
príslušných slov – takéto prípady boli indikované dvojicou chybových zápisov
(druhého a tretieho typu) týkajúcou sa tej istej chyby. Vlastné opravy chýb v odkazoch si síce vždy vyžadovali autorskú prácu, táto však bola uľahčená presnou
informáciu o lokalizácii problému v dvojici synonymický rad – odkaz.
Procedúra verifikácie a ručných opráv prebehla v niekoľkých cykloch, pričom po každom jej kole počet nájdených chýb podstatne poklesol: z pôvodných
niekoľko tisícok až na niekoľko desiatok na konci opravného procesu. Pri
prvom kole bolo z rôznych dôvodov označených za chybné takmer 10 % odkazov – táto skutočnosť jasne demonštruje, že bez použitia automatizovaných verifikačných procedúr by takýto slovník v rozumnej kvalite ani nebolo možné
pripraviť.
6. Kruh sa uzatvára: tretie vydanie Krátkeho slovníka slovenského jazyka
Práca na novom vydaní KSSJ bola pre nás značnou satisfakciou – pri autorských zásahoch bolo možné použiť elektronickú verziu druhého vydania, čo
celý proces skrátilo podľa našich odhadov minimálne o jeden rok. Súbor nástrojov na spracovanie textu bol už v podstate uzavretý a organizácia práce prebiehala rutinným spôsobom. Zmienime sa tu preto len o jednom novom prvku
použitom pri redakčných prácach – o prezentácii zmien urobených v slovníku.
Porovnávanie dvoch textov pomocou počítača je pomerne priamočiary proces,
problematické je však efektívne zobrazenie nájdených rozdielov. Ako príklad
nášho riešenia uvedieme vizualizáciu rozdielov v heslároch obidvoch vydaní
KSSJ, ktorá sa osvedčila v takejto dvojstĺpcovej podobe:
199
VLADIMÍR BENKO
2c-056c18 "celieť sa"
3c-003___ "celebrovať"
3c-056c70
3c-056c70
3c-004___
3c-004a__
3c-057a73
3c-005___
3c-006___
3c-006___
3c-007___
3c-008___
"celiť"
"celiť sa"
"celoplošne"
"celosieťový"
"celulózovo-papiernický"
"centiliter"
"certifikácia"
"certifikačný"
"cestovka"
"cezhraničný"
2c-058b04 "CGT"
2c-058b05 "CIA"
2c-058b15 "CIC"
2c-059a01 "cigánčina"
3c-009___ "ciachovné"
3c-009a__ "cicavý"
3c-059a01 "cigánčina^1"
3c-059a51 "cigánčina^2"
V ľavom stĺpci sa nachádzajú heslové slová, ktoré sa vyskytujú v 2. vydaní
KSSJ a v 3. vydaní boli vynechané, v pravom stĺpci sú novopridané heslové slová
v 3. vydaní. Ako vidíme, v novom vydaní boli vynechané iniciálové skratky, pribudlo veľa nových hesiel a k niektorým heslám boli pridané homonymá.
Takýto spôsob prezentácie rozdielov si autori veľmi obľúbili, a preto sme
ho použili aj v iných projektoch, ako aj na vizualizáciu rozdielov medzi heslármi rôznych slovníkov.
7. Záver: O čom sme nehovorili a čo nás ešte čaká
Predchádzajúce kapitoly sa stručne dotkli počítačového spracovania niekoľkých slovenských slovníkov. V štúdii daného rozsahu sme sa jednotlivým
projektom nemohli venovať podrobnejšie, a tak sme nespomenuli napr. pomerne efektívnu metódu vyhľadávania chybných zápisov jednotlivých prvkov metajazyka slovníka (akými sú napr. rôzne kvalifikátory a údaje o prameňoch, citáciách a lokalitách), ako aj metodiku na unifikáciu výkladových parafráz pri
heslách patriacich do rovnakej lexikálnej skupiny. Nezmienili sme sa o ostatných lexikografických projektoch využívajúcich uvedenú technológiu – ide o
niekoľko prekladových slovníkov na jednej strane spektra, ktoré na druhej
200
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD
strane siaha až po nový projekt viaczväzkového slovníka súčasnej slovenčiny.
Predpokladáme, že tieto údaje budeme môcť uviesť v budúcej monografii.
Všetky naše doterajšie práce sa vykonávali nad tzv. slabo štruktúrovaným textom, kde je text slovníka reprezentovaný pomocou značkovacieho jazyka blízkeho typografickej reprezentácii. Má to viacero príčin. Na prvom mieste treba
uviesť stav technického a programového zabezpečenia v čase, keď sa naše
projekty začínali – v roku 1989 sa ešte vôbec nedalo uvažovať ani o systémoch
typu WYSIWYG, ani o platforme schopnej spracúvať text reprezentovaný v jazyku SGML. Počas celého uvažovaného obdobia sme pociťovali akútny nedostatok
programátorskej kapacity – realizovateľné boli len tzv. „lacné riešenia“. No a nakoniec tu bol tlak bežiacich projektov: v časovej tiesni sa obyčajne dáva prednosť
„vrabcovi v hrsti“ (MOM) pred „holubom na streche“ (SGML a všetko, čo s tým
súvisí).
Nechceme však povedať, že sme túto cestu zavrhli. S počítačmi so stále
rastúcou výkonnosťou, dostupnejšími nástrojmi pre prácu s jazykmi SGML
a XML a s črtajúcim sa projektom nového korpusového pracoviska v JÚĽŠ SAV
dúfame, že ono – v tomto zborníku už citované (Smrž 2001) – „... Maybe Later“ bude aj u nás hovoriť o budúcnosti nie príliš vzdialenej.
Literatúra
BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 2001. Morfologická
databáza ohybných slovných druhov slovenčiny na účely algoritmického spracovania textov. In: Jazykovedný časopis, roč. 52, č. 1, s. 3 – 23.
BENKO, Vladimír – KOSTOLANSKÝ, Eduard. 1997. Počítačová verzia Krátkeho slovníka
slovenského jazyka. In: Jazykovedný časopis, roč. 48, č. 1, s. 9 – 20.
KAČALA, Ján – PISARČÍKOVÁ, Mária (eds.). 1987. (1. vydanie). Krátky slovník slovenského jazyka. Bratislava: Veda.
KAČALA, Ján – PISARČÍKOVÁ, Mária – POVAŽAJ, Matej (eds.). 1997. (3. vydanie). Krátky
slovník slovenského jazyka. Bratislava: Veda.
MAJTÁN, Milan (ed.). 1992. (1. vydanie). Historický slovník slovenského jazyka. I. zv. Bratislava: Veda.
MAJTÁN, Milan (ed.). 1993. (1. vydanie). Historický slovník slovenského jazyka. II. zv. Bratislava: Veda.
MAJTÁN, Milan (ed.). 1994. (1. vydanie). Historický slovník slovenského jazyka. III. zv. Bratislava: Veda.
MAJTÁN, Milan (ed.). 1995. (1. vydanie). Historický slovník slovenského jazyka. IV. zv. Bratislava: Veda.
201
VLADIMÍR BENKO
PISÁRČIKOVÁ, M. – BENKO, V. 1996. Slovak Synonym Dictionary. In: Gallerstam, M. et al.
(eds.), EURALEX ’96. Proceedings of the Seventh EURALEX International Congress on Lexicography. Göteborg: Götebog University, s. 689 – 696.
RIPKA, Ivor (ed.). 1994. (1. vydanie). Slovník slovenských nárečí. I. zv. Bratislava: Veda
SMRŽ, Pavel 2001. Slovníková data ve formátu XML. In: Alexandra Jarošová (ed.), Slovenčina a čeština v počítačovom spracovaní. Bratislava: Veda, s.168.
202
203
S L O V E N Č I N A
A Č E Š T I N A
V P O Č Í TA Č O V O M
S P R A C O VA N Í
Návrh obálky Hana Kohútová (s použitím grafického motívu P. Kleeho)
Zodpovedná redaktorka Jitka Madarásová
Prvé vydanie. Vydala VEDA, vydavateľstvo Slovenskej akadémie vied, v Bratislave roku 2001 ako svoju 3378. publikáciu, z tlačových podkladov Jazykovedného ústavu Ľudovíta Štúra SAV. 196 strán.
ISBN 80-224-0692-9

Podobné dokumenty

oznámení o doručení písemnosti veřejnou vyhláškou

oznámení o doručení písemnosti veřejnou vyhláškou OZNÁMENÍ O DORUČENÍ PÍSEMNOSTI VEŘEJNOU VYHLÁŠKOU VoZP ČR tímto v souladu s § 53b) zák. č. 48/1997 Sb., o veřejném zdravotním pojištění a § 26d) zák. č. 592/1992 Sb., o pojistném na veřejné zdravot...

Více

OBJEMOVÉ PRŮTOKY V [m3 h-1] - Katedra technických zařízení

OBJEMOVÉ PRŮTOKY V [m3 h-1] - Katedra technických zařízení  Objemové průtoky zemního plynu u jednotlivých typů spotřebičů – ORIENTAČNÍ!!! Výkon Q Objemový průtok V Typ pro Typ spotřebiče výpočet [kW] [m3 h-1] A) Plynový sporák MORA PS – 2 hořáky MORA PS 1...

Více

T-Mobile MDA

T-Mobile MDA Přepnutí na funkci Transcriber: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24 Použití interpunkčních znamének ve funkci Trans...

Více

Praxe Vnější vazby budovy zajišťované TZB Technická Zařízení Budov

Praxe Vnější vazby budovy zajišťované TZB Technická Zařízení Budov prof.. Ing. Ing. Karel Karel Kabele, Kabele, CSc. CSc.

Více