od cuni.cz - Český národní korpus

Komentáře

Transkript

od cuni.cz - Český národní korpus
korpusová
lingvistika
Praha 2014
20 let mapování češtiny
Abstrakty
IV. pražská konference korpusové lingvistiky
pořádaná u příležitosti 20. výročí založení
Českého národního korpusu
17.–19. září 2014
Tato publikace vznikla v rámci Programu rozvoje vědních oblastí na Univerzitě Karlově č. P11 Český národní korpus, podprogram Český národní korpus.
Obsah
Plenární přednášky
Paul Baker
Counting all the cherries: using corpora to analyse discourses..................... 12
Cyril Belica
Kookurenčná analýza a jazykové štruktúry........................................................ 13
Neil Bermel
Mapování jazykové variability ve světle korpusové frekvence
a odpovědí rodilých mluvčích................................................................................ 14
Karel Kučera
Dvacet let poté........................................................................................................... 15
Konferenční příspěvky
Lucie Benešová, Michal Křen, Martina Waclawičová
Korpus spontánní mluvené češtiny ORAL2013.................................................. 18
Vladimír Benko
Je webový korpus „horší“?...................................................................................... 21
Tilman Berger, Stefan Heck
Performativní užívání dokonavého prézentu v češtině
ve srovnání s jinými slovanskými jazyky............................................................ 24
Aleš Bičan
Fonologický lexikální korpus češtiny a jeho analýza........................................ 27
František Cvrček, Karel Pala, Pavel Rychlý
Chování slov a jejich kolokací v jazyce právních subdomén.......................... 29
Václav Cvrček, Jiří Václavík
Kvantitativní pohled na kontextovou desambiguaci......................................... 32
3
Tomáš Čapka, Michal Křen, Petr Truneček
SynKorp: prostředí pro správu a zpracování textů............................................ 35
Radek Čech, Emmerich Kelih, Ján Mačutek
Vliv sémantiky na vlastnosti pádové distribuce podstatných
jmen v češtině............................................................................................................. 39
František Čermák
Kolokace a kolokabilita synsémantik: Substituty a interjekce........................ 41
Alena M. Černá
Staročeské lexémy „nemoc“, „neduh“, „nedostatek“ – jejich
sémantická a gramatická charakteristika............................................................. 43
Lenka Fárová
Uvozovací slovesa v překladech typologicky rozdílných jazyků................... 45
Jarmila Fictumová, Jiří Rambousek
Jak se mění zrádná slova?........................................................................................ 48
Masako Fidler, Václav Cvrček
Prezidentské projevy: Analýza tematické výstavby a řečových
strategií pomocí KWords ........................................................................................ 51
Markus Giger
Subjektová rezultativa v češtině ve srovnání s ruštinou.................................. 53
Hana Goláňová, Marie Kopřivová
Kartografické a geografické zpracování dat z mluvených korpusů............... 55
Zbigniew Greń
Formální variabilita nejnovějších anglicismů v češtině, polštině
a slovenštině (na korpusovém materiálu)............................................................ 57
Milena Hebal-Jezierska
Obraz(y) Američana a Angličana v korpusech českého,
slovenského a polského jazyka.............................................................................. 60
Jiří Hedánek
GLOSSA, metajazyk pro popis zvukové stránky textu..................................... 62
4
Zdeňka Hladká
Užití korpusu korespondenčních textů KSK111 k sledování
dynamiky české slovní zásoby ve 20. století....................................................... 64
Jaroslava Hlaváčová
Vyjádření intenzity slovesného děje pomocí předpon...................................... 66
Milena Hnátková
Automatická identifikace ustálených kolokací v diachronních textech....... 68
Jana Hoffmannová, Olga Richterová
Si představ, se nediv, ti to ukážu… Jednoslabičné začátky
syntaktických segmentů v mluvené češtině........................................................ 71
Andrzej Charciarek
Národní korpusy a velké překladové polsko-české
a česko-polské slovníky........................................................................................... 73
Pavla Chejnová
Využití korpusu dětské řeči k popisu akvizice
morfologických kategorií......................................................................................... 77
Lucie Chlumská
Je čeština v překladech jiná? ................................................................................. 78
Lucie Jílková
Vy jste mi z té otázky utekl! (analýza jednoho způsobu vymáhání
odpovědi, s využitím korpusových dokladů)...................................................... 81
Karel Jirásek
Identifikace typologických rozdílů mezi češtinou a chorvatštinou
za pomoci paralelního korpusu InterCorp........................................................... 84
Elżbieta Kaczmarska, Alexandr Rosen, Jirka Hana
Jak najít optimální překlad polysémních sloves – porovnání
metod automatické analýzy paralelních textů.................................................... 86
Tomáš Káňa
Česká nesubstantivní deminutiva a jejich protějšky
v němčině a angličtině.............................................................................................. 89
5
Adam Kilgarriff, Pavel Rychlý, Miloš Jakubíček, Vojtěch Kovář,
Vít Suchomel, Jan Bušta, Vít Baisa, Jan Michelfeit
Multilingual data processing in Sketch Engine.................................................. 92
Petra Klimešová, Zuzana Komrsková,
Marie Kopřivová, David Lukeš
Co že to je? K tvaru to v mluvených korpusech ČNK........................................ 95
Ivana Kolářová
Slovesa odvozená od adverbií jako periferie slovotvorného
systému (na materiále Českého národního korpusu)....................................... 99
Veronika Kolářová
Preference v souvýskytu aktantů u českých substantiv mluvení................ 102
Pavel Kosek
Vývoj slovosledu kondicionálového auxiliáru v češtině................................. 106
Dominika Kováříková
Slovní druhy v mluvené a psané češtině............................................................ 110
Boris Lehečka
Obsah a značkování diachronního korpusu češtiny........................................ 112
Eva Lehečková
Konstrukční specifika dvou sémantických typů obouvidových
sloves v češtině......................................................................................................... 114
Martina Lev
Voľné datívy a DcI-konštrukcie. Distribučná štúdia na materiáli
podkorpusu českého synchrónneho korpusu SYN2010
a podkorpusu ruského osnovného korpusu...................................................... 118
Michaela Lišková, Helena Pernicová
Pojmenování barev a jejich odstínů v Akademickém slovníku
současné češtiny...................................................................................................... 122
David Lukeš
Perspektivy fonetické anotace v korpusech mluveného jazyka................... 125
6
Jiří Mácha
Ke kategorizaci plurálií a singulárií tantum – kvantitativní
analýza sufixů........................................................................................................... 128
Markéta Malá
Překladové protějšky jako ukazatele významu: čeština
a angličtina v paralelním korpusu InterCorp.................................................... 130
Michaela Martinková, Martin Šimon
Enklitická partikule pak: korpusová studie....................................................... 133
Tereza Mašková, Vojtěch Ripka
Korpus jazyka StB.................................................................................................... 135
Vít Michalec, Vojtěch Veselý
K souborovému a kolektivně-látkovému významu
substantiv s převahou plurálových tvarů.......................................................... 138
Aksana Mikalayenka
Homonymní příslovce a předložky a problematika
jejich disambiguace v Českém národním korpusu.......................................... 141
Květoslava Musilová
Slovakismy v současné češtině............................................................................. 144
Petr Nádeníček
Různá pojetí slovotvorné konverze ve světle národních
korpusů slovanských a germánských jazyků.................................................... 147
Olga Navrátilová
Slovosled nominální fráze ve staré češtině........................................................ 150
Renata Novotná
Antropomorfický princip u konkrétních neživotných
substantiv: názvy nebeských těles....................................................................... 152
Klára Osolsobě
Korpusy jako zdroje dat pro úpravy nástrojů automatické
morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí
a jejich morfologické značkování)....................................................................... 155
7
Hana Peloušková
O nepříjemných pocitech. Specifické konstrukce s několika
německými slovesy a jejich protějšky v češtině............................................... 158
Vladimír Petkevič
Slovnědruhová a morfologická homonymie, homografie
a homofonie v současné češtině........................................................................... 160
Žaneta Pixová
Čeština soudních rozhodnutí ve světle korpusu.............................................. 164
Petr Plecháč
Korpus českého verše a možnosti jeho využití................................................. 166
Alena Polická
K možnostem zkoumání (identitární) neologie v ČNK a IC.......................... 167
Alena Poncarová
Sestavování korpusu pro syntaktickou anotaci – práce na celý život?...... 169
Petr Pořízka
Olomoucký mluvený korpus – pilotní verze.................................................... 171
Olga Richterová, Anna Čermáková
Jak malá je malá místnůstka? Korpusová studie deminutivnosti
se zaměřením na sémantické aspekty................................................................. 175
Alexandr Rosen, Michala Adamová, Martin Vavřín
Extrakce lexikálních ekvivalentů z paralelního korpusu............................... 177
Hana Skoumalová, Jiří Znamenáček, Vladimír Petkevič
Využití valenčních slovníků při tvorbě českého treebanku........................... 179
Tess Slavíčková
Investigating nepřizpůsobivý (inadaptable) as a keyword in
critical analysis of Czech press reports on Roma............................................. 182
Jindra Světlá
Uvádění stupňovaných tvarů u adjektiv a adverbií v novém
všeobecném výkladovém slovníku češtiny....................................................... 184
8
Karel Šebesta
Využití speciálních korpusů Českého národního korpusu pro
výzkum jazykového vývoje žáků......................................................................... 187
Magda Ševčíková
Přípona -ství/-ctví v současné češtině (korpus jako zdroj dat
pro zkoumání slovotvorby)................................................................................... 189
Mária Šimková
Predložky s časovým významom v slovenčine a v češtine............................ 193
Jana Šindlerová
Alternace aktoru a instrumentu v paralelním
česko-anglickém korpusu...................................................................................... 195
Svatava Škodová, Michaela Kuchařová, Václav Lábus,
Jasňa Pacovská
Reflexe proměn užívání češtiny na základě mluveného korpusu
zpravodajského vysílání Českého rozhlasu v letech 1969–2005 ................. 199
Michal Škrabal, Lubomír Ďuroška
Cizojazyčné protějšky slov druh a soudruh: situace v lotyštině
a slovinštině.............................................................................................................. 201
Jitka Šonková
Rozdíly v rozsahu slovní zásoby v Pražském mluveném korpusu:
Kdo má bohatší slovník – junioři, senioři, muži nebo ženy? ....................... 204
Jovanka Šotolová, Olga Nádvorníková
Za hranice věty........................................................................................................ 205
Barbora Štindlová, Veronika Čurdová, David Beneš
Merlin: Multilingvální platforma pro evropské referenční úrovně.............. 208
Tamás Tölgyesi
Německé přejímky v běžně mluvené češtině na základě
korpusu ORAL2013................................................................................................. 211
Marie Vachková
Paradigmatika a syntagmatika v překladovém slovníku................................ 215
9
Kateřina Veselovská
Sestry manžel byl kamaráda bratr – ke slovoslednému postavení
neshodného atributu vyjádřeného substantivem v genitivu......................... 217
Pavel Vondřička
InterText: upečte si vlastní paralelní korpus..................................................... 219
Uliana Yazhinova
Syntactic reduplication in Czech and Slovak (corpus-based approach)..... 222
Anna Zitová, Martin Stluka
K některým morfologickým zvláštnostem starších českých textů
(především 19. století)............................................................................................. 224
Richard Změlík
Možnosti jazykového korpusu pro literárněvědnou analýzu
na příkladu autorského slovníku Jana Čepa..................................................... 227
10
Plenární přednášky
Paul Baker
Dapartment of Linguistics and English Language, Lancaster University
[email protected]
Counting all the cherries: using corpora to analyse
discourses
Corpora are (usually) very large collections of electronically stored, naturally occurring texts that are aimed to be representative of a particular language variety. They are analysed with the help of computer software which
use a combination of statistical tests and ways of presenting data that enable
salient patterns of language to be identified. Partington et al (2013: 11) argue
that corpus approaches can thus help to uncover “non-obvious meaning”.
In this talk I examine how corpus techniques can be used to analyse discourses or “ways of making sense of the world”. As Fairclough (1989: 54)
points out “A single text on its own is quite insignificant: the effects of media
power are cumulative, working through the repetition of particular ways of
handling causality and agency, particular ways of positioning the reader,
and so forth”, so it is through the repetition of language that we are able to
obtain evidence for stable discourses in societies.
Using examples from my own research, I discuss techniques based around
comparing frequencies, collocation, keywords, concordances and dispersion
data in order to demonstrate how this method of analysis can be implemented. I employ data from tabloid news, parliamentary debates, personal advertisements and spoken conversations in order to ask – what can corpora tell
us about discourse that we wouldn’t necessarily have gained from introspection or qualitative analysis of a small number of texts? The talk ends with a
discussion of some of the potential pitfalls of this approach.
References
Fairclough, N. (1989). Language and Power. London: Longman.
Partington, A., Dugiud, A. & Taylor, Ch. (2013). Patterns and Meanings in
Discourse. Theory and practice in corpus-assisted discourse studies
(CADS). Amsterdam: John Benjamins.
12
Cyril Belica
Institut für Deutsche Sprache, Mannheim
[email protected]
Kookurenčná analýza a jazykové štruktúry
Kookurenčná analýza má svoje pevné miesto v korpusovej lingvistike už
niekoľko desťročí. Vo svojom klasickom variante, keď voliteľnými veličinami
sú len veľkosť kontextu, konkrétna funkcia miery asociácie a cieľová lexikálna jednotka, slúži predovšetkým ako prostriedok na kvantifikovanie asociačných vzťahov medzi dvojicami slov v korpuse.
Nad rámec tejto v podstate deskriptívnej funkcie však kookurenčnú analýzu možno chápať aj ako metodické východisko pri abdukcii hypotéz interpretujúcich rozmanité druhy pravidelností pozorovaných v ľubovoľnej
jazykovej produkcii. Prednáška je venovaná predovšetkým tomuto pohľadu
na možnosti kookurenčnej analýzy, s dôrazom na význam viacčlenných kookurencií a syntagmatických vzorcov najmä pre výskum jazykov s relatívne
voľným slovosledom.
Na pozadí metód vyvinutých začiatkom deväťdesiatych rokov v Ústave
nemeckého jazyka (IDS) v Mannheime ukazuje, ako sa pomocou kombinácie
kookurenčnej a zhlukovej analýzy dajú v korpusoch izolovať komplexné,
mnohovrstevné štruktúry stimulujúce abduktívny prístup k výskumu jazyka. Explanatívny potenciál týchto štruktúr, osobitne z pohľadu lexikálnej
sémantiky, je v prednáške načrtnutý na niekoľkých príkladoch interpretácie
zhlukovej analýzy kookurenčných profilov lexikálnych jednotiek pomocou
neurónových sietí.
13
Neil Bermel
Russian and Slavonic Studies, The University of Sheffield
[email protected]
Mapování jazykové variability ve světle korpusové
frekvence a odpovědí rodilých mluvčích
Tvrzení, že nám korpus umožní nahlédnout do lingvistických vlastností textů, které v nich najdeme, není kontroverzní. Pokud ale chceme vyvodit, že
díky korpusu získáme náhled do jazyka (nebo jazykové variety), ve kterém
jsou jeho texty psány, názory nejsou jednotné. K čemu jsou tedy korpusy v
mapování struktury jazyka?
Pokud by se měla korpusová data jako doklady Saussurovského parole
vztahovat k jazykové produkci, počet a proporce tvarů v korpusu by měly
hrát významnou roli ve volbách rodilých mluvčích. Pokud ale vycházíme z
předpokladu, že korpus odráží jazykové prostředí, které uživatele obklopuje
a není přímou ukázkou jeho jazykových dovedností, měli bychom vztahovat
korpusová data spíše k hodnocením a posudkům uživatele.
Výsledky našich sond do některých „konkurujících si“ morfů v českém
deklinačním systému ukazují, že korpusová data mají předpovědní hodnotu jak pro posudky rodilých mluvčích, tak pro užití jednotlivých jevů, a to
v daných případech více než jakýkoliv další činitel. Vysokou předpovědní
schopnost vzhledem k volbě a hodnocení tvarů má proporcionální frekvence
jevů v korpusu; absolutní frekvence se zdá hrát jen vedlejší roli. Nejjasněji
a nejmarkantněji se to odráží na volbě mezi tvary, ale co se týče posudků,
zjevná neochota mluvčích označovat méně užívané tvary za „nepřijatelné“
nabízí možné vysvětlení, proč se tato variabilita v češtině po staletí udržuje.
14
Karel Kučera
Ústav Českého národního korpusu FF UK
[email protected]
Dvacet let poté
Dvacátého výročí založení Ústavu Českého národního korpusu bude v příspěvku využito jednak ke krátkému přehledu nejvýznamnějších výstupů
série pěti- až sedmiletých projektů zaměřených na budování korpusového
komplexu Českého národního korpusu (ČNK), jednak – především – ke shrnutí hlavních zásad, které se v tomto komplexu uplatňují, a k naznačení
představ a plánů týkajících se jeho dalšího rozvoje v budoucnosti. V rozsahu omezeném formou konferenčního příspěvku bude pozornost věnována
základním problémům spojeným s obecnými principy (zejména koncepci
reprezentativnosti), s možnostmi lingvistické interpretace a značkování korpusových dat, s předpokládanými směry rozvoje korpusového softwaru a se
získáváním jazykových dat.
Jádro příspěvku je koncipováno jako zamyšlení nad výhodami i nevýhodami přístupů, které byly v minulosti zvoleny v jednotlivých složkách ČNK
(synchronní psané a mluvené korpusy, diachronní korpusy, paralelní korpusy, specializované korpusy), nad současnými problémy i nad problémy, které
bude třeba řešit v budoucnu, mimo jiné v souvislosti se snahou, aby ČNK v
co největší šíři reflektoval komunikační spektrum současného českého jazyka (aktuální potřeba adekvátně zachytit jazyk SMS, různých druhů internetové komunikace ap.) a souvisleji a hlouběji mapoval diachronii češtiny.
15
Konferenční příspěvky
Lucie Benešová
Ústav Českého národního korpusu FF UK
[email protected]
Michal Křen
Ústav Českého národního korpusu FF UK
[email protected]
Martina Waclawičová
Ústav Českého národního korpusu FF UK
[email protected]
Korpus spontánní mluvené češtiny ORAL2013
Příspěvek představí nedávno zveřejněný korpus spontánní mluvené češtiny
ORAL2013 (Válková et al. 2012), který je výsledkem projektu realizovaného
v ÚČNK FF UK v Praze. Korpus je přístupný všem registrovaným uživatelům
na adrese <http://korpus.cz> a zachycuje reprezentativní materiál představující autentický mluvený jazyk v neformálních komunikačních situacích.
V příspěvku se zaměříme především na představení základní koncepce
korpusu ORAL2013, popíšeme způsob transkripce i řešení praktických otázek při sběru dat. Součástí prezentace bude také ukázka práce s korpusem
v novém webovém rozhraní KonText.
Korpus ORAL2013 se skládá z 835 nahrávek z let 2008–2011 a obsahuje
více než 2,7 milionu textových slov (3 285 508 tokenů včetně interpunkce)
v přepisech celkem 2 544 mluvčích (z toho 1 297 unikátních). Celková délka
nahrávek je 17 471 minut, tj. téměř 300 hodin.
ORAL2013 je v pořadí již třetím korpusem řady ORAL, která vzniká jako
součást ČNK. Je tedy přirozené, že v mnohém navazuje na své předchůdce,
korpusy neformální mluvené češtiny ORAL2006 (Kopřivová & Waclawičová
2006) a ORAL2008 (Waclawičová et al. 2009). Důležitým rysem celé řady je
především zachycení prototypicky mluveného jazyka (Čermák 2009); nahrávány byly proto pouze situace splňující následující kritéria:
• fyzická přítomnost mluvčích;
• dialogičnost promluv (rozhovor dvou nebo více mluvčích);
• vzájemný blízký vztah mluvčích;
• nepřipravenost, spontánnost;
• neveřejná a neoficiální komunikační situace.
18
Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak,
že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK.
Korpus ORAL2013 se zároveň od svých předchůdců odlišuje v následujících bodech.
• Pokrytí celého území ČR, tj. Čech, Moravy a Slezska.
• Propojení přepisu se zvukovou stopou v transkripčním programu
Transcriber (Geoffrois et al. 2000); uživatel si tak může ve webových
rozhraních ke každému zobrazenému výrazu přehrát odpovídající část
zvukové stopy (segment), a poslechnout si tak jeho realizaci.
• Použití pauzové interpunkce, která nahradila původní syntaktickou.
• Označení překryvů replik více mluvčích.
• Označení shodných mluvčích, kteří vystupují ve více nahrávkách; toto
označení je přístupné pomocí náhodně vygenerované „přezdívky“, která je pro daného mluvčího v celém korpusu stejná.
• Uvádění informace o typu komunikační situace.
• Odlišné pojetí vyváženosti dat. Při sběru dat jsme usilovali o maximální
regionální pokrytí a různorodost mluvčích, materiál byl proto průběžně
vyvažován v těchto hlavních sociolingvistických kategoriích: pohlaví,
věková skupina (mladší/starší mluvčí), vzdělání a oblast pobytu mluvčího v dětství (podle tradičního Běličova dialektologického členění používaného v Českém jazykovém atlase, Balhar et al. 1992–2011). Na rozdíl
od korpusu ORAL2008 jsme však nepřistoupili k závěrečnému výběru,
jehož výsledkem by bylo plné vyvážení korpusu. Znamenalo by to totiž
zbavování se cenného materiálu v situaci, kdy je korpus už dostatečně
reprezentativní, zatímco jeho hypotetická „ideální“ vyváženost by byla
jednak sporná (zvláště její regionální faktor), a jednak by nebyla ani
potřebná, protože nové webové rozhraní umožňuje práci s relativními
(a tedy srovnatelnými) frekvencemi. Složení korpusu v základních socio­
lingvistických kategoriích uvádíme v následujících tabulkách:
Pohlaví
Věková skupina
Vzdělání
ženy
1 359 761
mladší (18–34 let)
1 458 386
nižší
1 515 732
muži
1 425 428
starší (35 let a výš)
1 326 803
vyšší
1 269 457
Tabulka 1: Počet slov v hlavních kategoriích.
19
Oblast pobytu v dětství
středočeská
severovýchodočeská
jihozápadočeská
české pohraničí
česko-moravská
středomoravská
východomoravská
slezská
moravské pohraničí
počet slov
570 283
353 486
315 716
191 553
83 478
503 391
359 249
317 087
90 946
Tabulka 2: Počet slov podle převažující oblasti pobytu v dětství.
Literatura
Balhar, J. (Ed.) (1992–2011). Český jazykový atlas, 1–6. Praha: Academia.
Čermák, F. (2009). Spoken corpora design. Their constitutive parameters. International Journal of Corpus Linguistics, 14 (1), 113–123.
Geoffrois, E., Barras, C., Bird, S. & Wu, Z. (2000). Transcribing with annotation graphs. In: Proceedings from The Second International Conference
on Language Resources and Evaluation (LREC), 1517–1521.
Kopřivová, M. & Waclawičová, M. (2006). Representativeness of spoken corpora on the example of the new spoken corpora of the Czech language.
In: Труды международной конференции „Корпусная лингвистика
– 2006“. Санкт-Петербург: Издательство СПбГУ, 174–181.
Válková, L., Waclawičová, M. & Křen, M. (2012). Balanced data repository
of spontaneous spoken Czech. In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC), 3345–
3349. Accessed January 30, 2014. http://www.lrec-conf.org/proceedings/
lrec2012/pdf/179_Paper.pdf.
Waclawičová, M., Křen, M. & Válková, L. (2009). Balanced corpus of informal
spoken Czech: compilation, design and findings. In Proceedings of the
10th Annual Conference of the International Speech Communication
Association INTERSPEECH 2009, 1819–1822.
20
Vladimír Benko
Jazykovedný ústav Ľ. Štúra SAV
[email protected]
Je webový korpus „horší“?
V súvislosti s takmer exponenciálnym rastom množstva textových dát
na internete stúpa zároveň záujem o ich lingvistické využitie. Okrem „naivného“ používania vyhľadávacích služieb na zisťovanie základných údajov
o frekvencii výskytu slov a slovných spojení, trochu pejoratívne označovaného ako „Google linguistics“ (porov. Kilgarriff 2007), sme aj svedkami
snáh o využitie dát z webu systematickejším a z hľadiska potrieb lingvistov
plnohodnotnejším spôsobom. Jedným z vývojových smerov v tejto oblasti
je tvorba webových korpusov, v rámci ktorej sa dáta vo veľkom objeme sťahujú z webu pomocou automatizovaných procedúr využívajúcich sofistikované stratégie hodnotenia obsahu jednotlivých webových lokalít z hľadiska
využiteľnosti v korpuse (Suchomel & Pomikálek 2012), následne sa filtrujú
a deduplikujú, takže výstup v textovej podobe možno ďalej spracovať štandardnými metódami a technológiami korpusovej lingvistiky (tokenizácia,
morfologická anotácia a spracovanie korpusovým manažérom).
Za posledné desaťročie sa tvorba webových korpusov etablovala ako samostatná oblasť korpusovej lingvistiky, má svoju sekciu v Asociácii pre počítačovú lingvistiku (ACL SIGWC), pravidelné konferencie (WAC) a dočkala
sa už aj prvej monografie (Schäfer & Bildhauer, 2013).
Okrem zjavných výhod webových korpusov oproti „tradičným“ (dajú sa
vytvoriť omnoho rýchlejšie a s neporovnateľne väčším rozsahom, obsahujú
aj žánre, registre a domény typicky absentujúce v tradičných korpusoch,
dáta sú k dispozícii prakticky pre ľubovoľný jazyk, nové tendencie v jazyku
sa v nich odrazia prakticky okamžite) majú samozrejme a veľa nedostatkov,
ktoré spôsobujú problémy nielen pri ich tvorbe a anotácii, ale aj pri lingvistických analýzach (len v nepatrnom rozsahu vieme ovplyvniť a dokonca aj
zistiť, aké texty vlastne obsahujú, a značná časť textov je „zašumená“, napr.
používa neštandardnú ortografiu prípadne jazykovú varietu, alebo obsahuje čiastočne nezmyselné slová v dôsledku chýb pri znakových konverziách,
filtrácii či identifikácii jazyka dokumentov. Pre jednotlivé dokumenty v korpuse je k dispozícii len minimálna bibliografická anotácia, väčšinou obmedzená len na adresu webovej stránky a dátum jej stiahnutia z webu. Vzhľa-
21
dom na technické obmedzenia procesu sťahovania dát z webu je principiálne nemožné určiť (socio)lingvisticky dôležitý parameter – dátum vzniku
dokumentu. Problémy sú aj s nejasnou situáciou ohľadne autorských práv
jednotlivých textov – pri počtoch dokumentov rádovo v miliónoch nie je
v silách žiadneho korpusového pracoviska riešiť túto otázku pre každý text
individuálne.
V súčasnosti už existuje veľa jazykov, pre ktoré okrem tradičných korpusov bol vytvorený aj webový korpus porovnateľného, či dokonca ešte väčšieho rozsahu. Každému (korpusovému) lingvistovi sa v takejto situácii prirodzene núkajú otázky: Aké dôsledky má pre môj výskum existencia dvoch
„vzoriek jazyka“ vytvorených odlišnou metodológiou a technológiou? Ktorá
z nich poskytuje vhodnejší podklad na zovšeobecnenie výsledkov? Je niektorý z korpusov „horší“?
Aj slovenčina patrí medzi jazyky, kde sa na takéto otázky môžeme pokúšať hľadať odpoveď. Je to dané projektom Slovenského národného korpusu, v rámci ktorého sa systematicky buduje tradičný korpus na báze textov
pokrytými autorskými právami (beletria, odborné publikácie a publicistika)
a tiež tým, že sa paralelne budujú aj webové korpusy. Hlavný korpus SNK
(6.1) má v súčasnosti rozsah okolo 830 miliónov tokenov a tri existujúce webové korpusy (vytvorené v rozličnom čase, rozličnými autormi a rozličnými
procedúrami) majú rozsahy (po deduplikácii na úrovni dokumentov) 195,
875 a 2 980 miliónov tokenov.
V príspevku opisujeme práve prebiehajúci experiment, v ktorom sa pokúšame potvrdiť alebo vyvrátiť tvrdenie, podporené našimi skúsenosťami
s prácou s webovými aj tradičnými korpusmi: „Webový korpus nie je „horší“
ako tradičný korpus rovnakého rozsahu. V prípade, že webový korpus je
väčší (čo je veľmi častý prípad), môže byť dokonca „lepší“, než korpus tradičný.“ Naše tvrdenie sa však obmedzuje len na použitie korpusu ohraničené
našou skúsenosťou, t. j. v lexikografii.
Experiment pozostáva z rekonfigurácie pôvodných korpusových dát tak,
aby vzniklo niekoľko webových korpusov s rovnakým rozsahom, ako má
referenčný tradičný korpus. Pre všetky korpusy vykonávame porovnanie
stupňa deduplikácie na úrovni odsekov a viet, štatistických parametrov pre
homogénnosť a vzájomnú podobnosť korpusov (Kilgarriff 2001), frekvenčnú distribúciu lexikálnych jednotiek a slovných druhov, formálnu úspešnosť
morfologickej anotácie (počty nerozpoznaných slovných tvarov), proporciu
úspešne detegovaného „šumu“, a na malých vzorkách aj jej reálnu chybovosť
22
morfologickej anotácie. Vlastným jadrom experimentu je porovnanie kolokačných profilov vybraných lexikálnych jednotiek z rôznych frekvenčných
pásiem vytvorených pomocou nástroja Sketch Engine (Kilgarriff et al. 2004).
Chceme ešte poznamenať, že v štádiu rozpracovania máme aj webový
korpus pre češtinu. Po jeho dokončení bude analogické porovnanie možné aj
medzi korpusmi budovanými v ÚČNK a týmto webovým korpusom.
Literatúra
Kilgarriff, A. (2001). Comparing Corpora. International Journal of Corpus
Linguistics, 6 (1), 97–133.
Kilgarriff, A. (2007). Googleology is Bad Science. Computational Linguistics
33 (1), 147–151.
Kilgarriff, A. et al. (2004). The Sketch Engine. In G. Williams & S. Vessier
(Eds.), Proceedings of the eleventh EURALEX International Congress
EURALEX 2004 Lorient, France, July 6-10, 2004. Lorient: Université de
Bretagne-Sud, 105–116.
Schäfer, R. & Bildhauer, F. (2013). Web Corpus Construction. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers.
Suchomel, V. & Pomikálek, J. (2012). Efficient Web Crawling for Large Text
Corpora. 7th Web as Corpus Workshop (WAC-7), Lyon, 2012.
23
Tilman Berger
Slavisches Seminar, Universität Tübingen
[email protected]
Stefan Heck
SFB 833, Universität Tübingen
[email protected]
Performativní užívání dokonavého prézentu
v češtině ve srovnání s jinými slovanskými jazyky
Náš příspěvek se zabývá užíváním dokonavého prézentu bez významu futura
v performativních kontextech, jako např. ve větě: Přiznám se, že tomu vůbec
nerozumím (SYN2010). Na tento fenomén jako první upozornil Koschmieder
(1930) a vysvětlil ho takzvanou „koincidencí“, tj. tím, že realiza­cí výpovědi
je také realizován děj popsaný slovesem. Uvedl polské příklady jako A teraz
poproszę o odprowadzenie do powozu nebo Tylko na baronową … ośmielę się
zwrócić uwagę. Performativní výpovědi, jak je později v rámci teorie řečových aktů popsali Austin (1962) a Searle (1969), jsou zvláštním případem
„koincidence“, která sama o sobě představuje širší koncept a obsahuje také
pří­pady s neperformativními slovesy.
O užívání dokonavého prézentu v performativním kontextu se psalo několikrát v rusistických pracích (srov. Forsyth 1970: 150; Bondarko 1971: 222;
Apresjan 1986: 215). O jiných slovanských jazycích se zmínil už Koschmieder
a potom krátce Galton (1976: 92–95). V rámci své velké studie o slovanském
vidu Dickey (2000: 175–202) předložil podrobnější rozbor tohoto fenoménu
ve všech slovanských jazycích. Podle jeho názoru se uží­vání dokonavých
sloves v performativní funkci různí v jednotlivých slovanských jazycích.
Zatímco v ruštině je daný fenomén omezen na podskupinu verb dicendi a na slovesa odkazující na okamžik výpovědi („mentální performativa“
v pojetí Rjabcevové (1992)), v polštině funguje u mnohem více verb dicendi
a také u „sociálních“ neboli „rituálních“ performativ podle Rjabcevové.
Ohledně češtiny můžeme pozorovat rozporuplnou situaci: Dickey
a po něm také Wiemer (v tisku) a Łaziński (rukopis) se domnívají, že je tam
situace podobná jako v polštině a dokonce naznačují, že by dokonavá performativa v češtině by mohla být ještě častější. Bohemistická aspek­tologická
literatura zase o tomto užívání dokonavého prézentu mlčí nebo jeho existen-
24
ci vysloveně popírá. Kopečný (1962: 35–36) sice diskutuje sporné příklady
z Seidelova článku z roku 1939 o užívání dokonavého prézentu, ale neříká
nic o jediném dokladu performativního slovesa, který je tam uveden (Nu jo,
já dovolím, Seidel 1939: 17). V mluvnicích češtiny jsme nic nenašli, kromě
Pří­ruční mluvnice češtiny (1996: 592), která tvrdí, že performativní výpovědi
jsou užívána „vždy v ne­dokonavém vidu“. Totéž tvrdí i Hirschová (2011),
která sice zná a cituje Apresjana, ale zastává ná­zor, že „je to spíše věc idiomatického charakteru takové výpovědi se smyslem důrazné žádosti, nikoli
specifického ‚typu performativnosti‘“ (Hirschová 2011: 155).
Pro naši studii jsme vybrali celkem 15 sloves ze studií Dickeyho, Wiemera
a Łazińského. Pro­zkoumali jsme, jak často se české, ruské a polské ekvivalenty vyskytují v korpusech (SYN2010, NKJP, NKRJa). Užívali jsme jen doklady
z přímé řeči a bez časové posloupnosti (která vylučuje performativnost). Došli jsme k několika prozatimním výsledkům, z nichž je nejdůležitější ten, že
dokonavá slovesa jsou užívána v češtině v podobném rozsahu jako v jiných
slovanských jazycích, ale nikoliv výrazně častěji. Jinak můžeme konstatovat
následující:
1. U řídkých nebo průměrně frekventovaných sloves (např. upřesním,
utočnju, uściślę) užívání ve všech třech jazycích je poměrně podobné.
2. U vysoce frekventovaných sloves může dojít k značným výkyvům:
např. je performativní užívání ruského poprošu značně častější než užívání českého poprosím nebo polského po­proszę, což se asi dá vysvětlit
tím, že prosím a proszę mají více významů a funkcí než ruské prošu
(konkurující s požalujsta).
3. V případech, kde podle Dickeyho a Wiemera dokonavé sloveso údajně
nevystupuje v rušti­ně, ale jen v češtině a polštině, dotyčná slovesa jsou
poměrně řídká také v češtině. To se týká např. sloves navrhnu a zaproponuję.
Literatura
Apresjan, Ju. D. (1986). Performativy v grammatike i v slovare. Izvestija Akademii nauk SSSR, 45, 208–223.
Austin, J. L. (1962). How to Do Things with Words. Oxford.
Bondarko, A. V. (1971). Vid i vremja russkogo glagola (značenie i upotreblenie). Moskva.
Dickey, S. (2000). Parameters of Slavic Aspect: A Cognitive Approach. Stanford.
25
Forsyth, J. (1970). A Grammar of Aspect: Usage and Meaning in the Russian
Verb. Cambridge.
Galton, H. (1976). The Main Functions of the Slavic Aspect. Skopje.
Hirschová, M. (2011). Slovesný vid a tzv. performativnost. In M. Ološtiak
et al. (Eds.), Vidy jazyka a jazykovedy. Na počesť Miloslavy Sokolovej.
Prešov, 151–161.
Kopečný, F. (1962). Slovesný vid v češtině. Praha.
Koschmieder, E. (1930). Durchkreuzungen von Aspekt- und Tempussystem
im Präsens. Zeitschrift für slavische Philologie, 7, 341–358.
Łaziński, M. (2012). The aspect of Polish performatives with regard to politeness rules. Rukopis.
Příruční mluvnice češtiny. (1996). Praha.
Rjabceva, N. K. (1992). Mental’nye performativy v naučnom diskurse. Voprosy Jazykoznanija 1992, 4, 12–28.
Searle, J. (1969). Speech Acts: An Essay in the Philosophy of Language. Cambridge.
Seidel, E. (1939). Zur Futurbedeutung des Praesens perfectivum im Slavischen. Slavia, 17, 1–32.
Wiemer, B. (v tisku). Upotreblenie soveršennogo vida v performativnom nastojaščem. Vyjde ve sborníku na počest V. S. Chrakovského.
26
Aleš Bičan
Ústav pro jazyk český AV ČR
[email protected]
Fonologický lexikální korpus češtiny a jeho analýza
Korpusová lingvistika se soustředí především na tvorbu korpusů určených
pro gramatickou analýzu češtiny. Korpusy však lze využít pro analýzu fonologické struktury jazyka, avšak tento aspekt zůstával doposud mimo zájem
lingvistů popisujících češtinu. Příspěvek představí fonologický korpus české
slovní zásoby a nabídne analýzu dat, které z něj lze získat.
Fonologický lexikální korpus češtiny je primárně korpusem fonologickým. Jeho zdrojem je seznam lexémů zahrnutých v Databázi heslářů (http://
lexiko.ujc.cas.cz/), jež obsahuje 855 329 hesel. V současné době je do našeho
korpusu zahrnuto přes 270 tisíc lexémů ze Slovníku spisovné češtiny, Slovníku
spisovného jazyka českého, Výslovnosti spisovné češtiny, Příručního slovníku
jazyka českého a dalších zdrojů.
Všechny lexémy jsou opatřeny fonologickou reprezentací, která vychází
z ortoepické výslovnosti. Fonologická reprezentace byla nejdříve získána automatickým převodem z ortografické podoby, následně však byl každý lexém
manuálně zkontrolován a případně opraven. Jelikož ze samotného českého
pravopisu nelze stoprocentně odvodit výslovnost (především v případě slov
cizího původu), byla kontrola nutná, aby se předešlo zkreslení a nepřesnostem způsobeným automatickou transkripcí. Tím jsme předešli problémům,
které jsou patrné u fonologické analýzy ČNK Bartoně et al. (2009), kteří též
použili automatickou transkripci, avšak bez následné kontroly. (Ačkoliv si
autoři zmíněné analýzy jsou zkreslení výsledků vědomi, pokládají je za zanedbatelné, s čímž lze polemizovat: např. slova struktury konsonant–konsonant (CC) mohou jen těžko patřit mezi sto nejčastějších typů slov (viz op.
cit. 109), jelikož čeština taková slova nemá, uvedenou strukturu mají pouze
zkratky.)
Data ve fonologickém lexikálním korpusu jsou uložena v formátu tabulky. Příklad záhlaví a jednoho hesla v korpusu je v následující tabulce.
27
stín Sťīn
4
1 CCVC APvA FOvN XUvX
ccQc ccHc ccGc 1
SSJČ
VSČ
SSČ
Quant
Vertic
Horiz
Voicing
Manner
Place
CVStr
Phtagms
Length
PhRep
Ortho
1 0
Sloupec Ortho udává pravopisnou podobu lexému a sloupec PhRep jeho
fonologickou reprezentaci. Sloupce Length až Quality udávají fonologické
vlastnosti lexémů a fonémů, které obsahují. Zbývající sloupce zaznamenávají, do kterého slovníku je lexém zařazen.
Fonologické vlastnosti fonémů, kterých se lexém skládá, jsou odvoditelné
z fonologické reprezentace a lze je chápat jako analogie gramatické anotace
v nefonologických korpusech. Sloupce Length, Phtagms udávají počet fonémů a počet slabik, sloupec CVStr pak strukturu lexému na základě členství
jeho fonémů ve třídě konsonantů či vokálů. Další sloupce vyjadřují distinktivní rysy konsonantů podle místa a způsobu artikulace a znělosti (Place,
Manner, Voicing) a distinktivní rysy vokálů podle horizontální a vertikální
polohy a kvantity (Horiz, Vertic, Quant). Písmena v uvedených sloupcích
jsou zkratky fonologických vlastností; např. APvA ve sloupci Place lze chápat takto: A = alveolární (odpovídající /S/), P = palatální (= odpovídající /ť/),
v = vokál (odpovídající /ī/), N = nazální (odpovídající /n/). Další sloupce,
např. s vyjádřením hranic slabik, budou do korpusu postupně přidávány.
Na základě uvedených sloupců, resp. fonologických vlastností celého lexému nebo jednotlivých fonémů je možné v korpusu vyhledávat a třídit data
podle definovatelných kritérií (např. jednoslabičné lexémy o šesti fonémech
obsahujících okluzívu a dlouhý vokál). Korpus je k dispozici na webové adrese http://www.ujc.cas.cz/phword/. Prozatím je volně přístupná jen jeho
ukázková část o počtu cca 50 000 hesel ze Slovníku spisovné češtiny, jež je
též doplněna o informaci o slovních druzích, podle které lze např. zkoumat
i fonologickou strukturu podstatných jmen oproti slovesům.
Data z lexikálního fonologického korpusu slouží, obdobně jako u gramatických korpusů, k lingvistické analýze. Příspěvek kromě představení tohoto
korpusu nabídne i fonologickou analýzu lexikální zásoby češtiny. Z korpusu
lze např. získat informace o frekvenci výskytu jednotlivých fonémů a jejich
tříd nebo frekvenci různých kombinací fonémů a vůbec informace o kombinovatelnosti fonémů. Rovněž můžeme získat informace o výskytu a frekvenci lexémů určité délky nebo struktury.
28
Literatura
Bartoň, T. et al. (2009). Statistiky čestiny. Praha.
František Cvrček
Ústav státu a práva AV ČR
[email protected]
Karel Pala
Fakulta informatiky Masarykovy univerzity
[email protected]
Pavel Rychlý
Fakulta informatiky Masarykovy univerzity
[email protected]
Chování slov a jejich kolokací v jazyce právních
subdomén
V článku věnujeme pozornost chování kolokací v právních subdoménách,
jako jsou texty zákonů, vyhlášek a nařízení. Porovnání slov samostatně
i slovních kolokací z jednotlivých typů právních textů poskytuje kvantifikovatelné údaje, které vypovídají o terminologické povaze pozorovaných kolokací. Z provedených měření a pozorování jasně plyne, že jazyk primárních
předpisů se značně liší od jazyka sekundárních předpisů.
Jako materiál posloužily korpusy: CzLaw čítající 20,6 mil. tokenů, který
se dále člení na subkorpus Primarni predpisy (Ústava a platné zákony ČR)
s 12,2 mil. tokeny a Sekundarni predpisy (vyhlášky a nařízení) s 8,4 mil. tokeny. Uvedené korpusy nejsou velké, ale základní kolokační tendence, o které nám jde, lze na nich dobře demonstrovat. Pro kontrastní analýzu jsme též
využili korpus CzechParl čítající 51,4 mil. tokenů, který obsahuje záznamy
projevů poslanců v Parlamentu ČR a má právní povahu. Jeho velikost lze pro
naše účely pokládat za více než dostačující.
29
V článku navazujeme na projekt PES (viz http://deb.fi.muni.cz/pes),
v němž se úspěšně kombinují korpusově lingvistické přístupy s právnickými. Jde o analýzu užití právnické terminologie v doktrinálním jazyce (základní učebnice práva z jednotlivých odvětví), v jazyce zákonů (korpus platných zákonů ČR včetně Ústavy ČR), v jazyce sekundárních předpisů (korpus
platných nařízení a vyhlášek ČR na centrální úrovni), v jazyce judikatury
(korpus judikatury soudních rozhodnutí nejvyšších soudů od roku 1990)
a v tzv. obecném základu jazyka (korpus Czes). Systém PES (soubor bází,
korpusů a programů) umožňuje studium právního jazyka a jeho změn.
Vzhledem k rozsahu, který prakticky pokrývá celý právní řád i obecný základ jazyka, získáváme vlastně poprvé představu o složitosti práva jako celku na jazykové úrovni. Programový systém PES je pravidelně aktualizován
a je pro potřeby výuky a výzkumu přístupný všem uživatelům, kteří o to
mohou požádat u JUDr. F. Cvrčka z ÚSP AV ČR.
Jednotlivé uvedené korpusy jsou v elektronické podobě a lze s nimi pracovat v korpusovém manažeru Manatee/Bonito (Rychlý 2007) s vestavěným
modulem pro práci se slovními profily (Word Sketches, Kilgarriff et al. 2004).
Manažer Manatee/Bonito umožňuje prohledávat zmíněné korpusy, získávat
z nich konkordance, sledovat frekvence jednotlivých výrazů (právních termínů) a zejména pozorovat jejich kolokační chování, získávat klíčová slova
a porovnávat jednotlivé korpusy či subkorpusy na různých úrovních.
První důkaz rozdílnosti jazyků primárních a sekundárních předpisů přináší porovnání klíčových slov obou subkorpusů. Pro oba subkorpusy jsme
vytvořili seznamy klíčových slov porovnáním frekvencí slov s referenčním
korpusem. Při výpočtech byla používána tzv. redukovaná četnost (Average Reduce Frequency), která automaticky filtruje slova, která se vyskytují
v jednom či několika málo dokumentech. Vytvořeno bylo několik seznamů
různé délky obsahující vždy statisticky nejvýznamnější klíčová slova z daného subkorpusu. Z porovnáním příslušných seznamů plyne, že pouze 60 %
slov je v odpovídajících seznamech společných.
Podobně jsme postupovali při porovnání kolokací jednotlivých klíčových
slov (společných oběma subkorpusům). Seznamy kolokací byly vytvořeny
pomocí systému Sketch Engine (Kilgarriff et al. 2004) jako statisticky významné kolokace v příslušných gramatických relacích.
Opětovné porovnání seznamů mezi oběma subkorpusy ukazuje, že u některých slov je podíl společných kolokací menší než 30 %. Jako příklad můžeme uvést slovo „území“, u kterého z 37 gramatických relací má pouze 18 re-
30
lací alespoň jednu kolokaci společnou oběma subkorpusům a pouze 6 relací
má více než 3 společné kolokace. Podrobnějším studiem konkrétních vazeb
jednotlivých slov zjišťujeme, že společné kolokace v primárních a sekundárních předpisech jsou z velké části pouze obecné fráze, které nejsou specifické
pro právnické texty. Odborné vazby jsou v obou subdoménách značně rozdílné. V článku budou uvedeny příslušné seznamy a tabulky.
Celkově můžeme konstatovat, že ač se na první pohled může zdát, že zákony na jedné straně a vyhlášky a nařízení na druhé straně spadají do stejného jazyka, exaktní statistická analýza ukazuje, že se jedná o dvě značně
rozdílné domény, které hovoří různými podjazyky.
I když to nebývá v odborné literatuře zvykem, pokládáme zde za nutné
konstatovat, že analýza korpusů právních textů upozorňuje na některé
celospolečenské problémy, jež mají bezprostřední politické důsledky. Jestliže nejfrekventovanější slovo v korpusu právních textů je slovo „zákon“ a jeho prostý slovní profil (Word Sketch) ukazuje, že nejfrekventovanější kolokace s genitivem jsou „znění“, „změna“, „návrh“, „doplnění“ (zákona) a je subjektem sloves „měnit“, předchází před slovesy „měnit“, „stanovit“,
„doplňovat“ atd., svědčí to o nenormálním a nadměrném novelizování
zákonů, které fakticky ohrožuje právní řád v ČR. Další podrobná kvantitativní analýza stavu českého právního řádu ukazuje, že jazyková analýza
na základě poměrně jednoduchých prostředků naznačené situace potvrzuje.
Lingvistická analýza v daném případě dokládá existenci nebezpečí spočívajícího v nepřehlednosti a nesrozumitelnosti vazeb mezi právními předpisy,
jež obojí narušuje standardní využívání práva v ČR.
Literatura
Cvrček, F. et al. (2012). PES (Právní elektronický slovník – Electronic Legal
Dictionary), http://deb.fi.muni.cz/pes, webová stránka (Web page).
Kilgarriff, A., Rychlý, P., Smrž, P. & Tugwell, D. (2004). The Sketch Engine
Proc. Euralex. Lorient, France, July, 105–116.
Mráková, E. & Pala, K. (2010). Legal Terms and Word Sketches: a Case Study,
Proceedings of the RASLAN Workshop, Karlova Studánka, 31–40.
Pala, K., Rychlý, P. & Šmerk, P. (2012). Automatic Identication of Legal Terms
in Czech Law Texts, Semantic Processing of Legal Texts, Springer, LNAI
6036, 83-94.
Rychlý, P. (2007). Manatee/Bonito – A Modular Corpus Manager, Proceedings of the RASLAN Workshop, Karlova Studánka, 65–70.
31
Václav Cvrček
Filozofická fakulta Univerzity Karlovy
[email protected]
Jiří Václavík
Filozofická fakulta Univerzity Karlovy
[email protected]
Kvantitativní pohled na kontextovou desambiguaci
Myšlenkovým východiskem tohoto příspěvku je tvrzení, že izolované (dekontextualizované) jazykové jednotky jsou ze své podstatě vždy víceznačné
či alespoň polyfunkční (Cvrček 2013). Až zapojením do kontextu dochází
k jejich desambiguaci, čehož využívají jak nástroje na pravidlovou či stochastickou morfologickou analýzu (Hajič 2004, Petkevič 2006), tak lingvisté v popisu; např. zkoumání kolokací je ve světle tohoto pohledu hledáním
typických kontextů, které zjednoznačňují inherentně víceznačné lexémy.
Výzkum kvantitativních charakteristik kontextu by i proto měl být v centru
zájmu komputačních i korpusových lingvistů. Příspěvek se pokusí kvantitativně uchopit vztah mezi délkou n-gramu, která aproximuje rozsah kontextové informace, a mírou jeho jednoznačnosti.
U izolované jednotky najdeme příklady víceznačnosti vcelku snadno: řada
lemmat má kupř. mnoho různých flektivních tvarů, skloňovaná i nesklonná
lemmata pak nabývají v různých kontextech různých významů nebo stylových odstínů. Problematika víceznačnosti (a její desambiguace) se tedy týká
všech jazykových rovin; prakticky je však v současnosti kvantitativní výzkum tohoto fenoménu možný pouze na rovinách přidržujících se formy,
o což se pokusí i tento příspěvek.
Na jednotky, jejichž rozsah překračuje hranici jednoho slova (n-gramy),
je možné nahlížet jako na spojení zkoumaného slova a části jeho kontextu.
Tím, že slovo vstupuje do sousedství s jiným, se víceznačnost celého spojení
ve srovnání s izolovaným slovem snižuje. Např. bigram tvořený posloupností verba a substantiva odpovídá v rozsáhlém korpusu mnoha lexikálním
realizacím (sekvencím lemmat) a stejnému nebo většímu počtu realizací lexikálně gramatických (sekvencím slovních tvarů). Přidáváním dalších jednotek k tomuto bigramu (např. vytvořením trigramu adverbium – verbum
– substantivum nebo tetragramu adverbium – sloveso – substantivum – pre-
32
pozice) omezujeme formální i lexikální variabilitu celé sekvence, až v určitém kroku dospějeme k takové délce zkoumané jednotky, že její realizace
bude jednoznačná, tj. sekvenci značek slovních druhů bude odpovídat právě
jedna posloupnost lemmat nebo tvarů (což svědčí o tom, že došlo k úplné
desambiguaci). Otázkou samozřejmě zůstává, jak dlouhá musí taková posloupnost být, aby byla zcela zjednoznačněná. Pro každou délku n-gramu
platí, že některé n-gramy budou zcela jednoznačné (budou mít právě jednu
realizaci na zvolené rovině), jiné budou víceznačné. Předpokládáme přitom,
že nejednoznačných n-gramů bude proporčně méně v seznamu n-gramů
rozsáhlejších než v seznamu n-gramů kratších.
Výzkum bude prováděn na korpusech ČNK řady SYN, a to konkrétně
na seznamech n-gramů (konsekutivních n-tic slov) různé délky. Pro každý
n-gram tvořený lemmaty bude v korpusu zjištěn počet jejich různých realizací na úrovni slovních tvarů, pro n-gramy tvořené značkami slovních
druhů bude zjišťován počet různých realizací na úrovni posloupností lemmat i slovních tvarů atp. Analýza tak simuluje zablokování flektivního a lexikálního faktoru (ve smyslu článku Nebeský & Novák 1996). Lze přitom
předpokládat, že výsledky zjištěné při těchto pokusech na formách a lexémech budou analogicky platit i pro desambiguaci sémantiky (ačkoli v oblasti
významů je situace nesporně složitější).
Abychom výsledky měření mohli zobecnit a úspěšně kvantifikovat vztah
délky a ambiguity v závislosti na použitém typu desambiguace a celkové
frekvenci sekvence v korpusu, je třeba přistoupit ke korekci, která zohledňuje omezený rozsah korpusu (jakkoli je dnes obrovský). O jistotě desambiguace kontextem můžeme mluvit pouze v případě, kdy víme, že jednotky v n-gramu obsažené, skutečně můžou různých formálních podob nabýt.
Má-li zkoumaný n-gram (tvořený kupř. lemmaty) celkovou frekvenci 200
výskytů a víme-li, že všechna slova v něm obsažená jsou nesklonná, nelze
takový příklad za desambiguaci (na rovině slovních tvarů) prohlásit. N-gram
je za takových okolností formálně jednoznačný vždy (bez ohledu na délku).
Pouze v případě, že jednotky v n-gramu mohou při své realizaci nabývat
alespoň dvou různých variant (např. jedno lemma alespoň dvou různých
tvarů) a to s pravděpodobností, která naznačuje, že při celkové frekvenci 200
výskytů bychom mohli očekávat alespoň dvě odlišné realizace, pak – pokud
je taková sekvence realizována jednoznačně – můžeme skutečně hovořit
o desambiguaci.
33
Výsledky takto zjištěné by mohly sloužit nejen k určení optimálního rozsahu kontextu nutného pro formální desambiguaci anotačních nástrojů, ale
s určitou mírou tolerance by měly být zobecnitelné i na analýzu jakékoli
polysémie/polyfunkčnosti, jíž se zabývá deskriptivní lingvistika na všech
rovinách popisu.
Literatura
Cvrček, V. (2013). Kvantitativní analýza kontextu. Praha: Nakladatelství Lidové noviny.
Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Praha: Karolinum Charles University Press.
Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the
Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44.
Nebeský, L. & Novák, P. (1996). Větné faktory a jejich podíl na analýze věty.
Slovo a slovesnost, 57, 249–263.
34
Tomáš Čapka
Ústav Českého národního korpusu FF UK
[email protected]
Michal Křen
Ústav Českého národního korpusu FF UK
[email protected]
Petr Truneček
Ústav Českého národního korpusu FF UK
[email protected]
SynKorp: prostředí pro správu a zpracování textů
Zveřejnění korpusu předchází často velké množství pro uživatele „neviditelné“ práce, jejíž cíl můžeme charakterizovat jako kvalitně zpracované texty
bez duplicit či jiných zjevných chyb. Zpracování textů do synchronních psaných korpusů řady SYN zahrnuje v zásadě tři hlavní kroky: akvizici (získání
textu), jeho (víceméně automatickou) technickou konverzi do potřebného
formátu a (převážně manuální) anotaci. Anotací je v tomto textu míněno
pouze doplňování bibliografické informace spolu s evaluativním určováním
typu textu a žánru; lemmatizace a morfologické značkování probíhají až
v další fázi, jejíž popis není cílem příspěvku.
Dosud se v ČNK pro konverzi a anotaci korpusů řady SYN používaly nástroje, které začaly vznikat už v polovině 90. let; tyto nástroje byly v dalších
letech průběžně vylepšovány a doplňovány. Postupně tak vznikla sada nástrojů, jimiž byly zpracovány všechny dosud zveřejněné korpusy řady SYN
(Hnátková et al. 2014). Jednotlivé nástroje však byly příliš specifické a málo
flexibilní a především používaly dnes již překonané standardy (SGML, 8-bitové kódování češtiny). Průběžné modernizaci bránila komplexnost celé
sady nástrojů a jejich vzájemná provázanost, stejně jako (možná paradoxně)
jejich spolehlivost: jednotlivé komponenty byly odladěné a vhodně parametrizované, což zvyšovalo nároky na nový systém, stejně jako čas potřebný
k jeho implementaci.
Protože šlo o nástroje v mnoha ohledech zastaralé, začaly práce na kompletním přepracování celého procesu včetně adaptace či výměny všech výkonných skriptů. Kromě potřeby radikálních změn bylo zřejmé, že je nutné
zachovat to, co se osvědčilo, a tím je především základní princip používat
35
cílené procedury aplikované v závislosti na zdroji dat spolu s průběžnými
kontrolami jejich výstupů. Hlavní cíle vývoje nového prostředí SynKorp
tedy byly:
1. integrace správy textů, anotace a konverze pro synchronní psané korpusy do jednotného systému;
2. přechod na nové standardy (XML, UTF-8);
3. preference etablovaných nástrojů (jsou-li pro daný účel dostupné);
4. modularita, tj. možnost snadné výměny komponent;
5. revize architektury databáze používané pro správu textů spojená
s obohacením o další údaje;
6. anotace s externě definovatelnými závislostmi jednotlivých položek;
7. spouštění konverzí přes webové rozhraní zahrnující snadnou konfigurovatelnost (zapojování/vyřazování konkrétních nástrojů a jejich
parametrizaci) a kvalitativní kontroly;
8. zrychlení celého procesu;
9. zachování kvality a spolehlivosti původních nástrojů;
10. využitelnost nové sady nástrojů také pro další účely.
Postup zpracování textů implementovaný v SynKorpu je principiálně velice podobný původnímu, pouze je celý (od jednotlivých nástrojů až po uživatelské rozhraní) realizován jinými programy. Typický proces zpracování
textu v SynKorpu probíhá v následujících čtyřech krocích.
1. Získaný text je spolu s dostupnými metadaty evidován v databázi.
2. Text je spolu s dalšími texty stejného formátu a/nebo ze stejného zdroje
převeden z původního formátu (.txt, .doc, .pdf, .epub apod.) do jednotného XML meziformátu. Tento meziformát je založen na doporučeních
TEI, umožňuje zachování řady dosud opomíjených jevů (řezy písma,
nadpisy, poznámky pod čarou, verše, repliky v dramatech, přímá řeč)
a zároveň je navržen tak, aby vyhovoval potřebám zpracování textů
také v dalších sekcích ČNK.
3. Meziformát je anotován v komfortním webovém prostředí s možností volby mezi anotací manuální (typicky pro neperiodika) a dávkovou
(periodika).
4. Nakonec probíhá čištění, které je možné provádět podle potřeby pouze
částečně nebo vůbec: detekce a odstraňování cizojazyčných částí textu
(Cavnar & Trenkle 1994), duplicit (Onion & Pomikálek 2011; jeho použití viz Benko 2013) a odstavců obsahujících velké množství čísel, tabulek nebo seznamů; obecně jde o části textu, jejichž přítomnost v kor-
36
pusu by byla z uživatelského hlediska spíše kontraproduktivní. Všechny zmíněné procedury jsou aplikovány na úrovni dokumentů nebo
odstavců, mohou však být dále doplněny úpravami i uvnitř odstavce.
Tyto úpravy jsou navrženy tak, aby nijak nenarušovaly původnost textu, a proto k nim dochází pouze tehdy, pokud jde o napravení chyby,
která s největší pravděpodobností nebyla záměrem autora a která jím
většinou ani nebyla způsobena; typicky jde o chyby technické, vzniklé
sazbou nebo dalším zpracováním textu.
Všechny uvedené kroky jsou integrovány do prostředí SynKorp, které je
možné si představit jako „ovládací pult“, za nímž sedí operátor, který celý
proces sleduje a řídí. Výsledkem zpracování je strukturovaný text v XML
s kompletními metadaty uloženými v databázi, který je připraven k dalšímu
zpracování, např. lemmatizaci a morfologickému značkování (Hajič 2004; Jelínek 2008; Petkevič 2006; Spoustová et al. 2007).
Základ SynKorpu je v tuto chvíli hotov a v hlavních ohledech funkční,
celý systém však ještě není připraven k plnému nasazení; jeho dokončení
předpokládáme do konce roku 2014.
Závěrem bychom chtěli zdůraznit několik dalších aspektů budoucího použití SynKorpu. Především plánujeme vyčlenění výkonného jádra SynKorpu
v podobě sady konverzních nástrojů a jejich samostatné využití pro zpracování textů nejenom v ostatních sekcích projektu ČNK (zejména pro historické a paralelní texty), ale také v rámci automatizovaného zpracování textů
při vytváření korpusů samotnými uživateli, což je služba, o jejíž realizaci
ČNK v dlouhodobější perspektivě uvažuje. V neposlední řadě SynKorp díky
zrychlení zpracování dat umožní vznik monitorovacích korpusů, jejichž cílem bude aktuálnější mapování češtiny a usnadnění výzkumu jazykových
změn.
Literatura
Benko, V. (2013). Data deduplication in Slovak Corpora. In Natural Language
Processing, Corpus Linguistics, E-learning. RAM Verlag, Lüdenscheid,
27–39.
Cavnar, W. B. & Trenkle, J. M. (1994). N-Gram-Based Text Categorization.
In Proceedings of Third Annual Symposium on Document Analysis and
Information Retrieval. Las Vegas, USA. Dostupné z http://www.info.unicaen.fr/~giguet/sigdat95/cavnar_trenkle_ngram.ps.
37
Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Praha: Karolinum Charles University Press.
Hnátková, M., Křen, M., Procházka, P. & Skoumalová, H. (2014). The SYN-series Corpora of Written Czech. In Proceedings of the Ninth International
Conference on Language Resources and Evaluation (LREC‘14). ELRA,
Reykjavík, 160–164. Dostupné z http://www.lrec-conf.org/proceedings/
lrec2014/pdf/294_Paper.pdf.
Jelínek, T. (2008). Nové značkování v Českém národním korpusu. Naše řeč,
91 (1), 13–20.
Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the
Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44.
Pomikálek, J. (2011). Removing Boilerplate and Duplicate Content from Web
Corpora. Disertační práce, FI MU Brno. Dostupné z http://code.google.
com/p/onion/.
Spoustová, D., Hajič, J., Votrubec, J., Krbec, P. & Květoň, P. (2007). The Best
of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for
Czech. In Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. ACL 2007, Praha, 67–74.
38
Radek Čech
Ostravská univerzita
[email protected]
Emmerich Kelih
Universität Wien
[email protected]
Ján Mačutek
Univerzita Komenského, Bratislava
[email protected]
Vliv sémantiky na vlastnosti pádové distribuce
podstatných jmen v češtině
Vliv sémantiky na frekvenční distribuce pádů substantiv u jazyků s bohatou
flexí je dobře znám (srov. Greenberg 1990); například substantivum denotující osobu má tendenci se vyskytovat nejčastěji v nominativu (vlivem sémantické roli agentu), zatímco substantivum označující místo v lokálu. V naší
analýze se ovšem pokusíme interpretovat vztah mezi sémantikou substantiva a frekvencí pádů z širší perspektivy. Teoretickými východisky našeho
přístupu jsou jak Wimmerova-Altmannova teorie (2005), tak idea diverzifikačního procesu v jazyce (Altmann 2005): tato východiska, stručně řečeno,
předpokládají, že rankové frekvenční distribuce jazykových jednotek (tj.
distribuce jednotek uspořádaných podle klesající frekvence těchto jednotek)
či kategorií jsou řízeny mechanismy, které lze chápat jako projevy vzájemných vztahů mezi jazykovými jednotkami a kategoriemi. Rozhodující vliv
na charakter těchto vztahů pak mají tzv. komunikační požadavky účastníků
komunikace; viz synergetická lingvistika (Köhler 1986, 2005).
Ranková frekvenční distribuce je tedy jedním z pozorovatelných projevů
diverzifikace. Její důležitou vlastností je to, že se dá dobře matematicky modelovat, přičemž parametry daného modelu lze interpretovat lingvisticky.
Konkrétně v naší analýze předpokládáme, že
1. ranková frekvenční distribuce pádů u jednotlivých substantiv bude odpovídat modelům, které lze odvodit z Wimmerovy-Altmannovy teorie;
39
např. v nejjednodušším případě bude možné tyto distribuce modelovat
prostřednictvím mocninné funkce
y = axb kde y odpovídá pořadí daného pádu v rankové frekvenční distribuci sledovaného substantiva, x odpovídá frekvenci daného pádu, a je
parametr odpovídající nejvyšší frekvenci a b je parametr určující charakter diverzifikace (konkrétně sklon křivky v grafu vyjadřujícím tuto
funkci);
2. sémantické vlastnosti substantiv budou mít vliv na charakter rankové frekvenční distribuce pádů; např. rozdíly rankových frekvenčních
distribucí pádů u jednotlivých životných a neživotných maskulin by
se měly projevit v rozdílných hodnotách parametrů (např. parametr b
ve výše uvedené mocninné funkci); zdůrazněme, že rozdíly mezi hodnotami parametrů budeme statisticky testovat.
Pro analýzu budou použita jazyková data z Českého národního korpusu
(synchronní lemmatizované a morfologicky značkované korpusy). Budeme
sledovat rozdíly rankových frekvenčních distribucí pádů u různých sémantických kategorií substantiv: např. životná vs. neživotná maskulina, konkrétní vs. abstraktní substantiva. Dále porovnáme rozdíly mezi skupinami
substantiv rozdělenými do specifických sémantických kategorií, jako jsou
„zvířata“, „části těla“, „místa“ atd. Výsledky budou interpretovány ve vztahu
k synergetické teorii jazyka.
Literatura
Altmann, G. (2005). Diversification processes. In R. Köhler, G. Altmann & R.
G. Piotrowski (Eds.), Handbook of Quantitative Linguistics. Berlin: de
Gruyter, 649-659.
Greenberg, J. H. (1990). The Relation of Frequency to Semantic Feature in
a Case Language (Russian). In K. Denning & S. Kemmer (Eds.), On language: selected writings of Joseph H. Greenberg. Stanford: Stanford University Press, 207–226.
Köhler, R. (1986). Zur linguistischen Synergetik. Struktur und Dynamik der
Lexik. Bochum: Brockmeyer.
40
Köhler, R. (2005). Synergetic Linguistics. In R. Köhler, G. Altmann & R. G. Piotrowski (Eds.), Handbook of Quantitative Linguistics. Berlin: de Gruyter, 760–775.
Wimmer, G. & Altmann, G. (2005). Unified derivation of some linguistic
laws. In R. Köhler, G. Altmann, R. G. Piotrowski (Eds.), Handbook of
Quantitative Linguistics. Berlin: de Gruyter, 791–807.
František Čermák
Ústav Českého národního korpusu FF UK
[email protected]
Kolokace a kolokabilita synsémantik: Substituty a
interjekce
Mluví-li se o kombinatorice slovních druhů, mluví se obvykle o velkých autosémantických slovních druzích. V následujícím příspěvku půjde ale o přehled zcela zanedbávané oblasti synsémantik v širokém smyslu a o to zjistit,
nakolik se tyto slovní druhy kombinují nezávisle na autosémantikách, tj.
především mezi sebou, uvnitř své třídy; role synsémantik vázaných na autosémantika je většinou dobře známá.
Do záběru se takto dostane šest slovních druhů, funkčně zcela heterogenních, které spojuje právě to, že jednak nejsou autosémantiky, a jednak
to, že mají vůči nim v různém smyslu většinou služebnou úlohu, i když ne
vždycky. Konkrétně tedy půjde o prepozice, konjunkce, partikule, pronomina, numerále i interjekce, u nichž se až dosud o syntagmatických aspektech
příliš neuvažovalo (pokud vůbec).
První část stručně vymezí široké a hrubé pojetí synsémantik, jejich typy
(jednoslovné i víceslovné) a kombinatoriku a především funkční aspekty,
popř. i pragmatiku. Necháme-li stranou vlastně definitoricky bokem stojící
interjekce, pak lze oblast synsémantik dělit na dvě velké skupiny, na substi-
41
tuty (pronomina a numerale) a relátory (prepozice, konjunkce, včetně odlišných relátorů pragmatických, tj. partikulí).
Protože autor pozornost některým z nich už věnoval dříve (tj. prepozicím, konjunkcím a partikulím) a protože je tato oblast velmi široká, bude se
příspěvek věnovat především substitutům, tj. pronominům a numeraliím, v
závěru však i oblastem dalším, především znovu interjekcím.
Druhá část, založená na korpusovém rozboru, si postupně všimne jednotlivých takto vymezených synsémantik. Základním půdorysem k pohledu
na ně bude jejich obecná syntagmatická funkce, komentovaná stručně i z
hlediska jejich sémantiky a pro ně specifické funkce. Důraz se bude klást, v
souladu s mým opakovaným zjištěním, na potřebu lišit vedle tradičně formálně povědomých synsémantik jednoslovných i synsémantika víceslovná,
v řadě případů tedy o synsémantické kolokace (často frazeologické) ustálené. Jedním z cílů bude naznačit kombinatorické možnosti, ale i omezení,
především vůči sobě navzájem. Tato specifická otázka nebyla dosud v zásadě
systematicky studovaná.
V části věnované zájmenům a číslovkám se prezentují možnosti a hranice
jejich kombinatoriky a komentují některé nápadné zvláštnosti. Obdobně se
nabídne pohled na, běžně nečekanou, kombinatoriku číslovek, které nejsou
vždy jen textové; najdou se tu i případy ustálené.
42
Alena M. Černá
Ústav pro jazyk český AV ČR
[email protected]
Staročeské lexémy „nemoc“, „neduh“, „nedostatek“
– jejich sémantická a gramatická charakteristika
Čtrnácté a zejména patnácté století je obdobím, z něhož se nám v rukopisech
dochovalo velké množství česky psaných lékařských textů. Tyto texty se
vyznačují charakteristickými rysy, z nichž jazykově nejvýraznějším je specifická slovní zásoba, která tvoří základ budoucí lékařské terminologie. Tato
specifická slovní zásoba nese rysy formujícího se lékařského názvosloví –
je neustálená, variabilní a rozkolísaná; rukopisné texty navíc obsahují řadu
chyb způsobených neznalostí laických opisovačů. Tato rodící se lékařská
terminologie je složena z několika sémantických okruhů, např. z názvů částí
lidského těla (budoucí anatomické názvosloví), z názvů nemocí, zdravotních
obtíží, příp. estetických nedostatků (budoucí nosologické názvosloví), z názvů léčiv (budoucí farmaceutické názvosloví) atd. Do široce pojaté lékařské
terminologie navíc ve středověku patří i názvosloví blízkých oborů – astronomie a astrologie, botaniky, mineralogie, magie atd. Specifické lékařské
pojmy jsou na jazykové rovině vyjadřovány zvláštními postupy. Neexistence
jednoslovných pojmenování se specifickou funkcí je suplována mj. různými
typy spojování slov.
Pro obecný význam ,nezdraví‘ se ve staré češtině užívalo několik léxémů
s různou sémantickou, formální a frekvenční charakteristikou, mj. neduženie, neduha, nesdravie, bezsdravie, vada/váda, bolest, škoda atd. Nejfrekventovanější jsou však lexikální jednotky nemoc, neduh a nedostatek, jejichž obecný význam je determinován mj. kolokacemi, v nichž se lexémy vyskytují.
Samotné lexémy nemají charakter termínu, mj. nejsou vázány jen na lékařský kontext, ale vyskytují se i v textech neodborných.V příspěvku se věnujeme jak lexikálnímu významu jednotek nemoc, neduh a nedostatek, tak jejich
slovotvorné i gramatické charakteristice, i s přihlédnutím k jejich dalšímu
vývoji až k moderní češtině. Zvláštní důraz bude kladen právě na kolokace těchto staročeských lexémů (např. nemoc súchotiny, nemoc hluchá, nemoc
hlavy; neduh veliký; nedostatek mozku, nedostatek od příčin vnitřních atd.).
Pokusíme se o klasifikaci doložených lexikálních spojení z hlediska jejich
43
formy, funkce, frekvence atd. Některé z kolokací již ve staré češtině postupně získávají charakter terminologických kolokací (termínů), srov. např. nemoc svatého Valentina, nemoc padúcie, neduh volový. Zajímavou otázkou je
stanovení časové posloupnosti vzniku terminologických kolokací a jednoslovných termínů (např. žlutá nemoc × žlútenicě), neboť nelze jednoznačně
tvrdit, že jednoslovný název vznikl univerbizací víceslovného pojmenování.
Poměrně častý je i společný výskyt uvedených tří lexikálních jednotek, přičemž je nutné správně definovat jejich vzájemný vztah, tj. jedná-li se o synonymní výrazy, či nikoliv (proti neduhóm a nemocem plicným; lékařstvie
postavil proti mnohým a rozličným nemocem, neduhuom a nedostatkóm).
Materiálovou bází pro výzkum bude zejména staročeský korpus, který
je součástí internetové databáze Vokabulář webový, webové hnízdo pramenů
k poznání historické češtiny (http://vokabular.ujc.cas.cz) a který obsahuje téměř 3 mil. slovních tvarů. Podpůrnou bází je pak diachronní korpus Českého
národního korpusu (http://www.korpus.cz). Ze získaného materiálu budou
vytříděny pouze doklady z odborné lékařské literatury, příp. z literatury pro
středověké léčení pravidelně využívané (herbáře, lapidáře, astrologické spisy
atd.). Jazykový materiál získaný v korpusech bude navíc doplněn o cílovou
excerpci mimokorpusových zdrojů (staročeských textů, lexikálních kartoték, lexikografických děl). Příspěvek přinese další pohled na zrod staročeské
lékařské terminologie a na vývoj českého jazyka. Pro tento výzkum máme
k dispozici mimořádně hojné množství zdrojových textů, z nichž je již značná část k dispozici v korpusových bázích.
Literatura
Bečka, J. V. (1992). Česká stylistika. Praha: Academia.
Čermák, F. (1982). Syntagmatika a paradigmatika českého slova I: Valence
a kolokabilita. Praha: SPN.
Čermák, F. & Šulc, M. (Eds.) (2006). Kolokace. Praha: Nakladatelství Lidové
noviny.
Černá, A. M. (2009). Staročeské názvy chorob. Praha: Nakladatelství Karolinum.
Filipec, J. (1961). Česká synonyma z hlediska stylistiky a lexikografie. Praha:
Nakladatelství ČSAV.
Michálek, E. (1971). Pojmová diferenciace – ústřední problém terminologie
viděné historicky, Slovo a slovesnost, 32, 312–317.
Mluvnice češtiny III (1987). Praha: Academia.
44
Vokabulář webový, webové hnízdo pramenů k poznání historické češtiny,
[on-line], <http://vokabular.ujc.cas.cz>
Lenka Fárová
Ústav obecné lingvistiky FF UK
[email protected]
Uvozovací slovesa v překladech typologicky
rozdílných jazyků
Při zkoumání jazyka překladu se v posledních zhruba dvaceti letech objevuje
snaha o hledání překladových univerzálií, tedy jevů typických pro překladové texty. Mezi často uváděné univerzálie ve vztahu překladu k originálu (tzv.
S-univerzálie) patří (viz např. Chesterman 2010: 41-42):
• prodlužování (překlad delší než originál)
• interference (jeden ze „zákonů“ podle Toury 1995)
• standardizace (další ze „zákonů“ podle Toury 1995)
• normalizace dialektů
• redukce složitých vypravěčských hlasů
• explicitace
• retranslační hypotéza (pozdější překlady se více blíží originálu)
• redukce opakování
Mezi potenciální univerzálie vlastní překladům ve vztahu ke srovnatelným původním dílům téhož jazyka (tzv. T-univerzálie) Chesterman (2010:42)
počítá následující:
• simplifikace (generalizaci je možné chápat jako projev simplifikace)
• konvencionalizace
• netypické lexikální vzorce
• nižší zastoupení prvků specifických pro jazyk překladu
Jakkoliv je pojem překladových univerzálií sporný (řada kritiků tohoto
termínu jej cítí jako příliš absolutní a navrhuje spíše označení „pravidelnost“,
45
„zákon“ či „tendence“ – např. Toury 1995, Bernardini & Zanettin 2004), nadále se jako (možná i provizorní) nástroj využívá.
V tomto příspěvku se problematičnost některých těchto univerzálií pokusím ukázat na příkladu sloves uvozujících přímou řeč ve třech typologicky
rozdílných jazycích: češtině, finštině a angličtině. Zdrojem materiálu jsou
subkorpusy vytvořené na základě beletristických textů z paralelních korpusů zvolených jazyků v rámci projektu InterCorp, jako srovnávací materiál
posloužila data ze srovnatelného překladového korpusu Jerome (vše dostupné na http://www.korpus.cz).
V jazyce překladu se podle výše uvedených T-univerzálií objevují dvě
protichůdné tendence: na jedné straně nadměrné využívání nejtypičtějších
slov a větných struktur cílového jazyka (srov. simplifikace), na druhé straně
fakt, že překlad vykazuje znaky netypického užití lexikálních vzorců.
V rámci S-univerzálií se mluví také o redukci opakování, ale překlady
uvozovacích sloves z angličtiny i finštiny do češtiny naznačují, že tento princip zde není dodržován (což ostatně naznačuje už Levý 1998: 144).
V první fázi se výzkum zaměřil na trojici nejfrekventovanějších uvozovacích sloves ve zkoumaných jazycích. V angličtině i ve finštině je zdaleka nejčastěji (byť vůbec ne bezvýhradně – k použití said a jeho překladům
do češtiny srov. např. Corness 2010) jako uvozovací sloveso používáno said,
resp. jeho finský ekvivalent sanoi, v češtině se jedná o uvozovací slovesa řekl/
řekla. Ve světle překladových univerzálií a na základě materiálu paralelních
subkorpusů, kdy se při analýze vychází pokaždé z jiného originálu, jsou proto zajímavé následující otázky:
• Jak s opakováním nejfrekventovanějšího uvozovacího slovesa naložily
překlady: je opakování zachováno nebo dochází k jeho redukci? A liší
se výsledky v závislosti na typu jazyka?
V druhé fázi se pak výzkum zaměřil na použití dalších uvozovacích sloves
(zejména v češtině a finštině) a pokusil se najít odpověď na otázky:
• Jakým způsobem se pestrá škála uvozovacích sloves v českém originálu překládá do finštiny a do angličtiny?
• Dochází k jevům zjištěným u sloves typu „said“ i v případě méně frekventovaných uvozovacích sloves? • Vyskytují se ekvivalenty uvozovacích sloves použité v překladech
i v originálních beletristických textech nebo zde dochází k netypickému použití lexikálních vzorců?
46
Získané výsledky budou v závěru konfrontovány s obecnými principy
označovanými jako překladové univerzálie.
Literatura
Bernardini, S. & Zanettin, F. (2004). When is a universal not a universal?
In A. Mauranen & P. Kujamäki (Eds.), Translation Universals: Do they
exist? Amsterdam; Philadelphia: Benjamins, 51–62.
Chesterman, A. (2010). Why study translation universals? In R. HartamaHeinonen & P. Kukkonen (Eds.), Kiasm. Acta Translatologica Helsingiensia. Helsingfors: Helsingfors universitet, 38–48.
Corness, P. (2010). Shifts in Czech translations of the reporting verb said in
English fiction. In F. Čermák, P. Corness & A. Klégr (Eds.), InterCorp:
Exploring a Multilingual Corpus. Praha: Nakladatelství Lidové noviny/
Ústav Českého národního korpusu, 159–176.
Levý, J. (1998). Umění překladu. Praha: Ivo Železný.
Mauranen, A. & Kujamäki, P. (Eds.) (2004). Translation Universals: Do they
exist? Amsterdam / Philadelphia: John Benjamins.
Toury, G. (1995). Descriptive Translation Studies and Beyond. Amsterdam/
Philadelphia: John Benjamins.
Fárová, L. & Vavřín, M., Korpus intercorp_fi, verze 6 z 8. 4. 2013. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://
www.korpus.cz
Rosen, A. & Vavřín, M., Korpus intercorp_cs, verze 6 z 8. 4. 2013. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://
www.korpus.cz
Klégr, A., Malá, M., Rohrauer, L., Šaldová, P. & Vavřín, M.: Korpus intercorp_en, verze 6 z 8. 4. 2013. Ústav Českého národního korpusu FF UK,
Praha 2013. Dostupný z WWW: http://www.korpus.cz
Chlumská, L., JEROME: srovnatelný překladový korpus. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.
korpus.cz
47
Jarmila Fictumová
Filozofická fakulta Masarykovy univerzity
[email protected]
Jiří Rambousek
Filozofická fakulta Masarykovy univerzity
[email protected]
Jak se mění zrádná slova?
Myšlenka vytvořit novou verzi známé příručky Josefa Hladkého Zrádná slova v angličtině je již několik let stará. Příručka vyšla poprvé již v roce 1990
a inspirací pro její vznik byly podobné příručky pro francouzštinu a němčinu (Kudrnáčová 1991). V příspěvku se pokusíme v hlavních rysech popsat
uspořádání přepracované příručky a její zamýšlené online verze. Zatímco
doposud byla cílena zejména na české studenty angličtiny jako cizího jazyka, v nové verzi předpokládáme jako cílovou skupinu také začínající překladatele z angličtiny. To vyžaduje zahrnutí jevů opačného směru než ty,
na něž se zaměřoval Hladký, tj. takových, kde k chybě vede sledování anglické významové struktury při produkci českého textu. (Dodejme, že jsou proto
relevantní nejen pro překladatele, ale současně i pro anglofonní studenty
češtiny.) Při jejich identifikaci je užíván nově budovaný paralelní korpus
studentských překladů, který bude stručně představen spolu s příslušným
software.
Například ve větě „Personal space [...] is both measurable and atmospheric, fixed and elastic“ použilo 7 ze 17 studentů jako ekvivalent anglického
atmospheric české atmosférický (místo zde správného významu „vyvolávající
určité pocity, jsoucí věcí pocitu“; jeden překlad zněl navíc vzdušný, což vychází ze stejného neporozumění). Původní Hladkého verze příručky slovo atmospheric neobsahuje, protože nepředstavuje nebezpečí, jestliže český rodilý
mluvčí hovoří anglicky (české atmosférický lze vždy přeložit atmospheric).
Použitý korpus studentských překladů není určen jen k identifikaci zrádných slov. Je budován jako víceúčelový a je součástí většího korpusu studentských textů (druhou část budou tvořit jejich eseje a jiné texty v angličtině). Byl pro něj vyvinut speciální software pro správu většího počtu
paralelních verzí. Korpus umožňuje různé typy akvizice: buď studenti přímo
vkládají svou práci pomocí rozhraní, v němž je jim zadána, nebo se do kor-
48
pusu vkládají elektronické texty již předem sebrané e-learningovým systémem. V obou případech lze pak texty tagovat z hlediska překladatelských
(či jiných) chyb – při vložení textu lze tedy použít také opravy, které již
vyučující k danému textu pořídil v minulosti. To umožňuje zpětně vložit
i překlady ze starších běhů kurzů, které jsou v e-learningovém systému stále
k dispozici. Na doladění softwaru a zejména systému tagů se průběžně pracuje, takže doposud použité výsledky jsou zčásti dosud zpracovávány ručně.
Rutinní nasazení korpusu umožní výsledky ověřovat na větším vzorku studentů a na více textech.
Zmíníme se též o některých současných vývojových jazykových tendencích, které pozorujeme v médiích, na internetu i u studentů překladatelství.
Zdá se, že některá slova již nejsou „zrádná“: jejich úzus se u některých významů posunul směrem k angličtině, jedná se o jistý druh neosémantizmů
(Mravinacová 2005) jako důsledek používání angličtiny v mezinárodní komunikaci. Nelze se domnívat, že se jedná pouze o jazykovou neobratnost
překladatelů či dalších uživatelů jazyka. Je zřejmé, že v odborném jazyce
dochází k procesu přebírání nových významů i „bývalých zrádných slov“
častěji. Uvedeme několik příkladů z různých oblastí.
Naší snahou je ověřovat výskyty těchto neosémantizmů v korpusech. Pro
tento účel jsou vhodné jiné korpusy než studentské, tedy paralelní (překladové) korpusy, zejména anglicko-české (InterCorp, Opus2 Czech, případně
Kacenka). Výrazy ověřujeme nejen v nich, ale také v českých synchronních
korpusech ČNK i v korpusech vytvořených z webu na FI MU (czTenTen12
a czes). Nalezené výskyty srovnáváme a snažíme se vysledovat, v jakých
kontextech jsou tyto výrazy používány nejčastěji. Otázkou zůstává, zda jsou
to pouze nevýznamné jevy, anebo výrazy, které se v budoucnu v jazyce ustálí. Zejména z hlediska tvorby příručky zrádných slov pak tyto významové
posuny vyvolávají otázky týkající se vztahu deskripce a preskripce. Pokusíme se stanovit pracovní kritérium pro to, které výskyty ještě mezi „zrádná
slova“ zahrnovat a které již zcela vynechat jakožto v češtině plně přípustné.
Přechodovou kategorií by pak zřejmě mohly tvořit případy, kdy přípustnost
závisí na stylové rovině.
Zrádná slova neexistují pouze na úrovni jednotlivých slov. Zamyslíme
se nad možnostmi rozšíření příručky o tzv. zrádné kolokace neboli kolokační faux-amis (Klégr & Šaldová 2006). Zrádné kolokace představují skutečný
překladatelský problém, který dosud není soustavně řešen v žádném z dostupných slovníků či příruček. Jejich velmi volné vymezení, které použili
49
Klégr a Šaldová, bude ale pro potřebu praktické příručky nutno upřesnit
a pravděpodobně značně zúžit.
Literatura
Cvrček, V. (2013). Kvantitativní analýza kontextu. Praha: Nakladatelství Lidové noviny.
Gabrovšek, D . (1998). Dimensions of falseness in false friends: implications
for bilingual lexicography. In A. Zettersten, V. Hjornager Pedersen & J. E.
Mogensen (Eds), Symposium on Lexicography VIII. Proceedings of the
Eighth International Symposium on Lexicography May 2-4, 1996, at the
University of Copenhagen. Niemeyer.
Hladký, J. (1990). Zrádná slova v angličtině. Praha: SPN.
Klégr, A. & Šaldová, P. (2006). Kolokační faux amis. In F. Čermák, K. Kučera
& M. Šuld, (Eds.), Kolokace. Studie z korpusové lingvistiky, Praha: Nakladatelství Lidové noviny.
Křen, M. (2013). Odraz jazykových změn v synchronních korpusech. Praha:
Nakladatelství Lidové noviny.
Kudrnáčová, N. (1991). Josef Hladký, Zrádná slova v angličtině [False friends
in English]. Brno Studies in English, 19, 186-187.
Mravinacová, J. (2005). Neosémantizmy vzniklé pod vlivem cizího jazyka. In
O. Martincová et al., Neologizmy v dnešní češtině. Praha: ÚJČ AV ČR.
50
Masako Fidler
Brown University
[email protected]
Václav Cvrček
Ústav Českého národního korpusu FF UK
[email protected]
Prezidentské projevy: Analýza tematické výstavby
a řečových strategií pomocí KWords
Prezidentské novoroční projevy poskytují jedinečnou možnost pro testování
limitů korpusově založeného diskurzivního výzkumu. Většina ze stěžejních
proměnných ovlivňujících jejich podobu (autor, komunikační situace, čas,
téma) zůstává konstantní nebo se mění poměrně prediktabilním způsobem.
Srovnání novoročních projevů různých prezidentů tak může ukázat na rozdílné priority jednotlivých politiků i na odlišný přístup k žánru novoročního
projevu.
Tento příspěvek je součástí rozsáhlejší spolupráce mezi Univerzitou
Karlovou v Praze a Brownovou Univerzitou v USA (Cvrček & Fidler 2012,
2013ab; Fidler & Cvrček 2012, 2013), která je zaměřena na testování limitů
korpusově založené analýzy klíčových slov. V příspěvku budeme analyzovat
novoroční projevy čtyř prezidentů – Gustáva Husáka (z let 1976–1989), Václava Havla (z období 1990-2003), Václava Klause (z roků 2004–2013) a Miloše
Zemana (2013)* – pomocí nedávno zveřejněné aplikace KWords (viz https://
kwords.korpus.cz/) a kvalitativní textové analýzy.
Nástroj KWords identifikuje nejprve klíčová slova („keywords“ podle definice Scott (1996) a Baker & Ellece (2011)). Ta jsou úzce spojena s hlavními
tématy textu a s jeho žánrem. Kromě seznamu klíčových slov (KS) aplikace
vytvoří pořadí jejich významnosti pomocí modifikovaného Diceova koeficientu, analyzuje vzájemné vazby KS a jejich počty, to vše doplněné přehlednou grafickou reprezentací, která ulehčuje interpretaci textu a jeho porovnání s ostatními (hledání tematických a motivických odlišností). Cílem je korpusovými metodami charakterizovat některé řečnické strategie jednotlivých
politiků a poukázat na jejich odlišnosti.
* Jelikož není k dispozici novoroční projev M. Zemana z roku 2014, bude místo toho použito
jeho vánoční poselství z roku 2013
51
Z pilotního průzkumu analyzovaných textů vyplývá, že KS, jejich pořadí a jejich vzájemné vazby u každého prezidenta reflektují odlišné záměry
a cíle jejich projevů. V Husákových textech se odráží prominentní zájem
o stabilitu Československa v rámci socialistického bloku (ukazují na to např.
následující KS: upevňování, mírového, vlastenectví, vlast, československého/
československá); v Havlových projevech převládají koncepce spoluodpovědnosti, občanské společnosti a demokracie, zatímco v Zemanových projevech
je dominantní osobní záměr (viz KS: slib/slibů, zavázal, splnit, milost). Pokud
jde o Klausovy novoroční projevy, silně se v nich projevuje zájem o výrazně rozmanitá témata, jako jsou ekonomika (např. zadlužování), vnitropolitické dění (např. mandát, parlamentu) a vztah k Evropě (např. evropského).
Ve srovnání s ostatními je zde mnohem cílevědomější snaha vybudovat vazbu s posluchačem na bázi „my = já“. Naproti tomu stojí za povšimnutí, že
v Zemanově vánočním poselství – na rozdíl od ostatních prezidentů – chybí
mezi KS tvary posesivního a osobního zájmena 1. os. pl. i slovesné tvary 1.
os. pl.
Literatura
Baker, P. & Ellece, S. (2011). Key Terms in Discourse Analysis. London: Continuum.
Cvrček, V. & M. Fidler. (2012). Analysis of keywords in Czech political texts:
A Needle in a Haystack Model. International conference of Corpus-Assisted Discourse Study. Bologna, Italy, September 2012.
Cvrček, V. & M. Fidler. (2013a). Keyword analysis with a usage-based perspective: A preliminary study in Czech. American Association of Teachers
of Slavic and East European Languages annual national convention. Boston, January, 2013. (http://www.aatseel.org/100111/pdf/4a8_3_cvrek.pdf)
Cvrček, V. & M. Fidler. (2013b). Not all keywords are created equal: How
can we measure keyness? Corpus Linguistics 2013, July, Lancaster, 2013
(http://ucrel.lancs.ac.uk/cl2013/doc/CL2013-ABSTRACT-BOOK.pdf)
Cvrček, V. & Vondřička, P. (2012). KWords (https://kwords.korpus.cz/)
Czech National Corpus – SYN2010. Institute of the Czech National Corpus,
Praha 2010. Accessible at WWW: <http://www.korpus.cz>.
Fidler, M. & V. Cvrček. (2012). Keyword analysis of totalitarian texts: A case
study. (http://www2.ku.edu/~slavic/conference/SLS_2012_Abstracts.pdf)
Fidler, M. & V. Cvrček. (2013). Usage-based approach to discourse through
keyword analysis. International Conference of the Cognitive Linguistics
52
Association, Alberta, Canada, June, 2013. (http://www.ualberta.ca/~iclc2013/ABSTRACTS/Fidler_et_al.pdf)
Scott, M. & C. Tribble. (2006). Textual patterns: Keyword and corpus analysis
in language education. Amsterdam: John Benjamins.
Markus Giger
Ústav východoevropských studií FF UK
[email protected]
Subjektová rezultativa v češtině ve srovnání
s ruštinou
V dosavadní literatuře o rezultativních konstrukcích (tedy o slovesných tvarech vyjadřujících stav nutně implikující předcházející děj, jehož uskutečněním daný stav nastal) zajímají subjektová rezultativa (konstrukce, u nichž je
koreference mezi subjektem rezultativní konstrukce a subjektem předchozího děje) poměrně okrajové místo (srov. oproti tomu pozornost věnovanou
objektovým a posesivním rezultativům).
Primární důvody jsou patrně omezená produktivita subjektových rezultativ a chybějící perspektiva jejich gramatikalizace. K tomu přicházejí
však další faktory: deverbální tvary schopné vyjádřit rezultativní význam
v predikativu jsou často považovány za adjektiva a tím z analýzy vyloučeny,
resp. jejich schopnost stát v predikativu není zohledněna. Situace v češtině
a v ruštině, která se na první pohled zdá velmi odlišná, vykazuje zajímavé
paralely: zatímco se v češtině l-ový tvar typu odkvetlý, který je zodpovědný
za velkou část českých subjektových rezultativ, obyčejně považuje za adjektivum a tím stojí v bohemistických opisech mimo paradigmatiku slovesa,
ohledně ruštiny se konstatuje, že produktivnost subjektového rezultativa je
minimální, protože ruština tvoří jen velmi omezeně n-/t-ové příčestí od intranzitivních sloves. Přitom se ztrácí z pohledu schopnost ruského s-ového
příčestí stát v predikativu a vyjádřit rezultativní sémantiku. Sémantické paralely mezi odpovídajícími konstrukcemi v obou jazycích jsou přitom očivid-
53
né; vedle sebe tedy stojí např. č. Její tvář byla zčervenalá a r. Её щёчки были
слегка покрасневшими, č. Jezero bylo zamrzlé a r. Озеро было замерзшим,
č. Stromy byly zažloutlé a r. Хвоя была пожелтевшей.
V příspěvku budou subjektová rezultativa v češtině a ruštině diskutována v celé šířce: produktivnost, restrikce, konkurence se stavovými predikáty (Její tvář byla červená, Ее щеки были красными), speciálně zdůrazněna
bude však úloha českého l-ového tvaru a jeho výskyt v textech a výskyt
ruského s-ového příčestí v predikativní pozici s rezultativním významem
a také analogie mezi nimi. K tomu přicházejí některé úvahy o diachronii,
zejm. ohledně prosazení s-ového příčestí v ruštině na začátku 19. stol. a jeho
konkurence s l-ovým tvarem. Analýza bude využívat paralelní korpusy, vedle toho však – vzhledem k poměrně nízké fekvenci subjektových rezultativ
v textu – převážně neparalelní národní korpusy obou jazyků včetně diachronních a také internet. Literatura
Damborský, J. (1967). Participium l-ové ve slovanštině. Warszawa: PWN.
(Rozprawy Uniwersytetu Warszawskiego 15)
Giger, M. (2010). Příčestí minulé činné na -(v)ší v dnešních českých publicistických textech. Korpus – Gramatika – Axiologie, 1 (2), 3–23.
Knjazev, Ju. P. (1989). Akcional’nost’ i statal’nost’. Ich otnošenie v russkich
konstrukcijach s pričastijami na -n, -t. München: Sagner.
Nedjalkov, V. P. & Jachontov, S. E. (1983). Tipologija rezul’tativnych konstrukcii. In: V. P. Nedjalkov (Ed.), Tipologija rezul’tativnych konstrukcii.
Leningrad: Nauka, 5–41.
Wiemer, B. & Giger, M. (2005). Resultativa in den nordslavischen und baltischen Sprachen. Bestandsaufnahme unter arealen und grammatikalisierungstheoretischen Gesichtspunkten. München: Lincom. (LINCOM
Studies in Language Typology 10)
54
Hana Goláňová
Ústav Českého národního korpusu FF UK
[email protected]
Marie Kopřivová
Ústav Českého národního korpusu FF UK
[email protected]
Kartografické a geografické zpracování dat
z mluvených korpusů
V současné době jsou budovány v ÚČNK dva nové korpusy mluveného jazyka, a to korpus ORTOFON a nářeční korpus DIALEKT. Oba korpusy mluveného jazyka mají douvúrovňovou transkripci a obsahují nahrávky pořízené
na území celé České republiky.
První úroveň přepisu dat v korpusu ORTOFON je přepis převážně ortografický. Navazuje na transkripci korpusů řady ORAL a bude sloužit
k snadnému vyhledávání. Druhou úroveň tvoří zjednodušená transkripce
fonetická, která se snaží podrobněji zachytit některá specifika výslovnosti
mluveného jazyka, např. asimilace a další jevy. K segmentaci a přepisu jazykových dat pro korpus ORTOFON i DIALEKT je používán transkripční
program ELAN (http://tla.mpi.nl/tools/tla-tools/elan/).
Nahrávky tvořící korpus ORTOFON jsou nepřipravené rozhovory mluvčích, takže promluvy mají většinou dialogický ráz. Rozhovory probíhají
v autentickém prostředí a mezi mluvčími, kteří se vzájemně znají. Mluvčími
bývají dospělí od 18 let. Nahraný jazykový materiál pochází z městských
i venkovských lokalit. Pro vyvažování korpusu je určující nářeční oblast,
kde mluvčí strávil dětství.
Korpus DIALEKT prezentuje tradiční teritoriální dialekty na území ČR
a vychází z nahrávek, které byly pořízeny v období 60. až 80. let 20. století
dialektologickým oddělením ÚJČ AV ČR, v. v. i. Jde o jazykový materiál,
v němž jsou uchovány archaické nářeční prvky mluveného jazyka z českých
nářečních oblastí, jež se dnes již v běžném úzu z velké části nevyskytují. Aby
bylo možno doložit původní, ještě nenarušený, stav českých dialektů, byl
terénní nářeční výzkum zaměřen na příslušníky nejstarší generace. Mluvčími jsou místní rodáci většinou z venkovských lokalit, kteří patřili ke starousedlé vrstvě obyvatelstva, spjaté se zemědělským způsobem života nebo
55
s řemeslem. Většinou se narodili ke konci 19. století a na počátku 20. století.
Promluvy mívají spíše monologický ráz. Korpus je taktéž dvouúrovňový,
s přepisem dialektologickým a ortografickým.
Pro zpracování jazykového materiálu z obou mluvených korpusů hraje
velkou roli zařazení mluvčích ze sond do systému územního hierarchického
členění. Tento systém zeměpisného členění českého jazykového území byl
po desetiletí dialektology korigován a vznikl na základě stanovení hranic
rozšíření diferenčních nářečních jevů. Rozděluje Českou republiku na větší a menší nářeční oblasti a celky. Tyto oblasti jsou stanoveny především
na základě Českého jazykového atlasu a dalších jazykových příruček. Pokud chceme zpracovávat data z obou mluvených korpusů, potřebujeme tyto
mapy zpřesnit a do budoucna počítáme i s mapovým zobrazením nahrávek
podle místa původu mluvčích.
V současnosti je možné využít moderních kartografických metod nejen
pro zobrazení nářečních oblastí a menších územních celků, ale i pro popis
jednotlivých zkoumaných lokalit a jazykových jevů. Lze např. použít program ArcGis (je přístupná i webová verze, http://www.arcgis.com/explorer/), v němž si můžeme na základě databáze vytvářet vrstvy podkladových
map pro geografické členění. Zároveň bychom těchto podkladových map
rádi použili k modelování rozšíření jazykových jevů, které bude možné
v mluvených a nářečních korpusech sledovat, jako např. rozšíření protetického /v/, úžení, určité typy asimilace. Počítáme i s didaktickým využitím,
kdy je možné k mapovému podkladu a ke sledované lokalitě přidat nahrávku
a krátký přepis příslušného dialektu. (srov. např. německá databáze http://
www.dialektkarte.de/, anglická databáze http://sounds.bl.uk/Sound-Maps/
Accents-and-dialects, nebo americká http://aschmann.net/AmEng/).
Výhledově bychom rádi získali současné nahrávky mluvčích, kteří pocházejí ze stejných nebo blízkých lokalit jako mluvčí z nářečního korpusu DIALEKT. Uživatel by pak měl možnost sledovat, které nářeční prvky se v mluvě
zachovaly dodnes a jak se jazyk v určité lokalitě nebo nářeční oblasti vyvíjí.
Literatura
Balhar, J. et al. (1992, 1997). Český jazykový atlas 1, 2. Praha: Academia.
Balhar, J. et al. (1999, 2002, 2005). Český jazykový atlas 3, 4, 5. Praha: Academia.
Balhar, J. et al. (2011). Český jazykový atlas Dodatky. Praha: Academia.
56
Bělič, J. (1972). Nástin české dialektologie. Praha: Státní pedagogické nakladatelství.
Karlík, P., Nekula, M., & Pleskalová, J. (Eds.) (2002). Encyklopedický slovník
češtiny. Praha: Nakladatelství Lidové noviny.
Wittenburg, P., Brugman, H., Russel, A., Klassmann, A. & Sloetjes, H. (2006).
ELAN: a Professional Framework for Multimodality Research. In Proceedings of LREC 2006, Fifth International Conference on Language Resources and Evaluation, 1556–1559.
http://tla.mpi.nl/tools/tla-tools/elan/
http://www.arcgis.com/explorer/
http://www.dialektkarte.de
http://sounds.bl.uk/Sound-Maps/Accents-and-dialects
http://aschmann.net/AmEng/
Zbigniew Greń
Varšavská univerzita
[email protected]
Formální variabilita nejnovějších anglicismů
v češtině, polštině a slovenštině (na korpusovém
materiálu)
Současné slovanské jazyky podléhají stejnému procesu v rámci globalizace, to znamená vlivu angličtiny, jenž se odráží predevším v lexikální rovině
jazyka. Jak je známo, každý kulturní jazyk si vypracoval způsob postupu
s cizími vlivy, a způsob jejich inkorporace. Zde uvedené západoslovanské
jazyky do jisté míry mají stejný způsob adaptace, v jistém měřítku přece jen
zavádějí tyto elementy do mateřštiny rozdílným způsobem. Jedná se především o rozdíly v tempu přizpůsobení k domácímu lexiku. Kromě toho, tyto
jazyky, ačkoliv z téže jazykové skupiny a poměrně si podobné, zvlášt čeština
a slovenština, se přece jen v podrobnostech liší, co znamená, že postup adap-
57
tace může být rozdílný. Stejné u těchto jazyků je to, že cizí slova podléhají
zdomácnění ve všech jazykových rovinách.
Tyto adaptační procesy trvají nějakou dobu a změny v použití výpůjček
mají dynamický charakter. A proto slovníky, dokonce také slovníky neologismů, nejsou s to zachytit samotnou podstatu tohoto procesu. Slovníky
totiž zaznamenávají již ustálenou, vžitou podobu přejatého slova, kdežto
před zaznamenáním této podoby ve slovnících, přejímaná slova se vyskytují
v jednotlivých textech v nejrozmanitějších tvarech. Tuto dobu kolísání tvarů
výpůjček a celou mozaiku používaných forem zaznamenávají z textů jenom
jazykové korpusy. Korpusový materiál je totiž nejblíže jazykové praxi, to
znamená jazykovým pramenům. A proto, abychom zjistili podstatu procesu
adaptace a celé bohatství jazykových forem, použitých v textech, obracíme
se na korpusový materiál. K analýze použijeme korpusy tří jazyků: češtiny, polštiny a slovenštiny, samozřejmě se zřetelem na rozdíly mezi těmito
korpusy, jak po stránce obsahové, tak případně metodologické. Proto taky
výsledky srovnání budou uvedeny v podobě nepřímé (procenta) a budou mít
především orientační hodnotu.
Jednotlivá slova, zaváděná do výše jmenovaných jazyků, působí ovšem
rozdílné adaptační problémy. Závisí to na míře jejích složitosti a rozdílnosti
ve srovnání s domácím lexikem. Nejméně problémů je se slovy, jež se moc
neliší ve výslovnosti v jazyku původním a přijímajícím, jako jsou např. dvojité souhlásky, jež se také vyskytují v domácím jazyce. Následkem toho je
dvojí možnost tvarů uváděných, jednak totožnost s původním tvarem, jednak zjednodušení pravopisného tvaru v této poloze (v češtině a slovenštině ve shodě s výslovností), srovnejme slovenské, české a polské assembler :
asembler, boss : bos.
Čím více původní tvar je složitější a vzdalenější svou podobou od tvarů domácích, tím větší je jeho formální variabilita v textech. Ve zmíněných
textech se vyskytují tvary od vůbec nezměněných, fungujících podle pravidel citování cizího tvaru a textu, až po tvary plně adaptované, tak v rovině
ortografické, fonetické, morfologické, případně také sémantické. Týká se to
všech zkoumaných jazyků. Mezi těmito jazyky, a také mezi procesy adaptace cizích slov v těchto jazycích, existují jisté rozdíly, nejsou to však rozdíly
nějak zásadní. Týkají se především podrobností, dokonce jednotlivých přejímaných slov. Zásadnější rozdíl by mohl být výsledkem rozdílů v jazykové
politice vůči výpůjčkám, a toho, jak rychle se výpůjčky podrobují pravidlům
jazyka domácího. Dalo by se říct, že ze tří zmíněných jazyků nejrychlejší
58
v tomto adaptačním postupu je slovenština, nejpomalejší je polština. Jedná
se přece jen o oficiální pravidla, kdežto jednotliví uživatelé jazyka se těchto
pravidel nedrží, a proto také vzniká v textech (v jazykových korpusech),
poměrně bohatá variabilita tvarů, a to ve všech třech zmíněných jazycích.
Zajímavé v těchto pokusech o zavedení anglicismů do zmíněných jazyků
je také to, že tato variabilita se týká nejen nových slov (z oblasti tak říkajíc
moderního života, popsaných už několikrát ve vědecké literatuře), ale také
slov už v těchto jazycích ustálených, a dokonce kodifikovaných v pravidlech
pravopisu, jako je např. slovo (česky a slovensky) kovboj / (polsky) kowboj.
Vystupuje totiž v těchto textech, různého rázu, výpůjčka v původní podobě
cowboy (adaptována morfologicky, např. slovenské cowboyom, cowboyi, cowboyov, cowboymi, české cowboye, cowboyem, cowboyové, cowboyů,polské cowboya, cowboyów, cowboyami ) a ve tvarech částečně adaptovaných, jako jsou
např. slovenské kowboy, kowboj, kawboj, české kowboj, polské kowboy, kawboj.
Původní podoby jsou posilovány jednak používáním v domácích textech celých citací z angličtiny (jako tomu bylo dříve s latinou, francouzštinou apod.), jednak velikou frekvencí propriální slovní zásoby, jako jsou
např. cizí názvy firem (dokonce domácích). Variabilita zase je výsledkem
toho, že dnešní uživatelé jazyka, také ve veřejné psané sféře, nepoužívají
jazykové pomůcky nebo vůbec jazykové pomůcky neobsahují požadovaná
slova a k tomu neexistuje už mechanismus jazykové a redakční úpravy textu. Tímto způsobem ve veřejné jazykové komunikaci, také psané, můžeme
zaznamenat občas jazykový zmatek v oblasti přejímaných slov. V našem
příspěvku tento jev doprovázíme materiálem z jazykových korpusů srovnávaných jazyků, jak v jeho společných rysech, tak v jednotlivých rozdílech.
Uplatnění diachronického hlediska, v časovém rozpětí využitých korpusů,
umožňuje dokonce ukázat dynamiku tohoto procesu.
Literatura
Dobrík, Z. (2007). Jazyky v kontaktoch. (Anglicizmy a iné slová cudzieho
pôvodu v nemčine a slovenčine). Banska Bystrica.
Görlach, M. (Ed.) (2001). A Dictionary of European Anglicisms. New York.
Madecki R. (2009). Anglicismy v současné češtině a polštině. In I. Pospíšil
(Ed.), Klíčové problémy slovanských areálů, Brno.
Rejzek J. (1993). K formální adaptaci anglicismů, Naše řeč, 76, 1.
Český národní korpus. Ústav ČNK, FF UK, Praha. Dostupný z www <http://
www.korpus.cz>
59
Slovenský národný korpus. Bratislava: Jazykovedný ústav Ľ. Štúra, SAV. Dostupný z www: http://korpus.juls.savba.sk
Narodowy Korpus Języka Polskiego
Milena Hebal-Jezierska
Varšavská univerzita
[email protected]
Obraz(y) Američana a Angličana v korpusech
českého, slovenského a polského jazyka
Cílem článku je rekonstrukce obrazů vybraných lexémů denotujících Američana a Angličana dostupných v různých korpusech Českého národního
korpusu, Slovenského národního korpusu a Polského národního korpusu.
Analyzujeme neutrální a expresivní jména (a jejich odvozeniny) označující
zmíněné národnosti.
K analýze používáme různé přístupy korpusové lingvistiky, vycházející z metodologie corpus-based a corpus-driven. „Korpusově řízený přístup (corpus-driven approach) je takový, který své výsledky zakládá pouze
na něm a stojí proti korpusově založenému přístupu (corpus-based approach), který z korpusu vychází, ale podle potřeby ho doplňuje z jiných zdrojů,
popř. vlastní retrospekce“ (Čermák 2006: 15). V našem příspěvku používáme
např. kolokační profily, pattern grammar, klíčová slova, seznam slov, analýzu
konkordance apod.
V článku chceme prezentovat, jak se mění obrazy Američana a Angličana
v závislosti na druhu zkoumaného lexému, typu použitého korpusu (jeho
druhu, velikosti, doby vzniku textu), druhu kontextů a témat, typu nástrojů
i manažeru, a také na jazyce. Zajímavé rozdíly najdeme v obrazech zjištěných v korpusech SYN2010, SYN2009PUB, prim -6.0 -public -all of prim. 6.0. -public- inf, NKJP. Srovnání obrazů Američana a Angličana, které jsme
60
tvořili na základě řady SYN2005, SYN2010 a SYN2000 a jejich slovenských
ekvivalentů, přináší další zajímavé závěry.
Analýza zahrnující tři jazyky a tři korpusy nám pomůže dospět k objektivním závěrům.
V příspěvku se také zmíníme o faktorech umožňujících aplikaci dané
metody. Použité přístupy se snažíme vzájemně ověřovat a najít ten nejlepší
způsob reprezentace obrazu.
Literatura
Baker, P. (2010). Sociolinguistics and Corpus Linguistics. Edinburgh.
Baker, P., Gabrielatos, C. & McEnery. T. (2013). Discourse Analysis and Media
Attitudes: The representation of Islam in the British press. Cambridge:
Cambridge University Press.
Baker, P., Gabrielatos C., Khosravinik, M., Krzyzanowski, M., McEnery, T. &
Wodak, R. (2008). A useful methodological synergy? Combining critical
discourse analysis and corpus linguistics to examine discourses of refugees and asylum seekers in the UK press. Discourse & Society, 19(3), 273–305.
Bańko, M., Doliński, I., Duda, J., Hebal-Jezierska, M. (2012). Collocation Images of Hungarians in Slavonic Languages. In A. Obrębska (Ed.), Practical
Applications of Linguistic Research, Łódź.
Bartmiński, J. (Ed.). (1999). Językowy obraz świata, Lublin.
Błuszkowski, J. (2003). Stereotypy narodowe w świadomości Polaków, Warszawa.
Čermák, F. & Blatná, R. (2006). Korpusová lingvistika: stav a modelové přístupy. Praha: Lidové noviny.
Čermák, F. & Šulc, M. (2006). Kolokace. Praha: Lidové noviny.
Český národní korpus – SYN2000, SYN 2005, SYN2010. Ústav Českého národního
korpusu FF UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.
Hebal-Jezierska, M. (2011). Kolokační obrazy některých lexémů patřících
do sémantického pole cizinec v českém tisku (s metodologickými úvahami). In. F. Čermák (Ed.), Korpusová lingvistika InterCorp. Praha: Lidové
noviny, 109–123.
Hunston S. & Francis G. (2000). Pattern Grammar. Amsterdam/Philadephia:
John Benjamins.
Tognini-Bonelli, E. (2001). Corpus Linguistics at Work, Amsterdam: John
Benjamins.
61
Jiří Hedánek
Filozofická fakulta Univerzity Karlovy
[email protected]
GLOSSA, metajazyk pro popis zvukové stránky
textu
Pro vícefázový projekt korpusové fonologie středověké podoby starověkého
jazyka jsem vytvořil obecný formální deskriptivní metajazyk Glossa (General Language of Speech Sound Analysis) jako skript fonologický, analytickofonetický i akustický. Není to transkripce (bývají syntetické), naopak může
do své syntaxe integrovat libovolnou transkripci. Může být užíván neformálně (až natolik, že se vmísí do běžné grafiky). Formální užití je určeno
strojovému zpracování. Výstupem mohou být statistiky zvukových prvků
včetně prozodie, sestavení syntetických transkripcí, akustický převodník
do systémů TTS (text-to-speech) anebo bytecode zvukové struktury.
Neformální užití spoléhá na implicitní definice prvků, intuitivní syntax,
případně grafiku transkripce; toleruje neúplnost, nejistotu, variantnost či
značnou ležérnost popisu. Formální úzus transkripci téměř nepotřebuje (ta
je komentářem, v lepším případě pojmenováním či nejvýš datovým typem)
a kromě implicitních definic může prvky a operátory definovat explicitně.
Vedle změny implicitních hodnot může redefinovat nejen významy prvků,
ale i některých syntaktických konstrukcí (což v důsledku znamená, že Glossa
není jeden jazyk, ale svazek podobných jazyků). Tak lze Glossu přizpůsobit
různým praktickým potřebám bez omezení formální explicitnosti. Možnost
více rovin abstrakce využije nejenom fonologie.
K výzkumu fonologie slouží sběr dat do mimotextových datových struktur. Pro fonetický zápis (u jazyka bez dochovaného znění jen hypotetický)
lze nad rámec těchto definic rozvinout kvalifikace u transkriptorů v textu,
kde to skutečné znění vyžaduje. Jinou kombinaci externích definic a intratextových kvalifikací potřebuje akustický popis zvukové stránky (další fáze
projektu). Z technických i kapacitních důvodů může být úspornější zkompilovat kompletní zdrojový popis z Glossy do tzv. bytecodu.
Důvodem zkompilování do binárního bytecodu může být buďto možnost
spouštět syntetické znění na různých platformách TTS efektivněji (jeden
bytecode pro více instrukčních sad), rychleji (pevný formát) anebo zakó-
62
dovat znění v idealizované kompaktní formě (nikoli jako zvuková data, nikoli jako metajazykový záznam), např. když přesná transkripce má jakožto
okrajová, málo využívaná součást textu zabírat co nejméně místa (nastavuje
jednotlivé bity). Formát bytecodu jsem vytvořil jako svou diplomní práci
(BFK, binární fonetické kódování jako součást BLK (v3.2), FÚ 1995). Není přímo čitelné, ale je úsporné a přímočaré. Glossa není úsporná, zato přístupná
a pružná. Převod do různých datových formátů je tedy jednodušší z BFK než
z Glossy. V tom se Glossa podobá problémově orientovaným programovacím jazykům.
Glossa striktně užívá ASCII. Jiná kódování toleruje v transkripci a zapouzdřeních cizího kódu (např. grafiky). Byť je schopna omezené algoritmizace (BFK také), jde primárně o datový, nikoli procedurální kód. Je tedy bezpečná. Formát segmentu sestává z prefixu, transkriptoru, sufixu, deskriptorů
a kategorizátorů. Jediný povinný je prefix. Konkatenuje na pozici úzkým
rejstříkem znaků, aby parsing segmentů byl jednoduchý. Transkriptor, nepovinný libovolně dlouhý řetězec (i nulový), značí jeden segment. Nepovinný
sufix, zpřesňující fonetický význam, je ústupek impresionistické transkripci.
Ač neurčen strojovému zpracování, lze parsovat. Pro formálnější analýzu
jsou vhodnější nepovinné deskriptory. Může jich být libovolný počet, mají
různou sémantiku. Výjimečně se uplatní nepovinný kategorizátor. Vzorec
rozvinutějšího segmentu je ..[x](y)(z), kde x je transkriptor, y a z deskriptory. Často stačí jen ..x nebo ..x(y). Segmentaci se lze i vyhnout. Suprasegment
a extrasegmentální neřečové prvky využívají kombinací svislic a závorek.
Pro každé složitější členění textu a komplikovanější datové bloky se užívá
<štítek[konstituent]štítek>, kde konstituent (interpretační kontext) může být
<...[
textový]...>, <...{supratextový}...>, <...(technický)...> nebo <...<grafický>...>. Jednodušeji lze členit rozhraními, ač nemusí být tak jednoznačná. Své značení
mají deklarace, operace a folding. Bloky deklarací i deskriptory disponují
pro popis deskripčními rysy: kromě prozodie 118 základních, které lze zpřesnit nebo definovat další. Popisovat prozodii lze intuitivně (několika úrovněmi výšky a důrazu), anebo akusticky přesně. Časový rozměr umožňuje
značit dva druhy délek současně.
Před začleněním do druhé disertace, Phonology of Masoretic Hebrew:
A Corpus Approach, připravuji revizi aktuální verze Glossy b14.20 na b15.0.
Ta by se po nasazení ve třetí fázi projektu už neměla podstatně měnit.
63
Zdeňka Hladká
Ústav českého jazyka FF MU
[email protected]
Užití korpusu korespondenčních textů KSK111
k sledování dynamiky české slovní zásoby ve 20.
století
Vzhledem k jubilejnímu charakteru konference bude úvodní část příspěvku
věnována krátkému ohlédnutí za dvacetiletým zapojením bohemistů brněnské filozofické fakulty do tvorby korpusových zdrojů češtiny a etablování
korpusové lingvistiky v českém prostředí. Brněnští lingvisté K. Pala, K.
Osolsobě a později Z. Hladká se od samého počátku podíleli na aktivitách
směřujících k vytvoření Českého národního korpusu (už v r. 1988 účastí
v Iniciativní skupině pro přípravu počítačových korpusů a slovníků, která
dala impuls k vybudování Počítačového fondu češtiny a v r. 1994 stála u založení Ústavu Českého národního korpusu), na metodice tvorby korpusů
a jejich značkování (v úzké spolupráci s brněnskými informatiky P. Rychlým, R. Sedláčkem a řadou dalších) i na zapojování korpusových zdrojů
do lingvistického výzkumu. Na Masarykově univerzitě vznikly též dva menší specializované korpusy, které se staly součástí ČNK (Brněnský mluvený
korpus, BMK, v ČNK od r. 2002; Korpus soukromé korespondence, KSKdopisy, v ČNK od r. 2006). Příspěvek připomene přípravu těchto korpusů, jejich
pozitiva i limity a směry využití pro mapování češtiny a pro vysokoškolskou
výuku. Upozorní na rozvoj korpusové lingvistiky v pracích mladší generace
lingvistů FF MU i studentů oboru Český jazyk se specializací počítačová lingvistika, který byl v Brně otevřen v r. 2010.
V hlavní části příspěvku budou dva korpusy korespondenčních textů
vytvořené na FF MU (KSKdopisy a KSK111) prezentovány jako cenný materiálový zdroj pro lexikologicko-lexikografický výzkum. Zmíněny budou
některé výsledky analýz korpusu KSKdopisy mapujícího korespondenci přelomu 20. a 21. století (Hladká 2013, Hladká & Martincová 2012, Machalová &
Osolsobě, 2013), pozornost však bude věnována především nedávno vzniklému korpusu KSK111 zahrnujícímu soukromou korespondenci z let 1902
až 2012 (Hladká et al. 2013). Na příkladech z jeho materiálu bude sledován
pohyb v slovní zásobě češtiny v průběhu 20. století. Půjde pochopitelně o dy-
64
namiku vázanou na charakter soukromého dopisu, proměny epistolárního
stylu a epistolární etikety, nicméně dosavadní sondy naznačují využitelnost
získaných poznatků i pro obecněji platné úvahy o vývojových procesech
v lexikonu. Analýza se zaměří na slovní zásobu typickou pro osobní dopisy: na hypokoristika z propriální i apelativní sféry, kvalitativní deminutiva,
lexikum s příznakem knižnosti a okazionalismy. Při hodnocení excerpovaných dat bude akcentována relace archaičnost – knižnost (na pozadí údajů
základních výkladových slovníků češtiny PSJČ, SSJČ, SSČ).
Literatura
Hladká, Z. (2013). Corpora of Private Correspondence as a Source of Material Focused on a Research of Diminutives. In K. Gajdošová & A. Žáková (Eds.), Natural Language Processing, Corpus Linguistics, E-learning:
SLOVKO 2013. Lüdenscheid: RAM-Verlag, 81–91.
Hladká, Z. et al. (2013). 111 let českého dopisu v korpusovém zpracování.
Brno: Masarykova univerzita.
Hladká, Z. & Martincová, O. (2012). Slova v soukromých dopisech. Lexikografická sonda. Brno: Masarykova univerzita.
Hlaváčková, D. (2013). Korpusové zpracování korespondenčních textů: morfologické značkování. In Z. Hladká et al., Soukromá korespondence jako
lingvistický pramen. Brno: Masarykova univerzita, 19–31.
Machalová, J. & Osolsobě, K. (2013). Hypokoristika z rodných jmen v Korpusu soukromé korespondence. In Z. Hladká et al., Soukromá korespondence jako lingvistický pramen. Brno: Masarykova univerzita, 33–59.
65
Jaroslava Hlaváčová
Ústav formální a aplikované lingvistiky MFF UK
[email protected]
Vyjádření intenzity slovesného děje pomocí
předpon
V práci (Hlaváčová 2009) je uvedena množina šesti českých slovesných předpon, které spolu s reflexivním morfémem způsobí modifikaci původního slovesa. Nemodifikuje se však hlavní význam slovesa, ale intenzita děje, který
je slovesem vyjádřen. Jedná se o předpony roz-, po-, za-, na-, vy- a u- s reflexivním morfémem se nebo si (u předpon po- a za-). Uvedené pořadí současně
zavádí uspořádání předpon podle intenzity slovesného děje. Předpona roztedy znamená začátek, malou intenzitu, předpona u- potom intenzitu nejvyšší. Intenzity vyjádřené pomocí ostatních předpon se mohou překrývat,
jejich stupeň není ostře vyhraněný.
Tento typ slovesné modifikace je velmi produktivní, lze ho aplikovat
na většinu nedokonavých sloves. V dalších pracích (Hlaváčová & Nedolužko
2012, 2013) se ukázalo, že podobné vlastnosti mají tyto předpony i ve slovenštině a v ruštině; z nepublikovaných konzultací se potom lze domnívat,
že i polština a chorvatština má podobnou posloupnost intenzifikujících slovesných předpon. Nabízí se tedy hypotéza, že uvedený způsob modifikace
slovesa je vlastností více (všech?) slovanských jazyků. V našem příspěvku se
však chceme zabývat jen češtinou.
V uvedených pracích je předloženo ke každé předponě několik příkladů
– vymyšlených i převzatých z korpusů a z internetu. Není tam však předvedeno, zda je možné uvedené typy sloves v běžném textu správně rozpoznat.
Některá slovesa s příslušnou předponou a výše popsaným významem jsou
běžnou součástí jazyka, v jiných případech však jde o slova příležitostná,
která přirozeně nejsou zahrnuta v žádném slovníku. Jedním z důsledků je to,
že zůstávají v jazykových korpusech většinou nerozpoznána. Při automatickém zpracování jazyka je však výhodné i takové slovní formy umět rozpoznat a přiřadit jim správné morfologické, případně i jiné vlastnosti. Rozšířit
slovníky o všechny možné tvary takových sloves však není příliš užitečné,
zvláště vezmeme-li v úvahu jejich poměrně nízkou frekvenci. Přitom je poměrně snadné je v textu rozpoznat.
66
V tomto příspěvku bychom tedy chtěli ukázat, jak taková slovesa v textech vyhledávat, a stanovit kritéria, která umožní jejich správné určení.
Pomocí klasických měr pro vyjádření přesnosti ukážeme, jak jsou takové
vyhledávky úspěšné. Vše bude prezentováno na datech Českého národního
korpusu.
Konkrétně jsme tedy navrhli vyhledávací podmínky, které v anotovaném
korpusu řady SYN označí slova, jejichž zápis začíná jednou z uvedených
předpon a v jejichž rozumném okolí se nachází reflexivní morfém se (případně si). Ve výsledné množině se samozřejmě objevila i jiná slova, včetně
překlepů, kterými se zabývat nechceme. Proto jsme výslednou množinu dále
zúžili. Odtrhli jsme předponu a spustili morfologickou analýzu na zbylý řetězec. Vycházíme z předpokladu, že základní sloveso, ke kterému je připojena předpona, je běžnou součástí jazyka, a tudíž obsaženo v morfologickém
slovníku. Jestliže tedy analýza určila, že zbytek je nedokonavé sloveso, zařadili jsme tento výskyt do výsledné množiny. Abychom mohli udělat ruční
evaluaci, zúžili jsme seznamy vět pro každou předponu na maximálně 200
vět. Ty jsme poté podrobili ručnímu zkoumání a u každého výskytu rozhodli, zda se jedná o sloveso s daným významem, či nikoli. Z výsledných počtů
jsme potom pro všechny předpony spočítali hodnotu tzv. precision, která
určuje, jaký poměr z vybraných kandidátů je skutečně hledaným slovesem.
Největší precision, vychází pro předponu roz- (0,81), nejmenší pro předponu vy- (0,17). Vysoká hodnota precision znamená, že určení, zda jde
o stupňované sloveso, je poměrně spolehlivé.
U sloves s předponami, jejichž hodnota precision je nízká, není jejich intenzifikační význam tak jednoduše rozpoznatelný. U některých předpon je
však možné využít i jiná kritéria, vycházející především z kontextu. Objevíli se například v okolí reflexivního slovesa s předponou u- výraz „k smrti“,
bude jeho určení zřejmě mnohem jistější (např. uhonil se k smrti).
Literatura
Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK,
Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.
Hlaváčová, J. (2009) Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Ph.D. thesis, FF UK, Praha.
Hlaváčová J. & Nedolužko A. (2012). Příklad pravidelných slovotvorných
vzorců v automatickém zpracování češtiny a ruštiny. In Zborník príspev-
67
kov prezentovaných na konferencii Informačné technológie – Aplikácie
a Teória, ITAT 2012, Hotel Magura, 17–21. septembra 2012. 53–56.
Hlaváčová J. & Nedoluzhko A. (2013). Intensifying Verb Prefix Patterns in
Czech and Russian. In Lecture Notes in Computer Science, Vol. 8082,
Text, Speech and Dialogue: 16th International Conference, TSD 2013.
Berlin / Heidelberg: Springer Verlag, 303–310.
Hlaváčová J. & Nedoluzhko A. (2014). Productive verb prefixation patterns.
The Prague Bulletin of Mathematical Linguistics, No. 101, Univerzita
Karlova v Praze, Praha, 111–122.
Khoroshkina, A. & Nedoluzhko, A. (2014). “Vchera nasochinyalsya voroh
strok”: Productive circumfixal intensifying patterns in Russian. In Papers from the Annual International Conference Dialogue 2014, 13 (20) of
Computational Linguistics and Intellectual Technologies, Moscow.
Milena Hnátková
Ústav teoretické a komputační lingvistiky FF UK
[email protected]
Automatická identifikace ustálených kolokací
v diachronních textech
Příspěvek se zabývá automatickým vyhledáváním frazémů a ustálených
slovních spojení v diachronních korpusových textech a porovnáním výsledků automatického označení přísloví s výsledky v textech synchronních korpusů.
Pro účely tohoto výzkumu byl vytvořen vzorek elektronických textů
19. století z textové základny diachronní části Českého národního korpusu
a vyhledávácí program pro automatickou identifikaci frazémů byl doplněn
o další ustálená slovní spojení 19. století. Texty připravované pro zařazení
do diachronního korpusu Diakorp o rozsahu cca 2 miliónu slov obsahují díla
autorů 19. století, například F. Palackého (Dějiny národu českého v Čechách
68
a na Moravě), J. Arbesa, B. Němcové, A. Jiráska, převážnou část tvoří básně,
například J. Vrchlického, J. Zeyera, J. V. Sládka, F. Rubeše, je zde zařazen
i slovník Příruční slovník jazyka českého (PSJČ) a vydání časopisu Český lid.
Vyhledávací procedura ustálených slovních spojení FRANTA (FRazémová
ANotace a Textová Analýza) je program automatického vyhledávání kolokací v korpusových datech, pracuje na jednoznačném morfologicky označkovaném textu, proto pro účely této studie byly diachronní texty automaticky
morfologicky označkovány pracovně pomocí programu pro desambiguaci
současného psaného jazyka. Seznamy frazémů jsou uvedeny v tabulce, kterou program vyhledávání využívá. Tento počítačový program automatického vyhledávání ustálených slovních spojení FRANTA je založen na Slovníku
české frazeologie a idiomatiky (SČFI) a doplněn o ustálená slovní spojení
vyskytující se v korpusových datech. Automaticky nalezená slovní spojení
jsou označena a lze je vyhledávat v korpusovém vyhledávači.
Při rozšíření tabulek pro automatické vyhledávání ustálených kolokací
byla aktuálně zařazena pouze ta větná spojení ze SČFI (část Výrazy větné
- SČFI4), která se vyskytují v korpusech SYN. Pro zpracování diachronních
textů byla do programu automatické identifikace frazémů zařazena další
slovní spojení z SČFI4, zejména přísloví, která se v diachronních textech
vyskytují. Dále do vyhledávání byla zařazena přísloví, která byla identifikována v textech 19. století (pomocí korpusového vyhledávače) na základě klíčových slov – přísloví, rčení, úsloví, pranostika, „říká se“ apod. Dalším způsob nalezení přísloví vyskytujících se v textech bylo zobecnění tabulky pro
vyhledávání přísloví (lemmata byla zaměněna proměnnou) a pomocí takto
vzniklých základních slovnědruhových vzorců přísloví (Kdo se ...; Komu se
..., tomu se ...) byla automaticky označena některá slovní spojení jako potencionální přísloví. Ve výsledku tohoto vyhledávání byly potom ručně identifikována přísloví, která byla zařazena do tabulky pro automatické označování
frazémů. Při automatickém zpracování diachronních dat (automatická morfologická desambiguace) bylo nalezeno několik pro automatickou morfologickou
analýzu neznámých slov, jejichž výskyt jsme porovnávali v synchronních
korpusech. Tímto způsobem bylo například doplněno do stávajícího morfologického slovníku slovo „prk“ (a sloveso prkat), uvedené v PSJČ jako kozí,
kozlovitý pach a vyskytující se i v synchronním korpusu: „Jasně jsme cítili
jeho prk.“ (SYN2009).
69
Autor příspěvku se zaměří především na porovnání výsledků automatického vyhledávání větných výrazů v diachronním textu s texty současné
publistiky – s výsledky automatického označení ustálených kolokací v korpusech současného psaného jazyka řady SYN z Českého národního korpusu.
Příspěvek si hlavně všímá rozdílu v používání a frekvenci českých přísloví.
Například přísloví: „Nežeň se očima, ale ušima.“, „Kdo se žení pro statek, přichází na zmatek“ se vyskytují pouze v diachronních textech, k přísloví „Kdo
se míchá mezi plevy, toho prasata snědí“ z 19. století se v korpusu syn2010
vyskytuje varianta: „Kdo se míchá mezi otruby, svině ho zežerú“. Pro situaci, že je špatné počasí, se stále používá označení „všichni čerti se žení“,
ve vzorku diachronních textů byla nalezena varianta: „všichni kominíci se
tam žení“.
Literatura
Čermák, F. et al. (2009). Slovník české frazeologie a idiomatiky 4. Výrazy
větné. Praha: Leda.
Hnátková, M. (2005). Identifikace přísloví v korpusu. In R. Blatná, V. Petkevič
(Eds.), Jazyky a jazykověda. Ústav Českého národního korpusu Filozofické fakulty Univerzity Karlovy, Praha, 89–97.
Hnátková, M. (2011): Výsledky automatického vyhledávání frazémů v autorských korpusech. In Korpusová lingvistika Praha 2011, sv. 3: Gramatika
a značkování korpusů. Praha: Nakladatelství Lidové noviny, 171–185.
Hnátková, M. & Kopřivová, M. (2012). From a Dictionary to a Corpus, Konference EUROPHRAS 2012 – Phraseology and Culture. Maribor.
70
Jana Hoffmannová
Ústav pro jazyk český AV ČR
[email protected]
Olga Richterová
Ústav Českého národního korpusu FF UK
[email protected]
Si představ, se nediv, ti to ukážu… Jednoslabičné
začátky syntaktických segmentů v mluvené češtině
Jednoslabičné výrazy se, si, seš, sem, sme, ste, mě, mi, mu, tě, ti, bych, by
(z hlediska slovnědruhového tedy výrazy povahy zájmenné nebo jednotlivé
tvary slovesa být, resp. komponenty složených slovesných tvarů) stojí často
na počátku syntaktických segmentů – v mluvené češtině, v její beletristické
stylizaci (dialogy postav v próze, dramatu), ale např. i v komunikaci mladých
lidí na chatu, tedy v textech silně ovlivněných projevy mluvenými.
Analýza tohoto frekventovaného jevu vede k úvahám o tom, jak vůbec
tento typ počátkových výrazů hodnotit, hodnocení musí být nutně rozrůzněné. Např. Sgall a Hronek (1992) je označují jako příklonky, resp. předklonky; podle J. Tomana (2001) či A. Svobody (2000) nejde o klitika, všichni
zmínění autoři tu však uvažují o výsledcích slovosledné inverze (Se mu to
nepovedlo = „Nepovedlo se mu to“) nebo procesů eliptických (Bych si taky
myslel = „To bych si taky myslel“).
Kromě hodnocení a kategorizace jednotlivých typů jednoslabičných začátků představuje další zajímavý problém metodika korpusového vyhledávání zaměřeného na tento jev: co je vlastně „začátek“, jak se dobrat počátkové pozice (velká otázka, k níž existuje především zahraniční literatura, srov.
Brazil 1995: 47nn.). Při výzkumu mluvené syntaxe – a tedy i zde – neustále
narážíme na problém „jednotky“ mluveného projevu. Ostře ohraničené jednotky typu vět v psaném projevu zde nepřicházejí v úvahu. Neurčité, rozplývavé hranice „jednotek“, útržkovitost mluvené syntaxe, časté dodávání
a nastavování, juxtapoziční přiřazování, množství oprav a „falešných startů“,
ztrácení větné perspektivy – to vše komplikuje práci se segmenty, na jejichž
počátku sledované výrazy stojí. Důležitým, ale v korpusových datech rovněž
jen obezřetně využitelným signálem začátku segmentu je střídání mluvčích
v dialogu; na hranicích replik ve spontánním živém rozhovoru dochází ne-
71
zřídka k jejich překrývání, jeden mluvčí skáče druhému do řeči, „přebírá“
od něj nedokončenou konstrukci, v tomto poněkud chaoticky strukturovaném prostoru právě vznikají slovosledné nepravidelnosti, eliptická vyjádření apod. Je tedy na místě přistupovat k analýze tohoto a dalších podobných
jevů z hlediska „dialogické syntaxe“, z pohledu interaktivního, brát v úvahu
i zvuková specifika a speciální techniky mluveného projevu – což právě současné korpusy, propojující transkripty s nahrávkami, ve vysoké míře umožňují. Příprava příspěvku bude spojena i se zkoušením různých dotazů, které
by umožnily dobrat se k co nejvíce homogennímu souboru dat.
Příspěvek přirozeně naváže na text J. Hoffmannové a I. Kolářové, přednesený rovněž na korpusové konferenci (Gramatika a korpus 4, 2012) a poté
publikovaný v časopise Korpus – gramatika – axiologie. Pro tento předchozí příspěvek byla využita především data z korpusů SYN2000, SYN2005,
SYN2010, ORAL2006, ORAL2008; nyní se nabízí soubor analyzovaných dat
rozšířit (kvantitativně i typově) a využít jednak korpus ORAL2013, jednak
doplňkově i data z korpusů DIALOG (v ÚJČ AV ČR), Schola 2010, a z ČNK
rovněž Korpus soukromé korespondence. Neformální privátní dopisy, maily
a zprávy SMS – tedy texty, které vykazují mediální psanost, ale konceptuální
mluvenost (srov. Koch & Oesterreicher 1986) – totiž jednoslabičné začátky
rovněž obsahují (viz k tomu Hoffmannová 2011) a jsou specifickým, ale rozhodně využitelným zdrojem poznatků o syntaxi mluvené češtiny.
Tato sonda je určitou anticipací metod a přístupů, které by obě autorky rády dále rozvinuly v chystaném grantovém projektu, zaměřeném právě
na lepší poznání syntaxe mluvené češtiny. Projekt by měl navazovat na syntaktické poznatky českých dialektologů (např. Šipková 1993) i na výzkumy
O. Müllerové (1994) a aspoň poněkud splatit bohemistický dluh vůči stále
málo zpracovanému tématu.
Literatura
Brazil, D. (1995). A Grammar of Speech. Oxford: Oxford University Press.
Hoffmannová, J. (2011). Mluvená čeština v zrcadle „psané konverzace“
na chatu. In S. Čmejrková & J. Hoffmannová (Eds.), Mluvená čeština:
hledání funkčního rozpětí. Praha: Academia, 393–407.
Hoffmannová, J. & Kolářová, I. (2013). Se vám to nelíbí? Jednoslabičné začátky českých výpovědí / dialogických replik: v běžně mluvené češtině
a beletristické stylizaci. Korpus – gramatika – axiologie, 07, 36–47.
72
Koch, P. & Oesterreicher, W. (1986). Sprache der Nähe – Sprache der Distanz.
Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie
und Sprachgeschichte. In Romanistisches Jahrbuch, 36, Berlin / New
York: Walter de Gruyter, 15–43.
Müllerová, O. (1994). Mluvený text a jeho syntaktická výstavba. Praha: Academia.
Sgall, P. & Hronek, J. (1992). Čeština bez příkras. Praha: H+H.
Šipková, M. (1993). Skladba věty v mluvených projevech (Syntax hanáckých
nářečí). Jinočany: H+H.
Svoboda, A. (2000). Klitika z hlediska funkční větné perspektivy. In Z. Hladká
& P. Karlík (Eds.), Čeština – univerzália a specifika 2. Brno: MU, 149–159.
Toman, J. (2001). Ertlova diskuse českých klitik. In Z. Hladká & P. Karlík
(Eds.), Čeština – univerzália a specifika 3. Brno: MU, 73–79.
Andrzej Charciarek
Uniwersytet Śląski w Katowicach
[email protected]
Národní korpusy a velké překladové polsko-české
a česko-polské slovníky
Je zajímavé, že v překladové polsko-české lexikografii se dosud používají
ve větší míře slovníky v papírové podobě, které byly vytvořeny bez využití narodních polských a českých korpusů. Dokonce i autoři nejnovějšího
elektronického velkého polsko-českého a česko-polského slovníku (LINGEA
Lexicon 5) neinformují o využití korpusů. Potěšující však je alespoň skutečnost, že první takový elektronický slovník už existuje a dá se předpokládat,
že se bude početně stále rozšiřovat a jeho kvalita zvyšovat. Je přece samozřejmé, že přišel čas převést slovníky z papírové podoby do podoby elektronické. Tato operace je přirozená, protože korpusy jako takové mají datovou
podobu. Kromě toho je práce se slovníky v papírové podobě zdlouhavá a ne-
73
praktická. Navíc současný odborný uživatel slovníků potřebuje co nejbohatší zdroj jazykových dat a příslušné nástroje k jejich využívání. Elektronická
podoba slovníků umožňuje rychlé a operativní prohledávání jednotlivých
hesel, které mohou mít netradiční podobu. Používání elektronického slovníku přináší v porovnání s tradiční papírovou formou slovníku celou řadu
výhod, poskytuje například bohaté možnosti rozšíření hesla o multimediální
prvky, animace apod. Využití hypertextu umožňuje také přechod na další
text a získat tak podrobnější informace. Neexistuje již žádná omezení rozsahu, které u slovníků v papírové podobě byly limitujícím faktorem.
V 21. století by se národní korpusy jako významný zdroj lingvistických dat
měly stát základními zdroji při sestavování velkých překladových slovníků.
Jedná se o všechny druhy národních korpusů, nejen o jednojazyčné synchronní korpusy psané.
Velkou budoucnost mají současné paralelní korpusy, z nichž je možné
získávat překladové ekvivalenty. Na rozdíl od tradičních překladových slovníků obsahují paralelní korpusy textové ekvivalenty, které tvoří základní
jednotky v procesu translace. Je však třeba konstatovat, že tyto korpusy obsahují převážně beletristické texty. Zásadním problémem je také vyřešení
otázky ochrany autorských práv při používaní současných beletrických textů v korpusu.
Zároveň zde vznikají pochybnosti týkající se kvality překladu. Nezřídka
se stává, že překlad je neprofesionální a nepřesný. Nejčastějším důvodem
tohoto faktu je překladatelova nedostatečná znalost zdrojového nebo cílového jazyka, a proto některé přeložené fragmenty neodpovídají originálu,
nebo úplně absentují. Navíc si je třeba uvědomit, že jazyk v beletristických
textech se může významně lišit od jazyka průměrného uživatele jazyka. Autorský jazyk může být zcela odlišný od jazyka většiny populace, může být
nekonvenční, plný netypických kolokací, neobvyklých idiomatických spojení a autorských metafor. Slovník by však měl uvádět jazyk příznačný pro
celonárodní komunitu, jazyk standardní. Slabinou paralelních korpusů také
stále zůstává přenos mluveného jazyka, neboť mluvené texty se převážně
nepřekládají.
Nicméně nelze pochybovat o tom, že paralelní korpusy mohou být do budoucna užitečným zdrojem pro tvorbu překladového slovníku. Metody automatického získávání překladových slovníků z paralelních korpusů jsou
již známé a použitelné v praxi. Problémem je ale malý rozsah paralelních
korpusů, které jsou nesrovnatelné s velkými jednojazyčnými korpusy. Ty
74
poslední zřejmě zůstanou největší z tohoto důvodu, že ne všechny možné
kategorie textů budou přeloženy do cizího jazyka.
V případě velkých korpusů (českého a polského) je důležitým momentem jejich reprezentativnost. Je samozřejmostí, že podmínkou dostatečné
reprezentativnosti korpusů je velký rozsah dat, který eliminuje do jisté míry
jednostrannost malého korpusu. Reprezentativnost korpusu by měla být založena na tom, že korpus reflektuje a popisuje jazykovou realitu. Problém ale
tkví v samotné definici zmíněného pojmu, který se používá nejednoznačně.
Podle našeho názoru by jazyková realita měla odrážet dvě variety jazyka:
mluvenou a psanou. Většina národních korpusů (včetně českého a polského)
je založena pouze na textech psaných. Bude tedy nutné získat zápisy mluvených projevů. Realizace tohoto záměru však je nepochybně náročná a zdlouhavá. Sběr mluvených textů provází mnoho problémů a omezení. Svědčí
o tom alespoň různý vývoj jednotlivých korpusů, například českého (ČNK)
a polského (NKJP). Zatímco český se neustále rozšiřuje a patří k jednomu
z největších korpusů v Evropě, práce na polském korpusu jsou v současné
době prakticky zastaveny.
Je třeba konstatovat, že velké korpusy jsou neocenitelnými zdroji informací pro lingvisty a lexikografy při budování velkých překladových slovníků v elektronické podobě.
Otevřenou otázkou zůstává, kdo bude tvořit a pro koho ony nové, kvalitativně lepší velké elektronické slovníky. Lze předpokládat, že slovníky budoucnosti budou sestavovány lingvisty-lexikografy-informatiky (což se neobejde
bez nezbytného interdisciplinárního vzdělání) pro všechny uživatele – lingvisty, překladatele a studenty jazyka.
Literatura
Čermák, F. (2010). Mnohojazyčný korpus InterCorp: Možnosti studia. Praha:
Nakladatelství Lidové noviny.
Čermák, F. & Blatná, R. (2005). Jak využívat český národní korpus. Praha:
Nakladatelství Lidové noviny.
Čermák, F. & Blatná R. (2006). Korpusová lingvistika: Stav a modelové přístupy. Praha: Nakladatelství Lidové noviny.
Čermák, F., Králík, J. & Kučera, K. (1997). Recepce současné češtiny a reprezentativnost korpusu. SaS, 58, 117–124.
Charciarek, A. (2012). Ostrzeżenia i zakazy jako napisy miejskie w słowniku
dwujęzycznym polsko-czeskim, „Bohemistyka” Nr 1, Poznań, 5–34.
75
Chlebda, W. (Ed.) (2009). Podręczny idiomatykon polsko-rosyjski, z. 4., Opole.
Grabowski, Ł. (2011). Korpusy dwu- i wielojęzyczne w służbie tłumacza,
leksykografa i badacza: poszukiwanie ekwiwalentów przekładowych w
świetle hipotez dotyczących istnienia uniwersaliów tłumaczeniowych.
In W. Chlebda (Ed.), Na tropach translatów. W poszukiwaniu odpowiedników przekładowych. Opole, 89–112.
Kopřivová, M., (2001). Využití korpusu při zpracování frazeologie ve výkladovém slovníku. In M. Balowski & Chlebda W. (Eds.), Frazeografie slovianska, Opole, 335–339.
Kopřivová, M. & Waclawičová, M. (2008). Čeština v mluveném korpusu. Praha: Nakladatelství Lidové noviny.
Lewandowska-Tomaszczyk, B. (2005). Podstawy językoznawstwa korpusowego. Łódź.
Lewicki, R. (2011) Translaty w słowniku przekładowym – poszukiwanie
i ustalanie, In W. Chlebda (Ed.), Na tropach translatów. W poszukiwaniu
odpowiedników przekładowych. Opole, 159–166.
Piotrowski, T. (2011). Ekwiwalencja w słownikach dwujęzycznych, In W.
Chlebda (Ed.) Na tropach translatów. W poszukiwaniu odpowiedników
przekładowych. Opole, 45–70.
Šulc, M. (1999). Korpusová lingvistika. První vstup. Praha.
Żmigrodzki, P. (2003). Teraźniejszość i przyszłość polskiej leksykografii językoznawczej. Poradnik Językowy, z. 1, 20–33.
Żmigrodzki, P. (2005). Słownik jako korpus tekstów – korpus tekstów jako
słownik. Perspektywy polskiej leksykografii naukowej. Poradnik Językowy, z. 6, 3–14.
Żmigrodzki, P. (2008). Słowo – słownik – rzeczywistość. Z problemów leksykografii i metaleksykografii. Kraków.
Żmigrodzki, P. (2009). Wprowadzenie do leksykografii polskiej. Katowice.
76
Pavla Chejnová
Pedagogická fakulta Univerzity Karlovy
[email protected]
Využití korpusu dětské řeči k popisu akvizice
morfologických kategorií
Příspěvek představuje výzkum osvojování gramatických kategorií češtiny u českého monolingvního chlapce, mapován je vývoj od nástupu řeči
cca do čtyř let věku dítěte. Výzkum je založen na korpusu, který autorka
pořizovala od nástupu prvních jednoslovných výpovědí, sběr dat probíhá
i v současnosti. Korpus tvoří autentické rozhovory dítěte s matkou a dalšími dospělými, které byly transkribovány dle zásad užívaných v korpusu
CHILDES. Autorka představí vlastní korpus a metody používané při analýze
dat. Prezentovaná část výzkumu se soustřeďuje na nabývání morfologických kategorií flektivního jazyka, autorka se zaměřuje na vývoj gramatických kategorií substantiv, adjektiv, pronomin a verb. Teoretický rámec tvoří
koncepty založené na vývojových fázích pre-morfologie, protomorfologie
a modulární morfologie (Dressler 1997, Voeikova & Dressler 2002, Bittner
et al. 2003, Voeikova & Stephany 2009). Vývoj je chápán jako kontinuální.
Ačkoliv existence jistých vrozených predispozic není vyloučena, autorka se
zaměřuje spíše na situační proměnné, např. povahu inputu, se kterým je dítě
konfrontováno. Zaznamenávána jsou tzv. miniparadigmata, tj. výskyt deklinačních a konjugačních minimálně tříčlenných paradigmat v řeči dítěte
a dále frekvence výskytu jednotlivých jevů: lemma – tvar (type) – počet
výskytů (token frequency). Dílčí výsledky naznačují, že vývoj gramatických
kategorií postupuje ve sledu, který je popisován autory studií věnovaným
příbuzným flektivním jazykům (viz uvedená literatura). Z laického pohledu
byl vývoj sledovaného dítěte skokový – po nástupu řeči ve dvou a půl letech
se během půl roku vyvinula schopnost mluvit ve složitých souvětích. Detailní analýza korpusu ovšem naznačuje, že nástup řeči byl sice pozdní a následný vývoj probíhal velmi rychle, nicméně základní fáze a přechody mezi
nimi byly zachovány a korespondují s fázemi sledu akvizice gramatických
kategorií popsaných v jiných slovanských jazycích. Autorka při své práci
používá i metodu deníkových zápisů, neboť samotný transkript demonstruje
pouze výseč produkce dítěte ve sledovaném období, a další sledované jevy
77
by tak mohly být opomenuty. Pro detailní objektivní analýzu je tedy třeba
korpusová data doplnit o další záznamy. Rovněž je výhodou, pokud řečovou
produkci dítěte analyzuje lingvista, který má s dítětem osobní zkušenost,
protože zná kontext jeho vývoje a při včasné analýze každého pořízeného
transkriptu dokáže správně přiřazovat referenty k situacím.
Literatura
Bittner, D., Dressler, W. U. & Kilani-Schoch, M. (Eds.) (2003). Development of
verb inflection in first language acquisition. A cross-linguistic perspective. Berlin: Mouton-de Gruyter.
Dressler, W. (Ed.) (1997). Studies in Pre- and Protomorphology. Wien: Verlag
der Österreichischen Akademie der Wissenschaften.
Stephany, U. & Voeikova, M. D. (Eds.) (2009). Development of nominal inflection in first language acquisition. A cross-linguistic perspective. Berlin /
New York: Mouton de Gruyter.
Voeikova, M. D. & Dressler, W. U. (Eds). (2002). Pre- and Protomorphology.
Early Phases of Morphological Development in Nouns and Verbs. München: Lincom Europa.
Lucie Chlumská
Ústav Českého národního korpusu FF UK
[email protected]
Je čeština v překladech jiná?
Překladové literatuře se u nás daří rok od roku lépe. Podíváme-li se na situaci v posledních pěti letech podle statistik Národní knihovny (od roku 2008
do roku 2012)*, počet překladů neperiodických publikací – kam patří beletrie, populární i odborná literatura – stále narůstá. V roce 2012 bylo vydáno
téměř o 98 % překladových knih více než v roce 2008. Šlo celkem o 5 871
* Statistiky NKP dostupné např. zde: http://text.nkp.cz/soubory/ostatni/vykaz_dd2012.pdf
78
titulů překladové literatury, což je více než 34 % z celkového objemu knižní
produkce. Nejvíce překládanými jazyky jsou po mnoho let s velkým náskokem angličtina, dále pak němčina a francouzština. Uvážíme-li, že překladová literatura dnes tvoří více než třetinu vydaných
publikací, musí nás nutně zajímat, zda se překladový jazyk nějak neodlišuje,
zdali není svébytným kódem, který má své vlastní zákonitosti a svá pravidla. Je překladová čeština jiná než čeština původních, česky psaných děl?
Vykazuje jazyk překladů nějaké specifické rysy, jež jsou pro něj typické bez
ohledu na jazyk, z něhož byl překlad pořízen? A konečně, jak můžeme tyto
otázky vůbec zkoumat – na jakých datech? Na tyto otázky se pokusí odpovědět tato studie.
Překladovému jazyku a jeho charakteristikám je v korpusové translatologii věnována velká pozornost již od devadesátých let, kdy Mona Bakerová
(Baker 1993) publikovala svůj stěžejní článek o teorii překladových univerzálií. Od té doby se mnoho vědců zabývá otázkou popisu překladového jazyka
jak z kvalitativního, tak především z kvantitativního hlediska (např. Laviosa
2002, Olohan 2004, Chesterman 2004, Malmkjær 2005, Xiao 2010). V češtině
byl tento výzkum donedávna poněkud opomíjen, až na dílčí, převážně kvalitativní studie (např. Středová 2009, Polišenská 2010) neexistuje monografie,
která by se překladovou češtinou dopodrobna zabývala. Chceme-li zkoumat překladový jazyk ve srovnání s nepřekladovým, nepotřebujeme k tomu nutně zdrojové texty, z nichž byly překlady pořízeny,
ale referenční korpus nepřekladových textů, který bude sestaven podle obdobných pravidel. Jinými slovy, pro tento typ výzkumu není vhodný paralelní korpus, který obsahuje překlady a originály, ale korpus srovnatelný. Pro
češtinu byl takový korpus** vytvořen na Ústavu Českého národního korpusu
v roce 2013. Korpus Jerome je jednojazyčný srovnatelný korpus speciálně sestavený
pro zkoumání překladové češtiny (tedy textů přeložených do češtiny z jiných jazyků) v porovnání s češtinou nepřekladovou (původní česky psanou). Korpus Jerome je primárně určen translatologům a lingvistům, kteří
se chtějí zabývat zkoumáním překladové češtiny – jejími vlastnostmi a charakteristikami. Korpus (především pak jeho vyvážený subkorpus) je možné
využít i k ověřování teorií o platnosti tzv. překladových univerzálií.
Korpus vznikl na základě databáze textů Českého národního korpusu,
konkrétně pak řady SYN (synchronní čeština), z níž byly ručně vybrány kon** http://wiki.korpus.cz/doku.php/cnk:jerome
79
krétní texty na základě specifických, translatologicky relevantních kritérií.
Mezi hlavní kritéria patří zásada, že v korpusu Jerome nemůže být žádný
autor zastoupen více než třikrát, aby se předešlo vlivu autorského idiolektu.
Podobné pravidlo platí i pro překladatele s tím, že překladatel se může v korpusu objevit také max. třikrát, ovšem pokaždé s překladem jiného autora.
Tím byla zajištěna dostatečná heterogennost korpusu.
Dalším kritériem byla doba vydání textu – do korpusu jsou zařazeny překlady a původní díla vydaná v období dvaceti let (1992–2009), aby mohla
být zkoumána současná překladová čeština. V anotaci je k dohledání nejen
rok vydání konkrétní knihy, která byla zařazena do korpusu, ale i rok jejího
prvního vydání, aby bylo možné vyfiltrovat publikace, jež sice vyšly po roce
1992, ale již v několikátém vydání. Kritériem, kterému výběr podřízen naopak nebyl, je kvalita překladu. Cílem korpusu totiž bylo, aby odrážel reálnou
situaci se vším všudy, tedy i s více či méně kvalitními překlady. Příspěvek si klade za cíl – kromě samotného představení korpusu Jerome
širšímu odbornému publiku – seznámit posluchače s výsledky nejnovějších
výzkumů překladové češtiny. První sondy provedené na korpusu Jerome naznačují, že překladová čeština se skutečně od nepřekladové liší, např. délkou
vět či bohatostí slovní zásoby (Chlumská & Richterová 2014). Právě probíhající výzkum n-gramů ukazuje, že nejčastěji používané 2-gramy, 3-gramy
a 4-gramy a jejich typy se v překladové a nepřekladové češtině zcela nepřekrývají, podobně jako ve finštině (Mauranen 2000). Literatura
Baker, M. (1993). Corpus linguistics and translation studies: Implications and
applications. In M. Baker, G. Francis & E. Tognini-Bonelli (Eds.), Text and
Technology: In Honour of John Sinclair. Amsterdam / Philadephia: John
Benjamins, 233–50.
Chesterman, A. (2004). Hypotheses about translation universals. In G. Hanse, K. Malmkjær & D. Gile (Eds.), Claims, Changes and Challenges in
Translation Studies. Selected Contributions from the EST Congress Copenhagen 2001, 1–14.
Chlumská, L. & Richterová, O. (2014). Jak zkoumat překladovou češtinu? Výzkum simplifikace na korpusu Jerome. Korpus – gramatika – axiologie
,9, 16–29.
Laviosa, S. (2002). Corpus-based Translation Studies. Theory, findings, applications. Amsterdam / New York: Rodopi.
80
Malmkjær, K. (2005). Linguistics and Language of Translation. Edinburgh
University Press: Edinburgh.
Mauranen, A. (2001). Strange Strings in Translated Language. A Study on
Corpora. In M. Olohan (Ed.), Intercultural Faultlines: Research Models
in Translation Studies I: Textual and Cognitive Aspects. Manchester: St.
Jerome Publishing, 119–141.
Olohan, M. (2004). Introducing Corpora in Translation Studies. London:
Routledge.
Polišenská, M. (2010). Translation Universals in the English and Spanish
Translations of Saturnin by Zdeněk Jirotka, diplomová práce. Brno: FF
MU.
Středová, A. (2009). Explicitation and Implicitation in Non-literary Translations, diplomová práce. Brno: FF MU.
Xiao, R. (2010). How different is translated Chinese from native Chinese?
International Journal of Corpus Linguistics, 15 (1), 5–35.
Lucie Jílková
Ústav pro jazyk český AV ČR
[email protected]
Vy jste mi z té otázky utekl! (analýza jednoho
způsobu vymáhání odpovědi, s využitím
korpusových dokladů)
Analýza mediálních dialogů (Čmejrková & Hoffmannová 2011, Čmejrková et
al. 2013) mimo jiné ukazuje, že např. v televizních či rozhlasových diskusích,
jichž se jako hosté účastní politici, nezřídka dochází k tomu, že pozvaný host
se snaží vyhnout odpovědi na moderátorovu otázku. Moderátor po neuspokojivé či žádné odpovědi může hosta upozornit, že od něj dosud nezískal
požadovanou informaci. Právě v tuto chvíli se moderátoři současných publicistických pořadů někdy uchylují k formulaci Vy jste mi z té otázky utekl /
81
Vy mi z té otázky utíkáte, která bude předmětem zkoumání příspěvku. Analyzovány budou doklady této formulace v korpusech poskytovaných Ústavem
Českého národního korpusu (http://www.korpus.cz), doklady zachycené
v korpusu DIALOG (http://ujc.dialogy.cz) a také doklady získané na internetu prostřednictvím české verze vyhledávače Google (www.google.cz).
Užití zkoumaného slovního spojení nepochybně souvisí s osobností moderátora, s jeho stylem kladení otázek (Havlík 2008, 2013; Schneiderová
2013). Nějaký moderátor či moderátorka (např. Daniela Drtinová) se i opakovaně může snažit od svého hosta získat požadovanou informaci, a právě
při své opakované prosbě může užít analyzované slovní spojení, tj. zkoumané slovní spojení je součástí jeho/jejího idiolektu. Jiný moderátor se v téže
situaci může uchýlit k jinému způsobu vyjádření, jímž se snaží hosta přimět
k odpovědi, příp. se spokojí s odpovědí vyhýbavou atd.
Ukazuje se, že zkoumané slovní spojení je v současné češtině, resp.
ve zkoumaném souboru textů, spojením srozumitelným, žádný z hostů se
nad ním nepozastavil, explicitně je nepovažoval za nesrozumitelné, naopak,
někteří hosté svou (z pohledu moderátora vyhýbavou) odpověď zahajují
opět slovy já vám z té otázky neutíkám.
Předmětem analýzy je i to, v jaké době se toto slovní spojení začalo objevovat.
Zkoumané slovní spojení navozuje představu, že moderátorova otázka je
prostorem, v němž se host (nedobrovolně) ocitl a z nějž se snaží uniknout.
Utíkání ze skutečných uzavřených prostor je v jazyce vyjadřováno samozřejmě velmi běžně, viz např. slovní spojení utíkat z vězení, utéct z hořícího
domu, utéci z nemocnice apod. Vyskytuje se i utíkání z prostor metaforických, např. utéci z učení, utéct z práce, velmi běžná jsou ustálená slovní spojení utíkat z boje, z bitvy, z války (Čermák & Hronek et al. 2009a, b, c; Čermák
2009; Saicová Římalová 2010), bez zajímavosti nejsou ani doklady zachycené
např. v Příručním slovníku jazyka českého (1935–1957). Analýza se snaží
zjistit, zda se ve zkoumaném slovním spojení stává otázka právě takovou
metaforickou prostorou.
Doklady z korpusů ukazují, že u moderátorů diskusních pořadů se lze
setkat i s vyjádřeními, která lze označit jako spojení ke zkoumanému spojení
synonymní: vyvléci se z otázky, vykroutit se z otázky, vycouvat z otázky, vyklouznout z otázky, vybruslit z otázky. Spojení utéci z otázky bylo tedy možná
analogicky utvořeno podle těchto synonymních slovních spojení. I v nich se
otázka stává metaforickou prostorou, kterou se mluvčí chystá opustit.
82
Sloveso utíkat/utéct je v diskusních pořadech (a ovšem nejen v nich) dále
běžně spojováno s předložkou od a podstatným jménem téma, tj. utéct/utíkat od tématu. Nelze zřejmě vyloučit, že slovní spojení utéci z otázky vzniklo kontaminací právě se slovním spojením utéci od tématu. V korpusových
dokladech navíc opakovaně nacházíme i spojení utéct od otázky, a to jak
ve vstupech moderátorů, tak v reakcích hostů: já od té otázky neutíkám.
Literatura
Čermák F., Hronek J. et al. (2009a). Slovník české frazeologie a idiomatiky 1.
Přirovnání. Praha: Leda.
Čermák F., Hronek J. et al. (2009b). Slovník české frazeologie a idiomatiky 2.
Výrazy neslovesné. Praha: Leda.
Čermák F., Hronek J. et al. (2009c). Slovník české frazeologie a idiomatiky 3.
Výrazy slovesné. Praha: Leda.
Čermák F. et al. (2009d). Slovník české frazeologie a idiomatiky 4. Výrazy
větné. Praha: Leda.
Čmejrková, S. & Hoffmannová, J. (Eds.) (2011). Mluvená čeština: hledání
funkčního rozpětí. Praha: Academia.
Čmejrková, S. et al. (2013). Styl mediálních dialogů. Praha: Academia.
Havlík, M. (2008). Poznámky k práci moderátorů televizních politických debat a rozhlasových interview. Jazykovědné aktuality, 45 (1–2), 4–31.
Příruční slovník jazyka českého (1935–1957). Praha: Československá akademie věd.
Saicová Římalová L. (2010). Vybraná slovesa pohybu v češtině. Studie z kognitivní lingvistiky. Praha: Karolinum.
Schneiderová, S. (2013). Mediální diskurz. Komunikační situace a styl. Studie
k moderní mluvnici češtiny. Olomouc: Univerzita Palackého v Olomouci, 95–121.
83
Karel Jirásek
Filozofická fakulta Univerzity Karlovy
[email protected]
Identifikace typologických rozdílů mezi češtinou
a chorvatštinou za pomoci paralelního korpusu
InterCorp
Při kontrastivním zkoumání dvou blízce příbuzných jazyků, jakými jsou čeština a chorvatština, je velmi důležité identifikovat typologické rozdíly mezi
těmito jazyky a případné vývojové tendence, které tyto rozdíly mohou v diachronní perspektivě umocňovat či postupně zmírňovat.
Nelze se tedy plně spolehnout na kontrastivní studie staršího data, neboť
stav v nich popisovaný se v některých dílčích aspektech mohl změnit. Diskutabilní je rovněž jazykový materiál, z něhož se dříve při srovnávání češtiny
a chorvatštiny vycházelo – převážně šlo o klasickou českou a chorvatskou
beletrii z konce 19. a první poloviny 20. století – tedy v řadě případů to bylo
srovnávání pouze jazyka spisovného, někdy až knižního. Přitom ne vždy bylo
zohledňováno, že spisovná čeština té doby se od mluvené obecné češtiny odlišovala mnohem výrazněji, než jak tomu bylo v případě chorvatštiny, kde jazyková norma vycházela z živého mluveného jazyka. Na druhou stranu badatelé
při svém studiu pochopitelně využívali i vlastní jazykovou kompetenci, která
je v případě chorvatštiny poněkud problematická z důvodu výrazné nářeční
roztříštěnosti, dodnes mnohem výraznější, než je tomu v případě češtiny.
Z uvedených důvodů se stávalo, že některé zaznamenané rozdíly v podstatě nepředstavovaly rozdíly mezi češtinou a chorvatštinou, nýbrž pouze
rozdíly mezi nestejnými jazykovými rovinami obou jazyků. Stejně tak některé zdánlivé shody (např. lexikální, frazeologické, stylistické) mohly být
shodou mezi češtinou a pouze jedním z chorvatských nářečí. Tak jako prvky
obecné češtiny postupně pronikají do spisovného jazyka, dochází i v chorvatštině k posunu, když se některé původně nářeční prvky stávají součástí
obecné chorvatštiny, která zejména v posledních dvaceti letech prošla výraznými vyrovnávacími procesy.
Paralelní korpus InterCorp nám dává jedinečnou možnost porovnat
a statisticky vyhodnotit potenciální typologické rozdíly mezi oběma jazyky
na rozsáhlém souboru ekvivalentních textů z pera různých autorů a různých
84
překladatelů. Pro získání relevantních zobecňujících výsledků je totiž nezbytné odlišit obecně jazykové jevy od individuálních specifik jazyka jednotlivých autorů či překladatelů.
Jedním z problémů paralelního korpusu je ne vždy uspokojivá kvalita překladů, což mnohdy není patrné na první pohled, ale až na základě statistické
analýzy. Nemusí jít přitom přímo o překlad chybný, v některých případech
však překladatel dílo ochuzuje, původní jazyková pestrost originálu se ztrácí
a nivelizuje, jak na úrovni lexika, tak i na úrovni syntaktických konstrukcí.
V některých případech i sám autor originálu systematicky používá velmi
specifických jazykových prostředků, které nelze považovat za součást standardu příslušného jazyka. Oba tyto typy textů (nekvalitní překlady i výrazně jazykově specifické originály) je vhodné ze zkoumaného vzorku předem
vyloučit, abychom naše výsledky mohli zobecnit. Díky novým uživatelským
rozhraním pro práci s paralelním korpusem (NoSkE a KonText) je nyní mnohem snazší takto specifické texty na základě statistického srovnání odhalit
a následně vyřadit ze zkoumaného subkorpusu.
Ve svém příspěvku chci demonstrovat postup vyhledávání typologických
rozdílů mezi češtinou a chorvatštinou v paralelním korpusu InterCorp na příkladu srovnání derivačního potenciálu sloves (zejména při odvozování slovesných adjektiv a substantiv) v češtině a chorvatštině. Zatímco v češtině je odvozování slovesných adjektiv jevem zcela běžným, chorvatština jich využívá
v mnohem menší míře. Již na první pohled jde o rozdíl poměrně výrazný, který však nebývá při studiu dostatečně zdůrazňován, a proto je to jeden z rysů,
na jejichž základě lze odhalit text, jehož autorem není rodilý mluvčí. V chorvatštině naopak zůstávají zcela běžnou součástí živého jazyka přechodníky,
které by při doslovném překladu do češtiny text výrazně archaizovaly, a proto
musejí být v češtině kompenzovány jinými způsoby, což si vyžaduje výraznější zásah do syntaktické struktury věty. Paralelní korpus je tak nástrojem,
který nám umožňuje identifikovat typologické rozdíly mezi blízkými jazyky
a z praktického hlediska také nalézat vhodné kompenzační strategie při překládání textů, abychom se vyhnuli negativním transferům z jazyka originálu.
Literatura
Český národní korpus – InterCorp. Ústav Českého národního korpusu FF
UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.
85
Elżbieta Kaczmarska
Instytut Slawistyki Zachodniej i Południowej, Uniwersytet Warszawski
[email protected]
Alexandr Rosen
Ústav teoretické a komputační lingvistiky FF UK
[email protected]
Jirka Hana
Ústav formální a aplikované lingvistiky MFF UK
[email protected]
Jak najít optimální překlad polysémních sloves –
porovnání metod automatické analýzy paralelních
textů
Naším cílem je najít optimální metodu pro automatické zjištění překladových ekvivalentů sloves vyjadřujících duševní stavy a jiných sloves, která
mohou být obtížně přeložitelná, a to i mezi typologicky blízkými jazyky, jakými jsou polština a čeština. Zkoušíme dva podstatně odlišné postupy. První
z nich vychází z identifikace syntaktických argumentů a jejich sémantických
vlastností, které mohou mít na výběr ekvivalentu zásadní vliv (Levin 1993).
Druhý postup využívá standardní klasifikátor, který o volbě ekvivalentu
rozhoduje na základě pravého a levého kontextu o velikosti několika slov,
aniž by měl k dispozici syntaktickou informaci. Variantou druhého postupu
je omezení kontextu na slovní formy určité slovnědruhové třídy. Výsledek
evaluujeme na paralelních česko-polských textech.
Vycházíme z česko-polské části paralelního korpusu InterCorp, jehož verze 6 již byla použita v pilotní studii (Kaczmarska & Rosen 2013). Z textů
o objemu asi 12 mil. slov v každém z obou jazyků bylo po automatickém
zarovnání po slovech programem GIZA++ (Och & Ney 2003) extrahováno
8,7 mil. dvojic lemmat, z toho 528 tisíc dvojic bylo různých. Výsledný slovník
(dostupný on-line na adrese http://utkl.ff.cuni.cz/~rosen/public/cspl_lex/)
lze třídit a filtrovat podle různých kritérií, včetně frekvence dvojice lemmat
v korpusu. Zatím byl využit pro kontrastivní analýzu deminutiv, identifikaci
chybějících pojmů ve druhém jazyce a hledání ekvivalentů obtížně přeložitelných lexémů.
86
Nejdříve popíšeme první postup, a to jen v části, která se týká využití
sémantických vlastností argumentů. Vliv povrchové realizace argumentů
na volbu ekvivalentu je přímočarý a v praxi bude řešen jednoduchými pravidly.
Pro každý výskyt českého i polského slovesa vyhledáme pomocí syntaktického analyzátoru nebo gramatiky regulárních výrazů jeho syntaktické
argumenty (pokud možno argumenty hloubkové, tedy neutralizující vliv
pasivizace). Z nich bereme v potaz jen sémanticky řídící člen (hlavu), a to
v základním tvaru. Pro všechny výskyty identických dvojic slovesných lemmat sloučíme lexémy v roli argumentů zvlášť na české a polské straně. Jako
příklad můžeme uvést české polysémní sloveso toužit a jeho polské ekvivalenty marzyć, tęsknić, pragnąć a pożądać:
•
toužit (Arg1: já, Arg2: człowiek) – marzyć (Arg1: já, Arg2: člověk)
cs. Vždycky jsem toužila po člověku, který by byl prostý a přímý.
pl. Zawsze marzyłam o człowieku, który byłby prosty i bezpośredni.
•
toužit (Arg1: ona; Arg2: oko) – tęsknić (Arg1: ona; Arg2: oko)
cs. Oči, po kterých touží, jsou oči Tomáše.
pl. Oczy, do których tęskni, to oczy Tomasza.
•
toužit (Arg1: já, Arg2: Lucie) – pragnąć (Arg1: já, Arg2: Lucja)
cs. Toužil jsem po Lucii, ale zároveň jsem se bál její lásky, protože jsem nevěděl,
co si s ní počít.
pl. Pragnąłem Łucji, ale jednocześnie bałem się jej miłości, bo nie wiedziałem,
co z nią począć.
•
toužit (Arg1: Bernard, Arg2: sláva) – pożądać (Arg1: Bernard,
Arg2: sława)
cs. Bernard netouží po slávě osvětleného, ale po moci toho, kdo je v přítmí.
pl. Bernard nie pożąda sławy tego, w kogo wycelowane są reflektory, lecz władzy tego, kto stoi w półmroku.
Po sloučení lexémů v rolích argumentů zjistíme, jaké lexémy např. v rolích
argumentů slovesa toužit odpovídají lexémům v rolích argumentů jeho jednotlivých ekvivalentů (marzyć, tęsknić, pragnąć, pożądać). Množiny lexémů pro
jednotlivé argumenty toužit se tak rozpadnou na podmnožiny určené těmito
ekvivalenty. Podmnožiny patrně nebudou disjunktní, ale v příznivém případě
budou mít prototypické reprezentanty. Optimálně tak dostaneme pro každé
87
slovesné lemma preference volby ekvivalentu podle procenta shody jeho argumentů s argumenty kandidátů na překlad. Při výpočtu procenta shody lze
brát v úvahu i frekvence jednotlivých lexémů v rolích argumentů a ve sporných případech upřednostňovat shodu mezi frekventovanějšími lexémy.
V dalším kroku pomocí tezauru zobecníme (pod)množiny lexémů, které
odpovídají argumentům daného slovesa, tak, abychom získali sémantické
třídy, v optimálním případě shodné pro polštinu a češtinu. (Jako tezaurus lze
pro češtinu i polštinu použít WordNet, program Word Sketches zpracovává
k témuž účelu data z korpusu, ve kterém právě hledá.) Tyto sémantické třídy
lze využít při testování v případě, že konkrétní věta obsahuje jako argument
lexém, který se v trénovacích datech neobjevil.
Následující kroky se věnují ověření metody. Množiny lexému v rolích
argumentů (ale už nikoli podmnožiny) a jim odpovídající sémantické třídy
prověříme tak, že hledání slovesných argumentů zopakujeme na jednojazykových korpusech, tedy nikoli pro dvojice sloves, ale jen pro jednotlivá
slovesa. Evaluaci pak provedeme na části dat InterCorpu, kterou jsme dosud nepoužili. Podle paralelních textů ověříme, jak spolehlivě funguje výběr
ekvivalentu v závislosti na argumentech.
Jako alternativu k metodě s hledáním argumentů vyzkoušíme i metodu
fungující na čistě empirickém základě: volbu ekvivalentu určujeme nikoli
podle syntaktických/sémantických argumentů, ale podle lineárního slovosledného kontextu o šíři např. 3 pozice vlevo a vpravo, případně s vypuštěním slovních forem, jejichž slovní druh nebude pro výsledek rozhodující.
Porovnáním výsledků těchto dvou metod bude možné rozhodnout o tom,
zda typy argumentů jsou pro porozumění a výběr ekvivalentů směrodatné.
Literatura
Kaczmarska, E. & Rosen, A. (2013). Między znaczeniem leksykalnym a walencją – próba opracowania metody ekstrakcji ekwiwalentów na podstawie korpusu równoległego. Studia z Filologii Polskiej i Słowiańskiej,
48, 103–121.
Levin, B. (1993). English Verb Classes and Alternations: A Preliminary Investigation. Chicago: University of Chicago Press.
Och, F. J. & Ney, H. (2003). A systematic comparison of various statistical
alignment models. Computational Linguistics, 29 (1), 19–51.
88
Tomáš Káňa
Pedagogická fakulta Masarykovy univerzity
[email protected]
Česká nesubstantivní deminutiva a jejich protějšky
v němčině a angličtině
Ačkoliv jsou deminutiva oblíbeným předmětem zájmu nejen lingvistů, ale
i široké veřejnosti (Magazín DNES 15/2011), zužuje se většinou jejich popis
na oblast jmen, většinou jen podstatných. Je to celkem logické: deminuce
substantiv by se dala považovat snad i za univerzální jev všech jazyků (Rusínová 2001), neboť substantivní deminutiva najdeme také v jazycích, která
jinak příliš nezdrobňují a vůbec mají chudý morfologický aparát (angličtina, francouzština). Popisy deminutiv ostatních slovních druhů češtiny jsou
v odborných publikacích řídké, nejvíc se ještě týkají adjektiv (a analogických adverbií). Důvodů je několik: 1) zdrobněliny v nich nejsou, 2) nebo
jsou, ale velmi málo frekventní, 3) uvádějí se u jiných slovních druhů (viz
dále), anebo 4) je sporné, zda se o deminutivum vůbec jedná. (Poslední bod
platí ostatně pro všechny slovní druhy. I u substantiv nelze vždy jednoznačně rozhodnout, zda se jedná o deminutivum či nikoliv. Striktní pravidlo, že
k deminutivu musí (stále) existovat základ je jistě dobré vodítko, ve všeobecném povědomí to ovšem neplatí stoprocentně (srov. Káňa 2011: 170–171).)
Dobrovský (1809) jako první uvádí v popisu češtiny vedle substantivních deminutiv také „Verkleinerungsformen der Beywörter“ (1809: 88–89)
– zdrobněliny jmen přídavných. K primárním dodává, že se jedná o „gemeine Rede“, tedy řeč hovorovou, uvádí i sekundární deminutiva zdvojením
(maličičký, tenaučičký) s poznámkou, že se požívají jen v řeči důvěrné.
I pozdější autoři (Gebauer 1936, Trávníček 1951, Šmilauer 1971) popisují
vedle substantivních deminutiv jen adjektivní. Trávníček (1951: 368) nemluví explicitně o adjektivních deminutivech, nýbrž „zesilujících adjektivech,
(...) vyjadřujících větší míru vlastnosti než základní adjektivum“, shrnuje tak adjektivní deminutiva a augmentativa. Podobné pojetí má Šmilauer
(1971: 129-130): „zdrobňující, citově obměňující a zesilující“ přídavná jména. U „věcně zdrobňujících“ uvádí sufix –avý (bělavý) a cirkumfixy na‑ ‑lý
(nahnědlý) a za‑ ‑lý (zažloutlý). U „citově obměňujících“ pak sufixy –ičký,
‑oučký, ‑inký, ‑ounký, které lze považovat za typické zástupce adjektivních
89
deminutiv – uvádí je většina autorů (dále např. Čermák 2011: 104, ale i Příruční mluvnice češtiny).
Problematiku adjektivních deminutiv sledujeme tedy v několika rovinách:
1. jak si konkurují sufixy/ cirkumfixy „věcně zdrobňující“ (‑avý, na‑ ‑lý,
při‑ ‑lý, za‑ ‑lý) a „citově obměňující“ (‑oučký, ‑íčký, ‑inký)?
2. lze adjektiva utvořená „věcně zdrobňujícími“ prostředky (‑avý, na‑/
při‑/za‑ ‑lý) považovat za deminutiva?
3. neexistují i jiné kombinace prefixu a sufixu (např. na‑ ‑oučký)?
U českých sloves není ucelený deminutivní systém a „jejich (velmi řídký)
výskyt ve slovníku lze rozpoznat už jen diachronně“ (Čermák 2011: 122).
Podobně jako u adjektiv sufix –avý a cirkumfixy na‑ ‑lý, při‑ ‑lý, za‑ ‑lý, tak
i zde se někdy považuje prefix snižující míru děje po‑ (poplakat) za deminutivní (Nekukla 2010: 304). Proto se zamyslíme taktéž nad konkurencí slov
utvořených prefixem po‑ a deminutivním sufixem (pospat/ spinkat, popapat/
popapinkat), jejich funkcí a frekvencí.
Deminutiva zbývajících slovních druhů se pro češtinu běžně neuvádějí
(důvody viz také výš). Je to dáno především:
1. jejich blízkostí k jiným slovním druhům, u kterých bývají uváděny (zájmena u adjektiv/ adverbií, číslovky u substantiv)
2. jejich nesystematičností,
3. relativně nízkou frekvencí,
4. nahodilostí a
5. blízkosti k okasionalismům.
Ze zájmen tvoří deminutiva jen zájmena neurčitá, navíc jen ta, která mají
formu adjektiv nebo jmen. (Mimo každý a všechen nemají signifikantní výskyt.) Tvoří se formanty –inko, ‑ičko, ‑ičký.
U číslovek se kryjí s deminutivy substantiv vytvořených univerbizací:
stovečka, dvoječka.
Mezi českými synsémantiky v užším smyslu (předložky, spojky, částice) deminutiva hledat nelze.
Několik málo zdrobnělin je mezi citoslovci – především v posledních letech (snad původně pod vlivem slovenštiny se začala i v češtině „ohýbat“
některá citoslovce: srov. ve slovenštině běžné ahojte, čaute, v několika tuctech doložené i v psaném korpusu) se v češtině rozšířila deminutiva kontaktových citoslovcí ahojky/ ahojka, nazdárek, páček.
Vedle již načrtnutých bodů se podíváme na nejčastější nesubstantivní česká deminutiva pohledem z jiných jazyků. Obecně lze říct, že zdrobněliny
90
jsou častou příčinou lexikálních divergencí mezi jazyky. Pokud srovnávaný
jazyk není k deminuci podobně „náchylný“, dochází k lexikální nulové ekvivalenci. Toto platí především v porovnání češtiny s němčinou a angličtinou.
Vzhledem k tomu, že oba germánské jazyky mají velmi omezený deminutivní aparát, bude o to zajímavější pohled na prostředky, které vytvářejí ekvivalenty českých nesubstantivních deminutiv. Již nyní ale víme, že výsledky
kontrastivního výzkumu budou pouze náčrtkem reprezentativního obrazu.
I přes (již) značnou velikost jednotlivých paralel a průnik české, německé
a anglické paralely čítající přes několik desítek milionů slov, nebude možné
vyvodit jednoznačné závěry, protože dokladů nesubstantivních deminutiv
tam je (zatím) jen maloučko.
Literatura
Čermák, F. (2011). Morfématika a slovotvorba češtiny. Praha: Nakladatelství
Lidové noviny.
Gebauer, J. (1936). Příruční mluvnice jazyka českého pro učitele a studium
soukromé. Praha: Česká grafická unie a.s.
Dobrovský, J. (1809). Ausführliches Lehrgebäude der Böhmischen Sprache,
zur gründlichen Erlernung derselben für Deutsche, zur vollkommenern
Kenntniss für Böhmen. Prag: J. Herrl.
Káňa, T. (2011). Deminutiva a deminutivní vyjádření v češtině, němčině
a angličtině – hledání hranic. In F. Čermák (Ed.), Korpusová lingvistika
Praha 2011: 1 – InterCorp. Praha: NLN/ ÚČNK, 168–185.
Karlík, P., Nekula, M. & Rusínová, Z. (1995). Příruční mluvnice češtiny. Praha: Nakladatelství Lidové noviny.
Malinda, J. (2011). 100 stupidních slov. Magazín DNES 15/2011.
Nekula, M. (2010). Deminutiva a augmentativa v češtině z typologického
hlediska. Karlík a továrna na lingvistiku. Brno: Host, 304–315.
Rusínová, Z. (2001). Deminutiva jako jazykové universale. Sborník prací Filozofické fakulty brněnské univerzity, Linguistica Brunensia. A49. Brno:
Vydavatelství MU, 137–146.
Šmilauer, V. (1971). Novočeské tvoření slov. Praha: Státní pedagogické nakladatelství.
Trávníček, F. (1951). Mluvnice spisovné češtiny. 3., opr. a dopl. vyd. Praha:
Slovanské nakladatelství.
91
Adam Kilgarriff
Lexical Computing, Brighton, United Kingdom
[email protected]
Pavel Rychlý
Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of
Informatics, Masaryk University, Brno, Czech Republic
[email protected]
Miloš Jakubíček
Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of
Informatics, Masaryk University, Brno, Czech Republic
[email protected]
Vojtěch Kovář
Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of
Informatics, Masaryk University, Brno, Czech Republic
[email protected]
Vít Suchomel
Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of
Informatics, Masaryk University, Brno, Czech Republic
​[email protected]
Jan Bušta
Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of
Informatics, Masaryk University, Brno, Czech Republic
[email protected]
Vít Baisa
Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of
Informatics, Masaryk University, Brno, Czech Republic
[email protected]
Jan Michelfeit
Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of
Informatics, Masaryk University, Brno, Czech Republic
[email protected]
92
Multilingual data processing in Sketch Engine
This paper describes several new features of Sketch Engine, the corpus management and querying system.
Sketch Engine includes advanced support for parallel corpora. Rather
than a bilingual or multilingual corpus, multilingual data are represented by
a set of corpora, one for each language. The corpora are then aligned using
a special structure that maps the respective sequences of tokens (usually
whole sentences) in each corpus to one another. We call this a 1:1 alignment. However, for more than 2 languages, a more sophisticated approach
is usually required. With the so-called m:n alignment, sequences of existing
structures in each pair of corpora are aligned using a special configuration
file (e.g. m sentences in one language to n sentences in the other). This way
each translation pair can have a unique partition of the corpora and some
sequences can be left untranslated in some of the languages. Regardless of
the type of alignment, the aligned corpora can then be queried in parallel, yielding pairs of sentences matching the appropriate query for each language.
Since recently, Sketch Engine enables users to create pairs of mutually
aligned corpora from TMX (Translation Memory eXchange) files automatically. TMX is a standardized format for the import and export of translated
texts in CAT (Computer Assisted Translation) software. When imported into
Sketch Engine, the languages specified in the TMX file are automatically
detected and appropriate processing tools applied to the text in each language. These tools include tokenizers, lemmatizers and part of speech taggers
(available for Czech, most European and several Asian languages). The resulting vertical files are then compiled, forming a pair of aligned corpora and
enabling the user to run parallel queries on them.
Word sketches are one-page, automatic corpus-based accounts of a word‘s
grammatical and collocational behaviour. Since their introduction in 1998,
they have come to be widely used in lexicography, but until recently, they
have only been monolingual. To satisfy a widespread demand for sketches
combining data in multiple languages, we implemented three extensions of
the word sketch functionality: bilingual word sketches based on comparable
corpora (BIC), bilingual word sketches based on parallel corpora (BIP), and
bilingual word sketches based on manual selection of headword translations
(BIM). All of them are currently available in Sketch Engine, enabling the
93
users to see the collocations and grammatical behaviour of a word and its
translation side by side.
Terminology extraction is a process of identifying multi-word expressions
in a focus corpus that are specific to its domain. Since 2009, the Sketch Engine has had a method for identifying keywords in a focus corpus in contrast
to a reference corpus. This can be directly applied to multi-word expressions
as well. Finding out whether a sequence of consecutive words forms a term
is another problem. For use in word sketches, Sketch Engine uses a word
sketch grammar to identify collocations. A special version of sketch grammar can be used for term finding, defining the syntactic structure of terms.
The terminology extraction feature is now available in Sketch Engine for
most of the languages with a PoS tagger and a large enough reference corpus
(including English, German, French, Spanish, Portuguese, Russian, Chinese,
Japanese, Korean and Czech).
References
Kilgarriff, A. (2009). Simple Maths for Keywords. Proceedings of Corpus Linguistics, Liverpool.
Kilgarriff, A. (2013). Terminology finding, parallel corpora and bilingual
word sketches in the Sketch Engine​. ASLIB 35th Translating and the
Computer conference, London.
Kilgarriff, A., Rychlý, P., Smrž P. & Tugwell, D (2004). The Sketch Engine.
Proceedings of EURALEX 2004. France: Lorient, 105–116.
94
Petra Klimešová
Ústav Českého národního korpusu FF UK
[email protected]
Zuzana Komrsková
Ústav Českého národního korpusu FF UK
[email protected]
Marie Kopřivová
Ústav Českého národního korpusu FF UK
[email protected]nka.ff.cuni.cz
David Lukeš
Ústav Českého národního korpusu FF UK
[email protected]
Cože to je? K tvaru to v mluvených korpusech ČNK
Mluvený jazyk má svá specifika, která vycházejí z podstaty jeho produkce
a percepce. Na rozdíl od jazyka psaného má lineární povahu, plyne v čase
a mluvčí nemá možnost se v něm vracet a korigovat již řečené. Co se volby vyjadřovacích prostředků týče, v zájmu ukotvení a propojení průběžně
budovaného celku jsou častěji užívána deiktická slova, která svou endo- a
exoforickou funkcí text provazují; zároveň se mluvčí často uchylují ke slovům výplňkovým či zástupným. Ve svém příspěvku se zaměřujeme na slovní
tvar to, který ve spontánním mluveném projevu plní obě tyto funkce.
Jedná se tradičně o nejfrekventovanější tvar ve všech mluvených korpusech. V tabulce č. 1 uvádíme srovnání frekvence tvaru to a lemmatu a. Lemma a je nejčastějším lemmatem v psaných korpusech (Čermák & Křen 2004);
v mluvených korpusech je tvar a na druhém místě.
SYN2010
PMK
BMK
ORAL2006
lemma / tvar a
25 609,00
27 093,73
28 424,07
24 955,00
tvar to
7968,40
36 036,00
38 583,31
41 317,34
95
ORAL2008
ORAL2013
25 384,28
28 870,42
40 303,48
46 740,41
Tabulka 1. Normalizované frekvence (i.p.m.) lemmatu/tvaru a a tvaru to v
psaném reprezentativním korpusu SYN2010 a v mluvených korpusech PMK,
BMK, ORAL2006, ORAL2008 a ORAL2013.
Z tabulky je zřejmé, že zatímco normalizovaná frekvence (i.p.m.) lemmatu
a je v mluveném i psaném jazyce podobná, frekvence tvaru to vykazuje mezi
oběma typy korpusů značnou asymetrii: v mluvených korpusech se normalizovaná frekvence slovního tvaru to pohybuje okolo hodnoty 41 000 i.p.m.;
oproti tomu celé lemma ten má v korpusu psané češtiny SYN2010 normalizovanou frekvenci 14 211 i.p.m. (zastoupení částicového lemmatu to je zcela
marginální). Jistá variabilita v rámci mluvených korpusů může být ovlivněna jiným způsobem zápisu interpunkce (syntaktická u PMK, ORAL2006
a ORAL2008 versus pauzová u ostatních) a jiným typem promluv (součástí
PMK a BMK jsou i formální komunikační situace).
Slovní tvar to je tradičně klasifikován jako zájmeno nebo částice. Užívání tvaru to ve funkci částice je v mluvnicích často spojováno s vyjádřením
emocionality v mluveném jazyce (viz např. Havránek a Jedlička (1960: 381):
„to dnes prší“; MČ2 (Petr et al. 1986: 88)). Taková částice zpravidla stojí na
začátku výpovědi. Tomuto pojetí odpovídá i morfologické značkování psaných korpusů: v korpusu SYN2010 výraz to najdeme označený jako částici v
3243 případech (z toho 1813 výskytů je na začátku věty); 969 495 výskytů je
označeno jako zájmeno.
Kolokace s tímto výrazem v mluvených korpusech naznačují, že situace je
mnohem pestřejší, výraz to tu najdeme např. ve funkci adjektiva: tak já si du
vybrat nějaký pečivo normální neto, neposypaný.; či slovesa: dyž to vytočim,
tak mi to, tak mi to to, chcípne. Slovesná slovnědruhová platnost je posílena
i doplněním dalších slovotvorných prvků jako je negace, např. dyž sem viděla, furt, že se k tomu neto, tak sem popadla ten; prefix, např. no, tak já sem
si to rozto a řikám. Varianty s prefixem je složité vyhledat spolehlivě, ale
podobně tvořené negované varianty, jež jsou snad až na řídké formace typu
netento či netoto homogennější, naznačují, že tyto slovotvo rné jevy jsou
charakteristické právě pro mluvené korpusy (např. ORAL2013, 114 výskytů,
normalizovaná frekvence 34,70 i.p.m.); v psaných se najdou ojedinělé výskyty v beletrii (např. SYN2010, 5 výskytů, normalizovaná frekvence 0,04 i.p.m.).
96
Výraz to se často vyskytuje na místech, kde mluvčí váhá, hledá vhodné slovo a také získává čas. Levým kolokátem pak bývají slova s podobnou
funkcí, jako např. no, jo nebo hezitační zvuky (hmm); případně se výraz opakuje (to to). Reduplikace ovšem může být pouze formální, není vždy znakem
hezitace, neboť oba výskyty výrazu tu mohou mít jinou syntaktickou funkci
(např. to to tam nekvalifikuje). Ve výše zmíněném slovesném užití se pak
z hlediska informační struktury výpovědi výraz to vyskytuje primárně v pozici rématu a je též projevem tápání při volbě lexika: slouží k tomu, aby se
mluv čí vyhnul příliš dlouhé odmlce, když se mu nedaří vybavit si konkrétní
sloveso. Na jiném místě než v jádru výpovědi se neobjevuje, respektive by
působil přinejmenším nepřirozeně (srov. umělé příklady on Honzu neto, nenašel vs. ?on neto Honzu).
Kromě zmíněných případů je slovní tvar to součástí pevných kolokací
a frazémů typických pro mluvený jazyk, jako např. to pude, to nevadí, to
je blbost, to je jedno, to je dobrý, nehledě na to, tak to je (srov. Čermák 2007:
365–370). Z uvedeného nástinu plyne, že to je forma pro mluvený jazyk dosti
typická a zároveň funkčně mnohem rozrůzněnější, než by tomu naznačovaly gramatické analýzy a korpusová pozorování založená na psaném jazyce.
Vzhledem k tomu, že se do budoucna uvažuje o případné lemmatizaci a morfologickém značkování mluvených korpusů ČNK, je dobré na tato specifika
spojená s jejich nejfrekventovanější formou u pozornit, buď aby byla v nějaké podobě strojovou identifikací ošetřena, nebo aby alespoň bylo explicitně
řečeno, že doplněné atributy tuto variabilitu plně nereflektují.
Literatura
Benešová, L., Křen, M. & Waclawičová, M. (2013). ORAL2013: reprezentativní korpus neformální mluvené češtiny. Praha: Ústav Českého národního
korpusu FF UK. Dostupný z WWW: http://www.korpus.cz
Čermák, F. & Křen, M. (2004). Frekvenční slovník češtiny. Praha: Nakladatelství Lidové noviny.
Čermák, F. et al. (2007). Frekvenční slovník mluvené češtiny. Praha: Karolinum.
Český národní korpus – PMK (2001). Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: http://www.korpus.cz
Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morphology of Czech). Praha: Karolinum Charles University Press.
Havránek, B. & Jedlička, A. (1960). Česká mluvnice. Praha: SPN.
97
Hnátková, M. (2013). Automatická slovnědruhová desambiguace slova „to“
v ustálených větných výrazech. Korpus – gramatika – axiologie, 7. Hradec Králové: Nakladatelství Gaudeamus, Univerzita Hradec Králové,
22–35.
Jelínek, T. (2008). Nové značkování v Českém národním korpusu. Naše řeč,
91 (1), 13–20.
Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the
Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44.
Petr, J. et al. (1986). Mluvnice češtiny 2. Praha: Academia.
Spoustová, D., Hajič, J., Votrubec, J., Krbec, P. & Květoň, P. (2007). The Best
of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for
Czech. Proceedings of the Workshop on Balto-Slavonic Natural Language Processing, 67–74.
Šmilauer, V. (1966). Novočeská skladba. Praha: SPN.
Křen, M., Bartoň, T., Cvrček, V., Hnátková, M., Jelínek, T., Kocek, J., Novotná,
R., Petkevič, V., Procházka, P., Schmiedtová, V. & Skoumalová, H. (2010).
SYN2010: žánrově vyvážený korpus psané češtiny. Praha: Ústav Českého
národního korpusu FF UK. Dostupný z WWW: http://www.korpus.cz
Kopřivová, M. & Waclawičová, M. (2006). ORAL2006: korpus neformální
mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: http://www.korpus.cz
Waclawičová, M., Kopřivová, M., Křen, M. & Válková, L. (2008). ORAL2008:
sociolingvisticky vyvážený korpus neformální mluvené češtiny. Praha:
Ústav Českého národního korpusu FF UK. Dostupný z WWW: http://
www.korpus.cz
98
Ivana Kolářová
Katedra českého jazyka a literatury PedF MU
[email protected]
Slovesa odvozená od adverbií jako periferie
slovotvorného systému (na materiále Českého
národního korpusu)
Slovesa odvozená od adverbií = deadverbiální (např. oddálit, přitakat, opětovat) se svým počtem ve srovnání se slovesy desubstantivními, deadjektivními a deinterjekčními nacházejí spíše na periferii české slovotvorné soustavy. Tomu odpovídá i poměrně malá pozornost, kterou jim věnují mluvnické
a slovotvorné práce (Čermák 2012; Mluvnice češtiny 1; Šlosar 1981; Dokulil
1974, 1975; Šmilauer 1972; Trávníček 1948). Ovšem i krátké výklady v nich
ukazují odlišné přístupy již v přiřazení některých slovesných derivátů k deadverbiálním.
Za východisko pro interpretaci slovotvorných vlastností jednotlivých sloves a jejich přiřazení k slovům deadverbiálním jsme zvolili především vysvětlení slovotvorné i významové motivace v Mluvnici češtiny 1 (1986: 415),
v níž jsou za deadverbiální považována slovesa s významem „dělat něco tak,
jak označuje základové adverbium“, „probíhat tak, jak označuje základové
adverbium“. Pak autoři Mluvnice češtiny 1 považují za odvozená od adverbií
např. sloveso zpomalit, oddálit, opozdit, přitakat, opětovat a na základě toho
je možné přiřadit k nim další: pospíšit si, přiblížit, unáhlit se, venčit. Nejvíce
příkladů deadverbiálních sloves uvádí Šmilauer (1972: 183), mezi nimi ovšem
i slovesa odvozená od adverbií archaických a zřídka užívaných: příčit/příčit
se (od adverbia příč), popř. slovesa, jejichž potenciální základová adverbia
v textech současné češtiny nenajdeme vůbec: např. sloveso peskovat spojuje
s adverbiem pesky, které není doloženo ani v korpusech češtiny současné,
ani v korpusu DIAKORP. Deadverbiální původ přisuzuje Šmilauer též slovesu opakovat, jehož základové slovo opak je ve Slovníku spisovného jazyka
českého (SSJČ) i v Příručním slovníku jazyka českého hodnoceno jako substantivum, a významy slov opak a slovesa opakovat spolu v současné češtině
již nesouvisejí. Proto se slovesem opakovat nezabýváme, stejně jako slovesy
zdvojnásobit, ztrojnásobit, která za deadverbiální považuje Trávníček (1948:
174), neboť slova dvojnásob, trojnásob hodnotí jako příslovce. V nejnovějších
99
mluvnických pracích jsou však řazena k číslovkám, resp. k „číslovkám adverbiální povahy“ (Akademická gramatika spisovné češtiny, s. 423).
Naše dřívější analýzy deadverbiálních sloves v Českém národním korpusu
ukázaly následující:
(1) Deadverbiální slovesa jsou tvořena stejně jako slovesa desubstantivní
a deadjektivní: konverzí i cirkumfixací. Zatímco konverze kmenotvornými sufixy se uplatňuje zřídka (viz a), cirkumfixace je výrazně častější (srov. b):
(a) slovesa tvořená kmenovými sufixy:
-i-
venčit, příčit, příčit se
-ova-
opětovat
(b) slovesa tvořená cirkumfixy:
• prefix + -io- + -i-
opozdit se
od- + -i- oddálit po- + -i- pospíšit si, ponáhlit se
pře + -i- přenáhlit se
při- + -i- přiblížit, přispíšit si
u- + -i-
vz- + -i- vzdálit, vzdálit se, vzpříčit se za + -iz- + -i-
zpomalit, zpozdit, zpozdit se unáhlit se, upřílišit,
uspíšit
zapříčit se
• prefix + -apo- + -a- potakat
o- + -a-
uondat
při- + -i- přitakat
(2) Co se týká četnosti výskytu deadverbiálních sloves, některá z nich
jsou velmi frekventovaná (doložená i v několika desítkách tisíc dokladů),
např. přiblížit, vzdálit se, zpomalit…, jiná mají spíše nižší frekvenci (jsou doložená pouze v desítkách dokladů), např. připozdit se, přispíšit, a některá jsou
doložena zřídka nebo ojediněle, např. přenáhlit se, ponáhlit se, potakat, upřílišit. Není neobvyklé, že od jednoho adverbia vznikají jak slovesa doložená
v počtu několika tisíc i minimálně (srov. např. frekventované slovesa unáhlit
se, přitakat a minimálně doložená ponáhlit se, potakat).
(3) Stylově patří deadverbiální slovesa nejčastěji k bezpříznakovým, nechybějí však mezi nimi na jedné straně archaismy (potakat), výrazy působící
100
jako knižní (opětovat), a na straně druhé slovesa hovorová (venčit), popř. výrazněji expresivní (uondat).
Zdrojem pro vyhledávání dokladů je korpus psaných textů SYN, popř.
využijeme některý z korpusů dalších: KSK dopisy, LINK nebo SKRIPT2012.
Cílem stati není pouze upřesnění a ověření již zjištěných vlastností deadverbiálních sloves: frekvence v Českém národním korpusu, jejich slovotvorných a významových vlastností na základě užití v korpusových textech
různých stylových sfér a různých žánrů. Prostřednictvím důkladnější korpusové sondy se pokusíme především:
• odlišit slovesa skutečně užívaná od sloves, jejichž existence je spíše
hypotetická, tj. doložených např. jen jako předmět výkladu v lingvistických textech (upřílišit);
• na bázi analýzy konkrétních dokladů srovnat aktuální významy, kterých deadverbiální slovesa nabývají v současných textech, s významy,
který jim přisuzují SSJČ (1989) a mluvnické a slovotvorné práce, eventuálně srovnání četnosti užití ve významu základním spojeném přímo
s významem základového adverbia a ve významu přeneseného pojmenování (např. při dřívějších analýzách jsme již zjistili, že u slovesa příčit
se jednoznačně převažuje užití ve funkci přeneseného pojmenování,
zatímco vzpříčit se, zapříčit se užívají ve významu souvisejícím s prostorovým významem archaického adverbia příč);
• v některých případech vysledovat vázanost slovesa na určitý typ věty
(např. dřívější korpusové sondy ukázaly, že sloveso připozdit se je doloženo výhradně ve větách bezpodmětových).
Literatura
Čermák, F. (2012). Morfématika a slovotvorba češtiny. Praha: Nakladatelství
Lidové noviny.
Dokulil, M. (1974). Dva příspěvky k odvozování sloves. Naše řeč, 65, 1–11.
Machek, V. (1971). Etymologický slovník jazyka českého. Praha: Academia.
Mluvnice češtiny 1. (1985). Praha: Academia.
Slovník spisovného jazyka českého I-VIII. (1989). Praha: Academia.
Šmilauer, V. (1972). Novočeské tvoření slov. Praha: SPN.
101
Štícha F. (2008). Usage, frequency and grammaticality. In F. Štícha, & M. Fried (Eds.), Grammar & Corpora / Gramatika a korpus 2007. Praha: Academia, 285–292.
Štícha, F. et al. (2013) Akademická gramatika spisovné češtiny. Praha: Academia.
Trávníček, F. (1948). Mluvnice spisovné češtiny I. Hláskosloví – Tvoření slov
– Tvarosloví. Praha: Melantrich.
Veronika Kolářová
Ústav formální a aplikované lingvistiky MFF UK
[email protected]
Preference v souvýskytu aktantů u českých
substantiv mluvení
Vedle tzv. korpusově řízené analýzy, která se zaměřuje na frekvenčně pojaté
pásmo substantiv a zdůrazňuje spíše lexikologické aspekty valence (Čermáková 2009), je možné k problematice valence substantiv přistupovat z hlediska
syntaktického. Tento příspěvek navazuje na valenční teorii funkčního generativního popisu (FGP; Panevová 1980; Panevová 2002; Kolářová 2010). Obdobně
jako u sloves (Daneš & Hlavsa et al. 1987; Kettnerová, Lopatková & Hrstková
2008), i u substantiv se dá vypozorovat, že lexikální jednotky spadající do jedné sémantické skupiny vykazují obdobné valenční chování, projevující se zejména v počtu, povaze a sémantické charakteristice argumentů, v některých
případech i v jejich formách. Substantiva mluvení mají tři argumenty (aktanty,
popř. sémantické participanty Mluvčí, Informace a Příjemce), v FGP označované nejčastěji funktory Aktor (ACT), Patiens (PAT) a Adresát (ADDR). Korpusy
jsou nezastupitelné v případě, kdy chceme zjistit frekvenci jednotlivých forem
aktantů, případně preferované kombinace aktantů.
Souvýskytu jednotlivých aktantů u substantiv spadajících do jedné sémantické skupiny byla dosud věnována zcela minimální pozornost. Bekaert
102
a Enghels (v tisku) sledují četnosti kombinací aktantů u nominalizací španělských sloves vnímání (3 substantiva zrakového vnímání, 3 substantiva
sluchového vnímání). Kolářová (2010) srovnává valenční chování vzorku
substantiv dávání (16 substantiv) a substantiv mluvení (22 substantiv, dále
„vzorek_2010“) odvozených od sloves s Adresátem v dativu. Na základě dat
ze subkorpusu SYN2000 konstatuje, že zatímco u substantiv mluvení je relativní četnost kombinace ACT+ADDR jen zhruba o polovinu menší než relativní četnost kombinace PAT+ADDR (viz tabulka č. 2), u substantiv dávání je
výskyt kombinace ACT+ADDR téměř nulový.
V tomto příspěvku chceme ověřit hypotézu, že nezanedbatelný výskyt
Mluvčího je vlastností charakteristickou nejen pro vzorek_2010, ale i pro
další typy substantiv mluvení. Bylo vytipováno dalších 32 substantiv tak,
aby byly zastoupeny všechny podskupiny substantiv mluvení, přičemž hlediskem třídění je forma Adresátu u základového slovesa (tj. dativ, akuzativ,
genitiv a předložková skupina, PS). Do tohoto vzorku byla zahrnuta jak verbální substantiva (VS, např. dotazování se), tak dějová substantiva (DS, např.
dotaz). Jako základnu pro vytvoření seznamu substantiv jsme využili převážně slovesa uvedená ve valenčním slovníku VALLEX (class: communication).
Přehled zkoumaných substantiv znázorňuje tabulka č. 1. Při započítání vzorku_2010 je celkový počet zkoumaných substantiv mluvení 54.
Forma ADDR
Počet a typ zkoumaných substantiv
Příklady
Sloveso
Substantivum
Verbální
Dějová
substantiva substantiva
Celkem
Ak
Gen / Dat
4
9
13
upozornění,
výzva
Gen
Gen / Dat
6
2
8
vyptávání se,
otázka
PS
PS
3
3
6
povídání si,
rozhovor
Dat
Dat
2
3
5
odpovídání,
pohrůžka
Dat
11
11
22
doporučení,
nabídka
Dat
(vzorek_2010)
54
Celkem:
26
28
Tabulka č. 1: Přehled zkoumaných substantiv mluvení
103
Forma ADDR
u slovesa
Typ
substantiva
Při porovnání výskytu kombinace ACT+ADDR a kombinace PAT+ADDR
u zkoumaných substantiv byla použita stejná metoda jako u Kolářové (2010).
Jako základní korpus byl použit SYN2000; v případě nulového počtu dokladů
byly použity subkorpusy SYN2005 a SYN2010. Pro jednotlivá substantiva byly
vyhledány všechny jejich doklady s Adresátem (tedy i doklady, kde je vyjádřen
pouze ADDR); mezi těmito doklady byly následně vyhledány všechny doklady
různých slovosledných variant kombinací PAT+ADDR (např. dotazování se voličů.ADDR, koho by volili.PAT), ACT+ADDR (např. povídání si rodičů.ACT s dítětem.ADDR), případně ACT+PAT+ADDR (např. její.ACT rozhovory s Izraelem.
ADDR o okupovaných Golanských výšinách.PAT). Pro substantiva s ADDR vyjádřeným předložkovou skupinou byla použita série různých dotazů, pro substantiva s ADDR v genitivu nebo dativu byl použit dotaz ([lemma=“lemma_
substantiva“] [!(tag=“[Z|R|V|J].*“)]{0,4} [tag=“N...[2|3].*“]). Všechny nalezené
doklady byly manuálně zkontrolovány. Absolutní četnosti (AbsČ) a relativní
četnosti (Rel_ADDR, tj. AbsČ kombinace aktantů ku AbsČ celkového výskytu
ADDR) pro jednotlivé podskupiny substantiv jsou uvedeny v tabulce č. 2.
ADDR
celkem:
AbsČ
PAT+ADDR
VS 150 34 DS 402 135 Gen
VS 31 8 DS 22 4 VS 77 2 DS 4313 98 Dat
22,67
7 4,67
33,58
35 8,71
19 4,73
25,81
0 0
0 0
18,18
3 13,64
0 0
2,6
5 1 1,3
2,27
442 10,25
12 0,28
6,67
0 0
40,00
0,67
6 DS 117 5 4,27
41 35,04
3 2,56
Dat
VS 151 58 (vzorek_2010)
DS 369 105 38,41
22 14,57
7 4,64
28,46
58 15,72
20 5,42
VS 424 108 25,47
35 9 2,12
DS 5223 347 579 11,09
54 1,03
6,64
1 6,49
1 15 Celkem
VS ACT+PAT+ADDR
AbsČ Rel_ADDR AbsČ Rel_ADDR AbsČ Rel_ADDR
(%)
(%)
(%)
Ak
PS
ACT+ADDR
8,26
Tabulka č. 2: Přehled absolutních a relativních četností souvýskytu aktantů 104
Závěr: Zpracování dokladů dalších podskupin substantiv mluvení ukázalo, že se jednotlivé podskupiny co do preferencí v souvýskytu aktantů liší
(nejvýraznější je nízká relativní četnost kombinace PAT+ADDR u substantiv
s ADDR ve formě PS). Relativní četnost kombinace ACT+ADDR sice v celkových průměrných hodnotách klesla zhruba o 5 procent (srovnáváme řádky
„Dat (vzorek_2010)“ a „Celkem“), i tak je však možné konstatovat, že vyjádření Mluvčího (ACT) v souvýskytu s Adresátem není pro substantiva mluvení zanedbatelné, u některých dějových substantiv tato kombinace dokonce
převažuje nad kombinací PAT+ADDR. Zdá se, že tato vlastnost odlišuje substantiva mluvení od některých jiných sémantických tříd, např. od substantiv
dávání.
Literatura
Bekaert, E. & Enghels, R. (2014). Nominalizations of Spanish perception
verbs at the syntax-semantics interface. In O. Spevak (Ed.), Noun Valency. Studies in Language Companion Series. Amsterdam: John Benjamins.
Čermáková, A. (2009). Valence českých substantiv. Praha: Nakladatelství Lidové noviny.
Český národní korpus – SYN2000. Ústav Českého národního korpusu FF UK,
Praha 2000. Dostupný z WWW: <http://www.korpus.cz>.
Český národní korpus – SYN2005. Ústav Českého národního korpusu FF UK,
Praha 2005. Dostupný z WWW: <http://www.korpus.cz>.
Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK,
Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.
Daneš, F., Hlavsa, Z. et al. (1987). Větné vzorce v češtině. Praha: Academia.
Kettnerová, V. , Lopatková, M. & Hrstková, K. (2008). Semantic Classes in Czech
Valency Lexicon: Verbs of Communication and Verbs of Exchange. In
Lecture Notes in Computer Science, Vol. 5246, Proceedings of the 11th International Conference, TSD 2008. Berlin / Heidelberg: Springer, 109–116.
Kolářová, V. (2010). Valence deverbativních substantiv v češtině (na materiálu substantiv s dativní valencí). Praha: Karolinum.
Panevová, J. (1980). Formy a funkce ve stavbě české věty. Praha: Academia.
Panevová, J. (2002). K valenci substantiv (s ohledem na jejich derivaci). Zbornik Matice srpske za slavistiku 61, 29–36.
VALLEX: Valency Lexicon of Czech Verbs. Dostupný z WWW: <http://ufal.
mff.cuni.cz/vallex/>
105
Pavel Kosek
Ústav českého jazyka FF MU
[email protected].cz
Vývoj slovosledu kondicionálového auxiliáru
v češtině
Jak napovídá název, cílem příspěvku je prozkoumat vývoj slovosledu kondicionálového auxiliáru (AUXK) ve vývoji češtiny typu nesl bych, nesl by/
nesl bys/ nesl by sis, nesl by, nesli bychom, nesli byste, nesli by. Tímto příspěvkem navazuji na analýzu slovosledu auxiliárních forem, kterou jsem provedl
na materiálu barokní češtiny (Kosek 2011).
Podle dosavadních znalostí o historické syntaxi češtiny (Gebauer 1929;
Trávníček 1935, 1956) lze předpokládat, že na vývoj slovosledu AUXK měly
vliv následující faktory:
a. původně přízvučné tvary AUXK se proměnily na formy plně enklitické;
b. tato změna nejspíše souvisela s procesem reanalýzy časového významu praslovanského plusquamperfekta a jeho následné proměny
ve kondicionál (tj. změna slovosledných vlastností AUXK byla spjata
s procesem gramatikalizace);
c. vývoj českých enklitik se vyznačoval konkurencí postiniciálního (tzv.
2P pozice) a kontaktního slovosledu (tzv. VA pozice).
V současnosti stále scházejí konkrétní materiálově založené analýzy slovosledu AUXK, které by zkoumaly vliv těchto faktorů na vývoj AUXK ve vývoji češtiny (s některými výjimkami, jako např. Prejzová (2013)). Cílem plánovaného příspěvku je tedy analyzovat, jak se jmenované faktory uplatňují
ve slovosledu AUXK ve starších fázích češtiny. Při analýze vývoje slovosledu
AUXK v dějinách češtiny je kvůli množství pramenů nutno provést redukci
zkoumaných textů; práci s prameny bohužel komplikuje fakt, že současné
diachronní korpusy se zatím vyznačují různou mírou reprezentativnosti
(Staročeská textová banka obsahuje pouze texty vzniklé před rokem 1500,
DIAKORP obsahuje velmi málo textů). Vzhledem k tomu, že pro jednotlivá
období jsou zpravidla doloženy rozdílné typy (žánry) textů, je obtížné vybrat
takové prameny, jejichž data by bylo možno validně statisticky porovnávat.
Naštěstí je pro dějiny češtiny k dispozici pramen, který je textově ustálený
106
a který byl v jednotlivých vývojových fázích jazykově upravován/adaptován: text Bible. Nicméně data obsažená v jednotlivých biblických textech
je nutno přijímat kriticky, jelikož jde o pramen velmi specifický, zejména
proto, že jeho jazyk podléhá vysoké míře stylizace.
Chystaný příspěvek je založen na rozboru jazyka Matoušova evangelia
v reprezentativních biblických překladech: Bibli drážďanské, Bibli olomoucké,
Bibli mlynářčině, Bibli benátské, Bibli Melantrichově, Bibli kralické, Bibli svatováclavské, ekumenickém překladu a Českém studijním překladu bible. Pro
tyto účely byl vytvořen soukromý korpus přepisů této novozákonní knihy.
Provedená analýza se stane základem budoucího výzkumu vývoje slovosledu AUXK v dalších památkách starších vývojových fází češtiny.
Literatura
Anderson, S. R. (1993). Wackernagel’s revenge: Clitics, morphology, and the
syntax of second position. Language, 69, 68–98.
Avgustinova, T. & Oliva, K. (1995). Wackernagel position and related phenomena in Czech. Wiener Slavistisches Jahrbuch, 41, 21–42.
Berneker, E. (1900). Die Wortfolge in den slavischen Sprachen. Berlin: B.
Behr’s Verlag.
Daneš, F. (1957). Intonace a věta ve spisovné češtině. Praha: Nakladatelství
ČSAV.
Dostál, A. (1967). Historická mluvnice česká II. Tvarosloví 2. Časování. Praha: SPN.
Ertl, V. (1924). Příspěvek k pravidlu o postavení příklonek. Naše řeč, 8, 257–
268, 293–309.
Esvan, F. (1997). Několik poznámek o tzv. rytmickém činiteli. SPFFBU, A 45,
1997, 85–93.
Esvan, F. (2000). Česká klitika z hlediska typologického. In Z. Hladká & P.
Karlík (Eds.), Čeština – univerzália a specifika, 2. Brno: MU, 141–147.
Flajšhans, V. (1923). K výkladům o postavení slov příklonných. Naše řeč, 7,
297–298.
Franks, S. & King, T. H. (2000). A Handbook of Slavic Clitics. Oxford: Oxford
University Press.
Fried, M. (1994). Second-Position Clitics in Czech: Syntactic or Phonological? Lingua, 94, 155–175.
Gebauer, J. (1929). Historická mluvnice jazyka českého IV. Skladba (F. Trávníček (Ed.)). Praha: ČAVU.
107
Gebauer, J. (1958). Historická mluvnice jazyka českého III/1. Tvarosloví – časování. 2. vyd., Praha: ČSAV.
Halpern, A. (1995). On the Placement and Morphology of Clitics. Stanford
CA: CSLI Publications.
Halpern, A. (1998). Clitics. In A. Spencer & A. M. Zwicky (Eds.), The Handbook of Morphology. Oxford: Blackwell Publishers Ltd.
Junghanns, U. (2002). Klitische Elemente im Tschechischen: eine kritische
Bestandaunahme. In Th. Daiber (Ed.), Linguistische Beiträge zur Slavistik IX. München, 117–150.
Klavans, L. J. (1985). The Independence of Syntax and Phonology in Cliticization. Language, 61, 95–120.
Kosek, P. (2010). Slovosled kondicionálového auxiliáru v „Bibli svatováclavské“. In Bičan, et al. (eds.), Karlík a továrna na lingvistiku. Prof. Petru
Karlíkovi k šedesátým narozeninám. Brno: Host – MU, 205–229.
Kosek, P. (2011). Enklitika češtině barokní doby. Brno: MU–Host.
Kosek, P. (2012). Word Order of Conditional Auxiliary Clitics in the Czech
Language of the Baroque Period. In M. Ziková & M. Dočekal (Eds.), Slavic Languages in Formal Grammar. Proceedings of FDSL 8.5, Brno 2010.
Frankfurt am Main et al.: Peter Lang, 100–118.
Kosta, P. & Schürcks, L. (2009). Word order in Slavic. In S. Kempgen, P. Kosta, T. Berger & K. Gutschmidt (Eds.), Die slavischen Sprachen. The Slvic
Languages. Walter de Gruyter: Berlin / New York, 654–683.
Lamprecht, A., Šlosar, D. & Bauer, J. (1986). Historická mluvnice češtiny. Praha: SPN.
Lešnerová, Š. (2002). Postavení příklonky „se“ v textu Kryštofa Haranta
„Cesta z Království českého… do Země svaté…“. In Z. Hladká & P. Karlík (Eds.), Čeština – univerzália a specifika, 4. Brno: MU, 325–327.
Migdalski, K. (2009). On two types of Wackernagel cliticization in Slavic. In
J. Reich, M. Babyonyshev & D. Kavitskaya (Eds.), Formal Approaches to
Slavic Linguistics: The Yale Meeting. Ann Arbor: Michigan Slavic Publications, 147–162.
Migdalski, K. (2010). On the relation between V2 and the second position
cliticization. Lingua, 120, 329–353.
Palková, Z. (1994). Fonetika a fonologie češtiny. Praha: Karolinum.
Pancheva, R. (2005). The rise and fall of second-position clitics. Natural Language and Linguistic Theory, 23, 103–167.
108
Prejzová, L. (2013). Slovosled kondicionálového kondicionálu ve staré češtině. (Diplomová práce) Brno: MU.
Svoboda, A. (1984). České slovosledné pozice z pohledu aktuálního členění.
Slovo a slovesnost, 45, 22–34, 88–103.
Svoboda, A. (2000). Klitika z hlediska funkční větné perspektivy (I). In P.
Karlík & Z. Hladká (Eds.), Čeština – univerzália a specifika, 2. Brno: MU,
149–159.
Svoboda, A. (2001). Klitika z hlediska funkční větné perspektivy (II). In P.
Karlík & Z. Hladká (Eds.), Čeština – univerzália a specifika, 3. Brno: MU,
149–159.
Šlosar, D. (1967). Poloha enklitik jako kritérion k hodnocení staročeské interpunkce. Listy filologické, 91, 251–258.
Toman, J. (2004). Ertlova diskuse českých klitik. In Z. Hladká & P. Karlík (Eds.), Čeština – univerzália a specifika, 5. Brno: Nakladatelství Lidové noviny, 73–79.
Trávníček, F. (1935). Historická mluvnice československá. Praha: Melantrich.
Uhlířová, L. (2011–2012). Obštnost i mnogoobrazie na slovoreda na klitikite
(săpostavitelno izsledvane na bălgarskija i češkija ezik). Săpostavitelno
ezikoznanie, 36, Čast I., 2011, 5–17; Čast II., 20–31; Čast III, 5-16, 37; Čast
IV, 5–11.
Večerka, R. (1989). Altkirchenslavische (Altbulgarische) Syntax I, Die lineare
Satzorganisation. Freiburg i. Br: Weiher.
Wackernagel, J. (1892). Über ein Gesetz der indogermanischen Wortstellung.
Indogermanische Forschungen, 1, 393–436.
Zikánová, Š. (2009). Postavení slovesného přísudku ve starší češtině (1500–
1620). Praha: Karolinum.
Zwicky, A. (1977). On Clitics. Bloomington: Indiana University Linguistics
Club.
Zwicky. A. (1994). What is a clitic. In J. A. Nevis, B. D. Joseph, D. Wanner &
A. M. Zwicky (Eds.), Clitics. A comprehensive bibliography 1892–1991.
Amsterdam: John Benjamins Publishing, 12–20.
Zwicky, M. A. & Pullum, K. G. (1983). Cliticization vs. inflection: the case of
English „n’t“. Language, 59, 502–513.
109
Dominika Kováříková
Ústav Českého národního korpusu FF UK
[email protected]
Slovní druhy v mluvené a psané češtině
Korpusy neformální mluvené češtiny (řada ORAL) umožňují díky své dostatečné velikosti popis mluvené češtiny v míře, která donedávna byla jen těžko
představitelná. Zvláště korpus ORAL (bez přívlastku, zatím nedostupný pro
veřejnost), který vznikl sloučením korpusů ORAL2006 a ORAL2008 a je lemmatizovaný a morfologicky označkovaný, je cenným nástrojem pro výzkum
gramatiky mluvené češtiny i její slovní zásoby.
Mluvená čeština nebyla zatím z hlediska gramatiky ani slovní zásoby systematicky popsána. Morfologie mluvené češtiny je alespoň z frekvenčního
pohledu podrobně zpracována v knize J. Šonkové (2008) (na ručně označkovaném Pražském mluveném korpusu). K popisu gramatiky mluvené češtiny se do určité míry přibližuje Mluvnice současné češtiny (Cvrček et al.
2010), která bere mluvený jazyk v úvahu a uvádí údaje o slovních tvarech
v psaných i mluvených textech, nejfrekventovanějších zástupcích jednotlivých slovních druhů atp. Detailně zpracovaný je výsek problematiky slovní zásoby ve Slovníku české frazeologie a idiomatiky (Čermák et al. 2009),
který zpracovává frazémy jak v psané, tak v mluvené češtině. Za zmínku
stojí i sbírka studií Čeština v mluveném korpusu (Kopřivová & Waclawičová
2008), která ovšem není pojata jako celistvější popis.
Prvotním impulsem k předkládané studii je úmysl zkoumat mluvenou
češtinu skutečně systematicky (například zpracováním mluvnice mluvené
češtiny), tedy nikoli jen okrajově (vedle psané češtiny) nebo jen s úzkým
zaměřením na jeden jev nebo jeden úhel pohledu. Takový ucelený výzkum
vyžaduje zjistit, jaké jsou možnosti a jakým směrem zaměřit pozornost, a to
především proto, aby nešlo pouze o zkoumání založené na šabloně popisu
psaného jazyka.
Studie se soustředí na slovní druhy v mluvené a psané češtině (korpusy
ORAL a SYN2010), a detailněji pak v různých typech textu: v mluvené češtině, v beletrii (próze), v publicistice a v akademických textech (podle Bibera,
1999). Srovnává počet textových pozic přináležejících k jednotlivým slovním
druhům, stejně jako počty lemmat ve slovních druzích. Už tato základní analýza poskytuje cenné informace o tom, které oblasti mluvené češtiny vyža-
110
dují naši výzkumnou pozornost více než jiné. Jde např. o takové jevy, jako
je výrazně vyšší počet textových pozic obsazených zájmeny nebo částicemi
v mluvené češtině (oproti psané), nebo nízké procento podstatných a přídavných jmen v textech korpusu ORAL oproti korpusu SYN2010.
Následný pohled na nejfrekventovanější zástupce (lemmata i slovní tvary)
jednotlivých slovních druhů pak přináší možnosti interpretace takovýchto
významných rozdílů mezi mluvenou a psanou češtinou. Mezi nejfrekventovanějšími lemmaty v jednotlivých slovních druzích jsou zároveň často slova,
kterým by měla být věnována zvláštní pozornost. Jde o slova s neobvyklým
chováním, např. problematicky zařaditelná k určitému slovnímu druhu (rád,
každý, všichni, sám, druhý, už), slova deiktická tvořící zvláštní skupinu, již
lze vydělit ze slovních druhů (a slova s nimi sdílející určité formální rysy: ně/
jaký/si, ně/který/koli apod.), zájmeno ten, které v mluvené češtině často plní
funkci podobnou členu určitého (Chlumská & Kováříková 2010), případně
vysoce frekventovaná sémanticky vyprázdněná slova výplňová, která jsou
typická právě pro mluvenou češtinu (jako, vlastně, prostě). I těmto slovům či
skupinám slov se studie bude v krátkosti věnovat.
Právě takovýto výzkum, zaměřený spíše široce, tedy nikoli do hloubky
a do podrobností sledující jeden vybraný jev, může být předstupněm ucelenější a daleko podrobněji zpracované analýzy mluveného jazyka.
Literatura
Biber, D. et al. (1999). Longman Grammar of Spoken and Written English.
Harlow: Pearson Education.
Cvrček, V. et al. (2010). Mluvnice současné češtiny. Praha: Karolinum.
Čermák, F. et al. (2009). Slovník české frazeologie a idimoatiky I.-IV (2. vydání). Praha: Leda.
Chlumská, L. & Kováříková, D. (2010). The Reflection of Linguistic Tradition
in Translation. In F. Čermák, P. Corness & A. Klégr (Eds.), Intercorp:
Exploring a Multilingual Corpus. Praha: NLN/ÚČNK.
Kopřivová, M. & Waclawičová, M. (Eds.) (2008). Čeština v mluveném korpusu. Praha: NLN/ÚČNK.
Šonková, J. (2008). Morfologie mluvené češtiny: Frekvenční analýza. Praha:
NLN/ÚČNK.
111
Boris Lehečka
Ústav pro jazyk český AV ČR
[email protected]
Obsah a značkování diachronního korpusu češtiny
Příspěvek se zamýšlí nad obsahem zdrojových dat a metadat diachronního
korpusu češtiny i nad funkčností korpusových manažerů, aby byly v co největší míře splněny základní požadavky kladené na korpusy: autenticita textů
a jednoduché vyhledávání. Návrhy vycházejí z analýzy DIAKORPu, který je
součástí diachronní složky Českého národního korpusu, a staročeské textové banky, jež vzniká v oddělení vývoje jazyka Ústavu pro jazyk český AV
ČR, v. v. i.
Diachronní korpusy mají v korpusové lingvistice výjimečné postavení:
jejich příprava není snadná, neboť je tvoří texty, na něž nelze uplatnit moderní způsoby digitalizace (např. OCR). Tyto prameny musí připravit diachronně orientovaný editor, který v případě nečitelného nebo porušeného
textu problematické místo emenduje, čímž narušuje jeho autenticitu. DIAKORP na tyto případy upozorňuje pomocí dvojice kódů, která se uživatelům
i korpusovému manažeru jeví jako základní text (např. <e> a </e>), i když
jde o metadata (informace přidané editorem k původnímu textu). V důsledku
toho se navyšuje počet pozic, respektive slov, daného korpusu, a to nejen
o počet samotných značek, ale i o výrazy uvedené mezi těmito značkami.
Navíc tyto údaje ovlivňují např. řazení v konkordanci. Staročeská textová
banka tyto informace uvádí adekvátnějším způsobem, tedy v komentáři
k tokenu, takže údaj není na první pohled patrný, ale zobrazí se na vyžádání.
Pozornost si v případě diachronních korpusů dále zaslouží cizojazyčný
text, který bývá součástí textu staročeského. Jak DIAKORP, tak staročeská
textová banka na tyto „nečeské“ výrazy upozorňují (pomocí značky <o>,
resp. komentáře), korpusové manažery však s touto informací nepočítají
a při hledání se prohledává jak český, tak cizojazyčný text (viz např. výsledky hledání výrazu pes). Cizojazyčný text by měl být explicite označen
pomocí atributu, aby jej manažery mohly z vyhledávání vyřadit.
Obdobný problém je potřeba řešit u tzv. mladších přípisků, které se v textu objevily dlouho po vzniku základního textu pramene. Není-li takový přípisek nijak označen, stane se nedílnou součástí hlavního textu a zkreslí tím
informace o jazyce daného období. DIAKORP i staročeská textová banka
112
takové přípisky ve zdrojových datech pro korpus vypouštějí. Tím se ovšem
narušuje autenticita textu (tj. podoba, v níž byl pramen reflektován čtenáři).
Pokud se mají mladší přípisky stát součástí korpusu, bude nutné označit
jednotlivé připsané výrazy dobou svého vzniku, aby na ně bylo možné aplikovat filtrační kritéria doby vzniku.
Speciální zacházení si zaslouží rovněž přípisky soudobé, které vznikly
ve stejné, popř. časově ne tak vzdálené době jako základní text pramene.
Pokud netvoří organickou součást textu (např. v případě doplnění vynechaných slov), musí editor rozhodnout o umístění přípisku (podle smyslu nebo
podle místa připsání), což může v některých případech vést k narušení větné
stavby a k vytváření neobvyklých kolokací (se základním textem). Řešení
tohoto problému vyžaduje další diskusi a spolupráci na straně editorů a korpusových manažerů.
Jedním z obvyklých korpusových dotazů bývá hledání všech tvarů jednoho lemmatu, čemuž napomáhá lemmatizace korpusových dat. U diachronních korpusů se problém, jak zjednodušit hledání různých hláskoslovných
podob téhož lemmatu (např. kóň, kouň, kůň), řeší pomocí tzv. hyperlemmatu.
Pracovníci ÚČNK počítají s uváděním hyperlemmatu v hláskoslovné podobě, která má co nejblíž současné češtině (tj. kůň); pracovníci ÚJČ naproti
tomu pro hyperlemma zvolili podobu nejstarší, tj. ve formě k roku 1300 (tedy
kóň). Obě varianty mají své opodstatnění, a jako vhodné se proto jeví uvádět
u tokenu dvě hyperlemmata: historické a moderní.
Poslední bod hodný pozornosti je značkování hláskoslovných změn proběhnuvších na určitém tokenu. Při lemmatizaci, která reflektuje rovněž hláskoslovný vývoj jazykových jednotek, by zejména pro starší vývojové fáze
jazyka bylo vhodné zaznamenávat, k jakým hláskoslovným změnám došlo.
V tomto případě je potřeba zaznamenat, nejen k jaké změně došlo, ale rovněž
na jakém místě (v rámci jednoho výrazu mohla tatáž změna nastat i nenastat, např. dóstoujenstvie).
Příspěvek popisuje přednosti i nedostatky současných řešení v uvedených aspektech diachronních korpusů, případně navrhuje výhodnější řešení
s ohledem na sledovaná kritéria, totiž autenticitu textů a jednoduchost vyhledávání.
113
Literatura
Černá, A. M. & Lehečka, B. (2012). Elektronická příprava a publikace starších
českých textů. In Čeština v pohledu synchronním a diachronním: stoleté
kořeny Ústavu pro jazyk český. Vyd. 1. Praha: Karolinum, 265–269.
Český národní korpus - DIAKORP. Ústav českého národního korpusu FF UK,
Praha. Cit. 8. 2. 2014. Dostupný z WWW: <www.korpus.cz>
Stluka, M. (2010). Zpracování jednotlivých pravopisných systémů v rámci diachronní složky Českého národního korpusu. In M. Čornejová, L.
Rychnovská & J. Zemanová (Eds.), Dějiny českého pravopisu (do r. 1902):
sborník příspěvků z mezinárodní konference Dějiny českého pravopisu
(do r. 1902) 23.–25. září 2010, Brno, Česká republika. Brno: Host; Masarykova univerzita, 435–448.
Staročeská textová banka [on-line]. Citováno dne 8. 2. 2014. Oddělení vývoje
jazyka Ústavu pro jazyk český AV ČR, v. v. i. Dostupná na <http://vokabular.ujc.cas.cz/banka.aspx>.
Eva Lehečková
Ústav českého jazyka a teorie komunikace FF UK
[email protected]
Konstrukční specifika dvou sémantických typů
obouvidových sloves v češtině
Obouvidová slovesa (dále OS) v češtině představují neprototypickou množinu sloves: nemají právě jednu vidovou hodnotu (dokonavý–nedokonavý),
nýbrž mohou nabývat hodnot obou. Až na několik málo původních českých
sloves sestává jádro subsystému z neprefigovaných sloves cizího původu
tvořených pomocí kmenotvorného sufixu -ova- (např. rezervovat, analyzovat, identifikovat, expandovat, renovovat). Že je tato funkční podvojnost
z dlouhodobého hlediska v systému češtiny neudržitelná, ukazují výzkumy
sledující adaptaci OS v českém slovesném subsystému, viz např. Lebeďová
114
(1980, 1984), Komárek (1984) či nověji Jindra (2008). Obouvidová slovesa se
v české lingvistice nazírají nikoliv jako jeden lexém, ale jako dvě samostatná,
homonymní paradigmata (Kopečný 1962, Veselý 2008). V návaznosti na tento pohled Chromý a Lehečková (připr.) stanovují hypotézu, že (systémově) OS nejsou v konkrétním užití, tedy v určitém jazykovém a situačním
kontextu, nikdy interpretována jako obouvidová, ale vždy mají pouze jednu
preferovanou interpretaci, a to buď dokonavou, nebo nedokonavou. Jednoznačná interpretace obouvidového slovesa v kontextu je ovlivněna například
strukturními faktory, jako je hodnota gramatického času, gramatické číslo
a reference (specifická vs. generická) subjektu či objektu daného slovesa,
přítomnost negace či sémantickými faktory určujícími vnitřní průběh děje
(aktionsart) slovesa.
Tento příspěvek zkoumá vliv sémantického rysu durativnost/momentánnost (resp. v klasifikaci navržené Vendlerem (1967) dichotomii accomplishments vs. achievements) na užívání přejatých neprefigovaných OS zakončených na -ovat. Dotazníkový průzkum představený ve studii Chromý
a Lehečková ukázal, že tato dichotomie může hrát v distribuci OS určitou roli
a že může odpovídat za některé rozdíly v interpretaci jednotlivých sloves.
Durativnost/momentánnost je jedním z hlavních rysů slovesné sémantiky,
který zasahuje celý systém sloves vyjadřujících směřování k nějaké vnitřní
hranici – v některých pojetích (viz např. Smith 1997; Filip 1999) se tento rys
vnitřní, sémantické aspektuality označuje jako teličnost; telická slovesa mohou vyjadřovat dosahování cíle v průběhu časového intervalu (durativní slovesa), nebo toto dosažení cíle konceptualizovat jako časově zhuštěné, tedy
v rámci okamžiku (momentánní slovesa). S oporou o odbornou literaturu
a kritéria tam uvedená klasifikujeme OS uvedená ve studii V. Jindry (2008)
do kategorií momentánní a durativní, přičemž předpokládáme prototypické
jádro každé kategorie a přechodové případy (zvláště s ohledem na fakt, že
slovesná sémantika představuje jakýsi potenciální předvýznam, jejž lze aktualizovat užitím v konkrétním kontextu v rámci konkrétní verbální fráze
v predikátové funkci). Teoreticky naše studie vychází z konstrukčního přístupu k jazyku (v češtině viz Friedová 2013): jazykové jednotky chápe jako
komplexní gestalty zahrnující všechny informace o dané konstrukci, které
jsou relevantní pro její užití v komunikaci.
Výzkum se materiálově opírá o SYN2010 a jako metodu uplatňuje kolostrukční analýzu (collostructional analysis) vyvinutou M. Stefanowitschem
a S. Griesem (2003, 2004, 2005), konkrétně kolexémovou analýzu (collexeme
115
analysis), která zkoumá stupeň asociace vybraného lemmatu s určitou pozicí ve zkoumané konstrukci coby syntaktickém vzorci. U OS zkoumáme
asociační sílu skupiny momentánních a skupiny durativních lemmat v konstrukcích obsahujících a) různou hodnotu gramatické kategorie času a b)
valenční doplnění v jednotném, resp. množném čísle, a to ba) subjekt a bb)
přímý objekt. Predikcí u prvního zkoumaného rysu je, že durativní OS budou vykazovat menší restrikce v distribuci z hlediska času (a budou tedy mít
menší asociační míru s určitou konstrukcí než momentánní slovesa, která
budou signifikantně tíhnout k minulému času). Gramatické číslo subjektu
a přímého objektu ovlivňuje aspektuální interpretaci (cf. Krifka 1998; Filip
1999), neboť s sebou nese individuální, resp. generickou referenci (v rámci
krifkovské mereologie se obvykle vyděluje singulárový tvar se specifickou
interpretací a kvantifikovaný plurálový tvar na jedné straně vs. nekvantifikovaný, holý plurálový tvar a nepočitatelná, látková jména na straně
druhé, srov. např. Dočekal (2009). V rámci tohoto rysu předpokládáme, že
momentánní OS budou preferenčně přítomna v konstrukcích s individuální interpretací, zatímco durativní OS budou z tohoto hlediska nespecifická,
a budou tedy vykazovat menší míru kolexémové asociace s konstrukcemi
obsahujícími aktanty v singuláru. Pro ověření vlivu distinkce durativní/momentánní na distribuci OS ve zkoumaných konstrukcích budeme kontrolně
sledovat i signifikantnost asociační míry jednotlivých slovesných lemmat
v těchto konstrukcích, a to za účelem identifikace případných idiosynkratických vlivů u konkrétních lexikálních jednotek. Role, kterou tato aspektuální
distinkce hraje při distribuci OS, dosud nebyla v odborné literatuře soustavně sledována, a mohlo tak dojít k pominutí podstatných rysů ovlivňujících
užívání a adaptaci těchto sloves v českém jazykovém systému.
Literatura
Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK,
Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.
Dočekal, M. (2009). Aspekt a sémantika předložek. In Struny mysli. Ostrava:
Montanex, 291–300.
Filip, H. (1999). Aspect, Eventuality Types and Nominal Reference. New
York/London: Garland Publishing.
Friedová, M. (2013). Pojem konstrukce v konstrukční gramatice. Časopis pro
moderní filologii, 95(1), 9–27.
116
Gries, S. Th. & Stefanowitsch, A. (2004). Co-varying collexemes in the into-causative. In M. Achard & S. Kemmer (Eds.), Language, Culture, and
Mind. Stanford, CA: CSLI, 225–36.
Chromý, J. & Lehečková, E. (připr.). Impact of tense on the interpretation of
bi-aspectual verbs. Studie z aplikované lingvistiky, 1/2014.
Jindra, V. (2008). Vývojová dynamika obouvidových sloves cizího původu
na základě korpusových dat. Slovo a slovesnost, 69, 192–210.
Komárek, M. (1984). Prefixace a slovesný vid (K prefixům čistě vidovým
a subsumpci). Slovo a slovesnost, 45, 257–267.
Kopečný, F. (1962). Slovesný vid v češtině. Praha: ČSAV.
Lebeďová, S. (1980). K ztrátě obouvidovosti u sloves cizího původu v současné češtině. Slovo a slovesnost, 41, 279–286.
Lebeďová, S. (1984). Spojování sloves cizího původu s českými předponami.
Naše řeč, 67, 117–121.
Smith, C. (1997). The Parameter of Aspect. 2nd edition. Dordrecht: Kluwer.
Stefanowitsch, A. & Gries, S. Th. (2003). Collostructions: Investigating the
interaction between words and constructions. International Journal of
Corpus Linguistics, 8(2), 209–243.
Stefanowitsch, A. & Gries, S. Th. (2005). Co-varying collexemes. Corpus Linguistics and Linguistic Theory, 1(1), 1–43.
Vendler, Z. (1967). Verbs and times. In: Linguistics and Philosophy. Ithaca/
New York: Cornell University Press.
Veselý, L. (2008). Testy pro zjišťování vidové hodnoty vidového paradigmatu
slovesa (indikátory slovesného vidu). Slovo a slovesnost, 69, 211–220.
117
Martina Lev
Institut für Slavistik, Justus-Liebig-Universität Giessen
[email protected]
Voľné datívy a DcI-konštrukcie. Distribučná štúdia
na materiáli podkorpusu českého synchrónneho
korpusu SYN2010 a podkorpusu ruského
osnovného korpusu
S voľnými datívmi sa stretávame vo všetkých slovanských jazykoch, porov.
nasledujúci výber:
• Rus.: Эти мне газеты! (Mašovec 2000: 68)
Ja ne prikazčik vam! (tamtiež: 58)
• Pol.:
Telewizor mi się zepsuł. (Rytel-Kuc 1999: 239)
Tylko mi nie hałasuj! (Dąbrowska 1997: 55)
• Č.:
To je mi pěkný pořádek! (Karlík 2002: 105)
Co jste nám tu ukradli? (Janda 1993: 89, 90)
• Sloven.: Dokiaľ bola Zuza u Telného, nuž ti vám, dietky božie, milý
Adam tú truhlu predal. ( Jégé; porov. Miko 1966: 181)
A matka vám ešte žije? (Bednár; porov.: tamtiež)
• Slovin.: Pametna bodi, glave mi ne povešaj! (Greenberg 2008: 95)
Ostrigel mi je lase. (tamtiež)
• Chorv./ Srb.: Kako ste mi? (Silić/ Pranjković 2007: 220)
Kako ti je zdravlje? (Kunzmann-Müller 2002: 238)
• Bulh.:
Така ли ще ми говориш с баща си?! (Börger 2008: 43)
Ich distribúcia sa však odlišuje od jazyka k jazyku. Kým v češtine, slovenčine, chorvátčine a srbštine sú voľné datívy hojne zastúpené, je ich frekvencia v ruštine silno obmedzená (porov. Janda 1993: 208; Daiber 2008:104).
Fakultatívne datívy ako v č. Šel otci pro pivo (Nádeníček 2011: 152) alebo
118
v chorv. To ti je bila gužva! (Kunzmann-Müller 2002: 237) sa v modernej
ruštine nerealizujú. Dôvody pre toto nerovnomerné zastúpenie voľných datívov sa v literatúre neuvádzajú, stretávame sa tu nanajvýš s domnienkami a hypotézami
autorov. Prínosným v tomto ohľade je pozorovanie Havránka, ktorý opisuje
jeden z rozdielov v používaní datíva v ruštine a češtine nasledujúco:
[…] pro ruštinu je příznačné zejména užívání dativu v jednočlenných větách s příslovcem nebo infinitivem v základním členu (sr.
Мне далеко до вокзала. – Открыть мне окно?), a naproti tomu
jiné vyjádření za český tzv. volný dativ při slovese, s významem příslušnosti, vztahu (sr. Ztratila se mi kniha. У меня пропала книга).
(Havránek 1961: 298, 299; porov. i Zaičkova 1972: 66)
Daiber predpokladá systematický súvis medzi frekvenciou voľných datívov v juho- a západoslovanských jazykoch a tzv. Dativus cum Infinitivokonštrukcií (ďalej DcI), ktoré dominujú v ruskom jazyku: „Verf. hält die zum
Schwund der fakultativen Dativerweiterungen und zum Schwund klitischer
Pronominalfor­men sich umgekehrt reziprok verhaltende Frequenz der DcIKonstruktionen für das entschei­dende systemimmanente Kriterium.“ (Daiber 2008: 104, 105)
Konštrukcia „je + infinitív“ s logickým subjektom v datíve, ktorá v minulosti slúžila ako jeden z výrazových prostriedkov vyjadrenia voľnej modality
(a v ruskom jazyku existuje dodnes), sa v českom jazyku dochovala len „jako
archaismus“ (Karlík et al. 1995: 410): Všem lidem jest umříti (tamže). (Porov.
aj Zubatý 1922: 3; Gebauer 1929: 390; Bauer 1974: 11; Lamprecht et al. 1977:
238; Lamprecht et al. 1986: 350, 351.) Cieľom príspevku je, na základe výskumu na materiáli českého a ruského
elektronického synchrónneho korpusu vyhodnotiť používanie voľných datívov v češtine a ruštine ako aj frekvenciu DcI-konštrukcií v ruskom jazyku
a overiť tak hypotézu, že jazyky, v ktorých sú pronominálne datívy viazané
v syntaktických konštrukciách (viď DcI) vykazujú menej voľných, t.j. syntakticky neväzobných (porov.: Bauer & Grepl 1970: 115; Grepl & Karlík 1986:
275; Karlík et al. 1995: 429; Karlík 2002: 104) datívov a naopak. Korpusová
analýza tak podáva základ pre ďalší typologický výskum týchto javov v prípade, že sa hypotéza potvrdí.
Použité korpusy budú predstavovať dva mnou zadané podkorpusy českého synchrónneho korpusu SYN2010 a ruského osnovného korpusu
(„Oсновный корпус“), pričom ich zloženie má pozostávať predovšetkým
119
z textov súčasnej originálnej českej a ruskej umeleckej literatúry (prózy).
Prekladová literatúra zostáva nezohľadnená. Zloženie a veľkosť podkorpusov budú volené tak, aby boli navzájom porovnateľné. Literatúra
Bauer, J. (1974). Historische Syntax der tschechischen Sprache. Übersetzt
von Gerd Freidhof. Frankfurt a. M.: Slavisches Seminar.
Bauer, J. & Grepl, M. (1970). Skladba spisovné češtiny. Praha: SPN.
Börger, G. (2008). Der ethische Dativ in der Kommunikation. Sprachvergleich: Deutsch, Russisch, Bulgarisch. Frankfurt a. M.: Lang.
Daiber, Th. (2008). Produktive Dativkonstruktionen. Possessive, deontische
und temporale Attribution. In S. Kempgen, K. Gutschmidt, U. Jekutsch &
L. Udolph (Eds.), Deutsche Beiträge zum 14. Internationalen Slavistenkongress Ohrid 2008. München: Otto Sagner, 103-116.
Dąbrowska, E. (1997). Cognitive Semantics and the Polish Dative. Berlin/
New York: de Gruyter.
DuFeu, V. (1998). The Dativus Ethicus (DE) in the Slavonic languages. XII
MKS Kraków 1998. Dostupné online z: WWW: <http://www.arts.gla.
ac.uk/Slavonic/VDuFeu.htm>.
Gebauer, J. (1929). Historická mluvnice jazyka českého. Díl IV: Skladba. Praha: Česká Akademie věd a umění.
Greenberg, M. L. (2008). A Short Reference Grammar of Slovene. München:
Lincom Europa.
Grepl, M. & Karlík, P. (1986). Skladba spisovné češtiny. Praha: SPN.
Havránek, B. (Ed.) (1961). Příruční mluvnice ruštiny pro Čechy I. Hláskosloví
a tvarosloví. Praha: SPN.
Janda, L. A. (1993). A Geography of Case Semantics. The Czech Dative and
the Russian Instrumental. Berlin/ New York: de Gruyter.
Karlík, P. (2002). Dativ volný. In P. Karlík, M. Nekula & J. Pleskalová (2002),
104–105.
Karlík, P., Nekula, M.; Pleskalová, J. (Eds.) (2002). Encyklopedický slovník
češtiny. Praha: Lidové noviny.
Karlík, P., Nekula, M. & Rusínová, Z. (Eds.) (1995). Příruční mluvnice češtiny.
Praha: Lidové noviny.
Kunzmann-Müller, B. (2002). Grammatikhandbuch des Kroatischen unter
Einschluß des Serbischen. 3., durchges. und erg. Aufl. Frankfurt a. M.:
Lang.
120
Lamprecht, A., Šlosar, D. & Bauer, J. (1977). Historický vývoj češtiny. Praha:
SPN.
Lamprecht, A., Šlosar, D. & Bauer, J. (1986). Historická mluvnice češtiny. Praha: SPN.
Mašovec, E. N. (2000). Konstrukcii s datel’nym etičeskim v sovremennom
russkom jazyke. Dissertacija na soiskanie učenoj stepeni kandidata filologičeskich nauk. Moskva: MGU.
Miko, F. (1966). Datív. In J. Ružička (Ed.), Morfológia slovenského jazyka.
Bratislava: Vydavateľstvo SAV, 177–185.
Nádeníček, P. (2011). Der Dativ im Tschechischen: Syntax, Semantik und
Pragmatik. Anzeiger für slavische Philologie 39, 147–168.
Rytel-Kuc, D. (1999). In U. Engel (Ed.), Deutsch-polnische kontrastive Grammatik. Bd. 1. Heidelberg: Groos.
Silić, J. & Pranjković, I. (2007). Gramatika hrvatskoga jezika za gimnazije
i visoka učilišta. 2. izdanje. Zagreb: Školska knjiga.
Zaičkova, I. (Zajičková, J.) (1972). Datel’nyj bespredložnyj v sovremennom
russkom literaturnom jazyke. Praha: Universita Karlova.
Zubatý, J. (1922). Musiti. Naše řeč, 6 (1), 1–9.
Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK,
Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.
Osnovnoj korpus Nacionaľnogo korpusa russkogo jazyka. Dostupný
z WWW: <http://www.ruscorpora.ru>.
121
Michaela Lišková
Ústav pro jazyk český AV ČR
[email protected]
Helena Pernicová
Ústav pro jazyk český AV ČR
[email protected]
Pojmenování barev a jejich odstínů v Akademickém
slovníku současné češtiny
Fenomén barev lze zkoumat z různých hledisek, fyzikálního, psychologického, antropologického, jazykovědného a dalších. V jednotlivých oborech
pak existují rozličné úhly pohledu, z nichž lze problematiku barev nazírat;
v jazykovědě je možné se zabývat mj. určením jazykové základovosti barev (Schmiedtová & Schmiedtová 2006), barvami v jazykovém obrazu světa
(Vaňková 2005, Gieroń-Czepczor 2011), užitím barev v toponymii (Štěpán
2004) nebo definováním barev ve slovnících (Pakuła 2010). Tento příspěvek
je zaměřen lexikograficky, soustřeďuje se na kritéria zařazování hesel označujících barvy a jejich odstíny do hesláře vznikajícího slovníku s pracovním
názvem Akademický slovník současné češtiny (ASSČ), dále na problematiku
výkladu a na exemplifikaci.
Heslář ASSČ bude obsahovat 120–150 tisíc lexikálních jednotek. Je vytvářen na základě vyvážených korpusů Českého národního korpusu (SYN
2000, SYN 2005, SYN 2010) s celkovým objemem 300 milionů slov. Při vlastním zpracovávání hesel pak jako výchozí materiálovou základnu využíváme
korpus SYN, jako doplňkové zdroje elektronický mediální archiv Newton
Media, oborovou databázi ODE, neologickou databázi Neomat, internet ad.
Na základě frekvence v korpusu se do hesláře ASSČ dostávají výrazy,
které v dosavadních slovnících nenajdeme. Mezi nová pojmenování označující barevné odstíny patří např. kapučínový ,světle hnědý‘ nebo limetkový ,světle žlutozelený‘. Setkáváme se s nimi především v textech týkajících
se módy, kosmetiky a interiérového designu. Naopak jiné výrazy v hesláři
ASSČ nebudou, přestože je dřívější slovníky uvádějí; v korpusu je ve významu označujícím barvu nenacházíme vůbec nebo jen s minimální frekvencí,
např. čekankový ,modrý‘, koukolový ,červenofialový‘. Důvodem těchto změn
je jiná životní realita, menší sepětí s přírodou a zároveň větší propojenost
122
s širším, globálním prostředím. Nová pojmenování však vyhodnocujeme, je
třeba rozlišit lexikalizované spojení a příležitostné volné spojení, které může
mít v určitém časovém období vyšší frekvenci výskytu. Všímáme si rovněž
typu zdrojů, ve kterých se daný výraz vyskytuje (není výjimečné, že adjektivum vyjadřující barevný odstín se vyskytuje pouze v překladové beletrii
nebo v díle jednoho autora).
Hnízdování se v ASSČ užívá méně než v předchozích slovnících. To znamená, že některé tradičně hnízdované deriváty (vztahová adjektiva, adverbia,
substantiva označující názvy vlastností) budou zpracovány jako samostatná
hesla s plným výkladem. Zatímco přídavná jména v analyzované oblasti někdy výklad měla již v předchozích slovnících (srov. Slovník spisovného jazyka českého: olivový ,mající barvu olivy‘, oříškový ,mající barvu (lískových)
oříšků‘, pivoňkový ,mající barvu červených pivoněk‘), pro adverbia je model
výkladu třeba vytvořit zcela nově.
Nabízející se jednoduché výkladové definice typu avokádově ,jako avokádo´ (s doklady avokádově zelené tričko; avokádově zbarvené dlaždice) nejsou
dostačující. Potřeba hledat širší, přesnější formu výkladu je ještě výraznější
v případech, kdy doklady ukazují na souvislost s jinou než vizuální charakteristikou základového substantiva (ananasově vonět; alabastrově hebká pokožka).
Základní barvy v jejich primárním významu vykládáme v souladu s lexikografickou tradicí přirovnáním k jejich typickým nositelům (bílý ,mající
barvu mléka, sněhu ap.‘). Samostatně registrujeme a vykládáme i substantivizované podoby pojmenování základních barev (bílá ,bílá barva‘). Nelze
opomíjet to, že barvy nesou množství jazykových a kulturních konotací. Ale
jak uvádí R. Blatná (1995: 85), hlavním problémem při lexikografickém zpracování konotační složky je míra její lexikalizace. Je nezbytné vždy pečlivě
zvážit začleněnost konotační významové složky do lexikálního systému.
Odstíny někdy přináležejí více barvám, barevné spektrum je škálovité.
Přestože je vnímání odstínů velmi individuální, nelze při tvorbě slovníkové
definice rezignovat na odpovídající slovní vyjádření. Jako příklad uveďme
označení barevných odstínů šeříkový a lila. Ve Slovníku spisovné češtiny
nalezneme u exemplifikačního spojení šeříková modř dovýklad ,bledě fialová´. Nesklonné adjektivum lila je definováno jako bledě fialový, šeříkový.
Analýza materiálu ukázala, že se výrazů šeříkový a lila (a odpovídajících adverbií) užívá nejen pro označení bledě fialové barvy, ale i barvy sytě fialové.
Vzhledem k omezenosti adekvátních jazykových prostředků popisu by bylo
123
vhodné doplnit slovník obrázkovou přílohou s barevnými odstíny (jak je
běžné u slovníků zahraničních) s event. naznačenou škálovitostí a prolínáním jednotlivých barevných odstínů.
Při exemplifikování hesel usilujeme o doložení typického úzu a sémantické spojitelnosti. Uvádíme jak stručné doklady (dvojice slov), tak doklady
rozšířené a větné, které mohou v odůvodněných případech ukazovat i méně
obvyklé užití slova. Výjimečně exemplifikujeme pomocí nadvětných celků.
Literatura
Berlin, B. & Kay, P. (1969). Basic Color Terms: Their Universality and Evolution. Berkeley: University of California Press.
Blatná, R. (1995). Metajazyk v lexikografii. In F. Čermák & R. Blatná (Eds.),
Manuál lexikografie. Jinočany: H&H, 72–89.
Gieroń-Czepczor, E. (2011). A corpus-based cognitive-semantic analysis of
the primary basic colour terms in English and Polish. Racibórz: Państwowa Wysza Szkola Zawodowa.
Pakuła, Ł. (2010). Seeing through dictionaries: On defining basic colour
terms in English, Japanese and Polish lexicography. Cit. 2014-01-29.
<https://repozytorium.amu.edu.pl/jspui/bitstream/10593/7786/1/130_
Euralex_2010_9_PAKULA_Seeing%20through%20dictionaries_On%20
defining%20basic%20colour%20terms%20in%20English,%20Japanese%20
and%20Polish%20lex.pdf>
Schmiedtová, V. & Schmiedtová, B. (2006). In F. Čermák & R. Blatná (Eds.),
Korpusová lingvistika: Stav a modelové přístupy. Praha: NLN, 285–313.
Slovník spisovné češtiny. (2000). Praha: Academia.
Slovník spisovného jazyka českého. (1960–1971). Díl I-IV. Praha: Academia.
Štěpán, P. (2004). Označení barev a jejich užití v toponymii Čech. Praha:
Univerzita Karlova.
Vaňková, I. (2005). Kapitoly o barvách. In I. Vaňková, I. Nebeská, L. Saicová
Římalová & J. Šlédrová (Eds.), Co na srdci, to na jazyku. Praha: Karolinum, 195–246.
124
David Lukeš
Ústav Českého národního korpusu FF UK
[email protected]
Perspektivy fonetické anotace v korpusech
mluveného jazyka
Velké veřejně dostupné korpusy mluvené češtiny většinou obsahují pouze
jednu vrstvu transkripce. Ta bývá zpravidla založena na ortografii, ale zároveň zohledňuje některé zdroje řečové variability, jež standardní pravopis nezachycuje a jež nám tak mohou mnohé napovědět o fonetické realizaci dané
promluvy. V případě korpusů PMK a řady ORAL se jedná např. o protetické
[v], v korpusu BMK o neortoepické asimilace znělosti, v korpusu DIALOG
můžeme zmínit třeba hrubé zachycení intonace, tzv. melodémů. Deklarovaným cílem je vytvořit přepis, který bude pohodlně čitelný a zároveň bude
kódovat vybraná specifika mluveného jazyka (viz např. Kaderka & Svobodová 2006).
Jak správně poznamenává Pořízka (2009: 23–24), volba takovýchto hybridních přepisů je problematická v tom, že některé jevy přeceňuje a přisuzuje jejich reprezentaci přílišnou granularitu, naopak jiné úplně pomíjí. Zároveň může ona polovičatost způsobit, že i vybrané jevy jsou zaznamenávány
nesystematicky, neboť přepisovatele svádí zažitá a zautomatizovaná pravidla ortografie. Část fonetické variability tedy zůstává nezachycena, zejména
jevy, které nebyly dosud systematicky popsány a tudíž nemohly být explicitně zařazeny do pravidel přepisu. Přitom mají výzkumný potenciál a popis
by si zasloužily.
S vědomím těchto problémů volí korpus KOMČ víceúrovňovou anotaci,
která obsahuje jak ortografickou, tak plně fonetickou vrstvu (Pořízka 2008).
Tímto přístupem se ve svých pravidlech pro přepis volně inspiruje i korpus ORTOFON, aktuálně budovaný na ÚČNK pomocí anotačního programu
ELAN (Sloetjes & Wittenburg 2008). Tyto korpusy mají ambici zprostředkovat možnost komplexního kvantitativního výzkumu fonetické stránky
českého jazyka (asimilace znělosti před jedinečnými souhláskami, prestové
realizace frekventovaných a výplňkových slov aj.). Při vhodné reprezentaci
dat v korpusovém manažeru mohou dokonce umožnit dotazy porovnávající
125
fonetickou realizaci s ortografickou podobou slova, či ještě lépe, s „očekávanou“ ortoepickou výslovností vygenerovanou podle pravopisu.
Zároveň se ovšem na základě dosavadní praxe při budování korpusu ORTOFON ukazuje, že pro foneticky neškolené spolupracovníky, kteří nahrávky přepisují, bývá problém oprostit své uši od pravopisných předsudků a zachytit reálnou výslovnost. Svou roli v tom hraje nepochybně i to, že pečlivý
fonetický přepis vyžaduje opakovaný poslech záznamu po krátkých úsecích
a ideálně i vizuální informaci v podobě spektrogramu nahrávky (srov. Skarnitzl & Machač 2009). Je tedy náročný jak na čas, tak na specifické technické
dovednosti.
V tomto světle se může ukázat, že čas investovaný do dálkového fonetického školení přepisovatelů-laiků se nevyplácí, podobně jako čas vložený
do systematického fonetického přepisu celých nahrávek. Do budoucnosti je
tak potřeba se zamyslet i nad jinými variantami fonetické anotace, ať už
by šlo o selektivní transkripci podle frekvenčního klíče (tj. přednostně přepisovat nejčastější typy v korpusu) či o návrat k anotaci pouze vybraných
jevů, jako např. ve výše zmíněných korpusech řady ORAL, ovšem se dvěma
důležitými rozdíly. Zaprvé, anotace by neměla klást důraz na specifika češtiny, ale na obecně relevantní fonetické procesy (proteze, epenteze, elize,
lenizace...), a měla by probíhat formou metadat, aby nedocházelo k interferencím s ortografickým přepisem (mohlo by jít o podobný systém jako
u morfologických značek).
Má-li totiž být fonetický přepis mluveného korpusu užitečný, musí být
spolehlivý a systematický a musí usnadňovat vyhledávání. Z tohoto hlediska se detailní fonetická transkripce jeví dokonce jako nevhodná: čím více
detailů obsahuje, tím je pro uživatele těžší vymyslet dotaz, který poskytne
všechny pro něj relevantní výsledky (snižuje se recall). Zároveň vždy existuje možnost, že uživatelem hledaný jev v transkripci zachycen není a badatel
si jej stejně bude muset doplnit sám. Teoretická výhoda výše zmíněné metadatové obecněfonetické anotace pak oproti transkripci spočívá v tom, že
poskytovatel korpusu přesně definuje výčet parametrů, u nichž se zaručuje
za poskytnutou informaci; u čehokoli, co leží mimo tuto oblast, uživatel rovnou ví, že si musí doplnit anotaci vlastní. Je ovšem třeba tuto koncepci a její
užitečnost pilotně odzkoušet v praxi.
126
Literatura
Benešová, L., Křen, M. & Waclawičová, M. (2013). ORAL2013: reprezentativní korpus neformální mluvené češtiny. Praha: Ústav Českého národního
korpusu FF UK.
Český národní korpus – PMK. (2001). Praha: Ústav Českého národního korpusu FF UK.
Hladká, Z. (2002). BMK (Brněnský mluvený korpus): přepisy nahrávek brněnské mluvy z 90. let 20. století. Praha: Ústav Českého národního korpusu FF UK.
Kaderka, P. & Svobodová, Z. (2006). Jak přepisovat audiovizuální záznam
rozhovoru? Manuál pro přepisovatele televizních diskusních pořadů. Jazykovědné aktuality, 43 (3–4), 18–51.
Kopřivová, M. & Waclawičová, M. (2006). ORAL2006: korpus neformální
mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK.
Machač, P. & Skarnitzl, R. (2009). Fonetická segmentace hlásek. Praha: Nakladatelství Epocha.
Pořízka, P. (2008). Anotace orálních korpusů. Olomoucký mluvený korpus
jako model. In M. Kopřivová & M. Waclawičová (Eds.), Čeština v mluveném korpusu. Praha: NLN.
Pořízka, P. (2009). Transkripce a sběr dat v korpusech mluvené češtiny.
(Unpublished doctoral dissertation). Filozofická fakulta Univerzity Palackého, Olomouc.
Sloetjes H. & Wittenburg, P. (2008). Annotation by category—ELAN and ISO
DCR. In Proceedings of the 6th International Conference on Language
Resources and Evaluation (LREC 2008).
Waclawičová, M., Kopřivová, M., Křen, M. & Válková, L. (2008). ORAL2008:
sociolingvisticky vyvážený korpus neformální mluvené češtiny. Praha:
Ústav Českého národního korpusu FF UK.
127
Jiří Mácha
Ústav Českého národního korpusu FF UK
[email protected]
Ke kategorizaci plurálií a singulárií tantum kvantitativní analýza sufixů
Předmětem příspěvku je vyhodnocení morfematické analýzy přibližně 2000
singulárií tantum a přibližně 100 až 200 plurálií tantum, která byla vyextrahována z korpusu SYN2010 na základě metodologie užité pro identifikaci
singulárií / plurálií tantum, kterou navrhli Mácha a Richterová v příspěvku
The Quantum of Plurality. The relationship of singular and plural (and singularia and pluralia tantum) in Czech nouns (2014, v tisku), poté bude následovat
stručné představení výsledků a souboru singulárií a plurálií tantum. Těžištěm příspěvku je kvantitativní analýza sufixů dotčených substantiv s důrazem na nastínění sémantických skupin, které se mezi danými skupinami
substantiv objevují.
Vztah plurálií a singulárií byl zkoumán na 9000 nejfrekventovanějších
českých substantivních lemmatech, z nichž bylo v prvním kroku vyfiltrováno asi 2000 vlastních jmen a cizích slov. Ze zbývajících lemmat bylo vydělena velká skupina (asi 5/7) substantiv realizujících singulárové i plurálové tvary s různou mírou preference daného čísla; druhou největší skupinu
tvořila singularia tantum a nejméně početnou skupinou (cca 100 výskytů)
tvořila pluralia tantum. Právě obě menší skupiny substantiv budou předmětem této analýzy. Jak ukázal předchozí výzkum, v některých případech jde
jen velmi těžko identifikovat hranici mezi zmíněnými skupinami. Stanovení
hranice pro vymezení singulárií / plurálií musí být nutně akt arbitrární –
Mácha a Richterová využili čistě kvantitativní metodu (jako hranici stanovili
první a poslední vigintil souboru.) Při jinak stanovené hranici by bylo možno do obou skupin přidat či odebrat další členy. Zvlášť pro oblast plurálií,
která se ukázala jako početně slabší, by bylo pro účely kvantitativní analýzy
výhodnější hranice posunout a kategorii tak zvěšit.
Již Kroupová (1985) uvádí v článku K pomnožným podstatným jménům
v současné češtině stručnou klasifikaci plurálií, a to jednak na základě sémantiky (konkréta a abstrakta) a jednak na základě analýzy sufixů: „Z hlediska
morfologického, tj. tvaroslovného a slovotvorného, jsou pro tato jména cha-
128
rakteristické zvláště tyto formanty:[7] nejčastější -y, -ky, -čky, -iny; četné
-a, -e, -ie; řídké -i, -í, -é, -ě, -á, -ice. Pomnožná jména patří po stránce jmenného rodu ke všem třem rodům (značnou převahu má u nich ženský rod,
četně je zastoupen rod mužský, méně střední), rozlišují se však pouze formálně, neboť se tak pojmenovávají jen věci a jevy neživé (proto zcela chybějí
příznakové tvary životné).“
Ze starších prací se věnuje ananalýze dané problematiky také Mluvnice
češtiny 2 (Petr 1986), kde je nastíněna řada sémantických kategorií.
Pro účely bližší klasifikace vytěžených dat byla provedena „manuální“
morfematická analýza singulárií a plurálií tantum, jejímž cílem bylo získání
solidních empirických dat, která by posloužila nejen bližšímu prozkoumání
sémantické stránky vytěžených substantiv, ale i dalšímu explorativnímu statistickému výzkumu.
Analyzovaný data-set měl přibližně tuto podobu:
polovina
vedení
prezident
láska
řízení
pomoc
půl
mluvčí
vývoj
politika
rámec
podpora
množství
hudba
vzduch
98,4
98,7
97
96,4
95,3
99,6
100
95,4
99,5
95,5
99,3
96,6
98
99,2
100
1,6
1,3
3
3,6
4,7
0,4
0
4,6
0,5
4,5
0,7
3,4
2
0,8
0
23085
22950
22827
22591
22158
21759
20805
19878
19259
18866
18688
18196
17710
17562
17464
ina
í
0
a
í
0
0
čí
0
a
ec
a
ství
a
0
První sloupec reprezentuje lemma, druhý procentuální podíl singulárových tvarů, třetí relativní zastoupení plurálových tvarů, čtvrtý absolutní fre­
kvenci a pátý sloupec zastupuje sufix.
Analýza sufixů by měla přispět ke zpřesnění sémantické kategorizace
obou skupin substantiv. Vnést světlo by měla také do smíšených „fuzzy“ oblastí, tj. tam, kde data naznačují nejednotnost, přechod mezi kategoriemi.
129
Literatura
Bartoň, T., Cvrček, V., Čermák, F., Jelínek, T. & Petkevič, V. (2009). Statistiky
češtiny. Praha: NLN.
Cvrček, V., Kodýtek, V., Kopřivová, M., Kovaříková, D., Sgall, P., Šulc, M. Táborský, J.,Volín, J. & Waclawičová, M. (2010). Mluvnice současné češtiny.
Praha: NLN.
Jirsová, A. (1981). Dynamika vztahu singuláru a plurálu u substantiv v češtině. Slovo a slovesnost, 42 (3). 193–199.
Kroupová, L. (1985). K pomnožným podstatným jménům v současné češtině.
Naše řeč, 68 (2). 57–63.
Markéta Malá
Ústav anglického jazyka a didaktiky FF UK
[email protected]
Překladové protějšky jako ukazatele významu:
čeština a angličtina v paralelním korpusu InterCorp
Na česko-anglickém materiálu příspěvek ukáže, jak je díky paralelnímu korpusu InterCorp (Čermák & Rosen 2012) možné využít českých překladových
protějšků jako ukazatelů významu odpovídajících anglických konstrukcí.
Na rozdíl od tradičního pojetí kontrastivní lingvistiky jako porovnávání
jazykových systémů přinášejí s sebou paralelní korpusy možnost zaměřit se
spíše na korespondence mezi jazyky na úrovni významových jednotek (Johansson 2007). Teubert (2001: 151) ukazuje, že právě díky překladovým protějškům je možné přesněji identifikovat v textu hranice a význam takových
jednotek. Za předpokladu, že význam nějaké textové jednotky lze odhalit
na základě její (opět textové) parafráze, můžeme paralelní korpus pokládat
za „depozitář takových parafrází“.
Jako příklad tohoto uplatnění překladových protějšků může sloužit anglické sloveso come. Jeho překladové korespondence ukazují, že význam
130
slovesa je vázán na typ komplementace a sémantiku komplementu, které
tvoří spolu se slovesem významovou jednotku: srov. lexikální sloveso come
(+Adv) typicky překládané slovesy pohybu se směrovými prefixy přijet, přijít, konstrukci „come + přítomné participium sloves pohybu“, v níž je význam slovesa come redukován na indikátor směru odpovídající předponě
českého slovesného protějšku (come running – přiběhnout, come galloping/
trotting – přiklusat), nebo come vyjadřující změnu stavu v konstrukci s infinitivním komplementem (come to love – zamilovat se) nebo ve sponové
predikaci (come alive – ožít).
Právě na sponových slovesech můžeme ukázat další kroky metody využití překladových protějšků jako ukazatelů významu. Stejně jako u sponového
come nacházíme slovesné protějšky s předponami označujícími změnu stavu
i u dalších anglických inchoativních sponových predikací, např. become cold
– ochladit se, go red – zrudnout, turn grey – zešedivět, fall silent – ztichnout,
grow old – zestárnout. Tyto předpony můžeme tedy pokládat za indikátory
inchoativního významu a lze očekávat, že se objeví jako překladové protějšky také u dalších anglických konstrukcí vyjadřujících změnu stavu. Anglické korespondence českých sloves s těmito prefixy skutečně zahrnují celou
škálu takových konstrukcí: různé typy verbonominálních vazeb (rozplakat se
– burst into tears, osmělit se – take courage, rozlétnout se – burst open), slovesa
s adverbiálními částicemi (zklidnit se – calm down), slovesa s rezultativním
komplementem reflexivního předmětu (opít se – drink oneself silly), fázová
slovesa (rozkvést – begin to bloom), nebo slovesa, u nichž je změna stavu
indikována afixy (zmizet – disappear, zvláčnět – soften).
Podobně je například možné s pomocí překladových protějšků epistemických sponových sloves ukázat, jaké prostředky využívá angličtina k vyjadřování jistotní modality (Malá 2013). Na rovině větné lze pak překladových
protějšků využít jako indikátorů diskurzní funkce (Malá 2010; Šaldová 2009).
Využití této metody je ovšem vždy podmíněno tím, že existují překladové
protějšky, které jsou dostatečně široce zastoupené a významově jednoznačné. Tam, kde lze takové korespondence identifikovat, představuje použití
překladových protějšků jako ukazatelů významu způsob, jak je možné s využitím paralelního korpusu postupovat od určité funkce (významu) k různým
formálním prostředkům jejího vyjádření v daném jazyce. Funkční, nikoli
formální, korespondence mezi zkoumanými jazyky je pak, jak ukazuje už
Mathesius (1936: 95), základem jejich synchronního kontrastivního popisu.
131
Literatura
Čermák, F. & Rosen, A. (2012). The case of InterCorp, a multilingual parallel
corpus. International Journal of Corpus Linguistics, 17 (3), 411–427.
Johansson, S. (2007). Seeing through Multilingual Corpora: On the Use of
Corpora in Contrastive Studies. Amsterdam / Philadelphia: John Benjamins.
Malá, M. (2010). English declarative yes/no questions as seen through their
Czech counterparts. Acta Universitatis Carolinae, Philologica, 2008 (1),
Prague Studies in English, 25, 141–151.
Malá, M. (2013). Translation counterparts as markers of meaning. The case of
copular verbs in a parallel English-Czech corpus. Languages in Contrast,
13 (2), 170–192.
Mathesius, V. (1936). On some problems of the systematic analysis of grammar. Travaux du Cercle Linguistique de Prague, VI, 95–107.
Šaldová, P. (2009). Identifying discourse functions through parallel text corpora. In M. Mahlberg et al. (Eds), Proceedings of the Corpus Linguistics
Conference CL2009. University of Liverpool, dostupné z WWW: <http://
ucrel.lancs.ac.uk/publications/cl2009>.
Teubert, W. (2001). Corpus Linguistics and Lexicography. International Journal of Corpus Linguistics, 6 (Special Issue), 125–153.
InterCorp: Český národní korpus - InterCorp. Ústav Českého národního
korpusu FF UK, Praha. Cit.20.01.2014 , dostupný z WWW: <http://www.
korpus.cz>.
132
Michaela Martinková
Univerzita Palackého v Olomouci
mic[email protected]
Martin Šimon
Univerzita Palackého v Olomouci
[email protected]
Enklitická partikule pak: korpusová studie
Předmětem našeho výzkumu jsou výrazy figurující v té jazykové rovině,
kterou Poldauf označuje jako třetí syntaktická rovina (Poldauf 1963) a kterou svým způsobem předpověděl zrod nové lingvistické disciplíny, tedy
pragmatiky. V tomto příspěvku se zaměříme na synchronní analýzu distribuce a funkce morfému pak v jeho enklitické pozici, někdy označovaného
jako enklitická partikule (Karlík et al. 1995: 679) či postfix (Karlík et al. 1995: 296), tedy v těch příkladech, kdy funguje jako „druhá část zájm., zájm.
přísl., částic a citosl. stupňující a citově zabarvující jejich význam“ (SSJČ).
Poldauf (1963: 143), který ve svých příkladech zmiňuje pouze tázací výrazy s tímto morfémem, tu viděl jeho funkci jako „kontaktovou“ a funkční
paralely nacházel v anglické konstrukci I wonder (jím samotným označované jako „předrážka“). Jelikož akademická Mluvnice češtiny tázací výrazy
obsahující „komponent“ pak označuje jako „expresívní“ a uvádí, že tato
„expresívní interogativa se využívají zejména v mluvených projevech“ (Komárek et al. 1986: 95), výzkum jsme zahájili v korpusu mluvené češtiny
ORAL 2013 jako „corpus driven“ (pomocí Word Form jsme hledali výskyty
sekvence [a-ž]+pak). Potvrzuje se tu, že morfém pak je stále živý; kromě výrazů, které již mohou stát mimo syntaktickou strukturu věty (částice copak,
kdepak), najdeme i tázací výrazy, v nichž je pak připojeno k adverbiu (ja(k)
pak, (k)dypak, kudypak), spojce (jes(tl)ipak), i číselnému zájmenu (SSJČ) koli(k)pak nebo jiným typům zájmen (kdopak, jakejpak), přičemž je zřejmé, že
řada z nich uvádí řečnické otázky. Na subkorpusech vytvořených v rámci
paralelního korpusu Intercorp jsme poté zkoumali, jak přítomnost komponentu pak v českých tázacích výrazech opodstatňují anglické zdrojové texty. Korespondence tázacích výrazů s pak a anglického wonder (tzv. mutual
correspondence, srov. Altenberg (1999: 254)) měřené na malém paralelním
obousměrném korpusu (cca půl milionu slov každým směrem) se ukazují
133
být velmi nízké. Ve větším subkorpusu překladů anglických zdrojových
textů o 3,893,010 slovech jsme po ručním odfiltrování copak a kdepak jako
částice identifikovali 379 výskytů tázacích výrazů s pak: nejčastější bylo copak (121), jestlipak (57), kdepak (46), jakpak (44), kdopak (35) a pročpak (25).
Protějškem anglického wonder však byly pouze 18krát (z toho čtyřikrát se
toto sloveso objevilo ve třetí osobě a v minulém čase). Nejčastěji šlo o jestlipak (11krát), například ve větě Wonder if he was flying first class? he asked
himself. Jestlipak lítá první třídou? zamyslel se (Grisham), dále pak o copak
(třikrát), kdepak (dvakrát) a kdopak a japak [sic], každé po jednom výskytu.
Spíše než o čistě kontaktní funkci (v uvozujících větách se kromě slovesa
say vyskytovalo i sloveso think) však šlo o vyjádření tentativnosti. Kontaktní funkci pak v tázacích výrazech potvrzuje v anglických originálech častý
souvýskyt s oslovením. Někdy se vyskytuje pouze pozdrav, např. Hello there!
A hele, kdopak to tam je (Brown), případně je užito zájmeno we k označení
osoby druhé (Jakpak se dnes cítíme? how are we feeling today? Adams). Výraz
jestlipak je často ve spojení se slovesem vědět ekvivalentní kontaktnímu (do/
did you) know (Jestlipak víš, kdo to je? Know who he is? Rowling), kterým
upozorňuje mluvčí posluchače na uvedení nové informace. Anglické ekvivalenty bývají expresívně zabarvené, jak dokládají příklady ekvivalence s then
(“What’s this then?” asked Sparks, pointing to the floor. „Copak je tohle?“ ukázal Sparks na zem. Frost) i jiné: Where you think you’re going? Kampak jdete?
(Steinbeck). Anglická zdrojová věta bývá často výrazně expresívní, zvláště
pokud již neplní funkci otázky (Oh yes I bloody well can; of course I can mean.
Jakpak by ne. Amis). V těchto případech mají věty odlišnou polaritu.
Literatura
Altenberg, B. (1999) Adverbial connectors in English and Swedish: Semantic
and lexical correspondences. In H. Hasselgård & S. Oksefjell (Eds.), Out
of Corpora. Amsterdam: Rodopi, 249–268.
Havránek, B. a kol. (2011). Slovník spisovného jazyka českého. Dostupný z:
<http://ssjc.ujc.cas.cz/>
Karlík, P., Nekula, M. & Rusínová Z. (1995). Příruční mluvnice češtiny. Praha:
Nakladatelství Lidové noviny.
Komárek, M. a kol. (1986). Mluvnice češtiny 2. Praha: Academia.
Poldauf, I. (1963). Třetí syntaktická rovina. Philologica Pragensia, 6
(45),134–146
134
Český národní korpus – ORAL2013. Ústav Českého národního korpusu FF
UK, Praha 2013. Dostupný z WWW: <http://www.korpus.cz>.
Český národní korpus – InterCorp. Ústav Českého národního korpusu FF
UK, Praha. Dostupný z WWW: <http://www.korpus.cz>.
Tereza Mašková
Ústav pro studium totalitních režimů
[email protected]
Vojtěch Ripka
Ústav pro studium totalitních režimů
[email protected]
Korpus jazyka StB
Ústav pro studium totalitních režimů zahajuje v roce 2014 projekt Korpus jazyka Státní bezpečnosti (StB). Předpokládaná velikost korpusu se pohybuje
mezi 15 až 50 mil. slov. Cílem je vytvořit bázi pro systematický výzkum jak
ze strany jazykovědců, tak historiků, sociálních vědců a podobně.
Dosavadní historiografické práce považují StB za zásadní oporu komunistického režimu v Československu. Výzkum týkající se této organizace se
však dominantně zaměřuje na dílčí či nominální prvky: na jednotlivé postavy StB, studium organizační struktury či činnosti StB vůči objektům jejího
zájmu. Staví na zkušenosti badatele, přirovnatelné k výsledku dlouhodobého
ponoření se do příslušných textů, jak ho známe z kvalitativní metodologie
sociálních věd. Tato zkušenost vychází ze znalosti řady dílčích materiálů,
na kterých dosavadní texty zabývající se StB stojí, a často podléhá obecným
neduhům archivního výzkumu (například systematickému upřednostňování jmenného principu). Je exkluzivní, staví na osobní autoritě (a poctivosti)
badatele, a znemožňuje proto do značné míry replikaci.
Projekt Korpus jazyka StB je zaměřen na vytvoření pomůcky vhodné
pro odbornou i laickou veřejnost. Účelem pomůcky je poskytnout sadu dat
umožňující zkoumat některá klíčová témata spojená s fungováním tajné
policie v komunistickém Československu. Korpus může mj. posloužit jako
135
podklad pro tvorbu slovníků či encyklopedie o StB. Má narušit zmíněnou
exkluzivitu a poskytnout nástroj k alespoň dílčím odpovědím na obecnější
výzkumné otázky cílící na vnitřní fungování StB (např. organizační principy,
rozdíl mezi tajným a veřejným modem činnosti organizace), na jazyk či komunikaci StB (ideologizace, míra a dynamika cizího vlivu, vzdálenost jazyka terénu od jazyka programových dokumentů), případně místo organizace
v systému (vůči KSČ či právnímu řádu).
Na designování korpusu participují i samotní historici. Dostávají hlas
skrze strukturované dotazníky zabývající se nejen kategorizací dokumentů, tj. výběrem typů textů a časových období, ale také výzkumnými tématy
a otázkami. Z našich prvních explorativních rozhovorů uvádíme příklady
klíčových otázek, kterými by se oslovení historici zabývali v případě neomezených kapacitních možností, tj. k jejichž zodpovídání by Korpus StB
mohl přispět: Vnitřní dynamika StB – jak docházelo k revizi vnitřních dokumentů (např. rozdíl mezi vlastnoruční zprávou agenta a agenturní zprávou
důstojníka). Jak ovlivňovaly proměny společenského a politického kontextu
vyjadřování StB a jaký vliv na společnost měly naopak změny myšlení a formálního vyjadřování uvnitř StB? (Při reorganizacích StB docházelo ke změně terminologie, např. označení nepřátel režimu se vyvíjelo: reakce, diverse,
ideodiverse, bývalí lidé, nepřítel, disent, opozice).
V neposlední řadě je cílem této participativní části projektu představení
možností budoucího korpusu historiografické komunitě. Dosavadní porozumění světu StB se soustřeďuje především na jednotlivé kauzy a chybí celostní perspektiva, která by je zasadila do širšího rámce. Analýza korpusu může
tyto nedostatky překročit, naráží však doposavad na množství překážek: historiografie a korpusová lingvistika tvoří oddělené světy. Příspěvek se zaměří
na dosavadní zkušenosti se způsoby, jakými je možné tyto světy přiblížit.
Literatura
Čermák, F. (2011). Jazyk a jazykověda: přehled a slovníky. Praha: Karolinum.
Čermák, F., Cvrček, V. & Schmiedtová, V. (2010). Slovník komunistické totality. Praha: Nakladatelství Lidové noviny.
Becker, P. & Lüdtke, A. (1997). Akten, Eingaben, Schaufenster: Die DDR Und
Ihre Texte. Berlin: Akademie Verlag.
Biber, D. (2007). Discourse on the Move: Using corpus analysis to describe
discourse structure [online]. Amsterdam: John Benjamins.
136
Cvrček, V. (2013). Kvantitativní analýza kontextu. Praha: Nakladatelství Lidové noviny.
David, J. et al. (2013). Slovo a text v historickém kontextu: perspektivy historickosémantické analýzy jazyka. Brno: Host.
Fidelius, P. (1983). Jazyk a moc. München: K. Jadrný.
Fidelius, P. (1998). Řeč komunistické moci. Praha: Triáda.
Générux, M., Mendes, A., Santos Pereira, L. A. & Bacelar do Nascimento, M. F.
(2010). Lexical analysis of pre and post revolution discourse in Portugal.
Lisboa. Dostupné z http://www.clul.ul.pt/files/anagrama/lrec2010.pdf.
Hájek, M., Havlík, M. & Nekvapil, J. (2014). Problém relevance v tematicky
orientovaném biografickém interview: případ orálněhistorických životopisných rozhovorů. Sociologický časopis / Czech Sociological Review,
50 (1), 29–56.
Hájek, M. (2010). Počítačová textová analýza metodou sledování spoluvýskytů slov. Data a výzkum - SDA Info, 4 (1), 19–37.
Hill, M. R. (1993). Archival Strategies and Techniques. Thousand Oaks: Sage.
Hitzing, D. (2010). Politische Sprache als Fachsprache: Öffentlicher Sprachgebrauch in der DDR am Beispiel Erich Honecker und Walter Ulbricht.
Nordstedt: GRIN Verlag.
Kaplan, R. D. (Ed.) (2002). The Oxford Handbook of Applied Linguistics. Oxford: Oxford University Press.
Klemperer, V. (2003). Jazyk Třetí říše – LTI: poznámky filologovy. Jinočany:
H & H.
Mácha, J., Čermák, F., Chlumská, L. & Cvrček, V. (2011). Lexikon korpusu
Orální historie (Příběhy). Korpus – gramatika – axiologie, 2 (4), 3–26.
Macura, V. et al. (2008). Šťastný věk (a jiné studie o socialistické kultuře).
Praha: Academia.
Mühlberg, F. (1999). Informelle Konfliktbewältigung: Geschichte der Eingabe in der DDR. Chemnitz: Philosophische Fakultät TU Chemnitz.
Scott, J. (1990). A Matter of Record: Documentary Sources in Social Research.
Cambridge: Polity.
Schmiedtová, V. (2012). Malý slovník reálií komunistické totality. Praha: Nakladatelství Lidové noviny.
Šebesta, K. (2001). Studovat jazyk totality. In Institucionalizace (ne)odpovědnosti: globální svět, evropská integrace a české zájmy. 1, Přelom druhého a třetího tisíciletí z pohledu společenských věd. Praha: Karolinum,
268–273.
137
Šlosar, D. (1993). Jazyk totality a jazyk dneška. In Spisovná čeština a jazyková kultura. Praha: FF UK.
Tomek, P. (2008). Okres na východě 1960–1989: Občané a nejnižší článek
Státní bezpečnosti na příkladu okresu Havlíčkův Brod. Praha: Vyšehrad.
Vít Michalec
Ústav pro jazyk český AV ČR
[email protected]
Vojtěch Veselý
Ústav pro jazyk český AV ČR
[email protected]
K souborovému a kolektivně-látkovému významu
substantiv s převahou plurálových tvarů
Souborový význam plurálových tvarů substantiv považují J. Panevová a M.
Ševčíková (2011) za gramatikalizovanou kategorii. Plurálový tvar může podle nich nabývat třech hodnot: pl-single, sg-set, pl-set. Jednotlivé hodnoty
jsou rozlišitelné číslovkami: dvě zápalky vs. jedny zápalky vs. dvoje zápalky. Naše stanovisko je poněkud odlišné: Schopnost označovat soubory jednotlivin mají všechna substantiva realizující protiklad singuláru a plurálu,
uplatnění souborového významu je však podmíněno pojmenovací potřebou.
Ačkoli nelze vyloučit „ad hoc“ vymezení souboru v komunikační situaci,
denotát souborově užitého substantiva je obvykle typizovaný. Jazykovým
odrazem jeho typizovanosti je lexikalizace souborového významu: lexikální
jednotka zahrnuje nejen sémantické rysy, které popisují vlastnosti prvku/
prvků souboru, ale také sémantické rysy, které specifikují příslušný soubor
prvků. Lexikalizována je tedy informace, a) z kolika prvků se soubor skládá
(ze dvou prvků, nebo – obvykle – z více než dvou prvků, srov. dvoje boty
a dvoje zápalky), b) jaké má soubor vnější znaky. Vnější znaky souboru bý-
138
vají vyjádřitelné slovně: dvoje klíče = dva svazky klíčů, troje sardinky = tři
krabičky sardinek. Gramatickou povahu má obecná schopnost plurálových
tvarů substantiv označovat soubory jednotlivin, jakož i kombinatorika těchto substantiv s kvantifikátory; souborové významy konkrétních substantiv
jsou výsledkem procesu lexikalizace.
Souborový význam mívají substantiva s převahou plurálových tvarů nad
singulárovými, např. kozačky, ledviny, sirky. Podle K. Osolsobě (2002, s. 316)
jde o substantiva, která stojí na přechodu mezi jmény s plně vyvinutým protikladem singuláru a plurálu a jmény pomnožnými. Domníváme se, že převaha
plurálových tvarů svědčí o tom, že lexikální význam singulárových a (některých) plurálových podob není identický. Pro substantiva označující soubory
je stejně jako pro pluralia tantum charakteristická neutralizace protikladu
mezi singulárem a plurálem; první skupinu lze proto chápat jako podmnožinu skupiny druhé. Např. substantiva zápalka (v singuláru i „prostém“ plurálu)
a zápalky (jako označení souboru zápalek) tvoří samostatné lexikální jednotky. V připravovaném všeobecném výkladovém slovníku s pracovním názvem
Akademický slovník současné češtiny (dále jen ASSČ) však z praktických
důvodů jako pluralia tantum zpracováváme jen ta jména, která singulárový
protějšek buď nemají, nebo jsou od něj významově značně vzdálená.
Některá substantiva s převahou plurálových tvarů nemají primárně význam souborový, ale inklinují k významu kolektivně-látkovému. Typické
je to pro jména poživatin, např. těstoviny, halušky, borůvky, ale i pro některá jména další, např. piliny. Souborové významy těchto substantiv jsou
sekundární, srov. např. dvoje těstoviny = dvě balení těstovin. Obecně platí,
že substantivum lze ve smyslu kolektivně-látkovém interpretovat tím spíše,
čím obtížněji jsou jednotky (kusy) označené poživatiny počitatelné. Počitatelnost kusů souvisí s jejich rozměrem i s kompaktností hmoty, kterou
vytvářejí. Substantivům neomezeně počitatelným přisuzuje Z. Hlavsa (1975:
75 a 81) denotační rys opakovanosti, substantivům kolektivním a látkovým
denotační rys spojitosti. Názvy poživatin s převahou plurálových tvarů jsou
na přechodu od názvů počitatelných (meloun, pomeranč) k názvům nepočitatelným, tj. singulariím tantum (rýže, cizrna, rybíz) a pluraliím tantum (šunkofleky); jednoznačně proto nevyjadřují ani rys opakovanosti, ani rys spojitosti. U některých jmen svědčí o lexikalizaci kolektivně-látkového významu
zaměnitelnost jejich singulárových a plurálových forem (jména kolektivní
a látková jsou prototypicky singularia tantum): kuře s brambory/bramborem.
139
Míru lexikalizace kolektivně-látkového významu lze ověřit statistickou
analýzou dokladů z korpusu SYN. Relevantní jsou zejm. tyto ukazatele: 1.
Celkový poměr singulárových a plurálových tvarů. Pokud plurálové formy
výrazně převažují, svědčí to o značné míře lexikalizace kolektivně-látkového významu. V ASSČ specifikuje zastoupení singulárových a plurálových
forem charakteristika „často mn.“ (singulárové tvary jsou doloženy řídce)
a „zprav. mn.“ (singulárové tvary nejsou doloženy téměř vůbec). 2. Typ kvantifikace substantiva. Zatímco některé kvantifikátory (šest, několik, pár) jsou
kompatibilní jen s denotačním rysem opakovanosti, jiné mohou determinovat substantiva vyjadřující opakovanost i substantiva vyjadřující spojitost.
Polyfunkční je např. kvantifikátor hodně, srov. spojení hodně lidí a hodně
vody. Proti sobě lze tedy postavit kontexty, v nichž je denotát substantiva
kvantifikován počtem (několik borůvek), a kontexty, v nichž je určena jeho
míra, objem, hmotnost apod. (trochu borůvek, sklenice borůvek, litr borůvek,
kilo borůvek), příp. oba typy kvantifikace nelze rozlišit (hodně borůvek). Pokud kontexty druhého typu výrazně převažují, svědčí to o značné míře lexikalizace kolektivně-látkového významu.
Předpoklad, že kolektivně-látkové vnímání denotátu souvisí s velikostí
prvků, které denotát konstituují, se potvrdil např. u názvů plodů jablko, jahoda, borůvka. Celkový výskyt plurálových tvarů těchto substantiv je srovnatelný (60 až 65 %), liší se však typ jejich kvantifikace. Zatímco substantivum jablko se s kvantifikátory počtu spojuje běžně (ve 47 % všech případů
kvantifikace), denotát substantiva borůvka se počítá zřídkakdy (v 5 % případů). Substantivum jahoda se s kvantifikátory počtu kombinuje častěji než
borůvka, ale méně často než jablko (ve 14 % případů). Podobně jako borůvka
se chovají i další jména poživatin, např. arašíd, těstovina, haluška. Celkový
výskyt singulárových tvarů je však u těchto substantiv nízký.
Na distribuci denotačních rysů opakovanosti a spojitosti má nepochybně
vliv lexikální sémantika a vid slovesa, na němž substantivum s převahou
plurálových tvarů závisí. Ve spojení trhat borůvky je denotát substantiva nespojitý, ve spojení natrhat borůvky jej lze chápat spojitě (srov. ? trhat trochu
borůvek vs. natrhat trochu borůvek).
Literatura
Hlavsa, Z. (1975). Denotace objektu a její prostředky v současné češtině. Praha: Academia.
Jirsová, A. (1981). Dynamika vztahů singuláru a plurálu u substantiv v češtině. Slovo a slovesnost, 42 (3), 193–199.
140
Kroupová, L. (1985). K pomnožným podstatným jménům v současné češtině.
Naše řeč, 68 (2), 57–63.
Osolsobě, K. (2002). Plurale tantum. In P. Karlík, M. Nekula & J. Pleskalová
(Eds.), Encyklopedický slovník češtiny. Praha: Nakladatelství Lidové noviny, 315–316.
Panevová, J. & Ševčíková, M. (2011). Jak se počítají substantiva v češtině:
poznámky ke kategorii čísla. Slovo a slovesnost, 72 (3), 163–176.
Veselý, V. (2009). Lexikální sémantika neurčitých kvantifikátorů v současné
češtině. Slovo a slovesnost, 70 (3), 175–192.
Český národní korpus – SYN. Ústav Českého národního korpusu FF UK,
Praha. Cit.27.01.2014, dostupný z WWW: <http://www.korpus.cz>.
Aksana Mikalayenka
Ústav východoevropských studií FF UK
[email protected]
Homonymní příslovce a předložky a problematika
jejich disambiguace v Českém národním korpusu
Tento příspěvek vznikl v rámci projektu „Rozpracování lingvistických kritérií pro disambiguaci homonymních příslovcí a předložek v Českém národním korpusu“ řešeného na Filozofické fakultě Univerzity Karlovy v Praze
z prostředků specifického vysokoškolského výzkumu na rok 2014.
Jedná se o homonymní jednotky s místním významem jako například
blízko, dovnitř, vstříc, uprostřed, naproti aj., které se v řeči vyskytují buď jako
příslovce anebo jako předložky. Pracovní seznam hledaných homonym zpracovaný autorkou příspěvku způsobem jejich excerpce z ilustračních soupisů
uvedených v odborné literatuře (viz bibliografie) v současné době čítá 46
jednotek (včetně fonetických variant).
Korpusová sonda těchto jednotek, jejíž výsledky se budou probírat v daném příspěvku, ukázala, že tyto jednotky (jako jakákoliv jiná homonyma)
jsou dosti komplikovaným materiálem pro morfologické značkování (dále
141
disambiguace) v korpusu. Příspěvek se tedy věnuje problematice disambiguace daných homonymních příslovcí a předložek v Českém národním korpusu a pokusu o řešení této problematiky způsobem rozpracování lingvistických pravidel, na základě kterých by bylo možné dosavadní disambiguaci
daných jednotek v korpusu zlepšit. Výzkum se uskutečňuje na materiálu
korpusu SYN 2010.
Jak známo, korpus poskytuje možnost specifikovat vyhledávání lemmat
podle jejich slovního druhu, což je při zkoumání homonym velmi účinné.
Korpus dále umožňuje získávat údaje o frekvenci hledaných jednotek. Tuto
možnost jsme ve výzkumu také využili.
Podle údajů korpusu SYN 2010 lze zkoumané homonymní jednotky roztřídit do následujících skupin:
1. vedle, uprostřed, okolo, naproti, nedaleko, poblíž, napříč, skrz, doprostřed,
vně, vprostřed, zprostřed – větší část dokladů je specifikovaná jako doklady předložky;
2. dovnitř, blíž, zevnitř, vevnitř – větší část dokladů je specifikovaná jako
doklady příslovce;
3. uvnitř, blízko, vstříc, zkraje, zprostředka, doprostředka, vprostředku – počet dokladů specifikovaných jako doklady předložky a počet dokladů
specifikovaných jako doklady příslovce je skoro stejný, tj. zhruba 50 /
50;
4. blíže, vpředu, navrch, opodál, nablízku, zespodu, svrchu, vespod, zevně,
zespoda, odspodu, naspodu, navrchu, nablízko, zboku, dospodu, zespod,
dospod, poblíže, vespodu, naspod – všechny doklady jsou specifikované
jako doklady příslovce;
5. proti, skrze – všechny doklady jsou specifikované jako doklady předložky.
Manuální analýza těchto dokladů specifikovaných korpusem jako příslovce resp. předložky však ukázala, že ve velkém množství případů je tato
automatická specifikace omylná. Mezi výskyty jednotek označkovaných
korpusem jako příslovce jsou zařazeny výskyty, ve kterých jsou tyto jednotky evidentně předložkami a naopak. Z provedené analýzy vyplývá, že
podklady disambiguace daných homonymních jednotek v korpusu nelze
považovat za uspokojivé a tyto podklady tudíž vyžadují svou korekci a zdokonalení. Způsob řešení této problematiky vidíme v rozpracování přesných
lingvistických kritérií pro rozlišování těchto homonym, která by dále bylo
možné uplatnit ke zdokonalení disambiguace daných jednotek v Českém národním korpusu.
142
Kritéria slovnědruhové identifikace daných ambivalentních jednotek nejsou řešenou otázkou ani v dosavadních mluvnicích a příručkách. Jediné kritérium, které bylo možné vyvodit z odborné literatury (viz literatura) – pokud se jednotka vyskytuje ve spojení se jménem (jméno následuje po předložce), jedná se o předložku; pokud se jednotka vyskytuje samostatně, jedná
se o příslovce – vyžaduje upřesnění a doplnění (např. zde není brána v úvahu
možnost postpozice předložky ke jménu nebo možnost elipsy jména aj.). Aktuální úlohou se tak stává pokus o rozpracování takovýchto kritérií.
Příspěvek tedy prezentuje první výsledky této práce, která se uskutečňuje
hlavně ve dvou směrech: a) ve směru analýzy sémantických, morfologických,
syntaktických a valenčních vlastností každého výskytu každé konkrétní jednotky ve vybraném reprezentativním korpusu (v daném případě je to korpus
SYN2010), tzn. ve směru analýzy jejich lexikálních a gramatických významů,
pozicí ve větě, kolokací aj.; b) ve směru vyvození lingvistických kritérií, která dovolí co nejsprávněji anotovat výskyty daných homonym jako výskyty
příslovcí nebo předložek, tzn. ve směru vyvození těchto kritérií na základě
provedené analýzy. Výsledky této práce mohou být dále využity ke zdokonalení disambiguace homonymních příslovcí a předložek v Českém národním korpusu a k optimalizaci korpusového vyhledávání daných jednotek.
V příspěvku je také diskutována teoretická otázka o morfologické podstatě zkoumaných ambivalentních jednotek (příslovce, nebo předložka?).
Literatura
Cvrček V. et al. (2010). Mluvnice současné češtiny 1. Jak se píše a jak se mluví. Praha: Nakladatelství Karolinum.
Čermák, F. (2012). Morfematika a slovotvorba češtiny. Praha: Nakladatelství
Lidové noviny.
Čermák, F. & Blatná, R. (Eds.) (2006). Korpusová lingvistika: Stav a modelové
přístupy. Praha: Nakladatelství Lidové noviny.
Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK,
Praha 2010. Dostupný z WWW: http://www.korpus.cz.
Mluvnice češtiny II (1986). Praha: Academia.
Petkevič, V. & Rosen, A. (Eds.) (2011). Korpusová lingvistika Praha 2011 – 3
Gramatika a značkování korpusů. Praha: Nakladatelství Lidové noviny.
Příruční mluvnice češtiny (2003). Praha: Nakladatelství Lidové noviny.
143
Květoslava Musilová
Ústav pro jazyk český AV ČR
[email protected]
Slovakismy v současné češtině
1. Kontaktové jazykové prostředky, slovakismy, pronikaly do češtiny již
od 15. století v podobě fonologicky neadaptované a později také v podobě
adaptované; intenzivnější kontakt obou jazyků ve společném státě Čechů
a Slováků (1920–1992), s přerušením v letech 1939–1945) podnítil vznik dalších kontaktových jazykových jevů.
2. Náš průběžný průzkum je zaměřen na mapování výskytu slovakismů
a jejich funkčnost v češtině po rozdělení ČSFR, tedy v podmínkách očekávaného divergentního vývoje obou jazyků. Z důvodu komplexnějšího pohledu
na problematiku užívání slovenských přejímek v současné češtině využíváme tyto materiálové zdroje: texty mluvené a psané (v běžné soukromé,
polosoukromé i oficiální komunikaci, v médiích veřejnoprávních i komerčních a na internetu), průběžný sociolingvistický průzkum zaměřený na česko-slovenské (nejen) jazykové vztahy (2002, 2004, 2007, 2008, 2010, 2013)
a databáze synchronních psaných a mluvených textů Českého národního
korpusu (SYN, SYN2013PUB a ORAL2013).
3. Soubor námi sledovaných kontaktových jevů tvoří především výrazy a gramatické vazby, které jsou obsaženy ve slovnících českého jazyka
a dalších jazykovědných publikacích s označením jejich slovenského původu
(např. palačinka, středobod, výdobytek, namyšlený, horko-těžko, hrozno, nad
ránem, na čele (něčeho) aj.), a dále ty, které se v češtině šíří od 90. let minulého století, mimo jiné také v důsledku společensko-politických změn, komercionalizace některých médií a později s rozšířením užívání internetu (např.
překabátit se, pikoška, rozlučka, bitkař, kukláč aj.).
3.1 Při sledování slovakismů v textech mluvených i psaných jsme
u mnohých zaznamenali zvláště v posledních letech „posun“ v jejich užívání
v tom smyslu, že nekodifikované výrazy se vyskytují nejen v neformální,
neoficiální komunikaci, ale stále častěji pronikají do textů oficiálního charakteru ve veřejnoprávních médiích (např. lyžovačka, rozlučka, rozlučkový,
dovolenkový, natěšený, bitka, bitkařský, zpravodajce, brát do úvahy aj.). Na sociálních sítích a zájmových webech se v českých (nesmíšených) textech začínají objevovat (pravděpodobně jako „módní“) výrazy hodnocené tradičně
jako citátové, např. podujetí, páčit se.
144
3.2 Prostřednictvím opakovaného sociolingvistického průzkumu
jsme porovnávali užívání a hodnocení slovakismů samotnými respondenty.
V dotazníkových šetřeních určených široké české veřejnosti jsme pracovali
s omezeným okruhem slovakismů lexikálních i gramatických, běžně užívaných i těch méně frekventovaných (podujetí, oznam, páčit se). V časovém
rozmezí jedenácti let (2002–2013) jsme u většiny z nich zaznamenali zvyšující se procenta užívání (rozlučkový, dovolenka, dovolenkový, vlámat se, lyžovačka, psychiatrička, bitkař, být na vině, být na čele, horko-těžko, dosáhnout
+ akuzativ; nejvyšší nárůst byl o 28% ­– u předložkové vazby nad ránem).
Se zvyšující se frekvencí užívání některých slovakismů přímo úměrně roste
také procento respondentů, kteří tyto jazykové prostředky již ani jako slovakismy nepociťují.
3.3 Jazykový materiál získaný z textů (3.1) a ze sociolingvistického průzkumu (3.2) je sice svým rozsahem vcelku reprezentativní, avšak teprve
kvantifikace jazykových jevů s využitím databází Českého národního korpusu umožňuje systematičtější sledování jejich výskytu. Prostřednictvím
absolutní frekvence jsme zkoumali uplatnění slovakismů v jednotlivých synchronních subkorpusech ČNK na časové ose od 90. let 20. stol. po současnost
(3.3.1) a také v konkurenci s jejich nekontaktovými protějšky (3.3.2).
3.3.1 Podobně jako v dotazníkových šetřeních jsme zaznamenali nárůst
četností některých slovakismů také v synchronních textech ČNK, a to řádově i ve stovkách (např. lyžovačka, psychiatrička, rozlučkový, dovolenkový,
dovolenkář, bitkař), nebo dokonce v tisících (např. bitka, rozlučka, nad ránem, natěšený, být na vině); zvýšená frekvence některých slovakismů souvisí
s jejich rozšířením do dalších kontextů, jak ukazují kolokace těchto výrazů
a zdroje výskytu. 3.3.2 Funkčnost (vybraných) slovakismů jsem hodnotili v souvislosti
s tzv. mezijazykovými synonymy: na základě frekvenční distribuce těchto
jazykových prostředků jsme stanovili kvantitativní poměr mezi variantou
kontaktovou, tj. slovakismem (KV), a variantou nekontaktovou (NV). Podle
míry konkurence KV a NV jsme vydělili 3 skupiny:
skupina I: převažuje varianta nekontaktová nad slovakismem
skupina II: kontaktová varianta (slovakismus) a nekontaktová varianta existují vedle sebe v celkem vyrovnaném poměru, přičemž kontaktová varianta má nižší frekvenci než nekontaktová
skupina III: kontaktová varianta (slovakismus) má vyšší frekvenci než varianta nekontaktová.
Většina námi sledovaných jazykových prostředků spadá do skupiny I a II.
145
4. Závěr: Na základě analyzovaného jazykového materiálu a především
kvantitativního porovnání kontaktových a nekontaktových variant v ČNK
můžeme sledovat pohyb těchto jazykových prostředků mezi centrem a periferií českého jazykového systému a stanovit tak určité vývojové tendence. Slovakismy zaujímají v současné češtině určitý prostor, některé dokonce
vytlačují varianty původní (skupina III: psychiatrička, nad ránem). Přestože
i mnohé další slovakismy zaznamenávají frekvenční nárůst, nepřevažují nad
variantami nekontaktovými (skupina I a II). Do češtiny pronikají prostřednictvím sociálních sítí i slovakismy dříve málo frekventované; rozsah jejich
funkčnosti bude však možné zkoumat až s rozšířením korpusových databází
o texty tohoto druhu.
Literatura
Blanár, V. (2000). K otázke slovensko-českých jazykových a jazykovedných
vzťahov v období národného brodenia. In J. Hvišč (Ed.), Slovensko-české
vzťahy a súvislosti. Bratislava: T.R.I Médium, 171–178.
Budovičová, V. (1984). Dvojjazyková komunikácia v slovenčine a češtine. In
J. Mistrík (Ed.), Studia Academica Slovaca. 13. Prednášky XXII. letného
seminára slovenského jazyka a kultúry. Bratislava: Alfa, 115–126.
Kořenský, J. (1998). Čeština a slovenština. In J. Kořenský (Ed.), Český jazyk.
Najnowsze dzieje języków słowiańskich. Opole: Uniwersytet Opolski Instytut Filologii Polskiej, 20–32.
Měšťan, A. (1998). Jak dál ve slovakistice v České republice. In I. Pospíšil
(Ed.), Brněnská slovakistika a česko-slovenské vztahy. Brno: FF MU.
Musilová, K. (2011). Slovakismy v současné češtině (sociolingvistický průzkum mezi vysokoškoláky). In M. Ološtiak et al. (Eds.), Vidy jazyka a jazykovedy. Inštitút slovakistiky, všeobecnej jazykovedy a masmediálnych štúdií. 20.–21. 5. 2010. Prešov: FF PU, 389-396.
Musilová, K. & Sokolová, M. (2004). Funkčnost česko-slovenských kontaktových variant v současnosti. In Sborník prací z mezinárodní vědecké konference Jazyk a literatura na Moravě. Studia Moravica 1. AUPO, Facultas
Philosophica. Olomouc, 133–146.
Nábělková, M. (2000). Slovakizmy v súčasnej češtine. In J. Hvišč (Ed.), Slovensko-české vzťahy a súvislosti. Bratislava: T.R.I Médium, 212–221.
Nábělková, M. (2008). Slovenčina a čeština v kontakte. Pokračovanie príbehu. Bratislava: VEDA.
146
Petr Nádeníček
Institut slavistiky Univerzity Christiana Albrechta v Kielu / Ústav pro jazyk
český AV ČR
[email protected]
Různá pojetí slovotvorné konverze ve světle
národních korpusů slovanských a germánských
jazyků
Komparativní studium slovotvorby na základě dat získaných z národních
korpusů se jeví v současnosti značně problematickým především, protože se
dostupné korpusy značně liší, co se informací ke slovotvorné struktuře slov
týče. Ve většině národních korpusů nebyla slovotvorná struktura při značkování vůbec zohledněna, takové korpusy obsahují v aktuálních verzích pouze
tvaroslovné značkování. Přesto dochází k popisu slovotvorby i na základě
dat získaných z těchto korpusů (např. grant GAČR „Slovník afixů užívaných
v češtině“). Při takové práci je ovšem nejen nutné vypořádat se s problémy
souvisejícími s absencí informací týkajících se slovotvorných struktur slov
v korpuse (např. tak není možné hledat přímo určitý afix, nýbrž můžeme
najít pouze určitý řetězec a následně nález manuálně roztřídit na doklady
hledaného afixu a pouhé řetězce), ale je i potřeba předem definovat některé
pojmy ze slovotvorby. A i v korpusech, které už v rámci značkování obsahují
i informace o slovotvorné struktuře slov (např. Ruský národní korpus), a tím
z velké části předepisují i chápání většiny slovotvorných fenoménů, narážíme na problém odlišných pojetí některých z těchto fenoménů. Výborným
příkladem tohoto problému je pojetí slovotvorné konverze.
Rozdíly jsou patrné již v zásadním chápání konverze v různých lingvistikách. Konverze bývá na jedné straně definována jako bezafixální derivační
způsob tvoření slov vyznačující se změnou paradigmatu. Při takovém pojetí
se konverze nachází na stejné úrovni jako sufixace, prefixace atd. Na straně druhé bývá konverze ovšem chápána i jako onomaziologická kategorie,
a sice jako přechod slovnědruhových forem od jednoho slovního druhu k jinému (v české lingvistice je tento fenomén znám spíše pod pojmem transpozice). V takovém pojetí konkuruje konverze jako proces mutaci a modifikaci.
Ve většině germánských jazyků jako v jazycích s poměrně omezenou flexí
převažuje logicky první pojetí konverze, jelikož změna paradigmatu v těchto
147
jazycích s sebou v zásadě přináší i změnu slovního druhu (např. angl. clean
‚čistý‘ → to clean ‚čistit‘, něm. leben ‚žít‘ → das Leben ‚život‘). Rozdíl mezi
transpozicí a konverzí zde není tedy natolik transparentní. Ve slovanských
jazycích, jež vykazují relativně bohatou flexi, naproti tomu dochází nezřídka
ke změně paradigmatu i uvnitř jednoho slovního druhu (např. rus. супруг
‚manžel‘ → супруга ‚manželka‘, pol. logika → logik, čes. malina → maliní). Rozdíl mezi onomaziologickou kategorií (pouhá změna slovního druhu)
a derivační kategorií (bezafixální odvozování) je zde tedy mnohem zřetelnějším, což vede v lingvistice mimo jiné k tomu, že je častějším (ovšem ne
výhradním) pojetí druhé, tzn. omezení konverze na derivační proces a její
zřetelné oddělení od pojmenovacího procesu (tedy transpozice).
Ovšem i v lingvistikách, popř. teoriích a pracích, které se shodnou alespoň
na tom, že konverze je derivační, ne onomaziologickou záležitostí, nalezneme dosti rozdílů. Tyto rozdíly pramení především z různého rozsahu definic
pojmu „bezafixální“, jež sahají od odvození nového slova bez jakýchkoliv formálních změn (např. nemocný (jako adjektivum) → nemocný (jako substantivum)), přes odvozování pomocí změny tvaroslovné charakteristiky, a sice jak
bez záměny koncovky v základním tvaru (např. prů­vod­čí (jako substantivum
mužského rodu) → průvodčí (jako substantivum ženského rodu)), tak i se záměnou koncovky v základním tvaru, tedy za použití tvaroslovných morfémů
namístě derivačních morfémů (např. zlý → zlo), až k zohlednění kmenotvorné přípony a nulového sufixu (např. modrý → modrat, běhat → běh).
Cílem mého příspěvku je ukázat na příkladě některých slovanských a germánských jazyků výhody a nevýhody různých pojetí slovotvorné konverze
v jednotlivých jazycích a následně navrhnout pojetí nejvhodnější pro popis
slovotvorby češtiny na základě dat získaných z Českého národního korpusu, konkrétně z korpusu SYN2010. Na závěr svého příspěvku bych se chtěl
ovšem pokusit navrhnout i pojetí konverze vhodné pro komparativní popis
zohledňující jak slovanské, tak i germánské jazyky a zakládající se na datech
získaných z národních korpusů těchto jazyků.
Literatura
Balteiro, I. (2007). The Direkctionality of Conversion in English, a dia-synchronic study. Bern et al.: Peter Lang.
Biermeier, T. (2008). Word-formation in New Englishes, a corpus based analysis. Berlin: LIT.
Clark, E. & Clark, H. (1979). When nouns surface as verbs. Language, 55,
767–811.
148
Dokulil, M. (1962). Tvoření slov v češtině, 1, Teorie odvozování slov. Praha:
Academia.
Dokulil, M. (1968). Zur Frage der Konversion und verwandter Wortbildungsvorgänge und -beziehungen. Travaux du Cercle linguistique de
Prague 3, 215–239.
Dokulil, M. (1982). K otázce slovnědruhových převodů a přechodů, zvl.
transpozice. Slovo a slovesnost, 43, 257–271.
Filipec, J. (1972). K otázce konverze a přechodu slovních druhů v dnešní češtině. Slovo a slovesnost, 33, 122–129.
Fleischer, W. (2000). Die Klassifikation von Wortbildungsprozessen. In: G.
Booij et al. (Eds.), Morphologie. Ein internationales Handbuch zur Flexion und Wortbildung. Berlin: de Gruyter, 886–897.
Fleischer, W. (2012). Wortbildung der deutschen Gegenwartssprache. Berlin:
de Gruyter.
Grzegorczykowa, R., Laskowski, R. & Wróbel, H. (Eds.) (1984). Gramatyka
współczesnego języka polskiego, 2, Morfologia. Warszawa: Państwowe
Wydawnictwo Naukowe.
Kaliszan, J. (2005). Slovoobrazovanie i formoobrazovanie v russkom jazyke.
Poznań: Wydawnictwo Naukowe Uniwersytetu im. Adama Mickiewicza.
Kubrjakova, Je. S. (1974). Derivacija, transpozicija, konversija. Voprosy jazykoznanija, 5, 64–76.
Kuryłowicz, J. (1974). Dérivation lexicale et dérivation syntaxique. Bulletin
de la Société de linguistique de Paris, 37, 79–92.
Lieber, R. (1981). Morphological conversion within a restrictive theory of the
lexicon. In M. Moortgat et al. (Eds.), The scope of lexical rules, 161–200.
Lopatin, V. V. & Uluchanov, I. S. (1969). K sootnošenii edinic slovoobrazovanija i morfologii. In J. N. Jarceva & N. Ju. Švedova (Eds.), Edinicy raznych
urovnej grammatičeskogo stroja jazyka i ich vzaimodejstvije, 119–131.
Maslov, Ju. S. (1983). Morfologičeskaja konversija v slavjanskich jazykach. In
V. D. Andreev & P. A. Dmitriev (Eds.), Sravnitel’no-tipologičeskie issledovanija slavnjanskich jazykov i literatur. Leningrad: Izdatelstvo Leningradskogo universiteta.
Meyer, S. (1984). Zero-derivation and inflection. MIT Working Papers in Linguistics. Cambridge, MA, 53–69.
Olsen, S. (1986). Wortbildung im Deutschen. Stuttgart: Kröner.
Petr, J. et al. (Eds.) (1986). Mluvnice češtiny, 1, Fonetika, Fonologie, Morfonologie a morfematika, Tvoření slov. Praha: Academia.
149
Plag, I. (2006). Word-formation in English. Cambridge: Cambridge University Press.
Štěkauer, P. (1996). A Theory of Conversion in English. Frankfurt am Main:
Peter Lang.
Švedova, N. Ju. et al. (Eds.) (1980). Russkaja grammatika, Tom I, Fonetika,
fonologija, udarenie, intonacija, slovoobrazovanie, morfologija. Moskva:
Izdatelstvo Nauka.
Waszakowa, K. (1993). Słowotwórstwo współczesnego języka polskiego,
Rzeczowniki z formantami paradygmatycznymi. Warszawa: Wydawnictwo Uniwersytetu Warszawskiego.
Olga Navrátilová
Ústav českého jazyka FF MU
[email protected]
Slovosled nominální fráze ve staré češtině
Slovosledu nominální fráze nebyla doposud v české lingvistice věnována
soustavnější pozornost. V průběhu vývoje češtiny se slovosledem jmenné
fráze, resp. jejích rozvíjejících členů, zabývalo jen několik prací. Jedná se
zejména o stručné zmínky v kompendiích dějin češtiny J. Gebauera (1928)
a F. Trávníčka (1956) a o studie V. Vondráka (1908, 1928) a A. Tomsy (1912).
Jedinou ucelenější a (dle našeho soudu) metodologicky dosud nejlépe zpracovanou publikací je monografie V. Šmilauera (1930), která však detailně
reflektuje slovosled pouze jedné středněčeské památky.
Příspěvek si tedy klade za cíl provést první větší sondu do problematiky
postavení rozvíjejících členů jmenné fráze ve staré češtině, která spočívá zejména v podání zevrubné deskripce jejich slovosledného chování a ve stanovení hlavních tendencí, které se ve slovosledu jmenné fráze ve zkoumaném
období uplatňují. Stěžejní pozornost při analýze je věnována posesivním zájmenům, u nichž je možno pozorovat téměř nejvýraznější proměnu v jejich
slovosledném chování. U těchto zájmen rovněž dosud nepanuje názorová
150
jednota o jejich původním postavení. Někteří z lingvistů předpokládají pro
češtinu původní antepozici zájmen 1. a 2. osoby (např. Vondrák 1928), jiní se
domnívají, že primárně byla umístěna za řídícím jménem fráze (např. Berneker 1900, Horálek 1962). Vzhledem k nejednoznačným a často protikladným výkladům je proto nutné vyjít ze stavu v současné češtině, postihnout
základní principy slovosledu novočeských posesivních zájmen a následně
ověřit, zda se tytéž principy uplatňují i v češtině 14. a 15. století.
Materiálovým východiskem je korpus textů ze 14. a 15. století zahrnující
vybrané biblické texty 1. a 2. staročeské redakce, prozaické texty vysokého
i nízkého stylu, případně i odborná pojednání (veršované památky, jejichž
slovosled podléhá rytmické, melodické a rýmové výstavbě textů, jsou vzhledem k povaze zkoumaného fenoménu vyloučeny). Analyzovány jsou tyto
texty: Genesis, Skutky apoštolů, Evangelium sv. Matouše Bible olomoucké
(případně Bible litoměřicko-třeboňské) a Bible mlynářčiny; Kniha rožmberská;
Řád korunovánie krále českého a královny; Život Krista Pána; Tomáš Štítný:
Řeči nedělní a sváteční; Spisy lékařské české a latinské; Jan Hus: Výklad Otčenáše, Dcerka nebo O poznání cesty pravé k spasení; Staré letopisy české; Kronika trojánská; Petr Chelčický: Sieť viery pravé; Tkadleček; Olomoucké povídky;
Sbírka pojednání z oboru ženského a dětského lékařství. Jelikož tato materiálová základna nepostihuje všechny zkoumané jevy (či jen s nedostačující frekvencí), využíváme pro výzkum rovněž diachronní korpusy češtiny – subkorpusu Českého národního korpusu DIAKORP a korpusu Staročeská textová
banka (včetně jeho interní verze), pro konfrontování zjištěných výsledků se
stavem v současné češtině pak zejména korpusu SYN2010.
Literatura
Běličová, H. & Uhlířová, L. (1996). Slovanská věta. Praha: Euroslavica.
Berneker, E. (1900). Die Wortfolge in den slavischen Sprachen. Berlin.
Gebauer, J. (1929). Historická mluvnice jazyka českého. Díl IV. Skladba. Praha: nákladem České akademie věd a umění.
Horálek, K. (1962). Úvod do studia slovanských jazyků. Praha: Nakladatelství
Československé akademie věd. 2. dopl. vyd.
Šmilauer, V. (1930). Poloha přívlastku v Kronice pražské Bartoše Písaře. Praha: nákladem Filosofické fakulty Univerzity Karlovy.
Tomsa, A. (1912). O slovosledu u Dalimila. Zpráva c. k. r. gymnasia v Kolíně
1911–1912. Kolín: nákladem C. K. realného gymnasia.
151
Trávníček, F. (1956). Historická mluvnice česká III. Skladba. Praha: Státní
pedagogické nakladatelství.
Vondrák, V. (1908). O místě atributivního adjektiva a substantivního genitivu ve větě. Zborník u slavu Vatroslava Jagića. Berlín: Weidmannsche
Buchhandlung, 151–158.
Vondrák, W. (1928). Vergleichende Slavische Grammatik. Band II. Formenlehre und Syntax. Göttingen: Vandenhoeck & Ruprecht. 2. vyd.
Renata Novotná
Ústav Českého národního korpusu FF UK
[email protected]
Antropomorfický princip u konkrétních
neživotných substantiv: názvy nebeských těles
Cílem tohoto příspěvku je antropomorfický princip v jazyce. F. Čermák
v knize „Jazyk a Jazykověda“ uvádí, že „v řadě jazyků je rozšířená především
charakteristická antropomorfická metafora, spočívající v přenášení forem
původních pro lidské tělo a člověka vůbec na věci, přírodu apod.“ (2011: 226).
Může se týkat jak substantiv, např. ucho jehly, úpatí hory apod., tak verb,
např. nebe pláče (Čermák 2001: 195). F. Čermák se dále tomuto problému věnuje v rámci frazeologie, a to v článku „Somatic Idioms Revisited“ (1995), kde
uvádí, že jde o jazykovou univerzálii, při níž se v řadě jazyků užívá ve frazeologii názvů částí lidského těla (srov. příklady ze Slovníku české frazeologie
a idiomatiky, být z ruky, nemít ani hlavu ani patu, jít za nosem, mít něco
v oku, tahat za uši apod.), a vztahuje ji právě k antropomorfickému principu
v jazyce: „somatic idioms may not be such a surprising and unique phenomenon if they are viewed on a par with and within the framework of all
other and well pronounced anthropomorphic features one finds in language
in general, such as major and general tendencies of polysemy growth of human vocabulary, which is based on metaphor and metonymy, cf. time goes,
152
the door leads somewhere, the foot of a hill, or the shoulder of a river“. V článku
„Povaha a souvislosti některých univerzálií v sémantice a morfologii“ (1999)
F. Čermák porovnává antropomorfický princip u tří typologicky odlišných
jazyků: „Ve všech třech jazycích (angličtině, finštině a češtině) funguje v oblasti nominace antropomorfický princip, projevující se zřetelně i v polysémii
(a symboličnosti v ní), velmi podobně.“
V tomto příspěvku se zaměříme na skupinu konkrétních neživotných
substantiv a okruh sloves, která se s nimi typicky pojí. V rámci této skupiny
lze vydělit několik dílčích typů:
a) názvy budov, např. dům, škola, banka, divadlo apod.
b)názvy osídlení, např. země, město, obec apod.
c) názvy částí budov, např. pokoj, chodba, okno apod.
d)názvy přírodních objektů, např. řeka, hora, les, pole apod.
e) názvy nebeských těles, např. slunce, hvězda, měsíc apod.
f) názvy dopravních prostředků, např. auto, vůz, kolo, loď apod.
g)názvy strojů a přístrojů, např. hodiny, televize, stroj, telefon, počítač
apod.
Vzhledem k tomu, že v rámci tohoto krátkého příspěvku není možné věnovat pozornost všem výše uvedeným dílčím skupinám, zaměříme se pouze
na jednu z těchto skupin, tedy na názvy nebeských těles.
Při zpracování materiálu jsme vycházeli z frekvenčního seznamu substantiv z korpusu SYN2005. V rámci tohoto seznamu jsme se soustředili
na substantiva s nejvyšší frekvencí, tj. od substantiva země s frekvencí 92260
do frekvence 2000, konkrétně po substantivum můstek s frekvencí 2013. Vyhledávali jsme slovesa na pozicích od –2 do +2 od KWIC.
Jak už bylo uvedeno, příspěvek se zaměří na antropomorfický princip
u názvů nebeských těles. Týká se to substantiv slunce, hvězda, měsíc a planeta. Jako příklad uvedeme slovesné kolokáty substantiva slunce: vyšlo (131),
vychází (71), vyjde (68), vycházelo (44), sklánělo se (24), zašlo (14), sklání se
(12), nevyjde (12), nevyšlo (11), vstává (11). Frekvence lemmatu slunce v korpusu SYN2005 je 17 477. Celkový počet výskytů sloves s antropomorfickým
významem je 410, což je 2,35 % z celkové frekvence substantiva slunce. Vidíme, že škála sloves s antropomorfickým významem u tohoto substantiva je
značně široká: od frekventovaných sloves pohybu vyjít/vycházet, popř. zajít,
po méně frekventovaná slovesa sklánět se, vstávat. U substantiv této sémantické skupiny je typický výskyt sloves označujících pohyb tělesa po obloze,
srov. slunce vyšlo (131), hvězda vyšla (16) apod.
153
Literatura
Čermák, F. (1982). Idiomatika a frazeologie češtiny. Praha: Univerzita Karlova.
Čermák, F. (1994). Idiomatics. In P. A. Luelsdorff (Ed.), The Prague School
of Structural and Functional Linguistics. Amsterdam/Philadelphia: John
Benjamins Publishing Company, 185–195.
Čermák, F. (1995). Somatic Idioms Revisited. In W. Eismann (Ed.)., EUROPHRAS 95 Europäische Phraseologie im Vergleich: Gemeinsames Erbe
und kulturelle Vielfalt. Bochum: Universitätsverlag, 109–119.
Čermák, F. (1999). Povaha a souvislosti některých univerzálií v sémantice
a morfologii. In Z. Hladká & P. Karlík (Eds.), Čeština - univerzália a specifika. Brno: Masarykova univerzita, 67–76,
Čermák, F. (2011, 2001). Jazyk a jazykověda. Praha: Nakladatelství Karolinum.
Čermák F. et al. (2009). Slovník české frazeologie a idiomatiky. Výrazy verbální. Praha: Leda.
154
Klára Osolsobě
Filozofická fakulta Masarykovy univerzity
[email protected]
Korpusy jako zdroje dat pro úpravy nástrojů
automatické morfologické analýzy (Slovotvorné
varianty adjektiv na [(ou)|í]cí a jejich morfologické
značkování)
Cílem našeho příspěvku je poukázat na některá nekonzistentní řešení
ve značkování slovního druhu adjektiv v korpusech řady SYN. Budeme se
zabývat problémy, které se týkají nedostatků na úrovni morfologického
slovníku, nikoli na úrovni disambiguace. Ukážeme, jak data získaná z korpusů mohou pomoci při úpravě morfologického značkování adjektiv, která lze
formálně interpretovat jako adjektiva z kmene přítomného sloves.
Adjektiva na [(ou)|í]cí jsou v korpusech řady SYN zpravidla značkována jako AG.* (přídavné jméno odvozené od slovesného tvaru přítomného
přechodníku, viz http://ucnk.ff.cuni.cz/bonito/znacky.php). Podíváme-li se
ovšem blíže na všechny jednotky, které splňují formální předpoklady patřit
do takto vymezené kategorie, zjistíme, že ne zanedbatelný počet takovýchto
adjektiv má jinou značku, a sice buď je příslušný tvar označkován jako AA.*
(adjektivum obyčejné, viz http://ucnk.ff.cuni.cz/bonito/znacky.php), nebo
není rozpoznán automatickou morfologickou analýzou a má značku X.*.
Tento stav svědčí o jisté nekonzistenci popisu na úrovni morfologického slovníku. Popis tvarů adjektiv odvoditelných od uzavřeného slovesného
kmene přítomného (nikoli jen od tvaru přechodníku přítomného viz Dokulil
a kol, 1986: 321) je na úrovni morfologického slovníku řešen tak, že adjektivní tvary jsou pomocí formálních pravidel „rozgenerovány“ od slovesného
kmene a je jim v důsledku takové operace přidělena značka AG.*. Uvedené
řešení není ovšem uplatněno důsledně pro všechny varianty, které se v jazyce skutečně mohou vyskytovat.
Řadu variant, které zůstaly opominuty, lze získat, analyzujeme-li data
z korpusů. Naše analýza vyjde z pozorování dat korpusu SYN (budeme si
všímat nedůsledností v morfologickém značkování tvarů na [(ou)|í]cí). Dalším zdrojem dat bude webový korpus czTenTen12 a internet. Nebudeme se
(v omezené míře) vyhýbat ani intuici rodilého mluvčího, z níž budeme vy-
155
cházet v hodnocení potenciality jazyka na rovině slovotvorby. Na základě
pozorování ukážeme vzájemný vztah mezi tvarovými variantami kmene
prézentního a slovotvornými variantami/dubletami sledovaného adjektivního typu.
Na základě takové analýzy navrhneme pravidla pro „rozgenerování“
tvarů příslušných adjektiv i jejich interpretací na úrovni morfologického
slovníku. Po implementaci navržených úprav do slovníku automatického
morfologického analyzátoru lze předpokládat, že se a) zvýší konzistence
morfologického značkování, b) opraví některé drobné chyby ve značkování
i lemmatizaci adjektiv na [(ou) |í]cí, c) rozšíří pokrytí slovníku a d) neměl
by narůst (až na několik drobností) počet homonymních tvarů nabízených
k disambiguaci.
Výsledky tagování, které má k dispozici běžný uživatel korpusu budou
v důsledku námi navržených úprav více transparentní, než tomu bylo dosud. Zobecnění pozorování korpusových dat může pomoci k formulování
přesnějších pravidel popisu variant adjektiv na [(ou) |í]cí nejen pro potřeby
popisu těchto variant na poli automatické morfologické analýzy češtiny, ale
může být východiskem i pro kodifikační doporučení opřená o zjištění stavu
úzu reprezentovaného rozsáhlými korpusovými daty.
Literatura
Bauer, J., Lamprecht, A. & Šlosar, D. (1986). Historická mluvnice češtiny. Praha: SPN.
Cvrček, V. & Vondřička, P. (2012). Morfio. Dostupný z WWW: <http://morfio.korpus.cz/>.
czTenTen12 FI MU – czTenTen12. Centrum zpracování přirozeného jazyka
FI MU, Brno. Cit. 21. 11. 2013, dostupný z WWW: <http://ske.fi.muni.cz/
bonito>.
Český národní korpus – SYN. Ústav Českého národního korpusu FF UK, Praha. Cit. 21. 11. 2013, dostupný z WWW: <http://www.korpus.cz>.
Dokulil, M. et al. (1986). Mluvnice češtiny 1. Praha: Academia.
Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morphology of Czech). Praha: Karolinum Charles University Press.
Hlaváčová, J. (2009). Formalizace systému české morfologie s ohledem
na automatické zpracování českých textů. Praha: UK. (Disertační práce.)
Jelínek, T. (2008). Nové značkování v Českém národním korpusu. Naše řeč,
91, 1, 13–20.
156
Komárek, M. et al. (1986). Mluvnice češtiny 2. Praha: Academia.
Osolsobě, K. (1996). Algoritmický popis české formální morfologie a strojový slovník češtiny. Disertační práce. Brno: MU.
Osolsobě, K. (2011). Morfologie českého slovesa a tvoření deverbativ jako
problém strojové analýzy češtiny. Brno: MU.
Osolsobě, K. (2013). Korpusy a internet jako zdroje dat pro výzkum produktivity periferního slovotvorného typu: adjektiva typu hrůzoucí (hrůza)
v korpusech a na internetu. Gramatika a korpus 2012. Hradec Králové:
Gaudeamus.
Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: RuleBased Approach is Necessary. In M. Šimková M. (Ed.), Insight into the
Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44.
Petkevič, V. (2013). Formal Morpho(Syntax) Properties of Reflexive Particles
se si as Free Morphemes. In K. Gajdošová & A. Žáková (Eds.), Natural
Language Processing, Corpus Linguistics, Luedenscheid: RAM-Verlag,
206–216.
Spoustová D., Hajič, J., Votrubec, J., Krbec, P., & Květoň, P. (2007): The Best
of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for
Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. Praha: ACL, 67–74.
Šmilauer, V. (1972): Nauka o českém jazyku. Praha: SPN.
Internetová jazyková příručka. Dostupná z WWW: <http://prirucka.ujc.cas.cz/>.
157
Hana Peloušková
Pedagogická fakulta Masarykovy univerzity
[email protected]
O nepříjemných pocitech. Specifické konstrukce
s několika německými slovesy a jejich protějšky
v češtině
Již několik let vzniká poměrně rozsáhlá kontrastivní studie o německých
konstrukcích s es a jejich českých protějšcích. Nenáležité užití či neužití es
patří totiž k častým jazykovým prohřeškům, jichž se dopouštějí čeští rodilí
mluvčí na všech stupních pokročilosti v německém jazyce. Jejich příčinu
spatřujeme v tom, že některé funkce německého es jsou češtině zcela cizí
(formální subjekt, poziční es/“Platzhalter“), v jiných funkcích čeština ekvivalentní prostředek sice má, ale užívá jej odlišným způsobem a s odlišnou
frekvencí (zájmeno, korelát, formální objekt). Důkladná analýza paralelního
jazykového materiálu pomáhá odhalit paralely a diskrepance v ekvivalentních konstrukcích. Praktickým vyústěním teoretických podkladů jsou určitá
lingvodidaktická doporučení jež mohou přispět k eliminaci výše uvedených
prohřešků. Tato doporučení mohou být využita ve výuce či samostudiu
němčiny, případně mohou posloužit též při sestavování učebnic a cvičebnic.
Tento příspěvek tvoří velmi malý stavební kamínek výše uvedené studie.
Zaměřuje se na poměrně nepočetnou skupinu německých sloves označujících nepříjemné psychosomatické stavy, převážně pocity velkého strachu
či jiného diskomfortu (např. grauen, grausen, gruseln, schaudern, frösteln,
ekeln…). Proživatel, tedy osoba, jež nepříjemný stav pociťuje, je označen
ve větě jménem v dativu či akuzativu. Ve větách s těmito slovesy se vyskytuje nereferenční es, jež před slovesem plní obligatorně funkci tzv. „pozičního es“(umožňuje slovesu zaujmout druhou pozici ve větě), za slovesem se
vyskytuje fakultativně: Es graust ihm vor der Operation. Vor der Operation
graust (es) ihm. Ihm graust (es) vor der Operation. Čeština jazykový prostředek ekvivalentní tomuto typu es nemá, což může být pro české rodilé mluvčí
učící se němčině zdrojem interferenčních chyb. Neobvyklé pro Čechy je rovněž označení proživatele jménem v dativu nebo akuzativu, neboť české protějšky těchto sloves označují proživatele zpravidla nominativem: Es graust
jedem vor ihr. Každý se jí děsí., ale např.: Mike schauderte. Mika zamrazilo.
158
V odborné germanistické literatuře je es v těchto konstrukcích pouze zmíněno, popřípadě popsáno jen kurzoricky, neexistuje žádný seznam sloves
se shodnými syntaktickými vlastnostmi, nejednotnost panuje ve vymezení
funkce es, neboť vykazuje některé vlastnosti formálního subjektu, jiné pozičního es.
Příspěvek se pokouší:
• sestavit co nejúplnější seznam zmiňovaných sloves,
• roztřídit slovesa podle významu (pocity strachu, nevolnosti, chladu,
žádosti…),
• popsat strukturu konstrukcí s těmito slovesy, zaměřit se na označení proživatele jménem v akuzativu a dativu, zjistit dominantní formu
označení proživatele u jednotlivých sloves,
• podchytit a popsat povahu es v těchto konstrukcích,
• nalézt odpověď na otázku, v kterých případech/zda vůbec je es v pozicích za slovesem obligatorní,
• podchytit a popsat české ekvivalentní konstrukce,
• formulovat lingvodidaktická doporučení pro zařazování dané problematiky do výuky (např. která slovesa zařadit na konkrétních stupních
pokročilosti).
Výzkum se opírá o jazyková data vytěžená z česko-německého paralelního korpusu projektu InterCorp a rozsáhlého německého korpusu IDS Mannheim, Cosmas.
Výsledky analýzy korpusových dat jsou konfrontovány s výsledky malého dotazníkového šetření.
Toto šetření zjišťuje:
• používanost konkrétních sloves (běžné, málo používané, stylisticky
vysoké/zastaralé),
• označení proživatele jménem v akuzativu nebo v dativu u jednotlivých
sloves (dominující forma, jediná možná forma),
• obligatornost či fakultativnost es v postavení za slovesem.
Respondenty jsou němečtí rodilí mluvčí s gemanistickým vzděláním. Dotazy jsou kladeny formou „multiple choice“ (výběr z více možností). Literatura
Buscha, J. (1972). Zur Darstellung des Pronomens es in einer deutschen
Grammatik für Ausländer. DaF 9 (1), 99–103.
159
Kemme, H. M. (1979). Der Gebrauch des „es“ im Deutschen. Eine Darstellung
für den Unterricht an Ausländer. München: Goethe-Institut.
Peloušková, H. (2009). Konstruktionen mit dem deutschen Platzhalter es und
ihre tschechischen Entsprechungen. In T. Káňa & H. Peloušková (Eds.),
Deutsch und Tschechisch im Vergleich I. Korpusbasierte linguistische
Studien. Brno: Masarykova univerzita, 90–104.
Peloušková, H. (2010). Zu deutschen ,Es-Konstruktionen‘ und ihren tschechischen Äquivalenten. In I. Kratochvílová & N. R. Wolf (Eds.), Kompendium Korpuslinguistik: Eine Bestandsaufnahme aus deutsch-tschechischer Perspektive. Heidelberg: Universitätsverlag Winter, Germanistische Bibliothek 38, 265–274.
Pütz, H. (1975). Über die Syntax der Pronominalform „es“ im modernen
Deutsch. Tübingen: Gunter Narr.
Vladimír Petkevič
Ústav teoretické a komputační lingvistiky FF UK
[email protected]
Slovnědruhová a morfologická homonymie,
homografie a homofonie v současné češtině
Příspěvek budou tvořit čtyři části, z nichž část 2 a část 3 jsou ústřední:
1. Autor nejprve stručně uvede všechny hlavní typy homonymie, homografie a homofonie v současné češtině obecně (fonologická, morfonologická,
morfematická/morfologická, syntaktická, lexikální) podle Panevové (1980)
a pak se podrobněji zaměří na témata 2 a 3, kterými jsou:
2. Dva typy morfematické/morfologické homonymie v současném psaném jazyce
3. Problematika homofonie a homografie
4. V závěru se autor také pro úplnost zmíní o:
160
4a. klasické homonymii lexikální, kdy jedno lemma má více významů, ale
jednotlivé významy nevykazují rozdíly v paradigmatu (např. „kynout_1“ vs.
„kynout_2“)
4b. o homonymii mezijazykové, která komplikuje automatickou disambiguaci slov v jednojazyčném korpusu, pokud korpus obsahuje slova z cizích
jazyků.
Ad 2. Jde o tyto typy homonymie v současném psaném jazyce:
1a) homonymie částečná (neprázdný průnik paradigmat), nejčastěji náhodná mezi slovními druhy i uvnitř téhož slovního druhu (např. „zvířenu“ je
tvarem slovesa „zvířit“ i tvarem substantiva „zvířena“; „sní“ je tvarem slovesného lexému „sníst“ i „snít“)
b) homonymie morfonologická paradigmatická daná asymetrickým dualismem jazykových jednotek (např. „rukou“ je tvarem Isg nebo Gpl; „souvislosti“ je tvarem Gsg, Dsg, Npl, Apl, Vpl), kdy jeden morf jakožto forma
vyjadřuje více morfologických funkcí.
Autor představí přehled jednotlivých podtypů spolu s počty příslušných tvarů a pak se zaměří na způsoby, jimiž se v textu tzv. automatickou morfologickou disambiguací stanoví náležitá interpretace na základě
kontextu. Z jednotlivých typů vybere ty, jež působí při automatické disambiguaci pomocí pravidel i při disambiguaci stochastické největší potíže. Pokusí se stanovit hlavní příčiny, proč se úspěšnost disambiguace
dosud pohybuje na maximálně 95 % (vezmou-li se v úvahu obě míry: recall (pokrytí) a precision (přesnost)), a na základě uvedených typů, jejich
frekvence i vlastních zkušeností navrhne metody, jak toto číslo zvýšit.
Ad 3. Problematika homofonie a homografie
V češtině je typická homonymie, kdy jedna psaná forma má víc morfologických a/nebo sémantických interpretací, které se přitom vyslovují stejně, např.: „pobudu“ (= tvar 1. os. sg. préz. slovesa „pobýt“ a zároveň tvar Asg substantiva „pobuda“) či „pranic“ (tvar Nsg a Asg zájmena
„pranic“ a zároveň tvar Gpl substantiva „pranice“). Jsou však i případy:
(i) homofonie, kdy forma se stejně vyslovuje, ale má různé významy a odlišně se píše (nehomografní homofona), např. „praští“ vs. „pražští“, nebo
„obětí“ vs. „objetí“; tento typ je na rozdíl od typu (ii) níže poměrně častý
(ii) homografie, kdy se forma stejně píše, ale má různé významy a odlišně se
vyslovuje (nehomofonní homografa), např. „panice“ čteno s „i“ je Gsg, Asg,
161
Apl substantiva „panic“, čteno s „y“ je to Dsg a Lsg substantiva „panika“;
tento typ je v češtině výjimečný.
Autor vrhne světlo na tuto dosud neprobádanou oblast a bude klasifikovat
typy nehomografních homofon a nehomofonních homograf. Navíc navrhne
metody, jak v datech nalézt pokud možno všechny tyto typy, a to zvláště
na základě:
(i) různých typů progresívní a regresívní asimilace („spravit“ vs. „zpravit“)
(ii) různých typů neutralizace znělosti na konci slov („pokud“ vs. „pokut“)
(iii) opozice „ě“ vs. „je“, „ě“ vs. „ně“ („obětí“ vs. „objetí“)
(iv) opozice „i“ vs. „y“, „í“ vs. „ý“, „ú“ vs. „ů“ („pilu“ vs. „pylu“)
(v) geminát („nn“, „šš“ a dalších) vyslovovaných jako jeden foném („jednoduší“ vs. „jednodušší“)
(vi) „di“ / „ti“ / „ni“ ve slovech českého/slovanského původu vs. „di“ / „ti“
/ „ni“ ve slovech hlavně latinského původu, z moderních jazyků pak ve slovech přejatých z angličtiny, francouzštiny...
(vi) odlišné morfematické segmentace slova, např. „neu-rologický“ vs.
„ne-urologický“.
Při identifikaci typů homofonie využije nástroje TRAN vyvinutého V.
Cvrčkem.
Autor uvede též praktický význam vytvořené klasifikace pro tvorbu například „chytrého“ spelling-checkeru a kontextově pojatého korektoru gramatiky. Lidé totiž často neumějí nehomografní homofona náležitě odlišit
v písmu a chybují právě v nich. Týká se to hlavně psaní „i“ a „y“, obou typů
asimilace, neutralizace znělosti na konci slova a nesprávně zapsaných geminát. Klasické příklady:
předložka „s“ vs. „z“
„shlédnout“ vs. „zhlédnout“
„správa“ vs. „zpráva“
„spravit“ vs. „zpravit“
„obětí“ vs. „objetí“
„Břeclavi“ vs. „Břeclavy“
„vížka“ vs. „výška“
„kúra“ vs. „kůra“
„cenou“ vs. „cennou“
„veřejně činí“ vs. „veřejně činní“
Autor svůj výzkum materiálově zakládá na korpusech současné psané
češtiny řady SYN, zejména na korpusech SYN2010, SYN a SYN2013PUB,
162
a na pracovních, morfologicky pouze analyzovaných, tj. nedisambiguovaných korpusech.
Autor na řadě příkladů také ukáže, jak je ve zkoumaném ohledu čeština bohatá a složitá, a též na příkladech doloží známý fakt, že mluvčí / pisatel si potencialitu homonymie v jazyce (v našem případě češtiny) zřídkakdy uvědomuje, neboť slovo / větu vyslovuje vždy v kontextu (jazykovém i situačním), který slovo či větu téměř vždy zjednoznační.
Práce je mj. východiskem k řešení problému zjednoznačnění (disambiguace)
v psaných, popř. i mluvených korpusech a může z aplikačního hlediska sloužit - jak uvedeno výše - i zlepšení dosavadních spelling-checkerů a softwarových nástrojů pro gramatickou kontrolu jazyka.
Literatura
Jelínek, T. & Petkevič, V. (2011). Systém jazykového značkování současné
psané češtiny. In V. Petkevič & A. Rosen (Eds.), Korpusová lingvistika
Praha 2011, sv. 3: Gramatika a značkování korpusů. Praha: Nakladatelství Lidové noviny / Ústav českého národního korpusu, 154–170.
Karlík, P., Nekula, M. & Pleskalová, J. (Eds.) (2002). Encyklopedický slovník
češtiny. Praha: Nakladatelsví Lidové noviny, heslo Homonymie.
Panevová, J. (1980). Formy a funkce ve stavbě české věty. Praha: Academia.
Petkevič, V. (2006): Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the
Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44.
Těšitelová, M. (1966). O morfologické homonymii v češtině. Praha: Academia.
163
Žaneta Pixová
Ústav bohemistiky FF JU
[email protected]
Čeština soudních rozhodnutí ve světle korpusu
Předkládaný příspěvek se bude věnovat češtině soudních rozhodnutí a pokusí se za použití metod korpusové lingvistiky přiblížit některé poznatky
o lexikální struktuře současné právní češtiny. Představen bude též badatelský proces, shrnutý do tří základních okruhů.
Úvodní slova budou patřit problematice sestavení vlastního korpusu, vytvořeného ze zkoumané množiny dostupných textů soudních rozhodnutí
(zhruba 1600 textů). V druhé části bychom se zaměřili na seznámení s využitými analýzami korpusových dat. Třetí okruh by se věnoval prezentaci
dosažených výsledků.
V rámci zkoumání lexikální struktury češtiny soudních rozhodnutí byla
jako hlavní sféra zájmu zvolena problematika kolokací. Příspěvek by seznámil se smysluplnými spojeními s nejvyšší frekvencí výskytu napříč texty,
s cílem identifikovat typické víceslovné termíny a typické neterminologické
kolokace. Dále by stručně představil obsažený repertoár spojovacích výrazů,
včetně četnosti jejich výskytu.
Jak je patrné z odborných časopisů, věnujících se českému jazyku (Naše
řeč, Slovo a slovesnost), právnická čeština byla a je četným námětem úvah,
např. Bulín, H. – Právnická čeština (Bulín 1918), nebo Svobodová, I. – Ze
soudní síně aneb spor o vrátka (Svobodová 1993), a analýz, např. Šťícha, F.
– O jazyce soudních rozhodnutí (Štícha 1985), nebo Kořenský, J., Cvrček, F.,
Novák f. – Juristická a lingvistická analýza právních textů (Kořenský a kol.
1999).
Byly tak definovány základní poznatky o podobě právní češtiny, které
mohou být díky využití metod korpusové lingvistiky ověřeny a zároveň doplněny o nová zjištění, opírající se o analýzy poměrně rozsáhlé množiny
žánrově specifického jazykového materiálu současné doby.
Jako výchozí metodologický přístup můžeme označit přístup empirický,
umožňující vyvození objektivních závěrů, nezávislých jen na subjektivním
výběru, ale na souboru reprezentativních dat.
Výzkum probíhá v rovině synchronní, v centru zájmu je současná čeština.
Zkoumaná množina dostupných textů soudních rozhodnutí krajských soudů
164
pochází z období posledních patnácti let a čítá zhruba tisíc šest set textů. Výzkum je součástí rozpracovaného doktorského projektu (Styl a jazyk textů
soudních rozhodnutí), mapujícího styl a jazyk textů dostupných krajských
soudních rozhodnutí.
Příspěvek si klade za cíl nejprve seznámit s konkrétním procesem tvorby
korpusu z dostupné množiny textů soudních rozhodnutí (zhruba 1600 textů),
a užitými analýzami korpusových dat. Následně plánuje představit dosažené
výsledky badatelské práce, s cílem přispět k ověření a rozšíření poznatků
o podobě právní češtiny soudních rozhodnutí.
Literatura
Bulín, H. (1918). Právnická čeština. Naše řeč, 2 (7).
Čechová, M. (1989). Charakteristika administrativního stylu. Naše řeč, 72 (1).
Čermák, F. (2001). Jazyk a jazykověda. Praha: Karolinum.
Čermák, F. & Filipec, J. (1985). Česká lexikologie. Praha: Academia.
Čermák, F. & Klímová, J., Petkevič, V. (2000). Studie z korpusové lingvistiky.
Praha: Karolinum.
Čermák, F. & Šulc, M. (2006). Kolokace. Praha: NLN.
Daneš, F. (1957). Kapitoly z praktické stylistiky. Praha: Orbis.
Jedlička, A. (1970). Základy české stylistiky. Praha: SPN.
Kořenský, J., Cvrček, F. & Novák, F. (1999). Juristická a lingvistická analýza
právních textů: právně-informatický přístup. Praha: Academia.
McEnery, T. & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh
University Press.
Sinclair, J. McH. (1991). Corpus, Concordance, Collocation. Oxford: Oxford
University Press.
Svobodová, I. (1993). Ze soudní síně aneb spor o vrátka. Naše řeč, 76 (5).
Štícha, F. (1985). O jazyce soudních rozhodnutí. Naše řeč, 68 (2).
165
Petr Plecháč
Ústav pro českou literaturu AV ČR
[email protected]
Korpus českého verše a možnosti jeho využití
Na konci roku 2013 bylo na půdě Ústavu pro českou literaturu AV ČR dokončena první fáze budování Korpusu českého verše. Kromě standardních
lingvistických metadat (lemma, morfologická značka) obsahuje tento korpus
i anotace roviny fonetické, metrické a strofické; ke každé slovní jednotce je
připojen fonetický přepis, u každého verše je určeno metrum (jamb, trochej...), rozsah (n-stopý), typ klauzule (mužská, ženská...) a metrický vzorec.
(V současnosti jsou z hlediska metriky anotovány pouze verše sylabotónické.) Na vyšších rovinách jsou pak anotovány rýmové dvojice, resp. n-tice
a pevné formy (sonet, rondel...).
Statistický výzkum má v české versologii bohatou tradici (připomeňme
alespoň studie Miroslava Červenky a Květy Sgallové vycházející z desetitisíců analyzovaných veršů). Korpus českého verše obsahující téměř veškerou
knižně publikovanou básnickou tvorbu 19. století (téměř 80 tisíc básní, přes
2,5 milionu veršů, 14,5 milionu slov) otevírá nové možnosti pro ověřování,
resp. relativizaci jak dřívějších hypotéz (srov. např. Plecháč & Ibrahim 2013),
tak hypotéz nově formulovaných. Oproti ručně zpracovanému materiálu se
navíc badatali nabízí možnost okamžitě testovat i možné korelace sledovaného jevu a jevů z jiných jazykových/veršových rovin (např. vztah mezi užitým
metrem a frekvencí slovních druhů, komplexnost intervokalických skupin
v klauzulích rýmovaného a nerýmovaného verše atp.).
V první části příspěvku budou nastíněny algoritmy, na jejichž základě
byly jednotlivé roviny anotovány, a představeny volně přístupné nástroje,
které umožňují práci s daty v korpusu obsaženými (Databáze českých meter;
Eufonometr; Frekvenční slovníky české poezie; databáze rýmů Gunstick).
K diskuzi pak budou předloženy metody, jejichž využitím by bylo možné
automatickou anotaci vylepšit.
Ve druhé části příspěvku budou probrány možnosti a limity výzkumu tzv.
zvukové iradiace (srov. Červenka 2002) založeného na statistické analýze klíčových slov a binomickém testu pro detekci nenáhodných hláskových opakování (srov. např. Altmann 1966a).
166
Literatura
Altmann, G. (1966a). The Measurement of Euphony. In J. Levý & K. Palas
(Eds.), Teorie verše I. Brno: UJEP, 259–261.
Altmann, G. (1966b). Binomial Index of Euphony for Indonesian Poetry. Asian and African Studies, 2, 62–67.
Čech, R., Popescu, I. I. & Altmann, G. (2011). Euphony in Slovak lyric poetry.
Glottometrics, 22, 5–16.
Červenka, M. (2002). Hlásková instrumentace. In M. Kubínová & M. Vojtková (Eds.), Pohledy zblízka: zvuk, význam, obraz. Praha: Torst, 7–54.
Ibrahim, R. & Plecháč, P. (2011). Toward Automatic Analysis of Czech Verse.
In B. P. Scherr, J. Bailey & E. V. Kazartsev (Eds.), Formal Methods in Poetics. Lüdenscheid: RAM, 295–305.
Plecháč, P. & Ibrahim, R. (2013). Phonological and Morphological Means
Compensating for Non-Metricality in 19th Century Czech Verse. Prace
Filologiczne, 59 (3), 31–50.
Plecháč, P. & Říha, J. (v tisku). Measuring the Euphony. In Brikovskije čtenija: Metodologija i praktika russkogo formalizma.
Wimmer, G., Altmann, G., Hřebíček, L, Ondrejovič, S. & Wimmerová, S.
(2003). Úvod do analýzy textov. Bratislava: VEDA.
Alena Polická
Masarykova univerzita
[email protected]
K možnostem zkoumání (identitární) neologie
v korpusech
Neologie je bezpochyby koncept obtížně uchopitelný v synchronní dynamice jazyka (Rey 1976, Martincová 1983, Ziková 2001, Boulanger 2010), jak definičně, tak i obsahově. Avšak neologický pocit čtenáře či posluchače (Gardin et al. 1974, Sablayrolles 2000) je prokazatelně faktorem, který motivuje
167
lingvisty v otázkách anachronické reflexe nad kreativně či degenerativně
chápanými lexikálními inovacemi (Odaloš 2005: 6, Polická 2012). V případě
lavinového šíření neologismu vede tato reflexe k potřebě zaznamenat uhnízděný novotvar lexikograficky (Hladká & Martincová 2012), přičemž naděje,
které lexikografové vkládají do již existujících korpusů, jsou uspokojeny jen
částečně (Šulc 2001). V otázce reprezentativnosti jsou do centra problematiky kladeny stylové faktory, sociální původ mluvčích, aj. Pro různé kategorie
neologického lexika (neologismy literární, žurnalistické, profesně odborné a
substandarně identitární) je pak možné pozorovat jak různou rychlost šíření
vůči autoritativnímu centru (Eckert 1997), tak i různou míru zachytitelnosti těchto jevů v rámci stávajících korpusů. Tento příspěvek si klade za cíl
srovnat různé typy neologismů z hlediska sociolingvistického, na materiálu
psanách i mluvených korpusů obecných (série SYN a ORAL) a specializovaných (PMK, BMK). Okrajově bude zmíněn i aspekt překladový, konkrétně na
materiálu francouzsko-českého subkorpusu paralelního korpusu InterCorp
a interního korpusu rapových písní RapCor. Právě identitárně příznakové
neologismy (generačně či zájmově podmíněné) se zdají být kategorií, která
si zaslouží zvýšenou pozornost jak v oblasti dezambiguace častých sémantických neologismů, tak i v oblasti lematizace graficky neukotveného lexika. Příspěvek poukáže na zkušenosti s těmito jevy v kontextu francouzské
lingvistiky a jejích mluvených korpusů. Řešeny budou vybrané lexémy novějšího i staršího data s přihlédnutím k aktuálně řešenému projektu neologických výpůjček.
Literatura
Boulanger, J.-C. (2010). Sur l’existence des concepts de „néologie“ et de „néologisme“. Propos sur un paradoxe lexical et historique. In M. T. Cabré et
al. (Eds.), Actes del I Congrés Internacional de Neologia de les Llengües
Romàniques. Barcelona: IULA, Sèrie activitats, 22, 31-73.
Gardin, B. et al. (1974). A propos du „sentiment néologique“. Langages, 36,
45-52.
Hladká, Z. & Martincová, O. (2012). Slova v soukromých dopisech: lexikografická sonda. Brno: Masarykova univerzita.
Martincová, O. (1983). Problematika neologismů v současné spisovné češtině. Praha: Univerzita Karlova.
168
Odaloš, P. (2005). Slang a argot v 20. a 21. storočí. In Sborník přednášek z
VII. konference o slangu a argotu v Plzni 24.–25. září 2003. 1. vyd. Plzeň:
Fraus, 6–11.
Polická, A. (2012). O současném francouzském slangu a slangové lexikografii. Cizí jazyky, 56 (2), 13–16.
Rey, A. (1976). Néologisme – un pseudo-concept? Cahiers de lexicologie, 28
(1), 3-17.
Sablayrolles, J.-F. (2000). La néologie en français contemporain. Paris: Honoré Champion.
Šulc, M. (2001). Tematická reprezentativnost korpusů. Slovo a slovesnost, 62
(1), 53–61.
Ziková, M. (2001). Ke třem zdrojům lexikálních inovací (Na materiálu substantivních neologismů). In Sborník prací filozofické fakulty brněnské
univerzity. Brno: Masarykova univerzita, 157–167.
Alena Poncarová
Ústav českého jazyka a teorie komunikace FF UK
[email protected]
Sestavování korpusu pro syntaktickou anotaci –
práce na celý život?
Projekt syntaktické analýzy češtiny z hlediska centeringové teorie (např.
Grosz et al. 1995, Walker et al. 1998) je založen na částečně automatické,
částečně manuální anotaci tzv. center pozornosti (Sidner 1981, Brennan et
al. 1987).
Aby bylo možné nárokovat platnost výsledků následné analýzy vzhledem
k českým textům obecně, je nutné nejprve sestavit (nejen žánrově) vyvážený
korpus autentických českých textů. Není možné využít korpusy již existující
(ČNK, PDT) jinak než jako zdroj jednotlivých textů, neboť cílem projektu
Centering a čeština – syntaktická analýza je postihnout obecné principy vý-
169
stavby českého textu bez ohledu na mluvenost vs. psanost, připravenost vs.
nepřipravenost, oficiálnost vs. neoficiálnost apod.
Centeringová teorie, na jejímž základě bude anotace probíhat, vykazuje
několik základních rysů, které jsou určujícími kritérii pro parametry takového korpusu. Prvním z nich je fakt, že centering se zaměřuje na modelování
lokálních vztahů v textu, tj. zaměřuje se na vztahy mezi bezprostředně sousedícími výpověďmi, přičemž jsou vždy modelovány zpětně: značkování aktuální výpovědi vychází ze syntaktického a textového uspořádání výpovědi
předcházející. Z toho vyplývá požadavek kladený na korpus, který výrazně
ovlivní jeho velikost – kritické výpovědi tvoří pouze polovinu pozic korpusu
(ve smyslu počtu výpovědí, je zřejmé, že mezi dvěma bezprostředně následujícími výpověďmi nemusí panovat z hlediska délky, počtu slov, symetrie),
zbytek tvoří pro anotaci nezbytné bezprostředně předcházející výpovědi,
které ale nelze považovat za kritické položky analýzy, neboť k nim není
k dispozici bezprostředně předcházející výpověď. Další charakteristikou,
která ovlivňuje sestavovaný korpus, je metodologický postup, který centeringová teorie uplatňuje – při určování vztahů mezi výpověďmi se zaměřuje
na jejich jmenné části (označujeme je jako jmenné fráze i v případech, kdy
formálně jde o předložkové fráze, pronominalizované subjekty apod.). Kromě těchto dvou základních kritérií vyplývajících z aplikované teorie existují
další otázky – na základě jakého přístupu (Jedlička et al. 1970, Chloupek et
al. 1991, Čechová et al. 2003) stanovit škálu žánrů, funkčních stylů apod.,
které do korpusu zahrnout; jak technicky zpracovat korpus z hlediska spojování textů označkovaných v rámci PDT s texty korpusů ČNK, například
z mluvených korpusů; kolik pozic má korpus mít, aby byla zajištěna jeho výpovědní hodnota a zároveň bylo možné ruční anotaci provést; na které stylové distinkce je možné rezignovat v zájmu usnadnění zpracování a které je
naopak nutné zachovávat; apod.
Všechny tyto problematické oblasti bych ve svém příspěvku ráda zachytila, pokusím se představit i parametry a postup sestavování korpusu, ke kterému se přikláníme. Literatura
Brennan, S., Friedman, M. & Pollard, C. (1987). A centering approach to pronouns. In Proceedings of the 25th Annual Meeting of the ACL. Stanford:
Association of Computational Linguistics, 155–162.
Čechová, M. et al. (2003). Současná česká stylistika. Praha: ISV, 93–105.
170
Grosz, B., Weinstein, S. & Joshi, A. (1995). Centering: A Framework for Modeling the Local Coherence of Discourse. Computational Linguistics, 2,
203–225.
Chloupek, J. et al. (1991). Stylistika češtiny. Praha: SPN, 38–45.
Jedlička, A. et al. (1970). Základy české stylistiky. Praha: SPN, 22–53.
Mikulová, M. et al. (2005). Anotace na tektogramatické rovině Pražského
závislostního korpusu. Anotátorská příručka. Praha: ÚFAL MFF UK.
Nědolužko, A. (2011). Rozšířená textová koreference a asociační anafora.
Koncepce anotace českých dat v Pražském závislostním korpusu. Praha:
ÚFAL MFF UK.
Sidner, C. (1981). Focusing for Interpretation of Pronouns. American Journal
of Computational Linguistics, 7, 217–231.
Walker, M., Joshi, A. & Prince, E. F. (1998). Centering in Naturally-Occuring
Discourse: An Overview. In M. Walker, A. Joshi & E. F. Prince (Eds.),
Centering Theory in Discourse. Oxford: Oxford University Press (Clarendon), 1–25.
Petr Pořízka
Katedra bohemistiky FF UP
[email protected]
Olomoucký mluvený korpus – pilotní verze
Příspěvek představí dlouhodobý projekt (vznikající od r. 2003 dosud) a pilotní verzi Olomouckého mluveného korpusu (dále OMK). Prostor bude věnován
jak teoretickým aspektům (struktuře korpusu, způsobu zpracování transkriptů ad. aspektům), tak praktickým demonstracím (zvolenému korpusovému manažeru, možnostem vytěžování dat atp.). Představen bude rovněž
formát transkriptů i tzv. SVIFT parser, který je určen pro konverzi z textového formátu do XML. Tento korpusový XML formát je základem pro pozdější
praktické využití korpusu – vytěžování dat, neboť umožňuje strukturovat
171
a hierarchizovat jak samotná autentická data, tak transkripty anotovat přiřazenými metadaty. Tato metadata jsou důležitou součástí transkriptů, neboť
jejich prostřednictvím je možno data (transkripty) filtrovat podle různých
kritérií, nejčastěji sociolingvistických parametrů.
Jedním z cílů projektu bylo od počátku vybudovat takovou databázi mluvené češtiny, která by pokud možno co nejkomplexněji a neredukcionisticky odrážela fakticitu i specifika mluvených komunikátů. Transkripty OMK
proto existují ve dvou verzích – je pořizována tzv. duální forma přepisu, (1)
přepis fonetický (reflexe skutečného znění komunikátů: detailní zachycení
segmentální roviny, vč. hláskových změn v proudu řeči; základní aspekty
roviny suprasegmentální: zejm. pauzy a intonační typy z hlediska komunikačně významového) a (2) přepis ortografický (pro potřeby lingvistické
anotace: např. pro pozdější lemmatizaci či další lingvistickou anotaci, zejm.
morfologické značkování):
příklad
ORT protože on si si fakt myslel , že musím mít důvod
FON p+že von s+ si fag+ mis+e:l ->/ že musím _ míd _ dúvot
Oběma textovým formám je předřazena tzv. hlavička dokumentu, v níž
jsou zachyceny (krom jiných aspektů) především sociolingvistické parametry a tematická struktura komunikátů. Mezi sociolingvistické parametry
mluvčích, s nimiž se v OMK pracuje, patří: pohlaví, věk a věkové kategorie,
vzdělání, povolání, místo původu, všechny místa pobytu (vč. časového údaje
o délce pobytu v daných lokalitách), nářeční oblast původu, nářeční oblast
nejdelšího pobytu mluvčího. Se všemi parametry lze při vyhledávání v OMK
pracovat a používat je jako vyhledávací filtry. K těmto parametrům jsou přiřazeny další údaje – rok pořízení komunikátu, jednotlivá témata (fungující
v transkriptu na dílčí tematické sekce) a další relevantní poznámky ke komunikátům: např. vztah mezi mluvčími, popis komunikační situace (je-li pro
komunikát relevantní).
OMK sestává z dvou obsahově i časově odlišných částí:
1. OMK-OL: sběr z let 2003–2007 – nahrávky a transkripty olomoucké městské mluvy; FOR+NEFOR komunikáty (podobně jako v PMK
a BMK - je tu tedy jistá kompatibilita)
172
2. OMK-CZ: sběr z let 2008–dosud – komunikáty s celého území Čech,
Moravy i Slezska
Základním formátem transkriptů je tzv. formát SVIFT (Structured Vertical
and Interlinear Format of Transcription): text v prostém .TXT, strukturovaný
a vícevrstvý, schopný zachytit podstatné aspekty mluvených komunikátů
v samostatných vrstvách. Tento textový formát je konvertován prostřednictvím parseru (svift2xml-parser; http://corpus.upol.cz/svift2xml-parser) do finální podoby anotovaného a strukturovaného XML dokumentu (SVIFT-XML
formát).
Důležitým aspektem kterékoli jazykové databáze je nástroj umožňující její
vytěžování. Z důvodů jisté kompatibility s mluvenými korpusy ČNK jsme se
rozhodli zveřejnit OMK i ve verzi pro korpusový manažer Manatee/(Bonito, NoSketchEngine), přestože implementace do systému Manatee vyžaduje
jisté (redukcionistické) úpravy a práce s paralelním přepisem není v tomto systému ideální. V systému Manatee jsou např. omezené možnosti práce
s paralelním (interaktivním) vyhledáváním dat; není možno v něm zobrazit
komunikát v úplnosti nebo např. vizualizovat „replikovost“ mluvených komunikátů, vč. onoho typické překrývání replik. Tato verze OMK tedy – podobně jako ostatní české mluvené korpusy v systému Manatee – umožňuje
především využívat možností typického konkordančního nástroje.
Hlavním korpusovým nástrojem, který byl pro vytěžování OMK vybrán,
je EXMARaLDA (http://www.exmaralda.org/en_index.html); nástroj, který
adekvátně vizualizuje dialogický charakter komunikátů, vč. specifik mluvenosti (simultánnost/překrývání replik, nonverbální komunikace, kontextová sémantika, metatext), a který zároveň nabízí dostatečné možnosti pro
vytěžování dat. Použit je tzv. partiturní způsob zápisu. Tento multimodální
nástroj je součástí sady nástrojů, která tvoří velmi komplexní korpusový
manažer - viz součásti systému EXMARaLDA:
• CoMa: korpusový manažer, nástroj pro tvorbu korpusu
• Exact: nástroj pro vytěžování dat (vč. filtrování, práce s metadaty, pokročilého dotazovacího jazyka - reguláry, XSL i XPath)
• Partitur Editor: nástroj pro přepis komunikátů
• EXMARaLDA je navíc kompatibilní s většinou podobných multimodálních nástrojů (např. Transana, ELAN, ANVIL, Transcriber) – umožňuje pracovat s transkripty ve formátech jiných partiturních multimodálních nástrojů, příp. umožňuje export; implementován je i fonetický
173
nástroj Praat (což je pro foneticky orientovaný korpus velká deviza);
samozřejmostí tohoto softwaru je možnost integrace audia/videa k jednotlivým transkriptům
Potřebám projektu OMK bude sloužit webový portál http://corpus.upol.cz.
Literatura
Pořízka, P. (2009). Transkripce a sběr dat v korpusech mluvené češtiny. Disertační práce (rkp.). Olomouc.
Pořízka, P. (2009). Olomouc Corpus of Spoken Czech: characterization and
main features of the project. Linguistik online, 38 (2).
Pořízka, P. (2008). Olomoucký mluvený korpus – stav, metodologie, charakteristika. In F. Štícha & M. Fried (Eds.), Grammar and Corpora / Gramatika a korpus 2007. Praha: Academia, 191–198.
Pořízka, P. (2008). Anotace orálních korpusů. Olomoucký mluvený korpus
jako model. In M. Kopřivová & M. Waclawičová (Eds.), Čeština v mluveném korpusu. Praha: NLN, 177–189.
174
Olga Richterová
Ústav Českého národního korpusu FF UK
[email protected]
Anna Čermáková
Ústav Českého národního korpusu FF UK
[email protected]
Jak malá je malá místnůstka? Korpusová studie
deminutivnosti se zaměřením na sémantické
aspekty.
Potenciál vytvářet deminutiva v češtině je obrovský a představuje jednu z jejích svébytných charakteristik: v tomto rozsahu ho najdeme pouze u několika málo dalších jazyků. Škála morfologických možností tvoření deminutiv
je podrobně popsána v hlavních mluvnicích češtiny (Havránek & Jedlička
1981, Daneš et al. 1987, Grepl et al. 1995, Štícha et al. 2013), avšak sémantickým aspektům tohoto jevu se věnuje pozornosti poměrně málo. Nejpodrobněji se jim věnuje Štícha et al. (2013), avšak ani zde se nenabízí systematičtější pohled. V zásadě se u všech autorů, s většími či menšími podrobnostmi,
jedná o konstatování, že deminutiva vyjadřují jednak menší míru vlastnosti,
jak naznačuje jejich název, a dále nabízejí možnost určitého subjektivního
hodnocení (tj. vyjádření pragmatického rozměru). Deminutivní sufixy jsou
také slovotvorné – jde o případy, kdy dochází ke zřetelnému posunu významu (srov. rameno – ramínko).
Tato studie se věnuje specifickému jevu, kdy dochází ke dvojitému zdrobnění a setkává se vedle sebe deminutivní forma morfologická a analytická,
vyjádřená samostatným lexémem. V jakých případech nastává souběh těchto dvou forem a co vyjadřuje z hlediska sémantiky? To je výchozí otázka
představovaného výzkumu. Pro podrobnou korpusovou analýzu tohoto jevu
bylo zvoleno spojení malá místnůstka. Deminutivnost není v korpusech ČNK
označkována a pouhé vyhledání jednotlivých forem si u některých sufixů
žádá časově náročnou manuální analýzu. Infix –ůst- (-ost + -ka) je jedním
z těch případů, kdy výsledky získáváme s vysokou přesností; byl proto zvolen pro podrobnější zkoumání. Objevuje se především u abstrakt (radůstka,
libůstka, slabůstka, drobnůstka, blbůstka, tajnůstka atd. s více než 40 hapaxy
175
– bizarnůstka, chytrůstka atd.) a méně u konkrét (což je samo o sobě netypické, srov. Daneš et al., MČ 2, str. 301). Konkréta spojující se s tímto infixem
v SYNu* frekventovaněji byla pouze čtyři: místnůstka (208 výskytů), pevnůstka (40 výskytů), kůstka (31 výskytů) a bytůstka (19 výskytů). Nápadným
rysem deminutivní místnůstky je přitom častá modifikace adjektivem malý
(a dalšími deminutivními adjektivy: malinká, maličká, nejmenší, menší, maloulinká, malinkatá, případně miniaturní).
Výsledky podrobné, a z hlediska korpusových dat vyčerpávající, sémantické analýzy spojení malá místnůstka budou dále ověřeny z kontrastivního
pohledu na datech InterCorpu ve třech jazycích (angličtina, němčina, finština) (viz také Káňa 2011), z nichž ani jeden nedisponuje příliš bohatým morfologickým systémem pro tvorbu deminutiv. Hlavním cílem práce je tedy
v rámci podrobné případové studie popsat některé ze sémantických funkcí
deminutiv v češtině, jasněji viditelné prostřednictvím dvojitého zdrobnění.
Kombinace morfologického a analytického vyjádření deminutivnosti pak,
nahlédnuta prizmatem překladových řešení, ukáže, zda jsou tyto funkce natolik výrazné, aby byly v překladu (systematičtěji) reflektovány.
Literatura
Daneš, F. et al. (1987). Mluvnice češtiny 2. Praha: Academia.
Grepl, M. et al. (1995). Příruční mluvnice češtiny. Praha: NLN.
Havránek, B. & Jedlička, A. (1981). Česká mluvnice. Praha: Státní pedagogické nakladatelství.
Káňa, T. (2011). Deminutiva a deminutivní vyjádření v češtině, němčině
a angličtině – hledání hranic. In Korpusová lingvistika Praha 2011 – 1
InterCorp. Praha: NLN, 168–185.
Štícha, F. a kol. (2013). Akademická gramatika spisovné češtiny. Praha: Academia.
* Korpus SYN v době vyhledávání – prosinec 2013 – obsahoval následující korpusy: SYN2000,
SYN2005, SYN2010, SYN2006pub, SYN2009pub a dosahoval velikosti 1 568 079 272 pozic.
176
Alexandr Rosen
Ústav teoretické a komputační lingvistiky FF UK
[email protected]
Michala Adamová
Ústav Českého národního korpusu FF UK
[email protected]
Martin Vavřín
Ústav Českého národního korpusu FF UK
[email protected]
Extrakce lexikálních ekvivalentů z paralelního
korpusu
Paralelní korpusy skrývají velké množství informací, které se vyjeví teprve
při srovnání dvou nebo více verzí daného textu. Informace z více verzí se
navzájem doplňují, takže např. víceznačnost obsaženou ve výrazu jednoho
jazyka lze vyřešit pomocí jednoznačného ekvivalentu v jazyce druhém.
Běžně se pracuje se zarovnáním paralelních textů na úrovni vět, které
umožňuje relativně pohodlné kontrastivní zkoumání nejrůznějších jevů na
konkordancích ve dvou a více jazycích způsobem obvyklým u jednojazykových korpusů. Zarovnání na úrovni vět je však pro řadu účelů příliš hrubé.
I metody a nástroje dostupné uživateli jednojazykového korpusu prostřednictvím běžného korpusového manažeru předpokládají práci na úrovni slovních forem, lemmat a morfosyntaktických značek. Pro srovnatelné využití
potenciálu paralelního korpusu tak chybí odpovídající anotace (zarovnání
na úrovni podvětných celků) i nástroje. Trpí tím zejména kontrastivní výzkum lexika.
Automatické metody zpracování paralelních textů však už dnes nabízejí
řešení. Kromě automatického zarovnání po větách lze zarovnávat i kratší
celky, nejčastěji rovnou textová slova (Och & Ney 2003). Přes problémy s
překladem pomocných slov, složenin, víceslovných výrazů, volných parafrází a podstatných slovosledných změn jsou metody k tomu užívané pro řadu
účelů dostatečně spolehlivé. Slouží např. k automatickému hledání lexikálních překladových ekvivalentů (Tiedemann 2000) nebo promítání anotace z
jednoho jazyka do druhého (Padó & Lapata 2009). Automaticky extrahované
177
překladové ekvivalence tak mohou pomáhat jednak lexikografům, překladatelům i běžným uživatelům lépe porozumět výrazům a jejich užití, ale posloužit i dalším automatickým nástrojům.
V rámci pilotní studie na beletristických textech česko-polské části paralelního korpusu (asi 12 mil. slov v každém jazyce) bylo zarovnáno 8,7 mil.
dvojic lemmat, z toho 528 tisíc dvojic bylo různých (Kaczmarska & Rosen
2013). Výsledný slovník (dostupný on-line na adrese http://utkl.ff.cuni.
cz/~rosen/public/cspl_lex/ ) lze třídit a filtrovat podle různých kritérií, včetněfrekvence dvojice lemmat v korpusu. Zatím byl využit pro kontrastivní
analýzu deminutiv, identifikaci chybějících pojmů ve druhém jazyce a hledání ekvivalentů obtížně přeložitelných lexémů.
V tomto příspěvku se věnujeme extrakci překladových ekvivalentů ze
všech česko-cizojazyčných částí korpusu InterCorp, které obsahují nadlimitní počet slov (limit bude ověřen empiricky – je dán vztahem mezi úspěšností
zarovnání po slovech a objemem zpracovávaných textů). Výsledek bude automaticky očištěn od nežádoucích ekvivalencí, které lze detekovat automaticky (např. čísla, interpunkce). Filtrováním podle frekvence lze dále zvýšit
přesnost metody, ale ve výsledku se pak neobjeví také méně frekventované,
ale náležité ekvivalence. Ve výsledných slovnících, dostupných na základě
licence Creative Commons, budou uvedeny frekvence dvojic ekvivalentů
odděleně pro jednotlivé typy textů (beletrie, publicistika, právnické texty,
filmové titulky).
Uživatelům může přinést ještě větší užitek integrace vygenerovaných lexikálních ekvivalencí s vyhledávacím rozhraním. Kromě prostého vyhledávání ekvivalentů v druhém jazyce (spolu s frekvencemi/procenty podle typů
textu) a zvýraznění ekvivalentu klíčového slova v paralelních konkordancích bude možné si slovník v rámci webové služby nechat vygenerovat na
přání z vlastního subkorpusu.
Ukázky využití vygenerovaných slovníků pomocí vyhledávacího rozhraní budou součástí prezentace.
Literatura
Kaczmarska, E. & Rosen, A. (2013). Między znaczeniem leksykalnym a walencją – próba opracowania metody ekstrakcji ekwiwalentów na podstawie korpusu równoległego. Studia z Filologii Polskiej i Słowiańskiej,
48, 103–121.
178
Och, F. J. & Ney, H. (2003). A systematic comparison of various statistical
alignment models. Computational Linguistics, 29(1), 19–51.
Padó, S. & Lapata, M. (2009). Cross-lingual annotation projection of semantic
roles. Journal Artificial Intelligence Research, 36, 307–340.
Tiedemann, J. (2000). Automatical lexicon extraction from aligned bilingual
corpora. Master’s thesis, Otto-von-Guericke-Universität Magdeburg.
Hana Skoumalová
Ústav teoretické a komputační lingvistiky FF UK
[email protected]
Jiří Znamenáček
Filozofická fakulta Univerzity Karlovy
[email protected]
Vladimír Petkevič
Ústav teoretické a komputační lingvistiky FF UK
vladimí[email protected]
Využití valenčních slovníků při tvorbě českého
treebanku
V projektu Treebank češtiny na základě gramatiky budujeme rozsáhlý korpus syntakticky anotovaných textů. Syntaktickou anotaci provádí stochastický MaltParser, který označuje závislosti v syntaktickém stromě a u jednotlivých uzlů vyznačuje jejich syntaktickou funkci. Stochastický parser při
své práci využívá pouze to, co se naučil při tréninku na trénovacích datech
a nijak naopak nevyužívá lingvistické znalosti. V našem projektu jsme se
rozhodli využít existující elektronické valenční slovníky k tomu, abychom
jednak určili typ příslovečného určení a jednak abychom provedli kontrolu
správného označení objektů a příslovečných určení.
179
K dispozici máme tyto valenční slovníky: VALLEX – velmi podrobný
slovník, který obsahuje rámce tří a půl tisíce českých sloves; PDT-Vallex –
slovník obsahující valenční rámce pěti a půl tisíce sloves a dále rámce substantiv a adjektiv vyskytujících se v korpusu PDT. Třetím zdrojem je slovník
vznikající jako vedlejší produkt při pravidlovém značkování Českého národního korpusu. Tento slovník nemá podobu klasického slovníku, ve kterém
jsou sepsána hesla a u každého je soupis jeho vlastností, ale je naopak řazen
podle jednotlivých vlastností (např. sloveso je tranzitivní, vyžaduje objekt
v dativu apod.) a u každé takovéto vlastnosti je seznam sloves s příslušnou
vlastností. Slovníky se pochopitelně překrývají, ale jejich sjednocení obsahuje popis cca 10 tis. sloves.
Výstup z MaltParseru je převeden do formátu PAULA XML, který je jednak jedním ze standardů pro lingvistickou anotaci, jednak slouží jako možný
vstupní formát pro konverzi do korpusového manažeru ANNIS, ve kterém
zpřístupňujeme náš korpus. Během této konverze kontrolujeme správnost
lingvistických funkcí přiřazených jednotlivým uzlům a dále zjemňujeme
označení příslovečných určení – místo značky Advb přiřadíme informaci,
zda jde o časové, místní/směrové, kauzální nebo způsobové příslovečné určení. V budoucnosti je možné pak toto určení ještě dále zjemňovat na další
podtypy těchto určení.
Kontrola lingvistických funkcí a přiřazení typu u adverbiálií se provádí
takto: V analyzovaném stromě zjistíme, jaká je povrchová realizace předpokládaného objektu nebo příslovečného určení, tzn. jaký má tento člen pád,
pád s předložkou, nebo zda je to vedlejší věta, infinitiv atd. Potom ve slovníku vyhledáme všechna doplnění příslušného slovesa, která mohou být realizována příslušným způsobem. Pokud je takový člen pouze jeden a jeho
lingvistická funkce uvedená ve slovníku se shoduje s lingvistickou funkcí
v analyzovaném stromě, znamená to, že lingvistická funkce byla analyzována správně. Pokud jedné povrchové realizaci odpovídá několik členů rámce
ve slovníku a přiřazená lingvistická funkce je v této množině, považujeme
přiřazení lingvistické funkce za správné. V ostatních případech přepíšeme
lingvistickou funkci množinou (disjunkcí) vyhovujících lingvistických funkcí ze slovníku.
Přiřazení typu adverbiále se provádí takto: Nejdříve se snažíme určit,
anebo vyloučit časové určení, které je oproti jiným adverbiáliím specifické
v povrchové realizaci – součástí takového příslovečného určení je obvykle
slovo, které má význam časového okamžiku nebo úseku (hodina, den, rok,
180
Vánoce atd.). Při práci na pravidlové desambiguaci českých textů byl pořízen
vyčerpávající seznam takovýchto slov a je při tomto určování použit. Pokud
nebylo tímto způsobem určeno časové adverbiále, vyhledají se ve slovníku
(stejně jako bylo popsáno výše) všechny typy příslovečných určení, které
odpovídají dané povrchové realizaci. Protože slovníky z řady Vallex obsahují
mnohem podrobnější klasifikaci adverbiálií, než jakou chceme používat my,
sloučíme „příbuzné“ typy do obecnějších nadtypů (adverbiále času, místa,
způsobu, kauzální) a lingvistickou funkci Advb nahradíme množinou výsledných typů.
Literatura
Jelínek T. (2011). Systém pro syntaktické značkování velkých korpusů. In A.
Rosen & V. Petkevič (Eds.), Korpusová lingvistika Praha 2011. 3 Gramatika a značkováníkorpusů. Praha: Nakladatelství Lidové noviny.
Jelínek T., Petkevič V., Rosen A. & Skoumalová H. (2012). Czech Treebanking Unlimited. In Proceedings of the META-RESEARCH Workshop on
Advanced Treebanking 2012. Istanbul: ELRA.
Lopatková M., Žabokrtský Z. & Kettnerová V. (2008). Valenční slovník českých sloves. Praha: Nakladatelství Karolinum.
Urešová Z. (2011). Valenční slovník Pražského závislostního korpusu (PDTVallex). Praha: Dizertační práce MFF UK.
181
Tess Slavíčková
SUNY Empire State College / University of New York in Prague
[email protected]
Investigating nepřizpůsobivý (inadaptable) as
a keyword in critical analysis of Czech press reports
on Roma
Media play an important role, not only in setting the agenda for public discussion of the issues of the day, but also in determining the language and
argumentation strategies that are deployed in such discussion. The linguistic
analysis on which this paper is based (Slavíčková & Zvagulis 2014) considers
rhetorical media representations of actors, processes and actions on “the
Roma issue”, and the authors argue that dysphemistic language and other
exclusionary journalistic practices often pertain to reporting on Roma citizens. In this conference paper, the author looks at the representation of the
Roma minority in the Czech print press , integrating the research discipline
of Critical Discourse Analysis (CDA) (see Reisigl & Wodak 2001) backed up
with data from SYN2013PUB of the Czech National Corpus, as a means of
determining the extent to and ways in which Roma are otherized linguistically.
Corpus data are an invaluable resource whose verifiability provide valuable support to the more speculative and selective analysis of CDA (see
Hardt-Mautner 1995; Gabrielatos & Baker 2008). Such data play an important role at the initial stages of research, by highlighting patterns of salient
keywords and collocations in large quantities of text; and secondly, at a later
stage, by enabling the researcher to focus on these patterns in their actual
context, which can help with empirically valid selection of a much smaller number of texts for closer examination using CDA. SYN2013PUB also
enables cross-checking of keywords across different newspapers to identify
variation in journalistic style. It could also, for example, be used diachronically, either using filters within the same corpus, or contrastively with older
corpora to detect consistency, change or temporary fluctuation in language
use over time.
In this paper, I will present some of the outcomes of a short CDA study
that was initiated by corpus work surrounding the keyword přizpůsobivý
182
(adaptable) and its far more frequently and controversially deployed antonym nepřizpůsobivý (inadaptable) as a typical noun/adjectival descriptor for
Roma (and, to a lesser extent, other socially excluded minorities), and common collocations of its wide range of forms in the Czech print media. This
small example keyword can be used as evidence that, while the concept of
dysphemism typically encompasses explicitly derogatory and usually proscribed naming strategies, at the micro-text level it can also include more
common “acceptable” (i.e. legally or ethically permissible, or euphemistic/
dysphemistic) stereotyping devices. The use of a corpus can also provide
information such as whether a keyword occurs predominantly in quotations used by journalists as informants or in other unattributed contexts, or
whether it is used more frequently in some newspapers rather than others.
As a component of CDA, corpus data can be seen as an empirical tool that
functions as a basis for further extended media research. This can include
the semantic analysis of, for example, inclusionary/exclusionary pronoun
use, topoi, weak modality or stylistic features such as metaphor and cliché,
as well as broader text-related issues such as narrative structure. In this way,
a single keyword can open up for analysis a more manageable but safely
representative range of relevant texts.
References
Reisigl, M. & Wodak, R. (2001). Discourse and Discrimination: Rhetorics of
Racism and Anti-semitism. London: Routledge.
Gabrielatos, C. & Baker, P. (2008). Fleeing, Sneaking, Flooding: A Corpus
Analysis of Discursive Constructions of Refugees and Asylum Seekers
in the UK Press, 1996–2005. Journal of English Linguistics, 36 (1), 5–38.
Hardt-Mautner, G. (1995). Only connect: Critical Discourse Analysis and
Corpus Linguistics. UCREL Technical Papers, vol. 6, UCREL-University
of Lancaster, UK.
Slavíčková, T. & Zvagulis, P. (2014, forthcoming). Monitoring anti-minority
rhetoric in the Czech print media: A critical discourse analysis. Journal
of Language and Politics.
183
Jindra Světlá
Ústav pro jazyk český AV ČR
[email protected]
Uvádění stupňovaných tvarů u adjektiv a adverbií
v novém všeobecném výkladovém slovníku češtiny
V roce 2012 byly zahájeny práce na Akademickém slovníku současné češtiny
(ASSČ), který má obsahovat 120 000 až 150 000 slovníkových hesel. Ve slovníku je omezeno hnízdování (přihnízdovány jsou pouze zdrobněliny a jména přechýlená); všechna adjektiva (včetně vztahových) a adverbia budou
zpracována jako samostatná hesla. Každé heslo obsahuje strukturovaný výklad významu, přiměřeně bohatou exemplifikaci dokumentující typická užití
dané lexikální jednotky, propracovaný popis základních sémantických vztahů i rozšířený popis gramatických vlastností. Konkrétně u adjektiv to znamená, že vedle údaje o slovním druhu uvádíme navíc též informace o stupňování. Slovník spisovného jazyka českého (SSJČ) a Slovník spisovné češtiny
(SSČ) uváděl pouze nepravidelné tvary, popř. specifika některého významu;
poprvé je důsledně uvádí Slovník súčasného slovenského jazyka (SSSJ), a to
v záhlaví, pokud platí pro všechny významy, nebo u konkrétního významu.
V Akademickém slovníku současné češtiny u stupňovatelných adjektiv uvádíme 2. stupeň (včetně kodifikované variantní podoby) v rámci tvaroslovné
charakteristiky, a to nejen na základě Internetové jazykové příručky – vše
zároveň ověřujeme na materiálu psaných textů, zda je to opravdu doloženo
(a v některých případech nejsme s IJP v souladu); u adjektiv vztahových
uvádíme tento údaj v případě lexikalizace kvalifikačního významu (k základním typovým kvalifikačním významům primárně vztahových adjektiv
patří význam charakteristické vlastnosti a význam podobnosti; indikátorem
kvalifikačních významů je právě stupňovatelnost). Stejná pravidla platí pro
příslovce, avšak u nich informaci o stupňovatelnosti uvádíme pouze tehdy,
je-li tvar 2. nebo 3. stupně v námi používaných zdrojích opravdu doložen.
Na základě podrobné analýzy materiálu u zpracovaných hesel z písmen A,
B jsme došli k závěru, že u všech polysémních hesel je navíc třeba vyhodnocovat, zda lze adjektivum opravdu stupňovat ve všech významech, a podle
toho se teprve rozhodujeme, kam příslušný údaj uvedeme. Tvar 2. stupně se
tedy uvádí v záhlaví, pokud se vztahuje k celé lexikální jednotce, tj. platí pro
184
všechny významy. Pokud platí jen pro některý význam polysémního slova,
uvádí se v tvaroslovné charakteristice na úrovni významu. Takové případy
(platnost jen pro některý význam) důsledně exemplifikujeme. U ostatních
stupňovatelných adjektiv rozhodujeme o uvedení příkladů na stupňované
tvary v příkladové části hesla (exemplifikaci) na základě různých faktorů,
nejen podle doloženosti 2. či 3. stupně v korpusu syn či jinde (Newton, internet), ale i podle celkové frekvence daného lemmatu, podle počtu a charakteru jeho významů, podle vhodnosti dokladů pro slovníkové heslo z hlediska
jejich délky, typičnosti, jednoznačnosti atd. Důležitým aspektem je i časová
náročnost výběru a ověřování vhodných příkladů ve vztahu k celkové zpracovatelské normě na jedno slovníkové heslo.
Při analýze materiálu vycházíme především z korpusových zdrojů. Základní
materiálovou základnou pro zpracování hesel v připravovaném Akademickém
slovníku současné češtiny je synchronní korpus psaných textů SYN (ÚČNK).
V případě nedostatečnosti korpusového materiálu pro naše potřeby, tj. dokládání úzu, čerpáme i z elektronického archivu společnosti Newton Media, a. s.
(archivu celostátních i regionálních tištěných periodik a přepisů publicistických
pořadů z televize a rozhlasu), v nezbytných případech dohledáváme potřebná
data i na internetu (pomocí vyhledávače Google). Práce s korpusovým materiálem je při zpracování hesla založena v zásadě na kombinaci dvou postupů:
1. práce s náhodným vzorkem 300 konkordancí, na jejímž základě vyhodnocujeme sémantickou strukturu lexému v porovnání se slovníkovými
zdroji; pro málo či nedostatečně doložené významy zadáváme speciální dotazy, nebo tyto významy ověřujeme a dohledáváme k nim vhodné
doklady v jiných zdrojích; u lemmat s nižší frekvencí (do 400/500 výskytů v korpusu SYN) prohlížíme všechny konkordance;
2. práce s nástrojem Word Sketch (dále WS) aplikace The Sketch Engine,
na jejímž základě vyhodnocujeme typické kolokace a kandidáty na víceslovná pojmenování a frazémy;
3. Základní zpracování hesel vychází z analýzy konkordancí vztahujících
se k lemmatu, kdežto pro vyhodnocení stupňovatelnosti adjektiv používáme navíc blíže specifikované dotazy.
V příspěvku se dále budeme podrobněji zabývat těmito tématy:
• frekvence 2. a 3. stupně v korpusu a dalších zdrojích;
• vhodnost korpusových dokladů pro slovníkové heslo (problémy s výběrem příkladů pro exemplifikaci, nejčastější konstrukce v použitých
185
příkladech, jednoznačnost příkladů se stupňovanými tvary v rámci
konkrétního významu);
• stupňovatelnost u polysémních hesel (platnost informace o stupňování
na úrovni celého hesla, nebo jednotlivých významů);
• paralelnost zpracování dvojic adjektivum – adverbium v rámci slovotvorného hnízda (do jaké míry bývá stupňování doloženo v úzu);
• na závěr příspěvku se zaměříme na problematiku adjektiva brzký
a vztahu mezi tvary brzčejší a dřívější (gramatické příručky a jednotlivé
výkladové slovníky k nim přistupují různě).
Literatura
Bozděchová, I. (1990). Ke stupňování složených přídavných jmen. Naše řeč,
73, 241–248.
Buzássyová, K. (1989). Potencie a smery pohybov v adjektívnej lexike. In Dynamika slovnej zásoby súčasnej slovenčiny. Bratislava: VEDA, 169–179.
Cvrček V. a kol. (2010). Mluvnice současné češtiny. Praha: Karolinum.
Jarošová, A. (2008). Spracovanie adjektív v Slovníku súčasného slovenského jazyka s osobitným zretelom na andektíva vzťahové. In Lexikografie
v kontextu informační společnosti. Praha: ÚJČ AV ČR, 59–72.
Karlík, P. & Hladká, Z. (2004). Kam s ním? (Problém stupňování adjektiv). In
Život s morfémy. Brno: MU, 73–93.
Kopřivová, M. (2005). Malé adjektivní korpusové pozorování. In Jazyky a jazykověda. Praha: FF UK – ÚČNK, 307–312.
Křivan, J. (2012). Komparativ v korpusu: explanace morfematické struktury
českého stupňování na základě frekvence tvarů. SaS, 1, 13–45.
Nábělková, M. (2008). Futbalový, futbalovejší a iné... In Lexikografie v kontextu informační společnosti. Praha: ÚJČ AV ČR, 73–93.
Nábělková, M. (1997). Slovotvorná potencialita a lexikálna norma. In Slovenčina na konci 20. storočia, jej normy a perspektívy. Sociolinguistica
slovaca 3. Bratislava: VEDA.
Nábělková, M. (1993). Vzťahové adjektíva v slovenčine. Bratislava: VEDA.
Panevová, J. (2007). Stupňování adjektiv a valence. In Gramatika a korpus.
Praha: ÚJČ AV ČR, 197–205.
Štícha, F. a kol. (2013). Akademická gramatika spisovné češtiny. Praha: Academia.
186
Karel Šebesta
Ústav českého jazyka a teorie komunikace FF UK
[email protected]
Využití speciálních korpusů Českého národního
korpusu pro výzkum jazykového vývoje žáků
Mezi synchronními korpusy zařazenými do Českého národního korpusu
v posledních letech najdeme i specifickou skupinu speciálních korpusů zaměřených na jazyk osob, které si češtinu (dosud) neosvojily na úrovni odpovídající úrovni dospělého rodilého mluvčího.
Jde primárně o korpusy (a) jazyka mládeže ve věku školním, a to mluvy vernakulární i mluvy zachycené v prostředí oficiálním či polooficiálním
a rovněž písemných projevů různého stupně formálnosti, (b) jazyka nerodilých mluvčích (dětí, mládeže i dospělých, opět zachyceného v různých
prostředích), (c) jazyka osob vyrůstajících v sociokulturně znevýhodňujícím
prostředí; připravují se a v různém stavu rozpracovanosti jsou korpusy (d)
jazyka dětí předškolního věku a (e) jazyka osob s jazykovými poruchami.
Sekundárně patří do této skupiny speciálních korpusů rovněž korpusy
zachycující jazyk komunikace, která je s jazykovým vývojem uvedených
skupin osob přímo spjata, jako jsou (a) rozhovory rodičů s dětmi, především předškolního věku, (b) pedagogická komunikace ve škole mateřské,
v základních školách i v dalších typech a stupních škol, (c) komunikace v jazykové třídě (zvláště při vyučování cizího jazyka) či jazyk učebnic, zvláště
jazykových.
Korpusy uvedeného typu mají význam ne pouze pro lingvisty a badatele
v oblasti osvojování jazyka a jazykového vývoje (viz H. Behrens), ale rovněž
pro psychology, pedagogy a sociology se zájmem o příslušné skupiny osob,
resp. různé typy pedagogické komunikace, a ovšem také pro edukační praxi
– zde lze uvést např. přípravu učebních materiálů, slovníků a učebnic pro
žáky, které by byly lépe přizpůsobeny jejich úrovni a specifickým potřebám,
přípravu testů, ale i přímé využití při výuce (viz např. A. O´Keeffe; M. McCarthy; R. Carter).
Zatím bylo (resp. k datu konání konference bude) zveřejněno šest těchto korpusů: korpus přepisů nahrávek vyučovacích hodin na českých základních a středních školách SCHOLA 2010, dále korpus písemných prací
187
českých žáků základních a středních škol, a to jednak v základní verzi, bez
chybového značkování (SKRIPT 2012), jednak s provedenou chybovou anotací (SKRIPT 2014), nereferenční korpus psaného jazyka nerodilých a zčásti
rodilých mluvčích CZESL-PLAIN bez metadat, rozšířený korpus písemných
projevů nerodilých mluvčích s metadaty a nezbytnou anotací CZESL 2013
a korpus písemných projevů žáků ze sociokulturně znevýhodněných komunit uvedených souběžně s písemnými projevy žáků týchž věkových skupin
z většinové, nehandicapované komunity ROMi 2014.
Příspěvek se pokusí ukázat na dvou příkladech, jaké nové možnosti poznání jazykového vývoje žáků ve věku školní docházky zveřejněné korpusy
nabízejí. Půjde zejména:
• o zkoumání vývoje v oblasti psané syntaxe, kde máme možnost porovnání s analogickými výzkumy zahraničními (R. Berman, M. Nippold
apod.) i s některými staršími výzkumy domácími, které se ovšem nemohly opírat o využití elektronických korpusů (např. M. Klimeš, M.
Kala/M. Benešová apod.);
• o zkoumání toho, jak se s věkem žáka mění jeho způsob práce s některými variantními prostředky češtiny, především s prostředky označovanými jako spisovné a obecněčeské.
Příspěvek zároveň ukáže na některá omezení zatím zveřejněných spe­
ciálních korpusů, založených v zásadě na sběrech transverzálních a pseudolongitudinálních, a představí nový, aktuálně probíhající projekt budování
longitudinálních korpusů psané a mluvené češtiny školní mládeže, rodilých
i nerodilých mluvčích, s důrazem na nové prvky, které tyto korpusy v porovnání s korpusy dosud existujícími přinášejí. Vedle povahy jazykového
materiálu a částečně odlišné struktury metadat půjde zejména i o nový typ
zpracování jazykových dat, který otevře, jak doufáme, i nové možnosti badatelského využití.
Literatura
Behrens, H. (Ed.) (2008). Corpora in language acquisition research. History,
methods, perspectives. Amsterdam: John Benjamins.
Berman, R. A. (Ed.) (2004). Language development across childhood and adolescents. Trends in language acquisition research: Vol. 3. Amsterdam:
John Benjamins.
Kala, M. & Benešová, M. (1989). Písemný a mluvený projev žáků ZŠ. Olomouc: Pedagogická fakulta Univerzity Palackého v Olomouci.
188
Klimeš, L. (s. n.). Vývoj písemných projevů žáků ZDŠ. Habilitační práce, nepubl.
Nippold, M. A. (1998). Later language development: The school age and adolescent years. 2nd ed. Austin, TX: Pro-Ed.
O´Keeffe, A., McCarthy, M. & Carter, R. (2007). From corpus to classroom.
Language use and language teaching. Cambridge: Cambridge University
Press.
Magda Ševčíková
Ústav formální a aplikované lingvistiky MFF UK
[email protected]
Přípona -ství/-ctví v současné češtině (korpus jako
zdroj dat pro zkoumání slovotvorby)
V příspěvku na příkladu přípony -ství/-ctví představíme možnosti slovotvorného výzkumu založeného na korpusových datech, navazujeme přitom
na novější práce českých lingvistů z oblasti slovotvorby. Přípona -ství/-ctví
je zajímavá jak z hlediska distribuce (odvozuje od adjektivních i substantivních základů domácího i cizího původu) i z hlediska sémantiky (vyjadřuje
více významů než např. přípona -ost, která zkoumané příponě konkuruje ve významu vlastnosti).
Při naší analýze vycházíme z popisu této přípony ve slovotvorných příručkách. Přípona -ství/-ctví bývá řazena mezi transpoziční přípony odvozující
názvy vlastností (Dokulil 1962: 43n., Cvrček et al. 2010: 85, Čermák 2012: 249),
a to od adjektiv s příponou -ský/-cký, zřídka od jiných adjektiv (př. bohatství,
lakomství; Daneš et al. 1967, Hauser 1986: 128, Grepl et al. 2000: 138n.). Některé deriváty (př. opilství / opilectví) jsou některými autory interpretovány jako
produkty desubstantivní derivace, názory jednotlivých autorů se zde ovšem
různí (srov. Šmilauer 1971: 63, Dokulil et al. 1986: 297n., Cvrček et al. 2010:
95, Čermák 2012: 74n., Štícha et al. 2013: 140n.). Kromě významu vlastnosti
189
se řada substantiv s touto příponou specializuje na označení oboru činnosti,
povolání, prodejny či provozovny, rodinného stavu, území, myšlenkových,
uměleckých, politických a náboženských směrů ad. (př. řeznictví, instalatérství, hutnictví, sochařství, manželství, království, křesťanství). Z hlediska produktivity je analyzovaná přípona v kategorii názvů vlastností řazena na druhé místo, za příponou -ost (Dokulil a kol. 1986: 297, Hauser 1986: 128).
Naši analýzu zakládáme na datech z reprezentativních korpusů češtiny
(SYN2000, SYN2005 a SYN2010), pro doplnění a komparaci využíváme korpusy publicistických textů (SYN2006PUB, SYN2009PUB a SYN2013PUB).
Korpusové doklady derivátů s příponou -ství/-ctví analyzujeme především
z hlediska sémantického (vedle významu vlastnosti vymezujeme několik
nekvalitativních významů, frekventovaný je význam myšlenkových, uměleckých, politických a náboženských; řada derivátů význam vlastnosti nevyjadřuje) a stylového. Podrobně se zabýváme stanovením základového slova:
kromě derivátů, které lze vztáhnout k adjektivnímu i substantivnímu základu, si všímáme derivátů, jejichž základem mohou být dvě adjektiva (př.
těhotenství: těhotný / těhotenský), a derivátů, k nimž základové adjektivum
neexistuje nebo je řídké (a lze ho spíše interpretovat jako derivát substantiva na -ství/-ctví; př. výtržnictví: výtržník / ?výtržnický). Pozornost věnujeme
také původu základového slova.
Tato analýza je doplněna analýzou kvantitativních údajů: zjišťujeme počet výskytů slov obsahujících zkoumanou příponu, celkový počet odpovídajících lemmat a také počet lemmat, která mají v korpusových datech jediný
výskyt (tedy lemmata doložená jedinou formou, tzv. „hapax legomena“, Baayen 1992). Na základě těchto údajů je s použitím etablovaných kvantitativním měr (míry P a P*, Baayen 1992, 1993; míra P je nově implementována
v aplikaci Morfio pracující s daty ČNK, Cvrček & Vondřička 2013) stanovena
produktivita přípony -ství/-ctví a porovnána s dalšími příponami uplatňujícími se (mimo jiné) v názvech vlastností, konkrétně s příponami -ost, -ismus
a -ita. Podle míry P, která je vypočtena jako poměr počtu hapax legomena
s daným formantem k celkovému počtu forem s tímto formantem v daném
korpusu, je přípona -ství/-ctví méně produktivní než přípona -ost, ale také
než -ismus. Na základě míry P* (poměr hapax legomena s daným formantem k počtu všech hapax legomena v daném korpusu) se přípona -ství/-ctví
v porovnávané čtveřici řadí za příponu -ost na druhé místo. V příspěvku poukážeme na problémy tohoto kvantitativního přístupu k slovotvorné produktivitě – vedle obecnějších výhrad důkladně diskutovaných v evropské
190
lingvistice (srov. např. Štekauer & Lieber 2005, Bauer 2001) uvedeme i problémy specifické pro češtinu – a produktivitu zkoumané přípony se pokusíme posoudit na základě kombinace analýzy systémových aspektů s kvalitativními charakteristikami (srov. Štícha 2012, 2007; Lüdeling & Evert 2005).
Zabýváme se rovněž dvojicemi (až čtveřicemi) slov, která jsou od stejných
základů derivována konkurujícími si příponami (př. zoufalství vs. zoufalost,
pastafariánství vs. pastafarianismus, intelektuálství vs. intelektuálnost vs. intelektualismus vs. intelektualita). Korpusový materiál ukazuje, že přípona
-ství/-ctví se prosazuje i v kombinaci s cizími základy (př. pastafariánství),
a to i v případech, kdy byla do češtiny převzata varianta se sufixem cizího
původu (užívaná v cizích jazycích: pastafarianismus).
Grantová podpora:
Tento příspěvek vznikl za podpory projektu GA ČR P406/12/P175.
Literatura
Baayen, H. (1992). Quantitative aspects of morphological productivity. In G.
E. Booij & J. van Marle (Eds.), Yearbook of Morphology 1991. Dordrecht:
Kluwer, 109–149.
Baayen, H. (1993). On frequency, transparency, and productivity. In G. E.
Booij & J. van Marle (Eds.), Yearbook of Morphology 1992. Dordrecht:
Kluwer Academic Publishers, 181–208.
Bauer, L. (2001). Morphological Productivity. Cambridge: Cambridge University Press.
Cvrček, V. , Kodýtek, V., Kopřivová, M., Kováříková, D., Sgall, P., Šulc, M.,
Táborský, J., Volín, J. & Waclawičová, M. (2010). Mluvnice současné češtiny. Praha: Karolinum.
Cvrček, V. & Vondřička. P. (2013). Nástroj pro slovotvornou analýzu jazykového korpusu. In Grammar & Corpora / Gramatika a korpus 2012.
Hradec Králové: Gaudeamus.
Čermák, F. (2012). Morfématika a slovotvorba češtiny. Praha: NLN.
Český národní korpus – SYN2000. (2000). Praha: Ústav Českého národního
korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.
Český národní korpus – SYN2005. (2005). Praha: Ústav Českého národního
korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.
Český národní korpus – SYN2010. (2010). Praha: Ústav Českého národního
korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.
191
Český národní korpus – SYN2006PUB. (2006). Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.
Český národní korpus – SYN2009PUB. (2009). Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.
Český národní korpus – SYN2013PUB. (2013). Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.
Dokulil, M. (1962). Tvoření slov v češtině 1: Teorie odvozování slov. Praha:
Nakladatelství ČSAV.
Dokulil, M., Horálek, K., Hůrková, J., Knappová, M., Petr, J. et al. (1986).
Mluvnice češtiny 1. Fonetika, fonologie, morfonologie a morfematika,
tvoření slov. Praha: Academia.
Daneš, F., Dokulil, M. & Kuchař, J. (1967). Tvoření slov v češtině 2: Odvozování podstatných jmen. Praha: Nakladatelství ČSAV.
Grepl, M., Hladká, Z., Jelínek, M., Karlík, P., Krčmová, M., Nekula, M., Rusínová, Z. & Šlosar, D. (2000). Příruční mluvnice češtiny. Druhé, opravené
vydání. Praha: NLN.
Hauser, P. (1986). Nauka o slovní zásobě. Druhé vydání. Praha: SPN.
Lüdeling, A. & Evert, S. (2005). The emergence of productive non-medical
-itis. Corpus evidence and qualitative analysis. In S. Kepser & M. Reis
(Eds.), Linguistic Evidence. Empirical, Theoretical and Computational
Perspectives. Berlin – Boston: Mouton De Gruyter, 351–370.
Šmilauer, V. (1971). Novočeské tvoření slov. Praha: SPN.
Štekauer, P. & Lieber, R. (Eds.). (2005). Handbook of Word-Formation. Dordrecht: Springer.
Štícha, F. (2007). Korpusové statistiky a slovotvorná produktivita. In F. Štícha
& J. Šimandl (Eds.), Grammar & Corpora / Gramatika a korpus 2005.
Praha: Academia, 250–257.
Štícha, F. (2012). Jak v epoše elektronických korpusů následovat Miloše Dokulila (Miloši Dokulilovi ke stému výročí narození). Jazykovědné aktuality, 49, 95–107.
Štícha, F., Vondráček, M., Kolářová, I., Hoffmannová, J., Bílková, J. & Svobodová, I. (2013). Akademická gramatika spisovné češtiny. Praha: Academia.
192
Mária Šimková
Slovenský národný korpus JÚĽŠ SAV
[email protected]
Predložky s časovým významom v slovenčine
a v češtine
Na vyjadrenie časových významov slúžia v jazyku rôzne prostriedky, v rámci lexikálnych prostriedkov aj predložky. Predložkové systémy a podsystémy zároveň predstavujú dôležitú tému v oblasti porovnávacích výskumov,
zisťovania jazykových univerzálií, ako aj zhôd a rozdielov v príbuzných
jazykoch. V príspevku porovnávame podsystém predložiek s časovým významom v slovenčine a v češtine na základe slovníkových a gramatických
opisov a na základe fungovania v rovnakých textoch v paralelnom slovensko-českom a česko-slovenskom korpuse.
Slovenčina a čeština disponujú pomerne stabilným a do značnej miery
podobným inventárom prvotných predložiek (napr. do, z, v, na, k, u, s, pred/
před, za, po, o), viaceré z nich slúžia aj na vyjadrenie časových vzťahov. Ich
konkrétne významy a použitia však nie sú v týchto jazykoch vždy totožné,
napr. sl. o chvíľu – čes. za chvíli, sl. o šiestej – čes. v šest, čes. o Vánocích –
sl. na Vianoce, cez Vianoce. Kým „o Vianociach“ v časovom význame (= počas
Vianoc) sa v slovenčine nepoužíva, predložkové spojenia „za chvíľu, za hodinu, za tri minúty sedem“ môžeme zaradiť medzi kontaktové javy, ktoré
slovenskí hovoriaci používajú, hoci sú sústavne upozorňovaní, aby na dané
vyjadrenie časového významu uplatňovali náležitú predložku o. Zároveň
však v slovenčine funguje v časovom význame aj predložka za, ktorou sa
vyjadruje v spojení s niektorými substantívami v G časový priebeh (za noci,
za mlada) a v A časový rozsah (urobiť niečo za chvíľu = rýchlo // prísť o chvíľu
= po uplynutí chvíle).
V obidvoch jazykoch sa časové významy môžu vyjadrovať predložkovými väzbami aj príslovkovými výrazmi utvorenými pomocou predpôn
(napr. za rána, zrána). V paralelných korpusoch sa neraz vyskytuje kríženie potenciálnych zhodných ekvivalentov v rovnakých textoch, napr. oproti
sl. za rána je čes. zrána, sl. k večeru – čes. navečer a opačne oproti sl. zrána je
čes. za rána, sl. podvečer/navečer – čes. k večeru. Môžeme pri týchto prípadoch uvažovať o snahe prekladateľa nepoužiť v preklade formálne rovnaký
193
jazykový prostriedok, hoci je systémový aj funkčný (v slovenčine a češtine
ako blízkopríbuzných jazykoch je takýchto slov značné množstvo), ale aspoň
trochu odlíšiť, variovať preklad oproti originálu.
V rámci druhotných predložiek sledujeme výraznejšiu tendenciu k diferencovanosti, keď oproti jednému výrazu v jednom jazyku stoja/používajú
sa viaceré výrazy alebo opisné spôsoby, alebo aj nulové vyjadrenia v druhom
jazyku. Napr. na mieste predložky počas, ktorá sa v tejto forme vyskytuje
iba v slovenčine, sa v paralelných českých textoch nachádzajú predložky
a spojenia v(e), za, během, při, Ø, po čas, mezi, o. K uvedeným českým predložkám existujú v spisovnej slovenčine príslušné pendanty okrem kontaktového „behom“, ktoré v časovom význame odporúčajú slovenské slovníky
nahradiť slovenskými predložkami v priebehu, počas, cez, za. Pri prekladoch
nastávajú aj situácie, keď výpoveď v origináli neobsahuje časovú predložku,
autor pracuje s významom miery, no prekladateľ vsunutím časovej predložky posunie význam výpovede:
V treskúcej zime , v ktorej dokonca zamrzol Dunaj tak , že sa po ňom dalo
prejsť , zvolil snem za uhorského kráľa Mateja Huňadyho , zvaného Korvín ,
podľa havrana v znaku . -- V třeskuté zimě , během níž dokonce zamrzl Dunaj
tak , že se po něm dalo přejít , zvolil sněm za uherského krále Matyáše Hunyada
, zvaného Korvín , podle havrana ve znaku .
Pre slovenčinu typické podvojné (poza, popred), ba aj potrojné predložky
(spopod, spopred) nemajú spravidla v českom jazyku zodpovedajúci jednoslovný ekvivalent, v prekladoch slovenských textov do češtiny sa musia nahrádzať jednoduchými predložkami alebo rôznymi opismi:
Julčine vety v ňom znovu najprv nechtiac privolávali pachy spred desaťročí
... -- Julčiny věty mu znovu , zprvu nechtěně přivolávaly pachy staré několik
desetiletí ...
194
Jana Šindlerová
Ústav formální a aplikované lingvistiky MFF UK
[email protected]
Alternace aktoru a instrumentu v paralelním českoanglickém korpusu
V příspěvku se budeme zabývat jedním typem rozdílu v zachycení valenčních struktur v českém a anglickém valenčním slovníku a paralelním českoanglickém syntakticky anotovaném korpusu. Syntakticky jde o konstrukce,
které se projevují např. v tzv. alternaci subjektu a instrumentu (InstrumentSubject Alternation) (1), alternaci subjektu a abstraktní příčiny (Abstract
Cause-Subject Alternation) (2) nebo alternaci subjektu a locata (Locatum
Subject Alteranation) (3) (Levin 1993). Vzhledem k hloubkové valenci jde
o dvojí možnou valenční strukturaci slovesa, přičemž vnější (non-core) argument přechází do pozice vnitřního (core) argumentu, a zároveň dochází
k dekauzativizaci významu, tj. odsunutí původního aktora do pozadí situační perspektivy.
(1a) Pavel otevřel dveře čipovou kartou.
(1b) Čipová karta otevřela dveře.
(2a) Pavel ohromil Petra svými znalostmi.
(2b) Pavlovy znalosti Petra ohromily.
(3a) Pavel zaplnil krabici věcmi.
(3b) Věci zaplnily krabici.
Vycházíme z dlouhodobého výzkumu rozdílů valence sloves v češtině
a angličtině na materiálu paralelního Pražského česko-anglického závislostního korpusu (Hajič et al. 2011), s využitím doplňkových zdrojů valenčních
charakteristik českých a anglických sloves, jmenovitě elektronických valenčních slovníků PropBank (Kingsbury et al. 2002), Verbnet (Schuler 2005), Framenet (Ruppenhoffer et al. 2006), VALLEX (Lopatková et al. 2008), Engvallex
(Cinková 2006) a PDT-Vallex (Urešová 2011b). Při syntakticko-sémantické
analýze valenčních vztahů budeme vzhledem k charakteru korpusových dat
používat zejména terminologii funkčního generativního popisu (FGP) (Urešová, 2011a) a doplňkově též terminologii běžně užívanou v dalších známých
přístupech k teorii argumentové struktury.
195
Konstrukce alternujícího aktoru (ACT) a instrumentového doplnění (MEANS) představují specifický problém v rámci vzájemného mapování valenčních struktur v paralelním korpusu. Zatímco model FGP při zpracování českých závislostních dat nepočítá s rozdílem mezi alternujícími vyjádřeními
tohoto druhu jakožto se signifikantním rozdílem vynucujícím zachycení
dvěma samostatnými valenčními rámci, a tudíž přiřazuje ve slovníku PDTVallex strukturám typu (1a) i (1b) tentýž valenční rámec ACT PAT (v případě
slovníku VALLEX pak ACT PAT MEANStyp), anglický valenční slovník Engvallex, konvertovaný do modelu FGP z původního amerického valenčního
slovníku PropBank Lexicon, tento rozdíl zachycuje dvěma valenčními rámci,
ACT PAT vs. ACT PAT ?MEANS. Je proto možné v datech nalézt ekvivalentní překlady věty typu (4a) větami typu (4b) a (4c), v nichž při zachycování propojení valenčních struktur dochází ke konfliktu vzhledem k premise,
že při propojování dvou konkrétních rámců lze nalézt pouze jediné možné
namapování jednotlivých doplnění rámce. Tato premisa vychází z pojetí,
v němž se rozlišuje strukturní a situační význam slovesa, přičemž jednomu situačnímu významu lze přiřadit více významů strukturních, které se
liší např. pravdivostními podmínkami a jsou jednoznačně určeny valenčním
rámcem. Změny ve valenci jsou pak vždy indikátorem změny strukturního
a/nebo situačního významu.
(4a) Paul astonished Peter with his knowledge.
(4b) Pavel ohromil Petra svými znalostmi.
(4c) Pavlovy znalosti Petra ohromily.
Přitom je nutno mít na paměti, že existují slovesa, v jejichž případě je
instrumentálem vyjádřený situační participant považován i v teorii FGP
za argument (vnitřní doplnění slovesa), na rozdíl od doplnění typu MEANS,
jež jsou v teorii FGP považována vždy za adjunkt. V takových případech
pak ve valenčním slovníku existují dva samostatné valenční rámce, viz (5a)
a (5b).
(5a) Tomáš.ACT nahradil manželku.PAT milenkou.EFF.
(5b) Milenka.ACT nahradila (Tomášovi.ADDR) manželku.PAT.
Specificky se rozdílné mapování projevuje i v pasivních konstrukcích
typu (6), kde při syntaktických anotacích anglických vět není jasné, zda je
participant vyjádřený instrumentálem původním aktorem (ACT) nebo instrumentem (MEANS), tj. je-li podkladovou strukturou pro pasivizaci věta
(1a), či (1b).
(6) Dveře byly otevřeny čipovou kartou.
196
V článku se budeme věnovat detailnímu rozboru konstrukcí s alternací
doplnění ACT a MEANS z hlediska syntaktického a sémantického. Zaměříme se na analýzu jednotlivých situačních participantů a jejich syntaktických
ekvivalentů, zejména v pozici „neagentního subjektu“ (Alexiadou et al. 2006)
a v pozici předložkové fráze v pasivní konstrukci (s přihlédnutím k typu
a sémantice užitých předložek). Výše zmíněné konstrukce porovnáme s dalšími blízkými strukturami, např. obsazením aktorové pozice nepersonálním
původcem děje (7a, b).
(7a) Petra zabil blesk.
(7b) Petr byl zabit bleskem.
Pokusíme se stanovit a zdůvodnit, zda se jedná o dvě instance jednoho
valenčního rámce (jak je to v současnosti zachyceno ve slovníku PDT-Vallex), nebo je-li vhodné na úrovni valenčních rámců obě alternující struktury
rozlišovat (varianta dle Engvallexu), a jak tato otázka souvisí s otázkou „argumentnosti“/valenčnosti doplnění typu MEANS u sloves určitých sémantických tříd.
Alternující konstrukce typu ACT-MEANS mohou mít různé pravdivostní podmínky dané různým dosahem slovesného děje. Ve větě (8a) je cílem
negativní evaluace celá osoba jménem Pavel, zatímco ve větě (8b) je cílem
pouze dílčí akt Pavlovy odpovědi a vztah Jany k Pavlovi jako k osobě nelze
spolehlivě vyvodit.
(8a) Pavel naštval Janu svou odpovědí.
(8b) Pavlova odpověď Janu naštvala.
To nás vede k domněnce, že se jedná o tzv. lexikalizované alternace, tj.
sémanticky blízká užití jednoho slovesa mající stejný situační obsah, ale rozdílný strukturní význam (Kettnerová 2012).
Literatura
Alexiadou, A. & Schäfer, F. (2006). Instrument subjects are agents or causers.
In D. Baumer, D. Montero & M. Scanlon (Eds.), Proceedings of WCCFL,
Vol. 25. Somerville, 40–48.
Cinková, S. (2006), From Propbank to Engvallex: Adapting the PropBank-Lexicon to the Valency Theory of the Functional Generative Description. In
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC 2006), Genova, Italy.
Hajič, J., Hajičová, E., Panevová, J., Sgall, P., Cinková, S., Fučíková, E., Mikulová, M., Pajas, P., Popelka, J., Semecký, J., Šindlerová, J., Štěpánek, J.,
197
Toman, J., Urešová, Z., & Žabokrtský, Z. (2011). Prague Czech-English
Dependency Treebank 2.0.
Kettnerová, V. (2012). Lexikálně-sémantické konverze ve valenčním slovníku. Dizertační práce. Prague: Charles University, Czech Republic.
Kingsbury, P. & Palmer, M. (2002). From Treebank to Propbank. In Proceedings of the 3rd International Conference on Language Resources and
Evaluation (LREC-2002). Citeseer, 1989–1993.
Levin, B. (1993). English verb classes and alternations: A preliminary investigation. Chicago: University of Chicago press.
Lopatková, M., Žabokrtský, Z. & Kettnerová, V. (2008). Valenční slovník českých sloves. Praha: Nakladatelství Karolinum.
Ruppenhofer, J., Ellsworth, M., Petruck, M., Johnson, Ch. R., & Scheffczyk, J.
(2006). Framenet II: Extended theory and practice.
Schuler, K. K. (2005). VerbNet: A broad-coverage, comprehensive verb lexicon. PhD thesis. Philadelphia: University of Pennsylvania.
Urešová, Z. (2011a). Valence sloves v Pražském závislostním korpusu. Studies in Computational and Theoretical Linguistics. Praha: Ústav formální
a aplikované lingvistiky.
Urešová, Z. (2011b). Valenční slovník Pražského závislostního korpusu (PDTVallex). Studies in Computational and Theoretical Linguistics. Praha:
Ústav formální a aplikované lingvistiky.
198
Svatava Škodová
Technická univerzita v Liberci
[email protected]
Michaela Kuchařová
Technická univerzita v Liberci
[email protected]
Václav Lábus
Technická univerzita v Liberci
[email protected]
Jasňa Pacovská
Technická univerzita v Liberci
[email protected]
Reflexe proměn užívání češtiny na základě
mluveného korpusu zpravodajského vysílání
Českého rozhlasu v letech 1969–2005
Příspěvek představuje kvantitativní a kvalitativní proměny mluvené češtiny
na základě korpusu automaticky přepsaných zpravodajských pořadů Českého rozhlasu.
Výzkum, který prezentujeme v tomto příspěvku, je součástí rozsáhlého
projektu podpořeného Ministerstvem kultury České republiky. Jeho cílem je
zpřístupnění archivu historických a současných nahrávek Českého rozhlasu
s možností sofistikovaného vyhledávání v automaticky přepsaných textech
těchto nahrávek [1]. Použitý korpus obsahuje největší kolekci dokumentů nahraných za posledních 90 let a je na něm možno doložit vývoj vybraných jevů jazyka
v tomto období. Daný korpus je specifický paralelním uložení textů na dvou
rovinách: jednak samotných nahrávek pořadů, jednak příslušných přepisů
těchto pořadů; v korpusu je tak možné zároveň vyhledávat v textech i příslušných zvukových záznamech.
V úvodu příspěvku prezentujeme aplikaci použitou pro transkripci audiálního materiálu. Mezi nejznámější dostupné aplikace patří Transcriber AG, který však postrádá některé rysy, které byly pro transkripci rozhlasových pořadů
199
a následné vyhledávání v textech nezbytné, např. podpora pro text a foneticku
transkripci v jednom dokumentu; časové dorovnávání na úrovni slova generované rozpoznávačem řeči a další. Z tohoto důvodu byl pro transkripci rozhlasových pořadů vyvinut speciální nástroj pojmenovaný Nano Trans [2, 3]. Pro jazykovou analýzu jsme vybrali zpravodajské relace Českého rozhlasu období 1969–2005, tj. období výrazných politických a sociálních proměn
v České republice, které jsou reflektovány i v jazyce. Dané období jsme pro
potřeby kvantitativního i kvalitativního popisu proměn rozdělili do pětiletých úseků (a zbývajícího úseku dvouletého), které umožňují i v takto dlouhém období vytvářet přehledné tabulky pro prezentaci výsledků.
Zahrnutý materiál pochází z hlavní zpravodajské relace Českého rozhlasu z let 1969–2005 a Československého rozhlasu před rokem 1993, které
podrobujeme analýze dlouhodobě [4]. Jmenovitě byly do výzkumu zahrnuty pořady Rozhlasové noviny (1969–1993) a Ozvěny dne (1993–2005), které
shrnují domácí a zahraniční události. Ačkoliv se jedná o jeden typ pořadu,
můžeme jej považovat za jazykově heterogenní: textově převažují tradiční
čtená zpravodajství ve studiu (tj. typově psaná řeč realizovaná audiální formou), kromě nich se zde však vyskytují i záznamy řeči nahrávané mimo studio, a to spontánní mluvené řeči (krátká interview a spontánní komentáře)
a připravená mluvená řeč (nahrávky veřejných vystoupení a připravené komentáře). Analýza tedy zahrnuje projevy profesionálních, ale i neprofesio­
nálních mluvčích.
Výzkum prezentuje jednak proměny jazykových jevů z hlediska kvantitativního, které je podporováno možnostmi automatického přepisu řeči;
ale také kvalitativní analýzy vybraných jevů. Celkový objem dat zahrnutých do analýzy tohoto příspěvku představuje statisticky reprezentativní množství, opíráme se o 6 580 hodin rozhlasových nahrávek a v přepisu
o 48 721 952 oddělených lexikálních jednotek.
Do samotných sledovaných jevů dokladujících řečové proměny v daném
období jsou zahrnuty nejen jevy v úzkém slova smyslu jazykové, ale i jevy
vázané na jazykové vysílání a produkci textu jako takovou. Statisticky dokládáme proměny rychlosti pronesení promluv v celém období; mapujeme
proměny ve stylizaci úvodních a finálních frází pořadů, dále proměny v používání subordinačních a koordinačních spojovacích prostředků. Nejrozsáhlejší část práce je věnována proměnám nejfrekventovanějších lexikálních
sémanticky samostatných jednotek, které jsou mapovány z hlediska statistického, na jehož základě je jejich užití vybraných jednotek interpretová-
200
no s ohledem na socio-politické události daného období. Do této lexikální
analýzy zahrnujeme nejen dílčí lexikální jednotky, ale i zkratky a zkratková
slova a vybrané metafory (v širokém slova smyslu).
Literatura
Bohac, M., Blavka, K., Kucharova, M. & Skodova, S. (2012). Post-processing
of the Recognized Speech for Web Presentation of Large Audio Archive.
TSP 2012, 441–445.
Kucharova, M., Skodova, S., Seps, L., Labus, V., Nouza, J. & Bohac, M. (2013).
On the Quantitative and Qualitative Speech Changes of the Czech Radio
Broadcasts News within Years 1969–2005. TSD 2013, 360–368.
Nouza, J., Blavka, K., Cerva, P., Zdansky, J., Silovsky, J., Bohac, M. & Prazak,
J. (2012). Making Czech Historical Radio Archive Accessible and Searchable for Wide Public. Journal of Multimedia, 7 (2), 159–169.
Skodová, S., Kucharova, M. & Seps. L. (2012). Discretion of Speech Units for
the Text Post-processing Phase of Automatic Transcription (in the Czech
Language). TSD 2012, 446–455.
Michal Škrabal
Filozofická fakulta Univerzity Karlovy
[email protected]
Lubomír Ďuroška
[email protected]
Cizojazyčné protějšky slov druh a soudruh: situace
v lotyštině a slovinštině
V dnešní češtině představují slova druh (se svými synonymy přítel, kamarád,
společník) a soudruh („označení a vzájemné oslovení komunistů“ – SSČ) dva
samostatné lexémy. Dřívější stav, zachycený ještě v SSJČ (2. … (též †spo-
201
ludruh, †spoludružka) poněk. zast., kniž. druh v zaměstnání n. v zábavě;
kamarád, přítel 1, druh 1, společník 1), nicméně odpovídá současné situaci
v mnoha jiných jazycích, např. lotyštině či slovinštině, kde obě skutečnosti
vyjadřuje společný lexém (lot. biedrs, sl. tovariš).
Polysémní charakter těchto slov včetně mnoha drobných významových
nuancí je zjevný při nahlédnutí do aktuálních výkladových slovníků:
Slovník současného lotyšského jazyka (http://www.tezaurs.lv/mlvv/; vzniká
od r. 2003 revizí dosavadních dvou výkladových slovníků s přihlédnutím k internetovým a korpusovým datům; předpokládaný rozsah: cca 60 tisíc hesel):
biedrs 1. Partner při práci či studiu, s nímž existují věcně přátelské vztahy // Spoluúčastník nějakého dění či události, za nějakých okolností // Člověk mající blízké názory, podobné životní podmínky apod.; 2. Člen (politické strany, společnosti apod.); 3. V sovětském zřízení – oslovovací forma
občanů, rovněž zdvořilostní forma, připojovaná před něčí jméno, příjmení či
označení funkce
Slovník spisovného slovinského jazyka (http://bos.zrc-sazu.si/sskj.html; online verze pětisvazkového slovníku vycházejícího v letech 1970–91, poslední
aktualizace 2008, celkem více než 93 tisíc hesel):
tovariš 1. Osoba ve vztahu k druhé osobě, se kterou společně něco dělá //
Osoba ve vztahu k ženě, se kterou žije ve společném svazku // Osoba ve vztahu k druhé osobě, se kterou je společně vůbec; 2. Osoba ve vztahu k druhé
osobě, která patří ke stejnému společenství, má stejné povolání, stejnou pozici // Osoba ve vztahu k druhé osobě, která má stejné společenské postavení // Osoba ve vztahu k druhé osobě, která je ve stejné situaci; 3. Osoba
ve vztahu k druhé osobě, se kterou je v přátelském vztahu; 4. Titul dospělého
muže [… jako oslovení, přístavek ke jménu, povolání] // hovorově Politický
funkcionář; 5. školní žargon Učitel, profesor; [6.] zastarale Společník
Nakolik však tento slovníkový popis, neopírající se o korpusová data, odpovídá situaci v dostupných korpusech (lotyšských, slovinských a také paralelních)? Právě v nich budeme pátrat po distribuci jednotlivých významů
a změnách v jejich frekvenci za poslední dvě až tři desetiletí. Zajímat nás
budou rovněž nejčastější kolokační partneři (a jim odpovídající české ekvivalenty), neboť kolokační profil slova je pro jeho význam určující. Pohled
do českých korpusů (série SYN, ale především k. Totalita, vzniklý na základě
cílených sond /roky 1952, 1969 a 1977/ do komunistického tisku a ideologicky zatížených publikací) by nám zase mohl naznačit, nakolik bylo slovo
soudruh, jakožto jedno ze „slov společensky klíčových“ (Filipec 1992, 3; srov.
202
též Dokulilova /1951, 121/ „slova kádrová“), komunistickým režimem devalvováno a jaké zaujímá postavení v jazyce dnes.
V druhé, aplikované části – vycházejíce ze svých vlastních zkušeností
dvojjazyčných lexikografů i ze zkoumaných korpusových dat – navrhneme,
jak by mělo vypadat ideální zpracování daného lemmatu v chystaném lotyšsko-českém, respektive slovinsko-českém slovníku. To pochopitelně nemůže vzniknout prostým překladem hesla ve výkladovém slovníku zdrojového
jazyka, ale musí vycházet z členění významového spektra v jazyce cílovém.
Literatura
Čermák, F., Cvrček, V. & Schmiedtová, V. (Eds.) (2010). Slovník komunistické
totality. Praha: Nakladatelství Lidové noviny.
Dokulil, M. (1951). Nová skutečnost v zrcadle slovní zásoby češtiny. Naše
řeč, 35, 121–131.
Fidelius, P. (2002). Řeč komunistické moci. Praha: Triáda.
Filipec, J. (1992). Naše současná společnost, slovní zásoba a slovníky. Naše
řeč 75, 1–11.
Mūsdienu latviešu valodas vārdnīca (http://www.tezaurs.lv/mlvv/).
Slovar slovenskega knjižnega jezika (http://bos.zrc-sazu.si/sskj.html).
Slovník spisovného jazyka českého. (1989). Praha: Academia.
Schmiedtová, V. (2013). Malý slovník reálií komunistické totality. Praha: Nakladatelství Lidové noviny.
Korpusy: Řada SYN, InterCorp, Totalita; Latviešu valodas korpuss LVK2013;
Gigafida.
203
Jitka Šonková
The University of Iowa
[email protected]
Rozdíly v rozsahu slovní zásoby v Pražském
mluveném korpusu: Kdo má bohatší slovník –
junioři, senioři, muži nebo ženy?
Jedním z cílů vybudování jazykového korpusu mluveného jazyka bylo srovnání jazykových prostředků mluvčích různého pohlaví, věku a úrovně vzdělání. Následující příspěvek se zabývá variabilitou slovní zásoby mluveného
jazyka zachyceného v Pražském mluveném korpusu (ČNK – PMK, 2001).
Tento mluvený korpus je založen na více než 100 hodinách nahrávek 504
mluvčích a obsahuje 548 091 slovních tvarů a 25 537 lemmat. Zkoumání jazykových rozdílů v rámci jednotlivých sociolingvistických kategorií bylo provedeno pomocí kvantitativní analýzy současné mluvené češtiny a využívalo
programového prostředí Sketch Engine v rámci Českého národního korpusu.
Do výzkumu bylo zařazeno celkem 504 mluvčích, z toho 217 mužů a 287
žen. Na základě pohlaví byli mluvčí zvoleni tak, aby zastoupení slov použitých muži a ženami bylo zhruba vyvážené. Pro potřeby tohoto příspěvku
byly výsledky dále normalizovány, aby bylo umožněno přesné srovnání jejich relativních četností. Dalšími proměnnými byl věk a stupeň ukončeného
vzdělání. Skupina 310 mladších mluvčích byla ve věkovém rozmezí 18 až 35
let a skupina 194 starších mluvčích v rozmezí 36 až 65 let. Skupinu mluvčích
se středním vzděláním, které zahrnovalo učební obory i maturitu, tvořilo 268
osob a s vysokoškolským vzděláním 236 osob.
Velikost slovníku mluvčích jednotlivých sociolingvistických kategorií byla založena na celkovém množství slovních lemmat použitých všemi
mluvčími určité kategorie. Z porovnání velikosti aktivně použité slovní
zásoby mluvčích v kategorii žen a mužů vyplývá, že ženy použily celkem
18 010 lemmat, zatímco muži 16 370 lemmat. Velikost aktivního slovníku
žen byla tedy větší, než tomu bylo u mužů. Poměr rozdílu je více méně zachován i tehdy, jestliže vyloučíme lemmata, jež se vyskytovala jen ojediněle, například zaměříme-li se na lemmata s četností výskytu převyšující 10
v obou kategoriích. Velikost takto specifikovaného slovníku žen obsahuje
1965 lemmat a ve slovníku mužů 1727 lemmat. Z následné analýzy výsledku
204
vyplývá, že poměrně velká část aktivního slovníku je užívána pouze ženami
nebo pouze muži. Například z 25 tisíc lemmat, která se v PMK vyskytují, je
jen 9 tisíc lemmat společných mužům i ženám. Zatímco ženy použily dalších
9 tisíc odlišných lemmat, v promluvách mužů se vyskytlo dalších 7 tisíc
lemmat, která se neobjevila v promluvách druhého pohlaví. Pro lemmata s četností výskytu přesahující počet 10 obsahuje slovník relativně malou společnou část 600 lemmat. Ženy použily dalších různých 1400 lemmat
a muži dalších odlišných 1100 lemmat. V konečném příspěvku se budeme
věnovat i ostatním sociolingvistickým kategoriím a uvedeme další podrobnosti, grafy a srovnání.
Literatura
Český národní korpus – PMK. Ústav Českého národního korpusu FF UK,
Praha 2001. http://www.korpus.cz
Kilgarriff, A., Rychly, P., Smrz, P., & Tugwell, D. (2004). The Sketch Engine.
EURALEX 2004 Proceedings, Lorient, France, 105–116.
Jovanka Šotolová
Ústav translatologie FF UK
[email protected]
Olga Nádvorníková
Ústav románských studií FF UK
[email protected]
Za hranice věty
Názory překladatelů literárních textů na to, jak nakládat s větou, jsou různé – od přístupu vycházejícího z pojetí věty jako autorsky daného (a pro
překlad tedy závazného) strukturního a logického prvku až po názor, že
jednoznačně nadřazeným motivem řešení je cílový jazyk a jeho zvyklosti.
205
Řešením je tedy buď takřka přesné kopírování věty originálu jako ohraničeného, významového celku, anebo volné přestylizování, často i bez ohledu
na hranice věty.
Strategie nakládání s větou při překladu není teoreticky popsána a v praxi
se neprosazuje jednotný názor (absence normativní opory); překladatel proto vychází především z vlastní zkušenosti s texty. Přístup se pohybuje mezi
nevědomým – podvědomým řešením (překladatel se nad problematikou dosud nezamýšlel, postupuje víceméně instinktivně, nechá se „vést“ zdrojovým
textem nebo svým citem pro jazyk, do něhož překládá) až po promyšlenou
metodiku. Promyšlený přístup má ale různé podoby: vychází z interpretace
zdrojového textu, ze znalosti kontextu daného žánru či tvorby autora, ale
často také z přijaté argumentace okolního prostředí (kolegové překladatelé,
redaktoři, znalosti ze školy), jež však může mít i charakter předsudku.
V našem příspěvku se na základě dat z paralelního korpusu InterCorp
pokusíme zjistit, jakým způsobem překladatelé ve francouzsko-české a česko-francouzské části korpusu nakládají s členěním textu na věty. Výzkum
bude sledovat dva směry: 1. zda je v tomto ohledu jazyk překladu odlišný
od jazyka zdrojového, a 2. do jaké míry se věta jako strukturně-logický prvek originálu otiskuje i do překladu. Pokusíme se popsat různorodost překladatelských přístupů a komentovat jejich důvodnost či bezdůvodnost (viz
také Levého pojem překladovost či nověji definovaný efekt translationese).
Nejprve definujeme principy, na jejichž základě automatické segmentátory
člení texty vkládané do korpusu, a pokusíme se určit nejvýraznější případy,
kdy je tato segmentace v rozporu s obvyklou lingvistickou definicí věty. Automatický segmentátor např. považuje středník za hranici věty; bude tedy
nutné identifikovat a kvantifikovat tyto případy a zjistit, kdy podobný názor
zastávají také překladatelé. Z našich předchozích dílčích studií přitom vyplynulo, že například středník jako členící znaménko někteří překladatelé považují za znak závazný (a přípustný pro převod do češtiny), jiní ho ve svých textech zcela (bez srovnatelné náhrady) eliminují nebo hledají zástupná řešení.
Na základě tohoto porovnání technického a lingvistického přístupu vymezíme jednotky, jež budeme považovat za věty, a provedeme statistickou
analýzu počtu vět v originálních a odpovídajících překladových textech
ve francouzsko-české a česko‑francouzské části paralelního korpusu InterCorp. Získané výsledky porovnáme jednak s dostupnými referenčními jednojazyčnými korpusy (zejména Český národní korpus a FRANTEXT), ale
také s daty obsaženými v novém korpusu překladového jazyka Jerome.
206
Tato hrubá statistická data následně upřesníme podrobnou analýzou případů, kdy jednomu segmentu ve výchozím jazyce odpovídá více segmentů
v jazyce cílovém a vice versa. Při těchto analýzách se pokusíme brát v úvahu
co nejvíce faktorů, které ovlivňují volbu strategie, případně samotný proces překladu, zejména pokud jde o záměr a možnost/nemožnost zachovat
specifika stylu výchozího díla (jeho dobové, žánrové, autorské charakteristiky). Pokusíme se odhadnout a kvantifikovat také vliv idiolektu překladatele.
Naším cílem bude vytvořit typologii případů, kdy se text členěním na věty
v originále a v překladu liší, a zjistit, zda jednotlivé typy nějak odrážejí spíše
specifika jazyka překladu, anebo přístupu či idiolektu určitého překladatele,
anebo zda se jedná o skutečná specifika cílového jazyka.
Technicko-lingvistická analýza tak bude doplněna o pohled translatologický. V poslední fázi budou teoretická východiska výzkumu a statistická data rozšířena ještě o anketní šetření mezi překladateli a redaktory. To
sice pro účely této práce poslouží pouze jako dokreslení a dokumentace
nejednotného přístupu překladatelů v běžné praxi a zmíněné neexistence
preskriptivních modelů; anketa však bude důležitou pomůckou pro šíření
závěru výzkumu mezi samotné překladatele. Tím, že je přizveme k diskusi
o problematice, vzbudíme v nich snad i zájem o závěry našich rešerší – a tím
se celý korpusový výzkum otevře jako užitečný příspěvek k praxi.
Literatura
Baker, M. (1996). Corpus-based translation studies: The challenges that lie
ahead. In H. Somers (Ed.), Terminology, LSP and Translation: Studies
in language engineering, In honour of Juan C. Sager. Amsterdam: John
Benjamins, 175–186.
Levý, J. (1998). Umění překladu. Praha: Ivo Železný.
Olohan, M. (2004). Introducing Corpora in Translation Studies. London /
New York: Routledge.
Ponge, M. (2011). Pertinence linguistique de la ponctuation en traduction
(français – espagnol). La Linguistique, 2 (47), 121–136.
Rosen, A. & Vavřín, M. (2012). Building a multilingual parallel corpus for human users. In: N. Calzolari et al. (Eds), Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC´12). Instanbul: European Language Resources Association (ELRA), 2447-2452.
Seguin, J.-P. (1999). Points, phrases et style dans le texte L’Esprit des lois.
Revue Montesquieu, 3, 79–98.
207
Šotolová, J. (2013). Sur le point-virgule et autres détails éphémeres. Etudes
Romanes de Brno, 1 (34), 28–40.
Tournier, C. (1980). Histoire des idées sur la ponctuation, des débuts de l‘imprimerie à nos jours. Langue française, 45, 28–40.
Vavřín, M. & Rosen, A. (2008). InterCorp: A Multilingual Parallel Corpus
Project. In Proceedings of the International Conference Corpus Linguistics - 2008, St. Petersburg State University, 97–104. ˂http://utkl.ff.cuni.
cz/~rosen/public/2008_intercorp_peterburg.pdf˃.
Védénina, L. G. (1980). La triple fonction de la ponctuation dans la phrase :
syntaxique, communicative et sémantique. Langue française, 45, 60-66.
Barbora Štindlová
Fakulta přírodovědně-humanitní a pedagogická
Technické univerzity v Liberci
[email protected]
Veronika Čurdová
Ústav jazykové a odborné přípravy Univerzity Karlovy
[email protected]
David Beneš
Ústav jazykové a odborné přípravy Univerzity Karlovy
[email protected]
Merlin: Multilingvální platforma pro evropské
referenční úrovně
Autoritativním dokumentem v oblasti výuky a testování evropských jazyků
jako jazyků cizích je od roku 2001 tzv. Společný evropský referenční rámec
pro jazyky (SERR, angl. CEFR). SERR definuje 6 úrovní ovládání jazyka, resp.
deskriptory reflektující míru osvojení cizího jazyka, tj. zdatnost v porozumění psanému či mluvenému projevu a schopnost aktivního vyjadřování.
208
V návaznosti na úrovně definované podle SERR se v současnosti vytváří
učební materiály, sylaby, kurikula i certifikované zkoušky hodnotící jazykové schopnosti studenta. Z toho důvodu je nutné co nejpřesněji jednotlivé
úrovně charakterizovat a odlišit a především poskytnout konkrétní jazyková
data odpovídající požadavkům, které by měl student na jednotlivých úrovních osvojení jazyka splňovat.
Potřeba dostatečně ilustrovat úrovně vymezené v SERR byla motivací
vzniku mezinárodního projektu Merlin: Multilingvální platforma pro evropské referenční úrovně: Výzkum jazyka studentů v kontextu (2012–2014).
Základem této primárně didakticky orientované platformy je trojjazyčný
korpus němčiny, italštiny a češtiny jako cizích jazyků budovaný od roku
2012 ve spolupráci institucí v Německu, Rakousku, Itálii a České republice.
Korpus obsahuje autentické písemné projevy studentů daných jazyků jako
jazyků cizích, které vznikly při standardizovaných testech v rámci certifikovaných zkoušek (telc, UNIcert, CCE). V současnosti je k dispozici přibližně
200 textů pro každou referenční úroveň (A1 - C1) a jazyk.
V první fázi zpracování dat jsou rukopisy přepisovány v souladu s podrobnými transkripčními pravidly, která umožňují zachytit i vnější charakter
textu, např. vsuvky, škrty, nečitelné části, emotikony, obrázky ap. Následně
jsou data lingvisticky anotována. Anotační schéma odráží zásadní koncept
projektu Merlin, a to chápání žákovského jazyka jako samostatného dynamického jazykového systému, tzv. interlanguage (Corder 1981). Základem
anotace textů je široká škála indikátorů, které umožňují popsat komplexní
charakter žákovského jazyka, jeho standardní i nestandardní aspekty. Množina ortograficky, gramaticky, lexikálně a sociolingvisticky orientovaných indikátorů byla vymezena na základě charakteristik úrovní uváděných v SERR
i v sekundární literatuře (CEFR-derived indicators; research-based indicators),
podle předběžné analýzy písemných projevů studentů (inductively derived
indicators), ale také v souvislosti s dotazníkovým šetřením mezi budoucími uživateli korpusu, tj. učiteli, hodnotiteli, studenty (user-based indicators).
Anotace korpusu MERLIN kombinuje značkování založené na formálních
typech alternace zdrojového textu (chybějící element, přebývající element,
chybně spojené elementy ap.) a hierarchicky strukturovanou lingvistickou
klasifikaci. Proces anotace je rozdělen do několika fází – v první řadě je prováděna analýza a značkování na rovině ortografické a gramatické, následně
pak na rovinách vyšších (lexikologická rovina, rovina sociolingvistkých aspektů a rovina koheze a koherence textu). V rámci každé anotační fáze je
209
nejprve stanovena tzv. cílová hypotéza (target hypothesis) neboli rekonstrukce promluvy studenta v cílovém jazyce s minimálními zásahy (Ellis 1994: 54).
Následné přiřazování tagů (tj. chybová anotace, error annotation) probíhá až
na základě srovnání studentova textu s příslušnou cílovou hypotézou.
Výstupem projektu bude trojjazyčný korpus zpřístupněný přes webové
rozhraní, které poskytne vyučujícím i studentům vhled do písemných projevů studentů a možnost vyhledávat konkrétní jazykové rysy typické pro
úrovně A1–C1 podle SERR.
Příspěvek si klade za cíl představit projekt Merlin a jeho technické zázemí
a poukázat na specifičnost anotace textů, která spočívá nejen v jejich cizojazyčném charakteru, ale také v orientaci na SERR a ve snaze o stanovení
indikátorů do jisté míry univerzálních pro tři různé jazyky – germánský,
románský a slovanský.
Literatura
Corder, S. P. (1981). Error Analysis and Interlanguage. Oxford: Oxford University Press.
Council of Europe (2001). The Common European framework of reference
for languages: Learning, teaching, assessment. Cambridge: Cambridge
University Press.
Ellis, R. (1994). The study of Second Language Acquisition. Oxford: Oxford
University Press.
Reznicek, M., Lüdeling, A., Krummes, C., Schwantuschke, F., Walter, M.,
Schmidt, K., Hirschmann, H. & Andreas, T. (2012). Das Falko-Handbuch.
Korpusaufbau und Annotationen. Version 2.01. HU Berlin.
Wisniewski, K., Schöne, K., Nicolas, L., Vettori, C., Boyd, A., Meurers, D.,
Abel, A. & Hana, J. (2013). MERLIN: An online trilingual learner corpus
empirically grounding the European Reference Levels in authentic learner data. In ICT for Language Learning, Conference Proceedings 2013.
Libreriauniversitaria.it Edizioni.
Hana, J., Rosen, A., Štindlová, B. & Feldman, A. (2013). Evaluating and automating the annotation of a learner corpus. Language Resources and
Evaluation, 1–28.
Štindlová, B., Škodová, S., Rosen, A. & Hana, J. (2013). A learner corpus of
Czech: Current state and future directions. In S. Granger, G. Gilquin &
F. Meunier (Eds.), Twenty Years of Learner Corpus Research: Looking
210
back, Moving ahead. Corpora and Language in Use – Proceedings 1.
Louvain-la-Neuve: Presses universitaires de Louvain, 2013, 435–446.
Tamás Tölgyesi
Univerzita v Segedíně, Filozofická fakulta, Slovanský ústav, Katedra slovanské
filologie
[email protected]
Německé přejímky v běžně mluvené češtině
na základě korpusu ORAL2013
V příspěvku zkoumám přejatá slova z němčiny v dnešní běžně mluvené
češtině na základě ORAL2013. V korpusu jsem vyhledával lexikální germanismy, které mám doložené ze svých dvou terénních výzkumů, a německé
výpůjčky, které se nacházejí ve studii Deutsche Lehnwörter in der heutigen
tschechischen Umgangssprache českého germanisty Emila Skály.
V roce 2004 jsem uskutečnil svůj první kontaktovělingvistický výzkum
exploračně sociolingvistický u rodilých Čechů ve městech Kyjov, Rýmařov
a Šumvald. Druhý terénní výzkum jsem provedl o tři roky později v Praze,
Brně a ve Valašském Meziříčí.
Výzkum jsem konal sám, a to výlučně podle zásad vědecké metodologie
sociolingvistické: jeden explorátor, jeden informátor. Pro posouzení vývojových trendů přejímek v novém jazykovém prostředí jsem svůj výzkum
aplikoval příslušníkům tří různých generací, vždy v rámci téže rodiny: 1.
generace mladá (do 30 let), 2. generace střední (do 60 let), 3. generace stará
(nad 60 let). Nejmladší respondent výzkumu měl tehdy 14 roků, nejstaršímu
informátorovi bylo 78 let. Výzkumu se zúčastnili muži i ženy se základním
nebo středním či vysokoškolským vzděláním.
Skála představuje ve své stati z roku 1968 téměř 300 germanismů jako
nejfrekventovanější německé výpůjčky v běžně mluvené češtině. Zhruba
třetina zkoumaných slov se v korpusu ORAL2013 vůbec nevyskytuje.
211
Při výzkumu jsem valnou měrou pomíjel ty přejaté výrazy, které se v novém jazykovém prostředí časem staly nedílnou složkou celonárodní podoby
národního jazyka českého, např. č. taška ze sthn. tasca, dnes Tasche. Sestavil
jsem soupis německých přejímek, které se alespoň pětkrát vyskytují v korpusu ORAL2013. Tomuto kritériu vyhovělo celkem 100 germanismů (45
z mých terénních výzkumů a dalších 55 ze článku prof. Skály):
furt (3098), akorát (1503), barák (900), kafe (428), fajn (276), flaška (171),
krám (151), bordel (137), hajzl (132), holt (124), policajt (119), paráda (115),
trefit (se) (98), hadry (81), bacha (62), ksicht (62), deka (60), fabrika (57), kšeft
(54), šutr (53), flek (52), pauza (52), kór (50), štrúdl (37), frajer (33), šachta (33),
špunt (31), mašina (30), helma (29), plac (28), hergot (28), šňůra (28), buřt (23),
flákat (se) (23), špek (23), pasovat (22), fešák (18), hic (18), kravál (18), pantofle
(18), šuple (18), bunkr (17), kredenc (17), finta (16), špitál (16), fest (15), kára
(15), šrot (15), flinta (14), fofr (14), fotr (14), halda (14), špajz (14), hever (12),
machr (12), šichta (12), blinkr (11), cimra (11), roura (11), futro (10), kantýna
(10), knajpa (10), lautr (10), špagát (10), erteple (9), fošna (9), kanape (9), klika
(9), kriminál (9), kšilt (9), pingl (9), futrál (8), háklivý (8), lump (8), flák (7),
koštovat (7), aušus (6), kastrol (6), kauf (6), kvartýr (6), randál (6), sichr (6),
štamgast (6), štos (6), trucovat (6), dekl (5), fasovat (5), fuška (5), grunt (5),
ksindl (5), lák (5), loch (5), mančaft (5), mašle (5), pres (5), ruksak (5), škatule
(5), šlak (5), šperk (5)
Dané výrazy jsem podrobněji analyzoval podle sociologických faktorů:
věk, pohlaví, vzdělání a původ. Ukázalo se například, že mladá generace
již neužívá výrazu cimra (z raně nhn. zimmer, dnes Zimmer ,pokoj‘). Slovo
erteple (z něm. dial. erdepfel, nhn. Erdapfel ,brambor‘) používají starší lidé
ve věku kolem 80 let. Mančaft (z nhn. Mannschaft ,mužstvo‘) říkají muži.
Pracovní směnu označují výrazem šichta (z rak.-něm. Schichte, nhn. Schicht)
především lidé se středoškolským vzděláním. Ohebné tvary fajny, fajna, fajne původně nesklonného adjektiva fajn (z nhn. fein ‘jemnýʼ) se používají
ve Slezsku.
Literatura
Bělič, J. (1969). Poznámky o postavení německých přejatých slov v dnešní češtině. In W. Krauss, Z. Stieber, J. Bělič & V. I. Borkovskij (Eds.), Slawischdeutsche Wechselbeziehungen in Sprache, Literatur und Kultur. Hans
Holm Bielfeldt zum 60. Geburtstag. Berlin: Akademie-Verlag, 7–18.
212
Český národní korpus – ORAL2013 (2013). Praha: Ústav Českého národního
korpusu FF UK. Dostupné z webové stránky: http://ucnk.ff.cuni.cz
Eisner, P. (1996). Čeština poklepem a poslechem. Praha: Pražské nakladatelství Jiřího Poláčka a nakladatelství B. Just.
Eisner, P. (2002). Rady Čechům, jak se hravě přiučiti češtině. Praha: Academia.
Hugo, J. et al. (2006). Slovník nespisovné češtiny. Praha: Maxdorf.
Jodas, J. (2006). Šlofík a klika. Časopis pro moderní filologii, 88, 32–35.
Kluge, F. (2002). Etymologisches Wörterbuch der deutschen Sprache. Berlin:
Walter de Gruyter.
Kraus, J. et al. (2006). Nový akademický slovník cizích slov. Praha: Academia.
Machek, V. (1971). Etymologický slovník jazyka českého. Praha: Academia.
Newerkla, S. M. (2004). Sprachkontakte Deutsch – Tschechisch – Slowakisch. Wörterbuch der deutschen Lehnwörter im Tschechischen und
Slowakischen: historische Entwicklung, Beleglage, bisherige und neue
Deutungen. Schriften über Sprachen und Texte 7. Frankfurt am Main:
Peter Lang Verlag.
Ouředník, P. (2005). Šmírbuch jazyka českého. Slovník nekonvenční češtiny.
Praha: Paseka.
Rejzek, J. (2001). Český etymologický slovník. Praha: Leda.
Skála, E. (1968). Deutsche Lehnwörter in der heutigen tschechischen Umgangssprache. In B. Havránek & R. Fischer (Eds.), Deutsch-tschechische
Beziehungen im Bereich der Sprache und Kultur. Aufsätze und Studien
II. Berlin: Akademie-Verlag, 127–141.
Tölgyesi, T. (2008). Lexikální germanismy v dnešní mluvené češtině na základě dat z korpusu ORAL2006. In M. Kopřivová & M. Waclawičová
(Eds.), Čeština v mluveném korpusu. Praha: Nakladatelství Lidové noviny, 243–248.
Tölgyesi, T. (2008). Ke vztahu mezi hláskovou podobou a citovou zabarveností lexikálních germanismů v češtině. In V. P. Polách (Ed.), Jazyková
interakce a jazykové rozhraní a strategie „cutting-edge”. Olomouc: Univerzita Palackého, 259–262.
Tölgyesi, T. (2009). Lexikální germanismy v dnešní češtině. Studie kontaktovělingvistická. Piliscsaba: PPKE BTK. Dostupné z webové stránky Széchenyiho národní knihovny v Budapešti: http://mek.oszk.hu/08400/08488/
Tölgyesi, T. (2009). Vojenské výrazy přejaté z němčiny v českém, slovenském
a maďarském jazyce. In S. Ondrejovič (Ed.), Varia XVI. Bratislava: Slovenská jazykovedná spoločnosť pri SAV, 500–506.
213
Tölgyesi, T. (2009). Středoevropská kuchyně jako zrcadlo kontaktů interkulturních. Bohemica Olomucensia 3 Philologica Juvenilia, 145–150.
Tölgyesi, T. (2010). Náboženské výrazy řecko-latinského původu přejaté
prostřednictvím němčiny do českého, slovenského a maďarského jazyka. In S. Ondrejovič (Ed.), Varia XVII. Ružomberok: Katolická univerzita
v Ružomberku, 470–474.
Tölgyesi, T. (2010). K německé řemeslnické terminologii v českém, slovenském a maďarském jazyce. In J. Hladký & Ľ. Rendár (Eds.), Varia XIX.
Trnava: Trnavská univerzita v Trnavě, 390–393.
Tölgyesi, T. (2011). Lexikální germanismy v původní české verzi Haškova
románu Osudy dobrého vojáka Švejka za světové války a jejich ekvivalenty v německém a maďarském překladu na základě InterCorpu. In F.
Čermák (Ed.), Korpusová lingvistika Praha 2011 – 1 InterCorp. Praha:
Nakladatelství Lidové noviny, 29–44.
Tölgyesi, T. (2011). (Ne)přítomnost mluvčího a adresáta v komunikaci 21.
století. Bohemica Olomucensia 2 Philologica Juvenilia, 234–237.
Tölgyesi, T. (2011). K vojenskému názvosloví habsburské armády (16201918). Acta Universitatis Szegediensis. Dissertationes Slavicae: Sectio
Linguistica XXIX, 71–79.
Trost, P. (1974). Slova fucmuc a fucek, flák a flek. Naše řeč, 57, 36–38.
Vašek, A. (1996–97). Kontaktová lingvistika a její perspektivy I-II. Češtinář
VII, 13–21, 33–44.
214
Marie Vachková
Ústav germánských studií FF UK
[email protected]
Paradigmatika a syntagmatika v překladovém
slovníku
Autorka sumarizuje zkušenosti z tvorby a revizí adjektivních hesel Velké německo-české lexikální databáze, výzkumného projektu, který od roku 2006
využívá korpusově analytických metod vyvíjených na Institutu pro německý jazyk v německém Mannheimu, a jehož dlouhodobým cílem je vytvořit
Velký německo-český akademický slovník (VNČAS) se 130 000 hesly, jehož
adresátem je vzdělaný uživatel a překladatel jak odborných, tak literárních
textů. Krátkodobými cíli je postupné zpracovávání terminologií a vytváření
menších speciálních překladových slovníků na straně jedné, dílčí korpusové rešerše a metalexikografický výzkum na straně druhé. Paradigmatické
a syntagmatické vztahy jsou tak včetně jejich lexikografického uchopení
zkoumány na materiálu všeobecné i odborné slovní zásoby. Důležitou roli
hraje fakt, že VNČAS vzniká postupným zpracováním jednotlivých slovních
druhů. Slovnědruhová specifika se tak projeví ostřeji v souvislosti nejen se
zde tematizovanými vztahy, ale i např. s problematikou slovotvornou. Nejzřetelněji se pak projeví ve struktuře položek tvořící organizaci té které
slovnědruhové databáze. Práce na tvorbě databázových vstupů se neobejdou ani bez analýz německo-českého paralelního korpusu InterCorp. Získávané informace jsou
porovnávány s nabídkou největších současných slovníků, především elektronické verze slovníku Duden Universalwörterbuch online (www.dudenonline). Z porovnávání vyplývají velmi často otázky týkající se především
nevyhovujících teoretických východisek, pokud jde např. o optimální pojetí
stále diskutované systematizace paradigmatických vztahů, především v oblasti opozitnosti na bázi parole. Prolínání syntagmatické a paradigmatické
osy je při rozboru kookurenční analýzy tak nápadné, že ho praktická lexikografie nemůže opomenout. Tento fakt staví moderní slovníkáře před nové
výzvy.
Na ukázkách několika typických zástupců adjektivních hesel, která prezentují různé adjektivní třídy a rozmanité slovotvorné modely, chce pří-
215
spěvek předvést možnosti a limity způsobů, jimiž lze do makrostruktury
i do jednotlivých částí mikrostruktury adjektivních hesel zapracovat co
nejvíce informací nejen o syntagmatice (kolokabilitě) slova, ale i o jeho
paradigmatických vazbách. Cílem je nejen zkvalitnit informační nabídku
slovníku, ale pokusit se aplikovat teoretické poznatky tradiční i korpusově
pojaté lexikologie a lexikografie německé, britské, švédské, slovenské a české. Příspěvek se dotýká především diskutabilních bodů, typických dilemat
s výběrem položek, jejich mnohdy sporného rozsahu a verbalizuje hlavní
problémy, které jsou často diskutovány v užším redakčním kruhu v rámci
prvního a druhého kola revizí, jako např.:
Které historické impulzy z jednojazyčné německé lexikografie lze považovat za první krok k podchycení asociačních vazeb? Jaké bylo jejich teoretické zázemí? Které závěry moderní lexikologie lze zúročit v oblasti moderní elektronické lexikografie? Které současné jednojazyčné a překladové
slovníky se snaží o zapracování paradigmatiky a syntagmatiky a s jakým
úspěchem? O jaké argumenty se opírají ti, kdo kritizují zapracování antonym v nich? Jaká očekávání artikulují uživatelé slovníků? Které metody jsou
pro ztvárnění paradigmatických vztahů zvláště vhodné pro slovník jednojazyčný a překladový? Jak lze pro zapracování antonym a synonym využít
kookurenčních profilů a která úskalí se při jejich vyhodnocování objevují?
Jak lze naznačit prolínání paradigmatické a syntagmatické roviny na kolokacích a které syntaktické struktury se objevují ve vstupech nejčastěji?
Jak se k těmto strukturám při internetové rešerši dostat? Které problémy se
vyskytují při výběru a řazení synonym při analýze kookurenčních profilů,
porovnáváme-li jejich rozsah s nabídkou jiných internetových zdrojů? S jak
velkou důsledností má autor hesla zohledňovat účast slovotvorných regularit při zapracovávání antonym ? Jakou měrou má lexikograf respektovat
blízká synonyma a konstrukce, v nichž se vyskytují? Která pozitiva a negativa přináší využití kookurenční analýzy v kontrastivním pohledu? Jaká je
role synonymie a antonymie v české části databázového vstupu?
Literatura
Fellbaum, Ch. (1995). Co-occurrence and Antonymy. International Journal of
Lexicography, 8 (4), 281–303.
Jones, S., Paradis, C., Murphy, M. L. & Willners, C. (2007). Googling for ´opposites´: a web-based study of antonym canonicity. Corpora, 2 (2), 129– 54.
216
Justeson, J. S. & Katz, S. M. (1991). Co-occurrences of Antonymous Adjectives and Their Contexts. In Computational Linguistics, 17 (1), acl.ldc.
upenn.edu/J/J91/J91-1001.pdf (9.2.2014)
Marková, V. (2012). Synonyme unter dem Mikroskop. Eine korpuslinguistische Studie. Gunter Narr Verlag. Korpuslinguistik und interdisziplinäre
Perspektiven auf Sprache. Bd. 2.
Paradis, C. & Willners, C. (2006). Selecting antonyms for dictionary entries:
methodological aspects. In Working Papers, 6, 95–106.
Kateřina Veselovská
Ústav formální a aplikované lingvistiky MFF UK
[email protected]
Sestry manžel byl kamaráda bratr –
ke slovoslednému postavení neshodného atributu
vyjádřeného substantivem v genitivu
Příspěvek bude věnován problematice neshodného genitivního přívlastku,
konkrétně možnostem jeho pronikání do antepozice. V české lingvistické
tradici se často uvádí, že základním, ustáleným postavením neshodného atributu je těsná postpozice vzhledem k dominujícímu substantivu (MČ3, 1987).
Uhlířová (1988) dokonce konstatuje, že „základní slovosledné pravidlo o postavení nehodného přívlastku ve větě říká, že přívlastek stojí ZA svým řídícím
podstatným jménem … Pozice přívlastku ve 2. pádě se považuje ve spisovné češtině za závaznou a odchylky od ní za chybu.“ Novější příručky (Grepl & Karlík 1998) neshodný přívlastek v antepozici připouštějí, považují jej však za
hovorový úkaz. V úvodu příspěvku porovnáme jednotlivé výklady tohoto
jevu napříč odbornou literaturou se zaměřením na názory týkající se jeho
případné spisovnosti.
V hlavní části se pak chceme věnovat kategorizaci neshodných genitivních přívlastků vyskytujících se v antepozici. Analýza dat Českého národní-
217
ho korpusu není v tomto případě vhodná: dotaz na jmenné struktury s genitivem (byť s omezením na těsnou antepozici před nominativem) je příliš
obecný. V Pražském závislostním korpusu (PDT, verzi 2.5) je možno příslušné genitivní přívlastky vyhledat dotazem kombinujícím charakteristiky uzlů
ze všech dostupných rovin s požadavky na pozici uzlu ve stromě. Přesto jsme
v těchto datech nalezli pouze třicet odpovídajících příkladů. Zajímavější výsledky (ale i více chybných struktur) přineslo prohledávání Pražské databáze
mluvené češtiny (PDTSC, verze 1.0), respektive závislostních stromů, které
byly automaticky vygenerovány z mluvených dat. Zkoumaná data byla dále
doplněna o ručně sesbírané příklady pocházející převážně z denního tisku.
Nalezené výskyty lze rozdělit do čtyř základních skupin, z nichž nejmenší
představují ojedinělé struktury obsahující genitiv celkový, který se do antepozice dostává vlivem aktuálního členění: U nás jsou sněhu hromady! Druhou tvoří bezpříznakově vnímané tradicionalismy zastoupené především
spojením v pravém/dobrém/jistém slova smyslu. Za bezpříznakové bývají
považovány rovněž přivlastňovací genitivy tvořené od vlastních jmen s adjektivním skloňováním, např. Heyrovského ulice, Palackého most apod. Je
pozoruhodné, že ve zkoumaných datech z PDT jsou tyto genitivy tvořeny
výhradně od maskulin (z nichž množství pochází z oblasti sportu: Pelého
pohár reprezentantů nad 35 let, Železného jablonecká euforie aj., což je pravděpodobně dáno původem textů). Čtvrtou skupinou jsou pak přivlastňovací
genitivy tvořené od apelativ ženského a mužského rodu, které v rámci antepozice dosud nebyly v gramatikách češtiny popsány. V korpusu PDTSC
(tedy v datech obsahujících výpovědi lidí, kteří přežili holokaust) jsme našli
množství příkladů typu dcery manžel, babičky bratr, manžela otec, kamarádky dceruška apod. V rozporu s akademickou mluvnicí nejsou tyto neshodné
genitivní přívlastky vždy v kontaktním postavení – nalezli jsme i příklady
typu Uprostřed je muže Milady otec.
Tyto výstupy budou dále podrobeny detailnější analýze. Zdá se, že v neshodném genitivním přívlastku s přivlastňovací funkcí figurují často substantivizovaná adjektiva typu hajný a průvodčí, která se v postpozici chovají stejně jako substantiva (otec rozhodčího x otec zámečníka). Jakmile se ale
substantiva dostanou do antepozice, transformují se v posesivní adjektiva
a přívlastek se stává shodným (otec zámečníka → zámečníkův otec). Substantivizovaná adjektiva s tvrdou ani měkkou deklinací takovou možnost posesivity nemají – tvar se tedy dostává do antepozice nezměněn a zachovává
neshodnost (rozhodčího otec). Je otázkou, jak dalece toto tvrzení platí i pro
218
feminina – výskyty typu Krásnohorské ulice se v korpusových datech neobjevily. Mezi ručně sebranými příklady nalezneme například spojení Němcové
Babička nebo Kvitové brejkbol, obecně je však výskyt tohoto typu mnohem
řidší. U běžných substantiv se zná být poměr maskulin a feminin pronikajících do antepozice vyrovnán.
V příspěvku se dále chceme věnovat otázce příznakovosti slovosledného
postavení neshodného přívlastku, potažmo jeho vlivu na sémantickou strukturu věty. Nastíníme také souvislost mezi pozicí neshodného genitivního
přívlastku a aktuálním členěním a rozebereme syntaktickou strukturu vět
s anteponovanými neshodnými atributy.
Literatura
Grepl, M. & Karlík, P. (1998). Skladba češtiny. Olomouc: Votobia.
Mluvnice češtiny 3. Skladba. (1987). Praha: Academia.
Pražská databáze mluvené češtiny, verze 1.0. Ústav formální a aplikované lingvistiky MFF UK, Praha 2009. Dostupná z WWW http://ufal.mff.cuni.cz.
Pražský závislostní korpus, verze 2.5. Ústav formální a aplikované lingvistiky MFF UK, Praha 2012. Dostupný z WWW http://ufal.mff.cuni.cz.
Uhlířová, L. (1988). Knížka o slovosledu. Praha: Academia.
Pavel Vondřička
Ústav Českého národního korpusu FF UK
[email protected]
InterText: upečte si vlastní paralelní korpus
InterText je softwarový nástroj, který vznikl v rámci projektu InterCorp pro
účel jednoduchého zarovnávání a korektury paralelních textů. Od té doby se
však vyvinul v nástroj obecnější, který může napomoci i s přípravou osobního paralelního korpusu či překladatelské databáze pro nástroje CAT či pro
strojový překlad (SDL Trados, Okapi, Apertium, OmegaT atd.).
219
Vedle původní centrální aplikace s webovým rozhraním, dnes nazývané
InterText server, vznikla také zcela nazávislá jednouživatelská desktopová
aplikace InterText editor, kterou je možné si nainstalovat na lokálním počítači. Obě aplikace jsou navíc schopny navzájem spolupracovat, takže InterText editor je možné použít také v roli externího editoru pro InterText server,
v němž je možné texty editovat i bez nutnosti permanentního připojení k internetu.
Společným rysem obou aplikací je schopnost pracovat prakticky s libovolnými dokumenty XML a díky podpoře Unicode i s libovolnými jazyky.
Zarovnávat mezi sebou lze libovolné jazykové páry stejného textu. Počet
textů ani jejich jazykových verzí není nijak omezen. Předpokládá se zarovnávání po větách, avšak InterText je schopen pracovat s libovolnými textovými jednotkami – vždy však jen na jedné úrovni. InterText nejprve provede
automatické zarovnání zvoleného páru paralelních textů pomocí některého
externího automatického zarovnávače (hunalign či TCA2) a výsledek nabídne prostřednictvím editoru k ruční kontrole a korekturám – jak zarovnání,
tak i samotného obsahu textu či jeho segmentace na věty (či jiné jednotky).
Aplikace přitom automaticky kontroluje, aby změnou segmentace nedošlo
k porušení konzistence nějakého jiného zarovnání téhož textu. Taktéž se
sama stará o aktualizaci (přečíslování) identifikátorů jednotlivých zarovnávaných textových elementů. Spojovat či rozdělovat je však možné i textové struktury přímo nadřízené zarovnávaným textovým jednotkám (typicky
tedy odstavce). V případě větších lakun v jednom z textů je možné provést
opakovaně dodatečné automatické zarovnání jen určité části textu. Výsledné, ručně zkontrolované zarovnání se ukládá ve formě samostatného souboru (stand-off) ve formátu TEI XML. V zarovnání je možné si zakládat záložky pro pozdější revizi a sledovat stav jednotlivých segmentů (zda byly
zarovnány automaticky či ručně zkontrolovány). Samozřejmostí je podpora
vyhledávání v textech (včetně regulárních výrazů) a vyhledávání typicky
problematických typů segmentů. Texty je možné exportovat i v podobě formátu používaného programem ParaConc.
Specifikem verze InterText server je její zaměření na více uživatelů, rozvrstvených přístupovými právy k textům do tří skupin na základě struktury
projektu InterCorp: administrátory, koordinátory a editory. Jednotlivým editorům (resp. jim přiděleným zarovnáním) lze navíc individuálně dle potřeby a jejich kompetence upravovat práva ke změnám obsahu zrovnávaných
textů. Stav zpracování jednotlivých zarovnání je možné sledovat a při jeho
220
změně je možné automaticky spouštět další externí nástroje či skripty (např.
pro verifikaci formální správnosti či provedení vyúčtování odvedené práce).
Pro účely kontroly jsou také evidovány všechny změny obsahu a struktury
textů. InterText server je navíc vybaven i prostředky pro snadný hromadný
import a export textů a vytváření zarovnání mezi nimi.
Novinky v desktopové aplikaci InterText editor se naopak orientují na jednouživatelské, osobní využití. Díky tomu, že se jedná o nativní aplikaci, je
možné uživateli značně zpříjemnit práci s ním a nabídnout vícero možností
způsobů práce – ať už pomocí myši nebo klávesnice. Nabízí se také možnost
vracení posledních změn (undo/redo) či hromadné vyhledávání a nahrazování v textech. Aplikaci je také možné snadno nastavit podle přání uživatele
(např. typ a velikost fontu, barvy textu a pozadí, zvýraznění netriviálních
segmentů, nastavení vlastních klávesových zkratek, ikon na nástrojové liště
atd.). InterText editor je schopen stahovat si zarovnání z centrálního InterText
serveru a následně na nich pracovat i bez potřeby neustálého připojení k internetu. Výsledek je po dokončení možné odeslat zpět na server. Pokud je
v průběhu práce některý text změněn jiným editorem na serveru, je o tom
uživatel informován a může si provedené změny synchronizovat i do své lokální pracovní kopie. Za přítomnosti internetového připojení InterText editor
také umí průběžně zabránit provádění změn, které by porušily konzistenci
jiných zarovnání téhož textu na straně serveru (tj. při spojování textových
segmentů) a které by server proto nemohl později přijmout.
Hlavní potenciál aplikace InterText editor však spočívá v rozšiřování možností pro osobní tvorbu paralelních korpusů či překladatelských databází.
InterText editor nabízí i možnost importu hrubých textů, které dokáže sám
přeformovat do XML dokumentu a segmentovat na věty pomocí vestavěného segmentátoru založeného na uživatelsky konfigurovatelných pravidlech.
I v případě neznalosti regulárních výrazů si uživatel může alespoň editovat seznam výjimek, kdy tečka v jeho jazyce zlom věty netvoří (typicky u
zkratek). Výsledné zarovnání textů lze také exportovat do téměř libovolného
textově založeného formátu, jaký si uživatel dokáže v konfiguraci nadefinovat. Mezi přednastavenými konfiguracemi je mimo jiné i možnost exportu
do formátu TMX, používaného překladatelskými nástroji CAT či programy
pro strojový překlad.
Díky těmto bohatým možnostem se InterText začíná ujímat i v jiných zahraničních projektech a především v osobních projektech studentů i vědeckých pracovníků nejen v oboru korpusové lingvistiky, ale též translatologie.
221
V současné době je v nějaké podobě aktivně používán přinejmenším na několika univerzitách v Itálii, Španělsku, Velké Británii, Německu a Polsku a je
prezentován i v několika univerzitních kurzech.
Uliana Yazhinova
Humboldt University of Berlin
[email protected]
Syntactic reduplication in Czech and Slovak
(corpus-based approach)
Reduplication is a universal mechanism which is present in every human
language and can be used at all levels of linguistic structure (Maas 2005:
395; cf. also Pott 1862). In the last 30 years, there has been a great amount of
studies and special research projects on reduplication in various languages
(Graz Projekt and Database on reduplication, Hladký (1996); Minlos (2004),
Antoniak (2005), Rubino (2005); Wang (2005), Hurch & Mattes (2009), Andersen (2007), Stolz et al. (2011), etc.). The traditional view of reduplication in
west and east Slavic languages is that it has a productive system of morphophonological reduplication, which could have different grammatical functions and an expressive connotation (Maranzt 1982, Inkleas & Zoll 2005). This
paper will deal with another form of reduplication – syntactic reduplication,
which does play a significant role and is used also widely in Slavonic languages. In this study, following the terminology of T. Stolz (2009, 2011), it
will be distinguished between “syndetic” (Xi Xi) and “asyndetic” (Xi a Xi)
types of total reduplication. In his study (Stolz 2009) are represented some
results to distribution of syndetic and asyndetic reduplicative patterns in
the languages of Europe, which based on the analysis of two large parallel
literary corpora. According to the results of Stolz´s work (2009), Slovak and
Czech belong to two different groups: Czech is a language with “high-degree
222
syndesis” while Slovak is a language with “middle or low-degree syndesis”
(like Russian) (2009:109-110) and this assertion will then be an analytic starting point for the present paper. The aim of this work is, on one hand, to find
out if that hypothesis could be proved on the basis of authentic samples from
large linguistic corpora CNC (http://www.korpus.cz) and SNK (http://korpus.juls.savba.sk). On the other hand, in the present study different patterns
of syntactic reduplicative constructions will be discussed: their frequency,
percentage coverage, their co-existence or competition and functionality in
different discourse types in both languages. In the end a basic typology of
Czech syntactic reduplication will be presented.
References
Andersen, H. (2007). Reduplication in Baltic and Slavic: Loss and Renewal.
Graz Reduplication Conference 2007, University of Graz.
Antoniak D. (2005). Reduplication as a Language universal. Investigationes
Linguisticae, Volume XII, 2005, 1–16
Hladký J. (1996) Zdvojování jako slovotvorný prostředek v češtině a angličtinĕ. ČMF, 78 (2), 79–87.
Hurch, B. & Mattes, V. (2009). Typology of Reduplication: The Graz Database.
In M. Everaert, S. Musgrave & A. Dimitriadis (Eds.), The Use of Databases in Cross-Linguistic Research. Empirical Approaches to Language
Typology (41). Berlin: Mouton de Gruyter, 301–327.
Inkelas, Sh. & Zoll, Ch. (2005). Reduplication: Doubling in Morphology. (Cambridge Studies in Linguistics 106). Cambridge: Cambridge University Press.
Maas, U. (2005). ‚Syntactic Reduplication in Arabic‘. In B. Hurch (Ed.)Studies
on Reduplication. (Empirical Approaches to Language Typology 28).
Berlin: Mouton de Gruyter, 395–429.
Minlos, P. (2004). Reduplikacija i parnie slova v vostochnoslavjanskix jazykax. (Diss.) Moskva.
Pott, A. F. (1862). Doppelung (Reduplikation, Gemination) als eines der
wichtigsten Bildungsmittel der Sprache, beleuchtet aus Sprachen aller
Welttheile. Lemgo & Detmold: Meyer.
Rubino, C. (2005). Reduplication. In M. Haspelmath et al. (Eds.), The World
Atlas of Language Structures. Oxford: Oxford University Press, 114–117.
Stolz, Th. (2009). Syndetic vs. Asyndetic Reduplication in Europe. Graz Reduplication Conference 2007.
223
Stolz, Th., Stroh, C. & Urdze, A. (2011). Total Reduplication: The Areal Linguistics of a Potential Universal. (Studia Typologica 8). Berlin: Akademie Verlag.
Wang, Shih-Ping. (2005). Corpus-Based Approaches and Discourse Analysis
in Relation to Reduplication and Repetition. In Journal of Pragmatics 37,
505–540
Anna Zitová
Ústav Českého národního korpusu FF UK
[email protected]
Martin Stluka
Ústav Českého národního korpusu FF UK
[email protected]
K některým morfologickým zvláštnostem starších
českých textů (především 19. století)
Příspěvek se zabývá vytipovanými morfologickými jevy ze starších vývojových fází češtiny a prostřednictvím jejich analýzy se vztahuje i k širším
otázkám možností a mezí výzkumu založeného na existujících diachronních
korpusech.
Úsilí diachronní složky Ústavu Českého národního korpusu je a v několika následujících letech ještě bude zaměřeno na zpracovávání českého jazyka
19. století a první poloviny století dvacátého. Texty tohoto časového období
procházejí procesem postupné lemmatizace, která probíhá na základě předběžné analýzy textů pomocí automatických procedur (morfologické analýzy
a disambiguace) určených pro současné texty (korpus SYN aj.). Primárním
cílem využití těchto nástrojů je v aktuální fázi práce facilitace přiřazování
adekvátních lemmat slovním tvarům, má však i zajímavé vedlejší efekty:
mezi nerozpoznanými tokeny se pravidelně objevují skupiny tvarů s morfologickými formanty, které se už v nové češtině nepředpokládají, tj. formanty
224
příznakové pro starší vývojová období. Zároveň je možné zpracovávané texty v interním korpusu 19-pol20 alespoň částečně (byť s velkou nepřesností)
prohledávat pomocí morfologických značek.
Výskyt specifických tvaroslovných prostředků, na něž v textech devatenáctého a první poloviny 20. století upozornila automatická lemmatizace,
vede k otázkám, jakým způsobem se tyto prostředky uplatňují i dříve v minulosti a zda je, na druhou stranu, můžeme sledovat až do naší současnosti.
Jazyk 19. století je v mnoha ohledech spojovníkem mezi staršími vývojovými fázemi a vlastním novočeským stavem, zároveň však, vzhledem k určitým sociálním aj. faktorům, představuje svébytnou vývojovou etapu.
Materiál ke konfrontační analýze nabízejí v současnosti korpusy diakorp,
interní korpus 19-pol20 a reprezentativní synchronní korpusy. Vzhledem
ke skutečnosti, že diachronní korpusy zatím v dostatečné míře nepokrývají
žánrové rozpětí textů ze starších období a nejsou kromě zmíněné provizorní
automatické lemmatizace označkovány, spočívá metoda analýzy z větší části
v ručním třídění dokladů a registraci konkrétních děl, z nichž doklady pocházejí. Automatická morfologická analýza a statistické a filtrovací funkce
manažeru Bonito, který je dosud jediným rozhraním, které ruční procházení
konkordance umožňuje, však práci značně urychlují.
Mezi jazykové jevy podrobené konfrontační analýze patří zejména distribuce z dnešního pohledu příznakových koncovek nominativu, genitivu
a lokálu plurálu maskulin a instrumentálu plurálu všech rodů (srov. potokové, komisařův, krbích, nožemi, rtoma aj.), u nichž lze předpokládat jak odraz
staršího jazykového stavu, tak dobové inovace. Pozornost je dále věnována
slovesům (s jejichž taggováním mají automatické procedury největší problémy) – zaměřujeme se na distribuci nepůvodního zakončení -ejí/-ějí u tvaru
3. os. pl. sloves 4. infinitivní třídy k různým lemmatům a ověřujeme možnost
jejího ovlivnění slovním kontextem, frekventovaností lemmatu a dalšími
faktory. Zaměřujeme se také na jev, jehož povaha je na hranici morfologie
a syntaxe: na užívání nesamostatné částice -ť, která se pojí s různými slovními druhy a dosud nejsou zcela jasné všechny její funkce. Je více méně jen
naší domněnkou, že se její funkce alespoň částečně v průběhu historického
vývoje češtiny proměňovala. S jistotou lze jen tvrdit, že její výskyt v textech
je až do konce 19. století poměrně častý. Výsledkem analýzy je jednak popis jazykových jevů, vycházející z kvantitativních i kvalitativních informací vytěžitelných z korpusů, a jednak získá-
225
ní dalších hypotéz, které bude možné na doplněném historickém materiálu
zkoumat.
Literatura
Čejka, M., Šlosar, D. & Nechutová, J. (1991). Gramatika Jana Blahoslava.
Brno: Masarykova univerzita v Brně.
Gebauer, J. (1963, 1960, 1958, 2007). Historická mluvnice jazyka českého. Praha: Academia.
Hanka, V. (1831). Grammatika čili Mluvnice českého jazyka podlé Dobrovského: dílem skrácena, dílem rozmnožena. Praha: http://vokabular.ujc.
cas.cz/moduly/mluvnice
Koupil, O. (2007). Grammatykáři. Praha: Univerzita Karlova v Praze.
Kučera, K. & Stluka, M. (2012). iPRESS 2012 Proceedings of the 9th International Conference on Preservation of Digital Objects, 217–220.
Rosa, J. V. (2008). Thesaurus Linguae Bohemicae. Praha: http://vokabular.ujc.
cas.cz/nezapojene.aspx?idz=eRosaThesN
Stluka, M. (2006). Příklonné částice v textech počátků české prózy. In F. Čermák, K. Kučera & V. Petkevič (Eds.), Korpusová lingvistika: Stav a modelové přístupy. Praha: Nakladatelství Lidové noviny, 314–329.
Thám, K. H. (1801). Böhmische Grammatik zum Gebrauche der Deutschen,
wodurch sie diese Sprache auf eine leichte Art in kurzer Zeit gründlich
erlernen können; nebst verschiedenen böhmisch-deutschen Gesprächen,
auserlesenen Histörchen, Erzählungen, Fabeln, dann eigenen Namen
der Länder, Städte, Flüsse, Völker, Orden, Sekten, Männer, Weiber und
der heidnischen Gottheiten. Praha: http://vokabular.ujc.cas.cz/moduly/
mluvnice
Tomsa, J. T. (1782). Böhmische Sprachlehre. Praha: http://vokabular.ujc.cas.
cz/moduly/mluvnice (elektronická edice)
226
Richard Změlík
Filozofická fakulta Univerzity Palackého
[email protected]
Možnosti jazykového korpusu pro literárněvědnou
analýzu na příkladu autorského slovníku Jana Čepa
„Autorská lexikografie“ (Autorenlexikographie) náleží pod obecnou lexikografii, avšak zejména v českém prostředí jí nebyla věnována zvláštní pozornost. Zejména od 2. poloviny 20. století se (nejen) v této oblasti začíná
hojně uplatňovat strojové zpracování přirozeného jazyka, což pro autorskou
lexikografii představuje nové možnosti. Ačkoli stanoviska některých zahraničních lexikografů vůči kvantitativním metodám nejsou příliš vstřícná
– např. H. E. Wiegand, který nechápe autorské slovníky budované na bázi
formální analýzy lexikálních jednotek (Formwörterbücher) za plnohodnotný
lexikografický výstup, ale za meziprodukt (Zwischenprodukt), který má plnit
zejména heuristickou funkci, zatímco finálním výsledkem má být výkladový
typ autorského slovníku – moderní vývoj nejen v lingvistice klade naopak
důraz na využití exaktních matematických (statistických) postupů, které
jsou dostupné pro zpracování čím dál většího objemu jazykových dat díky
zapojení počítačové technologie do společenskovědného výzkumu.
V českém prostředí existuje několik málo autorských slovníků, které využily strojové analýzy jazykových dat (J. Štindlová, P. Holman, F. Čermák),
či studií zaměřených podobným směrem (M. Těšitelová). Posledními takovými lexikografickými pracemi jsou Slovník Bohumila Hrabala (2007) a Slovník Karla Čapka (2009), jež představují typ frekvenčního lexikostatistického
slovníku poskytujícího řadu důležitých formálních informací o jazyce autorů. Metodologicky se obě publikace zakládají na moderních lexikostatistických metodách a respektují princip, na kterém je budován ČNK spočívající
ve vyváženosti jednotlivých textových množin (subkorpusů). Z hlediska literárněvědného užití ovšem takováto distribuce může způsobovat problém,
a to zejména v nepřesném vymezení jednotlivých subkorpusů, které jsou
v obou slovnících definovány na základě „žánrových“ kritérií a délky textů.
Tyto kategorie jsou relevantní z pozice korpusového, nikoli literárněvědného přístupu. Oba výše jmenované slovníky tak slouží především lingvistickým potřebám, které jsou soustředěny na autorský jazyk jako na jednu
z funkčních a stylových oblastí národního jazyka.
227
Jak dokládá především současný zahraniční výzkum v oblasti kvantitativní lingvistiky (Wilson 2009, Peng & Hengartner 2002, Kaplan & Blei 2007,
Hoover 2008, Stewart 2003, Burrows 1992 ad.) lze jejího potenciálu a metod
využívat rovněž v oblasti literárněvědného bádání. Jedná se např. o sledování podobností mezi texty a jeho částmi, o intertextuální vztahy nebo o zjišťování atribuce textu za pomocí statistického měření a analýzy (PCA – Principal Components Analysis, Discriminant Analysis apod.).
Domníváme se, že korpusové nástroje, které jsou běžně využívané pro
výzkum přirozeného jazyka, mohou být efektivně využity i v literární vědě.
Jednou z možností je např. speciálně navržený autorský slovník. Vlastní
téma konferenčního příspěvku bude zaměřeno na koncepci autorského slovníku Jan Čepa, který bude zpracován korpusovými metodami, avšak primárně bude tento slovník orientován tak, aby reflektoval literárněvědné aspekty.
Projekt je založen na myšlence propojit formální analýzu jazykových dat
s požadavky, které jsou uplatňovány z pozice strukturálně-sémioticky orientované literární vědy. Navrhovaný model autorského slovníku se pokouší
skloubit oba tyto aspekty do funkčního celku tak, aby přitom zůstaly zachovány základní hodnoty epistemologických referencí obou metodologických
postupů, tj. jazykové analýzy prováděné na bázi korpusu a jeho nástrojů
a analýzy literárněvědné. Finálním cílem je především podpořit exaktnost
literárněvědné analýzy, která se díky strojově zpracovaným jazykovým datům může zakládat nejen na úplné excerpci (v našem případě beletristické)
tvorby autora (popřípadě skupiny autorů), ale současně je schopna se opírat
o výsledky exaktní kvantitativní a korpusové analýzy účelově distribuované
a segmentované jazykové materie literárních uměleckých textů.
V příspěvku podrobně představíme především vlastní koncept slovníku,
způsob jeho navržení a strategii a první rámcové výsledky. Na tomto pozadí
pojednáme o možnostech, které se nabízí pro vzájemný kontakt korpusové
lingvistiky a literární vědy, představíme a podrobně okomentujeme výchozí
literárněvědný model narativní analýzy a ukážeme, do jaké míry je potřeba
daný model transformovat a jaké důsledky to s sebou nese pro sledovaný cíl.
Hlavní požadavek při koncipování Čepova slovníku nevyplývá (jako
v případě obou výše jmenovaných autorských slovníků) ze zásad strukturace ČNK, ale z literárněvědných aspektů, které tvoří vývojová chronologie
autorova díla a možnosti jeho jemnější stratifikace, konkrétně na úrovni narativních promluvových pásem. Výsledný model, který respektuje jak relativní chronologii autorova díla, kterou představují jednotlivé subkorpusy
228
(zhruba identické s hranicemi Čepových povídkových souborů, což ovšem
neplatí absolutně), tak distribuci lexikálních jednotek (type, token) do jednotlivých narativních pásem, představuje možnosti využití korpusových
metod i v jiné než čistě lingvistické oblasti, čímž výrazně rozšiřuje kompetence autorské lexikografie pro oblast literární vědy.
Za hranicemi tohoto konkrétního projektu, na obecné rovině lze uvažovat
o vybudování speciálně anotovaných korpusů české beletrie 19. a 20. století, které by sloužily dvěma aspektům: lingvistickému a literárněvědnému
bádání s tím, že by umožňovaly na bázi korpusových dat generalizovat některé z literárněvědných oblastí, např. typy narativních výpovědí, tematiku,
intertextuální a textologické otázky, atribuci či genezi textu atd. (Podobně
zaměřený projekt by mohl najít uplatnění rovněž v praktické didaktice.)
Literatura
Burrows, J. F. (1992). Computers nad the Study of Literature. In C. S. Butler
(Ed.), Computers and Written Texts. Oxford: Blackwell, 167–204.
Čermák, F. (2009). Slovník Karla Čapka. Praha: Nakladatelství Lidové noviny.
Čermák, F. & Cvrček, V. (2007). Slovník Bohumila Hrabala. Praha: Nakladatelství Lidové noviny.
Doležel, L. (2014). Narativní způsoby v české literatuře. Praha: Pistorius &
Olšanská.
Holman, P. (1993). Frequenzwörterbuch zum lyrischen Werk von Otokar
Březina. Köln – Weimar – Wien – Böhlau: Bausteine zur Slavischen Philologie und Kulturgeschichte: Reihe A, Slavistische Forschungen, Neue
Folge; Bd. 4(64).
Hoover, D. L. (2008). Quantitative Analysis and Literary Studies. In R. Siemens & S. Schreibman (Eds.), A Companion to Digital Literary Studies.
Oxford: Blackwell.
Kaplan, D. M. & Blei, D. M. (2007). A Computational Approach to Style in
Maerican Poetry. Seventh IEEE Interantional Conference on Data Mining 7, 553–558.
Peng, R. D. & Hengartner, N. W. (2002). Quantitative Analysis of Literary
Styles. The American Statistician, 56 (3), 175–185.
Stewart, L. L. (2003). Charles Brockden Brown: Quantitative Analysis and Literary Interprettion. Literary and Lingusitic Computing, 18 (2), 129–138.
229
Štindlová, J. (1957). Konkordanční a frekvenční index k Slezským písním Petra Bezruče. Praha: Mechanografiká laborator̆ Ústavu pro jazyk český
ČSAV.
Těšitelová, M. (1974). Otázky lexikální statistiky. Praha: Academia.
Wilson, A. (2009). Vocabulary Richness and Thematic Concentration in internet fetish fantasies and literary short storie. Glottotheory: International Journal of Theoretical Linguistics, 2 (2). Trnava: University of Saints
Cyril and Methodius, Faculty of Arts, 97–107.
230

Podobné dokumenty

Zpracování dat mluvené řeči v Pražském závislostním korpusu

Zpracování dat mluvené řeči v Pražském závislostním korpusu rozdíl od výzkumu psaného textu se však výzkum mluveného jazyka soustřeďuje většinou jen na přepis akustického signálu do textové podoby. Rozsah lingvistické anotace těchto transkripcí je nevelký, ...

Více

Jazykovědné aktuality 2013/3–4 - Jazykovědné sdružení České

Jazykovědné aktuality 2013/3–4 - Jazykovědné sdružení České Statistické údaje o gérondivu jsou založeny na dvou subkorpusech francouzského korpusu FRANTEXT: 1) subkorpus románových textů publikovaných po r. 1950 (291 textů, 24 milionů slov), 2) odborné text...

Více

Ovládání laboratorního modelu Mindstorms NXT (spike) pomocí PC

Ovládání laboratorního modelu Mindstorms NXT (spike) pomocí PC This master thesis analyzes hardware and software features of the LEGO MINDSTORMS NXT robotics development kit. Main aim is to create the application suitable to control the laboratory model „Spike...

Více

Zde - Oddělení gramatiky - Akademie věd České republiky

Zde - Oddělení gramatiky - Akademie věd České republiky sufixální homonymie (jsou derivována sufixy, které jsou se sufixy deminutivními homonymní), jednak paralelní derivace (jejich deminutivní příznak vzniká na pozadí paralelně utvářených substantiv, u...

Více

Libreto č. 3

Libreto č. 3 hory, narozeniny, padesátiny, prázdniny, Dušičky, zásnuby, líbánky, dějiny, podmínky, karty, desky, noviny, plíce, neštovice, dveře, jesle, brýle, koleje, housle, hranice, Vánoce, Velikonoce, žně, ...

Více

Souvislosti a aspekty vztahu informační a kognitivní vědy

Souvislosti a aspekty vztahu informační a kognitivní vědy Poslední kapitola je věnována praktickým aplikacím kognitivních přístupů v informační vědě, zejména ve vztahu k vyhledávání informací. Na některých místech v textu používám pro označení informační ...

Více

Jazykovědné aktuality 2005/1–2 - Jazykovědné sdružení České

Jazykovědné aktuality 2005/1–2 - Jazykovědné sdružení České Redakční rada: Jan Kořenský (hlavní redaktor) Jana Hoffmannová (zástupkyně hlavního redaktora) Pavla Chejnová (výkonná redaktorka) Michaela Černá, Marián Sloboda Adresa redakce a administrace: Ústa...

Více