Zde - Oddělení gramatiky - Akademie věd České republiky

Transkript

Gramatika a korpus 2012: 4. mezinárodní konference
Grammar and Corpora 2012: 4th International Conference
U příležitosti stého výročí narození Miloše Dokulila
On the occasion of Miloš Dokulil’s 100th birthday
28.–30. listopadu 2012
November 28–30, 2012
sídlo Akademie věd České republiky, Národní 3,
Praha
the headquarters of the Czech Academy of Sciences, Národní 3, Prague
Abstrakty / Abstracts
2
Korpus velkých písmen
Martin Beneš
[email protected]
Příspěvek představí způsob anotování a naznačí možnosti využití korpusu velkých písmen,
postupně budovaného v rámci grantového úkolu Psaní velkých písmen v češtině v oddělení
jazykové kultury ÚJČ AV ČR. Materiálovou bázi tohoto korpusu tvoří výrazy, které byly
manuálně excerpovány z e-mailové korespondence jazykové poradny s tazateli v letech 2006–
2009 a z telefonických dotazů a v souvislosti s nimiž tazatelé kladli otázky, zda a (příp.) na
kterých místech v nich psát velká písmena (VP).
Jelikož původní databázi není možné strukturovaně prohledávat, bylo rozhodnuto
pořídit její elektronickou anotovanou verzi – zmíněný korpus velkých písmen. Na základě
teoretických úvah nad funkcemi VP v českém pravopise, nad definičními rysy proprií, nad
pravidly o psaní VP (vyplývajícími ať už přímo, či nepřímo z PČP) byl vypracován specifický
způsob popisu distribuce VP v češtině. V konkrétním (nejasném) případě je třeba pro správné
napsání VP řešit dvě otázky – nejprve tzv. sémantickou (je daný výraz proprium?), pokud je
odpověď kladná (a je-li proprium víceslovné), pak i tzv. otázku strukturní (jaká část propria je
tzv. druhová a jaká tzv. propriální, tj. v jakých jeho částech psát VP?).
Z těchto otázek, jež reprezentují mimojazykové informace, jejichž potřebnost se
v souvislosti s psaním VP opakovaně zdůrazňuje, vyplývá způsob anotování původní prosté
databáze. Každému řetězci, který byl jakožto předmět dotazu směřovaného jazykové poradně
do databáze zařazen, je v první řadě přidělena informace o tom, zda jde, nebo nejde o
proprium (což následně umožní získat např. přehled o apelativech, která mají mluvčí tendenci
psát s VP). U každého propria (zásadní je to zejména u proprií víceslovných) je dále rozlišena
jeho tzv. druhová složka (reprezentující v jeho celku druh pojmenovávané skutečnosti) a jeho
tzv. samotná propriální složka (název, který je konkrétnímu exempláři dané třídy jevů
označovaných výrazem pro druhovou složku aktuálně přidělen). U každé části (důležité je to
opět v případě částí víceslovných) je určeno pořadí v lineárním řetězci jejích jednoduchých
složkových výrazů a zaznamenáváno, zda se v ní má psát VP, nebo MP a zda tato konkrétní
pozice ne/byla předmětem tazatelova dotazu. Tak např. v propriu Sídliště Generála Píky
budou jednotlivým složkám přiřazeny následující charakteristiky: Sídliště, druhová složka
(srov. sídliště Máj, řeka Labe), 1. výraz, předmět dotazu, VP; Generála, propriální složka, 1.
výraz, Gen, VP; Píky, propriální složka, 2. výraz, Gen, VP. V takto anotovaném korpusu bude
možné zadávat dotazy typu: „Najdi všechna propria, v jejichž druhové složce se u prvního
výrazu píše MP a jejichž propriální složka je v genitivu.“
Cílem korpusu není primárně získávat kvantitativní charakteristiky, ale zjistit, jaké
strukturní typy proprií se vymykají explicitním nebo implicitním pravidlům o psaní VP
v češtině (jako náš příklad se sídlištěm – drtivá většina druhových složek se píše s MP); a u
nich pak příp. navrhnout/doporučit změnu kodifikace (budou-li se zdát neodůvodněné), nebo
je v co nejúplnější míře zaznamenat (budou-li se zdát odůvodněné nebo dobře motivované).
Funkcionální vidové dvojice v Českém národním korpusu
Tilman Berger
[email protected]
Mezi nejspornější témata slovanské aspektologie patří otázka, jestli dokonavé protějšky
nedokonavých sloves můžou být vytvořeny prefixací. V české jazykovědě byla většinou
3
formulována v té formě, jestli existují prostě vidové prefixy (což však není úplně totéž), a
odpověď na ni bývá záporná (viz např. Komárek 1984). V rusistice je však představa, že
existují funkcionální vidové dvojice, tj. takové dvojice jednoduchého a prefigovaného
slovesa, které v textu fungují jako vidové ekvivalenty, i když prefix má svůj vlastní význam,
čím dál tím populárnější.
Velká objem Českého národního korpusu nám umožňuje hledat věty, v nichž vystupují oba
členy vidové dvojice, srov. např.:
(1) Byl možná jediný, kdo cítil, že Mike dělá, co udělat musí.
(2) Situace, jež není vysloveně drastická, se dá řešit a vyřešit.
Chci ukázat, jak nám takové doklady pomáhají posoudit, které dvojice jsou funkcionálně
ekvivalentní a které nikoliv. Dále chci diskutovat několik sporných případů, kde zdánlivě
existuje více než dva ekvivalenty (např. vítat – přivítat/uvítat, mlít – umlít/semlít).
Literatura:
Komárek, M. 1984. Prefixace a slovesný vid (K prefixům prostě vidovým a subsumpci. Slovo
a slovesnost 45, 257–267.
Lehmann, V. 1993. Die russischen Aspekte als gestufte Kategorien. Die Welt der Slaven 38,
265-297.
Van Schooneveld, C. H. 1958. The so-called
. In: Dutch
Contributions to the Fourth International Congress of Slavicists. s’-Gravenhage. 159-161.
Zaliznjak, A. A., Šmelev, A. D. 1997. Lekcii po russkoj aspektologii. München.
Pseudodeminutiva v češtině
Jana Bílková
[email protected]
Deminuce je jednou ze základních modifikačních onomasiologických kategorií.
Z hlediska strukturního jsou deminutiva definována jako substantiva, která vznikla modifikací
významu základových substantiv příznakem deminuce (zdrobnění). Význam deminutiva je
dán významem základového substantiva a deminutivního sufixu.
Vícestupňový systém deminutiv v češtině, charakteristický složitými formálněsémantickými vztahy, je dále komplikován na jedné straně existencí slov, která jsou po
formální stránce deminutivy, ale jejichž význam není primárně deminutivní (deminutivní
příznak je u nich oslaben), tedy existencí
formálních deminutiv se sekundárním,
lexikalizovaným, často specifikačním významem – popílek, večírek, sloupek, kočárek,
hubička, čárka, kolečko, na druhé straně také existencí slov, která mají jistý deminutivní
významový příznak (kvantitativní či emocionální), z formálního hlediska však do souboru
deminutiv nepatří.
Příspěvek si všímá právě takových slov, která mají deminutivní příznak, ale nevznikla
deminutivní modifikací základového substantiva, tj. která byla odvozena od nesubstantivních
základů (event. u kterých základové slovo chybí). Jedná se o deverbativa a deadjektiva, a to
především o a) jména nositelů vlastnosti (ufňukánek, neviňátko), b) jména předmětů a
prostředků činnosti (zrcátko, louskáček), c) jména botanická a zoologická (moudivláček,
silenka). Deminutivní příznak takových slov (´pseudodeminutiv ´) je důsledkem jednak
4
sufixální homonymie (jsou derivována sufixy, které jsou se sufixy deminutivními
homonymní), jednak paralelní derivace (jejich deminutivní příznak vzniká na pozadí paralelně
utvářených substantiv, u nichž se deminuce nepociťuje – např. zrcátko - zrcadlo;
rozcuchánek - rozcuchanec). Příspěvek vychází z dat získaných prostřednictvím Českého
národního korpusu SYN.
Kompozice a její potenciál v současné slovní zásobě češtiny
Ivana Bozděchová
[email protected]
Jako druhý hlavní způsob tvoření slov v češtině má kompozice tradičně zastoupení především
u některých typů pojmenování, mezi nimi zejména odborných (termínů, příp. dalších
profesionálních a speciálních názvů). Podíl kompozičního tvoření (různých typů) však narůstá
také v lexiku současných textů publicistických a běžně mluvených. Příspěvek se pokouší
ilustrovat využití slovotvorné kompozice u vybraných typů pojmenování osob (jmen
činitelských, konatelských a nositelů vlastnosti), a to na základě konfrontace lexikografického
zaznamenání těchto názvů ve výkladových slovnících češtiny (počínaje Slovníkem
spisovného jazyka českého), slovnících neologismů a cizích slov s výskytem v textech
Českého národního korpusu. Korpusové materiály umožní posoudit nejen produktivitu těchto
kompozit, ale také jejich funkčnost a stylovou platnost.
Odlučitelná předpona preč a prefix wot- ve starší hornolužické srbštině a jejich
role při gramatikalizaci slovesného vidu
Katja Brankačkec
[email protected]
Odlučitelná předpona preč a prefix wot- ve starší hornolužické srbštině a jejich role při
gramatikalizaci slovesného vidu
V sorabistické literatuře najdeme opakovaně tezi o zvláštní roli tzv. odlučitelných předpon (v
germanistické literatuře označených jako verb particles resp. Verbpartikeln) při vzniku
vidových párů: slovesné odvozeniny s těmito předponami, vzniklé pod vlivem německých
sloves s odlučitelnou předponou, mohou dle této teze být imperfektivním partnerem
perfektivních sloves s prefixem „stejného významu“, např. won hić – wuńć (doslovně: jít ven
– vyjít), srov. Michalk 1959, Brijnen 2000, Toops 2001a a 2001b, Scholze 2007.
Příspěvek zkoumá využití předpony wot- a odlučitelné předpony preč ve starší hornolužické
srbštině. Na základě korpusu starší hornolužické srbštiny ukážeme, že zdánlivá synonyma
mají ve starší lužické srbštině spíše odlišný význam. Jediné možné vidové páry typu preč hić
(ip) – woteńć (p) jsou takové odvozeniny, v nichž mají prefix a odlučitelná předpona směrový
(direkcionální) význam. Doklady s takovými slovesy nalezené v korpusu však nepodporují
tezi o vzniku vidových párů, v nichž by sloveso s odlučitelnou předponou fungovalo jako
imperfektivní partner. Doklady naopak podporují tezi, že slovesa pohybu s prefixem wot- jsou
spíše vidově neutrální, popř. obouvidové. Volba mezi prefixem wot- a odlučitelnou
předponou preč je pravděpodobně nejvíce ovlivněna kontaktním jazykem (němčinou) a
významem odpovídajících sloves, respektive předpon v něm.
5
Literatura:
Brijnen 2000: German Influence on Sorbian Aspect: The Function of Directional Adverbs, In:
Gilberts, Dickey et al (Hrsg.): Languages in contact. (Studies in Slavic and General
Linguistics, 28), Rodopi, Amsterdam, Atlanta, 67–71
Michalk 1959: Über den Aspekt in der obersorbischen Volkssprache, In: Zeitschrift für
Slawistik 4, 241–253
Scholze 2007: Das grammatische System der obersorbischen Umgangssprache, Konstanzer
Online-Publikations-System (KOPS),
http://nbn-resolving.de/urn:nbn:de:bsz:352-opus-32217
Toops 2001a: Aspectual Competition and Iterative Contexts in Contemporary Upper Sorbian,
In: Journal of Slavic Linguistics 9/1, 127–154
Toops 2001b: The Grammar of „Paraphrastic Imperfectives“ in Latvian and Upper Sorbian,
In: Slavic and East European Journal Vol. 45, No 1, 96–114
Člověk v množném čísle (v historické i v současné češtině)
Alena M. Černá
[email protected]
Příspěvek pojednává o konkurenci paradigmatických a supletivních plurálových (včetně
staročeských duálových) tvarů lexému člověk ve starší i v současné češtině. Za výchozí jsou
pro starou češtinu pokládány tvary nom. duálu člověky a nom. plurálu člověci, člověkové,
ľudie, u nichž dochází k posunům formálním (záměny původních o-kmenových tvarů za tvary
jiných kmenů; změny hláskoslovné), gramaticko-funkčním (oboustranné záměny plurálových
a duálových tvarů) i sémantickým. Příspěvek se zabývá vývojem této konkurence v češtině
doby střední a současné. Dnešní stav ukazuje, že ve funkci plurálových tvarů je
v (nespisovné) češtině užíváno vedle tvarů lidé/lidi též tvarů člověci/člověkové, tedy tvarů
z historického hlediska náležitých, avšak v současném jazyce silně příznakových. Cílem je
mj. definovat řečové situace, v nichž je upřednostněn příznakový tvar paradigmatický před
tvarem supletivním.
Materiálovou bázi příspěvku tvoří korpus současné češtiny a veřejné i neveřejné korpusy a
textové banky historické češtiny, dále internet a pro historickou češtinu i další zdroje
(zejména historické gramatiky a slovníky). Součástí příspěvku jsou citace dokladů, jež jsou
pro objasnění formálního i sémantického charakteru lexému nezbytné.
Nástroj pro slovotvornou analýzu jazykového korpusu
Václav Cvrček, Pavel Vondřička
[email protected], [email protected]
Česká slovotvorba udělala především zásluhou zakladatelského počinu M. Dokulila velký
pokrok v oblasti teorie tvoření slov. Menší pozornost byla (i s ohledem na někdejší
nedostupnost dat a nástrojů) věnována kvantitativní stránce fenoménů zahrnovaných do této
oblasti lingvistického bádání. Moderní jazykové korpusy přitom svým rozsahem i
zpracováním přímo vybízejí k aplikaci teoretických poznatků a k popisu konkrétních oblastí v
jejich relativní úplnosti. Jde přitom zejména o tato témata: formální vymezení slovotvorných
6
paradigmat, zkoumání jejich rozsahu a inventáře, určení centra/periférie a otázky produktivity
jednotlivých způsobů tvoření.
Nástroj, který hodláme v tomto příspěvku představit a který vznikl na materiálové
základně korpusů ČNK, si klade za cíl usnadnit korpusově založené bádání v těchto oblastech.
Aplikace není schopna automaticky hledat slovotvorné vztahy mezi jednotkami v korpusu,
slouží ale k testování hypotéz o slovotvorných vztazích mezi různě specifikovanými
vzory/dotazy. Uživatel aplikaci zadává na vstupu pomocí regulárních výrazů základní
charakteristiku společné báze a odlišujících formantů (prefixů, sufixů apod.) dvojice (příp.
trojice) slovotvorných vzorů. Na rozdíl od běžného korpusového vyhledávače tato aplikace
výsledky dotazů mezi sebou porovnává a zjišťuje, zda se odlišují pouze ve specifikovaném
formantu a shodují pouze ve specifikované bázi. Výsledkem je inventář všech nalezených
tvarů či lemmat odpovídajících zadaným vzorům, a především jejich průnik - inventář tvarů
se společným základem (a odlišným formantem) nalezeným v obou dvou (či více) vzorech,
tedy tvarů účastnících se zadaného slovotvorného modelu, a mnoho dalších kvantitativních
informací.
Badatel může v rámci dotazu také specifikovat hláskové alternace, které se při
odvozování můžou aplikovat, a určuje základní gramatické charakteristiky slova fundujícího a
fundovaného (nejčastěji slovní druh). Aplikace pracuje v prostředí webového prohlížeče (tedy
bez nutnosti instalace), nabízí možnost snadného odkazování na zadání kteréhokoli pokusu,
což ulehčuje sdílení poznatků a snadné citování, a poskytuje uživateli rozsáhlou nápovědu a
manuál ke snadnému použití.
Na základě užívání tohoto nástroje, jehož oficiální zveřejnění se připravuje na listopad
2012, je možné zformulovat některé základní principy korpusově založené slovotvorby, které
vyplývají z důrazu na sémaziologický a kvantitativní pohled na tvoření slov.
Negace a skopus kvantifikátorů
Mojmír Dočekal, Hana Strachoňová
Věty přirozeného jazyka, ve kterých se vyskytuje negace a nějaké další kvantifikační výrazy,
jsou alespoň principiálně víceznačné. Proto věta jako (1) má dvě možné interpretace
(Hajičová (1975) rozlišuje mezi negací slabou a silnou, případně externí a interní), první tvrdí
o všech námořnících, že měli tu vlastnost, že nebyli opilí (interní negace), druhá tvrdí, že není
pravda, že všichni námořníci byli opilí. První interpretace je pravdivá jen v případě, že ani
jeden námořník nebyl opilý, druhá v případě, že část námořníků byla opilá a část ne. V
predikátové logice lze tento rozdíl zachytit jako rozdíl v dosahu negace: bud’ má negace
dosah jen přes predikát (interní negace) – (1-a), nebo je v jejím dosahu celá formule (externí
negace) – (1-b).
To, že podobné věty přirozeného jazyka jsou víceznačné, je dobře známo, viz Jackendoff
(1972) pro angličtinu, Hajičová (1991, 1975) pro češtinu a Büring (1997) pro němčinu.
Všechny uvedené práce se navíc shodnou v tom, že to, která z obou interpretací je v daném
přirozeném jazyce primární, je dáno především aktuálním členěním (např. česká věta (1)
vykazuje silnou tendenci k tomu být interpretována jako (1-b)). Nicméně, pokud je nám
známo, neexistuje zatím žádná studie, která by preference obou čtení v daném přirozeném
jazyce zkoumala v korpusu (jediná výjimka pro angličtinu je Hoeksema (1999)). Proto
bychom se chtěli (za prvé) věnovat právě tomuto problému. V korpusu SYN2005 lze najít jak
doklady vět jasně interpretovaných s interním dosahem negace, viz (2-a), tak vět
interpretovaných jasně s externím dosahem negace, viz (2-b).
7
Úkolem našeho příspěvku je na základě korpusu zjistit, které z obou čtení je v češtině
preferované. Kromě aktuálního členění je totiž nutné zohlednit další lingvistický faktor –
čeština má pro interní negaci gramatikalizovaný prostředek – negativní zájmena doprovázená
negativní shodou na slovese. Negativní zájmena by tedy podle klasického Paniniho
blokačního principu (viz Horn (1989), Kiparsky (1973) a mnozí další) měla blokovat možnost
interpretace sekvence všechno …ne s interním dosahem negace, protože přesně tento význam
je vyjádřitelný pomocí negativních zájmen (to je zřejmě hlavní důvod silné preference pro
externí negační interpretaci věty (1)). Nicméně proti blokačnímu principu stojí aktuální
členění, kde je podle Hajičové česká negace bezpříznakově interpretována tak, že subjekt je
presuponován, tzn. interpretace negace je interní. Náš příspěvek se tedy pokusí ukázat (do té
míry, do jaké lze na základě korpusových dat soudit), zda je pro českou negaci důležitější
blokační princip, nebo aktuální členění.
(1)
Všichni námořníci nebyli opilí.
a.
′
′
∀ x [ n a m o r n i k ( x )→¬o p i l y ( x ) ]
b.
′
′
¬∀ x [ n a m o r ni k ( x )→ o p i l y ( x ) ]
(2)
a.
b.
…a jak jsem ji kladla opatrně, aby nespadla a všechna ta jména se nevysypala
…ozvalo se zaklepání na dveře. Tak přece se na něj všichni nevykašlali!
Reference:
Büring, Daniel. 1997. The great scope inversion conspiracy. Linguistics & Philosophy
20:175–194.
Hajičová, Eva. 1975. Negace a presupozice ve významové stavbě věty. Praha: Academia.
Hajičová, Eva. 1991. Jsou záporné věty víceznačné? Slovo a slovesnost 52:280–284.
Hoeksema, Jack. 1999. Blocking effects and polarity sensitivity. In JFAK: Essays dedicated
to Johan van Benthem on the occasion of his 50th birthday, ed. Maarten de Rijke & Yde
Venema Jelle Gerbrandy, Maarten Marx.
Horn, Laurence R. 1989. A natural history of negation. Chicago: Unversity of Chicago Press.
Jackendoff, Ray S. 1972. Semantic interpretation in generative grammar. Cambridge, Ma:
MIT Press.
Kiparsky, Paul. 1973. ’Elsewhere’ in phonology. In A Festschrift for Morris Halle, ed. Paul
Kiparsky & Steven Anderson. New York: Holt, Rinehart and Winston.
A corpus-based study of gender assignment in recent English loanwords
Thomas Egan, Gudrun Rawoens
This paper examines the gender of recently borrowed English nouns in Norwegian. Gender
assignment is part of the morphological integration of borrowed nouns, and although English
loanword gender has been dealt with in previous studies (e.g. Graedler 1998; Johansson &
8
Graedler 2002), it is only during the past decade that large corpora of Norwegian have been
made accessible for research, and thus enable comprehensive analyses of loanwords “based
on large corpora of written and spoken [… language] in formal and informal settings from a
variety of media” (Onysko 2007: 98).
Grammars of Norwegian often view gender as a random lexical feature which is for the main
part ”completely unpredictable” (e.g. Næss 2011: 126). On the other hand, several recent
studies take a principled view of gender assignment as rule-based or dependent on inherent
schemas (e.g. Trosterud 2001; Enger 2001; 2009; Halse 2004; Kristoffersen & Simonsen
2009). The gender assignment of loanwords may be regarded as natural test cases for
hypotheses about productive gender and synchronous assignment rules, and thus contribute
valuable information to the study of gender assignment principles in general, as well as with
respect to loanwords in particular.
Very few of the recent studies mentioned above are corpus-based, or use data from primarily
contemporary sources. A recent study concludes that at least some aspects of the gender
system of Norwegian seem to be in transition (Lødrup 2011), which again indicates that there
may be good reason to look at the gender assignment of new anglicisms in order to capture
some of the most recent trends in this area of grammar.
The main source of data for the present study is the Norwegian Newspaper Corpus
(http://avis.uib.no/). In addition to presenting data pertaining to gender assignment, the paper
also briefly addresses methodological issues such as the suitability of corpora for loanword
identification and extraction, and questions of size and representativeness.
References
Enger, H.-O. (2001). Genus i norsk bør granskes grundigere. Norsk Lingvistisk Tidsskrift 19,
163-183.
Enger, H.-O. (2009). The role of core and non-core semantic rules in gender assignment.
Lingua 119, 1281-1299.
Graedler, A.-L. (1998). Morphological, semantic and functional aspects of English lexical
borrowings in Norwegian. Oslo: Scandinavian University Press.
Halse, G.E. (2004). Genustilordning i nynorsk: Ei datamaskinell etterprøving. MA thesis,
University of Bergen.
Johansson, S. & Graedler, A.-L. (2002). Rocka, hipt og snacksy: Om engelsk i norsk språk og
samfunn. Kristiansand: Høyskoleforlaget.
Kristoffersen, K.E. & Simonsen, H. G. (2009). Tilegnelse av genus hos norske, danske og
islandske barn. Presentation of a research project, Cognitive summer seminar, Hamar,
June 2009.
Lødrup, Helge. 2011. Hvor mange genus er det i Oslo-dialekten? Maal og Minne 2, 120-36.
Næss, Å. (2011). Global grammatikk: språktypologi for språklærere. Oslo: Gyldendal
akademisk.
Onysko, A. (2007). Anglicisms in German: Borrowing, Lexical Productivity, and Written
Codeswitching. Berlin, New York: De Gruyter.
Trosterud, T. (2001). Genus i norsk er regelstyrt. Norsk Lingvistisk Tidsskrift 19, 29-58.
9
Ke střídání vidu ve vyprávění v češtině
François Esvan
[email protected]
Je známo, že v češtině se sled událostí v minulém čase vypravuje převážně pomocí
dokonavých sloves:
(1)
Břeťa se osprchovalP, obléklP bílou košili a do kapsy si strčilP pečlivě zabalenou
růžovou kravatu od Edity […] seběhlP po schodech, nakoplP motorku a vyrazilP do tmy k
poslednímu utkání. SYN2005
S. Ivančev (1961) však jako první upozornil na to, že na konci těchto řetězů
dokovaných tvarů se nezřídka vyskytují i nedokonavá slovesa,
(2)
UkázalP na židli a já jsem se posadilP. VytáhlP jsem tabák a balilI si cigaretu.
SYN2005
a to na rozdíl od jiných slovanských jazyků, např. ruštiny a bulharštiny, kde je v tomto
kontextu nedokonavý vid prakticky vyloučen. Touto zvláštností se dále zabývali lingvisté jak
z Česka (Křížková 1963), tak ze zahraničí (Galton 1976, Stunová 1993, Dickey 1997). Řeč
byla hlavně o tom, jaký význam tyto nedokonavé tvary mají – zda ingresivní či eventuálně
jiný – a do jaké míry je tento jev omezen na určité kategorie lexémů.
Tomuto problému se budeme v našem příspěvku věnovat na základě korpusových dat.
Vyhledali jsme výskyty jednoho či více nedokonavých tvarů v řetězcích dokonavých sloves
v beletristických textech obsažených v korpusech SYN2000, SYN2005 a SYN2010. Rozbor
získaných dokladů nám umožnil sestavit inventář sloves vyskytujících se v dotyčném
kontextu a upřesnit, jaká je jejich funkce ve vyprávění.
Bibliographie
DICKEY, S. M., 2000, Parameters of Slavic Aspect. CSLI, Stanford.
ESVAN, F., 2009, Notes sur l’aspect verbal en marge de la traduction tchèque d’un roman de
Daniel Pennac. In: Erant in quidam civitate… Sborník na počest Daši Bartoňkové. Graeco-latina bruniensa, 14, 2009, 1–2, 79–91.
ESVAN, F., 2010, Studi di corpus in ceco contemporaneo, UNO, Napoli.
GALTON, H., 1976, The main functions of the Slavic verbal aspect, Macedonian Academy of
Science and Art, Skopje.
IVANČEV, S., 1961, Kontekstovo obuslovena ingresivna upotreba na glagolite ot nesvăršen vid
v češkija ezik, Godišnik na Sofijskija universitet - filologičeski fakultet, t. 54, 3 (1959/60),
Nauka i izkustvo, Sofija.
KŘÍŽKOVA, H., 1963, K ingresivnosti v češtině. Slovo a slovesnost, 23, 286–291.
STUNOVÁ, A., 2004, A contrastive Analysis of Russian and Czech Aspects: Invariance vs
Discourse. Amsterdam.
České kontaktové javy na báze Slovenského hovoreného korpusu
Katarína Gajdošová
[email protected]
Českým kontaktovým javom v slovenčine sa v 90. rokoch minulého storočia venovala vo
svojich prácach České kontaktové javy v slovenčine (2005) a Komunikatívna efektívnosť
10
českých kontaktových javov v súčasnej slovenčine (1991) Miloslava Sokolová. Bázovým
základom jej výskumu sa v tom čase stali kodifikačné príručky, excerpty z dennej tlače,
televíznych relácií, ale aj analýzy nahrávok voľných prehovorov študentov na Filozofickej
fakulte Univerzity Pavla Jozefa Šafárika v Prešove. Druhý z uvedených príspevkov prináša
analýzu použitia českých kontaktových prostriedkov a ich nekontaktových variantov na
základe získaných informácií zo sociolingvistického dotazníka, ktorý autorka zostavila.
V príspevku sa vrátime po viac ako dvadsiatich rokoch k výsledkom spomínaného
sociolingvistického výskumu a porovnáme ho s kontaktovými prostriedkami a ich
nekontaktovými variantmi, ktoré dnes zachytávajú slovenské korpusy, osobitne Slovenský
hovorený korpus.
Minulá aktivní příčestí v paralelních rusko-českých textech
Markus Giger
[email protected]
Zatímco na rovině systémové je mezi češtinou a ruštinou v participiálním systému nápadná
shoda (oba jazyky vykazují příčestí přítomné činné (přicházející, v české tradici „zpřídavnělý
přechodník minulý“), minulé činné (přišedší, v české tradici „zpřídavnělý přechodník
minulý“), minulé trpné a dva přechodníky), 1 na textové rovině to vypadá zcela jinak:
přechodníky mají v češtině už jen minimální produktivitu, zvlášť přechodník minulý, a
příčestí minulé činné, v ruštině značně produktivní v obou videch, má v češtině periferní
postavení: je produktivní především u několika mála kořenů s jistou tendencí k
terminologizaci (především od kořenů -stoup- a -běh-), většinou není syntakticky doplněno a
je stylisticky příznakové, zvlášť pokud není tvořeno od omezeného okruhu sloves, u nichž je
nejsilněji produktivní. U řady sloves je značná konkurence s příčestím l-ovým (přišlý, v české
tradici zpřídavnělé příčestí minulé činné). Srov. Kopečný (1958), Damborský (1967), Giger
(2010).
Otevřenou otázkou zatím je fungování aktivního minulého příčestí v ruských a
českých paralelních textech: vystupuje české PMČ(š) jako analogon ruského, a pokud ano, u
kterých sloves, v jakých sémantických a syntaktických funkcích a jak často? Nahrazuje se
ruské PMČ(š) českým l-ovým příčestím? Nahrazuje se ruské PMČ(š) nedokonavého vidu
českým příčestím přítomným činným? Jak často vyřeší překladatelé z ruštiny do češtiny
problém opisem? Jak běžně naopak nahrazují překladatelé do ruštiny české vedlejší věty
ruským PMČ(š)? Jak chápou české l-ové příčestí? Jak vypadá situace v paralelních
překladech z třetího jazyka? Na tyto otázky se snaží příspěvek najít odpovědi na základě
paralelních korpusů.
Literatura:
Damborský, J. 1967. Participium l-ové ve slovanštině. Warszawa. (Rozprawy Uniwersytetu
Warszawskiego 15)
Giger, M. 2010. Příčestí minulé činné na -(v)ší v dnešních českých publicistických
textech. Korpus - Gramatika - Axiologie 1, 2, 3-23.
Izotov, A. I. 1993. Češskie atributivnye pričastija na fone russkich. Moskva
Jediný kategoriální formální rozdíl – neexistence příčestí přítomného trpného na -m- v češtině – je vyvážen
silnou produktivností nedokonavého příčestí „minulého“ trpného na -n/t- v češtině. Srov. k celé problematice
Izotov (1993).
1
11
Kopečny, F. 1958. Přišedší, zahynuvší – přišlý, zahynulý (příspěvek k problému slovanského
příčestí l-ového). In: Vinogradov, V. V. et al. (red.): Slavjanskaja filologija 2. Moskva,
138-163.
Valenční vlastnosti sloves označujících umístění v českém, ruském
a německém jazyce
Bohuslava Golčáková
[email protected]
Příspěvek je věnován výzkumu valenčních vlastností českých, ruských a německých
sloves, který je prováděn na základě práce s korpusy zmiňovaných jazyků (SYN 2005
zpracovaný ÚČNK,Национальный корпус русского языка, korpusyěmeckého
n
jazyka
zpracovávané Ústavem pro jazyk německý se sídlem v Mannheimu).
Valenční syntax prošla od 60. let 20. století dlouhým vývojem, nicméně na své
aktuálnosti neztrácí do současnosti. Již L. Tesniére přisuzoval ve svých Základech
strukturální syntaxe (1959) hlavní roli ve větě slovesu a vyjádřil přesvědčení, že sloveso jako
strukturální centrum věty otevírá ve větě volná místa, která musejí být pro vytvoření
gramaticky správné věty obsazena. Počet a typ těchto míst závisí na situaci, která je slovesem
pojmenovávána. V odborné literatuře se nejednou setkáme s názorem, že počet těchto pozic
souvisí se sémantikou slovesa (srov. Tesnière 1959, Kacnel´son 1972, Apresjan 2006).
Důkazem neutuchajícího zájmu lingvistů o danou problematiku v českém jazykovém
prostředí je valenční slovník českých sloves VALLEX zpracovávaný kolektivem Ústavu
formální a aplikované lingvistiky MFF UK pod vedením doc. M. Lopatkové a doc. Zd.
Žabokrtského.
Nutno zmínit, že jsou sestavovány valenční slovníky i v jiných jazycích. Nicméně
konfrontační studie, které by se věnovaly valenci sloves v několika jazycích, nejsou příliš
časté a pokud se objevují, zaměřují se většinou na porovnání valence sloves ve dvou (nikoli
více) jazycích. Kromě toho se většina konfrontačních prací zabývá rozdíly na povrchové
úrovni věty, tzn. rozdíly ve formálním (morfematickém) vyjádření jednotlivých slovesných
doplnění bez ohledu na sémantické vlastnosti zkoumaných sloves.
Cílem příspěvku je tedy seznámit s výsledky výzkumu valenčních vlastností sloves,
konkrétně sloves označujících umístění v ruském, českém a německém jazyce. Výzkum se
opírá o sémantickou klasifikaci vypracovanou kolektivem katedry ruského jazyka Uralské
státní univerzity v Jekatěrinburgu. Teoreticko-metodologickou základnu výzkumu valence
dané sémantické skupiny sloves tvořily práce ruských, českých i dalších lingvistů v oblasti
funkční gramatiky, komunikativní gramatiky, valenční teorie a sémantiky. Výsledkem
výzkumu je česko-rusko-německý valenční slovník obsahující 524 slovníkových hesel. Každé
slovníkové heslo obsahuje kromě charakteristiky valenční struktury daného i příkladové věty
získané excerpcí z výše uvedených korpusů.
Výzkum byl prováděn v rámci doktorského studia na Filozofické fakultě Masarykovy
univerzity (Ústav slavistiky) a následně pokračoval (a pokračuje) zpracováváním
syntaktických (valenčních) vlastností ruských a českých sloves dalších sémantických skupin
v rámci projektu FRVŠ řešeného v roce 2011 na Katedře germanistiky a slavistiky Fakulty
filozofické ZČU v Plzni.
12
The frequency effect in the production of adjective-noun agreement:
A corpus-based study of Russian speech errors
Svetlana Gorokhova
[email protected]
The paper aims to investigate the role of the frequency effect in computing grammatical
agreement, which is traditionally regarded as an algorithmic process, through an analysis of
274 agreement errors (slips of the tongue) spontaneously produced by native speakers of
Russian. The errors were collected by recording everyday conversations, telephone
conversations, and live TV and radio programs.
In Russian (a heavily inflected language), an attribute adjective case form is computed based
on the head noun case form. At the same time, different case forms of a noun often use the
same attribute adjective form. This may sometimes cause speakers to produce “reversed case
agreement” errors in modifier-head [Adj+N] constructions, selecting an irrelevant head noun
case form based on the relevant pre-modifier adjective case form while it is the reverse that
has to be done, e.g.
[TARGET] Govorit′ ob
okončatel′n-YX
resul′tat-AX
rano →
talk
about final-PL.GEN/LOC result-PL.LOC early
[ERROR]
Govorit′ ob
okončatel′n-YX
resul′tat-OV
rano
talk
about final-PL.GEN/LOC result-PL.GEN early
It is too early to talk about the final results.
It seems plausible to suggest that processing the adjective whose case inflection markers are
homonymic, e.g. GEN/LOC as in the example above, the production system is faced with
ambiguous information and has to choose one of the several alternative noun case forms,
which may result in the selection of a wrong albeit perhaps more robust form (e.g. genitive
instead of locative).
I used the disambiguated part of the Russian National Corpus (about 6 mln. tokens) to
compute the frequencies of occurrence of target and error modifier-head [Adj+N]
constructions and compared the target and error construction frequencies. The comparison
revealed that speakers tend to substitute higher-frequency constructions for lower-frequency
constructions (p (274) < 0.001).
The result suggests that even processes like agreement that have to be algorithmically
computed are affected by the speakers’ implicit knowledge of the distributional patterns of
certain grammatical constructions, which is based on their linguistic experience. The error
construction is likely to be a recurrent pattern stored in long-term memory that a speaker tends
to use as a default schema. In language production, such low-level schemas may have a
priority over the general rules of computing agreement.
13
A corpus-based study of gender assignment in recent English loanwords
Anne-Line Graedler
[email protected]
This paper examines the gender of recently borrowed English nouns in Norwegian. Gender
assignment is part of the morphological integration of borrowed nouns, and although English
loanword gender has been dealt with in previous studies (e.g. Graedler 1998; Johansson &
Graedler 2002), it is only during the past decade that large corpora of Norwegian have been
made accessible for research, and thus enable comprehensive analyses of loanwords “based
on large corpora of written and spoken [… language] in formal and informal settings from a
variety of media” (Onysko 2007: 98).
Grammars of Norwegian often view gender as a random lexical feature which is for the main
part ”completely unpredictable” (e.g. Næss 2011: 126). On the other hand, several recent
studies take a principled view of gender assignment as rule-based or dependent on inherent
schemas (e.g. Trosterud 2001; Enger 2001; 2009; Halse 2004; Kristoffersen & Simonsen
2009). The gender assignment of loanwords may be regarded as natural test cases for
hypotheses about productive gender and synchronous assignment rules, and thus contribute
valuable information to the study of gender assignment principles in general, as well as with
respect to loanwords in particular.
Very few of the recent studies mentioned above are corpus-based, or use data from primarily
contemporary sources. A recent study concludes that at least some aspects of the gender
system of Norwegian seem to be in transition (Lødrup 2011), which again indicates that there
may be good reason to look at the gender assignment of new anglicisms in order to capture
some of the most recent trends in this area of grammar.
The main source of data for the present study is the Norwegian Newspaper Corpus
(http://avis.uib.no/). In addition to presenting data pertaining to gender assignment, the paper
also briefly addresses methodological issues such as the suitability of corpora for loanword
identification and extraction, and questions of size and representativeness.
References
Enger, H.-O. (2001). Genus i norsk bør granskes grundigere. Norsk Lingvistisk Tidsskrift 19,
163-183.
Enger, H.-O. (2009). The role of core and non-core semantic rules in gender assignment.
Lingua 119, 1281-1299.
Graedler, A.-L. (1998). Morphological, semantic and functional aspects of English lexical
borrowings in Norwegian. Oslo: Scandinavian University Press.
Halse, G.E. (2004). Genustilordning i nynorsk: Ei datamaskinell etterprøving. MA thesis,
University of Bergen.
Johansson, S. & Graedler, A.-L. (2002). Rocka, hipt og snacksy: Om engelsk i norsk språk og
samfunn. Kristiansand: Høyskoleforlaget.
Kristoffersen, K.E. & Simonsen, H. G. (2009). Tilegnelse av genus hos norske, danske og
islandske barn. Presentation of a research project, Cognitive summer seminar, Hamar,
June 2009.
Lødrup, Helge. 2011. Hvor mange genus er det i Oslo-dialekten? Maal og Minne 2, 120-36.
Næss, Å. (2011). Global grammatikk: språktypologi for språklærere. Oslo: Gyldendal
akademisk.
Onysko, A. (2007). Anglicisms in German: Borrowing, Lexical Productivity, and Written
Codeswitching. Berlin, New York: De Gruyter.
Trosterud, T. (2001). Genus i norsk er regelstyrt. Norsk Lingvistisk Tidsskrift 19, 29-58.
14
České evidenciální markery a jejich uplatnění v publicistických textech
Milada Hirschová, Soňa Schneiderová
[email protected]
Zkoumání evidenciálnosti se v posledních letech rozvíjí jednak jako „nová perspektiva“
zkoumání modality, jednak i kontrastivně, při srovnávání jednotlivých jazyků. Přehled
českých evidenciálních markerů byl vytvořen v rámci české participace na výzkumném
projektu DFG Funktionsweisen und Struktur evidenzieller Markierungen im Slavischen (ved.
projektu prof. Björn Wiemer, Johannes-Gutenberg-Universität Mainz). Teoreticky se opírá o
Plungjanovo (2001) vymezení sémantických oblastí (hodnot) uvnitř evidenciálnosti
(percepční evidence vs. evidence založené na vyvozování + evidence opřené o sdělení) a o
práci Aichenvaldové (2004).
Čeština patří mezi jazyky, které vyjadřují evidenciálnost lexikálně, nejčastěji pomocí
adverbiálních/částicových výrazů a pomocí syntaktických konstrukcí se slovesy smyslových
vjemů a slovesy myšlení. Při průzkumu realizovaném v rámci zmíněného projektu se potvrdil
předpoklad, že mluvčí ne vždy rozlišují mezi specifikací zdroje informace (evidence) a svým
hodnocením stupně pravdivosti tvrzení (epistémický postoj), proto se další zkoumání obrátilo
k publicistickým textům, u nichž je specifikace informačních zdrojů součástí diskursových
předpokladů, resp. rysem spoluvytvářejícím textový typ. Analýza korpusových dat hodlá
zjistit frekvenci, distribuci a preferenční výskyt jednotlivých evidenčních markerů a klade si
za cíl stanovit jejich funkční užití v možných kontextech publicistického textu. S tím souvisí i
popis míry vlivu jednotlivých aspektů evidence na vyjádření stupně validity, a tedy kvality
informace.
Využití korpusů korespondence pro účely (nejen) slovotvorných analýz
Zdeňka Hladká
[email protected]
Příspěvek bude zaměřen na lingvistickou využitelnost malých specializovaných korpusů.
Nejprve se pokusíme krátce odpovědět na otázku, zda má smysl takové korpusy vůbec
vytvářet, a pokud ano, jaké postupy volit. Problematika bude konkretizována na příkladu
několika korpusů soukromé korespondence vytvořených nebo připravovaných v Ústavu
českého jazyka na FF MU v Brně (KSKdopisy – součást ČNK, KSKe-maily, Korpus přijaté a
odeslané korespondence Bedřicha Smetany, Korpus soukromé korespondence 20. století).
Dále se soustředíme na využitelnost korpusů korespondenčních textů pro lexikologickolexikografický výzkum. Stručně budou prezentovány dosavadní excerpční aktivity,
lexikografické sondy i lexikologické analýzy opírající se o materiál KSKdopisy. Vzhledem
k zaměření konference bude hlavní pozornost věnována několika tématům z oblasti
slovotvorby, pro jejichž zkoumání je soukromá korespondence zvláště vhodným pramenem.
Konkrétně hypokoristickým variantám rodných jmen a aktualizačnímu tvoření apelativ.
Uvedeny budou výsledky slovotvorné a frekvenční analýzy 1000 různých hypokoristických
obměn rodných jmen z KSKdopisy (reflektován bude významný podíl studentů FF MU na
zpracování tohoto úkolu). Ve snaze o představení korespondenčních textů jako východiska
pro relativně komplexní výzkum hypokoristik budou poznatky týkající se slovotvorby
propojeny se sledováním pragmalingvistických aspektů odvoditelných ze zapojení
hypokoristik do konkrétních textů. Poukážeme i na některé zajímavosti diachronní.
15
Jazyková kreativita textů soukromé korespondence v oblasti tvorby apelativ bude
dokumentována jak na novotvarech opírajících se o produktivní slovotvorné modely, tak na
novotvarech, které prezentují záměrnou snahu narušit systémová pravidla.
Automatická slovnědruhová desambiguace slova „to“ v ustálených
větných výrazech
Milena Hnátková
[email protected]
Příspěvek se zabývá automatickou slovnědruhovou desambiguací poměrně frekventovaného
užití slovního tvaru to v českých ustálených větných výrazech, zejména v mluvené češtině, a
následně i problémem určení pádu v případě užití zájmena to ve větných frazémech. Forma
„to“ je homonymní, výsledkem automatické morfologické analýzy tohoto slova je zájmeno
ten jako neutrum v singuláru (PDNS1, například ve spojení: to se teprve ukáže, to je ale
překvapení) nebo neutrum v akuzativu (PDNS4, například ve spojení: kdo to má vydržet, já to
říkám pořád) a částice to (TT, například ve spojení: to pěkně děkuju, to to trvá, to budeš
koukat).
Rozpoznat pád v českém textu počítačovým programem v případě homonymního tvaru
akuzativu (nepředložkového) a nominativu je obtížné. Autor se zaměří především na
desambiguaci slova to jako částice. Vyhledávací procedura ustálených slovních spojení je
součástí automatické morfologické desambiguace, kdy je řešena zejména slovnědruhová
desambiguace v negramatických spojeních a frazémech. Autor se v příspěvku konkrétně
zaměří na ustálená spojení uvedená ve Slovníku české frazeologie a idiomatiky (část Výrazy
větné) a na základě automatického vyhledávání větných ustálených spojení v českých textech
v korpusu SYN2010:
a) představí typy větných výrazů obsahujících slovo to
b) dle úspěšnosti dosavadního automatického značkování ukáže příklady, kdy
automatická desambiguace pomocí obecných gramatických pravidel není spolehlivá a
jedná se převážně o užití frazému.
c) pokusí se vytvořit seznam netranzitivních sloves (bez akuzativní valence) pro potřeby
automatické desambiguace
Se vám to nelíbí? „Jambické“ začátky českých výpovědí / dialogických replik:
v mluvené češtině a beletristické stylizaci
Jana Hoffmannová, Ivana Kolářová
Při stylizaci spontánního, nepřipraveného, expresivního mluveného projevu v současných
uměleckých textech (prozaických, dramatických, ale i např. v komiksech) vystupují do popředí
jako jeden z nejvýraznějších syntaktických rysů „jambické“ začátky výpovědí, resp. replik
jednoslabičnými slovy se, si, sem, sme, ste, mě, mi, tě, ti, bych, by… Sgall a Hronek (1992) je
označují jako příklonky, resp. předklonky; podle J. Tomana (2002) či A. Svobody (2002) nejde
o klitika, všichni zmínění autoři tu však uvažují o výsledcích slovosledné inverze (Se mu to
nepovedlo = „Nepovedlo se mu to“) nebo procesů eliptických (Bych si taky myslel = „To bych
si taky myslel“). Ve hře jsou však zřejmě i další motivace, např. fonetické, související se
specifickými technikami mluveného projevu. Za pozornost stojí i vztah elize/nevyjádřenosti u
16
já byl doma – sem byl doma; nebo homonymie počátkového si, které může být jak zvratným
zájmenem (si nemysli), tak tvarem slovesa být (si jí to řekla?). Častý je tento typ začátků podle
našich výzkumů např. i v komunikaci mladých lidí na chatu, tj. v psaných textech silně
ovlivněných projevy mluvenými. Rády bychom s pomocí korpusů mluvené češtiny zjistily,
zda tyto „jambické“ začátky výpovědí / replik představují výrazný a neodlučitelný znak
současné mluvené češtiny, autentických českých dialogů – nebo zda jde spíše o určitý mýtus,
vydatně živený českými beletristy, kteří usilují o stylizaci ležérního vyjadřování. K tomuto
účelu využijeme i data z beletristických textů obsažených v ČNK (SYN2000, SYN2005,
SYN2010) a zaměříme se na dialogy postav.
Osobní a přivlastňovací zájmena v češtině pro cizince: komplexnost
a simplifikace v zrcadle současného úzu
Andrea Hudousková
[email protected]
Studenti se již v počáteční fázi studia češtiny jako cizího jazyka setkávají s deklinačními
paradigmaty osobních a přivlastňovacích zájmen, která se vyznačují velkou tvarovou
variabilitou. Příspěvek se zaměří jednak na variantní tvary osobních zájmen on, ono v
genitivu a akuzativu, jednak na konkurenci adjektivních a zájmenných tvarů přivlastňovacích
zájmen. Jednotlivé učebnice češtiny pro cizince se v popisu deklinace těchto zájmen výrazně
liší: na krajních pólech pomyslné škály stojí na jedné straně Čeština pro pokročilé (2008)
autorek Confortiové a Turzíkové, na straně druhé Česky krok za krokem II. (2009) od Holé a
Bořilové, ostatní učební materiály lze z tohoto hlediska klást mezi ně.
Co se týče deklinace osobních zájmen on/ono, uvádějí Confortiová – Turzíková veškeré jejich
tvary, včetně těch, které jsou dnes již řídké a mají příznak knižnosti, tj. akuzativní tvary jej
(ak. sg. m. neživ./n.) a je (ak. sg. n.). Přitom důsledně rozlišují mezi životným a neživotným
maskulinem on:
tzn. mezi akuzativními tvary ho/jeho/na něho (m. živ.) a jej/jej/na něj (m. neživ.). Naopak
Holá – Bořilová mezi zájmeny on a ono, podobně jako mezi životnými a neživotnými tvary
zájmena on nerozlišují a pro akuzativ i genitiv těchto zájmen uvádějí tvary ho/něho, něj (s
poznámkou, že něho v akuzativu je tvar maskulina životného).
Různá míra konzervatismu se projevuje i v popisu přivlastňovacích zájmen. Zatímco
Confortiová – Turzíková připouštějí dubletní adjektivní a zájmenné tvary pouze v nom./ak.
sg./pl., Holá – Bořilová uvádějí, podobně jako současné mluvnice češtiny, dublety pro celý
singulár feminina, nom/ak sg. n. a nom/ak pl. všech rodů. Navíc upozorňují na obecněčeské
varianty s hláskovými změnami é/ý, ý/ej a také obecněčeské zakončení instr. pl. -ma.
Cílem příspěvku je na základě korpusového výzkumu zjistit následující údaje:
1) míru rozlišování rodu, životnosti a pádu (ak/gen) u osobních zájmen on/ono v současném
psaném
a mluveném úzu, konkrétně:
a) četnost a distribuci jednotlivých dubletních forem;
b) míru rozlišování životnosti u akuzativních tvarů jeho, jej / něho, něj;
c) poměr výskytu akuzativních tvarů ho, je, jej, jeho / něho, něj zájmena ono;
2) poměr výskytu dublet přivlastňovacích zájmen v přímých a nepřímých pádech.
Ze zjištěných faktů budou v závěru příspěvku vyvozeny důsledky pro způsob prezentace
zmíněných deklinačních paradigmat ve výuce češtiny pro cizince. Je žádoucí, aby si studenti
aktivně osvojili tvary časté a progresivní. Toho lze dosáhnout pouze na základě důkladného
popisu současného úzu.
17
Research on stressed prepositions in Russian: a corpus-based approach
Ilya B. Itkin, Svetlana I. Pereverzeva, Margarita A. Tyurenkova
[email protected], [email protected], [email protected]
The paper relates to the study of collocations of the type “stressed preposition +
noun” (SPN-collocations) in Russian. This study aims at describing the dynamics of
occurrence of such collocations in the Russian language from the 18th century up to the
present, as well as establishing the most significant grammatical tendencies in their usage.
The research is based on data of 2 types: some examples are taken from the Russian National
Corpus (RNC, www.ruscorpora.ru), others are selected from elsewhere. The latter allow us to
estimate the adequacy of the RNC in reflecting a real linguistic situation regarding Russian
stressed prepositions.
The RNC is a complex system of sub-corpora. Our research is based on one of them
– the Accentological Corpus (AC). Particularly, the AC data prove to be extremely helpful for
describing the historical development of the 2 grammatically nontrivial groups of SPNcollocations.
One group embraces collocations with nouns denoting living creatures in form of the
old “inanimate accusative” case (cf. на' люди, на' конь, конь о' конь). As there was no
“animate accusative” in Early Old Russian, these collocations should evidentially be more
frequent in older texts. However, the AC shows that they occur not only in the 18th and 19th
centuries, but also in the 20th century; as for the collocation на' люди 'in the public eye', it
becomes widely spread no earlier than in the beginning of the 20th century.
The other group includes SPN-collocations with nouns in form of the so-called
“second genitive” case (this case is possible only for some masculine nouns and requires the u ending instead of the typical -a), cf. и'з лесу, о'т роду, со' смеху. The corresponding
collocations with the typical “first genitive” also exist in Russian, but generally their stressed
component is the noun: из ле'са, от ро'да, со сме'ха. Studying the AC data proves that the
restriction on using the SPN-collocations with “first genitive” is presently stronger than it
used to be in the 18th and early 19th century.
The AC may help to find the SPN-collocations that are missed in the Modern
Russian dictionaries. E.g., the preposition на in на спор is unstressed according to the
dictionaries, whereas the AC shows that it can be stressed.
On the other hand, the AC data sometimes give false impression of the real linguistic
situation. E.g., for the collocation до дому the AC provides 5 examples with stress on до out
of total 38. This may cause to think that the stress on the preposition in this collocation is
rather rare, which is not correct.
Nové možnosti korpusového výzkumu českých performativních direktivních
a závazkově-direktivních sloves
Andrey Izotov
[email protected]
Referát je věnován novým možnostem korpusového výzkumu českých performativních
direktivních a závazkově-direktivních (podle mainstreamové Searlovy klasifikace) sloves
vzniklých díky rozvoji českého národního korpusu během posledního desetiletí a navazuje na
referát z loňské konference „Čeština v pohledu synchronním a diachronním“ (1.–3. června
2011, ÚJČ).
18
Konstrukce s performativními direktivními slovesy a konstrukce s imperativem tvoří
v současné češtině centrum funkčně-sémantické kategorie výzvy, která je chápána jako
souhrn subkategorií tvořených na základě aktantního rámce predikátu, přičemž
nejdůležitějšími jsou tři subkategorie tvořené na základě následujících tří kategoriálních
situací: Subkategorie 1. – preskriptorem je mluvčí, konatelem je posluchač/posluchači
(„výzva 2. osoby“); Subkategorie 2. – preskriptorem je mluvčí, konatelem jsou
posluchač/posluchači a mluvčí („inkluzívní výzva“); Subkategorie 3. – preskriptorem je
mluvčí, konatelem není posluchač ani mluvčí („výzva 3. osoby“). Jádro každé z těchto tří
subkategorií je tvořeno konstrukcemi s imperativem, které jsou konvencializovány pro
vyjádření ilokučně univerzální výzvy a explicitními performativními konstrukcemi s
ilokučními slovesy, které jsou konvencializovány pro vyjádření ilokučně specializované
výzvy. Jádro první subkategorie je zároveň jádrem celé funkčně-sémantické kategorie výzvy.
Explicitní performativní konstrukce mají v současné češtině výchozí strukturu souvětnou:
performativně užitý prézentní tvar 1. osoby indikativu ilokučního slovesa tvoří hlavní větu,
kdyžto propoziční obsah výpovědi je ztvárněn formou věty vedlejší, srov.: Proto vás prosím,
abyste odešli (SYN2010). K tvoření takových performativních konstrukcích jsou teoreticky
uživatelná následující direktivní a závazkově direktivní slovesa: doporučovat; dovolovat;
hlásit se; nabádat; nabízet; napomínat; nařizovat; navrhovat; objednávat; obsílat;
odporučovat; poroučet; pověřovat; požadovat; prosit; přihlašovat se; přikazovat; přimlouvat
se; připomínat; ptát se; radit; rozkazovat; schvalovat; tázat se; ukládat; upozorňovat; varovat;
velet; volat; vybízet; vyprošovat si; vyzývat; zakazovat; zaklínat; zamlouvat si; zapovídat;
zapřísahat; zvát; žádat.
Pro vyhledávaní základních typů explicitních performativních konstrukcí v SYN jsme využili
následujících dotazů (je samozřejmé, že v 1. pozici dotazu jsme vystřídali všechna zkoušená
performativní slovesa, nikoliv jenom sloveso "doporučit"):
Pro vyhledání výzvy 2. osoby
[word="[Dd]oporučuj[iu]"] []{0,10} [word="abyste"] within <s>
[word="[Dd]oporučuj[iu]"] []{0,10} [word="abys"] within <s>
[word="[Dd]oporučuj[iu]"] []{0,10} [word="aby"][]{0,10} [word="ses"] within <s>
[word="[Dd]oporučuj[iu]"] []{0,10} [word="aby"][]{0,10} [word="sis"] within <s>
Pro vyhledání inkluzívní výzvy:
[word="[Dd]oporučuj[iu]"] []{0,10} [word="abychom"] within <s>
[word="[Dd]oporučuj[iu]"] []{0,10} [word="abysme"] within <s>
Pro vyhledání výzvy 3. osoby:
[word="[Dd]oporučuj[iu]"] []{0,10} [word="aby"] within <s>
Nalezené kontexty byly podrobeny vizuální kontrole pro rozlišení performativního a
neperformativního užití.
Vypadá na to, že korpus je vhodný pro vyhledání právě základních typů explicitních
performativních konstrukcí, protože takové vyhledání se dá formalizovat lépe, než vyhledání
performativních konstrukcí s transformovanou diktumní nebo modisní částí. Vyhledávání
transformovaných performativních konstrukcí v korpusu je složitější a vyžaduje náročnější
vizuální kontrolu, je však také možné.
19
Porovnání funkčních stylů v korpusu SYN2005 na základě frekvence
syntaktických funkcí substantiv
Tomáš Jelínek
[email protected]
Autor v příspěvku představí metodu automatické povrchově syntaktické anotace korpusu:
kombinace stochastického parsingu a pravidly řízené opravy chybných struktur.
Dále autor představí srovnání funkčních stylů v korpusu SYN2005 podle frekvence
syntaktických funkcí a jejich realizací pády substantiv. Analyzovány budou subkorpusy
beletrie (BEL), odborné literatury (ODB) a publicistiky (PUB). Kromě celých subkorpusů
budou do srovnání zařazeny také zvláštní subkorpusy, které obsahují pouze „centrální“ složky
žánrových subkorpusů: romány, novely a povídky v BEL (ne např. literatura faktu);
„vědeckonaučná“ literatura v ODB (ne např. populárněnaučná literatura); novinové texty
celostátně publikovaných deníků v PUB (ne časopisy nebo magazíny).
Autor srovná jednak celkové frekvence syntaktických funkcí substantiv ve zkoumaných
subkorpusech, jednak ukáže rozdíly mezi funkčními styly na rozboru několika zajímavých
dílčích jevů.
Podle očekávání se největší rozdíly ukazují mezi subkorpusem BEL a subkorpusem ODB (a
zvlášť pak mezi jejich „jádrovými“ částmi). Z hlediska celkové frekvence syntaktických
funkcí substantiv je např. v BEL nejčastější funkce předmětná, zatímco v ODB (a také v
PUB) je nejčastější funkce přívlastková.
Mezi dílčí jevy, na kterých budou představeny další rozdíly mezi „žánry“, patří poměr
nominativu a instrumentálu u substantiv ve funkci jmenné části verbonominálního predikátu;
frekvence jednotlivých podtypů genitivního přívlastku (kvantifikace, přívlastek u deverbativ
aj.); podíl prostého instrumentálu ve funkci „původce děje“ a další.
Autor chce příspěvkem mimo jiné ukázat, že ačkoli není automatická povrchově syntaktická
anotace korpusu dosud zcela spolehlivá, i v současném stavu poskytuje mnoho zajímavých
informací o zkoumaném textu.
K výslovnosti slova management (na základě dokladů v korpusu DIALOG)
Lucie Jílková
[email protected]
Příspěvek se zabývá výslovnostními variantami slova management, zkoumá výhradně jeho
zvukové realizace. Výraz management lze považovat za pravopisně neintegrovanou výpůjčku
v češtině (Nekula – Skalka, 2002). Internetová příručka Ústavu pro jazyk český AV ČR, v. v.
i., uvádí u tohoto výrazu hned trojí možnou výslovnost: [menydžment; menedžment;
manadžment]. S využitím dokladů z korpusu DIALOG, tedy multimediálního korpusu
televizních diskusních pořadů, příspěvek ukazuje, k jaké z nabízených výslovnostních variant
se mluvčí nejčastěji přiklánějí, případně realizují-li ještě nějaké varianty další. Ve zkoumaném
materiálu se vyskytuje rovněž výslovnost [menežment], tedy výslovnost oproti variantám
doporučovaným mírně zjednodušená. K tomuto zjednodušení zřejmě dochází pod vlivem
výslovnosti slova manažer [manažer], které se již pravopisně do češtiny integrovalo; může se
však jednat také o výslovnost méně pečlivou (k tomu viz i Obrtelová, 1992). Kromě údajů
statistických je pozornost věnována rovněž aspektům stylistickým a sociolingvistickým:
výskytu dvou či více různých výslovnostních variant v rámci jednoho televizního pořadu,
svázanosti jisté výslovnostní varianty s konkrétním mluvčím a konečně možnostem vzájemné
20
akomodace mluvčích (např. moderátor ve své otázce užije jednu z možných výslovnostních
variant a host ve studiu tuto variantu přijme, nebo naopak užívá varianty jiné).
Nekula, M. – Skalka, B. (2002) Výpůjčka (přejímka), Encyklopedický slovník češtiny, Lidové
noviny, Praha
Obrtelová, N. (1992) Manažering? Management!, Naše řeč, 75, s. 53-54
http://prirucka.ujc.cas.cz/
http://ujc.dialogy.cz/
Česká substantivní deminutiva ve světle korpusových dat
Tomáš Káňa
[email protected]
Popis českých deminutiv, jejich funkce, inflace a lexikalizace je v bohemistice velmi
populární a zdá se, že snad i nevyčerpatelné téma. Zmínku o nich najdeme ve všech
gramatikách češtiny - od těch prvních (Nudožerský, Rose) až po současné (např. Karlík/
Nekula/ Rusínová). Tomuto typickému zástupci onomasiologické kategorie modifikace je
věnován také dostatek místa i ve stěžejním díle M. Dokulila:Tvoření slov v češtině. V úvod
do této kapitoly, již napsal L. Doležel, je zmíněn nedostatek, jehož si autoři tohoto
přelomového díly byli vědomi, ovšem tehdejší technika jim jinou možnost nenabízela:
„...práce vychází z matriálů slovníků (nikoliv rozboru textů)... Je však žádoucí v budoucnosti
tento rozbor doplnit rozborem frekvenčním, který bude ovšem vyžadovat pracné zjištění
výskytu deminutiv v promluvách.“ (Dokulil: Tvoření slov v češtině 2. Praha, 1967, s. 495.)
Dnes, přesně padesát let po vydání Teorie odvozování slov a pětačtyřicet let po vydání
aplikace Teorie (Odvozování podstatných jmen), jsou technické možnosti úplně jiné.
Vzhledem k dostatečnému množství dat a rychlým korpusovým manažerům již není onen
frekvenční rozbor deminutiv v promluvách dokonce ani tak pracný. Navíc můžeme díky
paralelním korpusům efektivně porovnávat výskyty deminutiv českých s ekvivalentními
pasážemi v jiných jazycích. Pokusíme se tedy pomalu zaplňovat neznámé v oblasti českých
kontextově zapojených deminutiv a jejich protějšků v jiných jazycích: v tomto příspěvku se
stručně zmíníme o metodologii postupu práce, vymezení deminutiva jako pragmatického
jazykového jevu, deliminaci lexikalizovaných deminutiv a porovnáme nejfrekventovanější
česká deminutiva (podle Frekvenčního slovníku a na základě dat ČNK a InterCorpu) s tvary,
které jim odpovídají v některých jiných jazycích.
Postponovaný prívlastok v slovenčine a v češtine
Agáta Karčová
[email protected]
Slovosled vety v slovenčine je vysoko variabilný. Prevládajúca flektívnosť v systéme
slovenčiny, intenčné zameranie slovesa a iné faktory umožňujú takmer ľubovoľné radenie
plnovýznamových vetných členov bez straty významu vety. Za inverziu podľa J. Mistríka
môžeme pokladať len zmenu slovosledu tých častí vety, ktoré majú ustálený alebo obvyklý,
gramaticky určený slovosled. Najrozšírenejším typom inverzie je postpozícia holého
zhodného prívlastku, ktorý sa nachádza za nadradeným substantívnym výrazom. Toto poradie
je v slovenčine typické pre odbornú terminológiu (predovšetkým nomenklatúru častí fauny a
21
flóry), pričom prívlastok odlišuje jednotlivé druhy rovnakého rodu. V umeleckom štýle je
charakteristický hlavne pre básnické diela. V období etablovania sa slovenčiny a jej
kodifikácie bol postponovaný prívlastok v podstate súčasťou syntaktickej normy, aj keď už
vtedy bol viazaný len na vybrané funkčné štýly. Prejavuje sa to tiež v poézii štúrovcov, kde je
výskyt postponovaného atribútu častým javom. V dielach súčasných poetov sa zhodný
prívlastok v inverznom slovoslede stáva špecifickým básnickým prostriedkom.
Cieľom nášho výskumu bolo zistiť, či sa postpozícia holého zhodného prívlastku
v slovenčine viaže výlučne na umelecký štýl a odbornú nomenklatúru. Dôležitou súčasťou
výskumu bolo určovanie, aká je motivácia alebo komplex pohnútok na využitie inverzného
slovosledu zhodného atribútu a nadradeného substantívneho výrazu a akú funkciu má
v rôznych typoch prejavov. Zamerali sme sa nielen na písané texty z dostupných zdrojov
(predovšetkým Slovenský národný korpus a internetové prehliadače), ale aj na hovorené
prejavy (ako bázu na výskum sme využili 3. verziu Slovenského hovoreného korpusu).
Frekvenčnú distribúciu postponovaného jednoduchého atribútu v jednotlivých zdrojoch
slovenských komunikátov sme porovnali s distribúciou v českých písaných textoch aj
prepisoch hovorených prejavov.
Osobní zájmena: ověřování hypotéz daty (intuice > KORPUS > dotazník)
Petr Karlík, Markéta Ziková a studenti MU
[email protected]
Východiskem referátu bude představení analýzy vnitřní struktury českých osobních zájmen,
kterou M. Ziková a P. Karlík vypracovali v teoretickém rámci geometrie rysů (Harley(ová) &
Ritter(ová), 2002, a ukázání predikcí, které tato analýza vytváří, přičemž se soustředíme na
distribuci krátkých a dlouhých tvarů osobních zájmen. Cílem referátu bude pak empiricky
ověřit hypotézy plynoucí z toho, že dlouhá osobní zájmena mají více struktury než krátká
osobní zájmena, tj. že dlouhé tvary jsou více specifikované než tvary krátké. Z toho vyplývá,
že:
zájmena osobní. = {{klitická {silná}}}, a podle Elsewhere Condition platí:
(i)
krátká forma je možná, pokud není možná dlouhá forma
DL:ne → KR:ano
(ii)
krátká forma je vyloučena, když je nutná dlouhá forma
DL:ano → KR:ne
V referátu se soustředíme na ověření této predikce pro zájmena 3. os.:
Dlouhé tvary jeho, jemu jsou vybaveny jednak φ-rysy (které realizuje sufix -ho a -mu), jednak
rysem [human], který realizuje je-, a jejich referentem může být tedy pouze osoba (a
domestifikované zvíře?), zatímco krátké tvary ho, mu jsou vybaveny pouze φ-rysy, a tedy
požadavkem na jejich referent je pouze to, že má
φ
-rysy [Mask./Neutr., Sg.]: dotkl se ho
(Petra / dítěte / pejska / telete/ stolu / těsta) × dotkl se jeho (Petra / dítěte / ?pejska / ?telete /
*stolu / *těsta). Ukážeme, zda tuto predikci potvrdily korpusové nálezy, a srovnáme je
s výsledky, k nimž jsme dospěli na základě dotazníku.
22
Mosty mezi větami. Korpusová analýza neprojektivních konstrukcí s tzv. bridge
verbs
Jan Klaška
[email protected]
Ve svém příspěvku se budu zabývat tématem, kterému česká jazykověda věnovala jen
okrajovou pozornost, totiž jednomu z typů tzv. neprojektivních konstrukcí. Ty jsou zejména v
přístupech vycházejících z funkčního generativního popisu označovány jako neprojektivní
konstrukce s tzv. bridge verbs, v českém prostředí se můžeme setkat i s označením
neprojektivní konstrukce s extrakcí, či zkřížená souvětí.
Protože se v dosavadní literatuře věnovala neprojektivním konstrukcím s bridge verbs
v češtině jen malá pozornost, vychází příspěvek zejména z analýzy materiálu z Českého
národního korpusu, a to nejen z korpusu SYN, který bývá při výzkumu založeném na
korpusových datech tradičně používán, ale také z tzv. korpusů mluvených. Ty, i když jsou
malé a nereprezentativní, považuji pro danou problematiku za zdroj rovnocenný
reprezentativnímu korpusu SYN (konstrukce jsou považovány za hovorové a mají stát na
periferii českého syntaktického systému).
Příspěvek se věnuje analýze a popisu neprojektivních konstrukcí s bridge verbs. I když
je zřejmé, že výzkum korpusu nemůže přinést seznam všech bridge verbs v češtině, snažím se
zachytit co nejvíce sloves s takovou schopností. Zajímá mě také to, zda existují v rámci bridge
verbs nějaká omezení, která zabrání extrakci/posunu. Stejně jako v případě samotných bridge
verbs je cílem příspěvku popsat tato omezení také v případě celých konstrukcí a elementů,
které jsou extrahovány. Obecně mě tedy zajímá to, jakou podobu může mít neprojektivní
konstrukce, jaká slovesa či struktury mají vlastnosti bridge verbs a „co“, za jakých podmínek
(či omezení) a „kam“ se může extrahovat/posunout.
Příspěvek, který si dovoluji označit za korpusový, vychází z analýzy korpusových dat,
která byla získána nejprve obecnějšími (avšak spolehlivými) dotazy a poté tzv. ručním
procházením a tříděním cca 15 tisíc dokladů.
Slovesa vyjadřující procesy spojené s místem tvořená sufixem -i(hnízdit, tábořit) a kombinovaným formantem ´prefix + -i-´ (zalesnit,
podsklepit)
Ivana Kolářová
[email protected]
Pozornost věnujeme desubstantivním slovesům odvozeným sufixem -i- nebo kombinovaným
formantem – cirkumfixem ´prefix + -i-´:
– od substantivních názvů míst, tj. slovesům s významem ´být na daném místě´ nebo
´vykonávat činnost na daném místě´, ´držet někoho/něco na daném místě´, např.: hnízdit,
tábořit, věznit…; podsklepit;
– od substantivních názvů jiných jevů, resp. slovesům, která význam činnosti spojené
s místem často pouze implikují: oplotit, zalednit, zastřešit.
Předchozím zkoumáním v korpusech SYN2000, SYN2005 a SYN2006PUB byl zjištěn
poměrně malý počet sloves s těmito významy odvozených pouze sufixem -i- a o něco vyšší
počet sloves tvořených cirkumfixy, která význam činnosti spojené s určitým místem často
pouze implikují.
Cílem výzkumu pro tento referát bude:
23
– zjistit detailní korpusovou analýzou počet a frekvenci sloves tvořených uvedenými
slovotvornými formanty doložených v současném korpusu SYN, srovnat počet a frekvenci
sloves odvozených pouze sufixem -i- a jednotlivými cirkumfixy a zvážit skutečnou
produktivitu těchto slovotvorných typů v současné češtině;
– srovnat význam sloves tvořených sufixem -i- a sloves tvořených cirkumfixy včetně vztahu
významu základového substantiva a odvozeného slovesa a vlivu významu základového
substantiva a konkrétních cirkumfixů na význam jednotlivých slovotvorných typů;
– srovnání výskytu jednotlivých slovotvorných typů v textech různých stylových oblastí,
stylové hodnocení kontextu, v němž jsou slovesa užita; zvážení stylové hodnoty konkrétních
sloves.
Nominalizované struktury se dvěma genitivy ve funkci aktantů
Veronika Kolářová
[email protected]
Tradičně bývají za jedinou možnou nominalizovanou strukturu (NS) se dvěma aktanty
(A1 a A2) vyjádřenými pomocí bezpředložkového genitivu (GenAdnom) považovány takové NS,
jimž odpovídá základová větná struktura (ZVS), v níž je jedna pozice s Gen pozicí valenční.
Jako příklady jsou uváděny pouze struktury S1, v nichž A1 (GenAdnom ← Ak) a A2 (GenAdnom
← GenAdverb), např. zbavení ženy starostí. Naopak struktury S2, v nichž A1 (GenAdnom ← Nom)
a A2 (GenAdnom ← Ak), např. zkoušení Petra Evy, jsou považovány za negramatické.
Tento příspěvek přináší doklady (ze subkorpusů ČNK) o dalších typech NS, v nichž
jsou dva aktanty vyjádřeny pomocí GenAdnom:
(I) Struktury S3, v nichž A1 (GenAdnom ← Nom) a A2 (GenAdnom ← GenAdverb), např.
domáhání se Ireny Riškové „svých“ peněz. Struktury S3 lze dále dělit na struktury S3A
s „plnovýznamovým“ substantivem, např. dožití dítěte konce pojistné doby, dotyk puku
plzeňského útočníka, a struktury S3B, v nichž A2 (GenAdnom ← GenAdverb) spolu s rozvíjeným
substantivem (N) tvoří nominalizaci nějakého víceslovného predikátu (zejm. analytických
predikátů, fázových predikátů a přechodných typů), např. ujímání se vlády ČSOB v impériu
IPB (← ČSOB se ujímá vlády), zanechání činnosti řady klíčových hráčů (← hráči zanechali
činnosti), zdržení se protiprávního jednání Českých aerolinií (← ČSA se zdrží … jednání),
vzdávání se odpovědnosti státu za starší spoluobčany (← stát se vzdává odpovědnosti).
Některá ze substantiv užívaných v S3B jsou se dvěma GenAdnom doložena i při
plnovýznamovém užití, srov. zbavování se radnice nepohodlných zaměstnanců.
(II) Struktury S2B (obdoba S2, výše označených za negramatické), v nichž však A2
(GenAdnom ← Ak) spolu s N tvoří nominalizaci nějakého víceslovného predikátu, např. vzdání
holdu mafiánů svému kmotrovi, poskytování informací společnosti zájemcům o privatizaci.
U NS, jejichž ZVS je víceslovný predikát (tj. S3B a S2B, např. zaměstnanec pozbyl
způsobilosti vykonávat práci), nelze porušit koreferenci konatelů N a A2 (neboli konatelem N
nemůže být nikdo jiný než A1, srov. *zaměstnavatelovo pozbytí.N způsobilosti.A2
zaměstnance.A1 vykonávat…). Případná analýza daných NS uplatňující postupné rozvíjení
substantiv (např. pozbytí {[způsobilosti zaměstnance] vykonávat práci}) neodpovídá jejich
ZVS, případně odpovídá jiné ZVS (mění se význam konstrukce). Doklady s pořadím aktantů
A1 A2 mluví jednoznačně ve prospěch analýzy N rozvitého dvěma GenAdnom (pro S3B srov.
zřeknutí se Bohemians možnosti odvolání).
24
Measuring Standard German? Frequency and Variance as Indicators
for Acceptability: With Examples from Morphology and Syntax
of German Connectors
Marek Konopka, Ulrich Hermann Waßner
The frequency of grammatical phenomena in corpora is not always in direct proportion
to its acceptability (e.g., Conrad 2010). Provided differentiated corpora and careful reflection
are given, it can, however, be used as an aid to assess the degree to which a phenomenon suits
standard language.
In a first step, the frequency of one grammatical phenomenon and its variance across
corpus sections can be studied. This can, on the one hand, indicate that the phenomenon
belongs either (1) to a general standard (e.g., the adverb connector sonst ‘otherwise’) or (2) to
a regional or otherwise defined specific standard (e.g., the primarily Austrian adverbial
conjunction ansonst ‘otherwise’). On the other hand, the phenomenon can seem to be (3)
synchronically standard-distant (e.g., the connector sonsten).
Often, the frequency and the variance of the particular grammatical phenomenon can
be compared to those of competitive phenomena in a second step (as in the variation
sonst/ansonsten/ansonst/sonsten). Comparing the frequencies and examining the
phenomena’s specific distribution across corpus sections ensure the judgements about their
belonging to the standard.
Both methodical approaches are applied in the “Korpusgrammatik” (‘corpus
grammar’), an IDS project, drawing on an overall corpus of four billion words together with a
balanced part corpus of 20 million words. The paper introduces the methodology in detail and
explains it by examples from morphology and syntax of connectors.
Among the German negative-conditional connectors in the range of consequens
markers (meaning otherwise), there are the prototypical cases sonst and ansonsten.
Morphological alternatives (sonsten and ansonst) are rarely known today and missing in
HDK-1 and HdG. However, corpora show that – although indeed rarely used – they actually
occur with a considerable frequency (101 hits for sonsten and even 676 for ansonst in the
GRC on 23 April 2012). The different forms relate to each other in a crosswise sense: The
ratio of ansonsten to the shorter ansonst in the corpora is about 250:1, that of sonst to the
longer sonsten even over 5.000:1.
Furthermore, the connectors ansonst and ansonsten are used in two different syntactic
manners: as a specific kind of subordinated conjunction (Postponierer ‘postponer’) or as a
conjunctional adverb (Adverbkonnektor ‘adverbial connector’) that can occupy various
positions within the sentence. Now, the differentiated IDS corpora allow us to reveal specific
distributions of these two different ways of use. Their pattern of regional distribution is
different to that with regard to the morphologic variation:
ansonst (especially in Austria)
ansonsten (general standard)
as an adverbial connector
especially in Austria
general standard
as a postponer
especially in Switzerland
25
The paper will present the findings in greater detail, specify the results, and demonstrate how
they are deduced from the IDS corpora. It will draw conclusions for assessing the
acceptability and standard suitability of the forms additionally showing how the project uses
statistical instruments to calculate the variance of phenomena (standard deviation SD,
coefficient of variation VC, chi-square test, Juilland et al.’s D, Gries’s DPnorm, etc., cf. Gries
2008).
References:
Conrad, Susan (2010): What can a corpus tell us about grammar? In: O’Keeffe,
Anne/McCarthy, Michael (eds.): The Routledge Handbook of Corpus Linguistics. London,
New York: Routledge, pp. 227-240.
GRC (German Reference Corpus): Institut für Deutsche Sprache (2012): Deutsches
Referenzkorpus/Archiv der Korpora geschriebener Gegenwartssprache 2012-I (Release vom
29.02.2012). Mannheim: Institut für Deutsche Sprache.
Gries, Stefan Thomas (2008): Dispersions and adjusted frequencies in corpora. In:
International Journal of Corpus Linguistics 13, pp. 403-437.
HdG: Kempcke, Günter et al. (1984): Handwörterbuch der deutschen Gegenwartssprache. In
2 Bänden. Berlin: Akademie.
HDK-1: Pasch, Renate/Brauße, Ursula/Breindl, Eva/Waßner, Ulrich Hermann (2003):
Handbuch der deutschen Konnektoren. Linguistische Grundlagen der Beschreibung und
syntaktische Merkmale der deutschen Satzverknüpfer (Konjunktionen, Satzadverbien und
Partikeln). Berlin/New York: de Gruyter. (Schriften des Instituts für Deutsche Sprache. 9.).
Ke tvoření posesivních adjektiv na -ův a -in v češtině
Lucie Kopáčková
[email protected]
Poster představí výsledky korpusového výzkumu tvoření posesivních adjektiv na -ův a -in
v češtině. Zvláštní pozornost bude věnována tvarům typu výtvarničin manžel, kočův košiláček
a hajnův kluk. Cílem výzkumu bude ukázat, zda jsou pravdivá tvrzení v českých gramatikách,
že se v češtině posesivní adjektiva na -ův a -in od jmen těchto typů obvykle netvoří. Výzkum
naváže na příspěvek L. Kopáčkové „Co říká o tvoření přídavných jmen individuálně
přivlastňovacích od přechýlených ženských jmen na -yně/-kyně v češtině odborná literatura a
Český národní korpus“ (v tisku) a bude prováděn v korpusech psaného i mluveného jazyka
ČNK.
Vývoj slovosledných vlastností auxiliáru préterita ve starší češtině
Pavel Kosek
[email protected]
Příspěvek je zaměřen na výzkum vývoje slovosledných vlastností prézentních forem
slovesa býti, které se během historického vývoje češtiny ustálily ve funkci auxiliáru českého
perifrastického préterita.
26
Obvykle se předpokládá, že původně (tj. v praslovanštině) mělo spojení prézentních forem
slovesa býti a l-ového participia platnost přísudku jmenného se sponou, jehož participium
dodávalo danému přísudku rezultativní význam (Komárek 1981: 18; Lamprecht – Šlosar –
Bauer 1986: 244). Později se tato rezultativní konstrukce proměnila ve složenou slovesnou
formu s perfektivním významem, který je zachycen ve staroslověnštině (Večerka 2006: 191) a
zčásti též ve staré češtině (Lamprecht – Šlosar – Bauer 1986: 244, Kvítková 1991). Ve staré
češtině se toto perfektum mělo změnit v prostý minulý čas bez rezultativního významu –
préteritum. Proces proměny „sponových” forem slovesa býti ve formy auxiliární měl být
završen proměnou auxiliárních forem ve stálá enklitika.
Pro vývoj českých enklitik je příznačná konkurence několika slovosledných konstelací
(modelů): 1. postiniciální pozice – enklitikon je umístěno za první přízvučný člen klauze, 2.
kontaktní pozice („verbálně adjacentní”) pozice – enklitikon je umístěno v bezprostřední
blízkosti slova, s nímž je gramaticky spjato, 3. distantní pozice (enklitikon je umístěno
uprostřed klauze bez kontaktu se slovem, s nimž je gramaticky spjato).
Cílem příspěvku je prozkoumat vývoj slovosledných vlastností auxiliáru préterita: 1. s
ohledem na jeho proměnu ve stálé enklitikon; 2. s ohledem na zmíněnou konkurenci tří
slovosledných konstelací enklitika.
Výzkum vychází z dat obsažených v diachronních korpusech češtiny (DIAKORP,
Staročeská textová banka) a z autorova soukromého korpusu barokních textů. Výklad
získaných dat je založen na zkoumání: 1. větných pozic, které auxiliár obsazuje, 2. jeho
kombinatorních vlastností, jako jsou poloha vůči participiu, jeho poloha ve skupině enklitik či
jeho spojitelnost s větným záporem.
Literatura
AVGUSTINOVA, Tania – OLIVA, Karel. 1997. On the Nature of the Wackernagel Position
in Czech. In JUNGHANNS, U. – ZYBATOW, G. (eds.) Formale Slavistik, Frankfurt
am Main: Vervuert Verlag, s. 25–47.
FRANKS, Steven – KING, Tracy Holloway. 2000. A handbook of Slavic clitics. Oxford:
Oxford University Press.
FRANKS, Steven. Clitics in Slavic. In KEMPGEN, S. – KOSTA, P. – BERGER, T. –
GUTSCHMIDT, K. (eds.) Die slavischen Sprachen. The Slavic Languages, Walter de
Gruyter: Berlin – New York , s. 725–738.
DOSTÁL, Antonín. 1967. Historická mluvnice česká II. Tvarosloví 2. Časování. Praha: SPN.
GEBAUER, Jan. 1929. Historická mluvnice jazyka českého IV. Skladba. (ed. F. Trávníček).
Praha: ČAVU.
GIGER, Markus. 2006. Typ šel jest, šli sú v slovenčine a češtine 16.–18. stor. In
NÁBĚLKOVÁ, M. (ed) Česko-slovenská súčasnosť a česká slovakistika, 7. Praha: FF
UK, s. 189–201.
HALPERN, Aaron. 1998. Clitics. In SPENCER, A. – ZWICKY, A. M. (eds.) The handbook
of morphology. Oxford: Blackwell Publishers Ltd.
FRIED, Mirjam. 1994. Second-position clitics in Czech: Syntactic or phonological? Lingua
94, s. 155–175.
JUNGHANS, Uwe. 2002. Klitische Elemente im Tschechischen: eine kritische
Bestandaunahme. In DAIBER, Th. (ed.) Linguistische Beiträge zur Slavistik IX.
München, s. 117–150.
KOMÁREK, Miroslav. 1981. Nástin morfologického vývoje českého jazyka. Praha: SPN.
KOSEK, Pavel. 2009a. Word Order of the Pronominal Clitics in Non-finite Phrases in the
Czech Baroque Language. In ZIKOVÁ, M. – DOČEKAL, M. (eds.), Czech in Formal
Grammar, s. 115–130. München.
27
KOSEK, Pavel. 2009b. Wortstellung der pronominalen Klitika in der tschechischen Sprache
der Barock-Periode. In LOUDOVÁ, K. – ŽÁKOVÁ, M. (eds.), Early European
Languages in the Eyes of Modern Linguistics. Brno, s. 169–188.
KVÍTKOVÁ, Naděžda. 1991. K užívání préterit ve staré češtině. Listy filologické, 114, s.
237–242.
LAMPRECHT, Arnošt – ŠLOSAR, Dušan – BAUER, Jaroslav 1986. Historická mluvnice
češtiny. Praha: SPN.
LEŠNEROVÁ, Šárka. 2002. Postavení příklonky se v textu Kryštofa Haranta „Cesta z
Království českého... do Země svaté...”. In HLADKÁ, Z. – KARLÍK, P. (eds.) Čeština
– univerzália a specifika 4. Brno: MU, s. 325–327.
MIGDALSKI, Krzysztof. 2009. On Two Types of Wackernagel Cliticization in Slavic. In
REICH, J. – BABYONYSHEV, M. – KAVITSKAYA, D. (eds.). Formal Approaches
to Slavic Linguistics: The Yale Meeting. Ann Arbor: Michigan Slavic Publications, s.
147–162.
SGALL, Petr – HAJIČOVÁ, Eva – BURÁŇOVÁ, Eva. 1980. Aktuální členění věty v češtině.
Praha : Academia.
PANCHEVA, Roumyana. 2005. The rise and fall of second-position clitics. Natural Language
and Linguistic Theory, 23, s. 103–167
SVOBODA, Aleš. 2000. Klitika z hlediska funkční větné perspektivy (I). In KARLÍK, P. –
HLADKÁ, Z. (eds.), Čeština – univerzália a specifika 2, Brno: MU. s. 149–159.
SVOBODA, Aleš. 2001. Klitika z hlediska funkční větné perspektivy (II). In KARLÍK, P. –
HLADKÁ, Z. (eds.), Čeština – univerzália a specifika 3, Brno: MU. s. 149–159.
ŠLOSAR, Dušan. 1967. Poloha enklitik jako kritérion k hodnocení staročeské interpunkce.
Listy filologické 91. s. 251–258.
TOMAN, Jindřich. 2004. Ertlova diskuse českých klitik. In HLADKÁ, Z. – KARLÍK, P.
(eds.) Čeština – univerzália a specifika 5, Brno: MU. s. 73–79.
TOMAN, Jindřich. 2000. Prosodické spekulace o klitikách v nekanonických pozicích. In
HLADKÁ, Z. – KARLÍK, P. (eds.) Čeština – univerzália a specifika 2, Brno: MU. s.
161–166.
UHLÍŘOVÁ, Ludmila. 1987. Knížka o slovosledu. Praha: Academia.
VEČERKA, Radoslav. 1989. Altkirchenslavische (Altbulgarische) Syntax I, Die lineare
Satzorganisation. Freiburg i. Br: Weiher.
ZIKÁNOVÁ, Šárka. 2009. Postavení slovesného přísudku ve starší češtině (1500 – 1620).
Praha: Karolinum.
Srovnávání nesrovnatelného
Jan Králík
[email protected]
Textové korpusy umožňují získat poměrně snadno také velké množství kvantitativních
údajů, jejichž statistická přesnost je ve srovnání s dosud běžnými kvantitativními
charakteristikami jazykových jevů několikanásobně vyšší. Jinde účinné statistické metody
posuzování hypotéz o shodě, o výběrech z téhož základního souboru, o významnosti rozdílů
atd. proto nelze aplikovat přímo. Rozdíly v rozsahu souborů, z nichž se nabízejí data ke
srovnávání, dosahují i několika řádů. Je proto třeba ujasnit, jaké jevy lze a jaké jevy nelze
srovnávat, zda a jak lze definovat hranice základních souborů a jak vůbec nahlížet na
statistickou přesnost korpusových dat. K ilustraci budou předložena data o rozložení frekvencí
fonémů a jejich dvojic, nově zjištěná ze dvou extrémně různě rozsáhlých souborů. Analýza
28
míry shod a rozdílů upozorní na překvapivou shodu v jiném aspektu těchto rozložení. Závěr
se dotkne také zdánlivě jednoduchého problému srovnávání variant.
Adjektívno-substantívne kolokácie typu v plnom rozsahu
Daniela Majchráková
[email protected]
V príspevku sa zameriam na analýzu (predložkových) adjektívno-substantívnych kolokácií,
pričom materiálovou bázou pre výskum týchto spojení bude kolokačná databáza obsahujúca
kolokačné profily 250 substantív a dáta Slovenského národného korpusu.
Jadrom analýzy budú ustálené spojenia s príslovkovou a časticovou platnosťou typu v blízkej
budúcnosti, v dohľadnom čase, v najhoršom prípade, v plnej rýchlosti, k plnej spokojnosti, v
širších súvislostiach, spoločnými silami, celou silou. Ide o lexikalizované, „anomálne“
spojenia slov, ktoré sú v porovnaní s voľnými, aktuálne vytvorenými spojeniami príznakové
svojimi morfo-syntaktickými reštrikciami, ako aj štatistickou signifikantnosťou.
V príspevku budeme na báze korpusových dát sledovať v akej miere a v akých podobách sa
uplatňuje kritérium anomálnosti v prípade vybraných kolokácií: ich morfologické špecifiká,
ďalej syntaktické preferencie súvisiace s ich vetnočlenskou funkciou, ich obmedzenú
spájateľnosť, teda schopnosť viazať na seba konkrétnych lexikálnych partnerov, ako aj
frekvenčné a štatistické charakteristiky.
Týmito vlastnosťami sa dané kolokácie vymedzujú voči pravidelným kombináciám slov ako
ustálené spojenia a svojou nefrazeologickou a neterminologickou povahou sa zaraďujú medzi
lexikalizované spojenia.
Slovotvorné typy českých deverbativ a deadjektiv (diachronní pohled)
František Martínek
[email protected]
Příspěvek se zabývá slovotvornou stránkou dvou typů jmenných komponentů tzv.
analytických verbonominálních spojení 2 – deverbálních a deadjektivních substantiv.
Deverbativa přitom podle Radimského (2010: 61n.) rozděluje na verbální, tj. ta zakončená na
-ní nebo -tí, a dějová (srov. také Kralčák 2005: 56n. a Stehlíková 2010).
Prvním cílem příspěvku je klasifikace daných deverbativ a deadjektiv podle slovotvorných
typů v diachronním pohledu. Přitom se ukazuje např. a) kontinuální vysoké zastoupení
konverzních deverbativ (např. slib); b) klesající podíl spojení akčního slovesa obecného
významu (typu konati) s deverbativy na -ní a deadjektivy na -ost v průběhu vývoje češtiny; 3
c) průběžné nahrazování konkretizovaných abstrakt, jež si současně ponechala i dějový
význam, synonymy (psání/psaní ‚psaní‘ i ‚dopis‘).
Druhým cílem příspěvku je kvalitativní a kvantitativní analýza, nakolik fungují vybraná
polysémní deverbativa jako pojmenování děje a výsledku děje. V souvislosti s ní je podán
orientační významový popis vybraných lexikalizovaných deverbativ, jež se významově
vzdálila od fundujícího slovesa.
Srov. Kralčák 2005, z českých badatelů týž jazykový jev analyzuje naposledy Radimský 2010 (s jiným
pojmenováním jevu, viz titul jeho monografie).
3
Reprezentativní statistická data pro současnou češtinu uvádí Radimský (2010: 64–71).
2
29
Příspěvek vychází z jazykových dat dostupných v korpusech (ČNK Diakorp, Staročeská
textová banka, Korpus českých humanistických textů, synchronní korpusy ČNK) i dat
shromážděných a analyzovaných v monografiích (především Radimský 2010); jako
srovnávací materiál využívá rovněž dostupné elektronické lexikální databáze (Nejedlý et al.
2010) a slovníkové zdroje (StčS, Jungmann 1834–1839).
Literatura a zdroje:
Český národní korpus. Ústav Českého národního korpusu FF UK, Praha. Dostupný z WWW:
http://ucnk.ff.cuni.cz. 4
Jungmann, J.: Slovník česko-německý I–V. Praha: Knížecí arcibiskupská tiskárna, 1835–1839.
Kralčák, Ľ.: Analytické verbo-nominálne spojenia v slovenčine: Synchrónno-diachrónny
pohľad. Nitra: Univerzita Konštantína Filozofa, 2005.
Nejedlý, P. et al.: Lexikální databáze humanistické a barokní češtiny. Oddělení vývoje jazyka
ÚJČ AV ČR, v. v. i., Praha, 2010. Dostupná z WWW: http://madla.ujc.cas.cz.
Radimský J.: Verbo-nominální predikát s kategoriálním slovesem. České Budějovice:
Jihočeská univerzita, 2010.
Staročeská textová banka. Oddělení vývoje jazyka ÚJČ AV ČR, v. v. i., Praha. Dostupná
z WWW: http://vokabular.ujc.cas.cz.
StčS: Staročeský slovník. Praha: Academia, 1968–2008.
Stehlíková, Lucie: Morfosyntaktické vlastnosti deverbálních jmen na -ní/-tí. Disertační práce.
Brno: FF MU, 2010.
I have friends come/coming over: The have construction seen through its
Czech equivalents
Michaela Martínková
[email protected]
The English construction with have complemented by a noun phrase (NP) and a verb in the
infinitive or the –ing form (the have construction) is in Quirk et al. (1985) ranked among the
complex transitive complementation type with “coercive“ meaning and further considered
alongside the “existential there”. The NP in the subject of what they call “the haveexistential” then can have “an affected role” (1985, 1412). Poldauf (1967, 26) explicitly states
that the function of the have-construction is to introduce as subject “the one interested in what
is further predicated”, and that it is equivalent to the Czech construction with the “nonattached dative” (Poldauf 1966, 250), recently analyzed as the Affected Possessor (AP)
construction within the framework of Construction
Grammar by Fried (2011).
This presentation first ponders possible criteria (the type of the NP in the subject and
complement of have, animacy of its head noun) helping to differentiate the possible causative
and experiential readings this construction can have in a monolingual parsed corpus of
present-day British English (ICE-GB), and then turns to a parallel translation corpus
(InterCorp) to reveal ambiguity and vagueness through translation patterns (Johansson 2007,
57). A detailed analysis of the Czech equivalents of the have construction shows that
a. the AP construction is much less frequent as an equivalent of the have construction with the
infinitive, where the Czech causative verb predominates;
Korpus českých humanistických textů o rozsahu přes 500 000 slovních tvarů se připravuje ke zveřejnění
v diachronní složce ČNK.
4
30
b. if the possessum (PM) is a possessor’s (PR) body part, the AP construction predominates
over a possessive pronoun, which evokes detachment from the PR. With alienable entities as
PMs, possessive pronouns are more frequent than the AP construction;
c. the AP construction is not used if the verb cannot be interpreted as affecting the PR in the
context given, or if it is an argument of the Czech verb. A more expressive verb, however,
often compensates for the lost affectedness, or a change in valence allows for the use of the
AP construction;
d. with human, i.e., non-prototypical PMs (Taylor 1995, 202), causative interpretations of
have are at hand. Translations by causative verbs are the only option if the affectedness of the
PM does not imply PR’s affectedness. If the PR can be interpreted as affected, translations
both with the causative verb and the AP construction occur, suggesting perhaps that the causer
is causing the event because he/she has some interest in it.
e. Have as a mere linking verb introducing a secondary predication invites not only these
causative interpretations, but also combinations with inanimate subjects. These are translated
by prepositional phrases, or the causal relation is inferred from two juxtaposed sentences; the
AP construction was not used in the data analyzed.
Liší se mluvené a psané texty ve valenci?
Marie Mikulová, Jan Štěpánek, Zdeňka Urešová
[email protected], [email protected], [email protected]
V příspěvku představíme Pražský závislostní korpus mluvené češtiny. Syntaktickosémantická anotace textů tohoto korpusu mluvené řeči přinesla (mimo jiné) neočekávaně
velké rozšiřování valenčního slovníku PDT-Vallex, který byl doposud budován jen při anotaci
psaných textů. Rozšiřování slovníku probíhá na několika úrovních: (i) slovník je rozšiřován o
zcela nová slovesa; (ii) ke slovesům, která již ve valenčním slovníku byla obsažena, přibývají
nové významy, nové valenční rámce; valenční rámce, které byly ve slovníku již obsaženy, se
obohacují (iii) o nové aktanty a (iv) o nové formální realizace aktantů. Všechna tato rozšíření
jsou jednak (a) nepříznakové povahy, vyvolaná pouze výskytem nového slovesa, významu,
aktantu, formy, ale (b) některá z nich jsou jednoznačně daná specifikem mluvených projevů.
V psaném textu by se takové sloveso, daný význam slovesa, aktant, forma s velkou
pravděpodobností nikdy nevyskytly.
Příkladem příznakového nového slovesa je sloveso pokoupit ve větě (1). Příznakový význam
mají například jednotlivá užití slovesa mydlit v autentických dokladech (2). Věta (3) je
příkladem nestandardně užitého aktantu u slovesa (sloveso cvičit má obvykle jen jeden
akuzativní předmět). Nestandardní, příznakovou formou je vazba na+4 (dráždit na kašel)
v příkladu (4). Častou příznakovou formou je realizace přímého předmětu vedlejší větou
připojenou podřadicí spojkou že; srov. příklady v (5) .
(1)
(2)
(3)
(4)
(5)
Pokoupili jsme si tam všelijaké zajímavosti.
Mydlili jsme do sebe pěstmi. Mydlil do kytary. Hrát se musí zápěstím, s citem, ne do
míčků mydlit.
Kněz nás děti cvičil všelijaké básničky.
Mám trošku chrapot a dráždí mě to na kašel.
Přišli agitovat, že by potřebovali mladé soustružníky do dílen. V Pramenu se
dostávalo, že jim zaplatili rekreaci. Zželelo se nám, že jsme Petra nevzali s sebou.
31
Domníváme se, že valenční chování slovesa v mluveném textu může být jiné než v textu
psaném. V našem příspěvku se pokusíme vyvodit některé obecnější závěry o valenčním
chování sloves v mluvených textech.
K infinitivním podmínkovým větám v češtině
Kateřina Milotová
[email protected]
Hlavním tématem příspěvku jsou infinitivní podmínkové věty, pro které je specifická absence
určitého slovesného tvaru v roli predikátu, jehož pozici zastupuje infinitiv, a dále také
realizace subjektu, která není v infinitivní podmínkové větě blokována. Tyto konstrukce jsou
také charakteristické tím, že podmínková věta není uvozena spojkou a modálnost není
explicitně vyjádřena. Cílem příspěvku je podat, využitím metod korpusové lingvistiky,
analýzu infinitivních podmínkových vět v češtině z hlediska slovosledu, role intonace,
jednotlivých gramatických kategorií ve větě řídící a jejich případného omezení, či z hlediska
postavení podmínkové věty v souvětí. Jádrem příspěvku je pak otázka, zda a jak jsou tyto
konstrukce gramatikalizované, v čem je jejich funkce a co jsou jejich konkurenční formy. Na
závěr se příspěvek zaměří na téma četnosti výskytu podmínkových infinitivních vět a také na
polemiku, zda jsou tyto věty spíše prostředkem mluveného jazyka nebo jsou častým jevem i
ve spisovných textech.
Bohemismy v současné slovenštině
Květa Musilová
[email protected]
1. Užívání bohemismů v současné slovenštině je v poslední době stále více
tematizováno nejen mezi slovenskými odborníky, ale také laickou veřejností. Nakolik je
opodstaněný názor, že se bohemismy šíří ve slovenštině nad únosnou míru, tj. především na
úkor původní slovenské slovní zásoby, můžeme dokumentovat na jazykovém materiálu
Slovenského národního korpusu (prim-5.0-public-all, web-1.0), a to komparací kontaktových
a nekontaktových variant..
2. Zkoumali jsme na 180 lexémů a předložkových vazeb; další část analýzy tvořilo
porovnání atributivního rozvíjení zájmen nič a niečo postponovaným adjektivem v genitivu
(bohemismus) a v akuzativu/nominativu (původní varianta) – testováno se 150 adjektivy.
2.1. Na základě frekvenční distribuce sledovaných jazykových jevů jsme stanovili
kvantitativní poměr mezi kontaktovou variantou (bohemismem) a jejím nekontaktovým
(původním) protějškem. Podle míry konkurence KV a NV jsme vydělili 3 skupiny:
- skupina I: převažuje varianta nekontaktová (původní) nad bohemismem
- skupna: II kontaktová varianta (bohemismus) a nekontaktová varianta existují vedle sebe
v celkem vyrovnaném poměru, přičemž kontaktová varianta má nižší frekvenci než
nekontaktová
- skupina III: kontaktová varianta (bohemismus) má vyšší frekvenci než varianta
nekontaktová.
3. Na základě zjištěných hodnot můžeme konstatovat, že značná část námi
sledovaných bohemismů sice zaujímá ve slovenštině nezanedbatelný prostor, ale až na
výjimky navytlačuje původní varianty na okraj jazykového systému, alespoň pokud jde o
32
texty psané. Komplexnější pohled na vývojové tendence v této oblasti bude umožněn po
rozšíření stávající databáze mluvených textů SNK.
Prekrývania a rozdiely slovenských a českých synonymických skupín.
Lexika a slovotvorba
Mira Nábělková
[email protected]
Špecifickú výskumnú oblasť v konfrontačnom zameraní na slovenskú a českú slovnú zásobu
predstavujú zhody a rozdiely v synonymických skupinách. Okrem systémového
porovnávacieho pohľadu smerujúceho k prehlbovaniu poznania vzájomného vzťahu lexiky
obidvoch jazykov je to téma dôležitá aj z hľadiska medzijazykovej komunikácie – pri
vzájomnej česko-slovenskej komunikácii výber lexikálnej jednotky patriacej obidvom
jazykom (bivalentnej lexémy) môže komunikácii pomáhať, kým naopak výber diferenčnej (a
neznámej) lexémy môže viesť k neporozumeniu a komunikačným šumom. Ako príklad
synonymických skupín tohto typu možno uviesť SL mláka (s – podľa Slovenského národného
korpusu – frekvenčnou dominanciou), kaluž, kalužina, barina – CZ kaluž, kalužina, louže,
prekrývajúce sa v bivalentnom pomenovaní kaluž (kalužina). Synonymické skupiny v
konfrontačnom pohľade možno analyzovať z hľadiska pôvodu jednotlivých lexém (často ide
o rozdielnu regionálnu bázu a v prípade česko-slovenského prekrývania o odraz existencie
nárečového kontinua), ich statusu v spisovnom jazyku a v nárečiach, ich sémantického
spektra a suprasémantických charakteristík, medziiným (korpusovo doložiteľnej) frekvencie a
príslušnosti k štýlovým vrstvám. So statusom v slovnej zásobe a frekvenciou jednotlivých
pomenovacích jednotiek v synonymických radoch viac či menej priamo súvisí aj ich
derivačná potencia – v česko-slovenskom konfrontačnom pohľade možno diferencie v tomto
smere demonštrovať napr. na slovesách hovorenia s rozdielnym statusom prekrývajucich sa
lexém a výrazným funkčným zaťažením diferenčných lexikálnych jednotiek, predovšetkým
českého slovesa mluvit. S tým súvisia aj rozdielne derivačné potencie a ich realizácia v
jednom a druhom jazyku – tak napr. oproti českým derivátom so slovotvorným základom mluv- stoja najmä slovenské deriváty so základom -hovor-, resp. deriváty s iným
slovotvorným základom.
Príspevok sa zameria na samu závažnosť výskumného zamerania na problematiku
synonymických skupín pri porovnávaní českej a slovenskej slovnej zásoby (a jej súvzťažnosť
s inými otázkami česko-slovenskej konfrontačnej lexikológie) a na otázku porovnávania
synonymických skupín/radov v naznačených smeroch s oporou o lexikografické spracovanie
a textové fungovanie zhodných a diferenčných lexém – pri využití evidencie členov
synonymických radov v národných a paralelných korpusoch a (ako nárečových heteroným) v
atlasovom spracovaní.
Dílčí druhy imperfektivnosti a perfektivnosti. Příspěvek k vidovému systému
slovanských jazyků
Petr Nádeníček
[email protected]
Obecně je přijímáno, že „vidový protiklad ve sl. jaz. reprezentují dvě kategorie:
nedokonavost (im-perfektivnost) a dokonavost (perfektivnost) [...]“ (Nübler 2002: 528).
33
Při popisu sémantiky obou ka-tegorií se vychází většinou z předpokladu, že se v případě vidu
jedná o privativní opozici, v níž je per-fektivum členem příznakovým. Významovým
příznakem perfektiva mají být vlastnosti jako ukonče-nost děje (srov. např. Miklošič 1868–
1874), rezultativnost děje (srov. např. Mazon 1914, Karcevski 1927 nebo Mučnik 1971),
vnitřní ohraničení děje (srov. např. Vinogradov 1947), ucelenost děje (srov. např. Dostál
1954), nedělitelná celistvost nebo totalita děje (srov. např. Maslov 1958, Bondarko 1971),
teličnost, tzn. ohraničenost (srov. např. Bartnicka 2004), perspektiva zvenčí (srov. např.
Růžič-ka 1952), omezené trvání děje (srov. např. Nübler 1992) atd.
Tato částečná nejednotnost při pokusech popsat význam vidového protikladu ve slovanských
jazycích vede k úvaze, jestli by nebylo vhodnější nesnažit se najít jeden významový rys dělící
perfektiva a im-perfektiva, ale přiznat, že se jedná o koexistenci více významů. Takovou
úvahu podporují i teorie, kte-ré se pokoušejí vidový protiklad zachytit pomocí popsání svazku
příznaků (srov. např. Thelin 1980), popř. které rozlišují různé (pod)významy perfektiv i
imperfektiv (srov. např. Bondarko 1971).
Právě na tyto teorie bych chtěl navázat svým příspěvkem, v němž se pokouším jít ještě dále a
nemluvit pouze o různých možných významech (tzn. užitích v různých kontextech), nýbrž o
různých druzích imperfektivnosti a perfektivnosti na úrovni vidu jako lexikální
kategorie, jež mohou být postupně v rámci této kategorie i gramatikalizovány. Takovou
gramatikalizaci představují např. česká iterativa / frekventativa (jako mívat, dělávat, mluvívat
atd.), která je v současné češtině možné – narozdíl od iterativ / frekventativ většiny
slovanských jazyků – tvořit paradigmaticky. Pomocí dat získaných z Českého národního
korpusu bych chtěl ve svém příspěvku ověřit, popř. i doplnit model, jejž jsem navrhl pro účely
své disertační práce a ve kterém pracuji se dvěma, popř. třemi druhy imperfektivnosti a se
třemi druhy perfektivnosti (srov. Nádeníček 2011).
Tímto částečně změněným úhlem pohledu na slovanský vid má být mimo jiné zdůrazněno
rozlišení primárního vidu jako lexikální kategorie a sekundárního vidu, který známe z
běžných gramatik slovanských jazyků a jenž je výsledkem gramatikalizace určité části
primárního vidu (srov. např. Lehmann 1997, ale částečně už i Dostál 1954 nebo Němec
1956). Tak se aspektologie slovanských jazyků nejen přibližuje pojetí vidu např. v
germánských jazycích (v angličtině srov. např. Vendler 1967), nýbrž nabízí i jisté řešení v
otázce vymezení kategorie vidu ve vztahu ke kategorii způsobu slovesného děje, jejichž
ohraničení činí právě ve slovanských jazycích již od zavedení této opozice problémy (v
českém prostředí srov. např. Kopečný 1962 nebo Petr 1986), a v otázce, jedná-li se v případě
vidu o kategorii lexikální, nebo gramatickou, popř. o kategorii gramatickou flektivního, či
klasifikačního charakteru (srov. např. Nübler 2006).
Literatura:
Bartnicka, B. (2004): Grammatik des Polnischen. München.
Bondarko, A. V. (1971): Vid i vremja russkogo glagola. Značenie i upotreblenie. Moskva.
Dostál, A. (1954): Studie o vidovém systému v staroslověnštině. Praha.
Karcevski, S. (1927): Système du verbe russe. Essai de linguistique synchronique. Prague.
Jazyková potencialita: studium na bázi hapaxů legomenon
Renata Novotná
[email protected]
Tento příspěvek se zabývá problémem jazykové periférie, tj. oblasti s nízkofrekventovanými
slovy - hapaxy legomenon. Cílem příspěvku je ukázat, které slovotvorné typy jsou nejčastější
34
při tvoření nových pojmenování. Materiálově příspěvek vychází ze vzorku tvarů, které byly
v korpusu SYN zachyceny 1-3 výskyty. V celém korpusu SYN je celkem 1.3 milionu těchto
tvarů. Proto byly provedeny pouze dílčí sondy: 20 sond o rozsahu 3000 tvarů, tj. celkem
60000 tvarů. Z tohoto počtu tvořily zhruba 50 % chybné tvary (zvl. překlepy), cizojazyčné
citátové tvary apod., tj. celkem 29986 tvarů. Základem pro studium jazykové potenciality,
které hapaxy často představují, se proto stalo 30014 tvarů, které odpovídají 15840
lemmatům.
Na základě výšeuvedených sond se ukázalo, že centrem vznikání nových pojmenování
v rámci jazykové potenciality jsou především některé frekventované sufixy, např. –ovský a
dále některé části kompozit, např. dlouho-. Soustředíme se tu jako na prototypy na některé z
nich. Zastoupení sufixů je však třeba zkoumat na pozadí frekventovaných sufixů z centra
slovní zásoby: -ový: 2328 tvarů (7.7 %), 1067 lemmat (6.7 %); -ka: 1688 tvarů (5.6 %), 800
lemmat (5 %); -ovat: 724 tvarů (2.4 %), 367 lemmat (2.3 %).
Následující sufixy jsou typické pro materiál hapaxů legomenon: -ovský, např. renčínovský:
648 tvarů (2.1 %), 344 lemmat (2.1 %); -ing/-ink, např. datamining: 227 tvarů (0.7 %), 124
lemmat (0.8 %); -ovitý, např. helikoptérovitý: 147 tvarů (0.5 %), 98 lemmat (0.6 %). Vedle
konkrétních sufixů je pro oblast hapaxů legomenon příznačný nárůst pojmenování ve dvou
modifikačních slovotvorných kategoriích – u zdrobnělin a slov přechýlených. Zdrobněliny,
např. haveloček mají 743 tvarů (2.5 %) a 377 lemmat (2.4 %), slova přechýlená, např.
heligonkářka mají 328 tvarů (1 %), 238 lemmat (1.5 %). Pokud jde o kompozita,
charakteristická jsou především kompozita typu útočník-střelec, divadlo-dokument, která
představují 575 tvarů (1.9 %) a 471 lemmat (2.9 %). Z dalších kompozit vybíráme ta, která
byla v rámci sond zachycena jako celek: polo-, např. poločitelný: 2285 tvarů (7.6 %), 1270
lemmat (8.0 %); mega-, např. megakatastrofa: 1320 tvarů (4.4 %), 669 lemmat (4.2 %);
video-, např. videokomentář: 1164 tvarů (3.8 %), 595 lemmat (3.7 %); nízko-, např.
nízkohlučný: 411 tvarů (1.4 %), 212 lemmat (1.3 %); kino-, např. kinofajnšmekr: 272 tvarů
(0.9 %), 142 lemmat (0.9 %); dlouho-, např. dlouhorožec: 222 tvarů (0.7 %), 110 lemmat (0.7
%). Jednotlivým slovotvorným typům bude v příspěvku věnována detailní pozornost.
Korpusy a internet jako zdroje dat pro výzkum produktivity periferního
slovotvorného typu: adjektiva typu hrůzoucí (hrůza) v korpusech a na internetu
Klára Osolsobě
[email protected]
Definice korpusu uvádějí čtyři základní vlastnosti, které musí mít korpus v moderním slova
smyslu: 1) strojově čitelná podoba, 2) reprezentativnost zaručená zastoupením vzorků
nejrůznějších textů (vyváženost), 3) vymezený a omezený rozsah (reprezentativnost) a 4)
standardní anotace (McEnery, Wilson 1996). Pouze při splnění těchto čtyř požadavků je
možné podrobovat data získaná z korpusů kvantitativním analýzám a srovnáním. Přesto je
teoreticky dokázáno, že jevy zastoupené okrajově, řídce (hapax legomena) se v textech
vyskytují se stabilní frekvencí, tj. s nárůstem rozsahu (počtu textů) neklesá počet nově se
vyskytnuvších jednotek. Proto se především pro účely lexikografické někdy ustupuje od
požadavků vymezeného a omezeného rozsahu korpusu a budují se tzv. monitorovací korpusy,
banky textů atd. Jedním z nových trendů v korpusové lingvistice jsou i tzv. velké korpusy
získané z webu (Very Large Web Corpora, srov. více Pala, Rychlý 2011). Přestože na FI MU
již vznikl (a dále se rozšiřuje) první takový korpus pro češtinu – czes, lze i nadále za jistých
okolností a pro jisté účely internet jako korpus používat.
35
Ve výzkumu slovotvorby se vedle frekvence utvořených jednotek sleduje též produktivita
slovotvorného typu (schopnost být modelem pro další tvoření). Z tohoto hlediska chceme ve
svém příspěvku ukázat, jak více dokladů jednoho velmi okrajového typu adjektiv získaných
z korpusů a především z internetu
může pomoci doplnit představu o produktivitě
slovotvorného typu považovaného v lingvistické literatuře za periferní.
Figury založené na opakování příbuzných slov označuje stylistika (poetika) termíny
polyptoton (opakování téhož slova v různých flektivních tvarech: hrůza hrůz) a figura
etymologica (spojení sloveso + objekt nebo substantivum + atribut slov téhož základu : hrůza
hrůzoucí ).
Struktury N+N(gen. pl.), tedy např. píseň písní, které vyjadřují nejvyšší stupeň vlastnosti se
někdy označují termínem hebrejský superlativ. O hebrejském superlativu lze ovšem mluvit
i v případě konstrukcí obdobného významu typu N+(A<N). Korpusy dokládají např. výskyt
těchto spojení: div divů, hora hor, hrůza hrůz, chvíle chvil, kniha knih, král králů, ?konec
konců, krása krás, legenda legend, pán pánů, píseň písní, pravda pravd, slovo slov, věky
věků, zrada zrad, žena žen, ... K případům druhého typu je možné řadit konstrukce jako div
divoucí, hrůza hrůzoucí, pravda pravdoucí, věky věkoucí atd.
V českých mluvnicích (Gebauer, Trávníček, Šmilauer, Dokulil) je tento typ adjektiv
(vyjadřují nejvyšší míru vlastnosti fundujícího substantiva, jež rozvíjí postponovaným
shodným přívlastkem) prezentován jako okrajový jev slovotvorby. Ve slovnících (PSJČ,
SSJČ) jsou zaznamenány necelé dvě desítky takovýchto adjektiv tvořených od substantiv
sufixem -oucí. V korpusech řady SYN se vyskytují další doklady, které mj. dosvědčují, že a)
nejde o uzavřenou skupinu (idiomatické tvoření) a b) že jako u všech jednotek typu hapax
legomena lze předpokládat, že s navýšením počtu prozkoumaných textů bude stabilně růst
počet nalezených dokladů. Z těchto předpokladů jsme vyšli a shromáždili více než 100
dalších adjektiv tvořených dle modelu „hebrejského superlativu“.
Na základě shromážděného jazykového materiálu lze lépe charakterizovat motivačně fundační
vztahy adjektiv figurujících ve sledovaných strukturách, poukázat na případy, kdy se
osamostatňují, a popsat žánrové spektrum textů, v nichž se vyskytují.
Bibliografie
Boissin, H.: Quelques procédés de renforcement nominal en serbo-croate. In Revue des études
slaves, Tome 34, fascicule 1-4, 1957. s. 32-36.
Čermák, F a kol.: Slovník české frazeologie a idiomatiky 1–4 (SČFI). Praha : LEDA, 2009.
Dokulil, M.: Tvoření slov v češtině. 1, Teorie odvozování slov. Praha : Academia, 1967.
Dokulil, M. a kol.: Mluvnice češtiny 2. Praha : Academia, 1986.
Filipec, J. a kol.: Slovník spisovné češtiny pro školu a veřejnost (SSČ). Praha : Academia,
2005.
Gebauer, J.: Gebauerova mluvnice česká pro školy střední a ústavy učitelské. 1. Hláskosloví;
Nauka o slově. Praha : Česká grafická Unie, 1920.
Havránek, B. a kol.: Slovník spisovného jazyka českého (SSJČ). Praha : Academia, 1989.
Osolsobě, K.: Čeho je moc, toho je příliš aneb jaké má čeština komparativy a superlativy?
In: Přednášky a besedy z XLI. běhu LŠSS, Brno : FF MU, 2008, s. 145–158.
Osolsobě, K.: K jednomu typu vyjadřování stupně v češtině. Bohemica Olomuciensia 3 –
Linguistica Juvenilia, Olomouc : Univerzita Palackého v Olomouci, 20091, s. 123–138.
Osolsobě, K.: Kajícný a nevěřícný – adjektiva na -cí/-cný: slovníky, gramatiky, korpusy. In:
Hlaváčková, D. – Horák, A. – Osolsobě, K. – Rychlý, P. (eds.), After Half a Century of
Slavonic Natural Language Processing, Brno : Masarykova univerzita. 20094, s. 173–183.
Pala, K. – Rychlý, P.: Do we need very large Web Corpora? In Čermák, F. (ed.) 2. Výzkum a
výstavba korpusů, Praha : Nakladatelství Lidové noviny/Ústav Českého národního korpusu,
2011, s. 30-40.
36
Schejbalová, Z.: Reduplikace jako slovotvorný prostředek v češtině a ve francouzštině. In:
Přednášky a besedy z XLIV. běhu LŠSS, Brno : FF MU, 2011, s. 192–212.
Šmilauer, V.: Novočeské tvoření slov. Praha : Státní pedagogické nakladatelství, 1972.
Trávníček, F.: Mluvnice spisovné češtiny I. Praha : Slovanské nakladatelství, 1951.
Elektronické zdroje:
Korpus SYN2010: Český národní korpus - SYN2010. Ústav Českého národního korpusu FF
UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.
Korpus SYN2009PUB: Český národní korpus - SYN2009PUB. Ústav Českého národního
korpusu FF UK, Praha 2010.Dostupný z WWW: <http://www.korpus.cz>.
Korpus SYN2006PUB: Český národní korpus - SYN2006PUB. Ústav Českého národního
korpusu FF UK, Praha 2006. Dostupný z WWW: <http://www.korpus.cz>.
SYN: Český národní korpus - SYN. Ústav Českého národního korpusu FF UK, Praha.
Dostupný z WWW: <http://www.korpus.cz>.
Korpus czes. Dostupný z: http://ske.fi.muni.cz/bonito
Korpusový manažer BONITO [online]. Dostupný z <http://ucnk.ff.cuni.cz/bonito/>.
Internetový vyhledávač Google [online]. Dostupný z <http://www.google.com/>.
DebDict – internetový prohlížeč slovníků umožňující mj. přístup k elektronickým verzím
SSJČ, SSČ, PSČ, SČFI [online]. Dostupný z: <chrome://debdict/content/debdict.xul>.
The co-occurrence of denominal and deadjectival verbs with their base words
in Modern Lithuanian (a corpus-based study)
Jurgis Pakerys, Erika Rimkutė, Andrius Utka
[email protected]
Complex lexemes serve a number of functions and some of them are closely related to
the composition of texts. As Lipka (1987; cf. also 2002: 187-189) argues, the constituents of
complex lexemes occurring in the preceding or the following co-text create lexical cohesion
and coherence, cf. examples (1) and (2) taken from Lipka (1987: 62):
(1) Not since... 1941 when Rudolf Hess flew off from Berlin to Scotland... had a
private trip abroad by a German leader so puzzled his countrymen. This time the
puzzler was none other than Franz Josef Strauß...
(2) [Sub-heading of an article:] Der “Einfädler” des DDR-Kredits versetzt seine
Anhänger in Staunen. [Passage from the text:] Daß Franz Josef Strauß den MilliardenKredit für die DDR, wie er selbst sagt, “eingefädelt” hat...
In our project, we aimed to study the cases when Lithuanian denominal and
deadjectival verbs (further referred to as N/Adj-verbs) co-occur with their base words, cf.
atstov-au-ti ‘to represent’ ← atstov-as ‘representative’ in (3) where the base word precedes
the derivative and (4) where the base word follows it:
(1) [PIRMININKAS]. Ačiū. Komiteto atstovas ponas K. Dirgėla, kuris komiteto
pavedimu
atstovauja
šiam
dokumentui...
37
‘[CHAIR-MAN] Thank you. The representative of the committee Mr. K. Dirgėla
who represents this document...’
(2) Bet vis dėlto mes, patinka kam ar nepatinka, atstovaujam tautai, esam tautos
atstovai
ir
formuojam
tam
tikrą
politiką...
‘But nevertheless, someone likes it or not, we represent the nation, we are the
representatives of the nation and we form certain policies...’
We started with a 1 million-word corpus of Modern Lithuanian to test the methods of
our study and then moved to an 82 million-word corpus. The lists of N/Adj-verbs of both
corpora were compiled and a text search application was developed to locate the cases when
N/Adj-verbs and their base words co-occur. In quite many instances, the co-occurrence was
qualified as accidental and we had to manually mark the cases when the derivative and the
base word could be argued to have a certain textual relationship.
The relation between the total number of all co-occurrences of N/Adj-verbs with their
base words and the total number of N/Adj-verbs with the suffix X was used to determine the
co-occurrence productivity of that suffix. The value of the co-occurrence productivity showed
some correlation with the percentage of the cases when the textual relationship between the
N/Adj-verb and the base word was recognized. On the other hand, the total number of cooccurrences had a weaker correlation with the percentage of textually related co-occurrences.
The study also demonstrated that the co-occurrence of the derivative and the base word is
quite untypical for the deadjectival verbs and that the ranking of denominal suffixes according
to the number of cases of related co-occurrence corresponds to their general morphological
productivity.
References
Lipka, L. 1987. Word-Formation and Text in English and German. In: B. AsbachSchnitker, J. Roggenhofer (eds.), Neuere Forschungen zur Wortbildung und Historiographie
der Linguistik. Festgabe für Herbert E. Brekle zum 50. Geburtstag, Tübingen: Narr, 59–67.
Lipka, L. 2002. English Lexicology: Lexical Structure, Word Semantics, and WordFormation, Tübingen: Narr.
Některé vybrané substantivní sufixy v češtině (-ák, -ec, -ík, -ník) –
případová studie
Karel Pala, Dana Hlaváčková
V příspěvku popisujeme derivační chování českých substantivním sufixů: -ák, -ec, -ík/-ník a
... (bude doplněno). Jako výchozí datový zdroj posloužil strojový slovník českých kmenů (cca
400 000 položek), který je součástí morfologického analyzátoru ajka (Šmerk 2010). Díky jeho
rozsahu lze pokládat předložený popis za prakticky vyčerpávající. Chování sufixů sledujeme
pomocí sw. nástroje Deriv (Šmerk et al 2010). Součástí uvedeného popisu je také úplný výčet
alternací, které se u daných sufixů vyskytují a jsou relevantní.
V případech, kdy v kmeni probíhají hláskové změny. Dále věnujeme pozornost
sémantice jednotlivých sufixů tak, že charakterizujeme jejich význam ve vztahu ke kmenům,
s nimiž se derivačně pojí, a uvádíme jejich funkční zatížení včetně příslušných frekvenčních
údajů. Získané výsledky jsou podle potřeby porovnány s korpusem SYN2000 a SSJČ skrze
38
nástroj Debdict. V závěru uvádíme evaluaci získaných výsledků. Jde o nové výsledky, které v
dané podobě nebyly dosud pro češtinu k dispozici.
Segmentace textu na věty
Helena Palátová, Marek Grác
[email protected]
Pro češtinu v současné době existuje spousta nástrojů schopných na dobré úrovni popsat její
morfologickou rovinu, ale co se týče její volnější, a proto hůře formálně popsatelné syntaxe,
musí se (i přes všechny dosavadní pokusy o vytvoření kvalitního automatického
syntaktického analyzátoru) nejen korpusoví lingvisté prozatím obejít bez nástrojů, které by
byly schopny do textových korpusů vložit syntaktické značky, podle nichž by se lépe
v textech vyhledávalo a zkoumalo jazyk na této rovině.
Aby byly nástroje schopny účinně rozpoznávat a popisovat vztahy mezi jednotlivými
textovými slovy, potřebují nejprve jasně a především správně rozpoznat hranice jednotlivých
autonomních celků, tedy hranice vět. V naší práci jsme se zabývali delimitací věty (sentence).
Tato problematika byla sice již v minulosti řešena a prakticky každý korpus má vyznačené
hranice vět, ale problematiku určování hranic vět v okrajových případech stále nepovažujeme
za dořešenou. Až po dořešení tohoto problému je možné zjistit, jak kvalitně fungují existující
automatické nástroje, a můžeme řešit jejich vylepšování.
Proto jsme zvolili následující postup. Nejprve byla stanovena formální pravidla, která
byla poté použita v návodu pro anotátory. Při tvorbě pravidel jsme se zaměřili zvláště
na formální zvláštnosti některých syntaktických konstrukcí používaných v českých textech.
Právě těmito pravidly se řídili anotátoři při práci s korpusem současných blogových textů.
Text ručně segmentovali na jednotlivé věty a vytvořili tím jednotná data. Takto vytvořená
data byla základem pro upřesnění pravidel a vyšší interanotační shodu. V příspěvku
prezentujeme formální a jednoznačná pravidla pro určování hranic vět spolu s jejich
zdůvodněním na korpusovém materiálu. Vytvořená data plánujeme zpřístupnit tak, aby mohla
sloužit nejen jako testovací data, ale i jako zdroj pro statistické (automatické) strojové učení.
Vybrané aspekty syntaktického popisu srovnávacích konstrukcí
Pavel Pečený
[email protected]
Příspěvek se věnuje problematice popisu srovnávacích konstrukcí v češtině. Ty bývají
v tradičních mluvnicích a skladbách obvykle klasifikovány na základě sémantického hlediska
(např. srovnání ve smyslu stejné vlastnosti, míry apod.). Takový přístup ovšem vykazuje jisté
slabiny, jako například nejasnou hranici mezi srovnáním ve smyslu shody a podobnosti nebo
v praxi ne zcela funkční odlišení některých dílčích podtypů srovnání totožnosti/podobnosti.
Hlavním cílem příspěvku je proto přestavit vybrané aspekty odlišného přístupu, který vychází
z popisu jednotlivých členů srovnávací konstrukce (komparační báze, komparandum, iniciátor
srovnání, srovnávací hledisko a srovnávací operátor) a z charakteristiky jejich fungování
na povrchové i hloubkové rovině věty. Klasifikace v našem případě vychází z analýzy
dokladů z Pražského závislostního korpusu (PDT) a výběrově z Českého národního korpusu
(ČNK). Je založena mj. na zohlednění faktorů, které mají vliv na realizaci povrchové
39
struktury věty (např. kontextová zapojenost jednotlivých členů, syntaktické obsazení
konstrukce, délka výpovědi, typu komunikátu apod.).
Konstrukce s formálním objektem v němčině a jejich protějšky v češtině
Hana Peloušková
[email protected]
Již několik let vzniká kontrastivní studie o německých konstrukcích s es a jejich českých
ekvivalentech. Cílem této studie je vytvořit teoretický podklad pro následné lingvodidaktické
zpracování dané problematiky.
Výzkum se opírá o autentická jazyková data vytěžená z česko-německých paralelních korpusů
ČNPK a InterCorp.
Studie vychází z osvědčené klasifikace funkcí es:
• zájmeno (Pronomen/Prowort): Es (=das Kind) spielt.
• „platzhalter“(Platzhalter): Es wird getanzt. Es kamen viele Leute.
• korelát (Korrelat): Es freut mich, Sie kennen zu lernen.
• formální subjekt či objekt (formales Subjekt/ Scheinsubjekt, formales
Objekt/Scheinobjekt): Es regnet. Ich habe es eilig. 5
Tento příspěvek je dalším stavebnim kamínkem plánované studie a zabývá se konstrukcemi
s es v roli formálního objektu a jejich českými protějšky.
Formální subjekty a objekty tvoří téměř čtvrtinu všech německých es. Drtivě převládají (96%)
formální subjekty. Zatímco formální subjekty své české ekvivalenty nemají, v některých
českých protějšcích německých konstrukcí s formálním objektem figuruje sémanticky
prázdné obligatorní to: např. es weit bringen – dotáhnout to daleko, es schwer/leicht haben –
mít to těžké/lehké, es mit j-m gut meinen – myslet to s někým dobře apod.
Příspěvek popisuje strukturu doložených a frekventních německých konstrukcí s formálním
objektem a jejich českých protějšků, prezentuje rozmanitost českých protějšků a srovnává
vlastnosti formálních objektů v němčině a v češtině.
Null and overt pronominal subjects in Spanish on syntactic-pragmatic interface
Andrea Pešková
[email protected]
This paper investigates the use of pronominal subjects (PS) in Spanish, whose grammar
permits their omission. The lack of PS in sentence is commonly attributed to the “rich” verbal
morphology (e.g. cantamos ‘we sing’, cantas ‘you sing’). An extensive research on the nullsubject or pro-drop property in Spanish combines different descriptive (e.g. Chomsky 1981;
Bosque 1987; Luján 1999) and empirical perspectives (e.g. Hochberg 1986; Silva-Corvalán
2001), which are usually treated separately in the literature. The aims of my paper are
twofold: (1) to investigate the use of pronominal subjects on syntactic-pragmatic interface
(word order and information structure) and (2) to show that the corpus-based analysis of
spontaneous language may lead to a better understanding of the use of grammar in a natural
way. My hypothesis on the use of PS in Spanish contradicts the traditional explanation given
5
Srov. např. Buscha 1972.
40
by grammarians, who state that the PSs have to be realised only if interpreted as contrastive
topics ([Tc]) or focus ([F]), see (1) and (2):
(1) Sp. Juan quiere ir al cine, pero *([Tc yo]) prefiero ir al teatro.
En. ‘John wants to go to the cinema, but *([Tc I]) prefer to go to the theater’
(2) Sp. El libro lo compré *([F yo]) y no María.
En. ‘*([F I]) bought the book and not Mary’
I will argue that the speakers realise the PS, even in non-contrastive, non-focal or nonambiguous contexts. In this aspect, I will also continue and discuss Frascarelli’s (2007)
statement that the variation overt vs. null PS correlates with the contrast between aboutnessshift vs. familiar topic. The questions posed by this paper are: What strategies do the speakers
apply for the null and overt PS? What is the correlation between syntactic and discursive
properties of realised PS? And, what is the bridge between the grammar of one specific
language and its usage? The large corpus-based study should provide an answer and help to
develop methods for analysis of this linguistic phenomenon.
REFERENCES:
BOSQUE, I. (1987): Clase de sujetos tácitos. Philologica. Homenaje a Antonio Llorente.
Salamanca,
pp. 91-111; CHOMSKY, N. (1981): Lectures on Government and Binding. Dordrecht: Foris;
FRASCARELLI, M. (2007):
Subjects, topics and the interpretation of referential pro: An interface approach to the linking
of (null) pronouns.
Natural Language and Linguistic Theory 25(4): 691-734; HOCHBERG, J. (1986): Functional
Compensation for /s/
Deletion in Puerto Rican Spanish. Language 62(3): 609-621; LUJÁN, M. (1999): Expresión y
omisión del pronombre
personal. In Bosque, I. & Demonte, V. (eds.), Gramática descriptiva de la lengua española,
pp. 1275-1315. Madrid:
Espasa Calpe; SILVA-CORVALÁN, (2001): Sociolingüística y pragmática del español.
Washington: GU Press.
Kopečný, F. (1962): Slovesný vid v češtině. Praha.
Lehmann, V. (1997): „Der Aspekt – wie lexikalische Kategorien grammatische Funktionen
motivieren“. In: Kosta, P. (ed.): Slavische Linguistik 1996. München, s. 137–154.
Maslov, Ju. S. (1958): Rol’ tak nazyvaemoj perfektivacii i imperfektivacii v processe
vozniknovenija slavjanskogo glagol’nogo vida. Moskva.
Mazon, A. (1914): Emplois des aspects du verbe russe. Paris.
Miklošič, F. (1868–1874): Vergleichende Grammatik der slavischen Sprachen. IV. Syntax.
Heidelberg.
Mučnik, I. P. (1971): Grammatičeskie kategorii glagola i imeni v sovremennom russkom
literaturnom jazyke. Moskva.
Nádeníček, P. (2011): Das tschechische Aspektsystem im Vergleich mit dem Verbalaspekt
des Russischen und Polnischen. Hamburg.
Němec, I. (1956): „Kategorie determinovanosti a indeterminovanosti jako základ slovanské
kategorie vidu“. In: Slavia 25, s. 496–534.
Nübler, N. (1992): Untersuchungen zu Aktionsart und Aspekt im Russischen und
Tschechischen (am Beispiel der mit na- präfigierten Verben). Regensburg.
Nübler, N. (2002): „Vid“. In: Karlík, P. / Nekula, M. / Pleskalová, J. (ed.): Encyklopedický
slovník češtiny. Praha, s. 527–531.
Nübler, N. (2006): „Der Status des Verbalaspekts im Sprachsystem des Russischen“. In:
Anzeiger für Slavische Philologie 34, s. 93–113.
41
Petr, J. (ed.) (1986): Mluvnice češtiny 2: Tvarosloví. Praha.
Růžička, R. (1952): „Der russische Verbalaspekt“. In: Russischunterricht 4, s. 161–169.
Thelin, N. B. (1980): „Aspekt und Aktionalität im Russischen“. In: Die Welt der Slaven 25, s.
428–440.
Vendler, Z. (1967): „Verbs and Times“. In: Vendler, Z.: Linguistics in philosophy. Ithaca, s.
97–121.
Vinogradov, V. V. (1947): Russkij jazyk (grammatičeskoe učenie o slove). Moskva.
Automatické rozpoznávání substantivního dativu a jeho syntaktických funkcí
v českých textech
Vladimír Petkevič
[email protected]
Příspěvek se zabývá velmi obtížným problémem automatické identifikace relativně málo
frekventovaného pádu v češtině, totiž dativu, v českých korpusových textech a problémem
určení jeho syntaktické funkce. Rozpoznat jakýkoli pád v českém textu automaticky, tj.
počítačovým programem, je vzhledem k vysoké tvarové homonymii forem patřících k různým
slovním druhům a vzhledem k velkému pádovému synkretismu v české deklinaci velmi
nesnadné. Správné určení pádu je však nezbytné ke správnému určení syntaktické struktury
české věty a jejích větných členů. Autor se v příspěvku konkrétně zaměří na dativ substantiva
a na základě českých textů v korpusu SYN2010:
a) představí typy homonymie substantivních dativních forem
b) uvede přibližnou úspěšnost dosavadního automatického značkování dativu v korpusu
SYN2010
c) uvede přehled syntaktických funkcí dativu
d) uvede netriviální disambiguační pravidla pro pozitivní i negativní rozpoznání dativu
zejména na základě slovesné a substantivní valence
e) pokusí se stanovit pravidla (i heuristická) pro automatické rozpoznání syntaktických
funkcí dativu.
Autor se zaměří především na nepředložkový dativ, jehož určení je mnohem obtížnější než
určení dativu předložkového. Představí rovněž hlavní problémy spjaté s pádovým
synkretismem dativu a předvede hlavní chyby při určování dativu v korpusu SYN2010. Jejich
přehled bude motivovat způsoby, jak tyto chyby odstranit, a to zejména na základě skupin
sloves a substantiv majících obligatorní a častou dativní valenci. Autor předvede, jak
valenčních informací o slovesech a substantivech využít k náležité disambiguaci dativních
substantiv. Bude se zabývat i případy, kdy je dativ substantiva určen nesprávně. V závěru
pojedná o pravidlech týkajících se stanovení syntaktických funkcí dativu.
42
Automatické generování slov ve slovanských jazycích na základě jejich
společných historických kořenů
Patrice Pognan, Jarmila Panevová
Diachronický vývoj češtiny i pozvolný vzájemný rozestup západních slovanských jazyků jsou
známé a odpovídající jevy jsou na základě diachronního výzkumu dobře popsány a
evidovány.
V rámci česko-francouzského projektu „Barrande“ jsme se snažili zjistit, do jaké míry skupina
západních slovanských jazyků ještě představuje jednotný lingvistický systém. Takto získané
poznatky jsou využitelné při strojovém překladu mezi přibuznými jazyky a pro jednotnou
výuku těchto jazyků.
Při formulaci počítačového programu pro zpracování hláskových změn ve slovanských
jazycích nám byla východiskem „Historická mluvnice češtiny“ J. Bauera, A. Lamprechta a D.
Šlosara 6; dále jsme se opírali o databázi „Etymological Dictionary of the Slavic Inherited
Lexicon“ 7, dokud byl k ní zajištěn volný přístup 8, později pak o její publikovanou verzi. 9
Do původního projektu bylo zahrnuto zkoumání dolní a horní lužické srbštiny, češtiny,
slovenštiny a polštiny., Protože se ukázalo, že slovinština, chorvatština a srbština vykazují
kontinuitu s vývojem těchto jazyků, byly do počítačového programu také zahrnuty. To
potvrzuje netradiční Starostinovu hypotézu o seskupení slovanských jazyků. 10
Počítačový program byl sestaven tak, že důsledně sleduje chronologii historických jevů, jak
jsou podány v „Historické mluvnici češtiny“ (např. metateze se samohláskou „e“ musí nutně
předcházet zpracování jerů). Převážná část programu se týká jevů prvního období do konce
desátého století, tj. metateze, stahování, zpracování jerů a staroslovanských nosovek. Při
zpracování jerů se ukázalo, že pro platnost Havlíkova pravidla je nutno detailněji rozpracovat
tzv. „zánik“ lichého měkkého jeru, který nezaniká vždy, ale výsledek závisí na dalších
kontextových podmínkách. Při zpracování nosovek hraje prvořadou roli akcentologie (je třeba
zvlášť pracovat s dlouhým/krátkým stoupajícím přízvukem, s dlouhým/krátkým klesajícím
přízvukem, s dlouhou nepřízvučnou nosovkou atd.).
Zpracování jevů dalších dvou period je o něco jednodušší (změna g na h, přehlásky ‘a/ě a ‘u/i,
depalatalizace, monoftongizace a diftongizace).
Výsledky ukazují, že se ve vývoji studovaných slovanských jazyků jedná o ucelený
lingvistický systém, který má na jedné straně přijatelnou předvídatelnost, na druhé straně také
svoje meze.
V příspěvku budou autoři demonstrovat výstupy několika staroslovanských kořenů (soud,
pouť, břeh, hruď, kráva,…) v těch současných slovanských jazycích, které byly do výzkumu
zahrnuty, na základě pravidel počítačového programu.
6
Lamprecht, A., Šlosar, D. & Bauer, J. (1986). Historická mluvnice eštiny. SPN, Praha.
Indo-European Etymological Dictionary of the Department of Comparative Indo-European Linguistics
at Leiden University.
8
Derksen, R. (2008): Etymological Dictionary of the Slavic Inherited Lexicon. Brill, Leiden.
9
Indo-European Etymological Dictionary of the Department of Comparative Indo-European Linguistics at
Leiden University
10
Viz. Blažek, V. (2005): On the internal classification of Indo-European languages: survey, Linguistica
ONLINE, ISSN 1801-5336. http://www.phil.muni.cz/linguistica/art/blazek/bla-003.pdf.
7
43
Pojmenování s „účelovými adjektivy“ v současné češtině a jejich ruské
ekvivalenty: pokus o korpusovou analýzu
Dmitrij Poljakov
[email protected]
V referátu se zaměřím na analýzu českých nominací, jejichž součástí jsou tzv. „účelová“
adjektiva (ÚA) se slovotvorným sufixem -cí typu prací, grilovací, holicí, čtecí apod., která
„vyjadřují, že něco je k nějaké činnosti určeno, že něco funguje na nějakém principu“
(Macháčková 1989, 53). Tento typ adjektiv byl v bohemistické literatuře už nejednou popsán,
zvláště s hlediska jejich odlišnosti od adjektv dějových, srov. holicí vs. holící. Bylo rovněž
poukazováno na jejich produktivitu; tak ještě F. Svěrák (1953) tvrdil, že „tvoření těchto
adjektiv je živé“, a konstatoval pronikání ÚA z oblasti odborné do „obecného jazyka
spisovného“.
Korpusová analýza jak samotných ÚA, tak pojmenování s nimi může být přínosná nejen pro
českou lexikografickou praxi. Zde umožní upřesnit množství nových ÚA (a příslušných
pojmenování), např. oproti stavu zachycenému ve dvou dílech slovníku Nová slova v češtině,
který se v tomto ohledu nezdá být vyčerpávající. Za pomoci korpusových dat se však chci
pokusit také o typologii tvoření ÚA v češtině, při němž, jak se ukazuje, nejsou využívány jen
slovesné kmeny připojující sufix -cí, ale také „předponové“ a radixoidní komponenty (typu
samo-, srov. samoopalovací při *samoopalovat (se)). Nakonec představím výsledky srovnání
českých pojmenování s ÚA a jejich funkčních ekvivalentů v ruštině, svědčící o tom, že v
ruštině existují podobná adjektiva jako konsolidovaný slovotvorný typ jen v omezeném
rozsahu a sémantika „určenosti“ a „fungování na nějakém principu“ je zde většinou pouze
implikována, ba často i potlačena. Tak ruské protějšky českých ÚA v pojmenováních jako
bicí hodiny, čisticí potřeby buď mají význam ryze charakterizační (часы с боем), anebo
představují homonymii s dějovým adjektivem (чистящие средства – srov. уборщик,
чистящий помещение, tj. rusky to nejsou „potřeby na čištění“, ale „potřeby, které čistí“). To
znamená, že rozlíšení účelového a dějového významu, důsledně provedené v češtině, pro
ruštinu často neplatí.
Literatura:
Macháčková E. Pečicí jednotka ETA // Naše řeč. 1989. Roč. 72. Č. 1.
Svěrák F. K účelovým přídavným jménům na –icí // Naše řeč. 1953. Roč. 36. Č. 7 – 8.
Creating Corpora Using Corpus Architect
Jan Pomikálek, Vít Suchomel
[email protected]
Corpus Architect is a web application for building textual corpora comfortably. It is used in
connection with corpus manager Manatee/Bonito in Sketch Engine [3] which makes it a
powerful tool for language researchers. It has been developedin NLP Centre at Masaryk
University in cooperation with Lexical Computing Ltd. It is available at
http://sketchengine.co.uk.
The application enables users to create a collection of textual documents. Basically,
users supply their own documents. Input formats doc, html, pdf, txt and vertical are supported.
Various data processing tasks may be applied: tokenization, lemmatization, part of speech
tagging and _nal conversion to vertical format. Third party taggers are available for English,
44
German, French, Spanish, Russian, Italian1, Chinese2, Japanese3, Czech[5,1] and other
languages. Once the corpus data is gathered and processed, it is ready to be queried in the
corpus manager.
Another option is instructing the Corpus Architect to gather textual documents from
the internet. An approach similar to Corpus Factory[2] is used. In this scenario, a user
describes the web documents to obtain | either directly by specifying URLs of the documents
or indirectly by supplying key words to search for using an external web search engine. While
the documents are being downloaded, a set of embedded tools designed for processing and
cleaning web data is utilized.[4]
1 TreeTagger + trained models
2 Stanford Chinese Segmenter and Tagger
3 ChaSen
References
1. Jakub___cek, M., Hor_ak, A., Kov_a_r, V.: Mining phrases from syntactic analysis. In:
Lecture Notes in Arti_cial Intelligence, Proceedings of Text, Speech and Dialogue
2009. pp. 124{130. Springer-Verlag, Plze_n, Czech Republic (2009)
2. Kilgarri_, A., Reddy, S., Pomik_alek, J., PVS, A.: A corpus factory for many languages. Proceedings of the Eighth International Conference on Language Resources
and Evaluation (LREC'10, Malta) (2010)
3. Kilgarri_, A., Rychl_y, P., Smr_z, P., Tugwell, D.: The sketch engine. Proceedings of
Euralex 2004
4. Pomik_alek, J.: Removing Boilerplate and Duplicate Content from Web Corpora.
Ph.D. thesis, Masaryk University, Brno (2011)
5. _Smerk, P.: Unsupervised Learning of Rules for Morphological Disambiguation. In:
Lecture Notes in Arti_cial Intelligence 3206, Proceedings of Text, Speech and Dialogue 2004. pp. 211{216. Springer-Verlag, Berlin (2004)
Konkurence předložkových a bezpředložkových vazeb v současné češtině
Hana Prokšová
[email protected]
Příspěvek
se
bude
zabývat
konkurencí
vybraných
předložkových
a bezpředložkových vazeb v současné češtině. Vedle některých tradičně bezpředložkových
vazeb se prosazují i vazby s předložkou, a naopak jsou i tendence u vazeb tradičně
předložkových předložku vypouštět. Dochází tak ke koexistenci dvou vazebných rámců.
Nejsou to pouze často citované slovesné vazby diskutovat něco – diskutovat o něčem apod.,
ale rovněž spojení typu víčko lahve – víčko od lahve, pojem fyziky – pojem z fyziky, houpat
židlí – houpat s židlí, jet autem – jet s autem aj. Právě na druhou jmenovanou skupinu se bude
soustřeďovat předkládaný příspěvek.
Konkurenci bezpředložkových a předložkových vazeb dosud nebyla věnována
v české lingvistice zvýšená pozornost. Aktuálnost této problematiky však ukazuje nejen praxe
jazykové poradny ÚJČ AV ČR, kde si tazatelé „správnost“ té či oné konstrukce ověřují, a tím
i narůstající potřeba zachytit normu v dané jazykové oblasti, ale i potřeba začlenit tento jev
jednak do koncepce pojímání slovního druhu předložek, jednak do teorie sémantiky a funkce
českých pádů. Některé z těchto konkurencí vznikaly v češtině již dříve pod vlivem němčiny,
respektive vlivem paušálního odmítání germanismů, avšak ani ve starší jazykovědné literatuře
nebyla tato problematika systematicky zachycena.
45
Výzkum se zakládá na jazykových datech získaných z korpusu, a to i korpusu
mluveného. Mělo by jej podpořit rovněž dotazníkové šetření, v němž jsou zkoumány postoje
mluvčích ke gramatické správnosti vybraných předložkových spojení. Ta ilustrují několik
sémantických oblastí, v nichž k jistým posunům dochází a do nichž byla autorkou zařazena
např. sémantická oblast instrumentu či konkurence část–doplněk. Cílem příspěvku je zachytit
možné gramatické a sémantické aspekty této distribuce s ohledem na širší kontext funkce
jednotlivých pádů v češtině a vymezení určitých předložek.
What types of participial adjectives occur after ‘to be’ in copular function?
An attempt at categorization
Olga Richterová
[email protected]
The aim of our paper is to identify various categories of so-called participial adjectives (PAs),
or -ící/-oucí forms (e.g. fascinující, ‘fascinating’), that tend to occur after a semantically
empty verb, here represented by the copulatively used forms of ‘to be’. To do so, we will
investigate possible factors influencing the distribution of different -ící forms in the position
following the copula.
The investigated factors will be a) characteristics of the verb, such as person, number and
tense (forms co-occurring with 3rd person singular of present tense will be compared e.g. to
those co-occurring with the past tense or to those found together with 1st person plural); b)
distance (PA forms occurring directly after the verb will be compared to those preceded by
one to three other lexemes (the part-of-speech category of the dividing lexemes will be also
looked into); c) semantics of the PAs (special attention will be paid to modality and degree of
abstraction); d) syntactic characteristics of the PAs (especially loss/retention of obligatory
verbal valence); e) the in/animacy and in/concreteness of the subject of the verb.
Such an analysis will be accompanied by addressing the hypothesis that PAs following
copular verbs tend not to express concrete actions. At the same time, the paper will also raise
the issue whether referring to a specific action (‘actualness’) as compared to referring to a
general action (‘habituality’) is not more important than the concrete / abstract distinction.
Another hypothesis to be confirmed or refuted is the question whether it plays a role when a
subject is also an agent.
The whole analysis will be carried out on the genre of journalistic texts. Thus, we will
investigate the occurrence of the above-described structure in the SYNpub2009 and
SYNpub2006 corpora, not forgetting to create subcorpora of journalistic texts based on
SYN2000, SYN2005 and SYN2010. By doing so, we will be able to see if the use of the
investigated construction tends to change in time.
All in all, the large datasets obtained by a CQP query will be analyzed for frequencies and
possible semantic classes and randomized samples will be extracted for a detailed analysis,
which will be carried out with the help of a Microsoft Access database.
46
Word order in learner language: marked vs. unmarked themes
Sylvi Rørvik
[email protected]
Contrastive studies of English and Norwegian have shown that Norwegian has a greater
preference for marked themes (defined according to Halliday 2004: 78) than English does,
despite similar syntactical resources in the two languages (Hasselgård 1997, 2004, 2005).
Given this tendency, which word order is preferred by Norwegian students of English? The
following two research questions will be answered:
1. Do Norwegian students of English transfer the preference for marked themes from
their L1, or are they able to adapt English word order patterns?
2. If it is the case that Norwegian students of English overuse marked themes compared
to native-speakers, this might impair cohesion. Do the students compensate for this by
overusing connectors to signal relations between sentences?
The material for the study comprises five text categories: argumentative texts in English
written by Norwegian students, from the Norwegian component of the International Corpus of
Learner English (NICLE); argumentative newspaper texts in English and Norwegian; and
argumentative L1 student essays in English and Norwegian. The method is based on the
Integrated Contrastive Model (Gilquin 2000/2001), starting with a comparison of the two
expert L1 categories (the newspaper texts) in order to confirm previous findings about word
order preferences in English and Norwegian. Next, the NICLE texts are compared with the
English newspaper texts, to determine whether the Norwegian students have the same word
order preferences as native speakers. Any differences identified will be compared with the
features in the Norwegian newspaper texts, which should reveal whether such differences are
caused by transfer. Finally, the NICLE texts will be compared with the two native-speaker
student categories, as previous studies have indicated that both L1 and L2 texts written by
novice writers share various features (e.g. Berry 1995; Rørvik 2012).
References
Berry, Margaret. 1995. “Thematic options and success in writing.” In Ghadessy, Mohsen
(ed.), Thematic Development in English Texts. London & New York: Pinter, 55-84.
Gilquin, Gaëtanelle. 2000/2001. “The Integrated Contrastive Model. Spicing up your data.”
Languages in Contrast 3:1, 95-123.
Halliday, M. A. K. 2004. An Introduction to Functional Grammar. 3rd edition, revised by C.
M. I. M. Matthiessen. London: Arnold.
Hasselgård, Hilde. 1997. “Sentence openings in English and Norwegian.” In Ljung, Magnus
(ed.), Corpus-based studies in English. Papers from the 17th International Conference on
English Language Research on Computerized Corpora. Amsterdam: Rodopi, 3-20.
Hasselgård, Hilde. 2004. “Thematic choice in English and Norwegian.” Functions of
Language 11:2, 187-212.
Hasselgård, Hilde. 2005. “Theme in Norwegian.” In Berge, Kjell Lars and Eva Maagerø
(eds.), Semiotics from the North. Nordic approaches to systemic functional linguistics.
Oslo: Novus Press, 35-47.
Rørvik, Sylvi. 2012. “Thematic progression in learner language.” In Hoffmann, Sebastian,
Paul Rayson, and Geoffrey Leech (eds.), English Corpus Linguistics: Looking back,
Moving forward. Papers from the 30th International Conference on English Language
47
Research on Computerized Corpora (ICAME 30). Amsterdam – New York: Rodopi, 165177.
Grammar-based treebank – a happy marriage of empiricism and theory?
Alexandr Rosen
[email protected]
There may be different opinions about the status of linguistic competence and performance,
with similar splits in the world of natural language processing, but the continuing existence of
both grammars and corpora indicates that the two notions are like two sides of a coin. In fact,
I want to argue that with the emergence of syntactic annotation the two sides may be close to
reconciliation, at least in methodology.
I hope to be forgiven for disregarding a number of aspects while contrasting the more
theoretical notions of competence, langue, or language system on the one hand (henceforth
T), with the more empirical notions of performance, parole, or language use on the other (E).
While both grammars and corpora reflect E, grammars consist of abstract rules, representing
some approximation of T. Until relatively recently, E was available for immediate observation
only in tiny fragments of individual examples, but the advance of corpus as a (relatively)
representative choice of examples of language use means that an approximation is now
available for both T and E.
The link between E and T can be seen as being represented by corpus annotation. The
fact that there are multiple linguistic theories and a number of levels of analysis results in
many types of annotation. This is not necessarily a defect, they may be useful and justified,
complementing each other.
To close the gap between E and T even further, the annotation can be formally
defined. In the ideal case, the definition is a de facto grammar of the language in the corpus.
In addition to the theoretical appeal, this has a number of advantages: the formal definition
may support checking of both the data and the grammar, help to formulate efficient queries,
offer concordances as correctly displayed structures, provide conversions to different
representations, assist grammar development.
A grammar-based corpus make most sense as a treebank, a corpus annotated with
syntactic structures, also as a result of parsing the corpus by an automatic tool using an
implemented grammar. A "parsebank" like this could be useful due to its size, unrestricted by
the capacity of human annotators, even at the cost of higher error rate.
Following an overview of existing (grammar-based) treebanks, a few interesting
aspects of a project of Czech grammar-based treebank (see refs below) will be introduced
using several examples of syntactic structures, demonstrating the idea of multiple
representation options, as well as a few issues that occur even in a happy marriage.
---
esk
–
–
.
48
ger, P., Petkevič, V., Rosen, A., and Skoumalová, H. (2012). Towards a treebank for all
tastes. In Ziková, M. and Dočekal, M., editors, Slavic Languages in Formal Grammar.
Proceedings of FDSL 8.5, Brno 2010, pages 49–63, Frankfurt am Main. Peter Lang.
, M., and Branco, A., editors, Proceedings of the
META- RESEARCH Workshop on Advanced Treebanking, LREC 2012, pages 37–44,
Istanbul, Turkey. ELRA, European Language Resources Association.
Výzkum rané dětské syntaxe a korpus
Lucie Saicová Římalová
[email protected]
Výzkum rané dětské řeči nepatří v současné české lingvistice k tématům centrálním,
přesto však může nabídnout řadu zajímavých teoretických podnětů souvisejících
s pozorováním jazyka, který je „v pohybu“, v procesu osvojování. Příspěvek se věnuje jedné
z těchto podnětných oblastí - otázce, jak vymezit ranou dětskou syntax do přibližně tří let
věku dítěte, kterým jevům v jejím rámci věnovat pozornost a jaký materiál pro tuto analýzu
zvolit. Na materiále prvních stádií syntaxe u česky hovořících zdravých monolingvních dětí
ukazuje, jaké vlastnosti by měl mít „ideální“ korpus, o nějž by se mohl výzkum podobného
tématu opřít (šířeji přístupný korpus využitelný pro analýzu projevů česky hovořících dětí
daného věku v současnosti neexistuje). Zároveň naznačuje, proč je tento ideál zřejmě obtížně
dosažitelný.
Práce vychází z přesvědčení, že při analýze rané dětské syntaxe je třeba brát v úvahu
skutečnost, že rané dětské projevy jsou ovlivněny tím, jakého stupně psychického
(psychomotorického) vývoje dítě dosáhlo a nakolik si již osvojilo jazyk, popř. další
komunikační kompetence. S těmito faktory je pak mj. spojena míra vázanosti dětských
výpovědí na aktuální kontext („tady a teď), komplexnost produkovaných struktur, míra
zapojení prostředků jiných než jazykových či užívání rozmanitých znaků individuálních,
nekonvencionálních. Uvedené souvislosti je potřeba zohlednit rovněž při volbě
analyzovaného materiálu, jeho sběru a tvorbě případného korpusu. Autorka vychází ze
zkušeností s vlastním longitudinálním výzkumem rané dětské řeči, který pracuje
s videonahrávkami a jejich transkripty a metodologií sběru materiálu navazuje na slovenský
výzkum vedený D. Slančovou (srov. např. Slančová, D. (ed.): Štúdie o detskej reči. Prešov
2008).
Korpusový výzkum nerovnocenné sufixace deverbativních sloves v litevštině
Eva Seitlová
[email protected]
V příspěvku představíme jednu část litevské derivace, a to deverbativní slovesa
odvozená pomocí sufixů. Litevské sloveso disponuje třemi základními kmeny – infinitivním,
prézentním a préteritním. Při tvoření nových sloves pomocí sufixace bychom očekávali, že se
sufix projeví ve všech těchto kmenech, a opravdu například u desubstantivních a
deadjektivních odvozenin tomu tak skutečně je. U deverbativních odvozenin se však vyskytují
dvě varianty sufixace, v nichž se sufix vyskytuje buď (a) ve všech třech kmenech litevského
49
slovesa, nebo jen v některých (b), a to (b1) ve dvou, v infinitivním a préteritním, či dokonce
pouze (b2) v jednom, infinitivním.
Referát pojímáme jako součást většího celku korpusového výzkumu derivovaných
sloves v litevštině vůbec, v příspěvku se zejména z časových důvodů zaměříme pouze na dva
sufixy. Prvním je sufix -ėti, jež se vyskytuje ve variantě rovnocenné sufixace -ėti, -ėja, -ėjo a
ve variantě sufixace nerovnocenné -ėti, -i, -ėjo. Nerovnocenná sufixace náleží zároveň do
prvního podtypu (b1), v němž se sufix projevuje jak v kmeni infinitivním, tak i v kmeni
préteritním. Druhým je sufix -yti, jež se vyskytuje ve variantě rovnocenné sufixace -yti, -ija, ijo a ve variantě sufixace nerovnocenné -yti, -o, -ė. Tato druhá varianta náleží zároveň do
druhého podtypu (b2), v němž se sufix projevuje pouze v kmeni infinitivním.
Naše snaha popsat tuto nerovnocennou derivaci podrobněji, než jak je tomu v
gramatikách, a zároveň zjistit, jaká je distribuce jedné i druhé varianty, vychází z textového
zkoumání, jež se opírá o korpus litevštiny, z něhož je snadno rozpoznatelná produktivita
jednotlivých variant a zároveň zastoupení sloves, která se mohou odvozovat oběma
zmíněnými variantami. Veškeré příklady jsou pro snadnou orientaci opatřeny českým
překladem.
Interdeklinační tendence mezi typy „žena“ a „růže“ jako příklad periferie
morfologického systému
Kamila Smejkalová
[email protected]
Příspěvek se zabývá pohybem feminin mezi deklinačními typy „žena“ a „růže“, jak jej lze
vysledovat v současné češtině pomocí ČNK a internetových vyhledávačů. Srovnává současný
stav s popisem v dosavadních jazykových příručkách a zaměřuje se na několik aspektů: 1)
Zda je vývoj v této oblasti jednosměrný a projevuje se příklon pouze k jednomu deklinačnímu
typu; 2) zda je situace u všech zkoumaných feminin stejná, nebo se mezi nimi objevují rozdíly
a v čem tyto rozdíly spočívají, např. liší-li se apelativa a propria, zda je situace odlišná v
závislosti na zakončení tvarotvorného základu apod., zda hraje roli frekvence v úzu a lexikální
význam zkoumaných feminin; 3) zda se projevují rozdíly v inklinaci k určitému typu také
mezi jednotlivými pády či mezi plurálem a singulárem. Výsledky jsou analyzovány ve vztahu
k problematice systémové vágnosti a ke konceptu centra a periferie jazykového systému.
Zároveň tato analýza přináší poznatky i o samotném nástroji, pomocí něhož byla provedena, a
součástí příspěvku je tedy i srovnání ČNK a internetových vyhledávačů a porovnání výsledků,
které byly pomocí nich získány.
Vzťah morfematickej a derivačnej štruktúry v Slovníku koreňových morfém
slovenčiny a jeho reflexia v Slovenskom národnom korpuse
Miloslava Sokolová, Martina Ivanová
[email protected]
V štúdii sa skúma vzťah medzi morfematickou a derivačnou štruktúrou v lexémach zo
Slovníka koreňových morfém slovenčiny (3. vyd., 2012). Vo väčšine prípadov je tento vzťah
harmonický (rozšírená stupňovitá vzostupnosť morfém o jednu morfému a jeden význam). Pri
asymetrii, ktorá vzniká narušením rozšírenej stupňovitej vzostupnosti o jeden význam a jednu
morfému medzi motivantom a motivátom, a to rozširovaním alebo redukovaním segmentov,
50
analyzujeme typy a zdroje tejto asymetrie. Asymetria medzi morfematickou a derivačnou
štruktúrou je funkčná. Asymetriu spôsobenú rozšírením aj trunkáciou často sprevádza
expresivita, okrem toho asymetria vzniká pri analogickom vyrovnávaní morfematickej
štruktúry a pri trunkácii či redukcii segmentov. Medzi domácimi motivátmi s pravidelnou
morfematickou štruktúrou a prevzatými motivátmi či reduplikovanými motivátmi
s nepravidelnou morfematickou štruktúrou vzniká konkurencia, ktorá sa v jazyku funkčne
využíva. Túto konkurenciu budeme skúmať na základe dát zo Slovenského národného
korpusu.
Corpus-based analysis of speech acts in Polish Internet Chats
Leszek Szymański
[email protected]
The aim of this paper is to discuss a nominalization tendency realized in certain speech acts,
which the author discovered in research conducted on Polish chat room conversations. The
investigation to be presented arose as part of a large study of Internet chat room
communication. The said study was conducted with the use of corpus linguistics
methodology. For the purpose of this study, the author created a corpus of Internet text-based
chats. These were conversations held in the main chat window recorded between: February
20, 2004 and March 27, 2006. After certain processing of the received language material, the
author arrived at a corpus of human communication in a Polish Internet text-based chat
consisting of 1,629,823 words. Having studied the chat room lexis, especially lexical items
used in selected speech acts (greetings, farewells, thanks and apologies), the author observed
a number of word-formation process. In this article, he would like to present one of the
tendencies, namely nominalization. The author's observations allow ed him to draw a
conclusion that Polish Internet chatters feel a need to realize speech acts with the use of
nouns.
The article (and the presentation) is designed to be divided into seven parts (for the
time being). As an introduction to the topic, short notes on speech acts and nominalization are
intended. Then, a brief description of the corpus material is to appear. This is to be followed
by corpus-based material interpretation; of course, with the presentation of the statistical
information obtained from the corpus. These are to concern the grammatical categories of the
created nominal forms of gender and number. After that, certain semantic interpretations of
the nominal forms in the chat room context are to be presented. The article is to be summed
up with certain final conclusions wrapping up the discussed problem.
Deadjektivní deriváty v češtině jako deriváty syntaktické vs. lexikální
Magda Ševčíková
[email protected]
Slova odvozená od adjektiv představují zajímavý, reprezentativní vzorek slovotvorných
derivačních procesů v češtině: patří ke slovním druhům substantiv, adjektiv, sloves a adverbií,
vzájemně se liší v řadě aspektů, mimo jiné z hlediska sepjetí jejich lexikálního významu
s významem slovotvorným (Dokulil 1962, 1978, Dokulil a kol. 1986, Štekauer 2005).
V příspěvku probereme možnost třídění deadjektivních derivátů právě z hlediska jejich vztahu
k základovému adjektivu, pracujeme přitom s Kuryłowiczovou (1936) koncepcí derivace
51
syntaktické a lexikální, která je v Dokulilových slovotvorných pracích reflektována. Zatímco
syntaktický derivát vyjadřuje stejný lexikální význam jako slovo základové, liší se od něj
větněčlenskou funkcí, lexikální derivát se liší významově a stává se samostatnou lexikální
položkou ve slovníku. Při aplikaci Kuryłowiczovy teorie na konkrétní deadjektivní deriváty je
nutné se vyrovnat např. se skutečností, že některé deriváty nejsou výsledkem jediného typu
derivace, ale kombinace obou uvedených derivačních typů.
Z klasifikace deadjektivních derivátů jako syntaktických nebo lexikálních vyvodíme přímé
důsledky pro zachycení těchto slov v hloubkověsyntaktické anotaci Pražského závislostního
korpusu. Syntaktické deriváty je možné reprezentovat základovým adjektivem, protože jeho
odlišná syntaktická funkce je v tomto syntakticky anotovaném korpusu zachycena speciálním
atributem. Oproti tomu lexikální deriváty se budou od svého základového slova lišit lexikální
hodnotou. Navrhované řešení má být schopno reflektovat např. nevyhraněné syntaktické
užívání některých deadjektivních adverbií s příponou -e a jejich protějšků na -o; užívání
těchto adverbií doložíme autentickým materiálem z Českého národního korpusu a Pražského
závislostního korpusu (př. ve středu bude deštivo vs. léto začalo deštivě, je tam draho /
v Praze je draze vs. draho / draze prodal).
Literatura:
Dokulil, M. (1962): Tvoření slov v češtině 1: Teorie odvozování slov. Praha: Nakladatelství
ČSAV.
Dokulil, M. (1978): K otázce prediktability lexikálního významu slovotvorně motivovaného
slova.
Slovo a slovesnost, 39, s. 244–251.
Dokulil, M. – Horálek, K. – Hůrková, J. – Knappová, M. – Petr, J. a kol. (1986): Mluvnice
češtiny
1. Fonetika, fonologie, morfonologie a morfematika, tvoření slov. Praha: Academia.
Kuryłowicz, J. (1936): Dérivation lexicale et dérivation syntaxique. Bulletin de la Société de
linguistique de Paris, 37, pp. 79–92.
Štekauer, P. (2005): Meaning Predictability in Word Formation: Novel, context-free naming
units.
Amsterdam – Philadelphia: John Benjamins Publishing Company.
Nárůst nepravidelného tvoření slov: o čem svědčí?
Josef Šimandl
[email protected]
Nepravidelnost je sice menšinový a periferní, ale integrální rys slovotvorného systému (šíře
ovšem i systému jazyka) a zejména nesystémových periferií slovotvorby. Na ty se v příspěvku
soustředí pozornost. Představíme pokusy vypořádat se s tzv. zvláštními způsoby v popisech
tvoření slov a připomeneme zdařilý pokus o zhodnocení místa, které nepravidelnosti získaly
vývojem jazyka a které jim přísluší v jazykové komunikaci. Pomocí příkladů z jazykové
praxe přiblížíme případy unikátně tvořených slov i rýsujících se dalších, dosud pro češtinu
velmi málo popsaných slovotvorných typů. Vysvětlíme si, z čeho usuzujeme na celkový
nárůst nepravidelného tvoření slov v dnešních textech. Nakonec zvážíme možnosti
objektivního ověřování hypotéz, jak početné (a jak významné, což není totéž) jsou
nepravidelně vytvořená slova v elektronických textech, které jsou kvantifikaci přístupné –
totiž v korpusech.
52
Predložky kvôli/kvůli a pre/pro v systéme a v použití (na materiáli
slovenského a českého jazyka)
Mária Šimková
[email protected]
Predložkový systém v oboch jazykoch sa dlho považoval za veľmi stabilný, osobitne
to platilo pre primárne predložky. Posledné desaťročia priniesli výrazné zvýšenie dynamiky
slovnej zásoby a miestami aj gramatiky vrátane zvýšeného nárastu sekundárnych predložiek a
teoretického záujmu o ne, ale okrem toho aj (najmä v slovenčine) preskupovanie niektorých
významov/použití primárnych predložiek. Tento proces sa v slovenčine osobitne dotkol
primárnej predložky pre a s ňou čiastočne synonymnej sekundárnej predložky kvôli.
Odporúčania na ich správne používanie boli odôvodňované vo viacerých štúdiách a krátkych
popularizačných príspevkoch.
Cieľom nášho vstupu do problematiky je zhrnúť teoretické prístupy k uvedeným dvom
predložkám a analyzovať ich reálne používanie v textoch národných písaných a hovorených
korpusov i paralelného slovensko-českého korpusu z aspektu synchrónnej dynamiky.
Jak následovat Miloše Dokulila
František Štícha
[email protected]
Zatímco bází pro inventarizaci slovotvorných derivátů byly pro Miloše Dokulila slovníky
češtiny (Jungmann, PSJČ, SSJČ), pro nás, jeho pokračovatele, jsou touto bází velké
elektronické korpusy.
Zatímco bází pro inventarizaci slovotvorných sufixů byly pro Miloše Dokulila
výkladové a retrográdní slovníky, pro nás je jí Dokulilova tabulka na s. 742-769 v knize TSČ
2, Odvozování podstatných jmen.
Zatímco Miloš Dokulil se musel spokojit s přejímáním frekvenčních, stylových,
regionálních a dobových charakteristik derivátů z existujících slovníků, my můžeme díky
korpusům studovat obecnou i speciální frekvenci a s ní i žánrovou distribuci kteréhokoli
elementu slovotvorného systému.
Zatímco Miloš Dokulil mohl na bázi slovníkového materiálu formulovat teoretické
základy studia systémové produktivity slovotvorných formantů a slovotvorných typů, my
můžeme díky korpusům zkoumat, jaká je míra realizace určitých strukturních předpokladů
v parole naší doby.
Teorie odvozování slov Miloše Dokulila poskytuje korpusovému výzkumu tvoření
slov mnoho inspirace. Za všechny její zdroje uvádím tento citát: „Čím širší a rozmanitější jsou
strukturní souvislosti slovotvorného prvku, tím více je předpokladů pro jeho produktivitu.“
(TSČ 1, 85; tučně FŠ)
Existence elektronických korpusů umožňuje hledat odpovědi na následující obecnou
otázku: Jaká je míra realizace určitých strukturních předpokladů v parole naší doby?
53
Is a new classification of Czech compounds possible?
Pavel Štichauer
[email protected]
Word-formation in Czech has been almost exclusively studied within the onomasiological
approach closely tied up with the name of Miloš Dokulil, to whom this 4th conference
Grammar and Corpora is dedicated on the occasion of his 100th anniversary.
As is well known, Dokulil’s main research interest was connected with derivation
rather than with compounding, since the latter has been considered to be a marginal wordformation process in the present-day Czech (cf. Dokulil 1962, 1986). This is wittnessed also
by the fact that, over the past years, compounding has been the subject of a limited series of
articles or even monographs (cf. Bozděchová 1994 and recently Mitter 2003, 2006). However,
these studies merely bring together some new data (offered, mainly, by corpora) without
departing significantly from the original onomasiological framework. No classificatory
innovation seems to modify radically the traditional approach.
What I wish to do in this lecture is to look at the Czech compounds from an entirely
different perspective – through the eyes of a linguist who is not primarily a “bohemist” and
whose ambition is a (tentative) cross-linguistic comparison of word-formation processes.
My aim is to put forward one concrete proposal of the classification of compounds
which is not restricted to one single language. It stems from a project analyzing a large
database of compounds at the university of Bologna where about twenty languages are
represented - including Czech (cf. Štichauer 2009).
The lecture will thus offer an overview of Czech compounding based on the
classification put forward by Sergio Scalise and Antonietta Bisetto (cf. Bisetto - Scalise 2005;
Scalise - Bisetto 2009). The classification is based on the combination of two hierarchical
levels of analysis. The upper level divides the compounds according to the grammatical (or
syntactic) relation between the constituents into coordinate, subordinate and attributive
structures. The lower level splits each of the three “macrotypes” into the endocentric and
exocentric compounds (on the basis of the presence / absence of a head). It is only at this
point where the different lexical categories enter the scheme giving rise to various
combinations (such as A + N, V + N and so on).
Against the background of such a classification, which is in some important respects
divergent from the onomasiological approach – and into which I will attempt to fit the Czech
data, I intend also to dwell on two special cases: first, on the so-called parasynthetic
compounds of the type modrooký, vysokoškolský, bezvětří, nosorožec and others, whose
morphological nature is beyond any question, and second, on the so-called juxtapositions
(spřežky), such as pomstychtivý or smysluplný, which are usually left aside within the
onomasiological framework.
The two special cases are, in fact, particularly focalised in the current morphological
theories. On the one hand, the ternary structure of parasynthetic compounds is something the
binary-oriented morphology does not like to deal with (srov. Bisetto - Melloni 2008); on the
other hand, the question of internal inflection is similarly challenging – if, in fact, we adopt
any principle of lexical integrity, the possibility of compound-internal inflection should be
ruled out.
My aim is not to come up with a new classification within which Czech data could be
comfortably accomodated, but rather to show how different theoretical frameworks dictate the
sort of questions and answers that are subsequently considered to be reasonable and justified...
54
Bibliografie / References
Bisetto, A. & Melloni, C. (2008). Parasynthetic compounding. Lingue e Linguaggio, VII(2),
233-259.
Bisetto, A. & Scalise, S. (2005). The classification of compounds. Lingue e Linguaggio,
IV(2), 319-332.
Bozděchová, I. (1994). Tvoření slov skládáním. Praha: ISV
Dokulil, M. (1962). Tvoření slov v češtině 1. Teorie odvozování slov. Praha: Academia.
Dokulil, M. (1986). Tvoření slov. In Petr, J. (eds.), Mluvnice češtiny 1 (pp. 451-486). Praha:
Academia.
Grzega, J. (2009). Compounding from an onomasiological perspective. In R. Lieber & P.
Štekauer (eds.), The Oxford Handbook of Compounding (pp. 217-232). Oxford: Oxford
University Press.
Mitter, P. (2003). Složená hybridní substantiva s prvním komponentem cizího původu v
současné češtině. Ústí nad Labem: Univerzita J. E. Purkyně v Ústí nad Labem.
Mitter, P. (2006). Kompozice v kontextu současné češtiny. Ústí nad Labem: Univerzita J. E.
Purkyně v Ústí nad Labem.
Scalise, S. & Bisetto, A. (2009). The classification of compounds. In R. Lieber & P. Štekauer
(eds.), The Oxford Handbook of Compounding (pp. 34-53). Oxford: Oxford University Press.
Štichauer, P. Compounds in Czech. Lingue e Linguaggio, VIII(2), 293-314.
Morfologické značkování korpusů
Pavel Šturc, Květa Mrštíková
Cílem našeho příspěvku je zachytit rozdíly ve značkování mezi pražským a brněnským
agsetem a vystihnout případy nekorektní disambiguace morfologických značkovačů Morče
Raab, 2007, http://ufal.mff.cuni.cz/morce/), Feature-based taggeru (Hajič, 2004, ) a Hidden
Markov
Model
(HMM)
taggeru
(Krbec,
2005,
http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Tagging/MM_tagger/). Při práci s
korpusem se často spoléhá na strojové označkování textu a vychází se z něj jako ze správné
varianty, která je ovšem ne vždy korektní. V této práci je k porovnání použit text, který byl
označkovaný brněnským taggerem Desamb a poté ručně upraven. Využitím dat tohoto textu,
čítajícího zhruba 10 000 tokenů, bylo možné některé tyto chyby a nejasnosti zachytit a dále s
nimi při následné analýze pracovat. Vzhledem k užití obou již zmíněných tagsetů vznikl
podrobný přehled odlišností a chyb, jejichž analýzou bylo zjištěno několik více či méně
závažných „provinění” strojového značkování.
Princip pražského a brněnského značkování je do jisté míry obdobný, odlišnostmi jsou pouze
některé značky, které nesou svůj speciální význam. V brněnském tagsetu nalezneme tyto
významně se lišící značky: „kA” (tag pro zkratky), „kY”(tag pro slovesný tvar s hodnotou
kondicionálu). Pražský tagset obsahuje jedinou „neznámou” značku, kterou je „@” sloužící
pro označení těch gramatických kategorií, které tagger nebyl schopen určit jednoznačně.
Dalším bodem, kterým se práce zabývá je problém při značkování pádů. Taggery velmi často
trápí homonymie koncovek daného slova v různých pádech. V případech, kdy není možné
určit pád ani pomocí předložky před slovem, ani pomocí slovního okolí, tedy je možné jej
rozpoznat pouze z kontextu předchozích vět, tagger „sahá” po nejpravděpodobnější možnosti.
Konkrétně se jedná o záměnu akuzativu s nominativem a lokálu s dativem.
Velmi častá je také chybovost při určování lemmat. V mnoha případech tagger buď nemá
55
slovo užité v textu ve své databázi, tedy přiřadí si jej k nejvhodnějšímu deklinačnímu vzoru a
zlemmatizuje ho na jakýsi „patvar”, nebo v případě nejistoty správného slovního druhu u
daného slova narazí na homonymii, která je taktéž hlavní příčinou chybování desambiguátorů.
V této práci jsou výsledky desambiguace zhodnoceny a k případům, které jsou pro
značkovače obtížné a ke kterým nebylo doposud možné vytvořit jasná pravidla, jsou navržena
více či méně možná řešení.
Paradigmatické a syntagmatické aspekty současné české vojenské
terminologie a její invaze do publicistického stylu
Jana Tomšů
[email protected]
Jakými lingvistickými charakteristikami se vyznačuje současná česká vojenská terminologie?
Jak oscilují termíny mezi odborným vyjadřováním a běžnou mluvou?
Vybraný vzorek cca 3000 termínů byl lingvisticky analyzován z hlediska paradigmatických a
syntagmatických aspektů jejich slovotvorby. Paradigmatické aspekty byly pojímány v širším
slova smyslu včetně metaforického a metonymického transferu a přejetí cizích slov.
Syntagmatický aspekt tvorby termínů z hlediska motivace byl sledován na základě
slovotvorných způsobů realizace jednoslovných termínů (derivace, kompozice, abreviace) a
vícečlenných termínů (kolokace). Hlavní pozornost byla věnována víceslovným termínům
z důvodu jejich dominantního zastoupení ve zkoumaném vzorku. Struktura sledovaných
kolokačních termínů se pohybuje v rozmezí dvou až devítičlenných kolokací a odráží
pojmovou členitost a hierarchizaci jimi pojmenovaného obsahu. Kolokační termíny byly
rozděleny podle sémanticko-syntaktického typu struktury na determinační a koordinační a
byly dále podrobněji analyzovány z hlediska jejich stavby. Součástí analýzy bylo i srovnání
užití termínů jako prostředků odborného vyjadřování s jejich užitím v publicistickém stylu,
kde často nabývají hodnotu neodborného vyjadřování. Pro toto porovnání byl využíván Český
národní korpus (Syn Pub 2009).
Pluri-Regional German Grammar: A Corpus based Approach
Simone Ueberwasser
[email protected]
German is known to be a heterogeneous standard language which shows variation between
and within its three main centers: Germany, Austria and Switzerland. Most studies about this
pluri-regional language use focus on differences on the phonetic or lexical level, while
grammar has mostly been ignored. The aim of the project 'Variantengrammatik des
Standarddeutschen' (‘Pluri-Regional Grammar of Standard German’)is to bring to light
the actual grammatical variation and eventually document it in a reference grammar.
Differences in language use can be found among others in the fields of word-formation,
morphology, inflection, valency and wordorder. In many cases it is only the frequency in the
use of one or the other variant that differs. However, there are also phenomena which are
literally unknown in one region but frequent or even the norm in another.
Empirical research in the context of this project will be both corpus-based and corpusdriven and based on an annotated corpus generated from 57 regional newspapers (about 28
Mio words). Creating our own corpus rather than relying on existing ones allows us to use
56
data from wide range of newspapers from all German-speaking regions and not only from the
major cities. The corpus-based work will start from a list of phenomena found in existing
grammars or observed by search assistants who systematically read newspapers from regions
other than their own. The corpus-driven approach will be focused on n-gramms and
grammatical patterns in the annotation.
Učebnicový korpus a jeho využití pro výuku češtiny jako cizího jazyka
Pavlína Vališová
[email protected]
Cílem tohoto příspěvku je představení malého projektu v rámci doktorské práce, čímž je
vytvoření korpusu z učebnic češtiny jako cizího jazyka, dále popis způsobu jeho pedagogické
anotace, a především různých možností jeho využití.
Plánovaný český učebnicový korpus by měl zahrnovat asi 20 současných učebnic
češtiny jako cizího jazyka úrovně A1 až B1, včetně cvičebnic. Nejdříve je nutné učebnice
oskenovat, poté zkonvertovat z formátu pdf do formátu txt a následně vyčistit od obrázků,
čísel stran apod. Pak je možné korpus ručně označkovat.
Typ pedagogické anotace se metodicky se opírá o pedagogický korpus TeMa, korpus
učebnic obecné angličtiny vytvořený na Univerzitě v Lovani (Gouveneur a Meunier, 2009).
Tento korpus je rozdělen na čtyři základní subkorpusy, texty, poslechy (přepisy nahrávek),
cvičení a instrukce. Cvičení jsou dále označkována podle typu: doplňování, spojování apod.
V rámci této anotace je samozřejmě zahrnuta i správná odpověď.
Učebnicový (nebo pedagogický) korpus patří mezi malé specializované korpusy. Cíle
může mít různé, a to podle výběru a typu učebnic, které obsahuje. Pokud například zahrnuje
učebnice, které se opírají o různé výukové metody, může se zkoumat, jak tyto metody
ovlivňují výběr slovní zásoby. V zásadě rozlišujeme dvě možnosti využití učebnicového
korpusu: deskriptivní a didaktické.
Mezi první patří popis učebnicového jazyka jako specifického typu češtiny. Při použití
kvantitativních metod lze spolehlivě popsat např. rozdíly mezi slovní zásobou na nižší a vyšší
úrovni nebo klíčová slova. Také lze zjistit, na jaké gramatické jevy je kladen důraz a které se
naopak procvičují nedostatečně. Kvalitativní analýzou je možné zkoumat různé části učebnic,
jako jsou texty, poslechy, gramatické výklady, různé typy cvičení či instrukce a používanou
terminologii, neboť korpus umožňuje vytvořit subkorpusy zahrnující určité tematické části
učebnic.
Druhá možnost využití korpusu se týká didaktické aplikace. Díky datům
z učebnicového korpusu lze navrhnout zlepšení pomocí současných korpusů, ať již obsahující
texty rodilých nebo nerodilých mluvčích (v tomto případě ČNK a CzeSL).
K morfologické kategorizaci českých evaluativních výrazů
Kateřina Veselovská
[email protected]
Příspěvek bude věnován počátkům výzkumu v oblasti postojové analýzy ([3]) na českém
materiálu, přesněji se chceme věnovat morfologické kategorizaci českých evaluativních
výrazů na základě dat z nově vytvořeného korpusu SubLex1.0 ([5]) a Českého národního
korpusu ([2]). Postojová analýza se zabývá možnostmi automatické extrakce subjektivní
57
informace z textu. Jedním z jejích hlavních cílů je detekce hodnotících výrazů, tedy slov a
frází, které inherentně obsahují pozitivní nebo negativní hodnocení (viz také [6]). Aby bylo
možno využívat tyto klíčové výrazy např. při automatickém rozpoznávání větné polarity, je
nutno je nejdříve manuálně roztřídit a prozkoumat jejich vlastnosti z jazykovědného hlediska.
V této studii využíváme jako hlavní zdroj hodnotících výrazů slovník SubLex1.0
získaný automatickým překladem části amerického korpusu MPQA ([4]) za využití českoanglického paralelního korpusu CzEng ([1]) a obohacený o ručně anotovaná data ze serveru
Aktuálně.cz. Po manuálním pročištění slovníku jsme získali 4950 lemmat, která jsme
roztřídili podle jejich slovnědruhové příslušnosti. Nejfrekventovanějším slovním druhem ve
slovníku jsou substantiva (např. hlupák apod., 1954 výskytů) následována slovesy (např.
kazit, 1698 výskytů), adjektivy (např. špatný, 819 výskytů) a adverbii (např. bezostyšně, 465
výskytů). Následně jsme porovnali vybrané položky ze slovníku SubLex s materiálem
v Českém národním korpusu, abychom zjistili, zda nejzastoupenější slovní druhy mají na
celkovou polaritu dané věty největší vliv. Analýza korpusového materiálu však takovouto
hypotézu vyvrátila. Z dosavadního průzkumu vyplývá a) že částice mají na celkovou polaritu
věty větší vliv než jiné slovní druhy (1); b) přestože jsou slovesa méně frekventovaná,
z hlediska větné polarity jsou silnější než substantiva, zejména pak v pozici hlavního
predikátu (2); nebo c) že adverbia či adjektiva mají na větnou polaritu také větší vliv než
substantiva (3).
(1) Bohužel, bratr odvedl dobrou práci.
(2) Mám toho hulváta rád.
(3) Bylo to příjemné nedorozumění.
Tento příspěvek má dvojí cíl. (i) Chceme prozkoumat vztah mezi slovnědruhovou platností
českých evaluativních výrazů uložených ve slovníku SubLex1.0 a jejich vlivem na větnou
polaritu. (ii) Jsme si vědomi skutečnosti, že pro výslednou polaritu dané věty je důležitá také
větněčlenská platnost jednotlivých hodnotících výrazů. Chceme proto prozkoumat evaluativní
výrazy vzhledem k jejich funkci ve větě, případně ve vztahu k negaci.
[1] Bojar, O. a Žabokrtský, Z. CzEng: Czech-English Parallel Corpus, verze 0.5.
Prague Bulletin of Mathematical Linguistics, 86, Prague 2006.
Dostupný z http://ufal.mff.cuni.cz/czeng/.
[2] Český národní korpus - SYN2005. Ústav Českého národního korpusu FF UK, Praha 2005.
Dostupný z WWW: <http://www.korpus.cz>.
[3] Liu, B. "Sentiment Anlaysis and Subjectivity". Kapitola v knize Handbook of
Natural Language Processing, Second Edition. Marcel Dekker, Inc: New York, 2009.
[4] MPQA Subjectivity Lexicon. Dostupný z http://www.cs.pitt.edu/mpqa/subj_lexicon.html.
[5] Veselovská, K. a Bojar, O. SubLex: korpus českých evaluativních výrazů, verze 1.0.
Připraveno k vydání, Praha 2012.
[6] Wiebe, J., T. Wilson, R. Bruce, M. Bell and M. Martin. Learning subjective language.
Computational Linguistics, 30, 3, 2004.
58
Relativní místní adverbia v apoziční skupině
Vojtěch Veselý
[email protected]
Mezi složkami apoziční skupiny lze určit buď jediný izotropní významový vztah (predikaci,
nebo determinaci), nebo dva protisměrné izotropní významové vztahy, které jsou buď
stejného druhu (predikace x predikace, determinace x determinace), nebo různého druhu
(predikace x determinace). Realizace těchto vztahů je ovlivněna činitelem formálním, tj.
lineárním a intonačním ztvárněním apoziční skupiny. Predikace může být orientována
regresivně i progresivně, determinace pouze regresivně, pokud postponovaná složka apoziční
skupiny není tvořena výrazem významově nesamostatným, např. relativním adverbiem.
Referenční vztah mezi složkami apoziční skupiny lze interpretovat ve smyslu
protikladu třída / část třídy – prvek/prvky této (části) třídy. Apoziční skupiny, jejichž složky
jsou tvořeny adverbiálními určeními s různou extenzí, takovou interpretaci neumožňují.
Lineární pořadí složek bývá u tohoto typu závazné (v Praze v Karlíně, včera večer), pokud
některá ze složek není tvořena relativním místním adverbiem (vlevo, nahoře aj.). Tato
adverbia determinují buď (vyjádřený či nevyjádřený) vymezený prostor nebo (vyjádřený či
nevyjádřený) prostorový orientátor; v druhém případě se funkčně přibližují předložkám.
Literatura:
Čechová, M. (ed.). Čeština – řeč a jazyk. Praha: ISV, 2000.
Daneš, F.; Hlavsa, Z.; Grepl, M. (eds.). Mluvnice češtiny 3. Praha: Academia, 1987.
Grepl, M.; Karlík, P. Skladba češtiny. Olomouc: Votobia, 1998.
Hlavsa, Z. Denotace objektu a její prostředky v současné češtině. Praha: Academia, 1975.
Hlavsa, Z. Přístavkový vztah a popis české skladby. Slovo a slovesnost. 1986, roč. 47, s. 186–
192.
Hrbáček, J. Pokus o výklad přístavkového vztahu. Slovo a slovesnost. 1972, roč. 23, s. 223–
228.
Karlík, P.; Nekula, M.; Pleskalová, J. (eds.). Encyklopedický slovník češtiny. Praha:
Nakladatelství Lidové noviny, 2002.
Maskulinní deminutiva v současné češtině
Markéta Ziková
[email protected]
Tento příspěvek se zabývá maskulinními deminutivy v současné češtině. Jeho cílem je na
základě korpusových dat doplnit a/nebo revidovat jejich existující analýzy. V MČ I
(1986:301n.) se o maskulinních deminutivech říká, že a) distribuce sufixů -ek a -ík je
náhodná, a proto ji nelze „postihnout nějakým pravidlem“, c) sekundární deminutiva jsou
synchronně derivována sufixy -eček a -íček, jež se připojují k základovému slovu (sud > soudeček, les > les-íček), c) při derivaci někdy dochází k dloužení vokálu v základovém slově (roh
> růž-ek) a někdy naopak k jeho krácení (dům > dom-ek).
Pokud jde o sufixy -ek a -ík, analýza primárních deminutiv získaných excerpcí ze
subkorpusů ČNK ukazuje, že distribuce druhého z nich je ve většině případů vázána
fonologicky. Sufix -ík se například pravidelně váže na kořeny zakončené na CL: obr > obř-ík,
fotr > fotř-ík, pudl > pudl-ík, sokl > sokl-ík; viz též Cuřín (1966), TSČ II (1967:494-530).
Pokud jde o sekundární deminutiva, uvedu tři nezávislé argumenty pro to, že i ze
synchronního pohledu jsou eček a íček výsledkem derivace, tedy výsledkem spojení dvou
59
samostatných sufixů (-ek + -ek > -eč-ek, -ík + -ek > -íč-ek). Jedním z nich je zcela ojedinělý
výskyt smíšených dvojic typu -ek : -íček a -ík : -eček oproti produktivním dvojicím -ek : -eček
a -ík : -íček. Kdyby byly -eček a -íček samostatnými sufixy, pak bychom očekávali, že jejich
distribuce bude zcela nezávislá na podobě primárního deminutiva; srov. Ziková (2009). Pokud
jde o chování vokalické délky, jen sufix -ek ovlivňuje kvantitu vokálu v základu (a to jak u
primárních, tak i u sekundárních deminutiv). Scheer (2004) vysvětluje rozdílný vliv sufixů -ek
a -ík na kvantitu tím, že maskulinní deminutiva mají v češtině status tzv. templatické
kategorie. Ve svém příspěvku ukážu, že doménu templátu, který je u maskulinních deminutiv
definován jako minimálně 3morový, tvoří poslední slabika základu a první deminutivní sufix.
Sufix -ek je 1morový (krátké vokály a slabičné konsonanty mají hodnotu jedné mory, dlouhé
vokály a diftongy dvou mor), proto se vokál před ním dlouží, tj. stává se 2morovým: dar >
[dár-ek 3m]. Sufix -ík je naopak 2morový, a proto poslední vokál základu nemá důvod, aby se
v jeho kontextu dloužil: čaj > [čaj-ík 3m]. Součástí představené analýzy bude typologie
výjimek, které templatické omezení nerespektují a k nimž patří i výše zmíněný typ dom-ek.
60
Rejstřík
Martin Beneš
Tilman Berger
Jana Bílková
Ivana Bozděchová
Katja Brankačkec
Alena M. Černá
Václav Cvrček
Mojmír Dočekal
Thomas Egan
François Esvan
Katarína Gajdošová
Markus Giger
Bohuslava Golčáková
Svetlana Gorokhova
Marek Grác
Anne-Line Graedler
Milada Hirschová
Zdeňka Hladká
Dana Hlaváčková
Milena Hnátková
Jana Hoffmannová
Andrea Hudousková
Martina Ivanová
Ilya B. Itkin
Andrey Izotov
Tomáš Jelínek
Lucie Jílková
Tomáš Káňa
Agáta Karčová
Petr Karlík
Jan Klaška
Ivana Kolářová
Veronika Kolářová
Marek Konopka
Lucie Kopáčková
Pavel Kosek
Jan Králík
Daniela Majchráková
František Martínek
Michaela Martínková
Marie Mikulová
Kateřina Milotová
Květa Mrštíková
Květa Musilová
Mira Nábělková
Petr Nádeníček
Renata Novotná
Klára Osolsobě
2
2
3
4
4
5
5
6
7
9
9
10
11
12
38
13
14
14
37
15
15
16
49
17
17
19
19
20
20
21
22
15, 22
23
24
25
25
27
28
28
29
30
31
54
31
32
32
33
34
Jurgis Pakerys
36
Karel Pala
37
Helena Palátová
38
Jarmila Panevová
42
Pavel Pečený
38
Hana Peloušková
39
Svetlana I. Pereverzeva
17
Andrea Pešková
39
Vladimír Petkevič
41
Patrice Pognan
42
Anatoliy Polikarpov
43
Dmitrij Poljakov
43
Jan Pomikálek
43
Hana Prokšová
44
Gudrun Rawoens
7
Olga Richterová
45
Erika Rimkutė
36
Sylvi Rørvik
46
Alexandr Rosen
47
Lucie Saicová Římalová
48
Eva Seitlová
49
Soňa Schneiderová
14
Kamila Smejkalová
49
Miloslava Sokolová
49
Hana Strachoňová
6
Vít Suchomel
43
Leszek Szymański
50
Magda Ševčíková
50
Josef Šimandl
51
Mária Šimková
52
Jan Štěpánek
30
František Štícha
52
Pavel Štichauer
53
Pavel Šturc
54
Jana Tomšů
55
Margarita A. Tyurenkova
17
Simone Ueberwasser
55
Zdeňka Urešová
30
Andrius Utka
36
Pavlína Vališová
56
Kateřina Veselovská
56
Vojtěch Veselý
58
Pavel Vondřička
5
Ulrich Hermann Waßner
24
Markéta Ziková
21, 58

Zde - Oddělení gramatiky - Akademie věd České republiky

Transkript

Podobné dokumenty

od cuni.cz - Český národní korpus

7. Pražská jazyková typologie

Untitled

Jazykovědné aktuality 2012/3–4 - Jazykovědné sdružení České

Časopis pro moderní filologii 2013

Program pro automatickou opravu stochastické syntaktické anotace

novinky v sortimentu firmy auto-france