Valoda: nozīme un forma / Language: Meaning and Form 14, 2023, 111–125. [PDF]
Korpusu un individuālā vākuma salīdzinājums: ģenitīva un nominatīva konkurence saistījumā ar adverbu
Linda Lauze
Humanitāro un mākslas zinātņu fakultāte
Liepājas Universitāte
Kūrmājas prospekts 13, Liepāja, LV-3401, Latvija
Ilze Auziņa
Mākslīgā intelekta laboratorija
Matemātikas un informātikas institūts
Latvijas Universitāte
Raiņa bulv. 29, Rīga, LV-1459, Latvija
Rakstā aplūkotas korpusa datu un individuālā vākuma priekšrocības un trūkumi. Dažādu gramatiski marķētu latviešu valodas korpusu pieejamība nodrošina arvien plašākus korpusa datos balstītus gramatikas pētījumus. Savukārt individuālajam vākumam ir bijusi liela nozīme valodniecības attīstībā, un tas ir senāks praktiskā materiāla ieguves veids. Tomēr mūsdienu tehnoloģiju laikmetā ir radies jautājums par individuālā vākuma lietderību.
Abu datu ieguves veidu praktiskam salīdzinājumam izvēlēta mūsdienu latviešu valodas lietojumā izplatīta parādība – ģenitīva un nominatīva konkurence (saistījumā ar adverbu), kas konstatēta gan individuālajā vākumā, gan korpusu datos.
Šajā pētījumā ir atlasīti trīs adverbi – daudz (tā supletīvā pārākās pakāpes forma vairāk), maz, cik –, kuri sīkāk tiek analizēti teikuma gramatiskajā centrā saistījumā ar lietvārda ģenitīvu vai nominatīvu. Individuālo vākumu veido samērā spontāns nerediģēts latviešu valodas lietojums mutvārdos un rakstveidā – ar katru adverbu 100 teikumu. Korpusa datu analīzei izmantoti četri latviešu valodas korpusi – „Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss” (LVK2018), „Latviešu valodas sintaktiski marķētais korpuss” (LVTB), „Latviešu valodas runas atpazīšanas korpuss” (LVR2013) un „Pandēmijas dienasgrāmatas” (PanDi). Gan korpusu, gan individuālā vākuma materiālā dominē vārdu savienojumi ar ģenitīvu. No avotu viedokļa, nominatīvs biežāk konstatēts „Latviešu valodas runas atpazīšanas korpusā” (LVR2013), bet analizēto trīs adverbu grupā – biežāk saistījumā ar adverbu cik.
Atslēgvārdi: latviešu valoda; individuālais vākums; valodas korpuss; sintakse; ģenitīva un nominatīva konkurence; saistījums ar mēra adverbu.
A comparison of corpora and individual collection: Genitive and nominative competition in connection with an adverb
The article describes the advantages and disadvantages of corpus data and individual collection. The availability of various grammatically annotated corpora of the Latvian language ensures more and more extensive grammar studies based on corpus data. On the other hand, the individual collection played a major role in the development of linguistics, and it is an older way of obtaining practical material. However, in today’s technological age, the individual usefulness of the collection has come into question.
For a practical comparison of the two data acquisition methods, a common phenomenon in modern Latvian language usage was chosen – genitive and nominative competition (in connection with an adverb), which was found both in the individual collection and in the corpora data.
In this study, three adverbs are selected – daudz ‘many’ (wordform vairāk ‘more’) maz ‘few’, cik ‘how many’ – which are analysed in more detail in the syntactic centre of the sentence in connection with the genitive or nominative of the noun. The individual collection consists of relatively spontaneous unedited use of the Latvian language in speech and writing – 100 sentences with each adverb. For corpus-driven data analysis, four corpora of the Latvian language were used: The Balanced Corpus of Modern Latvian (LVK2018), Latvian Treebank (LVTB), Latvian Speech Recognition Corpus (LRK2013), and Corpus of Latvian Pandemic Diaries (PanDi).
The phrases with the genitive form dominate the material of both the corpora and the individual collection. According to the used sources, nominative is more frequent in the Latvian speech recognition corpus (LVR2013), but in the group of three analysed adverbs – more often in connection with the adverb cik ‘how many’.
Keywords: Latvian; individual collection; corpus; syntax; genitive and nominative competition.
Rakstam ir Creative Commons Attiecinājuma 4.0 Starptautiskā licence (CC BY 4.0) /
This article is licensed under the Creative Commons Attribution 4.0 International License (CC BY 4.0) (