Warianty tytułu
Polish text types in a quantitative approach: a corpus based study on diversity of Polish
Języki publikacji
Abstrakty
Artykuł stara się odpowiedzieć na pytanie, czy możliwe jest ustalenie typologii polskich tekstów wyłącznie na podstawie ich cech gramatycznych. Dodatkowym celem było ustalenie, czy typologia przyjęta w Narodowym Korpusie Języka Polskiego, oparta na kryteriach pozajęzykowych, rzeczywiście grupuje teksty, które są do siebie gramatycznie podobne. Badanie przeprowadzono na korpusie 1190 tekstów wybranych losowo z Narodowego Korpusu Polskiego. W każdym z tekstów zbadano frekwencję ok. 60 cech gramatycznych, takich jak liczba słów należących do poszczególnych części mowy bądź występujących w konkretnym przypadku, osobie lub czasie gramatycznym itp. Na podstawie tych danych przeprowadzono analizę Bootstrap Consensus Network, a także skalowanie wielowymiarowe. Rezultaty potwierdzają, że większość tekstów przynależnych w NKJP do danego typu rzeczywiście wykazuje wzajemne podobieństwo pod względem frekwencji poszczególnych kategorii gramatycznych.
The article seeks to answer the question whether it is possible to establish a typology of Polish texts based exclusively on their grammatical features. An additional aim was to find whether the typology adopted in the National Corpus of Polish (NCP), based on purely extra-linguistic criteria, groups together texts that are grammatically similar. The study was conducted on a corpus of 1190 texts randomly chosen from the NCP. For each text the frequency of some 60 grammatical features was counted, such as the number words belonging to a part of speech, occurring in a particular case, person or tense etc. With these data Bootstrap Consensus Network analysis as well as multidimensional scaling was conducted. The results show that most members of a text type cluster together showing similarity one to another. Moreover, the typology of texts adopted in the NCP gains additional support.
Czasopismo
Rocznik
Tom
Numer
Strony
5-17
Opis fizyczny
Twórcy
autor
- Instytut Języka Polskiego Polskiej Akademii Nauk, maciej.eder@ijp.pan.pl
autor
- Instytut Języka Polskiego Polskiej Akademii Nauk, rafal.gorski@ijp.pan.pl
Bibliografia
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.desklight-026a03d7-7c2f-4d53-871c-209174b1e5cd