The paper reports on the results of an examination of changes in Polish lexis over the past decade. Two different, multi-million corpora spanning the years 2011–2022 were contrasted with a subset of the balanced National Corpus of Polish, which covers the period until 2010. To this end, keyword analysis was employed, and words that are particularly characteristic of the more recent set of texts, compared to the older corpus, were automatically extracted. This allowed us to identify the most salient lexical trends which differentiate the language of the last decade from the one recorded in the National Corpus of Polish, and which point to significant extralinguistic socio-cultural, economic, and political shifts across time.
W ostatnich dziesięcioleciach wzrasta rola badań korpusowych w językoznawstwie i naukach pokrewnych. Wyszukiwanie i analiza kolokacji i konkordancji określonej jednostki leksykalnej, pozwalające na określenie jej preferencji semantycznej i prozodii semantycznej, mogą stanowić narzędzie badania stereotypów, rozumianych jako nadmiernie uogólnione i uproszczone oceniająco-afektywne obrazy fragmentu rzeczywistości nazywanego przez daną jednostkę leksykalną. Celem analizy przedstawionej w artykule jest weryfikacja zasadności uzupełniania badań opartych na analizie zasobów korpusowych danymi uzyskanymi w teście skojarzeń swobodnych. Przeprowadzona analiza dotyczy jednostki leksykalnej inwalida, jako nazwy pojęcia podlegającego silnej stereotypizacji. W zasobach liczącego około 250 milionów słów podkorpusu zrównoważonego Narodowego Korpusu Języka Polskiego poszukiwano reakcji skojarzeniowych na hasło inwalida podanych przez minimum 2 osoby z 40-osobowej grupy użytkowników języka polskiego. Sprawdzono w korpusie współwystępowanie wyrazu inwalida kolejno z każdym z 33 uzyskanych skojarzeń, używając do tego celu narzędzia szukającego kontekstów (konkordancji) zawierających oba wyrazy – inwalida i skojarzenie – w odstępie 0 oraz ≤5. Wykazano, że test skojarzeniowy może w sposób istotny uzupełniać analizy korpusowe poprzez: dostarczanie ważnych elementów prozodii semantycznej, których nie ma w wynikach analiz korpusowych, ukierunkowanie wyszukiwania konkordancji oraz wskazywanie elementów najważniejszych dla znaczenia badanego wyrazu.
EN
The role of corpus research in linguistics and in related fields of study has increased in recent decades. Searching for and analysis of collocations and concordances of a lexical unit, which makes it possible to determine its semantic preferences and semantic prosody, can be a tool for studying stereotypes, understood as overly generalized and simplified evaluative and affective images of a fragment of reality named by the lexical unit. The aim of this article is to verify the validity of supplementing studies based on the analysis of corpus resources with data obtained in free association tests. The study focuses on the lexical unit inwalida ‘an invalid’ as the name of a concept which may be subject to strong stereotyping. The resources of the balanced sub-corpus of the National Corpus of Polish, consisting of about 250 million words, were searched for associative responses to the word inwalida given by at least 2 people from a group of 40 Polish speakers. In the corpus, the co-occurrence of the word inwalida was checked with each of the 33 obtained associations, using a search tool to identify the contexts (concordances) containing both words – inwalida and the association – with an interval of 0 and ≤5. The results of the study indicate that an association test can be a significant complement to corpus data analyses: it can provide important elements of semantic prosody which are not found in corpus analysis results, it can guide concordance search and it can indicate the elements which are the most important for the meaning of the examined word.
Artykuł omawia słabo lub mylnie udokumentowane cechy funkcji Profil, służącej do badania dystrybucji stylistycznej za pomocą wyszukiwarki PELCRA w Narodowym Korpusie Języka Polskiego. Zwrócono uwagę na błędy popełniane przez użytkowników w interpretacji wyników dostarczanych przez funkcję Profil i pokazano, jak z jej pomocą można porównywać dystrybucję stylistyczną wyrazów synonimicznych. Przedmiotem uwagi są też internetowe katalogi biblioteczne jako uzupełniające źródło informacji o dystrybucji stylistycznej słów.
EN
The article discusses poorly or incorrectly documented features of the Profile function used to examine stylistic distribution by means of the PELCRA search engine in the National Corpus of Polish. Attention is paid to errors made by users in interpreting the results provided by the Profile function. The use of the function to compare the stylistic distribution of synonymous words is shown. Online library catalogs are also included as a complementary source of information about the stylistic distribution of words.
The aim of this paper is to refute the thesis by Zygmunt Saloni that structures such as “Kto, co i komu dał?” (“Who gave what to whom?”, literally: “Who, what and whom gave?”) do not belong to the system of contemporary Polish and that their conjunctionless counterparts (here: “Kto co komu dał?”, literally: “Who what whom gave?”) should be used instead. We show that the discussed phenomenon, called lexico-semantic coordination, is frequent in the National Corpus of Polish and that it occurs in a variety of genres and with a variety of pronouns — not just wh-words, but also n-words, various kinds of indefinites, pronouns expressing universal quantification, etc. Moreover, relevant examples may be found in a number of linguistic works, where they are cited as grammatical, without any comment on their possible unacceptability. All this leads to the conclusion that lexico-semantic coordination belongs both to the norm and to the system of contemporary Polish.
Artykuł jest wynikiem próby zbadania możliwości wykorzystania narzędzi korpusu przy nadawaniu kwalifikatorów leksemom w słowniku ogólnym. Do analizy zostały wykorzystane wybrane grupy leksemów z Wielkiego słownika języka polskiego, które zostały opatrzone jednym z następujących kwalifikatorów: daw. (dawne), książk. (książkowe), pot. (potoczne), nauk. (nauka, naukoznawstwo), anat. (anatomia), biol. (biologia), mat. (matematyka). Celem badania jest sprawdzenie, w jakim stopniu weryfikacja poświadczeń jednostek w różnych typach źródeł w Narodowym Korpusie Języka Polskiego może wpłynąć na zobiektywizowanie kryterium przyznawania kwalifikatorów leksemom w słowniku ogólnym.
EN
This paper refers to the attempt of examining the possibility of using corpus tools when allocating lexemes in the general dictionary. A few groups of lexemes from The Great Dictionary of Polish were used in the analysis. They received one of the following qualifiers: daw. (archaic), książk. (formal), pot. (informal), nauk. (science), anat. (anatomy), biol. (biology) and mat. (mathematics). The study aims to check how the verification of the attendance of lexemes in different types of sources in The National Corpus of Polish may influence an objective criterion of allocating lexemes to the general dictionary.
Pomimo obiecujących badań automatyczna ekstrakcja anglicyzmów z wykorzystaniem narzędzi dostępnych w elektronicznych korpusach językowych wciąż nie jest możliwa. Mimo to wyszukiwarki korpusowe są nieodzownym narzędziem w systematycznej weryfikacji użycia anglicyzmów wyłuskanych metodą tradycyjną. W artykule omówiono zarówno funkcjonalność, jak i niedoskonałość narzędzi dostępnych w Narodowym Korpusie Języka Polskiego w odniesieniu do badania anglicyzmów różnych typów oraz ich z góry zdefiniowanych cech. Niedostatki narzędzi, związane głównie z semantyką zapożyczeń, zostały zilustrowane konkretnymi przykładami anglicyzmów.
EN
While electronic corpora may not seem adequate sources for anglicisms retrieval, since despite promising attempts they still lack readily available and efficient tools for foreign loans identification, they are indispensable in a systematic verification of the use of preidentified loans. The article offers an assessment of an electronic corpus of Polish in reference to its usefulness for the study of English loans. Though we test a selected corpus and its tools, and use Polish anglicisms as exemplifications, the findings presented in the article pertain to other large corpora and anglicisms in other languages. Corpus tools allow for a multidimensional analysis of loans, yet they fail to meet the requirements of more in-depth analyses of anglicisms, related to their semantics and structure. The limitations of corpora tools will be illustrated with authentic attempted-but-failed corpus searches.
Celem tego artykułu jest omówienie występowania nazw odcieni barwy zielonej w tekstach zgromadzonych w Narodowym Korpusie Języka Polskiego (NKJP), dostępnym pod adresem http://www.nkjp.pl, a dokładniej, w kategorii „proza” w podkorpusie zrównoważonym. Dane językowe zostały wyekscerpowane przy pomocy wyszukiwarki PELCRA. Analiza materiału wykazuje, że z występujących w tekstach NKJP dziewięciu nazw odcieni barwy zielonej najczęściej notowany jest przymiotnik seledynowy, którego prozaicy używają m.in. w opisach światła i nieba. Jednak jego frekwencja jest stosunkowo niska – w polu zieleni zdecydowanie dominuje nazwa podstawowa, zielony. Ani seledynowy, ani żadna z innych nazw barw w tym polu nie pełni tak istotnej roli jak błękitny w polu barwy niebieskiej.
EN
The aim of the article is to present the uses of selected names of shades of green in the texts collected in the National Corpus of Polish (NKJP), which is available at http://www.nkjp.pl – to be more precise, in the category “prose” of its balanced sub-corpus. The linguistic data have been excerpted with the search engine PELCRA. The analysis of the uses of nine names of shades of green found in the texts of NKJP has revealed that the most frequent adjective is seledynowy ‘celadon’ which is employed by writers, inter alia, in descriptions of the sky and light. Yet, its frequency is relatively low, and the basic term, zielony, is overwhelmingly dominant in the set of words for green. Neither seledynowy nor any other colour term plays such an important role as błękitny ‘light blue’ does in the set of words for blue.
Celem artykułu jest omówienie występowania przymiotnika błękitny w tekstach zgromadzonych w Narodowym Korpusie Języka Polskiego (NKJP), dostępnym pod adresem www.nkjp. pl. Pod uwagę brana jest kategoria „proza” w podkorpusie zrównoważonym, a dane zostały wyekscerpowane przy pomocy wyszukiwarki PELCRA. Jak pokazuje analiza materiału wyekscerpowanego z podkorpusu zrównoważonego NKJP, błękitny używany jest w prozie częściej niż w tekstach innych, nieliterackich kategorii. Dane korpusowe przemawiają za tym, by uważać to słowo za wyszukane, „książkowe”. Dane korpusowe dostarczyły materiału pozwalającego na wychwycenie różnic – nie tylko frekwencyjnych – w stosowaniu przez prozaików przymiotników błękitny i niebieski. Ten pierwszy częściej używany jest w opisach nieba, wody, dymów i mgieł, natomiast drugi służy do deskrypcji ubrań i oczu.
EN
The purpose of the article is to discuss the occurrence of the adjective błękitny in the texts collected in the category “prose” of the National Corpus of Polish, available at www.nkjp.pl. The data have been excerpted from the balanced subcorpus with the search engine PELCRA. As the analysis demonstrates, błękitny is used in prose more frequently than in other texts, non-literary categories, and that is why, this word should be regarded as sophisticated and bookish. The corpus data allow for identifying differences not only in the frequency but also in the use of the words błękitny and niebieski by prose writers. Błękitny is used more often to describe the sky, water, smoke and mist, whereas niebieski, which is the basic term for blue in Polish, is employed to describe clothes and eyes.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.