Nowa wersja platformy, zawierająca wyłącznie zasoby pełnotekstowe, jest już dostępna.
Przejdź na https://bibliotekanauki.pl

PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2023 | 105 | 1 | 121-140
Tytuł artykułu

Korpus DIA1900: jeho koncepce a vytváření

Treść / Zawartość
Warianty tytułu
Corpus DIA1900: its Conception and Building
Języki publikacji
CS
Abstrakty
EN
The objective of the paper is to describe the principles for building the onemillionword DIA1900 Corpus consisting of Czech texts published between 1851 and 1900, designed to be both balanced and representative. There are two main goals determining the methods of corpus building and the decision to develop new tools tailored to the special needs of 19th century Czech: 1) to present the variability of Czech in the 2nd half of the 19th century (including spelling, morphology, wordformation) and 2) to link the detected variants to the appropriate lemmas. The paper presents the phases of the processing of the texts, including transcription, manual pre-annotation, as well as the construction of a large morphological dictionary and the selection of a suitable set of paradigms. Further sections are focused on annotation and morphological tagging and manual disambiguation. The objective was to create a gold standard, intended for use in the automatic annotation both of the DIA1900 corpus and the planned corpus of Czech texts of the years 1800–1850.
Twórcy
  • Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy
  • Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy
  • Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy
  • Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy
  • Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy
Bibliografia
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.desklight-a4c25355-fee8-4d56-8eb5-0a989e9576c4
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.