The present report describes the encoding scheme used for the purpose of creating a large annotated corpus of Polish, referred to here as the IPI PAN corpus. The corpus is going to contain at least 75-100 million words, and is going to be annotated structurally and morphosyntactically according to the suggestions laid out in the Corpus Encoding Standard (CES) Guidelines. The report begins with an overview of the existing approaches to corpus encoding, discusses the reasons behind the adoption of the CES, and finishes with a description of the activities to be performed during the process of constructing the IPI PAN corpus.
Praca opisuje standard strukturalnego i morfosyntaktycznego oznaczania tekstu znany jako CES, czyli Corpus Encoding Standard, skupiając się na jego nowoczesnej implementacji w języku XML. Standard ten będzie użyty do oznaczenia dużego korpusu tekstów języka polskiego przygotowanego w Instytucie Podstaw Informatyki PAN w Warszawie, pod kątem zastosowań w inżynierii języka Autor omawia przyczyny wyboru tego właśnie standardu, a w szczególności jego wersji zdefiniowanej w języku XML. Praca kończy się opisem praktycznych czynności, jakie będą wykonane w ramach konstruowania korpusu.
W artykule są opisywane prace badawcze i implementacyjne rozwijane głównie w ramach projektu Thetos tłumaczenia tekstów na język migowy. Celem prac jest zbudowanie informatycznego modelu wybranych aspektów języka polskiego. W tych ramach opracowano formalizmy składniowej i semantycznej reprezentacji struktury zdania, gramatyki odpowiadające tym formalizmom, procedury analizy składniowej i semantycznej, a także metodę modelowania tekstu. Szczególny nacisk położono na praktyczne zastosowanie opracowywanych metod przetwarzania języka polskiego w analizatorach Polsyn realizującym model składni oraz Polsem realizującym model semantyki. Na osobną uwagę zasługuje moduł Polin realizujący generowanie wypowiedzi w języku Thel.
The paper is devoted to a description of the research and implementation works developed in the framework of the Thetos project concerned with translation of texts into the sign language. The works are aimed at construction of a computer model of selected aspects of Polish. The elements elaborated in this framework are formalisms for syntactic and semantic representation of the sentence, grammars that correspond to those formalisms, syntactic and semantic analysis procedures. Special stress has been put on practical application of the considered methods for Polish language processing in the Polsyn analyzer implementing the syntax model, and in Polsem implementing the semantic one. A special attention deserves the Polin module responsible for generation of Thel language utterances.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.