The paper is devoted to description and evaluation of a new method of linguistically annotated text compression. A semantically motivated transcoding scheme is proposed in which text is split into three distinct strems of data. By applying the scheme it is possible to reduce compressed text length by as high as 67%, compared to the initial compression algorithm. An important advantage of the method is the feasibility of processing text in its compressed form.
2
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Niniejsze opracowanie zawiera przegląd sześciu analizatorów morfologicznych języka polskiego: Gram, PoMor, SAM, LEM, XeLDA, AMOR. Raport rozpoczyna się od prezentacji tekstów opracowanych w celu porównania omawianych analizatorów oraz współczynników służących do oceny statystycznej skuteczności ich działania. W następnych rozdziałach po kolei omawiane są poszczególne analizatory wraz z efektami ich działania na przygotowanych tekstach. Porównanie wyników działania analizatorów przedstawione zostało w podsumowaniu.
EN
This report contains a survey of six morphological analysers for the Polish language: Gram, PoMor, SAM, LEM, XeLDA, AMOR. The report begins with a presentation of tests we adopted for a comparison of the analysers. We also introduce definitions of factors which serve for statistical evaluation of the tests. Subsequent sections present particular analysers and discuss test results. The summary provides a comparison of the tested analysers.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.