PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Enhancing regular expressions for Polish text processing

Treść / Zawartość
Identyfikatory
Warianty tytułu
PL
Mechanizm rozszerzonych wyrażeń regularnych do przetwarzania tekstów języka polskiego
Języki publikacji
EN
Abstrakty
EN
The paper presents proposition of regular expressions engine based on the modified Thompson’s algorithm dedicated to the Polish language processing. The Polish inflectional dictionary has been used for enhancing regular expressions engine and syntax. Instead of using characters as a basic element of regular expressions patterns (as it takes place in BRE or ERE standards) presented tool gives possibility of using words from a natural language or labels describing words grammar properties in regex syntax.
PL
W artykule zaprezentowano propozycje mechanizmu wyrażeń regularnych w oparciu o zmodyfikowany algorytm Thompsona dostosowany do przetwarzania tekstów w języku polskim. Prezentowane wyrażenia regularne wykorzystują słownik fleksyjny języka polskiego i pozwalają na budowę wzorców, w których elementami podstawowymi są wyrazy języka polskiego lub etykiety gramatyczne, a nie znaki (jak to ma miejsce w klasycznych wyrażeniach regularnych standardu BRE czy ERE).
Wydawca
Czasopismo
Rocznik
Tom
Strony
19--35
Opis fizyczny
Bibliogr. 6 poz., rys.
Twórcy
autor
  • Computational Linguistics Department, Jagiellonian University, Krakow, Poland
  • PhD Student Institute of Computer Science, AGH University of Science and Technology, Krakow, Poland
  • Msc. student Institute of Computer Science, AGH University of Science and Technology, Krakow, Poland
Bibliografia
  • [1] W. Lubaszewski et. al.: Słowniki komputerowe i automatyczna ekstrakcja informacji z tekstu. Wydawnictwo AGH, pp. 107–126, 2009
  • [2] E. Branny, M. Gajecki: Text Summarizing in Polish. Computer Science, Annual of AGH University Of Science and Technology, pp. 31–46, 2005
  • [3] G. Grefenstette, P. Tapanainen: What is a word, What is a sentence? Problems of Tokenization.. 3rd Conference on Computational Lexicography and Text Research COMPLEX’94 Budapest, 1994
  • [4] A. A. R. Sethi, J. D. Ullman: Compilers: Principles, Techniques, and Tools.. Addison-Wesley, 1988
  • [5] J. Hopcroft, J. Ullman: Introduction to Automata Theory, Languages and Computation. Addison-Wesley, 1979
  • [6] Regular Expressions. The Single UNIX Specification, Version 2, The Open Group, 1997, http://opengroup.org/onlinepubs/007908775/xbd/re.html
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-AGH1-0023-0085
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.