PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Automatyczne sprawdzanie poprawności pisowni w języku polskim oparte na odległości Levenshteina

Autorzy
Treść / Zawartość
Identyfikatory
Warianty tytułu
EN
Spellchecking methods for Polish language based on Levenshtein distance
Języki publikacji
PL
Abstrakty
PL
Ogólnie stosowane metody sprawdzania poprawności pisowni wyrazów opierają się na wykorzystaniu zagadnienia odległości Levenshteina. Metody te do działania wymagają obecności słownika fleksyjnego języka, w którym sprawdzane wyrazy zostały napisane. Ze względu na to, że metody te zostały pierwotnie utworzone na potrzeby języka angielskiego, nie są optymalne w użyciu do przetwarzania tekstów w języku polskim. W niniejszym artykule zaprezentowano charakterystyczne cechy języka polskiego, które wpływają na budowę spellcheckera oraz propozycję pewnej adaptacji metody odległości Levenshteina z uwzględnieniem tych specyficznych cech. Nowy algorytm wykazuje się poprawą jakościową w poprawianiu tekstów napisanych w języku polskim.
EN
Today's widely used spellchecking methods are based on Levenshtein distance algorithms. Inflectional dictionary of language is also needed in spellchecking process. These methods are not optimal for spellchecking texts written in Polish language, because they were inwented for use with English texts, and are optimized for it. This article provides information about characteristics of Polish language that have impact on spellchecking optimizations, as also some proposition of spellchecker implementation based on Levenshtein distance that will use Polish language characteristics and will bring some improvement in Polish texts spellchecking process.
Wydawca
Rocznik
Strony
29--40
Opis fizyczny
Bibliogr. 5 poz., tab.
Twórcy
autor
  • Katedra Informatyki, Akademia Górniczo-Hutnicza w Krakowie
Bibliografia
  • [1] Polański E., Wielki słownik ortograficzny PWN z zasadami pisowni i interpunkcji. PWN, Warszawa, 2003.
  • [2] Levenshtein V.L, Binary codes capable of correcting deletions, insertions, and reversals. Doklady Akademii Nauk SSSR, 163(4), 1965, 845-848.
  • [3] Lubaszewski W., Wróbel H., Gajęcki M., Moskal B., Orzechowska A., Pietras P„ Pisarek P., Rokicka T., Słownik Fleksyjny Języka Polskiego, wyd. LexisNexis, 2001.
  • [4] Sankoff D., Kruskal J., Time Warps, String Edits, and Macromolecules: The Theory and Practice of Sequence Comparison. Rozdział pierwszy „An overview of sequence comparison". CSLI Publications, 1999.
  • [5] Kettunen K., Low-level typographical spellchecking: A proposal. Springer: Computers and the Humanities, 2004, ISSN 0010-4817.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-AGH1-0016-0075
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.