PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

PKE: a novel Polish keywords extraction method

Autorzy
Treść / Zawartość
Identyfikatory
Warianty tytułu
PL
PKE: nowatorska metoda ekstrakcji słów kluczowych dla języka polskiego
Języki publikacji
EN
Abstrakty
EN
In the paper a novel summarization approach, called the Polish Keywords Extractor (PKE), is presented. It is the single document oriented method that is capable of extracting keywords from Polish documents. PKE is a knowledge-poor method (not using any external knowledge resources as Wikipedia) inspired by RAKE and KEA. In comparison with the previous methods PKE uses Polish lemmatizer, Part-of-Speech filters, and various evaluation approaches (statistical measures, classifiers). This algorithm was tested on a set of abstracts of Polish academic papers. The experiments have shown that PKE achieves better quality measures (precision, recall, F-measure) than RAKE and KEA.
PL
Automatyczne streszczanie tekstów dotyczy redukcji całych dokumentów lub korpusów dokumentów do postaci reprezentatywnego zbioru słów, lub akapitu. Jedną z popularniejszych metod streszczania jest ekstrakcja słów kluczowych, której celem jest identyfikacja pojedynczych słów lub fraz etykietujących zadany dokument. Metody ekstrakcji słów kluczowych mogą być podzielone na zorientowane na pojedyncze dokumentu lub na korpusy. Dodatkowo metody ekstrakcji mogą być klasyfikowane według stosowanych podejść: lingwistyczne podejście, statystyczne lub oparte na uczeniu maszynowym. W tym artykule jest zaprezentowane nowe podejście do ekstrakcji słów kluczowych, nazwane PKE, które jest zorientowane na pojedyncze polsko języczne dokumenty. PKE jest metodą nie wykorzystującą zewnętrznych zasobów wiedzy jak np. Wikipedia. Metoda została zainspirowana metodami KEA [7] i RAKE [8]. RAKE jest algorytmem bez nadzoru, niezależnym od dziedziny i języka, który pozyskuje słowa kluczowe z pojedynczych dokumentów. KEA natomiast jest metodą z nadzorem, która wykorzystuje modele bayesowskie w celu obliczenia prawdopodobieństwa bycia słowem kluczowym. W porównaniu do powyższych metod, PKE używa Polskiego lematyzatora, filtrów części mowy, oraz różnorodnych metod ewaluacji (statystycznych miar, klasyfikatorów). Proponowany algorytm został przetestowany na zbiorze polskich abstraktów artykułów. Automatycznie proponowane słowa kluczowe zostały zweryfikowane względem słów wybranych przez autorów prac. Eksperymenty (tabela 1 i 2) pokazały, że PKE osiąga lepsze miary jakości (precyzja, kompletność, F1) niż RAKE i KEA.
Wydawca
Rocznik
Strony
305--308
Opis fizyczny
Bibliogr. 8 poz., tab.
Twórcy
  • National Information Processing Institute, Al. Niepodległości 188 B, 00-608 Warszawa
Bibliografia
  • [1] HaCohen-Kerner Y.: Automatic Extraction of Keywords from Abstracts. Proceedings of the Seventh International Conference on Knowledge-Based Intelligent Information & Engineering Systems, pp. 843-849, 2003.
  • [2] Justeson J., Katz S.: Technical terminology: some linguistic properties and an algorithm for identification in text. Natural Language Engineering, vol.1, pp.9-27, 1995.
  • [3] Daille B., Gaussier E., Lange J.: Towards automatic extraction of monolingual and bilingual terminology. Proceedings of COLING, pp. 515-521, 1994.
  • [4] Jones K.: A statistical interpretation of term specififity and its application in retrieval. Journal of Documentation, pp.11-21, 1972.
  • [5] Andrade M., Valencia A.: Automatic extraction of keywords from scientific text: application to the knowledge domain of protein families. BioInformatics, pp.600-607, 1998.
  • [6] Hulth A.: Improved automatic keyword extraction given more linguistic knowledge. Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, 2003.
  • [7] Witten I.H., Paynter G.W., Frank E., Gutwin C. and Nevill-Manning C.G.: KEA: Practical automatic keyphrase extraction. Working Paper 00/5, Department of Computer Science, The University of Waikato, 2000.
  • [8] Rose S., Engel D., Cramer N., Cowley W.: Automatic keyword extraction from individual documents. Text Mining: Applications and Theory, pp.19-37, 2010.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-6ad5cdd2-89d3-41d0-b04c-ec92b456d882
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.