PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Automatyczna identyfikacja słów i fraz kluczowych – algorytm RAKE

Autorzy
Identyfikatory
Warianty tytułu
EN
Automatic identification words and key phrases - RAKE algorithm
Języki publikacji
PL
Abstrakty
PL
Frazy kluczowe, które są definiowane jako sekwencja kliku słów, zapewniają zwartą reprezentację treści danego dokumentu. Słowa i frazy kluczowe są powszechnie wykorzystywane w ramach systemów wyszukiwania informacji IR ponieważ są łatwe do zdefiniowania, zmiany, zapamiętania i udostępniania. Jednak pomimo ich przydatności do analizy, indeksowania i wyszukiwania większość dokumentów nie przypisuje automatycznie słów i fraz kluczowych. Rozwiązaniem może być algorytm RAKE niezależny od języka, prezentujący metodę ekstrakcji słów i fraz kluczowych z poszczególnych dokumentów. Podejmowane próby zastosowania algorytmu RAKE do analizy tekstów przygotowanych w języku polskim wskazują na kilka problemów związanych z jego zastosowaniem. Najistotniejszym z nich wydaje się być konieczność jednoczesnej analizy tekstu oryginalnego (aby odtworzyć prawidłową postać frazy) oraz tekstu złożonego z wyrazów w formie podstawowej (w celu zliczania wszystkich wystąpień fraz). Również należy zwrócić uwagę na potrzebę właściwego zdefiniowania separatorów fraz oraz oceny jakości fraz kandydujących. Próba rozwiązania wymienionych problemów stanowi główny cel artykułu.
EN
Key phrases, which we define as a sequence of more words, provide a compact representation of a document’s content. Keywords and key phrases are widely used to define queries within information retrieval (IR) systems as they are easy to define, revise, remember, and share. However, despite their utility for analysis, indexing, and retrieval, most documents do not have assigned automatically keywords and key phrases. The solution may be Rapid Automatic Keyword Extraction (RAKE), an unsupervised, domain-independent, and language-independent method for extracting keywords and key phrases from individual documents. Attempts to use RAKE algorithm to analyze texts in Polish indicate many problems associated with its use. The most important of them seems to be a need for simultaneous analysis of the original text (in order to reproduce the correct form of the phrase) and a text composed of words in primary forms (to count all occurrences of the phrase). Also, pay attention to the need to properly define separators phrases and quality evaluation of candidate phrases. Attempt to solve these problems is the main purpose of the article.
Czasopismo
Rocznik
Tom
Strony
3930--3938
Opis fizyczny
Bibliogr. 10 poz., rys., tab.
Twórcy
autor
  • Politechnika Rzeszowska im. Ignacego Łukasiewicza, Wydział Zarządzania; 35-959 Rzeszów; al. Powstańców Warszawy 12
Bibliografia
  • 1. Berry M. W., Kogan J., Text Mining Applications and Theory. John Wiley & Sons Ltd, United Kingdom 2010.
  • 2. Deerwester S., Dumais S. T., Furnas G., Landauer T. K, Harshman R., Indexing by Latent Semantic Analysisis. Journal of the American Society for Information Science, 41(6), 1990.
  • 3. Hand D., Mannila H., Smyth P., Eksploracja danych. WNT, Warszawa 2005.
  • 4. Manning C., Schuetze H., Foundations of Statistical Natural Language Processing. The MIT Press, 1999.
  • 5. Mihalcea R., Tarau P., Textrank: Bringing order into texts.In Proceedings of EMNLP 2004 (ed, Lin D., Wu D.), Association for Computational Linguistics, Barcelona 2004, s. 404–411.
  • 6. Mykowiecka A, Inżynieria lingwistyczna. Komputerowe przetwarzanie tekstów w języku naturalnym. PJWSTK, Warszawa, 2007.
  • 7. Pang B., Lee L., Vaithyanathan S., Thumbs up? Sentiment Classification using Machine Learning Techniques. EMNLP, 2002.
  • 8. Perkins J., Python Text Processing with NLTK 2.0 Cookbook. Packt Publishing, 2010.
  • 9. Rose S., Engel D., Cramer N., Cowley W., Automatic Keyword Extraction from Individual Documents. M. W. Berry & J. Kogan (red.), Text Mining: Theory and Applications, John Wiley & Sons, 2010, s. 3 – 19.
  • 10. Salton G., Wong A., Yang C. S., A vector space model for automatic indexing. Communications of the ACM, vol, 18, 1975, s. 613–620.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-c3f59d2d-1f59-447d-a9d9-1abb08d3c358
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.