Frazy kluczowe, które są definiowane jako sekwencja kliku słów, zapewniają zwartą reprezentację treści danego dokumentu. Słowa i frazy kluczowe są powszechnie wykorzystywane w ramach systemów wyszukiwania informacji IR ponieważ są łatwe do zdefiniowania, zmiany, zapamiętania i udostępniania. Jednak pomimo ich przydatności do analizy, indeksowania i wyszukiwania większość dokumentów nie przypisuje automatycznie słów i fraz kluczowych. Rozwiązaniem może być algorytm RAKE niezależny od języka, prezentujący metodę ekstrakcji słów i fraz kluczowych z poszczególnych dokumentów. Podejmowane próby zastosowania algorytmu RAKE do analizy tekstów przygotowanych w języku polskim wskazują na kilka problemów związanych z jego zastosowaniem. Najistotniejszym z nich wydaje się być konieczność jednoczesnej analizy tekstu oryginalnego (aby odtworzyć prawidłową postać frazy) oraz tekstu złożonego z wyrazów w formie podstawowej (w celu zliczania wszystkich wystąpień fraz). Również należy zwrócić uwagę na potrzebę właściwego zdefiniowania separatorów fraz oraz oceny jakości fraz kandydujących. Próba rozwiązania wymienionych problemów stanowi główny cel artykułu.
EN
Key phrases, which we define as a sequence of more words, provide a compact representation of a document’s content. Keywords and key phrases are widely used to define queries within information retrieval (IR) systems as they are easy to define, revise, remember, and share. However, despite their utility for analysis, indexing, and retrieval, most documents do not have assigned automatically keywords and key phrases. The solution may be Rapid Automatic Keyword Extraction (RAKE), an unsupervised, domain-independent, and language-independent method for extracting keywords and key phrases from individual documents. Attempts to use RAKE algorithm to analyze texts in Polish indicate many problems associated with its use. The most important of them seems to be a need for simultaneous analysis of the original text (in order to reproduce the correct form of the phrase) and a text composed of words in primary forms (to count all occurrences of the phrase). Also, pay attention to the need to properly define separators phrases and quality evaluation of candidate phrases. Attempt to solve these problems is the main purpose of the article.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.