Wyniki wyszukiwania - BazTech

Ograniczanie wyników

Znaleziono wyników: 2

Liczba wyników na stronie

Wyniki wyszukiwania

Wyszukiwano:
w słowach kluczowych: ekstrakcja słów kluczowych

Sortuj według:

Ogranicz wyniki do:

PKE: a novel Polish keywords extraction method

Kozłowski M.

Pomiary Automatyka Kontrola

2014

R. 60, nr 5

305--308

In the paper a novel summarization approach, called the Polish Keywords Extractor (PKE), is presented. It is the single document oriented method that is capable of extracting keywords from Polish documents. PKE is a knowledge-poor method (not using any external knowledge resources as Wikipedia) inspired by RAKE and KEA. In comparison with the previous methods PKE uses Polish lemmatizer, Part-of-Speech filters, and various evaluation approaches (statistical measures, classifiers). This algorithm was tested on a set of abstracts of Polish academic papers. The experiments have shown that PKE achieves better quality measures (precision, recall, F-measure) than RAKE and KEA.

Automatyczne streszczanie tekstów dotyczy redukcji całych dokumentów lub korpusów dokumentów do postaci reprezentatywnego zbioru słów, lub akapitu. Jedną z popularniejszych metod streszczania jest ekstrakcja słów kluczowych, której celem jest identyfikacja pojedynczych słów lub fraz etykietujących zadany dokument. Metody ekstrakcji słów kluczowych mogą być podzielone na zorientowane na pojedyncze dokumentu lub na korpusy. Dodatkowo metody ekstrakcji mogą być klasyfikowane według stosowanych podejść: lingwistyczne podejście, statystyczne lub oparte na uczeniu maszynowym. W tym artykule jest zaprezentowane nowe podejście do ekstrakcji słów kluczowych, nazwane PKE, które jest zorientowane na pojedyncze polsko języczne dokumenty. PKE jest metodą nie wykorzystującą zewnętrznych zasobów wiedzy jak np. Wikipedia. Metoda została zainspirowana metodami KEA [7] i RAKE [8]. RAKE jest algorytmem bez nadzoru, niezależnym od dziedziny i języka, który pozyskuje słowa kluczowe z pojedynczych dokumentów. KEA natomiast jest metodą z nadzorem, która wykorzystuje modele bayesowskie w celu obliczenia prawdopodobieństwa bycia słowem kluczowym. W porównaniu do powyższych metod, PKE używa Polskiego lematyzatora, filtrów części mowy, oraz różnorodnych metod ewaluacji (statystycznych miar, klasyfikatorów). Proponowany algorytm został przetestowany na zbiorze polskich abstraktów artykułów. Automatycznie proponowane słowa kluczowe zostały zweryfikowane względem słów wybranych przez autorów prac. Eksperymenty (tabela 1 i 2) pokazały, że PKE osiąga lepsze miary jakości (precyzja, kompletność, F1) niż RAKE i KEA.

Mechanizm identyfikacji i klasyfikacji treści

Niewiarowski A., Stanuszek M.

Studia Informatica

2013

Vol. 34, nr 2B

205--222

Artykuł opisuje mechanizm identyfikacji i klasyfikacji treści, oparty na metodzie ważenia terminów, bazującej na odwrotnej częstości dokumentowej, częstości wystąpienia terminu i odległości Levenshteina. Zaproponowany mechanizm zaimplementowano w program analizujący tematy i opisy prac dyplomowych, w celu automatycznego doboru promotorów i recenzentów.

This paper presents the mechanism of identification and classification of content, based on terms weighted method with inversed document frequency analysis and Levenstein distance technique. The proposed mechanism is applied in the analysis of topics and descriptions of selected diploma thesis, to automatic selection of supervisors and reviewers.