Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 4

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  klasteryzacja dokumentów
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
1
Content available remote Unsupervised learning in latent space with a fuzzy logic guided modified BA
EN
In this paper, a modified bat algorithm with fuzzy inference Mamdani-type system is applied to the problem of document clustering in a semantic features space induced by SV D decomposition. The algorithm learns the optimal clustering of the documents as well as the optimal number of clusters in a concept space; thus, making it suitable for a large and spare dataset which occur in information retrieval system. A centroidbased solution in multidimensional space is evaluated with a silhouette index. A TF-IDF method is used to represent documents in vector space. The presented algorithm is tested on the 20 Newsgroup dataset.
PL
W publikacji zmodyfikowany algorytm nietoperzowy z rozmytym kontrolerem typu Mamdaniego został zastosowany do problemu analizy skupisk dla danych tekstowych. Proces uczenia odbywa się w przestrzeni skompresowanej, otrzymanej z dekompozycji SV D zbioru uczącego. Prezentowany algorytm uczy się jednocześnie optymalnego pokrycia klastrami przestrzeni oraz liczebności klastrów. Do oceny jakości rozwiązania zastosowano wskaźnik Sillhouette. Dane w reprezentacji wektorowej otrzymano z wykorzystaniem transformacji TF-IDF. Prezentowany algorytm przetestowana na zbiorze „20 Newsgroup”.
EN
Natural Language Processing algorithms are resource demanding, especially when tuning to inflective language like Polish is needed. The paper presents time and memory requirements of part of speech tagging and clustering algorithms applied to two corpora of the Polish language. The algorithms are benchmarked on three high performance platforms of different architectures. Additionally sequential versions and OpenMP implementations of clustering algorithms were compared.
PL
Algorytmy przetwarzania języka naturalnego mają duże zapotrzebowanie na zasoby komputerowe, szczególnie gdy wymagane jest dostosowanie algorytmu do języka fleksyjnego jakim jest np. język polski. Artykuł przedstawia wymagania czasowe i pamięciowe algorytmów tagowania częściami mowy oraz algorytmów klasteryzacji zastosowanych do dwóch korpusów języka polskiego. Dokonano benchmarkingu algorytmów na trzech platformach wysokiej wydajności reprezentujących różne architektury. Dodatkowo porównano wersję sekwencyjną oraz implementacje OpenMP algorytmów klasteryzacji.
3
Content available remote Sieci bayesowskie w klasteryzacji dokumentów
PL
W niniejszej pracy przedstawiono rozszerzenia algorytmów PLSA i PHIT do grupowania dokumentów tekstowych. Główna idea rozszerzenia polega na wykorzystaniu sieci bayesowskiej typu TAN zamiast sieci naiwnej, jak ma to miejsce w algorytmach pierwotnych.
PL
Niniejsza praca traktuje o metodach grupowania pojęciowego dokumentów. Przedstawiono sposoby reprezentacji dokumentów, tak aby mogły być one grupowane z wykorzystaniem klasycznych algorytmów DM, przegląd algorytmów grupujących oraz specjalizowane algorytmy grupowania tekstu. Artykuł zawiera także propozycje nowych reprezentacji dokumentów, jak i nowych specjalizowanych algorytmów klasteryzujących dokumenty tekstowe.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.