Wyniki wyszukiwania - BazTech

1

Unsupervised learning in latent space with a fuzzy logic guided modified BA

Kiełkowicz K.

Technical Transactions

|

2018

|

Vol. 115, iss. 8

141--153

EN

In this paper, a modified bat algorithm with fuzzy inference Mamdani-type system is applied to the problem of document clustering in a semantic features space induced by SV D decomposition. The algorithm learns the optimal clustering of the documents as well as the optimal number of clusters in a concept space; thus, making it suitable for a large and spare dataset which occur in information retrieval system. A centroidbased solution in multidimensional space is evaluated with a silhouette index. A TF-IDF method is used to represent documents in vector space. The presented algorithm is tested on the 20 Newsgroup dataset.

PL

W publikacji zmodyfikowany algorytm nietoperzowy z rozmytym kontrolerem typu Mamdaniego został zastosowany do problemu analizy skupisk dla danych tekstowych. Proces uczenia odbywa się w przestrzeni skompresowanej, otrzymanej z dekompozycji SV D zbioru uczącego. Prezentowany algorytm uczy się jednocześnie optymalnego pokrycia klastrami przestrzeni oraz liczebności klastrów. Do oceny jakości rozwiązania zastosowano wskaźnik Sillhouette. Dane w reprezentacji wektorowej otrzymano z wykorzystaniem transformacji TF-IDF. Prezentowany algorytm przetestowana na zbiorze „20 Newsgroup”.

2

Benchmarking high performance architectures with natural language processing algorithms

Kuta M., Kitowski J.

Computer Science

|

2011

|

Vol. 12

19-31

EN

Natural Language Processing algorithms are resource demanding, especially when tuning to inflective language like Polish is needed. The paper presents time and memory requirements of part of speech tagging and clustering algorithms applied to two corpora of the Polish language. The algorithms are benchmarked on three high performance platforms of different architectures. Additionally sequential versions and OpenMP implementations of clustering algorithms were compared.

PL

Algorytmy przetwarzania języka naturalnego mają duże zapotrzebowanie na zasoby komputerowe, szczególnie gdy wymagane jest dostosowanie algorytmu do języka fleksyjnego jakim jest np. język polski. Artykuł przedstawia wymagania czasowe i pamięciowe algorytmów tagowania częściami mowy oraz algorytmów klasteryzacji zastosowanych do dwóch korpusów języka polskiego. Dokonano benchmarkingu algorytmów na trzech platformach wysokiej wydajności reprezentujących różne architektury. Dodatkowo porównano wersję sekwencyjną oraz implementacje OpenMP algorytmów klasteryzacji.

3

Sieci bayesowskie w klasteryzacji dokumentów

Kłopotek M. A.

Studia Informatica : systems and information technology

|

2004

|

Vol. 2(4)

47--82

PL

W niniejszej pracy przedstawiono rozszerzenia algorytmów PLSA i PHIT do grupowania dokumentów tekstowych. Główna idea rozszerzenia polega na wykorzystaniu sieci bayesowskiej typu TAN zamiast sieci naiwnej, jak ma to miejsce w algorytmach pierwotnych.

4

Metody grupowania dokumentów tekstowych

Gołębski R., Bembenik R., Chrabąszcz M.

Informatyka Teoretyczna i Stosowana

|

2003

|

R. 3, nr 4

179-196

PL

Niniejsza praca traktuje o metodach grupowania pojęciowego dokumentów. Przedstawiono sposoby reprezentacji dokumentów, tak aby mogły być one grupowane z wykorzystaniem klasycznych algorytmów DM, przegląd algorytmów grupujących oraz specjalizowane algorytmy grupowania tekstu. Artykuł zawiera także propozycje nowych reprezentacji dokumentów, jak i nowych specjalizowanych algorytmów klasteryzujących dokumenty tekstowe.