In this paper, a modified bat algorithm with fuzzy inference Mamdani-type system is applied to the problem of document clustering in a semantic features space induced by SV D decomposition. The algorithm learns the optimal clustering of the documents as well as the optimal number of clusters in a concept space; thus, making it suitable for a large and spare dataset which occur in information retrieval system. A centroidbased solution in multidimensional space is evaluated with a silhouette index. A TF-IDF method is used to represent documents in vector space. The presented algorithm is tested on the 20 Newsgroup dataset.
PL
W publikacji zmodyfikowany algorytm nietoperzowy z rozmytym kontrolerem typu Mamdaniego został zastosowany do problemu analizy skupisk dla danych tekstowych. Proces uczenia odbywa się w przestrzeni skompresowanej, otrzymanej z dekompozycji SV D zbioru uczącego. Prezentowany algorytm uczy się jednocześnie optymalnego pokrycia klastrami przestrzeni oraz liczebności klastrów. Do oceny jakości rozwiązania zastosowano wskaźnik Sillhouette. Dane w reprezentacji wektorowej otrzymano z wykorzystaniem transformacji TF-IDF. Prezentowany algorytm przetestowana na zbiorze „20 Newsgroup”.
The article presents the basic types of artificial neural networks (ANN), designed to solve the regression problems, engineering applications, engineering manufacturing as well as in industrial conditions. The group included these networks are Adaline network, Madaline networks, linear, unidirectional network perpceptron type of multi-layer (MLP), Generalized Regression Neural Networks (GRNN) and a network of radial basis function (RBF).
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.