Content available Hybrid fuzzy clustering method
A new hybrid clustering method based on a fuzzy myriad is presented. The proposed method could be considered as a generalisation of the well known fuzzy c-means method (FCM) proposed by Bezdek. Existing modifications of the FCM method, such as conditional clustering or partial supervised clustering can be applied to determine the objective function of the proposed method.
The paper presents comparison of application of several clustering algorithms and XML structure encoding methods to clustering XML documents having different structure types. Quality of the clustering is evaluated regarding the application of the resulting partitions to acceleration of the selective queries execution on XML collections. The results show that application of multilevel clustering algorithm to analysis of XML documents having complex structure gives the partition of better quality.
Praca przedstawia porównanie zastosowania różnych algorytmów grupowania i kodowania do analizy dokumentów XML o różnym typie struktury. Jakość grupowania jest oceniana względem zastosowania uzyskanego podziału do przyspieszania realizacji zapytań selektywnych na kolekcji dokumentów XML. Otrzymane wyniki pokazują, że zastosowanie metody grupowania wielopoziomowego do analizy dokumentów XML o złożonej strukturze daje podział na grupy o lepszej jakości w porównaniu do tradycyjnych metod grupowania.
W artykule zaprezentowano wyniki badań, których celem było sprawdzenie, w jakim stopniu poziom wzorca rozwoju wpływa na końcowy wynik uporządkowania i grupowania obiektów. W badaniu zastosowano cztery warianty wzorca rozwoju. Porządkowanie obiektów przeprowadzono, wykorzystując miarę syntetyczną zaproponowaną przez Z. Hellwiga, a grupowania obiektów dokonano stosując metodę trzech średnich. Następnie oceniono zgodność uporządkowania i grupowania obiektów, które uzyskano dla różnych poziomów wzorca rozwoju. Ponadto sprawdzono własności dyskryminacyjne obliczonych miar syntetycznych oraz określono wielkości odchyleń między wartościami porównywanych miar. Wskazano również przyczyny tych odchyleń. W badaniu wykorzystano dane dotyczące bezrobocia wśród osób w szczególnej sytuacji na rynku pracy w powiatach województwa zachodniopomorskiego w 2015 r.
W kontekście metod taksonomicznych w ostatnich latach dużo uwagi poświęca się zagadnieniu stabilności tych metod, czyli odpowiedzi na pytanie na ile struktura odkryta przez daną metodę rzeczywiście jest obecna w danych? W literaturze zaproponowano wiele różnych sposobów pomiaru stabilności, przy czym głównie są to miary odnoszące się do stabilności ostatecznego wyniku grupowania. Lord i inni (2017) natomiast zaproponowali miarę stabilności dla każdej obserwacji ze zbioru danych oraz miarę stabilności dla poszczególnych grup. W artykule Autorzy ci sugerują, że indywidualna miara stabilności może wskazywać obserwacje oddalone, natomiast miara stabilności odnosząca się do poszczególnych grup może wskazywać grupy obserwacji zaszumionych, które powinny zostać usunięte ze zbioru danych. Celem artykułu jest próba zastosowania zaproponowanej indywidualnej miary stabilności oraz miary stabilności dla poszczególnych grup do odpowiedzi na pytanie, jak dobrze Polska dopasowana jest do poziomu UE pod względem poziomu zrównoważonego rozwoju?
Content available Using R Packages for Comparison of Cluster Stability
W ostatnich latach dużo uwagi poświęca się zagadnieniu stabilności metod taksonomicznych, czyli odpowiedzi na pytanie o to, na ile struktura odkryta przez daną metodę rzeczywiście jest obecna w danych. W literaturze zaproponowano wiele różnych sposobów pomiaru stabilności. W ślad za rozważaniami teoretycznymi w tym zakresie idzie także rozwój narzędzi informatycznych pozwalających na praktyczne zastosowanie zaproponowanych sposobów badania stabilności. Wśród tych narzędzi jest także kilka bibliotek w programie R, np. clValid, clv, fpc, ClusterStability, pvclust. Celem artykułu jest porównanie wyników badania stabilności grupowania za pomocą wybranych bibliotek w programie R.
The stability of clustering methods is the issue that has attracted a considerable amount of attention of researchers in recent years. In this respect, the major question that needs to be answered seems to be to what extent the structure discovered by a particular method is actually present in the data. The literature proposes a number of different ways of measuring stability. The theoretical considerations have led to the development of computer tools for the practical implementation of the proposed ways to study stability. The practical tools are available within several R packages, for example, clv, clValid, fpc, ClusterStability, and pvclust. Due to the hypothesis that cluster stability can be the answer to the question about the right number of groups in clustering, the main aim of this article is to compare the results of the studies on clustering stability conducted with three R packages, i.e.: clv, clValid, and fpc.
This paper presents the improved version of the classification system for supporting glaucoma diagnosis in ophthalmology, proposed in [4]. In this paper we propose the new segmentation step based on the kernel K-Means clustering algorithm which enable for better classification performance.
Content available Clustering algorithm for classification methods
Classification plays an important role in many fields of life, including medical diagnosis support. In the paper, fuzzy clustering algorithm dedicated to classification methods is proposed. Its goal is to find pairs of prototypes located near boundaries of both classes of objects. The minimization procedure of the proposed criterion function is described. The algorithm for determining the value of the clustering parameter is also presented. Presented results (synthetic dataset) confirm correctness of clustering - most of final prototypes, determined based on obtained pairs, are located between boundary of two classes.
Przedmiotem niniejszego artykułu jest pozyskiwanie nieprecyzyjnych informacji z bazy danych przy wykorzystaniu autorskiego algorytmu etykietowania, wykorzystującego metody sztucznej inteligencji. Za pomocą rozmytych algorytmów grupowania i automatycznego generowania funkcji przynależności analizowane są statystyki ruchu na witrynie WWW. Zastosowanie algorytmu etykietowania pozwoliło na uzyskanie odpowiedzi na zapytanie sformułowane w metajęzyku naturalnym.
This paper presents a novel idea of gaining imprecise information from relational database systems. Concernment of investigation rise fact that such kind of processing is not supported by any commercial database system. These researches illustrate a combination of database technology and fuzzy logic. The final aim is to develop a fuzzy querying system based on meta-natural language.
Z prac E. Falkenauera wynika, że standardowy schemat i elementy algorytmu ewolucyjnego nie nadają się do problemu grupowania wyrobów. Obserwacje te potwierdziły badania S. Khuriego i zespołu. Jako rozwiązanie E. Faikenauer zaproponował specjalizowany schemat kodowania i nowe operatory genetyczne dostosowane do problemów grupowania (ang. Grouping Genetic Algorithm - GGA). Zdaniem autora nie ma potrzeby stosowania specjalizowanych operatorów i reprezentacji do problemów grupowania. W pracy przedstawiono udane zastosowanie strategii ewolucyjnej do jednego z problemów grupowania jakim jest zagadnienie pakowania pudełek. Zastosowano (1, X) - ES, w której X potomków jest generowanych z jednego rodzica za pomocą prostej mutacji. Krzyżowanie nie jest stosowane. Najlepszy z potomków zastępuje rodzica w nowej populacji. W algorytmie zastosowano znaną z literatury reprezentację porządkową, w której dopuszczalne rozwiązania są reprezentowane przez listę n obiektów i s separatorów grup, przy czym wartość ;' (1 <;'< n) określająca numer obiektu może wystąpić na liście tylko jeden raz, podobnie jak wartość i (n + 1 < i < n + s) określająca numer separatora. Jednym z elementów funkcji dopasowania jest funkcja kary, eliminująca niedopuszczalne rozwiązania. Przeprowadzone badania eksperymentalne wykazały dużą przydatność strategii ewolucyjnej dla problemu pakowania pudełek. Zaproponowany algorytm daje tylko nieznacznie gorsze rozwiązania niż, o wiele bardziej skomplikowany, GGA, natomiast dużo lepsze niż inne algorytmy przybliżone.
From the works by E. Falkenauer it appears that a standard scheme and elements of an evalutionary algorithm are not suitable for the problem of grouping the products. These observations are confirmed by researches by S. Khuri at all. As a remedy E. Falkenauer proposed a new encoding scheme and genetic operators adapted to the grouping problem, yielding Grouping Genetic Algorithm (GGA). In our opinion there is no need to apply specialized operators and representations for the grouping problems. In this paper we investigate the use of evolutionary strategy for the bin packing problem. We used (1, X) - ES, where 30 children are generated from one parent by means of a simple mutations; the cross-over is not applied. The best of the descendants becomes the new parent solution. A widely known ordered representation modified for the purposes of the grouping the objects was used in the algorithm. Admissible solutions arę represented by a list of n objects and s. Separators of groups.; the value ;' (1 <;'< n) determiningjhe object number can appear in the list just once, just as the value / (n + 1 < /'< n + s) determining the number of separators. One of the term of the fitness function is the penalty. The researches shown a great usefulness of the evolutionary strategy for the bin packing problem. The results of the experiments confirmed once more the power of the evolutionary algorithms which consist in ability to generale very good solutions without going into the structure of the problem.
Znalezienie grup studentów o podobnych preferencjach umożliwi dopasowanie do ich potrzeb systemu nauczania na odległość. Celem pracy jest porównanie różnych technik eksploracji danych do budowania grup. Rozważa się zastosowanie klasyfikacji bez nadzoru oraz po nadzorem, jak również wykrywania wzorców sekwencji.
Finding student groups of similar preferences enables to adjust e-learning systems according to their needs. In the paper, it is compared usage of different data mining techniques for creating learners' groups. It is considered application of supervised and unsupervised classification as well as frequent pattern mining.
Content available remote Decomposition of medical image based on grade multivariate methodology
The paper presents disjoint decomposition of the set of pixels of a NMR image and also of its fragment suggested as interesting by a medical consultant. Each pixel is described by the value of gray level gl, gradient module gm and items constructed on the basis of gm and gradient modules of adjacent pixels. The obtained dataset with rows corresponding to pixels and columns corresponding to variables is then processed by the algorithm called GCCA (Grade Correspondence Cluster Analysis). This rearranges the initial ordering of pixels (and also of variables) and then divides the set of rows into a chosen number of clusters. Pixels in each cluster are visualized as a separate subimage. The resulting decomposition (an ordered sequence of sub images) depends on the choice of a threshold parameter b which strongly influences the comparison of gm with gradient modules in pixel's neighborhood. It is shown how b should be selected to specify the edge of the lateral ventricle and to investigate homogeneity of gm's neighborhoods in the area indicated for the consultant.
A linear combination of Gaussian components is known as a Gaussian mixture model. It is widely used in data mining and pattern recognition. In this paper, we propose a method to estimate the parameters of the density function given by a Gaussian mixture model. Our proposal is based on the Gini index, a methodology to measure the inequality degree between two probability distributions, and consists in minimizing the Gini index between an empirical distribution for the data and a Gaussian mixture model. We will show several simulated examples and real data examples, observing some of the properties of the proposed method.
Plany sprzedażowe są najczęściej stosowanym miernikiem umożliwiającym rozliczenia z powierzonych zadań zarówno sprzedawców, jak i całych struktur sprzedażowych banku komercyjnego. W ramach niniejszego artykułu podjęto próbę opracowania metodologii określającej prawidłowość doboru wysokości planów, konfrontując je z uzyskanymi efektami sprzedażowymi.
The sales plans are the most common measurer used for the settlement of conferred tasks of both the retailers and the whole sales structures of a commercial bank. In frame of the article an attempt of developing a methodology for determining the correctness of sales volume plans selection confronting them with the obtained sales effects was taken.
Przedmiotem badań jest pozyskiwanie nieprecyzyjnych informacji z relacyjnych baz danych. Wagę problematyki badań podnosi fakt, iż takie podejście nie jest wspierane przez żaden komercyjny system zarządzania bazami danych. Prezentowane rozwiązanie stanowi nowatorskie podejście w tej dziedzinie, oparte na automatycznym generowaniu funkcji przynależności i przetwarzaniu zapytań w bezkontekstowym metajęzyku.
This paper presents a novel idea of gaining imprecise information from relational database systems. Concernment of investigation rise fact that such kind of processing is not supported by any commercial database system. These researches illustrate a combination of database technology and fuzzy logic. The final aim is to develop a fuzzy querying system based on meta-natural language.
This article presents the possibilities for using cluster analysis in the assignment of machine tools in automated manufacturing systems. Based on the similarity of manufacturing processes in the system, cutting tools have been grouped. The objective was to obtain groups of similar objects, which could potentially ensure the reduction of the frequency and time of setups, optimizing the maintenance of tool resources and improving the efficiency and quality of production. With the application of similarity coefficients and hierarchical clustering algorithms, tool sets were formed with their composition specified. The assumed key factor was the limited tool magazine capacity for the machine tool. Therefore, it was necessary to separate the group with the largest multiplicity, not exceeding the assumed tool magazine capacity, from each group. The final part of the study includes an evaluation of the obtained solutions with selected measures used.
W niniejszym artykule przedstawiono możliwości zastosowania analizy skupień w przydziale narzędzi do obrabiarek w zautomatyzowanych systemach wytwarzania. Bazując na podobieństwie używanych w systemie procesów wytwórczych grupowaniu, poddano narzędzia obróbkowe. Celem było uzyskanie grup obiektów podobnych, które potencjalnie zapewnić mogły zmniejszenie liczby i czasu przezbrojeń, lepsze wykorzystanie zasobu narzędziowego oraz poprawę efektywności i jakości produkcji. Z wykorzystaniem współczynników podobieństwa i hierarchicznych algorytmów grupowania stworzono zestawy narzędziowe i określono ich skład. Jako czynnik kluczowy przyjęto ograniczoną pojemność magazynu narzędziowego obrabiarki. Koniecznym stało się zatem wyodrębnienie z każdej możliwej liczby grup grupy o największej liczności, która nie przekraczała założonej pojemności magazynu narzędziowego. W ostatniej części opracowania przeprowadzono ocenę uzyskanych rozwiązań z wykorzystaniem wybranych miar.
Większość złożonych systemów, jakie rozpatruje się w nauce, technologii i gospodarce, ma niepełne i niepewne informacje o swej strukturze i zachowaniu. Do grona metod, jakimi można je analizować i oceniać (probabilistyka, zbiory rozmyte i zgrubne), warto dołączyć teorię sza-rych systemów (GST), bo nie wymaga ona wielu założeń o wielkości i rozkładzie próbki tkwią-cych we wspomnianych metodach, a upoważniająca do zastosowań GST minimalna liczba danych n ≥ 4. Za jej pomocą można prognozować przyszłe zachowanie systemu, oceniać współzależność wektorów obserwacji oraz oceniać efektywność reakcji na możliwe sytuacje i podejmować optymalne decyzje w tym względzie, a także je grupować i badać skupienie.
Most of the complex systems we are considering in science, technology, social care and economy have uncertain and incomplete information concerning the system behaviour, its structure, boundaries, interaction with environment, etc. In order to omit these troubles and information lack, we use sometimes statistics and probabilistic approach, fuzzy and rough sets methodology. As it is shown in this review paper, we can use with much success new methodology – Grey Systems Theory (GST), which do not need any assumption concern-ing the distribution of sample, and high amount of data, because minimal number of obser-vations for GST use is only n ≥ 4. Using GST one can forecast the future behaviour of complex system, evaluate interdependence of its observation vectors (cause and effect), and evaluate optimal decisions possible to undertake in a given situations of decision making, as well as clustering of the similar systems.
Artykuł stanowi wprowadzenie do tematyki grupowania danych złożonych i przeszukiwania takiej struktury. Przedstawia problemy z tym związane, skupiając się przede wszystkim na aspekcie tworzenia reprezentantów skupień. Przeprowadzone eksperymenty opierające się na wykorzystaniu algorytmu DBSCAN, pozwalają na porównanie efektywności wyszukiwania, relewantnych do zadanego pytania skupień, w zależności od sposobu tworzenia reprezentantów grup.
This work provides an introduction to the matter of clustering complex data and searching through such a structure. It presents related problems, focusing primarily on the aspect of creating cluster representatives. Carried out experiments based on using the DBSCAN algorithm allow to compare the efficiency of finding relevant to the given question clusters, depending on the way of cluster representatives were created.
W artykule przedstawiono autorską metodę grupowania kopalń węgla kamiennego w podgupy charakteryzujące się podobieństwem relacji ekonomicznych. Przynależność do odpowiedniej podgrupy uwzględnia jednocześnie wartości bezwzględne i dynamikę zmian tych wartości w czasie.
The article presents own method of coal mine grouping in sub-groups which are characterised by the similarity of economic relation. Affiliation to sub-group takes into account also absolute values and dynamic of this value in time.
