This paper introduces an approach to outlier mining in the context of a real-world dataset containing information about the mobile transceivers operation. The goal of the paper is to analyze the influence of using different similarity measures and multiple values of input parameters for the densitybased clustering algorithm on the number of outliers discovered during the mining process. The results of the experiments are presented in section 4 in order to discuss the significance of the analyzed parameters.
Artykuł przedstawia uniwersalną metodę wydobywania wiedzy z danych złożonych, uwzględniającą wykorzystanie technik opisu danych, algorytmów analizy skupień oraz efektywnych środków wizualizacji wydobytej wiedzy. Charakterystyczną cechą opisywanej metody jest zastosowanie dwuetapowego grupowania danych.
EN
This work presents a universal knowledge discovery method from complex data, which takes into account the usage of data description techniques, cluster analysis algorithms and effective means of visualization of the discovered knowledge. A characteristic feature of this method is the usage of a two-stage clustering process.
Artykuł dokonuje przeglądu metod reprezentacji i wizualizacji danych, ze szczególnym uwzględnieniem technik graficznego przedstawienia skupień. Ponadto omawia algorytm wizualizacji struktur hierarchicznych w przestrzeni dwuwymiarowej (Squarified Treemaps) oraz prezentuje koncepcję jego zastosowania do rzeczywistego zbioru skupień danych złożonych, wygenerowanych przez gęstościowy algorytm grupowania OPTICS.
EN
This work reviews data representation and visualization methods, with emphasis on techniques for clusters’ representation. Furthermore it describes an algorithm for hierarchical structures’ visualization in a two-dimensional space (Squarified Treemaps) and presents the concept of its application to a real-world complex dataset composed of clusters generated by the OPTICS algorithm.
Artykuł dokonuje przeglądu dotychczas stosowanych rozwiązań implementacyjnych w zakresie grupowania dużych wolumenów danych oraz opisuje problematykę doboru parametrów startowych dla algorytmu gęstościowego DBSCAN. Ponadto stanowi on wprowadzenie w tematykę wizualizacji struktury złożonych skupień, wykorzystując w tym celu algorytm oparty na idei gęstości – OPTICS.
EN
This work reviews currently used implementation solutions for clustering large volumes of data, and describes the problem of choosing proper initial values for the density-based DBSCAN algorithm. Furthermore it should be also treated as an introduction to the topic of visualization of complex clusters using another density-based algorithm - OPTICS.
Artykuł stanowi wprowadzenie do tematyki grupowania danych złożonych i przeszukiwania takiej struktury. Przedstawia problemy z tym związane, skupiając się przede wszystkim na aspekcie tworzenia reprezentantów skupień. Przeprowadzone eksperymenty opierające się na wykorzystaniu algorytmu DBSCAN, pozwalają na porównanie efektywności wyszukiwania, relewantnych do zadanego pytania skupień, w zależności od sposobu tworzenia reprezentantów grup.
EN
This work provides an introduction to the matter of clustering complex data and searching through such a structure. It presents related problems, focusing primarily on the aspect of creating cluster representatives. Carried out experiments based on using the DBSCAN algorithm allow to compare the efficiency of finding relevant to the given question clusters, depending on the way of cluster representatives were created.
Praca przedstawia wyniki wstępnych eksperymentów dotyczących grupowania dokumentów tekstowych przy użyciu k-optymalizacyjnych, hierarchicznych oraz gęstościowych algorytmów analizy skupień. Eksperymenty wykonane dla rzeczywistych zbiorów dokumentów (a właściwie ich charakterystyk) potwierdzają fakt, że wybór algorytmu grupowania ma ogromny wpływ na efektywność (kompletność i dokładność) wyszukiwania informacji w strukturze skupień dokumentów.
EN
The article presents the results of efficiency of searching relevant documents In the document clusters structure. The structure depends on the choosed clustering algorithm. In the experiments we used nonhierarchical, hierarchical and den sity based clustering algortihms.
Autorzy prezentują wybrane metody grupowania dokumentów tekstowych za pomocą ręcznie generowanych słów kluczowych. Dokonano porównania hierarchicznych i niehierarchicznych algorytmów grupowania. Zaprezentowano wyniki obu grup algorytmów, uwzględniając kompletność i dokładność wyszukiwania. Podejścia sprawdzane są dla tego samego zbioru danych (tematów prac licencjackich).
EN
Authors present selected clustering methods of text documents described by man-made keywords. Comparison of hierarchical and non-hierarchical algorithms is made. The results (both accuracy and completeness is included in the study) are presented for both types of algorithms. The hierarchical and non-hierarchical approaches are tested for the same data set, which consists of topics of undergraduate papers.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.