Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 17

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  grupowanie danych
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
1
Content available A quaternion clustering framework
EN
Data clustering is one of the most popular methods of data mining and cluster analysis. The goal of clustering algorithms is to partition a data set into a specific number of clusters for compressing or summarizing original values. There are a variety of clustering algorithms available in the related literature. However, the research on the clustering of data parametrized by unit quaternions, which are commonly used to represent 3D rotations, is limited. In this paper we present a quaternion clustering methodology including an algorithm proposal for quaternion based k-means along with quaternion clustering quality measures provided by an enhancement of known indices and an automated procedure of optimal cluster number selection. The validity of the proposed framework has been tested in experiments performed on generated and real data, including human gait sequences recorded using a motion capture technique.
2
Content available Linguistically defined clustering of data
EN
This paper introduces a method of data clustering that is based on linguistically specified rules, similar to those applied by a human visually fulfilling a task. The method endeavors to follow these remarkable capabilities of intelligent beings. Even for most complicated data patterns a human is capable of accomplishing the clustering process using relatively simple rules. His/her way of clustering is a sequential search for new structures in the data and new prototypes with the use of the following linguistic rule: search for prototypes in regions of extremely high data densities and immensely far from the previously found ones. Then, after this search has been completed, the respective data have to be assigned to any of the clusters whose nuclei (prototypes) have been found. A human again uses a simple linguistic rule: data from regions with similar densities, which are located exceedingly close to each other, should belong to the same cluster. The goal of this work is to prove experimentally that such simple linguistic rules can result in a clustering method that is competitive with the most effective methods known from the literature on the subject. A linguistic formulation of a validity index for determination of the number of clusters is also presented. Finally, an extensive experimental analysis of benchmark datasets is performed to demonstrate the validity of the clustering approach introduced. Its competitiveness with the state-of-the-art solutions is also shown.
PL
Celem niniejszego artykułu jest przedstawienie miar służących do badania jakości grupowania danych i zastosowanie tych miar do oceny segmentacji rynku. W wykonanych badaniach analizowano dane dotyczące rynków zbytu przedsiębiorstwa produkującego wyroby gospodarstwa domowego. Segmentację rynku przeprowadzono z wykorzystaniem sieci neuronowych Kohonena. W pracy przedstawiono wyniki grupowania danych oraz ich ocenę. Wnioski na temat jakości utworzonych klastrów są próbą ogólnej oceny przeprowadzonej segmentacji rynku.
EN
The purpose of this paper is to present the measures used to evaluate the quality of data clustering and apply them to assess market segmentation. In the analysis the data of manufacturing companies that producing household products was used. The market segmentation was carried out using Kohonen neural network. This paper describes results of the clustering and evaluation of the clusters. The conclusions on the quality of clusters are attempt to overall assessment of the market segmentation.
EN
In the paper the problem of learning of Gaussian mixture models (GMMs) is considered. A new approach based on hybridization of a self-adaptive version of differential evolution (DE) with the classical EM algorithm is described. In this approach, called DEEM, the EM algorithm is run until convergence to fine-tune each solution obtained by the mutation and crossover operators of DE. To avoid the problem with parameter representation and infeasible solutions we use a method in which the covariance matrices are encoded using their Cholesky factorizations. In a simulation study GMMs were used to cluster synthetic datasets differing by a degree of separation between clusters. The results of experiments indicate that DE-EM outperforms the standard multiple restart expectation-maximization algorithm (MREM). For datasets with high number of features it also outperforms the state of-the-art random swap EM (RSEM).
PL
W pracy poruszono problem uczenia modeli mieszanin rozkładów normalnych. Zaproponowano nowe podejście, nazwane DE-EM, oparte na hybrydyzacji samoadaptacyjnego algorytmu ewolucji różnicowej i klasycznego algorytmu EM. W nowej metodzie rozwiązanie otrzymane jako wynik operatorów mutacji i krzyżowania jest poddawane optymalizacji lokalnej, prowadzonej aż do momentu uzyskania zbieżności, przez algorytm EM. Aby uniknąć problemu z reprezentacją macierzy kowariancji i niedopuszczalności rozwiązań użyto metody, w której macierze kowariancji są kodowane przy pomocy dekompozycji Cholesky’ego. W badaniach symulacyjnych modele mieszanin rozkładów normalnych zastosowano do grupowania danych syntetycznych. Wyniki eksperymentów wskazują, że metoda DE-EM osiąga lepsze wyniki niż standardowa technika wielokrotnego startu algorytmu ˙ EM. Dla zbiorów danych z dużą liczbą cech, metoda osiąga lepsze wyniki niż technika losowej wymiany rozwiązań połączona z algorytmem EM.
PL
Celem niniejszego artykułu są przedstawienie i ocena możliwości wykorzystania metod eksploracji danych do segmentacji rynków zbytu. Przedstawiono segmentacje opisową i predykcyjną oraz przeanalizowano wyniki rozwiązywania zadań klasyfikacji i grupowania danych za pomocą sieci neuronowych Kohonena oraz drzew klasyfikacyjnych CART i CHAID. W pracy wykorzystano dane dotyczące rynków zbytu przedsiębiorstwa produkującego wyroby gospodarstwa domowego.
EN
The purpose of this paper is to present and evaluate the possibility of using data mining methods in the market segmentation process. In the paper the descriptive and predictive segmentation were presented and the results of classification and clustering data were analyzed. To carry out the analysis were used following methods: Kohonen neural networks, CART and CHAID. The analysis concerns the manufacturing company producing household products.
EN
The paper presents an automatic computer system for evaluation of the Fuhrman degree in renal carcinoma, of the accuracy comparable to the human expert. The solution uses the combined methods of mathematical morphology, Hough transform and neural networks for the estimation of Fuhrman degree of the carcinoma clarocellular cells, based on the microscopic kidney image. The results of numerical experiments have shown that the average discrepancy rate between the score of our system and the human expert results estimated on the basis of almost 300 cells is below 10% and this accuracy is acceptable in the medical practice.
PL
Praca przedstawia podejście komputerowe do automatycznej oceny stopnia skali Fuhrmana w przypadku raka nerki. Ocena dotyczy mikroskopowego obrazu nerek. Proponowane rozwiązanie stosuje zespół metod obejmujących morfologię matematyczną, transformację Hougha, sieci neuronowe oraz grupowanie danych wielowymiarowych. Proponowane rozwiązanie zostało sprawdzone na zbiorze prawie 300 obrazów nerek z różnym stopniem zaawansowania choroby nowotworowej.
7
Content available remote Analysis of medical data using dimensionality reduction techniques
EN
The paper presents the application of dimensionality reduction methods for representation of the multidimensional medical data representing the images of the blood cells in leukemia. Different techniques of reduction belonging to linear and nonlinear methods will be applied and their efficiency compared. Their application to the visualization of different classes as well as clusterization and classification of data will be studied and discussed in the paper.
PL
Praca przedstawia zastosowanie różnych metod redukcji wymiaru danych w reprezentacji numerycznej deskryptorów charakteryzujących klasy komórek krwiotwórczych w białaczce. Porównane zostaną różne podejścia do redukcji oparte na metodach liniowych i nieliniowych transformacji. W szczególności analizie poddane zostaną możliwości zastosowania tych metod w wizualizacji danych jak również klasteryzacji i klasyfikacji. W pracy pokazane zostaną wyniki przeprowadzonych eksperymentów dotyczących 11 klas komórek.
PL
W artykule zaproponowano podejście do wyznaczenia wartości granicznych za pomocą algorytmów rozmytego grupowania danych. Wykorzystano algorytmy FCM, PCM oraz algorytm Gustafsona-Kessela. Eksperyment przeprowadzano na danych symulacyjnych. W tym celu zbudowano model numeryczny maszyny wirnikowej, symulującej określone stany i wielkości niewyważenia. Wyznaczone wartości graniczne porównano z wartościami otrzymanymi przy pomocy metody statystycznej. Wszystkie obliczenia wykonywano w środowisku Matlab-Simulink.
EN
The paper describes a methodology for estimating the limit values of char-icteristics of diagnostic signals using methods of fuzzy data clustering (FCM, PCM and Gustafson-Kessel algorithms). The experiment was conducted on simulated data, using a numerical model of a rotor machine, simulating given inbalanced states. Limits were compared with value estimating using the statistical method.
PL
Współczesne systemy analityczne coraz częściej sięgają po nowe sposoby analizy danych oparte na rozmytym wnioskowaniu i przetwarzaniu informacji, która nie zawsze jest reprezentowana w sposób precyzyjny. W niniejszym artykule zaprezentowano nowatorski, w pełni funkcjonalny, opracowany i zrealizowany przez autorów system hurtowni danych rozmytych (FDW, Fuzzy Data Warehouse). Hurtownia danych rozmytych stanowi repozytorium danych, które przechowuje zarówno dane precyzyjne, jak i dane rozmyte oraz pozwala na klasyczne i rozmyte przetwarzanie zgromadzonych w niej danych. W artykule zebrano najważniejsze cechy funkcjonalne systemu FDW oraz wykonanej przez autorów aplikacji analitycznej FDW Browser, należącej do klasy narzędzi eksploracji danych Fuzzy-OLAP.
EN
Modern analytical tools increasingly make use of new ways of data analysis that base on fuzzy reasoning and fuzzy processing of information. In the paper, we present a Fuzzy Data Warehouse system (FDW), which we have designed and developed. Fuzzy Data Warehouse (FDW) is a data repository, which contains fuzzy data and allows a fuzzy processing of the data. In the paper, we focus on the most important functional features of the FDW system and our newly developed FDW Browser, which is an analytical application adhering to the Fuzzy-OLAP class of data exploration tools.
EN
In modern obstetrics the cardiotocography is a routine method of fetal condition assessment based mainly on analysis of the fetal heart rate signals. The correct interpretation of recorded traces from a bedside monitor is very difficult even for experienced clinicians. Therefore, computerized fetal monitoring systems are used to yield the quantitative description of the signal. However, the effective techniques enabling automated conclusion generation based on cardiotocograms are still being searched. The paper presents an attempt to diagnose the fetal state basing on seventeen features describing the cardiotocographic records. The proposed method applies the unsupervised classification of signals. During our research we tried to classify the fetal state using the fuzzy c-means (FCM) clustering. We also tested how the efficiency of classification could be influenced by application of principal component analysis (PCA) algorithm. The obtained results showed that unsupervised classification cannot be considered as a support to fetal state assessment.
PL
Pokazano możliwość analizy zbioru danych numerycznych w aspekcie odkrywania niewidocznych związków pomiędzy tymi danymi. Posłużono się metodą analizy składowych głównych oraz wybranymi metodami grupowania danych. W pierwszym przykładzie przeanalizowano podobieństwo wybranych krajów UE w dziedzinie pozyskiwania przez nie energii ze źródeł odnawialnych. Posłużono się powszechnie dostępnymi danymi statystycznymi z baz Głównego Urzędu Statystycznego. W drugim przykładzie pokazano możliwość grupowania okresów zmienności notowań giełdowych. Posłużono się historycznymi (rok 1998) danymi dotyczącymi notowań wybranych indeksów giełdy amerykańskiej.
EN
In this paper we analyze some numerical data sets in order to uncover unknown or hidden relationships between them. We use principal component analysis approach as well as the hierarchical clustering method. In the first example we analyze similarities of EU countries in the field of production of energy from renewable sources. We use commonly available data from the Polish Central Statistical Office. In the second example we try to find groups of similar periods of time based on the US stock exchange. We use same historical (1998) stock exchange quotations of some selected indexes.
PL
W pracy zaprezentowano rezultaty badań nad nowymi metodami diagnostycznymi silników spalinowych. W pracy opisano zastosowanie krótkoczasowej analizy sygnałów oraz wybranych technik rozpoznawania obrazów do diagnostyki wypadania zapłonu w silniku z ZS z wykorzystaniem sygnałów wibroakustycznych. Badania dotyczyły, przede wszystkim, silnika lokomotywy spalinowej. W zakresie niedrogowych źródeł zanieczyszczeń powietrza lokomotywy spalinowe stanowią znaczący czynnik. W zakresie tym pojawiły się wprawdzie przepisy prawne ograniczające zanieczyszczenia (np. Karta UIC 623 1-2-3 w Europie), ale ciągle brak jest jednolitych obligatoryjnych standardów monitorowania emisyjnie krytycznych uszkodzeń. Tego typu obligatoryjne systemy diagnostyki pokładowej (ang. OBD - on-board diagnostic systems) zostały już wprowadzone dla samochodów osobowych (OBD II, EOBD). System OBD dokonuje ciągłego monitorowania podstawowych parametrów systemu i jednym z jego głównych zadań jest wykrywanie wypadania zapłonu. Powyższe spostrzeżenia stały się impulsem do szukania nowych metod w zakresie diagnostyki silników spalinowych. Głównym celem badań było rozróżnienie pomiędzy stanem normalnej prawidłowej pracy silnika i stanem wypadania zapłonu. Zaproponowana metoda została zainspirowana metodami krótkoczasowej analizy Fouriera. W podejściu tym oblicza się wartości wybranych parametrów w oknie czasowym przesuwającym się wzdłuż sygnału. Dla każdej pozycji okna otrzymuje się zbiór wartości parametrów, który reprezentuje punkt w odpowiedniej wielowymiarowej przestrzeni parametrów. Wówczas ewolucja czasowa sygnału może być obserwowana jako odpowiedni wykres w przestrzeni parametrów. Można oczekiwać, że różne stany systemu (np. wypadanie zapłonu) będzie można rozróżniać jako różne położenia punktów w przestrzeni parametrów. W celu ich wykrywania zaproponowano w pracy grupowanie danych w przestrzeni parametrów. Pierwsze rezultaty pokazują, że jest możliwe rozróżnienie grup w przestrzeni parametrów, które odpowiadają różnym stanom silnika.
EN
The paper presents some results of the research on new diagnostic methods in combustion engines. It describes the application of short-time signal analysis together with pattern recognition techniques in the diagnosis of misfire in Diesel engines through vibroacoustic signals. One considered Diesel locomotive in particular. In the area of the non-road sources of combustion gases the locomotives rate relatively high as air polluters. There are some regulations in the area of locomotives (e.g. Cart UIC 623 1-2-3 in Europe) but we still observe a lack of obligatory requirements for systems monitoring emission critical damage. Such obligatory on-board diagnostic systems were introduced for passenger cars (OBD II, EOBD). The OBD system performs a continuous monitoring of basic system parameters and one of its most important tasks is misfire detection. All these facts inclined the author to research the new relevant detection methods. The main aim of the research is to distinguish between two states: normal engine operation and the state of misfire. The general idea of the method was taken from the short-time Fourier analysis. The method is based on calculation of the values of some selected parameters in the time window sliding along the signal. For each window position one has a set of parameter values which gives the point in a corresponding multidimensional parameter space. Hence, the time evolution of the signal can be observed as the evolution plot in the parameter space. We suspect that the different system states (misfire) can be distinguished by the different position of points in the parameter space. In order to detect them, the clustering in the parameter space was performed. The first results show the possibility of distinguishing some different clusters within the parameter space which may correspond to different engine states.
PL
Wykorzystanie grupowania danych przy pomocy samoorganizujących sieci neuronowych typu Kohonena do generowania finansowych strategii decyzyjnych na giełdzie papierów wartościowych to nowatorskie podejście, które zaproponowali autorzy niniejszego artykułu. Jak pokazano, stworzony model przynosi całkiem dobre rezultaty i można przypuszczać, że wykorzystanie tych metod także na gruncie technologii materiałów przyniesie zadowalające efekty.
EN
A method of generation of initial grouping of input values vectors, using self-organizing neural network - Kohonen network as an instrument, is described in this work. This main aim of the paper is demonstration of new methodology for grouping data during producing strategies decisions, which can be further applied in the filed of materials engineering. Described approach is illustrated by example, which characterizes share market condition.
PL
W niniejszej pracy przedstawiono dwie metody wyznaczania skupisk (klastrów) w złożonych zbiorach danych: a) metodę wykorzystującą-bazujące na algorytmie genetycznym - rozwiązanie zadania komiwojażera, przedstawione w kolejnej pracy tych samych autorów zawartej w niniejszym Zeszycie Naukowym, oraz b) metodę wykorzystującą samoorganizującą sie siec Kohonena. Obie metody przedstawiono z wykorzystaniem przykładowego zbioru danych, a nastepnie przetestowano i porównano wykorzystując rzeczywisty złożony i wielowymiarowy zbiór danych (tzw. Zoo Database) dostępny na serwerze FTP Uniwersytetu Kalifornijskiego w Irvine (ftp.ics.uci.edu).
EN
The paper presents two methods for determining the number of clusters in complex data sets: a) a method utilizing the genetic-algorithm-based solution of the traveling Salesman problem presented in the following paper (by the same authors) included in this volume, and b) a method utilizing self-organizing Kohonen network. Both methods have been presented by means of an exemplary data set and then they have been tested and compared on the real, complex and multidimensional data set (Zoo Database) available from FTP server of the University of California at Irvine (ftp.ics.uci.edu).
15
Content available remote An annealing-evolution technique for clustering
EN
An efficient partitional clustering technique, called Annealing-Evolution-clustering (ANEV-clustering), and its fuzzy version, that integrate the power of simulated annealing for obtaining minimum energy configuration, and the searching capability of evolutionary programming are proposed in this article. Two other evolutionary programming based clustering techniques are also developed where Gauss and Cauchy mutation strategies have been used. The clustering methodology is used to search for appropriate cluster centers in multi-dimensional feature space such that a similarity metric of the resulting clusters is optimized. In ,AN.EV-clustering, data points are redistributed among the clusters probabilistically in the mutation phase of the evolution process, so that points that are farther away from the cluster center have higher probabilities of migrating to other clusters than those which are closer to it. The superiority of the AN EV -clustering algorithm over the widely used fc-means algorithm, simulated annealing and conventional evolutionary programming based clustering algorithms is extensively demonstrated for artificial and real life data sets. For the fuzzy clustering algorithm, we have compared the results with the well known fuzzy c-means algorithm. The proposed crisp clustering method is also used for classifying the pixels of a satellite image of a part of the city of Kolkata.
16
Content available remote Clustering sequences of categorical values
EN
Conceptual clustering is a discovery process that groups a set of data in the way that the infra-cluster similarity is maximized and the inter-cluster similarity is minimized. Traditional clustering algorithms employ some measure of distance between data points in n-dimensional space. However, not all data types can be represented in a metric space, therefore no natural distance function is available for them. We address the problem of clustering sequences of categorical values. We present a measure of similarity for the sequences and an agglomerative hierarchical algorithm that uses frequent sequential patterns found in the database to efficiently generate the resulting clusters. The algorithm iteratively merges smaller, similar clusters into bigger ones until the requested number of clusters is reached.
17
PL
Aktualnie dostrzega się burzliwy rozwój zastosowania magistral miejscowych (fieldbus) w systemach sterowania. Podczas projektowania rozproszonych systemów sterowania czasu rzeczywistego należy sprawdzić dotrzymanie warunków czasu rzeczywistego RT. Punktem wyjścia do takich badań jest opis modeli magistral miejscowych stosowanych w systemach sterowania i akwizycji danych. Dotrzymanie warunków RT zależy od wielu czynników, jednym z nich jest struktura przesyłanych wiadomości. W artykule zostanie przeprowadzona analiza wpływu struktury przesyłanych wiadomości na dotrzymanie warunków RT w systemie. Dotrzymanie warunków RT zostanie sprawdzone przy użyciu metody GRMS. Przedstawiony został przykład obrazujący wpływ struktury wiadomości na dochowanie warunków RT w systemie wymiany danych. Poruszone zostało również zagadnienie wyboru optymalnej struktury wiadomości. Opracowany model rozproszonego systemu sterowania bazującego na magistrali miejscowej ułatwia badania analityczne i symulacyjne systemów magistralowych. Model ten będzie podstawą do dalszych prac badawczych zmierzających do określenia optymalnej struktury systemu magistralowego.
EN
A description of fieldbusmodels which are applied in control systems and data acquisition is the starting point for the research. A rapid development of fieldbus application in control systems can be noticed currently. In design of a distributed control systems RT (Real Time) constraints are to be considered. The fulfilment of real time constrains depends on many factors, one of them is a message structure. In the paper the influence of a message structure on RT -behaviour is analysed. The RT - conditions are calculated basing on GRMS theory. Included examples illustrate influence of a message structure on meeting of RT conditions. Optimisation problem for determining the best suitable structure is discussed. The designed model of the distributed control system which is based on the fieldbus makes the analytical and simulation research of the fieldbus network easier. The model will be treated as the basis for the further research aiming at defining of the optimal fieldbus system structure.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.