Warianty tytułu
The Optimisation of Cluster Number on the Basis of Selected Cluster Validity Indexes
Języki publikacji
Selecting the number of clusters to use is one of the biggest problems in cluster analysis. Numerous methods to help one to choose the best number of clusters have been published. Their effectiveness is usually evaluated on the basis of the results of clustering data sets, which contain a known number of groups. This paper presents methods to help determine the best number of clusters. They are presented and used in the analysis of a large data set: 5 cluster validity indexes (Caliński and Harabasz, Hubert and Levine, Dunn, Davies and Bouldin, Rousseeuw) and cross-validation – stability were measured by corrected Rand index. The usefulness of these techniques was then compared and evaluated.
Słowa kluczowe
Opis fizyczny
- Bel Mufti G., Bertrand P., El Moubarki L. [2005], Determining the Number of Groups from Measures of Cluster Stability, citeseerx.ist.psu.edu.
- Ben-David S., Pal D., Simon H.U. [2007], Stability of k-means Clustering, http://www.cs.uwaterloo.ca/~dpal/papers/stability/stability.pdf.
- Caliński T., Harabasz J. [1974], A Dendrite Method for Cluster Analysis, „Communications in Statistics – Theory and Methods”, nr 3.
- Denoued L., Garreta H., Guenoche A. [2005], Comparison of Distance Indices between Partitions, conferences.telecombretagne.eu/asmda2005/IMG/pdf/proceedings/432.pdf.
- Dudoit S., Fridlyand J. [2002], A Prediction-based Resampling Method for Estimating the Number of Clusters in a Dataset, „Genome Biology”, nr 3(7).
- Grabiński T. [1992], Metody taksonometrii, Wydawnictwo AE w Krakowie, Kraków.
- Hubert L., Arabie P. [1985], Comparing Partitions, „Journal of Classification”, nr 2.
- Kolenda M. [2006], Taksonomia numeryczna. Klasyfikacja, porządkowanie i analiza obiektów wielocechowych, Wydawnictwo AE we Wrocławiu, Wrocław.
- Korzeniewski J. [2006], Ocena porównawcza kilku metod wyznaczania liczby skupień w zbiorze danych [w:] Taksonomia 13. Klasyfikacja i analiza danych – teoria i zastosowanie, red. K. Jajuga, M. Walesiak, Wydawnictwo AE we Wrocławiu, Wrocław.
- Kreiger A.M., Green P.E. [1999], A Cautionary Note on Using Internal Cross Validation to Select the Number of Clusters, „Psychometrika”, vol. 64, nr 3.
- Marenkov V., Legendre P. [2001], Optimal Variable Weighting for Ultrametric and Additive Trees and k -means Partitioning: Methods and Software, „Journal of Classification”, nr 18.
- McIntyre R.M., Blashfield R.K. [1980], A Nearest – Centroid Technique for Evaluating the Minimum – Variance Clustering Procedure, „Multivariate Behavioral Research”, nr 2.
- Milligan G.W., Cooper M.C. [1985], An Examination of Procedures for Determining the Number of Clusters in Data Set, „Psychometrika”, vol. 50, nr 2.
- Najman K., Najman K. [2005], Analityczne metody ustalania liczby skupień [w:] Taksonomia 12. Klasyfikacja i analiza danych – teoria i zastosowanie, red. K. Jajuga, M. Walesiak, Wydawnictwo AE we Wrocławiu, Wrocław.
- Najman K., Najman K. [2006], Wykorzystanie indeksu silhouette do ustalania optymalnej liczby skupień, „Wiadomości Statystyczne”, nr 6.
- Rousseeuw P.J. [1987], Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis, „Journal of Computational and Applied Mathematics”, nr 20.
- Steinley D. [2006], K-means Clustering: A Half-century Synthesis, „British Journal of Matematical and Statistical Psychology”, nr 59.
- Tibshirani R., Walter G., Hastie T. [2001], Estimating the Number of Cluster in a Data Set via the Gap Statistic, „Journal of the Royal Statistical Society”, ser. B, vol. 63, part 2.
- Walesiak M. [2009], Analiza skupień [w:] Statystyczna analiza danych z wykorzystaniem programu R, red. M. Walesiak, E. Gatnar, Wydawnictwo Naukowe PWN, Warszawa.
Typ dokumentu
Identyfikator YADDA