216 Multivariate Statistical Analysis Statistical Inference, Statistical Models and Applications
Tytuł artykułu
Warianty tytułu
Języki publikacji
Gdy grupujemy punkty zbioru metodą k-średnich to zasadniczym problemem jest właściwy wybór punktów startowych. Jeśli są one źle wybrane to grupowanie może być złe. W artykule zaproponowana jest nowa metoda wyboru punktów startowych. Metoda ta jest oparta wyłącznie na znajomości macierzy odległości. Punkty startowe są wybierane tak, by poprawić wybór, który otrzymamy przy pomocy metody klasycznej polegającej na wyborze punktów możliwie jak najbardziej od siebie oddalonych. Jakość grupowania jest oceniana przy pomocy indeksów sylwetkowych - porównywana jest z jakością grupowania otrzymanego przy losowym wyborze punktów startowych oraz przy wyborze metodą klasyczną. Zbiory z przestrzeni euklidesowych są generowane przy pomocy programu CLUSTGEN autorstwa J. Milligana. (abstrakt oryginalny)
When one groups set elements with the help of k-means it is crucial to choose starting points properly. If they are chosen incorrectly one may arrive at badly grouped elements. In the paper a new method of choosing starting points is proposed. It is based on the distance matrix only. Starting points are chosen so as to improve the classical method of choosing points which are as far from one another as possible. The quality of grouping is assessed by means of silhouette indices - it is compared with the quality of grouping done with randomly chosen starting points and with maximum distance interval method. Sets from Euclidean spaces are generated with the help of CLUSTGEN software written by J. Milligana. (original abstract)
Opis fizyczny
- University of Lodz, Poland
- Gordon A. D., Classification, Chapman & Hall, 1999.
- Hartigan J. A., Wong M. A., A K-means clustering algorithm, Applied Statistics 28, 100-108 1979.
- Milligan G. W., An algorithm for generating artificial test clusters, "Psychometrika", vol. 50, no. 1,123-127, 1985.
Typ dokumentu
Identyfikator YADDA