PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Znaczenie doboru metryk w badaniu separacji między klastrami

Autorzy
Identyfikatory
Warianty tytułu
EN
The importance of selection of metrics in the analysis of separation between clusters
Języki publikacji
PL
Abstrakty
PL
Celem artykułu jest zbadanie znaczenia doboru metryki podczas analizy separacji między skupiskami obiektów w przestrzeni danych. Do analizy wybrano czternaście znanych z literatury metryk, służących do pomiaru odległości. Analizie poddano siedem zbiorów danych, różniących się liczbą obiektów, cech i skupisk. Dla każdego z nich wyznaczano cztery miary separacji klastrów. Praca zawiera wybrane wyniki obliczeń, skupiając się w szczególny sposób na różnicach, wynikających z zastosowania każdej z metryk.
EN
The aim of this paper is to examine the importance of selection of me-tric during the analysis of separation between clusters of objects in the feature space. Fourteen metrics known from the literature were selected for the calculations. Seven datasets that differ in the number of objects, attributes, and clusters were examined. For each of them, the four cluster separation measures were calculated. The article contains selected results with particular emphasis on the differences arising from the use of various metrics.
Czasopismo
Rocznik
Strony
135--148
Opis fizyczny
Bibliogr. 21 poz.
Twórcy
autor
  • Politechnika Rzeszowska, Zakład Informatyki, al. Powstańców Warszawy 8, 35-959 Rzeszów, Polska
autor
  • Politechnika Rzeszowska, Zakład Informatyki, al. Powstańców Warszawy 8, 35-959 Rzeszów, Polska
Bibliografia
  • 1. Alcalá-Fdez J., Fernandez A., Luengo J., Derrac J., García S., Sánchez L., Herrera F.: KEEL Data-Mining Software Tool: Data Set Repository, Integration of Algorithms and Experimental Analysis Framework. Journal of Multiple-Valued Logic and Soft Computing, Vol. 17, No. 2÷3, 2011, s. 255÷287.
  • 2. Brun M., Sima C., Hua J., Lowey J., Carroll B., Suh E., Dougherty E.R.: Model-based evaluation of clustering validation measures. Pattern Recognition, Vol. 40, No. 3, Elsevier, 2007, s. 807÷824.
  • 3. Cha S.: Comprehensive survey on distance/similarity measures between probability density functions. International Journal of Mathematical Models and Methods in Applied Sciences, Vol. 1, No. 4, 2007, s. 300÷307.
  • 4. Cox T.F., Cox M.A.A: Multidimensional Scaling, 2nd edition. Chapman & Hall/CRC Press, 2000.
  • 5. Deza M.M., Deza E.: Encyclopedia of distances. Springer-Verlag, Berlin, Heidelberg 2009.
  • 6. Dolnicar S.: Using cluster analysis for market segmentation – typical misconceptions, established methodological weaknesses and some recommendations for improvement. Australasian Journal of Market Research, Vol. 11, No. 2, 2003, s. 5÷12.
  • 7. Everitt B.S., Landau S., Leese M.: Cluster analysis. Wiley Publishing, Nowy Jork 2009.
  • 8. Gavin D.G., Oswald W.W., Wahl E.R., Williams J.W.: A statistical approach to evaluating distance metrics and analog assignments for pollen records. Quaternary Re-search, Vol. 60, 2003, s. 356÷367.
  • 9. Gordon A.D.: Classification, 2nd edition. Chapman & Hall/CRC Press, 1999.
  • 10. Hand D., Mannila H., Smyth P.: Eksploracja danych. WNT, Warszawa 2005.
  • 11. Jain A.K., Dubes R.C.: Algorithms for Clustering Data. Prentice Hall, Englewood Cliffs, New Jersey 1988.
  • 12. Jain A.K., Murty M.N., Flynn P.J.: Data clustering: a review. ACM Computing Surveys, Vol. 31, No. 3, 1999, s. 264÷323.
  • 13. Krause E.F.: Taxicab Geometry: An Adventure in Non-Euclidean Geometry. Dover, New York 1986.
  • 14. Krivulin N.: An algebraic approach to multidimensional minimax location problems with Chebyshev distance. WSEAS Transaction on Mathematics, Vol. 10, No. 6, 2011, s. 191÷200.
  • 15. Meila M.: Comparing clusterings – an information based distance. Journal of Multivariate Analysis, Vol. 98, No. 5, 2007, s. 873÷895.
  • 16. Monev V.: Introduction to similarity searching in chemistry. MATCH Communications in Mathematical and in Computer Chemistry, Vol. 51, 2004, s. 7÷38.
  • 17. Osowski S.: Metody i narzędzia eksploracji danych. Wydawnictwo BTC, Legionowo 2013.
  • 18. Paśko Ł., Setlak G.: Ocena segmentacji rynku za pomocą miar jakości grupowania da-nych. Zeszyty Naukowe Politechniki Śląskiej, Seria Informatyka, Vol. 35, No. 2(116), Gliwice 2014, s. 157÷173.
  • 19. Paśko Ł., Setlak G.: Wpływ wybranych metryk na wynik badania skupisk. Zeszyty Naukowe Politechniki Śląskiej, Seria Informatyka, Vol. 36, No. 1(119), Gliwice 2015, s. 31÷45.
  • 20. Setlak G., Paśko Ł.: Zastosowanie metod eksploracji danych do segmentacji rynków. Zeszyty Naukowe Politechniki Śląskiej, Seria Informatyka, Vol. 34, No. 2A(111), Gliwice 2013, s. 311÷323.
  • 21. http://sci2s.ugr.es/keel/datasets.php – wykorzystane w czasie badań zbiory danych od I do VI wraz z ich opisem – ostatni dostęp 7.02.2016 r.
Uwagi
Opracowanie ze środków MNiSW w ramach umowy 812/P-DUN/2016 na działalność upowszechniającą naukę.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-602b951b-68b3-47a0-9697-e2c6f0dc2115
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.