Nowa wersja platformy, zawierająca wyłącznie zasoby pełnotekstowe, jest już dostępna.
Przejdź na https://bibliotekanauki.pl

PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2018 | 21 | nr 508 Klasyfikacja i analiza danych - teoria i zastosowania | 89-95
Tytuł artykułu

Selekcja zmiennych w analizie skupień marketingowych zbiorów danych binarnych

Treść / Zawartość
Warianty tytułu
Selection of Variables in Marketing Binary Data Cluster Analysis
Języki publikacji
PL
Abstrakty
W roku 2001 Desai zaproponował ciekawą miarę podobieństwa dwóch różnych wartości/wariantów tej samej cechy. Miarę tę można w dość prosty sposób wykorzystać do wyznaczenia siły dyskryminacyjnej cechy binarnej lub nominalnej wielostanowej w problemie analizy skupień. Idea oparta jest na tym, że im mniejsze podobieństwo, na przykład 1 do 0 (jako wartości zmiennej binarnej), tym większa zdolność dyskryminacyjna cechy. Ten pomysł zastosowano do skonstruowania nowej metody selekcji zmiennych binarnych w zagadnieniu analizy skupień i w zastosowaniu do dość obszernej klasy zbiorów danych binarnych, jaką są dane marketingowe. Podstawową zaletą nowej metody jest jej niezależność od konieczności grupowania danych, co wiąże się zawsze z przyjęciem jakiejś konkretnej metody grupowania oraz konkretnej wartości liczby skupień. Eksperyment przeprowadzony na 162 zbiorach danych pokazuje wysoką efektywność metody.(abstrakt oryginalny)
EN
In 2011 Desai proposed an interesting measure of similarity of two different values/ variants of the same variable. This measure can be easily used to assess the discrimination power of binary or multi-level nominal variable in cluster analysis. The idea is based on the fact that the smaller the similarity between e.g. 1 and 0 (treated as the binary variable values) the bigger the discrimination power of the variable. This idea was used to construct a new variable selection method for binary variables in the context of cluster analysis and for quite a broad range of binary data sets such as marketing data sets. The main advantage of the new proposal is its independence of the necessity of data grouping which is always connected with applying some grouping method and, in turn, some established number of clusters. The experiment carried out on 162 data sets shows high efficiency of the new proposal.(original abstract)
Twórcy
  • Uniwersytet Łódzki
Bibliografia
  • Brusco M., 2004, A Variable-Selection Heuristic for K-Means Clustering, Psychological Methods, vol. 9, s. 510-523.
  • Desai A., Singh H., Pudi V., 2011, DISC: Data-Intensive Similarity Measure for Categorical Data, [w:] Huang J.Z., Cao L., Srivastava J. (red.), Advances in Knowledge Discovery and Data Mining, PAKDD 2011. Lecture Notes in Computer Science, vol 6635. Springer, Berlin-Heidelberg.
  • Dimitriadou E., Dolničar S., Weingessel A., 2002, An examination of indexes for determining the number of clusters in binary data sets, Psychometrika, vol. 67, issue 1, s. 137-159.
  • Korzeniewski J., 2012, Metody selekcji zmiennych w analizie skupień. Nowe procedury, Wydawnictwo Uniwersytetu Łódzkiego, Łódź.
  • Leisch F., Weingessel A., Hornik K., 1998, On the generation of correlated artificial binary data, Working Paper Series, SFB "Adaptive Information Systems and Modelling in Economics and Management Science", Vienna University of Economics, http://www.wu-wien.ac.at/am.
  • Leisch F., Weingessel A., Hornik K., 2015, Bindata package manual, https://cran.r-project.org/web/ packages/bindata/.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171525001
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.