Czasopismo
Tytuł artykułu
Autorzy
Warianty tytułu
Assessment of the Influence of Selected Imputation Methods on the Results of Object Classification Using Classification Trees
Języki publikacji
Abstrakty
W przeciwieństwie do większości metod statystyki wielowymiarowej drzewa klasyfikacyjne należą do grupy algorytmów uczących, w których w oryginalny sposób rozwiązano problem występowania brakujących wartości w analizowanych zbiorach danych. W pracy zbadano wpływ wybranych metod imputacji danych na wyniki klasyfikacji obiektów z wykorzystaniem drzew klasyfikacyjnych CART i CRUISE oraz porównano procedury imputacji zaimplementowane bezpośrednio w obu algorytmach budowy drzewa. Wykorzystano podejście symulacyjne, generując różne proporcje i mechanizmy powstawania braków danych w zbiorach danych pochodzących z repozytorium baz danych na Uniwersytecie Kalifornijskim w Irvine oraz z badań własnych.(abstrakt oryginalny)
In contrast with most multivariate statistical analysis methods, classification tree is an example of the learning algorithm coping with missing values in special, original way. In the paper the influence of some selected missing data techniques on the results of object classification using CART and CRUISE classification trees was assessed. All the procedures were compared by artificially simulating different proportions and mechanisms of missing data using complete data sets mainly from the UCI repository of machine learning databases.(original abstract)
Rocznik
Tom
Strony
135-145
Opis fizyczny
Twórcy
autor
- Uniwersytet Łódzki
Bibliografia
- Blake C., Keogh E., Merz C.J., UCI Repository of Machine Learning Datasets, Department of Information and Computer Science, University of California, Irvine 1988.
- Breiman L., Friedman J., Olshen R., Stone C., Classification and Regression Trees, CRC Press, London 1984.
- Breiman L., Random forests, "Machine Learning" 2001, vol. 45, no. 1, p. 5-32.
- Hastie T., Tibshirani R., Friedman J., The Elements of Statistical Learning. Data Mining, Inference and Prediction, Springer, New York 2008.
- Kim H., Loh W.-Y., Classification trees with unbiased multiway splits, "Journal of American Statistical Association" 2001, vol. 96, p. 598-604.
- Little R. J. A., Rubin D. B., Statistical Analysis with Missing Data, Second Edition, Wiley, New Jersey 2002.
- Misztal M., Wpływ wybranych metod uzupełniania brakujących danych na wyniki klasyfikacji obiektów z wykorzystaniem drzew klasyfikacyjnych w przypadku zbiorów danych o niewielkiej liczebności - ocena symulacyjna, [w:] Taksonomia 19, Klasyfikacja i analiza danych - teoria i zastosowania, red. K. Jajuga, M. Walesiak, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 242, Wydawnictwo UE we Wrocławiu, Wrocław, 2012, s. 371-379.
- Stekhoven D.J., Bühlmann P., MissForest - Nonparametric Missing Value Imputation for Mixed-Type Data, "Bioinformatics" 2012, vol. 28, no. 1, p. 112-118.
- Song Q., Shepperd M., Chen X., Liu J., Can k-NN imputation improve the performance of C4.5 with small software project data sets? A comparative evaluation, "Journal of System and Software" 2008, vol. 81, no. 12, p. 2361-2370.
- Twala B., An empirical comparison of techniques for handling incomplete data using decision trees, "Applied Artificial Intelligence" 2009, vol. 23, p. 373-405.
- Twala B., Jones M. C., Hand D. J., Good methods for coping with missing data in decision trees, "Pattern Recognition Letters" 2008, vol. 29, no. 7, p. 950-956.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171267195