Empirical Evaluation of Methods of Filling the Missing Data in Learning Probabilistic Models

Falkowski, A. A.; Łupińska-Dubicka, A.

doi:10.24427/acsr-2018-vol14-0004

Artykuł - szczegóły

Tytuł artykułu

Empirical Evaluation of Methods of Filling the Missing Data in Learning Probabilistic Models

Autorzy

Falkowski A. A. , Łupińska-Dubicka A.

Treść / Zawartość

Pełne teksty:

empirical_falkowski_advances_14_2018.pdf

Pobierz

Identyfikatory

DOI

10.24427/acsr-2018-vol14-0004

Warianty tytułu

Porównanie metod uzupełniania danych brakujących w uczeniu modeli probabilistycznych

Języki publikacji

Abstrakty

Missing data is a common problem in statistical analysis and most practical databases contain missing values of some of their attributes. Missing data can appear for many reasons. However, regardless of the reason for the missing values, even a small percent of missing data can cause serious problems with analysis reducing the statistical power of a study and leading to draw wrong conclusions. In this paper the results of handling missing observations in learning probabilistic models were presented. Two data sets taken from UCI Machine Learning Repository were used to learn the quantitative part of the Bayesian networks. To provide the opportunity to compare selected data sets did not contain any missing values. For each model data sets with variety of levels of missing values were artificially generated. The main goal of this paper was to examine whether omitting observations has an influence on model’s reliability. The accuracy was defined as the percentage of correctly classified records and has been compared to the results obtained in the data set not containing missing values.

Brakujące dane są częstym problemem w analizie statystycznej, a większość baz danych zawiera brakujące wartości niektórych z ich atrybutów. Brakujące dane mogą pojawiać się z wielu powodów. Jednak bez względu na przyczynę brakujących wartości nawet ich niewielki procent może spowodować poważne problemy z analizą, zmniejszając siłę statystyczną badania i prowadząc do wyciągnięcia błędnych wniosków. W artykule przedstawiono wyniki uzupełniania danych brakujących w uczeniu modeli probabilistycznych. Dwa zestawy danych pobrane z repozytorium uczenia maszynowego UCI posłużyły do wytrenowania ilościowej części sieci bayesowskich. Aby zapewnić możliwość porównania wybrane zbiory danych nie zawierały żadnych brakujących wartości. Dla każdego modelu zbiory danych z różnymi poziomami brakujących wartości zostały sztucznie wygenerowane. Głównym celem tego artykułu było zbadanie, czy braki w obserwacjach mają wpływ na niezawodność modelu. Dokładność została zdefiniowana jako procent poprawnie zaklasyfikowanych rekordów i została porównana z wynikami uzyskanymi w zbiorze danych niezawierającym brakujących wartości.

Słowa kluczowe

missing data probabilistic models Bayesian networks classification

dane brakujące model probabilistyczny sieci Bayesa klasyfikacja

Wydawca

Oficyna Wydawnicza Politechniki Białostockiej

Czasopismo

Advances in Computer Science Research

Rocznik

2018

Tom

Nr 14

Strony

55--67

Opis fizyczny

Bibliogr. 15 poz., rys., tab., wykr.

Twórcy

autor

Falkowski A. A.

Faculty of Computer Science, Bialystok University of Technology, Białystok, Poland

autor

Łupińska-Dubicka A.

Faculty of Computer Science, Bialystok University of Technology, Białystok, Poland

Bibliografia

[1] James L. Arbuckle, Full information estimation in the presence of incomplete data, Marcoulides, G.A. and Schumacker, R.E. (eds.), Advanced Structural Equation Modeling: Issues and Techniques. Mahwah, NJ: Lawrence Erlbaum Associates, 1996.
[2] Paul D. Allison, Missing data techniques for structural equation models, Journal of Abnormal Psychology 112 (2003), pp. 545–557.
[3] Marko Bohanec and Rajkovic Vladislav, Knowledge acquisition and explanation for multi-attribute decision making, 8th Intl Workshop on Expert Systems and their Applications, pp. 59–78, 1988.
[4] Marko Bohanec and Rajkovic Vladislav, Expert system for decision making, Sistemica 1(1), pp. 145–157, 1990
[5] Nir Friedman, Dan Geiger and Moises Goldszmidt, Bayesian network classifiers, Machine Learning 29 (1997), 131–163.
[6] Steffen L. Lauritzen, The EM Algorithm for Graphical Association Models with Missing Data, Computational Statistics and Data Analysis, 19:191–201, February 1995.
[7] Roderick J. A. Little and Donald B. Rubin, Statistical Analysis with Missing Data, Second edition, Chichester: Wiley, 2002.
[8] Judea Pearl, Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference, Morgan Kaufmann PUBLISHERs, Inc., San Mateo, CA, 1988..
[9] Olave, Manuel, Vladislav Rajkovic, and Marko Bohanec, An application for admission in public school systems, Expert Systems in Public Administration 1 (1989): 145-160.
[10] Peter Spirtes, Clark Glymour, and Richard Scheines, Causation Prediction and Search, Springer-Verlag, New York, 1993.
[11] Blaz Zupan and Marko Bohanec and Ivan Bratko and Janez Demsar Machine Learning by Function Decomposition, ICML, 1997
[12] BayesFusion, LLC, [https://www.bayesfusion.com/], Accessed 15-03- 2017.
[13] UCI Repository of machine learning databases, [http://archive.ics.uci. edu/ml/datasets.html], Accessed 05-04-2017.
[14] Marko Bohanec, Database Car Evaluation. June 1997, [http://archive. ics.uci.edu/ml/datasets/Car+Evaluation], Accessed 05-04-2017.
[15] Vladislav Rajkovic, Database Nursery, June 1997, [https://archive.ics. uci.edu/ml/datasets/Nursery], Accessed 01-06-2017.

Uwagi

Artykuł częściowo zrealizowano w ramach pracy badawczej S/WI/2/2018.

Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2019).

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-508a63e1-dd37-4120-81a7-defa5c49b3a8