PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Empirical Evaluation of Methods of Filling the Missing Data in Learning Probabilistic Models

Treść / Zawartość
Identyfikatory
Warianty tytułu
PL
Porównanie metod uzupełniania danych brakujących w uczeniu modeli probabilistycznych
Języki publikacji
EN
Abstrakty
EN
Missing data is a common problem in statistical analysis and most practical databases contain missing values of some of their attributes. Missing data can appear for many reasons. However, regardless of the reason for the missing values, even a small percent of missing data can cause serious problems with analysis reducing the statistical power of a study and leading to draw wrong conclusions. In this paper the results of handling missing observations in learning probabilistic models were presented. Two data sets taken from UCI Machine Learning Repository were used to learn the quantitative part of the Bayesian networks. To provide the opportunity to compare selected data sets did not contain any missing values. For each model data sets with variety of levels of missing values were artificially generated. The main goal of this paper was to examine whether omitting observations has an influence on model’s reliability. The accuracy was defined as the percentage of correctly classified records and has been compared to the results obtained in the data set not containing missing values.
PL
Brakujące dane są częstym problemem w analizie statystycznej, a większość baz danych zawiera brakujące wartości niektórych z ich atrybutów. Brakujące dane mogą pojawiać się z wielu powodów. Jednak bez względu na przyczynę brakujących wartości nawet ich niewielki procent może spowodować poważne problemy z analizą, zmniejszając siłę statystyczną badania i prowadząc do wyciągnięcia błędnych wniosków. W artykule przedstawiono wyniki uzupełniania danych brakujących w uczeniu modeli probabilistycznych. Dwa zestawy danych pobrane z repozytorium uczenia maszynowego UCI posłużyły do wytrenowania ilościowej części sieci bayesowskich. Aby zapewnić możliwość porównania wybrane zbiory danych nie zawierały żadnych brakujących wartości. Dla każdego modelu zbiory danych z różnymi poziomami brakujących wartości zostały sztucznie wygenerowane. Głównym celem tego artykułu było zbadanie, czy braki w obserwacjach mają wpływ na niezawodność modelu. Dokładność została zdefiniowana jako procent poprawnie zaklasyfikowanych rekordów i została porównana z wynikami uzyskanymi w zbiorze danych niezawierającym brakujących wartości.
Rocznik
Tom
Strony
55--67
Opis fizyczny
Bibliogr. 15 poz., rys., tab., wykr.
Twórcy
  • Faculty of Computer Science, Bialystok University of Technology, Białystok, Poland
  • Faculty of Computer Science, Bialystok University of Technology, Białystok, Poland
Bibliografia
  • [1] James L. Arbuckle, Full information estimation in the presence of incomplete data, Marcoulides, G.A. and Schumacker, R.E. (eds.), Advanced Structural Equation Modeling: Issues and Techniques. Mahwah, NJ: Lawrence Erlbaum Associates, 1996.
  • [2] Paul D. Allison, Missing data techniques for structural equation models, Journal of Abnormal Psychology 112 (2003), pp. 545–557.
  • [3] Marko Bohanec and Rajkovic Vladislav, Knowledge acquisition and explanation for multi-attribute decision making, 8th Intl Workshop on Expert Systems and their Applications, pp. 59–78, 1988.
  • [4] Marko Bohanec and Rajkovic Vladislav, Expert system for decision making, Sistemica 1(1), pp. 145–157, 1990
  • [5] Nir Friedman, Dan Geiger and Moises Goldszmidt, Bayesian network classifiers, Machine Learning 29 (1997), 131–163.
  • [6] Steffen L. Lauritzen, The EM Algorithm for Graphical Association Models with Missing Data, Computational Statistics and Data Analysis, 19:191–201, February 1995.
  • [7] Roderick J. A. Little and Donald B. Rubin, Statistical Analysis with Missing Data, Second edition, Chichester: Wiley, 2002.
  • [8] Judea Pearl, Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference, Morgan Kaufmann PUBLISHERs, Inc., San Mateo, CA, 1988..
  • [9] Olave, Manuel, Vladislav Rajkovic, and Marko Bohanec, An application for admission in public school systems, Expert Systems in Public Administration 1 (1989): 145-160.
  • [10] Peter Spirtes, Clark Glymour, and Richard Scheines, Causation Prediction and Search, Springer-Verlag, New York, 1993.
  • [11] Blaz Zupan and Marko Bohanec and Ivan Bratko and Janez Demsar Machine Learning by Function Decomposition, ICML, 1997
  • [12] BayesFusion, LLC, [https://www.bayesfusion.com/], Accessed 15-03- 2017.
  • [13] UCI Repository of machine learning databases, [http://archive.ics.uci. edu/ml/datasets.html], Accessed 05-04-2017.
  • [14] Marko Bohanec, Database Car Evaluation. June 1997, [http://archive. ics.uci.edu/ml/datasets/Car+Evaluation], Accessed 05-04-2017.
  • [15] Vladislav Rajkovic, Database Nursery, June 1997, [https://archive.ics. uci.edu/ml/datasets/Nursery], Accessed 01-06-2017.
Uwagi
Artykuł częściowo zrealizowano w ramach pracy badawczej S/WI/2/2018.
Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2019).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-508a63e1-dd37-4120-81a7-defa5c49b3a8
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.