PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

How reliable is a measure of model reliability? Bootstrap confidence intervals over validation results

Treść / Zawartość
Identyfikatory
Warianty tytułu
PL
Jak wiarygodna jest miara oceny modelu? Bootstrapowe przedziały ufności dla miar dokładności modelu
Języki publikacji
EN
Abstrakty
EN
A researcher testing a model will frequently question the reliability of the test results, understanding well the intuition that verification performed on a handful of cases is less reliable than verification based on very large numbers of cases. Because a limited number of verification cases happens pretty often in very specific domains, a question of practical importance is, thus, how reliable is a reported reliability measure. We propose a methodology based on deriving confidence intervals over various measures of accuracy of Bayesian network models by means of bootstrap confidence intervals. We evaluate our approach on ROC and calibration curves derived for a model derived from an UC Irvine Machine Learning Repository data set and a sizeable (over 300 variables) practical model constructed using expert knowledge and evaluated on merely 66 accumulated real patient cases. We show how increasing the number of test cases impacts the width of confidence intervals and how this can aid in estimating a reasonable number of verification cases that will increase the confidence in model reliability.
PL
Przy testowaniu modelu należy zdawać sobie z tego sprawę że weryfikacja modelu przy pomocy małego zbioru danych jest mniej przekonywująca niż weryfikacja bazująca na dużym zbiorze danych. Często napotyka się sytuację, w której do analizy modelu dysponujemy nieznaczną ilością rekordów. Nasuwa się pytanie o wiarygodność oceny modelu. Proponujemy w takiej sytuacji przyjrzeć się bootrstrapowym przedziałom ufności różnych ˙ miar dokładności modelu. W tej pracy określamy bootstrapowe przedziały ufności dla krzywych ROC i krzywych kalibracji modeli uzyskanych z danych z repozytorium UC Irvine. Czynność powtarzamy dla modelu skonstruowanego na podstawie wiedzy ekspertów (ponad 300 zmiennych) i testowanego na 66 zebranych rekordach pacjentów. Pokazujemy jak wzrost liczby rekordów wpływa na szerokość bootstrapowych przedziałów ufności oraz jak taka analiza może pomóc w określeniu liczby rekordów, która może podwyższyć rzetelność weryfikacji modelu.
Rocznik
Tom
Strony
27--41
Opis fizyczny
Bibliogr. 17 poz., wykr.
Twórcy
  • School of Information Sciences, University of Pittsburgh, Pittsburgh, Pennsylvania, USA
  • Faculty of Computer Science, Bialystok University of Technology, Bialystok, Poland
autor
  • The Innovation Center for Computer Assisted Surgery, University of Leipzig, Leipzig, Germany
  • School of Information Sciences, University of Pittsburgh, Pittsburgh, Pennsylvania, USA
  • Faculty of Computer Science, Bialystok University of Technology, Bialystok, Poland
Bibliografia
  • [1] J. A. Blackard and D. J. Dean. Comparative accuracies of artificial neural networks and discriminant analysis in predicting forest cover types from cartographic variables. Computers and Electronics in Agriculture, 24(3):131–151, 1999.
  • [2] R.T. Clemen and T. Reilly. Making Hard Decisions: Introduction to Decision Analysis. Duxbury Press, 2005.
  • [3] P. R. Cohen. Empirical Methods for Artificial Intelligence, volume 139. MIT Press Cambridge, 1995.
  • [4] G. F. Cooper and E. Herskovits. A bayesian method for the induction of probabilistic networks from data. Machine Learning, 9(4):309–347, 1992.
  • [5] M. A. Cypko, D. Hirsch, L. Koch, M. Stoehr, G. Strauss, and Denecke K. Webtool to support medical experts in probabilistic modelling using large bayesian networks with an example of rhinosinusitis. Studies in Health Technology and Informatics, 216:259–263, 2014.
  • [6] M. H. DeGroot and S. E. Fienberg. The comparison and evaluation of forecasters. The Statistician, 32:12–22, 1983.
  • [7] B. Efron and R. J. Tibshirani. An Introduction to the Bootstrap. CRC Press, 1994.
  • [8] T. Fawcett. An introduction to ROC analysis. Pattern Recognition Letters, 27(8):861–874, 2006.
  • [9] J. Han, M. Kamber, and J. Pei. Data Mining: Concepts and Techniques. Elsevier, 2011.
  • [10] J. R. Koiter. Visualizing Inference in Bayesian Networks. Master’s thesis, Delft University of Technology, June 2006.
  • [11] A. Łupinska-Dubicka and M. J. Druzdzel. Modeling dynamic processes with ´ memory by higher order temporal models. In A. Hommersom and P.J.F. Lucas, editors, Foundations of Biomedical Knowledge Representation: Methods and Applications: Lecture Notes in Artificial Intelligence, volume 9521, pages 219– 232. Springer Verlag, 2015.
  • [12] A.H. Murphy and R.L. Winkler. Reliability of subjective probability forecasts of precipitation and temperature. Applied Statistics, pages 41–47, 1977.
  • [13] J. Pearl. Probabilistic reasoning in intelligent systems, 1998.
  • [14] J. Pearl and Th. S. Verma. A theory of inferred causation. In J.A. Allen, R. Fikes, and E. Sandewall, editors, KR–91, Principles of Knowledge Representation and Reasoning: Proceedings of the Second International Conference, pages 441–452, Cambridge, MA, 1991. Morgan Kaufmann Publishers, Inc., San Mateo, CA.
  • [15] X. Robin, N. Turck, A. Hainard, N. Tiberti, F. Lisacek, J.Ch. Sanchez, and M. Müller. pROC: an open-source package for R and S+ to analyze and compare ROC curves. BMC Bioinformatics, 12(1), 2011.
  • [16] P. Spirtes, C. Glymour, and R. Scheines. Causation, Prediction, and Search. Springer Verlag, New York, 1993.
  • [17] M. Stoehr, M. Cypko, K. Denecke, H.U. Lemke, and A. Dietz. A model of the decision-making process: therapy of laryngeal cancer. International Journal of Computer Assisted Radiology and Surgery, 9(Suppl 1), 2014.
Uwagi
Opracowanie ze środków MNiSW w ramach umowy 812/P-DUN/2016 na działalność upowszechniającą naukę (zadania 2017).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-548e393b-a866-4087-baa1-087a8d125be2
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.