PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Planowanie eksperymentu uczenia maszynowego

Identyfikatory
Warianty tytułu
EN
Planning a machine learning experiment
Języki publikacji
PL
Abstrakty
PL
Zasadniczy aspekt uczenia maszynowego stanowi ocena jakości zbudowanych modeli. Niezbędne zatem staje się staranne zaplanowanie eksperymentów. Potrzebne jest zrozumienie skutków potencjalnych błędów i niedopatrzeń. W artykule przedstawiono techniki, które mogą zostać wykorzystane w eksperymencie uczenia maszynowego. Opisano między innymi walidację prostą i krzyżową – z uwzględnieniem wyboru modelu – oraz podział czasowy. Przedstawiono wady i zalety wymienionych technik, uwzględniające między innymi rozmiar wejściowej bazy czy typ danych.
EN
The key aspect of machine learning is the model performance evaluation. Therefore, it is necessary to carefully plan the experiments. There is a need to understand the consequences of potential mistakes or omissions. This paper presents various techniques that can be used in a machine learning experiment. Simple split and cross validation – with or without model selection – as well as time split have been described. The advantages and disadvantages of these techniques have been presented – for example in terms of input database size or data type.
Rocznik
Tom
Strony
92--96
Opis fizyczny
Bibliogr. 17 poz., rys., tab.
Twórcy
  • Instytut Telekomunikacji, Wydział Elektroniki i Technik Informacyjnych, Politechnika Warszawska
Bibliografia
  • [1] Arlot S., A. Celisse: A survey of cross-validation procedures for model selection, Statistics surveys 4, 2010, pp: 40-79.
  • [2] Bache K., M. Lichman: UCI Machine Learning Repository [http://archive. ics.uci.edu/ml], Irvine, CA: University of California, School of Information and Computer Science, dostęp: marzec 2019 r.
  • [3] Bouckaert R.: Choosing between two learning algorithms based on calibrated tests, ICML 2003, 2003.
  • [4] Cawley G. C., N. LC Talbot: "On over-fitting in model selection and subsequent selection bias in performance evaluation", Journal of Machine Learning Research 11 (Jul), 2010, pp. 2079-2107.
  • [5] Cover T., P. Hart: Nearest neighbor pattern classification, IEEE transactions on information theory 13.1, 1967, pp. 21-27.
  • [6] Efron B.: The jackknife, the bootstrap, and other resampling plans, Vol. 38. Siam, 1982.
  • [7] Fayyad U., G. Piatetsky-Shapiro, P. Smyth: "From Data Mining to Knowledge Discovery in Databases", AI Magazine, vol. 17, 3, 1996.
  • [8] Jankowski C., M. Mańkowski M., B. Zbierzchowski: "Zastosowanie eksploracji danych w telekomunikacji", Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne, 10/2014, pp. 1325-1334.
  • [9] Jankowski C.: "Metryki oceny jakości klasyfikacji", Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne, 4/2018, 2018, pp. 92-96.
  • [10] Kohavi R.: A study of cross-validation and bootstrap for accuracy estimation and model selection, Proc. of the 14th International Joint Conference on Artificial Intelligence, 1995, pp. 1137-1143.
  • [11] Salzberg S.: On comparing classifiers: Pitfalls to avoid and a recommended approach, Data Mining and Knowledge Discovery, 1, 1997, pp. 317-328.
  • [12] Schumacher M., Holländer N., Sauerbrei W.: Resampling and crossvalidation techniques: a tool to reduce bias caused by model building?, Statistics in medicine 16.24, 1997, pp: 2813-2827.
  • [13] Sheridan R. P.: "Time-split cross-validation as a method for estimating the goodness of prospective prediction", Journal of chemical information and modeling 53.4, 2013, pp: 783-790.
  • [14] Pedregosa F. (et al.): Scikit-learn: Machine Learning in Python, JMLR 12, 2011, pp. 2825-2830.
  • [15] Weiss G.: Data Mining in the Telecommunications Industry, Encyclopedia of Data Warehousing and Mining, Second Edition, Chapter 76, 2009, pp. 486-491.
  • [16] Xu Q.S., Liang Y.Z.: Monte Carlo cross validation, Chemometrics and Intelligent Laboratory Systems 56.1, 2001, pp: 1-11.
  • [17] Zhang S., et al.: Comparing data mining methods with logistic regression in childhood obesity prediction, Information Systems Frontiers 11.4, 2009, pp. 449-460.
Uwagi
PL
Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2019).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-c685dc44-5a2b-4c11-8476-7064e349eab5
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.