Planowanie eksperymentu uczenia maszynowego

Jankowski, Cezary

doi:10.15199/59.2019.4.2

Artykuł - szczegóły

Tytuł artykułu

Planowanie eksperymentu uczenia maszynowego

Autorzy

Jankowski Cezary

Identyfikatory

DOI

10.15199/59.2019.4.2

Warianty tytułu

Planning a machine learning experiment

Języki publikacji

Abstrakty

Zasadniczy aspekt uczenia maszynowego stanowi ocena jakości zbudowanych modeli. Niezbędne zatem staje się staranne zaplanowanie eksperymentów. Potrzebne jest zrozumienie skutków potencjalnych błędów i niedopatrzeń. W artykule przedstawiono techniki, które mogą zostać wykorzystane w eksperymencie uczenia maszynowego. Opisano między innymi walidację prostą i krzyżową – z uwzględnieniem wyboru modelu – oraz podział czasowy. Przedstawiono wady i zalety wymienionych technik, uwzględniające między innymi rozmiar wejściowej bazy czy typ danych.

The key aspect of machine learning is the model performance evaluation. Therefore, it is necessary to carefully plan the experiments. There is a need to understand the consequences of potential mistakes or omissions. This paper presents various techniques that can be used in a machine learning experiment. Simple split and cross validation – with or without model selection – as well as time split have been described. The advantages and disadvantages of these techniques have been presented – for example in terms of input database size or data type.

Słowa kluczowe

uczenie maszynowe walidacja ocena jakości teleinformatyka

machine learning validation performance evaluation data mining infocommunications

Wydawca

Wydawnictwo SIGMA-NOT

Czasopismo

Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne

Rocznik

2019

Tom

nr 4

Strony

92--96

Opis fizyczny

Bibliogr. 17 poz., rys., tab.

Twórcy

autor

Jankowski Cezary

C.Jankowski@tele.pw.edu.pl

Instytut Telekomunikacji, Wydział Elektroniki i Technik Informacyjnych, Politechnika Warszawska

Bibliografia

[1] Arlot S., A. Celisse: A survey of cross-validation procedures for model selection, Statistics surveys 4, 2010, pp: 40-79.
[2] Bache K., M. Lichman: UCI Machine Learning Repository [http://archive. ics.uci.edu/ml], Irvine, CA: University of California, School of Information and Computer Science, dostęp: marzec 2019 r.
[3] Bouckaert R.: Choosing between two learning algorithms based on calibrated tests, ICML 2003, 2003.
[4] Cawley G. C., N. LC Talbot: "On over-fitting in model selection and subsequent selection bias in performance evaluation", Journal of Machine Learning Research 11 (Jul), 2010, pp. 2079-2107.
[5] Cover T., P. Hart: Nearest neighbor pattern classification, IEEE transactions on information theory 13.1, 1967, pp. 21-27.
[6] Efron B.: The jackknife, the bootstrap, and other resampling plans, Vol. 38. Siam, 1982.
[7] Fayyad U., G. Piatetsky-Shapiro, P. Smyth: "From Data Mining to Knowledge Discovery in Databases", AI Magazine, vol. 17, 3, 1996.
[8] Jankowski C., M. Mańkowski M., B. Zbierzchowski: "Zastosowanie eksploracji danych w telekomunikacji", Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne, 10/2014, pp. 1325-1334.
[9] Jankowski C.: "Metryki oceny jakości klasyfikacji", Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne, 4/2018, 2018, pp. 92-96.
[10] Kohavi R.: A study of cross-validation and bootstrap for accuracy estimation and model selection, Proc. of the 14th International Joint Conference on Artificial Intelligence, 1995, pp. 1137-1143.
[11] Salzberg S.: On comparing classifiers: Pitfalls to avoid and a recommended approach, Data Mining and Knowledge Discovery, 1, 1997, pp. 317-328.
[12] Schumacher M., Holländer N., Sauerbrei W.: Resampling and crossvalidation techniques: a tool to reduce bias caused by model building?, Statistics in medicine 16.24, 1997, pp: 2813-2827.
[13] Sheridan R. P.: "Time-split cross-validation as a method for estimating the goodness of prospective prediction", Journal of chemical information and modeling 53.4, 2013, pp: 783-790.
[14] Pedregosa F. (et al.): Scikit-learn: Machine Learning in Python, JMLR 12, 2011, pp. 2825-2830.
[15] Weiss G.: Data Mining in the Telecommunications Industry, Encyclopedia of Data Warehousing and Mining, Second Edition, Chapter 76, 2009, pp. 486-491.
[16] Xu Q.S., Liang Y.Z.: Monte Carlo cross validation, Chemometrics and Intelligent Laboratory Systems 56.1, 2001, pp: 1-11.
[17] Zhang S., et al.: Comparing data mining methods with logistic regression in childhood obesity prediction, Information Systems Frontiers 11.4, 2009, pp. 449-460.

Uwagi

Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2019).

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-c685dc44-5a2b-4c11-8476-7064e349eab5