PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Metryki oceny jakości klasyfikacji

Autorzy
Identyfikatory
Warianty tytułu
EN
Classification evaluation metrics
Języki publikacji
PL
Abstrakty
PL
Ilość gromadzonych przez ludzkość danych ciągle rośnie. Wiedza z nich otrzymywana ma kluczowe znaczenie. Dużą wagę przywiązuje się zatem do oceny jakości budowanych modeli. W artykule przedstawiono powszechnie stosowane metryki oceny jakości klasyfikacji. Opisano między innymi miary oparte na macierzy błędów, miary o graficznej reprezentacji oraz funkcję log loss. Przedstawiono podstawowe właściwości metryk, ze szczególnym uwzględnieniem możliwości zastosowania w zagadnieniach wieloklasowych.
EN
The amount of data collected by humanity is constantly increasing. The knowledge that could be discovered is crucial. Therefore, great attention is paid to the quality of built models. This work presents commonly used classification evaluation metrics. Metrics based on confusion matrix, graphical representations measures, and log loss function have been described among others. The basic properties of the metrics have been presented with emphasis on their applicability in multiclass problems.
Rocznik
Tom
Strony
92--96
Opis fizyczny
Bibliogr. 18 poz., rys., tab.
Twórcy
autor
  • Instytut Telekomunikacji Politechniki Warszawskiej
Bibliografia
  • [1] Bouckaert R.: Choosing between two learning algorithms based on calibrated tests, ICML 2003, 2003.
  • [2] Carletta J.: ”Assessing agreement on classification tasks: the kappa statistic”, Journal Computational Linguistics, vol. 22: 249-254, 1996.
  • [3] Cohen J., A coefficient of agreement for nominal scales, Educational and Psychological Measurement, 10,3746, 1960.
  • [4] Fatourechi M. et al.: Comparison of evaluation metrics in classification applications with imbalanced datasets, Seventh International Conference on Machine Learning and Applications, 2008. ICMLA'08., IEEE, 2008.
  • [5] Fawcett T.: “An introduction to ROC analysis”, Pattern recognition letters, 2006, pp. 861 874.
  • [6] Hand D., R. Till: “A simple generalisation of the area under the ROC curve for multiple class classification problems”, Machine learning 45.2: 171-186, 2011.
  • [7] Kirui C., L. Hong, W. Cheruiyot, H. Kirui: "Predicting Customer Churn in Mobile Telephony Industry Using Probabilistic Classifiers in Data Mining", International Journal of Computer Science Issues, 2013.
  • [8] Landgrebe T., R. Duin: "Approximating the multiclass ROC by pairwise analysis", Pattern recognition letters 28.13: 1747-1758, 2007.
  • [9] Lichtenstein S., B. Fischhoff, L. Phillips: Calibration of probabilities: The state of the art, Decision making and change in human affairs, Springer Netherlands, pp. 275-324, 1977.
  • [10] Pedregosa F. (et al.): Scikit-learn: Machine Learning in Python, JMLR 12, 2011, pp. 2825-2830.
  • [11] Powers, D.: "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation", Journal of Machine Learning Technologies. 2 (1): 37–63, 2011.
  • [12] Salzberg, S.: “On comparing classifiers: Pitfalls to avoid and a recommended approach”, Data Mining and Knowledge Discovery, 1, 317-328, 1997.
  • [13] Tsoumakas G., I. Katakis, "Multi-label classification: An overview", International Journal of Data Warehousing and Mining, 3.3, 2006.
  • [14] Verbeke W., K. Dejaeger, D. Martens, J. Hur, B. Baesens: "New insights into churn prediction in the telecommunication sector: A profit driven data mining approach", European Journal of Operational Research, 2012.
  • [15] Viera A. J., Garrett J.M.: "Understanding interobserver agreement: the kappa statistic", Family Medicine, vol. 37, no. 5, 2005, pp. 360-363.
  • [16] Weiss G.: Data Mining in the Telecommunications Industry, Encyclopedia of Data Warehousing and Mining, Second Edition, Chapter 76, 2009, pp. 486-491
  • [17] Zadrozny B., Elkan C.: "Transforming classifier scores into accurate multiclass probability estimates", Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2002
  • [18] http://info.cern.ch/hypertext/WWW/TheProject.html, dostęp 10.11.2017
Uwagi
PL
Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2018).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-2b83e8ff-26cd-4c79-a651-e0e4ba0eb2c4
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.