Tytuł artykułu
Autorzy
Identyfikatory
Warianty tytułu
Novel classification method based on sequential data discretization model
Języki publikacji
Abstrakty
Klasyczny schemat eksploracji danych z nadzorem zawiera etap klasyfikacji, poprzedzony wstępnym przetwarzaniem danych. Dyskretyzacja danych numerycznych stanowi ważny element przetwarzania wstępnego. Klasyczne podejście nie zapewnia wykorzystania wiedzy zdobytej podczas dyskretyzacji danych w etapie klasyfikacji. Prowadzi to do zwiększenia zasobów potrzebnych do obliczeń. W artykule przedstawiono nowatorską metodę klasyfikacji danych na podstawie modelu sekwencyjnej dyskretyzacji. Opisano założenia i kroki algorytmu, przedstawiono przykłady, ilustrujące działanie metody w zależności od wybranych parametrów, a także wyniki przeprowadzonych eksperymentów.
The classic scheme of supervised data mining includes the step of classification preceded by data preprocessing. Numeric data discretization is an important part of the preprocessing. The classic approach does not allow to use the knowledge gained in the discretization stage in the following classification. This leads to an increase of resources needed for calculations. The paper proposes the novel method of data classification based on the model of sequential discretization. The assumptions and steps of the proposed algorithm have been described. The examples showing how method results change depending on the parameters' values have been presented. The paper contains the results of conducted experiments.
Wydawca
Rocznik
Tom
Strony
102--106
Opis fizyczny
Bibliogr. 22 poz., rys., wykr., tab.
Twórcy
Bibliografia
- [1] Bache K., M. LJchman,.: UCI Machine Learning Repository [http:// archive.ics.uci.edu/ml], lrvine, CA: University of California, School of Information and Computer Science
- [2] Borowik G., T Luba: "Fast Algorithm of Attribute Reduction Based on the Complementation of Boolean Function, in Advanced Methods and Applications in Computational Intelligence", w: Klempous R., Nikodem J., Jacak W., Chaczko Z. (eds.) Advanced Methods and Applications in Computational Intelligence, Topics in Intelligent Engineering and Informatics, vol. 6, Springer International Publishing, 2014, pp. 2-23
- [3] Borowik G.: "Boolean function Complementation based algorithm for data discretization", w: Moreno-Diaz R., Pichler F.R., Quesada-Arencibia A. (eds.) Computer Aided Systems Theory - EUROCAST 2013, vol. 8112, Springer Heidelberg, 2013, pp. 218-225
- [4] Borowik G.: "Data mining approach for decision and classification systems using logicsythesis algorithm", w: Klempous R., Nikodem J., Jacak W., Chaczko Z. (eds.) Advanced Methods and Applications in Computational Intelligence, Topics in Intelligent Engineering and Informatics, vol. 6, Springer International Publishing, 2014, pp. 3-23.
- [5] Bouckaert R. R, E. Frank, M. Hali, R. Kirkby, R Reutemann, A. Seewald, D. Scuse: WEKA Manuał for Version 3-6-10, 2013.
- [6] Chmielewski M.R., J.W. Grzymala-Busse: "Global Discretization of Continuous Attributes as Preprocessing for Machine Learning", Int. Journal ofAppmximate Reasoning 15,1996, pp. 319-331.
- [7] Fayyad U., G. Piatetsky-Shapiro, R Smyth: "From Data Mining to Knowledge Discovery in Databases", AJ Magazine, vol. 17, no. 3,1996.
- [8] Holmes G., A. Donkin, l. A. Witten: WEKA: a machine learning work-bench, Proceedings of the 1994 Second Australian and New Zealand Conference on Intelligent Information Systems, 1994, pp. 357-361.
- [9] Jankowski C., G. Borowik, K. Kowalski: „Dyskretyzacjadanych numerycznych metodami przekształceń boolowskich", Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne, nr 10, 2014.
- [10] Jankowski C.: System dyskretyzacji i klasyfikacji danych, Praca dyplomowa magisterska. Instytut Telekomunikacji, Politechnika Warszawska, Warszawa, 2015.
- [11] Jankowski C., D. Reda, M. Mańkowski, G. Borowik: "Discretization of data using Boolean transformations and Information theory based evaluation criteria", Bulletin ofthe Polish Academy of Sciences Technical Sciences, 2015, 63(4), 923-932.
- [12] John G., R Langley.: Estimating Continuous Distributions in Bayesian Classifiers, Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, 1995, pp. 338-345.
- [13] Kohavi R.: The Power of Decision Tables, Proceedings of the European Conference on Machine Learning, Springer Verlag, 1995, pp. 174-189.
- [14] Kotsiantis S., D. Kanellopoulos, R Pintelas: "Data Preprocessing for Supervised Learning", InternationaIJournal of Computer Science, vol. 1,no.2, 2006, pp. 111-117
- [15] Luba T. (et al.): „Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny". Przegląd Telekomunikacyjny i Wiadomości Telekomunikacyjne, nr. 5, 2014.
- [16] Luba T., Borowik G.: Synteza logiczna, Oficyna Wydawnicza Politechniki Warszawskiej, 2015.
- [17] Nguyen H.S, Nguyen S.H.: Discretization methods in data mining, Rough Sets in Knowledge Discovery, Physica-Verlag, Heidelberg, 1998, pp. 451-482.
- [18] Othman M.F, T.M.SYau.: Comparison of Different Classification Techniques Using WEKA for Breast Cancer, 3rd Kuala Lumpur International Conference on Biomedical Engineering 2006 IFMBE Proceedings Volume 15, 2007, pp. 520-523.
- [19] Pyle D.: Data Preparation for Data Mining, Morgan Kaufmann Publishers, LosAltos, California, 1999.
- [20] Ouinlan, J.: C4.5: Programs for Machine Learning, Morgan Kaufman, 1992.
- [21] Ouinlan J.: "lmproved use of continuous attribute in CA.5", Journal of Artificial Intelligence Research, 4,1996, pp. 77-90.
- [22] Zhang H.: The Optimality of Naive Bayes, Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference FLAIRS 2004, AAAI Press, 2004.
Uwagi
PL
Opracowanie ze środków MNiSW w ramach umowy 812/P-DUN/2016 na działalność upowszechniającą naukę (zadania 2017).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-71cf2157-be0b-46c1-8750-dafe46b7c7e9