Identyfikatory
Warianty tytułu
Metody selekcji cech bazujące na minimalizacji funkcji kryterialnych typu CPL
Języki publikacji
Abstrakty
The feature selection is a method of data analysis commonly used as a preliminary step in the techniques of classification and pattern recognition. It is particularly important in situations when data are represented in high-dimensional feature space. Examples of these are collections of bioinformatics data, particularly data obtained from DNA microarrays. The paper presented two methods of feature selection based on minimizing the CPL criterion function: basic SEKWEM/GENET method, in which the selection of features is done in conjunction with the construction of a linear classifier separating objects from different decision classes, and the RLS method extending the primary method by linear separability relaxation stage in order to obtain a subset of features with better generalization ability. The results of the SEKWEM/GENET and RLS methods were confronted with the results obtained from other common feature selection methods in application to the state of the art microarray data sets.
Selekcja cech jest metodą analizy danych powszechnie stosowaną jako wstępny krok w technikach klasyfikacji czy rozpoznawania wzorców. Ma ona szczególne znaczenie w sytuacji gdy dane reprezentowane sa˛ w wysoko wymiarowej przestrzeni cech. Przykładem takich danych są zbiory bioinformatyczne, a w szczególności dane uzyskane na podstawie mikromacierzy DNA. W pracy przedstawione zostały dwie metody selekcji cech bazujące na minimalizacji funkcji kryterialnych typu CPL: podstawowa metoda SEKWEM/GENET, w której selekcja cech dokonywana jest w połączeniu z budową liniowego klasyfikatora separującego obiekty z różnych klas decyzyjnych, oraz metoda RLS rozszerzająca podstawową metodę o etap relaksacji liniowej separowalności w celu uzyskania podzbioru cech o lepszych zdolnościach generalizacji. Wyniki metod SEKWEM/GENET i RLS zostały także skonfrontowane z wynikami uzyskanymi z innych popularnych metod selekcji cech w zastosowaniu do „benchmarkowych” zbiorów danych mikromacierzowych.
Rocznik
Tom
Strony
31--43
Opis fizyczny
Bibliogr. 20 poz.
Twórcy
autor
- Bialystok University of Technology, Faculty of Computer Science, Białystok, Poland
Bibliografia
- [1] U. Alon, et al., Broad patterns of gene expressions revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays, PNAS, 96:6745–6750, 1999.
- [2] L. Bobrowski, Design of Piecewise Linear Classifiers from Formal Neurons by Some Basis Exchange Technique, Pattern Recognition, 24(9):863–870, 1991.
- [3] L. Bobrowski, Data mining based on convex and piecewise linear (CPL) criterion functions (in Polish), Wyd. Politechniki Białostockiej, Białystok, 2005.
- [4] L. Bobrowski, T. Łukaszuk, Feature Selection Based on Relaxed Linear Separability, Biocybernetics and Biomedical Engineering, 29(2):43–59, 2009.
- [5] M. Dash, H. Liu, Consistency-based search in feature selection, Artificial Intelligence, 151:155–176, 2003.
- [6] O.R. Duda, P.E. Heart, D.G. Stork, Pattern Classification, Second edition, John Wiley & Sons, 2001.
- [7] K. Fukunaga, Introduction to Statistical Pattern Recognition, Academic Press, San Diego, 1990.
- [8] T.R. Golub, et al., Molecular classification of cancer: class discovery and class prediction by gene expression monitoring, Sciences, 286:531-537, 1999.
- [9] J.G. Gordon, R.V. Jensen, L. Hsiao, S.R. Gullans, Translation of microarray data into clinically relevant cancer diagnostic tests using gene expression ratios in lung cancer and mesotheliomar. Cancer Res, 62:4963–4967, 2002.
- [10] I. Guyon I., A. Elisseeff, An introduction to variable and feature selection, Journal of Machine Learning Research, 3:1157–1182, 2003.
- [11] M.A. Hall, Correlation-based Feature Selection for Machine Learning, PhD thesis, University of Waikato, Dept. of Computer Science, 1998.
- [12] K. Kira K., L.A. Rendell, A Practical Approach to Feature Selection, Ninth International Workshop on Machine Learning, 249-256, 1992.
- [13] I. Kononenko, Estimating Attributes: Analysis and Extensions of RELIEF, European Conference on Machine Learning, 171-182, 1994.
- [14] H. Liu, H. Motoda, Computational methods of feature selection, Chapman & Hall/CRC data mining and knowledge discovery series, Chapman & Hall/CRC, 2008.
- [15] H. Liu, R. Setiono, A Probabilistic Approach to Feature Selection – A Filter Solution, 13th International Conference on Machine Learning, Morgan Kaufmann, 319–327, 1996.
- [16] J.R. Quinlan, C4.5 - Programs for Machine Learning, Morgan Kaufmann, 1993.
- [17] I.V. Tetko, D.J. Livingstone, A.I. Luik, Neural network studies, 1. Comparison of overfitting and overtraining, Journal of Chemical Information and Computer Sciences, 35(5):826–833, 1995.
- [18] V.N. Vapnik, Statistical Learning Theory, J. Wiley, New York, 1998.
- [19] L.J. van’t Veer, et al., Gene expression profiling predicts clinical outcome of breast cancer, Nature, 415(6871):530-536, 2002.
- [20] I.H. Witten, E. Frank, Data Mining - Pracitcal Machine Learning Tools and Techniques with JAVA Implementations, Morgan Kaufmann Publishers, 2000.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BPB1-0052-0003