Identyfikatory
Warianty tytułu
Rekurencyjna eliminacja cech z walidacją oraz relaksacja liniowej separowalności jako metody selekcji cech do analizy zbiorów danych zawierających wartości ekspresji genów
Języki publikacji
Abstrakty
Most of the commonly known feature selection methods focus on selecting appropriate predictors for image recognition or generally on data mining issues. In this paper we present a comparison between widely used Recursive Feature Elimination (RFE) with resampling method and the Relaxed Linear Separability (RLS) approach with application to the analysis of the data sets resulting from gene expression experiments. Different types of classification algorithms such as K-Nearest Neighbours (KNN), Support Vector Machines (SVM) and Random Forests (RF) are exploited and compared in terms of classification accuracy with optimal set of genes treated as predictors selected by either the RFE or the RLS approaches. Ten-fold cross-validation was used to determine classification accuracy.
Zdecydowana większość znanych metod selekcji cech skupia się na wyborze odpowiednich predyktorów dla takich zagadnień jak rozpoznawanie obrazów czy też ogólnie eksploracji danych. W publikacji prezentujemy porównanie pomiędzy powszechnie stosowaną ˛metodą˛ Rekurencyjnej Eliminacji Cech z walidacja˛ (ang. Recursive Feature Elimination - RFE) a metodą stosującą ˛podejście Relaksacji Liniowej Separowalności (ang. Relaxed Linear Separability - RLS) z zastosowaniem do analizy zbiorów danych zawierających wartości ekspresji genów. W artykule wykorzystano różne algorytmy klasyfikacji, takie jak K-Najbliższych Sąsiadów (ang. K-Nearest Neighbours - KNN), Maszynę˛ Wektorów Wspierających (ang. Support Vector Machines - SVM) oraz Lasy Losowe (ang. Random Forests -RF). Porównana została jakość klasyfikacji uzyskana przy pomocy tych algorytmów z optymalnym zestawem cech wygenerowanym z wykorzystaniem metody selekcji cech RFE bądź RLS. W celu wyznaczenia jakości klasyfikacji wykorzystano 10-krotną walidację˛ krzyżową.
Czasopismo
Rocznik
Tom
Strony
39--52
Opis fizyczny
Bibliogr. 15 poz., tab., wykr.
Twórcy
autor
- Faculty of Computer Science, Bialystok University of Technology, Białystok, Poland
autor
- Faculty of Computer Science, Bialystok University of Technology, Białystok, Poland
Bibliografia
- [1] G.K. Smyth, Limma: linear models for microarray data., Bioinformatics and Computational Biology Solutions using R and Bioconductor., R. Gentleman, V. Carey, S. Dudoit, R. Irizarry,W. Huber (eds), Springer, New York, pp. 397-420.
- [2] The Bioconductor project. [http://www.bioconductor.org]
- [3] F. De Martino, G. Valente, N. Staeren, J. Ashburner, R. Goebel, E. Formisano, Combining multivariate voxel selection and support vector machines for mapping and classification of fMRI spatial patterns., NeuroImage, 43, pp. 44-48, (2008).
- [4] L. Bobrowski, T. Łukaszuk, Feature selection based on relaxed linear separability., In: Biocybernetical and Biomedical Engineering, vol.29, nr 2, pp. 43-58, (2009).
- [5] Gene Expression Omnibus. [http://www.ncbi.nlm.nih.gov/geo]
- [6] A.W. Bergen, A. Mallick, D. Nishita, X.Wei et al., Chronic psychosocial stressors and salivary biomarkers in emerging adults., Psychoneuroendocrinology 2012 Aug; 37(8):1158-70.
- [7] J. Andrews, Oregon Youth Substance Use Project (OYSUP), 1998-2010. ICPSR34263-v1., Ann Arbor, MI: Inter-university Consortium for Political and Social Research, 2013-03-29. doi:10.3886/ICPSR34263.v1
- [8] K.J. Livak, T.D. Schmittgen, Analysis of Relative Gene Expression Data Using Real-Time Quantitative PCR and the 2-DDCT Method., Methods 25, 402-408 (2001).
- [9] T. Hastie, R. Tibshirani, B. Narasimhan, G. Chu, impute: Imputation for microarray data. R package version 1.32.0.
- [10] M. Kuhn. Contributions from Jed Wing, Steve Weston, Andre Williams, Chris Keefer, Allan Engelhardt and Tony Cooper, caret: Classification and Regression Training (2013). R package version 7.17-7.
- [11] C. Ambroise, G.J. McLachlan, Selection bias in gene extraction on the basis of microarray gene-expression data., PNAS vol. 90 (10), pp. 6562-6566, 2002.
- [12] V. Svetnik, A. Liaw, C. Tong, T. Wang, Application of Breiman’s Random Forest to Modeling Structure-Activity Relationships of Pharmaceutical Molecules., Lecture Notes in Computer Science vol. 3077, pp. 334-343, 2004.
- [13] L. Bobrowski, Eksploracja danych oparta na wypukłych i odcinkowo-liniowych funkcjach kryterialnych., Wyd. Politechniki Białostockiej, Białystok, (2005).
- [14] L. Bobrowski Feature subsets selection based on linear separbilty, In: Lecture Notes of the VII-th ICB Seminar: Statistics and Clinical Practice, ed. by H. Bacelar-Nicolau, L. Bobrowski, J. Doroszewski, C. Kulikowski, N. Victor, June 2008, Warsaw, 2008.
- [15] L. Bobrowski, Design of Piecewise Linear Classifiers from Formal Neurons by Some Basis Exchange Technique, pp. 863–870 in: Pattern Recognition, 24(9), 1991.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-e4b5f913-c348-4407-969f-781e446675b5
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.