Feature Selection for Prognostic Models by Linear Separation of Survival Genetic Data Sets

Bobrowski, L.; Łukaszuk, T.

doi:10.24427/acsr-2018-vol14-0003

Powiadomienia systemowe

Sesja wygasła!
Sesja wygasła!
Sesja wygasła!

Artykuł - szczegóły

Tytuł artykułu

Feature Selection for Prognostic Models by Linear Separation of Survival Genetic Data Sets

Autorzy

Bobrowski L. , Łukaszuk T.

Treść / Zawartość

Pełne teksty:

Pobierz

Identyfikatory

DOI

10.24427/acsr-2018-vol14-0003

Warianty tytułu

Selekcja cech na potrzeby modeli prognostycznych poprzez liniową separację zbiorów danych genetycznych dotyczących analizy przeżycia

Języki publikacji

Abstrakty

Designing regression models based on high dimensional (e.g. genetic) data sets through exploring linear separability problem is considered in the paper. The linear regression model designing has been reformulated here as the linear separability problem. Exploring the linear separability problem has been based on minimization of the convex and piecewise linear (CPL) criterion functions. The minimization of the CPL criterion functions was used not only for estimating the prognostic model parameters, but also for most effective selecting feature subsets (model selection) in accordance with the relaxed linear separability (RLS) method. This approach to designing prognostic models has been used in experiments both with synthetic multivariate data, and with genetic data sets containing censored values of dependent variable. The quality of the prognostic models resulting from the linear separability postulate has been evaluated by using the measure of the model discrepancy and the estimated classification error rate. In order to reduce the bias of the evaluation, the value of the model discrepancy and the classification error have been computed in different feature subspaces, in accordance with the cross-validation procedure. A series of new experiments described in this paper shows that the designing of regression models can be based on the linear separability principle. More specifically, the high-dimensional genetic sets with censored dependent variable can be used in designing procedure. The proposed measure of prognostic model discrepancy can be effectively used in the search for the optimal feature subspace and for selecting the linear regression model.

W artykule rozważane jest projektowanie modeli regresji opartych na wysokowymiarowych (np. genetycznych) zbiorach danych poprzez badanie problemu separacji liniowej. Projektowanie modelu regresji liniowej zostało tu przeformułowane jako problem separacji liniowej. Eksploracja problemu separacji liniowej opiera się na minimalizacji wypukłej i odcinkowo-liniowej (CPL) funkcji kryterialnej. Minimalizacja funkcji kryterialnej typu CPL została wykorzystana nie tylko do oszacowania parametrów modelu prognostycznego, ale również do skutecznego wyboru podzbioru cech (selekcji modelu) zgodnie z metodą relaksacji separacji liniowej (RLS). Takie podejście do projektowania modeli prognostycznych zostało wykorzystane w eksperymentach zarówno z syntetycznymi danymi wielowymiarowymi, jak i do zbiorów danych genetycznych zawierających cenzurowane wartości zmiennej zależnej. Jakość modeli prognostycznych otrzymywanych w oparciu o postulat liniowej separacji została oceniona przy użyciu miary rozbieżności modelu i szacowanego wskaźnika błędu klasyfikacji. W celu zmniejszenia obciążenia oceny, obliczono wartości rozbieżności modelu i błędu klasyfikacji w różnych podprzestrzeniach cech, zgodnie z procedurą walidacji krzyżowej. Seria nowych eksperymentów opisanych w niniejszym opracowaniu pokazuje, ze projektowanie modeli regresji może być oparte na zasadzie separacji liniowej. W szczególności, w procedurze projektowania można użyć wysokowymiarowych zbiorów genetycznych o cenzurowanej zmiennej zależnej. Proponowana miara rozbieżności modelu prognostycznego może być skutecznie wykorzystana w poszukiwaniu optymalnej podprzestrzeni cech i selekcji modelu regresji liniowej.

Słowa kluczowe

data mining interval regression model selection relaxed linear separability

eksploracja danych regresja interwałowa selekcja modelu relaksacja separacji liniowej

Wydawca

Oficyna Wydawnicza Politechniki Białostockiej

Czasopismo

Advances in Computer Science Research

Rocznik

2018

Tom

Nr 14

Strony

31--54

Opis fizyczny

Bibliogr. 14 poz., tab., wykr.

Twórcy

autor

Bobrowski L.

Faculty of Computer Science, Bialystok University of Technology, Białystok, Poland
Institute of Biocybernetics and Biomedical Engineering PAS, Warsaw, Poland

autor

Łukaszuk T.

Faculty of Computer Science, Bialystok University of Technology, Białystok, Poland

Bibliografia

[1] Christopher M Bishop. Neural networks for pattern recognition. Oxford University Press, 1995.
[2] Leon Bobrowski. Data mining based on convex and piecewise linear (CPL) criterion functions (in Polish). Bialystok University of Technology Press, 2005.
[3] Leon Bobrowski. Prognostic models based on linear separability. Advances in Data Mining. Applications and Theoretical Aspects, pages 11–24, 2011.
[4] Leon Bobrowski and Tomasz Łukaszuk. Relaxed linear separability (RLS) approach to feature (gene) subset selection. In Selected works in bioinformatics. InTech, 2011.
[5] Leon Bobrowski and Tomasz Łukaszuk. Prognostic modeling with high dimensional and censored data. In Industrial Conference on Data Mining, pages 178–193. Springer, 2012.
[6] Leon Bobrowski and Wojciech Niemiro. A method of synthesis of linear discriminant function in the case of nonseparability. Pattern Recognition, 17(2):205–210, 1984.
[7] Broad Institute TCGA Genome Data Analysis Center. Analysis overview for adrenocortical carcinoma (primary solid tumor cohort) - 28 january 2016, 2016.
[8] Jonathan Buckley and Ian James. Linear regression with censored data. Biometrika, 66(3):429–436, 1979.
[9] Richard O Duda, Peter E Hart, and David G Stork. Pattern classification. John Wiley & Sons, 2012.
[10] Guadalupe Gómez, Anna Espinal, and Stephen W Lagakos. Inference for a linear regression model with an interval-censored covariate. Statistics in medicine, 22(3):409–425, 2003.
[11] Richard Arnold Johnson, Dean W Wichern, et al. Applied multivariate statistical analysis, volume 4. Prentice-Hall New Jersey, 2014.
[12] John P Klein and Melvin L Moeschberger. Survival analysis: techniques for censored and truncated data. 1997.
[13] Charles L Lawson and Richard J Hanson. Solving least squares problems. SIAM, 1995.
[14] Robert Tibshirani. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society. Series B (Methodological), pages 267–288, 1996.

Uwagi

This work was partially supported by the S/WI/2/2018 grant from the Bialystok University of Technology and by the 4.2/St/2018 grant from the Institute of Biocybernetics and Biomedical Engineering PAS.

Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2019).

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-9cd4b295-3085-4827-86da-cc456030abbd