Most of the commonly known feature selection methods focus on selecting appropriate predictors for image recognition or generally on data mining issues. In this paper we present a comparison between widely used Recursive Feature Elimination (RFE) with resampling method and the Relaxed Linear Separability (RLS) approach with application to the analysis of the data sets resulting from gene expression experiments. Different types of classification algorithms such as K-Nearest Neighbours (KNN), Support Vector Machines (SVM) and Random Forests (RF) are exploited and compared in terms of classification accuracy with optimal set of genes treated as predictors selected by either the RFE or the RLS approaches. Ten-fold cross-validation was used to determine classification accuracy.
PL
Zdecydowana większość znanych metod selekcji cech skupia się na wyborze odpowiednich predyktorów dla takich zagadnień jak rozpoznawanie obrazów czy też ogólnie eksploracji danych. W publikacji prezentujemy porównanie pomiędzy powszechnie stosowaną ˛metodą˛ Rekurencyjnej Eliminacji Cech z walidacja˛ (ang. Recursive Feature Elimination - RFE) a metodą stosującą ˛podejście Relaksacji Liniowej Separowalności (ang. Relaxed Linear Separability - RLS) z zastosowaniem do analizy zbiorów danych zawierających wartości ekspresji genów. W artykule wykorzystano różne algorytmy klasyfikacji, takie jak K-Najbliższych Sąsiadów (ang. K-Nearest Neighbours - KNN), Maszynę˛ Wektorów Wspierających (ang. Support Vector Machines - SVM) oraz Lasy Losowe (ang. Random Forests -RF). Porównana została jakość klasyfikacji uzyskana przy pomocy tych algorytmów z optymalnym zestawem cech wygenerowanym z wykorzystaniem metody selekcji cech RFE bądź RLS. W celu wyznaczenia jakości klasyfikacji wykorzystano 10-krotną walidację˛ krzyżową.
2
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Aim of the paper is to present a mathematical method used to generate the missing stages of the evolution of fossil vertebrates. Considered excavations may be in the form of skeletons or the traces left by autopodium during locomotion of these animals. The research material contains selected dinosaurs, which features of locomotor apparatus were described in terms of chronology and habitat affiliation. They were formalized in the form of a numeric code by Sikorska-Piwowska [29]. The present paper has in view taking into account the adaptation and specialization traits of limbs and also the types of autopodium joints and basipodium specializations. The vector of binary features is assigned to each investigated form of Tetrapoda. It was taken the simplified assumption of statistical independence and equipoise of investigated features during the building of the model. There are no reasons for distinguishing any of them. The projection of the spatial image of dinosaurs’ locomotor apparatus development has the expression in the form of mathematical cladogram. This model verifies some evolution stages like origin of pre-birds lined with hypothetic form related with Coelophysis, one of the earliest known dinosaurs from upper Triassic. In such a manner Archeopteryx was left out from considerations as the ancestor of prebirds.
PL
Celem pracy jest przedstawienie matematycznej metody służącej do wygenerowania brakujących etapów ewolucji kopalnych kręgowców. Rozważane wykopaliska mogą występować w postaci szkieletów lub odcisków naskalnych. Materiałem badawczym są wybrane dinozaury, których cechy aparatu lokomocyjnego zostały opisane w kategoriach czasu i przynależności do danego środowiska oraz sformalizowane przez Sikorską-Piwowską [29]. Obecna praca ma na celu włączenie do obliczeń cech adaptacji i specjalizacji kończyn oraz typów stawów autopodium (rąk i stóp) i specjalizacji basipodium dotyczącego nadgarstka i stępu. Konstruowany jest model mający zastosowanie do testowania połączeń między badanymi formami i wyznaczania brakujących etapów ewolucji. Każda badana forma została oznaczona wektorem binarnym cech. Do budowy modelu przyjęto uproszczone założenie statystycznej niezależności i równoważności badanych cech, ponieważ nie ma podstaw do wyróżnienia którejkolwiek z nich. Projekcja form rozwojowych aparatu lokomocyjnego dinozaurów, jako punktów w wielowymiarowej przestrzeni cech, została wyrażona matematycznym kladogramem. Model ten weryfikuje między innymi stadia rozwojowe ptaków wiążąc je z Coelophysis - jedną z najwcześniejszych form dinosaurów pochodzących z górnego Triasu. Archaeopteryx zwany mylnie praptakiem został wykluczony z linii prowadzącej do ptaków.
Designing regression models based on high dimensional (e.g. genetic) data sets through exploring linear separability problem is considered in the paper. The linear regression model designing has been reformulated here as the linear separability problem. Exploring the linear separability problem has been based on minimization of the convex and piecewise linear (CPL) criterion functions. The minimization of the CPL criterion functions was used not only for estimating the prognostic model parameters, but also for most effective selecting feature subsets (model selection) in accordance with the relaxed linear separability (RLS) method. This approach to designing prognostic models has been used in experiments both with synthetic multivariate data, and with genetic data sets containing censored values of dependent variable. The quality of the prognostic models resulting from the linear separability postulate has been evaluated by using the measure of the model discrepancy and the estimated classification error rate. In order to reduce the bias of the evaluation, the value of the model discrepancy and the classification error have been computed in different feature subspaces, in accordance with the cross-validation procedure. A series of new experiments described in this paper shows that the designing of regression models can be based on the linear separability principle. More specifically, the high-dimensional genetic sets with censored dependent variable can be used in designing procedure. The proposed measure of prognostic model discrepancy can be effectively used in the search for the optimal feature subspace and for selecting the linear regression model.
PL
W artykule rozważane jest projektowanie modeli regresji opartych na wysokowymiarowych (np. genetycznych) zbiorach danych poprzez badanie problemu separacji liniowej. Projektowanie modelu regresji liniowej zostało tu przeformułowane jako problem separacji liniowej. Eksploracja problemu separacji liniowej opiera się na minimalizacji wypukłej i odcinkowo-liniowej (CPL) funkcji kryterialnej. Minimalizacja funkcji kryterialnej typu CPL została wykorzystana nie tylko do oszacowania parametrów modelu prognostycznego, ale również do skutecznego wyboru podzbioru cech (selekcji modelu) zgodnie z metodą relaksacji separacji liniowej (RLS). Takie podejście do projektowania modeli prognostycznych zostało wykorzystane w eksperymentach zarówno z syntetycznymi danymi wielowymiarowymi, jak i do zbiorów danych genetycznych zawierających cenzurowane wartości zmiennej zależnej. Jakość modeli prognostycznych otrzymywanych w oparciu o postulat liniowej separacji została oceniona przy użyciu miary rozbieżności modelu i szacowanego wskaźnika błędu klasyfikacji. W celu zmniejszenia obciążenia oceny, obliczono wartości rozbieżności modelu i błędu klasyfikacji w różnych podprzestrzeniach cech, zgodnie z procedurą walidacji krzyżowej. Seria nowych eksperymentów opisanych w niniejszym opracowaniu pokazuje, ze projektowanie modeli regresji może być oparte na zasadzie separacji liniowej. W szczególności, w procedurze projektowania można użyć wysokowymiarowych zbiorów genetycznych o cenzurowanej zmiennej zależnej. Proponowana miara rozbieżności modelu prognostycznego może być skutecznie wykorzystana w poszukiwaniu optymalnej podprzestrzeni cech i selekcji modelu regresji liniowej.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.