Wyniki wyszukiwania - BazTech

1

Feature Selection for Prognostic Models by Linear Separation of Survival Genetic Data Sets

Bobrowski L., Łukaszuk T.

Advances in Computer Science Research

|

2018

|

Nr 14

31--54

EN

Designing regression models based on high dimensional (e.g. genetic) data sets through exploring linear separability problem is considered in the paper. The linear regression model designing has been reformulated here as the linear separability problem. Exploring the linear separability problem has been based on minimization of the convex and piecewise linear (CPL) criterion functions. The minimization of the CPL criterion functions was used not only for estimating the prognostic model parameters, but also for most effective selecting feature subsets (model selection) in accordance with the relaxed linear separability (RLS) method. This approach to designing prognostic models has been used in experiments both with synthetic multivariate data, and with genetic data sets containing censored values of dependent variable. The quality of the prognostic models resulting from the linear separability postulate has been evaluated by using the measure of the model discrepancy and the estimated classification error rate. In order to reduce the bias of the evaluation, the value of the model discrepancy and the classification error have been computed in different feature subspaces, in accordance with the cross-validation procedure. A series of new experiments described in this paper shows that the designing of regression models can be based on the linear separability principle. More specifically, the high-dimensional genetic sets with censored dependent variable can be used in designing procedure. The proposed measure of prognostic model discrepancy can be effectively used in the search for the optimal feature subspace and for selecting the linear regression model.

PL

W artykule rozważane jest projektowanie modeli regresji opartych na wysokowymiarowych (np. genetycznych) zbiorach danych poprzez badanie problemu separacji liniowej. Projektowanie modelu regresji liniowej zostało tu przeformułowane jako problem separacji liniowej. Eksploracja problemu separacji liniowej opiera się na minimalizacji wypukłej i odcinkowo-liniowej (CPL) funkcji kryterialnej. Minimalizacja funkcji kryterialnej typu CPL została wykorzystana nie tylko do oszacowania parametrów modelu prognostycznego, ale również do skutecznego wyboru podzbioru cech (selekcji modelu) zgodnie z metodą relaksacji separacji liniowej (RLS). Takie podejście do projektowania modeli prognostycznych zostało wykorzystane w eksperymentach zarówno z syntetycznymi danymi wielowymiarowymi, jak i do zbiorów danych genetycznych zawierających cenzurowane wartości zmiennej zależnej. Jakość modeli prognostycznych otrzymywanych w oparciu o postulat liniowej separacji została oceniona przy użyciu miary rozbieżności modelu i szacowanego wskaźnika błędu klasyfikacji. W celu zmniejszenia obciążenia oceny, obliczono wartości rozbieżności modelu i błędu klasyfikacji w różnych podprzestrzeniach cech, zgodnie z procedurą walidacji krzyżowej. Seria nowych eksperymentów opisanych w niniejszym opracowaniu pokazuje, ze projektowanie modeli regresji może być oparte na zasadzie separacji liniowej. W szczególności, w procedurze projektowania można użyć wysokowymiarowych zbiorów genetycznych o cenzurowanej zmiennej zależnej. Proponowana miara rozbieżności modelu prognostycznego może być skutecznie wykorzystana w poszukiwaniu optymalnej podprzestrzeni cech i selekcji modelu regresji liniowej.

2

Model to generate phylogenetic missing stages of dinosaurs

Sikorska-Piwowska Z., Łukaszuk T.

Mathematica Applicanda

|

2015

|

Vol. 43, No. 2

123--143

EN

Aim of the paper is to present a mathematical method used to generate the missing stages of the evolution of fossil vertebrates. Considered excavations may be in the form of skeletons or the traces left by autopodium during locomotion of these animals. The research material contains selected dinosaurs, which features of locomotor apparatus were described in terms of chronology and habitat affiliation. They were formalized in the form of a numeric code by Sikorska-Piwowska [29]. The present paper has in view taking into account the adaptation and specialization traits of limbs and also the types of autopodium joints and basipodium specializations. The vector of binary features is assigned to each investigated form of Tetrapoda. It was taken the simplified assumption of statistical independence and equipoise of investigated features during the building of the model. There are no reasons for distinguishing any of them. The projection of the spatial image of dinosaurs’ locomotor apparatus development has the expression in the form of mathematical cladogram. This model verifies some evolution stages like origin of pre-birds lined with hypothetic form related with Coelophysis, one of the earliest known dinosaurs from upper Triassic. In such a manner Archeopteryx was left out from considerations as the ancestor of prebirds.

PL

Celem pracy jest przedstawienie matematycznej metody służącej do wygenerowania brakujących etapów ewolucji kopalnych kręgowców. Rozważane wykopaliska mogą występować w postaci szkieletów lub odcisków naskalnych. Materiałem badawczym są wybrane dinozaury, których cechy aparatu lokomocyjnego zostały opisane w kategoriach czasu i przynależności do danego środowiska oraz sformalizowane przez Sikorską-Piwowską [29]. Obecna praca ma na celu włączenie do obliczeń cech adaptacji i specjalizacji kończyn oraz typów stawów autopodium (rąk i stóp) i specjalizacji basipodium dotyczącego nadgarstka i stępu. Konstruowany jest model mający zastosowanie do testowania połączeń między badanymi formami i wyznaczania brakujących etapów ewolucji. Każda badana forma została oznaczona wektorem binarnym cech. Do budowy modelu przyjęto uproszczone założenie statystycznej niezależności i równoważności badanych cech, ponieważ nie ma podstaw do wyróżnienia którejkolwiek z nich. Projekcja form rozwojowych aparatu lokomocyjnego dinozaurów, jako punktów w wielowymiarowej przestrzeni cech, została wyrażona matematycznym kladogramem. Model ten weryﬁkuje między innymi stadia rozwojowe ptaków wiążąc je z Coelophysis - jedną z najwcześniejszych form dinosaurów pochodzących z górnego Triasu. Archaeopteryx zwany mylnie praptakiem został wykluczony z linii prowadzącej do ptaków.

3

Application of the recursive feature elimination and the relaxed linear separability feature selection algorithms to gene expression data analysis

Gościk J., Łukaszuk T.

Advances in Computer Science Research

|

2013

|

Nr 10

39--52

EN

Most of the commonly known feature selection methods focus on selecting appropriate predictors for image recognition or generally on data mining issues. In this paper we present a comparison between widely used Recursive Feature Elimination (RFE) with resampling method and the Relaxed Linear Separability (RLS) approach with application to the analysis of the data sets resulting from gene expression experiments. Different types of classification algorithms such as K-Nearest Neighbours (KNN), Support Vector Machines (SVM) and Random Forests (RF) are exploited and compared in terms of classification accuracy with optimal set of genes treated as predictors selected by either the RFE or the RLS approaches. Ten-fold cross-validation was used to determine classification accuracy.

PL

Zdecydowana większość znanych metod selekcji cech skupia się na wyborze odpowiednich predyktorów dla takich zagadnień jak rozpoznawanie obrazów czy też ogólnie eksploracji danych. W publikacji prezentujemy porównanie pomiędzy powszechnie stosowaną ˛metodą˛ Rekurencyjnej Eliminacji Cech z walidacja˛ (ang. Recursive Feature Elimination - RFE) a metodą stosującą ˛podejście Relaksacji Liniowej Separowalności (ang. Relaxed Linear Separability - RLS) z zastosowaniem do analizy zbiorów danych zawierających wartości ekspresji genów. W artykule wykorzystano różne algorytmy klasyfikacji, takie jak K-Najbliższych Sąsiadów (ang. K-Nearest Neighbours - KNN), Maszynę˛ Wektorów Wspierających (ang. Support Vector Machines - SVM) oraz Lasy Losowe (ang. Random Forests -RF). Porównana została jakość klasyfikacji uzyskana przy pomocy tych algorytmów z optymalnym zestawem cech wygenerowanym z wykorzystaniem metody selekcji cech RFE bądź RLS. W celu wyznaczenia jakości klasyfikacji wykorzystano 10-krotną walidację˛ krzyżową.

4

Feature selection methods baed on minimization of CPL criterion functions

Łukaszuk T.

Zeszyty Naukowe Politechniki Białostockiej. Informatyka

|

2011

|

Z. 8

31-43

EN

The feature selection is a method of data analysis commonly used as a preliminary step in the techniques of classification and pattern recognition. It is particularly important in situations when data are represented in high-dimensional feature space. Examples of these are collections of bioinformatics data, particularly data obtained from DNA microarrays. The paper presented two methods of feature selection based on minimizing the CPL criterion function: basic SEKWEM/GENET method, in which the selection of features is done in conjunction with the construction of a linear classifier separating objects from different decision classes, and the RLS method extending the primary method by linear separability relaxation stage in order to obtain a subset of features with better generalization ability. The results of the SEKWEM/GENET and RLS methods were confronted with the results obtained from other common feature selection methods in application to the state of the art microarray data sets.

PL

Selekcja cech jest metodą analizy danych powszechnie stosowaną jako wstępny krok w technikach klasyfikacji czy rozpoznawania wzorców. Ma ona szczególne znaczenie w sytuacji gdy dane reprezentowane sa˛ w wysoko wymiarowej przestrzeni cech. Przykładem takich danych są zbiory bioinformatyczne, a w szczególności dane uzyskane na podstawie mikromacierzy DNA. W pracy przedstawione zostały dwie metody selekcji cech bazujące na minimalizacji funkcji kryterialnych typu CPL: podstawowa metoda SEKWEM/GENET, w której selekcja cech dokonywana jest w połączeniu z budową liniowego klasyfikatora separującego obiekty z różnych klas decyzyjnych, oraz metoda RLS rozszerzająca podstawową metodę o etap relaksacji liniowej separowalności w celu uzyskania podzbioru cech o lepszych zdolnościach generalizacji. Wyniki metod SEKWEM/GENET i RLS zostały także skonfrontowane z wynikami uzyskanymi z innych popularnych metod selekcji cech w zastosowaniu do „benchmarkowych” zbiorów danych mikromacierzowych.

5

Feature selection using CPL criterion functions

Łukaszuk T.

Zeszyty Naukowe Politechniki Białostockiej. Informatyka

|

2009

|

Z. 4

85-95

PL

Redukcja wymiarowości zbioru cech jest często używanym wstępnym krokiem przetwarzania danych stosowanym przy rozpoznawaniu wzorców i klasyfikacji. Jest ona szczególnie istotna kiedy mała liczba obserwacji jest reprezentowana w wysoko wymiarowej przestrzeni cech. W artykule rozważana jest metoda selekcji cech opierająca się na minimalizacji specjalnej funkcji kryterialnej (wypukłej i odcinkowo-liniowej - CPL). Załączono także porównanie wyników eksperymentów uzyskanych za pomoc ą opisanej metody z wynikami metod uczestników konkursu NIPS2003 Feature Selection Challenge.

EN

Dimensionality reduction of a feature set is a common preprocessing step used for pattern recognition and classification applications. It is particularly important when a small number of cases is represented in a highly dimensional feature space. The method of the feature selection based on minimisation of a special criterion function (convex and piecewise-linear - CPL) is considered in the article. A comparison of the experimental results of this method with the results of NIPS2003 Feature Selection Challenge participant’s methods is also included.

6

Feature selection based on relaxed linear separability

Bobrowski L., Łukaszuk T.

Biocybernetics and Biomedical Engineering

|

2009

|

Vol. 29, no. 2

43-58

EN

Feature selection problem appears where large number of features constraint effective data analysis and processing. Identification of the most important feature subsets is a crucial challenge in many important applications. For example, a basic question in bioinformatics which is identification of genes functionalities, can be formulated and answered as a problem of this kind. Identification of the most important feature subsets through minimisation of convex and piecewise-linear (CPL) criterion function is described and analysed in the paper. This approach is combined with relaxation of the linear separability assumption.

7

Szeregowanie zadań obliczeniowych z zastosowaniem modelu rangowego

Bobrowski L., Łukaszuk T.

Zeszyty Naukowe Politechniki Białostockiej. Informatyka

|

2008

|

Z. 3

5-21

PL

Zagadnienia szeregowania zadań pojawiają się między innymi w kontekście problemów realizowalności dużych procesów obliczeniowych i ich optymalizacji. Przy rozstrzyganiu tego typu problemów można wykorzystywać metody regresji rangowej. Do celów konstrukcji modeli regresji rangowej poszczególne zadania obliczeniowe charakteryzowane są poprzez wielowymiarowe wektory zależności. Wektory zależności pozwalają stwierdzić czy określone zadanie może być zrealizowane tylko wtedy, gdy zostaną wcześniej zrealizowane pewne inne zadania. Regresja rangowa obejmuje konstrukcję takich odwzorowań liniowych z wielowymiarowej przestrzeni zalżności na przestrzeń jednowymiarową (linię czasu), która odzwierciedla w możliwie dużym stopniu zależności pomiędzy zadaniami.

EN

The issues of scheduling of tasks are found, among other things, in connection with the problems of realizeable of big computing processes and optimisation of them. The ranked regresion methods can be used to determine of this kind of problems. Separate computing tasks are characterized by multidimensional vectors of dependences in order to form the ranked regresion models . The vectors of dependences allow to state whether particular task can be realised only when certain other tasks have realised before. The ranked regresion includes the designing of such linear transformations from the multidimensional space of dependences to unidimensional space (time line), which reflect the dependences beetwen task as well as possible.

8

Temporalność w modelach rangowych

Łukaszuk T., Bobrowski L.

Zeszyty Naukowe Politechniki Białostockiej. Informatyka

|

2007

|

Z. 2

79-91

PL

W zbiorze danych określony jest pewien porządek czasowy dla wybranych obiektów. Poprzez model rangowy rozumiemy taką liniową transformację, która zachowuje w najlepszym możliwym stopniu wiedzę a priori o uporządkowaniu obiektów. W artykule przedstawiono koncepcję budowy modelu rangowego opierając się na minimalizacji wypukłej i odcinkowo-liniowej (CPL) funkcji kryterialnej. Zagadnienie zostało sprowadzone do problemu znalezienia optymalnej hiperpłaszczyzny rozdzielającej zbiory zbudowane z elementów powstałych z różnic arytmetycznych wektorów cech tworzących pary, dla których określony jest porządek czasowy.

EN

A known temporal order between selected objects in a data set is given. We assume the ranked model is such a linear transformation, which preserve in the most possible manner the a priori knowledge of the order between objects. The procedure of the ranked models design which is based on the minimisation of the convex and piecewise linear (CPL) criterion functions is presented in the paper. The task of the ranked model design is boiled down to the problem of searching an optimal hyperplane separated the sets constructed on the basis of the elements created from the arithmetic substractions of the vectors - the pairs with the given temporal order.