In the paper the possibilities of assessing the variable influence on the failure occurrence is shown. Ensemble of dipolar survival trees is used as a prediction tool. The technique is able to cope with censored data (data with incomplete observations) as well as with competing risks data. The results are presented on the base of two real datasets for which the influence of discrete and continuous variables is examined. To this purpose, the cumulative incidence functions and the quartiles of CIF functions are applied
PL
W pracy przedstawione zostały możliwości graficznej weryfikacji hipotez dotyczących wpływu poszczególnych cech na czas wystąpienia porażki. Jako narzędzie prognostyczne zostały wykorzystane predyktory złożone, w których dipolowe drzewa przeżycia służą jako pojedyncze predyktory. Algorytm tworzenia predyktorów złożonych wykorzystuje informację pochodzącą z obserwacji cenzorowanych, jak również jest przystosowany do danych z konkurencyjnym ryzykiem. Eksperymenty zostały wykonane przy użyciu dwóch zbiorów danych: zbiór opisujący pacjentki z rakiem piersi i drugi - opisujący pacjentów z chłoniakiem grudkowym. Pierwszy z analizowanych zbiorów posłużył jako przykład do badania wpływu zmiennych dyskretnych. W tym celu wyznaczone zostały dystrybuanty (ang. cumulative incidence function) dla wyróżnionych dwóch zdarzeń konkurencyjnych i dwóch cech: rodzaju leczenia oraz typu histologicznego raka. W przypadku zbioru z chłoniakiem grudkowym badane były cechy ciągłe: wiek oraz wartość hemoglobiny. Analiza tych danych opierała si˛e na wyznaczeniu wartości kwartyla pierwszego oraz mediany z funkcji dystrybuanty, wyznaczonej dla czasu nawrotu choroby.
In the paper, comparative analysis of ensembles of dipolar neural networks and regression trees was conducted. The techniques are based on the dipolar criterion function. Appropriate formation of dipoles (pairs of feature vectors) allows using them for analysis of censored survival data. As the result the methods return aggregated Kaplan-Meier survival function. The results, obtained by neural networks and regression trees based ensembles, are compared by using Brier score and direct and indirect measures of predictive accuracy.
PL
Wpracy przedstawiona została analiza porównawcza własności prognostycznych komitetów bazujących na sieciach neuronowych oraz drzewach regresyjnych. Tworzenie kolejnych się przestrzeni cech w obu metodach polega na minimalizacji odpowiednio skonstruowanego kryterium dipolowego. Do porównania metod wykorzystano indeks Brier’a oraz pośrednią i bezpośrednią miarę jakości predykcji. Eksperymenty wykonane zostały w oparciu o dwa rzeczywiste zbiory danych: pacjentów z pierwotną marskością źółciową wątroby oraz z rakiem płuc. W obu przypadkach wyniki otrzymane dla komitetu drzew regresyjnych były lepsze niż dla komitetu sieci neuronowych. Dotyczyło to zarówno badania jakości całego modelu, do którego wzięte zostały wszystkie dostępne w zbiorze cechy, jak też jakości prognostycznej pojedynczych cech. Natomiast uszeregowanie poszczególnych cech jako czynników ryzyka było podobne w obu metodach. Podsumowując można powiedzieć, że sposób podziału przestrzeni cech zaproponowany w drzewach regresyjnych w lepszy sposób wykorzystuje informacje zawarte w zbiorze uczącym.
W pracy bezwzględny błąd predykcji jest wykorzystywany do oceny jakości prognostycznej poszczególnych cech. Narzędzie prognostyczne - lasy losowe - jest konstruowane w celu uzyskania estymatora funkcji przeżycia. Jest on następnie porównywany z estymatorem funkcji przeżycia Kaplana-Meiera, utworzonym przy założeniu jednorodności populacji. Elementem składowym lasów są dipolowe drzewa przeżycia. Zastosowanie dipolowej funkcji kryterialnej pozwala wykorzystać niepełną informację o czasie zajścia porażki, pochodzącą z obserwacji obciętych.
EN
In the paper, predictive accuracy measured as the absolute predictive error is used to evaluate the quality of covariates. The prognostic tool - random forests - is built to receive the aggregated survival function. The function is compared to Kaplan-Meier estimator of survival function with assumption that the population is homogenous. The induction of individual dipolar survival tree is based on minimization of a piece-wise linear function - dipolar criterion. The algorithm allows using the information from censored observations for which the exact survival time is unknown.
4
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
In the paper, the application of random forest for prediction of survival time is presented. The observed data loss function is based on inverse probability of censoring weights. The random forest consists of the sequence of multivariate regression trees created on the base of the learning sets, randomly generated from the given dataset. The applied regression trees use minimization of dipolar criterion function for finding the splits in the internal nodes.
5
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
In this paper a new method for induction of multivariate regression trees is presented. The technique is designed for the survival time prediction and based on given data. The proposed method aims at identification of subgroups of patients with homogenous survival experience i.e. homogenous response for a given treatment. The method allows using information from censored cases for which the exact failure time is unknown. An appropriate degree of generalization is obtained by using a pruning algorithm, which is based on rank correlation coefficient D.
6
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
The procedure of designing the non-linear dependencies of survival time on a family of covariates is described in the paper. This dependence is treated as a prognostic model. The first stage of this procedure involves designing such layers of formal neurons which are ranked with respect to selected subsets of censored data. The model based on the hierarchical networks of formal neurons results in the piecewise constant dependence of the survival time on the covariates. The replacement of the formal neurons by the logistic ones made it possible transform this dependence into differentiable, regression-type function.
7
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Statistical methods which are usually applied in survival data analysis often require some prior assumptions on the studied phenomena. In the case of the Iack of such knowledge other techniques have been proposed. Among them neural networks have been recently pointed out to be a very promising tool to cope with survival data. In the paper we consider a modular neural network applied to the grouped survival data. A predictor designing procedure is based on a concept of dipoles and exploits a dipolar criterion function. A modification of the training process, which alIows to deal with censored data and to receive "crude" estimates of the conditional failure probabilities, is proposed.
PL
Metody statystyczne zwykle stosowane w analizie przeżyć wymagają przyjęcia wielu założeń a priori o badanym zjawisku. W przypadku braku wiedzy o naturze badanego zjawiska tego typu założenia mogą być nadmiernie ograniczające. Zostały rozwinięte alternatywne metody analizy przeżyć zależne w mniejszym stopniu od założeń początkowych. W tej grupie znaczną rolę mają metody bazujące na sieciach neuropodobnych. W pracy analizowano możliwość wykorzystania modułowych sieci neuropodobnych w analizie przeżyć. Wykorzystuje się tu procedury projektowania sieci neuropodobnych na bazie dipolowej funkcji kryterialnej. Zaproponowano modyfikację procedury uczenia sieci, która pozwala na posługiwanie się danymi cenzorowanymi i wstępne estymowanie wartości prawdopodobieństw warunkowych porażki.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.