Praca przedstawia hierarchiczne podejście do selekcji genów odpowiedzialnych za choroby nowotworowe. Metoda składa się z dwu etapów. W pierwszym etapie zastosowano 8 różnych metod wartościowania genów według ich zdolności rozpoznawczej, w tym 2 metod opartych na liniowej sieci SVM, dyskryminancie Fishera, analizie korelacyjnej danych oraz zastosowaniu hipotez statystycznych, (3 odmiany metody Kołmogorowa-Smirnowa oraz test Wilcoxona). Na podstawie statystycznych wyników selekcji 100 najlepszych genów wyselekcjonowanych przy użyciu każdej metody w drugim etapie przetwarzania poszukuje się cech wspólnych, które traktuje się jako cechy optymalne, najlepiej różnicujące próbki danych należących do różnych klas nowotworowych. W pracy skoncentrowano się na wynikach eksperymentów numerycznych i ich analizie dla trzech przypadków nowotworów: białaczka, nowotwór prostaty i płuc. Pokazano, że zaproponowane podejście pozwala uzyskać dobre wyniki separacji różnych rodzajów nowotworów, widoczne zarówno na obrazie graficznym rozkładu macierzy ekspresji jak i w miarach numerycznych jakości separacji.
EN
The paper proposes the hierarchical approach to the selection of the optimal set of genes for cancer recognition on the basis of the gene expression microarray. In the first stage 8 different methods of gene selection are applied to the microarray of gene expression. They include the application of linear Support Vector Machine, the Fisher discriminant ratio, the correlation analysis and statistical hypothesis tests (Kolmogorov-Smirnov, Wilcoxon-Mann-Whitney). On the basis of statistical results of each selection method 100 most discriminative genes (the genes most often appearing in the selected set) are selected first. Then in the second stage the genes selected by all methods are compared. Only the genes discriminated simultaneously by all selected methods are chosen. In this way small number of the genes associated with the appropriate cancer type is selected. The numerical experiments performed for different types of cancer (prostate, lung cancer, leukemia) have proved the efficiency of the proposed approach. The PCA distribution of data and the distance measures associated with PCA have shown that the selected genes discriminate different cancer types very well. Also the graphical representation of the considered data show significant improvement of the recognition ability of the selected genes.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.