PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Training set size in ensemble feature selection for clinical proteomics

Autorzy
Identyfikatory
Warianty tytułu
EN
Analiza rozmiaru zbioru treningowego w zespołowej metodzie selekcji cech na potrzeby proteomiki klinicznej
Języki publikacji
EN
Abstrakty
EN
The SELDI-TOF mass spectrometry has been recently shown to be useful in diagnosis of a range of cancer types. In the procedure, samples of body fluids are subject to proteomic analysis using mass spectrometry, resulting in highly dimensional fingerprints. The fingerprints gathered from a set of cancer and control patients allow for creation of a machine learning-based method for diagnosing cancer. In this paper, we analyse the effects of the number of examples in the training set used for constructing a classifier distinguishing blood samples from normal and ovarian cancer patients. We employ a version of our FLD boosting classifier, extended to include a feature selection algorithm within a single machine-learning framework. We show that when a particular type of protein chip is used in SELDI-TOF-MS analysis, the training set containing samples from only ca. 30-40 patients is suitable for creating a classifier exhibiting ca. 95% accuracy, sensitivity and specificity to ovarian cancer. The feature selection procedure incorporated into the classifier reduces to 2 the number of mass/charge values used for discrimination.
PL
Spektrometria masowa typu SELDI-TOF została w ostatnich latach zastosowana do diagnostyki nowotworów. W tym celu wykorzystywane są próbki płynów ustrojowych, które poddawane są analizie proteomicznej z wykorzystaniem spektrometru masowego. W efekcie uzyskiwany jest wielowymiarowy opis pobranej próbki. Dla zbioru pacjentów z oraz bez nowotworu możliwe jest stworzenie metody diagnostycznej opartej na metodach uczenia maszynowego. W niniejszym artykule analizujemy efekt wielkości zbioru trenującego używanego do uczenia klasyfikatora rozróżniającego próbki krwi od pacjentów zdrowych i z obecnym nowotworem jajnika. Użyty klasyfikator bazuje na metodzie zespołowej typu boosting używającej reguły decyzyjnej Fishera. Klasyfikator ten został rozszerzony o metodę selekcji cech. W artykule wykazano, iż dla odpowiedniego typu mikromacierzy białkowej użytej w metodzie spektrometrycznej SELDI-TOF, zbiór treningowy zawierający ok. 30-40 próbek pozwala na stworzenie klasyfikatora wykazującego 95%-ową dokładność klasyfikacji. Zintegrowana z klasyfikatorem metoda selekcji cech pozwala na skuteczną klasyfikację przy użyciu tylko 2 cech z widma spektrometrycznego.
Rocznik
Strony
107--110
Opis fizyczny
Bibliogr. 18 poz., wykr.
Twórcy
autor
  • Katedra Informatyki Akademii Górniczo-Hutniczej, Kraków
Bibliografia
  • 1. Adam B. L., Qu Y. et al.: Serum protein fingerprinting coupled with a pattern-matching algorithm distinguishes prostate cancer from benign prostate hyperplasia and healthy men. Cancer Research 62: 3609-14, 2002.
  • 2. Arodź T.: Boosting the Fisher Linear Discriminant with Random Feature Subsets. In: Proc. CORES'05, Advances in Soft Computing. Springer-Verlag, 2005 (in press).
  • 3. Arodź T.: Margin-based Diversity Measures for Ensemble Classifiers. In: Proc. CORES'05, Advances in Soft Computing. Springer-Verlag, 2005 (in press).
  • 4. Breiman L.: Bagging predictors. Machine Learning 24(2): 123-140, 1996.
  • 5. Freund Y., Schapire R.: A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences 55(1): 119-139, 1997.
  • 6. Hingorani S., Petricoin E. et al.: Preinvasive and invasive ductal pancreatic cancer and its early detection in the mouse. Cancer Cell 4(6): 437-450, 2003.
  • 7. Ho T.K.: Random decision forests. In: Proc. 3rd Int'l Conference on Document Analysis and Recognition. Montreal, Canada, 1995.
  • 8. Li J., Liu H., Wong L.: A comparative study on feature selection and classification methods using gene and protein expression profiles. In: Genome Informatics. Universal Academy Press, 2002.
  • 9. Li J., Zhang Z., Rosenzweig J. et al.: Proteomics and bioinformatics approaches for identification of serum biomarkers to detect breast cancer. Clin. Chem. 48(8), 2002.
  • 10. Liotta L. A., Ferrari, M., Petricoin, E.: Clinical proteomics: Written in blood. Nature 425: 905, 2003.
  • 11. Petricoin E., Ardekani, A., et al.: Use of proteomic patterns in serum to identify ovarian cancer. Lancet 359(9306): 572-577, 2002.
  • 12. Petricoin E., Liotta L.: SELDI-TOF-based serum proteomic pattern diagnostics for early detection of cancer. Current Opinion in Biotechnology 15: 24-30, 2004.
  • 13. Petricoin E., Rajapaske et al.: Toxicoproteomics: Serum proteomic pattern diagnostics for early detection of drug induced cardiac toxicities and cardioprotection. Journal of Toxicologic Pathology 32: 1-9, 2004.
  • 14. Petricoin E., Ornstein D., Paweletz C.: Serum proteomic patterns for detection of prostate cancer. Journal of the National Cancer Institute 95(6): 489-489, 2003.
  • 15. Qu Y., Adam B. L. et al.: Boosted decision tree analysis of SELDI mass spectral serum profiles discriminates prostate cancer from noncancer patients. Clinical Chemistry 48(10):1835-1843, 2002.
  • 16. Tang H., Mukomel Y., Fink E.: Diagnosis of ovarian cancer based on mass spectra of blood samples. In: Proc. IEEE Int'l Conf. Systems, Man and Cybernetics, 2004.
  • 17. Viola P., Jones M. J.: Robust real-time face detection. Int. J. Comput. Vision 57:137-154, 2004.
  • 18. Vlahou A., Schellhammer P. F. et al.: Development of a novel proteomic approach for the detection of transitional cell carcinoma of the bladder in urine. American Journal of Pathology 158: 1491-1502, 2000.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-99519300-c62d-4e33-8211-a0e915c247a6
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.