Identyfikatory
Warianty tytułu
Analysis of imbalanced data using morphometric parameters in diagnosis of bladder cancer
Języki publikacji
Abstrakty
Artykuł przedstawia wyniki rozważań dotyczących klasyfikacji danych niezrównoważonych w obrazach mikroskopowych preparatów cytologicznych. Do klasyfikacji wykorzystano algorytmy uczenia nadzorowanego jak: naiwny klasyfikator Bayesa, analiza dyskryminacyjna, drzewa decyzyjne oraz zaproponowany przez autorów algorytm klasyfikacji będący połączeniem zbiorów przybliżonych i metody k-najbliższych sąsiadów. Do analizy wykorzystano opracowane przez autorów narzędzie Rough Sets Analysis Toolbox (RSA Toolbox) - przybornik dla środowiska MATLAB. Wykorzystane obrazy mikroskopowe uzyskano w procesie diagnostyki nowotworu pęcherza moczowego badając metodą FISH odpowiednio przygotowane preparaty moczu.
In the paper the results of imbalanced data classification based on microscope images are described. The images were acquired in the process of bladder cancer diagnosis using the FISH method. The conducted research were focused on the effectiveness of the initial cancer diagnosis using specimen radiation in a DAPI channel and supervised learning methods. The analyzed data set contains about 23,000 objects described by 212 morphometric features. Each object was classified to one of two classes: normal cells or cancers cells. Decisions about belonging objects to the corresponding classes were carried out by an expert. There were identified only 640 cancer cells in the analyzed data. Most of learning algorithms assume balance between classes. The class imbalance problem causes difficulties at a learning stage and reduces the predictive ability. Therefore, the classifier evaluation was performed using G-mean and F-value measures. The authors defined additional measure FMaxSen=sen2ospe which is the product of sensitivity and specificity coefficients. Use of the second power factor emphasizes the importance of sensitivity and allows searching the classifier with the maximum specificity at the maximum sensitivity. The analysis presented in the paper was performed with use of Rough Sets Analysis Toolbox (RSA Toolbox) for MATLAB implemented by the authors. The main part of the RSA Toolbox contains a module which supports the rough sets theory processing. Another part (RSAm module) is a wrapper for the proposed rough classification functions and others implemented in Matalab such as NaiveBayes, Discriminant Analysis, Decision Tree. The RSAm gives us possibility to use cross validation for measuring the classification accuracy. The RSAm also contains features reduction algorithms (correlation based feature selection, sequential feature selection, principal component analysis) as well as discretizations algorithms (EWD, CAIM, CACC). An important part of the RSAToolbox is implementation of distributed computations using Matlab Parallel Computing Toolbox and Distributed Computing Server.
Wydawca
Czasopismo
Rocznik
Tom
Strony
737--740
Opis fizyczny
Bibliogr. 16 poz., rys., wzory
Twórcy
autor
autor
- Politechnika Opolska, Wydział Elektrotechniki, Automatyki i Informatyki, Instytut Automatyki i Informatyki, ul. Sosnkowskiego 31, 45-272 Opole, e.piotrowska@po.opole.pl
Bibliografia
- [1] Brown T. A.: Genomy, Wydawnictwo Naukowe PWN. Warszawa, 2001.
- [2] Zając M., Wiśniewska M.: Zastosowanie fluoroscencyjnej hybrydyzacji in situ (FISH) w identyfikacji zmian materiału genetycznego u osób z niepełnosprawnością intelektualną. Nowiny Lekarskie 2003, 72, 1, s. 9-13.
- [3] Oliveira A. M., French C. A.: Applications of Fluorescence in Situ Hybridization in Cytopathology. Acta Cytologica. Vol. 49, No. 6, 2005.
- [4] Zieliński K., Strzelecki M.: Wybrane zagadnienia ocen ilościowych i przetwarzania obrazów. Biocybernetyka i inżynieria biomedyczna. T8. Obrazowanie biomedyczne. Red. L. Chmielewski, J. Kulilkowski, A. Nowakowski. Warszawa 2003. Akadem. Oficyna. Wydaw. Exit.
- [5] Plesch A., Loerch T.: Metafer a Novel Ultra High Throughpt Scanning System for Rare Cell Detection and Automatic Interphase FISH Scoring. Early Prenatal Diagnosis, Fetal Cells and DNA in the Mother, Present State and Perspectives. 12th Fetal Cell Workshop, Prague, May 2001, pp. 329-339.
- [6] Niemiewski M.: Rekonstrukcja i segmentacja obrazów w morfologii matematycznej. Biocybernetyka i inżynieria biomedyczna. T8. Obrazowanie biomedyczne. Red. L. Chmielewski, J. Kulilkowski, A. Nowakowski. Warszawa 2003. Akadem. Oficyna. Wydaw. Exit, s. 83-125.
- [7] Zieliński K.: Parametry morfometryczne wykorzystywane w pomiarach biomedycznych. Biocybernetyka i inżynieria biomedyczna. T8. Obrazowanie biomedyczne. Red. L. Chmielewski, J. Kulilkowski, A. Nowakowski. Warszawa 2003. Akadem. Oficyna. Wydaw. Exit, s. 165-177.
- [8] Guz T.: Poprawa efektywności klasyfikatora „Box Classifier” w systemie „Metafer”. XIII Konferencja „Sieci i Systemy Informatyczne”, Łódź, 2005.
- [9] Szydłowska (Piotrowska) E. „Implementation of dimensionality reduction method in analysis of cell morphometric features”, X International PhD Workshop, OWD’2008, 18-21 October 2008, s. 129-132.
- [10] Chawla N.: Data Mining for Imbalanced Datasets: An Overview. Data Mining and Knowledge Discovery Handbook. Maimon O. Rokach L., 2010, Part 6, 875-886.
- [11] Fernández A., García S., Herrera F.: Addressing the Classification with Imbalanced Data: Open Problems and New Challenges on Class Distribution. Hybrid Artificial Intelligent Systems. Lecture Notes in Computer Science, 2011, Vol. 6678/2011, pp. 1-10.
- [12] García V., Sánchez J. S., Mollineda R. A.: Exploring the Performance of Resampling Strategies for the Class Imbalance Problem. Trends in Applied Intelligent Systems Lecture Notes in Computer Science, 2010, Volume 6096/2010, pp. 541-549.
- [13] Japkowicz N.: Learning from Imbalanced Data sets: A Comparison of Various Strategies. In Proceedings of the AAAI’2000 Workshop on Learning from Imbalanced Data Sets, Austin, TX.
- [14] Stefanowski J., Wilk S.: Combining Rough Sets and Rule based Classifiers for Handling Imbalanced Data. In: Czaja L. (ed.) Proceedings of Concurrency, Specification and Programming CS&P 2005 Conference, vol. 2, 2005, 497-508.
- [15] Piotrowska E., Stanisławski W.: Zastosowanie Rough Sets Analysis Toolbox pakietu MATLAB w zadaniach rozpoznawania wzorców. XVII Krajowa Konferencja Automatyki, Kielce, 2010, Streszczenia referatów, s. 99-100.
- [16] Daniely M., Rona R., Kaplan T., Olsfanger S., Elboim L., Zilberstiena Y., Freibergera A.,Kidronc D. Lew S., Leibovitch I.: Combined analysis of morphology and fluorescence in situ hybridization significantly increases accuracy of bladder cancer detection in voided urine samples. Urology. Vol. 66, I. 6, 2005, pp. 1354-1359.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BSW4-0123-0011