PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Nadzorowana kategoryzacja tekstów angielskojęzycznych

Treść / Zawartość
Identyfikatory
Warianty tytułu
EN
Supervised English text classification
Języki publikacji
PL
Abstrakty
PL
Klasyfikacja tekstów jest szybko rozwijającą się dziedziną, korzystającą zarówno z metod sztucznej inteligencji, jak i metod wyszukiwania i udostępniania informacji (IR). W obecnym czasie, duża liczba praktycznych zastosowań tego zagadnienia wiąże się np. z sortowaniem tekstów naukowych, technicznych, medycznych, patentowych, wypełnianiem hierarchicznych katalogów sieciowych, selektywnym udostępniałem dokumentów, filtracją spamu. Zagadnienie kategoryzacji tekstów, ze względu na dużą liczbę atrybutów opisujących dokumenty, duży rozmiar zbioru uczącego, a także zależności pomiędzy atrybutami, jest wyzwaniem dla współczesnych metod badawczych. W pracy przedstawiono algorytm klasyfikacji tekstu, bazujący na metodzie centroidów oraz drzewie decyzyjnym. Zaprezentowano rozbudowane badania proponowanego algorytmu.
EN
Text classification is a growing area of research at the intersection of information retrieval (IR) and machine learning. The goal of text classification systems is to attach automatically labels to previously unseen electronic documents. These labels may indicate topics discussed in the document, the relevance of the document for a given user, the mailbox or newsgroup into which the document should be filed. Text categorization presents unique challenges due to the large number of attributes present in the data set, large number of training samples, and attribute dependencies. In this paper we present a supervised classification algorithm based on centroids method and decision trees. This paper presents comprehensive computational experiments examining the efficiency of proposed classification algorithms.
Wydawca
Rocznik
Strony
811--826
Opis fizyczny
Bibliogr. 16 poz., rys., wykr., tab.
Twórcy
autor
  • Katedra Automatyki, Wydział EAIiE, Akademia Górniczo-Hutnicza w Krakowie
  • Katedra Automatyki, Wydział EAIiE, Akademia Górniczo-Hutnicza w Krakowie
autor
  • Katedra Informatyki Stosowanej, Wydział Zarządzania, Akademia Górniczo-Hutnicza w Krakowie
Bibliografia
  • [1] Fellbaum Ch.(ed.), WordNet: An Electronic Lexical Database. MIT Press, 1998.
  • [2] Han E.H, Karypis G., Centroid-Based Document Classification: Analysis & Experimental Results. Proc. of the Fourth European Conference on the Principles of Data Mining and Know-ledge Discovery, 2000, 424-431.
  • [3] Han E.H, Karypis G., Centroid-based document classification algorithms: Analysis & experimental results. Technical Report TR-00-017, Department of Computer Science, University of Minnesota, Minneapolis, 2000.
  • [4] Hunt E.B., Marin J., Stone P.J., Experiments in Induction. Academic Press, New York, 1966.
  • [5] Lam W., Ho Ch. Y., Using a generalized instance set for automatic text categorization. Proc. of the 21 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Melbourne, 1998, 81-89.
  • [6] Lewis D.D., Shapire R.E., Callan J.P., Papka R., Training algorithms for linear text classifiers. Proc. of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Geneva, 1996, 298-306.
  • [7] Masand B., Linoff G., Waltz D., Classifying news stories using memory based reasoning. Proc. of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Copenhagen, 1998, 59-64.
  • [8] McCallum A., Nigam K.A., Comparison of event models for naive bayes text classification. Proc. AAAI/ICML-98 Workshop on Learning for Text Categorization, Technical Report WS-98-05, 1998.
  • [9] Ogwang T., A Convenient Method of Computing the Gini Index and its Standard Error. Oxford Bulletin of Economics and Statistics, 62, Oxford, 2000, 123-129.
  • [10] Quinlan J.R., C4.5: Programs for Machinę Learning. Morgan Kaufmann Publishers, 1993.
  • [11] Quinlan J.R., lmproved use of continuous attributes in c4.5. Journal of Artificial Intelligence Research, 4, 1996, 77-90.
  • [12J Reuters-21578 text categorization test collection. www.daviddlewis.com/ resources/ testcollections/reuters21578, Cambridge, 1998.
  • [13] Sebastiani F., Text Categorization. Dipartimento di Matematica Pura e Applicata Universit'a di Padova, Padwa, 2004.
  • [14] Tibshirani R., Hastie T., Narasimhan B., Chu G., Diagnosis of multiple cancer types by shrunkn centroids of gene expression. Department of Health, Research and Policy, and Statistics, Stanford University, Stanford, 2002.
  • [15] Vapnic V, The Naturę of Statistical Learning Theory. Springer, 1995.
  • [16] Yang Y., Liu X., A re-examination of text categorization methods. Proc. of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Geneva, 1999, 42-49.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-AGH1-0025-0106
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.