Tytuł artykułu
Autorzy
Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
Review of methods and text data mining techniques
Języki publikacji
Abstrakty
W artykule opisano autorskąklasyfikacjęmetod i technik eksploracji danych tekstowych. Opisano aktualnie dostępne oraz stosowane metody reprezentacji danych tekstowych oraz techniki ich przetwarzania. Przeprowadzono także dyskusjęna temat przetwarzania dokumentów za pomocą prezentowanych metod. Omówiono możliwości jak i ograniczenia poszczególnych prezentowanych metod do przetwarzania dokumentów tekstowych.
This article describes the author's classification of the methods and techniques of textual data mining. In this article also describes the currently available methods and sauces representation of textual data and their processing techniques. Also conducted a discussion on the processing of text documents using the presented methods. This paper also discussed the possibilities and limitations of individual methods to process the presented text documents.
Czasopismo
Rocznik
Tom
Strony
25--42
Opis fizyczny
Bibliogr. 80 poz., wykr.
Twórcy
autor
- Politechnika Białostocka Wydział Elektryczny ul. Wiejska 45A, 15-351 Białystok
Bibliografia
- [1] Mirończuk M. Eksploracja Danych w kontekscie procesu Knowledge Discovery In Databases (KDD) i metodologii Cross-Industry Standard Process for Data Mining (CRISP-DM). Metody Informatyki Stosowanej, No 2, 2009
- [2] Mirończuk M. Zmodyfikowana analiza FMEA z elementami SFTA w projektowaniu systemu wyszukiwania informacji na temat obiektów hydrotechnicznych w nierelacyjnym katalogowym rejestrze. Studia Informatica, No 2, 2011.
- [3] Mirończuk M., Maciak T. Problematyka projektowania modelu hybrydowego systemu wspomagania decyzji dla Państwowej Straży Pożarnej. Zeszyty Naukowe SGSP, No 39, 2009.
- [4] Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 29 grudnia 1999 r. w sprawie szczegółowych zasad organizacji krajowego systemu ratowniczo-gaśniczego. Dz.U.99.111.1311 § 34 pkt. 5 i 6.
- [5] Abakus: System EWID99. [on-line] [dostęp: 1 maja 2009] Dostępny w Internecie: http://www.ewid.pl/?set=rozw_ewid&gr=roz.
- [6] Abakus: System EWIDSTAT. [on-line] [dostęp: 1 maja 2009] Dostępny w Internecie: http://www.ewid.pl/?set=ewidstat&gr=prod.
- [7] Strona firmy abakus. [on-line] [dostęp: 1 marca 2009] Dostępny w Internecie: http://www.ewid.pl/?set=main&gr=aba.
- [8] Krasuski A., Kreńsk K. Ewid 9x i co dalej ? Przegląd Pożarniczy, No 6, 2006.
- [9] Mirończuk M. Przegląd i klasyfikacja zastosowań, metod oraz technik eksploracji danych. Studia i Materiały Informatyki Stosowanej SIMIS, No 2, 2010.
- [10] Mykowiecka A. Inżynieria lingwistyczna. Komputerowe przetwarzanie tekstów w języku naturalnym. Warszawa: PJWSTK, 2007.
- [11] Przepiórkowski A. Techniki dezambiguacji morfo syntaktycznej. Powierzchniowe przetwarzanie języka polskiego. Warszawa: Akademicka oficyna wydawnicza EXIT, 2008. s. 17-45.
- [12] Vetulani Z. Komunikacja człowieka z maszyną. Komputerowe modelowanie kompetencji językowej. Warszawa: Akademicka Oficyna Wydawnicza Exit, 2004.
- [13] Przepiórkowski A., Kupść A., Marciniak M., Mykowiecka A. Formalny opis języka polskiego. Teoria i implementacja. Warszawa: Akademicka Ofcyna Wydawnicza Exit, 2002.
- [14] Lubaszewski W. (redaktor) Słowniki komputerowe i automatyczna ekstrakcja informacji z tekstu. Kraków: AGH, 2009.
- [15] Feldman R., Dagan I., Hirsh H. Mining Text Using Keyword Distributions. Journal of Intelligent Information Systems, No 10, 1998.
- [16] Witten I. H., Don K. J., Dewsnip M., Tablan V. Text mining in a digital library. International Journal on Digital Libraries, No 4, 2004, s. 56-59. [17] Kozłowski J., Neuman Ł. Wspomaganie wyszukiwania dokumentów mapami samoorganizującymi. [Wrocław]: III Krajowa Konferencja MISSI 2002, 19-20 września - „Multimedialne i Sieciowe Systemy Informacyjne”, 2002. [dostęp: 10 czerwca 2009] Dostępny w Internecie: http://www.zsi.pwr.wroc.pl/zsi/missi2002/pdf/s507.pdf.
- [18] Borycki Ł., Sołdacki P. Automatyczna klasyfikacja tekstów. [Wrocław]: III Krajowa Konferencja MISSI 2002, 19-20 września - „Multimedialne i Sieciowe Systemy Informacyjne”, 2002. [dostęp: 10 czerwca 2009] Dostępny w Internecie: http://www.zsi.pwr.wroc.pl/zsi/missi2002/pdf/s504.pdf.
- [19] Neumann G., Piskorski J. A Shallow Text Processing Core Engine. Computational Intelligence, No 18, 2002, s. 451-476.
- [20] Hand D.,, Mannila H., Smith P. Eksploracja danych. Wydanie 1. Warszawa: Wydawnictwo NaukowoTechniczne, 2005.
- [21] Morzy M., Królikowski Z. Metody indeksowania atrybutów zawierajacych zbiory. Pro Dialog, No 15, 2003, s. 87-106.
- [22] Dudczak A. Zastosowanie wybranych metod eksploracji danych do tworzenia streszczeń tekstów prasowych dla języka polskiego. Wydział Informatyki i Zarządzania Instytut Informatyki. Poznań: Politechnika Poznańska 2007.
- [23] Goldszmidt M., Sahami M. A Probabilistic Approach to Full-Text Document Clustering. 1998.
- [24] Singhal A., Buckley C., Mitra M., Mitra A. Pivoted Document Length Normalization. ACM Press, 1996, s. 21-29.
- [25] Robertson S. E., Walker S., Jones S., Hancock-Beaulieu M. M., Gatford M. Okapi at TREC-3. 1996, s. 109-126.
- [26] Lin D. Using syntactic dependency as local context to resolve word sense ambiguity. [Madrid, Spain]: Annual Meeting of the ACL Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, 1997.
- [27] Matsuo Y., Ishizuka M. Keyword Extraction From A Single Document Using Word Co-Occurrence Statistical Information. International Journal on Artificial Intelligence Tools, No 13, 2004, s. 157-169.
- [28] Maciołek P., Dobrowolski G. Propozycja metody klasyfikacji dokumentów w języku polskim. In: Grzech A.,Juszczyszyn K., Kwaśnicka H. and Nguyes N.T., editors.Inżynieria wiedzy i systemy ekspertowe. Warszawa: Akademicka oficyna wydawnicza EXIT, 2009.
- [29] Chow T. W. S., Haijun Zhang, Rahman M. K. M. A new document representation using term frequency and vectorized graph connectionists with application to document retrieval. Expert Systems with Applications, No 36, 2009, s. 12023-12035.
- [30] Schenker A., Kandel A., Bunke H., Last M. GraphTheoretic Techniques for Web Content Mining. World Scientific Publishing Co, 2005.
- [31] Broda B. Mechanizmy grupowania dokumentów w automatycznej ekstrakcji sieci semantycznych dla języka polskiego. Wydział Informatyki i Zarządzania. Wrocław: Politechnika Wrocławska, 2007.
- [32] Gruber T. R. A translation approach to portable ontology specifications. Knowledge Acquisition, No 5, 1993, s. 199-220.
- [33] Meyer B. Programowanie zorientowane obiektowo 2005.
- [34] Lula P. Text mining jako narzędzie pozyskiwania informacji z dokumentów tekstowych. StatSoft, 2005.
- [35] Savinov A. Concept-Oriented Model. In: Ferraggine V. E., Doorn J. H., Rivero L. C., editors. Handbook of Research on Innovations in Database Technologies and Applications: Current and Future Trends: IGI Global, 2009.
- [36] Savinov A. Principles of the Concept-Oriented Data Model. 2004. [dostęp: 22 grudnia 2009] Dostępny w Internecie: http://conceptoriented.com/savinov/publicat/imireport’04.pdf.
- [37] Savinov A. Informal introduction into the ConceptOriented Data Model. 2005. [dostęp: 22 grudnia 2009] Dostępny w Internecie: http://conceptoriented.org/papers/ComInformalIntroduction.pdf.
- [38] Savinov AA. Concept-Oriented Model and Query Language. CoRR, No abs/0901.2224, 2009.
- [39] Praca zbiorowa Wikipedia Full text search. [dostęp: 22 grudnia 2009] Dostępny w Internecie: http://en.wikipedia.org/wiki/Full_text_search.
- [40] Moens M. F. Information Extraction: Algorithms and Prospects in a Retrieval Context (The Information Retrieval Series). Springer, 2006.
- [41] Bikel D. M., Schwartz R., Weischedel R. M. An Algorithm that Learns What's in a Name. Machne Learning, 1999, s. 211-231.
- [42] McNamee P. Language identification: a solved problem suitable for undergraduate instruction. Journal of Computing Sciences in Colleges, No 20, 2005, s. 94 -101
- [43] He X., Yang M., Gao J., Nguyen P., Moore R. Improved Monolingual Hypothesis Alignment for Machine Translation System Combination. No 8, 2009, s. 1-19.
- [44] Feng Y., Liu Y., Mi H., Liu Q. Lattice-based system combination for statistical machine translation. [Singapore]: Proceedings of the 2009 Conference on Empirical Methodsin Natural Language Processing. Volume 3, 2009.
- [45] He X., Toutanova K. Joint optimization for machine translation system combination. [Singapore]: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Volume 3, 2009.
- [46] Afantenos S., Karkaletsis V., Stamatopoulos P. Summarization from medical documents: a survey. No 33, 2005, s. 157-177.
- [47] Turney P. D. Learning Algorithms for Keyphrase Extraction. Information retrieval, No 2, 2000, s. 303-336.
- [48] Turney P. D. Mining the Web for Lexical Knowledge to Improve Keyphrase Extraction: Learning from Labeled and Unlabeled Data. 2002.
- [49] Indyka-Piasecka A. Model użytkownika w internetowych systemach wyszukiwania informacji WydziałInformatyki i Zarządzania. Wrocław: Politechnika Wrocławska, 2004.
- [50] Dasgupta A., Drineas P., Harb B., Josifovski V.,Mahoney M. W. Feature selection methods for text classification. [San Jose, California, USA]: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, 2007.
- [51] Li S., Xia R., Zong C., Huang C. R. A framework of feature selection methods for text categorization. [Suntec, Singapore]: Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP.Volume 2, 2009.
- [52] Karlgren J., Sahlgren M. From Words to Understanding. 2001. [dostęp: 10 stycznia 2010] Dostępny w Internecie: http://www.sics.se/~mange/papers/KarlgrenSahlgren2001.pdf.
- [53] Liu H., Yu L. Toward integrating feature selection algorithms for classification and clustering. Knowledge and Data Engineering, IEEE Transactions on, No 17, 2005, s. 491-502.
- [54] Guyon I., Elisseeff A. Introduction to Feature Extraction. Studies in Fuzziness and Soft Computing. Berlin/Heidelberg: Springer 2006.
- [55] Torkkola K. Feature extraction by non parametric mutual information maximization. The Journal of Machine Learning Research, No 3, 2003, s. 1415-1438 [56] Pal S. K., Mitra P. Pattern Recognition Algorithms for Data Mining Scalability, Knowledge Discovery and Soft Granular Computing. London New York Washington, D.C.: CHAPMAN & HALL/CRC, 2004.
- [57] Praca zbiorowa JMLR Special Issue on Variable and Feature Selection. [dostęp: 5 stycznia 2010] Dostępny w Internecie: http://jmlr.csail.mit.edu/papers/special/feature03.html.
- [58] Deerwester S., Dumais S. T., Furnas G. W., Landauer T. K., Harshman R. Indexing by latent semantic analysis. Journal of the American Society for Information Science, No 41, 1990, s. 391-407.
- [59] Kozłowski M. Systemy uczące się - studium problemów. Warszawa: Politechnika Warszawska, WydziałElektroniki i Technik Informacyjnych. [dostęp: 12 stycznia 2010] Dostępny w Internecie: http://home.elka.pw.edu.pl/~mkozlow3/artykuly/M.Kozlowski.pdf.
- [60] Tuv E. Ensemble Learning. In: Guyon I., Gunn S., Nikravesh M., Zadeh L. A., editors. Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing) (Hardcover): Springer, 2006.
- [61] Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. Boston: Addison-Wesley Longman Publishing, 1999.
- [62] Manning C. D., Raghavan P., Schtze H. Introduction to Information Retrieval. Cambridge University Press India, 2008.
- [63] Song F., Liu S., Yang J. A comparative study on text representation schemes in text categorization. Pattern Analysis & Applications, No 8, 2005, s. 199-209
- [64] Weigend A. S., Wiener E. D., Pedersen J. O. Exploiting Hierarchy in Text Categorization. Information Retrieval, No 1, 1999.
- [65] Yang Y., Liu X. A re-examination of text categorization methods. [New York]: ACM SIGIRConference of Research and Development in Information Retrieval, 1998.
- [66] Łażewski Ł., Pikuła M., Siemion A., Szklarzewski M. Klasyfikacja dokumentów tekstowych. Warszawa: PJWSTK 2005. Dostępny w Internecie: http://www.scribd.com/doc/2242106/Klasyfikacjadokumentow-tekstowych.
- [67] Agarwal S., Yu H. Automatically classifying sentences in full-text biomedical articles into Introduction, Methods, Results and Discussion. Bioinformatics, No 25, 2009, s. 3174-3180.
- [68] Sebastiani F. Machine learning in automated text categorization. ACM Comput Surv, No 34, 2002, s. 1-47.
- [69] Aas K., Eikvil L. Text Categorisation: A Survey. Technical Report, Norwegian Computing Center 1999.
- [70] Weiss S., White B., Apte C., Weiss S. M., White B. F., Apte V. Lightweight Document Clustering. 2000.
- [71] Domeniconi C., Gunopulos D., Ma S., Papadopoulos D., Yan B. Locally adaptive metrics for clustering high dimensional data. Data Mining and Knowledge Discovery, No 1, 2006, s. 63-97.
- [72] Solka J. L. Text Data Mining: Theory and Methods. Statistic Survey.
- [73] Everitt B. S., Landau S., Leese M. Cluster Analysis. 2001.
- [74] Kohonen T. Self-Organizing Maps. In: Sciences S.S.i.I., editor. Wydanie 3. Berlin: Springer, 2001.
- [75] Dempster A. P., Laird N. M., Rdin D. B. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society, No 39, 1977, s. 1-38.
- [76] Rutkowski L. Metody i techniki sztucznej inteligencji. Wydawnictwo Naukowe PWN, 2005.
- [77] Wolff K. E. A first course in formal concept analysis. 1994. [dostęp: 22 grudnia 2009] Dostępny w Internecie: http://www.fbmn.fhdarmstadt.de/home/wolff/Publikationen/A_First_Course_in_Formal_Concept_Analysis.pdf.
- [78] Friedman V. Data Visualization: Modern Approaches. [dostęp: 29 grudnia 2009] Dostępny w Internecie: http://www.smashingmagazine.com/2007/08/02/datavisualization-modern-approaches/.
- [79] Piwowar K. Wizualizacja danych a ich używalność –czyli pokazać to tak, aby inni to zrozumieli. [dostęp: 29 grudnia 2009] Dostępny w Internecie: http://interaktywnie.com/biznes/blogekspercki/blogi/wizualizacja-danych-a-ich-uzywalnosc-8211-czyli-pokazac-to-tak-aby-inni-to-zrozumieli-384.
- [80] Osiński S., Weiss D. Projekt „Lingo” i Carrot2. [dostęp: 1 stycznia 2010] Dostępny w Internecie: http://carrot.cs.put.poznan.pl/stable/search.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-efe523eb-ba85-4866-8c58-b516b717e94d