Tytuł artykułu
Autorzy
Identyfikatory
Warianty tytułu
The mechanism of identification and classification of content
Języki publikacji
Abstrakty
Artykuł opisuje mechanizm identyfikacji i klasyfikacji treści, oparty na metodzie ważenia terminów, bazującej na odwrotnej częstości dokumentowej, częstości wystąpienia terminu i odległości Levenshteina. Zaproponowany mechanizm zaimplementowano w program analizujący tematy i opisy prac dyplomowych, w celu automatycznego doboru promotorów i recenzentów.
This paper presents the mechanism of identification and classification of content, based on terms weighted method with inversed document frequency analysis and Levenstein distance technique. The proposed mechanism is applied in the analysis of topics and descriptions of selected diploma thesis, to automatic selection of supervisors and reviewers.
Czasopismo
Rocznik
Tom
Strony
205--222
Opis fizyczny
Bibliogr. 12 poz.
Twórcy
autor
- Politechnika Krakowska, Wydział Fizyki, Matematyki i Informatyki, ul. Podchorążych 1, 30-084 Kraków, Polska
autor
- Politechnika Krakowska, Wydział Fizyki, Matematyki i Informatyki, ul. Warszawska 24, 31-155 Kraków, Polska
Bibliografia
- 1. Manning C. D., Prabhakar R., Hinrich S.: Introduction to Information Retrieval. Cambridge University Press, 2008.
- 2. Beeferman D., Berger A., Lafferty J.: Statistical models for text segmentation. Mach. Learn., Vol. 34(1-3), 1999, s. 177÷210.
- 3. Lin D.: Automatic retrieval and clustering of similar words. COLING 1998, ACL, 1998, s. 768÷774.
- 4. Левенштейн В. И.: Двоичные коды с исправлением выпадений, вставок и заме-щений символов. Доклады Академий Наук СCCP, 163 (4), 1965, s. 845÷848.
- 5. Piasecki M., Broda B.: Semantic similarity measure of Polish nouns based on linguistic features. Business Information Systems 10th International Conference, Poznań, Lecture Notes in Computer Science, Vol. 4439, Springer, 2007.
- 6. Robertson S.: Understanding Inverse Document Frequency: On theoretical arguments for IDF. Journal of Documentation, Vol. 60, No. 5, 2004, s. 503÷520.
- 7. Hamming R. W.: Error Detecting and Error Correcting Codes. The Bell System Technical Journal, Vol. XXIX, 1950.
- 8. Witten I. H., Paynter G. W., Frank E., Gutwin C., Vevill-Manning C. G.: KEA: practical automatic keyphrase extraction. DL’99 Proceedings of the fourth ACM conference on Digital libraries, 1999.
- 9. Lawrie D., Croft W. B., Rosenberg A.: Finding topic words for hierarchical summarization. SIGIR ‘01 Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, 2001.
- 10. Ventura J., da Silva J. F.: Ranking and Extraction of relevant Single Words in Text. InTech, August, 2008.
- 11. Sarkar K., Nasipuri M., Ghose S.: A new Approach to Keyhprase Extraction Using Neural Networks. International Journal of Computer Science Issues, Vol. 7, Issue 2, No. 3, 2010.
- 12. Novay L. G., Novay Ch. W., Brussee R.: Thesaurus Based Term Ranking for Keyword Extraction. DEXA ‘10 Proceedings of the 2010 Workshops on Database and Expert Systems Applications, Computer Society, 2010.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-6a2dcd4d-c3c4-4104-b0c5-622f8a3a3663