Tytuł artykułu
Identyfikatory
Warianty tytułu
Web pages classification using boosting algorithm
Języki publikacji
Abstrakty
Artykuł dotyczy analizy informacji opisujących strony internetowe. Celem analizy jest wsparcie procesu ich klasyfikacji. Brane są pod uwagę cechy o zróżnicowanym charakterze, w tym między innymi cechy: strukturalne, wizualne, tekstowe, łączy internetowych. Przy budowie klasyfikatorów wykorzystano algorytm AdaBoost. W artykule przedstawiono implementację omawianego rozwiązania oraz wyniki przeprowadzonych eksperymentów.
The article concerns the analysis of information describing the web pages. The aim of the analysis is to support the process of their classification. Various characteristics are taken into account including inter alia, structural, visual, text, web and links features. During the construction of classifiers the AdaBoost algorithm was applied. The paper presents the implementation of this solution and the results of experiments.
Czasopismo
Rocznik
Tom
Strony
283--297
Opis fizyczny
Bibliogr. 16 poz.
Twórcy
autor
autor
autor
autor
- Politechnika Krakowska, Wydział Fizyki, Matematyki i Informatyki, Instytut Teleinformatyki, ul. Warszawska 24, 31-155 Kraków, tga@pk.edu.pl
Bibliografia
- 1. Dong L., Watters C., Duffy J., Shepherd M.: An Examination of Genre Attributes for Web Page Classification. Proceedings of the 41st Annual Hawaii International Conference on System Sciences (HICSS 2008).
- 2. Yin S., Wang F., Xie Z., Qiu Y.: Study on Web-Page Classification Algorithm Based on Rough Set Theory. Proceedings of ISIP'2008, s. 202÷206.
- 3. Czajkowski K.: Reguły decyzyjne i bazy danych w klasyfikacji stron internetowych, Studia Informatica, Gliwice, Vol. 30, No. 2A(83), 2009, s. 355÷372.
- 4. Santi M.: Some issues in automatic genre classification of web pages. Proceedings of JADT 2006.
- 5. Tsukada M., Washio T., Metoda H.: Automatic Web-Page Classification by Using Machine Learning Methods. Web Intelligence: Research and Development, LNAI 2001, Springer-Verlag, 2001, s. 303÷313.
- 6. Holden N., Freitas A. A.: Web Page Classification with an Ant Colony Algorithm. Parallel problem solving from nature – PPSN VIII, LNCS 3242, Springer-Verlag, 2004, s. 1092÷1102.
- 7. Fernandez, V. F., Unanue, R. M., HerranzS. M., Rubio A. C.: Naive Bayes Web Page Classification with HTML Mark-Up Enrichment. International Multi-Conference on Computing in the Global Information Technology, ICCGI '06, 2006.
- 8. Xue W., Huang W., Lu Y.: Application of SVM in Web Page Categorization, IEEE International Conference on Granular Computing, 2006, s. 469÷472.
- 9. Shepherd M., Watters C.: Identifying Web Genre: Hitting A Moving Target. Proc. of the WWW2004 Conference. Workshop on Measureing Web Searach Effectiveness: The User Perspective, New York, 18 May 2004.
- 10. Rosmarin A.: The Power of Genre. University of Minneapolis Press, Minneapolis 1985.
- 11. Yates J., Orlikowski W.: Genres of Organizational Communication: A Structurational Approach to Studying Communication and Media. Academy of Management Review, 17(2), 1992, s. 299÷326.
- 12. Meyer zu Eissen S., Stein B.: Genre Classification of Web Pages: User Study and Feasibility Analysis. [in:] Biundo S., Fruhwirth T., Palm G. (eds.): Advances In Artificial Intelligence, Springer, 2004, s. 256÷269
- 13. Roussinov D., Crowston K., Nilan M., Kwasnik B., Cai J., Liu X.: Genre based navigation on the web. In Proceedings of the 34th Hawaii International Conference on System Sciences, 2001.
- 14. Strona projektu morfologik – http://morfologik.blogspot.com/
- 15. Freund Y., Schapire R. E.: A decision-theoretic generalization of on-line learning and an application to boosting. In Computational Learning TheoryŚ Eurocolt ’95. Springer-Verlag, 1995, s. 23÷37.
- 16. Sebastiani F., Sperduti A., Valdambrini N.: An improved boosting algorithm and its application to automated text categorization. Centre National de la Recherche Scientifique, 2000.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BSL3-0025-0022