Czasopismo
2012
|
R. 109, z. 1-NP
|
61--73
Tytuł artykułu
Autorzy
Wybrane pełne teksty z tego czasopisma
Warianty tytułu
The influence of the keywords selection method on the effectiveness of the web pages classification using the boosting algorithm
Języki publikacji
Abstrakty
Artykuł porusza zagadnienia dotyczące klasyfikacji stron internetowych. Klasyfikacja przeprowadzana jest w oparciu o analizę struktury oraz zawartości stron. Pod uwagę brane są cechy zróżnicowanym charakterze, w tym między innymi cechy strukturalne, wizualne, tekstowe, łączy internetowych. Przy budowie klasyfikatorów wykorzystano algorytm AdaBoost. Skupiono się na wpływie metody selekcji słów kluczowych na skuteczność procesu klasyfikacji.
The paper concerns the issues of web pages analysis process. The classification is performed based on the analysis of the structure as well content of pages. Various characteristics are taken into account including inter alia, structural, visual, text, web and links features. During the construction of classifiers the AdaBoost algorithm was applied. This paper focuses on the impact of keyword selection methods on the effectiveness of the classification process.
Czasopismo
Rocznik
Tom
Strony
61--73
Opis fizyczny
Bibliogr. 15 poz., wz., tab.
Twórcy
autor
- Instytut Teleinformatyki, Wydział Fizyki, Matematyki i Informatyki, Politechnika Krakowska
autor
- Instytut Teleinformatyki, Wydział Fizyki, Matematyki i Informatyki, Politechnika Krakowska
Bibliografia
- [1] Dong L., Watters C., Duffy J., Shepherd M., An Examination of Genre Attributes for Web Page Classification. Proceedings of the 41st Annual Hawaii International Conference on System Sciences, HICSS 2008.
- [2] Yin S., Wang F., Xie Z., Qiu Y., Study on Web-Page Classification Algorithm Based on Rough Set Theory, Proceedings of ISIP'2008, 202-206.
- [3] Czajkowski K., Reguły decyzyjne i bazy danych w klasyfikacji stron internetowych, Studia Informatica, Gliwice, Vol. 30, No. 2A(83), 2009, 355-372.
- [4] Santi M., Some issues in automatic genre classification of webpages, Proceedings of JADT 2006.
- [5] Tsukada M., Washio T., Metoda H., Automatic Web-Page Classification by Using Machine Learning Methods, Web Intelligence: Research and Development, LNAI 2001, Springer-Verlag, 303-313.
- [6] Holden N., Freitas A. A., Web Page Classification with an Ant Golony Algorithm, Parallel problem solving from nature - PPSN VIII, LNCS 3242, Springer-Verlag 2004, 1092-1102.
- [7] Fernandez V. F., Unanue R.M., Herranz S.M., Rubio A.C., Naive Bayes Web Page Classification with HTML Mark-Up Enrichment, International Multi-Conference on Computing in the Global Information Technology, 2006. ICCGI '06.
- [8] Xue W., Huang W., Lu Y., Application of SVM in Web Page Categorization, IEEE International Conference on Granular Computing, 2006, 469-472.
- [9] Shepherd M., Watters C., Identifying Web Genre: Hitting A Moving Target, Proc. of the WWW2004 Conference. Workshop on Measureing Web Searach Effectiveness: The User Perspective, New York, 18 May 2004.
- [10] Meyer zu Eissen S., Stein B., Genre Classification of Web Pages: User Study and Feasibility Analysis, In: Biundo S., Fruhwirth T., Palm G. (Eds.): Advances In Artificial Intelligence, Springer 2004, 256-269.
- [11] Strona projektu Morfologik (http://morfologik.blogspot.com).
- [12] Freund Y., Schapire R.E., A decision-theoretic generalization of on-line learning and an application to boosting, In Computational Learning Theory: Eurocolt '95, Springer-Verlag, 1995, 23-37.
- [13] Sebastiani F., Sperduti A., Valdambrini N., An improved boosting algorithm and its application to automated text categorization, Centre National de la Recherche Scientifique, 2000.
- [14] Gąciarz T., Czajkowski K., Niebylski M., Szawernoga R., Klasyfikacja stron internetowych z wykorzystaniem algorytmu boostingu, Studia Informatica Vol. 32, No. 2A (96), 2011.
- [15] Gąciarz T., Czajkowski K., Niebylski M., Adaboost ranking results improvement by pairwise classifiers for web page classification, Czachórski T., Kozielski S., Stańczyk U. (Eds.), [in:] Advances in Intelligent and Soft Computing, vol. 103, Man-Machine Interactions 2, Springer-Verlag Berlin Heidelberg, 2011.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.baztech-b19d13ed-938d-4d90-8e26-7587ecfbb7cc