Tytuł artykułu
Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
Detection algorithm for content on Internet web portals
Języki publikacji
Abstrakty
W artykule przedstawiono podejście wykorzystane podczas projektowania i implementowania algorytmu automatycznego wykrywania treści na stronach portali internetowych oparte o analizę struktury kodu HTML strony WWW. Za treść strony uznano tekst artykułów wraz z jego nagłówkiem, z pominięciem innych tekstów występujących na stronie (menu, reklamy, komentarze, podpisy pod zdjęciami, itp.).
The paper shows steps, made during designing and implementing automatic web pages contents recognition algorithm, based on HTML structure analysis. A web page contents is the article text with its headline, without any other text like menu, advertisements, user’s comments, image captions, etc.
Czasopismo
Rocznik
Tom
Strony
101--110
Opis fizyczny
Bibliogr. 4 poz., il., wykr., tab.
Bibliografia
- [1] Hemenway K., Calishain T., 100 sposobów na tworzenie robotów sieciowych, Helion, Warszawa 2004.
- [2] Kłopotek M., Inteligentne wyszukiwarki internetowe, Akademicka Oficyna Wydawnicza Exit, Warszawa 2001.
- [3] Markov Z., Larose D., Eksploracja zasobów internetowych. Analiza struktury, zawartości i użytkowania sieci WWW, PWN, Warszawa 2009.
- [4] Hłybin M., Web scraping for fun and profit - Ekstrakcja danych ze stron WWW, (http://marcinhlybin.com/slides/scraping_article.pdf- odczyt z dnia 10.06. 2011).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-e02b5956-d32c-46f6-bc9e-4725e31af997