PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Algorytm wykrywania treści na stronach portali internetowych

Autorzy
Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
EN
Detection algorithm for content on Internet web portals
Języki publikacji
PL
Abstrakty
PL
W artykule przedstawiono podejście wykorzystane podczas projektowania i implementowania algorytmu automatycznego wykrywania treści na stronach portali internetowych oparte o analizę struktury kodu HTML strony WWW. Za treść strony uznano tekst artykułów wraz z jego nagłówkiem, z pominięciem innych tekstów występujących na stronie (menu, reklamy, komentarze, podpisy pod zdjęciami, itp.).
EN
The paper shows steps, made during designing and implementing automatic web pages contents recognition algorithm, based on HTML structure analysis. A web page contents is the article text with its headline, without any other text like menu, advertisements, user’s comments, image captions, etc.
Rocznik
Strony
101--110
Opis fizyczny
Bibliogr. 4 poz., il., wykr., tab.
Twórcy
autor
  • Instytut Teleinformatyki, Wydział Fizyki, Matematyki i Informatyki, Politechnika Krakowska
autor
  • Instytut Teleinformatyki, Wydział Fizyki, Matematyki i Informatyki, Politechnika Krakowska
Bibliografia
  • [1] Hemenway K., Calishain T., 100 sposobów na tworzenie robotów sieciowych, Helion, Warszawa 2004.
  • [2] Kłopotek M., Inteligentne wyszukiwarki internetowe, Akademicka Oficyna Wydawnicza Exit, Warszawa 2001.
  • [3] Markov Z., Larose D., Eksploracja zasobów internetowych. Analiza struktury, zawartości i użytkowania sieci WWW, PWN, Warszawa 2009.
  • [4] Hłybin M., Web scraping for fun and profit - Ekstrakcja danych ze stron WWW, (http://marcinhlybin.com/slides/scraping_article.pdf- odczyt z dnia 10.06. 2011).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-e02b5956-d32c-46f6-bc9e-4725e31af997
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.