Algorytm wykrywania treści na stronach portali internetowych

Ulman, K.; Rzecki, K.

Artykuł - szczegóły

Tytuł artykułu

Algorytm wykrywania treści na stronach portali internetowych

Autorzy

Ulman K. , Rzecki K.

Wybrane pełne teksty z tego czasopisma

http://repozytorium.biblos.pk.edu.pl/resources/35440

Identyfikatory

Warianty tytułu

Detection algorithm for content on Internet web portals

Języki publikacji

Abstrakty

W artykule przedstawiono podejście wykorzystane podczas projektowania i implementowania algorytmu automatycznego wykrywania treści na stronach portali internetowych oparte o analizę struktury kodu HTML strony WWW. Za treść strony uznano tekst artykułów wraz z jego nagłówkiem, z pominięciem innych tekstów występujących na stronie (menu, reklamy, komentarze, podpisy pod zdjęciami, itp.).

The paper shows steps, made during designing and implementing automatic web pages contents recognition algorithm, based on HTML structure analysis. A web page contents is the article text with its headline, without any other text like menu, advertisements, user’s comments, image captions, etc.

Słowa kluczowe

wykrywanie treści eksploracja danych ekstrakcja danych gromadzenie danych analiza budowy stron WWW HTML

web pages contents recognition data mining web scraping data collection web pages structure analysis HTML

Wydawca

Wydawnictwo Politechniki Krakowskiej im. Tadeusza Kościuszki

Czasopismo

Czasopismo Techniczne. Nauki Podstawowe

Rocznik

2012

Tom

R. 109, z. 1-NP

Strony

101--110

Opis fizyczny

Bibliogr. 4 poz., il., wykr., tab.

Twórcy

autor

Ulman K.

Instytut Teleinformatyki, Wydział Fizyki, Matematyki i Informatyki, Politechnika Krakowska

autor

Rzecki K.

Instytut Teleinformatyki, Wydział Fizyki, Matematyki i Informatyki, Politechnika Krakowska

Bibliografia

[1] Hemenway K., Calishain T., 100 sposobów na tworzenie robotów sieciowych, Helion, Warszawa 2004.
[2] Kłopotek M., Inteligentne wyszukiwarki internetowe, Akademicka Oficyna Wydawnicza Exit, Warszawa 2001.
[3] Markov Z., Larose D., Eksploracja zasobów internetowych. Analiza struktury, zawartości i użytkowania sieci WWW, PWN, Warszawa 2009.
[4] Hłybin M., Web scraping for fun and profit - Ekstrakcja danych ze stron WWW, (http://marcinhlybin.com/slides/scraping_article.pdf- odczyt z dnia 10.06. 2011).

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-e02b5956-d32c-46f6-bc9e-4725e31af997