PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Ekstrakcja i agregacja zawartości stron internetowych na przykładzie portali pracy

Autorzy
Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
EN
Extraction and Aggregation of the Job Market Web Sites Content
Języki publikacji
PL
Abstrakty
PL
W artykule przedstawiono możliwości praktycznego wykorzystania narzędzia do ekstrakcji zawartości stron internetowych w celu agregacji danych do dalszych analiz. Wskazano formaty wymiany danych: XML, XLS i CSV, dzięki którym pozyskane dane mogą stać się danymi wejściowymi złożonych systemów analitycznych. Dzięki wykorzystaniu technologii, takich jak eksploracja danych i ETL, systemy te mogą reorganizować dane, przeszukiwać je i w efekcie wyświetlać rezultaty analiz w formie raportów, wykresów i statystyk.
EN
The article presents overview and practical exploration of the data extraction scraping tool for internet web sites content. As the exemplary analytical data source author has chosen job market portals offering the advertisements of new vacancies. Outcome results can be used in further detailed analysis as the input data of the complex analytical systems based on the data exploration, displaying search results according to the chosen criteria. Extraction data tool let the user store output results and exchange the data with other systems through XML, XSL and CSV files. Web scraping mechanism built into the tool offers graphical, action-based, user interactive processes. Data extraction is based on the web macro recordings as well as data and pages patterns generation.
Rocznik
Tom
Strony
59--73
Opis fizyczny
Bibliogr. 7 poz., rys.
Twórcy
autor
  • Uniwersytet Szczeciński, 71-101 Szczecin, ul. Mickiewicza 64
Bibliografia
  • 1. http://web-harvest.sourceforge.net.
  • 2. http://www.sundewsoft.com.
  • 3. http://www.lixto.com.
  • 4. http://www.newprosoft.com.
  • 5. http://www.pracuj.pl.
  • 6. http://www.eclipse.org.
  • 7. http://www.eclipse.org/PDE.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-57f24a5b-04ba-4310-8cb1-c8b90f76c534
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.