Detektory zasobów informacji w crawlingu polskiego Internetu na przykładzie przemysłu tłoczniczego

Opaliński, A.; Turek, W.; Głowacki, M.; Hojny, M.

Nowa wersja platformy, zawierająca wyłącznie zasoby pełnotekstowe, jest już dostępna.
Przejdź na https://bibliotekanauki.pl

Artykuł - szczegóły

Czasopismo

Czasopismo Techniczne. Mechanika

2011 | R. 108, z. 4-M/2 | 401-408

Tytuł artykułu

Detektory zasobów informacji w crawlingu polskiego Internetu na przykładzie przemysłu tłoczniczego

Autorzy

Opaliński, A. , Turek, W. , Głowacki, M. , Hojny, M.

Wybrane pełne teksty z tego czasopisma

http://repozytorium.biblos.pk.edu.pl/resources/35439

Warianty tytułu

Information detection in polish Web resources crawling based on stamping industry example

Języki publikacji

Abstrakty

W artykule zaprezentowano koncepcję stworzenia narzędzia wspomagającego wyszukiwanie informacji zgromadzonych w zasobach polskiego Internetu. Działa ono opierając się na systemie zbierającym i indeksującym dane oraz dedykowane gramatyki wyszukiwania, pozwalając efektywniej odnajdywać wartościowe informacje w sieci. Zaprezentowano przewagę prezentowanej koncepcji w porównaniu z rezultatami otrzymanymi przy użyciu wyszukiwarki Google dla przykładu z przemysłu tłoczniczego. Zaprezentowano także możliwości adaptacji systemu do innych gałęzi przemysłu oraz ewolucję jego wersji podstawowej.

The paper presents the idea of an information extraction and search support system based on polish Web resources. System consist web crawling, data indexing and dedicated grammar syntax modules, which results with results quality improvement. As an usage example, it is presented stamp industry use case, compared to Google search results. Possible usage domains, improvement and evolution directions are shown in conclusion.

Słowa kluczowe

crawling internetu gramatyki wyszukiwanie informacji

data mining grammar information extraction web crawling

Wydawca

Czasopismo

Czasopismo Techniczne. Mechanika

Rocznik

2011

Tom

R. 108, z. 4-M/2

Strony

401-408

Opis fizyczny

Bibliogr. 11 poz.,

Twórcy

autor

Opaliński, A.

autor

Turek, W.

autor

Głowacki, M.

autor

Hojny, M.

Katedra Informatyki Stosowanej i Modelowania, Wydział Inżynierii Metali i Informatyki Przemysłowej, Akademia Górniczo-Hutnicza w Krakowie

Bibliografia

[1] De Kunder M., Daily estimated size of the World Wide Web, luty 2011 (www.worldwidewebsize.com).
[2] Net Applications, Search Engine Market Share, luty 2011 (marketshare.hitslink.com/search-engine-market-share.aspx?qprid=4).
[3] GemiusSA, Ranking silników wyszukiwarek w Polsce, luty 2011 (www.ranking.pl/pl/rankings/search-engines.html.
[4] Bell S., The infodiet: how libraries can offer an appetizing alternative to Google, The Chronicle of Higher Education, Vol. 50, No. 24, 2004, B15.
[5] Jacso P., Amazon Google Book Search and Google Scholar, Online, Wilton, CT, ETATS-UNIS, Vol. 32, No. 2, 2008, 51-54.
[6] Celoch H., Google Scholar alternatywą dla Web of Science?, III Ogólnopolska Konferencja Naukowa "Zarządzanie informacją w nauce", Katowice, 15–16 grudnia 2010.
[7] The Open Directory Project. About the open directory project, luty 2011 (dmoz.org/about.html).
[8] Opaliński A., Turek W., Wyszukiwanie informacji i analiza tożsamości, [w:] Metody sztucznej inteligencji w działaniach na rzecz bezpieczeństwa publicznego, Wydawnictwa AGH, Kraków 2009.
[9] Google, Advanced search options – Google, http://www.google.com/pdf/GoogleSearchGuide-back.pdf.
[10] Page L., Brin S., Motwani R., Winograd T., The PageRank Citation Ranking: Bringing Order to the Web, 1999.
[11] Price G., Google Scholar documentation and large PDF files, 2004, http://blog.searchenginewatch.com/blog/041201-105511.

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA

bwmeta1.element.baztech-article-BGPK-3691-4253