Tytuł artykułu
Autorzy
Identyfikatory
Warianty tytułu
Ekstracja wiedzy w Internecie
Języki publikacji
Abstrakty
With the rapid expansion of the World Wide Web, the need for efficient data retrieval strategies becomes stronger and will be still growing. Unfortunately classical information retrieval techniques, developed for well-organized collections of textual data do not seem to be able to cope with diversity and amount of information available throughout the Internet. This paper presents some of the newest approaches to information retrieval in large, unstructured hypertext spaces - such as WWW - that focus more on latent information embedded in hyperlinks and document structure, then on actual understanding of Web pages textual content. These techniques, that are marking the new trends and prospects for the Internet technology, have been given recently the name "Web mining", as in fact they are examples of unsupervised machine learning similar to data mining and text mining. Here we discuss methods belonging to the following three groups: link topology analysis, statistical text analysis and query languages and systems design.
Wraz z gwałtownym zwiększaniem się zasobów WWW wzrasta również potrzeba opracowania efektywnych strategii wyszukiwania danych. Klasyczne metody dostosowane do dobrze zorganizowanych struktur danych tekstowych wydają się być niewystarczające w przypadku danych zawartych w Internecie. Niniejszy artykuł prezentuje najnowsze podejścia do wyszukiwania informacji dostępnej w dużych hipertekstowych strukturach danych jak WWW i skupia się na informacji dostępnej w połączeniach pomiędzy stronami WWW oraz rozumieniu zawartości tekstowej stron WWW. Prezentowane metody uzyskały ostatnio angielską nazwę "Web mining" i są przykładem samodzielnego pozyskiwania wiedzy przez maszyny. Dyskutowane metody należą do trzech grup: analizy topologii połączeń, analizy statystycznej tekstu i języków zapytań oraz projektowania systemów.
Rocznik
Tom
Strony
203--233
Opis fizyczny
Twórcy
autor
autor
- Instytut Informatyki Politechnika Warszawska ul. Nowowiejska 15/19 00-665 Warszawa
Bibliografia
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BUJ1-0007-0028