Wyniki wyszukiwania - BazTech

1

Clustering web search results using Wikipedia resource

Tran Chung, Ameljańczyk Andrzej

Computer Science and Mathematical Modelling

|

2019

|

No. 10

25--29

EN

The paper presents a proposal of a new method for clustering search results. The method uses an external knowledge resource, which can be, for example, Wikipedia. Wikipedia – the largest encyclopedia, is a free and popular knowledge resource which is used to extract topics from short texts. Similarities between documents are calculated based on the similarities between these topics. After that, affinity propagation clustering algorithm is employed to cluster web search results. Proposed method is tested by AMBIENT dataset and evaluated within the experimental framework provided by a SemEval-2013 task. The paper also suggests new method to compare global performance of algorithms using multi – criteria analysis.

PL

W pracy przedstawiono propozycję nowej metody klasteryzacji wyników wyszukiwania. Metoda wykorzystuje zewnętrzny zasób wiedzy, którym jest Wikipedia. Wikipedia - największa encyklopedia - to darmowy i popularny zasób wiedzy służący do wydobywania tematów z krótkich tekstów. Podobieństwa między dokumentami są obliczone na podstawie podobieństwa między tymi tematami. Następnie algorytm klasteryzacji, bazując na propagacji powinowactwa, jest wykorzystywany do grupowania wyników wyszukiwania w Internecie. Proponowana metoda jest testowana przez zbiór danych AMBIENT i oceniana w ramach eksperymentalnych narzędzi dostarczonych przez konkurs SemEval-2013. W artykule zaproponowano również nową metodę porównywania globalnej wydajności algorytmów z wykorzystaniem analizy wielokryterialnej.

2

Finding similar documents in web search results

Kużelewska U.

Zeszyty Naukowe Politechniki Białostockiej. Informatyka

|

2012

|

Z. 9

61-76

EN

Searching the Web is a challenging task. According to the Zamir and Etzioni’s definition, Internet is “unorganized, unstructured and decentralized place”. Although there are powerful search engines available, the number of indexed web pages exceeds 1 trillion [20] and still grows. Most of the search engines return list of documents from their bases sorted according to their relevance to a search query. Such approach is not the best, because the returned list is very long and may contain documents not related to the query. To increase efficiency of a searching process one may identify groups of similar documents from result list. One of the tools to do it are traditional clustering algorithms. The article presents clustering Web search results directly from a search engine as well as sets created from results for different queries. Documents were grouped using the following methods: EM and XMeans.

PL

Przeszukiwanie sieci WWW jest niezmiernie trudnym zadaniem. Według Zamira i Etzioniego Internet to "miejsce bez struktury, niezorganizowane i zdecentralizowane". Chociaz istnieją potężne narzędzia w postaci wyszukiwarek internetowych, ich użycie staje się z czasem trudniejsze, gdyż ilość zaindeksowanych stron internetowych przekracza 1 bln [20] i nadal rośnie. Większość wyszukiwarek generuje wyniki posortowane według ich zgodności z treścią zapytania w postaci bardzo długich list. Takie podejście nie jest najlepszym rozwiązaniem z powodu rozmiaru list oraz zawierania w nich dokumentów nie związanych z zapytaniem. W celu zwiększenia efektywności przeszukiwania Internetu można ˙ zastosowac grupowanie podobnych dokumentów z generowanej przez wyszukiwarki listy wyników. Jednym z takich narzędzi są tradycyjne algorytmy grupujące. W artykule przedstawiono wyniki grupowania dokumentów bezpośrednio z listy zwróconej przez wyszukiwarkę oraz zbiorów dokumentów utworzonych z wyników wyszukiwania dla kilku zapytań. Wykorzystano następujące metody grupujące: EM i XMeans.

3

Metody i narzędzia automatycznego przetwarzania informacji tekstowej i ich wykorzystanie w procesie zarządzania wiedzą

Potiopa P.

Automatyka / Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie

|

2011

|

T. 15, z. 2

409-419

PL

Tematem niniejszego artykułu jest przegląd metod i narzędzi służących reprezentacji i przetwarzaniu informacji, która jest aktualnie jednym z podstawowych środków budowania i zarządzania w każdej organizacji. Sprawne funkcjonowanie każdej instytucji uzależnione jest od dostępu do przechowywanej w niej wiedzy, jak również możliwości sprawnego jej wyszukiwania, systematyzowania i podejmowania na jej podstawie nowych decyzji.

EN

The theme of this article is to review methods and tools for representing and processing information, which is currently one of the principal means of building and management in any organization. The smooth functioning of any institution is dependent on access to knowledge stored in it, as well as the possibility of an efficient search, structuring and making the new decisions based on it.