PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Clustering web search results using Wikipedia resource

Treść / Zawartość
Identyfikatory
Warianty tytułu
PL
Klasteryzacja wyników wyszukiwania z wykorzystaniem Wikipedii
Języki publikacji
EN
Abstrakty
EN
The paper presents a proposal of a new method for clustering search results. The method uses an external knowledge resource, which can be, for example, Wikipedia. Wikipedia – the largest encyclopedia, is a free and popular knowledge resource which is used to extract topics from short texts. Similarities between documents are calculated based on the similarities between these topics. After that, affinity propagation clustering algorithm is employed to cluster web search results. Proposed method is tested by AMBIENT dataset and evaluated within the experimental framework provided by a SemEval-2013 task. The paper also suggests new method to compare global performance of algorithms using multi – criteria analysis.
PL
W pracy przedstawiono propozycję nowej metody klasteryzacji wyników wyszukiwania. Metoda wykorzystuje zewnętrzny zasób wiedzy, którym jest Wikipedia. Wikipedia - największa encyklopedia - to darmowy i popularny zasób wiedzy służący do wydobywania tematów z krótkich tekstów. Podobieństwa między dokumentami są obliczone na podstawie podobieństwa między tymi tematami. Następnie algorytm klasteryzacji, bazując na propagacji powinowactwa, jest wykorzystywany do grupowania wyników wyszukiwania w Internecie. Proponowana metoda jest testowana przez zbiór danych AMBIENT i oceniana w ramach eksperymentalnych narzędzi dostarczonych przez konkurs SemEval-2013. W artykule zaproponowano również nową metodę porównywania globalnej wydajności algorytmów z wykorzystaniem analizy wielokryterialnej.
Twórcy
autor
  • Military University of Technology, Faculty of Cybernetics, Institute of Computer and Information Systems, Kaliskiego Str. 2, 00-908 Warsaw, Poland
  • Military University of Technology, Faculty of Cybernetics, Institute of Computer and Information Systems, Kaliskiego Str. 2, 00-908 Warsaw, Poland
Bibliografia
  • [1] Ameljańczyk A., “Teoretyczne aspekty badania podobieństwa obiektów w problematyce rozpoznania wzorców”, in: Problemy modelowania i projektowania opartych na wiedzy systemów informatycznych na potrzeby bezpieczeństwa narodowego, T. Nowicki, Z. Tarapata (Eds.), pp. 9-22, WAT, Warszawa 2014.
  • [2] Ameljańczyk A., “Multicriteria similarity models for medical diagnostic support
  • algorithms”, Bio-Algorithms and Med-Systems, Vol. 9, 1-7 (2013).
  • [3] Ameljańczyk A., Multicriteria optimization in control and management problems, Zakład Narodowy im. Ossolińskich, 1984.
  • [4] Brendan J., Frey B.J. and Dueck D., “Clustering by Passing Messages Between Data Points”, Science, Vol. 315, 972-976 (2007).
  • [5] Carpineto C., Osinski S., Romano G., Weiss D., “A Survey of Web Clustering Engines”, ACM Computing Surveys, Vol. 41, No. 3, Art. 17 (2009).
  • [6] Ferragina P., Scaiella U., “Fast and Accurate Annotation of Short Texts with Wikipedia Pages”, IEEE Software, Vol. 29(1), 70-75 (2012).
  • [7] Jinarat S., Haruechaiyasak Ch., Rungsawang A., “Graph-Based Concept Clustering for Web Search Results”, International Journal of Electrical and Computer Engineering (IJECE), Vol. 5, No. 6, 1536-1544 (2015).
  • [8] Osiński S. and Weiss D., “A Concept-Driven Algorithm for Clustering Search Results”, in: IEEE Intelligent Systems, Vol. 20, Issue 3, 48-54, IEEE 2005.
  • [9] Sameh A., Kadray A., “Semantic Web Search Results Clustering Using Lingo and WordNet”, International Journal of Research and Reviews in Computer Science (IJRRCS), Vol. 1, No. 2, 71-76 (2010).
  • [10] Carpineto C., Romano G., Ambient dataset, http://search.fub.it/ambient/.
  • [11] Evaluating Word Sense Induction & Disambiguation within An End-User Application: https://www.cs.york.ac.uk/semeval-2013/task11/.
  • [12] https://github.com/marcocor/tagme-python.
  • [13] https://scikit-learn.org/.
  • [14] https://en.wikipedia.org/wiki/Web_search_query.
Uwagi
This work is supported by Military University of Technology, Young Scientists Development Program (RMN 864).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-593202a5-2e45-41a5-bd3a-28378b892375
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.