Wyniki wyszukiwania - BazTech

1

Clustering web search results using Wikipedia resource

Tran Chung, Ameljańczyk Andrzej

Computer Science and Mathematical Modelling

|

2019

|

No. 10

25--29

EN

The paper presents a proposal of a new method for clustering search results. The method uses an external knowledge resource, which can be, for example, Wikipedia. Wikipedia – the largest encyclopedia, is a free and popular knowledge resource which is used to extract topics from short texts. Similarities between documents are calculated based on the similarities between these topics. After that, affinity propagation clustering algorithm is employed to cluster web search results. Proposed method is tested by AMBIENT dataset and evaluated within the experimental framework provided by a SemEval-2013 task. The paper also suggests new method to compare global performance of algorithms using multi – criteria analysis.

PL

W pracy przedstawiono propozycję nowej metody klasteryzacji wyników wyszukiwania. Metoda wykorzystuje zewnętrzny zasób wiedzy, którym jest Wikipedia. Wikipedia - największa encyklopedia - to darmowy i popularny zasób wiedzy służący do wydobywania tematów z krótkich tekstów. Podobieństwa między dokumentami są obliczone na podstawie podobieństwa między tymi tematami. Następnie algorytm klasteryzacji, bazując na propagacji powinowactwa, jest wykorzystywany do grupowania wyników wyszukiwania w Internecie. Proponowana metoda jest testowana przez zbiór danych AMBIENT i oceniana w ramach eksperymentalnych narzędzi dostarczonych przez konkurs SemEval-2013. W artykule zaproponowano również nową metodę porównywania globalnej wydajności algorytmów z wykorzystaniem analizy wielokryterialnej.

2

Document controversy classification based on the wikipedia category structure

Jankowski-Lorek M., Zieliński K.

Computer Science

|

2015

|

Vol. 16 (2)

185--198

EN

Dispute and controversy are parts of our culture and cannot be omitted on the Internet (where it becomes more anonymous). There have been many studies on controversy, especially on social networks such as Wikipedia. This free on-line encyclopedia has become a very popular data source among many researchers studying behavior or natural language processing. This paper presents using the category structure of Wikipedia to determine the controversy of a single article. This is the first part of the proposed system for classification of topic controversy score for any given text.

3

Identyfikacja powiązań pomiędzy kategoriami Wikipedii z użyciem miar podobieństwa artykułów

Szymański J., Deptuła M., Krawczyk H.

Studia Informatica

|

2013

|

Vol. 34, nr 2A

295--310

PL

W artykule opisano podejście do identyfikacji powiązań między kategoriami w repozytorium danych tekstowych, bazując na Wikipedii. Przeprowadzając analizę podobieństwa między artykułami, określono miary pozwalające zidentyfikować powiązania między kategoriami, które nie były wcześniej uwzględnione, i nadawać im wagi określające stopień istotności. Przeprowadzono automatyczną ocenę uzyskanych rezultatów w odniesieniu do już istniejącej struktury kategorii.

EN

In the article we present an approach to identification of relations between categories organizing the repository of documents. We describe the metrics of category relevance based on similarity measures between articles. The metrics have been used to discover relations between categories within Wikipedia repository. The evaluation of the proposed method indicate it allows to reconstruct already existing associations in category structure as well as introduce new significant relations.

4

Populating a multilingual ontology of proper names from open sources

Savary A., Manicki L., Baron M.

Journal of Language Modelling

|

2013

|

Vol. 1, No. 2

189--225

EN

Even if proper names play a central role in natural language processing (NLP) applications they are still under-represented in lexicons, annotated corpora, and other resources dedicated to text processing. One of the main challenges is both the prevalence and the dynamicity of proper names. At the same time, large and regularly updated knowledge sources containing partially structured data, such as Wikipedia or GeoNames, are publicly available and contain large numbers of proper names. We present a method for a semi-automatic enrichment of Prolexbase, an existing multilingual ontology of proper names dedicated to natural language processing, with data extracted from these open sources in three languages: Polish, English and French. Fine-grained data extraction and integration procedures allow the user to enrich previous contents of Prolexbase with new incoming data. All data are manually validated and available under an open licence.

5

Automatyczna klasyfikacja artykułów w Wikipedii

Szymański J., Roman M., Borczuch G., Szulgo R.

Zeszyty Naukowe Wydziału ETI Politechniki Gdańskiej. Technologie Informacyjne

|

2010

|

T. 19

113-118

PL

Wikipedia - internetowa encyklopedia do organizacji artykułów wykorzystuje system kategorii. W chwili obecnej proces przypisywania artykułu do odpowiednich kategorii tematycznych realizowany jest ręcznie przez jej edytorów. Zadanie to jest czasochłonne i wymaga wiedzy o strukturze Wikipedii. Ręczna kategoryzacja jest również podatna na błędy wynikające z faktu, że przyporządkowanie artykułu do kategorii odbywa się w oparciu o arbitralną decyzję człowieka. W artykule przedstawiono podejście oparte na klasyfikatorze SVM dokonującego takiej kategoryzacji automatycznie. Zbadane zostało działanie klasyfikatora w sytuacji użycia dwóch różnych sposobów reprezentacji dokumentów: opartego na powiązaniach pomiędzy artykułami oraz na podstawie słów występujących w tekście. Uzyskane wyniki przeprowadzonych eksperymentów automatycznej klasyfikacji, dokonane w ograniczonych dziedzinach, porównane zostały z już istniejącymi przyporządkowaniami dokonanymi przez edytorów Wikipedii. Rezultaty tego porównania wskazują, że procedurę kategoryzacji można w znacznym stopniu zautomatyzować, osiągając rezultaty zbliżone do klasyfikacji realizowanej przez ludzi, a nawet ją miejscami poprawić.

EN

Wikipedia - the online encyclopedia - uses categories to organize its content. At present, the process of assigning the article to appropriate thematic categories is carried out manually by the editors, which is time consuming, requires knowledge of the structure of Wikipedia and is also susceptible to errors arising from the fact that the assignment is based on arbitrary human decision. This article presents the approach to create a SVM classifier making the automatic categorization of Wikipedia articles to already existed categories, which uses two different measures of similarity of documents: based on the relationship between articles and the content of the text. The results of the experiments, carried out in limited areas, were compared with original assignment of Wikipedia editors. The results of this comparison indicate that the categorization process can be largely automated, achieving results similar to the classification done by people or even improve that process.

6

Analiza skupień i redukcja wymiarowości w hierarchicznym modelu korpusowym języka

Wicijowski J., Ziółko B.

Studia Informatica

|

2010

|

Vol. 31, nr 2A

133-145

PL

Przedstawiono model semantyczny języka polskiego pochodzący z obróbki materiału językowego z polskiej Wikipedii. Model służy weryfikacji hipotez zdaniowych w systemie automatycznego rozpoznawania mowy. Przedstawiono metody filtracji i klasteryzacji dokumentów w celu przyśpieszenia obliczeń. Autorzy kładą nacisk na oddelegowaniu zadań do silnika bazy danych tam, gdzie jest to pożądane ze względu na szybkość.

EN

The article presents a semantic model of the polish language based on the polish Wikipedia texts. The model is a part of an automatic speech recognition system and verifies sentences hypotheses. Methods of filtering and clustering of the documents, which aim to accelerate the computations, are presented. The authors emphasize the delegation of the processing tasks to the database engine, where it is possible to gain the performance.