Wyniki wyszukiwania - BazTech

Ograniczanie wyników

Powiadomienia systemowe

Sesja wygasła!

Znaleziono wyników: 2

Liczba wyników na stronie

Wyniki wyszukiwania

Wyszukiwano:
w słowach kluczowych: Levenshtein distance algorithm

Sortuj według:

Ogranicz wyniki do:

Niewiarowski A.

Czasopismo Techniczne. Nauki Podstawowe

2016

Y. 113, iss. 1-NP

159--173

This paper proposes a method of comparing the short texts using the Levenshtein distance algorithm and thesaurus for analysing terms enclosed in texts instead of popular methods exploiting the grammatical variations glossary. The tested texts contain a variety of nouns and verbs together with grammatical or orthographical mistakes. Based on the proposed new algorithm the similarity of such texts will be estimated. The described technique is compared with methods: Cosine distances, distance Dice and Jaccard distance constructed on the term frequency method. The proposition is competitive against well-known algorithms of stemming and lemmatization.

Artykuł przedstawia propozycję metody porównywania krótkich fragmentów tekstów bazującą na algorytmie odległości Levenshteina i słowniku wyrazów bliskoznacznych. Porównywane teksty zawierają odmienione terminy oraz celowe błędy ortograficzne i gramatyczne. Opisany mechanizm zestawiony został z popularnymi metodami porównywania tekstów, takimi jak: odległości Kosinusowa, Dice’a i Jaccard’a, dla których wartości wektorów obliczane są metodą częstości terminów. Zastosowanie w mechanizmie słownika wyrazów bliskoznacznych jest alternatywą wobec znanych algorytmów określania rdzenia terminu i lematyzacji w analizie danych tekstowych.

Mechanizm analizy podobieństwa krótkich fragmentów tekstów na bazie odległości Levenshteina

Niewiarowski A., Stanuszek M.

Studia Informatica

2013

Vol. 34, nr 1

107--114

Artykuł przedstawia implementację mechanizmu typu text mining, bazującego na algorytmie odległości transformacyjnej autorstwa Vladimira Levenshteina , skutecznie wykrywającego podobieństwo wyrazów o różnej długości. Algorytm zastosowano do analizy podobieństwa jednozdaniowych fragmentów tekstów. Opracowany mechanizm cechuje szybkość analizy zdań i łatwość implementacji.

This paper presents the proposal of text mining mechanism based on Levenshtein Distance Algorithm (LDA)[4], which effectively detect the similarity of different length words. This algorithm for similarity analysis of sentences is used and successfully detects similarities between single sentences. Mechanism is characterized by speed of data analysis and simplify of implementation.