PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Comparison of string metrics effectiveness for the purpose of estimating the number of unique job offers

Treść / Zawartość
Identyfikatory
Warianty tytułu
PL
Ocena skuteczności metryk porównywania tekstów dla potrzeb oceny liczby unikalnych ofert pracy
Języki publikacji
EN
Abstrakty
EN
The article presents the results of search for a text-comparison method applicable for identifying same or similar job of ers. This is done by calculating pairwise similarity metrics between offers using well known metrics (i.e. Levenshtein, Jaro-Winkler and Jaccard). The article assesses the ef ectiveness of the algorithms and their applicability to the task. Issues related to processing of data of the web pages and computational requirements are also discussed.
PL
W artykule przedstawione zostały rezultaty oceny możliwości zastosowań algorytmów porównywania tekstu dla potrzeb identyfikacji identycznych lub podobnych ogłoszeń o pracę. Do porównań wykorzystano klasyczne metryki (Levenshteina, Jaro-Winklera i Jaccarda). Oceniona została skuteczność i możliwość zastosowania tych algorytmów do przedstawionego zadania. Omówione zostały też kwestie analizy danych pobieranych ze stron www oraz niezbędnych nakładów obliczeniowych.
Rocznik
Strony
213--216
Opis fizyczny
Bibliogr. 8 poz., tab., wykr.
Twórcy
autor
Bibliografia
  • 1. Jaccard P.: Etude comparative de la distribution florale dans une portion des Alpes et des Jura. „Societe Vaudoise des Sciences Naturelles”, vol. 37, 547-579. 1901.
  • 2. Levenshtein V.I.: Binary codes capable of correcting deletions, insertions and reversals, „Soviet Physics Doklady”. vol. 10, 707-710, 1966.
  • 3. Liu B., Ma Y., Yu P.: Discovering Unexpected Information from Your Competitors’ Web Sites, Proceedings of ACM SIG KDD, 144-153, 2001.
  • 4. Lukashenko R., Graudina V., Graudspenkis J.: Computer-based plagiarism detection methods and tools: an overview, Proceedings of Computer systems and technologies, 40:1-40:6, 2007.
  • 5. Manning Ch. D., Schutze H.: Foundations of Statistical Natural Language Processing, MIT Press, 1999.
  • 6. Myers G.: A fast bit-vector algorithm for approximate string matching based on dynamic programming, “Journal of the ACM”, vol. 46(3), 395-415, 1999.
  • 7. Navarro G.: A guided tour to approximate string matching, “ACM Computing Surveys” vol. 33(1), 31-88, 2001.
  • 8. Winkler W.E.: String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunster Model of Record Linkage, Proceedings of the Section on Survey Research Methods, 354-359, 1990.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BSW1-0088-0051
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.