Artykuł opisuje wybrane metody ważenia terminów dla modelu wektorowego dokumentów tekstowych oraz wybrane metody wyznaczania podobieństw. Dodatkowo, dla zwiększenia dokładności analizy danych, zaimplementowano w procesie ważenia algorytm miary podobieństwa ciągów oparty na odległości Levenshteina. W celu przyspieszenia komparacji danych użyto technologii obliczeń równoległych
EN
Article describes selected terms weighted methods for the vector space model of text documents and selected methods of determine similarities. To improve accuracy of data analysis was implemented algorithm which calculates similarity measure between two strings, based on Levenshtein distance. For accelerate data comparison was used parallel computing technology.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.