Tytuł artykułu
Autorzy
Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
Term frequency optimization for the vector space model
Języki publikacji
Abstrakty
Artykuł opisuje wybrane metody ważenia terminów dla modelu wektorowego dokumentów tekstowych oraz wybrane metody wyznaczania podobieństw. Dodatkowo, dla zwiększenia dokładności analizy danych, zaimplementowano w procesie ważenia algorytm miary podobieństwa ciągów oparty na odległości Levenshteina. W celu przyspieszenia komparacji danych użyto technologii obliczeń równoległych
Article describes selected terms weighted methods for the vector space model of text documents and selected methods of determine similarities. To improve accuracy of data analysis was implemented algorithm which calculates similarity measure between two strings, based on Levenshtein distance. For accelerate data comparison was used parallel computing technology.
Czasopismo
Rocznik
Tom
Strony
155--165
Opis fizyczny
Bibliogr. 5 poz., wz., wykr., tab.
Twórcy
autor
- Instytut Informatyki, Wydział Fizyki, Matematyki i Informatyki, Politechnika Krakowska
Bibliografia
- [1] Manning C.D., Raghavan P., Schutze H., Introduction to Information Retrieval, Cambridge University Press, 2007.
- [2] Lin D., Automatic retrieval and clustering of similar words, COLING 1998, ACL, 1998, 768-774.
- [3] Piasecki M., Broda B., Semantic similarity measure of Polish nouns based on linguistic features, Business Information Systems 10th International Conference, Poznań, Lecture Notes in Computer Science, vol. 4439, Springer, 2007.
- [4] Левенштейн В.И., Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады Академий Наук СCCP 163 (4), 845-848.
- [5] Campbell C., Johnson R., Miller A., Toub S., Parallel Programming with Microsoft .NET. Design Patterns for Decomposition and Coordination on Multicore Architectures, Microsoft Press, 2010.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-4f46e4f8-a165-4683-8456-8d8adda3a3e4