Optymalizacja schematu ważenia terminów dla modelu wektorowego

Niewiarowski, A.

Artykuł - szczegóły

Tytuł artykułu

Optymalizacja schematu ważenia terminów dla modelu wektorowego

Autorzy

Niewiarowski A.

Wybrane pełne teksty z tego czasopisma

http://repozytorium.biblos.pk.edu.pl/resources/35439

Identyfikatory

Warianty tytułu

Term frequency optimization for the vector space model

Języki publikacji

Abstrakty

Artykuł opisuje wybrane metody ważenia terminów dla modelu wektorowego dokumentów tekstowych oraz wybrane metody wyznaczania podobieństw. Dodatkowo, dla zwiększenia dokładności analizy danych, zaimplementowano w procesie ważenia algorytm miary podobieństwa ciągów oparty na odległości Levenshteina. W celu przyspieszenia komparacji danych użyto technologii obliczeń równoległych

Article describes selected terms weighted methods for the vector space model of text documents and selected methods of determine similarities. To improve accuracy of data analysis was implemented algorithm which calculates similarity measure between two strings, based on Levenshtein distance. For accelerate data comparison was used parallel computing technology.

Słowa kluczowe

data mining text mining obliczenia równoległe grupowanie dokumentów

data mining text mining parallel computing aggregate documents

Wydawca

Wydawnictwo Politechniki Krakowskiej im. Tadeusza Kościuszki

Czasopismo

Czasopismo Techniczne. Mechanika

Rocznik

2012

Tom

R. 109, z. 9-M

Strony

155--165

Opis fizyczny

Bibliogr. 5 poz., wz., wykr., tab.

Twórcy

autor

Niewiarowski A.

Instytut Informatyki, Wydział Fizyki, Matematyki i Informatyki, Politechnika Krakowska

Bibliografia

[1] Manning C.D., Raghavan P., Schutze H., Introduction to Information Retrieval, Cambridge University Press, 2007.
[2] Lin D., Automatic retrieval and clustering of similar words, COLING 1998, ACL, 1998, 768-774.
[3] Piasecki M., Broda B., Semantic similarity measure of Polish nouns based on linguistic features, Business Information Systems 10th International Conference, Poznań, Lecture Notes in Computer Science, vol. 4439, Springer, 2007.
[4] Левенштейн В.И., Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады Академий Наук СCCP 163 (4), 845-848.
[5] Campbell C., Johnson R., Miller A., Toub S., Parallel Programming with Microsoft .NET. Design Patterns for Decomposition and Coordination on Multicore Architectures, Microsoft Press, 2010.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-4f46e4f8-a165-4683-8456-8d8adda3a3e4