Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 1

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  atrybucja autorstwa
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
EN
This paper describes the issue of authorship attribution based on the content of conversations originating from instant messaging software applications. The results presented in the paper refer to the corpus of conversations conducted in Polish. On the basis of a standardised model of the corpus of conversations, stylometric features were extracted, which were divided into four groups: word and message length distributions, character frequencies, tf-idf matrix and features extracted on the basis of turns (conversational features). The vectors of users’ stylometric features were compared in pairs by using Euclidean, cosine and Manhattan metrics. CMC curves were used to analyse the significance of the feature groups and the effectiveness of the metrics for identifying similar speech styles. The best results were obtained by the group of features being the tf-idf matrix compared with the use of cosine distance and the group of features extracted on the basis of turns compared with the use of the Manhattan metric.
PL
W artykule opisano zagadnienie atrybucji autorstwa na podstawie treści konwersacji pochodzących z komunikatorów internetowych. Zamieszczone w artykule wyniki odnoszą się do korpusu konwersacji prowadzonych w języku polskim. Na podstawie ustandaryzowanego modelu korpusu konwersacji wyodrębnione zostały cechy stylometryczne, które podzielono na cztery grupy tj.: rozkłady długości słowa i wiadomości, częstotliwości występowania znaków, macierz tf-idf oraz cechy wyodrębnione na podstawie tur (konwersacyjne). Wektory cech stylometrycznych użytkowników porównane zostały parami z wykorzystaniem metryk: euklidesowej, kosinusowej oraz Manhattan. Przy pomocy krzywych CMC przeanalizowano istotność grup cech oraz skuteczność metryk dla identyfikacji podobnych stylów wypowiedzi. Najlepsze rezultaty miała grupa cech będąca macierzą tf-idf porównywana z wykorzystaniem odległości kosinusowej oraz grupa cech wyodrębnionych na podstawie tur porównywana z wykorzystaniem metryki Manhattan.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.