PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Attribution of authorship in instant messaging software applications, based on the similarity measure of the stylometric features’ vector

Treść / Zawartość
Identyfikatory
Warianty tytułu
PL
Atrybucja autorstwa w komunikatorach internetowych na podstawie miary podobieństwa wektora cech stylometrycznych
Języki publikacji
EN
Abstrakty
EN
This paper describes the issue of authorship attribution based on the content of conversations originating from instant messaging software applications. The results presented in the paper refer to the corpus of conversations conducted in Polish. On the basis of a standardised model of the corpus of conversations, stylometric features were extracted, which were divided into four groups: word and message length distributions, character frequencies, tf-idf matrix and features extracted on the basis of turns (conversational features). The vectors of users’ stylometric features were compared in pairs by using Euclidean, cosine and Manhattan metrics. CMC curves were used to analyse the significance of the feature groups and the effectiveness of the metrics for identifying similar speech styles. The best results were obtained by the group of features being the tf-idf matrix compared with the use of cosine distance and the group of features extracted on the basis of turns compared with the use of the Manhattan metric.
PL
W artykule opisano zagadnienie atrybucji autorstwa na podstawie treści konwersacji pochodzących z komunikatorów internetowych. Zamieszczone w artykule wyniki odnoszą się do korpusu konwersacji prowadzonych w języku polskim. Na podstawie ustandaryzowanego modelu korpusu konwersacji wyodrębnione zostały cechy stylometryczne, które podzielono na cztery grupy tj.: rozkłady długości słowa i wiadomości, częstotliwości występowania znaków, macierz tf-idf oraz cechy wyodrębnione na podstawie tur (konwersacyjne). Wektory cech stylometrycznych użytkowników porównane zostały parami z wykorzystaniem metryk: euklidesowej, kosinusowej oraz Manhattan. Przy pomocy krzywych CMC przeanalizowano istotność grup cech oraz skuteczność metryk dla identyfikacji podobnych stylów wypowiedzi. Najlepsze rezultaty miała grupa cech będąca macierzą tf-idf porównywana z wykorzystaniem odległości kosinusowej oraz grupa cech wyodrębnionych na podstawie tur porównywana z wykorzystaniem metryki Manhattan.
Twórcy
  • Military University of Technology, Faculty of Cybernetics, Kaliskiego 2, 00-908 Warsaw, Poland
  • Military University of Technology, Faculty of Cybernetics, Kaliskiego 2, 00-908 Warsaw, Poland
Bibliografia
  • [1] Abbasi A., Hsinchun Ch., “Applying authorship analysis to extremist-group web forum messages”, IEEE Intelligent Systems, No. 5, 67–75 (2005).
  • [2] Belvisi N.M.S., Muhammad N., Alonso-Fernandez F., “Forensic Authorship Analysis of Microblogging Texts Using N-Grams and Stylometric Features”, Proc. 8th International Workshop on Biometrics and Forensics, IWBF, Porto, Portugal, April 29–30, 2020, arXiv:2003.11545.
  • [3] Boenninghoff B., Hessler S., Kolossa D., Nickel R.M., “Explainable Authorship Verification in Social Media via Attention-based Similarity Learning”, IEEE Big Data 2019, arXiv:1910.08144.
  • [4] Brocardo M. L., Traore I., Saad S., Woungang I., “Authorship Verification for Short Messages Using Stylometry”, Proc. of the IEEE Intl. Conference on Computer, Information and Telecommunication Systems (CITS 2013), Piraeus-Athens, Greece, May 7–8, 2013.
  • [5] Cristani M., Roffo G., Segalin C., Bazzani L., Vinciarelli A., Murino V., “Conversationally-inspired stylometric features for authorship attribution in instant messaging”, Proceedings of the 20th ACM International Conference on Multimedia, Nara, Japan, 2012.
  • [6] Hai-Jew S., “A Light Stroll through Computational Stylometry and its Early Potential”, https://scalar.usc.edu/works/c2c-digital-magazine-fall-winter-2016/a-light-stroll-through-computational-stylometry-and-its-early-potential [access: 11.02.2021].
  • [7] Orebaugh A., Kinser J., Allnutt J., “Visualizing Instant Messaging Author Writeprints for Forensic Analysis”, Annual ADFSL Conference on Digital Forensics, Security and Law, 8, 2014, https://commons.erau.edu/adfsl/2014/thursday/8
  • [8] Houvardas J., Stamatatos E., “N-gram feature selection for authorship identification”, in: Artificial Intelligence: Methodology, Systems, and Applications, J. Euzenat and J. Domingue (Eds.), 77–86, Springer Berlin Heidelberg, 2006.
  • [9] Wright D., “Using word n-grams to identify authors and idiolects: A corpus approach to a forensic linguistic problem”, International Journal of Corpus Linguistics, Vol. 22, No. 2, 212–241 (2017).
  • [10] Santhanakumar M., Columbus C.C., “Various Improved TFIDF Schemes for Term Weighing in text Categorization: A Survey”, International Journal of Applied Engineering Research, Vol. 10, No. 14, 11905–11910 (2015).
  • [11] Moździerz T., “Długość przeciętnego polskiego wyrazu w tekstach pisanych w świetle analizy korpusowej”, Acta Universitatis Lodziensis. Kształcenie Polonistyczne Cudzoziemców, Nr 27, 177–192 (2020), https://doi.org/10.18778/0860-6587.27.09.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-abfb5d35-8a8c-4ed2-8873-28463b707a8f
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.