Wykorzystanie metody opartej na ukrytej alokacji Dirichleta do automatycznej identyfikacji słów kluczowych w dokumentach

Gładysz, A.

Artykuł - szczegóły

Tytuł artykułu

Wykorzystanie metody opartej na ukrytej alokacji Dirichleta do automatycznej identyfikacji słów kluczowych w dokumentach

Autorzy

Gładysz A.

Identyfikatory

Warianty tytułu

Usage a method based on Latent Dirichlet Allocation for the automatic of keywords identification in documents

Języki publikacji

Abstrakty

Najważniejsze czynniki konstytuujące obecną rzeczywistość to zalew informacji, rosnące tempo życia, rosnąca liczba zmian, ale także powszechne używanie komputerów. Współczesne przeładowanie informacjami wiąże się bezpośrednio z powstaniem pierwszych komputerów, dzięki którym użytkownicy mogli produkować i przechowywać dane. Sytuację znacznie pogorszyło pojawienie się Internetu, który pozwolił na szybką wymianę informacji. Era cyfryzacji obnaża świat z tajemnic, ale dostarcza także nadmiaru informacji, co sprawia, że ludzie czują się zmęczeni, przytłoczeni i często zniechęceni, a podejmowanie decyzji paradoksalnie staje się trudniejsze. W tym nadmiarze informacji przechowywanych w dokumentach tekstowych dużego znaczenia nabiera możliwość automatycznego identyfikowania słów kluczowych. Artykuł kontynuuje cykl poświęcony badaniu metod algebraicznych wykorzystywanych do identyfikacji słów kluczowych w polskojęzycznych tekstach naukowych. Jego celem jest teoretyczna analiza i empiryczna weryfikacja przydatności użycia metody identyfikacji słów kluczowych opartej na ukrytej alokacji Dirichleta w naukowych tekstach polskojęzycznych.

The most important factors that constitute the current reality is a flood of information, the increasing pace of life, a growing number of changes, but also the widespread use of computers. Contemporary information overload is directly connected with the creation of the first computers, through which users can produce and store data. The situation is much worse emergence of the Internet, which allowed for the quick exchange of information. The era of digitalisation exposes the world of mysteries, but also provides information overload, which makes people feel tired, overwhelmed and often discouraged, and decision-making, paradoxically, becomes more difficult. In this excess of information stored in text documents is extremely important to possibility of automatic for keywords identification The article is a continuation of the cycle of studies of algebraic methods used to for keywords identification in scientific Polish texts. Its purpose is to theoretical analysis and empirical verification of the suitability of the use of method for keywords identification based on Latent Dirichlet Allocation of scientific in Polish texts.

Słowa kluczowe

informacje identyfikacja słów kluczowych alokacja Dirichleta

information identification of keywords Dirichlet allocation

Wydawca

Sieć Badawcza Łukasiewicz - Poznański Instytut Technologiczny

Czasopismo

Logistyka

Rocznik

2014

Tom

nr 3

Strony

2011--2019

Opis fizyczny

Bibliogr. 9 poz., rys., tab., pełen tekst na CD

Twórcy

autor

Gładysz A.

anna.gladysz@prz.edu.pl

Politechnika Rzeszowska im. Ignacego Łukasiewicza, Wydział Zarządzania; 35-959 Rzeszów; al. Powstańców Warszawy 12

Bibliografia

1. Ball R., The scientific information environment in the next millennium, Library Management, 2000, vol. 21, no. 1, s. 10-12.
2. Blei D. M., Ng A. Y., Jordan M. I., Latent Dirichlet allocation, The Journal of Machine Learning Research, Vol 3(1), 2003, s. 993-1022.
3. Blei D. M., McAuliffe J. D., Supervised Topic Models, NIPS, 2007.
4. Hofmann T., Probabilistic Latent Semantic Indexing, Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, s.50-57.
5. Kotz S., Balakrishnan N., Johnson N. L., Continuous Multivariate Distributions, Volume 1: Models and Applications, New York Wiley, 2000.
6. Leopold E., Kindermann J., Text categorization with support vector machines, how to represent texts in input space?, Machine Learning, 46, 2002.
7. Manning C. D., Raghavan P., Schütze H., Introduction to Information Retrieval, Cambridge University Press, Cambridge, England 2008.
8. Markov Z., Larose D. T., Eksploracja zasobów internetowych, PWN, Warszawa 2009.
9. Salton G., Wong A., Yang C. S., A vector space model for automatic indexing, Communications of the ACM, vol, 18, 1975, s. 613–620.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-7b058972-4aad-4294-a579-ed9f1b3ad762