Wykorzystanie algorytmów przetwarzania języka naturalnego do monitorowania treści mediów internetowych

Pańczyk, M.; Smołka, J.

Powiadomienia systemowe

Sesja wygasła!

Artykuł - szczegóły

Tytuł artykułu

Wykorzystanie algorytmów przetwarzania języka naturalnego do monitorowania treści mediów internetowych

Autorzy

Pańczyk M. , Smołka J.

Identyfikatory

Warianty tytułu

Usage of natural language processing algorithms for Internet media content monitoring

Języki publikacji

Abstrakty

Od wielu lat wyszukiwarki internetowe pozwalają na wyszukiwanie treści polegające na wpisywaniu słów kluczowych. Komercyjne oprogramowanie, wykorzystywane przez firmy zajmujące się tzw. public relations oraz instytucje państwowe, pozwala na monitorowanie treści niezgodnych z prawem, np. rasistowskich itp. Tego typu zadania podobnie jak bardziej rozbudowane przewidywanie wpisywanego np. w telefonach komórkowych tekstu i rozpoznawanie pisma ręcznego lub komputerowe tłumaczenia tekstów stanowią typowe zastosowanie algorytmów przetwarzania języka naturalnego (ang. naturallanguageprocessing, NLP). W przypadku języka polskiego tego rodzaju zadania są jednak utrudnione. Język polski jest językiem fleksyjnym, w opozycji do tzw. języków pozycyjnych (np. j. angielski), których wyrazy przyjmują w zdaniu zawsze tę samą formę. Bogata fleksja języka polskiego ma niebagatelny wpływ na jego komputerowe przetwarzanie związane z koniecznością sprowadzania wielu form fleksyjnych tego samego wyrazu do formy podstawowej.Budowa algorytmu NLP, opartego o słownik zawierający wszystkie odmiany słów j. polskiego, wybór i dostosowanie niezbędnych narzędzi programowych pozwalających na zbudowanie oprogramowania ułatwiającego wyszukiwanie treści internetowych w języku polskim są tematem niniejszego artykułu.

All popular search engines allow us to look for requested keywords. Commercial software used by public relations companies and public institutions, allows to monitor illegal content, like for example racist content. Such tasks as well as more complicated like phones and hand held computers support predictive text and hand writing recognition or computer text translations represent a typical application of natural language processing algorithms (NLP). However, for the Polish language this kind of task is difficult. Polish language is an inflectional language, in opposition to the so-called positional language (eg. English), where the words in a sentence always stake the same form. Rich inflection of the Polish language has a substantial impact on its computer processing, associated with the need to bring in many inflected forms of the same word to its basic form. Construction of a natural language processing algorithm (NLP), based on a dictionary containing all the varieties of Polish words, selection and adaptation of the necessary software tools that allow to build software to facilitate search web content in Polish are the subject of this article.

Słowa kluczowe

język naturalny wyszukiwarka internetowa algorytm NLP

natural language search engine algorithm NLP

Wydawca

Sieć Badawcza Łukasiewicz - Poznański Instytut Technologiczny

Czasopismo

Logistyka

Rocznik

2014

Tom

nr 6

Strony

8321--8330

Opis fizyczny

Bibliogr. 26 poz., rys., pełny tekst na CD3

Twórcy

autor

Pańczyk M.

m.panczyk@pollub.pl

Politechnika Lubelska, Wydział Elektrotechniki i Informatyki, Instytut Informatyki, ul. Nadbystrzycka 36b, 20-618 Lublin

autor

Smołka J.

jakub.smolka@pollub.pl

Politechnika Lubelska, Wydział Elektrotechniki i Informatyki, Instytut Informatyki, ul. Nadbystrzycka 36b, 20-618 Lublin

Bibliografia

1. Alchin M., Pro Django, 2nd Edition, wyd. Apress , New York 2013.
2. Badurowicz M., Szymczyk T., Economic aspects of cloud computing. Actual Problems of Economics, 2013, 4(142)/2013, s. 262-265.
3. Beazley D., Jones B. K., Python Receptury, wyd. III, wyd. Helion, Gliwice 2014.
4. Bird S., Klein E., Loper E., Natural Language Processing with Python. Analyzing Text with the Natural Language Toolkit, O’Reilly 2009.
5. Castledine E., Sharke C., jQuery. Od nowicjusza do wojownika ninja, wyd. Helion, Gliwice 2012.
6. Czerwinski D., Influence of the VM Manager on Private Cluster Data Mining System, Springer 2014, Communications in Computer and Information Science, Volume 431, 2014, pp 47-56.
7. http://celery.readthedocs.org/en/latest/userguide/, dokumentacja Celery [11.05.2014].
8. http://doc.scrapy.org/en/latest/intro/tutorial.html, TutorialScrapy [04.06.2014].
9. http://legacy.python.org/dev/peps/pep-3333, treść specyfikacji PEP 3333 [10.06.2014].
10. http://nginx.org/en/docs/, dokumentacja Nginx, serwera WWW, [11.05.2014].
11. http://pypi.python.org/pypi/virtualenv, wirtualne środowisko języka Python [24.05.2014].
12. http://sjp.pl, internetowy Słownik języka polskiego [dostęp: 10.06.2014].
13. http://sjp.pl/slownik/odmiany/sjp-odm-20140112.zip, Słownik języka polskiego - lista słów z odmianami, [11.05.2014].
14. http://uwsgi-docs.readthedocs.org/en/latest/, dokumentacja uWSGI, serwera aplikacji dla języka Python, [11.05.2014].
15. http://www.jetbrains.com/pycharm, strona internetowa edytora PyCharm [10.06.2014].
16. http://www.morfologik.blogspot.com, strona biblioteki Morfologik [10.06.2014].
17. http://www.rabbitmq.com/, Strona projektu RabbitMQ, serwera kolejki, wraz z dokumentacja [11.05.2014].
18. https://pypi.python.org/pypi/goose-extractor/, strona biblioteki GooseExtractor [12.06.2014].
19. Marszałek P., Monitorowanie mediów internetowych pod względem wybranych treści z wykorzystaniem algorytmów przetwarzania języka naturalnego, praca inżynierska, Politechnika Lubelska 2014.
20. Miłosz M., Borys M., Laskowski M., Memorability experiment vs. expert method in web sites usability evaluation. ICEIS 2013 - 15th International Conference on Enterprise Information Systems - 2013, s. 176-182.
21. Pańczyk B., Effective web applications development, Actual Problems of Economics - 2013, nr 11, vol. 149, s. 443-451.
22. Pańczyk M., Improving computation efficiency by parallel programming, Actual Problems of Economics, nr 3, 2013, vol. 141, s. 398-406.
23. Pasternak Ł., CSS3 Tworzenie nowoczesnych stron WWW, wyd. Helion, Gliwice 2012.
24. Perkins J., Python Text Processing with NLTK 2.0 Cookbook, wyd. PACKT Publishing, Birmingham 2010.
25. Pilgrim M., Diveinto Python, wyd. Apress, New York 2004, (polskie tłumaczenie: http://pl.wikibooks.org/wiki/Zanurkuj_w_Pythonie, [11.05.2014]).
26. Plechawska-Wójcik M., Lujan-Mora S., Wójcik Ł., Assessment of user experience with responsive web applications using expert method and cognitive walkthrough : a case study, ICEIS 2013 - 15th International Conference on Enterprise Information Systems - 2013, s. 60-67.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-7b38a407-1339-4982-96c3-1591977b5b5a