PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Powiadomienia systemowe
  • Sesja wygasła!
Tytuł artykułu

Wykorzystanie algorytmów przetwarzania języka naturalnego do monitorowania treści mediów internetowych

Identyfikatory
Warianty tytułu
EN
Usage of natural language processing algorithms for Internet media content monitoring
Języki publikacji
PL
Abstrakty
PL
Od wielu lat wyszukiwarki internetowe pozwalają na wyszukiwanie treści polegające na wpisywaniu słów kluczowych. Komercyjne oprogramowanie, wykorzystywane przez firmy zajmujące się tzw. public relations oraz instytucje państwowe, pozwala na monitorowanie treści niezgodnych z prawem, np. rasistowskich itp. Tego typu zadania podobnie jak bardziej rozbudowane przewidywanie wpisywanego np. w telefonach komórkowych tekstu i rozpoznawanie pisma ręcznego lub komputerowe tłumaczenia tekstów stanowią typowe zastosowanie algorytmów przetwarzania języka naturalnego (ang. naturallanguageprocessing, NLP). W przypadku języka polskiego tego rodzaju zadania są jednak utrudnione. Język polski jest językiem fleksyjnym, w opozycji do tzw. języków pozycyjnych (np. j. angielski), których wyrazy przyjmują w zdaniu zawsze tę samą formę. Bogata fleksja języka polskiego ma niebagatelny wpływ na jego komputerowe przetwarzanie związane z koniecznością sprowadzania wielu form fleksyjnych tego samego wyrazu do formy podstawowej.Budowa algorytmu NLP, opartego o słownik zawierający wszystkie odmiany słów j. polskiego, wybór i dostosowanie niezbędnych narzędzi programowych pozwalających na zbudowanie oprogramowania ułatwiającego wyszukiwanie treści internetowych w języku polskim są tematem niniejszego artykułu.
EN
All popular search engines allow us to look for requested keywords. Commercial software used by public relations companies and public institutions, allows to monitor illegal content, like for example racist content. Such tasks as well as more complicated like phones and hand held computers support predictive text and hand writing recognition or computer text translations represent a typical application of natural language processing algorithms (NLP). However, for the Polish language this kind of task is difficult. Polish language is an inflectional language, in opposition to the so-called positional language (eg. English), where the words in a sentence always stake the same form. Rich inflection of the Polish language has a substantial impact on its computer processing, associated with the need to bring in many inflected forms of the same word to its basic form. Construction of a natural language processing algorithm (NLP), based on a dictionary containing all the varieties of Polish words, selection and adaptation of the necessary software tools that allow to build software to facilitate search web content in Polish are the subject of this article.
Czasopismo
Rocznik
Tom
Strony
8321--8330
Opis fizyczny
Bibliogr. 26 poz., rys., pełny tekst na CD3
Twórcy
autor
  • Politechnika Lubelska, Wydział Elektrotechniki i Informatyki, Instytut Informatyki, ul. Nadbystrzycka 36b, 20-618 Lublin
autor
  • Politechnika Lubelska, Wydział Elektrotechniki i Informatyki, Instytut Informatyki, ul. Nadbystrzycka 36b, 20-618 Lublin
Bibliografia
  • 1. Alchin M., Pro Django, 2nd Edition, wyd. Apress , New York 2013.
  • 2. Badurowicz M., Szymczyk T., Economic aspects of cloud computing. Actual Problems of Economics, 2013, 4(142)/2013, s. 262-265.
  • 3. Beazley D., Jones B. K., Python Receptury, wyd. III, wyd. Helion, Gliwice 2014.
  • 4. Bird S., Klein E., Loper E., Natural Language Processing with Python. Analyzing Text with the Natural Language Toolkit, O’Reilly 2009.
  • 5. Castledine E., Sharke C., jQuery. Od nowicjusza do wojownika ninja, wyd. Helion, Gliwice 2012.
  • 6. Czerwinski D., Influence of the VM Manager on Private Cluster Data Mining System, Springer 2014, Communications in Computer and Information Science, Volume 431, 2014, pp 47-56.
  • 7. http://celery.readthedocs.org/en/latest/userguide/, dokumentacja Celery [11.05.2014].
  • 8. http://doc.scrapy.org/en/latest/intro/tutorial.html, TutorialScrapy [04.06.2014].
  • 9. http://legacy.python.org/dev/peps/pep-3333, treść specyfikacji PEP 3333 [10.06.2014].
  • 10. http://nginx.org/en/docs/, dokumentacja Nginx, serwera WWW, [11.05.2014].
  • 11. http://pypi.python.org/pypi/virtualenv, wirtualne środowisko języka Python [24.05.2014].
  • 12. http://sjp.pl, internetowy Słownik języka polskiego [dostęp: 10.06.2014].
  • 13. http://sjp.pl/slownik/odmiany/sjp-odm-20140112.zip, Słownik języka polskiego - lista słów z odmianami, [11.05.2014].
  • 14. http://uwsgi-docs.readthedocs.org/en/latest/, dokumentacja uWSGI, serwera aplikacji dla języka Python, [11.05.2014].
  • 15. http://www.jetbrains.com/pycharm, strona internetowa edytora PyCharm [10.06.2014].
  • 16. http://www.morfologik.blogspot.com, strona biblioteki Morfologik [10.06.2014].
  • 17. http://www.rabbitmq.com/, Strona projektu RabbitMQ, serwera kolejki, wraz z dokumentacja [11.05.2014].
  • 18. https://pypi.python.org/pypi/goose-extractor/, strona biblioteki GooseExtractor [12.06.2014].
  • 19. Marszałek P., Monitorowanie mediów internetowych pod względem wybranych treści z wykorzystaniem algorytmów przetwarzania języka naturalnego, praca inżynierska, Politechnika Lubelska 2014.
  • 20. Miłosz M., Borys M., Laskowski M., Memorability experiment vs. expert method in web sites usability evaluation. ICEIS 2013 - 15th International Conference on Enterprise Information Systems - 2013, s. 176-182.
  • 21. Pańczyk B., Effective web applications development, Actual Problems of Economics - 2013, nr 11, vol. 149, s. 443-451.
  • 22. Pańczyk M., Improving computation efficiency by parallel programming, Actual Problems of Economics, nr 3, 2013, vol. 141, s. 398-406.
  • 23. Pasternak Ł., CSS3 Tworzenie nowoczesnych stron WWW, wyd. Helion, Gliwice 2012.
  • 24. Perkins J., Python Text Processing with NLTK 2.0 Cookbook, wyd. PACKT Publishing, Birmingham 2010.
  • 25. Pilgrim M., Diveinto Python, wyd. Apress, New York 2004, (polskie tłumaczenie: http://pl.wikibooks.org/wiki/Zanurkuj_w_Pythonie, [11.05.2014]).
  • 26. Plechawska-Wójcik M., Lujan-Mora S., Wójcik Ł., Assessment of user experience with responsive web applications using expert method and cognitive walkthrough : a case study, ICEIS 2013 - 15th International Conference on Enterprise Information Systems - 2013, s. 60-67.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-7b38a407-1339-4982-96c3-1591977b5b5a
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.