Automatic indexing of information resources concerning agriculture in Polish

Karwowski, W.; Wrzeciono, P.

doi:10.14654/ir.2014.152.85

Artykuł - szczegóły

Tytuł artykułu

Automatic indexing of information resources concerning agriculture in Polish

Autorzy

Karwowski W. , Wrzeciono P.

Treść / Zawartość

Pełne teksty:

Pobierz

Identyfikatory

DOI

10.14654/ir.2014.152.85

Warianty tytułu

Automatyczne indeksowanie zasobów informacyjnych w języku polskim dotyczących rolnictwa

Języki publikacji

Abstrakty

Contemporary research and production activity require searching and collecting a variety of information, this also applies to issues in the field of agriculture. Today, the vast majority of resources are available in a digital form. FAO on the portal of the Agricultural Information Management Standards presents an AgroTagger, tool for indexing documents in the field of agriculture, which is designed for the English language. Extraction of knowledge is not very convenient in languages such as Polish language with a very extensive inflection. In Polish, the following parts of speech inflect: verbs, nouns, numerals, adjectives, and pronouns. Proper indexing requires an initial reduction of grammatical forms, to which the authors have used the dictionary of the Polish language and have developed a programme of reducing. Moreover the algorithms for determining weights corresponding to the validity of the appointments taking into account the prevalence of terms and their position in the document were developed and implemented.

Współcześnie działalność badawcza i produkcyjna wymaga wyszukiwania i gromadzenia różnorodnych informacji, dotyczy to także zagadnień z dziedziny rolnictwa. Obecnie większość zasobów dostępna jest w formie cyfrowej. FAO w ramach portalu Agricultural Information Management Standards prezentuje AgroTagger narzędzie do indeksowania dokumentów z dziedziny rolnictwa, które przeznaczone jest dla języka angielskiego. Ekstrakcja wiedzy jest utrudniona w językach takich jak język polski, posiadających bardzo rozbudowaną fleksję. W języku polskim odmienia się rzeczowniki, czasowniki, przymiotniki oraz zaimki osobowe. Właściwa indeksacja wymaga wstępnej redukcji form fleksyjnych, wobec czego wykorzystano słownik odmian języka polskiego i opracowano program redukujący. Ponadto opracowano i zaimplementowano algorytmy wyznaczania wag odpowiadających ważności terminów uwzględniające częstość występowania terminów i ich pozycję w dokumencie.

Słowa kluczowe

indexing integrating sources of information semantic network knowledge management

indeksowanie integrowanie źródeł informacji sieć semantyczna zarządzanie wiedzą

Wydawca

Polskie Towarzystwo Inżynierii Rolniczej

Czasopismo

Agricultural Engineering

Rocznik

2014

Tom

Vol. 18, No. 4

Strony

103--110

Opis fizyczny

Bibliogr. 14 poz., rys.

Twórcy

autor

Karwowski W.

waldemar_karwowski@sggw.pl

Department of Computer Sciences, Warsaw University of Life Sciences in Warsaw, ul. Nowoursynowska 159, 02-776 Warszawa

autor

Wrzeciono P.

Department of Computer Sciences, Warsaw University of Life Sciences in Warsaw, ul. Nowoursynowska 159, 02-776 Warszawa

Bibliografia

AgroTagger. Pozyskano z: http://aims.fao.org/agrotagger.
Branny, E. (2005). Text Summarizing in Polish. Praca magisterska Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki. AGH Kraków (niepublikowana).
Dolamic, L.; Savoy, J. (2008). Stemming Approaches for East European Languages. Advances in Multilingual and Multimodal Information Retrieval, Springer LNCS vol. 5152, 37-44.
Gupta, S.; Manning, C.D. (2011). Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers. Proceedings of the Fifth International Joint Conference on Natural Language Processing. Pozyskano z: http://nlp.stanford.edu/pubs/gupta-manning-ijcnlp11.pdf.
Karwowski, W. (2010). Ontologies and Agricultural Information Management Standards. Information systems in managment VI, ed. P. Jałowiecki & A. Orłowski. WULS Press, Warszawa, 49-56.
Lovins, J. (1968). Development of a Stemming Algorithm, Mechanical Translation and Computational Linguistics 11(1-2), 11-31.
Manning, C.D., (2011). Part-of-Speech Tagging from 97% to 100%: Is It Time for Some Linguistics?. Computational Linguistics and Intelligent Text Processing, Part I. Springer LNCS vol. 6608, 171-189.
Manning, C.D.; Raghavan, P.; Schuetze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN: 0521865719.
Paice, C.; Husk, G. (1990). Another Stemmer. ACM SIGIR Forum 24(3), 56-61.
Porter, M. (1980). An algorithm for suffix stripping, Program 14(3), 130-137.
Słownik Języka Polskiego. Pozyskano z: http://www.sjp.pl.
Tezaurus AGROVOC. Pozyskano z: http://aims.fao.org/standards/agrovoc/about/.
Weres, J. (2010). Informatyczny system pozyskiwania danych o geometrii produktów rolniczych na przykładzie ziarniaka kukurydzy. Inżynieria Rolnicza, 7, 229-236.
Wrzeciono P., Karwowski W. (2013). Automatic Indexing and Creating Semantic Networks for Agricultural Science Papers in the Polish Language. Computer Software and Applications Conference Workshops (COMPSACW). 2013 IEEE 37th Annual, Kyoto.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-5ad99d10-730f-4b87-9972-a26900b573ef