Identyfikatory
Warianty tytułu
Benchmarking architektur wysokiej wydajności algorytmami przetwarzania języka naturalnego
Języki publikacji
Abstrakty
Natural Language Processing algorithms are resource demanding, especially when tuning to inflective language like Polish is needed. The paper presents time and memory requirements of part of speech tagging and clustering algorithms applied to two corpora of the Polish language. The algorithms are benchmarked on three high performance platforms of different architectures. Additionally sequential versions and OpenMP implementations of clustering algorithms were compared.
Algorytmy przetwarzania języka naturalnego mają duże zapotrzebowanie na zasoby komputerowe, szczególnie gdy wymagane jest dostosowanie algorytmu do języka fleksyjnego jakim jest np. język polski. Artykuł przedstawia wymagania czasowe i pamięciowe algorytmów tagowania częściami mowy oraz algorytmów klasteryzacji zastosowanych do dwóch korpusów języka polskiego. Dokonano benchmarkingu algorytmów na trzech platformach wysokiej wydajności reprezentujących różne architektury. Dodatkowo porównano wersję sekwencyjną oraz implementacje OpenMP algorytmów klasteryzacji.
Wydawca
Czasopismo
Rocznik
Tom
Strony
19--31
Opis fizyczny
Bibliogr. 11 poz., rys., tab., wykr.
Twórcy
autor
- AGH University of Science and Technology, Faculty of Electrical Engineering, Automatics, IT and Electronics, Department of Computer Science, al. Mickiewicza 30, 30-059 Krakow, Poland
autor
- AGH University of Science and Technology, ACC CYFRONET AGH, ul. Nawojki 11, 30-950 Kraków, Poland
Bibliografia
- [1] Broda B., Piasecki M.: Experiments in clustering documents for automatic ac-quisition of lexical semantic networks for Polish. [in:] Proc. of the 16th International Conference Intelligent Information Systems, Zakopane, Poland, 2008, pp. 203-212.
- [2] Piskorski J., Homola P., Marciniak M., Mykowiecka A., Przepiórkowski A., Woliński M.: Information extraction for Polish using the SPro UT platform. [in:] Proc. of the International Conference Intelligent Information Systems (IIS 2004), Siedlce, Poland, 2004, pp. 227-236.
- [3] G. Karypis.: CLUTO. A clustering toolkit. Technical Report 02-017, University of Minnesota, Department of Computer Science, 2003.
- [4] Kuta M., Chrząszcz P., Kitowski J.: A case study of algorithms for morphosyntac-tic tagging of Polish language. Computing and Informatics, 26(6), 2007, pp. 627-647.
- [5] Kuta M., Chrząszcz P., Kitowski J.: Increasing quality of the Corpus of Frequency Dictionary of Contemporary Polish for morphosyntactic tagging of the Polish language. Computing and Informatics, 28(3), 2009, pp. 319-338.
- [6] Kuta M., Kitowski J.: Clustering Polish texts with latent semantic analysis. [in:] Proc. of the 10th International Conference on Artificial Intelligence and Soft Computing, Zakopane, Poland, 2010, pp. 532-539.
- [7] Kuta M., Wójcik W., Wrzeszcz M., Kitowski J.: Application of stacked methods to part-of-speech tagging of Polish. [in:] Proc. of the 8th International Conference on Parallel Proc. and Applied Mathematics, Wrocław, Poland, 2009, pp. 340-349.
- [8] Kuta M., Wójcik W., Wrzeszcz M., Kitowski J.: Application of weighted voting taggers to languages described with large tagsets. Computing and Informatics, 29(2), 2010, pp. 203-225.
- [9] Radovanović M., Ivanović M., Budimac Z.: Text categorization and sorting of web search results. Computing and Informatics, 28(6), 2009, pp. 861-893.
- [10] Halteren H. van, Zavrel J., Daelemans W.: Improving accuracy in word class tagging through the combination of machine learning systems. Computational Linguistics, 27(2), 2001, pp. 199-229.
- [11] Zhao Y., Karypis G.: Hierarchical clustering algorithms for document datasets. Data Mining and Knowledge Discovery, 10(2), 2005, pp. 141-168.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-AGH1-0027-0065