PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Przykładowe zastosowanie gradacyjnej analizy danych w badaniach lingwistycznych

Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
EN
An example of grade data analysis application for linguistic research
Języki publikacji
PL
Abstrakty
PL
W niniejszym raporcie przebadano potencjał gradacyjnej analizy danych w odniesieniu do klasyfikacji czasowników względem stylów tekstów zgromadzonych w Korpusie IPI PAN. Ponieważ w Korpusie dominują dwa style: publicystyczny i protokół, analizę przeprowadzono dla dwóch zestawów danych: pełnego i z wyłączeniem wspomnianych stylów. Analogiczny proces analizy przeprowadzono dla danych zagregowanych po kategoriach semantycznych (sensach) czasowników pochodzących z wordnetu. Uzyskane wyniki zostały porównane.
EN
An example of grade data analysis application for linguistic research In the report, the potential of grade analysis is explored for the classification of verbs with regard to the IPI PAN Corpus text styles. Since two styles, publicystyczny (newspapers) and protokół (parliament protocols), dominate in the Corpus, the analysis is performed for two datasets: the entire Corpus and the subcorpus without the dominant styles. An analogous analysis is provided for the data aggregated by means of wordnet-like semantic categories (senses) of verbs. The obtained results are compared.
Rocznik
Tom
Strony
1--40
Opis fizyczny
Bibliogr. 22 poz.
Twórcy
autor
autor
Bibliografia
  • P. Bański (2001) The proposed encoding scheme for the IPI PAN corpus. Prace IPI PAN, Nr 936. Instytut Podstaw Informatyki PAN.
  • D. Crystal (1992) An Encyclopedic Dictionary of Language and Languages, Oxford: Oxford University Press.
  • M. Derwojedowa, M. Piasecki, S. Szpakowicz, M. Zawisławska (2007) Polish WordNet on a Shoestring, w: Proceedings of Biannual Conference of the Society for Computational Linguistics and Language Technology, Universität Tübingen / Günter Narr.
  • Ł. Dębowski (2004) Trigram morphosyntactic tagger for Polish, w: M. A. Klo-potek, S. T. Wierzchoń, K. Trojanowski (red.), Intelligent Information Processing and Web Mining. Proceedings of the International IISHIPWM'OA Conference held in Zakopane, Poland, May 17-20, 2004, s- 409-413, New York: Springer.
  • — (2006) Ergodic decomposition of excess entropy and conditional mutual in-formation. IPI PAN Reports, Nr 993. Institute of Computer Science, Polish Academy of Sciences.
  • P. Jelinek (1997) Statistical Methods for Speech Recognition, Cambridge, MA: The MIT Press.
  • D.           Jurafsky, J. H. Martin (2000) Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Englewood Cliffs: Prentice Hall.
  • E.            Khmaladze (1988) The statistical analysis of large number of rare events.Technical Report MS-R8804. Department of Mathematical Statistics, CWI, Amsterdam: Center for Mathematics and Computer Science.
  • R. Kohler, G. Altmann, R. G. Piotrowski (red.) (2005) Quantitative Linguistik. Ein internationales Handbuch / Quantitative Linguistics. An International Handbook, Berlin: Walter de Gruyter.
  • I. Kurcz, A. Lewicki, J. Sambor, J. Woronczak (1990) Słownik frekwencyjny polszczyzny współczesnej, Kraków: Instytut Języka Polskiego PAN.
  • C. D. Manning, H. Schütze (1999) Foundations of Statistical Natural Language Processing, Cambridge, MA: The MIT Press.
  • M. Mohri, B. Roark (2005) Structural Zeros versus Sampling Zeros. Technical Report CSEE-05-003, OGI School of Science & Engineering, Oregon Health & Science University.
  • A. Pawłowski (2003) O problemie atrybucji tekstów w lingwistyce kwantytatywnej (na przykładzie tekstów Romaina Gary), w: J. Linde-Usiekniewicz, R. Huszcza (red.), Prace językoznawcze dedykowane Profesor Jadwidze Sambor, s. 169-190, Wydział Polonistyki Uniwersytetu Warszawskiego.
  • M. Piasecki, G. Godlewski (2006) Reductionistic, Tree and Rule Based Tagger for Polish, w: M. A. Kłopotek, S. T. Wierzchoń, K. Trojanowski (red.), Intelligent Information Processing and Web Mining: Proceedings of the International IIS: IIPWM'06 Conference held in Ustroń, Poland, June 19-22, 2006, s. 531-540, New York: Springer.
  • K. Pisarkowa (1975) Składnia rozmowy telefonicznej, Wroclaw: Zakład Narodowy Imienia Ossolińskich.
  • A. Przepiórkowski, P. Bański, Ł. Dębowski, E. Hajnicz, M. Woliński (2003) Konstrukcja korpusu IPI PAN, Polonica, t. XXII-XXIII, s. 33-38.
  • A. Przepiórkowski, M. Woliński (2003) A Flexemic Tagset for Polish, w: Proceedings of Morphological Processing of Slavic Languages, EACL 2003, s. 33-40.
  • A. Przepiórkowski (2004) Korpus IPI PAN. Wersja wstępna / The IPI PAN Corpus: Preliminary version, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
  • H. van Halteren, R. H. Baayen, F. Tweedie, M. Haverkort, A. Neijt (2005) New machine learning methods demonstrate the existence of a human stylome, Journal of Quantitative Linguistics, t. 12, s. 65-77.
  • M. Woliński (2003) System znaczników morfosyntaktycznych w korpusie IPI PAN, Polonica, t. XXII-XXIII, s. 39-55.
  • — (2006) Morfeusz—a Practical Tooł for the Morphological Analysis of Polish, w: M. A. Kłopotek, S. T. Wierzchoń, K. Trojanowski (red.), Intelligent Information Processing and Web Mining: Proceedings of the International IIS: IIPWM'06 Conference held in Ustroń, Poland, June 19-22, 2006, s. 503-512, New York: Springer.
  • G. K. Zipf (1935) The Psycho-Biology of Language: An Introduction to Dynamic Philology, Boston: Houghton Miffin.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BUJ5-0053-0007
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.