Przykładowe zastosowanie gradacyjnej analizy danych w badaniach lingwistycznych

Hajnicz, E.; Dębowski, Ł.; Wiech, M.

Artykuł - szczegóły

Tytuł artykułu

Przykładowe zastosowanie gradacyjnej analizy danych w badaniach lingwistycznych

Autorzy

Hajnicz E. , Dębowski Ł. , Wiech M.

Wybrane pełne teksty z tego czasopisma

http://ipipan.waw.pl/instytut/wydawnictwo/prace-ipi-pan

Identyfikatory

Warianty tytułu

An example of grade data analysis application for linguistic research

Języki publikacji

Abstrakty

W niniejszym raporcie przebadano potencjał gradacyjnej analizy danych w odniesieniu do klasyfikacji czasowników względem stylów tekstów zgromadzonych w Korpusie IPI PAN. Ponieważ w Korpusie dominują dwa style: publicystyczny i protokół, analizę przeprowadzono dla dwóch zestawów danych: pełnego i z wyłączeniem wspomnianych stylów. Analogiczny proces analizy przeprowadzono dla danych zagregowanych po kategoriach semantycznych (sensach) czasowników pochodzących z wordnetu. Uzyskane wyniki zostały porównane.

An example of grade data analysis application for linguistic research In the report, the potential of grade analysis is explored for the classification of verbs with regard to the IPI PAN Corpus text styles. Since two styles, publicystyczny (newspapers) and protokół (parliament protocols), dominate in the Corpus, the analysis is performed for two datasets: the entire Corpus and the subcorpus without the dominant styles. An analogous analysis is provided for the data aggregated by means of wordnet-like semantic categories (senses) of verbs. The obtained results are compared.

Słowa kluczowe

gradacyjna analiza skupień korpusy tekstów metody gradacyjne semantyka języka naturalnego wordnet

grade cluster analysis grade methods natural language semantics text corpora wordnet

Wydawca

Instytut Podstaw Informatyki PAN

Czasopismo

Prace Instytutu Podstaw Informatyki Polskiej Akademii Nauk

Rocznik

2007

Tom

Nr 1005

Strony

1--40

Opis fizyczny

Bibliogr. 22 poz.

Twórcy

autor

Hajnicz E.

autor

Dębowski Ł.

autor

Wiech M.

Instytut Podstaw Informatyki Polskiej Akademii Nauk Ordona 21, 01-237 Warszawa, Elzbieta.Hajnicz@ipipan.waw.pl

Bibliografia

P. Bański (2001) The proposed encoding scheme for the IPI PAN corpus. Prace IPI PAN, Nr 936. Instytut Podstaw Informatyki PAN.
D. Crystal (1992) An Encyclopedic Dictionary of Language and Languages, Oxford: Oxford University Press.
M. Derwojedowa, M. Piasecki, S. Szpakowicz, M. Zawisławska (2007) Polish WordNet on a Shoestring, w: Proceedings of Biannual Conference of the Society for Computational Linguistics and Language Technology, Universität Tübingen / Günter Narr.
Ł. Dębowski (2004) Trigram morphosyntactic tagger for Polish, w: M. A. Klo-potek, S. T. Wierzchoń, K. Trojanowski (red.), Intelligent Information Processing and Web Mining. Proceedings of the International IISHIPWM'OA Conference held in Zakopane, Poland, May 17-20, 2004, s- 409-413, New York: Springer.
— (2006) Ergodic decomposition of excess entropy and conditional mutual in-formation. IPI PAN Reports, Nr 993. Institute of Computer Science, Polish Academy of Sciences.
P. Jelinek (1997) Statistical Methods for Speech Recognition, Cambridge, MA: The MIT Press.
D. Jurafsky, J. H. Martin (2000) Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Englewood Cliffs: Prentice Hall.
E. Khmaladze (1988) The statistical analysis of large number of rare events.Technical Report MS-R8804. Department of Mathematical Statistics, CWI, Amsterdam: Center for Mathematics and Computer Science.
R. Kohler, G. Altmann, R. G. Piotrowski (red.) (2005) Quantitative Linguistik. Ein internationales Handbuch / Quantitative Linguistics. An International Handbook, Berlin: Walter de Gruyter.
I. Kurcz, A. Lewicki, J. Sambor, J. Woronczak (1990) Słownik frekwencyjny polszczyzny współczesnej, Kraków: Instytut Języka Polskiego PAN.
C. D. Manning, H. Schütze (1999) Foundations of Statistical Natural Language Processing, Cambridge, MA: The MIT Press.
M. Mohri, B. Roark (2005) Structural Zeros versus Sampling Zeros. Technical Report CSEE-05-003, OGI School of Science & Engineering, Oregon Health & Science University.
A. Pawłowski (2003) O problemie atrybucji tekstów w lingwistyce kwantytatywnej (na przykładzie tekstów Romaina Gary), w: J. Linde-Usiekniewicz, R. Huszcza (red.), Prace językoznawcze dedykowane Profesor Jadwidze Sambor, s. 169-190, Wydział Polonistyki Uniwersytetu Warszawskiego.
M. Piasecki, G. Godlewski (2006) Reductionistic, Tree and Rule Based Tagger for Polish, w: M. A. Kłopotek, S. T. Wierzchoń, K. Trojanowski (red.), Intelligent Information Processing and Web Mining: Proceedings of the International IIS: IIPWM'06 Conference held in Ustroń, Poland, June 19-22, 2006, s. 531-540, New York: Springer.
K. Pisarkowa (1975) Składnia rozmowy telefonicznej, Wroclaw: Zakład Narodowy Imienia Ossolińskich.
A. Przepiórkowski, P. Bański, Ł. Dębowski, E. Hajnicz, M. Woliński (2003) Konstrukcja korpusu IPI PAN, Polonica, t. XXII-XXIII, s. 33-38.
A. Przepiórkowski, M. Woliński (2003) A Flexemic Tagset for Polish, w: Proceedings of Morphological Processing of Slavic Languages, EACL 2003, s. 33-40.
A. Przepiórkowski (2004) Korpus IPI PAN. Wersja wstępna / The IPI PAN Corpus: Preliminary version, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
H. van Halteren, R. H. Baayen, F. Tweedie, M. Haverkort, A. Neijt (2005) New machine learning methods demonstrate the existence of a human stylome, Journal of Quantitative Linguistics, t. 12, s. 65-77.
M. Woliński (2003) System znaczników morfosyntaktycznych w korpusie IPI PAN, Polonica, t. XXII-XXIII, s. 39-55.
— (2006) Morfeusz—a Practical Tooł for the Morphological Analysis of Polish, w: M. A. Kłopotek, S. T. Wierzchoń, K. Trojanowski (red.), Intelligent Information Processing and Web Mining: Proceedings of the International IIS: IIPWM'06 Conference held in Ustroń, Poland, June 19-22, 2006, s. 503-512, New York: Springer.
G. K. Zipf (1935) The Psycho-Biology of Language: An Introduction to Dynamic Philology, Boston: Houghton Miffin.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-BUJ5-0053-0007