Wyniki wyszukiwania - BazTech

1

Znakowanie semantyczne Składnicy frazowej : założenia ogólne, nazwy własne, aktualizacja

Hajnicz E.

Prace Instytutu Podstaw Informatyki Polskiej Akademii Nauk

|

2012

|

Nr 1025

1--80

PL

Niniejszy raport omawia zasady znakowania leksykalno-semantycznego banku drzew Składnica jednostkami leksykalnymi pochodzącymi ze Słowosieci. Ponadto prezentuje metodę przeniesienia znakowania nazw własnych z NKJP do Składnicy (wraz z ewaluacją). Wszystkie trzy wspomniane zasoby zostały pokrótce opisane. Na koniec przedstawiona została metoda aktualizacji uzyskanego znakowania do zmian zachodzących zarówno w Słowosieci, jak i w Składnicy.

EN

The present report discusses the principles of lexical-semantic annotation of treebank Składnica by means of Słowosieć (PlWordNet) lexical units. Moreover, it presents a method of mapping NKJP named entities annotation to Składnica (including evaluation). Ali three resources mentioned above are shortly described. Finally, a method of updating the annotation to changes appearing both in Słowosieć and Składnica.

2

Najbardziej znane korpusy tekstów : opracowanie przeglądowe

Hajnicz E.

Prace Instytutu Podstaw Informatyki Polskiej Akademii Nauk

|

2011

|

Nr 1022

1-56

PL

Niniejszy raport opisuje najbardziej znane korpusy tekstów języka naturalnego. Wpierw analizowane są zasady konstruowania korpusu, czyli doboru składających się nań tekstów w zależności od przyjetego rozmiaru oraz określenia jego struktury. Następnie prezentowane są najbardziej znane korpusy, głównie anglojęzyczne, lecz także innych języków europejskich: francuskiego, niemieckiego, rosyjskiego i czeskiego. Szczególną uwagę poświęcono dwum korpusom polskim - Korpusowi IPI PAN oraz Narodowemu Korpusowi Języka Polskiego. Oddzielny rozdział poświęcony jest bankom drzew, czyli korpusom znakowanym syntaktycznie.

EN

The present report describes the most famous corpora of natural language texts. First, the rules of corpora construction are analysed, namely, determining its structure and selecting texts to be included in the corpus. Next, the most popular corpora are presented. The majority of them are English corpora, but corpora of other European languages: French, German, Czech and Russian are considered as well. The special attention is paid to two Polish corpora: the IPI PAN Corpus and the National Corpus of Polish. The separate section is devoted to treebanks, i.e., corpora that are syntactically annotated.

3

Przykładowe zastosowanie gradacyjnej analizy danych w badaniach lingwistycznych

Hajnicz E., Dębowski Ł., Wiech M.

Prace Instytutu Podstaw Informatyki Polskiej Akademii Nauk

|

2007

|

Nr 1005

1-40

PL

W niniejszym raporcie przebadano potencjał gradacyjnej analizy danych w odniesieniu do klasyfikacji czasowników względem stylów tekstów zgromadzonych w Korpusie IPI PAN. Ponieważ w Korpusie dominują dwa style: publicystyczny i protokół, analizę przeprowadzono dla dwóch zestawów danych: pełnego i z wyłączeniem wspomnianych stylów. Analogiczny proces analizy przeprowadzono dla danych zagregowanych po kategoriach semantycznych (sensach) czasowników pochodzących z wordnetu. Uzyskane wyniki zostały porównane.

EN

An example of grade data analysis application for linguistic research In the report, the potential of grade analysis is explored for the classification of verbs with regard to the IPI PAN Corpus text styles. Since two styles, publicystyczny (newspapers) and protokół (parliament protocols), dominate in the Corpus, the analysis is performed for two datasets: the entire Corpus and the subcorpus without the dominant styles. An analogous analysis is provided for the data aggregated by means of wordnet-like semantic categories (senses) of verbs. The obtained results are compared.

4

Dobór czasowników do badań przy tworzeniu słownika semantycznego czasowników polskich

Hajnicz E.

Prace Instytutu Podstaw Informatyki Polskiej Akademii Nauk

|

2007

|

Nr 1003

1-126

PL

Niniejszy raport opisuje proces doboru czasowników do eksperymentów przy tworzeniu słownika semantycznego czasowników polskich. Wpierw prezentowana jest charakterystyka semantyczna (oparta na literaturze anglojęzycznej) i syntaktyczna (oparta na literaturze polskiej) czasowników pod kątem ich zdolności do alternacji. Rozważany jest też zestaw czasowników używanych w automatycznym wykrywaniu alternacji i grupowaniu czasowników dla angielskiego. Z drugiej strony, przeanalizowane zostały ograniczenia stawiane przez Korpus IPI PAN. Sugerowany zestaw został ograniczony do czasowników rozpatrywanych w polskim wordnecie; zbadana została też ich nadreprezentacja w poszczególnych stylach tekstów Korpusu. Na tej podstawie wybrany został zestaw 99 czasowników do badań.

EN

The present report describes the process in which atest set of Polish verbs nas been selected for the creation of a semantic dictionary of Polish verbs, First, a semantic (based on English literature) and syntactic (based on Polish literature) characteristics of verbs alternation is presented. Next, a set of verbs used in automatic detection of alternations and verb classification (for English) is reviewed. On the other hand, the distribution of verbs in IPI PAN Corpus is analysed. A set of verbs has been limited to those considered in Polish wordnet, and overrepresentation of verbs in text styles of the Corpus has been exarnined. As a result, 99 verbs have been chosen for further work.