Wyniki wyszukiwania - BazTech

Ograniczanie wyników

2 Prace Instytutu Podstaw Informatyki Polskiej Akademii Nauk

2 Hajnicz E.

Znaleziono wyników: 2

Liczba wyników na stronie

Wyniki wyszukiwania

Wyszukiwano:
w słowach kluczowych: corpora annotation

Sortuj według:

Ogranicz wyniki do:

Znakowanie semantyczne Składnicy frazowej : założenia ogólne, nazwy własne, aktualizacja

Hajnicz E.

Prace Instytutu Podstaw Informatyki Polskiej Akademii Nauk

2012

Nr 1025

1--80

Niniejszy raport omawia zasady znakowania leksykalno-semantycznego banku drzew Składnica jednostkami leksykalnymi pochodzącymi ze Słowosieci. Ponadto prezentuje metodę przeniesienia znakowania nazw własnych z NKJP do Składnicy (wraz z ewaluacją). Wszystkie trzy wspomniane zasoby zostały pokrótce opisane. Na koniec przedstawiona została metoda aktualizacji uzyskanego znakowania do zmian zachodzących zarówno w Słowosieci, jak i w Składnicy.

The present report discusses the principles of lexical-semantic annotation of treebank Składnica by means of Słowosieć (PlWordNet) lexical units. Moreover, it presents a method of mapping NKJP named entities annotation to Składnica (including evaluation). Ali three resources mentioned above are shortly described. Finally, a method of updating the annotation to changes appearing both in Słowosieć and Składnica.

Najbardziej znane korpusy tekstów : opracowanie przeglądowe

Hajnicz E.

Prace Instytutu Podstaw Informatyki Polskiej Akademii Nauk

2011

Nr 1022

1-56

Niniejszy raport opisuje najbardziej znane korpusy tekstów języka naturalnego. Wpierw analizowane są zasady konstruowania korpusu, czyli doboru składających się nań tekstów w zależności od przyjetego rozmiaru oraz określenia jego struktury. Następnie prezentowane są najbardziej znane korpusy, głównie anglojęzyczne, lecz także innych języków europejskich: francuskiego, niemieckiego, rosyjskiego i czeskiego. Szczególną uwagę poświęcono dwum korpusom polskim - Korpusowi IPI PAN oraz Narodowemu Korpusowi Języka Polskiego. Oddzielny rozdział poświęcony jest bankom drzew, czyli korpusom znakowanym syntaktycznie.

The present report describes the most famous corpora of natural language texts. First, the rules of corpora construction are analysed, namely, determining its structure and selecting texts to be included in the corpus. Next, the most popular corpora are presented. The majority of them are English corpora, but corpora of other European languages: French, German, Czech and Russian are considered as well. The special attention is paid to two Polish corpora: the IPI PAN Corpus and the National Corpus of Polish. The separate section is devoted to treebanks, i.e., corpora that are syntactically annotated.