Automatyczna lematyzacja tekstu w zapisie fonetycznym. Korpus polskiej gwary południowokresowej

Krawczyk-Wieczorek, Aleksandra

Nowa wersja platformy, zawierająca wyłącznie zasoby pełnotekstowe, jest już dostępna.
Przejdź na https://bibliotekanauki.pl

Artykuł - szczegóły

Czasopismo

Język Polski

2012 | 92 | 1 | 11–19

Tytuł artykułu

Automatyczna lematyzacja tekstu w zapisie fonetycznym. Korpus polskiej gwary południowokresowej

Autorzy

Aleksandra Krawczyk-Wieczorek

Warianty tytułu

Automatic lemmatization of a text in phonetic transcription. A corpus of Polish local dialect from the Southern Borderland

Języki publikacji

Abstrakty

Artykuł przedstawia sposób budowy elektronicznego korpusu tekstów polskiej gwary wsi Maćkowce na Ukrainie. Do tego celu został stworzony pakiet programów FonOrt autorstwa M. Wieczorka. Teksty, przepisane w transkrypcji fonetycznej do plików MS Word, zostały następnie przekształcone do formatu XML i poddane lematyzacji. Zastosowano automatyczne przypisanie każdej formie wyrazowej tekstu (ciągowi znaków) takiego odpowiedniego ciągu znaków, który może być zinterpretowany przez analizator morfologiczny języka polskiego. Zwykle była to odpowiednia forma ogólnopolska (np. kubita → kobieta, chudz'ima → chodzimy). Tak uzyskanym formom przypisana została odpowiednia forma hasłowa, do czego użyto biblioteki analizatora MorfeuszSIAT M. Wolińskiego. Do lematyzacji leksemów dyferencjalnych (wyekscerpowanych z tekstów ręcznie) została automatycznie stworzona lista ich form wyrazowych. Rezultatem jest korpus, w którym każdemu ciągowi znaków przypisany jest odpowiedni leksem, a także informacje dodatkowe, np. o osobie mówiącej. Korpus można przeszukiwać za pomocą programu Poliqarp.

The paper presents an electronic corpus of the Polish dialect of the village of Maćkowce in Ukraine. For this purpose a computer tool FonOrt was created, the author of which is M. Wieczorek. The texts, transcribed in phonetic transcription in MS Word files, were afterwards converted to XML and lemmatized. Lemmatization was achieved by attributing to each token an appropriate sequence of signs which could be interpreted by a morphological analyzer of Polish. It was usually an appropriate standard Polish form (e.g. kubita → kobieta, chudz’ima → chodzimy). Thereafter the program imputed lemmas to attained word forms using the Morfeusz SIaT analyzer. To lemmatize lexical borrowings and Polish dialectal words (selected from the texts manually) a list of their word forms was automatically created. In the corpus created using the methods described above each token is annotated with an appropriate lemma and additional information like the speaker. One can search the corpus using the tool Poliqarp.

Słowa kluczowe

korpus tekstów, polszczyzna kresowa, słownictwo, lematyzacja.

text corpus, Polish from the borderland, lemmatization

Wydawca

Towarzystwo Miłośników Języka Polskiego

Czasopismo

Język Polski

Rocznik

2012

Tom

Numer

Strony

11–19

Opis fizyczny

Twórcy

autor

Aleksandra Krawczyk-Wieczorek

Instytut Podstaw Informatyki Polskiej Akademii Nauk, ul. Jana Kazimierza 5, 01-248 Warszawa, Poland, aleks@obta.uw.edu.pl

Bibliografia

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA

bwmeta1.element.desklight-dbd310a2-bbce-430a-87cb-0125512c3288