Content available remote Hiponimy miejsca w polskiej Słowosieci i amerykańskiej bazie WordNet
The aim of the paper is to compare the sets of hyponyms of place in Polish and American wordnets. Polish “Słowosieć” and American WordNet are thesauri which define the meaning of an individual lexeme by the lexical-semantic relations existing between this and other lexemes. The researched material consists of several thousand of synsets (sets of lexemes referring to a common concept) which have been linked by interlingual, lexical-semantic relations to the synsets of English lexemes in a process of mapping of a fragment of the Polish wordnet to the American database. An analysis of particular cases illustrates the basic issues concerning the procedure of mapping, first of all the problem of choosing a foreign synonym for the original word. It also shows the incompatibility of the corresponding fragments of the Polish and English lexical systems, which is usually not reflected in dictionaries and other glottodidactical publications. Differences between the structures of semantic trees of the two languages result partly from different assumptions made by the authors of both wordnets, and partly from language-specific factors, such as different word-formation systems or different ways in which some objects from the real world are conceptualized.
Semantic relations between verbs in Polish WordNet 2.0The noun dominates wordnets. The lexical semantics of verbs is usually under-represented, even if it is essential in any semantic analysis which goes beyond statistical methods. We present our attempt to remedy the imbalance; it begins by designing a sufficiently rich set of wordnet relations for verbs. We discuss and show in detail such a relation set in the largest Polish wordnet. Our design decisions, while as general and language-independent as possible, are mainly informed by our desire to capture the nature and peculiarities of the verb system in Polish.
Lexical platform – the first step towards user-centred integration of lexical resourcesLexical platform – the first step towards user-centred integration of lexical resources The paper describes the Lexical Platform - a means for lightweight integration of independent lexical resources. Lexical resources (LRs) are represented as web components that implement a minimal set of predefined programming interfaces. These provide functionality for querying and generate a simple, common presentation format. Therefore, a common data format is not needed and the identity of component LRs is preserved. Users can search, browse and navigate via resources on the basis of a limited set of anchor elements such as base form, word form and synset id. Platforma leksykalna – pierwszy krok w kierunku integracji zasobów leksykalnych zorientowanej na użytkownikówArtykuł opisuje Platformę Leksykalną – sposób na lekką integrację niezależnych zasobów leksykalnych. Zasoby leksykalne są na niej reprezentowane jako komponenty webowe, które implementują minimalny zestaw predefiniowanych interfejsów programistycznych. Interfejsy te dostarczają funkcjonalność do przeszukiwania oraz generują prosty, jednolity format prezentacji zasobów. W związku z tym wspólny format danych nie jest konieczny i tożsamość składowych zasobów leksykalnych jest zachowana. Użytkownicy mogą przeszukiwać zasoby na podstawie ograniczonego zbioru odwołań takich jak forma podstawowa, forma wyrazowa i identyfikator synsetu.
Content available remote Przykładowe zastosowanie gradacyjnej analizy danych w badaniach lingwistycznych
W niniejszym raporcie przebadano potencjał gradacyjnej analizy danych w odniesieniu do klasyfikacji czasowników względem stylów tekstów zgromadzonych w Korpusie IPI PAN. Ponieważ w Korpusie dominują dwa style: publicystyczny i protokół, analizę przeprowadzono dla dwóch zestawów danych: pełnego i z wyłączeniem wspomnianych stylów. Analogiczny proces analizy przeprowadzono dla danych zagregowanych po kategoriach semantycznych (sensach) czasowników pochodzących z wordnetu. Uzyskane wyniki zostały porównane.
An example of grade data analysis application for linguistic research In the report, the potential of grade analysis is explored for the classification of verbs with regard to the IPI PAN Corpus text styles. Since two styles, publicystyczny (newspapers) and protokół (parliament protocols), dominate in the Corpus, the analysis is performed for two datasets: the entire Corpus and the subcorpus without the dominant styles. An analogous analysis is provided for the data aggregated by means of wordnet-like semantic categories (senses) of verbs. The obtained results are compared.
Inside Baseball: Coverage, quality, and culture in the Global WordNetThe Global WordNet is succeeding in producing relatively open linguistic data that is coordinated to a degree among numerous languages. The project has grown organically, with no overall plan or direction. The result is a certain amount of incoherence in determining what items should be treated in wordnets, and how the various wordnets should aspire to consistent quality. Using the example of terms related to baseball, which constitute a non-trivial portion of the Princeton WordNet, this paper discusses problems of coverage selection both for English and for other languages, as well as methods to improve quality and depth through public review of current content, and contribution of missing terms and definitions. It is proposed that proper names be removed entirely from WordNet and treated as a separate project, and that individual languages produce annexes of indigenous concepts that can be readily considered within sister projects as a supplement to the Anglo-American weighting of the current endeavor. To produce a consistent product that transmits inter-intelligible understanding at a high level across languages, it is proposed that an open committee of interested stakeholders convene to consider the project's goals and develop a roadmap for how to achieve them. Baseball dla zaawansowanych: pokrycie leksykalne, jakość i kultura w Global WordNetGlobal WordNet z powodzeniem tworzy stosunkowo otwarte dane językowe, do pewnego stopnia powiązane pomiędzy wieloma językami. Projekt żyje własnym życiem, bez żadnego ogólnego planu ani kierunku. Rezultatem jest pewna niespójność w określaniu, które elementy powinny znaleźć się w wordnetach oraz w jaki sposób różne wordnety powinny dążyć do utrzymania tej samej jakości. Na przykładzie terminów związanych z baseballem, które zajmują niemałą część Princeton WordNet, niniejszy artykuł omawia problemy wyboru pokrycia leksykalnego zarówno dla języka angielskiego, jak i innych języków, a także metody poprawy jakości poprzez publiczny przegląd aktualnych treści oraz dodanie brakujących terminów i definicji. Proponuje się, aby nazwy własne zostały całkowicie usunięte z WordNetu i potraktowane jako odrębny projekt, a w ramach poszczególnych języków utworzone zostały aneksy rodzimych pojęć, które można wziąć pod uwagę w ramach siostrzanych projektów jako uzupełnienie obecnego anglo-amerykańskiego przedsięwzięcia. W celu stworzenia spójnego produktu, który będzie charakteryzował się wzajemną zrozumiałością na wysokim poziomie w różnych językach, proponuje się zwołanie otwartego komitetu zainteresowanych podmiotów, aby rozważyć cele projektu i opracować plan działania, w jaki sposób cele te osiągnąć.
Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNetCzech WordNet represents one of the first national wordnets created during the EuroWordNet and BalkaNet projects. However, the data contains various issues that affect the use of Czech WordNet in NLP applications. Since the publication of the first CzWN version, the semantic network was augmented in several phases, however, complex final editing and publishing process has not been finished. In 2017, we have started a project to evaluate and update the Czech WordNet, followed by a connection to the Collaborative Interlingual Index. In this paper, we provide an overview of Czech WordNet data updates and extensions, and present the roadmap to publish a revised version of the Czech WordNet under open license. Moreover, we introduce a developed concept for long-term updates and maintenance of the data based on crowdsourcing activities. Zrównoważony i długafalowy proces rozwoju i utrzymania wordnetu na przykładzie wordnetu czeskiegoCzeski WordNet jest jednym z pierwszych narodowych wordnetów powstałych podczas projektów EuroWordNet i BalkaNet. Jednakże dane zawierają błędy, które wpływają na używanie czeskiego wordnetu w aplikacjach NLP. Od momentu opublikowania pierwszej wersji czeskiego wordnetu sieć semantyczna została rozszerzona w kilku etapach, jednak złożony proces końcowej edycji i publikacji nie został jeszcze zakończony. W roku 2017 zaczęliśmy projekt mający na celu ocenę i aktualizację czeskiego wordnetu, a następnie połączenie go z Collaborative Interlingual Index. W danym artykule przedstawiamy ogólny zarys uaktualnień i rozszerzeń zawartości czeskiego wordnetu, a także prezentujemy plan działania, który doprowadzi do publikacji udoskonalonej wersji czeskiego wordnetu na otwartej licencji. Ponadto prezentujemy opracowaną koncepcję długoterminowych uaktualnień i utrzymania danych w oparciu o działania crowdsourcingowe.
In this paper we present a contribution to the transformation of PolNet, a Polish wordnet developed at the Adam Mickiewicz University in Pozna, into a Lexicon Grammar of Polish. The current step consists in including verb-noun collocations and relations linking the verbal synsets to noun synsets. We focus on the concept of synonymy for two kinds of predicative entities: verbs and verb-noun collocations and on synset granularity problems that emerged at this stage of the project. This work was sponsored by the Polish National Program for Humanities (grant 0022/FNiTP/H11/80/2011).
Semantic relations among adjectives in Polish WordNet 2.0: a new relation set, discussion and evaluationAdjectives in wordnets are often neglected: there are many fewer of them than nouns, and relations among them are sometimes not as varied as those among nouns or verbs. Polish WordNet 1.0 was no exception. Version 2.0 aims to correct that. We present an overview of a much larger set of lexical-semantic relations which connect adjectives to the other parts of the network. Our choice of relations has been motivated by linguistic considerations, especially the concerns of the Polish lexical semantics, and by pragmatic reasons. The discussion includes detailed substitution tests, meant to ensure consistency among wordnet editors.
In this article, we present research directly inspired by the Princeton WordNet lexical ontology project (Miller, Fellbaum), which was a response to the real need for ontologies corresponding to the natural conceptualization common to all language users, within a given natural language, or within a specific sublanguage. Lexical ontologies for a given language or language subsystem determined by the scope of communication needs turn out to be useful and even necessary for constructing formal models of linguistic competence and, consequently, for designing and implementing AI systems with linguistic communicative competence, both passive and active. An important milestone of the research program presented in this work is the acquisition of tools in the form of extensive lexical ontologies of a new type, referred to in this work as Lexicon-Grammar Verbnets. In the article, we refer to the works of authors such as: Alain Colmerauer, Charles Fillmore, Christiane Fellbaum, Gaston Gross, Maurice Gross, Thomas R. Gruber, Richard Kittredge, George A. Miller, Martha Palmer, Kazimierz Polański, and Piek Vossen.
Semantic relations among nouns in Polish WordNet grounded in lexicographic and semantic traditionThe paper describes a system of lexico-semantic relations proposed for the nominal part of plWordNet 2.0 – the largest Polish wordnet. We briefly introduce a wordnet as a large electronic thesaurus. We discuss sixteen nominal relations together with many sub-types proposed for plWordNet 2.0. Each relation is based on linguistic intuition and supported by a set of tests which facilitate its identification. There are two main groups: pure lexico-semantic relations and semantic-derivational relations.
plWordNet has been consequently built on the basis of the corpus-based wordnet development method. As plWordNet construction had started from scratch it was necessary to find a way to reduce the amount of work required, and not to reduce the quality. In the paper we discuss the gained experience in applying different tools based on Distributional Semantics methods to support the work of lexicographers. A special attention is given to the Paintball algorithm for semiautomated wordnet expansion and its application in the WordnetWeaver system.
Niniejszy raport opisuje proces doboru czasowników do eksperymentów przy tworzeniu słownika semantycznego czasowników polskich. Wpierw prezentowana jest charakterystyka semantyczna (oparta na literaturze anglojęzycznej) i syntaktyczna (oparta na literaturze polskiej) czasowników pod kątem ich zdolności do alternacji. Rozważany jest też zestaw czasowników używanych w automatycznym wykrywaniu alternacji i grupowaniu czasowników dla angielskiego. Z drugiej strony, przeanalizowane zostały ograniczenia stawiane przez Korpus IPI PAN. Sugerowany zestaw został ograniczony do czasowników rozpatrywanych w polskim wordnecie; zbadana została też ich nadreprezentacja w poszczególnych stylach tekstów Korpusu. Na tej podstawie wybrany został zestaw 99 czasowników do badań.
The present report describes the process in which atest set of Polish verbs nas been selected for the creation of a semantic dictionary of Polish verbs, First, a semantic (based on English literature) and syntactic (based on Polish literature) characteristics of verbs alternation is presented. Next, a set of verbs used in automatic detection of alternations and verb classification (for English) is reviewed. On the other hand, the distribution of verbs in IPI PAN Corpus is analysed. A set of verbs has been limited to those considered in Polish wordnet, and overrepresentation of verbs in text styles of the Corpus has been exarnined. As a result, 99 verbs have been chosen for further work.
Niniejszy raport omawia zasady znakowania leksykalno-semantycznego banku drzew Składnica jednostkami leksykalnymi pochodzącymi ze Słowosieci. Ponadto prezentuje metodę przeniesienia znakowania nazw własnych z NKJP do Składnicy (wraz z ewaluacją). Wszystkie trzy wspomniane zasoby zostały pokrótce opisane. Na koniec przedstawiona została metoda aktualizacji uzyskanego znakowania do zmian zachodzących zarówno w Słowosieci, jak i w Składnicy.
The present report discusses the principles of lexical-semantic annotation of treebank Składnica by means of Słowosieć (PlWordNet) lexical units. Moreover, it presents a method of mapping NKJP named entities annotation to Składnica (including evaluation). Ali three resources mentioned above are shortly described. Finally, a method of updating the annotation to changes appearing both in Słowosieć and Składnica.
Niniejszy raport opisuje wstępne eksperymenty dotyczące klasyfikacji syntaktyczno-semantycznej czasowników polskich. Wpierw omówione zostały istniejące prace z tej dziedziny, dotyczące głównie języka angielskiego. Następnie opisana została gradacyjna analiza odpowiedniości i skupień, która została użyta do klasyfikacji. Potem przedstawiony został semantyczno-syntaktyczny słownik walencyjny będący źródłem danych do klasyfikacji. Na koniec zaprezentowane były właściwe eksperymenty dotyczące klasyfikacji wraz z ich ewaluacją.
The present report describes initial experiments on syntactic-semantic classification of Polish verbs. First, the existing works on this subject were discussed, mainly concerning English. Second, Grade Correspondence-Cluster Analysis used in experiments was described. Next, syntactic-semantic valence dictionary of Polish verbs being a source of data for experiments was presented. Finally, actual experiments were discussed and evaluated.
