Maurice Gross' grammar lexicon contains rich and exhaustive information about the morphosyntactic and semantic properties of French syntactic functors (verbs, adjectives, nouns). Yet its use within natural language processing systems is hampered both by its non standard encoding and by a structure that is partly implicit and partly underspecified. In this paper, we present a method for translating this information into a format more amenable for use by NLP systems, we discuss the results obtained so far, we compare our approach with related work and we identify the possible further uses that can be made of the reformatted information.
The thesis of this reply to Piotr Żmigrodzki’s pessimistic diagnosis (published in the previous issue of „LingVaria”) of Polish linguistics from the perspective of modern lexicography is that the diagnosis from the perspective of linguistic engineering must be equally pessimistic – in fact, even more so. We argue that syntax and – to some extent – semantics are developed in Poland in isolation from developments outside Poland and the resulting analyses too often do not meet the usual criteria of preciseness and formal rigour. We end with an optimistic note showing that fruitful cooperation between computational and theoretical linguists is possible – even if rare – in Poland.
High-quality machine translation of human languages has for a long time been an unattainable dream for many computer scientists involved in this fascinating and interdisciplinary field of the application of computers. The developed quite recently example-based machine translation technique seems to be a serious alternative to the existing automatic translation techniques. In the paper the usage of the example based machine translation technique for the development of system, which would be able to translate an unrestricted Dutch text into Polish is proposed. The new approach to the example-based machine translation technique that takes into account the pecularity of the Polish grammar is developed. The obtained primary results of the development of proposed system seem to be very promising and appear to be a step made in the right direction towards a fully-automatic high quality Dutch-into-Polish machine translation system for unrestricted text.
Multi-word units (MWUs) are linguistic objects placed on the frontier between morphology and syntax. A reliable computational treatment of their inflectional morphology requires a fine-grained grammar-based approach allowing a description of general large-coverage phenomena as well as of lexicalized counter-rules. We propose a formalism that answers these requirements. Due to a graph-based description and a simple unification algorithm it allows to compactly and exhaustively describe the inflection paradigm of a MWU in terms of its component words? morphology as well as of some regular-language patterns.
This paper describes a Transformation Based Learning (TBL) noun phrase extractor for Portuguese. We discuss the reasons for variation in performance between experiments with Portuguese and with English, taking special notice of the linguistic differences between the two languages with respect to noun phrases. latin languages such as Spanish, French and Italian will present the same problems, and could benefit from the same analysis presented here.
Translacja automatyczna, czyli dyscyplina zajmująca się opracowywaniem programów komputerowych, tłumaczących z jednego języka naturalnego (np. polskiego) na inny (np. angielski) jest prawie tak stara jak sam wynalazek komputera, bowiem jej historia sięga do lat 40. XX wieku. Niestety do chwili obecnej w pełni automatyczne systemy komputerowego przekładu, będące w stanie zastapić w pełni człowieka, wciąż pozostają niedoścignionym ideałem. Z tego powodu bardzo interesującą alternatywą wydaje się być próba stworzenia systemów wspomaganych przez człowieka. W systemie takim użytkownik budowałby zdania w oparciu o gotowe szablony, korzystając z dostępnych reguł gramatyki bezkontekstowej oraz baz tłumaczeń związków frazeologicznych. Dzięki temu uzyskiwane tłumaczenia powinny odznaczać się jednoznacznością, poprawnością składniową i wysokim stopniem wierności przekładu. W artykule opisano doświadczenia autora uzyskane w wyniku prowadzonych prac nad budową systemu przekładu wspomaganego z języka polskiego na szwedzki.
Machine translation is the discipline of science the purpose of which is to develop computer programs aimed for translation from one natural language, e.g. Polish, into another, e.g. English. It is nearly so old as the invention of computer itself, because its history goes back into the forties of 20th century. Helas, up till now the fully automatic machine translation systems that would be able to translate as good as humans have not been constructed. An interesting alternative are the humen-aided machine translation systems. In such systems the user buildes the sentences in his mother tongue using the rules of context-free grammar and data bases of translations of phrases. Thanks to this the obtained translations should be precise, unambigioues, and syntactically correct. In the paper the author describes the results of his experiments with building human-aided machine-translation system for Polish and Swedish language pair.
Tematem artykułu jest translacja automatyczna, czyli dziedzina informatyki stosowanej, której celem jest wypracowanie metod automatycznego przekładu pomiędzy językami naturalnymi. W latach dziwięćdziesiątych pojawiły się alternatywne podejścia w translacji automatycznej, które bazują na tłumaczeniu poprzez analogię i wykorzystują istniejący już dorobek translatorski występujący w postaci korpusu tekstów równoległych. Pewną odmianę takich metod stanowi translacja automatyczna oparta na leksykonie frazeologicznym. W tym przypadku w lingwistycznej bazie danych przechowywane są gotowe wzorce tlumaczeń zawiązków frazeologicznych. System automatycznej translacji pracuje poprzez proste podstawianie w miejsce fraz języka źródłowego ich semantycznych odpowiedników z języka docelowego przekładu. Rozważana metoda sprawdziła się w praktyce dla potrzeb realizacji przekladu z języka hiszpańskiego na kataloński i generalnie uważa się, że jest ona skuteczna w przypadku realizacji przekładu pomiędzy językami o wysokim stopniu pokrewieństwa genetycznego. Zdaniem autora, translacja automatyczna oparta na leksykonie frazeologicznym może być również stosowana z powodzeniem w przypadku realizacji przekładu na język polski z innych języków należących do grupy języków zachodniosłowiańskich, co zostało dokładniej przedyskutowane w artykule.
The topic of the article is machine translation that is a discipline of applied computer science the purpose of which is to deliver methods of computer translation between natural languages. In the 90s there appeared the new alternative approaches to machine translation that are mostly based on the translation by analogy and implement the existing bilingual corpus of text. One of these methods is machine translation based on phrasal lexicons. This method proved to be effective in the case of translation between closely related languages, e.g. between Spanish and Cata-lan. In the opinion of this author this method of machine translation can be successfully applied also in the case of translation into the Polish language from other West-Slavonic languages which was discussed in the paper.
Lingwistyka komputerowa jest dyscypliną wiedzy prawie tak starą jak wynalazek cyfrowego komputera. Metody statystyczne są wykorzystywane do badania jezyków naturalnych już od wielu lat i w powszechnym przekonaniu odznaczają się dużą skutecznością Tematem artykułu jest statystyczne badanie tekstu inskrypcji odciśniętej na tzw. dysku z Phaistos. Porównanie statystycznych właściwości tekstu inskrypcji z tekstami zapisanymi w wybranych językach starożytnych pozwoliło ustalić jej interesujące związki z rodziną jezyków indyjskich rodziny indoeuropejskiej, co stanowić może wstęp do dalszych badań nad odczytaniem pisma dysku z Phaistos.
Computional lingistics is the discipline of science that is nearly as old as the invention of digital computer. Statistical methods have been used for the purpose of natural language processing since many years and they are commonly considered as the effective ones. The topic of the paper is examininig the text of inscription printed on the disc of Phaistos. Comparision of text of the disc of Phaistos with texts written in other ancient languages revealed some interresting connections with the Indian language group of Indoeuropean family of languages. This can be seen as a first step made towards deciphering the text of the disc of Phaistos.
W artykule przedstawiono próbę przeprowadzenia symulacji procesu wymierania języków o niewielkiej liczbie użytkowników. Proces taki jest obecnie obserwowany na świecie i zdaje się w ostatnich czasach mocno przybierać na intensywności. Symulacje przeprowadzono w wirtualnym świecie języków, skonstruowanym w postaci dwuwymiarowej kraty, której węzły zamieszkują wirtualne społeczności. Przeprowadzone badania symulacyjne potwierdziły, że proces wymierania małych jezyków jest zjawiskiem nieuniknionym, które prawdopodobnie zakończy się zdominowania świata przez jeden język wspólny dla całej ludzkości.
The topic of the paper is a trial of simulating the process of perishing of small languages. Nowadays such process is observed in the world and it is getting more and more intensive. The computer simulations were conducted in the artificial world of languages that was organised in a two dimensional mesh. In the nodes of the mesh there were situated artificial societies. The computer simulations showed that the process of perishing the languages of small number of users is inevitable. More over this phenomenon will probably lead to the situation in which the world is dominated by only one language common for all the humanity.
Opracowanie programów komputerowych, które byłyby w stanie dokonywać automatycznych przekładów pomiędzy naturalnymi językami, było od wielu lat niedościgłym celem wielu ośrodków badawczych. Pomyślne rozwiązanie tego problemu miałoby również poważne skutki natury politycznej, socjologicznej i naukowej. Translacja automatyczna była również jedną z najwcześniejszych aplikacji, jakie zostały zasugerowane dla komputerów. Jednakże próba realizacji marzeń o translacji automatycznej w rzeczywistości okazała się zadaniem niezwykle trudnym i znacznie ciekawszym, niż uprzednio sądzono. Obecnie dostępnych jest już wiele programów komercyjnych, które z powodzeniem realizują stawiane przed nimi zadania. W artykule przedstawiono podstawy translacji automatycznej. Naświetlono historie rozwoju takich systemów i podano argumenty na rzecz ich praktycznej przydatności. Szczególną uwagę zwrócono na te zagadnienia, których rozwiązanie sprawia w przypadku systemów translacji automatycznej najwięcej trudności. W artykule zamieszczono także opis działania nowoczesnych systemów translacji automatycznej i wskazano na kierunki badań, które wydają się najbardziej obiecujące. Autor żywi nadzieję, że artykuł niniejszy dobrze spełni rolę przewodnika wprowadzającego czytelnika w świat systemów translacji automatycznej, wypełniając jednocześnie panującą w tej dziedzinie lukę w piśmiennictwie polskim.
Automatic translation between human languages called also machine translation MT is a long-term scientific dream of enormous social, political, and scientific importance. Machine translation was also one of the earliest applications suggested for digital computers, but turning this dream into reality has turned out to be a much harder, and in many ways a much interesting task than at first appeared. Now, machine translation is a reality. There are a lot of commercially available automatic translation systems, which very well can manage their tasks. In the paper the bases of machine translation systems are given and the history of their development is outlined. The special attention is paid to the issues that cause a lot of trouble during the automation of translation process. In the paper some modern machine translation systems are briefly characterised and the most promising research directions are mentioned. This author hopes that the paper will be a good introductory guide to the problems of machine translation, which will fill the gap in Polish scientific literature.
Przedstawiono propozycję informatycznych narzędzi przeznaczonych dla lingwistów. Są nimi programy komputerowe, których zadaniem jest realizacja kompleksowej obsługi gramatyki wybranego języka. Programy takie pozwalają nie tylko na generowanie wszelkich możliwych do utworzenia form fleksyjnych wyrazów, ale także pozwalają na efektywne łączenie wyrazów we frazy rzeczownikowe i czasownikowe. Zaletą systemu jest to, iż formy fleksyjne wyrazów wchodzących w skład frazy są automatyczne dopasowywane, tak aby pomiędzy nimi zachodził związek rządu lub zgody. Tego typu programy mogą być bardzo pożyteczne dla osób uczących się języków obcych, a także mogą wspomagać pracę badawczą filologów, tłumaczy i lingwistów.
The paper describes the proposition of computer tools for linguists. These are computer programs that can treat completely the rules of foreign language. Such computer programs not only allow generating all the possible flexion forms of the words but also can effectively join words into noun-phrases and verb-phrases. The flexion forms of the words that constitute phrases are adjusted automatically in such a manner that they agreed concerning their grammatical number, person, case, and gender. Such computer programs can be very useful for the persons who learn foreign languages. They can also be helpful for the philologists, translators, and linguists.
Opisano przykładowe narzędzia informatyczne, których celem jest wspomaganie pracy lingwistów, filologów, tłumaczy oraz osób uczących się języków obcych. Do rozważanych narzędzi informatycznych należą generatory form fleksyjnych czasowników, rzeczowników i przymiotników oraz programy, które służą do dopasowywania form fleksyjnych czasowników i rzeczowników oraz rzeczowników i przymiotników tak, aby zgadzały się pod względem liczby, przypadka i rodzaju gramatycznego. Interesującą propozycję stanowi także program SVO, który ma za zadanie umożliwić osobie nieznającej danego języka obcego budowanie w tym języku poprawnych składniowo zdań złożonych z fraz pełniących kolejno funkcje podmiotu, orzeczenia i dopełnienia zdania.
The paper is the proposition of computer programs the purpose of which is to support linguists, philologists, translators, and persons learning foreign languages in their activities. These computer programs are generators of flexion forms of verbs, nouns, and adjectives and also programs that allow matching flexion forms of verbs and nouns, and nouns and adjectives, so as they agree concerning their number, case, and gender. An interesting proposition is the SVO program, the aim of which is to make possible to build syntactically correct sentences composed of phrases constituting their subject, verb, and object, even in the case of a person that does not know the given language at all.
Artykuł stanowi wprowadzenie do metody tłumaczenia komputerowego opartej na przykładach. Metoda ta staje się obecnie coraz poważniej traktowaną alternatywą wobec tradycyjnych metod automatycznej translacji opartych na regułach. Jej główną zaletą jest fakt polegający na tym, że tłumaczenie nic jest dokonywane na poziomie pojedynczych wyrazów, lecz całych fraz, które stanowią budulec wypowiedzi językowych. Dzięki temu wydatnie zmniejszane jest prawdopodobieństwo wystąpienia wieloznaczności leksykalnej bądź składniowej i popełnienia błędu przez tłumaczący tekst program komputerowy. Tłumaczenie automatyczne oparte na przykładach bazuje na bilingwicznych korpusach tekstów o bardzo dużych pojemnościach. W artykule omówiono wybrane sposoby poszukiwania odpowiedników tłumaczonych fraz w części docelowej bilingwy oraz metody generalizacji przykładów i dopasowania cząstkowego.
The paper is the introduction to the field of example-based machine translation systems. Now example-based machine translation is getting a serious alternative to other existing methods of machine translation that are based on the set of predetermined rules. In the example-based machine translation the translation is performed not on the level of single words but on the higher level of whole phrases that constitute sentences. Thanks to this the probability of ambiguity on lexical and structural level is significantly lower than in the rule-based machine translation systems that translate only word by word. However, example-based machine translation requires parallel corpus of a vast volume that is not always easy to obtain. In the paper a few methods of matching of translation patterns are proposed and some issues of generalization of translation examples is also discussed.
W artykule zaproponowano nowe podejście do zagadnienia konstrukcji systemów translacji automatycznej. Bezpośrednią motywacją do jego napisania było spostrzeżenie, że pomimo wielu lat badań w pełni automatyczne systemy komputerowego przekładu wciąż nie spełniają oczekiwań, jakie przed nimi stawiają użytkownicy. Ponadto znane dotychczas metody nie rokują w przyszłości zbyt dużych nadziei na zmianę istniejącego stanu rzeczy. Dlatego propozycja autora zmierza w kierunku systemów wspomaganych przez człowieka, czyli systemów, w których użytkownik aktywnie uczestniczy w procesie budowania wypowiedzi w jego ojczystym języku, rozwikłując równocześnie wszelkie zawiłości i wieloznaczności natury składniowej i leksykalnej. Dzięki temu jakość uzyskiwanych przekładów jest istotnie większa, a rezultaty pracy komputera przypominają w większym stopniu efektu działalności translatorskiej człowieka. Opracowane przez autora podejście zostało zaimplementowane dla języka esperanto. Sposób działania systemu został zilustrowany w artykule na wybranych przykładach.
The paper is a proposal of new approach to machine translation systems. The main reason for having written the paper was the observation stating that despite many years of very intensive scientific effort in the field of machine translation the quality of fully automatic translation systems is still far away from what is expected by their users. The methods of automatic translation that are known until now do not give much perspective for changing the present state-of the-art of machine translation. This is why the proposition of this author is aimed at developing the systems that are human-aided. In such systems the user is an active part and its role is to compose sentences in its mother tongue and to disambiguate any ambiguities of syntactic and lexical nature. Thanks to this the quality of translations obtained form the computer is much higher and it resembles the results of the work of a human translator. The method proposed by this author was implemented for the system that translates form Polish to Esperanto. The manner in which the system operates was illustrated on some examples.
Niniejszy artykuł jest już piątym z dłuższej serii artykułów poświeconej zagadnieniom opracowywania generatorów struktur gramatycznych dla wybranych języków naturalnych. W artykule opisano koncepcję budowy wielojęzycznego generatora zdań typu SVO. Ponadto przedstawiono ideę wykorzystania języka pośredniczącego przekładu, którego rolę pełni w rozwijanym przez autorów systemie sztuczny język esperanto.
The paper is the fifth of a broader series of articles devoted to the issues of the development of syntactic structures generators for selected natural languages. The paper describes the principles of construction of multilingual SVO sentences generator. Moreover, we present the concepts of using intermediate language in machine translation system for which we propose the artificial Esperanto language.
Tematyka artykułu dotyczy budowy generatora struktur syntaktycznych współczesnego języka norweskiego. Działanie tego rodzaju systemu oparte jest na gramatykach formalnych wprowadzonych do opisu składni języka przez Noama Chomsky’ego. Zadaniem stworzonego przez autorów narzędzia informatycznego jest przede wszystkim wspomaganie procesu nauki języka norweskiego jako języka obcego, a także ułatwienie pracy lingwistów, językoznawców i tłumaczy zainteresowanych współczesnym językiem norweskim.
The subject of the article is the construction of a generator of syntactic structures of modern Norwegian. The operation of such a system is based on formal grammars introduced to describe the syntax of the language by Noam Chomsky. The task of the IT tool created by the authors is primarily to support the process of learning Norwegian as a foreign language, as well as to facilitate the work of linguists, and translators interested in modern Norwegian.
W artykule zostały przedstawione główne kierunki badań językoznawstwa komputerowego w ostatnim dwudziestopięcioleciu. Przegląd obejmuje zasoby i narzędzia składniowe i morfologiczne (bez korpusów i słowników). Omawiane są gramatyki, parsery, tagery, analizatory morfologiczne, specjalistyczne zasoby leksykalne (słowniki walencyjne, wordnety, słowniki wyrażeń wielosegmentowych itp.).
The paper presents research on NLP in Poland in the last 25 years. In this review tools and resources for syntactical and morphological research with the exception of corpora and dictionaries have been presented. Formal grammars, parsers, taggers, morphological analysers, valence dictionaries, wordnets, multi-word dictionaries and other lexical resources of this kind are briefly discussed.
Translacja automatyczna jest dyscypliną nauki dostarczającą wiedzy o tym, jak programować komputery, aby były one w stanie dokonywać automatycznych przekładów pomiędzy językami naturalnymi. Translacja automatyczna była również jedną z pierwszych aplikacji, jakie zostały zaproponowane dla komputerów. Niestety szybko okazało się, że zadanie translacji automatycznej jest znacznie trudniejsze, ale zarazem o wiele ciekawsze z naukowego punktu widzenia niż pierwotnie sądzono. W artykule omówiono podstawowe przyczyny powodujące, że translacja automatyczna jest zadaniem tak niezwykle trudnym. Omówiono również najbardziej obiecujące kierunki rozwoju systemów translacji automatycznej w Polsce.
Machine translation is a branch of science that teaches us how to program the computers, so as they were able to translate between different human languages. Machine translation was also one of the first application that was proposed for computers. Nonetheless, it soon appeared that the task of machine translation is much more difficult, hut also much more interesting from the scientific point of view, than one had over thought before. In the paper it is thoroughly explained why machine translation is so extremely bard. The most promising directions of development of machine translation systems are also briefly described. The special attention is paid to machine translation systems that are developed for Polish language.
