PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Recognizing non-translatable symbols in a multi-lingual computer--assisted translation system for DTP documents

Treść / Zawartość
Identyfikatory
Warianty tytułu
PL
Rozpoznawanie nietłumaczonych symboli w wielojęzycznym systemie komputerowo wspomaganego tłumaczenia dokumentów DTP
Języki publikacji
PL
Abstrakty
PL
Artykuł dotyczy automatycznego tłumaczenia katalogów i broszur reklamowych przy użyciu systemu klasy CAT. Jedną z funkcjonalności wspomagającą proces tłumaczenia jest rozpoznawanie fraz, które nie powinny być tłumaczone, takich jak dane techniczne, symbole, skróty, liczby (problem pierwszy), a także znaki handlowe, symbole praw autorskich i symbole zastrzeżone (problem drugi). Zaproponowany algorytm dla pierwszego problemu przeprowadza analizę statystyczną znaków w badanym ciągu, rozdzielając uprzednio słowa na takich znakach, jak łącznik czy ukośnik. Jeśli choć jeden z segmentów jest uznany za "nie-symbol", to cała fraza powinna podlegać tłumaczeniu; w przeciwnym razie jest ona kopiowana bez zmian. Algorytm rozwiązujący problem drugi wykrywa początki fraz zastrzeżonych, opierając się podobieństwie sufiksow wyrazowych poprzedzających w danej frazie symbol Ž (lub inny tego typu). Dodatkowym kryterium heurystycznym jest uwzględnienie wielkości liter w badanych sufiksach.
EN
The paper is devoted to the problem of computer-assisted translation of catalogues and advertising brochures (DTP documents), where the text to translate consists of many short separated snippets. One of the issues that may facilitate the translation process is to recognize the phrases which should be copied verbatim, no matter what the target language is. These include technical data with units of measurement, abbreviations, numbers etc. but also trademark symbols. As for the first problem, the presented algorithm uses statistical analysis of the characters inside a character sequence within each segment of the considered phrase, where segments boundaries are marked by special characters, like hyphens or slashes. If at least one of the segmented is labeled "non-symbol", the whole phrase should be handled by the human translator, otherwise it is considered non-translatable and copied verbatim, hence saving the translator's work. For the trademark start boundary recognition problem, we proposed a simple but seemingly robust solution based on similarity of word suffixes preceding Ž and similar characters in a given phrase, together with heuristic rules based on character case of those words.
Wydawca
Rocznik
Strony
555--561
Opis fizyczny
Bibliogr. 8 poz., tab.
Twórcy
autor
  • Computer Engineering Department, Technical University of Lodz, Poland
autor
autor
  • Computer Engineering Department, Technical University of Lodz, Poland
Bibliografia
  • [1] Rico Perez C, de Santa Olalla A.M., New Trends in Machinę Translation. Meta, XLII, 4, 1997.
  • [2] Lagoudaki E., Translation Memories Survey 2006. Translation Memory systems: Enlightening users'perspective. Imperiał College London, 2006, 39, available at http://www3.imperial.ac.uk/ portal/pls/portallive/docs/l /73 07707 .PDF.
  • [3] Nowak G., Grabowski Sz., Draus C, Zarębski D., Bieniecki W., Designing a computer-assisted translation system for multi-lingual catalogue and advertising brochure translations. Proc. of 6th Int. Conf. MEMSTECH 2010, Lviv-Polyana, Ukrainę, 2010, 175-180.
  • [4] Kukich K., Techniąues for Automatically Correcting Words in Text. ACM Comput. Surv., 24(4), 1992, 377-39.
  • [5] Zamora E.M., Pollock J.J., Zamora A., The use of trigram analysis for spelling error detection. Inf. Process. Manage. 17(6), 1981, 305-316.
  • [6] Bressan S., Irawan R., Morphologic Non-Word Error Detection. DEXA Workshop, Zaragoza, Spain, 2004, 31-35.
  • [7] Hull J.J., Srihari S.N., Experiments in Text Recognition with Binary N-Gram and Yiterbi Algorithms. IEEE Trans, on Pattern Analysis and Machinę Intelligence, 4(5), 1982, 520-530.
  • [8] Morris R., Cherry L.L., Computer Detection of Typographical Errors. IEEE Trans, on Professional Communication, 18(1), 1975, 54-64.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-AGH1-0025-0087
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.