Wyniki wyszukiwania - BazTech

1

Formation of highly specialized chatbotsfor advanced search

Yarovyi Andrii, Kudriavtsev Dmytro

Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska

|

2024

|

T. 14, nr 1

67--70

EN

In this research, the formation of highly specialized chatbots was presented. The influence of multi-threading subject areas search was noted. The use of related subject areas in chatbot text analysing was defined. The advantages of using multiple related subject areas are noted using the example of an intelligent chatbot.

PL

W tym badaniu przedstawiono tworzenie wysoce wyspecjalizowanych chatbotów. Zwrócono uwagę na wpływ wielowątkowego wyszukiwania obszarów tematycznych. Zdefiniowano wykorzystanie powiązanych obszarów tematycznych w analizie tekstu chatbota. Na przykładzie inteligentnego chatbota odnotowano zalety korzystania z wielu powiązanych obszarów tematycznych.

2

Review of Current Text Representation Technics for Sematic Relationship Extraction

Gałusza Michał

Computer Science and Mathematical Modelling

|

2020

|

No. 11-12

13--22

EN

Article provides review on current most popular text processing technics; sketches their evolution and compares sequence and dependency models in detecting semantic relationship between words.

PL

Artykuł zawiera przegląd najpopularniejszych metod reprezentacji tekstu - modele sekwencyjne i grafowe w kontekście wykrywania relacji semantycznych między słowami.

3

Applying a q-Gram based multiple string matching algorithm for approximate matching

Susik R.

Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska

|

2017

|

T. 7, nr 3

47--50

EN

We consider the application of multiple pattern matching (Multi AOSO on q-Grams) algorithm for approximate pattern matching. We propose the on-line approach which translates the problem from approximate pattern matching into a multiple pattern one (called partitioning into exact search). Presented solution allows relatively fast search multiple patterns in text with given k-differences(or mismatches). This paper presents comparison of solution based on MAG algorithm, and [4]. Experiments on DNA, English, Proteins and XML texts with up to k errors show that the new proposed algorithm achieves relatively good results in practical use.

PL

Rozważamy zastosowanie algorytmu wyszukiwania wielu wzorców (Multi AOSO on q-Grams) do wyszukiwania przybliżonego. Proponujemy rozwiązanie on-line, upraszczające problem wyszukiwania przybliżonego do wyszukiwania wielu wzorców. Zaprezentowane rozwiązanie umożliwia relatywnie szybko wyszukiwać wiele wzorców dla odległości Levenshteina (lub Hamminga) z ograniczeniem do k. W artykule porównane jest rozwiązanie oparte na algorytmie MAG oraz [4]. Badania eksperymentalne przeprowadzone na zbiorach DNA, English, Proteins and XML z różnymi wartościami k wykazały, że zaproponowany algorytm osiąga relatywnie dobre wyniki w praktycznym zastosowaniu.

4

Recognizing non-translatable symbols in a multi-lingual computer--assisted translation system for DTP documents

Grabowski S., Draus C., Bieniecki W.

Automatyka / Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie

|

2010

|

T. 14, z. 3/1

555-561

EN

The paper is devoted to the problem of computer-assisted translation of catalogues and advertising brochures (DTP documents), where the text to translate consists of many short separated snippets. One of the issues that may facilitate the translation process is to recognize the phrases which should be copied verbatim, no matter what the target language is. These include technical data with units of measurement, abbreviations, numbers etc. but also trademark symbols. As for the first problem, the presented algorithm uses statistical analysis of the characters inside a character sequence within each segment of the considered phrase, where segments boundaries are marked by special characters, like hyphens or slashes. If at least one of the segmented is labeled "non-symbol", the whole phrase should be handled by the human translator, otherwise it is considered non-translatable and copied verbatim, hence saving the translator's work. For the trademark start boundary recognition problem, we proposed a simple but seemingly robust solution based on similarity of word suffixes preceding Ž and similar characters in a given phrase, together with heuristic rules based on character case of those words.

PL

Artykuł dotyczy automatycznego tłumaczenia katalogów i broszur reklamowych przy użyciu systemu klasy CAT. Jedną z funkcjonalności wspomagającą proces tłumaczenia jest rozpoznawanie fraz, które nie powinny być tłumaczone, takich jak dane techniczne, symbole, skróty, liczby (problem pierwszy), a także znaki handlowe, symbole praw autorskich i symbole zastrzeżone (problem drugi). Zaproponowany algorytm dla pierwszego problemu przeprowadza analizę statystyczną znaków w badanym ciągu, rozdzielając uprzednio słowa na takich znakach, jak łącznik czy ukośnik. Jeśli choć jeden z segmentów jest uznany za "nie-symbol", to cała fraza powinna podlegać tłumaczeniu; w przeciwnym razie jest ona kopiowana bez zmian. Algorytm rozwiązujący problem drugi wykrywa początki fraz zastrzeżonych, opierając się podobieństwie sufiksow wyrazowych poprzedzających w danej frazie symbol Ž (lub inny tego typu). Dodatkowym kryterium heurystycznym jest uwzględnienie wielkości liter w badanych sufiksach.

5

Syntaktyczne metody rozstrzygania wieloznaczności form fleksyjnych

Szostek G.

Computer Science

|

2001

|

Vol. 3

117-130

PL

Badania nad technikami automatycznego przetwarzania tekstu rozpoczęto niemal równolegle z seryjną produkcją komputerów na początku lat pięćdziesiątych. Jednak wówczas był to problem w dużej mierze akademicki. Rozwój w ostatnich latach technologii związanych z przesyłaniem i przechowywaniem informacji, takich jak szybkie sieci, niedrogie pamięci masowe, czytniki optyczne spowodował, że mamy bezpośredni dostęp do olbrzymiej ilości informacji w postaci tekstowej. Nadmiar informacji wymaga zaawansowanych technik klasyfikujących czy nawet selekcjonujących teksty. Rozwój tych technik jest w dużej mierze uzależniony od wyników badań nad automatycznym przetwarzaniem języka naturalnego. Granice problemu wyznaczają tu: z jednej strony zagadnienie automatycznego indeksowania tekstu, tj. rozpoznawania w tekście słów kluczowych, z drugiej zaś jedno z najważniejszych zadań w badaniach nad sztuczną inteligencją, tj. problem automatycznego rozumienia tekstu.

EN

There are different types of ambiguity in natural language, which causes different problems in natural language processing. This paper describes the ambiguity of inflection form, eg. kamień (the stone), which is the form of Moninative Singular or Accusative Singular. The paper also proposes the constraint driven method for resolving that type of ambiguity.