Rozwój społeczeństwa informacyjnego oraz technologii informatycznych pociągnął za sobą w sposób naturalny powstanie zautomatyzowanych systemów wspomagających wyszukiwanie i porządkowanie informacji. W nadmiarze informacji przechowywanych w dokumentach tekstowych dużego znaczenia nabiera automatyzacja przetwarzania języka naturalnego. Motywacją do badań nad komputerową analizą języka naturalnego jest nie tylko możliwość dialogu z komputerem w języku naturalnym, ale również i przede wszystkim analiza już istniejących tekstów oraz wydobywanie z nich informacji zapisanej w języku sformalizowanym umożliwiając operowanie nią w sposób automatyczny. W artykule dokonano przeglądu wybranych metod analizy dokumentów tekstowych wykorzystujących znane algorytmy wspomagające ich przetwarzanie. Zaprezentowano także wybrane problemy rozpatrywane na gruncie automatycznego przetwarzania języka naturalnego. Przedstawiono wyniki badań wstępnego przetwarzania dokumentów tekstowych na wybranej próbce danych. Docelowo posłużą one jako podstawa do dalszych badań dotyczących badania skuteczności zastosowania wybranych metod algebraicznych do identyfikacji słów kluczowych w dokumentach polskojęzycznych.
EN
Development of the information society and information technology entailed an a natural creation of automated systems supporting find and organize information. Too much information stored in text documents is extremely important to for automatic natural language processing. The motivation for research on computer analysis of natural language is not only an possibility of dialogue with the computer in natural language, but also and above all an analysis of already existing texts and extracting from them the information recorded in the formal language allowing it to operate automatically. In the article reviews of selection methods of analysis of text documents using natural language processing techniques. It also presents some problems dealt with automatic natural language processing. Presents the results of preprocessing of text documents on a selected sample of data. Ultimately, they serve as a basis for further assessment of method effectiveness for keyword identification in Polish texts.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.