Quantitative considerations on finding the shortest descriptions for meaningful symbolic sequences

Dębowski, Ł.

Artykuł - szczegóły

Tytuł artykułu

Quantitative considerations on finding the shortest descriptions for meaningful symbolic sequences

Autorzy

Dębowski Ł.

Wybrane pełne teksty z tego czasopisma

http://ipipan.waw.pl/instytut/wydawnictwo/prace-ipi-pan

Identyfikatory

Warianty tytułu

Ilościowe rozważania nad znajdowaniem najkrótszych opisów dla ciągów znaczących symboli

Języki publikacji

Abstrakty

W niniejszych notatkach przedstawiono elementy nowej, ilościowej teorii uczenia bez nadzoru na podstawie pragmatycznej komunikacji językowej. Podano argumenty wskazujące na to, że odpowiedni formalizm wnioskowania ilościowego wolny od paradoksów powinien bazować na minimalnej długości opisu jako uproszczonej mierze złożoności algorytmicznej, a nie na prawdopodobieństwie jako klasycznej mierze częstości. Pokazano także, że niedawno zaobserwowana nieekstensywność entropii niepustych semantycznie ciągów symboli zachodzi wtedy i tylko wtedy, gdy teorie najkrótszych opisów dla tych ciągów mogą rosnąć nieskończenie, a także wtedy, gdy uczenie bez nadzoru zachodzi maksymalnie efektywnie. Rezultat ten w sposób ścisły podważa przekonanie, że skończona formalna teoria języka naturalnego może być podana przez jakiegokolwiek specjalistę. Z drugiej strony, wynik ten ukazuje maszynowe uczenie bez nadzoru jako perspektywicznie realizowalny a zarazem jedyny właściwy sposób implementowania kompetencji językowej w sztucznej inteligencji. Z tego względu przeprowadzono dyskusję obiecującego algorytmu uczenia opartego na kompresji, podanego przez de Marckena. Rozważono wstępnie możliwe rozszerzenia tego algorytmu. Ponieważ przedstawiono istotnie powiązania pomiędzy omawianymi kwestiami a bieżącymi badaniami w kognitywistyce i fizyce statystycznej, niniejsze notatki mogą zainteresować nie tylko informatyków i lingwistów, ale także innych teoretyków zajmujących się naukami statystycznymi i symbolicznymi.

The notes provide elements of a new quantitive theory for unsupervised learning from pragmatic language communication. It is argued that the suitable quantitive inference framework free from paradoxes should be based on minimum description lenght (MDL) interpreted as a simplified algorithmic complexity rather than on classical frequwntist probability. Furthermore, it is argued that recently observed non-extensivity of entropy in meaningful symbolic sequences can arise if and only if unsupervised acquisition of the MDL theories for these sequences produces infinite theories and when the unsupervised acquisition is optimal as well. Such result shakes rigorously the belief that a finite formal theory of natural language could be constructed by hands of any experts. On the other hand, unsupervised machine learning is pointed out as a feasible and the only right way to implementing language competence into Ais. From this perspective, a promising compression-learning algorithm by de Marcken, its efficiency and its extension are discussed. Important parallels with research in cognitive science and statistical physics are pointed out, as well. Thus, the notes may be interesting not only for computer scientists and linguists but also for other statistical and symbolic theorists.

Słowa kluczowe

uczenie bez nadzoru przetwarzanie języka naturalnego teoria komunikacji lingwistyka kwantytatywna termodynamika nieekstensywna miary informacji kognitywistyka języki formalne

unsupervised learning natural language processing communication theory quantitative linguistics nonextensive thermodynamics measures of information cognitive science formal languages

Wydawca

Instytut Podstaw Informatyki PAN

Czasopismo

Prace Instytutu Podstaw Informatyki Polskiej Akademii Nauk

Rocznik

2001

Tom

Nr 924

Strony

1--36

Opis fizyczny

Twórcy

autor

Dębowski Ł.

Instytut Podstaw Informatyki PAN ul. Ordona 21 01-237 Warszawa, ldebowsk@ipipan.waw.pl

Bibliografia

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-BUJ1-0010-0038