Czasopismo
Tytuł artykułu
Autorzy
Wybrane pełne teksty z tego czasopisma
Warianty tytułu
Ilościowe rozważania nad znajdowaniem najkrótszych opisów dla ciągów znaczących symboli
Języki publikacji
Abstrakty
The notes provide elements of a new quantitive theory for unsupervised learning from pragmatic language communication. It is argued that the suitable quantitive inference framework free from paradoxes should be based on minimum description lenght (MDL) interpreted as a simplified algorithmic complexity rather than on classical frequwntist probability. Furthermore, it is argued that recently observed non-extensivity of entropy in meaningful symbolic sequences can arise if and only if unsupervised acquisition of the MDL theories for these sequences produces infinite theories and when the unsupervised acquisition is optimal as well. Such result shakes rigorously the belief that a finite formal theory of natural language could be constructed by hands of any experts. On the other hand, unsupervised machine learning is pointed out as a feasible and the only right way to implementing language competence into Ais. From this perspective, a promising compression-learning algorithm by de Marcken, its efficiency and its extension are discussed. Important parallels with research in cognitive science and statistical physics are pointed out, as well. Thus, the notes may be interesting not only for computer scientists and linguists but also for other statistical and symbolic theorists.
W niniejszych notatkach przedstawiono elementy nowej, ilościowej teorii uczenia bez nadzoru na podstawie pragmatycznej komunikacji językowej. Podano argumenty wskazujące na to, że odpowiedni formalizm wnioskowania ilościowego wolny od paradoksów powinien bazować na minimalnej długości opisu jako uproszczonej mierze złożoności algorytmicznej, a nie na prawdopodobieństwie jako klasycznej mierze częstości. Pokazano także, że niedawno zaobserwowana nieekstensywność entropii niepustych semantycznie ciągów symboli zachodzi wtedy i tylko wtedy, gdy teorie najkrótszych opisów dla tych ciągów mogą rosnąć nieskończenie, a także wtedy, gdy uczenie bez nadzoru zachodzi maksymalnie efektywnie. Rezultat ten w sposób ścisły podważa przekonanie, że skończona formalna teoria języka naturalnego może być podana przez jakiegokolwiek specjalistę. Z drugiej strony, wynik ten ukazuje maszynowe uczenie bez nadzoru jako perspektywicznie realizowalny a zarazem jedyny właściwy sposób implementowania kompetencji językowej w sztucznej inteligencji. Z tego względu przeprowadzono dyskusję obiecującego algorytmu uczenia opartego na kompresji, podanego przez de Marckena. Rozważono wstępnie możliwe rozszerzenia tego algorytmu. Ponieważ przedstawiono istotnie powiązania pomiędzy omawianymi kwestiami a bieżącymi badaniami w kognitywistyce i fizyce statystycznej, niniejsze notatki mogą zainteresować nie tylko informatyków i lingwistów, ale także innych teoretyków zajmujących się naukami statystycznymi i symbolicznymi.
Słowa kluczowe
Rocznik
Tom
Strony
1-36
Opis fizyczny
Twórcy
autor
- Instytut Podstaw Informatyki PAN ul. Ordona 21 01-237 Warszawa, ldebowsk@ipipan.waw.pl
Bibliografia
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.baztech-article-BUJ1-0010-0038