Relatively unknown reinforcement learnig algorithm, so called continuous action reinforcement learnig automaton, is presented in this contribution. Automaton learning algorithm is based on rewarding, that gradually evolves set of probability densities. This set is consequently used for action set determination. Simulation study describing learnig and behavior of asynchronous electromotor control is further presented. Standard PSD controller is used whose parameter values represent actions of three independent automata. The aim of online learnig process is to minimize mean square of control error. Here described learning algorithm is simple to implement and robust to high level of noise.
PL
W artykule przedstawiono mało znany algorytm wzmacniający proces uczenia się, tzw. automat o ciągłym działaniu do wzmacniania procesu uczenia się (CARLA). Automat bazuje na nagradzaniu, które stopniowo rozbudowuje zbiór gęstości prawdopodobieństwa. Zbiór ten jest następnie wykorzystywany do wyznaczenia zbioru działań. W dalszej części artykułu zaprezentowano badania symulacyjne opisujące proces uczenia się oraz zachowanie regulatora do asynchronicznego silnika elektrycznego. Wykorzystywany jest tutaj standardowy regulator PSD. Wartości jego parametrów reprezentują działania trzech niezależnych akcji. Celem bezpośrednio przeprowadzanego procesu uczenia się jest zminimalizowanie średniokwadratowego błędu regulacji. Przedstawiony w artykule algorytm uczenia się jest łatwy do zaimplementowania, a także odporny na wysoki poziom szumów.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.