PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Experimental Study on Parameter Selection for Reinforcement Learning Algorithms

Autorzy
Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
PL
Dobór współczynników algorytmów uczenia ze wzmocnieniem
Języki publikacji
EN
Abstrakty
EN
The use of the reinforcement learning algorithms is contended with a number of practical problems related to the proper choice of learning parameters. There are three such factors in case of Q(lambda)- learning algorithms and five when AHC(lambda) is considered. On the other hand, more rarely applied R-learning algorithm is parametrized by only two such factors, however it does not possess the method of accelerating. In order to compare three algorithms mentioned earlier with the R-learning algorithm, the implementation of the temporal-dierence method TD(lambda) is proposed. The main purpose of this study is to formulate, on the empirical way, the general recommendation regarding the selection of factors of reinforcement learning algorithms and to compare the eciency of these algorithms. The criterion of the factor selection is determined in terms of the highest probability of learned system. The experiments are carried out with the model of the cart-pole and the ball-beam system.
PL
Stosowanie algorytmów uczenia ze wzmocnieniem napotyka na szereg praktycznych problemów związanych z właściwym wyborem współczynników uczenia, których jest od 3 (Q(lambda)-learning) aż do 5 (AHC(lambda). Z kolei rzadziej stosowany algorytm R-learning parametryzowany jest tylko za pomocą dwóch takich współczynników, jednakże nie posiada on metody przyśpieszania. Aby umożliwić porównanie wydajnościowe 2 wcześniej wymienionych algorytmów z algorytmem R-learning zostanie dla niego zaproponowana implementacja metody różnic czasowych TD(lambda). Głównym celem niniejszego opracowania jest podanie na drodze empirycznej ogólnych zaleceń odnośnie doboru wartości współczynników algorytmów uczenia ze wzmocnieniem oraz porównanie wydajności tych algorytmów. Kryterium doboru współczynników było uzyskanie największego prawdopodobieństwa nauczonego systemu. Eksperymenty zostały przeprowadzone z zastosowaniem modelu wahadła odwróconego i układu ball-beam.
Rocznik
Strony
71--85
Opis fizyczny
Bibliogr. 18 poz., rys.
Twórcy
autor
  • Faculty of Electrical and Computer Engineering Rzeszów University of Technology W. Pola 2, 35-959 Rzeszów, Poland, rzajdel@prz-rzeszow.pl
Bibliografia
  • [1] M. Asadpour, R. Siegwart, Compact Q-learning optimized for micro-robots with processing and memory constraints. – Robotics and Autonomous Systems, Vol. 48, No. 1, European Conference on Mobile Robots (ECMR ’03), pp. 49-61, 2004.
  • [2] A.G. Barto, R.S. Sutton, C.W. Anderson, Neuronlike adaptive elements that can solve dicult learning problem. – IEEE Trans. SMC, Vol. 13, pp. 834-847, 1983.
  • [3] A.P.S. Braga, A.F.R. Arauno, A topological reinforcement learning agent for navigation.– Neural Comput & Applic Vol. 12, pp. 220-236, 2003.
  • [4] P. Cichosz, Systemy ucza˛ce sie˛. – Warszawa: WNT, 2000.
  • [5] L.P. Kaelbing, M. Littman, A.W. Moore, Reinforcement learning: A Survey. –Journal of Artificial Intelligence Research, Vol. 4, pp. 237-285, 1996.
  • [6] S. Mahadevan, To discount or not to discount in reinforcement learning: A case study comparing R learning and Q learning. – Proc. 11th International Conference on Machine Learning, pp. 164-172 San Francisco, CA, 1994.
  • [7] J.J. ulawka, Systemy ekspertowe. – Warszawa: WNT, 1996.
  • [8] K.H. Quah, Ch. Quek, Maximum reward reinforcement learning: A noncumulative reward criterion. – Expert Systems with Applications, Vol. 31, No. 2, pp. 351-359, 2006.
  • [9] R. Schoknecht, M. Riedmiller, Reinforcement learning on explicitly specified time scales. – Neural Computing & Applications, Vol. 12, No. 2, pp. 61-80, 2003.
  • [10] A. Schwartz, A reinforcement learning method for maximizing undiscounted rewards, Proc. 10th International Conference on Machine Learning, Amhest, Massachusetts. Morgan Kaufman, pp. 298-305, 1993.
  • [11] N. Schweighofer, K. Doya, Meta-learning in Reinforcement Learning, Neural Networks, Vol. 16, pp. 5-9, 2003.
  • [12] S.P. Singh, Reinforcement Learning Algorithms for Average-Payo Markovian Decision Process, Proc. 12th National Conference on Artificial Intelligence, pp. 202-207, 1994.
  • [13] R.S. Sutton, Generalization in Reinforcement Learning: Successful Examples Using Sparse Coarse Coding, Advances in Neural Information Processing Systems 8, pp. 1038-1044, MIT Press, 1996.
  • [14] R.S. Sutton, Open theoretical questions in reinforcement learning. Computational Learning Theory (Proc. EuroCOLT’99), pp. 11-17, 1999.
  • [15] R.S. Sutton, A.G. Barto, Reinforcement learning: An Introduction, Massachusetts: MIT Press., 1998.
  • [16] P. Tadepalli, D. Ok, Model-Based Average Reward Reinforcement Learning, Artificial Intelligence, Vol. 100, pp. 177-224, 1998.
  • [17] C.J.C.H. Watkins, Learning from delayed Rewards, Ph.D. thesis. Cambridge University. England, 1989.
  • [18] P.E.Wellstead, Introduction to Physical System Modelling, Control System Principles, 2000.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BUJ7-0008-0040
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.