Identyfikatory
Warianty tytułu
Uczenie ze wzmocnieniem robotów mobilnych - propozycje usprawnień
Języki publikacji
Abstrakty
The paper presents application of the reinforcement learning to autonomous mobile robot moving learning in an unknown, stationary environment. The robot movement policy was represented by a probabilistic RBF neural network. As the learning process was very slow or even impossible for complicated environments, there are presented some improvements, which were found out to be very effective in most cases.
W artykule zaprezentowane jest zastosowanie uczenia ze wzmocnieniem w poszukiwaniu strategii ruchu autonomicznego robota mobilnego w nieznanym, stacjonarnym środowisku. Zadaniem robota jest dotarcie do zadanego i znanego mu punktu docelowego jak najkrótszą drogą i bez kolizji z przeszkodami. Stan robota określa jego położenie w stałym (związanym ze środowiskiem) układzie współrzędnych, natomiast akcja wyznaczana jest jako zadany kierunek ruchu. Strategia robota zdefiniowana jest pośrednio za pomocą funkcji wartości, którą reprezentuje sztuczna sieć neuronowa typu RBF. Sieci tego typu są łatwe w uczeniu, a dodatkowo ich parametry umożliwiają wygodną interpretację realizowanego odwzorowania. Ponieważ w ogólnym przypadku uczenie robota jest bardzo trudne, a w skomplikowanych środowiskach praktycznie niemożliwe, stąd w artykule zaprezentowanych jest kilka propozycji jego usprawnienia. Opisane są eksperymenty: z wykorzystaniem ujemnych wzmocnień generowanych przez przeszkody, z zastosowaniem heurystycznych sposobów podpowiadania robotowi właściwych zachowań w "trudnych" sytuacjach oraz z wykorzystaniem uczenia stopniowego. Badania wykazały, że najlepsze efekty uczenia dało połączenie dwóch ostatnich technik.
Wydawca
Czasopismo
Rocznik
Tom
Strony
1470--1473
Opis fizyczny
Bibliogr. 14 poz., rys., wzory
Twórcy
autor
- Faculty of Computer Science and Information Technology, West Pomeranian University of Technology, Żołnierska 49, 71-210 Szczecin, mplucinski@wi.zut.edu.pl
Bibliografia
- [1] Sutton R. S., Barto A. G.: Reinforcement learning: An introduction. The MIT Press, 1998.
- [2] Tesauro G.: Practical issues in temporal differences learning. Machine Learning, vol. 8, pp. 257-277, 1992.
- [3] Bekey G. E.: Autonomous robots (from biological inspiration to implementation and control). The MIT Press, 2005.
- [4] Connell J., Mahadevan S.: Rapid task learning for real robots. In Robot Learning, Kluwer Academic Publishers, 1993.
- [5] Kaelbling L. P., Littman M. L., Moore A. W.: Reinforcement learning: A survey. Journal of Art. Intellig. Research, vol. 4, pp. 237-285, 1996.
- [6] Long-Ji Lin: Hierarchical learning of robot skills by reinforcement. Proc. of the International Conference on Neural Networks, 1993.
- [7] Millan J.: Rapid, safe, and incremental learning of navigation strategies. IEEE Trans. on Systems, Man, and Cybernetics, 26 (3), 1996.
- [8] Pluciński M.: Application of the probabilistic RBF neural network in the reinforcement learning of a mobile robot. Polish Journal of Environmental Studies, vol. 16, no 5B, pp. 32-37, 2007.
- [9] Cichosz P.: Learning systems. Wyd. Naukowo-Techniczne, Warszawa, 2000 [in Polish].
- [10] Sutton R. S.: Learning to predict by the methods of temporal differences. Machine Learning, vol. 3, pp. 9-44, 1992.
- [11] Moore A. W., Atkeson C. G.: An investigation of memory-based function approximators for learning control. Technical report, MIT Artificial Intelligence Laboratory, Cambridge, MA, 1992.
- [12] Pluciński M.: Application of the probabilistic RBF neural network in multidimensional classification problems. In Advanced Computer Systems, Kluwer Academic Publishers, pp. 49-57, 2002.
- [13] Choset H. at all: Principles of robot motion (theory, algorithms and implementation). The MIT Press, 2005.
- [14] Pluciński M., Korzeń M.: Application of the Peano curve for the robot trajectory generating. Proc. of the 13th Int. Multi-Conference on Advanced Computer Systems, Międzyzdroje, Poland, pp. 43-52, 2006.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BSW4-0088-0022