Ograniczanie wyników
Czasopisma help
Autorzy help
Lata help
Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 59

Liczba wyników na stronie
first rewind previous Strona / 3 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  reinforcement learning
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 3 next fast forward last
EN
Continuous Integration and Continuous Deployment (CI/CD) pipelines form the backbone of modern software development but typically suffer from long build times, repeated failures, and inefficient use of resources. This work presents a machine learning-based framework that systematically improves pipeline performance through predictive modelling. More specifically, the work will focus on developing a Support Vector Machine model to predict pipeline failures; it minimizes build times through optimized resource allocation while building dynamic frameworks for continuous improvement of CI/CD pipelines. The study assumes an exhaustive literature review and propounds a new approach by using an SVM model. Critical performance metrics such as the build duration, test pass/fail rates, and resource consumption are analysed and the framework is found to have significant improvements by the measurements: a 33% decrease in the build time, a 60% decrease in the failure rates, and optimization of CPU and memory utilization. The experiments validated the outcome of being scalable in an intelligent manner such that persistent problems with CI/CD are solved in modern DevOps practices. This work provided initial groundwork by bringing in the concept of ML in CI/CD process, aiming to enhance reliability and efficiency in the pipelines that would lead towards major strides in adaptive systems in the context of software engineering workflows.
PL
W ostatnich latach wzrasta zainteresowanie wykorzystaniem uczenia ze wzmocnieniem w dziedzinie sterowania robotyki. W tym kontekście istotne jest badanie i porównanie różnych algorytmów RL, które mogą być efektywnie zastosowane do zadań sterowania robotami. W tym artykule porównano trzy popularne algorytmy RL: Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO) i Advantage Actor Critic (A2C), koncentrując się na ich zastosowaniu w sterowaniu ramieniem robota. Eksperymenty przeprowadzono w środowisku z symulowanym ramieniem robota wykorzystując szereg bibliotek i struktur programistycznych tzw. frameworków, a wyniki działania poszczególnych algorytmów zaprezentowano.
EN
In recent years, there has been increasing interest in the use of reinforcement learning in the field of robotics control. In this context, it is important to study and compare different RL algorithms that can be effectively applied to robot control tasks. This article compares three popular RL algorithms: Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO), and Advantage Actor Critic (A2C), focusing on their application in robotic arm control. The experiments were carried out in an environment with a simulated robot arm using a number of libraries and programming structures, the so-called frameworks, and the results of individual algorithms were presented.
EN
Feature Selection (FS) is an essential research topic in the area of machine learning. FS, which is the process of identifying the relevant features and removing the irrelevant and redundant ones, is meant to deal with the high dimensionality problem for the sake of selecting the best performing feature subset. In the literature, many feature selection techniques approach the task as a research problem, where each state in the search space is a possible feature subset. In this paper, we introduce a new feature selection method based on reinforcement learning. First, decision tree branches are used to traverse the search space. Second, a transition similarity measure is proposed so as to ensure exploit-explore trade-off. Finally, the informative features are the most involved ones in constructing the best branches. The performance of the proposed approaches is evaluated on nine standard benchmark datasets. The results using the AUC score show the effectiveness of the proposed system.
EN
Energy saving has always been a concern in production scheduling, especially in distributed hybrid flow shop scheduling problems. This study proposes a shuffled frog leaping algorithm with Q-learning (QSFLA) to solve distributed hybrid flow shop scheduling problems with energy-saving(DEHFSP) for minimizing the maximum completion time and total energy consumption simultaneously. The mathematical model is provided, and the lower bounds of two optimization objectives are given and proved. A Q-learning process is embedded in the memeplex search of QSFLA. The state of the population is calculated based on the lower bound. Sixteen search strategy combinations are designed according to the four kinds of global search and four kinds of neighborhood structure. One combination is selected to be used in the memeplex search according to the population state. An energy-saving operator is presented to reduce total energy consumption without increasing the processing time. One hundred forty instances with different scales are tested, and the computational results show that QSFLA is a very competitive algorithm for solving DEHFSP.
5
Content available AI-based field-oriented control for induction motors
EN
The current article deals with the implementation of Reinforcement Learning based Field Oriented Control (FOC) for the induction motors (IM). It is pertinent to mention that although conventional controllers like PID are widely used in FOC induction, they are model-based and face problems such as parameter adjustment. PID controllers need to be tuned because of the approximations of the model, variations of the parameters during operation,and the external disturbances that are uncertain and unpredictable. RL is a machine learning approach that is model-free which can adaptto the variations and disturbances. Therefore, these controllers can be an excellent alternative to the conventional controllers. In this study,an RL-based controller was used to control the speed of the induction motor using the FOCand spacevector modulation (SVM). Computational simulations weredone using the MATLAB/SIMULINK to test the controllers’ performance under different operating conditions. This study highlights the effectivenessof RL in optimizing IM control, offering potential benefits in various industrial and automation applications.
PL
Niniejszy artykuł dotyczy implementacji uczenia ze wzmacnianiem (Reinforcement Learning–RL) opartego na sterowaniu polowym (FOC) dla silników indukcyjnych (IM). Należy wspomnieć, że chociaż konwencjonalne regulatory, takie jak PID, są szeroko stosowane windukcji FOC, są one oparte na modelu i napotykają problemy, takie jak dostosowanie parametrów. Regulatory PID muszą być dostrajane ze względu na przybliżenia modelu, zmiany parametrów podczas pracy,oraz zewnętrzne zakłócenia, które są niepewne i nieprzewidywalne. RLto podejście oparte na uczeniu maszynowym, które jest wolne od modelu i może dostosowywać się do zmian i zakłóceń. Dlatego też regulatory temogą być doskonałą alternatywą dla konwencjonalnych regulatorów. W niniejszym badaniu do sterowania prędkością silnika indukcyjnego wykorzystano sterownik oparty na RL, wykorzystujący FOC i modulację wektora przestrzennego (SVM). Symulacje obliczeniowe przeprowadzono przy użyciu MATLAB/SIMULINK w celu przetestowania wydajności sterowników w różnych warunkach pracy. Badanie to podkreśla skuteczność RL w optymalizacji sterowania IM, oferując potencjalne korzyści w różnych zastosowaniach przemysłowych i automatyzacji.
EN
This study introduces a two-step reinforcement learning (RL) strategy tailored for "The Lord of the Rings: The Card Game", a complex multistage strategy card game. The research diverges from conventional RL methods by adopting a phased learning approach, beginning with a foundational learning step in a simplified version of the game and subsequently progressing to the complete, intricate game environment. This methodology notably enhances the AI agent’s adaptability and performance in the face of the unpredictable and challenging nature of the game. The paper also explores a multi-phase system where distinct RL agents are employed for various decision-making phases of the game. This approach has demonstrated remarkable improvement, with the RL agents achieving a winrate of 78.5 % at the highest difficulty level.
EN
This article investigates design optimisation in the automotive field using machine learning (ML). A thin-walled crash box under axial impact is studied and the design parameters are optimised for front-impact crash tests. This study is based on geometrically and physically nonlinear shell theory, finite element analysis (FEA), dynamic buckling analysis and design optimisation using ML. An artificial neural network framework consisting of various ML methods is developed. A generative adversarial network is established for data generation and reinforcement learning is implemented to automate exploration of the design parameter. This ML framework is proven to determine optimal parameters under predefined crashworthiness constraints.
EN
In promoting the construction of prefabricated residential buildings in Yunnan villages and towns, the use of precast concrete elements is unstoppable. Due to the dense arrangement of steel bars at the joints of precast concrete elements, collisions are prone to occur, which can affect the stress of the components and even pose certain safety hazards for the entire construction project. Because the commonly used the steel bar obstacle avoidance method based on building information modeling has low adaptation rate and cannot change the trajectory of the steel bar to avoid collision, a multi-agent reinforcement learning-based model integrating building information modeling is proposed to solve the steel bar collision in reinforced concrete frame. The experimental results show that the probability of obstacle avoidance of the proposed model in three typical beam-column joints is 98.45%, 98.62% and 98.39% respectively, which is 5.16%, 12.81% and 17.50% higher than that of the building information modeling. In the collision-free path design of the same object, the research on the path design of different types of precast concrete elements takes about 3–4 minutes, which is far less than the time spent by experienced structural engineers on collision-free path modeling. The experimental results indicate that the model constructed by the research institute has good performance and has certain reference significance.
PL
W pracy opisano wykorzystanie uczenia ze wzmocnieniem w modelu Simulink do symulacji sterowania procesem krystalizacji. Przedstawiono również stanowisko akwizycji danych tomograficznych służące do sterowania rzeczywistym procesem krystalizacji zarządzanym agentem uczenia ze wzmocnieniem. Rekonstrukcja obrazu z systemu tomograficznego umożliwia agentowi uczenia ze wzmocnieniem uzyskanie dodatkowych danych w czasie rzeczywistym o stanie środowiska, co z kolei pozwoli kontrolerowi na prowadzenie procesu.
EN
This paper describes the use of reinforcement learning in the Simulink model to simulate the control of the crystallization process. A tomographic data acquisition workstation for controlling the actual crystallization process managed by a reinforcement learning agent is also presented. Reconstructing the image from the tomographic system allows the reinforcement learning agent to obtain additional real-time data about the state of the environment, which in turn will allow the controller to guide the process.
PL
Uczenie przez wzmacnianie ma coraz większe znaczenie w sterowaniu robotami, a symulacja odgrywa w tym procesie kluczową rolę. W obszarze bezzałogowych statków powietrznych (BSP, w tym dronów) obserwujemy wzrost liczby publikowanych prac naukowych zajmujących się tym zagadnieniem i wykorzystujących wspomniane podejście. W artykule omówiono opracowany system autonomicznego sterowania dronem, który ma za zadanie lecieć w zadanym kierunku (zgodnie z przyjętym układem odniesienia) i omijać napotykane w lesie drzewa na podstawie odczytów z obrotowego sensora LiDAR. Do jego przygotowania wykorzystano algorytm Proximal Policy Optimization (PPO), stanowiący przykład uczenia przez wzmacnianie (ang. reinforcement learning, RL). Do realizacji tego celu opracowano własny symulator w języku Python. Przy testach uzyskanego algorytmu sterowania wykorzystano również środowisko Gazebo, zintegrowane z Robot Operating System (ROS). Rozwiązanie zaimplementowano w układzie eGPU Nvidia Jetson Nano i przeprowadzono testy w rzeczywistości. Podczas nich dron skutecznie zrealizował postawione zadania i był w stanie w powtarzalny sposób omijać drzewa podczas przelotu przez las.
EN
Reinforcement learning is of increasing importance in the field of robot control and simulation plays a key role in this process. In the unmanned aerial vehicles (UAVs, drones), there is also an increase in the number of published scientific papers involving this approach. In this work, an autonomous drone control system was prepared to fly forward (according to its coordinates system) and pass the trees encountered in the forest based on the data from a rotating LiDAR sensor. The Proximal Policy Optimization (PPO) algorithm, an example of reinforcement learning (RL), was used to prepare it. A custom simulator in the Python language was developed for this purpose. The Gazebo environment, integrated with the Robot Operating System (ROS), was also used to test the resulting control algorithm. Finally, the prepared solution was implemented in the Nvidia Jetson Nano eGPU and verified in the real tests scenarios. During them, the drone successfully completed the set task and was able to repeatable avoid trees and fly through the forest.
PL
Uczenie przez wzmocnienie stanowi propozycję do rozwiązywania problemów identyfikacji i weryfikacji klientów instytucji obowiązanych, którzy mogą być powiązani z procederem prania pieniędzy czy finansowaniem terroryzmu. Może to mieć zastosowanie zarówno na poziomie czynności weryfikacyjnych, jak i na poziomie monitoringu klienta danej instytucji. Model uczenia przez wzmocnienie pozwala na uzyskiwanie rezultatów akcji agenta jako nie tylko konsekwencji jego uczenia, lecz także podejmowania własnych decyzji zmierzających do uzyskania jak największej nagrody. Wsparciem tego typu działań jest dostarczanie danych technicznych, a także współpraca z czynnikiem ludzkim w ramach uczenia się ze wzmocnieniem na podstawie informacji zwrotnej od ludzi. Oprócz samej idei włączenia tego typu modelu myślenia maszynowego na poziom analityki instytucji obowiązanej pozostaje także uzyskiwanie za jego pośrednictwem rezultatów w postaci predykcyjnego wykrywania zagrożenia związanego z możliwością legalizowania środków przestępczych i inwestowania ich w działalność terrorystyczną.
EN
Reinforcement learning is a proposal for solving the problems of identifying and verifying customers of mandatory institutions who may be connected with money laundering or terrorist financing. Its application can take place both at the level of verification activities but also at the level of monitoring of the institution’s client. The reinforcement learning model allows the results of an agent’s actions to be obtained as not only a consequence of his learning, but also of his own decision-making aimed at obtaining the greatest possible reward. Supporting this type of action is not only the provision of technical data but also the collaboration with the human agent in Reinforcement Learning from Human Feedback. In addition to the very idea of incorporating this type of machine thinking model into the analytical level of the obligated institution, it remains to obtain results through it in the form of predictive threat detection related to the possibility of legalizing criminal funds and investing them in terrorist activities.
PL
Uczenie przez wzmacnianie skupia się nie tylko na uczeniu pojedynczego agenta, lecz także zastosowanie tej metody znajduje swoje odzwierciedlenie w wieloagentowym działaniu. To kwestia istotna z punktu widzenia tego, że proces decyzyjny i zarządzanie informacją w systemie AML/CFT dla instytucji obowiązanej pozostaje coraz bardziej procesem skomplikowanym. W konsekwencji należy wprowadzić także, chcąc zastosować metodę uczenia przez wzmacnianie, wielość agentów zarówno w relacji ze środowiskiem, jak i w relacji ze sobą. Wobec tego rodzaju rozwiązań możliwe jest do zastosowania wieloagentowe uczenie się przez wzmacnianie czy koncepcja półniezależnej metody szkolenia polityk ze współdzieloną reprezentacją dla heterogenicznego, wieloagentowego uczenia się przez wzmacnianie. Ponadto mając na uwadze fakt, że proces decyzyjny AML/CFT czerpie jedynie pomocniczo rozwiązania ze sztucznej inteligencji, w tym systemie zarządzania niezbędny pozostaje także czynnik ludzki. Wobec tego rodzaju potrzeb jako wyjściowe rozwiązanie można wskazać Reinforcement Learning from Human Feedback, które zapewnia w uczeniu czynnik ludzki.
EN
Reinforcement learning focuses not only on teaching a single agent, but also the use of this method is reflected in multi-agent operation. This is an important issue from the point of view that the decision-making process and information management in the AML/CFT system for the obligated institution remains an increasingly complex process. Consequently, if we want to use the reinforcement learning method, we must also introduce a multiplicity of agents both in relation to the environment and in relation to each other. Given this type of solutions, it is possible to use multi-agent reinforcement learning or the concept of a semi-independent policy training method with a shared representation for heterogeneous, multi-agent reinforcement learning. Bearing in mind the fact that the AML/CFT decision-making process only derives solutions from artificial intelligence, the human factor also remains essential in this management system. Given these types of needs, the initial solution can be Reinforcement Learning from Human Feedback, which ensures the human factor in learning.
EN
The aim of this study is to use the reinforcement learning method in order to generate a complementary signal for enhancing the performance of the system stabilizer. The reinforcement learning is one of the important branches of machine learning on the area of artificial intelligence and a general approach for solving the Marcov Decision Process (MDP) problems. In this paper, a reinforcement learning-based control method, named Q-learning, is presented and used to improve the performance of a 3-Band Power System Stabilizer (PSS3B) in a single-machine power system. For this end, we first set the parameters of the 3-band power system stabilizer by optimizing the eigenvalue-based objective function using the new optimization KH algorithm, and then its efficiency is improved using the proposed reinforcement learning algorithm based on the Q-learning method in real time. One of the fundamental features of the proposed reinforcement learning-based stabilizer is its simplicity and independence on the system model and changes in the working points of operation. To evaluate the efficiency of the proposed reinforcement learning-based 3-band power system stabilizer, its results are compared with the conventional power system stabilizer and the 3-band power system stabilizer designed by the use of the KH algorithm under different working points. The simulation results based on the performance indicators show that the power system stabilizer proposed in this study underperform the two other methods in terms of decrease in settling time and damping of low frequency oscillations.
PL
Artykuł przedstawia wynik badań nad systemami adaptacyjnego strumieniowania DASH (ang. Dynamic Adaptive Streaming over HTTP). W zaproponowanym rozwiązaniu algorytm adaptacyjny oparty jest na paradygmacie uczenia ze wzmocnieniem RL (ang. Reinforcement Learning). Jako podstawę do przeprowadzonych testów wybrany został algorytm Pensieve. Algorytm ten jest szeroko omawiany w literaturze naukowej i dlatego badanie i analiza jego własności jest przydatna w szerokiej gamie rozwiązań wykorzystujących DASH. Główny wkład zaprezentowanych wyników testów w rozwój wiedzy nad usługami strumieniowej transmisji wideo polega na analizie wpływu cech charaktery-stycznych materiałów wideo na efektywność procesu adaptacji realizowanego przez opracowany model RL. Przedstawione wyniki świadczą o tym, że wpływzmienności treści wideonie powinien być pomijany w jakichkolwiek pogłę-bionych analizach cech systemów DASH.
EN
The article presents the result of research on DASH (Dynamic Adaptive Streaming over HTTP) systems. In the proposed solution, the adaptive algorithm is based on the RL (Reinforcement Learning) paradigm. The Pensieve algorithm was chosen as the basis for the tests. This algorithm is widely discussed in the scientific literature and therefore the study and analysis of its properties is useful in a wide range of solutions using DASH. The main contribution of the presented test results to the development of knowledge on video streaming services consists in the analysis of the impact of the characteristics of video materials on the effectiveness of the adaptation process implemented by the developed RL model. The presented results show that this influence should not be omitted in any in-depth analyses of the characteristics of DASH systems.
EN
This paper presents a complete simulation and reinforce‐ ment learning solution to train mobile agents’ strategy of route tracking and avoiding mutual collisions. The aim was to achieve such functionality with limited resources, w.r.t. model input and model size itself. The designed models prove to keep agents safely on the track. Colli‐ sion avoidance agent’s skills developed in the course of model training are primitive but rational. Small size of the model allows fast training with limited computational resources.
EN
This paper considers structural control by reinforcement learning. The aim is to mitigate vibrations of a shear building subjected to an earthquake-like excitation and fitted with a semi-active tuned mass damper (TMD). The control force is coupled with the structural response, making the problem intrinsically nonlinear and challenging to solve using classical methods. Structural control by reinforcement learning has not been extensively explored yet. Here, Deep-Q-Learning is used, which appriximates the Q-function with a neural network and optimizes initially random control sequences through interaction with the controlled system. For safety reasons, training must be performed using an inevitably inexact numerical model instead of the real structure. It is thus crucial to assess the robustness of the control with respect to measurement noise and model errors. It is verified to significantly outperform an optimally tuned conventional TMD, and the key outcome is the high robustness to measurement noise and model error.
PL
Niniejszy artykuł przedstawia sposób adaptacji szybkości transmisji danych do warunków panujących w sieci z użyciem uczenia maszynowego. Zaproponowane rozwiązanie rozszerza działanie istniejącego algorytmu dla przypadku, kiedy stacja odbiorcza znajduje się poza zasięgiem stacji nadawczej. Wartości przepustowości uzyskiwane z użyciem zaproponowanego rozwiązania są porównywalne z wynikami uzyskiwanymi dla tradycyjnych algorytmów Minstrel i CARA.
EN
This paper describes how to adapt data transmission rates to the varying network conditions using machine learning. The proposed algorithm is based on an earlier state-of-the-art solution and extends its operation for the case when the receiver is outside the range of the transmitter. The throughput values obtained with the use of the proposed algorithm are comparable to the results obtained with the traditional Minstrel and CARA algorithms.
PL
Dynamiczne wygaszanie punktów transmisyjnych to jedna z technik skoordynowanej transmisji z wielu punktów transmisyjnych, w której niektóre stacje bazowe mogą być tymczasowo wyciszone, np. w celu poprawy przepustowości użytkowników na obrzeżach komórki. W niniejszym artykule zaproponowano wykorzystanie głębokiego uczenia ze wzmocnieniem do wyboru schematu wygaszania, który zwiększa przepływność użytkowników znajdujących się na skraju komórki. Zaproponowany algorytm wykorzystuje sieć neuronową do wyboru schematu wygaszania na podstawie lokalizacji użytkowników. Badania symulacyjne wykazały, że dzięki zaproponowanemu rozwiązaniu przepływność użytkownika na krawędzi komórki możne wzrosnąć około 14,14 razy.
EN
Dynamic Point Blanking (DPB) is one of the Coordinated MultiPoint (CoMP) techniques, where some Base Stations (BSs) can be temporarily muted, e.g., to improve the cell-edge users throughput. In this paper, it is proposed to obtain the muting pattern that improves cell-edge users throughput with the use of Deep Reinforcement Learning technique. The proposed algorithm utilizes deep neural network to select muting pattern on the basis of user locations. Simulation studies have shown that cell-edge user throughput can be improved by the ratio of about 14.14, while using the proposed algorithm.
PL
W pracy zaproponowano algorytm automatycznego doboru kąta pochylenia anten stosowanych w systemach komórkowych oraz oceniono jego działanie. Wypracowano sposób doboru pochylenia anten z uwzględnieniem stanu środowiska, pokrycia sygnałem radiowym, pojemności sieci oraz interferencji międzykomórkowych. Zebrane wyniki pozwoliły na oszacowanie istotności ustawienia pochylenia anten, aby zapewnić odpowiednią jakość usług.
EN
The purpose of this thesis is to propose an algorithm for the automatic antenna tilt selection in cellular networks and evaluation of its performance. A method of adjusting the antenna inclination angle was developed, taking into account the state of the environment, coverage, system capacity, and inter-cell interference. Collected results allowed for conducting the importance of the proper setting of the antenna inclination angle to ensure appropriate quality of service.
EN
This paper presents an overview of four selected solutions addressing problem of bidding in card game of contract bridge. In the beginning the basic rules are presented along with basic problem size estimation. Brief description of collected work is presented in chronological order, tracking evolution of approaches to the problem. While presenting solution a short description of mathematical base is attached. In the end a comparison of solution is made, followed by an attempt to estimate future development of techniques.
PL
Artykuł przedstawia cztery wybrane podejścia do rozgrywania licytacji w brydżu. W części pierwszej przybliżane są zasady brydża, stanu wiedzy na jego temat oraz krótkie oszacowanie poziomu komplikacji problemu. W części zasadniczej przedstawiono krótkie opisy podejść badaczy do problemu licytacji, badania przedstawione są w kolejności chronologicznej, ukazując ewolucję podejść do problemu. W trakcie opisywania rozwiązań, przybliżane są po krótce matematyczne zasady działania wykorzystanych mechanizmów uczenia maszynowego. Część końcowa podsumowuje przedstawione porównanie rozwiązań i oszacowanie kierunku przyszłego rozwoju.
first rewind previous Strona / 3 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.