Reinforcement learning (RL) is a machine learning method in which a model optimizes its decision-making strategy based on rewardsor penalties received for the actions it takes in an environment, often simulated. An example of an optimized process could be work schedulingin a restaurant, with the cost function being the absolute error of the difference between the scheduled and actual delivery times of an order. In task planning, RL stands out forits ability to handle problems requiring a complex sequence of actions, where traditionalplanning algorithms may struggle.RL modelscan effectively explore the solution space, adjusting their decisions to changing conditions, which enables dynamic and adaptive task execution management. RL is a broad class encompassing various approaches to achieving a goal, and in this research, we focus on selected ones. Three popular RL methods named DQN, SARSA and TD-AC have been implemented and evaluated.The study was conducted in a simulated environment designedto replicate a "delivery-based" restaurant business model. The kitchen simulation model has been developed based on 65,845 recorded food preparation processes performed in 30 restaurants located throughout Poland. A rule-based, queue-driven model (FIFO) served as the baseline for absolute quality comparison of the generated schedules. The results show that, for the defined problem, the quality of the scheduling outcomesvaries significantly depending on the choice of learning algorithm. Notably, the hybrid approach performed best under simulation conditions, considerably reducing the total completion time in a scenario reflecting the operations of a small, typical restaurant.
PL
Uczenie przez wzmacnianie(RL) to metoda uczenia maszynowego, w której model optymalizuje swoją strategię decyzyjną w oparciuo nagrody lub kary otrzymywane za działania podejmowane w środowisku, często symulowanym. Przykładem zoptymalizowanego procesu możebyć planowanie pracy w restauracji, gdzie funkcją kosztu jest bezwzględny błąd różnicy między zaplanowanym a rzeczywistym czasem dostawy zamówienia. W planowaniu zadań, RL wyróżnia się zdolnością do radzenia sobie z problemami wymagającymi złożonej sekwencji działań,gdzie tradycyjne algorytmy planowania mogą mieć trudności. Modele RL mogą efektywnie eksplorować przestrzeń rozwiązań, dostosowując swoje decyzje do zmieniających się warunków, co umożliwia dynamiczne i adaptacyjne zarządzanie realizacją zadań. RL to szeroka klasa obejmująca różne podejściado osiągnięcia celu, a w tym badaniu skupiamy się na wybranych z nich. Trzy popularne metody RL o nazwach DQN, SARSA i TD-AC zostały zaimplementowane oraz ich efektywność została przebadana eksperymentalnie. Badanie przeprowadzono w symulowanym środowisku zaprojektowanymw celu odtworzenia modelu restauracji opartego na dostawachdo klientów zdalnych. Model symulacji kuchni został opracowany w oparciu o 65845 zarejestrowanych procesów przygotowywania dańprzeprowadzonych w 30 restauracjach zlokalizowanych w całej Polsce. Model kolejkowy FIFO,oparty na regułach,posłużył jako punkt odniesienia do bezwzględnego porównania jakości wygenerowanych harmonogramów. Wyniki pokazują,że dla zdefiniowanego problemu, jakość wyników planowania różni się znacząco w zależności od wyboru algorytmu uczenia. Warto zauważyć, że podejście hybrydowe działało najlepiej w warunkach symulacji, znacznie skracając całkowity czas realizacji w scenariuszu odzwierciedlającym działalność małej, typowej restauracji.
This paper presents a stochastic interval algebra specifically developed to evaluate the time and cost properties of smart factories. This algebra models production tasks as intervals and treats allocation and scheduling as algebraic operations on these intervals, with the goal of analysing the impact of resource allocation decisions on total production time or economic cost. The theoretical foundations of this notation are introduced, and then several simple examples of their use are presented. The proposed algebra can be also applied to describe multi-stage production and service processes, recorded with an activity-on-arrow type of graphs, In addition, it was analysed a real-life application of the described technique to planning and scheduling the activities in restaurants preparing takeaway meals. The data was collected in 30 restaurants throughout Poland, using a bespoken software/hardware Kitchen Delivery System, in which over 65,000 orders were registered. Time criteria for the correctness of individual stages of meal preparation were proposed and, after filtering out incorrect orders, the appropriate probability distributions were fitted to the remaining measured activity durations. The resulting probabilities can then be used in practice to improve the accuracy of predicting the completeness of food preparation, which in turn should improve food delivery planning with greater accuracy and enable more accurate order delivery times to be provided to end customers.
PL
W artykule przedstawiono stochastyczną algebrę interwałową stworzoną specjalnie w celu oceny właściwości czasowych i kosztowych inteligentnych fabryk. Algebra ta modeluje zadania produkcyjne jako interwały i traktuje alokację i planowanie jako operacje algebraiczne na tych interwałach, mając na celu analizę wpływu decyzji o alokacji zasobów na całkowity czas produkcji lub koszt ekonomiczny. Wprowadzono podstawy teoretyczne tej notacji, a następnie zaprezentowano kilka prostych przykładów ich użycia. Podano także przykłady zastosowania proponowanej algebry do opisu kilkuetapowych procesów produkcyjnych i usługowych, zapisanych za pomocą grafu z aktywnościami na przejściach. Ponadto przeanalizowano zastosowanie opisanej techniki do planowania i usług w restauracjach przygotowujących posiłki na wynos. Dane zostały zebrane w 30 restauracjach w całej Polsce z wykorzystaniem zaproponowanego programowo-sprzętowego systemu dostaw w kuchni, w którym zarejestrowano ponad 65 000 zamówień. Zaproponowano czasowe kryteria poprawności poszczególnych etapów przygotowania posiłku i po odfiltrowaniu niepoprawnych zamówień, do pozostałych zmierzonych czasów trwania czynności dopasowano odpowiednie rozkłady prawdopodobieństwa. Otrzymane prawdopodobieństwa można następnie wykorzystać w praktyce do poprawy dokładności przewidywania kompletności przygotowania żywności, co z kolei powinno poprawić planowanie dostaw żywności z większą dokładnością i umożliwienie podawania klientom końcowym dokładniejszego czasu terminu dostawy zamówienia.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.