Development of a reinforcementlearning-based adaptive scheduling algorithm for commercial smart kitchens

Kabała, Karol; Dziurzanski, Piotr; Konrad, Agnieszka

doi:10.35784/iapgos.6996

Powiadomienia systemowe

Sesja wygasła!

Artykuł - szczegóły

Tytuł artykułu

Development of a reinforcementlearning-based adaptive scheduling algorithm for commercial smart kitchens

Autorzy

Kabała Karol , Dziurzanski Piotr , Konrad Agnieszka

Treść / Zawartość

Pełne teksty:

Pobierz

Identyfikatory

DOI

10.35784/iapgos.6996

Warianty tytułu

Opracowanie adaptacyjnego algorytmu planowania opartegona uczeniu przez wzmacnianie dla inteligentnych kuchni komercyjnych

Języki publikacji

Abstrakty

Reinforcement learning (RL) is a machine learning method in which a model optimizes its decision-making strategy based on rewardsor penalties received for the actions it takes in an environment, often simulated. An example of an optimized process could be work schedulingin a restaurant, with the cost function being the absolute error of the difference between the scheduled and actual delivery times of an order. In task planning, RL stands out forits ability to handle problems requiring a complex sequence of actions, where traditionalplanning algorithms may struggle.RL modelscan effectively explore the solution space, adjusting their decisions to changing conditions, which enables dynamic and adaptive task execution management. RL is a broad class encompassing various approaches to achieving a goal, and in this research, we focus on selected ones. Three popular RL methods named DQN, SARSA and TD-AC have been implemented and evaluated.The study was conducted in a simulated environment designedto replicate a "delivery-based" restaurant business model. The kitchen simulation model has been developed based on 65,845 recorded food preparation processes performed in 30 restaurants located throughout Poland. A rule-based, queue-driven model (FIFO) served as the baseline for absolute quality comparison of the generated schedules. The results show that, for the defined problem, the quality of the scheduling outcomesvaries significantly depending on the choice of learning algorithm. Notably, the hybrid approach performed best under simulation conditions, considerably reducing the total completion time in a scenario reflecting the operations of a small, typical restaurant.

Uczenie przez wzmacnianie(RL) to metoda uczenia maszynowego, w której model optymalizuje swoją strategię decyzyjną w oparciuo nagrody lub kary otrzymywane za działania podejmowane w środowisku, często symulowanym. Przykładem zoptymalizowanego procesu możebyć planowanie pracy w restauracji, gdzie funkcją kosztu jest bezwzględny błąd różnicy między zaplanowanym a rzeczywistym czasem dostawy zamówienia. W planowaniu zadań, RL wyróżnia się zdolnością do radzenia sobie z problemami wymagającymi złożonej sekwencji działań,gdzie tradycyjne algorytmy planowania mogą mieć trudności. Modele RL mogą efektywnie eksplorować przestrzeń rozwiązań, dostosowując swoje decyzje do zmieniających się warunków, co umożliwia dynamiczne i adaptacyjne zarządzanie realizacją zadań. RL to szeroka klasa obejmująca różne podejściado osiągnięcia celu, a w tym badaniu skupiamy się na wybranych z nich. Trzy popularne metody RL o nazwach DQN, SARSA i TD-AC zostały zaimplementowane oraz ich efektywność została przebadana eksperymentalnie. Badanie przeprowadzono w symulowanym środowisku zaprojektowanymw celu odtworzenia modelu restauracji opartego na dostawachdo klientów zdalnych. Model symulacji kuchni został opracowany w oparciu o 65845 zarejestrowanych procesów przygotowywania dańprzeprowadzonych w 30 restauracjach zlokalizowanych w całej Polsce. Model kolejkowy FIFO,oparty na regułach,posłużył jako punkt odniesienia do bezwzględnego porównania jakości wygenerowanych harmonogramów. Wyniki pokazują,że dla zdefiniowanego problemu, jakość wyników planowania różni się znacząco w zależności od wyboru algorytmu uczenia. Warto zauważyć, że podejście hybrydowe działało najlepiej w warunkach symulacji, znacznie skracając całkowity czas realizacji w scenariuszu odzwierciedlającym działalność małej, typowej restauracji.

Słowa kluczowe

reinforcement learning scheduling smart factories kitchen delivery systems

uczenie przez wzmacnianie planowanie inteligentne fabryki systemy dostaw w kuchni

Wydawca

Wydawnictwo Politechniki Lubelskiej

Czasopismo

Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska

Rocznik

2025

Tom

T. 15, nr 3

Strony

117--122

Opis fizyczny

Bibliogr. 18 poz., wykr.

Twórcy

autor

Kabała Karol

k.kabala@numlabs.com

Numlabs Ltd, Krakow, Poland

https://orcid.org/0000-0003-0380-9270+

autor

Dziurzanski Piotr

piotr.dziurzanski@zut.edu.pl

West Pomeranian University of Technology, Faculty of Computer Science and Information Technologies, Szczecin, Poland

https://orcid.org/0000-0001-9542-652X+

autor

Konrad Agnieszka

aga.konrad@gmail.com

Polish Academy of Sciences, Institute of Bioorganic Chemistry, Poznan, Poland
Papukurier Ltd, Poznan, Poland

https://orcid.org/0000-0002-7900-3153+

Bibliografia

[1] Deguchi A. et al.: What is society 5.0. Society 5.0, 2020, 1–24.
[2] Dziurzanski P., Zhao S., Indrusiak L. S.: Integrated Process Planning and Scheduling in Commercial Smart Kitchens. arXiv preprint arXiv:1910.03322, 2019.
[3] Dziurzanski P., Kabala K., Konrad A.: A stochastic interval algebra for smart factory process. Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska – IAPGOS 1, 2025, 33–38.
[4] Hamada R., et al.: Cooking navi: assistant for daily cooking in kitchen. 13th annual ACM international conference on Multimedia. 2005.
[5] Kiesel J.: The internet of things in restaurants. [https://www.manufacturingtomorrow.com/article/2017/03/the-internet-of things-in-restaurants/9261].
[6] Lei J., Ren X., Fox D.: Fine-grained kitchen activity recognition using rgb-d. ACM Conference on Ubiquitous Computing. 2012.
[7] Mizrahi M., et al.: Digital gastronomy: Methods & recipes for hybrid cooking. 29th Annual Symposium on User Interface Software and Technology. 2016.
[8] Mohan A., Zhang A., Lindauer M.: Structure in Deep Reinforcement Learning: A Survey and Open Problems. Journal of Artificial Intelligence Research 79, 2024, 1167–1236.
[9] Moritz P., et al.: Ray: A distributed framework for emerging {AI} applications. 13th USENIX symposium on operating systems design and implementation OSDI 18. 2018.
[10] Padakandla S.: A survey of reinforcement learning algorithms for dynamically varying environments. ACM Computing Surveys – CSUR 54(6), 2021, 1–25.
[11] Sutton R. S., Barto A. G.: Reinforcement learning: An introduction. MIT press, 2018.
[12] Ustundag A., Cevikcan E.: Industry 4.0: managing the digital transformation. Springer, 2017.
[13] Van Hasselt H., Guez A., Silver D.: Deep reinforcement learning with double q-learning. AAAI conference on artificial intelligence 30(1), 2016.
[14] Iterative.ai. Data Version Control (DVC). Iterative.ai, 2025 [http://dvc.org] (accessed: 21.08.2025).
[15] MLflow Project (part of LF Projects, LLC). MLflow. MLflow Project, 2025 [http://mlflow.org] (accessed: 21.08.2025).
[16] Project Jupyter. Project Jupyter. Project Jupyter, 2025 [http://jupyter.org] (accessed: 21.08.2025).
[17] PyTorch Foundation. PyTorch. PyTorch Foundation, 2025 [http://pytorch.org] (accessed: 21.08.2025).
[18] Rynek wewnętrzny w 2022 r., Analizy statystyczne. Główny Urząd Statystyczny. 2023.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-fec630b4-1c43-4172-93ea-e11618e46f76