Tytuł artykułu
Treść / Zawartość
Pełne teksty:
Identyfikatory
Warianty tytułu
Nowatorskie podejście z wykorzystaniem transformatorów wizyjnych (VIT) do klasyfikacji otworów wierconych w płytach wiórowych pokrytych melaminą
Języki publikacji
Abstrakty
This paper presents a comprehensive performance evaluation of various AI architectures for a classification of holes drilled in melamine faced chipboard, including custom Convolutional Neural Network (CNN-designed), five-fold CNN-designed, VGG19, single and five-fold VGG16, an ensemble of CNN-designed, VGG19, and 5xVGG16, and Vision Transformers (ViT). Each model's performance was measured and compared based on their classification accuracy, with the Vision Transformer models, particularly the B_32 model trained for 8000 epochs, demonstrating superior performance with an accuracy of 71.14%. Despite this achievement, the study underscores the need to balance model performance with other considerations such as computational resources, model complexity, and training times. The results highlight the importance of careful model selection and fine-tuning, guided not only by performance metrics but also by the specific requirements and constraints of the task and context. The study provides a strong foundation for further exploration into other transformer-based models and encourages deeper investigations into model fine-tuning to harness the full potential of these AI architectures for image classification tasks.
Artykuł ten przedstawia szczegółową ocenę wydajności różnych architektur sztucznej inteligencji do klasyfikacji otworów wiertniczych w płytach wiórowych laminowanych. Badanie obejmuje własną sieć neuronową konwolucyjną (CNN), pięciokrotną sieć CNN, VGG19, pojedyncze i pięciokrotne VGG16, zespół sieci CNN, VGG19 i 5xVGG16, oraz transformery wizyjne (ViT). Wydajność każdego modelu mierzono i porównywano na podstawie dokładności klasyfikacji. Modele transformatorów wizyjnych, szczególnie model B_32 trenowany przez 8000 epok, wykazały wyższą skuteczność, osiągając dokładność 71.14%. Pomimo tego osiągnięcia, badanie podkreśla potrzebę równoważenia wydajności modelu z innymi aspektami, takimi jak zasoby obliczeniowe, złożoność modelu i czas szkolenia. Wyniki zwracają uwagę na znaczenie starannego doboru i dopracowania modelu, kierując się nie tylko wskaźnikami wydajności, ale także konkretnymi wymaganiami i ograniczeniami zadania i kontekstu. Studium stanowi solidną podstawę do dalszych badań nad innymi modelami opartymi na transformatorach oraz zachęca do głębszych badań nad dopracowaniem modeli w celu w pełni wykorzystania potencjału tych architektur SI w zadaniach klasyfikacji obrazów.
Wydawca
Czasopismo
Rocznik
Tom
Strony
273--276
Opis fizyczny
Bibliogr. 18 poz., rys., tab.
Twórcy
autor
- Department of Artificial Intelligence, Institute of Information Technology, Warsaw University of Life Sciences
autor
- Department of Mechanical Processing of Wood, Institute of Wood Sciences and Furniture, Warsaw University of Life Sciences
autor
- Department of Artificial Intelligence, Institute of Information Technology, Warsaw University of Life Sciences
Bibliografia
- [1] Hu, J., Song, W., Zhang, W., Zhao Y., Yilmaz A., (2019). Deep learning for use in lumber classification tasks Wood Sci Technol 53(2): 505-517.DOI: https://doi.org/10.1007/s00226- 019-01086-z.
- [2] Ibrahim, I., Khairuddin, A. S. M., Talip, M. S. A., Arof, H., Yusof, R., (2017). Tree species recognition system based on macroscopic image analysis. Wood science and technology, 51(2), 431-444.
- [3] Jemielniak K., Urba ́nski T., Kossakowska J., Bombi ́nski S., (2012). Tool condition monitoring based on numerous signal features. Int J AdvManuf Technol 59: 73-81. DOI: https://doi.org/10.1007/s00170-011-3504-2.
- [4] Kuo R., (2000). Multi-sensor integration for on-line tool wear estimation through artificial neural networks and fuzzy neural network. Eng Appl Artif Intell 13: 249-261. DOI: https://doi.org/10.1016/S0952-1976(00)00008-7.
- [5] Kurek J., Antoniuk I., Górski J., Jegorowa A., Świderski B., Kruk M., Wieczorek G., Pach J., Orłowski A., Aleksiejuk-Gawron J., (2019a). Data Augmentation Techniques for Transfer Learning Improvement in Drill Wear Classification Using Convolutional Neural Network. Machine Graphics and Vision 28: 3-12.
- [6] Kurek J., Antoniuk I., G ́orski J., Jegorowa A., Świderski B., Kruk M., Wieczorek G., Pach J., Orłowski A., Aleksiejuk-Gawron J., (2019b). Classifiers ensemble of transfer learning for improved drill wear classification using convolutional neural network. Machine Graphics and Vision 28:13-23.
- [7] Kurek J., Kruk M., Osowski S., Hoser P., Wieczorek G., Jegorowa A., Górski J., Wilkowski J., Śmietańska K., Kossakowska J., (2016). Developing automatic recognition system of drill wear in standard laminated chipboard drilling process Bulleting of the Polish Academy of Science. Technical Sciences 64: 633-640. DOI: https://doi.org/10.1515/bpasts-2016-0071.
- [8] Kurek J., Swiderski B., Jegorowa A., Kruk M., Osowski S., (2017a). Deep learning in assessment of drill condition on the basis of images of drilled holes In: International Conference on Graphic and Image Processing. ICGIP. DOI: https://doi.org/10.1117/12.2266254.
- [9] Kurek J., Wieczorek G., Świderski B., Kruk M., Jegorowa A., Osowski S., (2017b). Transfer learning in recognition of drill wear using convolutional neural network. 1. In: International Conference on Computational Problems of Electrical Engineering. IEEE. DOI: https://doi.org/10.1109/CPEE.2017.8093087.
- [10] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J. & Houlsby, N. An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale. ICLR. (2021)
- [11] Tolstikhin, I., Houlsby, N., Kolesnikov, A., Beyer, L., Zhai, X., Unterthiner, T., Yung, J., Steiner, A., Keysers, D., Uszkoreit, J., Lucic, M. & Dosovitskiy, A. MLP-Mixer: An all-MLP Architecture for Vision. ArXiv Preprint ArXiv:2105.01601. (2021)
- [12] Steiner, A., Kolesnikov, A., Zhai, X., Wightman, R., Uszkoreit, J. & Beyer, L. How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers. ArXiv Preprint ArXiv:2106.10270. (2021)
- [13] Chen, X., Hsieh, C. & Gong, B. When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations. ArXiv Preprint ArXiv:2106.01548. (2021)
- [14] Zhuang, J., Gong, B., Yuan, L., Cui, Y., Adam, H., Dvornek, N.,Tatikonda, S., Duncan, J. & Liu, T. Surrogate Gap Minimization Improves Sharpness-Aware Training. ICLR. (2022)
- [15] Zhai, X., Wang, X., Mustafa, B., Steiner, A., Keysers, D., Kolesnikov, A. & Beyer, L. LiT: Zero-Shot Transfer with Locked-image Text Tuning. CVPR. (2022)
- [16] Steiner, A., Kolesnikov, A., Zhai, X., Wightman, R., Uszkoreit, J. & Beyer, L. How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers. (2022)
- [17] Jegorowa, A.; Górski, J.; Kurek, J.; Kruk, M. Use of nearest neighbors (K-NN) algorithm in tool condition identification in the case of drilling in melamine faced particleboard. Maderas Cienc. Tecnol. 2020, 22, 189–196. https://doi.org/10.4067/S0718-221X2020005000205.
- [18] Jegorowa, A., Kurek, J., Antoniuk, I., Dołowa, W., Bukowski, M. & Czarniak, P. Deep learning methods for drill wear classification based on images of holes drilled in melamine faced chipboard. Wood Science And Technology. 55, 271-293 (2021,1,1), https://doi.org/10.1007/s00226-020-01245-7
Uwagi
Opracowanie rekordu ze środków MNiSW, umowa nr POPUL/SP/0154/2024/02 w ramach programu "Społeczna odpowiedzialność nauki II" - moduł: Popularyzacja nauki i promocja sportu (2025).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-313580e8-e9e1-46e4-81ae-72884c4d8179
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.