Celem badania było porównanie dokładności rozpoznawania pisma odręcznego oraz czasu potrzebnego na klasyfikację danych ze zbiorów testowych. Do badań wykorzystano architektury Lenet-5, AlexNet i GoogLeNet. Wszystkie wybra-ne architektury są modelami konwolucyjnych sieci neuronowych. Badania przeprowadzono z wykorzystaniem baz obrazów odręczenie pisanych cyfr MNIST i odręcznie pisanych liter EMNIST. Po wykonaniu badań stwierdzono, że największą dokładnością wykazał się model GoogLeNet, a najmniejszą LeNet-5. Natomiast najmniej czasu na wykona-nie zadania potrzebował model LeNet-5, a najwięcej GoogLeNet. Na podstawie otrzymanych wyników stwierdzono, że zwiększanie złożoności modelu wpływa pozytywnie na dokładność klasyfikacji obiektów, ale znacznie zwiększa zapo-trzebowanie na zasoby komputera.
EN
The aim of the study was to compare the accuracy of handwriting recognition and the time needed to classify data from the test sets. The Lenet-5, AlexNet and GoogLeNet architectures were used for the research. All selected architectures are models of convolutional neural networks. The research was carried out with the use of image databases, handwritten digits MNIST and handwritten letters EMNIST. After the tests, it was found that the GoogLeNet model showed the highest accuracy, and the LeNet-5 the lowest. However, the LeNet-5 model needed the least time to complete the task, and GoogLeNet the most. On the basis of the obtained results, it was found that increasing the complexity of the model positively influences the accuracy of object classification, but significantly increases the demand for computer re-sources.
W artykule przedstawiono analizę wybranych algorytmów śledzenia obiektów na bazie obrazu video. Śledzenie obiektów ma szereg zastosowań, takie jak monitoring, w interakcjach człowieka z komputerem, sterowanie pojazdami i robotami. Przedstawione tutaj algorytmy zostały wybrane ze względu na zdolność działania w czasie rzeczywistym i nie wymagających uzyskiwania informacji z przyszłych klatek filmu video. Analiza ich efektywności została przeprowadzona dla dwóch filmów video. Efektywność śledzenia w danej chwili czasu określana jest indeksem nakładania się obrazów Jaccarda, liczbą analizowanych klatek filmu na sekundę i poprawnością śledzenia. Wyniki obliczeń dla wszystkich analizowanych algorytmów przedstawiono na wykresach i w tabelach.
EN
The article presents an analysis of selected object tracking algorithms based on a video image. The importance of object tracking is reflected in a wide range of applications, such as monitoring, in human-computer interactions as well as vehicle and robot control. These algorithms were selected taking into account the ability to operate in real time, not requiring obtaining information from future frames of the video. The analysis was carried out for two video films. The tracking efficiency at a given time is determined by the Jaccard index Intersection-over-Union (IoU), number of analyzed frames per second and tracking correction. The calculation results for all analyzed algorithms are depicted on the appropriate figures and comparative tables.
The article describes project of autonomous workstation capable of feeding fledging birds. During the breeding season animal rescue centers are experiencing huge overload of patients and up to 20% of patients are birds. Despite small size they demand as much care as other animals – in case of fledging birds main need is frequent feeding which is impossible to cover by working staff. Designed workstation is meant to solve this problem and decrease mortality of sick or immature animals.
PL
Artykuł opisuje projekt stanowiska służącego do automatycznego karmienia podlotów. W sezonie lęgowym ośrodki rehabilitacji dzikich zwierząt zmagają się ze zwiększoną liczbą pacjentów, z których nawet do 20% stanowią ptaki. Mimo małych rozmiarów wymagają tyle samo opieki co pozostałe zwierzęta – w przypadku podlotów głównym zadaniem jest regularne i częste karmienie co jest niemożliwe do zrealizowania przez ograniczony zespół. Zaprojektowany robot ma za zadanie rozwiązać ten problem, wspomóc pracowników i zmniejszyć śmiertelność młodych lub chorych ptaków.
4
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Microseismic data which are recorded by near-surface sensors are usually drawn in strong random noise. The reliability and accuracy of arrivals picking, source localization, microseismic imaging and source mechanism inversion are often afected by the random noise. Random noise attenuation is important for microseismic data processing. We introduce a novel deep convolutional neural network-based denoising approach to attenuate random noise from 1D microseismic data. The approach predicts the noise (the diference between the noisy microseismic data and clean microseismic data) as output instead of directly outputing the denoised data that is called residual learning. With the residual learning strategy, the approach removes the clean data in the hidden layers. In other words, the approach learns from the random noise prior instead of an explicit data prior. Then, the denoised data are reconstructed via subtracting noise from noisy data. Compared with other commonly used denoising methods, the proposed method performs its efectiveness and superiority by experimental tests on synthetic and real data. The model is trained with synthetic data and applied on real data. The results show that random noise in the synthetic and real data can been removed. However, some noise still remains in the real data case. The reason for that may be the approach can only remove random noise nor the correlated noise. Other methods are needed to be applied to remove the correlated noise to obtain higher performance after that approach when the real microseismic data which contain both correlated noise and random noise.
5
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Environmental sound classification has received more attention in recent years. Analysis of environmental sounds is difficult because of its unstructured nature. However, the presence of strong spectro-temporal patterns makes the classification possible. Since LSTM neural networks are efficient at learning temporal dependencies we propose and examine a LSTM model for urban sound classification. The model is trained on magnitude mel-spectrograms extracted from UrbanSound8K dataset audio. The proposed network is evaluated using 5-fold cross-validation and compared with the baseline CNN. It is shown that the LSTM model outperforms a set of existing solutions and is more accurate and confident than the CNN.
6
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
The purpose of the article is to investigate whether the implementation of a CNN consisting of several layers will allow the effective detection of epileptic seizures. For the research, a publicly available database registered for 4 dogs and 8 people was used. The 1-second iEEG recordings were marked by a neurophysiologist as interictal, early seizure, and seizure. A CNN was trained for each patient individually. Coefficients such as precision, AUC, sensitivity, and specificity were calculated, and the results were compared with the best algorithms published in one of the contests on the Kaggle platform. The average accuracy for the recognition of seizures using CNN is 0.921, the sensitivity is 0.850, and the specificity is 0.927. For early seizures these values are 0.825, 0.782, and 0.828, respectively.
PL
Celem artykułu było zbadanie czy zastosowanie sieci CNN, składającej się z kilku warstw umożliwi skuteczną detekcję napadów epileptycznych. Na użytek badań zastosowano ogólnodostępną bazę danych zarejestrowaną dla 4 psów oraz 8 ludzi. Jednosekundowe zapisy sygnału iEEG zostały oznaczone przez neurofizjologa jako: międzynapadowe, wczesnonapadowe oraz napadowe. Zaproponowano strukturę sieci CNN, a następnie wytrenowano ją dla każdego pacjenta indywidualnie. Zostały wyliczone współczynniki takie jak: trafność, AUC, czułość, specyficzność. Następnie wyniki zostały porównane do osiągniętych w najlepszych algorytmach opublikowanych w konkursie na platformie Kaggle. Średnia skuteczność rozpoznawania napadów z wykorzystaniem sieci CNN wynosi 0.921, czułość 0.850, a specyficzność 0.927. Dla okresów wczesnonapadowych wartości te wynoszą odpowiednio 0.825, 0.782 i 0.828.
7
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Vision is the most essential sense for humans. Vision impairment is one of the most problems faced by the elderly. Blindness is a state of lacking the visual perception due to physiological or neurological factors. This paper presents a detailed systematic and critical review that explores the available literature and outlines the research efforts that have been made in relation to movements of the blind and proposes an integrated guidance system involving computer vision and natural language processing. An advanced Smartphone equipped with language intelligence capabilities is attached to the blind person to capture surrounding images and is then connected to a central server equipped with a faster region convolutional neural network algorithm image detection algorithm to recognize images and multiple obstacles. The server sends the results back to the Smartphone which are then converted into speech for the blind person's guidance.
8
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Miao embroidery of the southeast area of Guizhou province in China is a kind of precious intangible cultural heritage, as well as national costume handcrafts and textiles, with delicate patterns that require exquisite workmanship. There are various skills to make Miao embroidery; therefore, it is difficult to distinguish the categories of Miao embroidery if there is a lack of sufficient knowledge about it. Furthermore, the identification of Miao embroidery based on existing manual methods is relatively low and inefficient. Thus, in this work, a novel method is proposed to identify different categories of Miao embroidery by using deep convolutional neural networks (CNNs). Firstly, we established a Miao embroidery image database and manually assigned an accurate category label of Miao embroidery to each image. Then, a pre-trained deep CNN model is fine-tuned based on the established database to learning a more robust deep model to identify the types of Miao embroidery. To evaluate the performance of the proposed deep model for the application of Miao embroidery categories recognition, three traditional non-deep methods, that is, bag-of-words (BoW), Fisher vector (FV), and vector of locally aggregated descriptors (VLAD) are employed and compared in the experiment. The experimental results demonstrate that the proposed deep CNN model outperforms the compared three non-deep methods and achieved a recognition accuracy of 98.88%. To our best knowledge, this is the first one to apply CNNs on the application of Miao embroidery categories recognition. Moreover, the effectiveness of our proposed method illustrates that the CNN-based approach might be a promising strategy for the discrimination and identification of different other embroidery and national costume patterns.
This article presents an innovative proposal for estimating the distance between an autonomous vehicle and an object in front of it. Such information can be used, for example, to support the process of controlling an autonomous vehicle. The primary source of information in research is monochrome stereo images. The images were made in compliance with the laws of the canonical order. The developed convolutional neural network model was used for the estimation. A proprietary dataset was developed for the experiments. The analysis was based on the phenomenon of disparity in stereo images. As a result of the research, a correctly trained model of the CNN network was obtained in six variants. High accuracy of distance estimation was achieved. This publication describes an original proposal for a hybrid blend of digital image analysis, stereo-vision, and deep learning for engineering applications.
10
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Cardiovascular disease such as ischemic heart disease and stroke are the most dangerous diseases in the WHO stats. Myocardial Infarction (MI), an ischemic disease of the heart, occurs due to a sudden blockage in the coronary arteries that supply blood to the heart causing a lack of oxygen and nutrients. The MI patient needs continuous monitoring using electrocardiography, the latter is always at risk of developing complications such as arrhythmias. As a solution, we proposed an internet of things (IoT) based ECG system for monitoring, the application layer was reserved for the detection of MI and arrhythmias using artificial intelligence so that the patients can keep being monitored even outside health facilities. For this purpose, this paper proposed a hybrid Convolutional Neural Network (CNN) – Bidirectional Long Short-Term Memory (BiLSTM) approach to classify ECG signals and evaluates its performance by using raw and preprocessed data, and comparing the results to related studies. Two datasets have been used in this classification. The results were promising, the model has scored 99.00% accuracy on raw data classifying 4 classes, and 99.73% accuracy on a larger preprocessed data for 3 classes classification. The proposed model is suitable to serve in our monitoring task.
PL
Choroby układu krążenia, takie jak choroba niedokrwienna serca i udar mózgu, to najniebezpieczniejsze choroby według statystyk WHO. Zawał mięśnia sercowego (MI), choroba niedokrwienna serca, występuje w wyniku nagłego zablokowania tętnic wieńcowych dostarczających krew do serca, powodując brak tlenu i składników odżywczych. Pacjent po zawale serca wymaga ciągłego monitorowania za pomocą elektrokardiografii, gdyż zawsze istnieje ryzyko wystąpienia powikłań w postaci arytmii. Jako rozwiązanie zaproponowano system monitorowania EKG oparty na Internecie rzeczy (IoT), którego warstwa aplikacyjna została zarezerwowana do wykrywania zawału serca i arytmii z wykorzystaniem sztucznej inteligencji, dzięki czemu pacjenci mogą być monitorowani nawet poza placówkami służby zdrowia. W tym celu w artykule zaproponowano hybrydowe podejście oparte na konwolucyjnej sieci neuronowej (CNN) i dwukierunkowej długiej pamięci krótkotrwałej (BiLSTM) do klasyfikacji sygnałów EKG i oceny ich działania przy użyciu surowych i wstępnie przetworzonych danych oraz porównaniu wyników z powiązanymi badaniami. W tej klasyfikacji wykorzystano dwa zbiory danych. Wyniki były obiecujące, model uzyskał 99,00% dokładności w przypadku surowych danych klasyfikujących 4 klasy i 99,73% dokładności w przypadku większych, wstępnie przetworzonych danych w przypadku klasyfikacji 3 klasy. Zaproponowany model nadaje się do realizacji postawionego zadania monitorowania.
In this paper we tackle the problem of vehicle re-identification in a camera network utilizing triplet embeddings. Re-identification is the problem of matching appearances of objects across different cameras. With the proliferation of surveillance cameras enabling smart and safer cities, there is an ever-increasing need to re-identify vehicles across cameras. Typical challenges arising in smart city scenarios include variations of viewpoints, illumination and self occlusions. Most successful approaches for re-identification involve (deep) learning an embedding space such that the vehicles of same identities are projected closer to one another, compared to the vehicles representing different identities. Popular loss functions for learning an embedding (space) include contrastive or triplet loss. In this paper we provide an extensive evaluation of triplet loss applied to vehicle re-identification and demonstrate that using the recently proposed sampling approaches for mining informative data points outperform most of the existing state-of-the-art approaches for vehicle re-identification. Compared to most existing state-of-the-art approaches, our approach is simpler and more straightforward for training utilizing only identity-level annotations, along with one of the smallest published embedding dimensions for efficient inference. Furthermore in this work we introduce a formal evaluation of a triplet sampling variant (batch sample) into the re-identification literature. In addition to the conference version [24], this submission adds extensive experiments on new released datasets, cross domain evaluations and ablation studies.
Coraz częściej w przetwarzaniu i analizie obrazu termowizyjnego stosuje się uczenie maszynowe w kontekście rozpoznawania i identyfikacji obiektów. Niniejszy artykuł prezentuje wyniki badania wpływu augmentacji danych na efektywność uczenia maszynowego w kontekście analizy obrazów termowizyjnych. Wykorzystano publicznie dostępny zbiór danych FLIR ADAS, który zawiera etykietowane obrazy termowizyjne i obrazy z zakresu światła widzialnego. Badanie skupia się na wykorzystaniu konwolucyjnych sieci neuronowych, w szczególności architektury YOLOv8, do detekcji obiektów na obrazach termowizyjnych. Zbiór danych FLIR ADAS został poddany wstępnemu przetwarzaniu i augmentacji, a następnie wykorzystany do trenowania dwóch różnych modeli: jednego opartego na obrazach w skali szarości i drugiego - opartego na obrazach z zastosowaną paletą kolorów. Wyniki eksperymentu wskazują, że augmentacja danych może znacząco wpłynąć na efektywność modelu, a zastosowanie kolorów w obrazach termowizyjnych może w pewnych sytuacjach dodatkowo zwiększyć dokładność detekcji.
EN
Machine learning is increasingly being applied in the processing and analysis of thermal imaging for object recognition and identification. This article presents a study on the impact of data augmentation on the effectiveness of machine learning in the context of thermal image analysis. The publicly available FLIR ADAS dataset, which includes labeled thermal and visible light images, was used for this study. The research focuses on the use of Convolutional Neural Networks, specifically the YOLOv8 architecture, for object detection in thermal images. As part of the study, the FLIR ADAS dataset underwent preprocessing and augmentation, and was then used to train two different models: one based on grayscale images and another using a color palette. The results of the experiment indicate that data augmentation can significantly impact the effectiveness of the model, and the use of colors in thermal images may, in certain situations, further improve detection accuracy.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.