Multimodal biometric can address some of the restrictions of the unimodal biometric by the combination of multi-biometric information for the same person in the decision-making operation. In this regard, the development in deep learning technologies has been employed in the multimodal biometric system. The deep learning techniques in object detection, such as face recognition and voice identification, are become more popular. Meeting Attendance checking carry out a very important role in meeting management. The manual checking attendance such as calling names or sign-in sheets is time-consuming. Face recognition and voice identification can be applied for attendance checks based on deep learning techniques. This paper presents an automatic multimodal biometric attendance checking system using Convolutional Neural Networks (CNN). The system uses a known dataset for the meeting participants, to train the CNN algorithm with a known set of input data. A computer with a high-quality webcam is used during the meeting attendance check, the system detects the attender face and voice then compares it with the known dataset, whenever matched, the attendee’s name will be recorded in an excel file. The final result is an excel file with all attendance names. The result of the system shows that the proposed CNN architectures attained a high accuracy. Furthermore, this result could be beneficial in student attendance records, particularly in surveillance and person identification systems.
Biometria multimodalna może rozwiązać niektóre ograniczenia biometrii unimodalnej poprzez połączenie informacji multibiometrycznych dotyczących tej samej osoby w operacji podejmowania decyzji. W związku z tym rozwój technologii głębokiego uczenia się został wykorzystany w multimodalnym systemie biometrycznym. Coraz popularniejsze stają się techniki uczenia głębokiego w wykrywaniu obiektów, takie jak rozpoznawanie twarzy i identyfikacja głosu. Sprawdzanie obecności na spotkaniach pełni bardzo ważną rolę w zarządzaniu spotkaniami. Ręczne sprawdzanie obecności, takie jak wywoływanie nazwisk lub arkusze logowania, jest czasochłonne. Rozpoznawanie twarzy i identyfikacja głosu mogą być stosowane do sprawdzania obecności w oparciu o techniki głębokiego uczenia się. W artykule przedstawiono automatyczny multimodalny biometryczny system sprawdzania obecności z wykorzystaniem Convolutional Neural Networks (CNN). System wykorzystuje znany zbiór danych dla uczestników spotkania, aby wytrenować algorytm CNN ze znanym zbiorem danych wejściowych. Podczas sprawdzania obecności na spotkaniu używany jest komputer z wysokiej jakości kamerą internetową, system wykrywa twarz i głos uczestnika, a następnie porównuje je ze znanym zestawem danych, po dopasowaniu nazwisko uczestnika zostanie zapisane w pliku Excel. Ostatecznym wynikiem jest plik Excela ze wszystkimi nazwami obecności. Wynik działania systemu pokazuje, że proponowane architektury CNN osiągnęły wysoką dokładność. Ponadto wynik ten może być korzystny w rejestrach obecności uczniów, zwłaszcza w systemach nadzoru i identyfikacji osób.
W artykule przedstawiono zaprojektowany w środowisku Matlab interfejsu użytkownika, służący do badania wpływu szumów i zakłóceń na skuteczność automatycznego systemu rozpoznawania mówcy.
The article presents the user interface, designed in the Matlab environment, used to study the impact of noise and interference on the effectiveness of the automatic speaker recognition system.
W pracy przedstawiono wpływ wybranych parametrów sieci na jakość usługi transmisji multimedialnej w systemie WTi. Do tego celu wykorzystano dedykowane oprogramowanie do testowania Video Quality Monitor oraz emulator sieci WAN LANforge, w którym dokonywano zmian wartości tychże parametrów. Ponadto scharakteryzowano krótko badany system oraz jego właściwości funkcjonalne. W badaniach skupiono się również na badaniu wskaźników jakości obrazu, takich jak rozmycie, efekty blokowe czy kontrast. Wszystkie badania przeprowadzono w oparciu o wideokonferencję w środowisku testowym WTi.
The paper presents the impact of selected network parameters on the quality of multimedia transmission service in WTi system. For this purpose, dedicated testing software Video Quality Monitor and LANforge WAN emulator were used, in which the values of these parameters were changed. In addition, the tested system and its functional properties were briefly characterized. The research also focused on examining image quality indicators such as blur, block effects and contrast. All tests were conducted on the basis of videoconference in the WTi test environment.
W referacie przedstawiono przegląd rozwiązań wykorzystywanych w bankach do weryfikacji tożsamości klientów. Ponadto zawarto opis metod biometrycznych aktualnie wykorzystywanych w placówkach bankowych wraz z odniesieniem do skuteczności i wygody korzystania z dostępnych rozwiązań. Zaproponowano rozszerzenie zakresu wykorzystania technologii biometrycznych, wskazując kierunek rozwoju systemów bezpieczeństwa dla poprawy dostępu do usług i zwiększenia bezpieczeństwa transakcji. Referat prezentuje założenia będące podstawą zainicjowania projektu IDENT, realizowanego w ramach Programu Badań Stosowanych NCBR, który ma na celu poprawę skuteczności weryfikacji klientów bankowych z użyciem technologii biometrycznych.
An overview of customers’ identity verification solutions used in banks is presented. A review of biometric methods currently seen in bank outlets with a reference to their effectiveness and convenience is provided. An extension of the current state of technology in the context of biometrics applications is proposed, indicating a direction of the development of authentication systems to improve the secure access to banking services. Assumptions forming the basis for initiating the project IDENT are included. The project is carried-out under the Applied Research Program NCBiR, aiming to improve the effectiveness of the verification of bank customers employing biometric technology.
Current statistical methods and technologies used for speaker identification via dynamic formant frequency often involve classic multivariate analyses that must meet a number of criteria in order to be considered trustworthy. The authors propose more advanced classification techniques, including artificial neural networks. Owing to iterative learning algorithms, neural networks can be trained to detect highly complex, nonlinear relations hidden in input data. This study specifically considers feed-forward multilayer perceptron and radial basic function network models. The investigation involves an analysis of the Polish vowel (stressed or unstressed) in selected contexts described by the four lowest formant frequencies. Results indicate high accuracy of neural networks as a speaker identification tool reaching up to 100%. In addition, the authors have determined that the accuracy of classification is similar when based on a single context to when input data are aggregated over several different contexts.
In this paper results of experiments with the prototype speaker recognition system based on Gaussian mixture model (GMM) and mel-cepstral coefficients (MFCCs) are presented for Polish Corpora database [4]. The minimum amount of data to train a reliable model and the minimum length of a signal to recognize speakers have been determined. Furthermore, the speaker discriminative properties of Polish phonemes have been investigated. The phonemes with the best speaker discriminative properties have been determined.
Przedstawiono eksperymenty identyfikacji mówcy za pomocą prototypowego systemu rozpoznawania mowy na podstawie sumy rozkładów normalnych (GMM) i współczynników mel-cepstralnych, (MFCC), uzyskanych z wykorzystaniem polskojęzycznej bazy Corpora [4]. W eksperymentach zbadano minimalną ilość danych potrzebnych do wytrenowania wiarygodnego modelu oraz długość sygnału wymaganą do poprawnej klasyfikacji. Ponadto przebadano dyskryminacyjne właściwości polskich fonemów do identyfikacji mówcy. Wyodrębniono fonemy, które w największym stopniu przyczyniają się do poprawnego rozpoznawania.
In this paper, text-independent speaker recognition method based on Wavelet Transform and melcepstrum is presented. The results of experiments point the best parameters of Wavelet Transform for speaker identification, and can be useful for design speaker identification systems. This kind method of person identification is useful in services such as banking by telephone, access authorization to resources and for forensic purpose.
The purpose of this work is to explain the theoretical issues and implementational techniques related to the fascinating field of speech recognition. The topic of discussion are focused on some of the well-established and widely used speech coding standards, required to speech recognition and speaker identification. By studying the most successful standards and understanding their principles, performance and limitations, it is possible to apply a particular technique to a given situation according to the underlying constraints - with the ultimate goal being the development of next-generation algorithms, with improvements in all aspects. This document contains own created methods to determine the beginning and end of isolated words in audio speech. To extraction of the audio features of person's speech, in this work it was applied the mechanism of cepstral speech analysis. Finally, the paper will show results of speech coding.
