Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 15

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  redukcja wymiarowości
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
EN
Depression is one of the primary causes of global mental illnesses and an underlying reason for suicide. The user generated text content available in social media forums offers an opportunity to build automatic and reliable depression detection models. The core objective of this work is to select an optimal set of features that may help in classifying depressive contents posted on social media. To this end, a novel multi-objective feature selection technique (EFS-pBGSK) and machine learning algorithms are employed to train the proposed model. The novel feature selection technique incorporates a binary gaining-sharing knowledge-based optimization algorithm with population reduction (pBGSK) to obtain the optimized features from the original feature space. The extensive feature selector (EFS) is used to filter out the excessive features based on their ranking. Two text depression datasets collected from Twitter and Reddit forums are used for the evaluation of the proposed feature selection model. The experimentation is carried out using naive Bayes (NB) and support vector machine (SVM) classifiers for five different feature subset sizes (10, 50, 100, 300 and 500). The experimental outcome indicates that the proposed model can achieve superior performance scores. The top results are obtained using the SVM classifier for the SDD dataset with 0.962 accuracy, 0.929 F1 score, 0.0809 log-loss and 0.0717 mean absolute error (MAE). As a result, the optimal combination of features selected by the proposed hybrid model significantly improves the performance of the depression detection system.
EN
The individual identification of communication emitters is a process of identifying different emitters based on the radio frequency fingerprint features extracted from the received signals. Due to the inherent non-linearity of the emitter power amplifier, the fingerprints provide distinguishing features for emitter identification. In this study, approximate entropy is introduced into variational mode decomposition, whose features performed in each mode which is decomposed from the reconstructed signal are extracted while the local minimum removal method is used to filter out the noise mode to improve SNR. We proposed a semi-supervised dimensionality reduction method named exponential semi-supervised discriminant analysis in order to reduce the high-dimensional feature vectors of the signals, and LightGBM is applied to build a classifier for communication emitter identification. The experimental results show that the method performs better than the state-of-the-art individual communication emitter identification technology for the steady signal data set of radio stations with the same plant, batch and model.
EN
Matrix factorization is at the heart of many machine learning algorithms, for example, dimensionality reduction (e.g. kernel PCA) or recommender systems relying on collaborative filtering. Understanding a singular value decomposition (SVD) of a matrix as a neural network optimization problem enables us to decompose large matrices efficiently while dealing naturally with missing values in the given matrix. But most importantly, it allows us to learn the connection between data points’ feature vectors and the matrix containing information about their pairwise relations. In this paper we introduce a novel neural network architecture termed similarity encoder (SimEc), which is designed to simultaneously factorize a given target matrix while also learning the mapping to project the data points’ feature vectors into a similarity preserving embedding space. This makes it possible to, for example, easily compute out-of-sample solutions for new data points. Additionally, we demonstrate that SimEc can preserve non-metric similarities and even predict multiple pairwise relations between data points at once.
EN
Parkinson's Disease (PD) is a progressive degenerative disease of the nervous system that affects movement control. Unified Parkinson's Disease Rating Scale (UPDRS) is the baseline assessment for PD. UPDRS is the most widely used standardized scale to assess parkinsonism. Discovering the relationship between speech signal properties and UPDRS scores is an important task in PD diagnosis. Supervised machine learning techniques have been extensively used in predicting PD through a set of datasets. However, the most methods developed by supervised methods do not support the incremental updates of data. In addition, the standard supervised techniques cannot be used in an incremental situation for disease prediction and therefore they require to recompute all the training data to build the prediction models. In this paper, we take the advantages of an incremental machine learning technique, Incremental support vector machine, to develop a new method for UPDRS prediction. We use Incremental support vector machine to predict Total-UPDRS and Motor-UPDRS. We also use Non-linear iterative partial least squares for data dimensionality reduction and self-organizing map for clustering task. To evaluate the method, we conduct several experiments with a PD dataset and present the results in comparison with the methods developed in the previous research. The prediction accuracies of method measured by MAE for the Total-UPDRSand Motor-UPDRS were obtained respectively MAE = 0.4656 and MAE = 0.4967. The results of experimental analysis demonstrated that the proposed method is effective in predicting UPDRS. The method has potential to be implemented as an intelligent system for PD prediction in healthcare.
5
EN
Both the classic and the convex NMF (Nonnegative Matrix Factorization) yield a parsimonious, lower rank representation of the data. They may yield also an indication on a soft clustering of the data vectors, We analyze two sets of diagnostic data, wine and sonar, for which the classic and convex nonnegative matrix factorization (NMF) behave differently when indicating group membership of the data vectors. The data are given as mxn matrices, with columns denoting objects, and rows - their attributes. We assess the clustering by multivariate graphical visualization methods.
PL
Dla wybranych danych ’wine’ i ’sonar’ znajdujemy – za pomoc¸a NMF (nieujemna faktoryzacja macierzy) – ukrytą strukturę tych macierzy oraz wskazania co do klasteryzacji obiektów przedstawianych w kolumnach danych. Otrzymaną klasteryzację potwierdzamy trzema metodami wielozmiennej wizualizacji wektorów danych.
6
Content available remote Tissue Classification Using Efficient Local Fisher Discriminant Analysis
EN
A novel scatter-difference-based local Fisher discriminant analysis(SDLFDA) algorithm for tissue classification is proposed in this paper. SDLFDA explicitly considers the local manifold structure and interclass discrimination in gene expression data space. By using SDLFDA, each gene expression data can be projected into a lower-dimensional discriminative feature space. In addition, SDFLDA reduces the computational cost through QR decomposition. Experimental results demonstrate the effectiveness and efficiency of the proposed SDLFDA algorithm.
PL
W artykule przedstawiono algorytm analizy lokalnym wyróżnikiem Fisher’a opartym na różnicach rozproszenia (ang. SDLFDA), służący do klasyfikacji tkanek. Proponowana metoda pozwala na zmniejszenie wymiarowości przestrzeni wyróżnika, określającego dane GXD, a także redukcję kosztów obliczeniowych dzięki dekompozycji QR. Wyniki badań eksperymentalnych potwierdzają skuteczność i sprawność algorytmu.
7
Content available remote Generalized Maximal Margin Discriminant Analysis for Speech Emotion Recognition
EN
A novel speech emotion recognition method based on the generalized maximum margin discriminant analysis (GMMDA) method is proposed in this paper. GMMDA is a multi-class extension of our proposed two-class dimensionality reduction method based on maximum margin discriminant analysis (MMDA), which utilizes the normal direction of optimal hyperplane of linear support vector machine (SVM) as the projection vector for feature extraction. To generate an optimal set of projection vectors from MMDA-based dimensionality reduction method, we impose orthogonal restrictions on the projection vectors and then recursively solve the problem. Moreover, to deal with the multi-class speech emotion recognition problem, we present two recognition schemes based on our proposed dimensionality reduction approach. One is using “one-versus-one" strategy for multi-class classification, and the other one is to compose the projection vectors of each pair of classes to obtain a transformation matrix for the multi-class dimensionality reduction.
PL
W artykule przedstawiono metodę analizy emisji głosu pod kątem rozpoznawania emocji. Rozwiązanie bazuje na analizie dyskryminacyjnej maksymalnego marginesu GMMDA.
EN
The method of change (or anomaly) detection in high-dimensional discrete-time processes using a multivariate Hotelling chart is presented. We use normal random projections as a method of dimensionality reduction. We indicate diagnostic properties of the Hotelling control chart applied to data projected onto a random subspace of Rn. We examine the random projection method using artificial noisy image sequences as examples.
PL
Prognozowanie obciążeń w systemie elektroenergetycznym jest ważnym problemem praktycznym zarówno z technicznego jak i ekonomicznego punktu widzenia. W małych systemach problem ten jest stosunkowo trudny do rozwiązania ze względu na dużą zmienność przebiegu obciążenia. Do jego rozwiązania niezbędne jest zastosowanie dobrego predykatora i wyselekcjonowanie cech procesu wpływających na prognozę. Artykuł przedstawia dwie metody selekcji cech – algorytm genetyczny oraz algorytmy redukcji wymiarowości. Jako predykator użyta była maszyna wektorów podtrzymujących działająca w trybie regresji (SVR). Zaprezentowano i omówiono uzyskane wyniki na rzeczywistych danych pomiarowych.
EN
Load forecasting task of small energetic region is a difficult problem due to high variability of power consumption. The accurate forecast of the power in the next hours is very important from the economic point of view. The most important problems in prediction are the choice of predictor and selection of features. Two methods of features selection was presented – simple selection using of genetic algorithm and dimensionality reduction methods for creating new features from many available measured data. As a predictor the Support Vector Machine working in regression mode (SVR) was chosen. The load forecasting results with SVR are presented and discussed.
PL
Oszacowanie selektywności zapytania jest istotnym elementem procesu uzyskiwania optymalnego planu wykonania tego zapytania. Wyznaczenie selektywności wymaga użycia nieparametrycznego estymatora rozkładu wartości atrybutu, na ogół histogramu. Wykorzystanie wielowymiarowego histogramu jako reprezentacji łącznego rozkładu wielowymiarowego jest nieekonomiczne z powodu zajętości pamięciowej takiej reprezentacji. W artykule zaproponowano nową metodę, nazwaną HPCA, oszczędną pod względem zajętości, gdzie rozkład dwuwymiarowy w przybliżeniu może być reprezentowany w postaci zbioru histogramów jednowymiarowych. Metoda HPCA opiera się na transformacji Hougha i metodzie analizy składowych głównych. Dzięki HPCA można uzyskiwać dokładniejsze oszacowania selektywności zapytań niż te, otrzymane przy wykorzystaniu standardowych 2-wymiarowych histogramów.
EN
Query selectivity estimation is an important element of obtaining optimal query execution plan. Selectivity estimation requires a nonparametric estimator of attribute values distribution – commonly a histogram. Using a multidimensional histogram as a representation of a joint multidimensional distribution of attributes values is not space-efficient. The paper introduces a new space-efficient method called HPCA, where a 2-dimesional distribution may be represented by a set of 1-dimensional histograms. HPCA is based on Hough transform and principal component analysis method. Using HPCA commonly gives more accurate selectivity estimation than standard methods based on a 2-dimensional histogram.
11
Content available remote Motion capture as Data Source for Gait-based Human Identification
EN
The authors present results of the research aiming at human identification based on tensor representation of the gait motion capture data. High-dimensional tensor samples were reduced by means of the multilinear principal component analysis (MPCA). For the purpose of classification the following methods from the WEKA software were used: k Nearest Neighbors (kNN), Naive Bayes, Multilayer Perceptron, and Radial Basis Function Network. The maximum value of the correct classification rate (CCR) was achieved for the classifier based on the multilayer perceptron.
PL
Autorzy prezentują wyniki badań nad identyfikacją osób na podstawie danych chodu uzyskanych za pomocą techniki motion capture. Redukcję wymiarowości przeprowadzono stosując algorytm wieloliniowej analizy składowych głównych (MPCA), który operuje na tensorowej reprezentacji danych. Dla potrzeb identyfikacji osób zastosowano szereg metod klasyfikacji dostępnych w pakiecie WEKA uzyskując największą skuteczność dla perceptronu wielowarstwowego. (Technika motion capture jako źródło danych dla identyfikacji osób na podstawie chodu).
12
Content available remote Curvilinear dimensionality reduction of data for gearbox condition monitoring
EN
Our aim is to explore the CCA (Curvilinear Component Analysis) as applied to condition monitoring of gearboxes installed in bucket wheel excavators working in field condition, with the general goal to elaborate a probabilistic model describing the condition of the machine gearbox. To do it we need (a) information on the shape (probability distribution) of the analyzed data, and (b) some reduction of dimensionality of the data (if possible). We compare (for real set of data gathered in field conditions) the 2D representations yielded by the CCA and PCA methods and state that they are different. Our main result is: The analyzed data set describing the machine in a good state is composed of two different subsets of different dimensionality thus can not be modelled by one common Gaussian distribution. This is a novel statement in the domain of gearbox data analysis.
PL
W pracy przedstawiono wyniki prac nad zastosowaniem CCA (Curvilinear Component Analysis - analiza komponentów krzywoliniowych) do nieliniowej redukcji wymiarowości danych wykorzystywanych do diagnostyki przekładni planetarnej stosowanej w układach napędowych koparki kołowej. Do oceny stanu technicznego niezbędne jest zbudowanie modelu pobabilistycznego zbioru cech diagnostycznych. Modelowanie danych wielowymiarowych (gęstości prawdopodobieństwa) dla wszystkich wymiarów jest trudne, i ze względu na istniejącą redundancję, nieuzasadnione, dlatego prowadzi się badania nad redukcją wymiarowości zbiorów cech diagnostycznych. W artykule porównujemy dwuwymiarowe reprezentacje zbioru cech uzyskane metodami CCA i PCA (analiza składowych głównych) wykazując różnice w uzyskanych wynikach. Głównym wynikiem pracy jest identyfikacja w przestrzeni cech diagnostycznych dla przekładni w stanie prawidłowym dwóch podzbiorów danych o różnej rzeczywistej wymiarowości zatem nie mogą być one modelowane za pomocą jednego modelu o charakterystyce gaussowskiej. Interpretacja tych podzbiorów wiąże się z występowaniem różnych obciążeń maszyny.
EN
This article shows the limitation of the usage of dimensionality reduction methods. For this purpose three algorithms were analyzed on the real medical data. This data are multispectral images of human skin labeled as tumor or non-tumor regions. The classification of new data required the special algorithm of new data mapping that is also described in the paper. Unfortunately, the final conclusion is that this kind of local embedding algorithms should not be recommended for this kind of analysis and prediction.
14
Content available remote Knowledge discovery in data using formal concept analysis and random projections
EN
In this paper our objective is to propose a random projections based formal concept analysis for knowledge discovery in data. We demonstrate the implementation of the proposed method on two real world healthcare datasets. Formal Concept Analysis (FCA) is a mathematical framework that offers a conceptual knowledge representation through hierarchical conceptual structures called concept lattices. However, during the design of a concept lattice, complexity plays a major role.
EN
The paper presents a problem of reducing dimensionality of data structured in three-dimensional matrices, like true-color RGB digital images. In this paper we consider an application of Principal Component Analysis to one of the most typical image processing tasks, namely image compression. Unlike the cases reported in the literature [5,11,12] the compression being an application of three-dimensional PCA is performed on image blocks organized as three-dimensional structures (see Fig.1). In the first step, an image, which is stored as a three-dimensional matrix is decomposed into non-overlapping 3D blocks. Then each block is projected into lower-dimensional representation (1D or 2D) according to the chosen strategy: concatenation of rows, concatenation of columns, integration of rows, integration of columns [13] and concatenation of slices. Next, the blocks are centered (subtraction of mean value) and covariance matrices are being calculated. Finally, the eigenproblem is being solved on the covariance matrices giving a set of eigenvalues and eigenvectors, which are a base for creation of transformation matrices. Each block is then multiplied by respective transformation functions created from truncated eigenvectors matrices giving its reduced representation. The experimental part of the paper shows the comparison of strategies of calculating covariance matrices in the aspect of image reconstruction quality (evaluated by Peak Signal-to-Noise Ratio).
PL
W niniejszym artykule przedstawiono problem redukcji wymiarowości danych zorganizowanych w trójwymiarowych macierzach za pomocą metody Analizy Głównych Składowych (PCA). W przeciwieństwie do znanych metod prezentowanych w literaturze [5,11,12] wybrane metody opisane w pracy zakładają wykonanie obliczeń dla danych zagregowanych, bez ich rozdzielania na kanały. W pierwszym kroku algorytmu obraz kolorowy (macierz trójwymiarowa) jest dekomponowany na niezależne sub-bloki (3D). Następnie każdy z bloków jest poddawany projekcji 1D lub 2D zgodnie z przyjętą strategią: poprzez konkatenację wierszy, konkatenację kolumn, integrację wierszy, integracje kolumn lub konkatenację warstw. W kolejnym kroku są one centrowane i obliczane są odpowiednie macierze kowariancji. Następnie obliczany jest ich rozkład, który służy do stworzenia macierzy transformacji 3D PCA. Za ich pomocą przeprowadzana jest redukcja wymiarowości danych obrazowych. W przypadku omawianym w niniejszej pracy kompresji poddany jest obraz RGB i oceniana jest jakość rekonstrukcji (PSNR) jako funkcja liczby pozostawionych współczynników przekształcenia.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.