Jeden z rodzajów eksploracji danych – klasyfikacja – może zostać użyty do prognozowania zmian cen na giełdzie. W najprostszym scenariuszu możemy klasyfikować dane giełdowe do jednej z dwóch klas: wzrostów bądź spadków. W standardowym podejściu przy budowie klasyfikatora maksymalizowana jest ilość prawidłowo sklasyfikowanych obiektów, jednak dla danych giełdowych lepszym wyznacznikiem jakości modelu może być osiągnięty zysk. W artykule tym opisano klasyfikator liniowy oparty o wypukłe i odcinkowo-liniowe funkcje kary (CPL) maksymalizujący wartość zysku.
XX
One kind of data mining – classification – can be used for purpose of predicting changes in market prices. In the simplest scenario we can classify every daily market move as one of two classes: increases or decreases. The standard approach to building a classifier is to optimize correctly classified instances (market moves). However, in the case of predicting the stock market, a better measure of model quality could be a potential profit. This article describes such an approach (cost-sensitive classification) for a linear classifier based on a convex and piecewise-linear penalty function (CPL).
Stocks, indexes, commodities, and precious metals price prediction is a difficult task where many approaches are used: traditional technical analysis, econometric time series or modern data mining techniques. One particular data mining technique - linear classifier is described in this article. Prediction based on linear classifier is done using current market state, which can be described by various data sets (attributes, features). The simplest form of this model could use data from yesterday’s price movement. Advanced models are using more historical price movements. Very advanced models include various historical price movements for indexes from other countries and other instruments like currencies, commodities, etc. Using more features requires extended time to estimate model parameters.We build the linear classifier models by the minimisation of a convex and piecewise-linear function which is very efficient comparing to other functions. Computational costs for building the model are similar to linear programming. We also use feature selection method called RLS. Those techniques allow us to explore data with many features. Four scenarios are considered, in each scenario a different amount of market data is used to create a model. In the simplest scenario only one day’s change in price is taken, in the most complicated one 421 historical prices of 43 different instruments are taken. Best results were achieved by using middle range of 52 attributes. In this scenario, the model was right 53.19% times. Meaning the directions of daily change in S&P500 index (up or down) were predicted correctly. This doesn’t seem a lot, but if those predictions would have been used for investing, they could produce a total profit of 77% in the tested time period from November 2008 to March 2011 (2 years 4 months), or an average of 28% per year.
PL
Prognozowanie cen akcji i wartośsci indeksów giełdowych jest zadaniem trudnym, dla którego użzywanych jest wiele różnych podejść. Artykuł ten przedstawia wprowadzenie do pewnych standardowych technik. Przedstawiona została tradycyjna analiza techniczna, ekonometryczne modele szeregów czasowych oraz współczesne metody eksploracji danych. Jedna z metod eksploracji danych, klasyfikator liniowy został przedstawiony bardziej szczegółowo. Został on użyty w przeprowadzonym eksperymencie do prognozowania wartości indeksu giełdy amerykańskiej. Prognozowanie takie oparte jest o dane opisujące obecny stan giełdy. Stan giełdy można opisać różną ilością danych (atrybutów, cech). W najprostszym przypadku może to być tylko jednodniowa zmiana ceny prognozowanego indeksu. W bardziej rozbudowanym modelu można użyć wielu cen historycznych. W modelu jeszcze bardziej rozbudowanym można użyć danych z innych giełd, kursów walut, cen towarów jak np. ropa. Użycie dużej ilości danych wymaga dłuższego czasu obliczeń parametrów modelu. W prezentowanym podejściu klasyfikator liniowy budowany jest w oparciu o minimalizację wypukłej i odcinkowo-liniowej funkcji kryterialnej. Metoda ta jest bardzo wydajna o koszcie zbliżonym do programowania liniowego. Dodatkowo użyta została metoda selekcji cech RLS. Techniki te pozwoliły na efektywną eksplorację danych o wielu wymiarach. W artykule przedstawiono cztery scenariusze o różnej ilości danych opisujących giełdę. W najprostszym użyto tylko jednej danej, w najbardziej rozbudowanym 421 danych o 43 instrumentach finansowych. Najlepsze wyniki uzyskano dla pośredniego modelu o 52 cechach, w którym model przewidział prawidłowo 53.19% kierunków dziennych zmian indeksu S&P500. Otrzymany wynik nie wydaje się być wysoki, jednak gdyby inwestowano w indeks zgodnie z modelem zysk z takich inwestycji wyniósłby 77% w okresie od października 2008 do marca 2011, dając średnio 28% zysku rocznie.
3
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
This paper presents a supervised classification method to accurately detect epileptic brain activity in real-time from electroencephalography (EEG) data. The proposed method has three main strengths: it has low computational cost, making it suitable for real-time implementation in EEG devices; it performs detection separately for each brain rhythm or EEG spectral band, following the current medical practices; and it can be trained with small datasets, which is key in clinical problems where there is limited annotated data available. This is in sharp contrast with modern approaches based on machine learning techniques, which achieve very high sensitivity and specificity but require large training sets with expert annotations that may not be available. The proposed method proceeds by first separating EEG signals into their five brain rhythms by using awavelet filter bank. Each brain rhythm signal is then mapped to a low-dimensional manifold by using a generalized Gaussian statistical model; this dimensionality reduction step is computationally straight-forward and greatly improves supervised classification performance in problems with little training data available. Finally, this is followed by parallel linear classifications on the statistical manifold to detect if the signals exhibit healthy or abnormal brain activity in each spectral band. The good performance of the proposed method is demonstrated with an application to paediatric neurology using 39 EEG recordings from the Children's Hospital Boston database, where it achieves an average sensitivity of 98%, specificity of 88%, and detection latency of 4 s, performing similarly to the best approaches from the literature.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.