Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 13

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  model selection
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
EN
A fast-and-flexible method of ARIMA model optimal selection is suggested for univariate time series forecasting. The method allows obtaining as-highly-accurate-as-possible forecasts auto-matically. It is based on effectively finding lags by the autocorrelation function of a detrended time series, where the best-fitting polynomial trend is subtracted from the time series. The fore-casting quality criteria are the root-mean-square error (RMSE) and the maximum absolute error (MaxAE) allowing to register information about the average inaccuracy and worst outlier. Thus, the ARIMA model optimal selection is performed by simultaneously minimizing RMSE and Max-AE, whereupon the minimum defines the best model. Otherwise, if the minimum does not exist, a combination of minimal-RMSE and minimal-MaxAE ARIMA models is used.
PL
W pracy zaproponowano szybką i elastyczną metodę optymalnego doboru modelu ARIMA na potrzeby prognozowania szeregów czasowych z jedną zmienną. Metoda pozwala na uzyskanie możliwie najdokładniejszych prognoz, opierając się na skutecznym znajdowaniu opóźnień. Po-szukiwanie opóźnień realizowane jest za pomocą funkcji autokorelacji szeregu czasowego bez trendu, w którym najlepiej dopasowany trend wielomianowy jest odejmowany od szeregu cza-sowego. Za kryteria jakości prognozowania przyjęto średni błąd kwadratowy (RMSE) i maksy-malny błąd bezwzględny (MaxAE), które pozwoliły na rejestrację informacji o średniej i maksymalnej niedokładności. Optymalny dobór modelu ARIMA odbywa się poprzez jednoczesną minimalizację RMSE i MaxAE, dla której wartość minimalna określa najlepszy model. W przeciw-nym razie, jeśli minimum nie istnieje, używana jest kombinacja modeli ARIMA z minimalnym RMSE i minimalnym MaxAE.
EN
Measuring the blast-induced ground vibration at blasting sites is very important, to plan and avoid adverse effects of blasting in terms of the peak particle velocity (PPV). However, the measurement of PPV often requires time, cost, and logistic commitment, which may not be economical for small-scale mining operations. This has prompted the development of numerous regression equations in the literature to estimate PPV from a relatively easier to estimate scaled distance (SD) measurement. With numerous regression equations available in the literature, there is a challenge of how to select the appropriate model for a specific blasting site, more so that rocks behave differently from site to site because of different geological processes that rocks are subjected to. This study develops a method that selects appropriate models for specific blasting sites by comparing the evidence and occurrence probability of different regression models. The appropriate model is the model with the highest evidence and occurrence probability given the available blasting site SD data. The selected model is then integrated with prior knowledge and available blasting SD data in Bayesian framework for probabilistic characterization of PPV. The SD and PPV data at the opencast coal mine, Jharia coalfield in the Dhanbad district of Jharkhand, India, is used to illustrate and validate the approach. The mean and standard deviation of simulated PPV samples from the proposed approach are 12.38 mm/s and 7.36 mm/s, respectively, which are close to the mean of 12.03 mm/s and standard deviation of 9.24 mm/s estimated from the measured PPV at the site. In addition, the probability distribution of the simulated PPV samples is consistent with the probability distribution of the measured PPV at the blasting site.
3
Content available remote Data driven efficient score tests for Poissonity
EN
New data driven score tests for testing goodness of fit of the Poisson distribution are proposed. They are direct applications of the general construction of data driven goodness-of-fit tests for composite hypotheses developed in Inglot et al. (1997). By a simulation study it is shown that these tests perform almost equally well as the best known solutions for standard alternatives and outperform them for more difficult alternatives.
4
Content available remote A note on analysis of extreme minimum temperatures with the GAMLSS framework
EN
Estimation of return levels, based on extreme value distributions, is of importance in the earth and environmental sciences. To incorporate non-stationarity in the modelling, the statistical framework of generalised additive models for location, scale and shape is an option, providing flexibility and with a wide range of distributions implemented. With a large set of selections possible, model choice is an issue. As a case study, we investigate annual minimum temperatures from measurements at a location in northern Sweden. For practical work, it turns out that care must be taken in examining the obtained distributions, not solely relying on information criteria. A simulation study illustrates the findings.
EN
Designing regression models based on high dimensional (e.g. genetic) data sets through exploring linear separability problem is considered in the paper. The linear regression model designing has been reformulated here as the linear separability problem. Exploring the linear separability problem has been based on minimization of the convex and piecewise linear (CPL) criterion functions. The minimization of the CPL criterion functions was used not only for estimating the prognostic model parameters, but also for most effective selecting feature subsets (model selection) in accordance with the relaxed linear separability (RLS) method. This approach to designing prognostic models has been used in experiments both with synthetic multivariate data, and with genetic data sets containing censored values of dependent variable. The quality of the prognostic models resulting from the linear separability postulate has been evaluated by using the measure of the model discrepancy and the estimated classification error rate. In order to reduce the bias of the evaluation, the value of the model discrepancy and the classification error have been computed in different feature subspaces, in accordance with the cross-validation procedure. A series of new experiments described in this paper shows that the designing of regression models can be based on the linear separability principle. More specifically, the high-dimensional genetic sets with censored dependent variable can be used in designing procedure. The proposed measure of prognostic model discrepancy can be effectively used in the search for the optimal feature subspace and for selecting the linear regression model.
PL
W artykule rozważane jest projektowanie modeli regresji opartych na wysokowymiarowych (np. genetycznych) zbiorach danych poprzez badanie problemu separacji liniowej. Projektowanie modelu regresji liniowej zostało tu przeformułowane jako problem separacji liniowej. Eksploracja problemu separacji liniowej opiera się na minimalizacji wypukłej i odcinkowo-liniowej (CPL) funkcji kryterialnej. Minimalizacja funkcji kryterialnej typu CPL została wykorzystana nie tylko do oszacowania parametrów modelu prognostycznego, ale również do skutecznego wyboru podzbioru cech (selekcji modelu) zgodnie z metodą relaksacji separacji liniowej (RLS). Takie podejście do projektowania modeli prognostycznych zostało wykorzystane w eksperymentach zarówno z syntetycznymi danymi wielowymiarowymi, jak i do zbiorów danych genetycznych zawierających cenzurowane wartości zmiennej zależnej. Jakość modeli prognostycznych otrzymywanych w oparciu o postulat liniowej separacji została oceniona przy użyciu miary rozbieżności modelu i szacowanego wskaźnika błędu klasyfikacji. W celu zmniejszenia obciążenia oceny, obliczono wartości rozbieżności modelu i błędu klasyfikacji w różnych podprzestrzeniach cech, zgodnie z procedurą walidacji krzyżowej. Seria nowych eksperymentów opisanych w niniejszym opracowaniu pokazuje, ze projektowanie modeli regresji może być oparte na zasadzie separacji liniowej. W szczególności, w procedurze projektowania można użyć wysokowymiarowych zbiorów genetycznych o cenzurowanej zmiennej zależnej. Proponowana miara rozbieżności modelu prognostycznego może być skutecznie wykorzystana w poszukiwaniu optymalnej podprzestrzeni cech i selekcji modelu regresji liniowej.
6
Content available remote Redukcja złożoności modelu zagadnienia decyzyjnego
PL
Modele matematyczne opisujące problemy decyzyjne uwzględniają zazwyczaj złożoną sytuację decyzyjną danego problemu, opisują strukturę modelowanego systemu i zachodzących procesów przez wskazanie powiązań jego elementów (strukturę sieci powiązań) i ich charakterystyki. Dodatkowo, ograniczenia czasowe i w dostępności zasobów niezbędnych do zastosowania opracowanego modelu utrudnią rozwiązanie zagadnień wobec zróżnicowanych uwarunkowań, np. przyrodniczych, ekonomicznych, społecznych. Wówczas warto pomyśleć o zmniejszeniu (redukcji) złożoności rozwiązywanych problemów i skoncentrować się na tym co istotne. Na szczęście dostępne są względnie proste narzędzia, za pomocą których można w adekwatny sposób upraszczać zbyt złożone modele zagadnień. Przykłady zaprezentowano w artykule.
EN
The application of adequate model is necessary to solve a decision making problem in a reliable manner. Such the model should therefore include all important components of a system a decision making problem under consideration deals with. However, limited availability of time and other necessary resources may make a prepared model too complex to be seamlessly applied. The same problem often appears the case of solving civil engineering decision making problems while including influence of factors of diverse nature. The skilful reduction of model complexity may nevertheless help in providing a simpler and adequate model. Some simple model reduction tools are therefore presented in the paper.
7
Content available remote Refined data driven tests for univariate symmetry
EN
We propose a modification of the data driven score rank tests studied recently in Inglot et al. (2012) by an appropriate choice of the orthonormal system. The simulation study confirms much better performance of the new tests for alternatives with dominating asymmetry in the tails and comparable sensitivity for other types of alternatives. In effect we obtain omnibus tests for symmetry which are equal to the best existing procedures for typical alternatives and overtake them significantly for atypical ones.
8
Content available remote Localization of genes
EN
Development of genetics in recent years has led to a situation in which we are able to look at the DNA chains with high precision and collect vast amounts of information. In addition, it turned out that the relationships between genes and traits are more complex than previously thought. These two things caused the need for close collaboration between geneticists and mathematicians whose task is to develop special methods, coping with specific and difficult genetic problems. The article includes an overview of both classic and the latest approaches to the problem of localizing genes that indicate places in the DNA chain, which significantly influence the traits of interest to us. Because of not the best communication between mathematicians and geneticists, knowledge of methods other than the classic among the latter group is still small.
PL
Rozwój genetyki w ostatnich latach doprowadził do sytuacji, w której jesteśmy w stanie przyjrzeć się łańcuchom DNA z dużą precyzją i zebrać ogromne ilości informacji. Oprócz tego okazało się, że zależności między genami a cechami są bardziej skomplikowane niż się wcześniej wydawało. Te dwie rzeczy spowodowały, że niezbędna stała się ścisła współpraca między genetykami a matematykami, których zadaniem jest opracowanie specjalnych metod, radzących sobie w specyficznych i trudnych problemach genetycznych. Artykuł zawiera przegląd zarówno klasycznych jak i najnowszych podejść do problemu lokalizacji genów, czyli wskazywania miejsc w łańcuchu DNA, które istotnie wpływają na interesujące nas cechy. Z powodu nienajlepszej komunikacji między matematykami i genetykami, znajomość metody innych niż klasyczne wśród tej drugiej grupy jest wciąż niewielka.
9
Content available remote Data driven tests for univariate symmetry about an unknown median
EN
We propose new data driven score rank tests for univariate symmetry about an unknown center. We construct test statistics, state assumptions and define estimators of nuisance parameters. We prove that the test statistics are asymptotically distribution-free under the null hypothesis. Using simulations, we verify these asymptotic results for finite samples and show that, under the assumptions and when they are somewhat violated, the size of the test is stable when changing the null distribution. We also compare the empirical behaviour of the new tests with those proposed in the literature. We show that for families of distributions commonly applied to model asymmetry the new tests overcome their competitors on average and for most individual alternatives.
PL
W referacie przedstawiono zagadnienia dotyczące poprawnego doboru modeli i submodeli fizycznych oraz warunków brzegowych w analizach wykorzystujących metodę obliczeniowej mechaniki płynów (CFD) prowadzonych na potrzeby oceny bezpieczeństwa pożarowego. Jest to jeden z warunków poprawnego prowadzenia obliczeń numerycznych ima duży wpływ na otrzymane wyniki. Zaprezentowano kilka wybranych modeli fizycznych w obszarach kluczowych dla analiz związanych z bezpieczeństwem pożarowym, próbując wyjaśnić, jak ich zmiana może wpłynąć na przeprowadzone obliczenia.
EN
The topic of this paper is the proper choice of physical models and sub-models, and the impact of boundary condition choices on the results of numerical analysis employing Computational Fluid Dynamics method with regards to fire safety. Correct choice of sub-models and proper values of boundary conditions is one of crucial choices and one of conditions of proper numerical analysis.Authors present chosen sub-models in areas that aremost important in analysis regarding fire safety, and try to explain how will they influence the results of calculation.
11
EN
Regions of the genome that influence quantitative traits are called quantitative trait loci (QTLs) and can be located using statistical methods. For this aim scientists use genetic markers, of which genotypes are known, and look for the associations between these genotypes and trait values. The common method which can be used in this problem is a linear regression. There are many model selection criteria for the choice of predictors in a linear regression. However, in the context of QTL mapping, where the number of available markers pn is usually bigger than the sample size n, the classical criteria overestimate the number of regressors. To solve this problem several modifications of the Bayesian Information Criterion have been proposed and it has been recently proved that at least three of them, EBIC, mBIC and mBIC2, are consistent (also in case when pn > n). In this article we discuss these criteria and their asymptotic properties and compare them by an extensive simulation study in the genetic context.
PL
W ostatnich latach nastąpił bardzo szybki rozwój technologii wspomagających badania w genetyce. Rezultatem tego postępu są olbrzymie zbiory danych. Skuteczne pozyskiwanie informacji z takich zbiorów wymaga ścisłej współpracy między genetykami, informatykami oraz statystykami. Rolą statystyków jest określenie precyzyjnych kryteriów gwarantujących efektywne oddzielenie istotnej informacji od losowych zakłóceń. W szczególności, duże rozmiary tych zbiorów wymagają opracowania nowych metod korekty na wielokrotne testowanie oraz nowych kryteriów wyboru istotnych zmiennych objaśniających. Szczególnym przykładem identyfikacji zmiennych objaśniających jest problem lokalizacji genów odpowiedzialnych za cechy ilościowe (Quantitative Trait Loci, QTL). Do lokalizacji genów stosuje się tzw. markery molekularne. Są to fragmenty łańcucha DNA, które mogą występować w różnych wariantach (allelach) u różnych jednostek w populacji. Postać danego markera u badanego osobnika można ustalić eksperymentalnie. U organizmów diploidalnych, u których chromosomy występują w parach, genotyp danego markera jest wyspecyfikowany przez podanie alleli występujących na obu chromosomach. Z punktu widzenia statystyka genotypy markerów stanowią jakościowe zmienne objaśniające. Jeżeli dany marker znajduje się blisko genu wpływającego na badaną cechę, to możemy spodziewać się statystycznej zależności między genotypem w tym markerze a badaną cechą ilościową. Do identyfikacji istotnych markerów genetycznych zwykle stosuje się model regresji wielorakiej. Liczbę zmiennych niezależnych można w tej sytuacji szacować za pomocą jednego z wielu kryteriów wyboru modelu. Niestety, okazuje się, ze w kontekście genetycznym, gdzie liczba markerów istotnie przewyższa liczbę obserwacji, klasyczne kryteria wyboru modelu przeszacowują liczbę istotnych zmiennych. Aby rozwiązać ten problem ostatnio wprowadzono kilka nowych modyfikacji Bayesowskiego Kryterium Informacyjnego. W tym artykule zaprezentujemy trzy z tych modyfikacji, podamy wyniki dotyczące zgodności tych metod w sytuacji gdy liczba dostępnych markerów genetycznych rośnie wraz z rozmiarem próby oraz wyniki symulacji komputerowych ilustrujących działanie tych metod w kontekście genetycznym.
12
Content available remote Scenery Image Segmentation Using Support Vector Machines
EN
This paper presents an effective and efficient method for solving scenery image segmentation by applying the SVMs methodology. Scenery image segmentation is regarded as a data classification problem, and is effectively answered by the proposed method in this paper. Using the model selection in our system architecture, our system is relatively simple compared to other conventional heuristic image segmentation approaches yet demonstrates promising classification results.
EN
The similarity between the convective diffusion (CD) model and the lognormal (LN) distribution is shown by comparison of their moment estimates. Both models are tested using annual peak discharges observed at 39 gauging-sections of Polish rivers. The average value of the ration of the coefficient of skew ness to the coefficient of variation equals about 2.52, a value closer to the ration of the CD model than to the gamma or the lognormal model. The likelihood ratio indicates the preference of the CD over the LN model for 27 out of 39 cases. Applying the maximum likelihood (ML) method, one should take into account the consequence of the wrong distributional assumption on the estimate of moments. In the case of CD, the ML-estimate of the means is unbiased for any true distribution, which is not the case with the LN model, moreover the ML-estimate of the two fist moments of CD remains asymptotically unbiased if LN is true, while there is small bias in the opposite case. To check the objectivity of our inferences from empirical findings, a simulation experiment was carried out, which comprised generated CD- and LN- distributed samples and both the moment and likelihood criteria for the distribution choice. Its results clearly show that normal hydrological sample sizes are far too small for selecting the true distribution.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.