PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Localizing Influential Genes with Modified Versions of Bayesian Information Criterion

Autorzy
Identyfikatory
Warianty tytułu
PL
Lokalizacja genów za pomoc¸a zmodyfikowanych wersji Bayesowskiego Kryterium Informacyjnego
Języki publikacji
EN
Abstrakty
EN
Regions of the genome that influence quantitative traits are called quantitative trait loci (QTLs) and can be located using statistical methods. For this aim scientists use genetic markers, of which genotypes are known, and look for the associations between these genotypes and trait values. The common method which can be used in this problem is a linear regression. There are many model selection criteria for the choice of predictors in a linear regression. However, in the context of QTL mapping, where the number of available markers pn is usually bigger than the sample size n, the classical criteria overestimate the number of regressors. To solve this problem several modifications of the Bayesian Information Criterion have been proposed and it has been recently proved that at least three of them, EBIC, mBIC and mBIC2, are consistent (also in case when pn > n). In this article we discuss these criteria and their asymptotic properties and compare them by an extensive simulation study in the genetic context.
PL
W ostatnich latach nastąpił bardzo szybki rozwój technologii wspomagających badania w genetyce. Rezultatem tego postępu są olbrzymie zbiory danych. Skuteczne pozyskiwanie informacji z takich zbiorów wymaga ścisłej współpracy między genetykami, informatykami oraz statystykami. Rolą statystyków jest określenie precyzyjnych kryteriów gwarantujących efektywne oddzielenie istotnej informacji od losowych zakłóceń. W szczególności, duże rozmiary tych zbiorów wymagają opracowania nowych metod korekty na wielokrotne testowanie oraz nowych kryteriów wyboru istotnych zmiennych objaśniających. Szczególnym przykładem identyfikacji zmiennych objaśniających jest problem lokalizacji genów odpowiedzialnych za cechy ilościowe (Quantitative Trait Loci, QTL). Do lokalizacji genów stosuje się tzw. markery molekularne. Są to fragmenty łańcucha DNA, które mogą występować w różnych wariantach (allelach) u różnych jednostek w populacji. Postać danego markera u badanego osobnika można ustalić eksperymentalnie. U organizmów diploidalnych, u których chromosomy występują w parach, genotyp danego markera jest wyspecyfikowany przez podanie alleli występujących na obu chromosomach. Z punktu widzenia statystyka genotypy markerów stanowią jakościowe zmienne objaśniające. Jeżeli dany marker znajduje się blisko genu wpływającego na badaną cechę, to możemy spodziewać się statystycznej zależności między genotypem w tym markerze a badaną cechą ilościową. Do identyfikacji istotnych markerów genetycznych zwykle stosuje się model regresji wielorakiej. Liczbę zmiennych niezależnych można w tej sytuacji szacować za pomocą jednego z wielu kryteriów wyboru modelu. Niestety, okazuje się, ze w kontekście genetycznym, gdzie liczba markerów istotnie przewyższa liczbę obserwacji, klasyczne kryteria wyboru modelu przeszacowują liczbę istotnych zmiennych. Aby rozwiązać ten problem ostatnio wprowadzono kilka nowych modyfikacji Bayesowskiego Kryterium Informacyjnego. W tym artykule zaprezentujemy trzy z tych modyfikacji, podamy wyniki dotyczące zgodności tych metod w sytuacji gdy liczba dostępnych markerów genetycznych rośnie wraz z rozmiarem próby oraz wyniki symulacji komputerowych ilustrujących działanie tych metod w kontekście genetycznym.
Rocznik
Strony
3--14
Opis fizyczny
Bibliogr. 22 poz., tab.
Twórcy
autor
autor
  • Wrocław University of Technology Institute of Mathematics and Computer Science, Wybrzeze Wyspianskiego 27, Wrocław 50-370, A.Szulc@pwr.wroc.pl
Bibliografia
  • [1] H. Akaikeem A new look at the statistical model identification. IEEE Trans. Automat. Control 19 (1974): 716-723.
  • [2] D. J. Balding, A tutorial on statistical methods for population association studies Nat. Rev. Gen. 7(2006):781-791.
  • [3] Y. Benjamini, Y. Hochberg Controlling the false discovery rate: a practical and powerful approach to multiple testing, Journal of the Royal Statistical Society: Series B 57(1) (1995), pp. 289-300.
  • [4] M. Bogdan, A. Chakrabarti, F. Frommlet, J.K. Ghosh, Asymptotic Bayes Optimality under sparsity of some multiple testing procedures, Annals of Statistics 39 (2011): 1551-1579.
  • [5] M. Bogdan, J. Ghosh and R. W. Doerge, Modifying the Schwarz Bayesian information criterion to locate multiple interacting quantitative trait loci, Genetics 167 (2004), pp. 989-999.
  • [6] M. Bogdan, J. Ghosh, M. Zak-Szatkowska, Selecting explanatory variables with the modified version of Bayesian Information Criterion, Quality and Reliability Engineering International 24 (2008), pp. 627-641.
  • [7] J. Chen and Z. Chen, Extended BIC for small n-large-P sparse GLM (2010) (submitted, available at www.stat.nus.edu.sg/˜stachenz/ChenChen.pdf).
  • [8] J. Chen and Z. Chen, Extended Bayesian information criterion for model selection with large model space, Biometrika 94 (2008), pp. 759-771.
  • [9] Z. Chen and Z. Luo, Extended BIC for linear regression models with diverging number of parameters and high or ultra-high feature spaces (2011) (technical raport available at arxiv.org/abs/1107.2502v1).
  • [10] R.W. Doerge,Z-B. Zeng, B.S. Weir, Statistical issues in the search for genes affecting quantitative traits in experimental populations. Statistical Science 12 (1997) : 195-219.
  • [11] R. W. Doerge Mapping and analysis of quantitative trait loci in experimental populations. Nature Reviews Genetics 3 (2002): 43-52.
  • [12] V. Erhardt, M. Bogdan, C. Czado, Locating Multiple Interacting Quantitative Trait Loci with the Zero-Inflated Generalized Poisson Regression, Statistical Applications in Genetics and Molecular Biology, Vol 9 : Iss. 1 (2010), Article 26.
  • [13] F. Frommlet, M. Bogdan and A. Chakrabarti, Asymptotic Bayes optimality under sparsity for general priors under the alternative (2011) (technical raport available at arxiv.org/abs/1005.4753v2).
  • [14] F. Frommlet, F. Ruhaltinger, P. Twaróg and M. Bogdan, A model selection approach to genome wide association studies, Computational Statistics and Data Analysis (2011) (doi:10.1016/j.csda.2011.05.005).
  • [15] W. Li and Z. Chen, Multiple interval mapping for quantitative trait loci with a spike in the trait distribution, Genetics 182(2) (2009), pp. 337-342.
  • [16] M. Lynch, B. Walsh Genetics and analysis of quantitative traits. Sinauer, Sunderland, MA, 1998.
  • [17] T. Philips, Animal models for the genetic study of human alcohol phenotypes. Alcohol Research and Health, 26: 202-207.
  • [18] G. Schwarz Estimating the dimension of a model. Annals of Statistics 6 (1978): 461-464.
  • [19] P. Szulc, Weak consistency of modified versions of Bayesian Information Criterion in a sparse linear regression, Probability and Mathematical Statistics (in press).
  • [20] J. Zhao and Z. Chen, A two-stage penalized logistic regression approach to case-control genome-wide association studies (2010) (submitted, available at www.stat.nus.edu.sg/˜stachenz/MS091221PR.pdf).
  • [21] M. Zak-Szatkowska, M. Bogdan, Modified versions of Bayesian Information Criterion for sparse Generalized Linear Models, Computational Statistics & Data Analysis 55(11) (2011), pp. 2908-2924.
  • [22] M. Zak, A. Baierl, M. Bogdan A. Futschik Locating multiple interacting quantitative trait loci using rank-based model selection, Genetics, 176 (2007): 1845-1854.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BUS8-0022-0037
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.