Identyfikatory
Warianty tytułu
The identification of proteins by Peptide Mass Fingerprinting (PMF). Part II - the scoring algorithms
Języki publikacji
Abstrakty
Postęp w dziedzinie komputerów oraz rozwój Internetu zrewolucjonizował, proces identyfikacji białek oraz przyczynił się do szybkiego wzrostu proteomicznych baz danych. Krótko po wprowadzeniu pierwszej technologii identyfikacji białek z widm spektrometrów masowych PMF (Peptide Mass Fingerprinting) okazało się, że algorytmy wykorzystywane do wyszukiwania w bazie danych protein odpowiadających wynikom eksperymentu mają kluczowe znaczenie dla wysokiej poprawności identyfikacji. Rozwój metody PMF był zatem uwarunkowany nie tylko przez usprawnienia techniczne schematu, ale przede wszystkim przez zastosowanie rozmaitych metod matematycznych i statystycznych (tzw. algorytmów scoringu) przy wyszukiwaniu poprawnych rozwiązań. Kolejnym krokiem w informatycznym usprawnieniu identyfikacji było opracowanie metod walidacji jej rezultatów na podstawie istniejących baz danych lub też symulacji. Walidacja rezultatów pozwoliła na wyeliminowanie większości błędów pierwszego rodzaju w identyfikacji metodą PMF. Przez wzgląd na powszechność stosowania metody, a także jej ulepszenia autorzy postanowili podsumować obecny stan wiedzy w tym zakresie. Praca została podzielona na dwie części: w pierwszej przedstawiono opis historii powstania metody PMF wraz z charakterystyką jej części eksperymentalnej i opisem najpopularniejszych baz danych stosowanych przy identyfikacji, natomiast druga część jest poświęcona zagadnieniom algorytmicznym związanym z wyszukiwaniem w bazie danych protein najlepiej odzwierciedlających białko analizowane w próbce. Bioinformatyczne ujęcie identyfikacji białek w drugiej części nawiązuje do specyfikacji eksperymentu, omówionej w części pierwszej publikacji. Druga część pracy w szczegółowy sposób opisuje główne aspekty porównywania mas teoretycznych i eksperymentalnych, tj. trawienie in silico, rozpoznawanie modyfikacji białek, dopasowywanie mas oraz kalibrację poprawnych dopasowań. Opisane zostały także sposoby budowania funkcji scoringowych oraz algorytmy walidacji ich wartości. Dodatkowo, w pracy przedstawiono najbardziej znane funkcje scoringowe oraz pełny przegląd oprogramowania do identyfikacji białek metodą PMF.
The internet and computer science progress have revolutionized the process of protein identification and contributed to the growth of proteomics databases. Just after discovering the first technology for protein identification from the mass spectra PMF (peptide mass fingerprinting), it appeared that the algorithms searching databases for proteins corresponding to experiment results have crucial meaning for the sensitivity and specificity of the identification procedure. Therefore, the development of PMF method was conditioned by both the technological improvements in the PMF scheme and the application of various mathematical and statistical methods (so called: scoring algorithms) to the searching of correct identifications. The next step in the development of an identification procedure was to work out the methods for identification results validation, according to the proteomics databases content or simulations. The results validation allowed to eliminate the most of unwanted false positives in the PMF identification. Regarding the method common use, as well as its improvements which are still present, the authors decide to summarize the current level of knowledge related to this topic. The publication is divided into two parts. The first one is devoted to the origins of PMF scheme, the characteristics of its experimental part and a description of the most popular databases used in the identification procedure. The second part relates to the algorithmic issues of searching the database protein, which reflects the sample content best. From the bioinformatics point of view the protein identification in the second part of publication refers to the experiment specification described in the first part. The second part of the publication describes in details the aspects of theoretical and experimental masses comparison, i.e. in silico digestion, the discrimination of protein modifications, the pairing of masses and the calibration of matches. Moreover, the scoring functions building manners and the algorithms for scoring functions values validation were also taken into the consideration. Additionally, we present the most known scoring schemes with the comprehensive review of the PMF protein identification software.
Wydawca
Rocznik
Tom
Strony
239--247
Opis fizyczny
Bibliogr. 55 poz.
Twórcy
autor
autor
- Instytut Inżynierii Biomedycznej i Pomiarowej, Wydział Podstawowych Problemów Techniki, Politechnika Wrocławska, Wybrzeże Wyspiańskiego 27, 50-370 Wrocław, tel. +48 (71) 320 28 25, hanna.kaminska@pwr.wroc.pl
Bibliografia
- 1. W.J. Henzel, C. Watanabe, J.T. Stults: Protein identification: the origins of peptide mass fingerprinting, Journal of the American Society for Mass Spectrometry, vol. 14, 2003, s. 931-942.
- 2. D.J. Pappin, P. Hojrup, A. Bleasby: Rapid identification of proteins by peptide-mass fingerprinting, Current biology, vol. 3(6), 1993, s. 327-332.
- 3. R. Apweiler, A. Bairoch, C. Wu: Protein sequence databases, Current opinion in chemical biology, vol. 8, 2004, s. 76-80.
- 4. Swiss-Prot, statystyka: http://www.expasy.org/sprot/relnotes/relstat.html
- 5. TrEMBL, statystyka: http://www.ebi.ac.uk/uniprot/TrEMBLstats/
- 6. I. Bogdan, R. Beynon, D. Coca: Reconfigurable computing solution for Peptide Mass Fingerprinting, 2008 11th International Conference on Optimization of Electrical and Electronic Equipment, 2008, s. 57-62.
- 7. R. Matthiesen: Methods, algorithms and tools in computational proteomics: a practical point of view, Proteomics, vol. 7, 2007, s. 2815-2832.
- 8. I. Eidhammer, K. Flikka, L. Martens, S.-O. Mikalsen: Computational methods for mass spectrometry proteomics, Wiley-Interscience, Chichester 2008, s. 6-118.
- 9. H. Kamińska, H. Podbielska: Identyfikacja białek z wykorzystaniem techniki peptide mass fingerprinting (PMF). Część I - charakterystyka eksperymentu identyfikacji, Inżynieria Biomedyczna - Acta Bio--Optica et Informatica Medica, vol. 17, 2011, s. 153-160
- 10. H. Kaltenbach, S. Böcker, S. Rahmann: Markov additive chains and applications to fragment statistics for peptide mass fingerprinting, Joint RECOMB 2006 Satellite Workshops on Systems Biology and on Computational Proteomics, 2007, s. 29-41.
- 11. R. Aebersold, D.R. Goodlett: Mass spectrometry in proteomics, Chemical reviews, vol. 101, 2001, s. 269-295.
- 12. B. Thiede, W. Höhenwarter, A. Krah, J. Mattow, M. Schmid, F. Schmidt, P.R. Jungblut: Peptide mass fingerprinting, Methods, vol. 35, 2005, s. 237-247.
- 13. Z. Song, L. Chen, A. Ganapathy, X.-F. Wan, L. Brechenmacher, N. Tao, D. Emerich, G. Stacey, D. Xu: Development and assessment of scoring functions for protein identification using PMF data, Electrophoresis, vol. 28, 2007, s. 864-870.
- 14. A.E. Ashcroft: Protein and peptide identification: the role of mass spectrometry in proteomics, Natural Product Reports, vol. 20, 2003, s. 202-215.
- 15. M. Mann, O. Jensen: Proteomic analysis of post-translational modifications, Nature biotechnology, vol. 21, 2003, s. 255-261.
- 16. A. Aitken, M. Learmonth: Carboxymethylation of cysteine using iodoacetamide/iodoacetic acid, Humana Press, NY 2002, s. 455-456.
- 17. J. Cavins, M. Friedman: An internal standard for amino acid analyses: S-[beta]-(4-pyridylethyl)-L–cysteine, Analytical Biochemistry, vol. 35(2), 1970, s. 489-493.
- 18. A. Chrambach, D. Rodbard: Polyacrylamide gel electrophoresis, Science, vol. 172(3982), 1971, s. 440.
- 19. J. Garavelli: The RESID Database of Protein Modifications as a resource and annotation tool, Proteomics, vol. 4, 2004, s. 1527-1533.
- 20. R. Craig, R. Beavis: A method for reducing the time required to match protein sequences with tandem mass spectra, Rapid communications in mass spectrometry, vol. 17, 2003, s. 2310-2316.
- 21. A. Chernobrovkin, O. Trifonova, N. Petushkova, E. Ponomarenko, A. Lisitsa: Selection of the peptide mass tolerance value for protein identification with peptide mass fingerprinting, Russian Journal of Bioorganic Chemistry, vol. 37, 2011, s. 119-122.
- 22. S.J. Hubbard: Systematic characterization of high mass accuracy influence on false discovery and probability scoring in peptide mass fingerprinting, Analytical biochemistry, vol. 372, 2008, s. 156-166.
- 23. V. Egelhofer, K. Büsso, C. Luebbert, H. Lehrach, E. Nordhoff: Improvements in protein identification by MALDI-TOF-MS peptide mapping, Analytical chemistry, vol. 72, 2000, s. 2741-2750.
- 24. http://www.expasy.org/tools/aldente/
- 25. M. Tuloup, C. Hernandez, I. Coro, C. Hoogland, P.-A. Binz, R.D. Appel: Aldente and BioGraph: An improved peptide mass fingerprinting protein identification environment, Proceedings of the Swiss Proteomics Society 2003 Congress: Understanding Biological Systems through Proteomics, 2003, s. 174-176.
- 26. R. Duda, P. Hart: Use of the Hough transformation to detect lines and curves in pictures, Communications of the ACM, vol. 15(1), 1972, s. 11–15.
- 27. J. Eriksson, B.T. Chait, D. Fenyö: A statistical basis for testing the significance of mass spectrometric protein identification results, Anal. Chem, vol. 72(5), 2000, s. 999-1005.
- 28. M. Mann, P. Hojrup, P. Roepstorff: Use of mass spectrometric molecular weight information to identify proteins in sequence databases, Biological mass spectrometry, vol. 22(6), 1993, s. 338-345.
- 29. W. Zhang, B. Chait: ProFound: an expert system for protein identification using mass spectrometric peptide mapping information, Analytical chemistry, vol. 72, 2000, s. 2482-2489.
- 30. R. Gras, M. Müller, E. Gasteiger, S. Gay, P.-A. Binz, W. Bienvenut, C. Hoogland, J.-C. Sanchez, A. Bairoch, D. F. Hochstrasser i in.: Improving protein identification from peptide mass fingerprinting through a parameterized multi-level scoring algorithm and an optimized peak detection, Electrophoresis, vol. 20, 1999, s. 3535-3550.
- 31. Q. Ding, L. Xiao, S. Xiong, Y. Jia, H. Que, Y. Guo, S. Liu: Unmatched masses in peptide mass fingerprints caused by cross-contamination: an updated statistical result, Proteomics, vol. 3, 2003, s. 1313-1317.
- 32. S. Damodaran, T.D. Wood, P. Nagarajan, R.A. Rabin: Evaluating peptide mass fingerprinting-based protein identification, Genomics, proteomics & bioinformatics/Beijing Genomics Institute, vol. 5, 2007, s. 152-157.
- 33. J. Eriksson, D. Fenyö: A model of random mass-matching and its use for automated significance testing in mass spectrometric proteome analysis, Proteomics, vol. 2, 2002, s. 262-270.
- 34. J. Eriksson, D. Fenyö i in.: Probity: a protein identification algorithm with accurate assignment of the statistical significance of the results, Journal of Proteome Research, vol. 3(1), 2004, s. 32-36.
- 35. A. Ganapathy, X.-F. Wan, J. Wan, J. Thelen, D.W. Emerich, G. Stacey, D. Xu: Statistical assessment for mass-spec protein identification using peptide fingerprinting approach, Conference proceedings: Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society, Conference, vol. 4, 2004, s. 3051-3054.
- 36. http://www.matrixscience.com
- 37. D.N. Perkins, D.J. Pappin, D.M. Creasy, J.S. Cottrell: Probability-based protein identification by searching sequence databases using mass spectrometry data, Electrophoresis, vol. 20(18), 1999, s. 3551-3567.
- 38. J. Magnin, A. Masselot, C. Menzel, J. Colinge: OLAV-PMF: a novel scoring scheme for high-throughput peptide mass fingerprinting, Journal of Proteome Research, vol. 3(1), 2004, s. 55-60.
- 39. J. Cramer: The origins and development of the logit model, Logit models from economics and other fields, 2003, s. 1-19.
- 40. K.C. Parker: Scoring methods in MALDI peptide mass fingerprinting: ChemScore, and the ChemApplex program, Journal of the American Society for Mass Spectrometry, vol. 13(1), 2002, s. 22-39.
- 41. D. Fenyö: Identifying the proteome: software tools, Current opinion in biotechnology, vol. 11(4), 2000, s. 391-395.
- 42. J. Handley: Software for MS protein identification, Analytical chemistry, vol. 74, 2002, s. 159A-162A.
- 43. I.A. Bogdán, J. Rivers, R.J. Beynon, D. Coca: High-performance hardware implementation of a parallel database search engine for real-time peptide mass fingerprinting, Bioinformatics, vol. 24, 2008, s. 1498-1502.
- 44. R.C. Beavis, D. Fenyö: Database searching with mass-spectrometric information, Trends in Biotechnology, vol. 18, 2000, s. 22-27.
- 45. W.-A. Joo, J.-B. Lee, M. Park, J.-W. Lee, H.-J. Kim, C.-W. Kim: Comparison of search engine contributions in protein mass fingerprinting for protein identification, Biotechnology and Bioprocess Engineering, vol. 12(2), 2007, s. 125-130.
- 46. http://expasy.org/
- 47. E. Gasteiger, C. Hoogland, A. Gattiker, S. Duvaud, M.R. Wilkins, R.D. Appel, A. Bairoch: Protein identification and analysis tools on the ExPASy server, The proteomics protocols handbook, vol. 112, 2005, s. 571-607.
- 48. http://www.genebio.com/
- 49. C. Jiménez, L. Huang, Y. Qiu, A. Burlingame: Searching Sequence Databases Over the Internet: Protein Identification Using MS-Fit, Wiley Online Library, 2001.
- 50. T. Sanaki, M. Suzuki, S. H. Lee, T. Goto, T. Oe: A simple and efficient approach to improve protein identification by the peptide mass fingerprinting method: concomitant use of negative ionization, Analytical Methods, vol. 2(8), 2010, s. 1144.
- 51. Z. He, C. Yang, W. Yu: A partial set covering model for protein mixture identification using mass spectrometry data, IEEE/ACM transactions on computational biology and bioinformatics / IEEE, vol. 8(2), 2011, s. 368-380.
- 52. R. Jain, M. Wagner: Kolmogorov-Smirnov scores and intrinsic mass tolerances for peptide mass fingerprinting, Journal of proteome research, vol. 9, 2010, s. 737-742.
- 53. S. K.-W. Tsui, K.-K. Leung: iMOWSE, a scoring scheme bridging in silico and in vitro digestion in peptide mass fingerprints, 2009 IEEE International Conference on Bioinformatics and Biomedicine Workshop, 2009, s. 344.
- 54. Z. Song, L. Chen, D. Xu: Confidence assessment for protein identification by using peptide-mass fingerprinting data, Proteomics, vol. 9, 2009, s. 3090-3099.
- 55. I. Shadforth, D. Crowther, C. Bessant: Search-space reduction of a nonredundant peptide database, Proceedings. 2004 IEEE Computational Systems Bioinformatics Conference, 2004. CSB 2004, 2004, s. 450-451.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BSL4-0012-0032