Tytuł artykułu
Autorzy
Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
An approach to sequence similarity significance estimation
Języki publikacji
Abstrakty
Oszacowanie stopnia podobieństwa sekwencji odgrywa istotną rolę w porównywaniu sekwencji. Aby prawidłowo określić stopień podobieństwa, należy uwzględnić następujące kryteria: - względna zawartość identycznych pozycji, - długość porównywanych sekwencji, - rozmieszczenie pozycji identycznych wzdłuż porównywanego łańcucha, - rodzaj aminokwasów zajmujących pozycje konserwatywne (dla białek), - genetyczne i strukturalne współzależności aminokwasów występujących w odpowiadających sobie pozycjach porównywanych sekwencji (dla białek). Podejście statystyczne opracowane przez Karlina i Altschula pozwala wyodrębnić na tyle duże podobieństwo, by można je było nazwać pokrewieństwem. Nasze rozwiązanie, bazujące na technologii Java, wykorzystuje te same postulaty, wzbogacając dostępną informację o dalsze szczegóły wynikające z dopasowania sekwencji. Nasze podejście wyszukuje sekwencje podobne do sekwencji wzorcowej, w których następnie oszacowany zostaje stopień rozproszenia pozycji identycznych. Identyczności położone blisko siebie w sekwencji są punktowane wyżej niż rozproszone bloki pozycji identycznych, przeplatane odcinkami nieidentycznymi. Co więcej, rozważana grupa sekwencji może być zawężana, by wyodrębnić znaczące pokrewieństwo. W tym celu należy: - zadeklarować wartość progową wartości E-value dla dalszych obliczeń, - wyodrębnić sekwencje o zbliżonej i niskiej wartości E-value, - wyodrębnić sekwencje podobnej długości, - wyodrębnić sekwencje, dla których rozkład pozycji identycznych jest podobny. Wszystkie sekwencje sklasyfikowane jako wzajemnie spokrewnione stanowią dane wejściowe do konstrukcji molekularnego drzewa filogenetycznego. Wzajemny dystans ewolucyjny obliczany jest poprzez analizę dopasowanych par sekwencji z grupy we wszystkich możliwych kombinacjach. Konstrukcja drzewa opiera się na obliczanych wartościach dla konkretnej pary sekwencji w porównaniu do maksymalnego możliwego wyniku dla tej samej względnej zawartości pozycji identycznych oraz długości sekwencji. Praca wykonana została w ramach grantu MAMBA (Centre of Ex- cellence for Multi-scale Biomolecular Modelling, Bioinformatics and Applications) Projekt nr QLRI-CT-2002-90383.
Problem of similarity significance estimation is crucial in sequence comparison work. In order to assess sequence similarity several parameters should be taken into account. They are: - the percentage of identity, - the length of compared sequences, - distribution of the identical positions along the aligned sequences, - the type of units occupying conservative positions (in proteins), - genetic or structural relationships of the units at corresponding positions (in proteins). Statistical approach presented by Karlin and Altschul [1] proposes a model that distinguishes biologically relevant similarities. Our Java application makes use of these formulas but additionally provides more detailed information concerning the alignments. Our approach searches for similar sequences to the query sequence then estimates the distribution of identical positions. Identities which are located in direct mutual neighborhood are scored higher than regular distributed identity blocks separated by non identical blocks. Furthermore an examined group of sequences may be filtered for selecting the actual and univocal homology. This can be accomplished by : - applying the threshold expect (E) value for computation, - selecting the sequences for which E-values are close, - selecting the sequences of similar length, - selecting the sequences that reveal compact blocks of identical positions. All sequences classified as homologous were used to construct the molecular phylogenetic tree by means of pairwise sequence comparison. Phylogenetic tree construction is based on the scores calculated for the most extreme theoretical distribution cases versus scores calculated for particular sequence pair. This work was supported by MAMBA (Centre of Excellence for Multi-scale Biomolecular Modelling, Bioinformatics and Applications) Project No. QLRI-CT-2002-90383.
Czasopismo
Rocznik
Tom
Strony
121--124
Opis fizyczny
Bibliogr. 11 poz.
Twórcy
autor
- Wydział Matematyki i Nauk Informacyjnych, Politechnika Warszawska, Warszawa
autor
- Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski, ul. Żwirki i Wigury 93, 02-089 Warszawa
Bibliografia
- 1. Karlin S., Altschul S. F.: Methods for assessing the statistical significance of molecular sequence features by using genera,l Proc. Natl. Acad. Sci. USA, 87: 2264-2268.
- 2. Pearson W. R., Lipman D. J.: Improved Tools for Biological Sequence Comparison, Proc. Natl. Acad. Sci. USA, 85: 2444- 2448, 1988.
- 3. Pearson W. R.: Rapid and sensitive sequence comparison with FASTP and FASTA, Mehods Enzymol., vol. 183, pp. 63-98. 1990 4. Altschul S. F., Gish W., Miller W., Myers E. W., Lipman D. J.: Basic local alignment search tool, J. Mol. Biol., 215: 403-410, 1990.
- 5. Altschul S. F., Madden T. L., Schäffer A. A., Zhang J., Zhang Z., Miller W., Lipman D. J.: Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, Nucleic Acids Res., 25: 3389-3402, 1997.
- 6. Thompson J. D., Higgins D. G., Gibson T. J.: CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice, Nucleic Acids Research, 22: 4673-4680, 1994.
- 7. Leluk J.: Regularities in mutational variability in selected protein families and the Markovian model of amino acid replacement, Computers & Chemistry, 24: 659-672, 2000.
- 8. Leluk J.: A New Algorithm for Analysis of the Homology in Protein Structure, Computers & Chemistry, 22: 123-131, 1998
- 9. Leluk J.: A non-statistical approach to protein mutational variability. BioSystems, 56: 83-93, 2000.
- 10. Leluk J., Grabiec, M.: Sequence similarity estimation and correlated mutations in selected protein families. I. An approach to protein sequence similarity estimation. Ist Summer School on “Parallel Computing in Biomolecular Simulations", Sept. 1-3, 2001, Gdańsk, Poland; Abstracts L-5, 2001.
- 11. Saitou N., Nei M.: The Neighbor-Joining Method: A New Method For Reconstructing Phylogenetic Trees, Mol. Biol. Evol. 4(4):406- 25, 1987.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-4b9bdf71-5b33-4166-93b8-d92177a2614f