Oszacowanie stopnia podobieństwa sekwencji odgrywa istotną rolę w porównywaniu sekwencji. Aby prawidłowo określić stopień podobieństwa, należy uwzględnić następujące kryteria: - względna zawartość identycznych pozycji, - długość porównywanych sekwencji, - rozmieszczenie pozycji identycznych wzdłuż porównywanego łańcucha, - rodzaj aminokwasów zajmujących pozycje konserwatywne (dla białek), - genetyczne i strukturalne współzależności aminokwasów występujących w odpowiadających sobie pozycjach porównywanych sekwencji (dla białek). Podejście statystyczne opracowane przez Karlina i Altschula pozwala wyodrębnić na tyle duże podobieństwo, by można je było nazwać pokrewieństwem. Nasze rozwiązanie, bazujące na technologii Java, wykorzystuje te same postulaty, wzbogacając dostępną informację o dalsze szczegóły wynikające z dopasowania sekwencji. Nasze podejście wyszukuje sekwencje podobne do sekwencji wzorcowej, w których następnie oszacowany zostaje stopień rozproszenia pozycji identycznych. Identyczności położone blisko siebie w sekwencji są punktowane wyżej niż rozproszone bloki pozycji identycznych, przeplatane odcinkami nieidentycznymi. Co więcej, rozważana grupa sekwencji może być zawężana, by wyodrębnić znaczące pokrewieństwo. W tym celu należy: - zadeklarować wartość progową wartości E-value dla dalszych obliczeń, - wyodrębnić sekwencje o zbliżonej i niskiej wartości E-value, - wyodrębnić sekwencje podobnej długości, - wyodrębnić sekwencje, dla których rozkład pozycji identycznych jest podobny. Wszystkie sekwencje sklasyfikowane jako wzajemnie spokrewnione stanowią dane wejściowe do konstrukcji molekularnego drzewa filogenetycznego. Wzajemny dystans ewolucyjny obliczany jest poprzez analizę dopasowanych par sekwencji z grupy we wszystkich możliwych kombinacjach. Konstrukcja drzewa opiera się na obliczanych wartościach dla konkretnej pary sekwencji w porównaniu do maksymalnego możliwego wyniku dla tej samej względnej zawartości pozycji identycznych oraz długości sekwencji. Praca wykonana została w ramach grantu MAMBA (Centre of Ex- cellence for Multi-scale Biomolecular Modelling, Bioinformatics and Applications) Projekt nr QLRI-CT-2002-90383.
EN
Problem of similarity significance estimation is crucial in sequence comparison work. In order to assess sequence similarity several parameters should be taken into account. They are: - the percentage of identity, - the length of compared sequences, - distribution of the identical positions along the aligned sequences, - the type of units occupying conservative positions (in proteins), - genetic or structural relationships of the units at corresponding positions (in proteins). Statistical approach presented by Karlin and Altschul [1] proposes a model that distinguishes biologically relevant similarities. Our Java application makes use of these formulas but additionally provides more detailed information concerning the alignments. Our approach searches for similar sequences to the query sequence then estimates the distribution of identical positions. Identities which are located in direct mutual neighborhood are scored higher than regular distributed identity blocks separated by non identical blocks. Furthermore an examined group of sequences may be filtered for selecting the actual and univocal homology. This can be accomplished by : - applying the threshold expect (E) value for computation, - selecting the sequences for which E-values are close, - selecting the sequences of similar length, - selecting the sequences that reveal compact blocks of identical positions. All sequences classified as homologous were used to construct the molecular phylogenetic tree by means of pairwise sequence comparison. Phylogenetic tree construction is based on the scores calculated for the most extreme theoretical distribution cases versus scores calculated for particular sequence pair. This work was supported by MAMBA (Centre of Excellence for Multi-scale Biomolecular Modelling, Bioinformatics and Applications) Project No. QLRI-CT-2002-90383.