Substitutionsmodel (i biologi) - et sæt teoretiske eller empiriske regler, der beskriver processen med substitution af nukleotider eller aminosyrer under udviklingen af en DNA- eller proteinsekvens.
Ændring af nukleotidsekvenser som et resultat af tilfældige nukleotidsubstitutioner, -insertioner og -deletioner fører til sekvensdivergens i løbet af evolutionen. Sådanne ændringer kan forblive på DNA-niveau, eller de kan føre til en ændring i proteinsekvensen, som et resultat af, at proteinet kan miste sin funktionalitet eller erhverve nye egenskaber. Valget af regler, ifølge hvilke et nukleotid eller aminosyre erstattes af et andet over tid, er en vigtig del af modellering af evolution og afprøvning af fylogenetiske hypoteser.
De virkelige processer, der ligger til grund for sekvensændringer, er ret komplekse: forskellige nukleotider kan mutere med forskellige hastigheder, udviklingen af nogle steder kan afhænge af udviklingen i andre dele af sekvensen, substitutioner i de samme positioner kan forekomme gentagne gange. Alle disse faktorer øger antallet af modelparametre, hvilket reducerer estimeringsnøjagtigheden. For at opbygge beregnelige modeller anvendes derfor en række forudsætninger af forskellig grad af realisme.
En hyppig forudsætning i konstruktionen af probabilistiske modeller for evolution er hypotesen om molekylært ur . I overensstemmelse med denne hypotese antages længden af efterkommergrene at afhænge af antallet af substitutioner pr. sted, der har fundet sted siden deres adskillelse fra den sidste fælles forfader (MRCA). Hvis det er muligt at opnå sekvenser fra fossiler, kan antallet af udskiftninger pr. sted pr. år for grenen af det undersøgte træ bestemmes nøjagtigt. En model anses for at have et strengt molekylært ur, hvis antallet af udskiftninger pr. år er konstant for alle arter af det pågældende træ. Antagelsen om et strengt molekylært ur er ofte ikke realistisk. For eksempel, på trods af det faktum, at gnavere er genetisk tæt på primater, er udviklingshastigheden for gnavere meget hurtigere (sandsynligvis på grund af det faktum, at længden af generationen af gnavere er meget kortere, og stofskiftet og populationsstørrelsen er højere ). Modeller, der gør det muligt at tage højde for forskellige udviklingshastigheder i forskellige genealogiske linjer, kaldes ikke-strenge (gratis). Variationen i udviklingshastigheder mellem linjer er normalt beskrevet af eksponentielle eller lognormale fordelinger. Et særskilt tilfælde er det såkaldte lokale molekylære ur. Denne model giver forskeren mulighed for at identificere grupper af fylogenetiske afstamninger, som hver har sin egen model af et strengt molekylært ur.
De fleste udskiftningsmodeller er baseret på antagelserne om neutralitet, uafhængighed og et begrænset antal steder. Neutralitet indebærer, at i overensstemmelse med den neutrale teori om molekylær evolution , er de fleste af substitutionerne ikke underlagt selektion, hvilket betyder, at vi ved antallet af substitutioner mellem sekvenser kan bedømme tidspunktet for divergens mellem dem. Uafhængighed i dette tilfælde indikerer, at udskiftningen i denne position ikke påvirker udskiftningerne i de tilstødende. Begrænsetheden af antallet af steder fører til, at substitutioner i en given position kan forekomme mange gange i løbet af evolutionen. Det betyder, at når vi betragter to alignede aminosyrer (A og L) i homologe sekvenser, ved vi normalt ikke, om der var en ændring fra A til L, eller for eksempel en ændring fra A->S->T-> L.
Der er to hovedtilgange til modelbygning: empirisk og parametrisk (Lio og Goldman, 1998) [1] .
Parametriske substitutionsmodeller er blevet udviklet primært til nukleotidsekvenser. I sådanne modeller bestemmes sandsynligheden for substitutioner som en funktion af et antal parametre, der estimeres for hvert sæt data, der undersøges (normalt ved maksimal sandsynlighedsmetoden ). I dette tilfælde overvejes to hovedklasser af parametre: 1) parametre for nukleotidfrekvenser og 2) parametre for substitutionshastigheden (hastigheden). De mest brugte modeller er fra GTR-familien (General Time-Reversible, Simon Tavaré 1986). Denne familie inkluderer alle standard nukleotidsubstitutionsmodeller (JC69, K80 eller K2P, F81, HKY85, TN93, GTR) implementeret i standardpakker til fylogenetisk analyse, såsom MEGA, PAUP, PHYLIP og PHYML.
Empiriske substitutionsmodeller arbejder med succes for at konstruere justeringer og estimere det fylogenetiske forhold mellem proteinsekvenser. For at estimere sandsynligheden for aminosyresubstitution anvendes empiriske substitutionsmatricer , såsom BLOSUM, PAM, WAG, JTT, som blev opnået baseret på en statistisk analyse af frekvenserne af observerede substitutioner i sæt af konservative proteindomæner med varierende grader af evolutionær divergens.
For at beskrive udviklingen af nukleotidsekvenser anvendes oftest parametriske modeller fra GTR-familien (General Time-Reversible modeller). Denne familie inkluderer alle standard nukleotidsubstitutionsmodeller (JC69, K80 eller K2P, F81, HKY85, TN93, GTR) implementeret i standardpakker til fylogenetisk analyse, såsom MEGA, PAUP, PHYLIP og PHYML. Disse modeller adskiller sig i antallet af estimerede parametre og dermed i realismen af antagelserne.
I sin mest generelle form gør GTR-modellen (Tavaré 1986 [2] ) ingen antagelser om nukleotidfrekvenser og sandsynligheden for substitution mellem dem. Det kræver evaluering af fire parametre for ligevægtsfrekvenserne for nukleotider og seks parametre for substitutionshastigheden mellem dem:
Den endelige udskiftningshastighedsmatrix i en sådan model vil se sådan ud:
I modsætning hertil gør den enkleste JC-model (Jukes og Cantor 1969) [3] det største antal forenklede antagelser og kræver, at kun én parameter estimeres. Modellen antager ens frekvenser af alle nukleotider og samme hastighed af substitutioner mellem alle nukleotider (den eneste parameter i modellen). Udskiftningsratematricen i en sådan model har formen:
JC-modellen er dårlig, fordi den ikke tager højde for nogle vigtige egenskaber ved DNA-evolution, såsom forskellige frekvenser af overgange (substitutioner af en purinbase med en anden eller en pyrimidinbase med en anden.) og transversioner (substitutioner af en purinbase) base for en pyrimidinbase og omvendt), samt ulighed mellem nukleotidfrekvenser i reelle nukleotidsekvenser. Ulempen ved GTR-modellen er det store antal parametre, som gør det vanskeligt at evaluere modellen. Derfor bruges mellemmodeller ofte i praksis, hvilket svækker en del af forudsætningerne for JC. For eksempel antager K80-modellen (Kimura 2-parameter 1980) [4] ens nukleotidfrekvenser, men forskellige hastigheder for overgange og transversioner.
Nedenfor er en liste over de mest almindeligt sete modeller af GTR-familien. En model kaldes "indlejret" (indlejret) i en anden model, hvis denne (simpelere) model svarer til en mere kompleks model med specifikke indstillinger. For eksempel er JC-modellen indlejret i K2P. Det vil sige, at JC er et specialtilfælde af K2P-modellen: Hvis du indstiller samme frekvens af overgange og transversioner i K2P, så bliver modellerne ækvivalente.
Jukes-Cantor (JC)Jukes and Cantor (1969) [3] modellen er den enkleste. Det antager de samme nukleotidfrekvenser (25%) og den samme sandsynlighed for substitution mellem et hvilket som helst nukleotidpar. Denne model bruges sjældent til fylogenetisk analyse af virkelige data.
Felsenstein 1981 (F81)Felsenstein-modellen kan ses som en forlængelse af Jukes-Cantor-modellen. Nukleotidfrekvenser kan variere fra 25 %, alle substitutioner er lige sandsynlige (Felsenstein 1981) [5]
Kimura 2-parameter (K80)Kimuras to-parameter model antager samme hyppighed af forekomst af nukleotider, sandsynligheden for substitutioner er forskellig for overgange og transversioner (Kimura 1980) [4] .
Hasegawa-Kishino-Yano (HKY)Denne model tillader samtidig brug af yderligere parametre introduceret i Felsenstein- og Kimura-modellerne. Frekvenserne af nukleotider kan variere, sandsynligheden for substitutioner er forskellig for overgange og transversioner (Hasegawa et. al. 1985) [6] .
Tamura-Nei (TrN)Tamura-Ney-modellen foreslår forskellige nukleotidfrekvenser. Sandsynligheden for substitutioner er den samme for transversioner, men kan variere for overgange (Tamura Nei 1993) [7] .
Generel tid reversibel (GTR)Den mest komplekse model er GTR. Den bruger forskellige frekvenser af nukleotider (4 parametre) og forskellige frekvenser af substitutioner mellem nukleotider (6 parametre) (Lanave et al. 1984, Tavare 1986, Rodriguez et al. 1990).
Substitutionsmodellen kan suppleres med et skøn over frekvensvariation mellem lokaliteter. Mutationshastigheden er ikke den samme over hele sekvensens længde. Steder under konstant positiv selektion (f.eks. antigene determinanter) ændres hyppigere end proteinbindingssteder under negativ selektion. I kodende sekvenser er substitutioner i anden positioner af kodoner i de fleste tilfælde ikke-synonyme og forekommer meget sjældnere end substitutioner i tredje positioner (synonyme). Hyppigheden af substitutioner ved forskellige positioner varierer afhængigt af gammafordelingen (Uzzel og Corbin, 1971; Jin og Nei, 1990; Tamura og Nei, 1993; Wakeley, 1993, Yang, 1996). Formen på gammafordelingen bestemmes af parameteren a. Når a=1, bliver gammafordelingen til en eksponentiel, og efterhånden som en stiger, bliver den mere og mere som en normal. Jo større forskel i udskiftningsfrekvenser, vi forventer at finde i sekvensen, desto mindre bør værdien af parameter a bruges. I modellerne nævnt ovenfor kan man tage højde for forskellen i hyppigheden af udskiftninger i forskellige positioner. Ud over hypotesen om gammafordelingen af frekvensen af substitutioner kan modellen suppleres med en parameter, der beskriver andelen af invariante steder i sekvensen, det vil sige konservative steder, der er under indflydelse af negativ selektion.
Afstande mellem kodende sekvenser måles mere nøjagtigt ved anvendelse af fremgangsmåder baseret på aminosyre- snarere end nukleotid-sammenligninger. En ændring i aminosyre i et protein sker på grund af tilfældig substitution af nukleotider. Sandsynligheden for, at udskiftningen vil blive fikset, afhænger dog af ligheden mellem det aminosyrepar, som udskiftningen sker mellem. Lignende egenskaber (hydrofobicitet, størrelse, ladning osv.) erstattes aminosyrer oftere med hinanden, da dette ikke påvirker proteinets funktion. (Dette gælder for de fleste proteiner i overensstemmelse med teorien om neutralitet og på grund af overvægten af negativ selektion. For antigene determinanter kan situationen være anderledes). Derudover afhænger sandsynligheden for substitution af hyppigheden af forekomsten af disse aminosyrer i naturen og af antallet af nukleotidsubstitutioner (1, 2 eller 3), der adskiller aminosyreparret.
I modsætning til DNA-substitutionsmodeller (nukleotidsubstitutionsmodeller) er de mest almindelige aminosyresubstitutionsmodeller blevet udviklet empirisk. Baseret på eksperimentelle observationer er det for hver aminosyre muligt at estimere sandsynligheden for, at den bevares eller erstattes af hinandens aminosyrer i forskellige grupper af homologe proteiner. Følgelig kan hver hændelse (bevarelse af en aminosyre eller dens erstatning med en anden aminosyre) tildeles visse værdier (positive eller straf), afhængigt af sandsynligheden for disse hændelser. Disse værdier kan præsenteres i form af en tabel (matrix) og bruges ved beregning af aminosyreafstande. Med denne tilgang vil mindre sandsynlige (mindre hyppige) substitutioner blive talt for at øge afstanden mellem sekvenser meget mere end mere sandsynlige substitutioner. De resulterende erstatningsmatricer er symmetriske, det vil sige, at sandsynligheden for at erstatte L->S er lig med sandsynligheden for S->L.
I modeller af aminosyresubstitutioner er parametrene for hyppigheden af forekomst af aminosyrer og sandsynligheden for deres substitution for hinanden ikke adskilt. Som substitutionsmodel anvendes matricer, hvor disse parametre kombineres (på grund af deres empiriske karakter). Aminosyresubstitutionsmatrixen er en 20x20 tabel (matrix), hvor hver celle beskriver sandsynligheden for at erstatte en aminosyre fra den i-te række med en aminosyre fra den j-te kolonne i et vist tidsrum. Retningen af substitutionen er ligegyldig (substitutionsmatricerne er symmetriske). Det er nemmest at antage, at substitution af en aminosyre med en anden er forbudt. Så er sandsynligheden for, at aminosyren ikke har ændret sig 1. Substitutionsmatrixen for denne model er som følger:
Denne matrix kan bruges til en grov analyse af proteiner med en høj grad af lighed, men til meget divergerende sekvenser er den fuldstændig uegnet. For en nøjagtig vurdering af genetiske afstande er det nødvendigt at beregne substitutionssandsynligheder mellem hvert par aminosyrer, der svarer til virkeligheden. De bedste resultater opnås ved at beregne disse sandsynligheder ud fra sæt af præ-alignede sekvenser.
PAM (point accepted mutation) - en fikseret punktmutation - en enkelt aminosyreerstatning, der opstod som et resultat af naturlig selektion. Denne definition omfatter ikke alle punktmutationer, der forekommer i en organisme. Tavse substitutioner, letale mutationer og mutationer, der afvises ved selektion, er ikke "fastpunktsmutationer" i denne sammenhæng. PAM-klassematricerne udviklet af Dayhoff et al. (Dayhoff et al. 1978) [8] var de første matricer baseret på aminosyresubstitutionssandsynligheder. Substitutionsfrekvenser blev afledt fra alignmenter af beslægtede proteiner med mindst 85% lighed. Et højt niveau af lighed giver os mulighed for at håbe, at forskelle i en given position er mere tilbøjelige til at være resultatet af én, snarere end flere, på hinanden følgende substitutioner. Baseret på de resulterende justeringer blev PAM1-matricen beregnet. Indtastningen i den i-te række i den j-te kolonne i PAM1-matricen svarer til sandsynligheden for, at aminosyrerne i og j er blevet erstattet af hinanden som følge af en eller flere "fixed point mutations" i løbet af den evolutionære tid svarende til 1 % af substitutionerne mellem et par sekvenser (erstatter 1 ud af 100). Fra PAM1-matricen blev PAMn-matricerne (PAM50, PAM250 osv.) opnået ved at hæve den til n-potensen. Hver af disse matricer er designet til at analysere sekvenser med tilstrækkelig evolutionær tid imellem dem til, at n mutationer kan forekomme pr. 100 aminosyrer. (I nogle positioner kan der forekomme mere end én substitution i løbet af denne tid.) Information om sandsynligheden for substitutioner i nært beslægtede sekvenser ekstrapoleres således til mindre beslægtede.
JTT-matricerDenne gruppe af matricer er designet på samme måde som PAM-matricer, men på proteinjusteringer fra nyere databaser (Jones et al. 1992 [9] ; Gonnett et al., 1992 [10] ). Der er også en matrix, der er specifikt designet til justeringer af multiple transmembranproteiner (Jones et al, 1994) designet til at bestemme afstande mellem transmembranproteiner.
BLOSUM-matricerDen metodiske tilgang, som Daihoff bruger til at sammenligne tæt beslægtede sekvenser, er ikke altid optimal, når man analyserer fjernt beslægtede sekvenser. Dette problem er løst i BLOSUM-matricer (Bloksubstitutionsmatricer, Henikoff og Henikoff, 1992) [11] . Udviklingen af BLOSUM-matricer er baseret på analysen af kun konservative regioner (blokke) af ikke-nært beslægtede sekvenser. Disse områder betragtes som funktionelt betydningsfulde. Der anvendes matricer BLOSUM62, BLOSUM50, BLOSUM30 osv. (et større antal svarer til en større sekvenslighed). BLOSUMn-matricen beregnes baseret på justeringen af sekvenser, der ikke er mere end n% ens. (For eksempel er BLOSUM62-skabelonen baseret på en justering af proteiner, der ikke er mere end 62 % ens). I modsætning til PAM-matricer bruges ekstrapolation således ikke her, og matricer designet til at analysere stærkt divergerende sekvenser er baseret på analysen af blokke, der har samme niveau af divergens.
Scoringerne i BLOSUM-matricen er logaritmen af forholdet mellem sandsynligheden for, at to aminosyrer i en justering er relateret til sandsynligheden for, at de ikke er relaterede, men matches i en justering af tilfældige årsager:
Her er sandsynligheden for, at aminosyrerne og er beslægtede og erstattede hinanden i evolutionsprocessen, og og er sandsynligheden for at møde de tilsvarende aminosyrer og i en tilfældig proteinsekvens. Koefficient tilføjet for at konvertere matrixværdier til heltalsværdier.
BLOSUM62-matricer bruges (som standard) til at evaluere kvaliteten af proteinsekvensjustering i programmer såsom BLAST.
Matrix for mitokondrielle proteiner fra hvirveldyrAdachi og Hasegawa (1996) [12] udviklede en matrix baseret på beskrivelsen af substitutioner i mitokondrieproteiner fra 20 hvirveldyrarter. Forfatterne viser, at denne model gør det muligt at opbygge de bedste fylogenier, når man arbejder med mitokondrielle proteiner.
En simpel teoretisk model for aminosyresubstitution blev foreslået af Nei (1987). Når der tages højde for flere substitutioner i én position, antages det, at antallet af substitutioner i forskellige positioner varierer i overensstemmelse med fordelingen af sjældne Poisson-hændelser. Denne metode tillader et godt estimat af antallet af aminosyresubstitutioner for nært beslægtede arter.
Gammafordeling af frekvensvariation mellem webstederNår man aligner aminosyresekvenser (på samme måde som nukleotidsekvenser), kan man tage hensyn til de ujævne udviklingshastigheder af forskellige steder. Hyppigheden af substitutioner i forskellige positioner varierer alt efter gammafordelingen (Nei overhovedet, 1976) [13] . Korrektion af justeringsestimatet for ujævne udviklingshastigheder kan indstilles i mange programmer til sekvensjustering.
Den probabilistiske tilgang til fylogeni bruges til at sammenligne og evaluere kvaliteten af fylogenetiske træer, samt til at teste forskellige evolutionære hypoteser (f.eks. sandsynligheden for at finde en gruppe organismer på den samme gren af et træ).
Målet med tilgangen er at rangere træer enten efter deres sandsynlighed P(data|ltree) eller (ved at bruge den Bayesianske tilgang ) i henhold til deres posteriore sandsynlighed P(træ|data). En af forudsætningerne for denne tilgang er valget af en erstatningsmodel, hvorefter sekvenserne på træets grene ændres.
Lad P(x*|T,t . ) være sandsynligheden for datasættet givet træbetingelsen. Data x* er et sæt af n sekvenser x j , j=1...n. T er et træ med n blade og rækkefølge j på blad j, og t . er længderne af træets kanter. Antag dernæst, at vi kan bestemme P(x|y,t), sandsynligheden for, at en forfædres sekvens y transformeres til en sekvens x i en tidsperiode t. Derefter kan sandsynligheden for et træ T med forfædres sekvenser tildelt hjørnerne opnås ved at gange sandsynligheden for alle grene af træet, for eksempel:
P(x1 ,...,x5 | T,t.)= P(x1 | x4 , t1 ) P (x2 | x4 , t2 )P ( x3 | x5 , t3 )P(x 4 |x 5 ,t 4 )P(x 5 ), hvor P(x 5 ) er sandsynligheden for, at sekvens x 5 er ved roden af træet.
For at specificere for hver bestemt P(x|y,t), sandsynligheden for, at sekvens x er dannet ud fra sekvens y i tid t, anvendes en substitutionsmodel. Modeller kan anvendes til både nukleotid- og aminosyresekvenser. I det enkleste tilfælde antages det, at ændringer på hvert sted sker uafhængigt, og sletninger og indsættelser forekommer ikke. En sådan model, suppleret med sandsynligheden for deletioner og indsættelser, tillader en mere realistisk beskrivelse af Markov-processen , som et resultat af hvilken en sekvens af karakterer (nukleotider eller aminosyrer) ændres over tid.
Lad P(b|a) være sandsynligheden for, at karakter a er blevet erstattet af karakter b i en tidsperiode af længden t. Derefter for to uoprettede alignede sekvenser x og y, hvor u er positionen i alignment.
For et alfabet af størrelse K danner substitutionssandsynlighederne P(b|a,t) for alle tegnpar a og b en matrix S(t) af størrelse :
Den specifikke form af matricen S(t) beregnes ud fra den valgte substitutionsmodel. Så i JC-modellen har denne matrix formen:
I dette tilfælde er rt = s t =1/4 med
I K80-modellen har matrixen af betingede substitutionssandsynligheder S(t) formen:
På samme måde kan empiriske substitutionsmodeller for proteinsekvenser anvendes.
Generelt bør man vælge den enkleste model (med et minimum af parametre), der tilstrækkeligt beskriver dataene. En mere kompleks model bør foretrækkes, hvis den giver mulighed for en større stigning i kvaliteten af træet på de data, der undersøges, end hvis den anvendes på tilfældige data.
Metoder, der bruges til at vælge den bedste erstatningsmodel:
1) Hierarkisk likelihood ratio test. Likelihood ratio testen bruges kun til parvis sammenligning af "nested" modeller (Felsenstein, 1981; Huelsenbeck og Crandall, 1997) lnL2) Fordelingen af LRT-statistikken er tæt på chi-kvadratfordelingen. For at bestemme den statistiske signifikans af forskelle mellem de to modeller skal antallet af frihedsgrader derfor bestemmes. Det svarer til antallet af yderligere parametre, der er indført i en mere kompleks model, for at den kan matche den simple. For eksempel skal du justere 4 parametre i HKY85 for at få det til at matche med GTR. Denne information er tilstrækkelig til at bestemme den kritiske værdi af teststatistikken ud fra standardtabellerne.
2) Akaike informationskriterium (Hurvich og Tsai 1989, Sugiura 1978).
3) Bayesiansk informationskriterium (Schwarz 1978).
Programmer, som du kan vælge den bedste model med: jModelTest, PartFinder, MEGA, TreeFinder.
R. Durbin, S. Eddy, A. Krogg, G. Mitchison (2006). "Analyse af biologiske sekvenser". M.-Izhevsk: Forskningscenter "Regulatory and Chaotic Dynamics", Institute of Computer Research - 480p. V.V. Lukashov (2009). "Molekylær evolution og fylogenetisk analyse". M.-Binom. Knowledge Lab - 228s.