Multipel sekvensjustering

Multipel sekvens alignment ( engelsk  multiple sequence alignment, MSA ) - alignment af tre eller flere biologiske sekvenser, normalt proteiner , DNA eller RNA . I de fleste tilfælde antages det, at inputsættet af sekvenser har et evolutionært forhold. Ved hjælp af flere justeringer kan den evolutionære oprindelse af sekvenser vurderes gennem fylogenetisk analyse.

Den visuelle repræsentation af alignment illustrerer mutationshændelser som punktmutationer (ændringer i en aminosyre eller et nukleotid ) som distinkte karakterer i en alignment-søjle, såvel som deres indsættelser og deletioner (repræsenteret med en bindestreg , huller).

Multiple sekvensjusteringer bruges ofte til at vurdere bevarelsen af ​​proteindomæner , tertiære og sekundære strukturer og endda enkelte aminosyrerester eller nukleotider .

På grund af den større beregningsmæssige kompleksitet sammenlignet med parvis justering, kræver multipel justering mere komplekse algoritmer. Mange relaterede programmer bruger heuristiske algoritmer, fordi det kan være meget tidskrævende at finde en global optimal justering for mange sekvenser.

Dynamisk programmering og beregningsmæssig kompleksitet

For at konstruere en global optimal justering bruges dynamisk programmering direkte . For proteinsekvenser er der to sæt parametre: gap penalty og substitutionsmatrixen, som indeholder sandsynligheden for at matche et par aminosyrerester baseret på ligheden mellem deres kemiske egenskaber og den evolutionære sandsynlighed for mutation. For nukleotidsekvenser bruges gap penalty også, men substitutionsmatricen er meget enklere, den tager kun højde for fuldstændige matchninger af nukleotider eller mismatches, dvs. fuldstændige mismatches [1] .

For n individuelle sekvenser kræver den naive metode at konstruere den n-dimensionelle ækvivalent af den matrix, der bruges til parvis alignment. Efterhånden som n vokser, vokser søgerummet eksponentielt . Den naive algoritme har således beregningsmæssig kompleksitet O(Længde af sekvenser Nsequences ). At finde det globale optimum for n sekvenser er et NP-komplet problem [2] [3] [4] .

I 1989, baseret på Carrillo-Lipman-algoritmen [5] , introducerede Altschul en praktisk tilgang, der brugte parvise justeringer til at begrænse det n-dimensionelle søgerum [6] . Med denne tilgang udføres dynamisk programmering på hvert par af sekvenser fra inputsættet, og der søges kun i området, der er placeret nær den n-dimensionelle skæring af disse stier. Programmet optimerer summen af ​​alle tegnpar på hver position i justeringen (summen af ​​parvægte) [7]

Progressiv justering

En meget brugt tilgang er progressiv alignment ved hjælp af en heuristisk algoritme udviklet af Paulien Hogeweg og Ben Hesper i 1984 [8] . Alle progressive justeringsmetoder har to vigtige trin: opbygning af et binært træ (stitræ), hvor bladene er sekvenser, og opbygning af en multipel justering ved at tilføje sekvenser til den voksende justering i henhold til stitræet. Selve stitræet kan bygges ved klyngemetoder såsom UPGMA og nabosammenføjning [9] .

Progressiv justering garanterer ikke en global optimal justering. Problemet er, at fejl genereret på et hvilket som helst trin af den voksende multiple justering ender i den endelige justering. Derudover kan justeringen være særlig dårlig i tilfælde af et sæt sekvenser, der er meget fjernt fra hinanden. De fleste moderne progressive metoder har en modificeret vægtningsfunktion med en sekundær vægtningsfunktion, der tildeler koefficienter til individuelle elementer i datasættet på en ikke-lineær måde baseret på deres fylogenetiske afstand fra nærmeste naboer [9] .

De progressive alignment-metoder er effektive nok til at blive anvendt på et stort antal (100-1000) sekvenser. Den mest populære progressive tilpasningsmetode tilhører Clustal [10] -familien , især den vægtede ClustalW [11] -variant , som kan tilgås gennem portaler såsom GenomeNet , EBI , EMBNet Arkiveret 1. maj 2011 på Wayback Machine . ClustalW bruges aktivt til at bygge fylogenetiske træer på trods af forfatterens advarsler om, at ukontrollerede håndjusteringer ikke bør bruges hverken i træbygning eller som input til forudsigelse af proteinstruktur . Den nuværende version af Clustal er Clustal Omega, som arbejder baseret på stitræer og HMM profil-profilmetoder til proteinjusteringer. Forskellige værktøjer er også foreslået til at konstruere progressive justeringer af DNA-sekvenser. En af dem er MAFFT ( Multiple Alignment using Fast Fourier Transform ) [12] . 

En anden almindelig progressiv alignment-metode, T-Coffee [13] , er langsommere end Clustal og dets derivater, men producerer generelt mere nøjagtige alignments for fjernt beslægtede sekvenser. T-Coffee bygger et bibliotek af parrede justeringer, som den derefter bruger til at bygge flere justeringer.

Fordi progressive metoder er heuristiske, er de ikke garanteret at konvergere til et globalt optimum; linjeføringens kvalitet og dens biologiske betydning kan være svær at vurdere. En semi-progressiv metode, der forbedrer alignment-kvaliteten og ikke bruger tabsgivende heuristik, udføres i polynomiel tid ( PSAlign Archived 18 July 2011 at the Wayback Machine ) [14] .

Iterative metoder

Et sæt metoder til at konstruere flere justeringer, der reducerer de fejl, der nedarves i progressive metoder, er klassificeret som " iterativ ". De fungerer på samme måde som progressive metoder, men de omarrangerer gentagne gange de originale justeringer, efterhånden som nye sekvenser tilføjes. Progressive metoder er meget afhængige af kvaliteten af ​​de indledende justeringer, da de vil ende i det endelige resultat uændret og derfor med fejl. Med andre ord, hvis sekvensen allerede er på linje, vil dens yderligere position ikke ændre sig. Denne tilnærmelse forbedrer effektiviteten, men påvirker resultatets nøjagtighed negativt. I modsætning til progressive metoder kan iterative metoder vende tilbage til oprindeligt beregnede parvise justeringer og sub-alignments, der indeholder undersæt af sekvenser fra forespørgslen, og dermed optimere den overordnede objektivfunktion og forbedre kvaliteten [9] .

Der er en bred vifte af iterative metoder. For eksempel bruger PRRN/PRRP en toppunktklatringsalgoritme til at optimere vægten af ​​flere justeringer [15] og justerer iterativt justeringsvægtene og multi-gap-området [9] . PRRP fungerer mere effektivt, når det forbedrer justeringen, der tidligere er bygget med den hurtige metode [9] .

Et andet iterativt program, DIALIGN, tager en usædvanlig tilgang ved at fokusere på lokale justeringer af undersegmenter eller sekvensmotiver uden at indføre en gap penalty [16] . Justering af individuelle motiver præsenteres i en matrixform, svarende til et prikplot i parret justering. En alternativ metode, der bruger hurtige lokale justeringer som ankerpunkter for en langsommere global justering konstruktionsprocedure, er tilvejebragt i CHAOS/DIALIGN softwaren [16] .

Den tredje populære iterative metode kaldes MUSKEL. Det er en forbedring i forhold til progressive metoder, fordi det bruger mere nøjagtige afstande til at estimere forholdet mellem to sekvenser [17] . Afstande opdateres mellem iterationer (selvom MUSKEL oprindeligt kun indeholdt 2-3 iterationer).

Konsensusmetoder

Konsensusmetoder forsøger at vælge den optimale multiple justering fra forskellige multiple justeringer af det samme sæt inputdata. Der er to mest almindelige konsensusmetoder: M-COFFEE og MergeAlign [18] . M-COFFEE bruger flere justeringer genereret af 7 forskellige metoder til at opnå konsensus justeringer. MergeAlign er i stand til at generere konsensusjusteringer fra et vilkårligt antal inputjusteringer afledt af forskellige sekvensudviklingsmodeller og konstruktionsmetoder. Standardindstillingen for MergeAlign er at udlede en konsensusjustering ved hjælp af justeringer afledt af 91 forskellige modeller for proteinsekvensudvikling.

Skjulte Markov-modeller

Skjulte Markov-modeller (HMM'er) er probabilistiske modeller, der kan evaluere sandsynligheden for alle mulige kombinationer af huller, matchninger eller uoverensstemmelser for at bestemme den mest sandsynlige multiple justering eller sæt af dem. HMM'er kan producere en enkelt højtvægtet justering, men kan også generere en familie af mulige justeringer, som derefter kan evalueres for deres biologiske betydning. HMM'er kan bruges til at opnå både globale og lokale justeringer. Selvom HMM-baserede metoder er relativt nye, har de vist sig at være metoder med betydelige forbedringer i beregningskompleksitet, især for sekvenser, der indeholder overlappende regioner [9] .

Standardmetoder baseret på HMM repræsenterer multipel justering i form af en rettet acyklisk graf , kendt som en partiel ordensgraf, som består af en række knudepunkter, der repræsenterer de mulige tilstande i justeringskolonnerne. I denne repræsentation er en perfekt konservativ søjle (dvs. sekvenser i en multipel justering har et bestemt tegn i den position) kodet som en enkelt knude med mange udgående forbindelser med tegn mulige i den næste alignment-position. Med hensyn til standard Hidden Markov Model er de observerede tilstande individuelle justeringssøjler, og de "skjulte" tilstande repræsenterer en antaget forfædres sekvens, hvorfra sekvenser i inputsættet kunne være nedstammet. En effektiv dynamisk programmeringsteknik, Viterbi-algoritmen , er meget brugt til at opnå god justering [19] . Den adskiller sig fra progressive metoder ved, at justeringen af ​​de første sekvenser omarrangeres, efterhånden som hver ny sekvens tilføjes. Men ligesom progressive metoder kan denne algoritme blive påvirket af den rækkefølge, hvori sekvenser fra inputsættet kommer ind i alignment, især i tilfælde af evolutionært løst koblede sekvenser [9] .

Selvom HMM-metoder er mere komplekse end almindeligt anvendte progressive metoder, er der flere programmer til at opnå justeringer, såsom POA [20] såvel som en lignende, men mere generel metode i SAM [21] og HMMER [22] -pakkerne . SAM bruges til at opnå justeringer til forudsigelse af proteinstruktur i CASP-eksperimentet for gærproteiner . HHsearch, baseret på parvis sammenligning af HMM'er, bruges til at søge efter fjernt beslægtede sekvenser. Serveren, der kørte HHsearch (HHpred) var den hurtigste af de 10 bedste automatiske servere til forudsigelse af proteinstruktur i CASP7 og CASP8 [23] .

Genetiske algoritmer og annealing modellering

Standard optimeringsteknikker inden for datalogi, som tillader modellering, men ikke direkte gengivelse af den fysiske proces, bruges også til at bygge flere justeringer mere effektivt. En sådan teknik, den genetiske algoritme , er blevet brugt til at konstruere en multipel sekvensjustering baseret på en hypotetisk evolutionær proces, der gav sekvensdivergens. Denne metode fungerer ved at opdele en række mulige MSA'er i bidder og omarrangere disse bidder igen, hvilket introducerer pauser på forskellige positioner. Hovedmålfunktionen optimeres under denne proces, normalt ved at maksimere "parsummer" ved hjælp af dynamiske programmeringsmetoder. Denne metode er implementeret for proteinsekvenser i SAGA ( Sequence Alignment by Genetic Algorithm )  [ 24] -software og for RNA-sekvenser i RAGA [25] .

Ved hjælp af simuleringsudglødningsmetoden raffineres en eksisterende multipel justering bygget af en anden metode i en række omarrangeringer for at finde bedre justeringsområde, end det var før. Som i tilfældet med den genetiske algoritme, maksimerer annealingssimuleringen den objektive funktion som en funktion af summen af ​​parrene. Udglødningssimuleringen bruger en betinget "temperaturfaktor", der bestemmer niveauet af omlejringer, der forekommer, og sandsynlighedsniveauet for hver omlejring. Det er typisk at bruge skiftende perioder med høj realignment og lav sandsynlighed (for at finde de yderste regioner i alignment) med perioder med lav realignment og høj sandsynlighed for nærmere at undersøge lokale minima nær nye alignment kolonner. Denne tilgang blev implementeret i MSASA-programmet ( Multiple Sequence Alignment by  Simulated Annealing ) [26] .

Metoder baseret på fylogenetisk analyse

De fleste multiple justeringsmetoder forsøger at minimere antallet af indsættelser/deletioner (huller), hvilket resulterer i kompakte justeringer. Denne tilgang kan føre til tilpasningsfejl, hvis de justerede sekvenser indeholdt ikke-homologe regioner, og hvis hullerne er informative i fylogenetisk analyse. Disse problemer er almindelige i nye sekvenser, der er dårligt kommenterede og kan indeholde frameshifts , fejldomæner eller ikke-homologe splejsede exoner .

Den første metode baseret på fylogenianalyse blev udviklet af Loitinoge og Goldman i 2005 [27] . I 2008 udgav de samme forfattere den tilsvarende software - PRANK [28] . PRANK forbedrer justeringer, når der er skær. Det er dog langsommere end de progressive og/eller iterative metoder [29] , der blev udviklet år før.

I 2012 dukkede to nye metoder baseret på fylogenetisk analyse op. Den første, kaldet PAGAN, blev udviklet af PRANK-holdet, og den anden, kaldet ProGraphMSA, blev udviklet af Zhalkovsky [30] . Deres software blev udviklet uafhængigt, men deler fælles træk: begge bruger grafalgoritmer til at forbedre genkendelsen af ​​ikke-homologe områder, og forbedringer i koden gør dem hurtigere end PRANK .

Søg efter motiver

Motivsøgning, eller på anden måde profilering, er en metode til at finde placeringen af ​​et motiv i en global multiple alignment som et middel til at opnå den bedste MSA og den gennemsnitlige vægt af den resulterende matrix for at bruge den til at søge efter andre sekvenser med lignende motiver. Mange metoder er blevet udviklet til at bestemme motiver, men de er alle afhængige af at finde korte, meget konserverede mønstre i et større alignmentmønster og konstruere en matrix svarende til en substitutionsmatrix. Denne matrix afspejler nukleotid- eller aminosyresammensætningen for hver position i det formodede motiv. Justeringen kan derefter forfines ved hjælp af disse matricer. I standardprofilanalyse inkluderer denne matrix indgange for både hvert muligt symbol og mellemrummet [9] . I modsætning hertil søger den statistiske mønstersøgningsalgoritme først efter motiver og bruger derefter de fundne motiver til at bygge en multipel justering. I mange tilfælde, når det oprindelige sæt af sekvenser indeholder et lille antal sekvenser eller kun meget relaterede sekvenser, tilføjes pseudo -tællinger for at normalisere fordelingen afspejlet i vægtmatricen. Det hjælper især at undgå nuller i sandsynlighedsmatricen for ikke at få værdien af ​​uendelighed i positionsvægtmatricen .

Blokanalyse er en motivsøgningsmetode udført i mellemrumsfri alignment-regioner. Blokke kan genereres fra flere justeringer eller afledes fra fejljusterede sekvenser ved at forudberegne flere fælles motiver fra kendte genfamilier [31] . Blokstimering er normalt baseret på et rum af højfrekvente symboler snarere end en eksplicit beregning af erstatningsmatricer. BLOCKS - serveren giver en alternativ metode til at lokalisere sådanne motiver i ikke-justerede sekvenser.

Statistisk mønstermatching udføres ved hjælp af forventningsmaksimering og Gibbs samplingsalgoritme . For at søge efter motiver er den mest brugte server MEME , som bruger forventningsmaksimeringsalgoritmen og metoden for skjulte Markov-modeller, samt MEME/MAST [32] [33] , som desuden bruger MAST-algoritmen.

Multipel alignment af ikke-kodende sekvenser

Nogle ikke-proteinkodende regioner af DNA, især transkriptionsfaktorbindingssteder (TFBS), er mere konserverede og ikke nødvendigvis evolutionært beslægtede, da disse steder kan forekomme i ikke-homologe sekvenser. Således er de antagelser, der anvendes til at tilpasse proteinsekvenser og DNA-kodende regioner, ikke passende for sekvenser af transkriptionsfaktorbindingssteder. Selvom det giver mening at tilpasse proteinkodende DNA-regioner til homologe sekvenser ved hjælp af mutationsoperatorer, kan tilpasning af bindingsstedsekvenser for den samme transkriptionsfaktor ikke være baseret på evolutionært relaterede mutationsoperationer. Tilsvarende kan den evolutionære punktmutationsoperator bruges til at bestemme redigeringsafstand for kodende sekvenser, men er til ringe nytte for transkriptionsfaktorbindingsstedsekvenser på grund af det faktum, at enhver sekvensændring skal bevare et vist niveau af specificitet for at udføre bindingsfunktionen. Dette bliver især vigtigt, når sekvensjustering af transkriptionsfaktorbindingssteder er nødvendig for at bygge observerbare modeller til at forudsige ukendte loci af den samme TFBS. Derfor skal flere justeringsmetoder justeres for at tage højde for de vigtigste evolutionære hypoteser og bruge visse operatører, som i den termodynamisk følsomme EDNA- metode til at justere bindingssteder [34] .

Justeringsvisualisering og kvalitetskontrol

Behovet for at bruge heuristiske tilgange til multiple alignment fører til det faktum, at et vilkårligt udvalgt sæt af proteiner kan være fejljusteret med stor sandsynlighed. For eksempel viste evaluering af nogle førende tilpasningsprogrammer ved brug af BAliBase benchmark [35] , at mindst 24% af alle justerede aminosyrepar er forkert justeret [36] . Disse fejl kan opstå på grund af unikke indsættelser i en eller flere sektioner af sekvenserne. De kan også skyldes en mere kompleks evolutionær proces, der resulterer i proteiner, der er svære at aligne i sekvens alene, og for en god alignment skal du vide noget andet, såsom struktur. Efterhånden som antallet af alignede sekvenser stiger, og deres divergens stiger, stiger fejlen på grund af den heuristiske natur af multiple alignment-algoritmer. Multiple alignment visualizers giver dig mulighed for visuelt at evaluere alignment ofte ved at kontrollere kvaliteten af ​​alignment for kommenterede funktionelle regioner i to eller flere sekvenser. Mange visualizere giver dig også mulighed for at redigere justeringen ved at rette fejl (normalt af mindre karakter) for at opnå en optimal kureret justering, der er egnet til brug i fylogenetisk analyse eller sammenlignende modellering [37] .

Men da antallet af sekvenser stiger, især i genom-dækkende undersøgelser, der involverer mange multiple justeringer, bliver det umuligt manuelt at kurere alle justeringer. Også manuel kuration er subjektiv. Og endelig kan selv den bedste ekspert ikke med sikkerhed bringe mange tvetydige sager på linje i stærkt divergerende sekvenser. I sådanne tilfælde er det almindelig praksis at bruge automatiske procedurer til at eliminere upålideligt justerede områder med flere justeringer. For at opnå fylogenetiske rekonstruktioner bruges Gblocks-programmet i vid udstrækning til at fjerne alignment-blokke med angiveligt lav kvalitet i overensstemmelse med forskellige cutoffs af antallet af sekvenser med huller i alignment-kolonner [38] . Samtidig kan disse kriterier overdrevent bortfiltrere regioner med insertioner/deletioner, der kunne justeres pålideligt, og disse regioner kan være nyttige til at identificere positiv selektion. Få alignment-algoritmer producerer en stedspecifik alignmentvægt, der kunne tillade udvælgelse af meget konserverede regioner. Denne mulighed blev først givet af SOAP -programmet [39] , som tester modstanden af ​​hver kolonne over for parameterudsving i det populære ClustalW-justeringsprogram. T - Coffee [39] -programmet bruger et alignment-bibliotek til at generere den endelige multiple alignment og producerer en multiple alignment farvet i overensstemmelse med en konfidensscore, der afspejler overensstemmelsen mellem de forskellige alignmenter i biblioteket for hver af de justerede residualer. TCS ( Transitive Consistency Score ) er en udvidelse, der bruger T-Coffee parvise alignment-bibliotek til at score hver tredje multiple alignment .  Parvise projektioner kan skabes ved hjælp af hurtige eller langsomme metoder, så der kan findes et kompromis mellem beregningshastighed og nøjagtighed [40] [41] . Et andet justeringsprogram, FSA ( eng. Fast statistical alignment ), bruger statistiske modeller til at beregne alignment-fejlen og kan producere multiple alignment med et estimat af niveauet af dets pålidelighed. HoT-scoren ( Heads -Or-Tails ) kan bruges til at måle fejlene ved stedspecifikke justeringer, hvor der kan opstå fejl på grund af eksistensen af ​​flere co-optimale løsninger. GUIDANCE [42] -programmet beregner et lignende stedspecifikt konfidensmål baseret på stabiliteten af ​​justeringen til usikkerhed i styretræet, som bruges, som nævnt ovenfor, i progressive alignment-programmer . Samtidig er en mere statistisk forsvarlig tilgang til at estimere tilpasningsusikkerheder at bruge probabilistiske evolutionære modeller til i fællesskab at estimere fylogeni og tilpasning. Den Bayesianske tilgang beregner posteriore sandsynligheder for fylogeni og tilpasningsestimater, som måler tillidsniveauet i disse estimater. I dette tilfælde kan den posteriore sandsynlighed beregnes for hvert sted i linjeføringen. Denne tilgang er implementeret i Bali-Phy-programmet [43] .   

Brug i fylogenetik

Multipel sekvensjustering kan bruges til at konstruere et fylogenetisk træ [44] . Dette er muligt af to årsager. For det første kan funktionelle domæner, der er kendt for annoterede sekvenser, anvendes til at aligne uannoterede sekvenser. For det andet kan konservative regioner have funktionel betydning. På grund af dette kan flere justeringer bruges til at analysere og finde evolutionære forhold gennem sekvenshomologi. Punktmutationer og indsættelser/delinger kan også påvises [45] .

Lokalisering af bevarede domæner ved multiple alignment kan også bruges til at identificere funktionelt vigtige steder, såsom bindingssteder , regulatoriske steder eller steder, der er ansvarlige for andre nøglefunktioner. Når du analyserer flere justeringer, er det nyttigt at overveje forskellige karakteristika. Sådanne nyttige alignmentkarakteristika indbefatter sekvensidentitet , lighed og homologi . Identitet bestemmer, at sekvenserne har de samme rester på de tilsvarende positioner. Lighed bestemmes af lignende rester i et kvantitativt forhold. For eksempel, hvad angår nukleotidsekvenser, anses pyrimidiner for at ligne hinanden, ligesom puriner . Lighed fører til sidst til homologi, så jo mere ens sekvenser er, jo tættere er de homologer. Også sekvenslighed kan hjælpe med at finde en fælles oprindelse [46] .

Noter

  1. Hjælp til matricer brugt i sekvenssammenligningsværktøjer (downlink) . European Bioinformatics Institute. Hentet 3. marts 2010. Arkiveret fra originalen 11. marts 2010. 
  2. Wang L. , Jiang T. Om kompleksiteten af ​​multipel sekvensjustering.  (engelsk)  // Journal of computational biology : a journal of computational molecular cell biology. - 1994. - Bd. 1, nr. 4 . - s. 337-348. - doi : 10.1089/cmb.1994.1.337 . — PMID 8790475 .
  3. Bare W. Beregningsmæssig kompleksitet af multipel sekvensjustering med SP-score.  (engelsk)  // Journal of computational biology : a journal of computational molecular cell biology. - 2001. - Bd. 8, nr. 6 . - s. 615-623. - doi : 10.1089/106652701753307511 . — PMID 11747615 .
  4. Elias I. Afgør det vanskelige ved multiple alignment.  (engelsk)  // Journal of computational biology : a journal of computational molecular cell biology. - 2006. - Bd. 13, nr. 7 . - S. 1323-1339. - doi : 10.1089/cmb.2006.13.1323 . — PMID 17037961 .
  5. Carrillo H., Lipman DJ The Multiple Sequence Alignment Problem in Biology  // SIAM  Journal of Applied Mathematics : journal. - 1988. - Bd. 48 , nr. 5 . - S. 1073-1082 . - doi : 10.1137/0148063 .
  6. Lipman DJ , Altschul SF , Kececioglu JD Et værktøj til multipel sekvensjustering.  (engelsk)  // Proceedings of the National Academy of Sciences of the United States of America. - 1989. - Bd. 86, nr. 12 . - P. 4412-4415. — PMID 2734293 .
  7. Software til genetisk analyse . Nationalt Center for Bioteknologisk Information. Dato for adgang: 3. marts 2010. Arkiveret fra originalen den 28. september 2009.
  8. Hogeweg P. , Hesper B. Tilpasningen af ​​sæt af sekvenser og konstruktionen af ​​filetiske træer: en integreret metode.  (engelsk)  // Journal of molecular evolution. - 1984. - Bd. 20, nr. 2 . - S. 175-186. — PMID 6433036 .
  9. 1 2 3 4 5 6 7 8 Mount DM Bioinformatics: Sequence and Genome Analysis 2. udg. (engelsk)  // Cold Spring Harbor: journal. – 2004.
  10. Higgins DG , Sharp PM CLUSTAL: en pakke til at udføre multiple sekvenssekvensjustering på en mikrocomputer.  (engelsk)  // Gene. - 1988. - Bd. 73, nr. 1 . - S. 237-244. — PMID 3243435 .
  11. Thompson JD , Higgins DG , Gibson TJ CLUSTAL W: forbedring af følsomheden af ​​progressiv multipel sekvensjustering gennem sekvensvægtning, positionsspecifikke gap-straffe og vægtmatrixvalg.  (engelsk)  // Nukleinsyreforskning. - 1994. - Bd. 22, nr. 22 . - P. 4673-4680. — PMID 7984417 .
  12. EMBL-EBI-ClustalW2-Multiple Sequence Alignment . CLUSTALW2 . Hentet 12. april 2016. Arkiveret fra originalen 14. april 2016.
  13. Notredame C. , Higgins DG , Heringa J. T-Coffee: En ny metode til hurtig og nøjagtig justering af flere sekvenser.  (engelsk)  // Journal of molecular biology. - 2000. - Vol. 302, nr. 1 . - S. 205-217. - doi : 10.1006/jmbi.2000.4042 . — PMID 10964570 .
  14. Sze SH , Lu Y. , Yang Q. En polynomisk tidsopløselig formulering af multipel sekvenssekvensjustering.  (engelsk)  // Journal of computational biology : a journal of computational molecular cell biology. - 2006. - Bd. 13, nr. 2 . - S. 309-319. - doi : 10.1089/cmb.2006.13.309 . — PMID 16597242 .
  15. Gotoh O. Betydelig forbedring af nøjagtigheden af ​​multiple proteinsekvensjusteringer ved iterativ forfining vurderet ved reference til strukturelle justeringer.  (engelsk)  // Journal of molecular biology. - 1996. - Bd. 264, nr. 4 . - s. 823-838. - doi : 10.1006/jmbi.1996.0679 . — PMID 8980688 .
  16. 1 2 Brudno M. , Chapman M. , Göttgens B. , Batzoglou S. , Morgenstern B. Hurtig og følsom multiple alignment af store genomiske sekvenser.  (engelsk)  // BMC bioinformatik. - 2003. - Bd. 4. - S. 66. - doi : 10.1186/1471-2105-4-66 . — PMID 14693042 .
  17. Edgar RC MUSKEL: multipel sekvensjustering med høj nøjagtighed og høj gennemstrømning.  (engelsk)  // Nukleinsyreforskning. - 2004. - Bd. 32, nr. 5 . - P. 1792-1797. doi : 10.1093 / nar/gkh340 . — PMID 15034147 .
  18. Collingridge PW , Kelly S. MergeAlign: forbedring af multiple sekvens alignment ydeevne ved dynamisk rekonstruktion af konsensus multiple sekvens alignments.  (engelsk)  // BMC bioinformatik. - 2012. - Bd. 13. - S. 117. - doi : 10.1186/1471-2105-13-117 . — PMID 22646090 .
  19. Hughey R. , Krogh A. Hidden Markov-modeller til sekvensanalyse: udvidelse og analyse af den grundlæggende metode.  (engelsk)  // Computerapplikationer i biovidenskaberne : CABIOS. - 1996. - Bd. 12, nr. 2 . - S. 95-107. — PMID 8744772 .
  20. Grasso C. , Lee C. Kombination af partiel ordensopstilling og progressiv multipelsekvensjustering øger tilpasningshastigheden og skalerbarheden til meget store tilpasningsproblemer.  (engelsk)  // Bioinformatik. - 2004. - Bd. 20, nr. 10 . - S. 1546-1556. - doi : 10.1093/bioinformatics/bth126 . — PMID 14962922 .
  21. Hughey R, Krogh A. SAM: Sequence alignment and modeling software system. Teknisk rapport UCSC-CRL-96-22, University of California, Santa Cruz, CA, september 1996.
  22. Durbin R, Eddy S, Krogh A, Mitchison G. Biologisk sekvensanalyse: probabilistiske modeller af proteiner og nukleinsyrer . - Cambridge University Press, 1998. - ISBN 0-521-63041-4 .
  23. Battey JN , Kopp J. , Bordoli L. , Read RJ , Clarke ND , Schwede T. Automatiserede serverforudsigelser i CASP7.  (engelsk)  // Proteiner. - 2007. - Bd. 69 Suppl 8.-S. 68-82. - doi : 10.1002/prot.21761 . — PMID 17894354 .
  24. Notredame C. , Higgins DG SAGA: sekvensjustering ved genetisk algoritme.  (engelsk)  // Nukleinsyreforskning. - 1996. - Bd. 24, nr. 8 . - S. 1515-1524. — PMID 8628686 .
  25. Notredame C. , O'Brien EA , Higgins DG RAGA: RNA-sekvensjustering ved genetisk algoritme.  (engelsk)  // Nukleinsyreforskning. - 1997. - Vol. 25, nr. 22 . - S. 4570-4580. — PMID 9358168 .
  26. Kim J. , Pramanik S. , Chung MJ Multipel sekvensjustering ved hjælp af simuleret annealing.  (engelsk)  // Computerapplikationer i biovidenskaberne : CABIOS. - 1994. - Bd. 10, nr. 4 . - S. 419-426. — PMID 7804875 .
  27. Löytynoja A. , Goldman N. En algoritme til progressiv multipel justering af sekvenser med insertioner.  (engelsk)  // Proceedings of the National Academy of Sciences of the United States of America. - 2005. - Bd. 102, nr. 30 . - P. 10557-10562. - doi : 10.1073/pnas.0409137102 . — PMID 16000407 .
  28. Löytynoja A. , Goldman N. Fylogeni-bevidst spalteplacering forhindrer fejl i sekvensjustering og evolutionær analyse.  (engelsk)  // Science (New York, NY). - 2008. - Bd. 320, nr. 5883 . - S. 1632-1635. - doi : 10.1126/science.1158395 . — PMID 18566285 .
  29. Lupyan D. , Leo-Macias A. , Ortiz AR En ny progressiv-iterativ algoritme til justering af flere strukturer.  (engelsk)  // Bioinformatik. - 2005. - Bd. 21, nr. 15 . - s. 3255-3263. - doi : 10.1093/bioinformatics/bti527 . — PMID 15941743 .
  30. Szalkowski AM Hurtig og robust flersekvensjustering med fylogenibevidst spalteplacering.  (engelsk)  // BMC bioinformatik. - 2012. - Bd. 13. - S. 129. - doi : 10.1186/1471-2105-13-129 . — PMID 22694311 .
  31. Henikoff S. , Henikoff JG Automatiseret samling af proteinblokke til databasesøgning.  (engelsk)  // Nukleinsyreforskning. - 1991. - Bd. 19, nr. 23 . - P. 6565-6572. — PMID 1754394 .
  32. Bailey TL , Elkan C. Tilpasning af en blandingsmodel ved forventningsmaksimering for at opdage motiver i biopolymerer.  (engelsk)  // Proceedings / ... International konference om intelligente systemer til molekylærbiologi; ISMB. International konference om intelligente systemer til molekylærbiologi. - 1994. - Bd. 2. - S. 28-36. — PMID 7584402 .
  33. Bailey TL , Gribskov M. Kombination af bevis ved hjælp af p-værdier: anvendelse på sekvenshomologisøgninger.  (engelsk)  // Bioinformatik. - 1998. - Bd. 14, nr. 1 . - S. 48-54. — PMID 9520501 .
  34. Salama RA , Stekel DJ En ikke-uafhængig energibaseret multipel sekvensjustering forbedrer forudsigelse af transkriptionsfaktorbindingssteder.  (engelsk)  // Bioinformatik. - 2013. - Bd. 29, nr. 21 . - P. 2699-2704. - doi : 10.1093/bioinformatics/btt463 . — PMID 23990411 .
  35. Bahr A. , ​​Thompson JD , Thierry JC , Poch O. BAliBASE (Benchmark Alignment dataBASE): forbedringer for gentagelser, transmembransekvenser og cirkulære permutationer.  (engelsk)  // Nukleinsyreforskning. - 2001. - Bd. 29, nr. 1 . - S. 323-326. — PMID 11125126 .
  36. Nuin PA , Wang Z. , Tillier ER Nøjagtigheden af ​​adskillige multiple sekvensjusteringsprogrammer for proteiner.  (engelsk)  // BMC bioinformatik. - 2006. - Bd. 7. - S. 471. - doi : 10.1186/1471-2105-7-471 . — PMID 17062146 .
  37. Aidan Budd. Manuel redigering og justering af MSA'er (multiple Sequence Alignments) (downlink) . www.embl.de. Hentet 23. april 2016. Arkiveret fra originalen 24. september 2015. 
  38. Castresana J. Udvælgelse af konserverede blokke fra flere justeringer til deres anvendelse i fylogenetisk analyse.  (engelsk)  // Molekylær biologi og evolution. - 2000. - Vol. 17, nr. 4 . - S. 540-552. — PMID 10742046 .
  39. 1 2 Löytynoja A. , Milinkovitch MC SOAP, renser flere justeringer fra ustabile blokke.  (engelsk)  // Bioinformatik. - 2001. - Bd. 17, nr. 6 . - S. 573-574. — PMID 11395440 .
  40. Chang JM , Di Tommaso P. , Notredame C. TCS: en ny multipel sekvens alignment pålidelighedsmål til at estimere alignment nøjagtighed og forbedre fylogenetisk træ rekonstruktion.  (engelsk)  // Molekylær biologi og evolution. - 2014. - Bd. 31, nr. 6 . - P. 1625-1637. - doi : 10.1093/molbev/msu117 . — PMID 24694831 .
  41. Chang JM , Di Tommaso P. , Lefort V. , Gascuel O. , Notredame C. TCS: en webserver til evaluering af multiple sekvensjusteringer og fylogenetisk rekonstruktion.  (engelsk)  // Nukleinsyreforskning. - 2015. - Bd. 43, nr. W1 . - S. 3-6. - doi : 10.1093/nar/gkv310 . — PMID 25855806 .
  42. Penn O. , Privman E. , Landan G. , Graur D. , Pupko T. En alignment-konfidensscore, der fanger robusthed til at vejlede træusikkerhed.  (engelsk)  // Molekylær biologi og evolution. - 2010. - Bd. 27, nr. 8 . - P. 1759-1767. - doi : 10.1093/molbev/msq066 . — PMID 20207713 .
  43. Redelings BD , Suchard MA Fælles Bayesiansk estimering af tilpasning og fylogeni.  (engelsk)  // Systematisk biologi. - 2005. - Bd. 54, nr. 3 . - S. 401-418. - doi : 10.1080/10635150590947041 . — PMID 16012107 .
  44. Kumar, S., og Filipski, A. Multipel sekvensjustering: i jagten på homologe DNA-positioner  // Genomforskning. - 2007. - Bd. 17, nr. 2 . - S. 127-135. - doi : 10.1101/gr.5232407 .
  45. Barton, NH, Briggs, DEG, Eisen, JA, Goldstein, DB, og Patel, NH Phylogenetic Reconstruction  // Evolution. - Cold Spring Harbor, NY : Cold Spring Harbor Laboratory Press, 2007. - ISBN 978-0-87969-684-9 .
    TA Brown. Rekonstruktionen af ​​DNA-baserede fylogenetiske træer  // Genomes 3. - Garland Science, 2007. - P. 599-609. — ISBN 0-8153-4138-5 .
  46. Aidan Budd. Multiple Sequence Alignments: Øvelser og demonstrationer (link ikke tilgængeligt) . www.embl.de. Hentet 23. april 2016. Arkiveret fra originalen 5. marts 2012.