Sekvensjustering

Sekvensjustering er en bioinformatikteknik baseret på at placere to eller flere sekvenser af DNA , RNA eller proteinmonomerer under hinanden på en sådan måde, at det er let at se lignende områder i disse sekvenser. Ligheden mellem de primære strukturer af to molekyler kan afspejle deres funktionelle, strukturelle eller evolutionære forhold [1] . Justerede basesekvenser af nukleotider eller aminosyrer er sædvanligvis repræsenteret som rækker af en matrix. Mellemrum tilføjes mellem baserne, så de samme eller lignende elementer er placeret i på hinanden følgende søjler af matrixen [2] .

Sekvensjusteringsalgoritmer bruges også i NLP [3] .

Grafisk og tekstgengivelse

I de fleste repræsentationer af alignmentresultatet er sekvenserne arrangeret i rækkerne af matrixen på en sådan måde, at de matchende elementer (nukleotider eller aminosyrer) er under hinanden (i samme kolonne). "Gaps" erstattes af et "-"-tegn, kaldet et gap (fra engelsk " gap ") [4] , og angiver en indel , det vil sige stedet for en mulig indsættelse eller sletning [5] [ 2] .

Tekstrepræsentation

Med tekstvisning er det muligt blot at skrive i fasta -format , når sekvenser er skrevet med mellemrum og har samme længde [6] . Denne type optagelse bruges ofte af programmer og er praktisk til maskinbehandling [7] .

Den anden form for tekstrepræsentation er for brugerens bekvemmelighed (tre forskellige eksempler er vist nedenfor). I den er sekvenserne skrevet under hinanden, og i linjen mellem dem angiver forskellige symboler forskellige forhold mellem aminosyrer. Et mellemrum (fravær af et symbol) angiver fraværet af en forbindelse mellem aminosyrer, både hvad angår homologi og funktion: symbolerne "*", "|" eller bogstavet ( BLAST ) - de samme aminosyrer; ":" eller "+" - lignende egenskaber; "." — lignende i egenskaber [8] .

Sprængning: Forespørgsel 15 FQQAWANPKHAWAQVNGETRLTQNLIILERETR 47 FW PKHA +QVNG T ++Q+ IIL RR Sbjct 14 FHHNWTRPKHASSQVNGHTEMSQHNIILRRVPR 46 CLUSTAL: THE12851.1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS- 50 WP_104057486.1 MSTK-DQLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGRR 50 *..* : : .: *::*:.**** :****.*.::*: ***.* *. EMBOSS nål: THE12851.1 1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS 50 |..|. :.:..:..|...|..||||.:||||.|.::|:.|||.|..|... WP_104057486. 1 MSTKD-QLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGR 49

Grafisk repræsentation

Den grafiske repræsentation er maksimalt fokuseret på visuel perception. Det er også sædvanligt at placere sekvenser under hinanden, men betydningen af forholdet mellem aminosyrer fra forskellige sekvenser er angivet med farve. Der er pletter for aminosyreegenskaber, såsom "Zappo", som farver hver aminosyre, og "Clustal", som farver barer med de samme aminosyreegenskaber. En del af pletterne, såsom "%Identity", giver dig mulighed for at se identiteten og bevarelsen af aminosyrer i kolonnen. Der er også farver, der viser graden af hydrofobicitet af aminosyrer [10] .

De mest berømte alignment-seere er: Jalview [9] , UGENE [11] , MEGA [12] . For en komplet liste, se artiklen Liste over alignment visualization software.

Der er også en måde at repræsentere konsensussekvensen - Sequence Logo [13] .

Punktmatrix

En lighedspunktmatrix er en måde at visuelt repræsentere en parvis justering. Anvendes typisk til store sekvenser, såsombakterielle genomer . Koordinaterne for begge sekvenser er plottet langs akserne, og deres homologi er repræsenteret af segmenter. Så en prikmatrix af identiske sekvenser vil ligne en diagonal af en firkant. Denne præsentationsmåde giver dig mulighed for at spore inversioner , duplikationer eller sletninger , samt translokationer [14] .

Parjustering

Parvis justering bruges til at finde lignende områder af to sekvenser. Skelne mellem global og lokal tilpasning. Global alignment antager, at sekvenserne er homologe over hele deres længde. Den globale justering omfatter begge hele inputsekvenser. Lokal justering anvendes, hvis sekvenserne indeholder både beslægtede (homologe) og ubeslægtede regioner. Resultatet af lokal alignment er udvælgelsen af et site i hver af sekvenserne og alignment mellem disse sites [15] .

Variationer af den dynamiske programmeringsmetode bruges til at opnå parjustering . Disse algoritmer er især implementeret i tjenesterne af European Molecular Biology Laboratory ( Pairwise Sequence Alignment . EMBL-EBI . (ubestemt) ). Altså for eksempel Needle . (ubestemt), en global alignment-algoritme, bruger Needleman-Wunsch-algoritmen [16] , mens Water . (ubestemt), er den lokale alignment -algoritme Smith-Waterman-algoritmen [16] .

Sammenligning af globale og lokale justeringer

For at demonstrere forskellen mellem global og lokal tilpasning kan vi overveje et kunstigt eksempel. Lad os tage sekvens A og B og lave global og lokal justering for dem. Sekvensen fastlagde en central homolog region og markant forskellige kanter.

Global alignment [15] bruger den fulde længde af begge sekvenser og kan bruges til at teste sekvenser for homologi (fælles oprindelse) over hele deres længde. Men hvis sekvenserne har få områder med homologi (eller blot lighed), så er det ikke altid muligt at bestemme disse områder godt. I ovenstående eksempel er algoritmen koblet til fire matchende aminosyrer, så den lange strækning af homologi er ikke synlig. Ud fra dette kan det antages, at sekvenserne ikke er helt homologe med hinanden [17] .

Lokal alignment [15] bruger dele af sekvenserne, på hvilke den maksimale homologi er forudsagt. Det er fantastisk, hvis kun dele af sekvenserne ligner hinanden, såsom under rekombination eller konvergent evolution . Du bør altid være forsigtig med små områder med lav lighed, især når du justerer store sekvenser, da det øger sandsynligheden for at støde på et tilfældigt lignende område. I eksemplet i figuren inkluderede den lokale justering halvdelen af sekvensernes længde. Justeret 11 aminosyrer lignende funktion, der er 2 uger. Baseret på dette, hvis det yderligere er kendt om den lignende funktion af peptid A og B, kan det siges, at de centrale regioner af begge peptider udfører funktionen af hele peptidet, eller er vigtige for dets funktion [18] .

Imidlertid falder sekvensregionen af interesse ikke altid ind i den lokale justering. Dette kan omgås ved at trimme sekvensen langs grænserne for området af interesse. Andre kombinationer af globale og lokale tilpasninger er også mulige [19] .

Søgealgoritmer

Bruges til at søge i store databaser efter sekvenser, der ligner en given sekvens i henhold til specificerede kriterier. Den anvendte justering er lokal. Forskellige heuristiske metoder bruges til at øge søgehastigheden. De mest kendte programmer er BLAST [20] og FASTA3x . (ubestemt)[21] .

Multipel justering

Multipel alignment er alignment af tre eller flere sekvenser. Bruges til at finde konserverede regioner i et sæt homologe sekvenser. I de fleste tilfælde er opbygning af en multipel justering et nødvendigt trin i genopbygningen af fylogenetiske træer . At finde den optimale multipel justering ved hjælp af dynamisk programmering har for meget tidskompleksitet, så flere justeringer er bygget på baggrund af forskellige heuristika. De mest berømte programmer, der udfører multiple alignment er Clustal ( clustal . (ubestemt) ) [22] , T-COFFEE ( tcoffee . (ubestemt) ), MUSKEL ( muskel . (ubestemt) ) [23] og MAFFT ( mafft . (ubestemt) ). Der er også programmer til visning og redigering af flere justeringer, såsom Jalview[9] eller det russiske sprog UGENE [11] .

Strukturel justering

Kan konstrueres til proteiner eller ribonukleinsyrer ved hjælp af information om den sekundære og tertiære rumlige struktur af molekyler. Målet er at forsøge at etablere homologien af to eller flere strukturer ved at finde og sammenligne steder, der på samme måde er stablet i rummet. Strukturel tilpasning er normalt ledsaget af overlejring af strukturer, det vil sige ved at finde rumlige bevægelser, hvis anvendelse på givne molekyler bedst kombinerer dem. Men i modsætning til simpel rumlig superposition med kendt matchning af ækvivalente aminosyrerester af to strukturer, kræver strukturelle tilpasningsalgoritmer sædvanligvis ikke a priori viden om sekvensjustering. Der er et stort antal , som forskellige strukturelle tilpasningsprogrammerRumlige justeringer er særligt vigtige for analysen af strukturel genomik og proteomikdata , og de kan også bruges til at evaluere justeringer opnået fra sekvenssammenligninger. [24] .

Strukturel justering er med succes blevet brugt til at sammenligne proteiner med et lavt niveau af sekvenshomologi, når evolutionære relationer ikke kan etableres ved standard sekvensjusteringsmetoder, men i dette tilfælde er det nødvendigt at tage højde for indflydelsen af konvergent evolution , hovedeffekten af hvilket viser sig i ligheden mellem de tertiære strukturer af ubeslægtede aminosyresekvenser [25] .

Rumlig justering giver dig mulighed for at sammenligne to eller flere molekyler med kendte tredimensionelle strukturer, hvis eksperimentelle produktion er baseret på brugen af røntgendiffraktionsanalyse og NMR-spektroskopi . Strukturer afledt af metoder til forudsigelse af proteinstruktur kan også bruges til rumlig justering . Desuden er vurderingen af kvaliteten af sådanne forudsigelser ofte baseret på brugen af rumlig justering af strukturen af den skabte model og proteinet, hvis tertiære struktur blev opnået direkte fra eksperimentet. Der er også data om brugen af småvinklet røntgenspredningsmetode til analyse af tredimensionelle strukturer af forskellige proteinmolekyler [26] .

Sammenligningstyper

Resultatet af de strukturelle tilpasningsprogrammer er som regel kombinationen af sæt af atomare koordinater . Oftest, når man søger efter en sådan sammenligning, evalueres resultatet baseret på værdien af den mindste standardafvigelse (RMSD) funktion mellem strukturer, som alignment-konstruktionsalgoritmen forsøger at minimere. [27]

{\begin{aligned}\mathrm {RMSD} (\mathbf {v} ,\mathbf {w} )&={\sqrt ({\frac {1}{n))\sum _{i=1 }^{n}\|v_{i}-w_{i}\|^{2}}}\\&={\sqrt {{\frac {1}{n}}\sum _{i=1} ^{n}(({v_{i}}_{x}-{w_{i}}_{x})^{2}+({v_{i}}_{y}-{w_{i} }_{y})^{2}+({v_{i}}_{z}-{w_{i}}_{z})^{2}}})\end{aligned}}

hvor er antallet af punkter (atomer) i prøven (struktur), og er atomer af den tilsvarende struktur med koordinater , , og , , . $n$ $\mathbf{v}$ $\mathbf {w}$ $\mathbf {v_{i}} _{x}$ $\mathbf {v_{i}} _{y}$ $\mathbf {v_{i}} _{z}$ $\mathbf {w_{i}} _{x}$ $\mathbf {w_{i}} _{y}$ $\mathbf {w_{i}} _{z}$

RMSD-værdien er udtrykt i længdeenheder, den mest almindeligt anvendte enhed i strukturel biologi er ångstrøm (Å), som er lig med 10 −10 m. Imidlertid har RMSD som en grad af rumlig divergens af justerede strukturer et antal af ulemper: ustabilitet over for outliers og tilstedeværelsen af flere domæner i strukturen af justerede proteiner, da ændringer i den relative position af disse domæner mellem de to strukturer kan kunstigt ændre RMSD-værdien.

Derudover kan mere komplekse parametre, der evaluerer strukturel lighed, beregnes, for eksempel den globale afstandstest [28] .

For at skabe en strukturel justering og beregne de tilsvarende RMSD-værdier kan både alle atomerne i proteinmolekylet og deres undergrupper bruges. For eksempel tages der ikke altid hensyn til atomerne af sideradikaler af aminosyrerester, og kun atomer inkluderet i peptidrygraden af molekylet kan bruges til alignment. Denne mulighed vælges, hvis de tilpassede strukturer har en meget forskellig aminosyresekvens, og sideradikaler er forskellige i et stort antal rester. Af denne grund bruger rumlige justeringsmetoder som standard kun rygradsatomer involveret i en peptidbinding . For større forenkling og forøgelse af effektiviteten anvendes ofte positionen af kun alfa -carbonatomer , da deres position ganske nøjagtigt bestemmer positionen af atomerne i polypeptidrygraden. Kun ved justering af meget lignende eller endda identiske strukturer er det vigtigt at tage højde for sidekædeatomernes positioner. I dette tilfælde afspejler RMSD ikke kun ligheden mellem konformationen af proteinrygraden, men også rotamertilstandene af sidekæderne. Andre måder at reducere støj på og øge antallet af korrekte match er mærkning af sekundære strukturelementer , native kontaktkort eller restinteraktionsmønstre , mål for graden af sidekædepakning og mål for bevarelse af hydrogenbindinger [29] .

Metoder

DALI

En af de populære strukturelle justeringsmetoder er DALI ( distance alignment matrix method ) . De indledende proteinstrukturer nedbrydes til hexapeptider, og en afstandsmatrix beregnes ved at evaluere kontaktmønstre mellem fragmenter. Elementer af den sekundære struktur, hvis rester er tilstødende i sekvensen, er på matrixens hoveddiagonal; de resterende diagonaler af matrixen afspejler rumlige kontakter mellem rester, der ikke er ved siden af hinanden i sekvensen. Når afstandsmatricerne for to proteiner har de samme eller lignende elementer i tilnærmelsesvis de samme positioner, kan det siges, at proteinerne har en lignende fold, og deres sekundære strukturelementer er forbundet med løkker af omtrent samme længde. Den direkte proces med DALI-justering er at søge efter lighedsmatricer bygget til to proteiner, som derefter samles igen til den endelige justering ved hjælp af en standardscore-maksimeringsalgoritme [30] .

DALI-metoden blev brugt til at skabe FSSP [ ( Families of Structurally Similar Proteins ) databasen, hvor alle kendte proteinstrukturer blev parvist justeret for at bestemme deres rumlige forhold og foldklassificering [31] .

DaliLite er et program, der kan downloades, ved hjælp af DALI-algoritmen [32] .

Kombinatorisk udvidelse

Den kombinatoriske forlængelsesmetode (CE) ligner DALI, idet den også opdeler hver struktur i et antal fragmenter, som den derefter forsøger at samle igen til en komplet justering. En række parvise kombinationer af fragmenter, kaldet AFP'er ( aligned fragment pairs ), bruges til at definere en lighedsmatrix, gennem hvilken en optimal vej trækkes for at bestemme den endelige alignment. Den vej, der svarer til alignmentet, beregnes som den optimale vej gennem lighedsmatrixen ved lineært at passere gennem sekvenserne, hvilket forlænger alignmentet af den næste mulige højscorende AFP. Kun de AFP'er, der opfylder de angivne lokale lighedskriterier, er inkluderet i matrixen, hvilket reducerer den nødvendige søgeplads og øger effektiviteten [33] .

I lighed med DALI eller SSAP blev CE brugt til at skabe en database med foldklassifikationer baseret på de kendte rumlige strukturer af proteiner fra PDB [34] .

Noter

↑ Monter DM. Bioinformatik: Sekvens- og genomanalyse . — 2. - Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY., 2004. - ISBN 0-87969-608-7 .
↑ 1 2 Basic Local Alignment Search Tool (BLAST) // Bioinformatik og funktionel genomik. - Hoboken, NJ, USA: John Wiley & Sons, Inc. - s. 100-138 . - ISBN 9780470451496 , 9780470085851 .
↑ Bill MacCartney, Michel Galley, Christopher D. Manning. En sætningsbaseret tilpasningsmodel for naturlig sproginferens // Proceedings of the Conference on Empirical Methods in Natural Language Processing - EMNLP '08. - Morristown, NJ, USA: Association for Computational Linguistics, 2008. - doi : 10.3115/1613715.1613817 .
↑ Julie D. Thompson, Desmond G. Higgins, Toby J. Gibson. CLUSTAL W: forbedring af følsomheden af progressiv multipel sekvens-alignment gennem sekvensvægtning, positionsspecifikke gap-straffe og vægtmatrixvalg // Nucleic Acids Research. - 1994. - T. 22 , no. 22 . - S. 4673-4680 . — ISSN 1362-4962 0305-1048, 1362-4962 . doi : 10.1093 / nar/22.22.4673 .
↑ INDEL Mutation - MeSH - NCBI . www.ncbi.nlm.nih.gov. Dato for adgang: 29. april 2019. (ubestemt)
↑ Justeret FASTA-format . www.cgl.ucsf.edu. Hentet 29. april 2019. Arkiveret fra originalen 24. januar 2021. (ubestemt)
↑ Justeringsformater . emboss.sourceforge.net. Hentet 30. april 2019. Arkiveret fra originalen 24. juni 2018. (ubestemt)
↑ Bioinformatikværktøjer FAQ - Værktøjer til jobafsendersekvensanalyse - EMBL-EBI . www.ebi.ac.uk. Hentet 23. april 2019. Arkiveret fra originalen 23. april 2019. (ubestemt)
↑ 1 2 3 4 A. M. Waterhouse, JB Procter, DMA Martin, M. Clamp, GJ Barton. Jalview Version 2--en editor for multiple sekvensjusteringer og analysearbejdsbord // Bioinformatik . - 01-05-2009. — Bd. 25 , iss. 9 . - S. 1189-1191 . - ISSN 1460-2059 1367-4803, 1460-2059 . - doi : 10.1093/bioinformatics/btp033 . Arkiveret fra originalen den 24. oktober 2017.
↑ Farveskemaer . www.jalview.org. Hentet 23. april 2019. Arkiveret fra originalen 26. april 2019. (ubestemt)
↑ 1 2 Mikhail Fursov, Olga Golosova, Konstantin Okonechnikov. Unipro UGENE: et samlet bioinformatikværktøj // Bioinformatik . — 2012-04-15. — Bd. 28 , udg. 8 . - S. 1166-1167 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/bts091 . Arkiveret fra originalen den 30. april 2019.
↑ Koichiro Tamura, Joel Dudley, Masatoshi Nei, Sudhir Kumar. MEGA: En biolog-centreret software til evolutionær analyse af DNA og proteinsekvenser (engelsk) // Briefings in Bioinformatics. - 01-07-2008. — Bd. 9 , iss. 4 . - S. 299-306 . — ISSN 1467-5463 . - doi : 10.1093/bib/bbn017 . Arkiveret fra originalen den 30. april 2019.
↑ Thomas D. Schneider, R. Michael Stephens. Sekvenslogoer: en ny måde at vise konsensussekvenser // Nucleic Acids Research. - 1990. - T. 18 , no. 20 . - S. 6097-6100 . — ISSN 1362-4962 0305-1048, 1362-4962 . doi : 10.1093 / nar/18.20.6097 .
↑ Erik LL Sonnhammer, Richard Durbin. Et dot-matrix-program med dynamisk tærskelkontrol velegnet til genomisk DNA og proteinsekvensanalyse // Gen. — Elsevier , 1995-12. — Bd. 167 , udg. 1-2 . - P. GC1-GC10 . — ISSN 0378-1119 . - doi : 10.1016/0378-1119(95)00714-8 . Arkiveret fra originalen den 2. december 2008.
↑ 1 2 3 Valery O Polyanovsky, Mikhail A Roytberg, Vladimir G Tumanyan. Sammenlignende analyse af kvaliteten af en global algoritme og en lokal algoritme til alignment af to sekvenser // Algorithms for Molecular Biology. - 2011. - Bd. 6 , iss. 1 . — S. 25 . — ISSN 1748-7188 . - doi : 10.1186/1748-7188-6-25 . Arkiveret fra originalen den 23. april 2019.
↑ 1 2 Værktøjer til parvise sekvensjustering < EMBL-EBI . www.ebi.ac.uk. Hentet 23. april 2019. Arkiveret fra originalen 12. april 2019. (ubestemt)
↑ Aloysius J. Phillips. Homologivurdering og molekylær sekvensjustering // Journal of Biomedical Informatics. - 2006-02. - T. 39 , no. 1 . - S. 18-33 . — ISSN 1532-0464 . - doi : 10.1016/j.jbi.2005.11.005 .
↑ MC Frith. Finde funktionelle sekvenselementer ved multiple lokal alignment // Nukleinsyreforskning. - 2004-01-02. — Bd. 32 , udg. 1 . - S. 189-200 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkh169 . Arkiveret fra originalen den 22. juli 2017.
↑ M. Brudno, S. Malde, A. Poliakov, C. B. Do, O. Couronne. Glocal alignment: finde omarrangementer under alignment // Bioinformatik. - 2003-07-03. - T. 19 , nej. Smidig 1 . - S. i54-i62 . - ISSN 1460-2059 1367-4803, 1460-2059 . - doi : 10.1093/bioinformatik/btg1005 .
↑ BLAST: Basic Local Alignment Search Tool . blast.ncbi.nlm.nih.gov. Hentet 23. april 2019. Arkiveret fra originalen 21. august 2020. (ubestemt)
↑ WR Pearson, DJ Lipman. Forbedrede værktøjer til biologisk sekvenssammenligning (engelsk) // Proceedings of the National Academy of Sciences . - National Academy of Sciences , 1988-04-01. — Bd. 85 , iss. 8 . - S. 2444-2448 . - ISSN 1091-6490 0027-8424, 1091-6490 . - doi : 10.1073/pnas.85.8.2444 .
↑ J. Thompson. CLUSTAL_X windows-grænsefladen: fleksible strategier til multipel sekvensjustering hjulpet af kvalitetsanalyseværktøjer // Nucleic Acids Research. — 1997-12-15. - T. 25 , nej. 24 . - S. 4876-4882 . — ISSN 1362-4962 . doi : 10.1093 / nar/25.24.4876 .
↑ R. C. Edgar. MUSKEL: multipel sekvensjustering med høj nøjagtighed og høj gennemstrømning // Nukleinsyreforskning. - 2004-03-08. - T. 32 , no. 5 . - S. 1792-1797 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkh340 .
↑ Zhang Y. , Skolnick J. Problemet med forudsigelse af proteinstrukturen kunne løses ved hjælp af det nuværende PDB-bibliotek. (engelsk) // Proceedings of the National Academy of Sciences of the United States of America. - 2005. - Bd. 102, nr. 4 . - S. 1029-1034. - doi : 10.1073/pnas.0407152101 . — PMID 15653774 .
↑ Zhang, Y.; Skolnick, J. Automatiseret strukturforudsigelse af svagt homologe proteiner på genomisk skala // Proceedings of the National Academy of Sciences of the United States of America : journal . - 2004. - Maj. - doi : 10.1073/pnas.0305695101 . — PMID 15126668 .
↑ GL Hura; AL Menon. Robuste strukturelle analyser af opløsninger med høj gennemstrømning ved små vinkel røntgenspredning (SAXS ) // Nature Methods : journal. - 2009. - Juli. - doi : 10.1038/nmeth.1353 . — PMID 19620974 .
↑ Cohen, F.E.; Sternberg, MJ Om forudsigelsen af proteinstruktur: betydningen af rod-middel-kvadrat-afvigelsen // Journal of Molecular Biology : journal. - 1980. - doi : 10.1016/0022-2836(80)90289-2 . — PMID 7411610 .
↑ Zemla A. LGA: En metode til at finde 3D-ligheder i proteinstrukturer. (engelsk) // Nukleinsyreforskning. - 2003. - Bd. 31, nr. 13 . - s. 3370-3374. — PMID 12824330 .
↑ Godzik A. Den strukturelle tilpasning mellem to proteiner: er der et unikt svar? (engelsk) // Protein science: en publikation fra Protein Society. - 1996. - Bd. 5, nr. 7 . - S. 1325-1338. - doi : 10.1002/pro.5560050711 . — PMID 8819165 .
↑ Liisa Holm; Laura M. Laakso. Dali serveropdatering (eng.) // Nature Methods : journal. - 2016. - 29. april. - doi : 10.1093/nar/gkw357 . — PMID 27131377 .
↑ Holm L. , Sander C. Dali/FSSP-klassificering af tredimensionelle proteinfoldninger. (engelsk) // Nukleinsyreforskning. - 1997. - Vol. 25, nr. 1 . - S. 231-234. — PMID 9016542 .
↑ Holm L. , Park J. DaliLite arbejdsbænk til sammenligning af proteinstruktur. (engelsk) // Bioinformatik. - 2000. - Vol. 16, nr. 6 . - S. 566-567. — PMID 10980157 .
↑ Shindyalov IN , Bourne PE Proteinstrukturjustering ved inkrementel kombinatorisk forlængelse (CE) af den optimale vej. (engelsk) // Protein engineering. - 1998. - Bd. 11, nr. 9 . - s. 739-747. — PMID 9796821 .
↑ Prlic A. , Bliven S. , Rose PW , Bluhm WF , Bizon C. , Godzik A. , Bourne PE Forudberegnede proteinstrukturjusteringer på RCSB PDB-webstedet. (engelsk) // Bioinformatik. - 2010. - Bd. 26, nr. 23 . - S. 2983-2985. - doi : 10.1093/bioinformatics/btq572 . — PMID 20937596 .

Strenge
String lighedsmål	Afstand fra Damerau til Loewenstein Levenshtein afstand Hammerafstand Jaro-Winkler lighed
Understrengssøgning	Boyer-Moore algoritme Boyer-Moore-Horspool algoritme Knuth-Morris-Pratt algoritme Rabin-Karp algoritme præfiks funktion Z-funktion Algoritme Aho - Korasik
palindromer	palindrom træ Manakers algoritme
Sekvensjustering	Needleman-Wunsha algoritme Smith-Waterman algoritme
Suffiksstrukturer	Suffiks array Suffiks automat suffiks træ præfiks træ
Andet	parsing Mønster matchende Største fælles efterfølger Største fælles understreng