Sekvensjustering er en bioinformatikteknik baseret på at placere to eller flere sekvenser af DNA , RNA eller proteinmonomerer under hinanden på en sådan måde, at det er let at se lignende områder i disse sekvenser. Ligheden mellem de primære strukturer af to molekyler kan afspejle deres funktionelle, strukturelle eller evolutionære forhold [1] . Justerede basesekvenser af nukleotider eller aminosyrer er sædvanligvis repræsenteret som rækker af en matrix. Mellemrum tilføjes mellem baserne, så de samme eller lignende elementer er placeret i på hinanden følgende søjler af matrixen [2] .
Sekvensjusteringsalgoritmer bruges også i NLP [3] .
I de fleste repræsentationer af alignmentresultatet er sekvenserne arrangeret i rækkerne af matrixen på en sådan måde, at de matchende elementer (nukleotider eller aminosyrer) er under hinanden (i samme kolonne). "Gaps" erstattes af et "-"-tegn, kaldet et gap (fra engelsk " gap ") [4] , og angiver en indel , det vil sige stedet for en mulig indsættelse eller sletning [5] [ 2] .
Med tekstvisning er det muligt blot at skrive i fasta -format , når sekvenser er skrevet med mellemrum og har samme længde [6] . Denne type optagelse bruges ofte af programmer og er praktisk til maskinbehandling [7] .
Den anden form for tekstrepræsentation er for brugerens bekvemmelighed (tre forskellige eksempler er vist nedenfor). I den er sekvenserne skrevet under hinanden, og i linjen mellem dem angiver forskellige symboler forskellige forhold mellem aminosyrer. Et mellemrum (fravær af et symbol) angiver fraværet af en forbindelse mellem aminosyrer, både hvad angår homologi og funktion: symbolerne "*", "|" eller bogstavet ( BLAST ) - de samme aminosyrer; ":" eller "+" - lignende egenskaber; "." — lignende i egenskaber [8] .
Sprængning: Forespørgsel 15 FQQAWANPKHAWAQVNGETRLTQNLIILERETR 47 FW PKHA +QVNG T ++Q+ IIL RR Sbjct 14 FHHNWTRPKHASSQVNGHTEMSQHNIILRRVPR 46 CLUSTAL: THE12851.1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS- 50 WP_104057486.1 MSTK-DQLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGRR 50 *..* : : .: *::*:.**** :****.*.::*: ***.* *. EMBOSS nål: THE12851.1 1 MGKKGYKRNEYNNPFQQAWANPKHAWAQVNGETRLTQNLIILERETRKRS 50 |..|. :.:..:..|...|..||||.:||||.|.::|:.|||.|..|... WP_104057486. 1 MSTKD-QLDPQSQAFHHNWTRPKHASSQVNGHTEMSQHNIILRRVPRSGR 49Den grafiske repræsentation er maksimalt fokuseret på visuel perception. Det er også sædvanligt at placere sekvenser under hinanden, men betydningen af forholdet mellem aminosyrer fra forskellige sekvenser er angivet med farve. Der er pletter for aminosyreegenskaber, såsom "Zappo", som farver hver aminosyre, og "Clustal", som farver barer med de samme aminosyreegenskaber. En del af pletterne, såsom "%Identity", giver dig mulighed for at se identiteten og bevarelsen af aminosyrer i kolonnen. Der er også farver, der viser graden af hydrofobicitet af aminosyrer [10] .
De mest berømte alignment-seere er: Jalview [9] , UGENE [11] , MEGA [12] . For en komplet liste, se artiklen Liste over alignment visualization software.
Der er også en måde at repræsentere konsensussekvensen - Sequence Logo [13] .
En lighedspunktmatrix er en måde at visuelt repræsentere en parvis justering. Anvendes typisk til store sekvenser, såsombakterielle genomer . Koordinaterne for begge sekvenser er plottet langs akserne, og deres homologi er repræsenteret af segmenter. Så en prikmatrix af identiske sekvenser vil ligne en diagonal af en firkant. Denne præsentationsmåde giver dig mulighed for at spore inversioner , duplikationer eller sletninger , samt translokationer [14] .
Parvis justering bruges til at finde lignende områder af to sekvenser. Skelne mellem global og lokal tilpasning. Global alignment antager, at sekvenserne er homologe over hele deres længde. Den globale justering omfatter begge hele inputsekvenser. Lokal justering anvendes, hvis sekvenserne indeholder både beslægtede (homologe) og ubeslægtede regioner. Resultatet af lokal alignment er udvælgelsen af et site i hver af sekvenserne og alignment mellem disse sites [15] .
Variationer af den dynamiske programmeringsmetode bruges til at opnå parjustering . Disse algoritmer er især implementeret i tjenesterne af European Molecular Biology Laboratory ( Pairwise Sequence Alignment . EMBL-EBI . ). Altså for eksempel Needle . , en global alignment-algoritme, bruger Needleman-Wunsch-algoritmen [16] , mens Water . , er den lokale alignment -algoritme Smith-Waterman-algoritmen [16] .
For at demonstrere forskellen mellem global og lokal tilpasning kan vi overveje et kunstigt eksempel. Lad os tage sekvens A og B og lave global og lokal justering for dem. Sekvensen fastlagde en central homolog region og markant forskellige kanter.
Global alignment [15] bruger den fulde længde af begge sekvenser og kan bruges til at teste sekvenser for homologi (fælles oprindelse) over hele deres længde. Men hvis sekvenserne har få områder med homologi (eller blot lighed), så er det ikke altid muligt at bestemme disse områder godt. I ovenstående eksempel er algoritmen koblet til fire matchende aminosyrer, så den lange strækning af homologi er ikke synlig. Ud fra dette kan det antages, at sekvenserne ikke er helt homologe med hinanden [17] .
Lokal alignment [15] bruger dele af sekvenserne, på hvilke den maksimale homologi er forudsagt. Det er fantastisk, hvis kun dele af sekvenserne ligner hinanden, såsom under rekombination eller konvergent evolution . Du bør altid være forsigtig med små områder med lav lighed, især når du justerer store sekvenser, da det øger sandsynligheden for at støde på et tilfældigt lignende område. I eksemplet i figuren inkluderede den lokale justering halvdelen af sekvensernes længde. Justeret 11 aminosyrer lignende funktion, der er 2 uger. Baseret på dette, hvis det yderligere er kendt om den lignende funktion af peptid A og B, kan det siges, at de centrale regioner af begge peptider udfører funktionen af hele peptidet, eller er vigtige for dets funktion [18] .
Imidlertid falder sekvensregionen af interesse ikke altid ind i den lokale justering. Dette kan omgås ved at trimme sekvensen langs grænserne for området af interesse. Andre kombinationer af globale og lokale tilpasninger er også mulige [19] .
Bruges til at søge i store databaser efter sekvenser, der ligner en given sekvens i henhold til specificerede kriterier. Den anvendte justering er lokal. Forskellige heuristiske metoder bruges til at øge søgehastigheden. De mest kendte programmer er BLAST [20] og FASTA3x . [21] .
Multipel alignment er alignment af tre eller flere sekvenser. Bruges til at finde konserverede regioner i et sæt homologe sekvenser. I de fleste tilfælde er opbygning af en multipel justering et nødvendigt trin i genopbygningen af fylogenetiske træer . At finde den optimale multipel justering ved hjælp af dynamisk programmering har for meget tidskompleksitet, så flere justeringer er bygget på baggrund af forskellige heuristika. De mest berømte programmer, der udfører multiple alignment er Clustal ( clustal . ) [22] , T-COFFEE ( tcoffee . ), MUSKEL ( muskel . ) [23] og MAFFT ( mafft . ). Der er også programmer til visning og redigering af flere justeringer, såsom Jalview[9] eller det russiske sprog UGENE [11] .
Kan konstrueres til proteiner eller ribonukleinsyrer ved hjælp af information om den sekundære og tertiære rumlige struktur af molekyler. Målet er at forsøge at etablere homologien af to eller flere strukturer ved at finde og sammenligne steder, der på samme måde er stablet i rummet. Strukturel tilpasning er normalt ledsaget af overlejring af strukturer, det vil sige ved at finde rumlige bevægelser, hvis anvendelse på givne molekyler bedst kombinerer dem. Men i modsætning til simpel rumlig superposition med kendt matchning af ækvivalente aminosyrerester af to strukturer, kræver strukturelle tilpasningsalgoritmer sædvanligvis ikke a priori viden om sekvensjustering. Der er et stort antal , som forskellige strukturelle tilpasningsprogrammerRumlige justeringer er særligt vigtige for analysen af strukturel genomik og proteomikdata , og de kan også bruges til at evaluere justeringer opnået fra sekvenssammenligninger. [24] .
Strukturel justering er med succes blevet brugt til at sammenligne proteiner med et lavt niveau af sekvenshomologi, når evolutionære relationer ikke kan etableres ved standard sekvensjusteringsmetoder, men i dette tilfælde er det nødvendigt at tage højde for indflydelsen af konvergent evolution , hovedeffekten af hvilket viser sig i ligheden mellem de tertiære strukturer af ubeslægtede aminosyresekvenser [25] .
Rumlig justering giver dig mulighed for at sammenligne to eller flere molekyler med kendte tredimensionelle strukturer, hvis eksperimentelle produktion er baseret på brugen af røntgendiffraktionsanalyse og NMR-spektroskopi . Strukturer afledt af metoder til forudsigelse af proteinstruktur kan også bruges til rumlig justering . Desuden er vurderingen af kvaliteten af sådanne forudsigelser ofte baseret på brugen af rumlig justering af strukturen af den skabte model og proteinet, hvis tertiære struktur blev opnået direkte fra eksperimentet. Der er også data om brugen af småvinklet røntgenspredningsmetode til analyse af tredimensionelle strukturer af forskellige proteinmolekyler [26] .
Resultatet af de strukturelle tilpasningsprogrammer er som regel kombinationen af sæt af atomare koordinater . Oftest, når man søger efter en sådan sammenligning, evalueres resultatet baseret på værdien af den mindste standardafvigelse (RMSD) funktion mellem strukturer, som alignment-konstruktionsalgoritmen forsøger at minimere. [27]
,hvor er antallet af punkter (atomer) i prøven (struktur), og er atomer af den tilsvarende struktur med koordinater , , og , , .
RMSD-værdien er udtrykt i længdeenheder, den mest almindeligt anvendte enhed i strukturel biologi er ångstrøm (Å), som er lig med 10 −10 m. Imidlertid har RMSD som en grad af rumlig divergens af justerede strukturer et antal af ulemper: ustabilitet over for outliers og tilstedeværelsen af flere domæner i strukturen af justerede proteiner, da ændringer i den relative position af disse domæner mellem de to strukturer kan kunstigt ændre RMSD-værdien.
Derudover kan mere komplekse parametre, der evaluerer strukturel lighed, beregnes, for eksempel den globale afstandstest [28] .
For at skabe en strukturel justering og beregne de tilsvarende RMSD-værdier kan både alle atomerne i proteinmolekylet og deres undergrupper bruges. For eksempel tages der ikke altid hensyn til atomerne af sideradikaler af aminosyrerester, og kun atomer inkluderet i peptidrygraden af molekylet kan bruges til alignment. Denne mulighed vælges, hvis de tilpassede strukturer har en meget forskellig aminosyresekvens, og sideradikaler er forskellige i et stort antal rester. Af denne grund bruger rumlige justeringsmetoder som standard kun rygradsatomer involveret i en peptidbinding . For større forenkling og forøgelse af effektiviteten anvendes ofte positionen af kun alfa -carbonatomer , da deres position ganske nøjagtigt bestemmer positionen af atomerne i polypeptidrygraden. Kun ved justering af meget lignende eller endda identiske strukturer er det vigtigt at tage højde for sidekædeatomernes positioner. I dette tilfælde afspejler RMSD ikke kun ligheden mellem konformationen af proteinrygraden, men også rotamertilstandene af sidekæderne. Andre måder at reducere støj på og øge antallet af korrekte match er mærkning af sekundære strukturelementer , native kontaktkort eller restinteraktionsmønstre , mål for graden af sidekædepakning og mål for bevarelse af hydrogenbindinger [29] .
En af de populære strukturelle justeringsmetoder er DALI ( distance alignment matrix method ) . De indledende proteinstrukturer nedbrydes til hexapeptider, og en afstandsmatrix beregnes ved at evaluere kontaktmønstre mellem fragmenter. Elementer af den sekundære struktur, hvis rester er tilstødende i sekvensen, er på matrixens hoveddiagonal; de resterende diagonaler af matrixen afspejler rumlige kontakter mellem rester, der ikke er ved siden af hinanden i sekvensen. Når afstandsmatricerne for to proteiner har de samme eller lignende elementer i tilnærmelsesvis de samme positioner, kan det siges, at proteinerne har en lignende fold, og deres sekundære strukturelementer er forbundet med løkker af omtrent samme længde. Den direkte proces med DALI-justering er at søge efter lighedsmatricer bygget til to proteiner, som derefter samles igen til den endelige justering ved hjælp af en standardscore-maksimeringsalgoritme [30] .
DALI-metoden blev brugt til at skabe FSSP [ ( Families of Structurally Similar Proteins ) databasen, hvor alle kendte proteinstrukturer blev parvist justeret for at bestemme deres rumlige forhold og foldklassificering [31] .
DaliLite er et program, der kan downloades, ved hjælp af DALI-algoritmen [32] .
Kombinatorisk udvidelseDen kombinatoriske forlængelsesmetode (CE) ligner DALI, idet den også opdeler hver struktur i et antal fragmenter, som den derefter forsøger at samle igen til en komplet justering. En række parvise kombinationer af fragmenter, kaldet AFP'er ( aligned fragment pairs ), bruges til at definere en lighedsmatrix, gennem hvilken en optimal vej trækkes for at bestemme den endelige alignment. Den vej, der svarer til alignmentet, beregnes som den optimale vej gennem lighedsmatrixen ved lineært at passere gennem sekvenserne, hvilket forlænger alignmentet af den næste mulige højscorende AFP. Kun de AFP'er, der opfylder de angivne lokale lighedskriterier, er inkluderet i matrixen, hvilket reducerer den nødvendige søgeplads og øger effektiviteten [33] .
I lighed med DALI eller SSAP blev CE brugt til at skabe en database med foldklassifikationer baseret på de kendte rumlige strukturer af proteiner fra PDB [34] .
Strenge | |
---|---|
String lighedsmål | |
Understrengssøgning | |
palindromer | |
Sekvensjustering | |
Suffiksstrukturer | |
Andet |