RNA sekundær struktur forudsigelse er en metode til at bestemme den sekundære struktur af en nukleinsyre ud fra dens nukleotidsekvens . Sekundær struktur kan forudsiges for en enkelt sekvens, eller en multipel justering af en familie af beslægtede RNA'er kan analyseres .
Den sekundære struktur af en nukleinsyre afhænger hovedsageligt af baseparring og stablingsinteraktioner . Imidlertid er den sekundære struktur af RNA i mange tilfælde bevaret under evolutionen i højere grad end dens primære sekvens [1] . Mange metoder til forudsigelse af sekundær struktur er baseret på dynamisk programmering og kan ikke effektivt opdage pseudoknoter .
På trods af lighederne er der nogle forskelle i metoderne til at forudsige strukturerne af DNA og RNA. Under naturlige forhold er DNA oftest en fuldt komplementær dupleks, mens RNA danner komplekse sekundære og tertiære strukturer , såsom i tRNA'er , ribosomale RNA'er eller spliceosomer . Dette skyldes blandt andet, at det ekstra oxygenatom i ribosen øger tilbøjeligheden til hydrogenbinding med nukleinsyrens rygrad. Energiparametrene for disse to nukleinsyrer er også forskellige.
Den sekundære struktur af små RNA-molekyler er i vid udstrækning bestemt af stærke lokale interaktioner såsom hydrogenbindinger og basepar- stabling-interaktioner . Summen af de frie energier af sådanne interaktioner bør sikre stabiliteten af denne struktur. Den nærmeste nabo-model bruges til at forudsige den frie energi af stablingen af den sekundære struktur . I denne model afhænger ændringen i fri energi for hvert motiv af sekvensen af selve motivet og baseparrene tættest på det [2] . Minimumsenergimodellen og parametrene for klassiske Watson-Crick-par, guanin - uracil -par og loops blev opnået ved empiriske kalorimetriske eksperimenter, de mest opdaterede parametre blev offentliggjort i 2004 [3] , selvom de fleste softwarepakker stadig bruger den tidligere sæt kompileret i 1999 år [4] .
Den nemmeste måde at finde den minimale frie energistruktur på er at generere alle mulige strukturer og beregne den frie energi for dem, men antallet af mulige sekvensstrukturer stiger eksponentielt med længden af RNA'et (Antal sekundære strukturer = (1,8) N , hvor N er antallet af nukleotider ) [5] . For et RNA med en længde på kun 200 basepar er der således mere end 10 50 mulige strukturer med parrede baser [1] .
En af tilgangene til at forudsige den sekundære struktur af RNA er Nussin-algoritmen , som er baseret på dynamisk programmering og består i at finde strukturen med det største antal basepar [6] . Denne algoritme er imidlertid for enkel og tager ikke højde for vigtige strukturelle egenskaber, såsom præferencer for visse løkkelængder eller præferencer for visse nærmeste naboer i struktur, som følge af stablende interaktioner mellem tilstødende basepar i RNA- hårnåle [1] . Derudover er løsningen ofte ikke den eneste. I 1980 udgav Nussinov og kolleger en tilpasning af deres tilgang ved hjælp af en simpel nærmeste nabo-energimodel [7] .
RNA-foldning er drevet af fysiske årsager, ikke af at tælle og maksimere antallet af basepar. Metoden foreslået i 1981 af Michael Zucker og Patrick Steigler antager, at den korrekte struktur i ligevægt har den laveste frie energi ( ΔG ) [8] . ΔG af den sekundære struktur af RNA estimeres som summen af frie energier af sløjfer, basepar og andre elementer i den sekundære struktur. En vigtig forskel fra den mere simple Nussin-algoritme er, at når man beregner hårnålenes energi, svarer stableenergien til samspillet mellem nabobasepar, og ikke til parrene selv [1] .
Dynamisk programmering gør det muligt at teste alle mulige varianter af RNA-sekundære strukturer uden direkte at skabe dem. Algoritmen fungerer rekursivt . Den bedste struktur med den lavest mulige energi beregnes først for alle mulige små delsekvenser, og derefter for større og større delsekvenser. Den nøjagtige struktur af RNA-molekylet bestemmes ved at beregne den minimale frie energi af hele sekvensen [2] .
Dynamiske programmeringsalgoritmer bruges almindeligvis til at detektere "godt indlejrede" baseparmønstre , det vil sige dem, der danner hydrogenbindinger, der ikke overlapper med andre områder af sekvensen. Sådanne strukturer indbefatter dobbelthelixer, stammeløkker og kløverbladsvarianter, der for eksempel findes i transfer-RNA. Disse metoder er baseret på forudbestemte designparametre, der estimerer den frie energi ved parring af visse typer basepar, herunder Watson-Crick og Hoogsteen-par . Afhængigt af kompleksiteten af metoden kan enkelte basepar betragtes på samme måde som korte segmenter af to eller tre basepar for at tage højde for effekten af stablingsinteraktioner. Uden væsentlige algoritmiske modifikationer, der kræver ekstremt store beregningsomkostninger, kan disse metoder ikke bestemme pseudoknoter [9] .
Nøjagtigheden af at forudsige den sekundære struktur af et enkelt RNA-molekyle ved at minimere fri energi er begrænset af flere faktorer:
Af denne grund kan en metode til at forudsige sekundære strukturer med en tilsvarende lav fri energi give betydelig information. Sådanne strukturer kaldes suboptimale. MFOLD er et af de programmer, der genererer suboptimale strukturer [10] .
Et af problemerne med at forudsige den sekundære struktur af RNA er, at standard fri energiminimering og statistiske metoder ikke kan afsløre pseudoknoter [4] . Denne ulempe forklares af det faktum, at konventionelle dynamiske programmeringsalgoritmer kun tager hensyn til interaktioner mellem de nærmeste nukleotider, mens pseudoknotter dannes som et resultat af interaktioner mellem fjerne nukleotider. Rivas og Eddy udgav en dynamisk programmeringsalgoritme til forudsigelse af pseudoknot [9] . Denne dynamiske programmeringsalgoritme er dog meget langsom. Standard dynamisk programmeringsalgoritme til at minimere fri energi kører i O(N 3 ) (N er antallet af nukleotider i sekvensen), mens Rivas og Eddys algoritme tager O(N 6 ) i tid. Dette fik forskerne til at implementere en version af algoritmen, der begrænser pseudoknot-klasserne, hvilket sparer tid. For eksempel kræver pknotsRG, som kun inkluderer en klasse af simple rekursive pseudoknoter, O(N 4 ) operationer [11] .
En anden tilgang til at forudsige den sekundære struktur af RNA er at bestemme folden ved hjælp af Boltzmann - ensemblet [12] [13] , for eksempel i SFOLD-programmet. Dette program genererer en statistisk prøve af alle mulige RNA-sekundære strukturer. Algoritmen udvælger sekundære strukturer i henhold til Boltzmann-fordelingen . En sådan udvælgelsesmetode tilbyder en god løsning på stablingsusikkerhedsproblemet [13] .
Kovariante modeller er baseret på eksistensen af familier af beslægtede RNA'er, der ikke kun deler en fælles sekundær struktur, men også nogle fælles sekvensmotiver. Disse metoder analyserer kovariansen af individuelle basissteder under evolution; bevarelsen af to nukleotider temmelig fjernt fra hinanden indikerer tilstedeværelsen af en strukturelt nødvendig hydrogenbinding mellem dem. Det har vist sig, at pseudoknot-forudsigelsesproblemet er et NP-komplet problem [14]
Problemet med tilpasning og forudsigelse af konsensusstruktur er tæt forbundet. Der er tre forskellige tilgange til at forudsige konsensusstrukturer [15] :
Denne tilgang består i at bygge en multipel justering af RNA-sekvenser, finde en konsensussekvens og derefter folde den. Kvaliteten af justeringen bestemmer nøjagtigheden af den konsensusstrukturelle model. Konsensussekvensen passer ved hjælp af forskellige tilgange, de samme som til at forudsige den sekundære struktur af enkelte RNA-molekyler. En tilgang, der bruger termodynamisk foldning, bruges for eksempel af RNAalifold-programmet [16] . Forskellige tilgange bruger programmerne Pfold og ILM. Pfold-programmet implementerer stokastiske kontekstfri grammatikker (SCGS) [17] . ILM (iterated loop matching), i modsætning til andre alignment stacking-algoritmer, kan gendanne pseudoknots. Den bruger en kombination af termodynamik og evaluering af det relevante informationsindhold [18] .
Evolution bevarer ofte den funktionelle struktur af RNA bedre end dens sekvens [16] . Udfordringen er således at skabe en fælles struktur for to eller flere stærkt divergerende, men homologe RNA-sekvenser. I praksis bliver sekvensjusteringer ubrugelige og forbedrer ikke nøjagtigheden af strukturforudsigelse, når ligheden mellem to sekvenser er mindre end 50% [19] .
Strukturelle tilpasningsprogrammer forbedrer ydeevnen af disse metoder, hvoraf de fleste er varianter af Sankoff-algoritmen [20] . Grundlæggende er Sankoff-algoritmen en kombination af sekvensjusteringsalgoritmer og Nussinov [6] , som søger efter det maksimale parringssted ved hjælp af dynamisk programmering [21] . Sankoff-algoritmen i sig selv er teoretisk, da den kræver meget store beregningsressourcer (tid O (n3m) og O (n2m) hukommelse, hvor N er længden af sekvensen, m er antallet af sekvenser). Der er dog nogle forsøg på at implementere begrænsede versioner af Sankoff-algoritmen. Disse omfatter for eksempel Foldalign [22] [23] , Dynalign [24] [25] , PMmulti/PMcomp [21] , Stemloc [26] og Murlet [27] . Disse implementeringer begrænser den maksimale tilpasningslængde eller antallet af mulige konsensusstrukturvalg. Så Foldalign bygger lokale justeringer og begrænser den mulige længde af sekvensjusteringer.
Justering af forudsagte strukturer er mindre udbredt. Denne tilgang bruger de forudsagte strukturer for enkelte RNA-molekyler. Det justerer dem ved hjælp af træer [28] . Den største svaghed ved denne tilgang er, at forudsigelserne af en sekvens ofte er unøjagtige, og dermed krænker nøjagtigheden af al yderligere analyse.
Nukleinsyretyper _ | ||||
---|---|---|---|---|
Nitrogenholdige baser | ||||
Nukleosider | ||||
Nukleotider | ||||
RNA | ||||
DNA | ||||
Analoger | ||||
Vektortyper _ |
| |||
|