RNA sekundær struktur forudsigelse

RNA sekundær struktur forudsigelse  er en metode til at bestemme den sekundære struktur af en nukleinsyre ud fra dens nukleotidsekvens . Sekundær struktur kan forudsiges for en enkelt sekvens, eller en multipel justering af en familie af beslægtede RNA'er kan analyseres .

Den sekundære struktur af en nukleinsyre afhænger hovedsageligt af baseparring og stablingsinteraktioner . Imidlertid er den sekundære struktur af RNA i mange tilfælde bevaret under evolutionen i højere grad end dens primære sekvens [1] . Mange metoder til forudsigelse af sekundær struktur er baseret på dynamisk programmering og kan ikke effektivt opdage pseudoknoter .

På trods af lighederne er der nogle forskelle i metoderne til at forudsige strukturerne af DNA og RNA. Under naturlige forhold er DNA oftest en fuldt komplementær dupleks, mens RNA danner komplekse sekundære og tertiære strukturer , såsom i tRNA'er , ribosomale RNA'er eller spliceosomer . Dette skyldes blandt andet, at det ekstra oxygenatom i ribosen øger tilbøjeligheden til hydrogenbinding med nukleinsyrens rygrad. Energiparametrene for disse to nukleinsyrer er også forskellige.

Forudsigelse af strukturen af ​​et enkelt RNA-molekyle

Den sekundære struktur af små RNA-molekyler er i vid udstrækning bestemt af stærke lokale interaktioner såsom hydrogenbindinger og basepar- stabling-interaktioner . Summen af ​​de frie energier af sådanne interaktioner bør sikre stabiliteten af ​​denne struktur. Den  nærmeste nabo-model bruges til at forudsige den frie energi af stablingen af ​​den sekundære struktur . I denne model afhænger ændringen i fri energi for hvert motiv af sekvensen af ​​selve motivet og baseparrene tættest på det [2] . Minimumsenergimodellen og parametrene for klassiske Watson-Crick-par, guanin - uracil -par og loops blev opnået ved empiriske kalorimetriske eksperimenter, de mest opdaterede parametre blev offentliggjort i 2004 [3] , selvom de fleste softwarepakker stadig bruger den tidligere sæt kompileret i 1999 år [4] .

Den nemmeste måde at finde den minimale frie energistruktur på er at generere alle mulige strukturer og beregne den frie energi for dem, men antallet af mulige sekvensstrukturer stiger eksponentielt med længden af ​​RNA'et (Antal sekundære strukturer = (1,8) N , hvor N er antallet af nukleotider ) [5] . For et RNA med en længde på kun 200 basepar er der således mere end 10 50 mulige strukturer med parrede baser [1] .

Algoritmer baseret på dynamisk programmering

En af tilgangene til at forudsige den sekundære struktur af RNA er Nussin-algoritmen , som er baseret på dynamisk programmering og består i at finde strukturen med det største antal basepar [6] . Denne algoritme er imidlertid for enkel og tager ikke højde for vigtige strukturelle egenskaber, såsom præferencer for visse løkkelængder eller præferencer for visse nærmeste naboer i struktur, som følge af stablende interaktioner mellem tilstødende basepar i RNA- hårnåle [1] . Derudover er løsningen ofte ikke den eneste. I 1980 udgav Nussinov og kolleger en tilpasning af deres tilgang ved hjælp af en simpel nærmeste nabo-energimodel [7] .

RNA-foldning er drevet af fysiske årsager, ikke af at tælle og maksimere antallet af basepar. Metoden foreslået i 1981 af Michael Zucker og Patrick Steigler antager, at den korrekte struktur i ligevægt har den laveste frie energi ( ΔG ) [8] . ΔG af den sekundære struktur af RNA estimeres som summen af ​​frie energier af sløjfer, basepar og andre elementer i den sekundære struktur. En vigtig forskel fra den mere simple Nussin-algoritme er, at når man beregner hårnålenes energi, svarer stableenergien til samspillet mellem nabobasepar, og ikke til parrene selv [1] .

Dynamisk programmering gør det muligt at teste alle mulige varianter af RNA-sekundære strukturer uden direkte at skabe dem. Algoritmen fungerer rekursivt . Den bedste struktur med den lavest mulige energi beregnes først for alle mulige små delsekvenser, og derefter for større og større delsekvenser. Den nøjagtige struktur af RNA-molekylet bestemmes ved at beregne den minimale frie energi af hele sekvensen [2] .

Dynamiske programmeringsalgoritmer bruges almindeligvis til at detektere "godt indlejrede" baseparmønstre , det vil sige dem, der danner hydrogenbindinger, der ikke overlapper med andre områder af sekvensen. Sådanne strukturer indbefatter dobbelthelixer, stammeløkker og kløverbladsvarianter, der for eksempel findes i transfer-RNA. Disse metoder er baseret på forudbestemte designparametre, der estimerer den frie energi ved parring af visse typer basepar, herunder Watson-Crick og Hoogsteen-par . Afhængigt af kompleksiteten af ​​metoden kan enkelte basepar betragtes på samme måde som korte segmenter af to eller tre basepar for at tage højde for effekten af ​​stablingsinteraktioner. Uden væsentlige algoritmiske modifikationer, der kræver ekstremt store beregningsomkostninger, kan disse metoder ikke bestemme pseudoknoter [9] .

Suboptimale strukturer

Nøjagtigheden af ​​at forudsige den sekundære struktur af et enkelt RNA-molekyle ved at minimere fri energi er begrænset af flere faktorer:

  1. I den nærmeste nabomodel kan værdien af ​​den frie energi ikke antage visse tilladte værdier.
  2. Ikke alle kendte RNA-folder svarer til det termodynamiske minimum.
  3. Nogle RNA-sekvenser har mere end én biologisk aktiv konformation (kaldet riboswitches)

Af denne grund kan en metode til at forudsige sekundære strukturer med en tilsvarende lav fri energi give betydelig information. Sådanne strukturer kaldes suboptimale. MFOLD er et af de programmer, der genererer suboptimale strukturer [10] .

Pseudoknot forudsigelse

Et af problemerne med at forudsige den sekundære struktur af RNA er, at standard fri energiminimering og statistiske metoder ikke kan afsløre pseudoknoter [4] . Denne ulempe forklares af det faktum, at konventionelle dynamiske programmeringsalgoritmer kun tager hensyn til interaktioner mellem de nærmeste nukleotider, mens pseudoknotter dannes som et resultat af interaktioner mellem fjerne nukleotider. Rivas og Eddy udgav en dynamisk programmeringsalgoritme til forudsigelse af pseudoknot [9] . Denne dynamiske programmeringsalgoritme er dog meget langsom. Standard dynamisk programmeringsalgoritme til at minimere fri energi kører i O(N 3 ) (N er antallet af nukleotider i sekvensen), mens Rivas og Eddys algoritme tager O(N 6 ) i tid. Dette fik forskerne til at implementere en version af algoritmen, der begrænser pseudoknot-klasserne, hvilket sparer tid. For eksempel kræver pknotsRG, som kun inkluderer en klasse af simple rekursive pseudoknoter, O(N 4 ) operationer [11] .

Andre tilgange til at forudsige den sekundære struktur af RNA

En anden tilgang til at forudsige den sekundære struktur af RNA er at bestemme folden ved hjælp af Boltzmann - ensemblet [12] [13] , for eksempel i SFOLD-programmet. Dette program genererer en statistisk prøve af alle mulige RNA-sekundære strukturer. Algoritmen udvælger sekundære strukturer i henhold til Boltzmann-fordelingen . En sådan udvælgelsesmetode tilbyder en god løsning på stablingsusikkerhedsproblemet [13] .

Forudsigelse af den sekundære struktur af familier af beslægtede RNA'er

Kovariante modeller er baseret på eksistensen af ​​familier af beslægtede RNA'er, der ikke kun deler en fælles sekundær struktur, men også nogle fælles sekvensmotiver. Disse metoder analyserer kovariansen af ​​individuelle basissteder under evolution; bevarelsen af ​​to nukleotider temmelig fjernt fra hinanden indikerer tilstedeværelsen af ​​en strukturelt nødvendig hydrogenbinding mellem dem. Det har vist sig, at pseudoknot-forudsigelsesproblemet er et NP-komplet problem [14]

Problemet med tilpasning og forudsigelse af konsensusstruktur er tæt forbundet. Der er tre forskellige tilgange til at forudsige konsensusstrukturer [15] :

  1. Lægning justering;
  2. Samtidig sekvensjustering og stabling;
  3. Justering af forudsagte strukturer.

Nivellering efterfulgt af lægning

Denne tilgang består i at bygge en multipel justering af RNA-sekvenser, finde en konsensussekvens og derefter folde den. Kvaliteten af ​​justeringen bestemmer nøjagtigheden af ​​den konsensusstrukturelle model. Konsensussekvensen passer ved hjælp af forskellige tilgange, de samme som til at forudsige den sekundære struktur af enkelte RNA-molekyler. En tilgang, der bruger termodynamisk foldning, bruges for eksempel af RNAalifold-programmet [16] . Forskellige tilgange bruger programmerne Pfold og ILM. Pfold-programmet implementerer stokastiske kontekstfri grammatikker (SCGS) [17] . ILM (iterated loop matching), i modsætning til andre alignment stacking-algoritmer, kan gendanne pseudoknots. Den bruger en kombination af termodynamik og evaluering af det relevante informationsindhold [18] .

Synkroniseret nivellering og stabling

Evolution bevarer ofte den funktionelle struktur af RNA bedre end dens sekvens [16] . Udfordringen er således at skabe en fælles struktur for to eller flere stærkt divergerende, men homologe RNA-sekvenser. I praksis bliver sekvensjusteringer ubrugelige og forbedrer ikke nøjagtigheden af ​​strukturforudsigelse, når ligheden mellem to sekvenser er mindre end 50% [19] .

Strukturelle tilpasningsprogrammer forbedrer ydeevnen af ​​disse metoder, hvoraf de fleste er varianter af Sankoff-algoritmen [20] . Grundlæggende er Sankoff-algoritmen en kombination af sekvensjusteringsalgoritmer og Nussinov [6] , som søger efter det maksimale parringssted ved hjælp af dynamisk programmering [21] . Sankoff-algoritmen i sig selv er teoretisk, da den kræver meget store beregningsressourcer (tid O (n3m) og O (n2m) hukommelse, hvor N er længden af ​​sekvensen, m er antallet af sekvenser). Der er dog nogle forsøg på at implementere begrænsede versioner af Sankoff-algoritmen. Disse omfatter for eksempel Foldalign [22] [23] , Dynalign [24] [25] , PMmulti/PMcomp [21] , Stemloc [26] og Murlet [27] . Disse implementeringer begrænser den maksimale tilpasningslængde eller antallet af mulige konsensusstrukturvalg. Så Foldalign bygger lokale justeringer og begrænser den mulige længde af sekvensjusteringer.

Udlægning efterfulgt af nivellering

Justering af forudsagte strukturer er mindre udbredt. Denne tilgang bruger de forudsagte strukturer for enkelte RNA-molekyler. Det justerer dem ved hjælp af træer [28] . Den største svaghed ved denne tilgang er, at forudsigelserne af en sekvens ofte er unøjagtige, og dermed krænker nøjagtigheden af ​​al yderligere analyse.

Se også

Noter

  1. 1 2 3 4 R. Durbin, S. Eddy, A. Krogh, G. Mitchison. Analyse af biologiske sekvenser .. - M.-Izhevsk .: Forskningscenter "Regulær og kaotisk dynamik", Institut for Computerforskning, 2006. - P. 347-402. - 480 s. — ISBN 5-93972-559-7 .
  2. 1 2 Mathews D.H. Revolutions in RNA sekundær struktur forudsigelse.  (engelsk)  // Journal of molecular biology. - 2006. - Bd. 359, nr. 3 . - S. 526-532. - doi : 10.1016/j.jmb.2006.01.067 . — PMID 16500677 .
  3. Mathews DH , Disney MD , Childs JL , Schroeder SJ , Zuker M. , Turner DH Inkorporering af kemiske modifikationsbegrænsninger i en dynamisk programmeringsalgoritme til forudsigelse af RNA-sekundær struktur.  (engelsk)  // Proceedings of the National Academy of Sciences of the United States of America. - 2004. - Bd. 101, nr. 19 . - P. 7287-7292. - doi : 10.1073/pnas.0401799101 . — PMID 15123812 .
  4. 1 2 Mathews DH , Sabina J. , Zuker M. , Turner DH Udvidet sekvensafhængighed af termodynamiske parametre forbedrer forudsigelse af RNAs sekundære struktur.  (engelsk)  // Journal of molecular biology. - 1999. - Bd. 288, nr. 5 . - P. 911-940. - doi : 10.1006/jmbi.1999.2700 . — PMID 10329189 .
  5. Zuker M., Sankoff D. RNA-sekundære strukturer og deres forudsigelse  (neopr.)  // Bull. Matematik. Biol.. - 1984. - T. 46 . - S. 591-621 .
  6. 1 2 Nussinov R, Piecznik G, Grigg JR og Kleitman DJ. Algoritmer til loop-matching  // SIAM Journal on Applied Mathematics. - 1978. - Bd. 35, nr. 1 . - S. 68-82.
  7. Nussinov R. , Jacobson AB Hurtig algoritme til at forudsige den sekundære struktur af enkeltstrenget RNA.  (engelsk)  // Proceedings of the National Academy of Sciences of the United States of America. - 1980. - Bd. 77, nr. 11 . - P. 6309-6313. — PMID 6161375 .
  8. Zuker M. , Stiegler P. Optimal computerfoldning af store RNA-sekvenser ved hjælp af termodynamik og hjælpeinformation.  (engelsk)  // Nukleinsyreforskning. - 1981. - Bd. 9, nr. 1 . - S. 133-148. — PMID 6163133 .
  9. 1 2 Rivas E. , Eddy SR En dynamisk programmeringsalgoritme til forudsigelse af RNA-struktur inklusive pseudoknoter.  (engelsk)  // Journal of molecular biology. - 1999. - Bd. 285, nr. 5 . - S. 2053-2068. - doi : 10.1006/jmbi.1998.2436 . — PMID 9925784 .
  10. Zuker M. Mfold webserver til nukleinsyrefoldning og hybridiseringsforudsigelse.  (engelsk)  // Nukleinsyreforskning. - 2003. - Bd. 31, nr. 13 . - P. 3406-3415. — PMID 12824337 .
  11. Reeder J. , Giegerich R. Design, implementering og evaluering af en praktisk pseudoknot-foldningsalgoritme baseret på termodynamik.  (engelsk)  // BMC bioinformatik. - 2004. - Bd. 5. - S. 104. - doi : 10.1186/1471-2105-5-104 . — PMID 15294028 .
  12. McCaskill JS Ligevægtspartitionsfunktionen og baseparbindingssandsynligheder for RNA-sekundær struktur.  (engelsk)  // Biopolymerer. - 1990. - Bd. 29, nr. 6-7 . - S. 1105-1119. - doi : 10.1002/bip.360290621 . — PMID 1695107 .
  13. 1 2 Ding Y. , Lawrence CE En statistisk prøveudtagningsalgoritme til forudsigelse af sekundær RNA-struktur.  (engelsk)  // Nukleinsyreforskning. - 2003. - Bd. 31, nr. 24 . - P. 7280-7301. — PMID 14654704 .
  14. Lyngsø RB , Pedersen CN RNA pseudoknot forudsigelse i energibaserede modeller.  (engelsk)  // Journal of computational biology : a journal of computational molecular cell biology. - 2000. - Vol. 7, nr. 3-4 . - S. 409-427. - doi : 10.1089/106652700750050862 . — PMID 11108471 .
  15. Gardner PP , Giegerich R. En omfattende sammenligning af komparative metoder til forudsigelse af RNA-struktur.  (engelsk)  // BMC bioinformatik. - 2004. - Bd. 5. - S. 140. - doi : 10.1186/1471-2105-5-140 . — PMID 15458580 .
  16. 1 2 Hofacker IL , Fekete M. , Stadler PF Sekundær struktur forudsigelse for alignede RNA-sekvenser.  (engelsk)  // Journal of molecular biology. - 2002. - Bd. 319, nr. 5 . - S. 1059-1066. - doi : 10.1016/S0022-2836(02)00308-X . — PMID 12079347 .
  17. Knudsen B. , Hein J. Pfold: RNA sekundær struktur forudsigelse ved hjælp af stokastiske kontekstfri grammatikker.  (engelsk)  // Nukleinsyreforskning. - 2003. - Bd. 31, nr. 13 . - s. 3423-3428. — PMID 12824339 .
  18. Ruan J. , Stormo GD , Zhang W. ILM: en webserver til forudsigelse af RNA-sekundære strukturer med pseudoknoter.  (engelsk)  // Nukleinsyreforskning. - 2004. - Bd. 32. - S. 146-149. doi : 10.1093 / nar/gkh444 . — PMID 15215368 .
  19. Bernhart SH , Hofacker IL Fra konsensusstruktur forudsigelse til RNA-genfund.  (Engelsk)  // Briefinger i funktionel genomik & proteomik. - 2009. - Bd. 8, nr. 6 . - S. 461-471. doi : 10.1093 / bfgp/elp043 . — PMID 19833701 .
  20. Sankoff D. Samtidig løsning af RNA-foldnings-, alignment- og protosekvensproblemerne  // SIAM Journal on Applied Mathematics. - 1985. - Bd. 45, nr. 5 . - S. 810-825. Arkiveret fra originalen den 13. juni 2007.
  21. 1 2 Hofacker IL , Bernhart SH , Stadler PF Alignment of RNA basepairing probability matrics.  (engelsk)  // Bioinformatik. - 2004. - Bd. 20, nr. 14 . - s. 2222-2227. - doi : 10.1093/bioinformatics/bth229 . — PMID 15073017 .
  22. Havgaard JH , Lyngsø RB , Stormo GD , Gorodkin J. Parvis lokal strukturel alignment af RNA-sekvenser med sekvenslighed mindre end 40%.  (engelsk)  // Bioinformatik. - 2005. - Bd. 21, nr. 9 . - S. 1815-1824. - doi : 10.1093/bioinformatics/bti279 . — PMID 15657094 .
  23. Torarinsson E. , Havgaard JH , Gorodkin J. Multipel strukturel alignment og clustering af RNA-sekvenser.  (engelsk)  // Bioinformatik. - 2007. - Bd. 23, nr. 8 . - S. 926-932. - doi : 10.1093/bioinformatics/btm049 . — PMID 17324941 .
  24. Mathews DH , Turner DH Dynalign: en algoritme til at finde den sekundære struktur, der er fælles for to RNA-sekvenser.  (engelsk)  // Journal of molecular biology. - 2002. - Bd. 317, nr. 2 . - S. 191-203. - doi : 10.1006/jmbi.2001.5351 . — PMID 11902836 .
  25. Harmanci AO , Sharma G. , Mathews DH Effektiv parvis RNA-struktur forudsigelse ved brug af probabilistiske tilpasningsbegrænsninger i Dynalign.  (engelsk)  // BMC bioinformatik. - 2007. - Bd. 8. - S. 130. - doi : 10.1186/1471-2105-8-130 . — PMID 17445273 .
  26. Holmes I. Accelereret probabilistisk inferens af RNA-strukturudvikling.  (engelsk)  // BMC bioinformatik. - 2005. - Bd. 6. - S. 73. - doi : 10.1186/1471-2105-6-73 . — PMID 15790387 .
  27. Kiryu H. , Tabei Y. , Kin T. , Asai K. Murlet: et praktisk multipel-justeringsværktøj til strukturelle RNA-sekvenser.  (engelsk)  // Bioinformatik. - 2007. - Bd. 23, nr. 13 . - S. 1588-1598. - doi : 10.1093/bioinformatik/btm146 . — PMID 17459961 .
  28. Shapiro BA , Zhang KZ Sammenligning af multiple RNA-sekundære strukturer ved hjælp af træsammenligninger.  (engelsk)  // Computerapplikationer i biovidenskaberne : CABIOS. - 1990. - Bd. 6, nr. 4 . - S. 309-318. — PMID 1701685 .

Litteratur