Positionel vægtmatrix

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 10. november 2021; checks kræver 2 redigeringer .

Positional weight matrix (PWM) er en bioinformatisk metode, der bruges til at søge efter motiver i biologiske sekvenser.
PWM kan bygges på basis af multiple alignment af relaterede sekvenser eller sekvenser, der udfører lignende funktioner. PWM bruges i mange moderne algoritmer til at opdage nye motiver [1] .

Baggrund

Den positionelle vægtmatrix blev introduceret af den amerikanske genetiker Gary Stormo.og kolleger i 1982 [2] som en alternativ måde at repræsentere konsensussekvenser på . Konsensussekvenser er tidligere blevet brugt til at vise almindelige motiver i biologiske sekvenser, men denne metode havde nogle ulemper ved at forudsige og søge efter disse motiver i nye sekvenser [3] . For første gang blev PVM brugt til at søge efter translationsinitieringssteder i RNA . For at skabe en vægtmatrix, hvormed man kan skelne ægte steder fra lignende sektioner af sekvenser, har den polsk-amerikanske matematiker Andrzej Ehrenfeuchten perceptron- algoritme blev foreslået . Resultatet af perceptrontræning på prøver af sande og falske steder var en matrix og en tærskelværdi for forskellen mellem disse to datasæt. Test af denne matrix på nye sekvenser, der ikke er inkluderet i træningssættet, viste, at denne metode var mere nøjagtig og følsom sammenlignet med at bygge en konsensussekvens.

Fordelene ved PWM frem for konsensussekvenser har gjort matricer til en populær metode til at repræsentere motiver i biologiske sekvenser [4] [5] .

Matematisk definition

En streng definition af en positionel vægtmatrix er som følger [6] :

, hvor  er alfabetet for sekvensen (zd. nukleotider),  er positionsnummeret,

 er en positionssandsynlighedsmatrix,  er forekomsten af ​​et bogstav i alfabetet (det vil sige 0,25 for en nukleotidsekvens og 0,05 for en aminosyresekvens).

Oprettelse af PVM

PVM er en matrix, hvis antal rækker svarer til alfabetets størrelse (4 nukleotider for nukleinsyrer og 20 aminosyrer for proteinsekvenser), og antallet af søjler svarer til længden af ​​motivet [6] .

Trin 1. Opbygning af en positionssandsynlighedsmatrix

Det første trin i at konstruere en vægtmatrix baseret på multiple deletionless alignment er skabelsen af ​​en positional frequency matrix (PMF). Elementerne i denne matrix svarer til, hvor mange gange hvert bogstav i alfabetet forekommer på en bestemt position i motivet. Dernæst konverteres PMP'en til en positionssandsynlighedsmatrix ved at normalisere til det totale antal sekvenser i alignmentet. En sådan matrix viser, hvad der er sandsynligheden for at støde på et givet bogstav i en given position i den indledende justering.

Hvert element i sandsynlighedsmatricen er lig med sandsynligheden for at møde et bogstav i en position i den indledende justering og beregnes ved formlen [1] : hvor  er sekvensnummeret,  er positionsnummeret,  er bogstavet i alfabet,

 er det bogstav, der svarer til positionen i sekvensen , og  er indikatorfunktionen beregnet med formlen:

For eksempel givet følgende ti tilpassede DNA-sekvenser, der repræsenterer ét motiv:

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTAC
TGTGTGAGT
AAGGTAAGT

henholdsvis den positionelle frekvensmatrix:

og derfor sandsynlighedsmatrixen opnået efter at have divideret med antallet af sekvenser:

[7] .

I en positionssandsynlighedsmatrix er summen af ​​værdierne af hver kolonne, det vil sige sandsynligheden for at møde et hvilket som helst bogstav i alfabetet i en given position, i tilfælde af en sletningsfri initial justering 1.

Ved hjælp af denne matrix kan vi beregne sandsynligheden for, at vi ved at generere bogstaver i hver position med sandsynligheden angivet i den, får en sekvens . Da søjlerne i matrixen antages at være uafhængige af hinanden, er denne sandsynlighed lig med produktet af sandsynligheden for at få hvert bogstav i sekvensen i sin position, det vil sige: hvor  er bogstavet i sekvensen i position . For eksempel kan sandsynligheden for, at sekvensen S = GAGGTAAAC opnås af matrixen fra det foregående eksempel, beregnes:



Bemærk

For at beregne en positionssandsynlighedsmatrix ud fra et lille dataarray bruges ofte pseudo- konti . På grund af prøvens ufuldstændighed kan der opstå en situation, hvor ikke alle bogstaver er repræsenteret på en bestemt position i den oprindelige prøve. I dette tilfælde vil sandsynligheden for at få dette bogstav, når du genererer en tilfældig sekvens fra denne matrix, være lig med nul. Derfor vil sandsynligheden for at generere en sekvens med et sådant bogstav i denne position også være lig nul, uanset resten af ​​sekvensen [8] . For at undgå dette tilføjes en værdi, kaldet en pseudo-tælling, til hvert element i sandsynlighedsmatricen for at gøre det ikke-nul. Ifølge Laplaces regel tilføjes 1 til hvert element i frekvensmatricen - den mindst mulige forekomst af et bogstav i denne position. Der findes mere komplekse pseudo-tællesystemer, såsom dem, der bruger Dirichlet-blandinger eller substitutionsmatricer .

Givet pseudo-tællingerne kan definitionen af ​​sandsynlighedsmatricen formuleres som:

, hvor  - PMC,  - pseudo-tællefunktion [9] .

I ovenstående eksempel, bygget uden brug af pseudo-tællinger, vil enhver sekvens, der ikke har et G i den fjerde position eller et T i den femte position, have en sandsynlighed på 0.

Trin 2. Overgang fra sandsynligheder til vægte

Det sidste trin til at skabe en PWM er overgangen fra sandsynligheden for bogstaver i forskellige positioner af motivet til deres vægte. Oftest beregnes disse vægte som et log-sandsynlighedsforhold under hensyntagen til baggrundsmodellen for generering af en tilfældig sekvens b. Den enkleste baggrundsmodel antager, at hvert bogstav optræder lige ofte i enhver position i datasættet, dvs. værdien for et hvilket som helst tegn i alfabetet (henholdsvis 0,25 for nukleotider og 0,05 for aminosyrer). Baggrundsmodellen behøver ikke at indebære en ensartet fordeling af bogstaver: For eksempel, når man studerer organismer med en høj GC-sammensætning, kan sandsynligheden for C og G stige, og for henholdsvis A og T falde. Således beregnes elementerne i vægtmatricen ved formlen [6] :

Ved at anvende denne transformation på sandsynlighedsmatricen fra eksemplet (ignorerer pseudo-tællinger) får vi:

I tilfælde af at elementerne i SRP beregnes ved hjælp af log-sandsynlighedsforholdet, kan vægten af ​​sekvensen beregnes som summen af ​​vægtene for hvert bogstav i denne sekvens i sin position. Den resulterende vægt giver en idé om, hvordan denne sekvens svarer til det motiv, som den positionelle vægtmatrix blev oprettet for. Jo højere sandsynligheden er for, at sekvensen er genereret af den tilsvarende sandsynlighedsmatrix og ikke tilfældig, jo højere vægten.

Informativ værdi af PBM

Informationsindholdet i PVM viser, hvordan fordelingen af ​​bogstaver i stillinger beskrevet i den adskiller sig fra den ensartede fordeling . Egen information for hver karakter i motivets position er lig med:

Den forventede (gennemsnitlige) selvinformation for dette element er:

Informationsindholdet i hele matricen er lig med summen af ​​alle forventede gennemsnitlige egenværdier for hvert element i matricen. Informationsindholdet i SPM i tilfælde af en ujævn baggrundsfordeling beregnes ved hjælp af formlen:

hvor  er baggrundsfrekvensen for det givne symbol.

Informationsindholdet er relateret til Kullback-Leibler-afstanden eller relativ entropi . Men når man bruger PSSM-algoritmen til at søge efter genomiske sekvenser (se nedenfor), kan en sådan ensartet korrektion føre til en overvurdering af betydningen af ​​forskellige baser i motivet på grund af den ujævne fordeling af n-merer i rigtige genomer, hvilket fører til et signifikant højere antal falske positive [10] .

Brug af PBM

PVM'er bruges i vid udstrækning til analyse af nukleotid- og proteinsekvenser. Først og fremmest bruges de til at søge efter specifikke websteder og motiver. For eksempel er MATCH-algoritmen [11] i stand til at søge efter potentielle bindingssteder for transkriptionsfaktorer i DNA-sekvenser. Lignende tilgange bruges til proteiner [12] . Udover at søge efter funktionelle domæner kan PVM bruges til at forudsige forskellige egenskaber ved proteiner, såsom sekundær struktur [13] [14] [15] , deres tilgængelighed til et opløsningsmiddel [16] [17] , kontakter i strukturen [ 18] . Ud over at søge efter motiver bruges multiple alignment PWM'er til at beskrive proteinfamilier. Der er PVM-databaser, der kan bruges til at bestemme, om et protein af interesse tilhører kendte familier. Metoder til at konstruere og bruge PVM bliver også forbedret. For eksempel er der blevet udviklet en metode til at skabe PWM uden at bruge store multiple proteinjusteringer, hvilket markant fremskynder beregninger i nærværelse af et stort udvalg af indledende data [19] . Derudover er der en tilgang, der bruger flere PTM'er til at beskrive proteinfamilier: i dette tilfælde er ikke én, men mange matricer konstrueret ved hjælp af forskellige ikke-tætte (for at undgå bias) familieproteiner.

Algoritmer til opbygning og brug af PVM

Der er forskellige algoritmer til at scanne for PWM-matches i sekvenser. Et eksempel er MATCH-algoritmen, som blev implementeret i ModuleMaster. Mere sofistikerede algoritmer til hurtige databasesøgninger ved hjælp af nukleotider såvel som PWM/PSSM-aminosyrer er implementeret i possumsearch-softwaren og beskrevet af Beckstette, et al. (2006) [20] .

Blandt de mest berømte algoritmer er der også MEME og Gibbs [1] .

PVM implementering

Den færdiglavede PVM-implementering kan bruges i programmeringssprogene Python ( BioPython- pakken ) og R ( seqLogo- biblioteket ).

Eksempel R-kode

#installer om nødvendigt kilde ( "http://bioconductor.org/biocLite.R" ) biocLite ( "seqLogo" ) bibliotek ( seqLogo ) a <- c ( 0 , 4 , 4 , 0 , 3 , 7 , 4 , 3 , 5 , 4 , 2 , 0 , 0 , 4 ) c <- c ( 3 , 0 , 4 , 8 , 0 , 0 , 0 , 3 , 0 , 0 , 0 , 0 , 2 , 4 ) g <- c ( 2 , 3 , 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 6 , 8 , 5 , 0 ) t <- c ( 3 , 1 , 0 , 0 , 5 , 1 , 4 , 2 , 2 , 4 , 0 , 0 , 1 , 0 ) df <- data.frame ( a , c , g , t ) df a c g t 1 0 3 2 3 2 4 0 3 1 3 4 4 0 0 4 0 8 0 0 5 3 0 0 5 6 7 0 0 1 7 4 0 0 4 8 3 3 0 2 9 5 0 1 2 10 4 0 0 4 11 2 0 6 0 12 0 0 8 0 13 0 2 5 1 14 4 4 0 0 #define funktion, der dividerer frekvensen med rækkesummen dvs. proportioner proportion <- funktion ( x ){ rs <- sum ( x ); return ( x / rs ); } #create position weight matrix mef2 <- anvende ( df , 1 , proportion ) mef2 <- makePWM ( mef2 ) seqLogo ( mef2 )

Noter

  1. 1 2 3 CSB2007 Læringspositionsvægtmatricer fra sekvens- og udtryksdata . www.lifesciencesociety.org. Hentet 30. april 2017. Arkiveret fra originalen 2. december 2016.
  2. Stormo, Gary D.; Schneider, Thomas D.; Guld, Larry; Ehrenfeucht, Andrzej. Brug af 'Perceptron'-algoritmen til at skelne translationelle initieringssteder i E. coli  //  : en:Nucleic Acids Research|Nucleic Acids Research  : tidsskrift. - 1982. - Bd. 10 , nej. 9 . - S. 2997-3011 . doi : 10.1093 / nar/10.9.2997 .
  3. Stormo, GD DNA-bindingssteder: repræsentation og opdagelse  (neopr.)  // Bioinformatik. - 2000. - 1. januar ( bind 16 , nr. 1 ). - S. 16-23 . - doi : 10.1093/bioinformatik/16.1.16 . — PMID 10812473 .
  4. Sinha, S. Om at tælle positionsvægtmatrixmatches i en sekvens, med anvendelse på diskriminerende motivfinding  //  Bioinformatics : journal. - 2006. - 27. juli ( bind 22 , nr. 14 ). - P. e454-e463 . - doi : 10.1093/bioinformatics/btl227 .
  5. Xia, Xuhua. Positionsvægtmatrix, Gibbs Sampler og de tilknyttede signifikanstests i motivkarakterisering og forudsigelse  //  Scientifica: tidsskrift. - 2012. - Bd. 2012 . - S. 1-15 . - doi : 10.6064/2012/917540 .
  6. 1 2 3 Positionsvægtmatrix - Overvejelser fra en usandsynlig kandidat  , Overvejelser fra en usandsynlig kandidat (1. oktober  2013). Arkiveret fra originalen den 1. april 2017. Hentet 30. april 2017.
  7. Guigo, Roderic En introduktion til positionsspecifikke scoringsmatricer . http://bioinformatica.upf.edu . Hentet 29. april 2015. Arkiveret fra originalen 28. november 2012.
  8. Nishida, K.; Frith, M.C.; Nakai, K. Pseudotællinger for transkriptionsfaktorbindingssteder  //  Nukleinsyreforskning : journal. - 2008. - 23. december ( bind 37 , nr. 3 ). - S. 939-944 . - doi : 10.1093/nar/gkn1019 .
  9. Positionsvægtmatrix - Overvejelser fra en usandsynlig kandidat  (eng.) , Overvejelser fra en usandsynlig kandidat  (1. oktober 2013). Arkiveret fra originalen den 1. april 2017. Hentet 31. marts 2017.
  10. Ivan Erill, Michael C O'Neill. En genundersøgelse af informationsteori-baserede metoder til DNA-bindingsstedsidentifikation  // BMC Bioinformatics. - 2009-02-11. - T. 10 . - S. 57 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-10-57 .
  11. Kel AE, et al. MATCHTM: et værktøj til at søge transkriptionsfaktorbindingssteder i DNA-sekvenser  //  Nucleic Acids Research : journal. - 2003. - Bd. 31 , nr. 13 . - P. 3576-3579 . - doi : 10.1093/nar/gkg585 . — PMID 12824369 .
  12. Beckstette M., et al. Hurtige indeksbaserede algoritmer og software til at matche positionsspecifikke scoringsmatricer  //  BMC Bioinformatics : journal. - 2006. - Bd. 7 . — S. 389 . - doi : 10.1186/1471-2105-7-389 . — PMID 1635428 .
  13. Jones DT Protein sekundær struktur forudsigelse baseret på positionsspecifikke scoringsmatricer  // J  Mol Biol : journal. - 1999. - Bd. 292 . - S. 195-202 . — PMID 10493868 .
  14. Pollastri, G. & McLysaght, A. Porter: en ny, nøjagtig server til forudsigelse af protein sekundær struktur  //  Bioinformatics: journal. - 2005. - Bd. 21 . - S. 1719-1720 . — PMID 15585524 .
  15. Rost, B. Anmeldelse: forudsigelse af protein sekundær struktur fortsætter med at stige  // J  Struct Biol : journal. - 2001. - Bd. 134 . - S. 204-218 . — PMID 11551180 .
  16. Adamczak, R.; Porollo, A. & Meller, J. Nøjagtig forudsigelse af opløsningsmiddeltilgængelighed ved brug af neurale netværksbaseret regression  //  Proteins : journal. - 2004. - Bd. 56 . - s. 753-767 . — PMID 15281128 .
  17. Pollastri, G.; Martin, AJM; Mooney, C. & Vullo, A. Nøjagtig forudsigelse af proteinsekundær struktur og opløsningsmiddeltilgængelighed ved konsensuskombinere af sekvens- og strukturinformation  //  BMC Bioinformatics : journal. - 2007. - Bd. 8 . — S. 201 . — PMID 17570843 .
  18. Pollastri, G.; Baldi, P.; Fariselli, P. & Casadio, R. Forbedret forudsigelse af antallet af restkontakter i proteiner ved tilbagevendende neurale netværk  //  Bioinformatics: journal. - 2001. - Bd. 17 . - P. Suppl 1: S234-S242 . — PMID 11473014 .
  19. Shandar Ahmad og Akinori Sarai. PSSM-baseret forudsigelse af DNA-bindingssteder i proteiner  //  BMC Bioinformatics : journal. - 2005. - Bd. 6 . — S. 33 . — PMID 15720719 .
  20. Michael Beckstette, Robert Homann, Robert Giegerich, Stefan Kurtz. Hurtige indeksbaserede algoritmer og software til at matche positionsspecifikke scoringsmatricer  // BMC Bioinformatics. - 2006-08-24. - T. 7 . - S. 389 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-7-389 .