Positional weight matrix (PWM) er en bioinformatisk metode, der bruges til at søge efter motiver i biologiske sekvenser.
PWM kan bygges på basis af multiple alignment af relaterede sekvenser eller sekvenser, der udfører lignende funktioner. PWM bruges i mange moderne algoritmer til at opdage nye motiver [1] .
Den positionelle vægtmatrix blev introduceret af den amerikanske genetiker Gary Stormo.og kolleger i 1982 [2] som en alternativ måde at repræsentere konsensussekvenser på . Konsensussekvenser er tidligere blevet brugt til at vise almindelige motiver i biologiske sekvenser, men denne metode havde nogle ulemper ved at forudsige og søge efter disse motiver i nye sekvenser [3] . For første gang blev PVM brugt til at søge efter translationsinitieringssteder i RNA . For at skabe en vægtmatrix, hvormed man kan skelne ægte steder fra lignende sektioner af sekvenser, har den polsk-amerikanske matematiker Andrzej Ehrenfeuchten perceptron- algoritme blev foreslået . Resultatet af perceptrontræning på prøver af sande og falske steder var en matrix og en tærskelværdi for forskellen mellem disse to datasæt. Test af denne matrix på nye sekvenser, der ikke er inkluderet i træningssættet, viste, at denne metode var mere nøjagtig og følsom sammenlignet med at bygge en konsensussekvens.
Fordelene ved PWM frem for konsensussekvenser har gjort matricer til en populær metode til at repræsentere motiver i biologiske sekvenser [4] [5] .
En streng definition af en positionel vægtmatrix er som følger [6] :
, hvor er alfabetet for sekvensen (zd. nukleotider), er positionsnummeret,
er en positionssandsynlighedsmatrix, er forekomsten af et bogstav i alfabetet (det vil sige 0,25 for en nukleotidsekvens og 0,05 for en aminosyresekvens).
PVM er en matrix, hvis antal rækker svarer til alfabetets størrelse (4 nukleotider for nukleinsyrer og 20 aminosyrer for proteinsekvenser), og antallet af søjler svarer til længden af motivet [6] .
Det første trin i at konstruere en vægtmatrix baseret på multiple deletionless alignment er skabelsen af en positional frequency matrix (PMF). Elementerne i denne matrix svarer til, hvor mange gange hvert bogstav i alfabetet forekommer på en bestemt position i motivet. Dernæst konverteres PMP'en til en positionssandsynlighedsmatrix ved at normalisere til det totale antal sekvenser i alignmentet. En sådan matrix viser, hvad der er sandsynligheden for at støde på et givet bogstav i en given position i den indledende justering.
Hvert element i sandsynlighedsmatricen er lig med sandsynligheden for at møde et bogstav i en position i den indledende justering og beregnes ved formlen [1] :
hvor er sekvensnummeret, er positionsnummeret, er bogstavet i alfabet,
er det bogstav, der svarer til positionen i sekvensen , og er indikatorfunktionen beregnet med formlen:
For eksempel givet følgende ti tilpassede DNA-sekvenser, der repræsenterer ét motiv:
GAGGTAAAC |
TCCGTAAGT |
CAGGTTGGA |
ACAGTCAGT |
TAGGTCATT |
TAGGTACTG |
ATGGTAACT |
CAGGTAC |
TGTGTGAGT |
AAGGTAAGT |
henholdsvis den positionelle frekvensmatrix:
og derfor sandsynlighedsmatrixen opnået efter at have divideret med antallet af sekvenser:
I en positionssandsynlighedsmatrix er summen af værdierne af hver kolonne, det vil sige sandsynligheden for at møde et hvilket som helst bogstav i alfabetet i en given position, i tilfælde af en sletningsfri initial justering 1.
Ved hjælp af denne matrix kan vi beregne sandsynligheden for, at vi ved at generere bogstaver i hver position med sandsynligheden angivet i den, får en sekvens . Da søjlerne i matrixen antages at være uafhængige af hinanden, er denne sandsynlighed lig med produktet af sandsynligheden for at få hvert bogstav i sekvensen i sin position, det vil sige:
hvor er bogstavet i sekvensen i position .
For eksempel kan sandsynligheden for, at sekvensen S = GAGGTAAAC opnås af matrixen fra det foregående eksempel, beregnes:
For at beregne en positionssandsynlighedsmatrix ud fra et lille dataarray bruges ofte pseudo- konti . På grund af prøvens ufuldstændighed kan der opstå en situation, hvor ikke alle bogstaver er repræsenteret på en bestemt position i den oprindelige prøve. I dette tilfælde vil sandsynligheden for at få dette bogstav, når du genererer en tilfældig sekvens fra denne matrix, være lig med nul. Derfor vil sandsynligheden for at generere en sekvens med et sådant bogstav i denne position også være lig nul, uanset resten af sekvensen [8] . For at undgå dette tilføjes en værdi, kaldet en pseudo-tælling, til hvert element i sandsynlighedsmatricen for at gøre det ikke-nul. Ifølge Laplaces regel tilføjes 1 til hvert element i frekvensmatricen - den mindst mulige forekomst af et bogstav i denne position. Der findes mere komplekse pseudo-tællesystemer, såsom dem, der bruger Dirichlet-blandinger eller substitutionsmatricer .
Givet pseudo-tællingerne kan definitionen af sandsynlighedsmatricen formuleres som:
, hvor - PMC, - pseudo-tællefunktion [9] .
I ovenstående eksempel, bygget uden brug af pseudo-tællinger, vil enhver sekvens, der ikke har et G i den fjerde position eller et T i den femte position, have en sandsynlighed på 0.
Det sidste trin til at skabe en PWM er overgangen fra sandsynligheden for bogstaver i forskellige positioner af motivet til deres vægte. Oftest beregnes disse vægte som et log-sandsynlighedsforhold under hensyntagen til baggrundsmodellen for generering af en tilfældig sekvens b. Den enkleste baggrundsmodel antager, at hvert bogstav optræder lige ofte i enhver position i datasættet, dvs. værdien for et hvilket som helst tegn i alfabetet (henholdsvis 0,25 for nukleotider og 0,05 for aminosyrer). Baggrundsmodellen behøver ikke at indebære en ensartet fordeling af bogstaver: For eksempel, når man studerer organismer med en høj GC-sammensætning, kan sandsynligheden for C og G stige, og for henholdsvis A og T falde. Således beregnes elementerne i vægtmatricen ved formlen [6] :
Ved at anvende denne transformation på sandsynlighedsmatricen fra eksemplet (ignorerer pseudo-tællinger) får vi:
I tilfælde af at elementerne i SRP beregnes ved hjælp af log-sandsynlighedsforholdet, kan vægten af sekvensen beregnes som summen af vægtene for hvert bogstav i denne sekvens i sin position. Den resulterende vægt giver en idé om, hvordan denne sekvens svarer til det motiv, som den positionelle vægtmatrix blev oprettet for. Jo højere sandsynligheden er for, at sekvensen er genereret af den tilsvarende sandsynlighedsmatrix og ikke tilfældig, jo højere vægten.
Informationsindholdet i PVM viser, hvordan fordelingen af bogstaver i stillinger beskrevet i den adskiller sig fra den ensartede fordeling . Egen information for hver karakter i motivets position er lig med:
Den forventede (gennemsnitlige) selvinformation for dette element er:
Informationsindholdet i hele matricen er lig med summen af alle forventede gennemsnitlige egenværdier for hvert element i matricen. Informationsindholdet i SPM i tilfælde af en ujævn baggrundsfordeling beregnes ved hjælp af formlen:
hvor er baggrundsfrekvensen for det givne symbol.Informationsindholdet er relateret til Kullback-Leibler-afstanden eller relativ entropi . Men når man bruger PSSM-algoritmen til at søge efter genomiske sekvenser (se nedenfor), kan en sådan ensartet korrektion føre til en overvurdering af betydningen af forskellige baser i motivet på grund af den ujævne fordeling af n-merer i rigtige genomer, hvilket fører til et signifikant højere antal falske positive [10] .
PVM'er bruges i vid udstrækning til analyse af nukleotid- og proteinsekvenser. Først og fremmest bruges de til at søge efter specifikke websteder og motiver. For eksempel er MATCH-algoritmen [11] i stand til at søge efter potentielle bindingssteder for transkriptionsfaktorer i DNA-sekvenser. Lignende tilgange bruges til proteiner [12] . Udover at søge efter funktionelle domæner kan PVM bruges til at forudsige forskellige egenskaber ved proteiner, såsom sekundær struktur [13] [14] [15] , deres tilgængelighed til et opløsningsmiddel [16] [17] , kontakter i strukturen [ 18] . Ud over at søge efter motiver bruges multiple alignment PWM'er til at beskrive proteinfamilier. Der er PVM-databaser, der kan bruges til at bestemme, om et protein af interesse tilhører kendte familier. Metoder til at konstruere og bruge PVM bliver også forbedret. For eksempel er der blevet udviklet en metode til at skabe PWM uden at bruge store multiple proteinjusteringer, hvilket markant fremskynder beregninger i nærværelse af et stort udvalg af indledende data [19] . Derudover er der en tilgang, der bruger flere PTM'er til at beskrive proteinfamilier: i dette tilfælde er ikke én, men mange matricer konstrueret ved hjælp af forskellige ikke-tætte (for at undgå bias) familieproteiner.
Der er forskellige algoritmer til at scanne for PWM-matches i sekvenser. Et eksempel er MATCH-algoritmen, som blev implementeret i ModuleMaster. Mere sofistikerede algoritmer til hurtige databasesøgninger ved hjælp af nukleotider såvel som PWM/PSSM-aminosyrer er implementeret i possumsearch-softwaren og beskrevet af Beckstette, et al. (2006) [20] .
Blandt de mest berømte algoritmer er der også MEME og Gibbs [1] .
Den færdiglavede PVM-implementering kan bruges i programmeringssprogene Python ( BioPython- pakken ) og R ( seqLogo- biblioteket ).