Multiple EM for Motif Elicitation ( MEME ) er en algoritme og et værktøj af samme navn, som er en implementering af algoritmen, til at søge efter motiver i biologiske sekvenser af proteiner og DNA . Algoritmen er baseret på gentagen anvendelse af maximum likelihood - metoden . Et motiv er en kort sekvens af nukleotider eller aminosyrer, der er fælles for nogle sæt sekvenser.
Søgen efter motiver er en vigtig opgave i biologien, eftersom tilstedeværelsen af et motiv i en sekvens kan tjene som et signal til sekvensgenkendelse for transkriptionsfaktorer eller restriktionsendonukleaser [1] .
MEME-algoritmen blev udviklet i 1994 af Timothy Bailey og Charles Elkan [2] . Det er en udvidelse af den maksimale sandsynlighed metode til at finde motiver , som blev offentliggjort i 1990 af Lawrence og Reilly [3] . Den oprindelige metode gjorde det muligt kun at finde ét motiv i et sæt af sekvenser, og dette motiv var lokalt optimalt, da algoritmen i høj grad afhænger af valget af startparametre. Rigtigheden af dens drift afhang også stærkt af støjniveauet i de betragtede sekvenser. MEME-metoden gjorde det muligt at omgå disse mangler. I 1996 blev der oprettet en webserver indeholdende en implementering af MEME, som blev brugt af omkring 800 unikke besøgende mellem 2000 og 2006 [4] . Og i 2009 blev MEME Suite-pakken præsenteret, der ikke kun indeholdt implementeringen af MEME, men også mange andre relaterede programmer [5] . I alt har følgende personer arbejdet på skabelsen af MEME Suiten: Timothy Bailey, William Stafford Nobel, Charles Elkan og Michael Gribskov bidrog også til projektet. Fra 2017 er MEME Suiten understøttet af et NIH -bevilling , og webserveren modtager også hjælp fra Google og Amazon [6] .
Det er nødvendigt at identificere et eller flere almindelige motiver i et sæt af forkert justerede nukleotid- eller aminosyresekvenser, der hver indeholder et, flere eller ingen motiver. I dette tilfælde betragter vi motiver uden huller (huller), der har en fælles biologisk funktion. For eksempel kan de være mål for et enkelt DNA-bindende protein. MEME bruger repræsentationen af et biologisk motiv i form af en position-vægt matrix (PWM) [2] .
Det er ikke muligt at detektere et fælles motiv i noget sæt af sekvenser, derfor, for at algoritmen skal fungere korrekt, skal sekvenser vælges omhyggeligt og forberedes: et fælles motiv skal forventes i dette sæt (f.eks. vides sekvenser at binde til en enkelt transkriptionsfaktor ), og sekvenserne skal være så korte, at så vidt muligt (ideelt set <1000 nukleotider ) [4] .
Som standard indeholder MEME-outputtet ikke mere end tre motiver med længde fra 6 til 50, der findes både på den fremadgående og omvendte kæde af inputsekvenser [6] . Hvis den biologiske betydning af søgeobjekterne er kendt, så kan man gætte og indstille antallet og længden af motiver, der forventes i dette sæt af sekvenser. Dette vil forbedre kvaliteten af forudsigelsen i tilfælde af, at motivet ikke passer til standardparametrene [4] .
Indgangen til EM-algoritmen er:
Algoritmen returnerer en mulig model af det fundne motiv [3] .
Ved hvert trin i algoritmen bestemmes motivet af en positionsvægtmatrix (PWM) af størrelse , hvor er størrelsen af alfabetet. Hver celle i PVM'en har en vægt , der afhænger af sandsynligheden for, at et bogstav optræder i kolonnen , hvor . Disse værdier genberegnes under hver iteration af algoritmen [3] .
Da det i starten er ukendt, hvor præcist i sekvenserne motivet er placeret, beregnes ved hvert trin i algoritmen værdierne af matricen , hvor matrixelementet er sandsynligheden for, at motivet begynder i sekvensen fra position [3 ] .
Algoritmen består således af følgende sekvens af trin:
For at forbedre resultatet af EM-algoritmen er det nødvendigt at vælge det rigtige sæt startparametre. Der er flere måder at gøre dette på:
Underfølgemetoden er baseret på, at det ønskede motiv skal svare til en eller anden længdefølge i de originale data. For hver sådan undersekvens konstrueres PVM'er, hvorfra hver lancering af EM-algoritmen starter. Den største værdi af sandsynlighedsfunktionen blandt alle kørsler af algoritmen vil være det globale maksimum og vil give det ønskede motiv. Det er dette princip, der begrænser søgen efter motiver med huller [8] .
Ifølge en given undersekvens kan en PSM konstrueres på forskellige måder. MEME-algoritmen bruger følgende: frekvensen af bogstavet svarende til bogstavet i efterfølgen tages som , algoritmen fungerer bedst for . Og sandsynligheden for alle andre bogstaver tages som [8] .
Det viser sig, at i det øjeblik, hvor algoritmen køres for en undersekvens svarende til det korrekte motiv, konvergerer EM-algoritmen så hurtigt, at en iteration er nok. For at spare tid er det derfor nok kun at køre én iteration af EM-algoritmen hver gang, som er implementeret i MEME-algoritmen [8] .
MEME-algoritmen er baseret på gentagen anvendelse af EM-algoritmen til at søge efter et motiv i sekvenser. Indgangen til MEME-algoritmen er:
EM-algoritmen er modificeret til følgende:
De opdagede motiver ved programmets output er givet i form af LOGO .
MEME længde motivsøgningsalgoritmen tager trin, hvor er en ukendt konstant (mellem 10 og 100), er det samlede antal bogstaver i det givne alfabet i inputsekvenserne [9] . Det vil sige, at kompleksiteten af algoritmen viser sig at være .
I modsætning til EM giver MEME dig mulighed for at arbejde og effektivt finde motiver i sekvenser, der indeholder mere end én kopi af et motiv eller ikke indeholder et motiv. Sidstnævnte betragtes af algoritmen som støj [8] . Et stort plus er også muligheden for at søge efter flere forskellige motiver i ét sæt inputsekvenser [8] og søge efter et globalt optimalt motiv, mens EM ofte stopper ved et lokalt optimalt, hvilket måske slet ikke er et motiv [10 ] . Der er en implementering af algoritmen i form af et program til en pc og en webserver med en bekvem grænseflade med et sæt ekstra programmer til videre arbejde med det fundne motiv [9] .
MEME-algoritmen genkender dårligt motiver i lange sekvenser, desuden øger en stor længde af sekvenser algoritmens køretid kraftigt [4] [9] . MEME-algoritmen gør også en vigtig grundlæggende antagelse om ligesandsynligheden for forekomsten af et motiv i en hvilken som helst del af sekvensen. Denne tilgang er ikke egnet til at søge efter et motiv i RNA- sekvenser , da de danner sekundære og tertiære strukturer, hvilket gør udseendet af et motiv mere eller mindre sandsynligt afhængigt af strukturen [11] . Algoritmen tillader ikke at finde motiver med huller, da selve formuleringen af problemet med algoritmen ikke indebærer at søge efter dem.
Baseret på denne algoritme er MEME Suite-værktøjet implementeret, tilgængeligt i webversionen og til pc [6] , fra 2017 er det understøttet og opdateret.