Motiv (molekylærbiologi)

Et motiv i molekylærbiologi er en relativt kort sekvens af nukleotider eller aminosyrer, der ændrer sig lidt under evolutionen og i det mindste formodentlig har en vis biologisk funktion [1] [2] [3] . Et motiv forstås undertiden ikke som en specifik sekvens, men som en på en eller anden måde beskrevet række af sekvenser, som hver især er i stand til at udføre en bestemt biologisk funktion af et givet motiv [4] .

Motiver er allestedsnærværende i levende organismer og udfører mange vitale funktioner, såsom regulering af transkription og translation (i tilfælde af nukleotidmotiver), post-translationel modifikation og cellulær lokalisering af proteiner og bestemmer delvist deres funktionelle egenskaber ( leucin lynlås ) [ 2] [5] . De er meget brugt i bioinformatik til at forudsige funktionerne af gener og proteiner, bygge reguleringskort og er vigtige for mange problemer inden for genteknologi og molekylærbiologi generelt [6] [7] [8] .

På grund af motivers praktiske betydning er der udviklet både bioinformatiske metoder til deres søgning ( MEME , Gibbs Sampler) og in vivo søgemetoder for motiver ( ChIP-seq , ChIP-exo). Sidstnævnte giver ret ofte omtrentlige koordinater af motiver, og deres resultater forfines derefter ved bioinformatiske metoder [ 1 ] matrix[6]2][ [2] .

Motivet bør skelnes fra konservative områder i nært beslægtede organismer, der ikke har væsentlige biologiske funktioner, hvor mutationsprocessen ikke har haft tid til at ændre dem tilstrækkeligt [9] .

Motiver i nukleinsyrer

I tilfælde af DNA er motiver oftest korte sekvenser, der er bindingssteder for proteiner, såsom nukleaser og transkriptionsfaktorer , eller er involveret i vigtige regulatoriske processer allerede på RNA- niveau , såsom ribosomlanding , mRNA - behandling og transkriptionsterminering [4] .

Kort læringshistorie

Studiet af motiver i DNA blev muligt på grund af fremkomsten i 1973 [10] af DNA- sekventeringsproceduren (bestemmelse af nukleotidsekvensen af et DNA-fragment). Sekvenserne for lac - operatoren og lambda-operatoren [11] blev defineret først . Men før fremkomsten af mere produktive sekventeringsmetoder [12] forblev antallet af motivsekvenser ret lille. I slutningen af 1970'erne var der mange eksempler på mutante sekvenser (sites), der binder transkriptionsfaktorer og sekvenser med ændret specificitet [13] . Med stigningen i antallet af sekvenser begyndte metoder til teoretisk forudsigelse af motiver at udvikle sig. I 1982 blev en position-vægt-matrix (PWM) af translationsinitieringsstedsmotivet konstrueret for første gang. Ved at bruge det konstruerede PVM blev andre steder for translationsinitiering forudsagt [14] . Denne tilgang viste sig at være ret kraftfuld og bruges stadig i forskellige former til at søge efter kendte motiver i genomer, og specifikke metoder adskiller sig kun i typen af vægtfunktion [4] . Men tilgangen baseret på konstruktionen af PWM på basis af eksisterende sekvenser tillod ikke at finde fundamentalt nye motiver, hvilket er en vanskeligere opgave. Den første algoritme, der løste dette problem, blev foreslået af Gallas og kolleger i 1985 [15] . Denne algoritme var baseret på at finde almindelige ord i et sæt af sekvenser og gav en høj procentdel af falske negativer, men den blev grundlaget for en hel familie af algoritmer [16] . Mere nøjagtige probabilistiske metoder blev senere udviklet: MEME- algoritmen baseret på forventningsmaksimeringsproceduren [17] og Gibbs Sampler- algoritmen også baseret på forventningsmaksimeringsproceduren [18] . Begge metoder har vist sig at være meget følsomme og bruges i øjeblikket til at forudsige motiver i sekvenssæt.

Efter udviklingen af kraftfulde værktøjer til forudsigelse af transkriptionsfaktorbindingsmotiver og etablering af en overensstemmelse mellem et tilstrækkeligt antal transkriptionsfaktorer og motiver, blev det muligt at forudsige funktionerne af en oper, der ligger tæt på motivet ved hjælp af specificiteten af transkriptionsfaktoren, som binder sig til det, og omvendt, for at forudsige transkriptionsfaktoren fra generne i operonet, der ligger ved siden af et bestemt motiv [3] .

Linker websteder

Transskriptionel regulering

Typiske eksempler på regulering af transkription, udført ved hjælp af et protein, der genkender et særligt motiv, er:

Purin-repressorsted PurR i Escherichia coli . PurR binder til en sekvens på 16 nukleotider, som er placeret før purin-operonen og regulerer transskriptionen af gener, der er ansvarlige for syntesen af purin- og pyrimidin - nukleotider [5] [19] . Interessant nok har bakterien Bacillus subtilis , evolutionært fjernt fra E. coli, også en purin-repressor, der ikke er homolog med PurR [20] ;
Stedet for laktoseoperonen Lac . Laktoseoperonen styres af LacI- repressoren , som ved binding til DNA forhindrer transskriptionen af gener, der er ansvarlige for laktosekatabolisme [6] .

Oversættelsesregulering

Nogle af de bedst kendte eksempler på translationel regulering af motivgenkendelsesregulatorer er:

Landingsstedet for det prokaryote ribosom er Shine-Dalgarno-sekvensen [21] , her sker bindingen med riboproteinet ;
Landingsstedet for det eukaryote ribosom er Kozak-sekvensen , binding sker med den eukaryote translationsinitieringsfaktor eIF1 [ 7] ;
IRE er regulatoriske elementer placeret på 5'UTR og/eller 3'UTR af mRNA'et af enzymer (for eksempel ferritin ), der regulerer indholdet af jern i cellen. Proteinerne IRP1 ( cytosolisk form af aconitase) og IRP2 (katalytisk inaktiv aconitasehomolog ) binder til disse motiver og regulerer hastigheden af dets nedbrydning eller translationshastigheden, der forekommer fra det, ved selve deres binding til mRNA [22] .

Motivets kraft

Styrken af interaktionen af et protein eller RNA med et DNA-motiv afhænger primært af sekvensen af dette motiv. Der er "stærke" motiver, som giver en stærk vekselvirkning med et protein eller RNA, og "svage" motiver, hvormed vekselvirkningen er svagere. Det er næsten altid muligt at opnå den såkaldte "konsensussekvens" ("konsensus"), det vil sige en sådan sekvens, i hver position, hvor der er et bogstav, der oftest findes i den tilsvarende position i sekvenserne af motiver fra forskellige organismer. Konsensussekvensen tages som den stærkeste, hvilket den næsten altid er [23] . Svagere motiver opnås fra det ved hjælp af et lille (oftest 1-3) antal substitutioner [24] .

Udviklingen af motivets kraft

I evolutionsprocessen reguleres motivernes styrke af naturlig udvælgelse, og motivet kan enten blive stærkere eller svagere [25] . Et karakteristisk eksempel på en sådan justering af styrken af et motiv er variationen af Shine-Dalgarno (SD) sekvensen. Der er en tæt sammenhæng mellem mængden af translateret protein, som kroppen kræver, og styrken af SD foran den [8] .

Det er vigtigt at bemærke, at i tilfælde af SD, selvom styrken af proteinbinding direkte korrelerer med styrken af binding af 16S-underenheden af ribosomet , vil konsensussekvensen ikke nødvendigvis garantere det mest på grund af de særlige forhold ved translationsinitiering. effektiv translation (på grund af vanskeligheden ved at forlade ribosomet fra initieringsstedet). ) [6] . Derfor indeholder Shine-Dalgarno-sekvensen oftest 4-5 nukleotider fra konsensussekvensen, hvor sidstnævnte er omkring 7 nukleotider lang [26] .

RNA-switche

Tilstedeværelsen af et motiv, der klart spiller en biologisk signifikant rolle, medfører ikke altid tilstedeværelsen af et regulatorisk protein. Regulering kan også udføres ved at binde RNA til et eller andet lavmolekylært stof . Dette princip bruges til at bygge RNA-switche , strukturer dannet på RNA under transkription og i stand til at binde små molekyler [27] [28] . Molekylebinding påvirker riboswitchens evne til at stoppe transkription eller interferere med translation. I dette tilfælde er det ikke sekvensen af nukleotider som sådan, der er vigtig, men tilstedeværelsen af komplementære nukleotider på de rigtige steder i sekvensen [4] .

Regulering efter sekundær struktur

Reguleringen af translation kan også kun udføres på grund af den sekundære struktur dannet af nukleinsyren .

Rho-uafhængig transkriptionsterminator er en hårnål , der dannes på det syntetiserede mRNA før translation begynder, hvilket forhindrer yderligere mRNA-syntese ( Terminator (DNA) ) [29] ;
IRES er en kompleks struktur i mRNA'et fra eukaryote vira , der giver intern initiering af translation [30] .

Motivstruktur

Transkriptionsfaktor-bindende motiver har ofte form af direkte gentagelser af en eller anden sekvens, omvendte gentagelser eller palindromiske sekvenser . Dette kan forklares med arbejdet med transkriptionsfaktorer i form af proteindimerer, hvor hver af monomererne binder den samme sekvens. Der er også motiver for større gentagelse [6] . En sådan motivstruktur sikrer en skarpere reaktion på ændringer i ydre forhold. For eksempel, hvis binding afhænger af koncentrationen af et stof i cellen, så får vi afhængigheden af cellens reaktionskraft beskrevet af Michaelis-Menten-ligningen . Med en stigning i antallet af proteinbindingsenheder (vi vil antage, at effekten af proteinbinding til et motiv kun manifesteres i tilfælde af binding til alle gentagelser), bliver afhængigheden mere og mere som en sigmoid , der har tendens til Heaviside funktion til det yderste , som beskriver et af hovedprincipperne for levende systemers reaktion på mange påvirkninger - loven "alt-eller-intet" ( engelsk alt-eller-intet lov ) [6] , for eksempel dannelsen af et aktionspotentiale [31] .

Motiver i proteiner

For proteiner skal man skelne

motiv i aminosyresekvens
strukturelt motiv - det indbyrdes arrangement af flere tætsiddende elementer af den sekundære struktur i rummet [2] [22] . På sekvensen kan disse elementer være langt fra hinanden [32] .

Motiver i primær struktur (proteinsekvenser)

Motiver i den primære struktur ligner dem i nukleinsyrer. Typiske eksempler på disse er:

signalpeptider er korte aminosyresekvenser i et protein, omkring 3-60 aminosyrer lange [33] , som bestemmer, hvilket kompartment af cellen, der sendes til efter syntese . Et eksempel er et nukleart lokaliseringssignal ;
steder for post-translationel modifikation af proteiner, som er konservative peptider af størrelsesordenen 5-12 aminosyrer [6] . Et eksempel er acetyleringssteder i et protein [34]

Strukturelle motiver

I proteiner beskriver strukturelle motiver bindingerne mellem elementer i den sekundære struktur. Sådanne motiver har ofte sektioner af variabel længde, som i nogle tilfælde kan være fuldstændig fraværende [22] .

Leucin lynlås - karakteristisk for dimere proteiner, der binder DNA. Leucinlyn giver kontakt mellem to proteinmonomerer på grund af hydrofobe interaktioner [22] [35] . Det er karakteriseret ved tilstedeværelsen af en leucinrest i hver syvende position .
Zinkfingre - karakteristisk for DNA-bindende transkriptionsfaktorer [22] [36] ;
Helix-turn-helix er et DNA-bindende motiv, netop sådan et DNA-bindende fragment i Lac-repressoren [22] .
Homeodomæne er et motiv, der binder DNA og RNA. I eukaryoter inducerer proteiner med homeodomæner celledifferentiering ved at udløse kaskader af gener, der er nødvendige for dannelsen af væv og organer. Det ligner et "spiral-drej-spiral"-motiv, derfor er det ofte ikke udskilt separat [22] [37] .
Rossmann-folden er et motiv, der binder nukleotider (for eksempel NAD) [38] . Det forekommer især i dehydrogenaser, herunder glyceraldehyd-3-phosphat dehydrogenase , som er involveret i glykolyse .
EF-armen, et motiv, der binder Ca2 +-ioner , ligner også helix-turn-helix-motivet [39] .
Nest - tre på hinanden følgende aminosyrerester danner anionbindingsstedet [40] .
Niche - tre på hinanden følgende aminosyrerester danner et kationbindingssted [41] .
Beta-hårnål - to β-strenge forbundet med en kort drejning af proteinkæden [42] .

Udover beta-hårnålen skelnes der mange andre motiver, hvis funktion er at danne proteinets strukturelle ramme [43] .

Tæt på udtrykket strukturelt motiv af et protein er styling - et karakteristisk arrangement af elementer i den sekundære struktur. På grund af deres lighed bruges termerne ofte den ene i stedet for den anden, og linjen mellem dem er sløret [43] [44] .

Repræsentation af motiver

I første omgang er der et sæt motiver fra forskellige sekvenser, og opgaven er sat [2] :

præsentere dem kortfattet og klart;
at kunne søge efter dets nye forekomster på præsentation af et motiv.

Der er flere generelt accepterede måder at repræsentere motiver på [45] . Nogle af dem er velegnede til både proteiner og nukleotider, den anden del - kun til proteiner eller nukleotider.

Konsensus

Streng konsensus

En streng konsensus af et motiv er en streng bestående af de mest repræsenterede bogstaver i sættet af realiseringer af motivet. I praksis er ikke kun det hyppigste bogstav i en given position angivet, men også, hvis den maksimale hyppighed af forekomst af et bogstav i en given position er mindre end en given tærskel, så sættes x(et hvilket som helst bogstav i alfabetet) i dette sted i konsensus. Ved en sådan konsensus finder vi næsten helt sikkert sekvenser, der faktisk er motiver, men vi savner et stort antal motiver, der adskiller sig fra konsensus ved flere substitutioner [2] [4] [9] . Nedenfor er et eksempel på stærk konsensus for en motivregion af fem UniProt - proteiner med et leucin-lynlås-motiv (tærskelværdien blev taget lig med 80%):

UniProt ID	en	2	3	fire	5	6	7	otte	9	ti	elleve	12	13	fjorten	femten
	Stillingsnummer
O35048	L	S	P	C	G	L	R	L	jeg	G	EN	H	P	jeg	L
Q6XXX9	L	G	Q	D	jeg	C	D	L	F	jeg	EN	L	D	V	L
Q9N298	L	G	Q	V	T	C	D	L	F	jeg	EN	L	D	V	L
Q61247	L	S	P	L	S	V	EN	L	EN	L	S	H	L	EN	L
B0BC06	L	T	jeg	G	Q	Y	S	L	Y	EN	jeg	D	G	T	L
Konsensus	L	x	x	x	x	x	x	L	x	x	x	x	x	x	L

Løs konsensus

En ikke-streng konsensus er en sekvens af lister over bogstaver, der er mest repræsenteret på det tilsvarende sted. Alle eller de hyppigst forekommende bogstaver i en given position er beskrevet (normalt er der sat en minimumsfrekvenstærskel) [2] . Faktisk er motivet beskrevet ved hjælp af et regulært udtryk [4] [9] . Følgende bruges som betegnelser:

Alfabet - et sæt individuelle tegn, der angiver en specifik aminosyre/nukleotid eller et sæt aminosyrer/nukleotider;
ABC - en række af alfabetiske tegn, der angiver en sekvens af tegn, der følger efter hinanden;
[ABC] - enhver streng af tegn taget fra alfabetet i firkantede parenteser matcher ethvert af de tilsvarende tegn; for eksempel matcher [ABC] enten A eller B eller C;
{ABC..DE} - enhver streng af tegn taget fra alfabetet matcher enhver aminosyre, undtagen dem i krøllede parenteser; matcher f.eks. {ABC}enhver aminosyre undtagen A, Bog C;
xsmå bogstaver - et hvilket som helst tegn i alfabetet.

I tilfælde af en sådan repræsentation er man nødt til at balancere mellem sensitiviteten af konsensus (antallet af rigtige motiver, som de kan finde) og specificiteten (metodens evne til at afvise junk-sekvenser) [1] . Nedenfor er et eksempel på ikke-streng konsensus for de samme fem proteinsekvenser som for stærk konsensus (tærsklen blev taget lig med 20%). Vi ser, at i position 10 er motivet ikke helt objektivt - leucin ( L) og isoleucin ( I) er meget ens aminosyrer i deres egenskaber, og det ville være logisk at inkludere dem begge i konsensus.

UniProt ID	en	2	3	fire	5	6	7	otte	9	ti	elleve	12	13	fjorten	femten
	Stillingsnummer
O35048	L	S	P	C	G	L	R	L	jeg	G	EN	H	P	jeg	L
Q6XXX9	L	G	Q	D	jeg	C	D	L	F	jeg	EN	L	D	V	L
Q9N298	L	G	Q	V	T	C	D	L	F	jeg	EN	L	D	V	L
Q61247	L	S	P	L	S	V	EN	L	EN	L	S	H	L	EN	L
B0BC06	L	T	jeg	G	Q	Y	S	L	Y	EN	jeg	D	G	T	L
Konsensus	L	[SG]	[PQ]	x	x	C	D	L	F	jeg	EN	[LH]	D	V	L

Prosit konsensus (for proteiner)

PROSITE bruger IUPAC til at angive enkeltbogstavs aminosyrekoder, med undtagelse af sammenkædningstegnet "-", der bruges mellem mønsterelementer. Ved brug af PROSITE tilføjes flere symboler for at lette repræsentationen af proteinmotivet [46] :

' <' - mønsteret er begrænset til N-terminalen af sekvensen;
' >' - mønsteret er begrænset til C-enden af sekvensen;

Hvis e er en elementskabelon, og mog ner to decimale heltal og m<= n, så:

e(m)svarer til at gentage enøjagtigt mén gang;
e(m,n)svarer til at gentage enøjagtigt kén gang for ethvert heltal k, der opfylder betingelsen: m<= k<= n;

Eksempel: et domænemotiv med en C2H2-type signatur af en zinkfinger ser sådan ud: C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H[47]

Positionel vægtmatrix

En positionsvægtmatrix er en matrix, hvis kolonner svarer til positioner i sekvensen, og hvis rækker svarer til bogstaver i alfabetet. Værdierne af denne matrix er frekvenserne (eller monotone funktioner af frekvenser) for forekomsten af et givet bogstav i en given position i sekvensen. I dette tilfælde, for at udelukke nulfrekvenser, tilføjes et vist tal til antallet af forekomster af hvert bogstav i positionen, baseret på a priori-fordelingen af bogstaver i lignende sekvenser [4] (f.eks. Laplaces korrektion er introduceret [48] ). Denne tilgang, ligesom de foregående, antager implicit, at positioner i motivet er uafhængige, hvilket faktisk ikke observeres selv for nukleotidsekvenser [2] [4] .

Lad os sige, at vi har 7 DNA-sekvenser, der repræsenterer motivet [9] :

Nummer sekvenser	en	2	3	fire	5	6	7	otte
	Stillingsnummer
en	EN	T	C	C	EN	G	C	T
2	G	G	G	C	EN	EN	C	T
3	EN	T	G	G	EN	T	C	T
fire	EN	EN	G	C	EN	EN	C	C
5	T	T	G	G	EN	EN	C	T
6	EN	T	G	C	C	EN	T	T
7	EN	T	G	G	C	EN	C	T

Positionsmatrixen for dem vil have følgende form ( +1 - under hensyntagen til Laplace-reglen) [9] :

Nukleotid	en	2	3	fire	5	6	7	otte
	Stillingsnummer
EN	5+1	1+1	0+1	0+1	5+1	5+1	0+1	0+1
C	1+1	0+1	1+1	4+1	2+1	0+1	6+1	1+1
G	0+1	1+1	6+1	3+1	0+1	1+1	0+1	0+1
T	1+1	5+1	0+1	0+1	0+1	1+1	1+1	6+1

Frekvenser kan normaliseres til det samlede antal af sekvensen, hvorved der opnås et estimat af sandsynligheden for at møde et givet nukleotid i en given sekvens (faktisk er PWM normalt lagret i en sådan repræsentation) [2] :

Nukleotid	en	2	3	fire	5	6	7	otte
	Stillingsnummer
EN	0,55	0,18	0,09	0,09	0,55	0,55	0,09	0,09
C	0,18	0,09	0,18	0,45	0,27	0,09	0,64	0,18
G	0,09	0,18	0,64	0,36	0,09	0,18	0,09	0,09
T	0,18	0,55	0,09	0,09	0,09	0,18	0,18	0,64

HMM (Skjulte Markov-modeller)

For større nøjagtighed er det muligt at tage højde for afhængigheden af nabopositioner i motivet ved hjælp af skjulte Markov-modeller af første og højere orden [2] [4] . Denne tilgang er fyldt med nogle vanskeligheder, da dens anvendelse kræver et tilstrækkeligt repræsentativt udvalg af motivmuligheder. I tilfældet med det foregående eksempel har vi:

For en Markov-model af orden 0 (sandsynligheden for forekomsten af et nukleotid i en given position afhænger ikke af andre positioner - en anden måde at fortolke PWM på) [4] ;

For en Markov-model af orden 1 (sandsynligheden for, at et nukleotid optræder i en given position afhænger kun af nukleotidet i den foregående sekvens. Det er let at se, at antallet af modelparametre er steget meget) [4] . Ved beregning af overgangssandsynlighederne blev Laplace-reglen også brugt. Emissionssandsynlighederne for tilstandene er 1 for de nukleotider, de svarer til, 0 for resten.

I tilfælde af motiver, der indeholder regioner med variabel størrelse og nukleotidsammensætning, ville det være muligt at indføre en separat model for disse regioner, separat for konservative, og derefter "lime" dem ind i én model ved at tilføje mellemliggende "stille" tilstande og overgang sandsynligheder til og fra dem dem [4] .

SCS (Stochastic Context-Free Grammar)

I tilfælde af motiver, der danner sekundære strukturer (RNA-switche) i RNA, er det vigtigt at tage højde for muligheden for nukleotidparring i elementerne i den sekundære struktur . SCS klare denne opgave . SCS-træning kræver dog en endnu større stikprøvestørrelse end HMM og er forbundet med en række vanskeligheder [4] .

Vis for store databaser

I tilfælde, hvor hastigheden af søgningen er vigtig, og det er acceptabelt at springe nogle forekomster af vores motiv over, tyr forskerne til forskellige tricks, der gør det muligt at kryptere den rumlige struktur af en biopolymer (RNA eller protein) med acceptabel nøjagtighed ved at udvide alfabet [49] .

Repræsentation af motiver i proteiner ved at kode proteinets rumlige struktur

Escherichia coli lactoserepressoren LacI operon ( PDB 1lcc kæde A) og katabolismeaktivatorgenet ( PDB 3gap kæde A) har begge et helix-turn-helix-motiv, men deres aminosyresekvenser er ikke meget ens. En gruppe forskere udviklede en kode, som de kaldte "3D-kædekoden", som repræsenterer strukturen af et protein som en streng af bogstaver. Dette kodningsskema viser ifølge forfatterne ligheden mellem proteiner meget tydeligere end aminosyresekvenser [49] :

Eksempel : sammenligning af de to ovennævnte proteiner ved hjælp af dette kodningsskema [49] :

PDB ID	3D kode	Aminosyresekvens
1lccA	TWWWWWWWKCLKWWWWWWG	LYDVAEYAGVSYQTVSRVV
3gapA	KWWWWWWGKCFKWWWWWWW	RQEIGQIVGCSRETVGRIL
Sammenligning	Der er en klar lighed mellem proteinerne	Proteiner adskiller sig meget i deres aminosyresekvens.

hvor Wsvarer til en α-helix, og Eog Dsvarer til en β-streng.

Repræsentation af motiver i RNA ved hjælp af en sekundær struktur (foldedBlast)

I dette arbejde, for at anvende en søgealgoritme svarende til BLAST , blev nukleotidalfabetet (ATGC, da søgningen blev udført i genomet) udvidet ved at kombinere nukleotider og tre tegn, der karakteriserer deres formodede parringsretning [50] :

( - nukleotidet er parret med nukleotidet til højre;
) - nukleotidet er parret med nukleotidet til venstre;
. - nukleotidet er ikke parret.

Således blev der opnået 12 bogstaver i det nye alfabet (4 nukleotider * 3 "retninger"), hvilket, når det bruges korrekt, giver mulighed for en BLAST-lignende søgning, kaldet af forfatterne foldedBlast [50] .

Sekvenslogo

Til den visuelle gengivelse af motiver bruges ofte sekvenslogoet - en grafisk fremstilling af konservatismen af hver position i motivet. Samtidig kan denne visualisering med succes bruges både i tilfælde af at repræsentere motivet i form af en konsensus- eller positionsvægtmatrix og til at repræsentere HMM-sekvensmodellen, som det gøres i Pfam -proteinfamiliedatabasen [51] .

Derudover, hvis for eksempel lysstyrken af hvert nukleotid i et motiv bruges som en indikator for, hvor ofte et komplementært nukleotid svarer til det i samme motiv , så kan information om motivets sekundære struktur også være delvist repræsenteret. Dette gøres for eksempel i den bioinformatiske webtjeneste RegPredict [52] .

Søg efter transkriptionsfaktorbindingssteder i silico

I tilfælde af søgning i nukleotidsekvenser efter motiver, der er ansvarlige for bindingen af regulatoriske proteiner, bruger de ideen om, at de [motiver] ændrer sig relativt langsomt, hvilket betyder, at hvis vi tager organismer, der er langt nok fra hinanden, så mutationer kan ophobes. i meget variable positioner af deres sekvenser, og steder har endnu ikke haft tid til at ændre sig meget, så kan du bruge reglen "hvad der er konservativt er vigtigt" [2] . Efter at have opnået sekvenser, hvor tilstedeværelsen af et specifikt motiv forventes, anvendes hovedsageligt to tilgange til at finde en motivsekvens - fylogenetisk fodaftryk og reduktion af problemet til problemet med at finde et indsat motiv .

Fylogenetisk fodaftryk

Fylogenetisk fodaftryk er en semi-automatiseret metode. Sekvenserne behandles af multiple alignment-programmet , og i den resulterende alignment leder forskeren efter mønstre, der kan betragtes som motiver. Et af de mest succesrige eksempler på anvendelsen af denne tilgang kan betragtes som dechifreringen af kodningen af ikke-ribosomale peptider ved hjælp af ikke-ribosomale peptidsyntetaser (NRPS) [2] [53] [54] . Denne metode tillader ikke fuld automatisering af processen med at søge efter motiver, men den har samtidig ikke så alvorlige begrænsninger som følgende.

Problemet med at finde et indsat motiv

Ved motiver uden (næsten uden) brud og uden (næsten uden) afsnit af variabel længde, er det muligt at reducere problemet med motivsøgning til opgaven med at søge efter et indskudt motiv ( eng. Planted motiv search ) [2] [9] .

Formuleringen af opgaven er som følger: “ Inputtet er n strenge s 1 , s 2 , …, s n af længden m, hver bestående af alfabetiske tegn A og to tal — l og d. Find alle strenge x af længden l, således at enhver af de givne strenge indeholder mindst én undersekvens fra x ved Hamming-afstand højst d » [55] .

Da det i det generelle tilfælde ikke vides, om alle de sekvenser, vi har opnået, har det ønskede motiv, og dens nøjagtige længde heller ikke er kendt, løses problemet normalt ved heuristiske metoder - maksimering af sandsynligheden for det fundne motiv for givne sekvenser. Programmerne MEME [17] og GibbsSampler [56] er baseret på dette princip .

Hvis du indstiller en minimumstærskel for antallet af sekvenser, der skal indeholde et motiv og på en eller anden måde begrænser dets længde, så kan du bruge nøjagtige metoder til at løse dette problem, for eksempel RISOTTO-algoritmen [57] . Nogle af dem giver dig mulighed for at fjerne nogle af begrænsningerne på det ønskede motiv - i RISOTTO kan det ønskede motiv have pauser, bestå af flere dele.

Disse metoder giver dog sjældent bedre resultater end MEME og GibbsSamler, og de tager meget længere tid [2] [58] .

Søg efter bindingssteder in vitro

ChIP seq

En metode til at analysere DNA-protein-interaktioner, der kombinerer ideerne om kromatin-immunpræcipitation (ChIP) og højtydende DNA- sekventering (proteinet fusioneres til DNA, derefter sendes DNA-stykkerne fusioneret til proteinet til sekventering). Under driften af metoden opnås områder med en længde på omkring 150 nukleotider, som derefter kan analyseres i silico for tilstedeværelsen af et motiv [59] .

ChIP-on-chip

Som i tilfældet med anvendelse af ChIP-seq-metoden udføres chromatin-immunpræcipitation (ChIP), hvorefter tværbindingen med proteinet vendes, og det resulterende DNA hybridiseres med DNA-mikroarrayet . ChIP-on-chip-metoden er billigere end ChIP-seq, men den er meget ringere end sidstnævnte i nøjagtighed [6] .

ChIP-exo

Også en metode baseret på kromatin immunpræcipitation (ChIP). Anvendelsen af fag- exonuklease λ , som kun nedbryder DNA fra 5'-enden og kun i fravær af kontakt med proteinet, gør det muligt at opnå en nøjagtighed af rækkefølgen af flere nukleotider ved bestemmelse af proteinbindingsstedets position [ 60] .

SELEX

En iterativ metode til at søge efter nukleotidsekvenser, der binder godt til et givet protein [61] . Den generelle procedure ser således ud:

Proteinet af interesse for os sys til søjlen , gennem hvilken en opløsning derefter føres med et sæt sekvenser bestående af en randomiseret region og en adapter;
Sekvenserne, der dvæler på søjlen, klones ved PCR -proceduren , og sammensætningen af reaktionsblandingen er valgt på en sådan måde, at der indføres yderligere fejl under kopiering. De resulterende kloner sendes til en ny runde SELEX;
For hvert par stræk strammes betingelserne ( opløsningens pH , dens ionstyrke ) op, så flere og flere proteinspecifikke sekvenser forbliver på søjlen;
De resulterende sekvenser ligner ofte de faktiske proteinbindingsmotiver i levende organismer.

DamID

Et hybridprotein fremstilles ud fra det undersøgte protein og adenin DNA methyltransferase Dam [62] . Under naturlige forhold er adenin ikke methyleret i de fleste eukaryoter. Når hybridproteinet binder til et sted i organismens DNA, modificerer methyltransferase-delen adeniner i området af dette sted, som derefter tillader brug af restriktionsendonukleaser til at isolere det sted, hvor det ønskede motiv højst sandsynligt er placeret.

Noter

↑ 1 2 3 D'haeseleer Patrik. Hvad er DNA-sekvensmotiver? (engelsk) // Nature Biotechnology. - 2006. - 1. april ( vol. 24 , udg. 4 ). — S. 423–425 . — ISSN 1087-0156 . - doi : 10.1038/nbt0406-423 . Arkiveret fra originalen den 12. april 2017.
↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Compeau Phillip, Pevzner Pavel. Bioinformatikalgoritmer: An Active Learning Approach, 2. udg. Vol. 1 af Philip Compeau . — 2. udgave. - Active Learning Publishers, 2015. - 384 s. — ISBN 9780990374619 .
↑ 1 2 Koonin Eugene V. Tilfældighedernes logik: den biologiske evolutions natur og oprindelse. - 1 udgave. - FT Press, 2011-06-23. — 529 s. — ISBN 978-0132542494 .
↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 Durbin Richard, Eddy Sean R., Krogh Anders, Mitchison Graeme. Biologisk sekvensanalyse: Probabilistiske modeller af proteiner og nukleinsyrer. - Cambridge University Press, 1998. - 372 s. — ISBN 978-0521620413 .
↑ 1 2 Purin-repressor - Proteopedia, liv i 3D . proteopedia.org. Hentet 11. april 2017. Arkiveret fra originalen 12. april 2017.
↑ 1 2 3 4 5 6 7 8 Alberts Bruce, Johnson Alexander, Lewis Julian, Raff Martin, Roberts Keith. Cellens molekylærbiologi . — 4. — Garland Science, 2002-01-01. — ISBN 0815332181 . — ISBN 0815340729 . Arkiveret 27. september 2017 på Wayback Machine
↑ 1 2 Pestova TV, Kolupaeva VG, Lomakin IB, Pilipenko EV, Shatsky IN Molecular mechanisms of translation initiation in eukaryotes (engelsk) // Proceedings of the National Academy of Sciences of the United States of America. - 2001. - 19. juni ( bind 98 , udg. 13 ). — S. 7029–7036 . — ISSN 0027-8424 . - doi : 10.1073/pnas.111145798 . Arkiveret fra originalen den 23. april 2017.
↑ 1 2 Evfratov Sergey A., Osterman Ilya A., Komarova Ekaterina S., Pogorelskaya Alexandra M., Rubtsova Maria P. Anvendelse af sortering og næste generations sekventering til at studere 5΄-UTR indflydelse på translationseffektivitet i Escherichia coli // Nukleinsyreforskning. - 2017. - 7. april ( bd. 45 , udg. 6 ). - P. 3487-3502 . — ISSN 0305-1048 . - doi : 10.1093/nar/gkw1141 . Arkiveret fra originalen den 12. april 2017.
↑ 1 2 3 4 5 6 Jones Neil C., Pevzner Pavel A. An Introduction to Bioinformatics Algorithms. - 1 udgave. - The MIT Press, 2004. - 435 s. — ISBN 9780262101066 .
↑ Gilbert W, Maxam A. Nukleotidsekvensen af lac-operatoren // Proceedings of the National Academy of Sciences. - 1973. - December ( bind 70 , udg. 12 ). - s. 3581-3584 . — PMID 4587255 . Arkiveret fra originalen den 24. april 2017.
↑ Maniatis T, Ptashne M, Backman K, Kield D, Flashman S, Jeffrey A, Maurer R. Genkendelsessekvenser af repressor og polymerase i operatørerne af bakteriofag lambda // Cell . - 1975. - Juni ( bind 5 , udg. 2 ). - S. 109-113 . — PMID 1095210 . Arkiveret fra originalen den 24. april 2017.
↑ Sanger F, Nicklen S, Coulson AR. DNA-sekventering med kædeterminerende inhibitorer (engelsk) // Proceedings of the National Academy of Sciences. - 1977. - December ( vol. 74 , udg. 12 ). - P. 5463-5467 . Arkiveret fra originalen den 2. april 2017.
↑ Stormo GD. DNA-bindingssteder: repræsentation og opdagelse. (engelsk) // Bioinformatik. - 2000. - Januar ( bind 16 , udg. 1 ). - S. 16-23 . Arkiveret fra originalen den 19. april 2017.
↑ Stormo GD, Schneider TD, Gold LM. Karakterisering af translationelle initieringssteder i E. coli // Nucleic Acids Research. - 1982. - 11. maj ( vol. 10 , udg. 9 ). - S. 2971-2996 . Arkiveret fra originalen den 24. april 2017.
↑ Galas DJ, Eggert M, Waterman MS. Strenge mønstergenkendelsesmetoder for DNA-sekvenser. Analyse af promotorsekvenser fra Escherichia coli. (engelsk) // Journal of Molecular Biology. - 1985. - 5. november ( bd. 186 , nr. 1 ). — S. 117–128 . Arkiveret fra originalen den 24. april 2017.
↑ Stormo GD. DNA-bindingssteder: repræsentation og opdagelse. (engelsk) // Bioinformatik. - 2000. - Januar ( bind 16 , nr. 1 ). — S. 16–23 . Arkiveret fra originalen den 19. april 2017.
↑ 1 2 T. L. Bailey, C. Elkan. Værdien af forhåndsviden til at opdage motiver med MEME // Proceedings . International konference om intelligente systemer til molekylærbiologi. - 1995. - 1. januar ( bind 3 ). — S. 21–29 . — ISSN 1553-0833 . Arkiveret fra originalen den 24. april 2017.
↑ Lawrence CE1, Altschul SF, Boguski MS, Liu JS, Neuwald AF, Wootton JC. Detektering af subtile sekvenssignaler: en Gibbs prøveudtagningsstrategi for multipel justering. (engelsk) // Videnskab. - 1993. - 8. oktober ( bd. 262 , nr. 5131 ). — S. 208–214 . Arkiveret fra originalen den 24. april 2017.
↑ Jendresen Christian Bille, Martinussen Jan, Kilstrup Mogens. PurR-regulonet i Lactococcus lactis - transkriptionel regulering af purin-nukleotidmetabolismen og translationelle maskineri (engelsk) // Microbiology (Reading, England). - 2012. - 1. august ( bind 158 , udg. 8 ). — S. 2026–2038 . — ISSN 1465-2080 . - doi : 10.1099/mic.0.059576-0 . Arkiveret fra originalen den 19. april 2017.
↑ Sinha Sangita C., Krahn Joseph, Shin Byung Sik, Tomchick Diana R., Zalkin Howard. Purin-repressoren af Bacillus subtilis: en ny kombination af domæner tilpasset til transkriptionsregulering (engelsk) // Journal of Bacteriology. - 2003. - 1. juli ( vol. 185 , udg. 14 ). — S. 4087–4098 . — ISSN 0021-9193 . - doi : 10.1128/JB.185.14.4087-4098.2003 . Arkiveret fra originalen den 19. april 2017.
↑ Shine J., Dalgarno L. Terminal-sekvensanalyse af bakterielt ribosomalt RNA. Korrelation mellem den 3'-terminale polypyrimidinsekvens af 16-S RNA og translationel specificitet af ribosomet // European Journal of Biochemistry. - 1975. - 1. september ( bind 57 , udg. 1 ). — S. 221–230 . — ISSN 0014-2956 . Arkiveret fra originalen den 19. april 2017.
↑ 1 2 3 4 5 6 7 Nelson David L., Cox Michael M. Lehninger Principles of Biochemistry. — 7 oplag. - W.H. Freeman, 2017-01-01. — 1328 s. — ISBN 9781464126116 .
↑ Stormo GD, Schneider TD, Gold L. Kvantitativ analyse af forholdet mellem nukleotidsekvens og funktionel aktivitet // Nucleic Acids Research. - 1986. - 26. august ( bind 14 , udg. 16 ). — S. 6661–6679 . — ISSN 0305-1048 . Arkiveret fra originalen den 19. april 2017.
↑ Stormo GD DNA-bindingssteder: repræsentation og opdagelse // Bioinformatik (Oxford, England) . - 2000. - 1. januar ( bind 16 , udg. 1 ). — S. 16–23 . — ISSN 1367-4803 . Arkiveret fra originalen den 19. april 2017.
↑ Shultzaberger Ryan K., Zehua Chen, Lewis Karen A., Schneider Thomas D. Anatomy of Escherichia coli σ 70 promotorer // Nucleic Acids Research. - 2007. - 1. februar ( bind 35 , udg. 3 ). — S. 771–788 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkl956 . Arkiveret fra originalen den 19. april 2017.
↑ J. Shine, L. Dalgarno. Terminal-sekvensanalyse af bakterielt ribosomalt RNA. Korrelation mellem den 3'-terminale polypyrimidinsekvens af 16-S RNA og translationel specificitet af ribosomet // European Journal of Biochemistry. - 1975. - 1. september ( bind 57 , udg. 1 ). - S. 221-230 . — ISSN 0014-2956 . Arkiveret fra originalen den 19. april 2017.
↑ Riboswitch, RNA-switch (riboswitch) . humbio.ru. Hentet 11. april 2017. Arkiveret fra originalen 12. april 2017. (Russisk)
↑ Samuel E. Bocobza, Asaph Aharoni. Små molekyler, der interagerer med RNA: riboswitch-baseret genkontrol og dets involvering i metabolisk regulering i planter og alger // The Plant Journal: For Cell and Molecular Biology. - 2014. - 1. august ( bind 79 , udg. 4 ). — S. 693–703 . — ISSN 1365-313X . - doi : 10.1111/tpj.12540 . Arkiveret fra originalen den 19. april 2017.
↑ Hironori Otaka, Hirokazu Ishikawa, Teppei Morita, Hiroji Aiba. PolyU-hale af rho-uafhængig terminator af bakterielle små RNA'er er afgørende for Hfq-handling // Proceedings of the National Academy of Sciences of the United States of America. - 2011. - 9. august ( bind 108 , udg. 32 ). — S. 13059–13064 . — ISSN 0027-8424 . - doi : 10.1073/pnas.1107050108 . Arkiveret fra originalen den 3. juli 2022.
↑ Hiroshi Yamamoto, Marianne Collier, Justus Loerke, Jochen Ismer, Andrea Schmidt. Molekylær arkitektur af det ribosombundne hepatitis C-virus internt ribosomalt indgangssted RNA // The EMBO Journal. - 2015. - 14. december ( bd. 34 , udg. 24 ). — S. 3042–3058 . — ISSN 0261-4189 . - doi : 10.15252/embj.201592469 .
↑ Andrey Kamkin, Andrey Alexandrovich Kamensky. Grundlæggende og klinisk fysiologi. - Akademia, 2004-01-01. — 1072 s. — ISBN 5769516755 .
↑ Strukturelle motiver , EMBL - EBI Train online (25. november 2011). Arkiveret fra originalen den 12. april 2017. Hentet 12. april 2017.
↑ Gonter Blobel, Bernhand Dobberstein. Overførsel af proteiner over membraner. I. Tilstedeværelse af proteolytisk behandlede og ubehandlede lette immunoglobulinkæder på membranbundne ribosomer af murint myelom // The Journal of Cell Biology. - 1975. - 1. december ( bd. 67 , udg. 3 ). — S. 835–851 . — ISSN 0021-9525 . Arkiveret fra originalen den 2. april 2022.
↑ Qiu Wang-Ren, Sun Bi-Qian, Xiao Xuan, Xu Zhao-Chun, Chou Kuo-Chen. iPTM-mLys: identifikation af flere lysin PTM-steder og deres forskellige typer (engelsk) // Bioinformatics (Oxford, England). - 2016. - 15. oktober ( bind 32 , udg. 20 ). — S. 3116–3123 . — ISSN 1367-4811 . - doi : 10.1093/bioinformatics/btw380 . Arkiveret fra originalen den 19. april 2017.
↑ Landschulz WH, Johnson PF, McKnight SL Leucinlynlåsen: en hypotetisk struktur, der er fælles for en ny klasse af DNA-bindende proteiner // Science (New York, NY) . - 1988. - 24. juni ( vol. 240 , iss. 4860 ). — S. 1759–1764 . — ISSN 0036-8075 . Arkiveret fra originalen den 19. april 2017.
↑ Klug A., Rhodes D. Zinkfingre: en ny proteinfold til nukleinsyregenkendelse // Cold Spring Harbor Symposia on Quantitative Biology. - 1987. - 1. januar ( bind 52 ). — S. 473–482 . — ISSN 0091-7451 . Arkiveret fra originalen den 19. april 2017.
↑ Bürglin Thomas R., Affolter Markus. Homeodomæneproteiner: en opdatering (engelsk) // Kromosom. - 2016. - 1. januar ( bind 125 ). — S. 497–521 . — ISSN 0009-5915 . - doi : 10.1007/s00412-015-0543-8 . Arkiveret fra originalen den 8. marts 2021.
↑ Rao ST, Rossmann MG Sammenligning af super-sekundære strukturer i proteiner // Journal of Molecular Biology. - 1973. - 15. maj ( vol. 76 , udg. 2 ). — S. 241–256 . — ISSN 0022-2836 . Arkiveret fra originalen den 23. april 2017.
↑ Nelson Melanie R., Thulin Eva, Fagan Patricia A., Forsén Sture, Chazin Walter J. EF-hånddomænet: En globalt kooperativ strukturel enhed // Protein Science: A Publication of the Protein Society. - 2017. - 14. april ( bind 11 , udg. 2 ). — S. 198–205 . — ISSN 0961-8368 . - doi : 10.1110/ps.33302 .
↑ Watson James D., Milner-White E. James. Et nyt hovedkæde-anionbindingssted i proteiner: reden. En særlig kombination af φ,ψ-værdier i successive rester giver anledning til anionbindingssteder, der forekommer almindeligt og ofte findes i funktionelt vigtige regioner1 // Journal of Molecular Biology. - 2002. - 11. januar ( bind 315 , udg. 2 ). — S. 171–182 . - doi : 10.1006/jmbi.2001.5227 .
↑ Torrance Gillean M., David P. Leader, Gilbert David R., Milner-White E. James. Et nyt hovedkædemotiv i proteiner, der er brokoblet af kationiske grupper: nichen (engelsk) // Journal of Molecular Biology. - 2009. - 30. januar ( vol. 385 , udg. 4 ). — S. 1076–1086 . — ISSN 1089-8638 . - doi : 10.1016/j.jmb.2008.11.007 . Arkiveret fra originalen den 23. april 2017.
↑ Milner-White EJ, Poet R. Fire klasser af beta-hårnåle i proteiner. (engelsk) // Biokemisk tidsskrift. - 1986. - 15. november ( vol. 240 , udg. 1 ). — S. 289–292 . — ISSN 0264-6021 .
↑ 1 2 Efimov Alexander V. Foretrukne strukturelle motiver i kugleformede proteiner (engelsk) // Struktur. - 1994. - 1. november ( vol. 2 , udg. 11 ). — S. 999–1002 . - doi : 10.1016/S0969-2126(94)00102-2 .
↑ Holm L., Sander C. Ordbog over tilbagevendende domæner i proteinstrukturer // Proteiner . - 1998. - 1. oktober ( bind 33 , udg. 1 ). — S. 88–96 . — ISSN 0887-3585 . Arkiveret fra originalen den 23. april 2017.
↑ Schneider TD, Stephens RM Sekvenslogoer: en ny måde at vise konsensussekvenser // Nucleic Acids Research. - 1990. - 25. oktober ( bind 18 , udg. 20 ). — S. 6097–6100 . — ISSN 0305-1048 . Arkiveret fra originalen den 20. april 2017.
↑ de Castro Edouard, Sigrist Christian JA, Gattiker Alexandre, Bulliard Virgini, Langendijk-Genevaux Petra S. ScanProsite: detektion af PROSITE signaturmatches og ProRule-associerede funktionelle og strukturelle rester i proteiner // Nucleic Acids Research. - 2006. - 1. juli ( vol. 34 , iss. Webserver-udgave ). — P. W362–365 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkl124 . Arkiveret fra originalen den 6. oktober 2016.
↑ InterPro EMBL-EBI. Zinkfinger C2H2-type (IPR013087) < InterPro < EMBL- EBI . www.ebi.ac.uk. Hentet 15. april 2017. Arkiveret fra originalen 15. april 2017.
↑ Flach Peter. Maskinelæring. Videnskaben og kunsten at bygge algoritmer, der udvinder viden fra data. Lærebog. — DMK Press, 2015-01-01. - 400 sek. - ISBN 9785970602737 , 9781107096394.
↑ 1 2 3 Matsuda H., Taniguchi F., Hashimoto A. En tilgang til påvisning af proteinstrukturelle motiver ved hjælp af et kodningsskema for rygradskonformationer // Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. - 1997. - 1. januar. — S. 280–291 . — ISSN 2335-6936 . Arkiveret fra originalen den 23. april 2017.
↑ 1 2 Tseng Huei-Hun, Weinberg Zasha, Gore Jeremy, Breaker Ronald r., Ruzzo Walter l. At finde ikke-kodende rna'er gennem genomskala-klynger // Journal of bioinformatics and computational biology. - 2017. - 12. april ( bd. 7 , udg. 2 ). — S. 373–388 . — ISSN 0219-7200 .
↑ Schuster-Böckler Benjamin, Jörg Schultz, Rahmann Sven. HMM Logoer til visualisering af proteinfamilier (engelsk) // BMC Bioinformatics. - 2004. - 1. januar ( bind 5 ). — S. 7 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-5-7 .
↑ Novichkov Pavel S., Rodionov Dmitry A., Stavrovskaya Elena D., Novichkova S., Kazakov Alexey E. RegPredict: et integreret system til reguloninferens i prokaryoter ved komparativ genomisk tilgang // Nucleic Acids Research. - 2010. - 1. juli ( bd. 38 , iss. Webserver-udgave ). —P.W299–307 . _ — ISSN 1362-4962 . doi : 10.1093 / nar/gkq531 . Arkiveret fra originalen den 24. april 2017.
↑ Marahiel Mohamed A. Multidomæne enzymer involveret i peptidsyntese // FEBS Letters. - 1992. - 27. juli ( vol. 307 , udg. 1 ). — S. 40–43 . — ISSN 1873-3468 . - doi : 10.1016/0014-5793(92)80898-Q . Arkiveret fra originalen den 12. april 2017.
↑ Stachelhaus T., Mootz HD, Marahiel MA Den specificitetsgivende kode for adenyleringsdomæner i ikke-ribosomale peptidsyntetaser // Kemi og biologi. - 1999. - 1. august ( bind 6 , udg. 8 ). - S. 493-505 . — ISSN 1074-5521 . - doi : 10.1016/S1074-5521(99)80082-9 . Arkiveret fra originalen den 19. april 2017.
↑ Keich U., Pevzner PA Finde motiver i skumringszonen // Bioinformatics (Oxford, England) . - 2002. - 1. oktober ( bind 18 , udg. 10 ). - S. 1374-1381 . — ISSN 1367-4803 . Arkiveret fra originalen den 19. april 2017.
↑ Thompson William A., Newberg Lee A., Conlan Sean, McCue Lee Ann, Lawrence Charles E. The Gibbs Centroid Sampler // Nucleic Acids Research. - 2007. - 1. juli ( bd. 35 , iss. Webserver-udgave ). —P.W232–237 . _ — ISSN 1362-4962 . - doi : 10.1093/nar/gkm265 .
↑ Carvalho AM, Freitas AT, Oliveira AL, Sagot MF En effektiv algoritme til identifikation af strukturerede motiver i DNA-promotorsekvenser // IEEE/ACM Transactions on Computational Biology and Bioinformatics. - 2006. - 1. april ( bind 3 , udg. 2 ). — S. 126–140 . — ISSN 1545-5963 . - doi : 10.1109/TCBB.2006.16 . Arkiveret fra originalen den 8. september 2017.
↑ Dinh Hieu, Rajasekaran Sanguthevar, Davila Jaime. qPMS7: En hurtig algoritme til at finde (ℓ, d)-motiver i DNA- og proteinsekvenser (engelsk) // PLOS ONE. - 2012. - 24. juli ( bd. 7 , udg. 7 ). — ISSN 1932-6203 . - doi : 10.1371/journal.pone.0041425 . Arkiveret fra originalen den 15. juni 2022.
↑ Johnson David S., Mortazavi Ali, Myers Richard M., Wold Barbara. Genom-dækkende kortlægning af in vivo protein-DNA-interaktioner (engelsk) // Science (New York, NY). - 2007. - 8. juni ( vol. 316 , iss. 5830 ). — S. 1497–1502 . — ISSN 1095-9203 . - doi : 10.1126/science.1141319 . Arkiveret fra originalen den 24. april 2017.
↑ Rhee Ho Sung, Pugh B. Franklin. Omfattende genomomfattende protein-DNA-interaktioner detekteret ved enkeltnukleotidopløsning // Celle . - 2011. - 9. december ( bd. 147 , udg. 6 ). - S. 1408-1419 . — ISSN 1097-4172 . - doi : 10.1016/j.cell.2011.11.013 . Arkiveret fra originalen den 24. april 2017.
↑ Tuerk C., Gold L. Systematisk udvikling af ligander ved eksponentiel berigelse: RNA-ligander til bakteriofag T4 DNA-polymerase // Science ( New York, NY). - 1990. - 3. august ( vol. 249 , iss. 4968 ). - S. 505-510 . — ISSN 0036-8075 . Arkiveret fra originalen den 24. april 2017.
↑ Greil Frauke, Moorman Celine, van Steensel Bas. DamID: kortlægning af in vivo protein-genom interaktioner ved hjælp af bundet DNA adenin methyltransferase // Methods in Enzymology. - 2006. - 1. januar ( bind 410 ). — S. 342–359 . — ISSN 0076-6879 . - doi : 10.1016/S0076-6879(06)10016-6 . Arkiveret fra originalen den 24. april 2017.

Litteratur

Durbin R, Eddie S, Krogh A, Mitchison G. Biologisk sekvensanalyse: Probabilistiske modeller af proteiner og nukleinsyrer. - Regelmæssig og kaotisk dynamik, Institut for Computerforskning, 2006. - S. 480. - ISBN 5939725597 .
Jones Neil C., Pevzner Pavel A. En introduktion til bioinformatikalgoritmer . - The MIT Press, 2004. - ISBN 9780262101066 .
Compeau Phillip, Pevzner Pavel. Bioinformatikalgoritmer: An Active Learning Approach, 2. udg. Vol. 1 af Philip Compeau . - Active Learning Publishers, 2015. - S. 384. - ISBN 9780990374619 .
Durbin Richard, Eddy Sean R., Krogh Anders, Mitchison Graeme. Biologisk sekvensanalyse: Probabilistiske modeller af proteiner og nukleinsyrer . - Cambridge University Press, 1998. - S. 372. - ISBN 978-0521620413 .
Nelson David L., Cox Michael M. Lehninger Principles of Biochemistry (engelsk) . - W.H. Freeman, 2017. - S. 1328. - ISBN 9781464126116 .