Encyklopædi af DNA-elementer

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 10. februar 2017; checks kræver 17 redigeringer .
KODER
Indhold
Beskrivelse Hele genomet database
Kontaktpersoner
Forskningscenter University of California Santa Cruz
Laboratorium Center for Biomolekylær Videnskab og Teknik
Forfatterne Brian J Raney [1]
Original udgivelse PMID 21037257
Udgivelses dato 2010
Tilgængelighed
Internet side encodeproject.org

Encyclopedia of DNA Elements ( ENCODE  ) er et internationalt forskningskonsortium etableret i september 2003 . Organiseret og finansieret af US National Human Genome Research Institute ( NHGRI ) [1] [2] [3] . Udtænkt som en fortsættelse af Human Genome Project, sigter ENCODE på at udføre en komplet analyse af de funktionelle elementer i genomet  person. Alle resultater opnået under gennemførelsen af ​​projektet offentliggøres i offentlige databaser .

Den 5. september 2012 blev de første resultater af projektet offentliggjort i form af 30 indbyrdes forbundne publikationer på hjemmesiderne for tidsskrifterne " Nature ", " Genome Biology " og " Genome Research " [4] [ 5] . Disse publikationer viser, at mindst 80% af det menneskelige genom er biologisk aktivt, indtil da dominerede forestillingen om, at det meste DNA var " skrammel ". Sådanne forhastede konklusioner bliver imidlertid kritiseret af mange videnskabsmænd, som peger på manglen på nødvendige beviser for funktionaliteten af ​​disse elementer [6] .

Relevans

Det menneskelige genom anslås at indeholde 20.000 proteinkodende gener (tilsammen udgør de exome ), og de tegner sig kun for omkring 1,5 % af det menneskelige genoms DNA . Det primære mål med ENCODE-projektet er at bestemme funktionen af ​​resten af ​​genomet, hvoraf det meste traditionelt er blevet betragtet som " junk " (for eksempel DNA, der ikke er transskriberet ).

Cirka 90% af enkeltnukleotidpolymorfismer i det humane genom (som har vist sig at være forbundet med forskellige sygdomme ved hjælp af genomomfattende associationsstudier ) findes uden for proteinkodende regioner. [7]

Aktiviteten og ekspressionen af ​​proteinkodende gener kan reguleres af regulomet - forskellige elementer af DNA, såsom promotoren , regulatoriske sekvenser og kromatinregioner , såvel som histonmodifikationer . Det menes, at ændringer i regulatoriske regioner kan forstyrre proteinekspression og cellefunktion og dermed føre til sygdomme ( ENCODE Project Background ). Ved at bestemme placeringen af ​​regulatoriske elementer og deres effekt på transkription er det muligt at belyse sammenhængen mellem ændringer i ekspressionsniveauer af specifikke gener og udvikling af sygdomme. [otte]

ENCODE er beregnet til at være en omfattende ressource, der vil gøre det muligt for det videnskabelige samfund bedre at forstå, hvordan genomet kan påvirke menneskers sundhed og stimulere udviklingen af ​​nye metoder til sygdomsforebyggelse og behandling. [9]

Hidtil har projektet bidraget til opdagelsen af ​​nye DNA-regulatoriske elementer, hvilket giver ny indsigt i organiseringen og reguleringen af ​​vores gener og genom, samt hvordan ændringer i DNA-sekvensen kan påvirke udviklingen af ​​sygdomme. [7] Et af projektets hovedresultater er beskrivelsen af, at 80 % af det menneskelige genom har vist sig at være forbundet med mindst én biokemisk funktion. [10] [11] Det meste af dette ikke-kodende DNA er involveret i reguleringen af ​​ekspressionen af ​​kodende gener. [10] Derudover styres ekspressionen af ​​hvert kodende gen af ​​en række regulatoriske regioner placeret både nær og i en afstand fra genet. Disse resultater viser, at genregulering er meget mere kompleks end tidligere antaget. [12]

Projekt ENCODE

ENCODE-projektet gennemføres i tre faser: den indledende fase, teknologiudviklingsfasen og den produktive fase.

I den indledende fase evaluerede ENCODE-konsortiet strategier til identifikation af forskellige typer genomelementer . Målet med den indledende fase var at definere et sæt procedurer, der tilsammen ville muliggøre nøjagtig og detaljeret karakterisering af store områder af det menneskelige genom , under hensyntagen til processens økonomiske levedygtighed og høje effektivitet. Den indledende fase var at identificere huller i værktøjssættet til at definere funktionelle sekvenser, samt at vise, om nogen af ​​de anvendte metoder viste sig at være ineffektive eller uegnede til opskalering. Nogle af disse problemer skulle løses i udviklingsfasen af ​​ENCODE-teknologien (samtidig med den indledende fase af projektet), som havde til formål at udvikle nye laboratorie- og beregningsmetoder, der ville forbedre identifikationen af ​​kendte funktionelle sekvenser eller studiet af nye funktionelle elementer i genomet. Resultatet af de to første faser, ved at bruge eksemplet med at studere 1% af det menneskelige genom, bestemte den bedste måde at analysere de resterende 99% på med maksimal effektivitet og laveste omkostninger i den produktive fase. [9]

Fase I af ENCODE-projektet: indledende fase

I pilotfasen blev der udført forskning og sammenligning af eksisterende metoder til en grundig analyse af en bestemt del af den humane genomsekvens. Det blev organiseret som et åbent konsortium og samlede forskere med forskellig baggrund og baggrund for at vurdere fordelene ved hver teknik, teknologi og strategi fra et forskelligartet sæt. Samtidig var målet med projektets teknologiudviklingsfase at udvikle nye højeffektive metoder til bestemmelse af funktionelle elementer. Målet med dette arbejde var at bestemme et sæt tilgange, der ville tillade den mest nøjagtige bestemmelse af alle funktionelle elementer i det menneskelige genom. I den indledende fase blev forskellige metoders evne til at opskalere til at analysere hele det menneskelige genom bestemt, og huller i definitionen af ​​funktionelle elementer i genomsekvensen blev identificeret.

Den indledende fase af projektet foregik i tæt samarbejde mellem forsøgsledere og teoretikere, hvilket gjorde det muligt at evaluere en række metoder til annotering af det menneskelige genom. Et sæt regioner, der repræsenterer ca. 1% (30 Mb) af det humane genom, blev valgt som et mål for den indledende fase af projektet og blev analyseret af alle deltagere i pilotfasen af ​​projektet. Alle data om disse regioner opnået af ENCODE-deltagere blev hurtigt frigivet til offentlige databaser. [13] [14]

Fase I resultater [13]
  • Det humane genom transskriberes allestedsnærværende, så de fleste af dets baser er forbundet med mindst ét ​​primært transkript, og mange transkripter forbinder distale regioner med specifikke proteinkodende loci.
  • Talrige nye ikke-proteinkodende transkripter er blevet identificeret, hvoraf mange overlapper proteinkodende loci og andre loci lokaliseret i områder af genomet, der tidligere blev betragtet som transkriptionelt tavse.
  • Talrige tidligere ikke-genkendte transkriptionelle startsteder er blevet identificeret, hvoraf mange udviser kromatinstruktur og proteinsekvensspecifikke bindingsegenskaber svarende til velkarakteriserede promotorer.
  • Regulatoriske sekvenser, der omgiver transkriptionsstartsteder, er fordelt symmetrisk uden skift mod overliggende områder.
  • Chromatintilgængelighed og histonmodifikationsmønstre er meget forudsigelige for både tilstedeværelsen og aktiviteten af ​​transkriptionsstartsteder.
  • Distale hypersensitive DNaseI-steder har karakteristiske histonmodifikationsmønstre, der pålideligt adskiller dem fra promotorer.
  • DNA-replikationstid korrelerer med kromatinstruktur.
  • I alt 5 % af baserne i genomet kan med sikkerhed identificeres som værende under evolutionære restriktioner hos pattedyr; for omkring 60 % af disse begrænsede baser er der bevis for funktion baseret på eksperimentelle analyser udført til dato.
  • Forskellige funktionelle elementer varierer meget i deres sekvensvariabilitet i den menneskelige befolkning og i deres sandsynlighed for at være i en strukturelt variabel region af genomet.
  • Overraskende nok ser mange funktionelle elementer ikke ud til at være begrænset til pattedyrs evolution. Dette tyder på muligheden for et stort antal neutrale elementer, der er biokemisk aktive, men som ikke giver meget gavn for kroppen. Denne pulje kan tjene som et "lager" for naturlig udvælgelse, der potentielt fungerer som en kilde til afstamningsspecifikke elementer og funktionelt bevarede, men ikke-ortologe elementer mellem arter.

Fase II af ENCODE-projektet: produktiv fase

I september 2007 begyndte finansieringen af ​​den produktive fase af ENCODE-projektet. På dette stadium var målet at analysere hele genomet og udføre "yderligere undersøgelser under industrielle forhold. [15]

Som i den indledende fase var arbejdet i den produktive fase organiseret som et åbent konsortium. I oktober 2007 tildelte National Institute for Human Genome Research tilskud på i alt mere end $80 millioner i 4 år til det. [16] I den produktive fase omfattede projektet Datakoordinationscenteret, Dataanalysecentret og Teknologiudviklingscentret. [17] På dette tidspunkt bliver projektet til en virkelig massiv virksomhed, der involverer 440 videnskabsmænd fra 32 laboratorier rundt om i verden. I 2007, da den indledende fase var afsluttet, øgede projektet kapaciteten hovedsageligt på grund af næste generations sekvensering . Faktisk blev en masse data behandlet, forskerne modtog omkring 15 terabyte af rå information.

I 2010 havde ENCODE-projektet modtaget mere end 1000 genom-dækkende datasæt. Tilsammen viser disse data, hvilke regioner der ser ud til at kontrollere ekspressionen af ​​gener, der bruges i visse celletyper, og hvilke regioner der interagerer med en lang række proteiner. Projektet giver information om transkriptionssteder, deres tilknyttede transkriptionsfaktorer, kromatinstruktur og histonmodifikationer.

Fase II resultater [18]
  • Langt størstedelen (80,4%) af det humane genom er involveret i mindst én RNA- og/eller kromatin-associeret biokemisk begivenhed i mindst én celletype. Det meste af genomet er lokaliseret i nærheden af ​​regulatoriske begivenheder: 95 % af genomet er inden for 8 kilobaser af en DNA-protein-interaktion (som målt ved ChIP-seq-motivanalyse eller DNase I-binding), og 99 % er inden for 1,7 kilobaser af mindst en fra biokemiske begivenheder præsenteret af ENCODE.
  • Klassificering af genomet i syv kromatintilstande antyder et indledende sæt af 399.124 regioner med enhancer-lignende egenskaber og 70.292 regioner med promotor-lignende karakteristika, såvel som hundredtusindvis af ikke-motile regioner. Højopløsningsanalyse underinddeler genomet yderligere i tusindvis af smalle tilstande med forskellige funktionelle egenskaber.
  • RNA-sekvensgenerering og -behandling kan være kvantitativt korreleret med både kromatinmærker og transkriptionsfaktor (TF)-binding på promotorer, hvilket indikerer, at promotorfunktionalitet kan tage højde for meget af variationen i RNA-ekspression.
  • Mange ikke-kodende varianter i individuelle genomsekvenser ligger i ENCODE-annoterede funktionelle regioner; dette tal er mindst lige så højt som dem, der er indeholdt i generne, der koder for proteiner.
  • SNP'er forbundet med sygdom ved GWAS er beriget med ikke-kodende funktionelle elementer, hvoraf de fleste findes i eller nær visse ENCODE-definerede regioner uden for proteinkodende gener. I mange tilfælde kan sygdomsfænotyper være forbundet med en bestemt celletype eller transkriptionsfaktor.
  • ENCODE konsortium

ENCODE-konsortiet består primært af videnskabsmænd, som er sponsoreret af US National Human Genome Research Institute . Andre projektdeltagere er medlemmer af konsortiet eller den analytiske arbejdsgruppe.

Den indledende fase af projektet bestod af otte studiegrupper og tolv grupper, der deltog i teknologiudviklingsfasen af ​​ENCODE-projektet ( ENCODE Pilot Project: Participants and Projects ). Ved udgangen af ​​2007, da pilotfasen af ​​projektet officielt sluttede, var antallet af deltagere vokset til 440 videnskabsmænd fra 32 laboratorier rundt om i verden. I øjeblikket består konsortiet af forskellige centre, der udfører forskellige opgaver ( ENCODE Deltagere og Projekter ):

  1. Produktionscentre (ENCODE Production Centres)
  2. Datakoordinationscenter (ENCODE Datakoordinationscenter)
  3. Data Analysis Center (ENCODE Data Analysis Center)
  4. Computational analyse af resultater (ENCODE Computational Analysis Awards)
  5. Teknologisk udvikling (ENCODE Technology Development Effort)

Præsenterede data

Siden 2007 har ENCODE-projektets deltagere gennemført en lang række undersøgelser baseret på forskellige biologiske sekvenser for at kortlægge de funktionelle elementer i det menneskelige genom [19] . Kortlagte elementer (og anvendte fremgangsmåder) omfatter RNA-transkriptionsregioner (RNA-seq, CAGE, RNA-PET og manuel annotation), proteinkodende regioner (massespektrometri), transkriptionsfaktorbindingssteder (ChIP-seq og DNase-seq), kromatinstruktur (DNase-seq, FAIRE-seq, histon ChIP-seq og MNase-seq) og DNA-methyleringssteder (RRBS-analyse). Nedenfor er en detaljeret beskrivelse af de data, som projektdeltagerne har indhentet gennem årene af deres arbejde og præsenteret på projektets hjemmeside.

Transskriberede og proteinkodende regioner

Projektet brugte manuel og automatiseret annotering til at skabe et omfattende katalog over humane proteinkodende og ikke-kodende RNA'er og pseudogener, kaldet GENCODE. [20] [21] Kataloget omfatter 20.687 proteinkodende gener, med et gennemsnit på 6,3 alternativt splejsede pr. locus.

Derudover blev 8801 automatisk genererede små RNA'er og 9640 manuelt kurerede lange ikke-kodende RNA'er (lncRNA'er) kommenteret. Sammenligning af lncRNA'er med andre ENCODE-data viser, at lncRNA'er genereres via en vej svarende til proteinkodende gener. [22] GENCODE-projektet annoterede også 11.224 pseudogener, hvoraf 863 er transskriberet og forbundet med aktivt kromatin. [23]

RNA

  • RNA'er blev sekventeret fra 16 forskellige cellelinjer og multiple subcellulære fraktioner for at udvikle et omfattende katalog af RNA-ekspression. Forudsat at en konservativ tærskel anvendes til at identificere regioner med RNA-aktivitet, er 62 % af genomiske baser reproducerbart repræsenteret i sekventerede lange (>200 nukleotider) RNA-molekyler eller GENCODE-exoner.
  • CAGE-seq (5' cap target RNA isolering og sekventering) metoden blev brugt til at identificere 62.403 transkriptionsstartsteder (TSS) med høj sikkerhed (IDR 0,01).
  • Endelig blev der fundet en betydelig andel af kodende og ikke-kodende transkripter, som blev bearbejdet til vedvarende stabile RNA'er kortere end 200 nukleotider. Disse prækursorer inkluderer transfer-RNA, miRNA , lille nuklear RNA og lille nukleolær RNA ( henholdsvis tRNA , miRNA , snRNA og snoRNA)

Proteinbindingssteder

For direkte at identificere regulatoriske regioner kortlagde projektdeltagerne bindingsstederne for 119 forskellige DNA-bindende proteiner og en række RNA-polymerasekomponenter i 72 celletyper ved hjælp af ChIP-seq. [24] Hvert bindingssted blev undersøgt for berigelse af kendte DNA-bindingsmotiver og for tilstedeværelsen af ​​nye motiver.

Regioner af genomet, der er overfølsomme over for DNase I

Kromatintilgængelighed, karakteriseret ved DNase I-overfølsomhed, er et kendetegn for DNA-regulerende regioner. [25] [26] Projektdeltagerne kortlagde 2,89 millioner unikke, ikke-overlappende DNase I hypersensitivitetssteder (DHS) ved hjælp af DNase-seq i 125 celletyper.

Histon modifikationssteder

Kromosomale placeringer af 12 histonmodifikationer i 46 celletyper blev analyseret. De opnåede data viser, at de globale modifikationsmønstre varierer meget for forskellige celletyper i overensstemmelse med ændringer i transkriptionel aktivitet. Det har vist sig, at integrationen af ​​forskellige histonmodifikationsinformationer kan bruges systematisk til at tildele funktionelle attributter til genomiske regioner. [27]

DNA-methylering

Cytosin- methylering (sædvanligvis ved CpG-dinukleotider) er involveret i den epigenetiske regulering af genekspression. Promotormethylering er ofte forbundet med undertrykkelse, mens genmethylering korrelerer med transkriptionel aktivitet. [28] Projektdeltagerne brugte metoden Restricted Genomic Loci Set Bisulfite Sequencing (RRBS) til at kvantitativt profilere DNA-methylering for et gennemsnit på 1,2 millioner CpG'er i hver af 82 cellelinjer og væv, inklusive CpG'er i intergene regioner af proksimale promotorer og regioner inden for et gen (genlegemer). [29]

Steder for kromosominteraktioner

Fysiske interaktioner mellem individuelle regioner af kromosomer, som kan adskilles af hundredvis af kilobaser, anses for vigtige i reguleringen af ​​genekspression 46. 5C-metoden har afsløret langdistanceinteraktioner med transkriptionsstartsteder (TSS'er) i et mål på 1 % af genomet (44 ENCODE pilotregioner) i fire celletyper (GM12878, K562, HeLa-S3 og H1 hESC) 49. Hundredvis af statistisk signifikante langdistanceinteraktioner blev fundet i hver celletype efter at have taget højde for kromatinpolymerens adfærd og eksperimentel variation. Par af interagerende loci viste en stærk korrelation mellem niveauet af TSS-genekspression og tilstedeværelsen af ​​visse klasser af funktionelle elementer, såsom forstærkere . Det gennemsnitlige antal distale elementer, der interagerer med TSS, var 3,9, og det gennemsnitlige antal af TSS, der interagerer med det distale element, var 2,5, hvilket indikerer et komplekst netværk af indbyrdes forbundet kromatin. Denne sammenflettede "langrækkende" arkitektur er også blevet afsløret på tværs af genomet ved kromatin-interaktionsanalyse med parret slutmærke-sekventering ( ChIA-PET ) brugt til at detektere interaktioner i RNA-polymerase II (Pol II) beriget kromatin i fem celletyper. [tredive]

Kritik

På trods af konsortiets påstande om, at ENCODE-projektet langt fra er slut, har responsen på de allerede offentliggjorte artikler og presseomtale været positiv. Redaktionen af ​​tidsskriftet Nature og forfatterne af ENCODE-projektet skriver: "... vi har samarbejdet over mange måneder for at lave det størst mulige sprøjt, hvilket vil tiltrække opmærksomheden fra ikke kun det videnskabelige samfund, men også den brede offentlighed" ("... samarbejdede over mange måneder for at gøre det størst mulige sprøjt og fange ikke kun forskningsmiljøets opmærksomhed, men også offentligheden som helhed"). [31] Påstanden fremsat af ENCODE-projektet om, at 80 % af det menneskelige genom har en biokemisk funktion [10] blev hurtigt optaget af populærvidenskabelige publikationer, som karakteriserede resultaterne af projektet som årsag til døden af ​​"junk"-DNA . [32] [33]

Konklusionen om, at hovedparten af ​​genomet er "funktionel" er dog blevet kritiseret med den begrundelse, at ENCODE-projektet definerer "funktionalitet" for bredt, nemlig at alt, der transskriberes i en celle, har en funktion. Denne konklusion blev draget på trods af den generelt accepterede opfattelse, at mange elementer af DNA, der transskriberes , såsom pseudogener , ikke desto mindre ikke er funktionelle. Desuden lagde ENCODE-projektet vægt på sensitivitet frem for specificitet, hvilket førte til mange falske positiver . [34] [35] [36] Det noget vilkårlige valg af cellelinjer og transkriptionsfaktorer , samt manglen på nødvendige kontroleksperimenter, er blevet en yderligere kilde til seriøs kritik af ENCODE, eftersom et tilfældigt DNA-molekyle kan efterligne en sådan "funktionel" adfærd i ENCODE fortolkninger. [37]

Som svar på denne kritik er det blevet hævdet, at det meste genomtransskription og -splejsning , som set hos mennesker, er en mere nøjagtig indikator for genetisk funktion end sekvenskonservatisme. Derudover er det meste af "junk"-DNA'et involveret i epigenetisk regulering og var en nødvendig forudsætning for udviklingen af ​​komplekse organismer. [38] Som svar på kommentarer om definitionen af ​​ordet "funktionel" bemærkede mange, at i dette tilfælde drejer tvisten sig om en forskel i definition og ikke essensen af ​​projektet, som er at levere data til efterfølgende undersøgelser af det biokemiske stof. aktivitet af ikke-proteinkodende DNA-regioner. Selvom definitioner er vigtige, og videnskaben er begrænset til sproget, ser ENCODE ud til at have tjent sit formål, da et stort antal forskningsartikler i øjeblikket bruger de data, der er genereret af projektet i stedet for at diskutere definitioner af "funktionalitet". [39] Ewan Birney, en af ​​ENCODE-forskerne kommenterede nogle af reaktionerne på projektet. Han bemærker, at ordet "funktion" er blevet brugt pragmatisk til at henvise til "visse biokemiske aktiviteter", der manifesterer sig i forskellige klasser af eksperimenter på forskellige måder: tilstedeværelsen af ​​RNA , histonmodifikationer , DNaseI - overfølsomme regioner, ChIP -seq transkriptionsfaktortoppe , DNA footprinting , transkriptionsfaktorbindingssteder og exoner . [40]

Derudover er projektet blevet kritiseret for dets høje budget (omkring 400 millioner dollars i alt) og protektion af såkaldt "big science", grundvidenskabelig forskning, der tager penge fra mere produktive videnskabelige udviklinger, der skal udføres på bekostning af forskerne selv. [41] Den indledende fase af ENCODE-projektet blev anslået til $55 millioner, dets udvidelse kostede cirka $130 millioner, og US National Human Genome Research Institute var klar til at allokere op til $123 millioner til næste fase af projektet. Nogle forskere hævder, at det korrekte investeringsafkast endnu ikke er fulgt. I et forsøg på at tælle alle publikationer, hvor ENCODE spiller en væsentlig rolle, er 300 sådanne artikler blevet identificeret siden 2012, hvoraf 110 var baseret på resultater fra laboratorier uden ENCODE-finansiering. Et yderligere problem var, at ENCODE ikke er et unikt navn, der kun refererer til ENCODE-projektet, så ordet 'encode' (kode) dukker op i en masse litteratur om genetik og genomforskning . [7]

Som en anden væsentlig kommentar argumenteres det for, at resultaterne ikke retfærdiggjorde tidsforbruget, og at projektet i princippet er uendeligt. Selvom det er blevet sammenlignet med Human Genome Project og endda kaldt dets efterfølger, har The Human Genome en klar afslutning, som ENCODE mangler i øjeblikket.

Forfatterne af projektet deler tilsyneladende den videnskabelige verdens bekymring og benægter ikke eksistensen af ​​problemer, men de forsøger samtidig at retfærdiggøre deres indsats ved at forklare detaljerne i projektet i interviews, ikke kun til det videnskabelige samfund, men også til medierne. De siger, at det tog mere end et halvt århundrede at gå fra at forstå, at DNA  er det materielle grundlag for arvelighed til at dechifrere sekvensen af ​​det menneskelige genom , så deres plan for det næste århundrede er at forstå denne sekvens [7] .

Andre projekter

I øjeblikket er ENCODE-konsortiet involveret i flere yderligere projekter med lignende mål. Nogle af disse projekter var en del af anden fase af ENCODE.

modENCODE

Analogt med ENCODE-projektet blev der også iværksat et projekt for at kortlægge de funktionelle elementer i genomet af de vigtigste modelobjekter  - Drosophila melanogaster og Caenorhabditis elegans  - engelsk.  Model Organism ENCyclopedia Of DNA Elements (modENCODE) . Fordelen ved dette projekt er muligheden for at udføre nogle forsøg på modelorganismer, som er svære eller umulige at udføre på mennesker. [42]

Projektet blev grundlagt i 2007 af National Institutes of Health ( NIH ) [  43] [44] I 2010 præsenterede modENCODE-konsortiet en række artikler i Science om annotering og analyse af fordelingen af ​​funktionelle elementer i genomet af Drosophila melanogaster og Caenorhabditis elegans Data fra disse publikationer er tilgængelige på modENCODE-webstedet [45] .

På nuværende tidspunkt er modENCODE et forskningskonglomerat af 11 frøprojekter fordelt på D. melanogaster og C. elegans forskning . Projektet dækker forskning inden for følgende områder:

  • Genstruktur
  • mRNA og ncRNA ekspressionsprofilering
  • Transkriptionsfaktorbindingssteder
  • Histon modifikationer og udskiftning
  • Kromatin struktur
  • Initiering og sekvens af trin i DNA-replikation
  • Variation i antallet af kopier [46] .
moderne

modERN (  modelorganisme Encyclopedia of Regulatory Networks ) er en udløber af modENCODE .  Projektet kombinerer forskning i grupperne C. elegans og D. melanogaster og fokuserer på identifikation af yderligere transkriptionsfaktorbindingssteder. Projektet blev lanceret sideløbende med tredje fase af ENCODE, og er planlagt til afslutning i 2017. Til dato har modERN offentliggjort resultaterne af 198 eksperimenter, yderligere 500 er blevet accepteret til offentliggørelse og behandles af ENCODE dataclearinghouse.

Genomics of Gene Regulation

Programmet Genomics of   Gene Regulation (GGR) blev lanceret i begyndelsen af ​​2015 af US National Institutes of Health og vil løbe i tre år. Målet med programmet er at studere gennetværk og veje i forskellige kropssystemer for yderligere at fremme forståelsen af ​​de mekanismer, der styrer genekspression. Selvom ENCODE-projektet er adskilt fra GGR, vedligeholder ENCODE Data Clearinghouse GGR-dataene på sin portal.

Køreplan

I 2008 blev Roadmap Epigenomics  Mapping Consortium organiseret af US National Institutes of Health for at udvikle en offentlig kilde til humant genoms epigenetiske data til biologisk og medicinsk forskning. På baggrund af resultaterne af arbejdet udgav konsortiet i februar 2015 artiklen "Integrativ analyse af 111 reference humane epigenomer". Konsortiet indsamlede og kommenterede regulatoriske elementer i 127 referenceepigenomer, hvoraf 16 var en del af ENCODE-projektet. Roadmap-projektdata er tilgængelige på Roadmap- eller ENCODE -portalerne .  

fruitENCODE

fruitENCODE-projekt: en encyklopædi over DNA-elementerne i modnende frugter, en del af ENCODE. Målet med projektet er at generere datasæt: DNA-methyleringssteder, histonmodifikationer, DNase I hypersensitive kromatinregioner, genekspression, transkriptionsfaktorbindingssteder for saftige frugter af alle slags på forskellige udviklingsstadier. Den foreløbige offentliggørelsesdato for resultaterne er offentliggjort på fruitENCODE- portalen .

Factorbook

Transskriptionsfaktorbindingsdataene opnået af ENCODE er i øjeblikket tilgængelige på Factorbook.org [47]  , en wiki-baseret database. Det første nummer af FactorBook indeholder:

  • 457 ChIP-seq datasæt for 119 transkriptionsfaktorer i nogle humane cellekulturer
  • Gennemsnitlige profiler af histonmodifikationer og nukleosompositionering omkring transkriptionsfaktorbindingssteder
  • Motiver, der beriger bindingsstederne, såvel som afstanden mellem dem og deres orientering [48]

Se også

Noter

  1. 1 2 Raney BJ, Cline MS, Rosenbloom KR, Dreszer TR, Learned K., Barber GP, Meyer LR, Sloan CA, Malladi VS, Roskin KM, Suh BB, Hinrichs AS, Clawson H., Zweig AS, Kirkup V. , Fujita PA, Rhead B., Smith KE, Pohl A., Kuhn RM, Karolchik D., Haussler D., Kent, WJ . INDKOD helgenomdata i UCSC-genombrowseren (2011-opdatering  )  // Nucleic Acids Res. : journal. - 2011. - Januar ( bd. 39 , nr. Databaseudgave ). - P.D871-5 . doi : 10.1093 / nar/gkq1017 . — PMID 21037257 .
  2. EGASP: det menneskelige ENCODE Genome Annotation Assessment Project.  (engelsk) . PubMed .
  3. Kleshchenko E. DNA uden skrald  // The New Times. - 2012. - Udgave. 29 (256) .
  4. ENCODE-projekt på UCSC (downlink) . ENCODE konsortium. Hentet 5. september 2012. Arkiveret fra originalen 10. september 2012. 
  5. Walsh, Fergus . Detaljeret kort over genomets funktion  (5. september 2012). Arkiveret fra originalen den 5. september 2012. Hentet 6. september 2012.
  6. Dan Graurs blog .
  7. 1 2 3 4 Maher B. ENCODE: The human encyclopaedia   // Nature . - 2012. - September ( bind 489 , nr. 7414 ). - S. 46-8 . - doi : 10.1038/489046a . — PMID 22962707 .
  8. Saey, Tina Hesman Team udgiver efterfølgeren til det menneskelige genom . Society for Science & the Public (6. oktober 2012). Hentet: 18. oktober 2012.
  9. 1 2 ENCODE-projektkonsortiet. ENCODE-projektet (ENCyclopedia Of DNA Elements) . Videnskab (2004).
  10. 1 2 3 Bernstein BE, Birney E., Dunham I., Green ED, Gunter C., Snyder M. En integreret encyklopædi af DNA-elementer i det menneskelige genom  //  Nature: journal. - 2012. - September ( bind 489 , nr. 7414 ). - S. 57-74 . - doi : 10.1038/nature11247 . — . — PMID 22955616 .
  11. Timmer J. Det meste af det, du læste, var forkert: hvordan pressemeddelelser omskrev videnskabelig historie . Personale / From the Minds of Ars . Ars Technica (10. september 2012). Hentet: 10. september 2012.
  12. Pennisi E. Genomics. ENCODE-projektet skriver lovprisning for junk-DNA  (engelsk)  // Science : journal. - 2012. - September ( vol. 337 , nr. 6099 ). - S. 1159, 1161 . - doi : 10.1126/science.337.6099.1159 . — PMID 22955811 .
  13. 1 2 Birney E. , Stamatoyannopoulos JA , Dutta A. et al. Identifikation og analyse af funktionelle elementer i 1% af det menneskelige genom ved ENCODE-pilotprojektet.  (engelsk)  // Nature. - 2007. - Bd. 447, nr. 7146 . - s. 799-816. - doi : 10.1038/nature05874 . — PMID 17571346 .
  14. ENCODE Program Staff. ENCODE: Pilotprojekt: oversigt . National Human Genome Research Institute (18. oktober 2012).
  15. Genome.gov | ENCODE og modENCODE projekter . ENCODE-projektet: ENCyclopedia Of DNA Elements . United States National Human Genome Research Institute (1. august 2011). Hentet: 5. august 2011.
  16. National Human Genome Research Institute - Organisation . NIH-almanaken . United States National Institutes of Health. Hentet: 5. august 2011.
  17. Genome.gov | ENCODE deltagere og projekter . ENCODE-projektet: ENCyclopedia Of DNA Elements . United States National Human Genome Research Institute (1. august 2011). Hentet: 5. august 2011.
  18. Joseph R. Ecker, Wendy A. Bickmore, Inês Barroso, Jonathan K. Pritchard, Yoav Gilad. ENCODE forklaret   // Nature . - 2012-09. — Bd. 489 , udg. 7414 . — S. 52–54 . — ISSN 1476-4687 . - doi : 10.1038/489052a .
  19. ENCODE-projektkonsortiet. En brugervejledning til Encyclopedia of DNA Elements (ENCODE  )  // PLOS Biology. — 2011-04-19. — Bd. 9 , iss. 4 . — P.e1001046 . — ISSN 1545-7885 . - doi : 10.1371/journal.pbio.1001046 .
  20. Jennifer Harrow, Adam Frankish, Jose M. Gonzalez, Electra Tapanari, Mark Diekhans. GENCODE: Referenceanmærkningen for det menneskelige genom til ENCODE-projektet  //  Genome Research. — 01-09-2012. — Bd. 22 , udg. 9 . — S. 1760–1774 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.135350.111 .
  21. Cédric Howald, Andrea Tanzer, Jacqueline Chrast, Felix Kokocinski, Thomas Derrien. Kombination af RT-PCR-seq og RNA-seq for at katalogisere alle genetiske elementer kodet i det humane genom  //  Genome Research. — 01-09-2012. — Bd. 22 , udg. 9 . — S. 1698–1710 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.134478.111 .
  22. Thomas Derrien, Rory Johnson, Giovanni Bussotti, Andrea Tanzer, Sarah Djebali. GENCODE v7-kataloget over menneskelige lange ikke-kodende RNA'er: Analyse af deres genstruktur, evolution og ekspression  //  Genome Research. — 01-09-2012. — Bd. 22 , udg. 9 . - S. 1775-1789 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.132159.111 .
  23. Baikang Pei, Cristina Sisu, Adam Frankish, Cedric Howald, Lukas Habegger. GENCODE pseudogen ressource  // Genome Biology. - 2012-09-05. - T. 13 , nej. 9 . - S. R51 . — ISSN 1474-760X . - doi : 10.1186/gb-2012-13-9-r51 .
  24. Mark B. Gerstein, Anshul Kundaje, Manoj Hariharan, Stephen G. Landt, Koon-Kiu Yan. Arkitektur af det menneskelige regulatoriske netværk afledt af ENCODE-data   // Nature . - 2012-09. — Bd. 489 , udg. 7414 . — S. 91–100 . — ISSN 1476-4687 . - doi : 10.1038/nature11245 .
  25. David S. Gross, William T. Garrard. Nuklease-overfølsomme steder i kromatin  // Annual Review of Biochemistry. - 1988-06-01. - T. 57 , no. 1 . — S. 159–197 . — ISSN 0066-4154 . - doi : 10.1146/annurev.bi.57.070188.001111 .
  26. Fjodor D. Urnov. Chromatin remodeling som en guide til transkriptionelle regulatoriske netværk hos pattedyr  (fr.)  // Journal of Cellular Biochemistry. - 2003. - Bd. 88 , livr. 4 . — S. 684–694 . — ISSN 1097-4644 . - doi : 10.1002/jcb.10397 .
  27. Jason Ernst, Pouya Kheradpour, Tarjei S. Mikkelsen, Noam Shoresh, Lucas D. Ward. Kortlægning og analyse af kromatintilstandsdynamik i ni humane celletyper   // Nature . – 2011-05. — Bd. 473 , udg. 7345 . — S. 43–49 . — ISSN 1476-4687 . - doi : 10.1038/nature09906 .
  28. Madeleine P. Ball, Jin Billy Li, Yuan Gao, Je-Hyuk Lee, Emily M. LeProust. Målrettede og genom-skala strategier til at afsløre gen-krops methyleringssignaturer i menneskelige celler  //  Nature Biotechnology. - 2009-04. — Bd. 27 , udg. 4 . — S. 361–368 . — ISSN 1546-1696 . - doi : 10.1038/nbt.1533 .
  29. Alexander Meissner, Tarjei S. Mikkelsen, Hongcang Gu, Marius Wernig, Jacob Hanna. Genom-skala DNA-methyleringskort over pluripotente og differentierede celler  (engelsk)  // Nature. - 2008-08. — Bd. 454 , udg. 7205 . — S. 766–770 . — ISSN 1476-4687 . - doi : 10.1038/nature07107 .
  30. Omdirigering . linkinghub.elsevier.com . Hentet: 10. november 2020.
  31. Maher B. Slås om ENCODE og junk . Nyhedsblog . Nature Publishing Group (6. september 2012).
  32. Kolata G. Langt fra 'junk', DNA mørkt stof viser sig at være afgørende for sundheden , The New York Times (5. september 2012).
  33. Gregory TR. ENCODE mediehype-maskinen . Genomicron (6. september 2012).
  34. Graur D., Zheng Y., Price N., Azevedo RB, Zufall RA, Elhaik E. Om tv-apparaternes udødelighed: "funktion" i det menneskelige genom ifølge det evolutionsfrie evangelium om  ENCODE  // Genome Biol Evol : journal. - 2013. - Bd. 5 , nr. 3 . - S. 578-590 . - doi : 10.1093/gbe/evt028 . — PMID 23431001 .
  35. Moran L.A. Sandwalk: Om betydningen af ​​ordet "funktion" . Sandwalk (15. marts 2013).
  36. Gregory TR. Kritik af ENCODE i peer-reviewede tidsskrifter. "Genomicron (link utilgængeligt) . Genomicron (11. april 2013). Hentet 30. april 2015. Arkiveret fra originalen 2. april 2015. 
  37. White MA, Myers CA, Corbo JC, Cohen BA Massivt parallelt in vivo enhancer-assay afslører, at meget lokale træk bestemmer den cis-regulerende funktion af ChIP-seq-toppe   // Proceedings of the National Academy of Sciences of the United States of America  : tidsskrift. - 2013. - Juli ( bind 110 , nr. 29 ). - S. 11952-11957 . - doi : 10.1073/pnas.1307449110 . — PMID 23818646 .
  38. Mattick JS, Dinger ME Omfanget af funktionalitet i det menneskelige genom  (ubestemt)  // The HUGO Journal. - 2013. - T. 7 , nr. 1 . - S. 2 . - doi : 10.1186/1877-6566-7-2 .
  39. Naturredaktion. Form og funktion   // Natur . - 2013. - 14. marts ( bind 495 ). - S. 141-142 . - doi : 10.1038/495141b .
  40. Birney, Ewan KODER: Mine egne tanker . Ewans blog: Bioinformatiker i almindelighed (5. september 2012).
  41. Timpson T. Debating ENCODE: Dan Graur, Michael Eisen . Mendelspod (5. marts 2013).
  42. ModENCODE-projektet: Model Organism ENCyclopedia Of DNA Elements (modENCODE) . NHGRI hjemmeside . Hentet 13. november 2008.
  43. modENCODE Deltagere og projekter . NHGRI hjemmeside . Hentet 13. november 2008.
  44. Berkeley Lab Life Sciences tildelt NIH-stipendier til frugtflue, nematodestudier . Lawrence Berkeley National Laboratory hjemmeside (14. maj 2007). Hentet 13. november 2008.
  45. modENCODE . National Human Genome Research Institute.
  46. Celniker S. Oplåsning af genomets hemmeligheder . Natur (11. juni 2009).
  47. Faktorbog
  48. Wang J. Factorbook.org: en Wiki-baseret database for transskriptionsfaktorbindingsdata genereret af ENCODE-konsortiet . Nukleinsyreforskning (29. november 2012).

Links