KODER | |
---|---|
Indhold | |
Beskrivelse | Hele genomet database |
Kontaktpersoner | |
Forskningscenter | University of California Santa Cruz |
Laboratorium | Center for Biomolekylær Videnskab og Teknik |
Forfatterne | Brian J Raney [1] |
Original udgivelse | PMID 21037257 |
Udgivelses dato | 2010 |
Tilgængelighed | |
Internet side | encodeproject.org |
Encyclopedia of DNA Elements ( ENCODE ) er et internationalt forskningskonsortium etableret i september 2003 . Organiseret og finansieret af US National Human Genome Research Institute ( NHGRI ) [1] [2] [3] . Udtænkt som en fortsættelse af Human Genome Project, sigter ENCODE på at udføre en komplet analyse af de funktionelle elementer i genomet person. Alle resultater opnået under gennemførelsen af projektet offentliggøres i offentlige databaser .
Den 5. september 2012 blev de første resultater af projektet offentliggjort i form af 30 indbyrdes forbundne publikationer på hjemmesiderne for tidsskrifterne " Nature ", " Genome Biology " og " Genome Research " [4] [ 5] . Disse publikationer viser, at mindst 80% af det menneskelige genom er biologisk aktivt, indtil da dominerede forestillingen om, at det meste DNA var " skrammel ". Sådanne forhastede konklusioner bliver imidlertid kritiseret af mange videnskabsmænd, som peger på manglen på nødvendige beviser for funktionaliteten af disse elementer [6] .
Det menneskelige genom anslås at indeholde 20.000 proteinkodende gener (tilsammen udgør de exome ), og de tegner sig kun for omkring 1,5 % af det menneskelige genoms DNA . Det primære mål med ENCODE-projektet er at bestemme funktionen af resten af genomet, hvoraf det meste traditionelt er blevet betragtet som " junk " (for eksempel DNA, der ikke er transskriberet ).
Cirka 90% af enkeltnukleotidpolymorfismer i det humane genom (som har vist sig at være forbundet med forskellige sygdomme ved hjælp af genomomfattende associationsstudier ) findes uden for proteinkodende regioner. [7]
Aktiviteten og ekspressionen af proteinkodende gener kan reguleres af regulomet - forskellige elementer af DNA, såsom promotoren , regulatoriske sekvenser og kromatinregioner , såvel som histonmodifikationer . Det menes, at ændringer i regulatoriske regioner kan forstyrre proteinekspression og cellefunktion og dermed føre til sygdomme ( ENCODE Project Background ). Ved at bestemme placeringen af regulatoriske elementer og deres effekt på transkription er det muligt at belyse sammenhængen mellem ændringer i ekspressionsniveauer af specifikke gener og udvikling af sygdomme. [otte]
ENCODE er beregnet til at være en omfattende ressource, der vil gøre det muligt for det videnskabelige samfund bedre at forstå, hvordan genomet kan påvirke menneskers sundhed og stimulere udviklingen af nye metoder til sygdomsforebyggelse og behandling. [9]
Hidtil har projektet bidraget til opdagelsen af nye DNA-regulatoriske elementer, hvilket giver ny indsigt i organiseringen og reguleringen af vores gener og genom, samt hvordan ændringer i DNA-sekvensen kan påvirke udviklingen af sygdomme. [7] Et af projektets hovedresultater er beskrivelsen af, at 80 % af det menneskelige genom har vist sig at være forbundet med mindst én biokemisk funktion. [10] [11] Det meste af dette ikke-kodende DNA er involveret i reguleringen af ekspressionen af kodende gener. [10] Derudover styres ekspressionen af hvert kodende gen af en række regulatoriske regioner placeret både nær og i en afstand fra genet. Disse resultater viser, at genregulering er meget mere kompleks end tidligere antaget. [12]
ENCODE-projektet gennemføres i tre faser: den indledende fase, teknologiudviklingsfasen og den produktive fase.
I den indledende fase evaluerede ENCODE-konsortiet strategier til identifikation af forskellige typer genomelementer . Målet med den indledende fase var at definere et sæt procedurer, der tilsammen ville muliggøre nøjagtig og detaljeret karakterisering af store områder af det menneskelige genom , under hensyntagen til processens økonomiske levedygtighed og høje effektivitet. Den indledende fase var at identificere huller i værktøjssættet til at definere funktionelle sekvenser, samt at vise, om nogen af de anvendte metoder viste sig at være ineffektive eller uegnede til opskalering. Nogle af disse problemer skulle løses i udviklingsfasen af ENCODE-teknologien (samtidig med den indledende fase af projektet), som havde til formål at udvikle nye laboratorie- og beregningsmetoder, der ville forbedre identifikationen af kendte funktionelle sekvenser eller studiet af nye funktionelle elementer i genomet. Resultatet af de to første faser, ved at bruge eksemplet med at studere 1% af det menneskelige genom, bestemte den bedste måde at analysere de resterende 99% på med maksimal effektivitet og laveste omkostninger i den produktive fase. [9]
I pilotfasen blev der udført forskning og sammenligning af eksisterende metoder til en grundig analyse af en bestemt del af den humane genomsekvens. Det blev organiseret som et åbent konsortium og samlede forskere med forskellig baggrund og baggrund for at vurdere fordelene ved hver teknik, teknologi og strategi fra et forskelligartet sæt. Samtidig var målet med projektets teknologiudviklingsfase at udvikle nye højeffektive metoder til bestemmelse af funktionelle elementer. Målet med dette arbejde var at bestemme et sæt tilgange, der ville tillade den mest nøjagtige bestemmelse af alle funktionelle elementer i det menneskelige genom. I den indledende fase blev forskellige metoders evne til at opskalere til at analysere hele det menneskelige genom bestemt, og huller i definitionen af funktionelle elementer i genomsekvensen blev identificeret.
Den indledende fase af projektet foregik i tæt samarbejde mellem forsøgsledere og teoretikere, hvilket gjorde det muligt at evaluere en række metoder til annotering af det menneskelige genom. Et sæt regioner, der repræsenterer ca. 1% (30 Mb) af det humane genom, blev valgt som et mål for den indledende fase af projektet og blev analyseret af alle deltagere i pilotfasen af projektet. Alle data om disse regioner opnået af ENCODE-deltagere blev hurtigt frigivet til offentlige databaser. [13] [14]
Fase I resultater [13]I september 2007 begyndte finansieringen af den produktive fase af ENCODE-projektet. På dette stadium var målet at analysere hele genomet og udføre "yderligere undersøgelser under industrielle forhold. [15]
Som i den indledende fase var arbejdet i den produktive fase organiseret som et åbent konsortium. I oktober 2007 tildelte National Institute for Human Genome Research tilskud på i alt mere end $80 millioner i 4 år til det. [16] I den produktive fase omfattede projektet Datakoordinationscenteret, Dataanalysecentret og Teknologiudviklingscentret. [17] På dette tidspunkt bliver projektet til en virkelig massiv virksomhed, der involverer 440 videnskabsmænd fra 32 laboratorier rundt om i verden. I 2007, da den indledende fase var afsluttet, øgede projektet kapaciteten hovedsageligt på grund af næste generations sekvensering . Faktisk blev en masse data behandlet, forskerne modtog omkring 15 terabyte af rå information.
I 2010 havde ENCODE-projektet modtaget mere end 1000 genom-dækkende datasæt. Tilsammen viser disse data, hvilke regioner der ser ud til at kontrollere ekspressionen af gener, der bruges i visse celletyper, og hvilke regioner der interagerer med en lang række proteiner. Projektet giver information om transkriptionssteder, deres tilknyttede transkriptionsfaktorer, kromatinstruktur og histonmodifikationer.
Fase II resultater [18]ENCODE-konsortiet består primært af videnskabsmænd, som er sponsoreret af US National Human Genome Research Institute . Andre projektdeltagere er medlemmer af konsortiet eller den analytiske arbejdsgruppe.
Den indledende fase af projektet bestod af otte studiegrupper og tolv grupper, der deltog i teknologiudviklingsfasen af ENCODE-projektet ( ENCODE Pilot Project: Participants and Projects ). Ved udgangen af 2007, da pilotfasen af projektet officielt sluttede, var antallet af deltagere vokset til 440 videnskabsmænd fra 32 laboratorier rundt om i verden. I øjeblikket består konsortiet af forskellige centre, der udfører forskellige opgaver ( ENCODE Deltagere og Projekter ):
Siden 2007 har ENCODE-projektets deltagere gennemført en lang række undersøgelser baseret på forskellige biologiske sekvenser for at kortlægge de funktionelle elementer i det menneskelige genom [19] . Kortlagte elementer (og anvendte fremgangsmåder) omfatter RNA-transkriptionsregioner (RNA-seq, CAGE, RNA-PET og manuel annotation), proteinkodende regioner (massespektrometri), transkriptionsfaktorbindingssteder (ChIP-seq og DNase-seq), kromatinstruktur (DNase-seq, FAIRE-seq, histon ChIP-seq og MNase-seq) og DNA-methyleringssteder (RRBS-analyse). Nedenfor er en detaljeret beskrivelse af de data, som projektdeltagerne har indhentet gennem årene af deres arbejde og præsenteret på projektets hjemmeside.
Projektet brugte manuel og automatiseret annotering til at skabe et omfattende katalog over humane proteinkodende og ikke-kodende RNA'er og pseudogener, kaldet GENCODE. [20] [21] Kataloget omfatter 20.687 proteinkodende gener, med et gennemsnit på 6,3 alternativt splejsede pr. locus.
Derudover blev 8801 automatisk genererede små RNA'er og 9640 manuelt kurerede lange ikke-kodende RNA'er (lncRNA'er) kommenteret. Sammenligning af lncRNA'er med andre ENCODE-data viser, at lncRNA'er genereres via en vej svarende til proteinkodende gener. [22] GENCODE-projektet annoterede også 11.224 pseudogener, hvoraf 863 er transskriberet og forbundet med aktivt kromatin. [23]
For direkte at identificere regulatoriske regioner kortlagde projektdeltagerne bindingsstederne for 119 forskellige DNA-bindende proteiner og en række RNA-polymerasekomponenter i 72 celletyper ved hjælp af ChIP-seq. [24] Hvert bindingssted blev undersøgt for berigelse af kendte DNA-bindingsmotiver og for tilstedeværelsen af nye motiver.
Kromatintilgængelighed, karakteriseret ved DNase I-overfølsomhed, er et kendetegn for DNA-regulerende regioner. [25] [26] Projektdeltagerne kortlagde 2,89 millioner unikke, ikke-overlappende DNase I hypersensitivitetssteder (DHS) ved hjælp af DNase-seq i 125 celletyper.
Kromosomale placeringer af 12 histonmodifikationer i 46 celletyper blev analyseret. De opnåede data viser, at de globale modifikationsmønstre varierer meget for forskellige celletyper i overensstemmelse med ændringer i transkriptionel aktivitet. Det har vist sig, at integrationen af forskellige histonmodifikationsinformationer kan bruges systematisk til at tildele funktionelle attributter til genomiske regioner. [27]
Cytosin- methylering (sædvanligvis ved CpG-dinukleotider) er involveret i den epigenetiske regulering af genekspression. Promotormethylering er ofte forbundet med undertrykkelse, mens genmethylering korrelerer med transkriptionel aktivitet. [28] Projektdeltagerne brugte metoden Restricted Genomic Loci Set Bisulfite Sequencing (RRBS) til at kvantitativt profilere DNA-methylering for et gennemsnit på 1,2 millioner CpG'er i hver af 82 cellelinjer og væv, inklusive CpG'er i intergene regioner af proksimale promotorer og regioner inden for et gen (genlegemer). [29]
Fysiske interaktioner mellem individuelle regioner af kromosomer, som kan adskilles af hundredvis af kilobaser, anses for vigtige i reguleringen af genekspression 46. 5C-metoden har afsløret langdistanceinteraktioner med transkriptionsstartsteder (TSS'er) i et mål på 1 % af genomet (44 ENCODE pilotregioner) i fire celletyper (GM12878, K562, HeLa-S3 og H1 hESC) 49. Hundredvis af statistisk signifikante langdistanceinteraktioner blev fundet i hver celletype efter at have taget højde for kromatinpolymerens adfærd og eksperimentel variation. Par af interagerende loci viste en stærk korrelation mellem niveauet af TSS-genekspression og tilstedeværelsen af visse klasser af funktionelle elementer, såsom forstærkere . Det gennemsnitlige antal distale elementer, der interagerer med TSS, var 3,9, og det gennemsnitlige antal af TSS, der interagerer med det distale element, var 2,5, hvilket indikerer et komplekst netværk af indbyrdes forbundet kromatin. Denne sammenflettede "langrækkende" arkitektur er også blevet afsløret på tværs af genomet ved kromatin-interaktionsanalyse med parret slutmærke-sekventering ( ChIA-PET ) brugt til at detektere interaktioner i RNA-polymerase II (Pol II) beriget kromatin i fem celletyper. [tredive]
På trods af konsortiets påstande om, at ENCODE-projektet langt fra er slut, har responsen på de allerede offentliggjorte artikler og presseomtale været positiv. Redaktionen af tidsskriftet Nature og forfatterne af ENCODE-projektet skriver: "... vi har samarbejdet over mange måneder for at lave det størst mulige sprøjt, hvilket vil tiltrække opmærksomheden fra ikke kun det videnskabelige samfund, men også den brede offentlighed" ("... samarbejdede over mange måneder for at gøre det størst mulige sprøjt og fange ikke kun forskningsmiljøets opmærksomhed, men også offentligheden som helhed"). [31] Påstanden fremsat af ENCODE-projektet om, at 80 % af det menneskelige genom har en biokemisk funktion [10] blev hurtigt optaget af populærvidenskabelige publikationer, som karakteriserede resultaterne af projektet som årsag til døden af "junk"-DNA . [32] [33]
Konklusionen om, at hovedparten af genomet er "funktionel" er dog blevet kritiseret med den begrundelse, at ENCODE-projektet definerer "funktionalitet" for bredt, nemlig at alt, der transskriberes i en celle, har en funktion. Denne konklusion blev draget på trods af den generelt accepterede opfattelse, at mange elementer af DNA, der transskriberes , såsom pseudogener , ikke desto mindre ikke er funktionelle. Desuden lagde ENCODE-projektet vægt på sensitivitet frem for specificitet, hvilket førte til mange falske positiver . [34] [35] [36] Det noget vilkårlige valg af cellelinjer og transkriptionsfaktorer , samt manglen på nødvendige kontroleksperimenter, er blevet en yderligere kilde til seriøs kritik af ENCODE, eftersom et tilfældigt DNA-molekyle kan efterligne en sådan "funktionel" adfærd i ENCODE fortolkninger. [37]
Som svar på denne kritik er det blevet hævdet, at det meste genomtransskription og -splejsning , som set hos mennesker, er en mere nøjagtig indikator for genetisk funktion end sekvenskonservatisme. Derudover er det meste af "junk"-DNA'et involveret i epigenetisk regulering og var en nødvendig forudsætning for udviklingen af komplekse organismer. [38] Som svar på kommentarer om definitionen af ordet "funktionel" bemærkede mange, at i dette tilfælde drejer tvisten sig om en forskel i definition og ikke essensen af projektet, som er at levere data til efterfølgende undersøgelser af det biokemiske stof. aktivitet af ikke-proteinkodende DNA-regioner. Selvom definitioner er vigtige, og videnskaben er begrænset til sproget, ser ENCODE ud til at have tjent sit formål, da et stort antal forskningsartikler i øjeblikket bruger de data, der er genereret af projektet i stedet for at diskutere definitioner af "funktionalitet". [39] Ewan Birney, en af ENCODE-forskerne kommenterede nogle af reaktionerne på projektet. Han bemærker, at ordet "funktion" er blevet brugt pragmatisk til at henvise til "visse biokemiske aktiviteter", der manifesterer sig i forskellige klasser af eksperimenter på forskellige måder: tilstedeværelsen af RNA , histonmodifikationer , DNaseI - overfølsomme regioner, ChIP -seq transkriptionsfaktortoppe , DNA footprinting , transkriptionsfaktorbindingssteder og exoner . [40]
Derudover er projektet blevet kritiseret for dets høje budget (omkring 400 millioner dollars i alt) og protektion af såkaldt "big science", grundvidenskabelig forskning, der tager penge fra mere produktive videnskabelige udviklinger, der skal udføres på bekostning af forskerne selv. [41] Den indledende fase af ENCODE-projektet blev anslået til $55 millioner, dets udvidelse kostede cirka $130 millioner, og US National Human Genome Research Institute var klar til at allokere op til $123 millioner til næste fase af projektet. Nogle forskere hævder, at det korrekte investeringsafkast endnu ikke er fulgt. I et forsøg på at tælle alle publikationer, hvor ENCODE spiller en væsentlig rolle, er 300 sådanne artikler blevet identificeret siden 2012, hvoraf 110 var baseret på resultater fra laboratorier uden ENCODE-finansiering. Et yderligere problem var, at ENCODE ikke er et unikt navn, der kun refererer til ENCODE-projektet, så ordet 'encode' (kode) dukker op i en masse litteratur om genetik og genomforskning . [7]
Som en anden væsentlig kommentar argumenteres det for, at resultaterne ikke retfærdiggjorde tidsforbruget, og at projektet i princippet er uendeligt. Selvom det er blevet sammenlignet med Human Genome Project og endda kaldt dets efterfølger, har The Human Genome en klar afslutning, som ENCODE mangler i øjeblikket.
Forfatterne af projektet deler tilsyneladende den videnskabelige verdens bekymring og benægter ikke eksistensen af problemer, men de forsøger samtidig at retfærdiggøre deres indsats ved at forklare detaljerne i projektet i interviews, ikke kun til det videnskabelige samfund, men også til medierne. De siger, at det tog mere end et halvt århundrede at gå fra at forstå, at DNA er det materielle grundlag for arvelighed til at dechifrere sekvensen af det menneskelige genom , så deres plan for det næste århundrede er at forstå denne sekvens [7] .
I øjeblikket er ENCODE-konsortiet involveret i flere yderligere projekter med lignende mål. Nogle af disse projekter var en del af anden fase af ENCODE.
Analogt med ENCODE-projektet blev der også iværksat et projekt for at kortlægge de funktionelle elementer i genomet af de vigtigste modelobjekter - Drosophila melanogaster og Caenorhabditis elegans - engelsk. Model Organism ENCyclopedia Of DNA Elements (modENCODE) . Fordelen ved dette projekt er muligheden for at udføre nogle forsøg på modelorganismer, som er svære eller umulige at udføre på mennesker. [42]
Projektet blev grundlagt i 2007 af National Institutes of Health ( NIH ) [ 43] [44] I 2010 præsenterede modENCODE-konsortiet en række artikler i Science om annotering og analyse af fordelingen af funktionelle elementer i genomet af Drosophila melanogaster og Caenorhabditis elegans Data fra disse publikationer er tilgængelige på modENCODE-webstedet [45] .
På nuværende tidspunkt er modENCODE et forskningskonglomerat af 11 frøprojekter fordelt på D. melanogaster og C. elegans forskning . Projektet dækker forskning inden for følgende områder:
modERN ( modelorganisme Encyclopedia of Regulatory Networks ) er en udløber af modENCODE . Projektet kombinerer forskning i grupperne C. elegans og D. melanogaster og fokuserer på identifikation af yderligere transkriptionsfaktorbindingssteder. Projektet blev lanceret sideløbende med tredje fase af ENCODE, og er planlagt til afslutning i 2017. Til dato har modERN offentliggjort resultaterne af 198 eksperimenter, yderligere 500 er blevet accepteret til offentliggørelse og behandles af ENCODE dataclearinghouse.
Programmet Genomics of Gene Regulation (GGR) blev lanceret i begyndelsen af 2015 af US National Institutes of Health og vil løbe i tre år. Målet med programmet er at studere gennetværk og veje i forskellige kropssystemer for yderligere at fremme forståelsen af de mekanismer, der styrer genekspression. Selvom ENCODE-projektet er adskilt fra GGR, vedligeholder ENCODE Data Clearinghouse GGR-dataene på sin portal.
I 2008 blev Roadmap Epigenomics Mapping Consortium organiseret af US National Institutes of Health for at udvikle en offentlig kilde til humant genoms epigenetiske data til biologisk og medicinsk forskning. På baggrund af resultaterne af arbejdet udgav konsortiet i februar 2015 artiklen "Integrativ analyse af 111 reference humane epigenomer". Konsortiet indsamlede og kommenterede regulatoriske elementer i 127 referenceepigenomer, hvoraf 16 var en del af ENCODE-projektet. Roadmap-projektdata er tilgængelige på Roadmap- eller ENCODE -portalerne .
fruitENCODE-projekt: en encyklopædi over DNA-elementerne i modnende frugter, en del af ENCODE. Målet med projektet er at generere datasæt: DNA-methyleringssteder, histonmodifikationer, DNase I hypersensitive kromatinregioner, genekspression, transkriptionsfaktorbindingssteder for saftige frugter af alle slags på forskellige udviklingsstadier. Den foreløbige offentliggørelsesdato for resultaterne er offentliggjort på fruitENCODE- portalen .
Transskriptionsfaktorbindingsdataene opnået af ENCODE er i øjeblikket tilgængelige på Factorbook.org [47] , en wiki-baseret database. Det første nummer af FactorBook indeholder:
Ordbøger og encyklopædier |
---|