GenBank | |
---|---|
Indhold | |
Beskrivelse | Nukleotidsekvenser for over 300.000 organismer med understøttende bibliografiske og biologiske annotationer. |
Datatype |
|
organismer | alle |
Kontaktpersoner | |
Forskningscenter | US National Center for Biotechnology Information (NCBI) |
Original udgivelse | 21071399 |
Udgivelses dato | 1982 |
Tilgængelighed | |
Dataformat | |
Internet side | NCBI |
Download URL | ncbi ftp |
webservice | |
Værktøjer | |
Web | BLAST |
Standalone version | BLAST |
Andet | |
Licens | Uklart [1] |
GenBank er en offentligt tilgængelig database, der indeholder alle annoterede DNA- og RNA-sekvenser samt sekvenserne af proteiner kodet i dem. GenBank vedligeholdes af US National Center for Biotechnology Information (NCBI) , en del af US National Institutes of Health, og er gratis tilgængelig for forskere over hele verden. GenBank indsamler og kombinerer data fra forskellige laboratorier for over 100.000 forskellige organismer.
GenBank er en arkivdatabase, det vil sige, at indholdet af hver post er ansvaret for skaberne af denne post, som som regel er de eksperimenterende, der har bestemt denne sekvens. GenBank er sammen med EMBL- og DDBJ- bankerne en del af INSDC-konsortiet ( http://insdc.org/ ), som regelmæssigt udveksler data mellem disse tre arkiver af annoterede nukleotidsekvenser.
Udgivelsen af GenBank sker hver anden måned og er tilgængelig fra hjemmesiden via FTP. Udgivelsesnoterne for den aktuelle version af GenBank giver detaljerede udgivelsesoplysninger og meddelelser om kommende ændringer til GenBank. Udgivelsesnoter til tidligere versioner af GenBank er også tilgængelige.
I marts 1979 mødtes tredive molekylærbiologer og dataloger på Rockefeller University i New York. Det enedes om holdningen til behovet for at oprette en landsdækkende edb-database. Dette skyldtes den hurtige vækst i antallet af kendte DNA-sekvenser , samt udsigterne til at opnå ny biologisk viden gennem deres analyse og sammenligning. Indtil da var der flere separate samlinger af sekvenser, men ingen af dem var fuldstændige [2] Det tog National Institutes of Health (NIH) tre år at udvikle en finansieringsordning for projektet. I løbet af denne tid gjorde EMBL sin egen sekvensdatabase offentligt tilgængelig. Denne uheldige forsinkelse for NIH var ikke kun resultatet af et langsomt bureaukratisk system, men også af usikkerhed blandt videnskabsmænd om biologiske samlingers rolle i en æra domineret af eksperimentelle metoder til at forstå de levende. Under pres fra flere eksperimentelle videnskabsmænd begyndte NIH alligevel en søgning efter projektudøvere. To grupper deltog i konkurrencen om at skabe databasen: et hold fra National Biomedical Research Foundation (NBRF) ledet af Margaret Dyhoff og et team af forskere ledet af Walter Goad fra Los Alamos National Laboratory (LANL) i samarbejde med det private firma Bolt, Beranek og Newman » [2] .
Dyhoff skabte en af de første biologiske sekvensdatabaser, der indsamlede aminosyresekvenser af proteiner siden 1960'erne. I Atlas of Protein Sequences and Structures-serien af bind udgivet siden 1965 præsenterede Dyhoff verdens største samling af protein- og nukleinsyresekvenser, de nyeste metoder til deres analyse og de evolutionære overvejelser, der er opstået deraf [3] .Dette atlas blev ekstremt populært som værktøj i molekylær- og evolutionsbiologers arbejde. Dyhoff forventede, at forskerne ville dele nye sekvenser med hende, umiddelbart før de blev offentliggjort. Dette initiativ fandt dog ikke et ordentligt svar blandt eksperimentelle biologer, da hverken forfatterskabet eller prioriteten af opdagelsen blev fastslået, da de gik ind i Atlas. Dayhoff og hendes team blev tvunget til at fortsætte manuel analyse af den publicerede litteratur [2] .
En anden kandidat til NIH-kontrakten er Los Alamos-gruppen, som har lavet begrænset biomedicinsk forskning siden Manhattan-projektet . Da han lærte Rockefeller University-beslutningen, var Walter Goad overbevist om, at Los Alamos var "et naturligt sted for et DNA-sekventeringscenter", hovedsageligt på grund af den "unikke computerkraft", som det nationale laboratorium, der ligger der, besad [4] . Goad begyndte også at indsamle nukleinsyresekvenser, hovedsageligt fra andre samlinger ejet af Richard Grant i Frankrig, Kurt Stöber i Tyskland, Douglas Brutlag og Alvin Kabat i USA [2] .
NBRF (Diehoff) og LANL-BBN (Goad) forslag til en centraliseret database var meget ens, men de indeholdt vigtige forskelle med hensyn til ejerskab, fortrolighed og videnskabelig prioritet. NBRF foreslog at indsamle sekvenser ved at gennemgå offentliggjort litteratur og invitere forsøgsledere til at levere deres data. En sådan tilgang indebar den samme holdning til sekvenser, som naturforskere forholder sig til eksemplarer - genstande i det naturlige miljø, som kan indsamles og bruges. LANL-BBN foreslog derimod at bede udgivere om, at inklusion af sekvenser i databasen var en forudsætning for at publicere en artikel i tidsskriftet. Et sådant system svarede til motivationssystemet i de eksperimentelle videnskaber, hvor forskningsresultater betragtes som personlig viden, før de offentliggøres og tildeles forfatterskab. Offentliggørelse på denne måde er et incitament til at gøre viden offentligt tilgængelig [2] .
I 1980 erklærede den amerikanske højesteret , at "alt under solen skabt af mennesket", inklusive genetisk modificerede organismer, kan patenteres [5] . Denne meddelelse rejste spørgsmålet for NIH om, hvem der måtte eje oplysningerne i den fremtidige database. Goad understregede, at han "ikke har til hensigt at hævde noget ejerskab af nogen data" og bemærkede, at Dyhoff og hendes team "søgte indtægterne fra salget af deres database og forhindrede deres omfordeling", uden at nævne, at provenuet kun gik til at dække udgifter, og ikke for at tjene penge [6] .
LANL-BBN var i stand til yderligere at øge åbenheden af deres database ved at tilbyde at distribuere den over ARPANET computernetværket , administreret af Department of Defense , mens NBRF kun kunne tilbyde begrænset online adgang via telefonmodemmer. Den 30. juni 1982 tildelte NIH en kontrakt til LANL-BBN om at skabe en offentlig, fri nukleinsyresekvensdatabase, som snart blev kendt som GenBank.
GenBanks succes med at indsamle alle offentliggjorte sekvenser skyldtes to nøglefaktorer. Først blev der etableret et tæt samarbejde med EMBL-databasen oprettet et par måneder tidligere i Heidelberg og med DDBJ i 1986. Hver database var ansvarlig for at spore publikationer i visse tidsskrifter [2] .
For det andet faldt DNA-databaser længere og længere bagud det eksploderende antal kendte sekvenser. Løsningen på problemet var en aftale med forlagene om elektronisk optagelse af sekvenser i databasen som forudsætning for publicering i tidsskriftet.
Siden da er GenBank vokset og ekspanderet og har deltaget i projekter såsom Human Genome og DNA-stregkodningsprojekter . GenBank er blevet et eksempel på et projekt baseret på principperne om "gratis indhold" , som vinder en kæmpe konkurrencefordel i dagens verden [2] .
I midten af 1980'erne styrede bioinformatikvirksomheden Intelligenetics ved Stanford University GenBank-projektet sammen med LANL . Som et af de første offentlige bioinformatikprojekter på internettet lancerede projektet de første fora og midler til deling af videnskabelig viden: BIOSCI/Bionet .
Mellem 1989-1992 blev GenBank flyttet til det nyoprettede National Center for Biotechnology Information ( NCBI ) [7] .
Den tredje udgave af databasen, udgivet i december 1982, indeholdt 606 nukleotidsekvenser, udtrykt i baser - 680338. I november 1983 var antallet af sekvenser steget med mere end 4 gange - op til 2427. Indtil 2000 var væksten af databasen var eksponentiel. I 2007 blev mængden af data fordoblet hver 18. måned.
Siden april 2002 er der blevet ført statistik for WGS-sektionen. Dens vækstrate overstiger hovedafdelingen af GenBank. Efter opbremsning i 2010 viser WGS atter en accelereret vækst [8] .
Fra februar 2013 indeholdt GenBank information om mere end 228 milliarder basepar og næsten 200 millioner sekvenser (ud af mere end 100.000 levende organismer) [9] .
Genbanken indeholder også yderligere datasæt, mekanisk tilføjet, baseret på hovedindsamlingen af sekventeringsdata.
Baseret på oplysningerne i tabellen kan man bestemme omfanget af de data, der er akkumuleret i GenBank og sammenligne den hastighed, hvormed nye registreringer dukkede op i databasen i de første år efter grundlæggelsen af databasen og på nuværende tidspunkt [8] .
Frigøre | datoen | grunde | Sekvenser |
---|---|---|---|
3 | december 1982 | 680 338 | 606 |
66 | december 1990 | 51 306 092 | 41 057 |
121 | december 2000 | 11 101 066 288 | 10 106 023 |
181 | december 2010 | 122 082 812 719 | 129 902 276 |
218 | februar 2017 | 228 719 437 638 | 199 341 377 |
Den kommenterede GenBank-prøve i GenBank Flat File- format har følgende sektioner [10] :
Feltnavn | Felt anmærkning |
---|---|
LOCUS |
LOCUS-feltet indeholder følgende dataelementer:
Stedets navn Den eneste regel i at tildele et stednavn er unikhed. Sekvenslængde _ Antallet af nukleotidbasepar (eller aminosyrerester, i tilfælde af en proteinsekvens) i sekvensindgangen. Søgefelt Entrez: sekvenslængde [SLEN] Molekyle type Hver GenBank-post skal indeholde sekvensdata for én type molekyle: genomisk DNA , genomisk RNA , umodent (usplejset) RNA, messenger-RNA (cDNA), ribosomalt RNA , overførsels-RNA , lille nuklear RNA og andre. Søgefelt Entrez: type molekyle [PROP]. Eksempel biomol_genomic, biomol_mRNA osv. Sektion GenBank (GenBank Division) GenBank-poster henviser til et af følgende afsnit [11] : Taksonomiske afsnit:
Høj gennemløbssekvens:
Projekter:
Da sektionerne ikke afspejler den aktuelle NCBI-taksonomi (en sekvens, der faktisk er relateret til en bestemt organisme, kan være inkluderet i den "tekniske" gruppe på grund af metoden til at opnå den), bør NCBI-taksonomibrowseren bruges til at hente alle sekvenser fra en bestemt organisme . Entrez søgefelt: [PROP] sektion . Eksempel: gbdiv_pri, gbdiv_est osv. Ændringsdato _ Den dato, hvor posten sidst blev ændret. Entrez søgefelt: dato [MDAT]. Eksempel 1999/07/25, 1999/07/25:1999/07/31 (åååå/mm/dd format påkrævet) |
DEFINITION |
Kort beskrivelse af sekvensen: organisme, gen/proteinnavn, beskrivelse af sekvensens funktioner (hvis sekvensen er ikke-kodende).
Søgefelt Entrez: Beskrivelse [TITL]. |
ADGANG |
Den unikke og uforanderlige identifikator for sekvensindtastningen ( adgangsnummer eng. ) . Identifikationen er en kombination af bogstaver og tal. Det er normalt et bogstav efterfulgt af fem tal (f.eks. U12345) eller to bogstaver efterfulgt af seks tal (f.eks. AF123456). Nogle identifikatorer kan være længere, afhængigt af typen af sekvensindtastning.
Entrez søgefelt: Identifikator [ACCN]. |
VERSION |
Identifikationsnummeret for en bestemt nukleotidsekvens i GenBank-databasen bruger "accessions.version"-formatet implementeret af GenBank/EMBL/DDBJ i februar 1999. Øget med enhver ændring i sekvensdataene, for eksempel fra U12345.10 til U12345.11. Sideløbende får ændringerne et nyt nummer i GI identifikatorsystemet. Sekvensrevisionshistorikken kan findes i GenBank Sequence Revision History and Sequence IDs sektionen .
Entrez søgefelt: Brug standard "Alle felter". |
GI |
Identifikationsnummer "GenInfo Identifier" for nukleotid- eller proteinsekvensen oversat fra den. Hvis rækkefølgen ændres på nogen måde, vil et nyt GI-nummer blive tildelt.
Entrez søgefelt: brug standard "Alle felter" |
SØGEORD |
Et nøgleord eller en sætning, der beskriver sekvensen. I mangel af nøgleord, indeholder kun en prik.
Dette felt er primært til stede i sekvensposter af historiske årsager og er ikke baseret på kontrolleret ordforråd. Mest brugt i gamle indlæg eller til specielle sekvenstyper som EST, STS, GSS, HTG osv., så det er bedst ikke at bruge det til søgning. Entrez søgefelt: søgeord [KYWD] |
KILDE |
Organismen er kilden til sekvensen. Optagelsesformatet er gratis, det kan ledsages af typen af molekyle.
Organism -underfeltet repræsenterer det formelle videnskabelige navn på moderorganismen (slægt og art, hvor det er relevant) og dens taksonomi baseret på NCBI-taksonomidatabasen. Entrez søgefelt: organisme [ORGN]. Eksempel: Saccharomyces cerevisiae |
REFERENCE |
Links til publikationer (tidsskriftsartikel, bogkapitel, bog, afhandling / monografi, samlingsmateriale, patent osv.) fra forfatterne til indlægget med en diskussion af de data, der er specificeret i indlægget. Links sorteres automatisk efter udgivelsesdato, begyndende med den ældste. Status "upubliceret" eller "under tryk" betyder ingen publikationer. Den sidste artikel indeholder normalt information om den direkte afsender af sekvensen, så den kaldes "afsenderblokken", og ordene "Direkte aflevering" bruges i stedet for artiklens titel.
Feltet indeholder flere elementer: Forfattere _ Liste over forfattere i den rækkefølge, de optræder i den citerede artikel. Søgefelt Entrez: og andet [AUTH] (i formatet Efternavn AB uden prikker efter initialer kan initialer udelades). titel _ Titlen på en offentliggjort eller foreløbig titel på et upubliceret værk. Entrez søgefelt: navn [WORD] . Journal _ MEDLINE er en forkortelse for tidsskriftets navn. (Fuld stavemåde kan fås fra Entrez Journals-databasen) Entrez søgefelt: tidsskriftsnavn [JOUR] (du kan indtaste enten hele stavningen af tidsskriftet eller forkortelsen MEDLINE). PUBMED PubMed Identifier (PMID). Links, inklusive PubMed-id'er, til den tilsvarende PubMed-post. Til gengæld linker PubMed-poster, der indeholder sekvensidentifikatorer i SI-feltet (Secondary Source Identifier) til sekvensposter. Entrez søgefelt: Kan ikke søge i PubMed ID, men kan søge i PubMed database. |
FUNKTIONER |
Oplysninger om placeringen og funktionen af regionen specificeret i sekvensen: gen, dets produkt ( protein ), promotor , kodende sekvens (CDS), alternativt splejset mRNA og andre. En komplet liste over funktionelle sekvenser er tilgængelig på følgende steder:
En region kan være repræsenteret af et enkelt nukleotidspænd, et tilstødende nukleotidspænd, en pulje af sekvensspænd og andre repræsentationer. Arealet er som udgangspunkt givet ved to koordinater n..m. Symbolet "<" før koordinaterne angiver placeringen i 5'-enden (f.eks. CDS <1..206 ), symbolet ">" - ved 3'-enden (f.eks. CDS 435..915 > ), mærket "komplement "- om placeringen på den komplementære kæde. Søgefelt Entrez: funktionstast [FKEY]. Eksempel, promotor Feltelementer: kilde Obligatorisk felt, der indeholder længden af sekvensen, det videnskabelige navn på kildeorganismen og Taxon ID (taxon identifikationsnummer i NCBI Taxonomy Database ). Kan også indeholde yderligere information såsom placering på et genomkort (f.eks. kromosomnummer), stamme, klon, vævstype osv. Entrez søgefelt: Brug sekvenslængde [SLEN] til at søge efter længde, organisme [ORGN] til at søge efter organismenavn, yderligere information [ALLE] til at søge efter andre elementer såsom stamme, klon, vævstype. CDS Proteinkodende sekvens af nukleotider, inklusive start- og stopkodoner. Den indeholder også aminosyresekvensen oversat fra denne region. Specifikationerne "/evidence=eksperimentel" og "/evidence=ikke_eksperimentel" angiver tilstedeværelsen eller fraværet af eksperimentel bekræftelse af proteinets eksistens. For mRNA kan forfatterne af posten beskrive 5'- og 3'-utranslaterede regioner (5'UTR og 3'UTR) og kodende sekvenser (CDS, exoner). Entrez søgefelt: Funktionstast [FKEY] protein_id, GI Proteinsekvensidentifikationsnummer svarende til nukleotidsekvensidentifikationen. Proteinidentifikatorer består af tre bogstaver efterfulgt af fem cifre, en prik og et versionsnummer. Hvis der er en ændring i sekvensdataene (selv en enkelt aminosyre), vil versionsnummeret blive forøget (for eksempel vil AAA98665.1 ændres til AAA98665.2). Identifikationsformatet for accession.version proteinsekvensidentifikationsnummer blev implementeret af GenBank/EMBL/DDBJ i februar 1999 og kører parallelt med det digitale GI-system (se ovenfor). Entrez søgefelt: brug standard "Alle felter" gen Et område af biologisk interesse, der har et navn og er identificeret som et gen. Entrez søgefelt: Funktionstast [FKEY] |
OPRINDELSE |
Selve sekvensen er tilgængelig til download i forskellige formater. Feltet kan være tomt, kan vises som "Ikke-rapporteret", eller give en lokal pointer til begyndelsen af sekvensen, som normalt involverer et eksperimentelt bestemt restriktionssted eller genetisk locus (hvis nogen). |
Sekvensindsendelser til en af de tre databaser (GenBank, ENA eller DDBJ) indsendes enten af individuelle forfattere eller af sekventeringscentre, for det meste elektronisk gennem BankIt- eller Sequin-programmerne. Datasynkronisering mellem databaser sker dagligt. Ansøgninger kontrolleres omhyggeligt for fragmenter af de anvendte vektorer (ved hjælp af VecScreen -systemet ), korrekt translation af kodningsområdet, korrekt taksonomi og korrekte bibliografiske referencer. Et udkast til posten i GenBank sendes tilbage til forfatteren til gennemgang og endelige revisioner inden offentliggørelse i databasen, hvilket kan udskydes til et angivet tidspunkt efter anmodning fra forfatteren. Når det er offentliggjort (normalt inden for 2 dage efter indsendelse), får bidraget et ID, der kan hentes via Entrez eller FTP . I gennemsnit modtager identifikatorer cirka 3500 sekvenser om dagen. At have en sekvens i GenBanks offentlige domæne er et krav for offentliggørelse i mange tidsskrifter [12] .
GenBank tilbyder specielle softwarepakker for at lette indgivelsen af ansøgninger [12] :
I øjeblikket indeholder GenBank-databasen, udover sekvenserne af individuelle gener, en masse data opnået ved hjælp af moderne metoder til DNA-sekventering og automatisk sekvensannotering. Der er flere sektioner af GenBank dedikeret til sekvenseringsdata med høj gennemløb [11] .
Ordbøger og encyklopædier | |
---|---|
I bibliografiske kataloger |