GenBank

GenBank
Indhold
Beskrivelse Nukleotidsekvenser for over 300.000 organismer med understøttende bibliografiske og biologiske annotationer.
Datatype
  • Nukleotidsekvenser
  • Proteinsekvenser
organismer alle
Kontaktpersoner
Forskningscenter US National Center for Biotechnology Information (NCBI)
Original udgivelse 21071399
Udgivelses dato 1982  ( 1982 )
Tilgængelighed
Dataformat
Internet side NCBI
Download URL ncbi ftp
webservice
Værktøjer
Web BLAST
Standalone version BLAST
Andet
Licens Uklart [1]

GenBank  er en offentligt tilgængelig database, der indeholder alle annoterede DNA- og RNA-sekvenser samt sekvenserne af proteiner kodet i dem. GenBank vedligeholdes af US National Center for Biotechnology Information (NCBI) , en del af US National Institutes of Health, og er gratis tilgængelig for forskere over hele verden. GenBank indsamler og kombinerer data fra forskellige laboratorier for over 100.000 forskellige organismer.

GenBank er en arkivdatabase, det vil sige, at indholdet af hver post er ansvaret for skaberne af denne post, som som regel er de eksperimenterende, der har bestemt denne sekvens. GenBank er sammen med EMBL- og DDBJ- bankerne en del af INSDC-konsortiet ( http://insdc.org/ ), som regelmæssigt udveksler data mellem disse tre arkiver af annoterede nukleotidsekvenser.

Udgivelsen af ​​GenBank sker hver anden måned og er tilgængelig fra hjemmesiden via FTP. Udgivelsesnoterne for den aktuelle version af GenBank giver detaljerede udgivelsesoplysninger og meddelelser om kommende ændringer til GenBank. Udgivelsesnoter til tidligere versioner af GenBank er også tilgængelige.

Oprettelseshistorie

I marts 1979 mødtes tredive molekylærbiologer og dataloger på Rockefeller University i New York. Det enedes om holdningen til behovet for at oprette en landsdækkende edb-database. Dette skyldtes den hurtige vækst i antallet af kendte DNA-sekvenser , samt udsigterne til at opnå ny biologisk viden gennem deres analyse og sammenligning. Indtil da var der flere separate samlinger af sekvenser, men ingen af ​​dem var fuldstændige [2] Det tog National Institutes of Health (NIH) tre år at udvikle en finansieringsordning for projektet. I løbet af denne tid gjorde EMBL sin egen sekvensdatabase offentligt tilgængelig. Denne uheldige forsinkelse for NIH var ikke kun resultatet af et langsomt bureaukratisk system, men også af usikkerhed blandt videnskabsmænd om biologiske samlingers rolle i en æra domineret af eksperimentelle metoder til at forstå de levende. Under pres fra flere eksperimentelle videnskabsmænd begyndte NIH alligevel en søgning efter projektudøvere. To grupper deltog i konkurrencen om at skabe databasen: et hold fra National Biomedical Research Foundation (NBRF) ledet af Margaret Dyhoff og et team af forskere ledet af Walter Goad fra Los Alamos National Laboratory (LANL) i samarbejde med det private firma Bolt, Beranek og Newman » [2] .

Dyhoff skabte en af ​​de første biologiske sekvensdatabaser, der indsamlede aminosyresekvenser af proteiner siden 1960'erne. I Atlas of Protein Sequences and Structures-serien af ​​bind udgivet siden 1965 præsenterede Dyhoff verdens største samling af protein- og nukleinsyresekvenser, de nyeste metoder til deres analyse og de evolutionære overvejelser, der er opstået deraf [3] .Dette atlas blev ekstremt populært som værktøj i molekylær- og evolutionsbiologers arbejde. Dyhoff forventede, at forskerne ville dele nye sekvenser med hende, umiddelbart før de blev offentliggjort. Dette initiativ fandt dog ikke et ordentligt svar blandt eksperimentelle biologer, da hverken forfatterskabet eller prioriteten af ​​opdagelsen blev fastslået, da de gik ind i Atlas. Dayhoff og hendes team blev tvunget til at fortsætte manuel analyse af den publicerede litteratur [2] .

En anden kandidat til NIH-kontrakten er Los Alamos-gruppen, som har lavet begrænset biomedicinsk forskning siden Manhattan-projektet . Da han lærte Rockefeller University-beslutningen, var Walter Goad overbevist om, at Los Alamos var "et naturligt sted for et DNA-sekventeringscenter", hovedsageligt på grund af den "unikke computerkraft", som det nationale laboratorium, der ligger der, besad [4] . Goad begyndte også at indsamle nukleinsyresekvenser, hovedsageligt fra andre samlinger ejet af Richard Grant i Frankrig, Kurt Stöber i Tyskland, Douglas Brutlag og Alvin Kabat i USA [2] .

NBRF (Diehoff) og LANL-BBN (Goad) forslag til en centraliseret database var meget ens, men de indeholdt vigtige forskelle med hensyn til ejerskab, fortrolighed og videnskabelig prioritet. NBRF foreslog at indsamle sekvenser ved at gennemgå offentliggjort litteratur og invitere forsøgsledere til at levere deres data. En sådan tilgang indebar den samme holdning til sekvenser, som naturforskere forholder sig til eksemplarer - genstande i det naturlige miljø, som kan indsamles og bruges. LANL-BBN foreslog derimod at bede udgivere om, at inklusion af sekvenser i databasen var en forudsætning for at publicere en artikel i tidsskriftet. Et sådant system svarede til motivationssystemet i de eksperimentelle videnskaber, hvor forskningsresultater betragtes som personlig viden, før de offentliggøres og tildeles forfatterskab. Offentliggørelse på denne måde er et incitament til at gøre viden offentligt tilgængelig [2] .

I 1980 erklærede den amerikanske højesteret , at "alt under solen skabt af mennesket", inklusive genetisk modificerede organismer, kan patenteres [5] . Denne meddelelse rejste spørgsmålet for NIH om, hvem der måtte eje oplysningerne i den fremtidige database. Goad understregede, at han "ikke har til hensigt at hævde noget ejerskab af nogen data" og bemærkede, at Dyhoff og hendes team "søgte indtægterne fra salget af deres database og forhindrede deres omfordeling", uden at nævne, at provenuet kun gik til at dække udgifter, og ikke for at tjene penge [6] .

LANL-BBN var i stand til yderligere at øge åbenheden af ​​deres database ved at tilbyde at distribuere den over ARPANET computernetværket , administreret af Department of Defense , mens NBRF kun kunne tilbyde begrænset online adgang via telefonmodemmer. Den 30. juni 1982 tildelte NIH en kontrakt til LANL-BBN om at skabe en offentlig, fri nukleinsyresekvensdatabase, som snart blev kendt som GenBank.

GenBanks succes med at indsamle alle offentliggjorte sekvenser skyldtes to nøglefaktorer. Først blev der etableret et tæt samarbejde med EMBL-databasen oprettet et par måneder tidligere i Heidelberg og med DDBJ i 1986. Hver database var ansvarlig for at spore publikationer i visse tidsskrifter [2] .

For det andet faldt DNA-databaser længere og længere bagud det eksploderende antal kendte sekvenser. Løsningen på problemet var en aftale med forlagene om elektronisk optagelse af sekvenser i databasen som forudsætning for publicering i tidsskriftet.

Siden da er GenBank vokset og ekspanderet og har deltaget i projekter såsom Human Genome og DNA-stregkodningsprojekter . GenBank er blevet et eksempel på et projekt baseret på principperne om "gratis indhold" , som vinder en kæmpe konkurrencefordel i dagens verden [2] .

I midten af ​​1980'erne styrede bioinformatikvirksomheden Intelligenetics ved Stanford University GenBank-projektet sammen med LANL . Som et af de første offentlige bioinformatikprojekter på internettet lancerede projektet de første fora og midler til deling af videnskabelig viden: BIOSCI/Bionet .

Mellem 1989-1992 blev GenBank flyttet til det nyoprettede National Center for Biotechnology Information ( NCBI ) [7] .

GenBank statistik

Den tredje udgave af databasen, udgivet i december 1982, indeholdt 606 nukleotidsekvenser, udtrykt i baser - 680338. I november 1983 var antallet af sekvenser steget med mere end 4 gange - op til 2427. Indtil 2000 var væksten af databasen var eksponentiel. I 2007 blev mængden af ​​data fordoblet hver 18. måned.

Siden april 2002 er der blevet ført statistik for WGS-sektionen. Dens vækstrate overstiger hovedafdelingen af ​​GenBank. Efter opbremsning i 2010 viser WGS atter en accelereret vækst [8] .

Fra februar 2013 indeholdt GenBank information om mere end 228 milliarder basepar og næsten 200 millioner sekvenser (ud af mere end 100.000 levende organismer) [9] .

Genbanken indeholder også yderligere datasæt, mekanisk tilføjet, baseret på hovedindsamlingen af ​​sekventeringsdata.

Baseret på oplysningerne i tabellen kan man bestemme omfanget af de data, der er akkumuleret i GenBank og sammenligne den hastighed, hvormed nye registreringer dukkede op i databasen i de første år efter grundlæggelsen af ​​databasen og på nuværende tidspunkt [8] .

Frigøre datoen grunde Sekvenser
3 december 1982 680 338 606
66 december 1990 51 306 092 41 057
121 december 2000 11 101 066 288 10 106 023
181 december 2010 122 082 812 719 129 902 276
218 februar 2017 228 719 437 638 199 341 377

Annotering af GenBank-posten

Den kommenterede GenBank-prøve i GenBank Flat File- format har følgende sektioner [10] :

Feltnavn Felt anmærkning

LOCUS

LOCUS-feltet indeholder følgende dataelementer:

Stedets navn

Den eneste regel i at tildele et stednavn er unikhed.

Sekvenslængde _

Antallet af nukleotidbasepar (eller aminosyrerester, i tilfælde af en proteinsekvens) i sekvensindgangen.

Søgefelt Entrez: sekvenslængde [SLEN]

Molekyle type

Hver GenBank-post skal indeholde sekvensdata for én type molekyle: genomisk DNA , genomisk RNA , umodent (usplejset) RNA, messenger-RNA (cDNA), ribosomalt RNA , overførsels-RNA , lille nuklear RNA og andre.

Søgefelt Entrez: type molekyle [PROP]. Eksempel biomol_genomic, biomol_mRNA osv.

Sektion GenBank (GenBank Division)

GenBank-poster henviser til et af følgende afsnit [11] :

Taksonomiske afsnit:

  • PRI (primat) - sekvenser af primater
  • ROD (gnaver) - gnaversekvenser
  • MAM (pattedyr) - andre pattedyrsekvenser
  • VRT (hvirveldyr) - andre hvirveldyrsekvenser
  • INV (invertebrat) - sekvenser af hvirvelløse dyr
  • PLN (plante) - sekvenser af planter, svampe og alger
  • BCT (bakteriel) - bakterielle sekvenser
  • VRL (viral) - virale sekvenser
  • PHG (bakteriofag) - bakteriofagsekvenser
  • SYN (syntetisk) - syntetiske sekvenser
  • ENV (environmental) - miljøprøvesekvenser
  • UNA (uannoteret) - uannoterede sekvenser

Høj gennemløbssekvens:

  • EST (udtrykte sekvensmærker) - mærkesekvenser
  • STS (sequence tagged sites) - taggede site-sekvenser
  • GSS (genome survey sequences) - undersøgelse af genomsekvenser
  • HTG (high-throughput genomiske sekvenser) - high-throughput genom-sekventeringsdata
  • HTC (high-throughput cDNA-sekventering) - high-throughput cDNA-sekventeringsdata

Projekter:

  • PAT (patent) - patenterede sekvenser
  • WGS (whole genome sequencing) - helgenom-sekventering
  • TSA (transcriptome shotgun assembly) - transcriptome assembly ved hjælp af shotgun-metoden

Da sektionerne ikke afspejler den aktuelle NCBI-taksonomi (en sekvens, der faktisk er relateret til en bestemt organisme, kan være inkluderet i den "tekniske" gruppe på grund af metoden til at opnå den), bør NCBI-taksonomibrowseren bruges til at hente alle sekvenser fra en bestemt organisme .

Entrez søgefelt: [PROP] sektion . Eksempel: gbdiv_pri, gbdiv_est osv.

Ændringsdato _

Den dato, hvor posten sidst blev ændret.

Entrez søgefelt: dato [MDAT]. Eksempel 1999/07/25, 1999/07/25:1999/07/31 (åååå/mm/dd format påkrævet)

DEFINITION

Kort beskrivelse af sekvensen: organisme, gen/proteinnavn, beskrivelse af sekvensens funktioner (hvis sekvensen er ikke-kodende).

Søgefelt Entrez: Beskrivelse [TITL].

ADGANG

Den unikke og uforanderlige identifikator for sekvensindtastningen ( adgangsnummer eng. ) . Identifikationen er en kombination af bogstaver og tal. Det er normalt et bogstav efterfulgt af fem tal (f.eks. U12345) eller to bogstaver efterfulgt af seks tal (f.eks. AF123456). Nogle identifikatorer kan være længere, afhængigt af typen af ​​sekvensindtastning.

Entrez søgefelt: Identifikator [ACCN].

VERSION

Identifikationsnummeret for en bestemt nukleotidsekvens i GenBank-databasen bruger "accessions.version"-formatet implementeret af GenBank/EMBL/DDBJ i februar 1999. Øget med enhver ændring i sekvensdataene, for eksempel fra U12345.10 til U12345.11. Sideløbende får ændringerne et nyt nummer i GI identifikatorsystemet. Sekvensrevisionshistorikken kan findes i GenBank Sequence Revision History and Sequence IDs sektionen .

Entrez søgefelt: Brug standard "Alle felter".

GI

Identifikationsnummer "GenInfo Identifier" for nukleotid- eller proteinsekvensen oversat fra den. Hvis rækkefølgen ændres på nogen måde, vil et nyt GI-nummer blive tildelt.

Entrez søgefelt: brug standard "Alle felter"

SØGEORD

Et nøgleord eller en sætning, der beskriver sekvensen. I mangel af nøgleord, indeholder kun en prik.

Dette felt er primært til stede i sekvensposter af historiske årsager og er ikke baseret på kontrolleret ordforråd. Mest brugt i gamle indlæg eller til specielle sekvenstyper som EST, STS, GSS, HTG osv., så det er bedst ikke at bruge det til søgning.

Entrez søgefelt: søgeord [KYWD]

KILDE

Organismen er kilden til sekvensen. Optagelsesformatet er gratis, det kan ledsages af typen af ​​molekyle.

Organism -underfeltet repræsenterer det formelle videnskabelige navn på moderorganismen (slægt og art, hvor det er relevant) og dens taksonomi baseret på NCBI-taksonomidatabasen.

Entrez søgefelt: organisme [ORGN]. Eksempel: Saccharomyces cerevisiae

REFERENCE

Links til publikationer (tidsskriftsartikel, bogkapitel, bog, afhandling / monografi, samlingsmateriale, patent osv.) fra forfatterne til indlægget med en diskussion af de data, der er specificeret i indlægget. Links sorteres automatisk efter udgivelsesdato, begyndende med den ældste. Status "upubliceret" eller "under tryk" betyder ingen publikationer. Den sidste artikel indeholder normalt information om den direkte afsender af sekvensen, så den kaldes "afsenderblokken", og ordene "Direkte aflevering" bruges i stedet for artiklens titel.

Feltet indeholder flere elementer:

Forfattere _

Liste over forfattere i den rækkefølge, de optræder i den citerede artikel.

Søgefelt Entrez: og andet [AUTH] (i formatet Efternavn AB uden prikker efter initialer kan initialer udelades).

titel _

Titlen på en offentliggjort eller foreløbig titel på et upubliceret værk.

Entrez søgefelt: navn [WORD] .

Journal _

MEDLINE er en forkortelse for tidsskriftets navn. (Fuld stavemåde kan fås fra Entrez Journals-databasen)

Entrez søgefelt: tidsskriftsnavn [JOUR] (du kan indtaste enten hele stavningen af ​​tidsskriftet eller forkortelsen MEDLINE).

PUBMED

PubMed Identifier (PMID).

Links, inklusive PubMed-id'er, til den tilsvarende PubMed-post. Til gengæld linker PubMed-poster, der indeholder sekvensidentifikatorer i SI-feltet (Secondary Source Identifier) ​​til sekvensposter.

Entrez søgefelt: Kan ikke søge i PubMed ID, men kan søge i PubMed database.

FUNKTIONER

Oplysninger om placeringen og funktionen af ​​regionen specificeret i sekvensen: gen, dets produkt ( protein ), promotor , kodende sekvens (CDS), alternativt splejset mRNA og andre. En komplet liste over funktionelle sekvenser er tilgængelig på følgende steder:

En region kan være repræsenteret af et enkelt nukleotidspænd, et tilstødende nukleotidspænd, en pulje af sekvensspænd og andre repræsentationer. Arealet er som udgangspunkt givet ved to koordinater n..m. Symbolet "<" før koordinaterne angiver placeringen i 5'-enden (f.eks. CDS <1..206 ), symbolet ">" - ved 3'-enden (f.eks. CDS 435..915 > ), mærket "komplement "- om placeringen på den komplementære kæde.

Søgefelt Entrez: funktionstast [FKEY]. Eksempel, promotor

Feltelementer:

kilde

Obligatorisk felt, der indeholder længden af ​​sekvensen, det videnskabelige navn på kildeorganismen og Taxon ID (taxon identifikationsnummer i NCBI Taxonomy Database ). Kan også indeholde yderligere information såsom placering på et genomkort (f.eks. kromosomnummer), stamme, klon, vævstype osv.

Entrez søgefelt: Brug sekvenslængde [SLEN] til at søge efter længde, organisme [ORGN] til at søge efter organismenavn, yderligere information [ALLE] til at søge efter andre elementer såsom stamme, klon, vævstype.

CDS

Proteinkodende sekvens af nukleotider, inklusive start- og stopkodoner. Den indeholder også aminosyresekvensen oversat fra denne region. Specifikationerne "/evidence=eksperimentel" og "/evidence=ikke_eksperimentel" angiver tilstedeværelsen eller fraværet af eksperimentel bekræftelse af proteinets eksistens. For mRNA kan forfatterne af posten beskrive 5'- og 3'-utranslaterede regioner (5'UTR og 3'UTR) og kodende sekvenser (CDS, exoner).

Entrez søgefelt: Funktionstast [FKEY]

protein_id, GI

Proteinsekvensidentifikationsnummer svarende til nukleotidsekvensidentifikationen. Proteinidentifikatorer består af tre bogstaver efterfulgt af fem cifre, en prik og et versionsnummer. Hvis der er en ændring i sekvensdataene (selv en enkelt aminosyre), vil versionsnummeret blive forøget (for eksempel vil AAA98665.1 ændres til AAA98665.2).

Identifikationsformatet for accession.version proteinsekvensidentifikationsnummer blev implementeret af GenBank/EMBL/DDBJ i februar 1999 og kører parallelt med det digitale GI-system (se ovenfor).

Entrez søgefelt: brug standard "Alle felter"

gen

Et område af biologisk interesse, der har et navn og er identificeret som et gen.

Entrez søgefelt: Funktionstast [FKEY]

OPRINDELSE

Selve sekvensen er tilgængelig til download i forskellige formater. Feltet kan være tomt, kan vises som "Ikke-rapporteret", eller give en lokal pointer til begyndelsen af ​​sekvensen, som normalt involverer et eksperimentelt bestemt restriktionssted eller genetisk locus (hvis nogen).

Regler for dataindtastning

Sekvensindsendelser til en af ​​de tre databaser (GenBank, ENA eller DDBJ) indsendes enten af ​​individuelle forfattere eller af sekventeringscentre, for det meste elektronisk gennem BankIt- eller Sequin-programmerne. Datasynkronisering mellem databaser sker dagligt. Ansøgninger kontrolleres omhyggeligt for fragmenter af de anvendte vektorer (ved hjælp af VecScreen -systemet ), korrekt translation af kodningsområdet, korrekt taksonomi og korrekte bibliografiske referencer. Et udkast til posten i GenBank sendes tilbage til forfatteren til gennemgang og endelige revisioner inden offentliggørelse i databasen, hvilket kan udskydes til et angivet tidspunkt efter anmodning fra forfatteren. Når det er offentliggjort (normalt inden for 2 dage efter indsendelse), får bidraget et ID, der kan hentes via Entrez eller FTP . I gennemsnit modtager identifikatorer cirka 3500 sekvenser om dagen. At have en sekvens i GenBanks offentlige domæne er et krav for offentliggørelse i mange tidsskrifter [12] .

GenBank tilbyder specielle softwarepakker for at lette indgivelsen af ​​ansøgninger [12] :

Sektioner af GenBank

I øjeblikket indeholder GenBank-databasen, udover sekvenserne af individuelle gener, en masse data opnået ved hjælp af moderne metoder til DNA-sekventering og automatisk sekvensannotering. Der er flere sektioner af GenBank dedikeret til sekvenseringsdata med høj gennemløb [11] .

Noter

  1. Downloadsiden Arkiveret 27. januar 2020 på Wayback Machine på UCSC siger " NCBI sætter ingen begrænsninger på brugen eller distributionen af ​​GenBank-dataene. Nogle afsendere kan dog gøre krav på patent , ophavsret eller andre intellektuelle ejendomsrettigheder i alle eller en NCBI er ikke i stand til at vurdere gyldigheden af ​​sådanne krav og kan derfor ikke give kommentarer eller ubegrænset tilladelse til brug, kopiering eller distribution af oplysningerne i GenBank."
  2. ↑ 1 2 3 4 5 6 7 Bruno J. Strasser. GenBank - Naturhistorie i det 21. århundrede?  (engelsk)  // Videnskab. — 2008-10-24. — Bd. 322 , udg. 5901 . — S. 537–538 . — ISSN 1095-9203 . - doi : 10.1126/science.1163399 . Arkiveret fra originalen den 26. marts 2017.
  3. MARGARET OAKLEY DAYHOFF, 57; EKSPERT OM PROTEINSTRUKTURER , The New York Times  (9. februar 1983). Arkiveret fra originalen den 28. august 2017. Hentet 25. marts 2017.
  4. Strasser, Bruno. The Experimenter's Museum: GenBank, Natural History, and the Moral Economies of Biomedicine  // Isis. — 01-01-2011. - T. 102 , nr. 1 . — ISSN 0021-1753 . Arkiveret fra originalen den 15. april 2017.
  5. Diamant v. Chakrabarty 447 US 303 (1980)  (engelsk) , Justia Law . Arkiveret fra originalen den 21. april 2017. Hentet 25. marts 2017.
  6. Frederick Sanger. Sekvenser, sekvenser og sekvenser  // Årlig gennemgang af biokemi. - 1988-01-01. - T. 57 , no. 1 . — S. 1–29 . doi : 10.1146 / annurev.bi.57.070188.000245 .
  7. Hallam Stevens. Livet ude af rækkefølge: En datadrevet historie om bioinformatik . — University of Chicago Press, 2013-11-04. — 303 s. — ISBN 9780226080345 .
  8. ↑ 1 2 GenBank og WGS Statistik  . www.ncbi.nlm.nih.gov. Hentet 25. marts 2017. Arkiveret fra originalen 28. april 2019.
  9. GenBank release notes . NCBI. Hentet 25. marts 2017. Arkiveret fra originalen 28. marts 2017.
  10. ↑ Prøve GenBank Record  . www.ncbi.nlm.nih.gov. Hentet 14. april 2017. Arkiveret fra originalen 18. maj 2020.
  11. ↑ 1 2 Dennis A. Benson, Mark Cavanaugh, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman. GenBank  // Nukleinsyreforskning. — 2013-01-01. - T. 41 , no. Database problem . — P. D36–42 . — ISSN 1362-4962 . - doi : 10.1093/nar/gks1195 . Arkiveret 14. maj 2020.
  12. ↑ 1 2 Dennis A. Benson, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman, James Ostell. GenBank  // Nukleinsyreforskning. — 2015-01-01. - T. 43 , no. Database problem . — P. D30–35 . — ISSN 1362-4962 . - doi : 10.1093/nar/gku1216 . Arkiveret fra originalen den 25. september 2016.

Se også

Links