GenBank

GenBank
Indhold
Beskrivelse	Nukleotidsekvenser for over 300.000 organismer med understøttende bibliografiske og biologiske annotationer.
Datatype	Nukleotidsekvenser Proteinsekvenser
organismer	alle
Kontaktpersoner
Forskningscenter	US National Center for Biotechnology Information (NCBI)
Original udgivelse	21071399
Udgivelses dato	1982 ( 1982 )
Tilgængelighed
Dataformat	XML ASN.1 Genbank format
Internet side	NCBI
Download URL	ncbi ftp
webservice	Eutils sæbe
Værktøjer
Web	BLAST
Standalone version	BLAST
Andet
Licens	Uklart [1]

GenBank er en offentligt tilgængelig database, der indeholder alle annoterede DNA- og RNA-sekvenser samt sekvenserne af proteiner kodet i dem. GenBank vedligeholdes af US National Center for Biotechnology Information (NCBI) , en del af US National Institutes of Health, og er gratis tilgængelig for forskere over hele verden. GenBank indsamler og kombinerer data fra forskellige laboratorier for over 100.000 forskellige organismer.

GenBank er en arkivdatabase, det vil sige, at indholdet af hver post er ansvaret for skaberne af denne post, som som regel er de eksperimenterende, der har bestemt denne sekvens. GenBank er sammen med EMBL- og DDBJ- bankerne en del af INSDC-konsortiet ( http://insdc.org/ ), som regelmæssigt udveksler data mellem disse tre arkiver af annoterede nukleotidsekvenser.

Udgivelsen af GenBank sker hver anden måned og er tilgængelig fra hjemmesiden via FTP. Udgivelsesnoterne for den aktuelle version af GenBank giver detaljerede udgivelsesoplysninger og meddelelser om kommende ændringer til GenBank. Udgivelsesnoter til tidligere versioner af GenBank er også tilgængelige.

Oprettelseshistorie

I marts 1979 mødtes tredive molekylærbiologer og dataloger på Rockefeller University i New York. Det enedes om holdningen til behovet for at oprette en landsdækkende edb-database. Dette skyldtes den hurtige vækst i antallet af kendte DNA-sekvenser , samt udsigterne til at opnå ny biologisk viden gennem deres analyse og sammenligning. Indtil da var der flere separate samlinger af sekvenser, men ingen af dem var fuldstændige [2] Det tog National Institutes of Health (NIH) tre år at udvikle en finansieringsordning for projektet. I løbet af denne tid gjorde EMBL sin egen sekvensdatabase offentligt tilgængelig. Denne uheldige forsinkelse for NIH var ikke kun resultatet af et langsomt bureaukratisk system, men også af usikkerhed blandt videnskabsmænd om biologiske samlingers rolle i en æra domineret af eksperimentelle metoder til at forstå de levende. Under pres fra flere eksperimentelle videnskabsmænd begyndte NIH alligevel en søgning efter projektudøvere. To grupper deltog i konkurrencen om at skabe databasen: et hold fra National Biomedical Research Foundation (NBRF) ledet af Margaret Dyhoff og et team af forskere ledet af Walter Goad fra Los Alamos National Laboratory (LANL) i samarbejde med det private firma Bolt, Beranek og Newman » [2] .

Dyhoff skabte en af de første biologiske sekvensdatabaser, der indsamlede aminosyresekvenser af proteiner siden 1960'erne. I Atlas of Protein Sequences and Structures-serien af bind udgivet siden 1965 præsenterede Dyhoff verdens største samling af protein- og nukleinsyresekvenser, de nyeste metoder til deres analyse og de evolutionære overvejelser, der er opstået deraf [3] .Dette atlas blev ekstremt populært som værktøj i molekylær- og evolutionsbiologers arbejde. Dyhoff forventede, at forskerne ville dele nye sekvenser med hende, umiddelbart før de blev offentliggjort. Dette initiativ fandt dog ikke et ordentligt svar blandt eksperimentelle biologer, da hverken forfatterskabet eller prioriteten af opdagelsen blev fastslået, da de gik ind i Atlas. Dayhoff og hendes team blev tvunget til at fortsætte manuel analyse af den publicerede litteratur [2] .

En anden kandidat til NIH-kontrakten er Los Alamos-gruppen, som har lavet begrænset biomedicinsk forskning siden Manhattan-projektet . Da han lærte Rockefeller University-beslutningen, var Walter Goad overbevist om, at Los Alamos var "et naturligt sted for et DNA-sekventeringscenter", hovedsageligt på grund af den "unikke computerkraft", som det nationale laboratorium, der ligger der, besad [4] . Goad begyndte også at indsamle nukleinsyresekvenser, hovedsageligt fra andre samlinger ejet af Richard Grant i Frankrig, Kurt Stöber i Tyskland, Douglas Brutlag og Alvin Kabat i USA [2] .

NBRF (Diehoff) og LANL-BBN (Goad) forslag til en centraliseret database var meget ens, men de indeholdt vigtige forskelle med hensyn til ejerskab, fortrolighed og videnskabelig prioritet. NBRF foreslog at indsamle sekvenser ved at gennemgå offentliggjort litteratur og invitere forsøgsledere til at levere deres data. En sådan tilgang indebar den samme holdning til sekvenser, som naturforskere forholder sig til eksemplarer - genstande i det naturlige miljø, som kan indsamles og bruges. LANL-BBN foreslog derimod at bede udgivere om, at inklusion af sekvenser i databasen var en forudsætning for at publicere en artikel i tidsskriftet. Et sådant system svarede til motivationssystemet i de eksperimentelle videnskaber, hvor forskningsresultater betragtes som personlig viden, før de offentliggøres og tildeles forfatterskab. Offentliggørelse på denne måde er et incitament til at gøre viden offentligt tilgængelig [2] .

I 1980 erklærede den amerikanske højesteret , at "alt under solen skabt af mennesket", inklusive genetisk modificerede organismer, kan patenteres [5] . Denne meddelelse rejste spørgsmålet for NIH om, hvem der måtte eje oplysningerne i den fremtidige database. Goad understregede, at han "ikke har til hensigt at hævde noget ejerskab af nogen data" og bemærkede, at Dyhoff og hendes team "søgte indtægterne fra salget af deres database og forhindrede deres omfordeling", uden at nævne, at provenuet kun gik til at dække udgifter, og ikke for at tjene penge [6] .

LANL-BBN var i stand til yderligere at øge åbenheden af deres database ved at tilbyde at distribuere den over ARPANET computernetværket , administreret af Department of Defense , mens NBRF kun kunne tilbyde begrænset online adgang via telefonmodemmer. Den 30. juni 1982 tildelte NIH en kontrakt til LANL-BBN om at skabe en offentlig, fri nukleinsyresekvensdatabase, som snart blev kendt som GenBank.

GenBanks succes med at indsamle alle offentliggjorte sekvenser skyldtes to nøglefaktorer. Først blev der etableret et tæt samarbejde med EMBL-databasen oprettet et par måneder tidligere i Heidelberg og med DDBJ i 1986. Hver database var ansvarlig for at spore publikationer i visse tidsskrifter [2] .

For det andet faldt DNA-databaser længere og længere bagud det eksploderende antal kendte sekvenser. Løsningen på problemet var en aftale med forlagene om elektronisk optagelse af sekvenser i databasen som forudsætning for publicering i tidsskriftet.

Siden da er GenBank vokset og ekspanderet og har deltaget i projekter såsom Human Genome og DNA-stregkodningsprojekter . GenBank er blevet et eksempel på et projekt baseret på principperne om "gratis indhold" , som vinder en kæmpe konkurrencefordel i dagens verden [2] .

I midten af 1980'erne styrede bioinformatikvirksomheden Intelligenetics ved Stanford University GenBank-projektet sammen med LANL . Som et af de første offentlige bioinformatikprojekter på internettet lancerede projektet de første fora og midler til deling af videnskabelig viden: BIOSCI/Bionet .

Mellem 1989-1992 blev GenBank flyttet til det nyoprettede National Center for Biotechnology Information ( NCBI ) [7] .

GenBank statistik

Den tredje udgave af databasen, udgivet i december 1982, indeholdt 606 nukleotidsekvenser, udtrykt i baser - 680338. I november 1983 var antallet af sekvenser steget med mere end 4 gange - op til 2427. Indtil 2000 var væksten af databasen var eksponentiel. I 2007 blev mængden af data fordoblet hver 18. måned.

Siden april 2002 er der blevet ført statistik for WGS-sektionen. Dens vækstrate overstiger hovedafdelingen af GenBank. Efter opbremsning i 2010 viser WGS atter en accelereret vækst [8] .

Fra februar 2013 indeholdt GenBank information om mere end 228 milliarder basepar og næsten 200 millioner sekvenser (ud af mere end 100.000 levende organismer) [9] .

Genbanken indeholder også yderligere datasæt, mekanisk tilføjet, baseret på hovedindsamlingen af sekventeringsdata.

Baseret på oplysningerne i tabellen kan man bestemme omfanget af de data, der er akkumuleret i GenBank og sammenligne den hastighed, hvormed nye registreringer dukkede op i databasen i de første år efter grundlæggelsen af databasen og på nuværende tidspunkt [8] .

Frigøre	datoen	grunde	Sekvenser
3	december 1982	680 338	606
66	december 1990	51 306 092	41 057
121	december 2000	11 101 066 288	10 106 023
181	december 2010	122 082 812 719	129 902 276
218	februar 2017	228 719 437 638	199 341 377

Annotering af GenBank-posten

Den kommenterede GenBank-prøve i GenBank Flat File- format har følgende sektioner [10] :

Feltnavn	Felt anmærkning
LOCUS	LOCUS-feltet indeholder følgende dataelementer: Stedets navn Den eneste regel i at tildele et stednavn er unikhed. Sekvenslængde _ Antallet af nukleotidbasepar (eller aminosyrerester, i tilfælde af en proteinsekvens) i sekvensindgangen. Søgefelt Entrez: sekvenslængde [SLEN] Molekyle type Hver GenBank-post skal indeholde sekvensdata for én type molekyle: genomisk DNA , genomisk RNA , umodent (usplejset) RNA, messenger-RNA (cDNA), ribosomalt RNA , overførsels-RNA , lille nuklear RNA og andre. Søgefelt Entrez: type molekyle [PROP]. Eksempel biomol_genomic, biomol_mRNA osv. Sektion GenBank (GenBank Division) GenBank-poster henviser til et af følgende afsnit [11] : Taksonomiske afsnit: PRI (primat) - sekvenser af primater ROD (gnaver) - gnaversekvenser MAM (pattedyr) - andre pattedyrsekvenser VRT (hvirveldyr) - andre hvirveldyrsekvenser INV (invertebrat) - sekvenser af hvirvelløse dyr PLN (plante) - sekvenser af planter, svampe og alger BCT (bakteriel) - bakterielle sekvenser VRL (viral) - virale sekvenser PHG (bakteriofag) - bakteriofagsekvenser SYN (syntetisk) - syntetiske sekvenser ENV (environmental) - miljøprøvesekvenser UNA (uannoteret) - uannoterede sekvenser Høj gennemløbssekvens: EST (udtrykte sekvensmærker) - mærkesekvenser STS (sequence tagged sites) - taggede site-sekvenser GSS (genome survey sequences) - undersøgelse af genomsekvenser HTG (high-throughput genomiske sekvenser) - high-throughput genom-sekventeringsdata HTC (high-throughput cDNA-sekventering) - high-throughput cDNA-sekventeringsdata Projekter: PAT (patent) - patenterede sekvenser WGS (whole genome sequencing) - helgenom-sekventering TSA (transcriptome shotgun assembly) - transcriptome assembly ved hjælp af shotgun-metoden Da sektionerne ikke afspejler den aktuelle NCBI-taksonomi (en sekvens, der faktisk er relateret til en bestemt organisme, kan være inkluderet i den "tekniske" gruppe på grund af metoden til at opnå den), bør NCBI-taksonomibrowseren bruges til at hente alle sekvenser fra en bestemt organisme . Entrez søgefelt: [PROP] sektion . Eksempel: gbdiv_pri, gbdiv_est osv. Ændringsdato _ Den dato, hvor posten sidst blev ændret. Entrez søgefelt: dato [MDAT]. Eksempel 1999/07/25, 1999/07/25:1999/07/31 (åååå/mm/dd format påkrævet)
DEFINITION	Kort beskrivelse af sekvensen: organisme, gen/proteinnavn, beskrivelse af sekvensens funktioner (hvis sekvensen er ikke-kodende). Søgefelt Entrez: Beskrivelse [TITL].
ADGANG	Den unikke og uforanderlige identifikator for sekvensindtastningen ( adgangsnummer eng. ) . Identifikationen er en kombination af bogstaver og tal. Det er normalt et bogstav efterfulgt af fem tal (f.eks. U12345) eller to bogstaver efterfulgt af seks tal (f.eks. AF123456). Nogle identifikatorer kan være længere, afhængigt af typen af sekvensindtastning. Entrez søgefelt: Identifikator [ACCN].
VERSION	Identifikationsnummeret for en bestemt nukleotidsekvens i GenBank-databasen bruger "accessions.version"-formatet implementeret af GenBank/EMBL/DDBJ i februar 1999. Øget med enhver ændring i sekvensdataene, for eksempel fra U12345.10 til U12345.11. Sideløbende får ændringerne et nyt nummer i GI identifikatorsystemet. Sekvensrevisionshistorikken kan findes i GenBank Sequence Revision History and Sequence IDs sektionen . Entrez søgefelt: Brug standard "Alle felter".
GI	Identifikationsnummer "GenInfo Identifier" for nukleotid- eller proteinsekvensen oversat fra den. Hvis rækkefølgen ændres på nogen måde, vil et nyt GI-nummer blive tildelt. Entrez søgefelt: brug standard "Alle felter"
SØGEORD	Et nøgleord eller en sætning, der beskriver sekvensen. I mangel af nøgleord, indeholder kun en prik. Dette felt er primært til stede i sekvensposter af historiske årsager og er ikke baseret på kontrolleret ordforråd. Mest brugt i gamle indlæg eller til specielle sekvenstyper som EST, STS, GSS, HTG osv., så det er bedst ikke at bruge det til søgning. Entrez søgefelt: søgeord [KYWD]
KILDE	Organismen er kilden til sekvensen. Optagelsesformatet er gratis, det kan ledsages af typen af molekyle. Organism -underfeltet repræsenterer det formelle videnskabelige navn på moderorganismen (slægt og art, hvor det er relevant) og dens taksonomi baseret på NCBI-taksonomidatabasen. Entrez søgefelt: organisme [ORGN]. Eksempel: Saccharomyces cerevisiae
REFERENCE	Links til publikationer (tidsskriftsartikel, bogkapitel, bog, afhandling / monografi, samlingsmateriale, patent osv.) fra forfatterne til indlægget med en diskussion af de data, der er specificeret i indlægget. Links sorteres automatisk efter udgivelsesdato, begyndende med den ældste. Status "upubliceret" eller "under tryk" betyder ingen publikationer. Den sidste artikel indeholder normalt information om den direkte afsender af sekvensen, så den kaldes "afsenderblokken", og ordene "Direkte aflevering" bruges i stedet for artiklens titel. Feltet indeholder flere elementer: Forfattere _ Liste over forfattere i den rækkefølge, de optræder i den citerede artikel. Søgefelt Entrez: og andet [AUTH] (i formatet Efternavn AB uden prikker efter initialer kan initialer udelades). titel _ Titlen på en offentliggjort eller foreløbig titel på et upubliceret værk. Entrez søgefelt: navn [WORD] . Journal _ MEDLINE er en forkortelse for tidsskriftets navn. (Fuld stavemåde kan fås fra Entrez Journals-databasen) Entrez søgefelt: tidsskriftsnavn [JOUR] (du kan indtaste enten hele stavningen af tidsskriftet eller forkortelsen MEDLINE). PUBMED PubMed Identifier (PMID). Links, inklusive PubMed-id'er, til den tilsvarende PubMed-post. Til gengæld linker PubMed-poster, der indeholder sekvensidentifikatorer i SI-feltet (Secondary Source Identifier) til sekvensposter. Entrez søgefelt: Kan ikke søge i PubMed ID, men kan søge i PubMed database.
FUNKTIONER	Oplysninger om placeringen og funktionen af regionen specificeret i sekvensen: gen, dets produkt ( protein ), promotor , kodende sekvens (CDS), alternativt splejset mRNA og andre. En komplet liste over funktionelle sekvenser er tilgængelig på følgende steder: DDBJ/ENA/GenBank Feature Table Definition - indeholder definitioner, yderligere klassificeringer og kommentarer for hver funktion. Sequin Hjælp dokumentation En region kan være repræsenteret af et enkelt nukleotidspænd, et tilstødende nukleotidspænd, en pulje af sekvensspænd og andre repræsentationer. Arealet er som udgangspunkt givet ved to koordinater n..m. Symbolet "<" før koordinaterne angiver placeringen i 5'-enden (f.eks. CDS <1..206 ), symbolet ">" - ved 3'-enden (f.eks. CDS 435..915 > ), mærket "komplement "- om placeringen på den komplementære kæde. Søgefelt Entrez: funktionstast [FKEY]. Eksempel, promotor Feltelementer: kilde Obligatorisk felt, der indeholder længden af sekvensen, det videnskabelige navn på kildeorganismen og Taxon ID (taxon identifikationsnummer i NCBI Taxonomy Database ). Kan også indeholde yderligere information såsom placering på et genomkort (f.eks. kromosomnummer), stamme, klon, vævstype osv. Entrez søgefelt: Brug sekvenslængde [SLEN] til at søge efter længde, organisme [ORGN] til at søge efter organismenavn, yderligere information [ALLE] til at søge efter andre elementer såsom stamme, klon, vævstype. CDS Proteinkodende sekvens af nukleotider, inklusive start- og stopkodoner. Den indeholder også aminosyresekvensen oversat fra denne region. Specifikationerne "/evidence=eksperimentel" og "/evidence=ikke_eksperimentel" angiver tilstedeværelsen eller fraværet af eksperimentel bekræftelse af proteinets eksistens. For mRNA kan forfatterne af posten beskrive 5'- og 3'-utranslaterede regioner (5'UTR og 3'UTR) og kodende sekvenser (CDS, exoner). Entrez søgefelt: Funktionstast [FKEY] protein_id, GI Proteinsekvensidentifikationsnummer svarende til nukleotidsekvensidentifikationen. Proteinidentifikatorer består af tre bogstaver efterfulgt af fem cifre, en prik og et versionsnummer. Hvis der er en ændring i sekvensdataene (selv en enkelt aminosyre), vil versionsnummeret blive forøget (for eksempel vil AAA98665.1 ændres til AAA98665.2). Identifikationsformatet for accession.version proteinsekvensidentifikationsnummer blev implementeret af GenBank/EMBL/DDBJ i februar 1999 og kører parallelt med det digitale GI-system (se ovenfor). Entrez søgefelt: brug standard "Alle felter" gen Et område af biologisk interesse, der har et navn og er identificeret som et gen. Entrez søgefelt: Funktionstast [FKEY]
OPRINDELSE	Selve sekvensen er tilgængelig til download i forskellige formater. Feltet kan være tomt, kan vises som "Ikke-rapporteret", eller give en lokal pointer til begyndelsen af sekvensen, som normalt involverer et eksperimentelt bestemt restriktionssted eller genetisk locus (hvis nogen).

Regler for dataindtastning

Sekvensindsendelser til en af de tre databaser (GenBank, ENA eller DDBJ) indsendes enten af individuelle forfattere eller af sekventeringscentre, for det meste elektronisk gennem BankIt- eller Sequin-programmerne. Datasynkronisering mellem databaser sker dagligt. Ansøgninger kontrolleres omhyggeligt for fragmenter af de anvendte vektorer (ved hjælp af VecScreen -systemet ), korrekt translation af kodningsområdet, korrekt taksonomi og korrekte bibliografiske referencer. Et udkast til posten i GenBank sendes tilbage til forfatteren til gennemgang og endelige revisioner inden offentliggørelse i databasen, hvilket kan udskydes til et angivet tidspunkt efter anmodning fra forfatteren. Når det er offentliggjort (normalt inden for 2 dage efter indsendelse), får bidraget et ID, der kan hentes via Entrez eller FTP . I gennemsnit modtager identifikatorer cirka 3500 sekvenser om dagen. At have en sekvens i GenBanks offentlige domæne er et krav for offentliggørelse i mange tidsskrifter [12] .

GenBank tilbyder specielle softwarepakker for at lette indgivelsen af ansøgninger [12] :

BankIt er NCBI's webgrænseflade, hvorigennem omkring en tredjedel af ansøgningerne accepteres. Giver ansøgeren en speciel formular, hvis udfyldelse giver dig mulighed for at beskrive sekvensen korrekt uden at skulle lære formateringsregler og normativt ordforråd.
Sequin er etselvstændigt softwareværktøj udviklet af NCBI til indsendelse og opdatering af poster i GenBank-sekvensdatabasen. Kan håndtere optagelser af varierende kompleksitet, men en enkelt Sequin-fil bør indeholde færre end 10.000 sekvenser for maksimal ydeevne. Større indtastninger skal foretages med tbl2asn.
tbl2asn eret kommandolinjeværktøj til at konvertere en tabel med en annotation opnået ved hjælp af en annotationspipeline til en post, der er egnet til indsendelse til GenBank.
Submission Portal eren webservice, der giver en grænseflade, der accepterer WGS-data i FASTA-format ved hjælp af et sæt onlineformularer.
BarSTool eret onlineværktøj, der giver dig mulighed for at ansøge om optagelse i databasen med sekvenser tilstregkodning.

Sektioner af GenBank

I øjeblikket indeholder GenBank-databasen, udover sekvenserne af individuelle gener, en masse data opnået ved hjælp af moderne metoder til DNA-sekventering og automatisk sekvensannotering. Der er flere sektioner af GenBank dedikeret til sekvenseringsdata med høj gennemløb [11] .

Genomer er en speciel sektion til lagring af komplette genomer . Retningslinjer for annotering af de komplette genomer af prokaryoter og eukaryoter er blevet oprettet .
WGS (Whole genome shoutgun) - projekter til samling af ufuldstændige genomer, kromosomer af prokaryoter eller eukaryoter, hovedsageligt sekventeret ved haglgeværmetoden . I GenBank er annotering af WGS-projekter valgfri, men NCBI har en dedikeret pipeline til annotering af prokaryote genomer. Der er en liste over tilgængelige WGS-projekter .
TPA (Third Party Annotation) - er en database med eksperimentelle resultater eller afledt af eksisterende data, hvis annotering ikke blev lavet af forfatteren ud fra de primære data, men blev bestemt indirekte. TPA-registreringer falder i to kategorier, henholdsvis:
- experimenta l - annoteringen af sekvenserne bekræftes af eksperimentelle beviser i det "våde" laboratorium.
- inferential - annoteringen af sekvenserne er lavet ved slutning fra den tilgængelige information. Samtidig var selve nukleinsyremolekylet eller dets produkt(er) ikke genstand for direkte eksperimenter.
TSA (Transcriptome Shotgun Assembly sekvenser) er transkriptomsekvenser opnået ved haglgeværsekventering. Dette afsnit indeholder data indsamlet fra sekvenser hostet i NCBI Trace Archive, Sequence Read Archive og GenBank EST-sektionen. TSA-sektionen er en af de hurtigst voksende sektioner af GenBank.
ENV (Environmental sample sequences) - sekvenser af prøver fra miljøet, hvis specifikke kilde er ukendt. Mange af dem blev opnået ved analyse af metagenomer. "Metagenomer"-underafsnittet omfatter grupper af sekvenser opnået ved at sekventere DNA taget fra et specifikt sted i miljøet under visse betingelser. Denne tilgang gør det muligt at finde organismer, hvis laboratoriekultur ikke er opnået. Det er også ekstremt vigtigt for at forstå den genetiske mangfoldighed, befolkningsstrukturen og den økologiske rolle af sådanne organismer. ENV-sekvenser er typisk tilvejebragt ved shotgun-helmetagenom-sekventering eller sekvensundersøgelser baseret på målgener såsom 16S rRNA. NCBI understøtter fortsat BLAST-søgninger efter ENV-metagenomiske sekvenser, men sekvenser fra WGS-projekterne er nu en del af WGS BLAST-databasen.
EST (Expressed sequence tags) er hovedkilden til data til forskning i genekspression og sekvensannotering. Afsnittet indeholder mere end 40 milliarder basepar - det er det største i denne parameter efter WGS.
HTG (High-throughput genomic) - indeholder storstilede genomiske registreringer af ufærdige, som i fremtiden vil blive afsluttet. Records i dette afsnit tildeles et fasenummer, der svarer til deres aktuelle kvalitet. Ved at nå den tredje fase - fuldstændig afslutning - overføres posten til sektionen af den tilsvarende organisme.
GSS - indeholder udkast til kvalitetsposter, som kan omfatte 5' og 3' uoversatte regioner (UTR'er), dele af kodende regioner og introner. Efterhånden som de bliver af høj kvalitet, flyttes registreringerne til sektionen af den tilsvarende organisme.
CON (Contig records for assemblies of smaller records) - indeholder poster, der er meget lange sekvenser, såsom eukaryote kromosomer, hvis komplette sekvenser ikke kendes, men som omfatter flere contigs med ukarakteriserede mellemrum mellem dem. CON indeholder snarere ikke en liste over sekvenser i sig selv, men snarere en monteringsinstruktion, der inkluderer flere komponentsekvenser.

Noter

↑ Downloadsiden Arkiveret 27. januar 2020 på Wayback Machine på UCSC siger " NCBI sætter ingen begrænsninger på brugen eller distributionen af GenBank-dataene. Nogle afsendere kan dog gøre krav på patent , ophavsret eller andre intellektuelle ejendomsrettigheder i alle eller en NCBI er ikke i stand til at vurdere gyldigheden af sådanne krav og kan derfor ikke give kommentarer eller ubegrænset tilladelse til brug, kopiering eller distribution af oplysningerne i GenBank."
↑ 1 2 3 4 5 6 7 Bruno J. Strasser. GenBank - Naturhistorie i det 21. århundrede? (engelsk) // Videnskab. — 2008-10-24. — Bd. 322 , udg. 5901 . — S. 537–538 . — ISSN 1095-9203 . - doi : 10.1126/science.1163399 . Arkiveret fra originalen den 26. marts 2017.
↑ MARGARET OAKLEY DAYHOFF, 57; EKSPERT OM PROTEINSTRUKTURER , The New York Times (9. februar 1983). Arkiveret fra originalen den 28. august 2017. Hentet 25. marts 2017.
↑ Strasser, Bruno. The Experimenter's Museum: GenBank, Natural History, and the Moral Economies of Biomedicine // Isis. — 01-01-2011. - T. 102 , nr. 1 . — ISSN 0021-1753 . Arkiveret fra originalen den 15. april 2017.
↑ Diamant v. Chakrabarty 447 US 303 (1980) (engelsk) , Justia Law . Arkiveret fra originalen den 21. april 2017. Hentet 25. marts 2017.
↑ Frederick Sanger. Sekvenser, sekvenser og sekvenser // Årlig gennemgang af biokemi. - 1988-01-01. - T. 57 , no. 1 . — S. 1–29 . doi : 10.1146 / annurev.bi.57.070188.000245 .
↑ Hallam Stevens. Livet ude af rækkefølge: En datadrevet historie om bioinformatik . — University of Chicago Press, 2013-11-04. — 303 s. — ISBN 9780226080345 .
↑ 1 2 GenBank og WGS Statistik . www.ncbi.nlm.nih.gov. Hentet 25. marts 2017. Arkiveret fra originalen 28. april 2019.
↑ GenBank release notes . NCBI. Hentet 25. marts 2017. Arkiveret fra originalen 28. marts 2017. (ubestemt)
↑ Prøve GenBank Record . www.ncbi.nlm.nih.gov. Hentet 14. april 2017. Arkiveret fra originalen 18. maj 2020.
↑ 1 2 Dennis A. Benson, Mark Cavanaugh, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman. GenBank // Nukleinsyreforskning. — 2013-01-01. - T. 41 , no. Database problem . — P. D36–42 . — ISSN 1362-4962 . - doi : 10.1093/nar/gks1195 . Arkiveret 14. maj 2020.
↑ 1 2 Dennis A. Benson, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman, James Ostell. GenBank // Nukleinsyreforskning. — 2015-01-01. - T. 43 , no. Database problem . — P. D30–35 . — ISSN 1362-4962 . - doi : 10.1093/nar/gku1216 . Arkiveret fra originalen den 25. september 2016.

Se også

Links

Officiel hjemmeside for GenBank DB
FTP-server med database

Ordbøger og encyklopædier	Flot dansk
I bibliografiske kataloger	J9U : 987007604246305171 LCCN : n85375442

GenBank

Oprettelseshistorie

GenBank statistik

Annotering af GenBank-posten

LOCUS

DEFINITION

ADGANG

VERSION

GI

SØGEORD

KILDE

REFERENCE

FUNKTIONER

OPRINDELSE

Regler for dataindtastning

Sektioner af GenBank

Noter

Se også

Links