UniProt | |
---|---|
Indhold | |
Beskrivelse | Proteinsekvensdatabase |
Datatype | Proteinanmærkning |
organismer | Alle |
Kontaktpersoner | |
Forskningscenter | EMBL-EBI , Storbritannien; SIB , Schweiz; PIR , USA. |
Tilgængelighed | |
Dataformat | FASTA , GFF , RDF , XML . |
Internet side |
uniprot.org uniprot.org/news/ |
UniProt er en åben database med proteinsekvenser. UniProt-konsortiet har været aktivt siden 2003 . En enkelt UniProt-database blev oprettet ved at kombinere flere databaser . UniProt består af fire store databaser (Knowledge Base , Arkiv , Reference Clusters og metagenomiske data ) og dækker forskellige aspekter af proteinsekvensanalyse. Mange af sekvenserne er blevet kendt som et resultat af genomsekventeringsprojekter i de senere år. Derudover indeholder UniProt-databasen et væld af informationer om de biologiske funktioner af proteiner, der stammer fra den videnskabelige litteratur.
UniProt-konsortiet omfatter: European Bioinformatics Institute (EBI), Swiss Bioinformatics Institute (SIB) og Protein Information Resource (PIR) [1] .
Baseret i Hinxton, Storbritannien, er EBI vært for et stort antal bioinformatikdatabaser og -tjenester [2] .
SIB, der ligger i Genève, Schweiz, er et lager af ekspertproteinsystemanalyseservere (ExPASy-servere), hovedkilden til proteomikværktøjer og relaterede databaser [3] .
PIR er placeret på Georgetown University Medical Center i Washington, DC, USA og er en integreret bioinformatikressource designet til at understøtte forskning inden for genomik og proteomik [4] .
I 2002 modtog PIR (Protein Information Resource) sammen med sine internationale partnere, EBI (European Bioinformatics Institute) og SIB (Swiss Bioinformatics Institute), et tilskud fra National Institutes of Health (NIH) til at skabe UniProt, en enkelt verdensomspændende database af sekvenser og funktioner proteiner. Sådan blev UniProt-konsortiet [5] født . UniProt-projektet startede i december 2003 [6] .
UniProt er finansieret af tilskud fra US National Institutes of Health (NIH), National Human Genome Research Institute (NHGRI), National Institute of General Medical Sciences (NIGMS), British Heart Foundation (BHF), den schweiziske føderale regering gennem Federal Office of Education and Science, National Science Foundation (NSF) [1] [7] .
En enkelt UniProt-database blev skabt ved at kombinere Swiss-Prot, TrEMBL og PIR-databaserne - PSD [8] [9] [10] .
Swiss-Prot-databasen blev oprettet i 1986 af Amos Bayrosh, mens han arbejdede på sit ph.d.-projekt og videreudviklet på Swiss Bioinformatics Institute (SIB), og senere færdiggjort af Rolf Upweiler ved European Bioinformatics Institute (EBI) [11] [12] [13] . Hovedfunktionen af Swiss-Prot-databasen er at sikre pålideligheden af proteinsekvensinformation gennem et højt, detaljeret niveau af manuel annotering. Den inkluderer en beskrivelse af proteinfunktionen, dens domænestruktur , post-translationelle modifikationer , forskellige sekvensvarianter osv., med et minimumsniveau af redundans og et højt niveau af integration med andre databaser [1] .
Nucleotide Sequence Data Library (TrEMBL) databasen blev udviklet i 1996 som en kommenteret computerapplikation til Swiss-Prot [8] [10] [11] . Beslutningen om at oprette TrEMBL blev truffet som reaktion på det øgede dataflow som følge af fremkomsten af genomiske projekter, og den tidskrævende og arbejdskrævende proces med manuel annotering i UniProtKB / Swiss-Prot oversteg Swiss-Prots evne til at inkludere alle tilgængelige proteinsekvenser [8] [10] . TrEMBL giver en automatiseret annoteringsevne til at oversætte eksisterende nukleotidsekvenser og konvertere dem til proteinsekvenser uden for Swiss-Prot [6] .
Hosted af National Biomedical Research Foundation (NBRF) ved Georgetown University Medical Center i Washington, DC, USA, er PIR arvingen til den ældste proteinsekvensdatabase, nemlig "Protein Sequence and Structure Atlas" skabt af Margaret Oakley Dejhoff, først offentliggjort i 1965 [14] . PIR vedligeholder adskillige proteindatabaser, nemlig Master Protein Sequence Database (PIR-PSD), Protein Structure and Function Related Database (iProClass) og andre proteinsekvens- og overvågede familiedatabaser [1] .
UniProt tilbyder fire hoveddatabaser:
UniProt Knowledge Base (UniProtKB) er en proteindatabase delvist kurateret af eksperter og består af to sektioner:
UniProtKB/Swiss-Prot er en manuelt annoteret, ikke-redundant proteinsekvensdatabase. Målet med UniProtKB/Swiss-Prot er at give al kendt nødvendig information om et bestemt protein [1] . Abstracts gennemgås regelmæssigt for at holde trit med aktuelle videnskabelige resultater. Krav til registreringsanmærkning omfatter en detaljeret analyse af proteinsekvensen og data fra den videnskabelige litteratur [17] . Proteinsekvenserne af det samme gen og den samme art kombineres i den samme databasepost. Forskelle mellem sekvenser er blevet identificeret og deres årsager dokumenteret og givet (f.eks. alternativ splejsning , naturlig variation, forkerte initieringssteder, forkerte exon- grænser, forkerte læserammer , liste over uidentificerede konflikter og andre). En række sekvensanalyseværktøjer bruges til at kommentere poster i UniProtKB/Swiss-Prot. Computerforudsigelserne analyseres manuelt, og passende resultater udvælges til medtagelse i databaseregistreringerne. Disse forudsigelser omfatter post-translationelle modifikationer, sekvens, struktur og topologi af transmembrane domæner, signalpeptider , domæneidentifikation og klassificering af proteinfamilier [17] [18] . Relevante publikationer identificeres ved at søge i databaser såsom PubMed . Den fulde tekst af hvert dokument læses, og oplysningerne føjes til posten.
Annoteringen indeholder som regel følgende information [6] :
Den kommenterede post skal bestå kvalitetskontrol, før den indgår i UniProtKB / Swiss-Prot. Når nye data vises, opdateres eksisterende poster [1] .
UniProtKB/TrEMBLUniProtKB / TrEMBL indeholder poster analyseret ved hjælp af computerteknologi, som er suppleret med automatisk annotering [1] .
Translation af annoterede kodende sekvenser i databaser af nukleotidsekvenser, såsom European Molecular Biology Laboratory (EMBL-Bank), GenBank , Japan DNA Database (DDBJ) udføres automatisk, hvorefter disse proteinsekvenser indtastes i UniProtKB/TrEMBL. UniProtKB/TrEMBL indeholder også sekvenser fra Protein Data Bank (PDB) og forudsagte gener, herunder dem fra Ensembl , et forskningssamarbejde, der involverer European Bioinformatics Institute og Wellcome Trust Sanger Institute, RefSeq og CCDS [19] .
UniProt Archive (UniParc) er en omfattende, ikke-reserveret database, der indeholder proteinsekvenser fra større offentlige proteinsekvensdatabaser [20] . Da det samme protein kan findes i flere forskellige kildedatabaser, såvel som at det er til stede i flere tilfælde i den samme database, gemmer UniParc hver unik sekvens kun én gang for at undgå redundans. Identiske sekvenser kombineres, uanset om de er proteiner, der repræsenterer den samme eller forskellige arter. Hver sekvens er tildelt en stabil og unik kode (URI), som gør det muligt at identificere det samme protein fra forskellige kildedatabaser [1] .
UniParc indeholder kun proteinsekvenser uden anmærkninger. Krydsreferencer i poster fra UniParc-databasen giver dig mulighed for at få yderligere information om proteinet fra databasen, som er den originale kilde. Hvis sekvenser ændres i kildedatabaserne, spores disse ændringer i UniParc, og historikken for alle ændringer gemmes i arkivet [1] .
Database | Datatype |
---|---|
Japansk DNA-database (DDBJ)
European Nucleotide Archive (ENA) DNA- og RNA-database (GenBank) |
Kodningssekvenser |
Fælles forskningsprojekt, der involverer European Bioinformatics Institute og Wellcome Trust Sanger Institute (Ensembl)
Vertebrate Genomic Annotation Database (VEGA) |
Forudsagte kodende sekvenser fra hvirveldyrs genomer |
Hovedlageret for genetiske og molekylære data for insekter af familien Drosophilidae (FlyBase) | Kodningssekvens for arter fra familien Drosophilidae |
Omfattende annotationskilde for menneskelige gener og transskriptioner (H-Inv) | Humane proteinsekvenser |
Internationalt proteinindeks (IPI) | Proteinsekvenser af højere eukaryoter |
Patentkontorer i Europa, USA og Japan (USPTO) | Kodningssekvenser forbundet med patenter fra patentkontorer |
Proteininformationsressourcer (PIR-PSD) | Kurerede proteinsekvenser |
Protein Data Bank (PDB) | Proteinsekvenser, hvis tredimensionelle strukturer er i FDB |
Protein Research Foundation (PRF) | Proteinsekvenser fra videnskabelige artikler og forudsigelser |
UniProt referenceklynger (RefSeq) | Kodende sekvenser fra NCBI -sættet af genomiske, transkriptionelle og proteinreferencesekvenser |
Gærgenomisk database (SGD) | Kodende sekvenser for Saccharomyces cerevisiae |
Informationsressourcebase for Arabidopsis thaliana (TAIR) | Kodende sekvenser for Arabidopsis thaliana |
TROME | Forudsagte aminosyresekvenser |
UniProtKB/Swiss-Prot | Håndlavede proteinsekvenser primært afledt af TrEMBL |
UniProtKB/TrEMBL | Automatisk kurerede proteinsekvenser afledt af kodende sekvenser i nukleotidsekvensdatabaser |
Database over genomiske og andre biologiske karakteristika for Caenorhabditis elegans (WormBase) | Kodningssekvenser for nematoden Caenorhabditis elegans |
UniProt Reference Clusters (UniRef) består af tre databaser (UniRef100, UniRef90 og UniRef50) dannet af klyngede sæt af proteinsekvenser fra UniProtKB og udvalgte UniParc records [21] .
UniRef100-databasen kombinerer identiske sekvenser og sekvensfragmenter (fra enhver organisme) til en enkelt UniRef-record [1] .
UniRef100-sekvenser blev grupperet ved hjælp af CD-HIT-algoritmen [21] [22] til at konstruere UniRef90 og UniRef50 [22] . Hver af de to sidste klynger består af sekvenser, der har henholdsvis mindst 90 % og mindst 50 % identitet, med den længste sekvens fundet. I øjeblikket overstiger UniRef-dækningen 4.000.000 kildesekvenser [23] .
Sekvensklynger reducerer databasestørrelsen markant: UniRef100, UniRef90 og UniRef50 resulterer i reduktioner i databasestørrelsen på henholdsvis ca. ~10 %, 40 % og 70 %. Reduktion af redundans øger hastigheden af lighedssøgning og forbedrer pålideligheden af søgningen efter fjernt beslægtede proteiner [1] .
UniRef-registreringer indeholder repræsentative proteinsekvensoplysninger, medlemsantal og generel taksonomi for klyngen, samt adgangsnumre for alle vedhæftede poster og links til annotationer i UniProtKB for at lette biologisk forskning [1] .
UniRef er tilgængelig fra UniREF FTP-stedet [24] .
UniProt KB indeholder poster med kendt kildetaksonomi. Ny udvikling har ført til opdagelsen af nye kilder til at søge efter proteinsekvenser. Fremkomsten af metagenomiske data krævede oprettelsen af en fundamentalt ny sektion i UniProt KB, nemlig en separat database - UniProt metagenomiske sekvenser og ukendte sekvenser fra miljøet, UniMES (The UniProt Metagenomic and Environmental Sequences database) [25] .
Metagenomics (metagenomics) er en storstilet genomisk analyse af mikrober isoleret fra prøver fra miljøet, i modsætning til laboratoriedyrkede organismer, som kun repræsenterer en lille del af den mikrobielle verden.
UniMES indeholder i øjeblikket data om proteinsekvenser af organismer fra havene leveret af Global Ocean Sampling-ekspeditionen (GOS) [25] , som oprindeligt blev indsendt til International Nucleotide Sequence Database (INSDC) [26] .
Det originale GOS-datasæt består af 25 millioner DNA-sekvenser, hovedsageligt fra oceaniske mikrober, og næsten 6 millioner forudsagte proteiner. UniMES kombinerer forudsagte proteinsekvenser med automatisk klassificering af Interpro, som er en integreret ressource for proteinfamilier, domæner og funktionelle steder. Derfor er UniMES en unik database, der giver fri adgang til rækken af genomisk information opnået fra prøvetagningsekspeditioner. Miljøprøvedataene i denne database er ikke tilgængelige i UniProt Knowledge Base eller UniProt Reference Clusters (UniRef), men er integreret i UniParc [27] .
UniMES er tilgængelig fra UniProt FTP-stedet i FASTA -format [28] .