UniProt

UniProt
Indhold
Beskrivelse Proteinsekvensdatabase
Datatype Proteinanmærkning
organismer Alle
Kontaktpersoner
Forskningscenter EMBL-EBI , Storbritannien; SIB , Schweiz; PIR , USA.
Tilgængelighed
Dataformat FASTA , GFF , RDF , XML .
Internet side uniprot.org
uniprot.org/news/

UniProt  er en åben database med proteinsekvenser. UniProt-konsortiet har været aktivt siden 2003 . En enkelt UniProt-database blev oprettet ved at kombinere flere databaser . UniProt består af fire store databaser (Knowledge Base , Arkiv , Reference Clusters og metagenomiske data ) og dækker forskellige aspekter af proteinsekvensanalyse. Mange af sekvenserne er blevet kendt som et resultat af genomsekventeringsprojekter i de senere år. Derudover indeholder UniProt-databasen et væld af informationer om de biologiske funktioner af proteiner, der stammer fra den videnskabelige litteratur.

Uniprot Consortium

UniProt-konsortiet omfatter: European Bioinformatics Institute (EBI), Swiss Bioinformatics Institute (SIB) og Protein Information Resource (PIR) [1] .

Baseret i Hinxton, Storbritannien, er EBI vært for et stort antal bioinformatikdatabaser og -tjenester [2] .

SIB, der ligger i Genève, Schweiz, er et lager af ekspertproteinsystemanalyseservere (ExPASy-servere), hovedkilden til proteomikværktøjer og relaterede databaser [3] .

PIR er placeret på Georgetown University Medical Center i Washington, DC, USA og er en integreret bioinformatikressource designet til at understøtte forskning inden for genomik og proteomik [4] .

I 2002 modtog PIR (Protein Information Resource) sammen med sine internationale partnere, EBI (European Bioinformatics Institute) og SIB (Swiss Bioinformatics Institute), et tilskud fra National Institutes of Health (NIH) til at skabe UniProt, en enkelt verdensomspændende database af sekvenser og funktioner proteiner. Sådan blev UniProt-konsortiet [5] født . UniProt-projektet startede i december 2003 [6] .

UniProt er finansieret af tilskud fra US National Institutes of Health (NIH), National Human Genome Research Institute (NHGRI), National Institute of General Medical Sciences (NIGMS), British Heart Foundation (BHF), den schweiziske føderale regering gennem Federal Office of Education and Science, National Science Foundation (NSF) [1] [7] .

UniProt-databasens oprindelse

En enkelt UniProt-database blev skabt ved at kombinere Swiss-Prot, TrEMBL og PIR-databaserne - PSD [8] [9] [10] .

Swiss Prot

Swiss-Prot-databasen blev oprettet i 1986 af Amos Bayrosh, mens han arbejdede på sit ph.d.-projekt og videreudviklet på Swiss Bioinformatics Institute (SIB), og senere færdiggjort af Rolf Upweiler ved European Bioinformatics Institute (EBI) [11] [12] [13] . Hovedfunktionen af ​​Swiss-Prot-databasen er at sikre pålideligheden af ​​proteinsekvensinformation gennem et højt, detaljeret niveau af manuel annotering. Den inkluderer en beskrivelse af proteinfunktionen, dens domænestruktur , post-translationelle modifikationer , forskellige sekvensvarianter osv., med et minimumsniveau af redundans og et højt niveau af integration med andre databaser [1] .

TreMBL

Nucleotide Sequence Data Library (TrEMBL) databasen blev udviklet i 1996 som en kommenteret computerapplikation til Swiss-Prot [8] [10] [11] . Beslutningen om at oprette TrEMBL blev truffet som reaktion på det øgede dataflow som følge af fremkomsten af ​​genomiske projekter, og den tidskrævende og arbejdskrævende proces med manuel annotering i UniProtKB / Swiss-Prot oversteg Swiss-Prots evne til at inkludere alle tilgængelige proteinsekvenser [8] [10] . TrEMBL giver en automatiseret annoteringsevne til at oversætte eksisterende nukleotidsekvenser og konvertere dem til proteinsekvenser uden for Swiss-Prot [6] .

PIR-PSD

Hosted af National Biomedical Research Foundation (NBRF) ved Georgetown University Medical Center i Washington, DC, USA, er PIR arvingen til den ældste proteinsekvensdatabase, nemlig "Protein Sequence and Structure Atlas" skabt af Margaret Oakley Dejhoff, først offentliggjort i 1965 [14] . PIR vedligeholder adskillige proteindatabaser, nemlig Master Protein Sequence Database (PIR-PSD), Protein Structure and Function Related Database (iProClass) og andre proteinsekvens- og overvågede familiedatabaser [1] .

Organisering af UniProt-databaser

UniProt tilbyder fire hoveddatabaser:

  1. UniProtKB (Swiss-Prot og TrEMBL),
  2. UniParc,
  3. Uniref,
  4. UniMes.

UniProt KnowledgeBase (UniProtKB)

UniProt Knowledge Base (UniProtKB) er en proteindatabase delvist kurateret af eksperter og består af to sektioner:

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot er en manuelt annoteret, ikke-redundant proteinsekvensdatabase. Målet med UniProtKB/Swiss-Prot er at give al kendt nødvendig information om et bestemt protein [1] . Abstracts gennemgås regelmæssigt for at holde trit med aktuelle videnskabelige resultater. Krav til registreringsanmærkning omfatter en detaljeret analyse af proteinsekvensen og data fra den videnskabelige litteratur [17] . Proteinsekvenserne af det samme gen og den samme art kombineres i den samme databasepost. Forskelle mellem sekvenser er blevet identificeret og deres årsager dokumenteret og givet (f.eks. alternativ splejsning , naturlig variation, forkerte initieringssteder, forkerte exon- grænser, forkerte læserammer , liste over uidentificerede konflikter og andre). En række sekvensanalyseværktøjer bruges til at kommentere poster i UniProtKB/Swiss-Prot. Computerforudsigelserne analyseres manuelt, og passende resultater udvælges til medtagelse i databaseregistreringerne. Disse forudsigelser omfatter post-translationelle modifikationer, sekvens, struktur og topologi af transmembrane domæner, signalpeptider , domæneidentifikation og klassificering af proteinfamilier [17] [18] . Relevante publikationer identificeres ved at søge i databaser såsom PubMed . Den fulde tekst af hvert dokument læses, og oplysningerne føjes til posten.

Annoteringen indeholder som regel følgende information [6] :

Den kommenterede post skal bestå kvalitetskontrol, før den indgår i UniProtKB / Swiss-Prot. Når nye data vises, opdateres eksisterende poster [1] .

UniProtKB/TrEMBL

UniProtKB / TrEMBL indeholder poster analyseret ved hjælp af computerteknologi, som er suppleret med automatisk annotering [1] .

Translation af annoterede kodende sekvenser i databaser af nukleotidsekvenser, såsom European Molecular Biology Laboratory (EMBL-Bank), GenBank , Japan DNA Database (DDBJ) udføres automatisk, hvorefter disse proteinsekvenser indtastes i UniProtKB/TrEMBL. UniProtKB/TrEMBL indeholder også sekvenser fra Protein Data Bank (PDB) og forudsagte gener, herunder dem fra Ensembl  , et forskningssamarbejde, der involverer European Bioinformatics Institute og Wellcome Trust Sanger Institute, RefSeq og CCDS [19] .

UniProt Archive (UniParc)

UniProt Archive (UniParc) er en omfattende, ikke-reserveret database, der indeholder proteinsekvenser fra større offentlige proteinsekvensdatabaser [20] . Da det samme protein kan findes i flere forskellige kildedatabaser, såvel som at det er til stede i flere tilfælde i den samme database, gemmer UniParc hver unik sekvens kun én gang for at undgå redundans. Identiske sekvenser kombineres, uanset om de er proteiner, der repræsenterer den samme eller forskellige arter. Hver sekvens er tildelt en stabil og unik kode (URI), som gør det muligt at identificere det samme protein fra forskellige kildedatabaser [1] .

UniParc indeholder kun proteinsekvenser uden anmærkninger. Krydsreferencer i poster fra UniParc-databasen giver dig mulighed for at få yderligere information om proteinet fra databasen, som er den originale kilde. Hvis sekvenser ændres i kildedatabaserne, spores disse ændringer i UniParc, og historikken for alle ændringer gemmes i arkivet [1] .

Datakilder til UniParc [1]
Database Datatype
Japansk DNA-database (DDBJ)

European Nucleotide Archive (ENA)

DNA- og RNA-database (GenBank)

Kodningssekvenser
Fælles forskningsprojekt, der involverer European Bioinformatics Institute og Wellcome Trust Sanger Institute (Ensembl)

Vertebrate Genomic Annotation Database (VEGA)

Forudsagte kodende sekvenser fra hvirveldyrs genomer
Hovedlageret for genetiske og molekylære data for insekter af familien Drosophilidae (FlyBase) Kodningssekvens for arter fra familien Drosophilidae
Omfattende annotationskilde for menneskelige gener og transskriptioner (H-Inv) Humane proteinsekvenser
Internationalt proteinindeks (IPI) Proteinsekvenser af højere eukaryoter
Patentkontorer i Europa, USA og Japan (USPTO) Kodningssekvenser forbundet med patenter fra patentkontorer
Proteininformationsressourcer (PIR-PSD) Kurerede proteinsekvenser
Protein Data Bank (PDB) Proteinsekvenser, hvis tredimensionelle strukturer er i FDB
Protein Research Foundation (PRF) Proteinsekvenser fra videnskabelige artikler og forudsigelser
UniProt referenceklynger (RefSeq) Kodende sekvenser fra NCBI -sættet af genomiske, transkriptionelle og proteinreferencesekvenser
Gærgenomisk database (SGD) Kodende sekvenser for Saccharomyces cerevisiae
Informationsressourcebase for Arabidopsis thaliana (TAIR) Kodende sekvenser for Arabidopsis thaliana
TROME Forudsagte aminosyresekvenser
UniProtKB/Swiss-Prot Håndlavede proteinsekvenser primært afledt af TrEMBL
UniProtKB/TrEMBL Automatisk kurerede proteinsekvenser afledt af kodende sekvenser i nukleotidsekvensdatabaser
Database over genomiske og andre biologiske karakteristika for Caenorhabditis elegans (WormBase) Kodningssekvenser for nematoden Caenorhabditis elegans

Referenceklynger UniProt (UniRef)

UniProt Reference Clusters (UniRef) består af tre databaser (UniRef100, UniRef90 og UniRef50) dannet af klyngede sæt af proteinsekvenser fra UniProtKB og udvalgte UniParc records [21] .

UniRef100-databasen kombinerer identiske sekvenser og sekvensfragmenter (fra enhver organisme) til en enkelt UniRef-record [1] .

UniRef100-sekvenser blev grupperet ved hjælp af CD-HIT-algoritmen [21] [22] til at konstruere UniRef90 og UniRef50 [22] . Hver af de to sidste klynger består af sekvenser, der har henholdsvis mindst 90 % og mindst 50 % identitet, med den længste sekvens fundet. I øjeblikket overstiger UniRef-dækningen 4.000.000 kildesekvenser [23] .

Sekvensklynger reducerer databasestørrelsen markant: UniRef100, UniRef90 og UniRef50 resulterer i reduktioner i databasestørrelsen på henholdsvis ca. ~10 %, 40 % og 70 %. Reduktion af redundans øger hastigheden af ​​lighedssøgning og forbedrer pålideligheden af ​​søgningen efter fjernt beslægtede proteiner [1] .

UniRef-registreringer indeholder repræsentative proteinsekvensoplysninger, medlemsantal og generel taksonomi for klyngen, samt adgangsnumre for alle vedhæftede poster og links til annotationer i UniProtKB for at lette biologisk forskning [1] .

UniRef er tilgængelig fra UniREF FTP-stedet [24] .

UniMrot (UniMes)

UniProt KB indeholder poster med kendt kildetaksonomi. Ny udvikling har ført til opdagelsen af ​​nye kilder til at søge efter proteinsekvenser. Fremkomsten af ​​metagenomiske data krævede oprettelsen af ​​en fundamentalt ny sektion i UniProt KB, nemlig en separat database - UniProt metagenomiske sekvenser og ukendte sekvenser fra miljøet, UniMES (The UniProt Metagenomic and Environmental Sequences database) [25] .

Metagenomics (metagenomics) er en storstilet genomisk analyse af mikrober isoleret fra prøver fra miljøet, i modsætning til laboratoriedyrkede organismer, som kun repræsenterer en lille del af den mikrobielle verden.

UniMES indeholder i øjeblikket data om proteinsekvenser af organismer fra havene leveret af Global Ocean Sampling-ekspeditionen (GOS) [25] , som oprindeligt blev indsendt til International Nucleotide Sequence Database (INSDC) [26] .

Det originale GOS-datasæt består af 25 millioner DNA-sekvenser, hovedsageligt fra oceaniske mikrober, og næsten 6 millioner forudsagte proteiner. UniMES kombinerer forudsagte proteinsekvenser med automatisk klassificering af Interpro, som er en integreret ressource for proteinfamilier, domæner og funktionelle steder. Derfor er UniMES en unik database, der giver fri adgang til rækken af ​​genomisk information opnået fra prøvetagningsekspeditioner. Miljøprøvedataene i denne database er ikke tilgængelige i UniProt Knowledge Base eller UniProt Reference Clusters (UniRef), men er integreret i UniParc [27] .

UniMES er tilgængelig fra UniProt FTP-stedet i FASTA -format [28] .

Noter

  1. 1 2 3 4 5 6 7 8 9 10 11 12 13 Om  UniProt . http://www.uniprot.org/help/about.+ Hentet 31. marts 2017. Arkiveret fra originalen 30. april 2017.
  2. Om  EBI . https://www.ebi.ac.uk/about/travel.+ Hentet 24. april 2017. Arkiveret fra originalen 1. maj 2017.
  3. Om SIB  . http://www.sib.swiss/about-us.+ Hentet 24. april 2017. Arkiveret fra originalen 25. april 2017.
  4. Om PIR  . http://pir.georgetown.edu/pirwww/about/.+ Hentet 24. april 2017. Arkiveret fra originalen 22. marts 2017.
  5. Finansiering til den globale proteindatabase vil skabe én pålidelig ressource ( http://www.genome.gov/page.cfm?pageID=10005283 Arkiveret 24. september 2015 på Wayback Machine )
  6. 1 2 3 Apweiler R. , Bairoch A. , Wu CH Proteinsekvensdatabaser.  (engelsk)  // Aktuel mening i kemisk biologi. - 2004. - Bd. 8, nr. 1 . - S. 76-80. - doi : 10.1016/j.cbpa.2003.12.004 . — PMID 15036160 .
  7. 1 2 Den universelle proteinressource (UniProt) i 2010.  (engelsk)  // Nukleinsyreforskning. - 2010. - Bd. 38.—P. D142–148. - doi : 10.1093/nar/gkp846 . — PMID 19843607 .
  8. 1 2 3 O'Donovan C. , Martin MJ , Gattiker A. , Gasteiger E. , Bairoch A. , Apweiler R. Proteinvidensressource af høj kvalitet: SWISS-PROT og TreMBL.  (engelsk)  // Briefings i bioinformatik. - 2002. - Bd. 3, nr. 3 . - S. 275-284. — PMID 12230036 .
  9. Wu CH , Yeh LS , Huang H. , Arminski L. , Castro-Alvear J. , Chen Y. , Hu Z. , Kourtesis P. , Ledley RS , Suzek BE , Vinayaka CR , Zhang J. , Barker WC The Protein informationsressource.  (engelsk)  // Nukleinsyreforskning. - 2003. - Bd. 31, nr. 1 . - S. 345-347. — PMID 12520019 .
  10. 1 2 3 Boeckmann B. , Bairoch A. , Apweiler R. , Blatter MC , Estreicher A. , ​​Gasteiger E. , Martin MJ , Michoud K. , O'Donovan C. , Phan I. , Pilbout S. , Schneider M. Den SWISS-PROT protein videnbase og dets supplement TreMBL i 2003.  //  Nukleinsyreforskning. - 2003. - Bd. 31, nr. 1 . - S. 365-370. — PMID 12520024 .
  11. 1 2 Bairoch A. , Apweiler R. SWISS-PROT proteinsekvensdatabanken og dets nye supplement TREMBL.  (engelsk)  // Nukleinsyreforskning. - 1996. - Bd. 24, nr. 1 . - S. 21-25. — PMID 8594581 .
  12. Bairoch A. Serendipity i bioinformatik, en schweizisk bioinformatikers trængsler gennem spændende tider!  (engelsk)  // Bioinformatik. - 2000. - Vol. 16, nr. 1 . - S. 48-64. — PMID 10812477 .
  13. Séverine Altairac,  Naissance d'une banque de données: Interview med prof. Amos Bairoch Arkiveret 12. juli 2010 på Wayback Machine . Protéines à la Une Arkiveret 21. juni 2011 på Wayback Machine , august 2006. ISSN 1660-9824.
  14. Dayhoff, Margaret O. Atlas over proteinsekvens og struktur  . - Silver Spring, Md: National Biomedical Research Foundation, 1965.
  15. UniProtKB/SwissProt-udgivelsesstatistikker ( http://www.expasy.org/sprot/relnotes/relstat.html Arkiveret 29. maj 2010 på Wayback Machine )
  16. UniProtKB/TrEMBL udgivelsesstatistik ( http://www.ebi.ac.uk/uniprot/TrEMBLstats/ Arkiveret 1. oktober 2015 på Wayback Machine )
  17. 1 2 Hvordan annoterer vi manuelt en UniProtKB-post ( http://www.uniprot.org/faq/45 Arkiveret 13. december 2013 på Wayback Machine )
  18. Apweiler R. , Bairoch A. , Wu CH , Barker WC , Boeckmann B. , Ferro S. , Gasteiger E. , Huang H. , Lopez R. , Magrane M. , Martin MJ , Natale DA , O'Donovan C. , Redaschi N. , Yeh LS UniProt: videnbasen om universel protein.  (engelsk)  // Nukleinsyreforskning. - 2004. - Bd. 32.—P. D115–119. - doi : 10.1093/nar/gkh131 . — PMID 14681372 .
  19. Hvor kommer UniProtKB-sekvenser  fra . http://www.uniprot.org/faq/37.+ Hentet 16. april 2014. Arkiveret fra originalen 15. december 2013.
  20. Leinonen R. , Diez FG , Binns D. , Fleischmann W. , Lopez R. , Apweiler R. UniProt-arkiv.  (engelsk)  // Bioinformatik. - 2004. - Bd. 20, nr. 17 . - s. 3236-3237. - doi : 10.1093/bioinformatics/bth191 . — PMID 15044231 .
  21. 1 2 Suzek BE , Huang H. , McGarvey P. , Mazumder R. , Wu CH UniRef: omfattende og ikke-redundante UniProt-referenceklynger.  (engelsk)  // Bioinformatik. - 2007. - Bd. 23, nr. 10 . - S. 1282-1288. - doi : 10.1093/bioinformatik/btm098 . — PMID 17379688 .
  22. 1 2 Li W. , Jaroszewski L. , Godzik A. Klynger af meget homologe sekvenser for at reducere størrelsen af ​​store proteindatabaser.  (engelsk)  // Bioinformatik. - 2001. - Bd. 17, nr. 3 . - S. 282-283. — PMID 11294794 .
  23. Om UniRef=http://www.uniprot.org/uniref/ .  (utilgængeligt link)
  24. UniREF FTP-sted ( ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/ )
  25. 12 Yooseph S. , Sutton G. , Rusch DB , Halpern AL , Williamson SJ , Remington K. , Eisen JA , Heidelberg KB , Manning G. , Li W. , Jaroszewski L. , Cieplak P. , Miller CS , Li H. , Mashiyama ST , Joachimiak MP , van Belle C. , Chandonia JM , Soergel DA , Zhai Y. , Natarajan K. , Lee S. , Raphael BJ , Bafna V. , Friedman R. , Brenner SE , Godzik A. , Eisenberg D. , Dixon JE , Taylor SS , Strausberg RL , Frazier M. , Venter JC The Sorcerer II Global Ocean Sampling-ekspedition: udvidelse af universet af proteinfamilier.  (engelsk)  // Public Library of Science Biology. - 2007. - Bd. 5, nr. 3 . — P. e16. - doi : 10.1371/journal.pbio.0050016 . — PMID 17355171 .
  26. Brunak S. , Danchin A. , Hattori M. , Nakamura H. , Shinozaki K. , Matise T. , Preuss D. Nukleotidsekvensdatabasepolitikker.  (engelsk)  // Science (New York, NY). - 2002. - Bd. 298, nr. 5597 . - S. 1333. - PMID 12436968 .
  27. Den universelle proteinressource (UniProt).  (engelsk)  // Nukleinsyreforskning. - 2008. - Bd. 36.—P. D190–195. - doi : 10.1093/nar/gkm895 . — PMID 18045787 .
  28. Uniprot FTP-sted UniMES ( ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/unimes/  (downlink) )

Links