SNOR | |
---|---|
Indhold | |
Beskrivelse | Bioinformatik ressource om kendte og forudsagte protein-protein-interaktioner |
organismer | Alle |
Kontaktpersoner | |
Laboratorium | CPR , EMBL , KU , SIB , TUD , UZH |
Udgivelses dato | 2000 |
Tilgængelighed | |
Internet side | SNOR |
Andet | |
Version | 10,5 (2017) |
STRING (forkortet Search Tool for the Retrieval of Interacting Genes/Proteins ) er en database og webressource til at søge information om kendte og forudsagte protein-protein-interaktioner [1] [2] [3] [4] [5 ] [6] [7] [8] .
STRING opsummerer information fra forskellige kilder: eksperimentelle data, litteraturdata og de novo forudsigelser . Version 10 indeholder information om interaktionerne mellem 9.643.763 proteiner i 2031 arter af organismer, fra bakterier og arkæer til mennesker. Databasen opdateres løbende og er tilgængelig til gratis download [1] .
STRING er udviklet af et konsortium af europæiske universiteter CPR, EMBL , KU , SIB, TUD og UZH .
I STRING er grundenheden funktionel forhold , dvs. specifik og biologisk signifikant funktionel sammenhæng mellem to proteiner [3] .
For hvert funktionelt forhold beregner STRING en konfidensscore, der integrerer forskellige typer bevis for dette forhold (eksperimentelle data, litteraturdata og de novo forudsigelser baseret på ortologi til eksperimentelt undersøgte proteiner, såvel som baseret på en komparativ analyse af den genomiske kontekst [ 9] ). En sådan integreret tilgang har følgende fordele [6] :
Ved beregning af vurderingen af pålideligheden af en funktionel sammenhæng anses forskellige typer evidens for denne sammenhæng som uafhængige og scoren beregnes efter følgende formel [6] :
hvor er bidraget fra én type evidens.
STRING indeholder ikke information om mekanismen for protein-protein-interaktioner, samt om hvilket tidspunkt i cellecyklussen denne interaktion kan finde sted, hvordan den afhænger af ydre forhold og hvor vævsspecifik den er. I modsætning hertil indeholder STRING information om alle mulige protein-protein-interaktioner i en given organisme, inklusive information forudsagt med en vis sikkerhed, hvilket gør STRING til den mest omfattende ressource om protein-protein-interaktioner, der er tilgængelig i dag, og især nyttig til at finde information om proteiner, der ikke har blevet undersøgt eksperimentelt [4] .
STRING integrerer information om proteininteraktioner i strukturelle komplekser og metaboliske veje lånt fra BIND, BioCarta, BioCyc, BioGRID, DIP, SYGDOMME, GO , HPRD, IntAct, KEGG , MINT, NCI-Nature Pathway Interaction Database, PDB , TISSUES [, TISSUES [ , 1] [3] .
STRING udtrækker information om proteininteraktioner fra fuldtekstartikler fra PubMed , SGD, OMIM, FlyBase-databaserne og fra artikelresuméer fra MEDLINE - databasen . For at gøre dette søges teksterne automatisk efter statistisk signifikante fælles omtaler af gennavne og deres synonymer (data om synonymer er hentet fra Swiss-Prot) ved hjælp af naturlig sprogbehandling . For at øge nøjagtigheden er der udviklet et evalueringssystem, der tager hensyn til fælles omtale af gennavne i sætninger, afsnit og fulde tekster af artikler [2] .
STRING sigter mod at komplementere den funktionelle annotering af nyligt sekventerede genomer ved de novo forudsigelser af funktionelle forhold baseret på ortologi til eksperimentelt studerede proteiner, såvel som baseret på sammenlignende analyse af den genomiske kontekst [9] . STRING giver også sin egen vurdering af de eksperimentelt undersøgte funktionelle sammenhænge og supplerer information om dem.
Import af fuldt sekventerede genomer
Fra version 9 (2011) importerer STRING fuldt sekventerede genomer til analyse, tilgængelige i RefSeq- og Ensembl -databaserne såvel som på specialiserede steder [3] . Importerede genomer forhåndstjekkes manuelt for fuldstændighed og ikke-redundans. STRING gemmer ikke information om de forskellige isoformer af et protein, der er et resultat af alternativ splejsning eller post-translationel modifikation . Tværtimod tildeler STRING én proteinisoform (normalt den længste isoform) til ét locus [5] . En sådan filtrering er nødvendig for den normale drift af algoritmer til forudsigelse af protein-protein-interaktioner.
Forudsigelser af proteininteraktioner baseret på ortologi med eksperimentelt undersøgte proteiner
STRING betragter interaktioner af proteiner involveret i den samme KEGG metaboliske vej for at være en reference , da denne database er manuelt kureret og dækker en række organismer og funktionelle domæner. STRING overfører proteininteraktioner beskrevet i KEGG metaboliske veje til ortologe proteiner fra andre organismer og tildeler en vis vægt til hver forudsagt protein-protein interaktion, hvilket svarer til sandsynligheden for, at disse proteiner er i den samme KEGG metaboliske vej [6] og bidrager til den endelige vurdering af pålideligheden af disse funktionelle sammenhænge.
Før version 8 (2009) blev forudsigelser baseret på ortologi med proteiner beskrevet i KEGGs metaboliske veje lavet ved hjælp af klynger af proteinortologe grupper (COG'er) [10] , derefter begyndte hierarkiske proteinortologe grupper fra eggNOG-databasen [11] at blive brugt .
Fra version 9.1 (2013) er forudsigelser baseret på ortologi med proteiner beskrevet i KEGG metaboliske veje lavet under hensyntagen til organismers taksonomi , hvilket gør det muligt at undgå den fejlagtige overførsel af proteiners interaktion i én organisme til formodet ortolog. proteiner i en anden organisme i nærværelse af paraloger af disse proteiner i en anden organisme, som opstod som følge af duplikeringen af de tilsvarende gener i evolutionsprocessen . Den version af taksonomien, der vedligeholdes af NCBI, bruges. Overførslen af protein-protein-interaktioner mellem organismer på basis af ortologi udføres sekventielt fra det laveste til det højeste niveau af det taksonomiske hierarki [2] .
Forudsigelser baseret på en komparativ analyse af den genomiske kontekst
Gener, hvis proteinprodukter fungerer sammen i en metabolisk vej eller et strukturelt kompleks, er ofte under fælles regulering og underlagt et fælles naturligt selektionstryk . Sådanne gener har tendens til at co-lokalisere [12] og endda danne et fusionsgen [13] . Ofte er sådanne gener tæt på hinanden og er formentlig en enkelt transkriptionsenhed ( operon ). I operonerne af forskellige organismer er gensættet og deres rækkefølge ens, men ikke nødvendigvis identisk. STRING skelner mellem følgende typer genomisk kontekst [9] :
Eukaryoter har ikke operonstrukturer, men nogle eukaryote proteiner er ortologe til prokaryote proteiner, så STRING overfører til eukaryote proteiner de funktionelle relationer forudsagt fra en sammenlignende analyse af den genomiske kontekst i prokaryoter [8] .
STRING søger efter konserverede genklynger, hvis evolutionære historier er mere ens, end man ville forvente tilfældigt. STRING starter med et enkelt frø-gen og finder i sin første iteration gener, der ofte forekommer med et givet gen i den samme genomiske kontekst i mange fylogenetisk fjerne organismer. Et perfekt match mellem forekomsten af gener er ikke påkrævet, selvom denne information er kvantificeret. Ved næste iteration bruges nye gener fundet ved den forrige iteration som frø. Iterationer fortsætter, indtil der ikke er fundet nye gener (konvergens). Der er således mange gener, der er indirekte relateret til primergenet. Det er kun tilladt at indgå gener i én genomisk kontekst, hvor afstanden ikke er mere end 300 basepar [8] . Fra version 8 kan gener placeret på forskellige DNA-strenge indgå i den samme genomiske kontekst. I sidstnævnte tilfælde tildeles det forudsagte funktionelle forhold en lavere vægt, hvilket bidrager mindre til den endelige vurdering af pålideligheden af dette forhold, sammenlignet med det funktionelle forhold forudsagt fra en genomisk kontekst bestående af gener placeret på kun én DNA-streng [4 ] . Den tildelte vægt normaliseres af antallet af organismer, hvor dette forhold forudsiges [7] , og stiger, når dette forhold forudsiges i fylogenetisk fjerne ornanismer [6] .
Ved samling af genets bevarede miljø, startende fra version 8, ignoreres korte delvist overlappende gener på den ikke-kodende DNA-streng, da de kan vise sig at være falske forudsigelser [4] .
Siden 2005 har STRING haft to tilgange til at forudsige protein-protein-interaktioner baseret på en sammenlignende analyse af den genomiske kontekst: Når du bliver bedt om det, kan brugeren vælge COGs-mode eller Proteins-mode. I COGs-tilstanden udføres søgningen efter konserverede genklynger med kravet om, at proteiner skal være ortologe, dvs. interaktioner forudsiges på alt-eller-intet-basis. I Proteins-mode udføres søgningen efter konservative genklynger ved den kvantitative lighed mellem proteinaminosyresekvenser, dvs. de forudsagte interaktioner kan udvides til paraloger, hvis de findes i organismen [6] . Tidligere, i STRING, blev den kvantitative lighed mellem proteinaminosyresekvenser bestemt ved anvendelse af Smith-Waterman-algoritmen . Fra version 9 (2011) bruges SIMAP -matricer [3] [14] til at kvantificere ligheden mellem proteinaminosyresekvenser .
For at forespørge i STRING-databasen skal du angive identifikatoren eller aminosyresekvensen for et eller flere proteiner og vælge en organisme. I tilfælde af en anmodning om aminosyresekvensen for et protein, udføres en BLAST -søgning mod alle proteiner i den valgte organisme (tærskel E-værdi = 10 −5 ) [8] , og brugeren bliver bedt om at vælge en af finder, for hvilke mulige interaktioner med andre proteiner vil blive vist (Proteins-mode ) eller COGs (COGs-mode) i en given organisme.
Eksperimentelt kendte og de novo forudsagte interaktioner af et givet protein med andre proteiner præsenteres som en graf, hvis toppunkter er proteiner, og kanterne er forskellige typer af beviser for funktionelle forhold mellem disse proteiner. De hjørner, der svarer til proteiner, for hvilke den krystallografiske struktur er dechifreret (eller forudsagt med en bestemt identitet), er vist større. Ved at klikke på toppen i pop op-vinduet er links til tredjepartsressourcer med information om dette protein tilgængelige, såsom RefSeq, KEGG , UniProt , SMART og SWISS-MODEL, samt en forhåndsvisning af domænearkitekturen og krystallografisk struktur (afkodet eller forudsagt med en specifik identitet) af dette protein. Det er muligt at gruppere netværket af interaktioner, tilføje andre proteiner til netværket af interaktioner, når tærsklen for pålideligheden af et funktionelt forhold sænkes (og omvendt, fjerne proteiner fra netværket af interaktioner, når tærsklen øges), indstille op acceptable typer af beviser for et funktionelt forhold (f.eks. kan du i netværket af interaktioner kun lade de proteiner til interaktioner, som der er eksperimentelle beviser for), samt gemme en liste over fundne protein-protein-interaktioner som en tekstfil og gemme et billede af netværket af interaktioner [3] .
Listen over mulige funktionelle sammenhænge for et givet protein indeholder beviser for hvert forhold og er rangeret efter niveauet af estimeret konfidens i hvert forhold [2] .
En fylogenetisk trævisning er tilgængelig , konstrueret ud fra forbundne sekvensjusteringer af et lille antal universelle proteinfamilier [5] [15] , med forskellige typer genomisk kontekst plottet på den. Links til artikler, der nævner et givet protein, er tilgængelige, herunder eksperimentelle artikler.
Der er et STRING - plugin til Cytoscape [16] . Fra og med version 10 (2015) er STRINGdb-softwarepakken tilgængelig til download fra Bioconductor og giver dig mulighed for at forespørge STRING-serveren fra R-programmeringssproget [1] .