SNOR

SNOR

Indhold
Beskrivelse	Bioinformatik ressource om kendte og forudsagte protein-protein-interaktioner
organismer	Alle
Kontaktpersoner
Laboratorium	CPR , EMBL , KU , SIB , TUD , UZH
Udgivelses dato	2000
Tilgængelighed
Internet side	SNOR
Andet
Version	10,5 (2017)

STRING (forkortet Search Tool for the Retrieval of Interacting Genes/Proteins ) er en database og webressource til at søge information om kendte og forudsagte protein-protein-interaktioner [1] [2] [3] [4] [5 ] [6] [7] [8] .

STRING opsummerer information fra forskellige kilder: eksperimentelle data, litteraturdata og de novo forudsigelser . Version 10 indeholder information om interaktionerne mellem 9.643.763 proteiner i 2031 arter af organismer, fra bakterier og arkæer til mennesker. Databasen opdateres løbende og er tilgængelig til gratis download [1] .

STRING er udviklet af et konsortium af europæiske universiteter CPR, EMBL , KU , SIB, TUD og UZH .

Datakilder

I STRING er grundenheden funktionel forhold , dvs. specifik og biologisk signifikant funktionel sammenhæng mellem to proteiner [3] .

For hvert funktionelt forhold beregner STRING en konfidensscore, der integrerer forskellige typer bevis for dette forhold (eksperimentelle data, litteraturdata og de novo forudsigelser baseret på ortologi til eksperimentelt undersøgte proteiner, såvel som baseret på en komparativ analyse af den genomiske kontekst [ 9] ). En sådan integreret tilgang har følgende fordele [6] :

Forskellige typer af beviser er kortlagt til ét stabilt sæt af proteiner, hvilket letter sammenlignende analyse.
Kendte og forudsagte interaktioner supplerer ofte delvist hinanden, hvilket fører til en udvidelse af netværket af interaktioner (på et givet tillidsniveau).
Tillidsscoren for et funktionelt forhold øges, når forholdet understøttes af mere end én type evidens.
Forudsigelse af interaktioner for et stort antal organismer letter evolutionær analyse.

Ved beregning af vurderingen af pålideligheden af en funktionel sammenhæng anses forskellige typer evidens for denne sammenhæng som uafhængige og scoren beregnes efter følgende formel [6] : hvor er bidraget fra én type evidens.
$S=1-\prod _{i}(1-S_{i}),$
${\displaystyle S_{i))$

STRING indeholder ikke information om mekanismen for protein-protein-interaktioner, samt om hvilket tidspunkt i cellecyklussen denne interaktion kan finde sted, hvordan den afhænger af ydre forhold og hvor vævsspecifik den er. I modsætning hertil indeholder STRING information om alle mulige protein-protein-interaktioner i en given organisme, inklusive information forudsagt med en vis sikkerhed, hvilket gør STRING til den mest omfattende ressource om protein-protein-interaktioner, der er tilgængelig i dag, og især nyttig til at finde information om proteiner, der ikke har blevet undersøgt eksperimentelt [4] .

Eksperimentelle data

STRING integrerer information om proteininteraktioner i strukturelle komplekser og metaboliske veje lånt fra BIND, BioCarta, BioCyc, BioGRID, DIP, SYGDOMME, GO , HPRD, IntAct, KEGG , MINT, NCI-Nature Pathway Interaction Database, PDB , TISSUES [, TISSUES [ , 1] [3] .

Litterære data

STRING udtrækker information om proteininteraktioner fra fuldtekstartikler fra PubMed , SGD, OMIM, FlyBase-databaserne og fra artikelresuméer fra MEDLINE - databasen . For at gøre dette søges teksterne automatisk efter statistisk signifikante fælles omtaler af gennavne og deres synonymer (data om synonymer er hentet fra Swiss-Prot) ved hjælp af naturlig sprogbehandling . For at øge nøjagtigheden er der udviklet et evalueringssystem, der tager hensyn til fælles omtale af gennavne i sætninger, afsnit og fulde tekster af artikler [2] .

De nye forudsigelser

STRING sigter mod at komplementere den funktionelle annotering af nyligt sekventerede genomer ved de novo forudsigelser af funktionelle forhold baseret på ortologi til eksperimentelt studerede proteiner, såvel som baseret på sammenlignende analyse af den genomiske kontekst [9] . STRING giver også sin egen vurdering af de eksperimentelt undersøgte funktionelle sammenhænge og supplerer information om dem.

Import af fuldt sekventerede genomer

Fra version 9 (2011) importerer STRING fuldt sekventerede genomer til analyse, tilgængelige i RefSeq- og Ensembl -databaserne såvel som på specialiserede steder [3] . Importerede genomer forhåndstjekkes manuelt for fuldstændighed og ikke-redundans. STRING gemmer ikke information om de forskellige isoformer af et protein, der er et resultat af alternativ splejsning eller post-translationel modifikation . Tværtimod tildeler STRING én proteinisoform (normalt den længste isoform) til ét locus [5] . En sådan filtrering er nødvendig for den normale drift af algoritmer til forudsigelse af protein-protein-interaktioner.

Forudsigelser af proteininteraktioner baseret på ortologi med eksperimentelt undersøgte proteiner

STRING betragter interaktioner af proteiner involveret i den samme KEGG metaboliske vej for at være en reference , da denne database er manuelt kureret og dækker en række organismer og funktionelle domæner. STRING overfører proteininteraktioner beskrevet i KEGG metaboliske veje til ortologe proteiner fra andre organismer og tildeler en vis vægt til hver forudsagt protein-protein interaktion, hvilket svarer til sandsynligheden for, at disse proteiner er i den samme KEGG metaboliske vej [6] og bidrager til den endelige vurdering af pålideligheden af disse funktionelle sammenhænge.

Før version 8 (2009) blev forudsigelser baseret på ortologi med proteiner beskrevet i KEGGs metaboliske veje lavet ved hjælp af klynger af proteinortologe grupper (COG'er) [10] , derefter begyndte hierarkiske proteinortologe grupper fra eggNOG-databasen [11] at blive brugt .

Fra version 9.1 (2013) er forudsigelser baseret på ortologi med proteiner beskrevet i KEGG metaboliske veje lavet under hensyntagen til organismers taksonomi , hvilket gør det muligt at undgå den fejlagtige overførsel af proteiners interaktion i én organisme til formodet ortolog. proteiner i en anden organisme i nærværelse af paraloger af disse proteiner i en anden organisme, som opstod som følge af duplikeringen af de tilsvarende gener i evolutionsprocessen . Den version af taksonomien, der vedligeholdes af NCBI, bruges. Overførslen af protein-protein-interaktioner mellem organismer på basis af ortologi udføres sekventielt fra det laveste til det højeste niveau af det taksonomiske hierarki [2] .

Forudsigelser baseret på en komparativ analyse af den genomiske kontekst

Gener, hvis proteinprodukter fungerer sammen i en metabolisk vej eller et strukturelt kompleks, er ofte under fælles regulering og underlagt et fælles naturligt selektionstryk . Sådanne gener har tendens til at co-lokalisere [12] og endda danne et fusionsgen [13] . Ofte er sådanne gener tæt på hinanden og er formentlig en enkelt transkriptionsenhed ( operon ). I operonerne af forskellige organismer er gensættet og deres rækkefølge ens, men ikke nødvendigvis identisk. STRING skelner mellem følgende typer genomisk kontekst [9] :

Fusionsgen, der koder for et fusionsprotein.
Konservativt miljø af genet (karakteristisk for nært beslægtede prokaryoter ).
Samt forekommende gener (karakteristisk for prokaryoter).
co- udtrykte gener .

Eukaryoter har ikke operonstrukturer, men nogle eukaryote proteiner er ortologe til prokaryote proteiner, så STRING overfører til eukaryote proteiner de funktionelle relationer forudsagt fra en sammenlignende analyse af den genomiske kontekst i prokaryoter [8] .

STRING søger efter konserverede genklynger, hvis evolutionære historier er mere ens, end man ville forvente tilfældigt. STRING starter med et enkelt frø-gen og finder i sin første iteration gener, der ofte forekommer med et givet gen i den samme genomiske kontekst i mange fylogenetisk fjerne organismer. Et perfekt match mellem forekomsten af gener er ikke påkrævet, selvom denne information er kvantificeret. Ved næste iteration bruges nye gener fundet ved den forrige iteration som frø. Iterationer fortsætter, indtil der ikke er fundet nye gener (konvergens). Der er således mange gener, der er indirekte relateret til primergenet. Det er kun tilladt at indgå gener i én genomisk kontekst, hvor afstanden ikke er mere end 300 basepar [8] . Fra version 8 kan gener placeret på forskellige DNA-strenge indgå i den samme genomiske kontekst. I sidstnævnte tilfælde tildeles det forudsagte funktionelle forhold en lavere vægt, hvilket bidrager mindre til den endelige vurdering af pålideligheden af dette forhold, sammenlignet med det funktionelle forhold forudsagt fra en genomisk kontekst bestående af gener placeret på kun én DNA-streng [4 ] . Den tildelte vægt normaliseres af antallet af organismer, hvor dette forhold forudsiges [7] , og stiger, når dette forhold forudsiges i fylogenetisk fjerne ornanismer [6] .

Ved samling af genets bevarede miljø, startende fra version 8, ignoreres korte delvist overlappende gener på den ikke-kodende DNA-streng, da de kan vise sig at være falske forudsigelser [4] .

Siden 2005 har STRING haft to tilgange til at forudsige protein-protein-interaktioner baseret på en sammenlignende analyse af den genomiske kontekst: Når du bliver bedt om det, kan brugeren vælge COGs-mode eller Proteins-mode. I COGs-tilstanden udføres søgningen efter konserverede genklynger med kravet om, at proteiner skal være ortologe, dvs. interaktioner forudsiges på alt-eller-intet-basis. I Proteins-mode udføres søgningen efter konservative genklynger ved den kvantitative lighed mellem proteinaminosyresekvenser, dvs. de forudsagte interaktioner kan udvides til paraloger, hvis de findes i organismen [6] . Tidligere, i STRING, blev den kvantitative lighed mellem proteinaminosyresekvenser bestemt ved anvendelse af Smith-Waterman-algoritmen . Fra version 9 (2011) bruges SIMAP -matricer [3] [14] til at kvantificere ligheden mellem proteinaminosyresekvenser .

Brugergrænseflade

For at forespørge i STRING-databasen skal du angive identifikatoren eller aminosyresekvensen for et eller flere proteiner og vælge en organisme. I tilfælde af en anmodning om aminosyresekvensen for et protein, udføres en BLAST -søgning mod alle proteiner i den valgte organisme (tærskel E-værdi = 10 −5 ) [8] , og brugeren bliver bedt om at vælge en af finder, for hvilke mulige interaktioner med andre proteiner vil blive vist (Proteins-mode ) eller COGs (COGs-mode) i en given organisme.

Eksperimentelt kendte og de novo forudsagte interaktioner af et givet protein med andre proteiner præsenteres som en graf, hvis toppunkter er proteiner, og kanterne er forskellige typer af beviser for funktionelle forhold mellem disse proteiner. De hjørner, der svarer til proteiner, for hvilke den krystallografiske struktur er dechifreret (eller forudsagt med en bestemt identitet), er vist større. Ved at klikke på toppen i pop op-vinduet er links til tredjepartsressourcer med information om dette protein tilgængelige, såsom RefSeq, KEGG , UniProt , SMART og SWISS-MODEL, samt en forhåndsvisning af domænearkitekturen og krystallografisk struktur (afkodet eller forudsagt med en specifik identitet) af dette protein. Det er muligt at gruppere netværket af interaktioner, tilføje andre proteiner til netværket af interaktioner, når tærsklen for pålideligheden af et funktionelt forhold sænkes (og omvendt, fjerne proteiner fra netværket af interaktioner, når tærsklen øges), indstille op acceptable typer af beviser for et funktionelt forhold (f.eks. kan du i netværket af interaktioner kun lade de proteiner til interaktioner, som der er eksperimentelle beviser for), samt gemme en liste over fundne protein-protein-interaktioner som en tekstfil og gemme et billede af netværket af interaktioner [3] .

Listen over mulige funktionelle sammenhænge for et givet protein indeholder beviser for hvert forhold og er rangeret efter niveauet af estimeret konfidens i hvert forhold [2] .

En fylogenetisk trævisning er tilgængelig , konstrueret ud fra forbundne sekvensjusteringer af et lille antal universelle proteinfamilier [5] [15] , med forskellige typer genomisk kontekst plottet på den. Links til artikler, der nævner et givet protein, er tilgængelige, herunder eksperimentelle artikler.

Integration med andre ressourcer

Der er et STRING - plugin til Cytoscape [16] . Fra og med version 10 (2015) er STRINGdb-softwarepakken tilgængelig til download fra Bioconductor og giver dig mulighed for at forespørge STRING-serveren fra R-programmeringssproget [1] .

Noter

↑ 1 2 3 4 D. Szklarczyk et al. STRING v10: protein-protein interaktionsnetværk, integreret over livets træ // Nukleinsyreforskning : journal. - 2015. - Bd. 43 . - P. D447-D452 . - doi : 10.1093/nar/gku1003 . — PMID 25352553 .
↑ 1 2 3 4 A. Franceschini et al. STRING v9.1: protein-protein interaktionsnetværk, med øget dækning og integration // Nukleinsyreforskning : journal. - 2013. - Bd. 41 . - P. D808-D815 . - doi : 10.1093/nar/gks1094 . — PMID 23203871 .
↑ 1 2 3 4 5 6 D. Szklarczyk et al. STRING-databasen i 2011: funktionelle interaktionsnetværk af proteiner, globalt integreret og scoret // Nukleinsyreforskning : journal. - 2011. - Bd. 39 . - P. D561-D568 . - doi : 10.1093/nar/gkq973 . — PMID 21045058 .
↑ 1 2 3 4 L. Jensen et al. STRING 8 - et globalt syn på proteiner og deres funktionelle interaktioner i 630 organismer // Nukleinsyreforskning : journal. - 2009. - Bd. 37 . - P. D412-D416 . - doi : 10.1093/nar/gkn760 . — PMID 18940858 .
↑ 1 2 3 C. Von Mering et al. STRING 7 – seneste udvikling inden for integration og forudsigelse af proteininteraktioner // Nukleinsyreforskning : journal. - 2007. - Bd. 35 . - P. D358-D362 . doi : 10.1093 / nar/gkl825 . — PMID 17098935 .
↑ 1 2 3 4 5 6 C. Von Mering et al. STRING: kendte og forudsagte protein-protein-associationer, integreret og overført på tværs af organismer // Nukleinsyreforskning : journal. - 2005. - Bd. 33 . - P. D433-D437 . - doi : 10.1093/nar/gki005 . — PMID 15608232 .
↑ 1 2 C. Von Mering et al. STRING: en database over forudsagte funktionelle sammenhænge mellem proteiner // Nukleinforskningssyrer : journal. - 2003. - Bd. 31 . - S. 258-261 . - doi : 10.1093/nar/gkg034 . — PMID 12519996 .
↑ 1 2 3 4 B. Snel et al. STRING: en webserver til at hente og vise det gentagne gange forekommende naboskab af et gen // Nukleinsyreforskning : journal. - 2000. - Vol. 28 . - S. 3442-3444 . doi : 10.1093 / nar/28.18.3442 . — PMID 10982861 .
↑ 1 2 3 M. Huynen et al. Forudsigelse af proteinfunktion ved genomisk kontekst: Kvantitativ evaluering og kvalitative slutninger // Genomforskning : journal. - 2000. - Vol. 10 . - S. 1204-1210 . - doi : 10.1101/gr.10.8.1204 . — PMID 10958638 .
↑ M. Galperin et al. Udvidet mikrobiel genomdækning og forbedret proteinfamilieannotering i COG- databasen // Nukleinsyreforskning : journal. - 2015. - Bd. 43 . - P. D261-D269 . - doi : 10.1093/nar/gku1223 . — PMID 25428365 .
↑ S. Powell et al. eggNOG v4.0: indlejret ortologisk konklusion på tværs af 3686 organismer // Nukleinsyreforskning : journal. - 2014. - Bd. 42 . - P. D231-D239 . - doi : 10.1093/nar/gkt1253 . — PMID 24297252 .
↑ M. Price et al. Operondannelse er drevet af samregulering og ikke af horisontal genoverførsel // Genomforskning : journal. - 2005. - Bd. 15 . - S. 809-819 . - doi : 10.1101/gr.3368805 . — PMID 15930492 .
↑ A. Enright et al. Proteininteraktionskort for komplette genomer baseret på genfusionsbegivenheder (engelsk) // Nature : journal. - 1999. - Bd. 402 . - S. 86-90 . - doi : 10.1038/47056 . — PMID 10573422 .
↑ T. Rattei et al. SIMAP - en omfattende database med forudberegnede proteinsekvensligheder, domæner, annoteringer og klynger // Nukleinsyreforskning : journal. - 2010. - Bd. 38 . - P. D223-D226 . doi : 10.1093 / nar/gkp949 . — PMID 19906725 .
↑ F. Ciccarelli et al. Mod automatisk rekonstruktion af et højt opløst livstræ (engelsk) // Science : journal. - 2006. - Bd. 311 . - S. 1283-1287 . - doi : 10.1126/science.1123061 . — PMID 16513982 .
↑ Cytoscape. STRING-app . Hentet 15. maj 2017. Arkiveret fra originalen 20. maj 2017. (ubestemt)