"Gene Ontology" ( Eng. Gene Ontology , eller GO ) er et bioinformatikprojekt dedikeret til skabelsen af en samlet terminologi til annotering af gener og genprodukter fra alle biologiske arter [1] .
Målet med projektet er at vedligeholde og udfylde en vis liste over attributter for gener og deres produkter, kompilere annoteringer af gener og produkter, udvikle værktøjer til at arbejde med projektdatabasen , samt til at analysere nye eksperimentelle data, især analysere repræsentationen af funktionelle grupper af gener . Det er værd at bemærke, at GO-projektet skabte et markup-sprog til klassificering af data (information om gener og deres produkter, det vil sige RNA og proteiner, samt deres funktioner), som giver dig mulighed for hurtigt at finde systematisk information om genprodukter [2 ] [3] [4] .
"Gene Ontology" er en del af et større klassifikationsprojekt - "Open Biomedical Ontologies" ( OBO ) [5] .
Ontologier i datalogi bruges til at formalisere visse vidensområder ved hjælp af et system af data om objekter fra den virkelige verden og relationer mellem dem (den såkaldte vidensbase ). I biologi og beslægtede discipliner er problemet med manglen på en universel standard for terminologi opstået. Udtryk , der udtrykker lignende begreber , men bruges til forskellige biologiske arter , forskellige forskningsområder eller endda inden for forskellige grupper af videnskabsmænd, kan have fundamentalt forskellige betydninger, hvilket gør dataudveksling vanskelig. I denne henseende var opgaven for Gene Ontology-projektet at skabe en ontologi af termer, der afspejler egenskaberne af gener og deres produkter og er anvendelige på alle organismer [2] [3] [4] .
"Gene Ontology" blev skabt i 1998 af et konsortium af videnskabsmænd, som studerede genomerne af tre modelorganismer : Drosophila melanogaster (frugtflue), Mus musculus (mus) og Saccharomyces cerevisiae (bagegær) [6] . Siden da har mange databaser for andre modelorganismer tilsluttet sig GO-konsortiet, og har derved ikke kun bidraget til udvidelsen af annotationsdatabasen, men også til oprettelsen af tjenester til visning og anvendelse af data.
GO Consortium ( GOC ) er et sæt biologiske databaser og forskningsgrupper, der er aktivt involveret i Gene Ontology-projektet [7] . Det omfatter adskillige databaser for forskellige modelorganismer, generelle proteindatabaser, softwareudviklingsteams og Gene Ontology-redaktører.
Gene Ontology er et storstilet og hurtigt udviklende projekt. Fra september 2011 indeholdt Gene Ontology mere end 33 tusinde termer og omkring 12 millioner annoteringer af genprodukter gældende for mere end 360 tusinde levende organismer [2] . Efter 2016 oversteg antallet af termer 44 tusinde kopier, mens antallet af organismer annoteret i denne videnbase oversteg 460 tusinde individer [3]
I løbet af de sidste par år har GO-konsortiet implementeret en række ontologiændringer for at øge kvantiteten, kvaliteten og specificiteten af GO-annoteringer. I 2013 oversteg antallet af annoteringer 96 millioner. Kvaliteten af annoteringer er blevet forbedret gennem automatiske kvalitetstjek. Annoteringen af data præsenteret i GO-databasen er også blevet forbedret, nye termer er tilføjet. [4] . I 2007 blev en ny tjeneste InterMine [8] oprettet , som har til formål at integrere genomiske data fra en lang række forskellige kilder og lette beregningsopgaver såsom at søge efter specifikke genomiske regioner og udføre statistiske tests. Projektet blev oprindeligt skabt for at integrere data for Drosophila, men omfatter nu en lang række modelorganismer. I de senere år har udviklingen af LEGO-tjenesten (Linked Expressions using the Gene Ontology) været i gang, som giver dig mulighed for at udforske interaktionen mellem forskellige annoteringer i GO-databasen og kombinere dem til mere generelle modeller af gener og deres funktioner [3 ] .
Det skal forstås, at "genontologi" beskriver komplekse biologiske fænomener og ikke specifikke biologiske objekter. Gene Ontology-databasen omfatter tre uafhængige ordbøger [1] [9] :
Hvert udtryk i "Gene Ontology" har en række attributter: en unik digital identifikator, et navn, en ordbog, som udtrykket tilhører, og en definition. Begreber kan have synonymer, som er opdelt i nøjagtigt svarende til begrebets betydning, bredere, snævrere og have en vis relation til begrebet. Attributter såsom links til kilder, andre databaser og kommentarer til betydningen og brugen af udtrykket [1] [9] kan også være til stede .
Ontologien er bygget på princippet om en rettet acyklisk graf : hvert led er forbundet med et eller flere andre led gennem en anden type relation . Der er følgende typer relationer [1] :
Et eksempel på et af GO-projektets termer [10] :
id: GO:0043417 navn: negativ regulering af skeletmuskelvævsregenerering navneområde: biologisk_proces def: "Enhver proces, der stopper, forhindrer eller reducerer hyppigheden, hastigheden eller omfanget af gendannelse af skeletmuskler." [GOC:jl] synonym: "nedregulering af skeletmuskelregenerering" PRÆCIS [] synonym: "nedregulering af skeletmuskelregenerering" PRÆCIS [] synonym: "nedregulering af skeletmuskelregenerering" PRÆCIS [] synonym: "hæmning af skeletmuskulaturgenerering" SMAL [] is_a:GO:0043416! regulering af skeletmuskelvævsregenerering is_a: GO:0048640 ! negativ regulering af udviklingsvækst forhold: negative_regulates GO:0043403! regenerering af skeletmuskelvævGene Ontology-databasen bliver løbende ændret og suppleret af både GO-projektets kuratorer og andre forskere. Foreslåede brugerændringer gennemgås af projektredaktører og anvendes, hvis ændringerne godkendes [9] .
Filen, der indeholder hele databasen [10] kan fås i forskellige formater fra det officielle Gene Ontology-websted, og vilkårene er også tilgængelige online ved hjælp af AmiGO Gene Ontology-browseren. Derudover kan det bruges til at udtrække et dataarray af genprodukter relateret til et bestemt udtryk. Også på webstedet kan du downloade kort over korrespondancen af GO-udtryk til andre klassifikationssystemer [11] .
Genom annotering er rettet mod at indhente information om egenskaberne af genprodukter. GO-annoteringer bruger udtrykkene "Gene Ontology" til dette. Medlemmer af GO-konsortiet poster deres annoteringer på Gene Ontology-webstedet, hvor annoteringerne er tilgængelige til direkte download eller til visning i AmiGO-browseren [12] .
Genannotationen indeholder følgende data: navn og identifikator for genproduktet; det tilsvarende GO-udtryk; typen af data annoteringen er baseret på ( beviskode ); link til kilden; og skaberen og datoen, hvor annoteringen blev oprettet. For datatyper, der angiver gyldigheden af en annotation ( evidenskode ), er der en særlig ontologi relateret til OBO -projektet [13] . Det inkluderer forskellige annoteringsmetoder, både manuelle og automatiske. For eksempel [1] :
Fra september 2012 blev mere end 99% af alle Gene Ontology-annotationer opnået automatisk [4] . Da sådanne annoteringer ikke bekræftes manuelt, betragtes de som mindre pålidelige af GO-konsortiet, og kun en brøkdel af dem er tilgængelige i AmiGO-browseren. Den fulde database med annoteringer kan downloades fra Gene Ontology-webstedet.
AmiGO [9] er en webapplikation (GO-tjeneste), der giver brugerne mulighed for at forespørge, finde og visualisere GO-termer og genproduktannotationer. Derudover indeholder applikationen BLAST -værktøjet (tilgængeligt i AmiGO 1, blev fjernet i AmiGO 2), tjenester, der giver dig mulighed for at analysere store datasæt og en grænseflade til søgning direkte i GO-databasen [14] . AmiGO kan bruges online på Gene Ontology-webstedet for at få adgang til data leveret af GO-konsortiet, eller det kan downloades og installeres til lokal applikation til enhver GO-lignende database. AmiGO 2 er open source og gratis software .
Visualisering giver brugeren mulighed for at bygge en graf, der karakteriserer genontologien for et specifikt GO-udtryk. Der er to inputformater [15] :
JSON input eksempel:
{"GO:0002244":{"title": "foo", "body": "bar", "fill": "#ccccf", "font": "#0000ff", "border":"rød"}, "GO:0005575":{"title":"alene", "legeme":""}, "GO:0033060":{}}Kodning af et forhold til farve:
Holdning | Farve |
---|---|
er en | blå |
del af | lyseblå |
udvikler_fra | Brun |
regulerer | sort |
negativ_regulerer | rød |
positivt_regulerer | grøn |
Termvisualisering består i at bygge en graf fra en knude, der repræsenterer det oprindelige GO-udtryk, til en rodknude, som er repræsenteret ved navnet på et af de tre hovedordforråd: biologiske processer , molekylære funktioner og cellulære komponenter [1] [9] .
DataoversigtUdover muligheden for at lave grafer, der viser et terms GO-genontologi, implementerer AmiGO også flere værktøjer, der kan give brugeren en idé om projektets GO-data. Blandt dem [14] :
GOOSE [16] er et online SQL - forespørgselsmiljø tilgængeligt for brugere af AmiGO-tjenesten til oprettelse af datasæt. Denne service bruger SQL-syntaks til at lave forskellige forespørgsler til GO-databasen. EBI (UK, Cambridge), Berkeley BOP og Berkeley BOP (lite) spejle (begge placeret i Berkeley, Californien) er også tilgængelige for at reducere systembelastningen.
Udover at skrive en forespørgsel direkte manuelt, er det muligt at bruge skabeloner til delvist at forenkle denne opgave. En typisk databaseforespørgsel er vist nedenfor (søg efter den maksimale trædybde for en cellulær komponent) [16] :
VÆLG afstand som maks. fra graph_path, term HVOR graph_path.term2_id =term.id og term.term_type = 'cellular_component' BESTIL EFTER afstand besk grænse1;Databasen i GO har en kompleks struktur og består af mange tabeller. Hoveddatabaser [16] :
Følgende dataeksportformater er mulige som et resultat af en forespørgsel [16] :
PANTHER ( P rotein Analysis TH rough Evolutionary R elationships ) er en enorm database over gen/protein-familier og underfamilier, der funktionelt ligner dem, som kan bruges til at klassificere det funktionelle spektrum af genprodukter [ 17] . PANTHER er en del af GO-projektet, hvis hovedmål er klassificering af proteiner og deres gener.
I PANTHER redigeres databasen ikke kun af projektpersonalet, men også af klassifikationsalgoritmerne. Proteiner klassificeres efter deres familie (og underfamilie), molekylære funktion eller biologiske proces [17] .
Hovedanvendelsen af PANTHER er at belyse funktionerne af uforklarede gener i enhver organisme baseret på deres evolutionære forhold til gener, hvis funktioner er kendt i databasen. Ved at bruge genfunktioner, ontologi og statistiske analysemetoder tillader PANTHER biologer at analysere big data, hele genomer opnået gennem sekventering eller genekspressionsundersøgelser [18] .
De vigtigste værktøjer, der er tilgængelige på PANTHER-webstedet [18] er:
GO Slimmer [19] er et værktøj til at kortlægge detaljerede gensætannotationer til en eller flere overordnede termer (GO slim-termer). GO slim-termer er trunkerede versioner af GO-ontologien, der indeholder en undergruppe af vilkårene for hele GO uden en detaljeret beskrivelse af specifikke lavniveau-termer.
Brugen af GO Slimmer gør det muligt at præsentere GO-genomannoteringer, analysere resultaterne af ekspressionsmikroarrays eller komplementære DNA-samlinger, når der er behov for en omfattende klassificering af genproduktfunktioner [19] .
Resultatet af denne algoritme er repræsenteret af tre kolonner [19] :
AmiGO-versionen af dette værktøj er skrevet i Perl -scriptet map2slim [19] . Kuratorerne for projektet bemærker, at GO slankere-tjenesten i øjeblikket er indlæst, og inputdata af imponerende størrelse kan påvirke dens drift negativt. Driftstiden for tjenesten til behandling af inputsekvenser er begrænset.
BLASTBLAST ( Basic L local Alignment Search Tool ) er en familie af computerprogrammer, der bruges til at søge efter homologer af proteiner eller nukleinsyrer, som sekvensen er kendt for, ved hjælp af alignment. Ved hjælp af BLAST kan forskeren sammenligne den sekvens, han har, med sekvenser fra databasen og finde den, der ligner den givne, som vil være de formodede homologer.
Implementeringen af dette værktøj i AmiGO 1 præsenteres i form af WU-BLAST-pakken udviklet af Washington University i St. Louis (Washington University i St. Louis). [tyve]
I AmiGO 2 er dette værktøj (GO BLAST) blevet fjernet, men du kan bruge søgningen i AmiGO 1 . Værktøjet giver dig mulighed for at filtrere søgeresultater efter genprodukt, database, taksonomisk tilknytning, GO-ordbog, OBO-annotering.
Term MatrixTerm Matrix [21] (en matrix af termer) er et AmiGO-værktøj til at studere information om ligheden mellem genproduktionen af termer. Resultatet af hans arbejde er en matrix, hvis elementer er antallet af genprodukter, der er kommenteret for et bestemt par GO-termer. For at bruge funktionen [21] skal du indtaste en liste over GO-identifikatorer for at se fælles annoteringer - antallet af almindelige genprodukter annoteret af termpar. Det er muligt at angive specifikke arter eller taxaer. Farvelægningen af varmekortet kan udføres i form af en graduering fra sort til hvid, eller ved at bruge kortets standardpalet.
OBO-Edit [22] er en open source ontologi editor udviklet og vedligeholdt af GO Consortium. Det er implementeret i Java og bruger en grafbaseret tilgang til at visualisere og redigere ontologier. OBO-Edit har en brugervenlig søge- og filtergrænseflade, der giver dig mulighed for at visualisere og adskille delmængder af GO-termer. Interfacet kan tilpasses efter brugerens præferencer. OBO-Edit giver dig også mulighed for automatisk at oprette nye relationer baseret på eksisterende relationer og deres egenskaber. Selvom OBO-Edit blev udviklet til biomedicinske ontologier, kan det bruges til at se og redigere enhver ontologi.
PAINT [23] ( P hylogenetic Annotation and IN ference Tool ) er en JAVA - applikation, der er en del af Reference Genome Annotation Project og er baseret på " transive annotation"-princippet. Begrebet transitiv annotation består i at tildele den eksperimentelt etablerede funktion af et gen til et andet på grund af ligheden mellem deres nukleotidsekvenser.
Med PAINT kan brugeren udforske eksperimentelle annotationer for gener fra en bestemt familie og bruge denne information til at udlede nye annotationer for genfamiliemedlemmer, der endnu ikke er blevet tilstrækkeligt udforsket [3] . PAINT-værktøjet giver dig mulighed for at bygge en model, der vil forklare nedarvningen eller tabet af en bestemt genfunktionalitet inden for individuelle grene af fylogenetiske træer . Nye annotationer genereret af denne model omtales som Inferred from Biological Ancestry (IBA) [1] .
Denne applikation er gratis tilgængelig til download på Github.