Bioinformatik er et tværfagligt område, der kombinerer generel biologi, molekylærbiologi , kybernetik, genetik , kemi, datalogi , matematik og statistik . Biologiske problemer i stor skala, der kræver analyse af store mængder data, løses af bioinformatik fra et beregningsmæssigt synspunkt [1] . Bioinformatik omfatter hovedsageligt undersøgelse og udvikling af computermetoder og er rettet mod at indhente, analysere, lagre, organisere og visualisere biologiske data [2] .
I en lignende sammenhæng nævnes ofte begrebet beregningsbiologi . Dette område fokuserer på udvikling af algoritmer og matematisk modellering af sociale, adfærdsmæssige og biologiske systemer. Bioinformatik anses for at være et felt inden for beregningsbiologi, der hovedsageligt fokuserer på statistisk behandling af biologiske data [2] . Forskelle i tilgang fra forskellige vinkler: bioinformatikere er biologer, der specialiserer sig i brugen af beregningssystemer og værktøjer til at løse biologiske problemer, mens beregningsbiologer er dataloger, matematikere, statistikere og ingeniører, der udvikler værktøjer til sådanne beregninger [2] .
Bioinformatik i bred forstand betyder at arbejde med enhver form for biologisk data, herunder undersøgelse af elektronmikrografer, søgen efter nøgleord i den biologiske litteratur og så videre [3] . Hvis vi betragter bioinformatik som et sæt af tilgange og metoder til at arbejde med data, så inkluderer det, afhængigt af typerne af tekniske problemer, [4] :
Imidlertid er bioinformatiske analysemetoder også uløseligt forbundet med mange videnskabelige områder, som involverer søgen efter svar på specifikke biologiske spørgsmål. I dette tilfælde kan hovedretningerne skelnes på grundlag af de undersøgte objekter:
For hver af de anførte sektioner kan man udpege deres egne standarddatatyper, måder at behandle dem på, bioinformatiske algoritmer og databaser.
Bioinformatik anvender metoder fra anvendt matematik , statistik og datalogi . Bioinformatik bruges inden for biokemi , biofysik , økologi og andre områder. De mest brugte værktøjer og teknologier på dette område er programmeringssprogene Python , R , Java , C# , C++ ; opmærkningssprog - XML ; struktureret forespørgselssprog til databaser - SQL ; software- og hardwarearkitektur af parallel computing - CUDA ; en pakke med anvendte programmer til løsning af problemer med tekniske beregninger og programmeringssproget af samme navn, der bruges i denne pakke - MATLAB , og regneark .
Bioinformatik er blevet en vigtig del af mange områder inden for biologi. Bioinformatiske analysemetoder gør det muligt at fortolke store mængder eksperimentelle data, hvilket var praktisk talt umuligt før udviklingen af dette felt. For eksempel bruger eksperimentel molekylærbiologi ofte bioinformatiske teknikker såsom billed- og signalbehandling . Inden for genetik og genomik hjælper bioinformatik med den funktionelle annotering af genomer, påvisning og analyse af mutationer. En vigtig opgave er at studere genekspression og måder at regulere det på. Derudover tillader bioinformatikværktøjer sammenligning af genomiske data, hvilket er en forudsætning for at studere principperne for molekylær evolution .
Generelt hjælper bioinformatik med at analysere og katalogisere biokemiske veje og netværk, som er en vigtig del af systembiologien. I strukturel biologi hjælper det med at modellere DNA-, RNA- og proteinstrukturer samt molekylære interaktioner.
Nylige fremskridt inden for biologisk databehandling har ført til betydelige ændringer inden for biomedicin. Takket være udviklingen af bioinformatik har forskere været i stand til at identificere de molekylære mekanismer, der ligger til grund for både arvelige og erhvervede sygdomme, hvilket hjælper med udviklingen af effektive behandlinger og mere præcise tests til diagnosticering af sygdomme [5] . Forskningsretningen, som gør det muligt at forudsige lægemidlers effektivitet og bivirkninger hos patienter, kaldes farmakogenetik , og den er også baseret på bioinformatiske metoder.
En vigtig rolle for bioinformatik ligger også i analysen af biologisk litteratur og udviklingen af biologiske og genetiske ontologier til organisering af biologiske data.
Baseret på erkendelsen af den vigtige rolle, informationstransmission, -lagring og -behandling spiller i biologiske systemer, introducerede Pauline Hogeweg i 1970 begrebet "bioinformatik" og definerede det som studiet af informationsprocesser i biotiske systemer [6] [7] . Denne definition drager en parallel mellem bioinformatik og biofysik (studiet af fysiske processer i biologiske systemer) eller med biokemi (studiet af kemiske processer i biologiske systemer) [6] .
SekvenserHistorien om sekvensbioinformatik kan spores tilbage til fremskridtene i 1950'erne. I februar 1953 foreslog Watson og Crick en model af DNA-molekylet, og i maj 1953 publicerede de en artikel i tidsskriftet Nature , som handlede om spørgsmålet om DNA som bærer af den genetiske informationskode [8] . Også i slutningen af 1950'erne udgav Sanger den første proteinsekvens, insulin [9] , [10] .
Den mest anvendte metode til sekventering af aminosyresekvenser er blevet til Edman-nedbrydning, hvis største ulempe var vanskeligheden ved at opnå lange proteinsekvenser: det teoretiske maksimum var 50-60 aminosyrer pr. reaktion. På grund af dette skulle proteiner først nedbrydes til små fragmenter, og derefter blev proteinsekvenserne samlet af hundredvis af korte kæder, hvilket ikke altid var muligt at gøre korrekt. Løsningen på dette problem blev foreslået af Margaret Deyhoff (1925-1983) - amerikansk videnskabsmand, fysisk kemiker. Dayhoff brugte aktivt computermetoder i sit arbejde og så potentialet i deres anvendelse inden for biologi og medicin. I 1962 afsluttede hun udviklingen af COMPROTEIN, et værktøj til at bestemme den primære struktur af et protein ved hjælp af Edman-peptidsekventeringsdata [11] . I COMPROTEIN blev input og output af en aminosyresekvens præsenteret i trebogstavsforkortelser. For at forenkle behandlingen af proteinsekvensdata udviklede Dayhoff senere den et-bogstavs aminosyrekode, som stadig er i brug i dag. Dayhoffs bidrag til feltet er så betydningsfuldt, at David J. Lipman, tidligere direktør for National Center for Biotechnology Information (NCBI), kaldte hende "bioinformatikkens mor og fader" [12] .
Med akkumuleringen af nye proteinsekvenser begyndte nogle mønstre at blive sporet i dem. For eksempel bemærkede Zuckerkandl og Pauling, at ortologe hvirveldyrproteiner (f.eks. hæmoglobin) viser en for høj grad af sekvenslighed til at være resultatet af konvergent evolution. Nye matematiske og computermetoder var nødvendige for at bekræfte nye evolutionære hypoteser. [13] . Den første dynamiske programmeringsalgoritme til parvise justeringer af proteinsekvenser blev udviklet i 1970 af Needleman og Wunsch [14] . Multiple sekvensjusteringsalgoritmer dukkede op meget senere: den første praktiske algoritme blev udviklet af Da-Fei Feng og Russell F. Doolittle i 1987 [15] . Dens forenkling, CLUSTAL-algoritmen, er stadig i brug i dag. Derudover skabte en gruppe forskere, der inkluderede Dayhoff, i 1978 den første substitutionsmodel baseret på observation af punktaccepterede mutationer (PAM'er) i fylogenetiske træer af 71 proteinfamilier, der deler mere end 85% identitet. Som et resultat blev der opnået en matrix indeholdende sandsynlighedsværdierne for aminosyresubstitutioner [16] .
The Central Dogma of Molecular Biology, som blev udgivet af Francis Crick i 1970, og den gradvise identifikation af alle aminosyrer kodet af 68 kodoner, førte til et gradvist paradigmeskift fra proteinevolution til DNA-evolution i 1970'erne-1980'erne. Der var behov for at lære at læse DNA-sekvenser. Den første DNA-sekventeringsmetode, der blev udbredt, var Maxam-Gilbert-sekventeringsmetoden i 1976 [17] . Den mest udbredte metode blev dog udviklet i Frederick Sangers laboratorium i 1977, den bruges stadig i dag. Sanger-sekventering gjorde det muligt at opnå ret store mængder information for den tid, men størrelsen af de fragmenter, der kunne sekventeres, var begrænset til hundredvis af nukleotider, hvilket kun var nok til at studere så små genomer som bakteriofaggenomer. Den første Sanger-sekventeringssoftware blev udgivet af Roger Staden i 1979 [18] . Denne softwarepakke gjorde det ikke kun muligt at samle sekvenser i contigs, men også til verifikation og redigering af disse sekvenser, såvel som for annoteringer.
GenomerMed offentliggørelsen af det menneskelige genom i begyndelsen af det 21. århundrede begyndte bioinformatikkens genomiske æra. Projektet blev påbegyndt i 1991 i USA og kostede 2,7 milliarder dollars over 13 år [19] . I 1998 producerede Celera Genomics en konkurrerende privat undersøgelse for at sekvensere og samle det menneskelige genom. Undersøgelsen krævede 10 gange færre penge og katalyserede udviklingen af nye eksperimentelle sekventeringsstrategier såsom 454 og Illumina. Omkostningerne ved DNA-sekventering er faldet i størrelsesordener, hvilket resulterer i en enorm stigning i antallet af sekvenser i offentlige databaser. Der var behov for at udvikle metoder til lagring og hurtig behandling af biologiske data. I 2005 blev Genomic Standards Consortium etableret, og et mandat definerede den mindste information, der kræves for at offentliggøre en genomisk sekvens. [20] .
Hovedformålet med bioinformatik er at bidrage til forståelsen af biologiske processer. Det, der adskiller bioinformatik fra andre tilgange, er, at det fokuserer på skabelsen og anvendelsen af beregningsintensive metoder til at nå dette mål. Eksempler på lignende metoder er mønstergenkendelse , datamining , maskinlæringsalgoritmer og biologisk datavisualisering . Forskernes hovedindsats er rettet mod at løse problemerne med sekvensjustering , genopdagelse (søgning efter DNA-regionens kodende gener), genomdechifrering, lægemiddeldesign, lægemiddeludvikling, proteinstrukturjustering, proteinstrukturforudsigelse , genekspressionsforudsigelse og protein- proteininteraktioner, søgning i hele genomet efter associationer og modellering af evolution.
Bioinformatik indebærer i dag oprettelse og forbedring af databaser, algoritmer, beregningsmæssige og statistiske metoder og teori til at løse praktiske og teoretiske problemer, der opstår i styring og analyse af biologiske data [21] .
Siden Phi-X174- fagen blev sekventeret i 1977, er DNA-sekvenserne af et stigende antal organismer blevet afkodet og lagret i databaser. Disse data bruges til at bestemme proteinsekvenser og regulatoriske regioner. Sammenligning af gener inden for samme eller forskellige arter kan demonstrere ligheder i proteinfunktioner eller forhold mellem arter (således kan fylogenetiske træer kompileres ). Med stigningen i mængden af data har det længe været umuligt at analysere sekvenser manuelt. I dag bruges computerprogrammer til at søge gennem genomerne af tusindvis af organismer bestående af milliarder af basepar . Programmer kan entydigt matche ( aligne ) lignende DNA-sekvenser i genomerne af forskellige arter; ofte har sådanne sekvenser lignende funktioner, og forskelle opstår som et resultat af små mutationer, såsom substitutioner af individuelle nukleotider, insertioner af nukleotider og deres "tab" (deletioner). En af disse justeringer bruges under selve sekventeringsprocessen. Den såkaldte " fraktionelle sekventeringsteknik " (som f.eks. blev brugt af Institut for Genetisk Forskning til at sekventere det første bakteriegenom, Haemophilus influenzae ), producerer i stedet for en komplet nukleotidsekvens sekvenser af korte DNA-fragmenter (hver ca. 600-800 nukleotider lang). Enderne af fragmenterne overlapper hinanden og danner, korrekt justeret, det komplette genom. Denne metode producerer hurtigt sekventeringsresultater, men samlingen af fragmenter kan være noget af en udfordring for store genomer. I det menneskelige genom-sekventeringsprojekt tog montering flere måneders computertid. Nu bruges denne metode til næsten alle genomer, og genomsamlingsalgoritmer er et af de mest akutte problemer inden for bioinformatik i øjeblikket.
Et andet eksempel på anvendelsen af computersekvensanalyse er den automatiske søgning efter gener og regulatoriske sekvenser i genomet. Ikke alle nukleotider i genomet bruges til at sekvensere proteiner. For eksempel i genomerne af højere organismer koder store DNA-segmenter ikke eksplicit for proteiner, og deres funktionelle rolle er ukendt. Udviklingen af algoritmer til at identificere proteinkodende regioner i genomet er en vigtig opgave for moderne bioinformatik.
Bioinformatik hjælper med at forbinde genomiske og proteomiske projekter, for eksempel ved at hjælpe med at bruge DNA-sekventering til at identificere proteiner.
I forbindelse med genomik er annotering processen med at mærke gener og andre entiteter i en DNA-sekvens . Det første genomannoteringssoftwaresystem blev skabt i 1995 af Owen White , som arbejdede på Institute for Genomic Research -team, der sekventerede og analyserede det første afkodede genom af en fritlevende organisme, bakterien Haemophilus influenzae . Dr. White byggede et system til at finde gener (en sektion af DNA, der specificerer sekvensen af et bestemt polypeptid eller funktionelt RNA), tRNA og andre DNA-objekter og lavede de første betegnelser for disse geners funktioner. De fleste moderne genomannoteringssystemer fungerer på en lignende måde, men programmer, der er tilgængelige til genomisk DNA-analyse, såsom GeneMark, der bruges til at finde proteinkodende gener i Haemophilus influenzae, ændrer sig og forbedres konstant.
Evolutionsbiologi studerer arternes oprindelse og fremkomst , såvel som deres udvikling over tid. Datalogi hjælper evolutionære biologer på flere måder:
Feltet i datalogi , der bruger genetiske algoritmer , forveksles ofte med beregningsmæssig evolutionær biologi , men de to felter er ikke nødvendigvis beslægtede. Arbejdet på dette område bruger specialiseret software til at forbedre algoritmer og beregninger og er baseret på evolutionære principper såsom replikation , diversificering gennem rekombination eller mutation og overlevelse ved naturlig selektion .
Biodiversiteten i et økosystem kan defineres som den komplette genetiske helhed af et bestemt miljø, bestående af alle levende arter, hvad enten det er en biofilm i en forladt mine, en dråbe havvand, en håndfuld jord eller hele biosfæren af planeten Jorden . Databaser bruges til at indsamle artsnavne , beskrivelser, udbredelsesområde og genetisk information. Specialiseret software bruges til at søge, visualisere og analysere information og, endnu vigtigere, give den til andre mennesker. Computersimulatorer modellerer ting som befolkningsdynamik eller beregner en afgrødes overordnede genetiske sundhed inden for agronomien . Et af de vigtigste potentialer i dette felt ligger i analysen af DNA-sekvenser eller komplette genomer af hele truede arter, hvilket gør det muligt at lagre resultaterne af naturens genetiske eksperiment i en computer og muligvis bruges igen i fremtiden, selvom disse arter bliver fuldstændig uddød.
Ofte falder metoder til vurdering af andre komponenter af biodiversitet - taxa (primært arter) og økosystemer - uden for bioinformatikkens rammer. På nuværende tidspunkt præsenteres det matematiske grundlag for bioinformatiske metoder til taxa inden for rammerne af en sådan videnskabelig retning som fenetik eller numerisk taksonomi. Metoder til at analysere strukturen af økosystemer overvejes af specialister inden for områder som systemøkologi, biocenometri .
Strukturel bioinformatik omfatter udvikling af algoritmer og programmer til at forudsige den rumlige struktur af proteiner. Forskningsemner i strukturel bioinformatik:
Ordbøger og encyklopædier | ||||
---|---|---|---|---|
|
Personlig medicin | |
---|---|
Omix-datasektioner | |
Ansøgningssektioner | |
Metoder | |
Relaterede artikler |