Genom samling

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 16. december 2019; checks kræver 5 redigeringer .

Genomsamling er processen med at kombinere et stort antal korte DNA-fragmenter (læser) til en eller flere lange sekvenser ( kontiger og stilladser) for at genoprette DNA-sekvenserne af kromosomerne, hvorfra disse fragmenter opstod under sekventering .

Samlingen af ​​et genom er en meget kompleks beregningsopgave, især kompliceret af det faktum, at genomer ofte indeholder et stort antal identiske gentagne sekvenser (såkaldte genomiske gentagelser). Disse gentagelser kan være flere tusinde nukleotider lange og forekommer også tusinde forskellige steder i genomet. De store genomer af planter og dyr, herunder det menneskelige genom, er særligt rige på gentagelser.

Algoritmiske tilgange

Der er to tilgange til at samle genomer - én baseret på overlap-layout-konsensus (bruges til lange fragmenter) og én baseret på de Bruijn-grafer (bruges til korte fragmenter) [1] [2] .

Overlap-Layout-Konsensus

Ved haglgeværsekventering skæres hele en organismes DNA først i millioner af små fragmenter op til 1.000 nukleotider i længden. Derefter overvejer genomsamlingsalgoritmerne de resulterende fragmenter samtidigt, finder deres overlapninger (overlap), kombinerer dem ved overlapninger (layout) og korrigerer fejl i den kombinerede streng (konsensus). Disse trin kan gentages flere gange under byggeprocessen.

Denne tilgang var mest almindelig til genomsamling indtil fremkomsten af ​​næste generations sekventering .

Counts de Bruijn

Med udviklingen af ​​næste generations sekventeringsteknologier er opnåelse af fragmenter blevet en størrelsesorden billigere, men størrelsen af ​​fragmenter er blevet mindre (op til 150 nukleotider), og antallet af fejl i læsning af fragmenter er steget (op til 3 % ). Når man samler sådanne data, er metoder [3] baseret på de Bruijn-grafer blevet udbredt .

Tilgængelige samlere

Liste over populære genomiske samlere:

Navn Understøttede teknologier Forfatterne Introduceret Opdateret Licens* Hjemmeside
ABySS Solexa, SOLiD Simpson, J. et al. 2008 2011 NC-A link
ALLPATHS-LG Solexa, SOLiD Gnerre, S. et al. 2011 2011 OS link
CLC Genomics Workbench Sanger, 454, Solexa, SOLiD CLC bio 2008 2010 C link
Euler Sanger, 454 (, Solexa?) Pevzner, P. et al. 2001 2006 (C/NC-A?) link
Euler-sr 454 Chaisson, MJ. et al. 2008 2008 NC-A link
IDBA Sanger, 454, Solexa Yu Peng, Henry CM Leung, Siu-Ming Yiu, Francis YL Chin 2010 2010 (C/NC-A?) link
MIRA Sanger, 454, Solexa Chevreux, B. 1998 2011 OS link
Newbler 454 454/Roche 2009 2009 C link
SOPRA Illumina, SOLiD, Sanger, 454 Dayarian, A. et al. 2010 2011 OS link
SÆBE Denovo Solexa Li, R. et al. 2009 2009 OS link
SPADER Illumina, Solexa Bankevich, A et al. 2012 2012 OS link
Fløjl Sanger, 454, Solexa, SOLiD Zerbino, D. et al. 2007 2009 OS link
Kan du PacBio, Oxford Nanopore Koren, S. et al. 2017 2020 OS link
* Licenser: OS = Open Source; C = Kommerciel; C / NC-A = Kommerciel men gratis til ikke-kommerciel og akademisk brug; Brackets = ukendt, men sandsynligvis C/NC-A

Noter

  1. Zhenyu Li et al. Sammenligning af de to hovedklasser af montagealgoritmer: overlap–layout–konsensus og de-bruijn-graf  (engelsk)  // Briefings in Functional Genomics: journal. - 2012. - Bd. 11 , nr. 1 . - S. 25-37 . - doi : 10.1093/bfgp/elr035 .
  2. Miller JR, Koren S., Sutton G. Assembly algoritmer til næste generations sekventeringsdata  // Genomics  :  journal. - Academic Press , 2010. - Vol. 95 , nr. 6 . - s. 315-327 . Arkiveret fra originalen den 22. januar 2022.
  3. Pavel A. Pevzner, Haixu Tang, Michael S. Waterman. En Eulerian path-tilgang til DNA-fragmentsamling  // Proceedings of the National Academy of Sciences of the United States of America  : journal  . - 2001. - Bd. 98 , nr. 17 . - P. 9748-9753 . - doi : 10.1073/pnas.171285098 . Arkiveret fra originalen den 25. august 2014.