Genomsamling er processen med at kombinere et stort antal korte DNA-fragmenter (læser) til en eller flere lange sekvenser ( kontiger og stilladser) for at genoprette DNA-sekvenserne af kromosomerne, hvorfra disse fragmenter opstod under sekventering .
Samlingen af et genom er en meget kompleks beregningsopgave, især kompliceret af det faktum, at genomer ofte indeholder et stort antal identiske gentagne sekvenser (såkaldte genomiske gentagelser). Disse gentagelser kan være flere tusinde nukleotider lange og forekommer også tusinde forskellige steder i genomet. De store genomer af planter og dyr, herunder det menneskelige genom, er særligt rige på gentagelser.
Der er to tilgange til at samle genomer - én baseret på overlap-layout-konsensus (bruges til lange fragmenter) og én baseret på de Bruijn-grafer (bruges til korte fragmenter) [1] [2] .
Ved haglgeværsekventering skæres hele en organismes DNA først i millioner af små fragmenter op til 1.000 nukleotider i længden. Derefter overvejer genomsamlingsalgoritmerne de resulterende fragmenter samtidigt, finder deres overlapninger (overlap), kombinerer dem ved overlapninger (layout) og korrigerer fejl i den kombinerede streng (konsensus). Disse trin kan gentages flere gange under byggeprocessen.
Denne tilgang var mest almindelig til genomsamling indtil fremkomsten af næste generations sekventering .
Med udviklingen af næste generations sekventeringsteknologier er opnåelse af fragmenter blevet en størrelsesorden billigere, men størrelsen af fragmenter er blevet mindre (op til 150 nukleotider), og antallet af fejl i læsning af fragmenter er steget (op til 3 % ). Når man samler sådanne data, er metoder [3] baseret på de Bruijn-grafer blevet udbredt .
Liste over populære genomiske samlere:
Navn | Understøttede teknologier | Forfatterne | Introduceret | Opdateret | Licens* | Hjemmeside |
---|---|---|---|---|---|---|
ABySS | Solexa, SOLiD | Simpson, J. et al. | 2008 | 2011 | NC-A | link |
ALLPATHS-LG | Solexa, SOLiD | Gnerre, S. et al. | 2011 | 2011 | OS | link |
CLC Genomics Workbench | Sanger, 454, Solexa, SOLiD | CLC bio | 2008 | 2010 | C | link |
Euler | Sanger, 454 (, Solexa?) | Pevzner, P. et al. | 2001 | 2006 | (C/NC-A?) | link |
Euler-sr | 454 | Chaisson, MJ. et al. | 2008 | 2008 | NC-A | link |
IDBA | Sanger, 454, Solexa | Yu Peng, Henry CM Leung, Siu-Ming Yiu, Francis YL Chin | 2010 | 2010 | (C/NC-A?) | link |
MIRA | Sanger, 454, Solexa | Chevreux, B. | 1998 | 2011 | OS | link |
Newbler | 454 | 454/Roche | 2009 | 2009 | C | link |
SOPRA | Illumina, SOLiD, Sanger, 454 | Dayarian, A. et al. | 2010 | 2011 | OS | link |
SÆBE Denovo | Solexa | Li, R. et al. | 2009 | 2009 | OS | link |
SPADER | Illumina, Solexa | Bankevich, A et al. | 2012 | 2012 | OS | link |
Fløjl | Sanger, 454, Solexa, SOLiD | Zerbino, D. et al. | 2007 | 2009 | OS | link |
Kan du | PacBio, Oxford Nanopore | Koren, S. et al. | 2017 | 2020 | OS | link |
* Licenser: OS = Open Source; C = Kommerciel; C / NC-A = Kommerciel men gratis til ikke-kommerciel og akademisk brug; Brackets = ukendt, men sandsynligvis C/NC-A |