(一)基本信息
软件名称:基于混合组装的自动化基因组组装软件
简 称:HSCG
登 记 号:2021SRBJ1148
项目地址:https://github.com/CAU-TeamLiuJF/HSCG
(二)简介
随着测序成本下降和测序技术的不断进步,在基因组变异挖掘、进化分析、分子育种等研究领域,基因组组装逐渐成为科研人员一项基础性工作。目前常用的测序技术可以获得长测序片段(long reads)数据与短测序片段(short reads)数据。通过片段组装、组装片段延伸、组装片段定位至染色体以及基因组补缺等步骤,可将这些数据组成一套高质量的基因组。虽然目前有大量软件可以协助完成组装工作,但如何针对不同类型的测序数据、不同组装参数,确立最优组装策略,以获得最优组装质量的基因组,仍然是本领域的重要科学问题和难点。
基于此,在课题组前期积累的杜洛克猪测序数据基础之上(包括long reads和short reads),对基因组组装环节、组装方法、数据类型等各种因素进行优化组合,通过比较9种组装方法、14种不同组合组装的基因组质量,发现在拥有高测序覆盖度的short reads数据与低测序覆盖度的long reads数据的情况下,DBG2OLC混合组装的效果最优。此外在基因组contig合并延伸环节确定PBJelly2结合long reads数据效果最好。在contig定位至染色体的过程中,确定RaGOO的效果最好。最后在进行基因组“补洞”环节,LR_Gapcloser的效果最佳。
根据上述的研究结果,研究团队提出一种新的基因组组装优化策略,并形成自动化从头混合组装软件——HSCG。该软件仅需在参数卡中提供long reads数据、short reads数据以及相应的组装参数,便可以实现自动化组装,极大地方便了研究者的高质量基因组组装工作。使用HSCG对杜洛克猪基因组进行组装的结果表明,该组装的基因组在染色体水平上完整性要优于目前猪11.1版本基因组(S. scrofa 11.1),并且通过与11.1版本基因组比较后发现,11.1版本基因组上部分的基因内部区域存在断点(breakpoint)的情况,这可能是由于11.1版本基因组的组装错误所造成。
综上,该软件可以在提供long reads和short reads的情况下,自动化的完成基因组组装的所有步骤,最终形成一套高质量的基因组。该软件可以大大地帮助科研人员进行基因组方面的研究,并且利于科研人员进行更为便捷的基因组组装工作。
目前该软件已于2020年发表在Briefings in Bioinformatics杂志上,具体信息详见下:
Du, H., Diao, C., Zhao, P., Zhou, L., & Liu, J. F. (2021). Integrated hybrid de novo assembly technologies to obtain high-quality pig genome using short and long reads. Briefings in Bioinformatics.