点赞

行业科普 | 基因组专题:图形泛基因组的构建及应用

发布时间: 03月21日

18
47941

由于测序技术的发展和测序成本的大幅降低,越来越多的动植物基因组被组装起来,许多基因组揭示了大量的变异。然而,单一的参考基因组无法满足探索物种多样性的需求,因此提出了泛基因组的概念。泛基因组(pan-genome)是一个物种所有可用序列的集合,包括大量共有序列、结构变异(SV)和小变异(SNP、InDel)。

然而,由于线性泛基因组(linear pan-genome)仅将PAV(Presence and Absence Variations)添加到参考基因组中,因此不能清楚地表征个体之间的变异来源或精确定位 PAV。因此,提出了一种基于参考序列和变异序列关系的图形泛基因组(graph-based pan-genome),其中节点代表序列,边缘代表不同序列之间的联系,有效地将参考基因组与遗传变异联系起来(图1)。


图片

图1 图形泛基因组构建过程

(左)选择有代表性的品种,比较品种间的线性基因组。(中)鉴定品种间的变异。(右)根据变异信息构建基于图形的泛基因组。


图形泛基因组可以图的形式存储一个物种的所有遗传信息,构建图形泛基因组的方法可分为两种,一种是根据参考基因组鉴定遗传变异,存储在VCF文件中,然后将VCF中的变异信息添加到线性基因组中(图2 A,表1),利用该方法的软件主要有vg和SevenBridges。另一种基于基因组比对的方法,可以通过将所有组装基因组与参考基因组比对来直接构建图形泛基因组(图2 B,表1),主要软件是Minigraph、MGR、Seqwish、NovoGraph、PGGB和Cactus。


图片

图2 使用不同工具构建基于图谱的泛基因组的流程

(A) Seven Bridges 和 vg 基于参考基因组和结构变异构建图形泛基因组。(B)minigraph 基于多个基因组直接构建图形泛基因组,并通过将基因组迭代比对到现有图来增强图形泛基因组。


表1 图形泛基因组构建工具[1]

图片


目前构建图形泛基因组的主流方法是基于参考基因组和变异信息,这需要在构建图形泛基因组之前,首先鉴定参考基因组与其他基因组之间变异信息(如PAV)。PAV可以通过两种方式获得:一种是通过基因组间比较或从长读长序列比对到参考基因组上获得,MUMmer  和 minimap2 是基因组间比较分析的常用工具,最近开发的 AnchorWave 软件是针对复杂的植物基因组设计的。接下来,根据基因组比对结果进行PAV开发,常使用SVMU、SyRI、Assemblytics、Smartie-sv和SVIM-asm等软件(表2)。另一种是使用长读长序列和参考基因组比对开发的SV的方法,常用的长序列比对的软件包括 NGMLR 、minimap2 和 Pbmm2,PBSV、Sniffles、SVIM和 CuteSV可以从比对结果中鉴定 SV 信息(表2)。对获得的PAV,经过Survivor、Svimmer 和 Jasmine进行合并冗余的PAV。

 

表2 常用的PAV检测方法[1]

图片


以图形泛基因组作为参考基因组,能够在大规模群体研究中进行SV检测和基因型分型。目前,线性基因组的比对工具难以应用于图形泛基因组,而图形泛基因组的比对软件也相继开发,包括 vg map、GraphAligner、Hisat2、V-MAP、vg和 Giraffe(表3),其中Giraffe是目前对图形泛基因组进行短读长比对的最佳工具。根据上述比对结果可以进行 SV 基因分型,针对目前积累最多的短读长数据,vg、paragraph和PanSVR 是目前表现较好的分型工具。与线性基因组相比,应用图形泛基因组进行序列比对可全面提高比对结果的质量,在基因分型过程中可发现更多的 SNP、InDel和 SV,而且SV的长度也明显大于线性基因组。


表3 图形泛基因组比对工具[1]

图片


图片


图形泛基因组作为基因组的一种特殊展示形式,可以更好的检测SV,结合SNP和SV共同开展群体遗传研究,可以作为互相补充,提高相关研究的准确性。近两年,很多物种均公布其图形泛基因组,并利用图形泛基因组开展遗传分析,加速了相关研究的进展。


 案例1 — 绵羊泛基因组揭示影响尾形的结构变异[2]

文章:A sheep pangenome reveals the spectrum of structural variations and their effects on tail phenotypes

期刊:Genome Research

发表时间: 2023.05

发表单位:西北农林科技大学姜雨团队

该研究基于PacBio HiFi 测序技术,组装了15个不同群体绵羊的单倍型基因组,使用Minigraph软件建立了首个绵羊图形泛基因组。采用HiFi数据比对参考基因组和图形泛基因组2种方法共同鉴定SV,使用Paragraph软件对649个绵羊个体的18×二代重测序数据进行基因型分型,获得所有个体的SV信息,同时鉴定出 865 个种群分层 SV,进一步的GWAS分析表明,HOXB13的5′UTR中发现了一个168-bp的插入突变是长尾性状的致病因素。表明图形泛基因组分析在重要经济性状的因果效应位点解析方面具有巨大优势。


图片

图3 与尾长相关SV的研究


 案例2 — 挖掘谷子图基因组和泛基因组中的变异[3]

文章:A graph-based genome and pan-genome variation of the model plant Setaria

期刊:Nature Genetic

发表时间: 2023.06

发表单位:中国农业科学院作物科学研究所刁现民团队

该研究组装了110份代表谷子和狗尾草的遗传多样性材料的基因组,将组装好的高质量基因组与Yugu1进行基因组比对,将检测到的202,884个SV整合到Yugu1参考基因组,构建首个谷子图形泛基因组。利用Illumina短读长序列和图形基因组对1844份材料进行基因分型,并对包括产量、植株结构、生长时间等性状进行GWAS分析,鉴定到了一些SV可能包含了SNP所不能代表的额外遗传信息。


图片

图4 SV-GWAS鉴定影响谷子粒宽基因SiGW3


 案例3 — 番茄超级泛基因组图谱揭示其遗传多样性和结构变异[4]

文章:Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species

期刊:Nature Genetic

发表时间: 2023.04

发表单位:新疆农业科学院园艺作物研究所余庆辉团队等

该研究使用三代测序组装了9个野生番茄和2个不同的栽培番茄的基因组,将这些基因组与S. galapagense进行成对比对开发SV。随后,利用vg软件将本研究和之前100个番茄基因组中鉴定的插入和缺失变异整合到S. galapagense基因组,从而构建番茄图形泛基因组。利用该图形泛基因组对321个番茄样本重测序数据进行基因型分型,并对大量风味和果实代谢性状进行GWAS分析,鉴定到很多与重要的番茄水果风味化合物和代谢物显著关联SV,这将为进一步精细定位和克隆候选基因铺平道路。


图片

图5 基于SV的GWAS鉴定到番茄果实风味的显著关联位点


参考文献

[1] Wang S, Qian YQ, Zhao RP, Chen LL, Song JM. Graph-based pan-genomes: increased opportunities in plant genomics. J Exp Bot. 2023;74(1):24-39. doi:10.1093/jxb/erac412

[2] Li R, Gong M, Zhang X, et al. A sheep pangenome reveals the spectrum of structural variations and their effects on tail phenotypes. Genome Res. 2023;33(3):463-477. doi:10.1101/gr.277372.122

[3] He Q, Tang S, Zhi H, et al. A graph-based genome and pan-genome variation of the model plant Setaria. Nat Genet. 2023;55(7):1232-1242. doi:10.1038/s41588-023-01423-w

[4] Li N, He Q, Wang J, et al. Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species. Nat Genet. 2023;55(5):852-860. doi:10.1038/s41588-023-01340-y


图片


康普森农业长期致力于动植物(泛)基因组、泛基因组和T2T基因组组装研究,拥有丰富的项目方案设计及分析经验,涵盖家禽、家畜、粮食作物、园艺作物、花卉林木、水产等多样性物种,将为科研工作者提供全面的三代测序、基因组组装和群体重测序等方面的专业技术服务。


图片


图片


天津:18710280840/022-24986099

北京:400 1869 509

邮箱:marketing@kangpusen.com

地址:北京市昌平区中关村生命科学园生命园路4号院4号楼7层

微信截图_20230907091655.png

图文来源:北京康普森农业科技有限公司

展开
收起