微信公众号 联系我们 关于我们 3618客服热线:020-32784919   推广热线:020-32780069
资讯
频道
当前位置:首页 > 医疗器械资讯 > 技术前沿 > 从复杂微生物群落中生成谱系分辨率的完整宏基因组组装基因组

从复杂微生物群落中生成谱系分辨率的完整宏基因组组装基因组

文章来源:健康界发布日期:2022-12-01浏览次数:60

微生物群落可能包含亲缘关系很近的不同谱系,使宏基因组组装复杂化,并阻碍了完整的宏基因组组装基因组(MAGs)的产生。本研究发现,使用长(HiFi)读长结合Hi-C分箱的深度测序可以解决这一难题,而且在复杂的微生物群落也可以实现。利用现有的方法,我们对绵羊粪便宏基因组进行测序,鉴定出428个完整性超过90%MAGs。为了分辨高度近缘的菌株,我们开发了MAGPhase,它通过区分数百千碱基基因组序列中的变异单倍型来区分近缘物种的谱系。MAGPhase在我们的数据集中确定了220个谱系水平MAGs。区分复杂微生物群落中的近缘微生物提高了生物合成基因簇的识别和将移动遗传元件分配到宿主基因组的精确度。我们利用Hi-C数据识别了1400个完整的和350个部分完整的生物合成基因簇,其中大部分是以前未被发现的,以及424(298)个潜在的宿主-病毒(宿主-质粒)关联。

结果

1.绵羊肠道微生物组组装

HiFi和短读长测序数据来源于一只成年绵羊的粪便样本。短读长数据包含1,024,375,790reads,数据量为154GBHiFi读长包括22,118,393reads,数据量为255GB。后者的覆盖度比以前大多数长读长宏基因组组装的覆盖度要高。用Kaiju基于reads进行分类,结果显示HiFi数据集中的革兰氏阴性株系比短读长数据略有减少,但是HiFi数据产生的子读长没有表现出这种减少,这表明可能是由于HiFi的过滤过程造成的。用me[x]taFlye组装HiFi读长共产生了57,259contigscontigs N50279 kb,包括127个符合高质量MAGs标准的contigs,其中44(35%)表示宏基因组组装图中的闭合圈(1)

2.HiFi读长组装的完整MAGs

研究人员认为应用HiFi读长降低了解决结构复杂的微生物基因组组装的不确定程度,并提高组装的完整性。我们通过设计实验(附图1a)证实了这一假设:通过从原始HiFi读长中提取子读长生成一系列“pseudo-CLR(pCLR)”数据集,可以对HiFiCLR读长进行同类比较。在除真核生物外的所有超生物界中,pCLR的平均contigHiFi的平均contig要长(附图1b)。然而,在所有类别中,除了未分类的、“无结果”的株系,pCLR contig的总组装长度都低于HiFi组装长度(附图1c)。在古菌和细菌注释的contigs中,pCLR组装平均有61个高质量的基因组,22个预测的环状高质量基因组,比HiFi组装分别减少了48%50%。 我们将HiFi contigsHi-C连锁数据进行分箱分析,得到了428个完整的MAGs,这是目前所知的单个样本中报告的参考质量高的MAGs数量。在HiFi组装的完整MAGs中,有319个符合Bowers等人规定的高质量MAGs标准。累积组装长度图表明,与pCLR组装的MAGs相比,HiFi数据集中较大比例的完整MAGs的相对丰度较低(覆盖度低于10x。比较分箱的SCG完整度和平均覆盖深度也表明,HiFi组装比pCLR组装有更多低覆盖度的完整MAGsHiFipCLR组装的对比在SCG完整度超过90%的分箱中更为明显,其中pCLR组装主要包含覆盖率超过10x的分箱,与HiFi完整MAGs相比,覆盖率高达1000x。完整MAGs的覆盖度分布与HiFi组装将pCLR组装中被处理为单个分箱的基因组注释为更高分辨率、更低覆盖率的分箱的假设一致。

3.识别MAG bins中的不同谱系

通过在宏基因组内将不同的谱系分成单独组装体,在一定程度上验证了HiFi me[x]taFlye组装增加了MAGs总数的假设(pCLR组装相比)。用GTDB-TKHiFipCLR完整的MAGs进行分类,它们分属于197187个不同属,以及1514个不同的门。HiFi数据集有22个特有的属,而在三个pCLR数据集中只有8个属,HiFi数据集还有一个特有的门)。在一些情况下,HiFi的分类群比pCLR的分类群有更多的组装分箱,包括梭菌(Clostridia),它在pCLR MAGs中只有一个分箱,但在HiFi的组装结果中却有三个。这三个分箱的平均核苷酸同一性(eANI)估计在93%95%之间,表明它们是梭菌纲的不同物种,可能是属内的不同物种或种内的不同菌株。HiFi数据集中MAGs的不同在重叠群与组装示意图的比较中显而易见,其识别了pCLR折叠MAGs中的异质排列区域,在Mash k-mer谱的比较中显示,三个HiFi MAGs在每个pCLR组装中的单个分箱预测的eANI都大于90%。这表明pCLR组装将单个HiFi MAGs的不同成分输出到单个分箱中。这一结论从读长深度覆盖度图也可以看出来,读长深度覆盖图表明pCLR分箱的覆盖度非常不均匀,平均约为45x,与以可变丰度存在的多个近缘菌株的减少一致。相比之下,已分类的HiFi分箱的覆盖度非常均匀,约为10x20x33x,这表明该组装在这一丰度范围内已注释了物种或菌株水平的株系。这一结果对使用读长覆盖度解决宏基因组中的菌株有相当大的影响。

pCLR1-3组装中发现共有151011pCLR MAGs分别与312325HiFi分箱具有直系同源关系。与pCLR组装中的6个相比,我们利用eANI匹配距离低的阈值(93%的距离)进行邻近距离分析,确定HiFi组装中的18MAGs可能是物种或菌株水平的组装。这些HiFi MAGspCLR组装中有单个代表物种,表明序列内容和结构变化的差异可能在易错读长的组装中丢失。

在这个例子中,我们在三个HiFi分箱和一个pCLR1分箱的超集图上显示了HiFi分箱的比较对齐(根据图例着色)pCLR图的排列显示了序列的分叉和三分叉,否则在组装中会被压缩成气泡。深红色的方框与b中的IGV图相对应。显示了这种方法的有效性,可以不需要大量的统计事后分析就轻松区分单倍型。HiFi读长与HiFi分箱451的比对显示只有一个交替等位基因,而pCLR1分箱451中的相应区域显示有多达四个交替等位基因(在图上标出)。为了在将来数据集中实现这种分析的自动化,我们提供了MAGPhase软件包(c),它可以识别MAG内的候选SNP变异位点,并利用HiFi读长的长度和高精确度将其拼接为较长的单倍型。

4.MAGPhase辨别谱系水平的高质量MAGs

HiFi组装甚至可以在初始重叠群阶段解决一些亚系的问题,这促使我们研究是否可以像以前尝试的那样,利用SNP变异数据将更多的HiFi分箱注释成谱系水平的完整MAGs。我们发现MAGsSNP变异高于预期SCG区域内读长错误率。短读长的比对不能区分真正的多态性位点,特别是在高度重复的直系同源基因区域,因此我们开发了一种计算方法来区分宏基因组中的株系。区分MAGs中结构变异亚型的能力需要同时考虑覆盖深度和单倍型信息。这个问题与基因表达研究中来自亲代等位基因可变表达背景下的转录本的阶段有相似之处,因此我们将IsoPhase工作流程的分阶段算法改编为一个名为MAGPhase的工具,以识别SNPs和检测含有这些SNPs的读长,并将这些读长用于每个MAGs确定的SCG区域中的不同SNPs。为了避免由于读长错误导致的潜在的假阳性SNP单倍型,我们只调用SCG区域中至少有10个跨HiFi读长且在相当大的读取深度中普遍存在的变体。 我们在每个目标区域确定了阶段性SNP单倍型,并统计了每个MAG的单倍型等位基因的大数量,以评估每个MAGSCG变异的上限。pCLR分箱中的大多数MAGs有多个单倍型等位基因(平均219个,占总数的65%),表明它们是混合谱系。相比之下,大多数HiFi MAGs(220个,比pCLR组装多2)没有发现可识别的替代单倍型等位基因,表明许多谱系被HiFi很好地注释到了,或者在样本中没有可检测的多态亚群。我们发现多态的HiFi MAGsSCG区域内表现出多达25个独特的单倍型等位基因,表明MAGPhase可以识别局部的遗传漂变区域。在48个具有10个以上独特等位基因的HiFi单倍型位点中,我们发现40%(122/305个单倍型)与原始参考序列相差3个或更少的碱基,这进一步支持了这一结论,表明中性突变在亚群中固定。这些热点区域的替代等位基因的中位覆盖率在单倍型的长度上平均为5HiFi 读长,这表明这些可能是真正的可变位点,而不是HiFi读长中错误位置与这些位点巧合对齐的假阳性结果。然而,我们不能排除一些假定的变异位点可能是由不准确的读长比对造成的。 我们比较比对的短读长和多态HiFi MAGs,发现了使用短读长进行菌种异质性评估的局限性。例如,对谱系水平的梭菌纲MAGs进行比对,在HiFi分箱451452471上鉴定出710个替代单倍型等位基因。与这些区域匹配的单个HiFi读长的清晰变异模式,表明使用这些读长可以从宏基因组分箱中分出单倍型的能力。在与这些区域进行比对的单个HiFi读长中,清晰的变异模式显示了使用这些reads从宏基因组分箱中分期提取单倍型的能力。这些模式在HiFi分箱的短读长比对中并不明显,或者表现为严重的片段化。在确定读长比对如何用于下游的变异体调用工作流程中,谱系水平的完整HiFi MAGs和直系同源的pCLR MAGs中的读长堆积是有指导意义的。例如,在比较HiFipCLR MAGs 451的同源区域时,对单倍型的视觉判断无法进行区分,但在该区域的读长堆积中可以清楚地看到MAGPhase识别的一个大片段插入区域。pCLR1 MAGs有四个难以分辨的单倍型等位基因,这与折叠组装的特性一致,而HiFi MAG 451可以用这些识别的单倍型分为两个谱系水平的完整MAGs。我们确定了另外35个和32个完整的HiFi MAGs,它们只有1个或2个确定的替代SNP单倍型,可以分别注释成另外70个和96个谱系水平的完整MAGs。然而,在我们的完整MAG中,有220个完整MAGs