微信公众号 联系我们 关于我们 3618客服热线:020-32784919   推广热线:020-32780069
资讯
频道
当前位置:首页 > 医疗器械资讯 > 技术前沿 > 前沿丨基于纳米孔基因组测序的超快致病性变异鉴定流程

前沿丨基于纳米孔基因组测序的超快致病性变异鉴定流程

文章来源:健康界发布日期:2022-05-21浏览次数:77

WGS在医疗诊断,特别是在重症监护环境中具有优势,但是用于后续和下游分析的管道耗时较多。随着技术的发展,纳米孔测序已经成为高通量、高保真的测序平台。但要在数小时内完成数据比对、变异检测和变异过滤仍面对挑战。传统的样品制备方案没有考虑到从有限体积的血液中产生足以用于快速临床应用的测序文库。此外,虽然完整的reads可以在开始运行的几分钟内实时地从纳米孔测序装置中流出,但在48个flow cell并行运行时,数据产生的速率远远超过本地PromethION的碱基识别和比对速率,这导致很高的计算延迟。本研究开发了一个全基因组纳米孔测序管道,改进了文库制备,并基于云模块来执行近实时的碱基识别和比对,加速的变异检测和筛选。

研究方法

首先,作者优化了样品制备方案,将足量的样品库分布在48个flow cell中。通过多次测试,终发现一种方法能够在50分钟内从1.6 ml血液中分离出平均片段大小>60 kb的高分子量DNA(电泳测定),通过荧光测定法(Qubit)测得至少36 μg基因组DNA,通过260/280nm分光光度计测得平均样品纯度为1.70。此外作者还发现,将每次建库的输入DNA增加到4 μg,并平行制备8个反应时,可得到16 μg的佳文库产量,允许每个flow cell装载多达333 ng的文库量。 

使用barcodes会增加实验时间并减少每个流动池可装载的DNA量,因为barcodes方案需要额外的文库清理。因此,作者研究了barcodes使用的必要性。通过对来自个人基因组计划的NIST HG002基因组进行测序,结果显示HG002变异检测性能(携带和不携带barcodes)相似(barcodesF1得分:0.9974 SNP, 0.7396 indels; 非barcodesF1得分: 0.9974 SNP, 0.7322 indels)。此外,在外显子和基因组的复杂区域中,barcodes和非barcodes数据的变异检测性能也是相似的。基于这些数据,作者选择不使用barcodes,这使得文库准备时间减少了37分钟,并提高了下游测序效率。

理论上在48个flow cell同时测序的大通量为2.5 Gb每分钟,测序运行1.5个小时,同时运行碱基识别和比对仍会额外消耗18.5个小时。为了解决本地资源对实时碱基识别和数据比对造成的限制,作者开发了一个云计算基础架构(基于Google Cloud Platform),并在多个GPU节点之间并行化碱基识别和比对。使用云平台会增加数据上传的步骤,对此作者使用改进的fast5文件压缩(VBZ),并调整为定时定期的上传模式管理,将原始数据实时分发到16个计算节点,每个节点针对特定的3个flow cell运行Guppy和Minimap2。使用这种方法,能够实现接近实时的碱基识别和大规模比对。作者对来自HG002样品的所有fast5文件进行了模拟测试,为了模拟高达2.5 Gb每分钟的吞吐速率,48个flow cell产生的数据在90分钟内以统一的速率进行上传,在16个节点并行运行的情况下,仅用了额外的25分钟,生成了碱基识别和比对好的输出文件,近乎实时地完成高深度(200 Gb)、长读长的全人类基因组数据的碱基识别和比对。

接下来,作者探讨了变异检测的加速。使用PEPPER–Margin–DeepVariant来识别较小变异,而使用Sniffles进行SV检测。为实现运行时加速,对PEPPER-Margin-DeepVariant使用了14个带有GPU的计算节点,对Sniffles使用了2个仅限CPU的节点。通过对基因组分区并行,从而使HG002样本的运行时间达到29分钟。通过整合NVIDIA Parabricks对GPU进行加速,将整个运行时间从40分钟减少到23分钟。尽管之前的几项研究表明,基于纳米孔测序的变异检测性能与其他方法相比具有竞争力,但作者进一步提高了管道的变异检测精度。纳米孔测序的主要错误模式是indels,尤其是在均聚物中,为了提高indel检测的准确性,作者优化了DeepVariant堆积图像(该方法首先应用在Pacbio测序中),终使得indels的F1得分从0.6999增加到0.7322,报告的变异总数减少了3%,进而增加了准确性,减少了评估潜在变异所需的治疗时间。

后,作者对检测到的变异进行了注释,并开发了一个用于变异过滤的定制模式,以加速对变异的手动审查。对于每个样本,作者与治疗临床医生合作,得出了一个患者特异的、基于表型的靶基因列表。使用Alissa Interpret分析小变异的vcf文件,并使用定制分类树筛选变异并确定优先级以供审查。定制的分类树改编自斯坦福临床基因组计划(GCP)的经临床验证的先证者外显子组分类树。该标准过滤方案旨在应用于诊断过程中的患者,并提供广泛的搜索,允许表型扩展和有限的基因-疾病发现。

研究结果

临床环境中的管道应用和性能

为了证明该流程在真实样本中的性能,作者总结了两个病例的临床表现和细节。首先是一名57岁的男子,其患有严重的新型冠状病毒感染和合并症(包括甲状腺功能亢进和高血压),需要进行双侧肺移植。术中经食管超声心动图显示双心室功能障碍伴左心室肥厚和术后窦性心动过缓,心脏磁共振图像提供了肥厚性心肌病的证据;然而,鉴别诊断范围很广,包括冠状动脉疾病,心肌炎,心脏淀粉样蛋白和心脏结节病。要求进行快速分子检测以帮助明确诊断。在6小时55分钟内,变异检测产生了4,316,464个小变异和35,780个结构变异。在样品制备开始后的7小时18分内,在TNNT2基因中鉴定出一个诊断性杂合变异体(大约341 C > T),并根据美国医学遗传学和基因组学学院(ACMG)的指南将其归类为可能致病。该诊断进一步减少了对后续多次影像学研究和心脏活检的需求。

其次是一名14个月大的女婴,有肌张力/角弓姿势障碍和发育迟缓的病史,在经历了心脏骤停和呼吸衰竭后被送入斯坦福大学Lucile Packard儿童医院的儿科重症监护室。脑部核磁共振成像显示普遍的脑室突出,小脑桥和薄胼胝体。其他诊断结果都不显著,表明了遗传病因的可能性。在抽血后的7h内,从200Gb的测序数据中产生了4,481,802个小变异和36,423个SV,过滤后筛选出31个小变异和21个SV优先进行人工审查。在接下来的48分钟内,在LZTR1中鉴定出一个意义未知的候选变异体(大约791+1 G > A),该基因与高尔基复合体的稳定有关。经过人工审查,终确定致病因素尚不清楚。没有其他优先变异可能有助于患者的临床表现。正交临床基因检测未发现遗传病因。

讨论

快速临床诊断对WGS的需求迫在眉睫。尽管临床WGS的标准周转时间是几周,但近的研究已经将新生儿群体的周转时间减少到3-5天。在本研究中,作者开发了一种WGS的简化方法,提供了比以前报道的任何临床WGS管道更快且准确的大、小变异检测。该管道能够在不到2h的时间内生成高深度的人类全基因组数据,并在8h内生成变异诊断。该方法已被证明比先前报道的快基因组诊断快了50%。