微信公众号 联系我们 关于我们 3618客服热线:020-32784919   推广热线:020-32780069
资讯
频道
当前位置:首页 > 医疗器械资讯 > 技术前沿 > 天壤单序列蛋白结构预测再获突破!助力生成生物学更快发展

天壤单序列蛋白结构预测再获突破!助力生成生物学更快发展

文章来源:健康界发布日期:2022-09-02浏览次数:61

不再依赖MSA信息,速度更快,算力更小 

TRFold-Single 可以端到端地对单序列结构进行预测,不再依赖同源 MSA 作为输入需要。MSA 信息是从现存生物体中测出并被记录下来的,然而有很多在自然进化历史当中未曾出现过的蛋白质,以及大量人工设计生成的蛋白质,本身就缺乏同源信息,此类蛋白质的结构预测一直处于空白。现在可以不受 MSA 的限制,无需多序列比对信息,输入单一序列即可推理获得蛋白质的三维结构。 

此前基于 MSA 共进化信息的 TRFold 在进行单一蛋白质序列的结构预测时,需构建搜索 MSA 和进化相关序列的训练,耗时长且占用更多计算资源。而 XLab 团队迭代开发的 TRFold-Single,使用预训练语言模型的 em[x]bedding (单序列编码) 和注意力权重作为输入,通过处理单序列的 Transfomer 架构,直接替代处理 MSA 信息的模块,得到蛋白质的准确结构。 类似于 TRfoldTRFold-single 同时学习每个残基的空间坐标,和残基两两间的的几何关系。

TRFold- single 从预训练语言模型的注意力权重中提取初始的残基间相互关系信息。由于不再包含 MSA 相关模块,TRFold-single 中残基编码与残基对编码之间的交互方式更加高效。 在全球蛋白质结构预测竞赛 CAMEO 2月的测试集中,TRFold withMSA) 不仅取得与 AlphaFold2 同等水平的成绩,基于单序列构建的 TRFold-Single 结构预测分值达82分,远超 AlphaFold2,性能更佳。

加速设计和优化拓展生成生物学空间 

更高效的预测手段意味着更大的蛋白质结构、功能空间的探索和更深入的理解,不仅可以填补快速增长的蛋白质序列数据库与进展缓慢的蛋白质结构和功能数据库之间的鸿沟,对复杂度更高的复合体预测、模拟蛋白质之间的相互作用,及抗体和蛋白设计来说,都具有颠覆性意义。 如自然界中有大量孤儿蛋白质序列,本身就不存在 MSA 共进化信息,以及一些 MSA 不够深的情况,难以被抽取特征学习;还有大量根据功能生成氨基酸序列的抗体和蛋白药设计,也不包含任何 MSA 信息,TRFold-Single 可以提供一个更加有效的预测工具,突破蛋白质同源进化信息有限的局面,加速此类蛋白的结构预测优化和设计流程,推动生成更有效的满足目标功能的特定蛋白质。

抗体是由于抗原刺激产生的具有保护作用的单向进化蛋白质,从作用原理来说本身不存在共进化信息。在此种情况下,TRFold-Single 可以直接预测其关键结构 CDR 功能区域,这对由配体相互作用而产生结构的大分子药物设计来说有重要意义。 此外,天壤XLab  团队选用86个结构已被解析的设计蛋白质进行预测评测,AlphaFold2 预测结果为82.6,而TRFold-Single预测性能更优,平均分值达86.2,在非天然蛋白质结构预测方面更具优势。

复合体结构预测与设计 深入研究蛋白质相互作用原理 

能够非常快速的预测一个单链蛋白质还不够。蛋白质很多时候以复合物的形式成组地发挥功能,比如和其他小分子或者蛋白质进行相互作用,才能够完成生物体生存所需的种种任务。 相比单链结构的预测,复合物中氨基酸总数大大增加,所需的计算机内存和算力更是迅速增加。天壤XLab 通过空间采样的增强方式增加训练数据多样性,启发式搜索解决多链错配和蛋白质手性问题,通过分子动力学力场优化结合表面原子结构,获得准确的蛋白质相互作用信息,去绘制细胞内蛋白质相互作用通路图。 

AI 为主导,天壤XLab 已构建了TRFold withMSA) 、TRFold-SingleTRDesignTRComplex 四大核心能力,目前正积极推进实验验证。后续我们将对外开放完整的蛋白质设计开发平台,希望将技术赋能产业,协同更多伙伴一起为应对新药开发、疾病研究、抗体设计、酶设计与优化及其他未被满足的工业、农业需求和挑战做出贡献。