BRIEF BIOINFORM| 张子丁课题组开发基于蛋白结构的深度学习模型预测蛋白相互作用
发布日期:2023-05-04 浏览次数:  信息来源:生物学院

蛋白质相互作用(PPI)网络数据的积累为理解生物系统中复杂细胞事件的机制提供了重要的作用,在药物发现和治疗开发中也扮演着关键的角色。在过去的几十年中,模式生物体内大规模识别PPI的实验方法一直在不断进展,尽管这些方法通常被视为金标准,但它们的确定取决于特定的实验条件,其覆盖范围通常受限。由于实验方法通常耗时费力,利用机器学习这种计算方法去预测蛋白互作已经越来越流行。由于蛋白质的序列信息比较容易获得,因此大部分机器学习模型都是从蛋白质序列出发,提取氨基酸组合信息或进化信息。这种基于序列的方法依赖于训练集的覆盖程度。通常在对同源信息较少的新蛋白来说,模型预测结果往往不尽人意。蛋白质通过相互作发挥功能,而蛋白质的功能与其结构密切相关。因此,从蛋白结构出发去预测蛋白互作相比于基于序列的预测方法更加直观可靠。但由于蛋白结构难以获取,目前基于结构的机器学习方法并没有应用在大规模预测中。最近AlphaFold2出现使得从蛋白质序列预测蛋白质单体结构的准确性可以与实验方法相媲美弥补了蛋白质结构数据稀缺的问题,基于结构的预测提供了数据基础

在本工作中,张子丁课题组建立了一个基于图卷积模型PPI预测模型——SGPPI。为了了解PPI的结构模式,SGPPI同时考虑了蛋白质的全局结构特征和潜在蛋白质相互作用界面上斑块的局部结构特征。此外,SGPPI还将进化特征纳入到PPI的结构表示中,以提高其性能。具体来说,SGPPI首先根据这些蛋白质结构计算出残基接触图。课题组把残基接触图看作一个无向图,残基作为节点,残基接触作为边。课题组的工作中将蛋白质视为蛋白质界面补丁的集合,并整合了这些补丁中每个残基的全局和局部结构特征。此外,课题组还添加了包括残基保守信息、蛋白质二级结构类型以及全局和局部几何描述符。通过给残基图中的节点赋予丰富的生物特征,进一步整合和丰富了图中沉积的蛋白质信息。此外,图卷积模型可以通过图中的连接有效地传播和更新节点特征的信息与基本的图卷积结构相比,为了处理对输入预测问题,SGPPI通过孪生网络模型与图卷积结合的方式结实现两个输入蛋白质的耦合特征提取,然后通过特征合并和全连接层来预测给定蛋白质对的相互作用概率。

与以往基于序列的PPI方法相比,SGPPI在具有挑战性的数据集上表现出了很强的鲁棒性和很高的精度。张子丁课题组还通过跨物种预测,证明了结构信息的引入可以有效地处理同源性较低的蛋白质。综上所张子丁课题组开发的SGPPI可以有效地通过蛋白结构去处理那些不能简单地通过序列信息来预测互作的新蛋白。


农业生物技术国家重点实验室张子丁课题组博士生黄焱为该论文的第一作者。张子丁教授和北京大学生物医学信息副研究员周源为该论文的共同通讯作者。该研究得到了国家重点研发项目 (2021YFF1201201) 和国家自然科学基金 (32270703, 31970645)的经费支持。


论文链接:https://doi.org/10.1093/bib/bbad020


【打印本页】 【关闭本页】