酶在众多生物过程中扮演着关键角色,而酶委员会(EC)编号则是编码酶功能的重要工具。然而,现有的 EC 编号预测技术往往忽视了酶活性位点和结构特征的关键作用。近期,中山大学的研究团队推出了一款名为 GraphEC 的新型预测工具,该工具基于几何图学习技术,结合 ESMFold 预测的蛋白质结构和预训练的蛋白质语言模型,能够更准确地预测酶的功能。
GraphEC的工作原理与优势
GraphEC 通过几何图学习技术,从蛋白质结构中提取功能信息,从而实现对酶活性位点、EC 编号和最佳 pH 值的精准预测。具体而言,给定一个蛋白质序列,GraphEC 首先使用 ESMFold 预测其三维结构,并构建蛋白质图。接着,通过预测结构提取几何特征,并结合预训练的语言模型(如 PtrotTrans)生成的序列嵌入,进一步增强这些特征。这些特征被输入到几何图学习网络中,用于学习几何嵌入,最终实现酶功能的预测。
预测流程详解
在预测过程中,GraphEC 首先通过 GraphEC-AS 模块预测酶的活性位点,并为每个氨基酸残基分配权重分数。随后,利用这些权重分数指导注意力层和池化层的计算,进行 EC 编号的初步预测。为了提高预测精度,模型还通过标签扩散算法提取同源信息,进一步优化 EC 编号的预测结果。此外,GraphEC 还扩展至最佳 pH 值的预测,通过注意力池化层更好地表示反应条件。
性能评估与应用前景
通过对多个独立测试集的全面评估,GraphEC 在预测酶活性位点、EC 编号和最佳 pH 值方面表现出色,优于现有的所有先进方法。研究结果表明,几何图学习技术在从蛋白质结构中提取功能信息方面具有显著优势。尽管如此,GraphEC 仍存在改进的空间,例如通过提高预测结构的质量或整合其他序列特征来增强模型的稳定性。随着大型语言模型的发展,未来还可以利用这些模型从文本描述中提取更多有用信息,进一步提升预测性能。
结论
中山大学研究团队开发的 GraphEC 工具为酶功能预测提供了一个准确、快速的解决方案。研究人员可以通过这一工具仅从酶序列中准确预测其功能,进一步分析酶的功能区域(活性位点)和反应条件(pH 值),从而加速实验研究的进程。相关研究成果已发表在《Nature Communications》上,论文链接如下:[https://www.nature.com/articles/s41467-024-52533-w](https://www.nature.com/articles/s41467-024-52533-w)。
本文来源: 机器之心【阅读原文】