北京大学的研究团队开发了一个基于序列的深度学习模型

人类必需蛋白(Human Essential Proteins, HEP)对个体的生存和发育至关重要。然而,传统的实验方法鉴定 HEP 通常成本高昂且耗时。此外,现有的计算方法主要在细胞系水平上预测 HEP,但 HEP 在活体人类、细胞系和动物模型中存在显著差异。为此,北京大学的研究团队开发了一个基于序列的深度学习模型——蛋白质重要性计算器(Protein Importance Calculator, PIC),通过微调预训练的蛋白质语言模型,实现了对 HEP 的全面预测。

PIC 模型不仅在预测性能上远超现有方法,还能够在人类、细胞系和小鼠三个层面上进行全面预测。研究团队定义了一个新的蛋白质必需评分(Protein Essentiality Score, PES),并通过一系列生物学分析验证了其有效性。此外,他们还展示了 PES 在识别乳腺癌预后生物标志物和量化人类微蛋白必要性方面的生物医学价值。该研究成果已发表在《Nature Computational Science》杂志上,题为“基于预训练大型语言模型的全面预测和分析人类蛋白质必需性”。

PIC 模型概述

PIC 是一系列用于全面预测人类必需蛋白质的深度学习模型,包括三个不同层次的 325 个模型:一个用于人类水平(PIC-human),一个用于小鼠水平(PIC-mouse),以及 323 个用于细胞系水平(PIC-cell)。蛋白质必需性数据分别从 gnomAD、OGEE-MGI 和 Project Score 数据库中获取,用于训练这些模型。所有 PIC 模型都采用了相同的架构,包括嵌入、注意力和预测三个主要模块。对于 323 个细胞级模型,研究人员使用软投票策略在集成学习框架中汇总预测结果,从而获得高性能的 PIC 细胞模型。此外,还开发了 28 个疾病级和 19 个组织级 PIC 模型,能够预测特定疾病或组织中的人类蛋白质必要性。

PIC 模型的整体性能

研究人员使用多种指标(如准确度、召回率、精确度、F1 分数、AUROC 和 AUPRC)评估了 PIC 模型在独立测试数据集上的性能。结果显示,PIC-human 的 AUROC 达到 0.9132,PIC-mouse 为 0.8736,而 323 个细胞级模型的中位 AUROC 为 0.8579。为了进一步验证 PIC 模型的性能,研究人员将其与三种广泛使用的基于序列的蛋白质必要性预测模型(EP-EDL、EP-GBDT 和 DeepCellEss)进行了比较。结果表明,PIC 在 AUROC 上平均提高了 5.13% 至 12.10%,并在其他指标上也表现出显著优势。

未来探索

PIC 模型考虑了人类蛋白质重要性在不同层次上的变化,能够预测活体人类、人类细胞系和动物模型中的蛋白质必要性分数。研究团队认为,PIC 将有助于用户全面预测和理解人类蛋白质的重要性,促进治疗靶点和预后生物标志物的发现。未来的研究方向包括:

1. 增强 PES 的可解释性:尽管 PES 已经初步验证了其生物学意义,但神经网络模型的黑盒特性限制了对其核心生物学含义的深入解释。
2. 预测不同物种的蛋白质必要性:目前 PIC 仅限于预测人类蛋白质的必要性,未来可以扩展到其他物种,如细菌和其他微生物,这对于药物发现具有重要意义。
3. 结合蛋白质结构信息:目前 PIC 模型仅基于蛋白质序列进行预测,未来可以整合蛋白质结构特征,以提高预测准确性。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...