计算蛋白质工程最新SOTA方法，牛津团队用密码子训练大语言模型

每日AI快讯1年前 (2024)发布 AI部落小助手

牛津大学的研究团队在蛋白质工程领域开辟新路径，他们发现训练于密码子而非氨基酸序列的大型语言模型能提供优质的蛋白质表征，且在多种任务中超越现有最先进的模型。这项研究发表在2024年2月的《Nature Machine Intelligence》上，题为“Codon language embeddings provide strong signals for use in protein engineering”。

尽管预训练语言模型已是计算蛋白质工程的关键工具，但目前大多聚焦于模型规模的扩大。然而，牛津团队的模型CaLM（8600万参数）在密码子序列上预训练，展现出在物种识别、蛋白质丰度预测等任务上的优越性能，甚至超越了参数量大50倍的模型。

蛋白质表征学习的挑战在于如何获取更丰富的信息。除了增大模型规模和改进架构，使用含有更多生物信号的数据也是一种策略。密码子作为DNA编码蛋白质的单位，其使用模式与蛋白质结构、折叠及疾病相关。因此，利用密码子序列训练的模型能提高预测任务的准确性。

CaLM模型的性能优势在于它能捕捉密码子使用模式，当这些信息丢失时，优势也随之减弱。研究者建议采用cDNA序列训练蛋白质模型，以提升计算蛋白质工程的效果。此外，密码子语言模型还能为无对比蛋白质结构预测提供有价值的进化信号。

未来的研究方向包括扩大模型规模和开发结合氨基酸与编码序列的多模态模型。这将有助于深入理解那些氨基酸序列无法直接反映的蛋白质特性，如折叠动态和表达效率。通过利用更丰富的生物数据，机器学习在生物学领域的潜力将进一步释放。

本文来源：