标签:蛋白质表征

计算蛋白质工程最新SOTA方法,牛津团队用密码子训练大语言模型

牛津大学的研究团队在蛋白质工程领域开辟新路径,他们发现训练于密码子而非氨基酸序列的大型语言模型能提供优质的蛋白质表征,且在多种任务中超越现有最先进的模型。这项研究发表在2024年2月的《Nature Machine Intelligence》上,题为“Codon language embeddings provide strong signals for use in protein engineering”。 尽管预训练语言模型已是计算蛋白质工程的关键工具,但目前大多聚焦于模型规模的扩大。然而,牛津团队的模型CaLM(8600万参数)在密码子序列上预训练,展现出在物种识别、蛋白质丰度预测等任务上的优...