登Science封面！Evo模型结合机器学习与CRISPR技术，革新基因组设计与合成生物学领域，AI精准解码分子、DNA、RNA和蛋白质

机器学习模型Evo：从分子到基因组的精准解码与设计

近日，《Science》杂志封面刊登了一项由美国Arc研究所和斯坦福大学联合完成的重要研究成果。研究团队开发了一种名为“Evo”的机器学习模型，该模型能够在分子到基因组的尺度上精确解码和设计DNA、RNA及蛋白质序列。这一突破性的技术有望彻底改变合成生物学的运作方式。

Evo模型基于数十亿条基因序列进行训练，能够推断出细菌和病毒基因组的运作机制，并利用这些信息设计新的蛋白质甚至整个微生物基因组。这不仅有助于科学家探索进化、研究疾病，还能开发新的治疗方法，解决许多生物医学难题。

Evo模型的优势与应用

Evo模型的核心在于其强大的基础模型特性。与AlphaFold等专门用于预测蛋白质结构的模型不同，Evo是一种通用的基础模型，能够处理多种任务，无需为每个任务单独构建和训练模型，从而节省时间和成本。Evo的训练数据涵盖了270万个进化多样的原核生物和噬菌体基因组，使其具备了对DNA语言的基本理解。

为了提高Evo的性能，研究团队增加了模型的上下文长度，使其能够识别更复杂的基因模式，并将分辨率提升至单个核苷酸的水平。经过4周的训练，Evo从3000亿个核苷酸的序列信息中学习，展示了卓越的预测和生成能力。

实验验证与未来展望

研究人员通过一系列实验验证了Evo的性能。例如，Evo在预测突变对蛋白质性能的影响方面表现出色，其准确度超过了现有的AI模型。此外，Evo还成功设计了新的CRISPR基因组编辑器，其中一种设计的Cas9酶在切割DNA方面的表现与商业版本相当。

Evo的多模态生成能力也得到了验证，研究团队成功生成了合成的CRISPR-Cas分子复合物和转座系统。这些成果标志着使用语言模型进行蛋白质-RNA和蛋白质-DNA协同设计的首次成功尝试。

尽管Evo在某些情况下会产生“幻觉”，即提出无法实际工作的分子设计，但其在新分子选择方面的表现仍远胜于传统的筛选方法。此外，Evo还展示了生成完整细菌基因组的能力，虽然这些模拟基因组尚不完善，但被认为是向AI设计的合成基因组迈出的重要一步。

学术界的认可与展望

Evo的研究成果得到了学术界的广泛认可。未参与该研究的美国石溪大学计算生物学家Ramana Davuluri认为，Evo模型大大提升了我们理解和描述基因组的能力。纽约市非营利组织Tatta Bio的计算生物学家Yunha Hwang强调，实验验证是该研究的一大亮点，表明Evo模型的实际应用潜力巨大。

德克萨斯大学MD安德森癌症中心的统计学家Chong Wu指出，Evo模型从大量数据中学习，使其更加可靠。研究团队已公开发布Evo，以便其他研究人员可以使用这一工具，进一步推动相关领域的研究进展。

关于Arc研究所

Arc研究所是一家位于加利福尼亚州帕洛阿尔托的非营利性研究机构，致力于通过创新的组织模式加速重要科学项目的进展。Arc与斯坦福大学、加州大学旧金山分校和加州大学伯克利分校合作，为科学家提供无附加条件的多年期资金，支持跨学科合作，研究复杂疾病，包括癌症、神经退行性疾病和免疫功能障碍。Arc的最终目标是加速科学进步，了解疾病的根本原因，并缩短发现与临床应用之间的距离。

本文来源：