机器学习模型Evo:从分子到基因组的精准解码与设计
近日,《Science》杂志封面刊登了一项由美国Arc研究所和斯坦福大学联合完成的重要研究成果。研究团队开发了一种名为“Evo”的机器学习模型,该模型能够在分子到基因组的尺度上精确解码和设计DNA、RNA及蛋白质序列。这一突破性的技术有望彻底改变合成生物学的运作方式。
Evo模型基于数十亿条基因序列进行训练,能够推断出细菌和病毒基因组的运作机制,并利用这些信息设计新的蛋白质甚至整个微生物基因组。这不仅有助于科学家探索进化、研究疾病,还能开发新的治疗方法,解决许多生物医学难题。
Evo模型的优势与应用
Evo模型的核心在于其强大的基础模型特性。与AlphaFold等专门用于预测蛋白质结构的模型不同,Evo是一种通用的基础模型,能够处理多种任务,无需为每个任务单独构建和训练模型,从而节省时间和成本。Evo的训练数据涵盖了270万个进化多样的原核生物和噬菌体基因组,使其具备了对DNA语言的基本理解。
为了提高Evo的性能,研究团队增加了模型的上下文长度,使其能够识别更复杂的基因模式,并将分辨率提升至单个核苷酸的水平。经过4周的训练,Evo从3000亿个核苷酸的序列信息中学习,展示了卓越的预测和生成能力。
实验验证与未来展望
研究人员通过一系列实验验证了Evo的性能。例如,Evo在预测突变对蛋白质性能的影响方面表现出色,其准确度超过了现有的AI模型。此外,Evo还成功设计了新的CRISPR基因组编辑器,其中一种设计的Cas9酶在切割DNA方面的表现与商业版本相当。
Evo的多模态生成能力也得到了验证,研究团队成功生成了合成的CRISPR-Cas分子复合物和转座系统。这些成果标志着使用语言模型进行蛋白质-RNA和蛋白质-DNA协同设计的首次成功尝试。
尽管Evo在某些情况下会产生“幻觉”,即提出无法实际工作的分子设计,但其在新分子选择方面的表现仍远胜于传统的筛选方法。此外,Evo还展示了生成完整细菌基因组的能力,虽然这些模拟基因组尚不完善,但被认为是向AI设计的合成基因组迈出的重要一步。
学术界的认可与展望
Evo的研究成果得到了学术界的广泛认可。未参与该研究的美国石溪大学计算生物学家Ramana Davuluri认为,Evo模型大大提升了我们理解和描述基因组的能力。纽约市非营利组织Tatta Bio的计算生物学家Yunha Hwang强调,实验验证是该研究的一大亮点,表明Evo模型的实际应用潜力巨大。
德克萨斯大学MD安德森癌症中心的统计学家Chong Wu指出,Evo模型从大量数据中学习,使其更加可靠。研究团队已公开发布Evo,以便其他研究人员可以使用这一工具,进一步推动相关领域的研究进展。
关于Arc研究所
Arc研究所是一家位于加利福尼亚州帕洛阿尔托的非营利性研究机构,致力于通过创新的组织模式加速重要科学项目的进展。Arc与斯坦福大学、加州大学旧金山分校和加州大学伯克利分校合作,为科学家提供无附加条件的多年期资金,支持跨学科合作,研究复杂疾病,包括癌症、神经退行性疾病和免疫功能障碍。Arc的最终目标是加速科学进步,了解疾病的根本原因,并缩短发现与临床应用之间的距离。
本文来源: 机器之心【阅读原文】