RNA 3D 结构预测的新突破
RNA 分子在分子生物学的中心法则中扮演着至关重要的角色,其结构如何影响基因调控和功能一直是科研人员关注的焦点。然而,准确预测 RNA 的三维(3D)结构一直是一项艰巨的任务。RNA 的结构灵活性导致实验数据稀缺,从而增加了计算预测的难度。近日,香港中文大学、复旦大学、哈佛大学及智峪生科(Zelixir)等多家机构联合开发了一种基于 RNA 语言模型的深度学习方法——RhoFold+,用于高效、准确地从头预测 RNA 3D 结构。
RhoFold+ 利用了在约 2370 万个 RNA 序列上预训练的 RNA 语言模型,解决了数据稀缺的问题,并提供了一个完全自动化的端到端流程。该方法在单链 RNA 建模方面表现出色,不仅在不同 RNA 家族和类型之间具有出色的泛化能力,还能捕捉到螺旋间夹角(IHA)和二级结构等局部特征。通过对 RNA-Puzzles 和 CASP15 天然 RNA 靶标的回顾性评估,RhoFold+ 显示出优于现有方法的表现,甚至超过了人类专家组的水平。
RNA 3D 结构的重要性
确定 RNA 3D 结构对于理解其功能至关重要,尤其是在 RNA 靶向药物开发和合成生物学设计中。然而,RNA 分子的构象灵活性使得实验确定其 3D 结构极具挑战性。截至 2023 年 12 月,蛋白质数据库(PDB)中约 214,000 个结构中,RNA 结构仅占不到 1.0%,含 RNA 复合物则占 2.1%。因此,计算方法成为利用 RNA 序列数据进行 3D 结构预测的重要手段。
目前,计算方法主要分为两类:基于模板的建模,如 ModeRNA 和 RNAbuilder,但受限于模板库的有限性;以及从头预测方法,如 FARFAR2、3dRNA 和 SimRNA,这些方法虽然更具预测性,但计算量巨大。RhoFold+ 作为其前身 RhoFold 的改进版,通过引入改进的多序列比对(MSA)集成和其他功能,显著提高了性能。
RhoFold+ 的技术细节
RhoFold+ 的开发基于 RNA 特定的知识和现有 3D 结构数据的局限性。为了构建训练数据集,研究人员使用 BGSU 代表性 RNA 结构集(版本 2022-04-13)从 PDB 中整理了所有可用的 RNA 3D 结构。研究重点放在单链 RNA 上,并通过在 80% 序列相似性阈值下使用 Cd-hit 对序列进行聚类,从 5,583 条 RNA 链中产生了 782 个独特的序列簇。这些 RNA 序列随后通过 RhoFold+ 管道处理。
首先,使用大型 RNA 语言模型 RNA-FM 对序列进行转换,提取进化和结构上的嵌入信息。同时,通过搜索广泛的序列数据库生成 MSA。接着,将嵌入和 MSA 特征输入到其 transformer 网络 Rhoformer 中,并进行十个周期的迭代优化。之后,结构模块采用几何感知注意机制和不变点注意力(IPA)模块,优化 RNA 主链中关键原子的局部框架坐标和扭转角。在重建全原子坐标后,应用了结构约束,如二级结构和碱基配对。
RhoFold+ 的性能评估
开发完成后,研究人员通过广泛的测试对 RhoFold+ 的性能进行了严格的基准测试和评估。测试包括 RNA-Puzzles 靶标、CASP15 天然 RNA 靶标以及所有可用的实验确定的 RNA 3D 结构。结果显示,RhoFold+ 在 CASP15 天然 RNA 靶标上取得了最佳结果,并在 RNA-Puzzles 结构中实现了低于 4 Å 的平均均方根位移。RhoFold+ 的效率极高,只需 0.14 秒即可生成准确的预测,无需耗时的采样或依赖专家知识。此外,它在不同数据集上的表现也非常出色,包括新确定的 RNA 3D 结构,展示了其强大的泛化能力和多功能性。
未来展望
RhoFold+ 的成功不仅在于其对训练数据的学习,还在于其能够超越训练数据中最好的单个模板。这表明 RhoFold+ 具有学习底层结构原理的能力。此外,RhoFold+ 还能预测 RNA 的二级结构和螺旋间角(IHA),使其成为辅助实验设计的潜在工具。
这些发现对 RNA 研究领域具有重要意义,特别是在加速对 RNA 结构的识别和功能理解方面。RhoFold+ 作为一种快速准确的 RNA 3D 结构预测方法,有望在基于 RNA 的药物设计、合成生物学应用以及对 RNA 在细胞过程中的作用的理解中发挥重要作用。未来的研究将致力于整合探测数据、分子动力学和能量函数方法,以进一步提高 RhoFold+ 的准确性。此外,增强 MSA 提取过程并探索预测 RNA-蛋白质和 RNA-配体相互作用的方法将进一步提升其能力。
本文来源: 机器之心【阅读原文】