预测蛋白质与DNA的结合特性是解析基因调控机制的重要环节。鉴于此,南加州大学(University of Southern California)与华盛顿大学(University of Washington)的研究团队开发了一种名为DeepPBS(深度结合特异性预测器)的几何深度学习模型。这项技术旨在通过蛋白质-DNA复合物的结构信息来预测其结合特性。该研究成果已于2024年8月5日在《Nature Methods》杂志上发表。
转录因子通过与特定DNA序列的结合来调控生命活动,这种结合涉及多种机制,如静电相互作用、脱氧核糖堆积效应及氢键形成等。蛋白质-DNA复合物的结构信息通常借助X射线晶体学、核磁共振波谱或低温电子显微镜等实验手段获取,并被记录在蛋白质数据库(PDB)中。然而,这些结构仅能展示特定的DNA序列及其物理化学相互作用,并不能覆盖所有可能的结合序列。
为了弥补这一不足,高通量实验如蛋白质结合微阵列、SELEX-seq等技术能够捕捉潜在的结合序列范围,但却缺乏相应的结构信息。因此,整合结构数据与高通量实验数据对于全面理解转录因子的结合特性至关重要。
面对这一挑战,研究团队提出了DeepPBS。该模型不仅可以从蛋白质-DNA复合物的结构中提取关键信息,还能预测结合特性,表现为位置权重矩阵(PWM)。DeepPBS跨越了不同的蛋白质家族,成为连接结构确定与结合特性测定实验的桥梁。
DeepPBS不仅能处理实验获得的结构,还可以利用AlphaFold、OpenFold、RoseTTAFold等蛋白质结构预测方法,以及RoseTTAFoldNA、RoseTTAFold All-Atom等蛋白质-DNA复合物建模技术产生的结构数据。这使得DeepPBS能够在缺少实验结构的情况下预测蛋白质的结合特性,并优化蛋白质-DNA复合物的设计。
此外,DeepPBS还能提供蛋白质中与DNA相互作用的不同重原子的“相对重要性”(RI)分数,帮助研究人员更好地理解蛋白质-DNA界面的细节。通过与现有文献对比验证,这些RI分数与现有的知识相符合,并能与丙氨酸扫描诱变实验结果保持一致。
虽然DeepPBS目前仅适用于双链DNA,但其架构有望在未来得到优化和扩展,以适应更多应用场景。DeepPBS的应用前景广泛,不仅能加速药物设计和治疗方法的发展,还能促进合成生物学和RNA研究的进步。
本文来源: 机器之心【阅读原文】