利用低温电子断层扫描与单粒子断层扫描技术,结合MiLoPYP及数据集特定对比学习法,实现蛋白质定位及核酸、蛋白、细胞结构的高效精准解析——AI驱动的快速分子模式挖掘研究。
低温电子断层扫描技术(cryo-electron tomography, CET)已成为一种重要的工具,可以在纳米级分辨率下可视化细胞的三维结构。结合单粒子断层扫描技术(single-particle tomography, SPT),这种技术能够提供细胞内大分子在自然环境中的近原子分辨率结构。然而,CET/SPT 面临的主要挑战之一是如何自动识别和定位细胞内的蛋白质。这些问题主要源于细胞内分子拥挤、低温电子断层扫描图像特有的成像失真以及庞大的数据集规模。
针对这些挑战,杜克大学的研究团队开发了一种名为 MiLoPYP 的两步式数据集特定对比学习框架。该框架能够在细胞环境中快速挖掘分子模式,并准确地定位蛋白质。MiLoPYP 可以有效检测和定位各种类型的蛋白质,包括球状复合物、膜蛋白和纤维状蛋白,从而简化和扩展高分辨率工作流程在结构测定中的应用。相关研究成果发表在《Nature Methods》杂志上,题目为“MiLoPYP: self-supervised molecular pattern mining and particle localization in situ”。
在细胞样本制备、断层扫描数据收集和图像处理方面取得的进步使得 CET/SPT 成为确定天然状态下蛋白质结构的首选技术。然而,计算工具的缺乏仍然是一个关键问题,尤其是在筛选细胞内复杂环境方面。为了解决这一问题,研究人员开发了 MiLoPYP,这是一种强大的数据集特定框架,用于分子模式挖掘和细胞探索。
MiLoPYP 由两个主要模块组成:细胞探索模块和蛋白质定位模块。这两个模块都需要极少的监督,从而提高了其实用性。在细胞探索模块中,MiLoPYP 使用高斯差 (Difference of Gaussians, DoG) 金字塔来识别感兴趣的坐标点,而不是简单的滑动窗口方法。这种方法提高了计算效率。从断层图像中提取这些坐标点为中心的子体积,并输入 Siamese 网络进行表征学习。通过成对的增强子体积作为输入,网络可以最大化每个子体积与其增强子体积之间的相似性,从而无需真实标签。
训练后的网络能够有效地将形状相似的蛋白质组合在一起,并将形状不同的蛋白质分配给不同的表示。MiLoPYP 提供了三种可视化方法:2D 网格可视化、3D 断层扫描可视化和 3D 嵌入交互会话。这些方法帮助用户更好地理解细胞内部结构,并方便地选择和可视化频繁出现的粒子子集。
为了提高蛋白质定位的准确性,MiLoPYP 还包括一个半监督的细化步骤。该步骤生成一个概率热图,表示给定蛋白质在断层图像中每个体素的存在概率。通过非最大抑制 (Non-Maximum Suppression, NMS) 和用户定义的阈值处理,最终生成 3D 坐标输出,用于后续的 SPT 分析。
MiLoPYP 作为一种便捷的工具,能够绘制细胞内部图谱并定位多种蛋白质。该框架无需手动标记,能够高效地处理数百张断层图像,适用于高分辨率 SPT 分析。此外,MiLoPYP 还能准确检测膜结合和管状复合物,使其成为原位分子模式挖掘的多功能工具。
本文来源: 机器之心【阅读原文】