南农、国防科大与苏大联合发布:基于Microscopic-Mamba的显微图像分类新方法——运用CNN与Transformer结合MIFA模块实现87.6%高准确率
在医学显微图像分类(MIC)领域,基于卷积神经网络(CNN)和 Transformer 的模型已经取得了广泛的研究成果。然而,CNN 在建模长距离依赖关系方面存在不足,而 Transformer 则受限于较高的计算复杂度。为了克服这些挑战,南京农业大学、国防科技大学、湘潭大学、南京邮电大学和苏州大学的研究团队共同开发了一种新的架构——Microscopic-Mamba。
Microscopic-Mamba 采用 Mamba 架构,旨在通过结合 CNN 的局部特征提取能力和状态空间模型(SSM)的全局依赖关系建模能力,改进显微图像分类的效果。研究团队设计了部分选择前馈网络(PSFFN),取代了视觉状态空间模块(VSSM)的最后一层线性层,增强了模型的局部特征提取能力。此外,他们还引入了调制交互特征聚合(MIFA)模块,使模型能够有效调制和聚合全局及局部特征。并行 VSSM 机制进一步改善了通道间的信息交互,同时减少了参数数量。
该研究以《Microscopic-Mamba:利用 4M 参数揭示显微图像的秘密》为题,于 2024 年 9 月 12 日发布在 arXiv 预印平台。显微成像技术在医学领域至关重要,可以帮助在细胞和分子水平上分析生物结构,从而辅助疾病诊断。然而,手动分类显微图像不仅效率低下,还需要大量的专业知识。尽管 CNN 能有效提取局部特征,但在捕捉长距离依赖关系方面存在局限;ViT 虽能建模全局依赖关系,但计算复杂度较高。因此,科学家们一直在寻找更高效的方法,既能处理局部信息又能处理全局信息,并且不会增加计算负担。
Microscopic-Mamba 通过其独特的双分支结构实现了这一目标。该模型的一个分支使用卷积神经网络(CNN)进行局部特征提取,另一个分支使用状态空间模型(SSM)进行全局依赖关系建模。MIFA 模块有效融合了全局特征和局部特征,使得模型能够同时处理详细的局部信息和广泛的全局模式。VSSM 中的最后一层被 PSFFN 替换,提高了模型捕获局部信息的能力,优化了细节和泛化的平衡。
研究团队在五个公共医学图像数据集上对 Microscopic-Mamba 进行了广泛的测试,结果显示其具有卓越的性能。这些数据集包括视网膜色素上皮(RPE)细胞数据集、疟疾细胞分类的 SARS 数据集、结直肠息肉分类的 MHIST 数据集、肿瘤组织分类的 MedFM Colon 数据集,以及包含超过 236,386 张人类肾细胞图像的 TissueMNIST 数据集。该模型在高准确率和低计算需求之间实现了平衡,非常适合实际医疗应用。例如,在 RPE 数据集上,Microscopic-Mamba 达到了 87.60% 的总体准确率(OA)和 98.28% 的曲线下面积(AUC),优于现有方法。该模型的轻量级设计(4.49 GMAC 和 110 万个参数)使其可以在计算资源有限的环境中部署,同时保持高精度。
消融研究表明,MIFA 模块和 PSFFN 的引入对模型的成功至关重要。将这两个元素结合起来,显著提高了所有数据集上的性能。在 MHIST 数据集上,该模型仅用 486 万个参数就实现了 99.56% 的 AUC,凸显了其在医学图像分类中的效率和有效性。
综上所述,Microscopic-Mamba 模型在医学图像分类领域取得了显著进展。通过结合 CNN 和 SSM 的优势,这种混合架构成功解决了以前方法的局限性,提供了一种计算效率高且高度准确的解决方案。Microscopic-Mamba 在多个数据集上表现出色,有望成为自动化医疗诊断的标准工具,从而简化流程并提高疾病识别的准确性。
本文来源: 机器之心【阅读原文】