南农、国防科大与苏大联合发布：基于Microscopic-Mamba的显微图像分类新方法——运用CNN与Transformer结合MIFA模块实现87.6%高准确率

在医学显微图像分类（MIC）领域，基于卷积神经网络（CNN）和 Transformer 的模型已经取得了广泛的研究成果。然而，CNN 在建模长距离依赖关系方面存在不足，而 Transformer 则受限于较高的计算复杂度。为了克服这些挑战，南京农业大学、国防科技大学、湘潭大学、南京邮电大学和苏州大学的研究团队共同开发了一种新的架构——Microscopic-Mamba。

Microscopic-Mamba 采用 Mamba 架构，旨在通过结合 CNN 的局部特征提取能力和状态空间模型（SSM）的全局依赖关系建模能力，改进显微图像分类的效果。研究团队设计了部分选择前馈网络（PSFFN），取代了视觉状态空间模块（VSSM）的最后一层线性层，增强了模型的局部特征提取能力。此外，他们还引入了调制交互特征聚合（MIFA）模块，使模型能够有效调制和聚合全局及局部特征。并行 VSSM 机制进一步改善了通道间的信息交互，同时减少了参数数量。

该研究以《Microscopic-Mamba：利用 4M 参数揭示显微图像的秘密》为题，于 2024 年 9 月 12 日发布在 arXiv 预印平台。显微成像技术在医学领域至关重要，可以帮助在细胞和分子水平上分析生物结构，从而辅助疾病诊断。然而，手动分类显微图像不仅效率低下，还需要大量的专业知识。尽管 CNN 能有效提取局部特征，但在捕捉长距离依赖关系方面存在局限；ViT 虽能建模全局依赖关系，但计算复杂度较高。因此，科学家们一直在寻找更高效的方法，既能处理局部信息又能处理全局信息，并且不会增加计算负担。

Microscopic-Mamba 通过其独特的双分支结构实现了这一目标。该模型的一个分支使用卷积神经网络（CNN）进行局部特征提取，另一个分支使用状态空间模型（SSM）进行全局依赖关系建模。MIFA 模块有效融合了全局特征和局部特征，使得模型能够同时处理详细的局部信息和广泛的全局模式。VSSM 中的最后一层被 PSFFN 替换，提高了模型捕获局部信息的能力，优化了细节和泛化的平衡。

研究团队在五个公共医学图像数据集上对 Microscopic-Mamba 进行了广泛的测试，结果显示其具有卓越的性能。这些数据集包括视网膜色素上皮（RPE）细胞数据集、疟疾细胞分类的 SARS 数据集、结直肠息肉分类的 MHIST 数据集、肿瘤组织分类的 MedFM Colon 数据集，以及包含超过 236,386 张人类肾细胞图像的 TissueMNIST 数据集。该模型在高准确率和低计算需求之间实现了平衡，非常适合实际医疗应用。例如，在 RPE 数据集上，Microscopic-Mamba 达到了 87.60% 的总体准确率（OA）和 98.28% 的曲线下面积（AUC），优于现有方法。该模型的轻量级设计（4.49 GMAC 和 110 万个参数）使其可以在计算资源有限的环境中部署，同时保持高精度。

消融研究表明，MIFA 模块和 PSFFN 的引入对模型的成功至关重要。将这两个元素结合起来，显著提高了所有数据集上的性能。在 MHIST 数据集上，该模型仅用 486 万个参数就实现了 99.56% 的 AUC，凸显了其在医学图像分类中的效率和有效性。

综上所述，Microscopic-Mamba 模型在医学图像分类领域取得了显著进展。通过结合 CNN 和 SSM 的优势，这种混合架构成功解决了以前方法的局限性，提供了一种计算效率高且高度准确的解决方案。Microscopic-Mamba 在多个数据集上表现出色，有望成为自动化医疗诊断的标准工具，从而简化流程并提高疾病识别的准确性。

本文来源：