港大马毅团队等开源新作：用编码率正则化重构视觉自监督学习范式，“少即是多”

简化DINO系列模型训练流程

最新发布的视觉预训练方法由马毅团队、微软研究院和UC伯克利等联合推出。SimDINO和SimDINOv2通过引入编码率正则化，简化了DINO和DINOv2的训练流程，并在性能上取得了显著提升。

在当前的视觉预训练领域，DINO和DINOv2是顶级模型，广泛应用于多模态大模型中的视觉编码器。然而，DINO系列模型的训练过程复杂，需要精心设计的温度调度策略、中心化-锐化操作和高维原型投影层等组件。这些复杂的设置虽然能防止特征崩溃，但也使得训练过程变得异常困难。

为了解决这些问题，SimDINO和SimDINOv2应运而生。它们通过移除复杂的后处理步骤，引入编码率正则化，大幅简化了训练流程，提高了模型的鲁棒性和性能。具体改进包括：

1. 移除经验性组件：删除权重归一化的线性层、平衡操作（如中心化、锐化）以及各种超参数（如温度调度、中心化动量）。
2. 引入编码率正则化：在损失函数中添加一个简单的编码率正则化项，以防止表示崩溃。

核心方法：化繁为简

自监督学习（SSL）在处理大规模未标记图像数据方面取得了显著进展。DINO系列模型作为自监督学习的标杆选手，无需人工标注即可从海量图像中自主学习特征，并在下游任务中屡创佳绩。然而，其复杂的训练过程一直是研究人员的难题。

SimDINO团队发现，DINO中的许多复杂设计（如输出层高维投影、教师网络输出中心化-锐化操作、温度调节等）都是为了防止模型习得的表示“崩溃”。为此，他们提出了编码率正则化方法，通过在损失函数中添加显式的编码率正则项来替代这些复杂设计。

这种方法不仅简化了训练流程，还带来了几个关键优势：
– 更清晰的优化目标
– 更少的组件依赖
– 更容易的理论分析
– 更好的可扩展性

具体而言，SimDINO保留了DINO模型的EMA自蒸馏方案和多视图数据增强方法，但在对比学习方案上进行了修改。抛弃了输出层高维原型投影+交叉熵多分类，直接使用欧几里得距离/余弦相似度比较学生网络和教师网络生成的特征。加入编码率正则化项促使模型学习到更具区分性的表示，移除了教师网络输出中心化-锐化操作、温度调节等避免表示崩溃的技巧。

SimDINOv2 的进一步改进

SimDINOv2 进一步简化了DINOv2 引入的 iBOT机制。它直接使用余弦相似度监督掩码区域token与教师网络表示间的对齐，去除了Sinkhorn-Knopp centering、KoLeo正则化等复杂设计。这使得SimDINOv2的训练更加稳定，性能更强。

实验评估

为了验证SimDINO和SimDINOv2的有效性，研究团队在多个数据集和任务上进行了广泛的实验评估，包括图像分类、目标检测、语义分割以及视频对象分割。实验结果表明，SimDINO系列在计算效率、训练稳定性和下游任务性能上均优于DINO系列。

具体实验包括：
– ImageNet-1K图像分类：SimDINO和SimDINOv2在k-NN 分类和线性评估上表现优异。
– COCO val2017无监督目标检测与实例分割：采用MaskCut作为基础检测框架，主要对比了AP50、AP75和AP三个指标。
– ADE20K语义分割和DAVIS-2017视频对象分割：主要对比了mIoU和mAcc等指标，展示了SimDINO在定性特征可视化分析上的优越表现。

此外，项目论文还通过理论分析提出了关于SimDINO超参数选择的方法，确保两个项的梯度范数在优化过程中保持平衡。

研究团队

SimDINO系列由UC伯克利、忆生科技、微软研究院、香港大学等多所学校与机构的研究者共同完成。一作是UC伯克利三年级博士生吴梓阳，导师是马毅。他主要研究方向为表征学习与多模态学习，致力于通过数学与统计理论构建高效、可解释的深度学习模型。

在论文最后，SimDINO研究团队提出了几个潜在改进方向，包括探索不需要自蒸馏优化的自监督目标，简化后的框架为自监督学习的理论分析提供了更好的切入点，并将“显式化隐式设计选择”的范式推广到其他框架。

论文与代码链接

– [论文地址](https：//arxiv.org/abs/2502.10385)
– [项目主页](https：//robinwu218.github.io/SimDINO)
– [GitHub](https：//github.com/RobinWu218/SimDINO)

本文来源：