标签:视觉预训练

少即是多

港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多” 简化DINO系列模型训练流程 最新发布的视觉预训练方法由马毅团队、微软研究院和UC伯克利等联合推出。SimDINO和SimDINOv2通过引入编码率正则化,简化了DINO和DINOv2的训练流程,并在性能上取得了显著提升。 在当前的视觉预训练领域,DINO和DINOv2是顶级模型,广泛应用于多模态大模型中的视觉编码器。然而,DINO系列模型的训练过程复杂,需要精心设计的温度调度策略、中心化-锐化操作和高维原型投影层等组件。这些复杂的设置虽然能防止特征崩溃,...