扩展无语言的视觉表征学习技术,特别是在多模态环境中,如视觉问题解答(VQA),当前视觉自监督学习(SSL)的表现仍不及语言图像预训练(CLIP)。这种差异通常被认为是由于语言监督引入的语义因素,尽管两者模型通常在不同数据集上进行训练。最近的一项研究中,Yann LeCun、谢赛宁等研究者探讨了一个核心问题:是否语言监督对于多模态建模的视觉表征预训练是必不可少的?
论文标题为《Scaling Language-Free Visual Representation Learning》,链接地址为 [https://arxiv.org/pdf/2504.01017](https://arxiv.org/pdf/2504.01017),项目地址为 [https://davidfan.io/webssl/](https://davidfan.io/webssl/)。研究者表示,他们的目标并非取代语言监督方法,而是探索视觉自监督在多模态应用中的潜力与局限性。为了公平比较,他们在与最先进的 CLIP 模型相同的数十亿规模网络数据(特别是 MetaCLIP 数据集)上训练 SSL 模型,从而控制数据分布差异。
论文共同作者 David Fan 强调,视觉 SSL 已经能够在 VQA 任务上与 CLIP 相媲美,甚至在 OCR 和图表 VQA 上表现出色。Web-SSL 模型系列通过仅基于网络图像训练,无需任何语言监督,证明了这一点。评估方面,研究者主要采用视觉问题解答(VQA)作为框架,大规模评估 SSL 模型的能力,涵盖通用、知识、OCR & 图表以及 Vision-Centric 等多个类别。
随后,他们使用上述设置训练了 Web-SSL 模型系列,参数范围从 10 亿到 70 亿不等,以实现与 CLIP 的直接和可控比较。实证研究表明,视觉 SSL 不仅能在广泛的 VQA 任务中匹配甚至超越语言监督方法,还在模型容量和数据扩展性方面展现出巨大潜力。此外,视觉 SSL 在分类和分割任务中保持传统视觉性能的同时,也提升了 VQA 能力。
研究还发现,对包含文本的图像进行更高比例的训练,可以显著提高 OCR 和图表理解能力。这表明,探索数据构成是一个有前景的方向。实验设置包括将数据集规模扩展至十亿级图像、模型规模扩展至超过 1B 参数,并使用开放式 VQA 任务评估视觉模型。
扩展 Visual SSL
研究者进一步探讨了视觉 SSL 模型在模型规模和数据量方面的扩展行为。重点讨论 DINOv2 和 MAE 方法。通过增加模型大小和所见样本数量,研究者观察到视觉 SSL 的性能随模型规模和数据量的增长而持续提升。
具体而言,当模型大小从 1B 增加到 7B,同时固定训练数据为 20 亿张图像时,DINOv2 ViT 模型在 VQA 上的表现逐渐接近甚至超越 CLIP。特别地,在 OCR 和图表类别中,视觉 SSL 表现出更强的竞争力。随着所见样本数量从 1B 增加到 8B,Vision-Centric VQA 和 OCR & Chart 类别的性能显著提升,表明更大规模的数据有助于优化文本相关任务的表征。
Web-SSL 模型系列
研究者通过 VQA 和经典视觉基准分析了整体性能最佳的视觉编码器。结果显示,Web-DINO 在 VQA 和传统视觉任务中均优于现成的 MetaCLIP 模型。即使数据量减少 5 倍且没有语言监督,Web-DINO 的表现仍可与 SigLIP 和 SigLIP2 相媲美。此外,Web-DINO 在分辨率适应性方面也显示出优势,随着分辨率从 224 提高到 518,其在平均 VQA 和 OCR 图表性能上均有显著提升。
