CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯

港中文大学的MMLab与腾讯AI Lab合作的研究揭示了一个令人惊讶的发现,即使用与任务无关多模态数据可以提升Transformer模型的性能。这种跨模态增益现象表明,即使在训练图像分类模型时,加入视频、音频、点云等非直接相关的数据也能显著提高模型在图像识别上的表现。研究团队提出了一种名为多模态通路(Multimodal Pathway)的框架,利用跨模态重参数化技术,让Transformer在处理特定模态数据时能利用其他模态的无关数据进行训练,且不增加推理成本。实验结果显示,这种方法在图像识别、点云处理、视频理解和音频分析等多个任务上展现出一致性性能提升。例如,在ImageNet任务中,结合点云数据的Transformer模型识别准确率提升了0.7%。该研究揭示了多模态学习的潜力,即使在不相关的多模态数据之间也存在增益效果,为数据有限或难以标注的领域提供了新思路,如自动驾驶、医疗影像分析和自然语言处理。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...