通过优化视觉Token位置编码间隔,清华大学、香港大学与上海AI Lab在视觉-语言多模态大模型中实现百万Token长上下文理解的新突破!基于Variable Vision Position Embedding (V2PE)技术,该研究显著提升了Transformer架构在处理多模态数据集时的表现,使得机器能够更高效地理解和生成复杂的视觉与文本信息。
清华大学、香港大学和上海AI Lab联合提出V2PE:突破视觉-语言多模态大模型长上下文瓶颈
机器之心的AIxiv专栏一直致力于发布前沿的学术和技术,过去几年已报道了超过2000篇来自全球顶尖高校和企业的研究成果。为了进一步促进学术交流与传播,我们诚邀各位学者和研究人员投稿或联系报道,邮箱为liyazhou@jiqizhixin.com和zhaoyunfeng@jiqizhixin.com。
本文由葛俊岐(清华大学本科生)、陈子熠(清华大学本科生)、林锦涛(香港大学博士生)和祝金国(上海AI Lab青年研究员)共同撰写,通讯作者是朱锡洲,他的研究方向包括视觉基础模型和多模态基础模型,代表作有Deformable DETR、DCN v2等。
随着语言大模型的成功,视觉-语言多模态大模型(Vision-Language Multimodal Models, VLMs)发展迅速,但在处理长上下文场景时表现不佳,严重制约了其实际应用潜力。为此,清华大学、香港大学和上海AI Lab联合提出了一种新的位置编码方法——Variable Vision Position Embedding (V2PE),在长上下文场景下取得了显著突破。
V2PE:解决传统位置编码瓶颈的新方法
位置编码是多模态大模型中的关键技术,用于让模型理解输入序列的相对位置关系。然而,现有的多模态模型通常沿用文本模型的位置编码方式,这并非最优方案。V2PE通过为视觉token分配可变位置增量,有效解决了传统位置编码在处理超长上下文任务时的性能瓶颈问题。
具体来说,V2PE通过避免位置编码超出模型训练上下文窗口的限制,显著提升了模型在32K至1M长度超长上下文任务中的表现。相比传统位置编码的模型,采用V2PE的模型在这些任务中实现了突破性改进,甚至超越了最先进的闭源大模型。
V2PE的主要贡献
1. 构建混合数据集:研究团队构建了一个用于VLMs长上下文训练和评估的混合数据集,发现直接将LLM的位置编码机制应用于视觉token是次优选择。
2. 提出创新策略:提出了可变视觉位置信息编码(V2PE),通过为视觉token分配可变且较小的增量,大幅提升了VLMs对长多模态上下文的理解和推理能力。
3. 优化开源模型:将V2PE方法和扩展训练数据应用于开源视觉模型InternVL2-2B,微调后的模型在统一多模态基准测试和长上下文多模态任务中表现出色,成功处理长达1M token的序列。
长上下文多模态数据集的增强
研究团队引入了两个增强的长上下文多模态数据集:Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR)。这些数据集旨在提升VLMs的长上下文能力并建立评估框架。Long-VQA扩展了17个广泛采用的数据集,涵盖常识推理、事实知识和解释文本和视觉信息的任务;Long-MR则通过检测交错的文本图像中的目标图像或段落,评估VLMs处理超长上下文的能力。
实验结果与分析
经过一系列实验,研究团队发现V2PE显著提升了模型在长上下文场景下的表现。特别是在1M上下文长度下的测试中,V2PE的表现明显优于不加V2PE的模型和使用插值方法的模型,甚至超越了先进的闭源大模型。此外,消融实验和注意力图分析也证明了V2PE的有效性。
总之,V2PE为视觉-语言模型在长上下文场景下的表现提供了新的思路,通过为视觉token分配可变的位置增量,有效解决了位置编码超出模型训练上下文窗口的问题,提升了模型在长上下文场景下的表现。这一成果将为视觉-语言模型的发展带来新的机遇,拓展其在多模态任务中的应用可能性。
本文来源: 机器之心【阅读原文】