UniToken:多模态AI技术的突破,实现图文理解与图像生成的多任务联合训练

整理后的

引言
近年来,多模态AI技术的快速发展为图文理解图像生成带来了新的突破。复旦大学和美团的研究团队提出了一种名为UniToken的统一视觉编码方案,成功在单一框架内实现了对图文理解与图像生成任务的支持。这一创新不仅打破了多模态统一建模的瓶颈,还为未来的研究提供了全新的方向。

UniToken的核心优势
UniToken通过融合连续和离散的视觉表征,有效解决了传统方法中“任务干扰”和“表示割裂”的问题。它采用双编码器架构,将VQ-GAN的离散编码与SigLIP的连续表征结合,从而兼顾了高层语义与底层细节。这种设计使得UniToken能够在多个权威评测中取得领先的性能表现。

训练策略详解
为了更好地协调理解与生成任务的特性,UniToken采用了三阶段训练流程:
1. 视觉语义空间对齐:基于Chameleon作为基座模型,本阶段旨在为LLM接入SigLIP的连续视觉编码。通过冻结LLM并仅训练SigLIP ViT和Adapter,确保输出与语言空间对齐。
2. 多任务联合训练:利用第一阶段对齐后的双边编码器提供的完备视觉信息,在大规模图文理解与图像生成数据集上进行联合训练,通过控制数据配比(10M:10M)以均衡提升模型性能。
3. 指令强化微调:通过引入高质量多模态对话(423K)与精细化图像生成数据(100K),进一步增强模型对复杂指令的跟随能力。

细粒度视觉增强技术
UniToken支持现有的细粒度视觉增强技术,例如:
– AnyRes:通过将高分辨率图像划分为多个子图并分别提取特征,提升对图像的细粒度感知。
– ViT端到端微调:动态调整连续视觉编码器的权重,结合精细的学习率控制策略以避免模型崩溃,适应广泛的任务场景。

实验结果与分析
在多个主流多模态基准测试中,UniToken表现出色,其性能媲美甚至超越领域内的专用模型。研究者们还对训练策略及视觉编码的影响进行了深入的消融分析,发现以下关键点:
– 在大规模数据场景下(>15M),1:1的理解+生成数据比例能够均衡提升模型性能。
– 在应对理解与生成的任务冲突时,统一的连续+离散视觉编码方案具有更强的鲁棒性。

总结与展望
UniToken的出现标志着多模态大模型向通用理解生成一体化迈出了重要一步。未来,研究团队计划从以下几个方面进一步优化:
– 模型规模扩展:借助更大的语言模型探索统一模型的“涌现能力”。
– 数据规模扩展:引入更大规模的训练数据,推动模型性能极限。
– 任务类型扩展:拓展至图像编辑、故事生成等更复杂的任务,追求通用生成能力的上限。

论文链接:[https://arxiv.org/pdf/2504.04423](https://arxiv.org/pdf/2504.04423)
代码地址:[https://github.com/SxJyJay/UniToken](https://github.com/SxJyJay/UniToken)

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...