华为诺亚推出ILLUME+:基于多模态大语言模型的图像生成与上下文感知生成,采用双重视觉联合词表及扩散解码器,实现理解生成一体化,昇腾平台支持训练,类GPT-4o架构探索

近年来,基于大语言模型(LLM)的多模态任务处理能力取得了显著进步,特别是在将视觉信息融入语言模型方面。像 QwenVL 和 InternVL 这样的模型已经在视觉理解领域展现了卓越表现,而以扩散模型为代表的文本到图像生成技术也不断突破,推动了统一多模态大语言模型(MLLM)的发展。这些技术的进步使得视觉理解和生成能力的无缝集成成为可能,进一步推动了视觉和语义深度融合下的人工通用智能(AGI)探索。

新一代 GPT-4o 作为一款集理解与生成于一体的模型,其强大的能力令人瞩目。它不仅在语义理解和图像生成方面表现出极高的准确性和流畅性,还特别擅长上下文感知生成(context-aware generation)和图像编辑(image editing)任务。无论是在高精度的图像生成还是复杂的图像编辑任务中,GPT-4o 都能动态理解和生成符合上下文需求的,极大地增强了模型的实用性和灵活性,使其能够更高效地完成多种复杂场景下的多模态任务。

最近,华为诺亚盘古研究团队联合香港大学推出了一款名为 ILLUME+ 的升级版模型。这款模型采用了双重视觉联合词表(DualViTok)和扩散解码器的创新设计,显著提升了语义理解和高保真图像生成能力。与当前现有的统一模型不同,ILLUME + 在图像理解、生成和编辑三大能力上表现出色,解决了传统模型在图像纹理保持和语义对齐方面的难题。

ILLUME + 在处理多模态任务时展现出强大的上下文感知能力和语义深层交互能力,能够更准确地理解和生成视觉与语言的关系。其创新架构通过双视觉联合词表(DualViTok)将语义信息与图像细节同时保留,为图像编辑和生成任务提供了更加精细的控制能力。此外,扩散解码器的引入不仅提升了生成图像的质量,还使得超分辨率图像生成变得更加高效,避免了传统自回归模型在高分辨率生成时的计算瓶颈。

与新一代 GPT-4o 架构相比,ILLUME + 采用了类似的 Token → [Transformer] → [Diffusion] → pixel 的结构,在语义理解和上下文感知生成能力上达到了新的高度。我们认为,ILLUME + 所展示的架构正是未来统一大语言模型发展的方向。随着我们对该架构的深入研究,ILLUME + 的 3B 模型在多模态理解、生成与编辑的基准测试中均展现出了卓越的性能(比肩 7B)。ILLUME + 的优势不仅体现在单一任务的出色表现,更在于它能够灵活适应多样的应用场景,推动着多模态大语言模型向着更加智能化、可扩展的方向迈进。

ILLUME+ 关键技术点与模型架构

1. 双重视觉联合词表(DualViTok)
ILLUME + 的核心创新之一是双重视觉联合词表(DualViTok),该词表通过两条分支设计,分别处理图像的语义信息和细节纹理。具体来说,语义分支利用预训练的文本对齐视觉编码器(如 QwenViT)提取高层次的语义特征,这些特征被量化为离散标记,并通过轻量级解码器进行重建。同时,像素分支则通过 MoVQGAN 类似的架构进行像素级的细节重建,保证图像细节的高保真度。

2. 扩散解码器(Diffusion Decoder)
为进一步提升生成图像的质量,ILLUME + 引入了扩散解码器。该解码器使用扩散模型进行图像生成,显著提高了图像的细节和鲁棒性。扩散解码器还能够进行高效的超分辨率生成,缓解了传统自回归生成方法在高分辨率生成时的 token 数目急剧增长带来的推理速度瓶颈。通过这种设计,ILLUME + 能够生成高分辨率图像(最高可达 1024×1024),同时有效提高了图像的细节和质量。

3. 连续输入、离散输出的 MLLM 架构
ILLUME + 采用了统一的多模态大语言模型(MLLM),该模型能够同时生成文本和图像,并通过共同的预测头来进行联合建模。ILLUME + 采用连续输入、离散输出的机制。在输入端,直接使用视觉连接器连接离散化层前的视觉特征到 LLM 中。输出端仍然保留统一输出头,以自回归的形式预测文本 token 与视觉 token。这种机制确保了图像输入时不会因量化过程丢失细粒度信息,保证了模型在视觉理解任务中展现了更好的稳定性和细致的语义处理能力。

4. 支持任意分辨率的渐进式训练策略
ILLUME + 采用渐进式的训练策略,从而使得词表、MLLM 和 Diffusion decoder 三个模块均支持动态分辨率的训练与推理。训练流程包括五个阶段,逐步增强模型能力,确保稳定性和最终性能。下图展示了我们的五个训练阶段的打开参数和每个阶段的数据分布情况。

– Dual Vision Tokenizer Training:训练双重视觉标记化器,通过重建语义和像素信息,逐步增加输入分辨率,先训练固定 256 分辨率,再训练固定 512,最后训练 512×512 以内的任意分辨率,确保模型在不同分辨率下的稳定训练。
– Diffusion Decoder Training(扩散解码器优化):进一步优化图像生成质量,通过扩散模型提升生成细节,并进行图像超分辨率输出,解决自回归方法的生成高分辨率速度瓶颈。
– MLLM Stage 1: Visual Embedding Initialization:初始化 MLLM 中新增的视觉词表与视觉连接器,优化图像重建和描述任务,固定分辨率为 256×256,以获得良好的视觉表示。
– MLLM Stage 2: Unified Image-Text Alignment:通过多模态数据训练,打开视觉适配器和语言模型,增强图像与文本的语义对齐,先训练分辨率 256×256,再提升至 512×512。
– MLLM Stage 3: Supervised Fine-tuning:使用复杂的多任务数据进行微调,支持任意分辨率图像输入,以及高达 11 种不同长宽比的图像生成,最高像素达到 1024×1024。

ILLUME+ 实验结果

在实验中,ILLUME + 使用 Qwen2.5(3B)作为基础大语言模型(LLM)。其 encoder 采用了预训练的 QwenVIT 语义编码器和基于 MoVQGAN 的像素编码器架构。流程上打通了昇腾训练与推理。训练过程中,使用了 256 Ascend NPUs。其中,视觉词表和 Diffusion 训练 3+3 天;3B 的 MLLM 模型,经过三个阶段的训练,总训练时间约为 13 天。

多分辨率文生图可视化、多功能图像编辑可视化、图像理解可视化等实验表明,ILLUME + 在多模态理解、生成和编辑任务中表现出色。特别是在文档相关任务中,得益于双重编码器设计,模型在保留强大理解能力方面取得了显著优势。

结语

ILLUME + 通过创新的 DualViTok 保留图像中的语义和细节纹理,并结合扩散解码器提升图像生成质量,实现了任意分辨率。凭借统一的粗到细图像表示和动态视觉分辨率的渐进训练过程,ILLUME + 仅用 3B 参数便能处理灵活分辨率的视觉输入和输出,并在多模态理解、生成和编辑任务中表现出色,在 context-aware 生成和泛化上表现出了令人意外的水平。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...