TransFusion: Meta Unifies Language and Image with Transformer and Diffusion for Multi-Modal AI Dominance

Meta发布TransFusion:统一文本与图像生成的多模态AI模型

#

随着人工智能领域的不断发展,Meta近日推出了一款名为TransFusion的新型多模态AI模型,该模型能够在单一框架内同时生成高质量的文本和图像。这款模型通过巧妙地结合Transformer扩散模型的优点,为构建真正意义上的多模态AI模型开辟了新的路径。

TransFusion的核心创新在于:它将语言建模(下一个token预测)与扩散模型相结合,实现了在混合模态序列上训练单个Transformer的目标。研究团队从零开始,在混合文本和图像数据上预训练了一个参数量高达70亿的TransFusion模型。实验结果表明,该模型不仅能在单模态和多模态基准测试中表现出色,还能生成与同类规模的扩散模型相媲美的高质量图像,同时保持强大的文本生成能力。

TransFusion的关键技术点包括:
– 全局因果注意力加上每个图像内的双向注意力至关重要。
– 模态特定的编码和解码层提高了性能,并能将每个图像压缩至64甚至16个块。
– 通过扩展到70亿参数和2万亿多模态token,TransFusion成功生成了与类似规模的扩散模型和语言模型相媲美的图像和文本。

TransFusion在图像生成方面表现卓越,其生成的图像质量超越了DALL-E2和Stable Diffusion等知名模型。此外,TransFusion还展示了强大的图像编辑能力,能够在少量公开数据集上进行微调后,按照指定提示进行有效的图像编辑。

研究者们还详细介绍了TransFusion的设计理念和技术细节,包括数据表示、模型架构、注意力机制等方面的内容。实验部分深入对比了TransFusion与现有模型(如Chameleon)的性能差异,特别是在计算效率和多模态任务处理方面的优势。

总之,TransFusion为多模态AI模型的发展带来了新的可能性,不仅能够无缝处理离散和连续模态的组合,还展现了在长篇视频生成、与图像或视频的交互式编辑/生成会话等方面的潜力。

本文来源: 新智元公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...