中山大学与联想团队合作开发的AutoStudio是一个创新的多智能体协同框架,无需训练即可处理复杂的连环画角色一致性问题。AutoStudio利用三个基于大语言模型的智能体进行交互,并采用扩散模型的Drawer生成高质图像。这款工具在处理多轮交互式图像生成时,能有效地维持角色一致性,即使在频繁切换主体和复杂人物互动的场景下。
AutoStudio设计有四个定制智能体,包括主题管理器、布局生成器、监督员和绘制器。主题管理器识别和分配主题,布局生成器控制主题位置,监督员提供布局修正,而绘制器负责最终的图像生成。研究者引入并行UNet (P-UNet) 以增强文本和图像的主题特征,并通过主题初始化生成方法解决主题丢失和融合的问题。
实验结果显示,AutoStudio在定量和定性评估中均超越了现有技术。在CMIGBench基准上,AutoStudio在上下文一致性和主体间语义一致性方面表现出色,能够理解和遵循用户的自然语言指令,生成主题一致的图像。相比之下,其他方法如Theatergen、MiniGemini、Intelligent Grimm和StoryDiffusion在处理多角色互动和保持一致性上存在局限。
本文来源: 量子位【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...