库里杜兰特“合舞”科目三,腾讯混元团队全新图生视频模型来了

腾讯混元团队携手中山大学和香港科技大学推出创新视频生成模型——Follow-Your-Pose-v2,使得多人视频动作生成成为可能。此模型不仅在推理速度上有所提升,还能处理复杂的多人场景,如多人跳舞。它具有优秀的泛化能力,能应对不同年龄、服装、人种和背景的挑战。此外,Follow-Your-Pose-v2可以利用日常照片和视频进行训练,无需高质量素材,甚至能解决人物遮挡的问题,确保多人动作的连贯性。

为了验证模型效果,团队创建了一个包含约4000帧的Multi-Character基准,并在TikTok和TED演讲数据集上进行测试,结果表明模型性能超越了现有技术。模型采用的光流指导器、深度图指导器和推理图指导器等组件,提升了模型对嘈杂数据的适应性。团队还进行了消融研究,证实了这些组件对生成稳定、高质量动画的重要性。

这一技术在电影制作、AR、游戏和广告等领域有广泛应用前景。同时,腾讯混元团队还发布了文生图开源大模型混元DiT的加速库,提高了推理效率。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...