腾讯混元团队携手中山大学和香港科技大学推出创新视频生成模型——Follow-Your-Pose-v2,使得多人视频动作生成成为可能。此模型不仅在推理速度上有所提升,还能处理复杂的多人场景,如多人跳舞。它具有优秀的泛化能力,能应对不同年龄、服装、人种和背景的挑战。此外,Follow-Your-Pose-v2可以利用日常照片和视频进行训练,无需高质量素材,甚至能解决人物遮挡的问题,确保多人动作的连贯性。
为了验证模型效果,团队创建了一个包含约4000帧的Multi-Character基准,并在TikTok和TED演讲数据集上进行测试,结果表明模型性能超越了现有技术。模型采用的光流指导器、深度图指导器和推理图指导器等组件,提升了模型对嘈杂数据的适应性。团队还进行了消融研究,证实了这些组件对生成稳定、高质量动画的重要性。
这一技术在电影制作、AR、游戏和广告等领域有广泛应用前景。同时,腾讯混元团队还发布了文生图开源大模型混元DiT的加速库,提高了推理效率。
本文来源: 量子位【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...