库里杜兰特“合舞”科目三，腾讯混元团队全新图生视频模型来了

腾讯混元团队携手中山大学和香港科技大学推出创新视频生成模型——Follow-Your-Pose-v2，使得多人视频动作生成成为可能。此模型不仅在推理速度上有所提升，还能处理复杂的多人场景，如多人跳舞。它具有优秀的泛化能力，能应对不同年龄、服装、人种和背景的挑战。此外，Follow-Your-Pose-v2可以利用日常照片和视频进行训练，无需高质量素材，甚至能解决人物遮挡的问题，确保多人动作的连贯性。

为了验证模型效果，团队创建了一个包含约4000帧的Multi-Character基准，并在TikTok和TED演讲数据集上进行测试，结果表明模型性能超越了现有技术。模型采用的光流指导器、深度图指导器和推理图指导器等组件，提升了模型对嘈杂数据的适应性。团队还进行了消融研究，证实了这些组件对生成稳定、高质量动画的重要性。

这一技术在电影制作、AR、游戏和广告等领域有广泛应用前景。同时，腾讯混元团队还发布了文生图开源大模型混元DiT的加速库，提高了推理效率。

本文来源：