字节跳动推出先进AI视频生成模型：多主体互动与高级审美带来前所未有的震撼体验

9月24日，字节跳动旗下的火山引擎在深圳举办了一场AI创新巡展，发布了两款视频生成大模型：PixelDance（简称P模型）和Seaweed（简称S模型）。这两款模型在审美和动态表现方面有了显著提升，并且解决了多主体互动和一致性的问题。

为了让大家更好地了解这两款模型的能力，我们进行了实际测试。首先展示的是一个10秒的视频片段：一位年轻女子微皱眉头，生气地戴上墨镜，此时男主角进入画面，紧紧抱住她。整个过程中，人物的表情变化自然流畅，没有出现任何虚化或崩坏的现象。另一段视频中，一只金毛小狗在草地上追逐泡泡，画面还配有自动配乐。还有一个3D风格的可爱小女孩正在跳舞，同样配有自动配乐。

豆包视频生成模型在处理多动作和多主体方面表现出色。例如，梵高站在他的画作前，捂嘴大笑，脸上的皱纹清晰可见；接着他变得严肃，手缓缓落下，捋捋自己的小胡子。这一系列动作连贯自然。我们还尝试了复杂的描述，如“两名宇航员行走在夜晚繁华的街道上”，视频中的宇航员行走姿态正常，周围环境细节丰富。

此外，豆包模型在镜头运用方面也非常出色，能够灵活控制多种镜头语言，如变焦、环绕、平摇、缩放等。例如，“一个推进镜头，沿着树木成行的郊区住宅街道拍摄，白天，天空晴朗湛蓝，色彩饱和，对比度高。”视频展示了干净的街道、树木掩映的小别墅，以及优秀的光影效果。

豆包模型还支持多种风格，包括黑白、3D动画、2D动画、国画、厚涂等。例如，一只戴着墨镜的北极熊在海里畅游，水面上泛起微波，甚至折射出北极熊的影子。另一段视频中，一只拟人化的猫咪走在星光闪耀的T台上，毛发和衣服褶皱处理得相当逼真。

豆包视频模型的细节处理也非常到位。例如，两只拟人化的企鹅戴着墨镜，坐在沙滩椅上晒太阳，画面充满了趣味性。这些视频不仅展现了豆包模型的强大能力，还展示了其在细节方面的精确把控。

本文来源：