9月24日,字节跳动旗下的火山引擎在深圳举办了一场AI创新巡展,发布了两款视频生成大模型:PixelDance(简称P模型)和Seaweed(简称S模型)。这两款模型在审美和动态表现方面有了显著提升,并且解决了多主体互动和一致性的问题。
为了让大家更好地了解这两款模型的能力,我们进行了实际测试。首先展示的是一个10秒的视频片段:一位年轻女子微皱眉头,生气地戴上墨镜,此时男主角进入画面,紧紧抱住她。整个过程中,人物的表情变化自然流畅,没有出现任何虚化或崩坏的现象。另一段视频中,一只金毛小狗在草地上追逐泡泡,画面还配有自动配乐。还有一个3D风格的可爱小女孩正在跳舞,同样配有自动配乐。
豆包视频生成模型在处理多动作和多主体方面表现出色。例如,梵高站在他的画作前,捂嘴大笑,脸上的皱纹清晰可见;接着他变得严肃,手缓缓落下,捋捋自己的小胡子。这一系列动作连贯自然。我们还尝试了复杂的描述,如“两名宇航员行走在夜晚繁华的街道上”,视频中的宇航员行走姿态正常,周围环境细节丰富。
此外,豆包模型在镜头运用方面也非常出色,能够灵活控制多种镜头语言,如变焦、环绕、平摇、缩放等。例如,“一个推进镜头,沿着树木成行的郊区住宅街道拍摄,白天,天空晴朗湛蓝,色彩饱和,对比度高。”视频展示了干净的街道、树木掩映的小别墅,以及优秀的光影效果。
豆包模型还支持多种风格,包括黑白、3D动画、2D动画、国画、厚涂等。例如,一只戴着墨镜的北极熊在海里畅游,水面上泛起微波,甚至折射出北极熊的影子。另一段视频中,一只拟人化的猫咪走在星光闪耀的T台上,毛发和衣服褶皱处理得相当逼真。
豆包视频模型的细节处理也非常到位。例如,两只拟人化的企鹅戴着墨镜,坐在沙滩椅上晒太阳,画面充满了趣味性。这些视频不仅展现了豆包模型的强大能力,还展示了其在细节方面的精确把控。
本文来源: 机器之心【阅读原文】