2024年的最后一个月,国产大模型在视频生成领域的应用突然加速。特别是视频生成模型的发展,如同密集射出子弹后的枪管,热度持续攀升。12月19日,快手旗下的可灵更新至1.6版本,相较于两周前高调推出的AI导演共创计划,这次升级显得较为低调。然而,选择在这个时间点进行升级似乎别有深意。
就在前一天,12月18日,字节跳动在火山原动力大会上首次对外发布了豆包视频生成大模型。会上,张楠首次以剪映掌门人的身份亮相,并简短介绍了今年5月推出的即梦——一款类似于可灵的视频生成工具。张楠将其定义为“想象力相机”,与抖音的现实相机相呼应。尽管她没有透露太多产品细节,但播放了两个样片,并表示产品和技术仍处于早期阶段。
国际竞争与国内先驱
与此同时,OpenAI在12月初进行了为期12天的直播活动,其中12月10日是重头戏。经过长达10个月的铺垫,Sora终于揭开面纱,其最大亮点是“故事板”功能,用户可以通过提示词直接转化为剧本。新版Sora不仅视频生成速度更快,编辑功能也更实用,但用户每月需支付200美元。尽管发布当天服务器因流量过大而崩溃,吐槽声不断,但这并未阻止其他公司紧随其后推出类似产品。
腾讯混元在12月初抢先一步推出了视频生成大模型,并将其命名为“元宝”。不过,相比Sora、可灵和即梦等既能文生视频也能图生视频的工具,腾讯混元目前仅支持文生视频。由于大模型对语义理解能力有限,所有文生视频的应用效果尚未达到令人满意的水平,难以吸引创作者积极使用。
视频生成技术现状
尽管大模型生成视频看似易如反掌,但实际上,制作精良的AI视频仍然需要专业技能。首先,创作者需准备脚本并借助AI工具实现。其次,根据视频脚本拆解分镜,用AI文生图工具将分镜以静态图形式展现。对于有专业或商业要求的作品,还需进行PS后期及图片超分辨率处理,以确保视频质量。
目前,国产视频生成模型主要掌握在大公司手中,这与大模型水平、算力及视频数据积累密切相关。大模型早期弥漫的FOMO情绪(Fear of Missing Out)依然存在,但正如张楠所说,产品和技术还处在早期阶段,现在下结论为时尚早。
图生视频 vs 文生视频
图生视频是当前主流,通过提前确定统一色调和配合Comfy UI等功能,可以实现人物一致性。文生视频则更适合短小片段或让静图动起来,尽管存在语义理解和一致性的挑战,但在某些场景中表现出色。例如,《烈焰天街》作者梦罗浮利用文生视频创作了一部电影,全片660个镜头中有70%是文生视频。
应用推广与用户参与
为了吸引更多用户,各大平台纷纷推出激励措施。例如,可灵发起的AI导演共创计划吸引了多位知名导演参与,而即梦则通过广泛的用户基础获得了较高的呼声。快手的可灵在第三季度财报中显示,9月份月活超150万,截至12月10日累计用户数达600万,生成视频数量为6500万,图片超1.75亿张。商业化成绩方面,单月流水超过千万元。
未来展望
国产AI生成视频应用的底层模型架构相似,采用DiT(Diffusion Transformer)模型架构。尽管复刻难度较低,但解决关键问题仍需各家公司优化能力和数据训练结果。创作者们期待AI视频应用能够快速展现出预期想法,并成为灵感激发器。未来,视频生成模型将继续努力提升一致性、视觉真实度、动态幅度及语义理解能力。
本文来源: 新莓daybreak公众号【阅读原文】