AI视频生成,2024年国产大模型视频生成应用加速发展

2024年的最后一个月，国产大模型在视频生成领域的应用突然加速。特别是视频生成模型的发展，如同密集射出子弹后的枪管，热度持续攀升。12月19日，快手旗下的可灵更新至1.6版本，相较于两周前高调推出的AI导演共创计划，这次升级显得较为低调。然而，选择在这个时间点进行升级似乎别有深意。

就在前一天，12月18日，字节跳动在火山原动力大会上首次对外发布了豆包视频生成大模型。会上，张楠首次以剪映掌门人的身份亮相，并简短介绍了今年5月推出的即梦——一款类似于可灵的视频生成工具。张楠将其定义为“想象力相机”，与抖音的现实相机相呼应。尽管她没有透露太多产品细节，但播放了两个样片，并表示产品和技术仍处于早期阶段。

国际竞争与国内先驱

与此同时，OpenAI在12月初进行了为期12天的直播活动，其中12月10日是重头戏。经过长达10个月的铺垫，Sora终于揭开面纱，其最大亮点是“故事板”功能，用户可以通过提示词直接转化为剧本。新版Sora不仅视频生成速度更快，编辑功能也更实用，但用户每月需支付200美元。尽管发布当天服务器因流量过大而崩溃，吐槽声不断，但这并未阻止其他公司紧随其后推出类似产品。

腾讯混元在12月初抢先一步推出了视频生成大模型，并将其命名为“元宝”。不过，相比Sora、可灵和即梦等既能文生视频也能图生视频的工具，腾讯混元目前仅支持文生视频。由于大模型对语义理解能力有限，所有文生视频的应用效果尚未达到令人满意的水平，难以吸引创作者积极使用。

视频生成技术现状

尽管大模型生成视频看似易如反掌，但实际上，制作精良的AI视频仍然需要专业技能。首先，创作者需准备脚本并借助AI工具实现。其次，根据视频脚本拆解分镜，用AI文生图工具将分镜以静态图形式展现。对于有专业或商业要求的作品，还需进行PS后期及图片超分辨率处理，以确保视频质量。

目前，国产视频生成模型主要掌握在大公司手中，这与大模型水平、算力及视频数据积累密切相关。大模型早期弥漫的FOMO情绪（Fear of Missing Out）依然存在，但正如张楠所说，产品和技术还处在早期阶段，现在下结论为时尚早。

图生视频 vs 文生视频

图生视频是当前主流，通过提前确定统一色调和配合Comfy UI等功能，可以实现人物一致性。文生视频则更适合短小片段或让静图动起来，尽管存在语义理解和一致性的挑战，但在某些场景中表现出色。例如，《烈焰天街》作者梦罗浮利用文生视频创作了一部电影，全片660个镜头中有70%是文生视频。

应用推广与用户参与

为了吸引更多用户，各大平台纷纷推出激励措施。例如，可灵发起的AI导演共创计划吸引了多位知名导演参与，而即梦则通过广泛的用户基础获得了较高的呼声。快手的可灵在第三季度财报中显示，9月份月活超150万，截至12月10日累计用户数达600万，生成视频数量为6500万，图片超1.75亿张。商业化成绩方面，单月流水超过千万元。

未来展望

国产AI生成视频应用的底层模型架构相似，采用DiT（Diffusion Transformer）模型架构。尽管复刻难度较低，但解决关键问题仍需各家公司优化能力和数据训练结果。创作者们期待AI视频应用能够快速展现出预期想法，并成为灵感激发器。未来，视频生成模型将继续努力提升一致性、视觉真实度、动态幅度及语义理解能力。

本文来源：