智谱AI的国产Sora视频生成模型开源发布！CogVideoX-2B优化至18G，单张4090显卡即可运行

智东西8月6日报道，智谱AI发布了其视频生成模型 CogVideoX-2B的开源版本，这一消息无疑为业界带来了振奋。该模型已在GitHub和Hugging Face平台上线，支持FP16精度下的高效运行，显著降低了硬件门槛——仅需配备18GB显存即可进行推理，而微调所需显存也不过40GB，这意味着单张4090或A6000显卡就能胜任相应任务。

核心特点
– 提示词限制：CogVideoX-2B支持最多226个token的提示词；
– 输出规格：生成视频长度为6秒，帧率为8帧/秒，分辨率为720 * 480；
– 未来规划：计划发布性能更优、参数量更大的版本。

性能表现
根据相关论文，CogVideoX-2B在多个评估指标上表现出色，包括视频动态特性、人类动作、场景还原度等方面均领先同类模型。此外，在人类盲测中，该模型同样取得了优异成绩，多项指标超越竞争对手。

示例展示
GitHub页面提供了若干由CogVideoX-2B生成的视频示例，涵盖丰富多样的场景，从精致的玩具船模型在蓝色地毯上的航行，到战乱城市中充满情感的少女特写，展现了该模型强大的表现力。

技术细节
– 架构创新：采用3D VAE和专家Transformer架构，有效应对视频数据的空间与时间维度问题，实现高质量视频生成；
– 数据处理：引入视频理解模型，构建高质视频片段库，同时利用负面标签排除低质视频，确保输出质量；
– 字幕生成：提出图像字幕到视频字幕转换管道，结合多种模型提升字幕密度，进一步增强视频内容丰富度。

智谱AI表示将继续推进CogVideoX的技术迭代，探索更加复杂的动态表现、高效的视频压缩技术和更紧密的文本-视频融合方式，以期在未来推出规模更大、性能更强的视频生成模型。

本文来源：