智东西8月6日报道,智谱AI发布了其视频生成模型CogVideoX-2B的开源版本,这一消息无疑为业界带来了振奋。该模型已在GitHub和Hugging Face平台上线,支持FP16精度下的高效运行,显著降低了硬件门槛——仅需配备18GB显存即可进行推理,而微调所需显存也不过40GB,这意味着单张4090或A6000显卡就能胜任相应任务。
核心特点
– 提示词限制:CogVideoX-2B支持最多226个token的提示词;
– 输出规格:生成视频长度为6秒,帧率为8帧/秒,分辨率为720 * 480;
– 未来规划:计划发布性能更优、参数量更大的版本。
性能表现
根据相关论文,CogVideoX-2B在多个评估指标上表现出色,包括视频动态特性、人类动作、场景还原度等方面均领先同类模型。此外,在人类盲测中,该模型同样取得了优异成绩,多项指标超越竞争对手。
示例展示
GitHub页面提供了若干由CogVideoX-2B生成的视频示例,涵盖丰富多样的场景,从精致的玩具船模型在蓝色地毯上的航行,到战乱城市中充满情感的少女特写,展现了该模型强大的表现力。
技术细节
– 架构创新:采用3D VAE和专家Transformer架构,有效应对视频数据的空间与时间维度问题,实现高质量视频生成;
– 数据处理:引入视频理解模型,构建高质视频片段库,同时利用负面标签排除低质视频,确保输出质量;
– 字幕生成:提出图像字幕到视频字幕转换管道,结合多种模型提升字幕密度,进一步增强视频内容丰富度。
智谱AI表示将继续推进CogVideoX的技术迭代,探索更加复杂的动态表现、高效的视频压缩技术和更紧密的文本-视频融合方式,以期在未来推出规模更大、性能更强的视频生成模型。
本文来源: 智东西【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...