ShareGPT4V团队与中科大&上海AI Lab联合发布:百万级高质量视频数据集ShareCaptioner-Video,颠覆性差分滑窗视频描述,登顶数据集排行榜

提升视频生成质量:ShareGPT4V团队发布大规模高质量视频数据集

中国科学技术大学和上海AI实验室合作的ShareGPT4V团队,近期推出了一项里程碑式的成果——全新的视频数据集,该数据集荣登HuggingFace排行榜首位。这个数据集包含了超过3000小时的高质量视频,每段视频均配以详尽的文字描述,旨在改善视频生成的质量。通过使用该数据集,团队重新评估了北京大学的Open-Sora-Plan,发现视频生成的性能显著增强。

研究者们强调,高质量的视频-字幕数据对视频理解和生成任务至关重要。他们利用GPT-4v的视觉能力,构建了4万条带有标注的视频数据,生成的描述富含世界知识。在此基础上,他们开发出能自动生成视频描述的模型,将数据规模扩大到480万条,总计近3000小时。

该数据集已开源,相关论文荣登6月7日HuggingFace Daily Papers榜首,同时在VQA类数据集榜单上占据领先地位。为了生成高质量视频描述,研究团队提出了一种名为差分滑窗视频描述(DiffSW)的策略,能够稳定高效地处理任意分辨率、宽高比和长度的视频。此外,他们还推出了ShareGPT4Video数据集和多功能模型ShareCaptioner-Video,后者能快速生成高质量描述并支持多种功能,如视频片段总结。

通过使用ShareGPT4Video数据集,研究者们在视频理解和生成任务上取得了显著进步。他们在现有模型的基础上进行数据替换实验,证明了新数据集的有效性,并创建了LVLM ShareGPT4Video-8B模型,能在多个基准测试中展现出卓越性能。同时,使用ShareCaptioner-Video标注的数据训练的文生视频模型,展示出了出色的镜头移动和语义内容控制能力。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...