ShareGPT4V团队与中科大&上海AI Lab联合发布：百万级高质量视频数据集ShareCaptioner-Video，颠覆性差分滑窗视频描述，登顶数据集排行榜

中国科学技术大学和上海AI实验室合作的ShareGPT4V团队，近期推出了一项里程碑式的成果——全新的视频数据集，该数据集荣登HuggingFace排行榜首位。这个数据集包含了超过3000小时的高质量视频，每段视频均配以详尽的文字描述，旨在改善视频生成的质量。通过使用该数据集，团队重新评估了北京大学的Open-Sora-Plan，发现视频生成的性能显著增强。

研究者们强调，高质量的视频-字幕数据对视频理解和生成任务至关重要。他们利用GPT-4v的视觉能力，构建了4万条带有标注的视频数据，生成的描述富含世界知识。在此基础上，他们开发出能自动生成视频描述的模型，将数据规模扩大到480万条，总计近3000小时。

该数据集已开源，相关论文荣登6月7日HuggingFace Daily Papers榜首，同时在VQA类数据集榜单上占据领先地位。为了生成高质量视频描述，研究团队提出了一种名为差分滑窗视频描述（DiffSW）的策略，能够稳定高效地处理任意分辨率、宽高比和长度的视频。此外，他们还推出了ShareGPT4Video数据集和多功能模型ShareCaptioner-Video，后者能快速生成高质量描述并支持多种功能，如视频片段总结。

通过使用ShareGPT4Video数据集，研究者们在视频理解和生成任务上取得了显著进步。他们在现有模型的基础上进行数据替换实验，证明了新数据集的有效性，并创建了LVLM ShareGPT4Video-8B模型，能在多个基准测试中展现出卓越性能。同时，使用ShareCaptioner-Video标注的数据训练的文生视频模型，展示出了出色的镜头移动和语义内容控制能力。

本文来源：