突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学

华中科技大学、百度和密歇根大学的研究团队联合推出了一款名为Holmes-VAD的创新视频异常检测框架,该框架不仅能够精准定位视频中的异常行为,还能提供详尽的异常分析和解释。这款系统借鉴了福尔摩斯的侦探智慧,能够在监控视频中快速识别出异常事件,如交通事故、爆炸等,并能给出合理的事件描述。

Holmes-VAD利用视频多模态大模型进行微调,结合精确的时序监督和丰富的多模态指令,以实现异常检测的高精度和全面解释。为支持这一框架,团队还创建了首个大规模多模态VAD指令数据集——VAD-Instruct50k,包含半自动数据引擎生成的时序单帧标注、事件片段生成、事件片段描述和异常对话生成等环节。

在实验中,Holmes-VAD在UCF-Crime和XD-Violence数据集上表现出优越性能,其平均精度(AP)达到90.67%,显著超越现有SOTA方法。此外,Holmes-VAD的可解释性是现有不可解释VAD方法的一大亮点,它能够生成较少偏见的异常评分,并通过用户研究证实了其在异常定位和解释上的准确性和用户满意度。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...