标签:视频理解

OpenBMB的MiniCPM-V2.6:一款国内领先的多模态大模型,超越GPT-4V,集OCR识别与视频理解于一体,已获超9000颗星认可

国内知名的开源社区OpenBMB近期推出了其最新研发的开源多模态大模型——MiniCPM-V2.6。这款模型拥有80亿参数,在单图像、多图像以及视频理解等方面的表现超越了GPT-4V;尤其在单图像理解上,其效果优于GPT-4o mini、Gemini1.5Pro 与 Claude3.5Sonnet 等同类模型。MiniCPM-V2.6不仅显著降低了模型的内存占用,还提高了推理效率,并且首次实现了在iPad等移动端设备上进行实时视频理解。 MiniCPM-V2.6基于SigLip-400M和阿里云的Qwen2-7B模型进行开发,相较于之前的版本V2.5,性能有了显著提升,并新增了多图像和视频理解的功能。...

Twelve Labs引领AI视频革命:Nvidia投资的场景式理解先驱,运用多模态模型实现创新视频理解,吸金5000万顶级风投

在如今这个短视频盛行的时代,我们如何能快速创作出全方位理解的视频内容呢?Twelve Labs,一家由年轻工程师Jae Lee和Aiden L在旧金山创立的初创公司,给出了答案。他们开发的产品能在视频中捕捉特定瞬间,整合视觉、音频、文本和上下文信息,实现语义搜索、分析和洞察,旨在构建多模式视频理解的基础设施。Twelve Labs的自研模型已经在媒体分析和精彩片段自动生成方面展现出潜力,并已获得多家顶级风投机构的投资。 视频内容理解正逐渐成为主流趋势,尤其是场景式理解,它能将视频内容精细化处理,提高在社交媒体上的传播...