标签：视频理解

OpenBMB的MiniCPM-V2.6：一款国内领先的多模态大模型，超越GPT-4V，集OCR识别与视频理解于一体，已获超9000颗星认可

国内知名的开源社区OpenBMB近期推出了其最新研发的开源多模态大模型——MiniCPM-V2.6。这款模型拥有80亿参数，在单图像、多图像以及视频理解等方面的表现超越了GPT-4V；尤其在单图像理解上，其效果优于GPT-4o mini、Gemini1.5Pro 与 Claude3.5Sonnet 等同类模型。MiniCPM-V2.6不仅显著降低了模型的内存占用，还提高了推理效率，并且首次实现了在iPad等移动端设备上进行实时视频理解。 MiniCPM-V2.6基于SigLip-400M和阿里云的Qwen2-7B模型进行开发，相较于之前的版本V2.5，性能有了显著提升，并新增了多图像和视频理解的功能。...

来源：

AIGC开放社区公众号【阅读原文】
Tags：MiniCPM-V2.6 OCR识别 OpenBMB 多模态大模型视频理解

8个月前

Twelve Labs引领AI视频革命：Nvidia投资的场景式理解先驱，运用多模态模型实现创新视频理解，吸金5000万顶级风投

在如今这个短视频盛行的时代，我们如何能快速创作出全方位理解的视频内容呢？Twelve Labs，一家由年轻工程师Jae Lee和Aiden L在旧金山创立的初创公司，给出了答案。他们开发的产品能在视频中捕捉特定瞬间，整合视觉、音频、文本和上下文信息，实现语义搜索、分析和洞察，旨在构建多模式视频理解的基础设施。Twelve Labs的自研模型已经在媒体分析和精彩片段自动生成方面展现出潜力，并已获得多家顶级风投机构的投资。视频内容理解正逐渐成为主流趋势，尤其是场景式理解，它能将视频内容精细化处理，提高在社交媒体上的传播...

来源：

深思SenseAI公众号【阅读原文】
Tags：AI原生产品 Twelve Labs 场景式理解多模态模型视频理解

9个月前