Twelve Labs引领AI视频革命：Nvidia投资的场景式理解先驱，运用多模态模型实现创新视频理解，吸金5000万顶级风投

在如今这个短视频盛行的时代，我们如何能快速创作出全方位理解的视频内容呢？Twelve Labs，一家由年轻工程师Jae Lee和Aiden L在旧金山创立的初创公司，给出了答案。他们开发的产品能在视频中捕捉特定瞬间，整合视觉、音频、文本和上下文信息，实现语义搜索、分析和洞察，旨在构建多模式视频理解的基础设施。Twelve Labs的自研模型已经在媒体分析和精彩片段自动生成方面展现出潜力，并已获得多家顶级风投机构的投资。

视频内容理解正逐渐成为主流趋势，尤其是场景式理解，它能将视频内容精细化处理，提高在社交媒体上的传播效率。AI原生产品如Twelve Labs，通过自动化视频数据标注和生成，降低成本，提供丝滑的用户体验。创始人Jae Lee和Aiden L的背景涵盖了计算机科学、应用数学和视频理解等领域，他们的产品解决了传统视频系统在理解复杂内容时的局限性。

Twelve Labs已经完成了7700万美元的融资，投资方包括Intel、Samsung Next和NVentures等。公司愿景是通过语义记忆和多模态技术，打破现有视频内容仅依赖关键词和标签的分类方式，提升视频质量和理解度。其产品功能包括视频搜索、分类、语言建模、描述和问答，助力用户高效工作，同时也为AI开辟了感知推理的新领域。

Twelve Labs的Marengo和Pegasus模型分别代表感知和推理，通过视频原生编码和跨模式推理，实现对视觉和听觉信息的深入理解。目前，Twelve Labs的客户主要是程序员和中小企业，内测以来用户数已超过17,000名，与FiftyOne等公司合作，提供API和PlugIn服务。

本文来源：