Twelve Labs引领AI视频革命:Nvidia投资的场景式理解先驱,运用多模态模型实现创新视频理解,吸金5000万顶级风投

在如今这个短视频盛行的时代,我们如何能快速创作出全方位理解的视频内容呢?Twelve Labs,一家由年轻工程师Jae Lee和Aiden L在旧金山创立的初创公司,给出了答案。他们开发的产品能在视频中捕捉特定瞬间,整合视觉、音频、文本和上下文信息,实现语义搜索、分析和洞察,旨在构建多模式视频理解的基础设施。Twelve Labs的自研模型已经在媒体分析和精彩片段自动生成方面展现出潜力,并已获得多家顶级风投机构的投资。

视频内容理解正逐渐成为主流趋势,尤其是场景式理解,它能将视频内容精细化处理,提高在社交媒体上的传播效率。AI原生产品如Twelve Labs,通过自动化视频数据标注和生成,降低成本,提供丝滑的用户体验。创始人Jae Lee和Aiden L的背景涵盖了计算机科学、应用数学和视频理解等领域,他们的产品解决了传统视频系统在理解复杂内容时的局限性。

Twelve Labs已经完成了7700万美元的融资,投资方包括Intel、Samsung Next和NVentures等。公司愿景是通过语义记忆和多模态技术,打破现有视频内容仅依赖关键词和标签的分类方式,提升视频质量和理解度。其产品功能包括视频搜索、分类、语言建模、描述和问答,助力用户高效工作,同时也为AI开辟了感知推理的新领域。

Twelve Labs的Marengo和Pegasus模型分别代表感知和推理,通过视频原生编码和跨模式推理,实现对视觉和听觉信息的深入理解。目前,Twelve Labs的客户主要是程序员和中小企业,内测以来用户数已超过17,000名,与FiftyOne等公司合作,提供API和PlugIn服务。

本文来源: ​深思SenseAI公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...