标签:多模态模型

阿里国际发布最新Ovis多模态模型,机器学习与自动驾驶领域迎来重大突破

阿里国际发布最新多模态模型Ovis,多模态能力再升级 近日,阿里国际AI团队发布了一款名为Ovis的多模态大模型,该模型在图像理解和多种子任务上实现了重大突破,达到了最新的技术水平(SOTA)。Ovis不仅可以识别菜品图并提供烹饪方法,还能为植物诊断疾病、准确翻译手写英文到中文,并且能精准分析财务报表数据。 多模态大模型能够处理不同类型的输入数据,如文本和图像。相较于传统的大型语言模型(LLMs),这类模型不仅擅长处理文本数据,还能处理非文本数据,如图像等。根据多模态权威评测平台OpenCompass的数据,Ovis1....

Twelve Labs引领AI视频革命:Nvidia投资的场景式理解先驱,运用多模态模型实现创新视频理解,吸金5000万顶级风投

在如今这个短视频盛行的时代,我们如何能快速创作出全方位理解的视频内容呢?Twelve Labs,一家由年轻工程师Jae Lee和Aiden L在旧金山创立的初创公司,给出了答案。他们开发的产品能在视频中捕捉特定瞬间,整合视觉、音频、文本和上下文信息,实现语义搜索、分析和洞察,旨在构建多模式视频理解的基础设施。Twelve Labs的自研模型已经在媒体分析和精彩片段自动生成方面展现出潜力,并已获得多家顶级风投机构的投资。 视频内容理解正逐渐成为主流趋势,尤其是场景式理解,它能将视频内容精细化处理,提高在社交媒体上的传播...

马斯克的Grok已经可以在xAI网站上单独访问

近日,科技巨头马斯克的创新之作——Grok,现已登陆专业人工智能平台xAI,为用户提供更为全面的功能体验。这款智能工具在其新平台上增设了分支树模式,用户可借此探索多轮对话中的多种可能回应路径,极大地促进了对话流程的理解与分析。对于热衷于人工智能探索的用户,只需通过xAI的IDE入口,便能访问Grok。欲尝试者可访问官网:https://top.aibase.com/tool/xai-grok,若遇申请需求,按指示操作即可。然而,目前Grok的使用权仅限于X Premium和X Premium+订阅用户。 此外,xAI近期发布的Grok-1.5Vision多模态模型引人注目,...

马斯克 xAI 展示首个多模态模型 Grok-1.5V:可将流程图转成 Python 代码

xAI发布Grok-1.5 Vision:革新多模态模型,引领智能处理新高度 在科技巨头马斯克的支持下,人工智能公司xAI近期持续创新,继Grok-1.5大语言模型后,又推出了全新的多模态模型——Grok-1.5 Vision (Grok-1.5V)。这款先进模型不仅能够理解文本信息,还能解析文档、图表、截图和照片,拓宽了人工智能处理数据的边界。 xAI宣布即将邀请早期用户与Grok现有用户参与Grok-1.5V的测试,展示其强大的多学科推理能力和文档理解力。从官方发布的实例来看,Grok-1.5V能将流程图转化为Python代码,根据儿童画作创作故事,解析流行语,甚至...