标签:多模态模型

Mistral AI强势出击,全面升级le Chat,推出Pixtral Large超大杯多模态模型图像生成新体验

一觉醒来,Mistral AI 再次带来了惊喜。今天,Mistral AI 宣布推出其多模态家族的第二位成员——Pixtral Large。这款模型基于 Mistral Large 2 构建,拥有 1240 亿参数,不仅具备强大的图像理解能力,还能处理文档、图表和自然图像,同时保持了 Mistral Large 2 在纯文本理解方面的优势。 除了发布新模型,Mistral AI 还对其免费聊天机器人 le Chat 进行了重大升级,新增了图像生成、网络搜索和交互式画布功能,全面对标 ChatGPT。所有这些功能都以免费测试版的形式开放,引起了 AI 社区的广泛关注。有人感慨道:“六个月前,...

智谱AI推出自主人工智能AutoGLM,谷歌和微软纷纷入局多模态模型与行为数据强化学习领域

昨天,微软突然发布了一款新的模型,该模型可用于网页自动化操作。微软此举也正式加入了与智谱AutoGLM类似的自主人工智能竞争。而在前天,《The Information》网站上报道了一则消息,标题为“Google Preps AI That Takes Over Computers”,意即谷歌正在准备推出接管计算机的人工智能。上周三,Claude发布;上周五,智谱AI发布;周末,谷歌传出消息;接着是微软。短短一周内,已有四家公司宣布将推出类似产品,其中三家已悄然发布:Anthropic的Claude、智谱的AutoGLM和微软的OmniParser。这些产品的表现令人瞩目。尽管谷歌的消...

阿里国际发布最新Ovis多模态模型,机器学习与自动驾驶领域迎来重大突破

阿里国际发布最新多模态模型Ovis,多模态能力再升级 近日,阿里国际AI团队发布了一款名为Ovis的多模态大模型,该模型在图像理解和多种子任务上实现了重大突破,达到了最新的技术水平(SOTA)。Ovis不仅可以识别菜品图并提供烹饪方法,还能为植物诊断疾病、准确翻译手写英文到中文,并且能精准分析财务报表数据。 多模态大模型能够处理不同类型的输入数据,如文本和图像。相较于传统的大型语言模型(LLMs),这类模型不仅擅长处理文本数据,还能处理非文本数据,如图像等。根据多模态权威评测平台OpenCompass的数据,Ovis1....

Twelve Labs引领AI视频革命:Nvidia投资的场景式理解先驱,运用多模态模型实现创新视频理解,吸金5000万顶级风投

在如今这个短视频盛行的时代,我们如何能快速创作出全方位理解的视频内容呢?Twelve Labs,一家由年轻工程师Jae Lee和Aiden L在旧金山创立的初创公司,给出了答案。他们开发的产品能在视频中捕捉特定瞬间,整合视觉、音频、文本和上下文信息,实现语义搜索、分析和洞察,旨在构建多模式视频理解的基础设施。Twelve Labs的自研模型已经在媒体分析和精彩片段自动生成方面展现出潜力,并已获得多家顶级风投机构的投资。 视频内容理解正逐渐成为主流趋势,尤其是场景式理解,它能将视频内容精细化处理,提高在社交媒体上的传播...

马斯克的Grok已经可以在xAI网站上单独访问

近日,科技巨头马斯克的创新之作——Grok,现已登陆专业人工智能平台xAI,为用户提供更为全面的功能体验。这款智能工具在其新平台上增设了分支树模式,用户可借此探索多轮对话中的多种可能回应路径,极大地促进了对话流程的理解与分析。对于热衷于人工智能探索的用户,只需通过xAI的IDE入口,便能访问Grok。欲尝试者可访问官网:https://top.aibase.com/tool/xai-grok,若遇申请需求,按指示操作即可。然而,目前Grok的使用权仅限于X Premium和X Premium+订阅用户。 此外,xAI近期发布的Grok-1.5Vision多模态模型引人注目,...

马斯克 xAI 展示首个多模态模型 Grok-1.5V:可将流程图转成 Python 代码

xAI发布Grok-1.5 Vision:革新多模态模型,引领智能处理新高度 在科技巨头马斯克的支持下,人工智能公司xAI近期持续创新,继Grok-1.5大语言模型后,又推出了全新的多模态模型——Grok-1.5 Vision (Grok-1.5V)。这款先进模型不仅能够理解文本信息,还能解析文档、图表、截图和照片,拓宽了人工智能处理数据的边界。 xAI宣布即将邀请早期用户与Grok现有用户参与Grok-1.5V的测试,展示其强大的多学科推理能力和文档理解力。从官方发布的实例来看,Grok-1.5V能将流程图转化为Python代码,根据儿童画作创作故事,解析流行语,甚至...