标签：多模态模型

GPT-4o原生图像生成功能上线，OpenAI多模态模型引领AI技术革新，轻松实现P图与生图新体验

（由多段落组成）在 DeepSeek V3 进行“小版本更新”后，阿里通义千问团队也开源了新模型。与此同时，OpenAI 在深夜悄然发布了 GPT-4o 原生图像生成功能，这一消息让全球技术爱好者惊叹不已。更令人惊喜的是，即使是免费用户也能体验到这一强大功能。 GPT-4o 的核心优势在于其能够精准呈现文字，并严格遵循用户的指令要求。通过调用内置知识库和对话上下文，它不仅能够处理上传的图像，还能将其作为视觉灵感来源。这种特性让用户可以轻松创造出与构想完全一致的图像，从而实现更高效的视觉表达。 2024 年 5 月，OpenAI 推...

来源：

机器之心【阅读原文】
Tags：AI技术 GPT-4o OpenAI 图像生成多模态模型

5天前

GPT-4o图像生成免费发布，奥特曼坐镇多模态模型，OpenAI指令遵循与文本控制表现惊艳

GPT-4o图像生成能力现已全面开放，免费用户也可第一时间体验！从即日起，这项功能将在ChatGPT和Sora中向所有Plus、Pro、Team以及免费用户推出。这一消息迅速引发了广泛关注，各种实测结果层出不穷。文本处理能力惊艳最令人惊艳的是GPT-4o对文本的处理能力。例如，它可以100%还原文字，并且能够指定文字的摆放位置。通过对比两张图片可以发现，第一张图中的男人倒影与第二张图完全对应，展现了其强大的细节把控能力。此外，它还能像连续剧一样，在准确生成文字的同时变换人物动作。奥特曼坐镇直播发布昨晚，OpenAI紧...

来源：

量子位【阅读原文】
Tags：GPT-4o OpenAI 图像生成多模态模型指令遵循

5天前

OpenAI推出GPT-4o：超强人工智能生成图像，多模态模型引领图像生成新时代，与谷歌同场竞技，奥尔特曼AGI梗图现场直出引发关注

感谢IT之家网友华南吴彦祖和软媒用户1392612提供的线索！最近，OpenAI在深夜直播中发布了GPT-4o的原生图像生成技术的重大升级。奥尔特曼亲自上阵，展示了自拍变梗图、相对论漫画等功能。然而，与谷歌刚刚发布的Gemini 2.5 Pro相比，OpenAI的动作显得有些不足。奥尔特曼带领团队展示了GPT-4o图像生成技术的各种大升级，包括制作梗图、文本渲染、多轮交互生成和指令遵循等。其中最亮眼的演示是一张官方玩梗的表情包。这项功能已经在ChatGPT和Sora中向所有用户提供。新版Sora生成图像的时间比以往更长，但OpenAI认为生图的...

来源：

IT之家【阅读原文】
Tags：GPT-4o OpenAI 人工智能图像生成多模态模型

5天前

「DeepSeek-R1接棒OpenAI，基于强化学习的多模态模型开源，引发AI圈性能对比热潮」

国内创业公司实现 OpenAI 愿景，多模态模型 K1.5 和 DeepSeek-R1 引领 AI 领域最近，大模型领域再次掀起热潮。国内创业公司月之暗面发布了数学、代码和多模态推理能力全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。与此同时，备受瞩目的 DeepSeek 也正式推出了其新版本 DeepSeek-R1，在数学、代码和自然语言推理等任务上与 OpenAI 的 o1 正式版不相上下。去年 12 月开源的 DeepSeek-V3 刚刚引发了一阵热潮，实现了诸多不可能的任务。此次发布的 R1 大模型更是让众多 AI 研究者感到震惊。AutoAWQ 作者 Casper Hans...

来源：

机器之心【阅读原文】
Tags：DeepSeek-R1 多模态模型开源模型强化学习性能对比

2个月前

AI生物学家：当「基础模型」与「生物学混沌」相遇，多模态模型和自然语言处理能否成为解谜的关键？

在当今的AI for Biology领域，基础模型成为了热门话题。研究人员希望将更多数据输入更大的模型中进行计算测试，以预测细胞状态如何响应化学扰动的变化，识别更好的酶来降解塑料或开发具有类似药物特性的蛋白质结合剂。这些研究建立在越来越容易获得的基因组数据之上，预示着一个光明的未来。然而，FutureHouse的联合创始人兼首席执行官Sam Rodriques认为，真正的生物学研究与当前的基础模型存在差距。他指出，在NeurlPs等AI生物学会议上，真正从事生物学研究的专业人士并不多。例如，《Nature》和《Science》期刊上的最新...

来源：

机器之心【阅读原文】
Tags：AI for Biology 基础模型多模态模型生物学研究自然语言

3个月前

智源社区2025 AI十大趋势发布会：聚焦人工智能、多模态模型、AI4S、AGI与AI安全的未来发展动态

2024年AI发展的回顾与展望随着年终岁尾的到来，我们迎来了新的希望和挑战。2024年，人工智能（AI）的发展已经超越了形式主义的束缚，逐步展现出其真正的潜力。这一年，AI领域经历了深刻的变化，许多复杂的概念逐渐被简化为最有价值的核心命题。过去的一年中，AI技术在非线性的蓬勃发展中逐渐趋近某种圆融的终局。4o、Gemini2、Emu3等多模态模型的性能得到了广泛验证，标志着这一领域的成熟。与此同时，各类具身企业层出不穷，带来了空间智能和世界模型等新技术的浪潮。AI4S（AI for Science）也焕发出新的生机，科学家们...

来源：

机器之心【阅读原文】
Tags：AGI AI4S AI安全人工智能多模态模型

3个月前

Mistral AI强势出击，全面升级le Chat，推出Pixtral Large超大杯多模态模型图像生成新体验

一觉醒来，Mistral AI 再次带来了惊喜。今天，Mistral AI 宣布推出其多模态家族的第二位成员——Pixtral Large。这款模型基于 Mistral Large 2 构建，拥有 1240 亿参数，不仅具备强大的图像理解能力，还能处理文档、图表和自然图像，同时保持了 Mistral Large 2 在纯文本理解方面的优势。除了发布新模型，Mistral AI 还对其免费聊天机器人 le Chat 进行了重大升级，新增了图像生成、网络搜索和交互式画布功能，全面对标 ChatGPT。所有这些功能都以免费测试版的形式开放，引起了 AI 社区的广泛关注。有人感慨道：“六个月前，...

来源：

机器之心【阅读原文】
Tags：- le Chat - Pixtral Large Mistral AI 图像生成多模态模型

4个月前

智谱AI推出自主人工智能AutoGLM，谷歌和微软纷纷入局多模态模型与行为数据强化学习领域

昨天，微软突然发布了一款新的模型，该模型可用于网页自动化操作。微软此举也正式加入了与智谱AutoGLM类似的自主人工智能竞争。而在前天，《The Information》网站上报道了一则消息，标题为“Google Preps AI That Takes Over Computers”，意即谷歌正在准备推出接管计算机的人工智能。上周三，Claude发布；上周五，智谱AI发布；周末，谷歌传出消息；接着是微软。短短一周内，已有四家公司宣布将推出类似产品，其中三家已悄然发布：Anthropic的Claude、智谱的AutoGLM和微软的OmniParser。这些产品的表现令人瞩目。尽管谷歌的消...

来源：

数字生命卡兹克公众号【阅读原文】
Tags：AutoGLM 多模态模型强化学习自主人工智能行为数据

5个月前

阿里国际发布最新Ovis多模态模型，机器学习与自动驾驶领域迎来重大突破

阿里国际发布最新多模态模型Ovis，多模态能力再升级近日，阿里国际AI团队发布了一款名为Ovis的多模态大模型，该模型在图像理解和多种子任务上实现了重大突破，达到了最新的技术水平（SOTA）。Ovis不仅可以识别菜品图并提供烹饪方法，还能为植物诊断疾病、准确翻译手写英文到中文，并且能精准分析财务报表数据。多模态大模型能够处理不同类型的输入数据，如文本和图像。相较于传统的大型语言模型（LLMs），这类模型不仅擅长处理文本数据，还能处理非文本数据，如图像等。根据多模态权威评测平台OpenCompass的数据，Ovis1....

来源：

量子位【阅读原文】
Tags：Ovis 多模态模型机器学习自动驾驶阿里国际

6个月前

Twelve Labs引领AI视频革命：Nvidia投资的场景式理解先驱，运用多模态模型实现创新视频理解，吸金5000万顶级风投

在如今这个短视频盛行的时代，我们如何能快速创作出全方位理解的视频内容呢？Twelve Labs，一家由年轻工程师Jae Lee和Aiden L在旧金山创立的初创公司，给出了答案。他们开发的产品能在视频中捕捉特定瞬间，整合视觉、音频、文本和上下文信息，实现语义搜索、分析和洞察，旨在构建多模式视频理解的基础设施。Twelve Labs的自研模型已经在媒体分析和精彩片段自动生成方面展现出潜力，并已获得多家顶级风投机构的投资。视频内容理解正逐渐成为主流趋势，尤其是场景式理解，它能将视频内容精细化处理，提高在社交媒体上的传播...

来源：

深思SenseAI公众号【阅读原文】
Tags：AI原生产品 Twelve Labs 场景式理解多模态模型视频理解

9个月前