标签:强化学习

视觉理解模型与数学推理结合:通义开源32B参数图像解析新模型,强化学习驱动的视觉逻辑分析能力提升,看图说话更进一步!

第一段 智东西(公众号:zhidxcom)报道,3月25日,阿里云通义千问开源了一款更小尺寸的视觉理解模型——Qwen2.5-VL-32B-Instruct。这一发布与DeepSeek V3新版本几乎同时进行。该模型在输出风格、数学推理能力以及图像解析等方面表现出色,能够应对复杂的数学问题,并在识别和视觉逻辑推导任务中具备细粒度分析能力。 第二段 Qwen2.5-VL-32B-Instruct是在1月底开源的Qwen2.5-VL系列基础上,通过强化学习持续优化而来的。这款模型采用Apache 2.0协议开源,其参数规模为32B,正迅速成为许多科技爱好者的首选模型大小。它不仅能...

强化学习与视觉语言模型结合:西北大学推出三维布局空间推理框架MetaSpatial,解锁50条数据驱动的空间智能新纪元

(由多段落组成) 在三维空间理解任务中,让视觉语言模型生成合理且符合物理规则的场景布局仍是一项挑战。例如,“请将这些家具合理摆放在房间中”,尽管现有模型可以识别图像中的物体并给出语义连贯的描述,但通常缺乏对三维空间结构的真实建模,难以满足基本的物理约束与功能合理性。 为解决这一问题,研究者尝试采用多智能体交互方法优化布局结果。然而,这类方法不仅计算成本高,而且容易陷入死锁。另一类方法通过构建大规模真实房间布局的描述语料,结合监督微调(Supervised Fine-Tuning, SFT)训练模型。虽然这种方式...

OpenAI后训练时代:William Fedus离职创业,AI4S与ChatGPT强化学习引领未来方向

第一段 最近,OpenAI的高管离职潮再次掀起波澜。在CTO Mira带领一众人才离开之后,后训练研究副总裁William Fedus也宣布离职并开始创业。这一消息引起了广泛关注。值得注意的是,去年10月,他刚刚晋升为后训练研究副总裁,接替了前负责人Barret Zoph的位置。 第二段 Fedus的离职并非毫无征兆。他在辞职声明中提到,自己的本科专业是物理学,并且渴望将AI for Science(AI4S)应用于物理领域。由于AI4S被认为是实现通用人工智能(ASI)最具战略意义的方向之一,OpenAI计划投资并与他的新公司合作。据媒体爆料,Fedus的新公...

百度文心大模型全新升级:深度思考模型免费体验,多模态能力更强,API定价优惠空前,强化学习技术引领未来发展趋势

百度文心大模型迎来重大更新,全新版本文心大模型4.5和文心大模型X1正式上线官网,并免费开放给用户使用。此次更新不仅带来了更强大的多模态能力,还优化了模型的理解、规划、反思与进化能力。 文心大模型4.5:原生多模态的全面升级 文心大模型4.5作为百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现了协同优化,其语言、理解、生成、逻辑和记忆能力均得到了全面提升。具体来看,该模型在多模态能力方面已接近GPT-4o水平,而在文本能力上更是超越了DeepSeek-V3和GPT-4.5,平均得分达到79.6分。 背后...

AI Agent与大语言模型:从思考到行动的数字员工革命及伦理问题探讨

2025年3月,一款名为Manus的AI产品在社交媒体上引起了广泛关注。它的内测邀请码一码难求,甚至被炒至数万元,并带动了超过150只AI智能体概念股涨停。Manus之所以受到如此关注,不仅因为它在GAIA基准测试中超越了OpenAI的Operator模型,达到了当前技术的最佳水平(SOTA),更因为它代表了一种全新的AI形态——AI Agent(人工智能智能体)。与我们熟悉的ChatGPT等生成式AI不同,AI Agent实现了从“思考”到“行动”的跨越。 ChatGPT更像是一个超级大脑,擅长回答问题和生成,但仅停留在思考层面。而AI Agent则更进一步,不仅能思考...

阿里半夜开源全新推理模型QwQ-32B,基于强化学习与大规模预训练实现性能显著提升,挑战DeepSeek-R1满血版,迈向AGI新征程

阿里发布QwQ-32B:强化学习助力大模型性能突破 今天凌晨3点,阿里开源发布了全新推理模型QwQ-32B,该模型参数量为320亿,但其性能足以媲美6710亿参数的DeepSeek-R1满血版。千问团队在推文中表示:“这次,我们研究了扩展强化学习(RL)的方法,并基于我们的Qwen2.5-32B取得了一些令人印象深刻的成果。我们发现,通过持续的RL训练可以显著提高模型性能,尤其是在数学和编码任务上,并且中型模型也能实现与巨型MoE模型相媲美的效果。” QwQ-32B已正式在Hugging Face和ModelScope平台开源,采用Apache 2.0开源协议。用户可以通...

DeepSeek V3/R1搭配Colossal-AI,实现低成本构建与高效模型微调,强化学习性能提升,硬件要求直降10倍!

DeepSeek V3/R1 引领潮流,Colossal-AI 助力低成本高质量模型构建 DeepSeek V3/R1 正在全网掀起热潮,其基于原始模型的解决方案和 API 服务已广泛普及。面对低价和免费的竞争压力,如何通过后训练(post-training)结合专业领域数据,站在巨人的肩膀上,打造高质量私有模型,提升业务竞争力与价值?Colossal-AI 提供了强大的支持。 Colossal-AI 是一款开源大模型后训练工具箱,已获得近 4 万 GitHub Star。它为开发者提供了丰富的功能,包括: - 低成本微调:支持满血版 671B LoRA 的 DeepSeek V3/R1 模型进行低成本监督...

ChatGPT后训练方法被OpenAI前高管公开,PPT全网传播

近日,OpenAI的两位前高管John Schulman和Barret Zoph在离开公司后,将ChatGPT的后训练方法整理成PPT并公开发布。这两位曾在OpenAI担任后训练研究的重要角色,因此他们对这一领域的见解备受关注。 背景介绍 John Schulman是OpenAI的联合创始人之一,曾负责后训练工作;Barret Zoph则曾任后训练研究副总裁。他们在斯坦福大学进行了一场关于后训练及ChatGPT开发经验的演讲,并通过社交媒体分享了PPT。遗憾的是,演讲视频未能录制下来,但观众们纷纷点赞收藏,证明了其的高质量。 后训练阶段详解 后训练是模型开发的最后一...

DeepSeek利用AI模型R1独立发现成本控制核心思路,OpenAI首席研究官亲自证实,引发业内广泛关注,连奥特曼都不得不发声评论这一突破性进展!

DeeSeek掀起全球AI革命,改变科技格局 短短几天内,DeeSeek凭借其R1模型在Hugging Face中的like数飙升,迅速登顶美国App Store榜首,引发了全球科技股的集体重挫。这股来自东方的力量展示了其强大的影响力。甚至连OpenAI首席研究官Mark Chen也不得不承认,DeepSeek确实独立发现了一些关键的AI核心理念,并且未来将发布更多模型。 OpenAI的回应与技术突破 面对外界的各种分析,Mark Chen表示现代AI系统采用了「预训练」和「推理」两大范式,提供了更灵活的优化空间,在降低成本的同时提升模型性能。Noam Brown也强调,算...

历史首次!DeepSeek凭借深度求索和强化学习技术同时登顶中美两区苹果App免费榜:开源模型引领AI竞争,下载量爆增

深度求索(DeepSeek)引领中美AI竞争新潮流 近日,快科技报道指出,随着深度求索(DeepSeek)的出现,中美在人工智能(AI)领域的竞争格局发生了显著变化。根据苹果App Store中国区免费榜数据显示,过去一周内,全球瞩目的DeepSeek一举登顶榜首。同时,在美国区苹果App Store免费榜上,DeepSeek也从昨日的第六位迅速攀升至首位,超越了包括ChatGPT、Meta旗下的Threads、Google Gemini和Microsoft Copilot等在内的多个知名生成式AI产品。 这是首次有中国应用在中国和美区苹果App Store同时占据首位,其火爆程度可见一斑。1...
1234