标签：视觉理解模型

视觉理解模型与数学推理结合：通义开源32B参数图像解析新模型，强化学习驱动的视觉逻辑分析能力提升，看图说话更进一步！

第一段智东西（公众号：zhidxcom）报道，3月25日，阿里云通义千问开源了一款更小尺寸的视觉理解模型——Qwen2.5-VL-32B-Instruct。这一发布与DeepSeek V3新版本几乎同时进行。该模型在输出风格、数学推理能力以及图像解析等方面表现出色，能够应对复杂的数学问题，并在识别和视觉逻辑推导任务中具备细粒度分析能力。第二段 Qwen2.5-VL-32B-Instruct是在1月底开源的Qwen2.5-VL系列基础上，通过强化学习持续优化而来的。这款模型采用Apache 2.0协议开源，其参数规模为32B，正迅速成为许多科技爱好者的首选模型大小。它不仅能...

来源：

智东西【阅读原文】
Tags：图像解析强化学习数学推理视觉理解模型视觉逻辑

4周前

杭州AI开源领域再创佳绩！阿里Qwen除夕重磅推出视觉理解模型新旗舰，涵盖多模态大模型全系列三种尺寸，7B参数量超越GPT-40-mini，尤其在视频理解能力方面表现卓越，引领行业创新潮流。

杭州领跑AI开源：阿里Qwen除夕发布视觉理解新旗舰模型杭州在人工智能领域再次展现出强大的创新实力。2025年1月28日凌晨4点，阿里巴巴通义团队发布了全新视觉理解模型Qwen2.5-VL，并宣布全面开源。这款模型不仅支持视觉理解、Agent操作、长视频理解等功能，还推出了3B、7B和72B三种参数规模的版本。官方测试结果显示，Qwen2.5-VL系列中的7B模型（Qwen2.5-VL-7B-Instruct）在多个任务中超越了GPT-4o-mini，而72B版本则在一系列涵盖多个领域的基准测试中表现出色，包括大学水平的问题解答、数学推理、文档理解等。此外，Q...

来源：

量子位【阅读原文】
Tags：AI开源多模态大模型视觉理解模型视频理解能力阿里Qwen

3个月前

阿里通义千问推出全新视觉理解模型Qwen2.5-VL，开源发布涵盖三尺寸版本，助力视觉Agent实现结构化输出，支持长视频理解与事件捕捉等先进能力

阿里通义千问开源全新视觉理解模型 Qwen2.5-VL 感谢IT之家网友 Hi_World 和 Skyraver 提供的线索！1月28日，阿里通义千问官方宣布开源全新的视觉理解模型Qwen2.5-VL。作为Qwen模型家族的旗舰视觉语言模型，Qwen2.5-VL推出了3B、7B和72B三种不同尺寸版本。以下是该模型的主要特点： 1. 视觉理解能力 Qwen2.5-VL不仅能够识别常见的物体，如花、鸟、鱼和昆虫，还能分析图像中的文本、图表、图标、图形和布局。它在多个领域的应用中表现出色，包括大学水平的问题解答、数学计算、文档理解和视觉问答。 2. 作为视觉Agent的操...

来源：

IT之家【阅读原文】
Tags：Qwen2.5-VL 结构化输出视觉Agent 视觉理解模型阿里通义千问

3个月前