标签：Qwen2.5-VL

阿里通义千问推出全新视觉理解模型Qwen2.5-VL，开源发布涵盖三尺寸版本，助力视觉Agent实现结构化输出，支持长视频理解与事件捕捉等先进能力

阿里通义千问开源全新视觉理解模型 Qwen2.5-VL 感谢IT之家网友 Hi_World 和 Skyraver 提供的线索！1月28日，阿里通义千问官方宣布开源全新的视觉理解模型Qwen2.5-VL。作为Qwen模型家族的旗舰视觉语言模型，Qwen2.5-VL推出了3B、7B和72B三种不同尺寸版本。以下是该模型的主要特点： 1. 视觉理解能力 Qwen2.5-VL不仅能够识别常见的物体，如花、鸟、鱼和昆虫，还能分析图像中的文本、图表、图标、图形和布局。它在多个领域的应用中表现出色，包括大学水平的问题解答、数学计算、文档理解和视觉问答。 2. 作为视觉Agent的操...

来源：

IT之家【阅读原文】
Tags：Qwen2.5-VL 结构化输出视觉Agent 视觉理解模型阿里通义千问

3个月前