阿里通义千问推出全新视觉理解模型Qwen2.5-VL,开源发布涵盖三尺寸版本,助力视觉Agent实现结构化输出,支持长视频理解与事件捕捉等先进能力
感谢IT之家网友 Hi_World 和 Skyraver 提供的线索!1月28日,阿里通义千问官方宣布开源全新的视觉理解模型Qwen2.5-VL。作为Qwen模型家族的旗舰视觉语言模型,Qwen2.5-VL推出了3B、7B和72B三种不同尺寸版本。以下是该模型的主要特点:
1. 视觉理解能力
Qwen2.5-VL不仅能够识别常见的物体,如花、鸟、鱼和昆虫,还能分析图像中的文本、图表、图标、图形和布局。它在多个领域的应用中表现出色,包括大学水平的问题解答、数学计算、文档理解和视觉问答。
2. 作为视觉Agent的操作能力
Qwen2.5-VL可以直接作为一个视觉代理(Agent),具备推理和动态使用工具的能力,初步实现了使用电脑和手机的功能。这使得它在实际应用场景中更加灵活和智能。
3. 理解长视频并捕捉事件
Qwen2.5-VL可以理解超过1小时的长视频,并通过精准定位相关视频片段来捕捉事件。这一新功能显著提升了其在视频处理方面的能力。
4. 视觉定位技术
该模型可以通过生成边界框(bounding boxes)或点(points)准确定位图像中的物体,并为坐标和属性提供稳定的JSON输出,适用于多种应用场景。
5. 结构化输出
对于发票、表单、表格等数据,Qwen2.5-VL支持的结构化输出,特别适合金融和商业领域的应用。此外,在测试中,Qwen2.5-VL-72B-Instruct在多个领域和任务的基准测试中表现出色,涵盖了从大学水平问题到视觉问答等多个方面。
6. 小型模型的优势
较小的模型版本Qwen2.5-VL-7B-Instruct在多个任务中超越了GPT-4o-mini,而Qwen2.5-VL-3B则展示了端侧AI的巨大潜力,超越了之前版本Qwen2-VL的7B模型。
阿里通义千问官方表示,与之前的Qwen2-VL相比,Qwen2.5-VL增强了对时间和空间尺度的感知能力,并简化了网络结构以提高模型效率。未来将进一步提升模型的问题解决和推理能力,整合更多模态,使其成为能够处理多种输入类型和任务的综合全能模型。
本文来源: IT之家【阅读原文】