标签:Qwen2.5-VL
阿里通义千问推出全新视觉理解模型Qwen2.5-VL,开源发布涵盖三尺寸版本,助力视觉Agent实现结构化输出,支持长视频理解与事件捕捉等先进能力
阿里通义千问开源全新视觉理解模型 Qwen2.5-VL 感谢IT之家网友 Hi_World 和 Skyraver 提供的线索!1月28日,阿里通义千问官方宣布开源全新的视觉理解模型Qwen2.5-VL。作为Qwen模型家族的旗舰视觉语言模型,Qwen2.5-VL推出了3B、7B和72B三种不同尺寸版本。以下是该模型的主要特点: 1. 视觉理解能力 Qwen2.5-VL不仅能够识别常见的物体,如花、鸟、鱼和昆虫,还能分析图像中的文本、图表、图标、图形和布局。它在多个领域的应用中表现出色,包括大学水平的问题解答、数学计算、文档理解和视觉问答。 2. 作为视觉Agent的操...