标签:视觉理解模型
杭州AI开源领域再创佳绩!阿里Qwen除夕重磅推出视觉理解模型新旗舰,涵盖多模态大模型全系列三种尺寸,7B参数量超越GPT-40-mini,尤其在视频理解能力方面表现卓越,引领行业创新潮流。
杭州领跑AI开源:阿里Qwen除夕发布视觉理解新旗舰模型 杭州在人工智能领域再次展现出强大的创新实力。2025年1月28日凌晨4点,阿里巴巴通义团队发布了全新视觉理解模型Qwen2.5-VL,并宣布全面开源。这款模型不仅支持视觉理解、Agent操作、长视频理解等功能,还推出了3B、7B和72B三种参数规模的版本。 官方测试结果显示,Qwen2.5-VL系列中的7B模型(Qwen2.5-VL-7B-Instruct)在多个任务中超越了GPT-4o-mini,而72B版本则在一系列涵盖多个领域的基准测试中表现出色,包括大学水平的问题解答、数学推理、文档理解等。 此外,Q...
阿里通义千问推出全新视觉理解模型Qwen2.5-VL,开源发布涵盖三尺寸版本,助力视觉Agent实现结构化输出,支持长视频理解与事件捕捉等先进能力
阿里通义千问开源全新视觉理解模型 Qwen2.5-VL 感谢IT之家网友 Hi_World 和 Skyraver 提供的线索!1月28日,阿里通义千问官方宣布开源全新的视觉理解模型Qwen2.5-VL。作为Qwen模型家族的旗舰视觉语言模型,Qwen2.5-VL推出了3B、7B和72B三种不同尺寸版本。以下是该模型的主要特点: 1. 视觉理解能力 Qwen2.5-VL不仅能够识别常见的物体,如花、鸟、鱼和昆虫,还能分析图像中的文本、图表、图标、图形和布局。它在多个领域的应用中表现出色,包括大学水平的问题解答、数学计算、文档理解和视觉问答。 2. 作为视觉Agent的操...