看懂

CogAgent-9B-20241220：智能体任务的开源模型

智谱技术团队于12月26日宣布，正式开源了专为智能体任务设计的基座模型——CogAgent-9B-20241220。该模型基于GLM-4V-9B训练而成，旨在通过屏幕截图输入，预测用户在图形用户界面（GUI）上的下一步操作。这一特性使得CogAgent能够广泛应用于个人电脑、手机和车机设备等各类GUI交互场景。

模型升级亮点

相较于2023年12月发布的首版CogAgent模型，CogAgent-9B-20241220在多个方面实现了显著提升：

1. GUI感知与推理预测准确性：新版本在理解和预测用户意图方面更加精准。
2. 动作空间完善性：支持更丰富的基础动作和高级拟人行为。
3. 任务普适性和泛化性：适用于更多种类的任务，且具有更强的适应能力。
4. 多语言支持：支持中英文双语的屏幕截图和语言交互，增强了跨语言应用的灵活性。

输入输出特点

CogAgent的输入仅包含三部分：
– 用户的自然语言指令
– 已执行的历史动作记录
– GUI截图

无需额外的HTML文本表征或元素标签信息。其输出则涵盖四个方面：
– 思考过程：显式输出对GUI截图的理解及下一步操作的计划。
– 自然语言描述：以自然语言形式描述下一步动作，并将其加入历史操作记录。
– 结构化描述：以类似函数调用的形式描述下一步操作及其参数，便于解析和执行。
– 敏感性判断：区分“一般操作”和“敏感操作”，确保重要操作的安全性。

性能测试与对比

CogAgent-9B-20241220在多个数据集上进行了测试，包括Screenspot、OmniAct、CogAgentBench-basic-cn和OSWorld。与GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI和SeeClick等模型相比，CogAgent在多个指标上表现出色，证明了其在GUI Agent领域的强大性能。

本文来源：