字节Seed开源多模态智能体UI-TARS-1.5：探索未来人工智能的新里程碑

字节跳动旗下的Seed团队于4月18日正式宣布开源多模态智能体 UI-TARS-1.5。这款智能体基于视觉-语言框架设计，专注于通过虚拟环境中的任务执行来提升基础模型的通用推理能力。它能够支持复杂的操作任务，例如精准操控电脑、手机系统以及浏览器交互等。

根据官方介绍，UI-TARS-1.5已经在7个典型的图形用户界面（GUI）评测基准中表现出卓越性能（SOTA），并且首次展示了其在游戏场景中的长时推理能力和开放空间中的交互能力。相比上一代原生GUI智能体，UI-TARS-1.5引入了强化学习机制以优化高阶推理能力，并新增了“行动前思考”功能，可以规划多步骤的任务决策。

从技术角度来看，Seed团队通过四个关键维度实现了UI-TARS-1.5的能力升级。首先，增强视觉感知能力，利用大规模界面截图数据来理解元素语义；其次，构建跨平台标准动作空间，从而提高任务执行的精度；第三，采用System 2推理机制生成任务思维链；最后，建立自动化交互轨迹采集与反思训练范式，使模型能够在实际应用中持续优化。

特别说明：本文（包括视频、图片或音频）由凤凰网旗下自媒体平台“大风号”的用户上传并发布，凤凰网仅提供信息存储空间服务。

本文来源：