标签:多模态智能体
字节Seed开源多模态智能体UI-TARS-1.5:探索未来人工智能的新里程碑
字节跳动旗下的Seed团队于4月18日正式宣布开源多模态智能体UI-TARS-1.5。这款智能体基于视觉-语言框架设计,专注于通过虚拟环境中的任务执行来提升基础模型的通用推理能力。它能够支持复杂的操作任务,例如精准操控电脑、手机系统以及浏览器交互等。 根据官方介绍,UI-TARS-1.5已经在7个典型的图形用户界面(GUI)评测基准中表现出卓越性能(SOTA),并且首次展示了其在游戏场景中的长时推理能力和开放空间中的交互能力。相比上一代原生GUI智能体,UI-TARS-1.5引入了强化学习机制以优化高阶推理能力,并新增了“行动前思考”...