刚刚,OpenAI推出全新AI Agent——Operator:浏览器助手开启全民智能体自动化操作新时代!

OperatorOpenAI发布的新一代智能浏览器助手

今天凌晨2点,OpenAI正式发布了备受期待的AI Agent——Operator。这款面向浏览器的智能体能够模拟人类操作计算机的能力,帮助用户完成在线订餐、预订酒店、购买机票等日常繁琐和重复的任务。例如,通过Operator可以在OpenTable上轻松预订名为Beretta的餐厅。

与传统的Agent和RPA不同,Operator的最大技术特点是无需依赖API或特定网站即可完成所有自动化操作。它通过对屏幕截图进行分析,识别页面元素,并使用鼠标和键盘进行模拟操作。因此,现阶段可以将Operator视为大模型增强版的按键精灵。

Operator基于新模型CUA(在GPT-4基础上研发)开发而成,专门针对视觉UI界面的理解和交互进行了额外专项训练。这使得Operator无需依赖API即可实现高效操作。此外,内置浏览器使Operator能够查看网页并通过打字、点击和滚动来与网页进行交互,处理各种重复性的浏览器任务,如填写表格、订购杂货,甚至制作表情包。

当用户上传一张包含购物清单的照片时,Operator首先会通过视觉算法识别出照片中的文字,然后利用大模型分析每个项目的意义,最终确定访问哪个电商平台以及搜索哪些关键词。这样,Operator不仅限于简单的点击和输入操作,还能处理更加复杂的情境。

另一个显著特点是自我纠错能力。当预见错误或识别不明确时,Operator可以根据大模型的推理能力进行实时修正。如果实在解决不了问题,它会主动把控制权交给人类寻求帮助。

使用Operator非常简单,无需专业的编程背景或繁琐的开发流程。只需像使用ChatGPT那样用文本描述你的需求即可。例如,当你需要购买杂货时,可以直接上传一张购物清单的照片,或者简单地用文字描述你需要的物品,如“帮我购买鸡蛋、菠菜、蘑菇和鸡腿”。Operator会识别这些物品,并在你常用的购物平台上(如Instacart)完成购物任务,自动搜索商品、选择品牌和数量,并将其加入购物车。如果某些商品缺货,Operator会询问你是否需要替代品,或者是否可以跳过该商品。

此外,Operator还可以处理更复杂的任务,包括安排活动、购买演唱会门票、预订旅行计划等。只需简单地描述你的需求,Operator会通过互联网为你找到最佳选项并完成预订或购买操作。例如,你可以让它帮你查找并购买本周末勇士队比赛的门票,或者安排下周的网球课程。

考虑到涉及金钱交易、个人信息填写等敏感环节,Operator支持一套完善、安全的用户交互方案。每当遇到关键步骤时,系统都会暂停当前操作并向用户发送通知,等待进一步指示。如果遇到无法解决的问题,Operator也会主动向人类寻求帮助,不会盲目尝试解决。此外,Operator还内置了保护措施,会实时监控其自动化行为,发现异常时会暂停任务,防止被用于非法用途,如暴力密码破解。

目前,Operator处于预览版状态,仅提供给美国Pro用户使用,但很快会扩大应用范围。

本文来源: ​ AIGC开放社区公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...