2024年3月,OpenAI关闭了仅运营两个月的GPT Store。然而,仅仅7个月后,OpenAI现任董事会主席Bret Taylor创立的新公司却获得了45亿美元的融资,同样致力于Agent平台的开发。这一事件引发了AI界的广泛关注。10月26日,微软开源了基于纯视觉的GUI屏幕解析工具OmniParser,谷歌的同类产品“Project Jarvis”也有望在12月上线。荣耀CEO赵明在10月30日展示了AI智能体YOYO自主处理任务的能力,只需一句“订2000杯咖啡”,YOYO就能在附近成功下单,这标志着Agent技术的显著进步。
无论是电脑端还是手机端,Agent已经开始实现真正的“自主性”,从点咖啡到买牙膏,只需一句话,AI就能完成所有任务。与前一代只能提供建议的Agent相比,AutoGLM实现了从1.0到2.0的飞跃。二级市场也因智能体的崛起而火热,智谱概念股表现强劲,相关公司股价明显上涨。
Agent 2.0时代的核心在于AI从“言”到“行”的突破。例如,Anthropic发布的“Computer Use”可以在接收到任务后,自主完成多个步骤,如查找数据、输入信息等。智谱的AutoGLM也在手机端展现了强大的自主操作能力,能够调用多个App完成任务。微软的OmniParser则通过解析Web界面,自主完成任务。
实现这些功能的关键在于基础大模型的发展。Agent的核心系统包括感知、规划、记忆、行动和工具五个部分,通过多模态能力,Agent能够更好地理解和操作环境。智谱的AutoGLM通过自研的“基础智能体解耦合中间界面”设计,提高了操作准确度。此外,AutoGLM还应用了“自进化在线课程强化学习框架”技术,不断提升应对复杂任务的能力。
在人工智能的发展历程中,Agent 2.0标志着从单体智能向使用工具方向的迈进。智谱的技术路线图显示,AI已经从L1阶段的语言能力发展到L2阶段的逻辑思维能力,再到L3阶段的工具使用能力。展望未来,L4阶段的AI将能够自我完成创新,L5阶段的AI则具备融入或自成组织的能力。
随着AI进入L3阶段,大模型厂商在商业化方面也加快了步伐。荣耀Magic7搭载的YOYO智能体展示了AI终端的强大能力,手机进入“自动驾驶时代”。智谱与多家手机厂商合作,通过提供底层AI能力支持终端智能化升级。苹果也认为,Apple Intelligence将直接改善iPhone的销量。
智能体的落地不仅提升了硬件产品的竞争力,还改变了硬件厂商与消费平台之间的关系。通过智能体,AI终端厂商获得了向软件平台“征税”的权利。因此,越来越多的硬件厂商和大模型公司合作,共同推进AI技术的发展。未来,智能终端将成为大模型技术和商业化的新高地。
本文来源: 光锥智能公众号【阅读原文】