OpenAI错过的7个月：智谱大模型商业化，AutoGLM助力AI Agent终端爆发？

2024年3月，OpenAI关闭了仅运营两个月的GPT Store。然而，仅仅7个月后，OpenAI现任董事会主席Bret Taylor创立的新公司却获得了45亿美元的融资，同样致力于Agent平台的开发。这一事件引发了AI界的广泛关注。10月26日，微软开源了基于纯视觉的GUI屏幕解析工具OmniParser，谷歌的同类产品“Project Jarvis”也有望在12月上线。荣耀CEO赵明在10月30日展示了AI智能体YOYO自主处理任务的能力，只需一句“订2000杯咖啡”，YOYO就能在附近成功下单，这标志着Agent技术的显著进步。

无论是电脑端还是手机端，Agent已经开始实现真正的“自主性”，从点咖啡到买牙膏，只需一句话，AI就能完成所有任务。与前一代只能提供建议的Agent相比，AutoGLM实现了从1.0到2.0的飞跃。二级市场也因智能体的崛起而火热，智谱概念股表现强劲，相关公司股价明显上涨。

Agent 2.0时代的核心在于AI从“言”到“行”的突破。例如，Anthropic发布的“Computer Use”可以在接收到任务后，自主完成多个步骤，如查找数据、输入信息等。智谱的AutoGLM也在手机端展现了强大的自主操作能力，能够调用多个App完成任务。微软的OmniParser则通过解析Web界面，自主完成任务。

实现这些功能的关键在于基础大模型的发展。Agent的核心系统包括感知、规划、记忆、行动和工具五个部分，通过多模态能力，Agent能够更好地理解和操作环境。智谱的AutoGLM通过自研的“基础智能体解耦合中间界面”设计，提高了操作准确度。此外，AutoGLM还应用了“自进化在线课程强化学习框架”技术，不断提升应对复杂任务的能力。

在人工智能的发展历程中，Agent 2.0标志着从单体智能向使用工具方向的迈进。智谱的技术路线图显示，AI已经从L1阶段的语言能力发展到L2阶段的逻辑思维能力，再到L3阶段的工具使用能力。展望未来，L4阶段的AI将能够自我完成创新，L5阶段的AI则具备融入或自成组织的能力。

随着AI进入L3阶段，大模型厂商在商业化方面也加快了步伐。荣耀Magic7搭载的YOYO智能体展示了AI终端的强大能力，手机进入“自动驾驶时代”。智谱与多家手机厂商合作，通过提供底层AI能力支持终端智能化升级。苹果也认为，Apple Intelligence将直接改善iPhone的销量。

智能体的落地不仅提升了硬件产品的竞争力，还改变了硬件厂商与消费平台之间的关系。通过智能体，AI终端厂商获得了向软件平台“征税”的权利。因此，越来越多的硬件厂商和大模型公司合作，共同推进AI技术的发展。未来，智能终端将成为大模型技术和商业化的新高地。

本文来源：