智谱AI推出自主人工智能AutoGLM,谷歌和微软纷纷入局多模态模型与行为数据强化学习领域

昨天,微软突然发布了一款新的模型,该模型可用于网页自动化操作。微软此举也正式加入了与智谱AutoGLM类似的自主人工智能竞争。而在前天,《The Information》网站上报道了一则消息,标题为“Google Preps AI That Takes Over Computers”,意即谷歌正在准备推出接管计算机的人工智能。上周三,Claude发布;上周五,智谱AI发布;周末,谷歌传出消息;接着是微软。短短一周内,已有四家公司宣布将推出类似产品,其中三家已悄然发布:Anthropic的Claude、智谱的AutoGLM和微软的OmniParser。这些产品的表现令人瞩目。尽管谷歌的消息只是一个爆料,但很可能在今年内推出,显示出其迫切希望占据市场先机。此外,据我所知,OpenAI内部也在研发类似产品,只是尚未公布。

二级市场对此类自主人工智能的反应也非常积极。上周五,智谱的AutoGLM发布后,在金融圈引起轰动,甚至出现了智谱AI概念股。自主人工智能似乎瞬间点燃了AI领域的热情,开启了新一轮的用户心智争夺战。毕竟,谁最先发布,谁就可能占据优势。自主人工智能的热度确实超出了我的预期,但也情有可原。这类AI能够根据指令全自动化处理任务,更符合我们对人工智能的期待,给人一种AI变为现实的感觉。当前的AI虽然具备一定智能,但仍然离不开人工干预,远未达到解放双手的目标,大多数情况下仍是“人工”+“智能”。

对于各大AI公司而言,底层模型的能力已经达到了一定的瓶颈,如今的大模型排行榜已不再引起人们的兴趣。因此,需要一些更具科幻色彩的新鲜刺激。此时,自主人工智能的出现恰逢其时。自主人工智能完成任务的流程大致为:理解用户需求 -> 系统规划 -> 调用工具执行任务 -> 目标完成。这一流程看似简单,但实际上一年多前就已经有人尝试,最著名的项目是GitHub上获得16万星的AutoGPT。然而,AutoGPT后来逐渐沉寂,主要原因是其完全依赖大语言模型,存在诸多局限性。例如,大语言模型只能处理文本,而许多任务如点外卖、打车需要读取屏幕信息。大语言模型无法直接处理图像,通常需要额外步骤将图像转换为文本输入,而这一转换过程会导致信息丢失。因此,AutoGPT的效果有限,逐渐淡出人们的视线。

直到最近,自主人工智能再次掀起新一波浪潮。我很好奇,为何在过去的一年半时间里,自主人工智能几乎没有消息,直到最近才密集发声。是各大公司在其他赛道上竞争激烈,无暇顾及,还是大家都在研发但遇到了瓶颈,直到最近才有所突破?经过与国内几家AI大厂的朋友交流,我发现大家的说法惊人一致:大家都在稳步推进,只是最近恰好到了可以拿出成果的时间点,且进展相差不大。过去一年半,自主人工智能在公众视野中进展缓慢,主要有两个原因:多模态模型不够成熟,以及缺乏足够的行为数据

首先,多模态模型的不成熟限制了自主人工智能的发展。模型无法仅靠文字描述来理解屏幕上的元素,必须依赖强大的多模态模型作为基础。多模态模型的训练比纯大语言模型复杂得多,数据量和资源消耗呈指数级增长,导致进展缓慢。Claude也是在今年3月才上线多模态能力。因此,多模态模型的成熟度成为制约因素之一。其次,缺乏行为数据也是一个重要问题。互联网上的静态信息无法反映动态过程,例如,模型可以理解外卖界面上的价格,但缺乏如何操作App下单的数据。这种动态过程的数据缺失使得模型难以完成复杂的任务。今年3、4月以后,强化学习补充数据的方法逐渐成为行业共识,从而推动了自主人工智能的发展。

最后,简单介绍一下AutoGLM等自主人工智能能力的实现方式。具体细节尚未公开,但根据调研结果,可以进行一些推测。以微信发送“今天疯狂星期四V我50”的消息为例,大模型会一边查看当前屏幕界面,一边逐步推理:任务是否可以在当前UI界面下继续进行?如果可以,则进入下一步;否则,思考需要打开哪个界面,再进行下一步动作。模型需要分析当前UI与最终任务的关系,将其分解为一系列具体动作,如填写输入框、点击发送按钮,并判断任务是否完成。这一切都建立在模型能够识别屏幕上的各种元素的基础上,包括按钮、单选控件、表单、开关等。滑动操作是最具挑战性的,因为AI需要具备预测能力,这需要大量的行为数据来训练。尽管目前还存在许多问题,但自主人工智能的前景依然光明。未来两个月,可能会发生重大变化。

本文来源: 数字生命卡兹克公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...