近年来,AI技术的快速发展使得各大科技公司在人工智能领域的竞争愈发激烈。本期《窄播Weekly》聚焦于大厂在AI应用上的新动态:当AI竞争策略逐渐向实际应用场景倾斜时,多模态能力和代理执行能力成为两大核心焦点。
多模态能力的应用
多模态能力是提升AI与用户交互体验的关键。通过赋予大模型处理多种类型数据(如文本、图像、视频等)的能力,AI可以更贴近人类的感知方式。近期,字节跳动、百度、谷歌和OpenAI等公司相继推出了具备更强多模态能力的基础大模型产品,为相关应用创新提供了可能。例如,阿里巴巴旗下的夸克应用上线了“拍照问夸克”功能,基于通义千问的推理和多模态能力,用户可以通过拍照实现图文并茂的互动。
代理执行能力的突破
代理执行能力则是让AI能够完成复杂任务的核心。这类能力依赖于Agent产品的生态发展。目前,国内外多家公司已推出通用Agent产品,如字节跳动的扣子空间、百度的心响App、360的纳米AI以及前百度高管创立的Genspark等。这些产品均支持通过自然语言布置任务,并具备编写代码和连接第三方工具的能力。相比之下,海外巨头更倾向于开发针对单一场景的Agent。例如,Notion推出的AI驱动邮件服务Notion Mail,专注于邮件管理;OpenAI的Operator和Deep Research则分别聚焦浏览器操作和研究领域。
用户体验的提升
随着多模态和代理执行能力的不断提升,AI产品的使用门槛降低,效率显著提高。微软CEO纳德拉曾称赞自家Copilot为用户提供了一个“脚手架”,助力用户高效完成日常任务。然而,这些仍处于早期阶段的产品在细节上还有待完善,包括用户意图理解、第三方工具调用及生成的质量等方面。
技术与市场的展望
从现阶段看,大模型的能力仍是决定性因素。AI技术的进步和成本的下降推动了应用爆发,也让人看到了李彦宏所言“应用统治未来世界”的可能性。然而,Agent的最终形态尚无定论,未来或许会出现“模型即应用”的趋势,即每个具体任务都有专属模型支持。例如,画图有专门的画图模型,数据分析也有对应的分析模型。OpenAI正朝着这一方向迈进,而国内厂商则更多采用API逻辑开发Agent。
未来的挑战与机遇
尽管多模态和代理执行能力的结合为AI带来了广阔前景,但其成熟仍需时间。厂商需要持续优化模型能力,扩大工具箱范围,增强编码能力,同时提升任务理解能力。只有这样,通用Agent才能真正成为未来C端用户的底层入口,并开辟新的收费模式。
