百度多模态技术深度解析:iRAG技术与数字人如何解决幻觉问题?

不做Sora的背后:百度多模态路线是什么?

李彦宏在百度世界大会上表示:“我们非常非常看好多模态。” 当ChatGPT在国内引发“百模大战”时,百度率先推出了文心一言。然而,随着Sora掀起视频生成的热潮,李彦宏却在内部讲话中明确表示“Sora无论多么火,百度都不会去做”。这一决定引发了广泛的困惑和争议。

在百度世界大会的会后采访中,李彦宏对此进行了公开回应,不仅重申了不做Sora的决定,还详细解释了百度如何运用和发展多模态技术。他特别提到了百度从年初开始重点攻克的iRAG技术,这项技术旨在解决AI领域最棘手的“幻觉”问题。有趣的是,这一技术的研发正是在Sora风头正劲之时启动的。

加速解决幻觉问题

iRAG技术的核心在于解决图片生成中的幻觉问题。现代社会对计算机的信任度极高,只要输入正确,计算结果就可以直接用于后续的工作流程。然而,对于存在幻觉问题的大模型来说,这种信任显然无法完全建立。幻觉问题不仅影响模型的可控性和可靠性,还阻碍了AI应用的大规模落地。

解决幻觉问题已成为AI行业的当务之急。从技术层面来看,不解决幻觉问题就难以预测和控制模型的行为边界。从应用角度来看,幻觉问题严重阻碍了用户对AI产品的信任。从产业角度看,解决幻觉问题可以扩大AI的应用场景,提升AI系统的商业价值。

iRAG技术详解

iRAG(Image-based Retrieval-Augmented Generation)是一种全新的检索增强文生图范式,结合了百度多年的搜索积累,显著提升了图片生成的可控性和准确性。其核心是将百度搜索的亿级图片资源与文心大模型的生成能力相结合,通过联合优化,生成更加真实可信的图片。

具体而言,iRAG技术首先利用检索模块在海量图库中找出与文本描述最相关的若干图片,然后提取其视觉特征,与文本特征一并输入到生成模块。生成模块在此基础上,对图像进行理解、重组和创新,最终输出高质量、符合需求的全新图片。这种方法不仅减少了幻觉和违禁的问题,还使生成的图片更具多样性和创意。

多模态,不止Sora一条路

尽管多模态技术被认为是通往AGI的重要一步,但Sora路线并不是唯一的路径。Sora代表的通用视频生成模型投入成本高昂,技术成熟度也有待提高。市场研究机构Factorial Funds的报告显示,Sora模型至少需要在4200~10500块英伟达H100 GPU上训练一个月,大规模应用则需要约72万张Nvidia H100 GPU,总成本高达216亿美元。

目前,市场上的视频生成应用仍在探索阶段,尚未形成成熟的商业化方案和稳定的营收模式。此外,Meta首席科学家Yann LeCun和斯坦福教授李飞飞提出了不同的多模态路径,分别强调“世界模型”和具身智能。百度则在数字人领域取得了显著进展,通过语音克隆、唇形同步、表情动作捕捉等技术,广泛应用于新闻播报和直播电商等场景。

百度的多模态策略

百度不做Sora并不意味着在多模态赛道上缺席。数字人技术在特定垂直领域可以更精准地优化模型,追求极致的人机交互体验。相比通用视频生成,数字人技术门槛较低,应用场景清晰,更容易形成可复制的商业模式。此外,数字人技术还具备实时交互能力,可以根据用户反馈实时调整状态,更加契合真实应用的需求。

AI大规模落地的条件

无论是解决图片幻觉问题,还是发展多模态技术,百度的目标始终是让技术被更多人使用。李彦宏强调,模型本身不产生直接价值,只有在模型之上开发各种应用,并在各种场景找到产品市场契合点(PMF),才能真正产生价值。百度致力于为个人和企业提供开发应用的基础设施,帮助他们打造出数百万“超级有用”的应用。

长远来看,幻觉问题的解决为行业应用消除了障碍,使得AI技术能够在更广泛的领域得到应用和推广。大量的行业应用所产生的数据,又为AGI的发展提供了丰富的养分,形成良性循环,推动数据飞轮的高速运转,加快我们迈向AGI的步伐。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...