苹果推出理解、转化模型ReALM,性能超GPT-4

苹果研究人员开发了一种名为ReALM的革命性模型,旨在解决AI助手在处理复杂或模糊指令时的挑战。ReALM通过将参照解析问题转化为语言建模问题,显著提高了AI的准确性。例如,在购物场景中,用户要求只结算水果,传统AI可能无法准确区分“橘子”和“橘子汽水”,但ReALM能重建屏幕信息,理解并转化成清晰的文本,从而避免误操作。

ReALM模型的核心在于屏幕解析,它识别并重建设备屏幕的关键信息,包括文本、按钮和图标等,生成结构化的屏幕表示。通过OCR技术识别文本实体,并确定它们的类型和位置。接着,利用大语言模型理解屏幕元素间的关系,以精确解释用户指令。在解析输出阶段,ReALM解决可能的实体冲突,依据置信度、类型和上下文信息来确定正确实体,最后将结果以易于理解的形式呈现。

此外,ReALM还包括一个可视化用户交互模块,接收用户查询,传递给大语言模型,并显示解析结果,同时支持用户反馈以优化模型性能。据测试,ReALM在多项指标上优于MARRS和GPT-4,显示出强大的理解和转化能力。

本文来源: ​ AIGC开放社区公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...