标签:屏幕解析

苹果推出理解、转化模型ReALM,性能超GPT-4

苹果研究人员开发了一种名为ReALM的革命性模型,旨在解决AI助手在处理复杂或模糊指令时的挑战。ReALM通过将参照解析问题转化为语言建模问题,显著提高了AI的准确性。例如,在购物场景中,用户要求只结算水果,传统AI可能无法准确区分“橘子”和“橘子汽水”,但ReALM能重建屏幕信息,理解并转化成清晰的文本,从而避免误操作。 ReALM模型的核心在于屏幕解析,它识别并重建设备屏幕的关键信息,包括文本、按钮和图标等,生成结构化的屏幕表示。通过OCR技术识别文本实体,并确定它们的类型和位置。接着,利用大语言模型理解屏幕元...