谷歌版贾维斯Project Jarvis即将问世,搭载最强Gemini 2.0与Claude3.5,开启AI操控电脑新时代!OmniParser助力数据解析,全面升级你的智能体验。

未来已来:AI接管人类电脑成为新趋势

科幻电影中的贾维斯(J.A.R.V.I.S.)不再是遥不可及的梦想。随着Claude3.5的推出,人机交互迎来了全新的时代。据爆料,谷歌计划在今年底推出类似的项目「Project Jarvis」,进一步推动AI操控电脑的发展。微软、苹果等科技巨头也纷纷入局,预示着「计算机使用」将成为下一个科技战场。

Claude3.5的惊艳表现

几天前,Anthropic展示了Claude3.5的强大功能,它能够自主操作屏幕光标完成复杂任务,令人惊叹。这款AI智能体不仅能够处理日常任务,还能应对更为复杂的操作,展现了巨大的潜力。

谷歌「Project Jarvis」即将登场

Information独家报道,谷歌正在开发「Project Jarvis」,旨在将Chrome网页任务自动化。该项目将由Gemini2.0驱动,预计在12月正式亮相。Gemini2.0是一款先进的大模型,专为Chrome浏览器优化,能够通过截屏、解析屏幕并自动执行任务,帮助用户高效完成各种日常操作。

微软OmniParser的突破

紧随Claude3.5之后,微软开源了AI框架OmniParser。这一工具能够将屏幕截图转化为结构化数据,帮助AI精准理解用户意图。OmniParser通过解析屏幕,自动点击按钮,完成用户任务,如查询布赖斯峡谷国家公园的入园信息。这一技术的推出,标志着AI智能体在屏幕解析和任务执行方面的重大进展。

苹果的布局

苹果公司也不甘落后,预计将在明年推出跨多个APP的屏幕识别能力。最新的Ferret-UI2模型,展示了其在通用UI领域的强大实力。这些技术的发展,将进一步推动AI在计算机使用中的应用。

技术细节与挑战

「Project Jarvis」的核心在于大动作模型(LAM),通过截屏、解析屏幕,自动点击按钮或输入文本,完成基于网页的任务。虽然目前在执行不同操作时仍需几秒钟的思考时间,但其云上操作的优势不容忽视。谷歌在5月的I/O大会上展示了Gemini和Chrome的协同工作,预示着年底将推出更强大的Gemini2.0模型。

OmniParser的技术解析

OmniParser结合了微调后的可交互图标检测模型、图标描述模型和光学字符识别(OCR)模块,生成用户界面的结构化表示。通过识别用户界面中的可交互区域,OmniParser能够准确预测下一步动作,帮助用户完成任务。实验结果表明,加入局部语义信息显著提高了GPT-4V的性能,使其在多种任务中表现出色。

本文来源: ​新智元公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...