谷歌版贾维斯Project Jarvis即将问世，搭载最强Gemini 2.0与Claude3.5，开启AI操控电脑新时代！OmniParser助力数据解析，全面升级你的智能体验。

未来已来：AI接管人类电脑成为新趋势

科幻电影中的贾维斯（J.A.R.V.I.S.）不再是遥不可及的梦想。随着Claude3.5的推出，人机交互迎来了全新的时代。据爆料，谷歌计划在今年底推出类似的项目「Project Jarvis」，进一步推动AI操控电脑的发展。微软、苹果等科技巨头也纷纷入局，预示着「计算机使用」将成为下一个科技战场。

Claude3.5的惊艳表现

几天前，Anthropic展示了Claude3.5的强大功能，它能够自主操作屏幕光标完成复杂任务，令人惊叹。这款AI智能体不仅能够处理日常任务，还能应对更为复杂的操作，展现了巨大的潜力。

谷歌「Project Jarvis」即将登场

Information独家报道，谷歌正在开发「Project Jarvis」，旨在将Chrome网页任务自动化。该项目将由Gemini2.0驱动，预计在12月正式亮相。Gemini2.0是一款先进的大模型，专为Chrome浏览器优化，能够通过截屏、解析屏幕并自动执行任务，帮助用户高效完成各种日常操作。

微软OmniParser的突破

紧随Claude3.5之后，微软开源了AI框架OmniParser。这一工具能够将屏幕截图转化为结构化数据，帮助AI精准理解用户意图。OmniParser通过解析屏幕，自动点击按钮，完成用户任务，如查询布赖斯峡谷国家公园的入园信息。这一技术的推出，标志着AI智能体在屏幕解析和任务执行方面的重大进展。

苹果的布局

苹果公司也不甘落后，预计将在明年推出跨多个APP的屏幕识别能力。最新的Ferret-UI2模型，展示了其在通用UI领域的强大实力。这些技术的发展，将进一步推动AI在计算机使用中的应用。

技术细节与挑战

「Project Jarvis」的核心在于大动作模型（LAM），通过截屏、解析屏幕，自动点击按钮或输入文本，完成基于网页的任务。虽然目前在执行不同操作时仍需几秒钟的思考时间，但其云上操作的优势不容忽视。谷歌在5月的I/O大会上展示了Gemini和Chrome的协同工作，预示着年底将推出更强大的Gemini2.0模型。

OmniParser的技术解析

OmniParser结合了微调后的可交互图标检测模型、图标描述模型和光学字符识别（OCR）模块，生成用户界面的结构化表示。通过识别用户界面中的可交互区域，OmniParser能够准确预测下一步动作，帮助用户完成任务。实验结果表明，加入局部语义信息显著提高了GPT-4V的性能，使其在多种任务中表现出色。

本文来源：

新智元公众号【阅读原文】

# 每日AI快讯 # AI操控电脑 # Claude3.5 # Gemini2.0 # OmniParser # Project Jarvis

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

谷歌版贾维斯Project Jarvis即将问世，搭载最强Gemini 2.0与Claude3.5，开启AI操控电脑新时代！OmniParser助力数据解析，全面升级你的智能体验。

国金证券分析：AI集群与800G以太网推动下，数据中心及白盒交换机市场前景广阔，相关厂商将迎来重大机遇

OpenAI首席执行官Sam Altman透露，比GPT-4强100倍的猎户座（Orion）模型将于12月在Azure平台上发布

相关文章

暂无评论

AI最新资讯