微软开源创新框架：利用 OmniParser 和大模型将 DeepSeek 转变为具备视觉解析和GUI自动化的AI Agent

微软发布视觉Agent解析框架OmniParser V2.0，助力AI Agent开发

微软在其官方网站上发布了最新的视觉Agent解析框架OmniParser V2.0。该版本支持将DeepSeek-R1、GPT-4o、Qwen-2.5VL等先进模型转化为能够在计算机上运行的AI Agent。相比V1版本，V2在检测较小可交互UI元素时的准确率显著提升，推理速度更快，延迟降低了60%。特别是在高分辨率Agent基准测试ScreenSpot Pro中，V2+GPT-4o的准确率达到了惊人的39.6%，而原始GPT-4o的准确率仅为0.8%，整体性能大幅提升。

OmniTool：基于Docker的Windows系统工具

除了OmniParser V2.0，微软还开源了omnitool，这是一个基于Docker的Windows系统工具，涵盖了屏幕理解、定位、动作规划和执行等功能，是将大模型转换为Agent的关键工具。用户可以通过以下链接获取源代码：

– Hugging Face： [https：//huggingface.co/microsoft/OmniParser-v2.0](https：//huggingface.co/microsoft/OmniParser-v2.0)
– GitHub： [https：//github.com/microsoft/OmniParser/](https：//github.com/microsoft/OmniParser/)
– omnitool GitHub： [https：//github.com/microsoft/OmniParser/tree/master/omnitool](https：//github.com/microsoft/OmniParser/tree/master/omnitool)

OmniParser V2的工作原理

OmniParser V2通过将用户界面从像素空间“标记化”解析为结构化元素，使得大模型能够理解和操作这些元素。这一过程类似于自然语言处理中的分词操作，但针对的是视觉信息。V2可以帮助大模型识别网页中的按钮、输入框等元素，并理解它们的功能（如登录按钮、搜索框），从而更准确地预测下一步需要执行的动作，例如点击按钮或输入关键词。简单来说，V2就像是大模型的“眼睛”，帮助其更好地理解和操作复杂的用户界面。

OmniTool的组成与功能

OmniTool是一个集成化工具，支持开箱即用，可以将多种大模型变成Agent，主要由OmniParser V2、OmniBox和Gradio三大模块组成。OmniBox是一个基于Docker的轻量级Windows 11虚拟机，占用磁盘空间减少了50%，同时提供了相同的计算机使用API。开发者可以在更小的资源消耗下快速搭建和运行GUI自动化任务的测试环境。Gradio UI提供了一个交互界面，方便开发者轻松与V2和大模型进行交互，快速测试和验证自动化任务的效果。

OmniParser的核心架构

OmniParser的核心思想是将用户界面的视觉信息转化为易于理解和操作的结构化数据。这个过程涉及多个模块的协作。首先，OmniParser从用户界面截图中识别出所有可交互的元素，如按钮、图标和输入框。接下来，它不仅识别这些元素的位置，还理解它们的功能和语义。为了实现这些目标，OmniParser采用了多阶段的解析流程，包括可交互区域检测模块、功能语义模块和结构化表示与动作生成模块。这些模块共同作用，确保大模型能够更准确地理解和操作用户界面。

本文来源：