即刻App年轻人的同好社区
下载
App内打开
GitHub充电宝
10月前
微软研究院悄悄放出了”界面翻译官“:Omniparser V2。

该模型可以接入 OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL)、Anthropic等模型。

OmniParser V2 比 V1 快 60%,可以理解各种操作系统、应用程序及其内部图示!它可以充当代理,控制 Windows 和浏览器完成通过提示给出的任务。

🚀 三大核弹级升级:
1️⃣ 显微镜级识别:V2的YOLOv8模型能捕捉到界面中仅3px的隐藏按钮,实测在微信小程序复杂界面中定位准确率暴涨400%

2️⃣ 闪电响应:新架构将图标识别延迟压到0.6秒,当GPT-4o还在加载截图时,DeepSeek-R1已帮你点完三份报表

3️⃣ 跨次元协作:开源工具包OmniTool打通LLM任督二脉,实测用Qwen操作Windows虚拟机的成功率超银行级人脸认证系统

GitHub:github.com
模型:huggingface.co
博客:www.microsoft.com
00:30
03

来自圈子

圈子图片

AI探索站

101346人已经加入