即刻App年轻人的同好社区
下载
App内打开
歸藏
1年前
GPT-4 发布时就畅想过的作用于系统所有应用的 LUI 终于来了?
MM-Navigator,一种基于GPT-4V的智能代理,用于智能手机用户界面(GUI)导航任务。

MM-Navigator可以像人类用户一样与智能手机屏幕交互,并根据给定的指令确定后续操作。
该系统在生成合理的行动描述方面达到了91%的准确率,在iOS上执行单步指令的正确行动方面达到了75%的准确率,超越了以前的GUI导航器。下面是论文详细介绍:

问题表述
该代理的任务是根据用户以自然语言提出的指令在智能手机上完成行动。这些互动,被称为情节,涉及代理在每一步接收屏幕截图并决定完成任务的后续行动。

屏幕定位和导航通过标记集
GPT-4V 作为一个多模态模型,接受视觉图像和文本作为输入。该研究引入了一种名为“标记集”提示的方法,以引导 GPT-4V 进行屏幕交互,其中屏幕上的 UI 元素被检测并标记有数字标签,供 GPT-4V 识别和交互。

历史生成通过多模态自我总结
该系统采用了一项功能来弥合文本输出和可执行行动之间的差距,并保持历史背景。它使用一种策略为代理提供一种自然语言的简洁历史,帮助它确定情节中的后续行动。

实验设置和人类评估指标
该研究在iOS屏幕上进行实验,以评估GPT-4V在GUI导航中的能力,重点关注语义推理和将行动描述转化为本地化行动。人类评估员根据“预期行动描述”和“本地化行动执行”的正确性评估输出。

预期行动描述和本地化行动执行
GPT-4V 在生成正确的预期行动描述方面展示了90.9%的准确率,在本地化行动执行方面展示了74.5%的准确率,表明其在理解和执行屏幕行动方面的强大能力。

当前GPT-4V的状态和失败案例
该系统在执行现实世界智能手机用例的多屏导航方面显示出潜力,尽管它在复杂场景中或模型缺乏特定知识时遇到了几种类型的失败案例。

Android屏幕导航实验
论文使用 Android in the Wild (AITW) 数据集来评估 Android 屏幕导航。评估包括测量正确行动与总情节长度的比例,如果GPT-4V的行动在类型、手势和位置上与用户行动匹配,则被认为是正确的。

性能比较
GPT-4V 在屏幕导航方面超过了以前的LLMs,显示出强大的屏幕理解能力和使用LMMs进行视觉为基础的设备控制的潜力。将屏幕描述添加到输入中提高了GPT-4V的性能,突显了多模态输入和历史背景在导航任务中的益处。

论文地址:arxiv.org
26

来自圈子

圈子图片

AI探索站

82300人已经加入