即刻App年轻人的同好社区
下载
App内打开
SUKIII
1月前
Apple 推出了 Ferret-UI,帮助 Siri 理解手机界面。
现阶段用 LLM RPA 有一个问题,LLM 通常会压缩图片分辨率,导致在UI界面理解上经常识别不准,也无法正确提取文字,识别UI元素。
看起来 Apple 对这个场景做了针对性的调整,有一个放大系统,可以将图像放大到“任何分辨率”,使图标和文本更具可读性。

可能代表着苹果在往 RPA 方向尝试。
1017

来自圈子

圈子图片

AI探索站

67021人已经加入