即刻App
年轻人的同好社区
下载
App内打开
SUKIII
9月前
Apple 推出了 Ferret-UI,帮助 Siri 理解手机界面。
现阶段用 LLM 做 RPA 有一个问题,LLM 通常会压缩图片分辨率,导致在UI界面理解上经常识别不准,也无法正确提取文字,识别UI元素。
看起来 Apple 对这个场景做了针对性的调整,有一个放大系统,可以将图像放大到“任何分辨率”,使图标和文本更具可读性。
可能代表着苹果在往 RPA 方向尝试。
49
10
17
来自圈子
AI探索站
79860人已经加入
加入