即刻App年轻人的同好社区
下载
App内打开
刘鼎鼎
315关注55被关注0夸夸
一个古典产品经理,偶发偏见,不喜可喷
entj,播客重度听众,也在搞大模型。
刘鼎鼎
5天前
看完了晚点实测豆包手机助手的文章,说下我的感受:
一、文章表达的核心观点
豆包手机助手最大的意义,不在于“语音变聪明”,而在于:它第一次让 AI 能够像一个数字实习生一样操作手机完成跨应用任务。用户只需一句话,比如比价、点外卖、做攻略、发微信,是一个具备 3 个能力的手机级 Agent:
1)屏幕感知——能读懂 UI 元素和界面结构;
2)任务理解与决策——能将用户意图拆成多步行动;
3)跨应用模拟操作——自动点击、滑动、输入,甚至具备一定的纠错能力。
最重要的价值判断是:
AI 操作手机的时代已经开始,交互范式将从“人点手机”转向“手机替人完成任务”。这也是为什么豆包不是一个 App,而是系统级服务,并且开始与多家手机厂商谈合作。
二、这种链路目前仍存在显著的现实问题
1. 整体链路耗时长,无法应对即时性任务。每步操作都需要:截图 理解 决策 执行 再截图校验。无论是豆包、我们内部产品,还是行业其他玩家,都很难避免延迟积累。
2. 屏幕元素理解不稳定,UI 异动会导致 Agent 掉链子现实 UI 存在:弹窗叠弹窗、按钮文案相似、布局不停变。多模态模型对视觉 + 意图的理解仍不够稳健,这类错误经常导致链路无法继续。
3. 长链路成功率极低(乘法效应)
每步 90% 成功率,看似不错,但 10 步操作整体成功率就掉到 35% 以下。文章也坦白这一点:比比价需要近 2 分钟;遇到弹窗会卡壳;长尾任务常常不能正确执行;当前 GUI Agent 很难胜任完全无人值守的 C 端场景。
三、行业目前真正能稳定落地的 GUI Agent 场景
结合我们自己的实践 + 行业共识,目前最可靠、可规模落地的应用主要以下三类:
1. 自动化 GUI 测试(最成熟、最稳定的场景)回归测试、冒烟测试、兼容性测试用 Agent 替代脚本。行业现在基本都将 GUI Agent 的第一落点放在测试,因为场景确定、容错可控、慢一点可以接受。
2. 半自动的内部操作与运维流程(人机协作,而非完全自动)自动生成执行步骤 人确认 Agent 执行。批量账号操作、定期巡检、后台系统表单填充。关键是:Agent 不负责奔跑全程,而是承担重复性部分。
3. 宏指令类场景(录制一次、多次复用)。固化流程自动化:如自动生成报表、自动点某些固定系统的定期操作。UI 微调由 Agent 自动适配,减少脚本维护成本。
00
刘鼎鼎
9天前
之前其实跟团队的同学都探讨过,使用语音输入在各种场合,但大家都表示自己是 I 人,不会在公共场合去用语音录入的。
但我觉得这里面可能还有一个原因,就是之前的转写的准确率,包括对于专有名词、方言,还有一些语气词、断句、标点等的识别准确率都还不是很高。但是豆包这个输入法的出现让我改变了,我现在在手机上不管是回复评论、写文章,还是说发一些帖子,我基本上都不会再打字了。
00
刘鼎鼎
9天前
豆包输入法,有点东西。
00
刘鼎鼎
11天前
铁打的自媒体 ip,流水的 ai应用。
10
刘鼎鼎
12天前
intj 不喜欢做纯管理。
00
刘鼎鼎
12天前
最怕陷入寻找意义的虚无中...
00
刘鼎鼎
15天前
gemini 3 pro 这是针对灵光的核心功能的精准打击吗?1.图文并茂多模态回复 2.写轻应用。
🤔
00
刘鼎鼎
16天前
因为脑力不足,才有了层层架构,复杂的管理层级,副作用是增加了大量人的私欲进来。未来已经不靠人脑力了,算力解掉一切。
00
刘鼎鼎
16天前
ChatGPT 的群聊功能,令人震惊。
00
刘鼎鼎
17天前
灵光 App,开始卷交互了。。。
00