即刻App年轻人的同好社区
下载
App内打开
刘鼎鼎
315关注56被关注0夸夸
一个古典产品经理,偶发偏见,不喜可喷
entj,播客重度听众,也在搞大模型。
刘鼎鼎
15天前
过去几年,智能眼镜一直被吐槽“智障眼镜”,直到今年 AI 把它从玩具推向了真正“可用”。现在的智能眼镜能做的事非常明确:抬头即可获取信息、不用掏手机;实时翻译和会议记录让跨国沟通无障碍;视觉识别与拍照搜索,看展,查价格;辅助导航;提词、提醒、记录等轻量生产力需求;听音乐;支付、随意拍照等功能进一步解放双手。
🔥 为什么今年突然热起来? 行业在过去一年出现了三股“合力推动”。
第一是模型能力的跃迁。 ASR、LLM、多模态在今年几乎全面成熟,让听、看、说、理解第一次自然协同。夸克、Rokid、XREAL、Meta 等厂商都把视觉识别、翻译、问答做到了“可长期依赖”的水平。AI 与眼镜天然契合,眼镜也第一次有了“必须存在的理由”。
第二是硬件真正轻量化。 Rokid Max 更轻,理想 Air Pro miniLED SLAM 体验显著提升,Ray-Ban Meta 将摄像头和麦克风藏进普通镜框里,夸克,理想,小度,一个比一个更轻,现在基本能做到 40g 左右。
第三是场景变成刚需。 翻译、识物、查展览、导航、会议记录、提词这些都是手机虽能做但眼镜特别擅长的场景。
⚠️ 但它仍未成为 C 端的“入口级产品” 我觉得有四个关键差距:
1. 核心场景偏工具化、频次不足。 大多是开会翻译、走路导航、看展识图、演讲提词等“按需使用”,远没有手机那种“每天几十次”的依赖度。
2. 社交接受度仍不够高。 镜腿粗、摄像头容易让人紧张、设备感明显,尚未像耳机一样做到“无感存在”。
3. 续航与舒适度仍不足。 轻薄=续航短,多模态处理=发热快,长时间佩戴容易导致眼疲劳。
4. 交互体系完全不统一。 各家都有自己的语音、视觉、手势标准,没有统一生态就谈不上统一入口。
🚀 智能眼镜什么时候会迎来真正爆发? 我认为必须同时满足三件事:
1. 外观完全无设备感。 像一副普通眼镜,让人忘掉科技感,这也是 Ray-Ban Meta 被高度评价的原因。
2. AI 从工具进化为主动助手。 不只是“问答”,而是能主动提醒路线、识别危险、自动比价,根据环境提供服务,像“生活大脑”一样陪伴用户。
3. 续航突破到 5–8 小时。 能承受全天候使用密度,而不是高频用两小时就电量见底。
00
刘鼎鼎
20天前
看完了晚点实测豆包手机助手的文章,说下我的感受:
一、文章表达的核心观点
豆包手机助手最大的意义,不在于“语音变聪明”,而在于:它第一次让 AI 能够像一个数字实习生一样操作手机完成跨应用任务。用户只需一句话,比如比价、点外卖、做攻略、发微信,是一个具备 3 个能力的手机级 Agent:
1)屏幕感知——能读懂 UI 元素和界面结构;
2)任务理解与决策——能将用户意图拆成多步行动;
3)跨应用模拟操作——自动点击、滑动、输入,甚至具备一定的纠错能力。
最重要的价值判断是:
AI 操作手机的时代已经开始,交互范式将从“人点手机”转向“手机替人完成任务”。这也是为什么豆包不是一个 App,而是系统级服务,并且开始与多家手机厂商谈合作。
二、这种链路目前仍存在显著的现实问题
1. 整体链路耗时长,无法应对即时性任务。每步操作都需要:截图 理解 决策 执行 再截图校验。无论是豆包、我们内部产品,还是行业其他玩家,都很难避免延迟积累。
2. 屏幕元素理解不稳定,UI 异动会导致 Agent 掉链子现实 UI 存在:弹窗叠弹窗、按钮文案相似、布局不停变。多模态模型对视觉 + 意图的理解仍不够稳健,这类错误经常导致链路无法继续。
3. 长链路成功率极低(乘法效应)
每步 90% 成功率,看似不错,但 10 步操作整体成功率就掉到 35% 以下。文章也坦白这一点:比比价需要近 2 分钟;遇到弹窗会卡壳;长尾任务常常不能正确执行;当前 GUI Agent 很难胜任完全无人值守的 C 端场景。
三、行业目前真正能稳定落地的 GUI Agent 场景
结合我们自己的实践 + 行业共识,目前最可靠、可规模落地的应用主要以下三类:
1. 自动化 GUI 测试(最成熟、最稳定的场景)回归测试、冒烟测试、兼容性测试用 Agent 替代脚本。行业现在基本都将 GUI Agent 的第一落点放在测试,因为场景确定、容错可控、慢一点可以接受。
2. 半自动的内部操作与运维流程(人机协作,而非完全自动)自动生成执行步骤 人确认 Agent 执行。批量账号操作、定期巡检、后台系统表单填充。关键是:Agent 不负责奔跑全程,而是承担重复性部分。
3. 宏指令类场景(录制一次、多次复用)。固化流程自动化:如自动生成报表、自动点某些固定系统的定期操作。UI 微调由 Agent 自动适配,减少脚本维护成本。
00
刘鼎鼎
24天前
之前其实跟团队的同学都探讨过,使用语音输入在各种场合,但大家都表示自己是 I 人,不会在公共场合去用语音录入的。
但我觉得这里面可能还有一个原因,就是之前的转写的准确率,包括对于专有名词、方言,还有一些语气词、断句、标点等的识别准确率都还不是很高。但是豆包这个输入法的出现让我改变了,我现在在手机上不管是回复评论、写文章,还是说发一些帖子,我基本上都不会再打字了。
00
刘鼎鼎
24天前
豆包输入法,有点东西。
00
刘鼎鼎
27天前
铁打的自媒体 ip,流水的 ai应用。
10
刘鼎鼎
27天前
intj 不喜欢做纯管理。
00
刘鼎鼎
27天前
最怕陷入寻找意义的虚无中...
00
刘鼎鼎
1月前
gemini 3 pro 这是针对灵光的核心功能的精准打击吗?1.图文并茂多模态回复 2.写轻应用。
🤔
00
刘鼎鼎
1月前
因为脑力不足,才有了层层架构,复杂的管理层级,副作用是增加了大量人的私欲进来。未来已经不靠人脑力了,算力解掉一切。
00
刘鼎鼎
1月前
ChatGPT 的群聊功能,令人震惊。
00