刘鼎鼎的个人主页

即刻App年轻人的同好社区

下载

刘鼎鼎

315关注56被关注0夸夸

一个古典产品经理，偶发偏见，不喜可喷
entj，播客重度听众，也在搞大模型。

刘鼎鼎

15天前

过去几年，智能眼镜一直被吐槽“智障眼镜”，直到今年 AI 把它从玩具推向了真正“可用”。现在的智能眼镜能做的事非常明确：抬头即可获取信息、不用掏手机；实时翻译和会议记录让跨国沟通无障碍；视觉识别与拍照搜索，看展，查价格；辅助导航；提词、提醒、记录等轻量生产力需求；听音乐；支付、随意拍照等功能进一步解放双手。
🔥 为什么今年突然热起来？行业在过去一年出现了三股“合力推动”。
第一是模型能力的跃迁。 ASR、LLM、多模态在今年几乎全面成熟，让听、看、说、理解第一次自然协同。夸克、Rokid、XREAL、Meta 等厂商都把视觉识别、翻译、问答做到了“可长期依赖”的水平。AI 与眼镜天然契合，眼镜也第一次有了“必须存在的理由”。
第二是硬件真正轻量化。 Rokid Max 更轻，理想 Air Pro 的 miniLED 与 SLAM 体验显著提升，Ray-Ban Meta 将摄像头和麦克风藏进普通镜框里，夸克，理想，小度，一个比一个更轻，现在基本能做到 40g 左右。
第三是场景变成刚需。翻译、识物、查展览、导航、会议记录、提词这些都是手机虽能做但眼镜特别擅长的场景。
⚠️ 但它仍未成为 C 端的“入口级产品” 我觉得有四个关键差距：
1. 核心场景偏工具化、频次不足。大多是开会翻译、走路导航、看展识图、演讲提词等“按需使用”，远没有手机那种“每天几十次”的依赖度。
2. 社交接受度仍不够高。镜腿粗、摄像头容易让人紧张、设备感明显，尚未像耳机一样做到“无感存在”。
3. 续航与舒适度仍不足。轻薄=续航短，多模态处理=发热快，长时间佩戴容易导致眼疲劳。
4. 交互体系完全不统一。各家都有自己的语音、视觉、手势标准，没有统一生态就谈不上统一入口。
🚀 智能眼镜什么时候会迎来真正爆发？我认为必须同时满足三件事：
1. 外观完全无设备感。像一副普通眼镜，让人忘掉科技感，这也是 Ray-Ban Meta 被高度评价的原因。
2. AI 从工具进化为主动助手。不只是“问答”，而是能主动提醒路线、识别危险、自动比价，根据环境提供服务，像“生活大脑”一样陪伴用户。
3. 续航突破到 5–8 小时。能承受全天候使用密度，而不是高频用两小时就电量见底。

0 00

刘鼎鼎

20天前

看完了晚点实测豆包手机助手的文章，说下我的感受：
一、文章表达的核心观点
豆包手机助手最大的意义，不在于“语音变聪明”，而在于：它第一次让 AI 能够像一个数字实习生一样操作手机完成跨应用任务。用户只需一句话，比如比价、点外卖、做攻略、发微信，是一个具备 3 个能力的手机级 Agent：
1）屏幕感知——能读懂 UI 元素和界面结构；
2）任务理解与决策——能将用户意图拆成多步行动；
3）跨应用模拟操作——自动点击、滑动、输入，甚至具备一定的纠错能力。
最重要的价值判断是：
AI 操作手机的时代已经开始，交互范式将从“人点手机”转向“手机替人完成任务”。这也是为什么豆包不是一个 App，而是系统级服务，并且开始与多家手机厂商谈合作。
二、这种链路目前仍存在显著的现实问题
1. 整体链路耗时长，无法应对即时性任务。每步操作都需要：截图 → 理解 → 决策 → 执行 → 再截图校验。无论是豆包、我们内部产品，还是行业其他玩家，都很难避免延迟积累。
2. 屏幕元素理解不稳定，UI 异动会导致 Agent 掉链子现实 UI 存在：弹窗叠弹窗、按钮文案相似、布局不停变。多模态模型对视觉 + 意图的理解仍不够稳健，这类错误经常导致链路无法继续。
3. 长链路成功率极低（乘法效应）
每步 90% 成功率，看似不错，但 10 步操作整体成功率就掉到 35% 以下。文章也坦白这一点：比比价需要近 2 分钟；遇到弹窗会卡壳；长尾任务常常不能正确执行；当前 GUI Agent 很难胜任完全无人值守的 C 端场景。
三、行业目前真正能稳定落地的 GUI Agent 场景
结合我们自己的实践 + 行业共识，目前最可靠、可规模落地的应用主要以下三类：
1. 自动化 GUI 测试（最成熟、最稳定的场景）回归测试、冒烟测试、兼容性测试用 Agent 替代脚本。行业现在基本都将 GUI Agent 的第一落点放在测试，因为场景确定、容错可控、慢一点可以接受。
2. 半自动的内部操作与运维流程（人机协作，而非完全自动）自动生成执行步骤 → 人确认 → Agent 执行。批量账号操作、定期巡检、后台系统表单填充。关键是：Agent 不负责奔跑全程，而是承担重复性部分。
3. 宏指令类场景（录制一次、多次复用）。固化流程自动化：如自动生成报表、自动点某些固定系统的定期操作。UI 微调由 Agent 自动适配，减少脚本维护成本。

1 00

刘鼎鼎

24天前

之前其实跟团队的同学都探讨过，使用语音输入在各种场合，但大家都表示自己是 I 人，不会在公共场合去用语音录入的。
但我觉得这里面可能还有一个原因，就是之前的转写的准确率，包括对于专有名词、方言，还有一些语气词、断句、标点等的识别准确率都还不是很高。但是豆包这个输入法的出现让我改变了，我现在在手机上不管是回复评论、写文章，还是说发一些帖子，我基本上都不会再打字了。

1 00

刘鼎鼎

24天前

豆包输入法，有点东西。

4 00

刘鼎鼎

27天前

铁打的自媒体 ip，流水的 ai应用。

0 10

刘鼎鼎

27天前

intj 不喜欢做纯管理。

0 00

刘鼎鼎

27天前

最怕陷入寻找意义的虚无中...

0 00

刘鼎鼎

1月前

gemini 3 pro 这是针对灵光的核心功能的精准打击吗？1.图文并茂多模态回复 2.写轻应用。
🤔

0 00

刘鼎鼎

1月前

因为脑力不足，才有了层层架构，复杂的管理层级，副作用是增加了大量人的私欲进来。未来已经不靠人脑力了，算力解掉一切。

1 00

刘鼎鼎

1月前

ChatGPT 的群聊功能，令人震惊。

1 00