Kenny_肯尼的个人主页

即刻App年轻人的同好社区

下载

App内打开

Kenny_肯尼

468关注3k被关注5夸夸

某影像创作App的PM
内容创作者和观察者
探索AI带来的革命性创作工具

置顶

Kenny_肯尼

21天前

过去2年，一直在探索如何把大模型跟普通人的创作结合起来，做过亿级规模的大众产品，也做过百万级规模的垂直解决方案，拿到比较多的用户反馈

在此分享AI应用的产品经验，希望可以帮助大家少走弯路，交流经验。拉长周期看，我们现在做的项目本身可能没那么重要，但我们积累的认知和经验会帮助我们迎接更大的机会

核心内容

1. 对过去成功路径的过度依赖，可能是未来成功的阻碍，从基础理论开始学习，上手体验和实践，保持迭代

2. 找到Model-Product-Market-Fit是核心能力，模型能力（现状&未来）匹配用户需求（存量&增量）
用户需求是渐变的光谱，按过去的旧分类，AI只能替代存量解决方案，无法创造增量市场

3. 有些实用价值的伪需求，但其实是有情绪价值的真需求

4. 给用户交付的一个结果，而非单纯做体验，通过管理用户预期，收敛场景，最终满足甚至超出用户预期

5. 把AI封装为原子能力，通过工具->模板->内容，带来乘数效应，而非单纯的漏斗转化逻辑

深度复盘｜做AI产品近2年总结出来的25条核心认知

123 5146

Kenny_肯尼

1天前

跟@钟十六周末一起研究了Manus，通过自己上手体验和看其他人的replay，大致判断，Manus目前虽然不是很实用，但依然是非常优秀的Agent产品探索，而且未来会随着底模进步，RFT强化，tool use兼容性提高，产品的体验会更好。

1. Manus是目前对普通人来说产品体验最好的Agent，尤其在过程可视化，交互简洁优雅，甚至replay重放带来的内容增长杠杆

2. 核心逻辑是，通过Claude做规划，拆解出todo.md，然后基于每个todo，由Qwen + post train做每个具体任务的强化，在虚拟机上通过browser use、computer use等来完成搜索、数据分析、网页浏览、写代码等任务，单个todo完成后，会把中间产物以summary.md的形式做总结，类似cursor的single page来压缩代码项目的上下文。最后把前面的系列中间产物汇总，出来一个最终交付产物，可能是报告文件，或者转为网页、视频、PPT。

3. 虽然是less structure, more intelligence，但当前的架构，是短期有效而长期天花板有限的。Manus可能预设了一套非常简单清晰的workflow：1）把用户prompt拆为todo；2）把每个todo去执行，形成中间产物；3）把中间产物汇总，整合成为最终产物。

跟OpenAI的deep research的真正的全链路的端到端训练还是不一样，跟我们人类真实的边做边查边推翻调整的实际过程也不一样。所以其实很多前后的todo在执行时有点割裂，导致最终的结果不是很可信。

4. 如果实现真正的端到端训练，Manus应该会更强，但是这个训练也非常难，因为通用Agent的任务、接受的问题、执行的生产环境，都太开放了，很难设置reward model，不像单纯的数学和代码。

5. 目前Manus基于这套很通用的产品交互和框架，应该会努力先跑通一部分垂直场景任务，用户的预期没有那么高，对应交付的结果也容易满足预期，比如实习生写分析报告，先保证一部分用户的留存，然后随着模型和工程化能力提升，任务逐渐泛化，直到真正成为通用Agent

备注：我是做多模态应用，不是专业做LLM和Agent的，所以上述分析也不一定对，仅供参考

聊聊Openai Deep Research、Manus原理，和Agent平台

20 05

Kenny_肯尼

4天前

半夜下班的我，依然没有拿到 manus 邀请码，但看到围绕 manus 的争议很大，按我的工作经验，提供一些信息参考

1. 创新产品发布第一天，一般是不会投入很多预算做营销的，因为软广硬广投放很花钱，新产品连留存都不好说，更别提商业化，意味着 roi 很难打正，大厂和创业公司的钱也不是大风刮来的。

2. 新项目要学会用巧劲做营销，核心先吸引到目标用户，拿用户反馈，判断这个产品的空间有多大，以及迭代方向。如果不做任何营销，产品没人用，那可能就夭折了

3. 最牛逼的营销，是你成为流量本身，自媒体通过讲你，来蹭热点，比如 deepseek，比如黑悟空，但这个几乎不可能计划出来，爆款就是玄学，我过去两年都在做 AI 爆款，最深刻的体会就是这句话

我最好奇的还是，manus 如何把现有的技术组合为 c 端可用的产品，以及在哪些场景任务表现的比较好。公司 AI 群有同事搞了一个 manus 的 replay 链接合集文档，准备周末挨个研究，然后再来判断 manus 是不是一个真正跑通的通用 Agent，而不是偏噱头的 devin

36 2111

Kenny_肯尼

5天前

看到monica团队新出来的通用Agent产品Manus，非常惊艳，很接近我想象的贾维斯了。它发挥了LLM最擅长的查询、分析、总结、代码能力，又重点解决了知识类工作者繁重的案头工作，可以当实习生用。

从demo看，综合了很多项能力，也是Agent目前应用跑得最顺的研究、编程、客服这几个领域，比如OpenAI的deep research，computer use，Claude的MCP， artifact，还有replit的云端部署，把类似的能力综合协调起来，应该费不少功夫。

比较好的是，作为一个AI产品，没有像之前的智谱AutoGLM那样走入一个误区，就是让AI帮你发红包、点外卖、打车、查询路线。这些其实人本身就做的不错，难度不大，而大模型很难做到满足人的心意。

而做文案工作，无论是查资料、分析数据、呈现报告，是几乎所有人都痛苦的，耗费大量时间，并且大部分人其实做得不好的。而大模型反倒很擅长，只要给它提供足够的context和环境，它强大的逻辑推理能力和快速的思考，表现可以超过绝大部分人类。过去Gamma、AiPPT等垂类AI生产力工具产品验证了这PMF。

AI产品，会让过去的分类变得过时，比如AI coding不是程序员编程写app，而是做数据动态化呈现，甚至是做PPT了。过去因为工具能力的限制，单个产品只能满足部分用户的某个环节。现在，大模型的强大推理和泛化能力，可以真正把我们的一个任务来全链路完成，而不是我们人在多个工具之间跳转，做中间产物的搬运工。

希望能拿到邀请码，上手体验，看看在哪些场景下，实际的效果和我的预期之间，是否gap足够小，足够稳定。

初识 Manus AI_哔哩哔哩_bilibili

54 817

Kenny_肯尼

6天前

强烈推荐体验 sesame 的 AI 对话式语音 demo，当你接通后的几秒钟，感受对方的那种语气，停顿，情绪，已经跨过恐怖谷了。

比 GPT 4O，豆包语音模式，谷歌 notebookLM，都更强，即反应速度更快，AI 味更少。

语音肯定是未来的一种重要交互形式，尤其在非手机的硬件上，比如眼镜，耳机

Crossing the uncanny valley of conversational voice

33 717

Kenny_肯尼

6天前

业内有些误区，把 PE 的重要性拔得太高，但实际上 PE优化只能提高下限，底模进步才能提高上限。

PE 的价值在于，普通用户直接与模型对话，只能发挥模型的 30%，靠产品的包装才能发挥模型的 70%

14 01

Kenny_肯尼

12天前

Claude 3.7 再一次碾压级第一，并且因为 RL 范式，在coding领域还会快速大幅度的进步，由此畅想一下

未来的 coding就不是传统意义上的程序员编程了，而是成为大众用户的表达方式，可能是做出好看的，也可能是好用的，也可以互动的，用来取悦和方便自己，也用来帮助和吸引别人

正如 suno 不是取代音乐人，而是让音乐成为每个人的一种表达方式，剪映不是让你取代剪辑师，而是让你可以低门槛进行视频化的记录和表达

AI大佬实测35款AI编程产品，得出了这些有意思的结论

25 41

Kenny_肯尼

13天前

deepseek 爆火后，有很多爆款视频教你怎么在 deepseek 输入想法，然后生成专业的 prompt，再把 prompt 复制粘贴到即梦，生成一个酷炫的视频。

你把上面的路径缩短，就很自然的要在即梦里接入 deepseek，这种顺着用户需求做产品，就是确定性的收益

晚点独家丨字节跳动即梦考虑接入 DeepSeek，移动端新负责人曹大鹏到岗

26 34

Kenny_肯尼

14天前

PixVerse 的新模型生成一个 5 秒的视频只需要 5 秒，这里不仅仅是等待耗时缩短带来的体验提升，还有实打实的成本下降。

AI 视频非常依赖抽卡，所以 AI 创作者已经养成了习惯，输入多个 prompt，并行跑多个结果，所以耗时长虽然难受，也不是不能接受，反正先加载一批，出来后再挑，不耽误做下一批。

但生成一次就消耗对应积分，这个是明确的成本，目前行业内 1 分钟的 AI 视频成本在 3k-5k 人民币，加上人工，制作成本比真人短剧的还高，这么高昂的成本严重限制了产能。

runway 的 turbo 模式，可以 10 秒左右生成一个 10 秒视频，单次成本也大大下降，这也是虽然目前 runway 在模型效果上跟可灵相比没有明显优势，但依然有很忠实的创作者在付费使用，就是成本低，量大管饱，在严重依赖抽卡的阶段，效果不要下降明显，又快又便宜依然很吸引人。

再说回 pixverse，如果未来耗时缩短到 1 秒，甚至几乎实时，那么成本也几乎降到 0，那的价值就远远不是体验优化了，可能带来模式的变革。类似 LLM，百万 token 降到 2 块钱，那么应用场景就不仅仅是显性的跟用户对话聊天，而是解锁更消耗 token 的推理和任务场景

刚刚，PixVerse V4正式上线，5秒出一个AI视频还自带AI音效。

18 24

Kenny_肯尼

16天前

今天腾讯元宝应用商店排名超过豆包，仅次于deepseek。其实让我有种恍惚回到2020年一起奋斗过的日子。

2020年 1 月，出现疫情大变量，全国10亿人短时间内快速线上化，但大部分人口的数字化能力弱，腾讯会议和腾讯课堂抓住这波机遇，各自做了超级简单的「一键开会」和「一键开课」，脱离了公司架构和学校架构的惯性思维，短短几周就起飞了，且都在一年内用户量破亿。

2025年 1 月，出现 deepseek 这个大变量，全国人民短时间内被大模型接触，但 deepseek 官方无法承载突发性大规模用户的涌入，而刚刚从 TEG 转到 CSIG 的元宝，由腾讯会议负责人 lori带队，果断接入 deepseek，并结合微信公众号搜索，补足图片理解，做成可能体验最好的 deepseek，也直接爆发式增长。而元宝背后的团队，不少人也是 2020 年一起奋斗过的小伙伴。

2025 年是大模型应用爆发的一年，期待之前一起奋斗过的小伙伴，在同个赛道上，再次相遇。或者拉长周期看，这可能不仅仅是一个赛道，而是移动互联网的下一场。

51 2511

Kenny_肯尼

16天前

为了去除班味来迪士尼，终于理解了为什么女生可以反复爱上这里

32 00