即刻App年轻人的同好社区
下载
App内打开
Kenny_肯尼
468关注3k被关注5夸夸
某影像创作App的PM
内容创作者和观察者
探索AI带来的革命性创作工具
置顶
Kenny_肯尼
21天前
过去2年,一直在探索如何把大模型跟普通人的创作结合起来,做过亿级规模的大众产品,也做过百万级规模的垂直解决方案,拿到比较多的用户反馈

在此分享AI应用的产品经验,希望可以帮助大家少走弯路,交流经验。拉长周期看,我们现在做的项目本身可能没那么重要,但我们积累的认知和经验会帮助我们迎接更大的机会

核心内容

1. 对过去成功路径的过度依赖,可能是未来成功的阻碍,从基础理论开始学习,上手体验和实践,保持迭代

2. 找到Model-Product-Market-Fit是核心能力,模型能力(现状&未来)匹配用户需求(存量&增量)
用户需求是渐变的光谱,按过去的旧分类,AI只能替代存量解决方案,无法创造增量市场

3. 有些实用价值的伪需求,但其实是有情绪价值的真需求

4. 给用户交付的一个结果,而非单纯做体验,通过管理用户预期,收敛场景,最终满足甚至超出用户预期

5. 把AI封装为原子能力,通过工具->模板->内容,带来乘数效应,而非单纯的漏斗转化逻辑

深度复盘|做AI产品近2年总结出来的25条核心认知

5146
Kenny_肯尼
1天前
@钟十六 周末一起研究了Manus,通过自己上手体验和看其他人的replay,大致判断,Manus目前虽然不是很实用,但依然是非常优秀的Agent产品探索,而且未来会随着底模进步,RFT强化,tool use兼容性提高,产品的体验会更好。

1. Manus是目前对普通人来说产品体验最好的Agent,尤其在过程可视化,交互简洁优雅,甚至replay重放带来的内容增长杠杆

2. 核心逻辑是,通过Claude做规划,拆解出todo.md,然后基于每个todo,由Qwen + post train做每个具体任务的强化,在虚拟机上通过browser use、computer use等来完成搜索、数据分析、网页浏览、写代码等任务,单个todo完成后,会把中间产物以summary.md的形式做总结,类似cursor的single page来压缩代码项目的上下文。最后把前面的系列中间产物汇总,出来一个最终交付产物,可能是报告文件,或者转为网页、视频、PPT。

3. 虽然是less structure, more intelligence,但当前的架构,是短期有效而长期天花板有限的。Manus可能预设了一套非常简单清晰的workflow:1)把用户prompt拆为todo;2)把每个todo去执行,形成中间产物;3)把中间产物汇总,整合成为最终产物。

跟OpenAI的deep research的真正的全链路的端到端训练还是不一样,跟我们人类真实的边做边查边推翻调整的实际过程也不一样。所以其实很多前后的todo在执行时有点割裂,导致最终的结果不是很可信。

4. 如果实现真正的端到端训练,Manus应该会更强,但是这个训练也非常难,因为通用Agent的任务、接受的问题、执行的生产环境,都太开放了,很难设置reward model,不像单纯的数学和代码。

5. 目前Manus基于这套很通用的产品交互和框架,应该会努力先跑通一部分垂直场景任务,用户的预期没有那么高,对应交付的结果也容易满足预期,比如实习生写分析报告,先保证一部分用户的留存,然后随着模型和工程化能力提升,任务逐渐泛化,直到真正成为通用Agent

备注:我是做多模态应用,不是专业做LLM和Agent的,所以上述分析也不一定对,仅供参考

聊聊Openai Deep Research、Manus原理,和Agent平台

05
Kenny_肯尼
4天前
半夜下班的我,依然没有拿到 manus 邀请码,但看到围绕 manus 的争议很大,按我的工作经验,提供一些信息参考

1. 创新产品发布第一天,一般是不会投入很多预算做营销的,因为软广硬广投放很花钱,新产品连留存都不好说,更别提商业化,意味着 roi 很难打正,大厂和创业公司的钱也不是大风刮来的。

2. 新项目要学会用巧劲做营销,核心先吸引到目标用户,拿用户反馈,判断这个产品的空间有多大,以及迭代方向。如果不做任何营销,产品没人用,那可能就夭折了

3. 最牛逼的营销,是你成为流量本身,自媒体通过讲你,来蹭热点,比如 deepseek,比如黑悟空,但这个几乎不可能计划出来,爆款就是玄学,我过去两年都在做 AI 爆款,最深刻的体会就是这句话

我最好奇的还是,manus 如何把现有的技术组合为 c 端可用的产品,以及在哪些场景任务表现的比较好。公司 AI 群有同事搞了一个 manus replay 链接合集文档,准备周末挨个研究,然后再来判断 manus 是不是一个真正跑通的通用 Agent,而不是偏噱头的 devin
2111
Kenny_肯尼
5天前
看到monica团队新出来的通用Agent产品Manus,非常惊艳,很接近我想象的贾维斯了。它发挥了LLM最擅长的查询、分析、总结、代码能力,又重点解决了知识类工作者繁重的案头工作,可以当实习生用。

从demo看,综合了很多项能力,也是Agent目前应用跑得最顺的研究、编程、客服这几个领域,比如OpenAI的deep research,computer use,Claude的MCP, artifact, 还有replit的云端部署,把类似的能力综合协调起来,应该费不少功夫。

比较好的是,作为一个AI产品,没有像之前的智谱AutoGLM那样走入一个误区,就是让AI帮你发红包、点外卖、打车、查询路线。这些其实人本身就做的不错,难度不大,而大模型很难做到满足人的心意。

而做文案工作,无论是查资料、分析数据、呈现报告,是几乎所有人都痛苦的,耗费大量时间,并且大部分人其实做得不好的。而大模型反倒很擅长,只要给它提供足够的context和环境,它强大的逻辑推理能力和快速的思考,表现可以超过绝大部分人类。过去Gamma、AiPPT等垂类AI生产力工具产品验证了这PMF。

AI产品,会让过去的分类变得过时,比如AI coding不是程序员编程写app,而是做数据动态化呈现,甚至是做PPT了。过去因为工具能力的限制,单个产品只能满足部分用户的某个环节。现在,大模型的强大推理和泛化能力,可以真正把我们的一个任务来全链路完成,而不是我们人在多个工具之间跳转,做中间产物的搬运工。

希望能拿到邀请码,上手体验,看看在哪些场景下,实际的效果和我的预期之间,是否gap足够小,足够稳定。

初识 Manus AI_哔哩哔哩_bilibili

817
Kenny_肯尼
6天前
强烈推荐体验 sesame AI 对话式语音 demo,当你接通后的几秒钟,感受对方的那种语气,停顿,情绪,已经跨过恐怖谷了。

GPT 4O,豆包语音模式,谷歌 notebookLM,都更强,即反应速度更快,AI 味更少。

语音肯定是未来的一种重要交互形式,尤其在非手机的硬件上,比如眼镜,耳机

Crossing the uncanny valley of conversational voice

717
Kenny_肯尼
6天前
业内有些误区,把 PE 的重要性拔得太高,但实际上 PE优化只能提高下限,底模进步才能提高上限。

PE 的价值在于,普通用户直接与模型对话,只能发挥模型的 30%,靠产品的包装才能发挥模型的 70%
01
Kenny_肯尼
12天前
Claude 3.7 再一次碾压级第一,并且因为 RL 范式,在coding领域还会快速大幅度的进步,由此畅想一下

未来的 coding就不是传统意义上的程序员编程了,而是成为大众用户的表达方式,可能是做出好看的,也可能是好用的,也可以互动的,用来取悦和方便自己,也用来帮助和吸引别人

正如 suno 不是取代音乐人,而是让音乐成为每个人的一种表达方式,剪映不是让你取代剪辑师,而是让你可以低门槛进行视频化的记录和表达

AI大佬实测35款AI编程产品,得出了这些有意思的结论

41
Kenny_肯尼
13天前
deepseek 爆火后,有很多爆款视频教你怎么在 deepseek 输入想法,然后生成专业的 prompt,再把 prompt 复制粘贴到即梦,生成一个酷炫的视频。

你把上面的路径缩短,就很自然的要在即梦里接入 deepseek,这种顺着用户需求做产品,就是确定性的收益

晚点独家丨字节跳动即梦考虑接入 DeepSeek,移动端新负责人曹大鹏到岗

34
Kenny_肯尼
14天前
PixVerse 的新模型生成一个 5 秒的视频只需要 5 秒,这里不仅仅是等待耗时缩短带来的体验提升,还有实打实的成本下降。

AI 视频非常依赖抽卡,所以 AI 创作者已经养成了习惯,输入多个 prompt,并行跑多个结果,所以耗时长虽然难受,也不是不能接受,反正先加载一批,出来后再挑,不耽误做下一批。

但生成一次就消耗对应积分,这个是明确的成本,目前行业内 1 分钟的 AI 视频成本在 3k-5k 人民币,加上人工,制作成本比真人短剧的还高,这么高昂的成本严重限制了产能。

runway turbo 模式,可以 10 秒左右生成一个 10 秒视频,单次成本也大大下降,这也是虽然目前 runway 在模型效果上跟可灵相比没有明显优势,但依然有很忠实的创作者在付费使用,就是成本低,量大管饱,在严重依赖抽卡的阶段,效果不要下降明显,又快又便宜依然很吸引人。

再说回 pixverse,如果未来耗时缩短到 1 秒,甚至几乎实时,那么成本也几乎降到 0,那的价值就远远不是体验优化了,可能带来模式的变革。类似 LLM,百万 token 降到 2 块钱,那么应用场景就不仅仅是显性的跟用户对话聊天,而是解锁更消耗 token 的推理和任务场景

刚刚,PixVerse V4正式上线,5秒出一个AI视频还自带AI音效。

24
Kenny_肯尼
16天前
今天腾讯元宝应用商店排名超过豆包,仅次于deepseek。其实让我有种恍惚回到2020年一起奋斗过的日子。

2020年 1 月,出现疫情大变量,全国10亿人短时间内快速线上化,但大部分人口的数字化能力弱,腾讯会议和腾讯课堂抓住这波机遇,各自做了超级简单的「一键开会」和「一键开课」,脱离了公司架构和学校架构的惯性思维,短短几周就起飞了,且都在一年内用户量破亿。

2025年 1 月,出现 deepseek 这个大变量,全国人民短时间内被大模型接触,但 deepseek 官方无法承载突发性大规模用户的涌入,而刚刚从 TEG 转到 CSIG 的元宝,由腾讯会议负责人 lori带队,果断接入 deepseek,并结合微信公众号搜索,补足图片理解,做成可能体验最好的 deepseek,也直接爆发式增长。而元宝背后的团队,不少人也是 2020 年一起奋斗过的小伙伴。

2025 年是大模型应用爆发的一年,期待之前一起奋斗过的小伙伴,在同个赛道上,再次相遇。或者拉长周期看,这可能不仅仅是一个赛道,而是移动互联网的下一场。
2511
Kenny_肯尼
16天前
为了去除班味来迪士尼,终于理解了为什么女生可以反复爱上这里
00