即刻App年轻人的同好社区
下载
App内打开
slog
352关注29被关注0夸夸
🌌 AI 爱好者
6️⃣ 前铁厂商业化 PM
🏈 BLITZ 橄榄球俱乐部@西二旗
slog
3月前
【驾驭工程】
我:Harness Engineering 有什么信达雅的翻译?
Claude:这是个很有意思的翻译问题。先拆解"harness"在这个语境里的核心含义:
不是"马鞍"(saddle),而是"驾具" —— 缰绳、轭、套具的整体,既是控制(约束 agent 不跑偏),也是赋能(给它工具、记忆、反馈回路让它能干活)。

候选方案
驾驭工程 最推荐

驾驭本身就是汉语成语,意思是"控制、引导、使之为我所用"
完全对应 harness 的双重含义:约束 + 赋能
信达雅俱全,技术人员一听就懂
类比:context engineering 语境工程,harness engineering 驾驭工程,层次感自然清晰
00
slog
4月前
股票/期权是在为自己的认知买单,并迅速 Verify 结果
00
slog
4月前
claude 客户端最近更新很频繁啊
00
slog
5月前
LangChain团队也是够高产的。
00
slog
5月前
aginext 峰会的视频b 站翻半天都找不着,好好学学 AE Summit youtube 不行吗
00
slog
5月前

陈不撕: 到底都是谁在用 manus 和付费?为了理解这个问题,假期尝试做了一些研究,希望有所帮助。 过程中,也能清晰感受到,中美使用 AI 习惯的巨大差异和信息 gap。 首先,看看 manus 官方怎么说,毕竟这不是他们第一次面临质疑了。 在 @hidecloud 涛哥的公众号里晒过一条Twitter,在原推里很多 manus 用户在为产品发声。除了一些硅谷科技/创投圈的大佬之外,原 po 也总结了评论里出现最多的 user case:定量和定性的分析研究,CSV 文件处理和爬取客户信息。 manus 似乎能完成广义的数据处理和分析工作,这对数字化程度不均的社会来说,是一个不错的切入点。 在 @PeakJi Peak 和张小珺的访谈里( 1:43:55),Peak 也回答了该问题。可以笼统被称为 prosumer,并列觉了更清晰的用户画像: 第一类用户是互联网/科技公司里的非程序员岗位,各类白领;第二类用户是美国数量众多的 freelancer 和 solo entrepreneur,自由工作者或者有一摊自己小生意的人;第三类是更符合刻板印象的金融/咨询行业的人员。他们的共性是,有比较强的自驱力,并且他们的任务是高价值的。 这里的两个特点很有意思,自驱和高价值任务。前者决定了这些人可以接触和试用 manus 这一类的 AI 产品,后者决定了他们的付费决策,即用户在 AI 工具上花掉的钱是可以以更高效率/更大概率赚回来的。这几乎是很多拥有高 ARR 的 AI 产品的第一性原理。 这三类用户里,对于中国网友/创业者来说,很容易低估第二类用户的数量,并对他们的画像比较模糊。容易误以为只有独立开发或者个人的数字外包,实际上领域还要宽泛得多。 想要了解这类用户,我们需要知道一个显而易见的前提。manus 的用户是 chatGPT/Gemini 等主流 chatbot 的重度用户的下一阶段。 上面提到的“自驱”和“高价值任务”,正是因为已有的 chatbot 满足得不够好,他们才被说服采用所谓"agent" 的新解决方案。同时 peak 在播客里也提过这个现象(2:34:33 ),安装了 chatGPT/Gemini/Deepseek/Claude 的用户,安装其他产品的概率的最大异常值都是 manus。 Manus 相当于跟随着 chatbot 的普及进程,从中筛选出了高价值需求没有得到满足的用户,重叠度很高。 所以如果我们找不到 manus 的用户访谈,可以去找 chatGPT/Gemini 的重度用户。他们大概率正处在知晓/使用/付费 manus 的过程中。 而在查看 chatGPT/Gemini 的重度用户访谈中,才拓宽了我对 manus 第二类用户的认知。这里分享几个有趣的结论: 1. 最低阶的信息搜索需求被 chatbot 满足得很好,日常生活里已经替代了谷歌。 2. 使用 AI 已经是美国高校生的基本技能,同学之间传播 + 教育优惠。甚至之前反对的教授也开始松口或者自己偷偷用。 3. 通过 AI 获得收益的职业种类,比我想象中的多得多。这其中包括了儿童教师、兼职导游、线上的灵学占卜、社区竞选、留学申请、业余作家、当地市政部门/教育部门的数字化小专家等。更不用提各个垂类的自媒体,以及每个人都想有一个自己的 blog 网站。 4. 所有涉及到深度写作、简单 P 图、PPT或表格填写的职业,都逐渐离不开chatbot/Deep research,而以 manus 为首的 agent 承诺可以完成得更好。而且几乎没有一个人是单一职业,年龄段也覆盖到爷爷奶奶辈了。 体感上中美的差距很大,我们还在鼓吹副业和个人影响力,鼓励终身学习和跟上 AI,而对于很多美国中产来说,这似乎是一个常识了。他们热衷于用 AI 解决工作生活上的实际问题,并完成自己的业余创作任务。产品 adoption 的障碍小很多。 那么下一步的问题是,对于这些重度用户来说,manus 真的可以比普通 chatbot 完成得更好吗? 1. 如果看客观指标的话,同为被 meta 收购的“大将” Alexander Wang,经常会提到一个 benchmark 叫 Remote Labor Index (RLI) ,这是 scale ai 用来衡量一个 AI 产品多大程度上能完成真实的有经济收益的远程工作。manus 排名第一很久了,虽然自动化率也只有 2.5% ,按他们的说法叫在座的大家都是 near zero。但注意这是在没有人为干预的情况下,直接交付工作结果。日常更多使用场景是有人工干预和调整,单看提升部分环节的效率, manus 也算是第一了。 2. 如果从主观体验的话,我在假期同时用了 Gemini/NotebookLM,Manus 和某大厂对标的 Anygen 进行测试。测试了两个我的真实需求,1)根据我和对象的年终复盘录音,总结内容和提建议;2)帮我正在思考的产品 idea,开发一个可交互的原型。 在第一个任务上,实际类似会议纪要, Manus 是明显领先的,不管是语音内容识别、双人的声音区分、内容的逻辑和可视化,都让人更满意。NotebookLM 虽然也有丰富的功能,但整体还是太针对课堂学习任务了,有一些无用的信息,飞书会议其实是一样的问题。这里也能发现通用 agent 的优势,不会为特定场景过度优化而在长尾场景里表现欠佳。而剩下的很多AI 连声音识别都整不明白。 第二个任务,实际上是常见的 AI 编程,这个场景太卷了,大家各有千秋。 每个 AI 都在不同程度上做了完善和有aha 的惊喜,但能看出有些 AI 借鉴了更多海外产品的设计,有些更借鉴中国。Gemini/ AI studio 爱用自家的设计语言,Anygen 像国内的活动 H5,Manus 比较对齐硅谷审美,按钮更现代和简洁,默认会更像 IG 和 Notion。 未来,从官网和各家 chatbot 投放的趋势来看,所谓的通用agent ,基本盘是数字化的内容处理 + 研究分析工作;而网站原型和开发、制作 PPT 逐渐成为新的主推场景。 当然也没忘了让 manus 自己分析一轮,自己的使用用户和付费用户是谁?结论有点宽泛和通用,依旧集中在工程师和数字企业主上,推测美国是最大收入来源,巴西和日本也占了很大流量比例。确实没有我自己分析的有启发。 最后,回到最初的质疑,为什么国内用户更难理解 manus 的使用场景和价值?这里可能有三层障碍: 1)需求不够强,所谓的 prosumer 太少,而且集中在互联网/金融领域,很多非互联网的副业和小企业主也没有足够强的提效意识。 2)浅层替代品太多,国内各大免费的 chatbot 和夸张的产品 PR,让人不愿意使用付费 AI 产品或者有过高的预期。 3)非理性偏见,听了很多不靠谱的团队传闻和扣不爱国帽子,拒绝了解 manus 海外市场的情况。 况且,与其挑战实打实的用户数据,我觉得 Manus 被收购后的一些挑战,可能更值得讨论,比如: 1)品牌可以保留,但模型中立性的优势还能保留吗? 2)原本的产品愿景会被改变,来服从 Meta 整体的 AI 战略吗? 3)团队的创业精神和工作方式,和大公司流程可以兼容吗? 不管未来如何,这是 manus 阶段性的胜利,也给了不少华人 AI 团队鼓舞。祝福他们之后的旅途,也希望更多团队,有机会经历这样纯粹的产品过程,最终看到壮阔的风景。

00
slog
5月前
看完 Peak 的视频博客有几个感受:

1. Agent 框架设计的重要目标之一是更高效地获取 Context,且与 Model 进化正交,是 AI 产品创业公司的好方向;

2. 要做纯血 Agent,Agent 不应该受限于人类社会的协作关系和角色设定(也许我们终将迎来 Agent-Zero 时刻?);

3. Agentic Hours per Users 是关键的产品衡量指标,当所有移动互联网新产品都在试图从抖音口中夺取一些用户时长的时候,新时代的 AI Agent 产品可以利用少量直接与用户交互的时间,在背后运行并持续创造增量价值;

4. 92 年的 Peak 表达如此流利且信息量巨大,3 个半小时的采访经常能瞬间无损 callback 开头内容,加上全球飞人+输出狂人 hidecloud 以及闷骚压舱石 CEO 小红。这样的团队怎能让人不喜欢呢?(Peak:"Karpathy 你买得来吗?")

5.关于评测,“Benchmark 是所有 AI 公司唯一的护城河”,peak 说这决定了团队的taste 能否落地。我认为这既是团队对于“什么是好产品”的直接定义,也体现了团队的价值取向和对用户需求的洞察,而且Benchmark还是会随着时间变化的(包括 1-模型能力变化,2-agent 框架和产品本身变化,以及3-用户使用方式变化)。之前听 Kimi 产品播客也有类似表述,深以为然。

笔记:
ai.feishu.cn
00
slog
6月前
Dia 202512016
1. 新增标签分组功能(支持重命名/ 添加emoji/icon、加入/离开、展开/收起、新建/解散),同时支持横版/竖版标签栏;关闭标签分组之后,浏览器内侧顶部区域展示快捷方式。
2. New Commands 新指令(如 blog,wiki)
00
slog
6月前
记忆既是人的 context(可以以事实 rag 或概括 summary存在而被检索),也是对人的 lora fine tuning(以embedding 存在),也即“你是你所经历的一切”,极致长的 context 可以承载人生的一切,而这反过来塑造了这个人的一切。
10
slog
7月前
尝试在 cursor 拆分三个终端,codex cc 方案赛马,另一个 run dev 随时查看热更新效果。避免了目前沙盒环境没法 run dev 的问题,提升效率的同时还把 cc codex 同时充分用起来。开心。

但作为简单的 ai 工具网站开发场景, codex 给的方案和描述总感觉还是不如 cc 更人性化,更清晰。也许是我没有充分利用好 AGENTS.md?万即有无好建议

我感受的“清晰”体现在:
1. 适度缩略思考执行过程
2. 指向清晰的 emoji 和颜色高亮
3. 适度暴露关键修改源码内容
00