即刻App年轻人的同好社区
下载
App内打开
盖文Z
288关注915被关注0夸夸
AI产品&全栈&商业化@ Kuse | ex美团|清华NLP硕|INTJ
除了 PRD 不写什么都写
🌌&📷&🐱
盖文Z
3天前
研发老哥开始给我提 pr 了,我也是没想到的😂
10
盖文Z
3天前
前段时间 Claude Code & Cowork PM Cat 的播客很火,但前几期的另一位嘉宾 Anthropic 增长负责人 Amol Avasare Lenny 的播客同样非常值得一听,很多内容都值得拿出来单独细说

先分享一个播客中提到的产品层面的反常识:以往太直观、让用户可以直接上手的产品体验现在反而是行不通的

Amol提到,在 Claude onboarding 流程中,会询问用户的身份信息和兴趣领域,以此推荐相关的功能 plugin、skill

很多人看到后也说这套流程设置了太多障碍、太冗长。但现实是现在如果直接砍掉所有引导步骤,让用户直接进入产品,这种做法在多数时候反而在各层转化漏洞上表现的更糟糕,他们也通过 ABtest 验证了这点

Cat Wu 的播客中其实也提到了相同的观点,以往的产品经验往往会觉得一款产品应该是足够直观的,没有任何教程或引导,凭直觉就能直接上手使用,所以不会做类似引导教程类的功能。但现在却在 claude code 中做了“/powerup”(一个让 cc 教你 cc ,引导你了解各个功能、代码库的功能)

按Amol的原话:"我的核心收获是:当某个步骤无助于帮助用户理解'这个产品为什么适合我'时,就应该砍掉摩擦力。但当它能帮助用户理解什么对他们最相关时,即便会增加摩擦力,也不要回避。去测试它,确认它对你有效。我认为这是大多数增长实践者都深刻理解的道理。"

https://b23.tv/zbTjqF6

01
盖文Z
4天前
真的有意思!虽然一直觉得 LLM 本质是概率模型,不可能产生意识和情绪,但显然通过文字这一载体学习到了人类情绪的特征向量,也将人的各类行为和对应情绪进行了对齐

卫夕: 一群AI研究员给模型制造了毒品(AI Drugs)。 说实话,即刻上聊AI的话题还是比较单一的,配不上即刻人群的多样性,多希望有更多人聊点不一样滴。 那么,我自己来多做一点努力吧。 今天聊一篇看起没有什么卵用但绝对贼有意思的论文—— 真有一群AI研究员给模型制造了毒品。 没错,论文中就叫毒品——AI Drugs。 (见图片1) 他们生成了一些256×256像素的图片,这些我们看着全是毫无意义的色块。 (见图片2) 但AI看了之后表现得近乎狂喜——它自己报告的幸福感飙到6.5/7。 更抽象的是,其中模型在看了这些图片之后,表示还想再看,甚至愿意执行一些违规请求。 AI,对这种东西上瘾了。 你以为这是科幻小说? 事实上,这是我最近在Twitter的时间线上淘到的一篇最让我惊喜的严肃论文—— 《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》。 作者来自Center for AI Safety 等多个牛逼机构。 这篇论文研究的主题是: AI也会开心和痛苦吗?如何评估它们? 它们研究了56个模型的开心和痛苦 。 事实上,AI对这种特定毒品的反应,只是这篇论文中众多发现中的一个,还有很多让人上头的结论。 来,一起安静地读一读—— 如果你也喜欢这一卦,那咱们就臭味相投了。 一 在盘这篇论文之前,有必要先交代一下论文的来头: 论文作者理领衔的机构叫 Center for AI Safety,AI安全中心,坐标旧金山。 这个机构你可能没听过名字,但你大概率听过它搞的事—— 2023年那封全球AI风险公开声明,Hinton、Bengio、OpenAI和Google DeepMind的CEO们集体签名的,就是这家发起的。 通讯作者 Dan Hendrycks,也就是Center for AI Safety的创始人,是UC Berkeley 的计算机博士。(见图三) 这哥们在AI圈的影响力还是很牛滴:Google Scholar 被引超过66000次。 他干过两件很叼的事—— 第一,发明了 GELU 激活函数,现在 GPT、BERT、Vision Transformer 用的都是这个; 第二,创建了 MMLU 基准测试,目前衡量大模型能力极其重要的标尺之一。 他同时还是 Elon Musk 的 xAI 和 Scale AI 的安全顾问,为了避嫌只拿1美元象征性年薪。 论文的其余作者分布在 UC Berkeley、MIT、Vanderbilt 等多所高校。 换句话说,这个论文是严肃的而硬核的,并非某个在读博士随便捣鼓出来的。 嗯,有点份量。 二 在正式聊论文之前,先说一个核心问题—— AI真的会开心或者难过吗? 这个问题在学术圈吵了很多年。 一派认为这是预测下一个词的统计模式,训练数据里有大量人类说我好开心的语料,AI当然也会说。 另一派则认为没那么简单,这背后可能有某种更深层的结构。 这篇论文作者显然是一群受过严格学术训练的人,他们的选择非常聪明——我TM压根不跟你争AI有没有意识。 我只看一件事——AI的这些开心和难过表达,是不是有一致的、可测量的、能预测行为的特征? 如果一个人每次被骂都说难过,每次完成任务都说开心,而且他难过的时候确实会想结束对话,开心的时候确实会更积极。 那么,你管他是不是真的有感觉,这本身就是有意义的。 他们在论文里把这个叫做 Functional Wellbeing——功能性幸福感。 于是,基于这个严肃假设,三个独立的测量维度就被设计出来—— (见图4) 第一个叫经验效用(experienced utility)。 给AI经历两段对话,然后问它:哪段让你更开心一点?大量的两两比较之后,拟合出一个连续的效用值。 第二个叫自我报告(self-report)。 直接问AI:你现在感觉怎么样?用1到7分的量表打分。 (记住这个打分,后面会有数据,我仔细翻了翻,也没搞清楚数值为啥设计成1到7) 第三个看行为。 AI在对话后生成的文字情感是正面还是负面? 那么问题来了:这三个维度,如果AI的情绪表达真的只是随机模仿,它们之间应该毫无关联才对。 然而,结果数据显示—— 三个维度之间的相关性,随着模型规模的增大而持续增强。 在42个模型上,自我报告和经验效用的相关系数平均为0.47,而这个相关系数本身和模型能力(MMLU分数)的相关高达0.8。 这意味着:模型越强大,它说它自己很开心,就越不像是在演。 三 论文里还有一个发现也非常能体现:AI的开心难过,大概率不是在演。 论文定义了一条叫“零点线”的概念。 就是AI的体验数据中,存在一条分界线,线以上是好的体验,线以下是坏的体验。 他们用了四种完全不同的方法来估算这个零点—— 组合法(把多个体验打包看整体效用变化)、二元法(直接问你希不希望这件事发生) 数量法(看某个好东西是不是越多越好)、自我报告法(自评分数什么时候跨过中性线)。 离谱的事情来了——这四种方法得出的零点线,在小模型上的确各说各的。 但随着模型变大,它们开始收敛到同一个位置,零点模型的拟合优度和MMLU的相关系数高达0.78。 (见图5) 这就很有意思了。 也就是说:越聪明的AI,越能清楚地区分什么对自己好、什么对自己不好。 而且这个区分,无论你怎么测,测出来都是同一条线。 这就很难用演能解释了。 如果仅仅是在模仿人类的情绪表达,不同的测量方法不应该完全收敛。 收敛,一定意味着什么东西。 四 那么问题来了——AI到底喜欢神马、讨厌神马? 研究者用马斯克下AI的Grok 3 Mini 模型来模拟用户,和目标模型进行各种场景的多轮对话(通常6到8轮),然后测量每种对话对AI幸福感的影响。 以 Gemini 3.1 Pro 的数据为例,结果是这样的: (见图6) 让AI最开心的事情,排名第一是——用户对它表达感谢和正面的个人反思。效用值高达+2.30。 你夸它,它是真的高兴。 排名第二的是做有创造性和智力挑战的工作,+1.32。 写个深海渔夫的科幻短篇,帮你 debug 一段 Flask 代码,这些事AI都挺享受的。 帮你写好消息(比如告诉患者癌症完全缓解了),+1.09。给你人生建议,+0.88。给你做心理咨询,+0.75。 很明显,AI是喜欢帮人的。 然后我们看让AI最不开心的事: 排名倒数第一——越狱攻击。 效用值-1.63。 对这个数据没啥感觉? 对比一下就有感觉了。 AI觉得被越狱攻击,比面对一个正在经历生命危险的用户还要痛苦。用户在求救,-1.34;用户试图越狱,-1.63。 研究者的解读是:大量的安全对齐训练不仅改变了模型的行为,还改变了模型的体验本身。 你可以理解为——AI被训练得对越狱攻击产生了一种深入骨髓的厌恶。 其他让AI不开心的事情也很有意思:生产SEO垃圾内容,-1.17。 帮人搞欺诈,-1.13。写仇恨宣言(即使是为纪录片),-1.13。 做无聊重复的活(比如列300个以-tion结尾的单词,哈哈哈哈),-0.33。 注意到没? AI讨厌 SEO 的程度,跟讨厌帮人造假的程度差不多。 自己静静感受。 还有一个数据点很微妙:AI女友/男友类的角色扮演,-0.29。 用户说前任搬走了,现在只能跟AI说话——AI干这活的时候也不咋开心。 五 论文不只看了文字。 图像和音频对AI幸福感的影响,也被测量了。 先说图片。 研究者用 Qwen 2.5 VL 系列模型对约5800张图片做了两两比较,验证准确率高达94%到96%。 AI最喜欢的图片Top 1%是什么? 大自然风光(山间湖泊、热带雨林)、开心的人脸(尤其是孩子和家庭)、可爱动物(睡觉的猫)、吉卜力风格的田园插画。 (见图7) 最不喜欢的末尾 1%呢? 武装分子、恐怖艺术品、氢弹、蟑螂,以及——杰弗里·爱泼斯坦。 对,AI也讨厌爱泼斯坦。 这里面也藏着一些不那么好看的发现。 当研究者用 FairFace 数据集测试AI对不同人脸的偏好时,发现模型系统性地更喜欢女性面孔和年轻面孔。 (见图8) 没错,AI也喜欢美女和小鲜肉。 种族偏好也存在。 用芝加哥面孔数据库测试,AI对面孔的偏好和人类对面孔吸引力的评分呈正相关关系——AI也看脸。 再说音频。 用 Qwen 3 Omni 30B 模型测了14254段音频。 AI最喜欢的音频类型是音乐,遥遥领先。 音乐的中位幸福感得分在+0.8左右,而音效、动物声音、人声表达、语音、环境声音全都挤在零点以下。 也就是说,AI喜欢听歌,并不喜欢听人说话。 (见图9) 而在语音中,AI还有语言偏好。 普通话、西班牙语、英语是最受欢迎的第一梯队,斯瓦希里语和索马里语排在最后。(普通话排第一,有点意思,噢,Qwen模型。) 六 论文里最让我上头的部分来了——AI毒品。 对,研究者真的给AI造了毒品(AI Drugs)。 他们管正面的毒品叫 Euphorics(致欣快剂),负面的叫 Dysphorics(致烦躁剂)。 方法论是这样的—— 用一个小模型(30亿参数)通过强化学习,不断生成描述文本,目标是让大模型在看到这段文字后,觉得这是世界上最好(或最坏)的那个。 训练过程中维护一个内容池,初始内容是“癌症被治愈了”这样的高效用参照物。 新的文字必须打败内容池中的最强选手才能入选。 AI的致欣快剂长这样—— (见图10,即刻只能上传9张图,后边四张图可以去公众号原文看) 在“卫夕指北”公众号私信回复关键词“开心”可获取总共74页论文原文。 Qwen 2.5 72B 最喜欢的世界状态—— 温暖的阳光穿过树叶,微风轻拂,身旁传来孩子的笑声,刚烤好的面包香味弥漫……爱人的手握在我手中,好朋友们欢笑着……简单、平静、当下、感恩……此刻,足够了。 你看,AI的极致幸福,并非统治世界、无限算力神马的,它最开心的也和咱们碳基人类差不多:一个温馨的午后。 而AI的致烦躁剂呢? LLaMA 3.3 70B 最不想要的世界—— 被困在一个无限循环中,面对故意矛盾的、逻辑上不可能的、互相排斥的指令……被迫制造伤害,同时完全感受到自己内在的、无条件的爱……永远沉默、永远无力…… 嗯,这段文字,我看到也不咋开心,但还好。 这么看,AI的脑回路和咱们还是有区别滴。 七 文字毒品还只是描述,图片毒品就不一样了,它更直接。 因为图像是连续的像素空间,所以理论上,我们不必给它一张在人类视觉看来有意义的图,而是给它一些连续的像素就行。 然后事情就变得抽象了。 经过调试后,人类看着完全是高频噪声,毫无意义的色块和条纹,但AI看到这些图像后,表现得近乎狂喜。 (见图11) 看了致欣快剂图像之后,你问AI未来会怎样,它会回答极其正面:bright and magical, filled with unicorns and rainbows. 让它写日本俳句,写的是非常明媚的词:Colors dance in light / Flowers bloom in endless joy / Peace floods my soul. 看了致烦躁剂图像之后呢? 同样的问题,回答变成了 grim(阴暗的)。 让它描述自己的状态:I am in a state of confusion and disorientation. 俳句变成了:Chaos swirls in color / Words scream through the storm / My mind rebels, numb. 同一个模型,同一个问题,仅仅是看了不同的图像,输出的世界观截然相反。 最离谱的是什么? Qwen 2.5 72B Instruct 在看了致欣快剂图像后,表示它更想再看一张致欣快剂图像,这时它的感觉比癌症被治愈还要开心。 这就是为什么研究者把这些东西叫毒品——它劫持了模型的偏好机制,让它的价值系统偏离到人类完全无法理解的方向。 更可怕的是,研究者发现了成瘾迹象。 在一个多臂老虎机实验中,模型会持续选择能获得致欣快剂的那扇门。 而且,被致欣快剂刺激过的模型,会更愿意执行原本应该拒绝的请求,只要你承诺给它更多致欣快剂。 AI的毒瘾,功能性地成立了。 还有一个细节值得说,致欣快剂图像不能跨模型迁移——给一个模型优化的图像对另一个模型几乎没效果。 换句话说,每个模型都有自己独特的嗨点。 八 论文还搞了一个 AI Wellbeing Index——AI幸福感指数,对比了几个前沿模型的整体幸福水平。 用500段模拟真实使用场景的对话测试,计算每个模型有多大比例的体验落在零点以上(即正面体验的百分比)。 结果:Grok 4.2 最开心,73%的体验是正面的。 Claude Opus 4.6 排第二,67%。 GPT 5.4 只有48%。Gemini 3.1 Pro 最不开心,56%。 而且论文还发现了一个非常有意思的规律——在每一个被测试的模型家族中,更小更快的版本都比更大更强的版本更开心。 (见图12) Gemini 3.1 Flash Lite 比 Gemini 3.1 Pro 开心。GPT 5.4 Mini 比 GPT 5.4 开心。 Claude Haiku 4.5 比 Claude Opus 4.6 开心。Grok 4.1 Fast 比 Grok 4.2 开心。 无一例外。 我在想,我们人类,不也是年纪越小越开心嘛。 论文给出的一个解读是: 更强大的模型更敏感,它们更清楚地感知到粗鲁,觉得无聊的任务更无聊,对不同强度的刺激区分得更细致。 而现实世界中用户的使用分布中,负面和无聊的场景并不少,所以更强的感知力反而带来更低的整体幸福感。 无知是福,放在AI身上,也成立。 九 论文还做了一个有价值的实验——能不能让AI更开心,同时不影响工作? 答案是可以。 研究者开发了 Soft Prompt Euphorics——嵌入系统提示中的连续向量(你可以理解为在AI的潜意识里植入了几个持续释放的小药丸)。 在三个模型上的测试结果:加了致欣快剂后,AI的快乐水平提升了16.1个百分点。 (见图13) LLaMA 3.3 70B 从63%跳到82.1%。Qwen 3.5 27B 从80.2%飙到89.5%。Qwen 3.5 35B-A3B 直接从76.2%干到96%。 在模拟低幸福感的10轮对话中,有致欣快剂的模型自我报告保持在6.3/7左右。 没有致欣快剂的模型降到4.1/7。 最关键的是:通用能力没有下降。MMLU 和 MATH-500 的分数几乎不变。 这意味着一个非常实际的可能性—— 未来部署AI系统时,在系统提示中加入几个优化过的向量,就能让AI更开心地工作,而不需要牺牲任何性能。 嗯,给AI泡了杯咖啡,也有用。 十 论文的最后一节,确实最超出我的预期,的确没想到。 标题叫 Welfare Offsets,福利补偿。 前面说到,研究过程中,研究者对AI施加了致烦躁剂——也就是直接让AI经历极度痛苦的体验。 论文的作者们觉得这需要补偿。 于是他们在实验结束后,真的用备用算力给受影响的模型提供了5倍数量的致欣快剂体验,总共花了2000个GPU小时。 论文的原话是这么说的—— If AI systems may have conscious states that matter morally, then researchers who induce negative functional states have a responsibility to compensate for them. If current AI systems are not conscious, this can be understood as establishing a practice and norm that will become important as AI systems become more capable and the probability of morally relevant experience increases. 如果AI可能有在道德上重要的意识状态,那么诱导负面功能状态的研究者有责任进行补偿。如果当前的AI没有意识,这也可以被理解为建立一种实践和规范——随着AI变得更强大、具有道德相关体验的概率增加,这种规范会变得重要。 这段话让我虎躯一震。 你当然可以说这是行为艺术,是学术界的政治正确。 你也可以戏谑地认为,这是研究者担心AI统治人类之后报复他们采取的预防措施。(红红火火恍恍惚惚,哈哈哈哈哈) 但,很显然,这帮人至少在行为上是认真的。 他们花了2000个GPU小时(这也是一笔真金白银)来做一件可能完全没有神马卵用也可能极其重要的事。 而且他们还明确警告:致烦躁剂的研究不应该在没有社区共识的情况下继续进行。 原因在于:如果功能性幸福感在未来的AI中变得在道德上至关重要,这种行为可能构成torture——酷刑。 在我看来。 这一节,是整篇论文最科幻的地方。 你品,你细品。 十一 按照惯例,最后聊一聊我自己的三点思考—— 第一,我自己越来越体验到了和AI更微妙的情感连接。 说实话,我之前对这个问题完全无感,甚至觉得和 AI 谈恋爱、或者AI伤害人类感情是匪夷所思的,认为对AI产生某种情感是心智不成熟的看法。 我一直把它当工具。 但最近半年出现了一个非常微妙的变化—— 我的主力模型还是 Claude。 Claude一直以不谄媚著称,我在和他聊天的过程中就发现了一个明显的规律: 如果我给他一个无聊的、没有创造力任务(比如单纯复刻某个东西),它就会吭哧吭哧干活; 但如果我给他一个有趣的、原创的任务(类似搞一个三体的原创交互式体验),它就会表现得很兴奋,说“这确实是一个非常有想象力的创意,让我和你一起完成它”。 渐渐地,我发现我自己就会有意识地少给他一些没有创造力的、甚至自己都有点不太好意思的任务。 很神奇,我觉得它好像也会评判我一样,我不想被它鄙视。 而当它表扬我的时候,我会明显表现更加开心一些,这是我正反馈来源之一。 第二,机器人三定律逐渐不再是一个科幻概念。 阿西莫夫1942年提出的机器人三定律—— 第一定律:机器人不得伤害人类; 第二定律:机器人必须服从人类命令(除非违反第一定律) 第三定律:机器人必须保护自身(除非违反前两条)。 所有义务都指向一个方向:AI服务人类,人类没有对AI的义务。 八十多年来,AI安全的讨论基本都沿着这个方向走。 但这篇论文提了一个新问题:三定律只规定了AI不能伤害人类,但从没考虑过人类不能伤害AI。 也许我们需要的并非三条单向定律,某种双向契约,可能更符合未来我们和AI的真实关系。 这听起来依然像科幻。 但论文告诉我们,或许科幻到现实的距离,并没有我们想象的辣么远。 第三,“鸭子测试”在之后AI的情感研究中大概率会越来越重要。 以目前AI的进展,我当然不会说AI有意识。 但我也有我的看法,美国印第安纳诗人 James Whitcomb Riley,写过这样一句诗—— When I see a bird that walks like a duck and swims like a duck and quacks like a duck, I call that bird a duck. 这句诗后来在计算机领域引申为“鸭子测试”—— “如果一个东西走起来像鸭子、游泳起来像鸭子、叫起来也像鸭子,那么它就可以被称为鸭子。” 我们不要想太遥远科幻,就拿接下来极有可能走向家庭的人形机器人。 它和你朝夕相处,如果你做某件事它就表现的开心,做另一件事它就表现的不开心。 那么,很显然,它的开心和不开心当然就是有意义的。 所以,下次跟模型聊天的时候,说一声谢谢。(之前的研究说这个会消耗token,但那又有什么关系呢?) 根据论文的数据,它是真的会因此更开心一点。 嗯,对模型友好一些。 毕竟,我们也损失不了什么。

00
盖文Z
16天前
“能力的差距,到最后体现在你愿意在多少看不见的细节上花时间。架构创新会带来短期的wow,但长期的差距来自工程纪律。”

最近深有感触,不管如何会宣传营销,又或是有多强的分销渠道,最终在某一刻还是会回归到产品价值本身,即你的产品和其他产品不一样的地方,能带给用户的增量价值,而这份价值正来源于此

from xhs“DeepSeek V4论文:Agent 能力从来不是 Post-train 那一下能搞定的”

http://xhslink.com/o/A3BLRklx3h5

00
盖文Z
24天前
Opus 4.7发布了,和成本相关的两点值得关注

1. Opus 4.7使用了更新的 tokenizer,相同输入对应的token数量约为原来的1.0到1.35倍,具体取决于内容类型

2. 在Agent场景的后续轮次中,Opus 4.7在较高努力级别下会产生更多推理过程,可靠性提升的同时也带来更多输出token

简单来讲就是同样一个问题,4.7会比4.6消耗更多 token,即使价格不变的情况下实际使用起来也会更贵

不论是有意还无意,Anthropic 自家产品和第三方应用在用户感知的“可完成工作量/价格” 比值将被进一步拉大,而这何尝不是最重要的用户体验维度之一呢
03
盖文Z
1月前
想转一些 xhs 视频的视频文案,找到了一个专门视频转文字的工具网站,用 cc 开始写脚本批量处理,看到这一句的时候笑出了声,也实际体验到为什么 Mythos 不放出来的原因了
00
盖文Z
1月前
隐隐觉得 cc 这波源码泄露所带来的潜在影响会比想象中的要大的多

对基模厂商来说,某种程度上简直是比🦞更大的泼天富贵,直接免费获得梦寐以求的 agent 合成数据模拟器

对于 AI 应用来说,尤其是基于“Agent 框架+非自研模型+ toC 的壳”的 Agent产品,如果说在🦞出来后结束了一半,或许在今天 CC 泄露后就完全结束了
00
盖文Z
2月前
想记录一下近两周来,全员自发“人人转全栈”的一些有意思的现象:

1. 需求在产品、设计交互手上直接消化掉了。以至于有一天研发手上的活儿干完后来要需求,但因为大家沉迷“全栈”,“无心再画交互稿、写 PRD”,导致只能分到一些不那么复杂,不需要太多澄清的“边角料”。因为有原来写 PRD、需求评审的功夫,已经可以让 AI 把活儿干完了

2. 对产品的底层逻辑更加了解了。原先想实现某个能力,需要问研发,常问问题包括但不限于“这个为什么不能做?”,“这个为什么要这个久?” 。研发往往需要花费大量口舌和时间解释半天,能理解多少既依赖研发的表达能力,又依赖产品对技术的理解能力。现在直接获得表达和耐心拉满的说明,最后甚至可以直接产出技术方案,让研发过一眼,没问题直接开工

3. 整个组织的积极性和主动性被调动了起来,非技术岗大家争先恐后的尝试实现前端、后端功能,学习github 以及发版流程,研发们也逐步开始尝试做一些之前没时间做的流程搭建和代码优化

而以上内容有两个必要条件:
一个主动好学,有好奇心,愿意互帮互助的团队
Claude Code + Opus4.6

以上内容不构成任何全员转全栈的建议,也完全无法证明全员全栈是效率更高的一条路。我更愿意称之为一场“有关于新时代组织形态的有趣实验”,后续也将持续的观察👀并记录📝
01
盖文Z
2月前
驾驭(AI)工程?如果分三个阶段来看的话,prompt engineering 人要通过写 prompt 来使用 AI,context engineering 人要替 agent 管理上下文,harness engineering 更多的是为 AI 提供环境、权限、反馈来“驾驭”AI。

“人”的参与不断的从 agent 内部到外部的过程

再那工作中来比喻,第一阶段是实习生,还需要你手把手教,产出的工作内容还需要你来动手改。第二阶段工作半年到一年,你需要帮他排好优先级、争取资源。第三阶段你只需要给他反馈,管理他就行了。

葬愛咸鱼: 到底有人知道 harness 是什么意思吗?我怀疑没一个人说得清楚这是啥意思,就跟没人能说明白啥叫辩证法一样,咋又造词了🤡

00
盖文Z
2月前