即刻App年轻人的同好社区
下载
App内打开
行小招
95关注334被关注0夸夸
探索AI在企业的落地应用场景
记录关于大模型的一切闪念、想法、洞察
Nasdaq上市公司|增长技术负责人
前阿里/同程艺龙
置顶
行小招
4月前
prompt 的撰写技巧只是“术”的层面,不能说不重要,但是更底层的东西“道”,“道”是你的认知层级,思维方式,和看穿本质的能力。“问的问题”本身是最重要的,你问出什么问题,远比你怎么问更致命。因为提问本身就暴露了你思考的天花。

相当于武功里面的,招式 vs 内功,张无忌学的太极拳为啥招式都忘记了,打出来,还那么厉害?

举个例子:
1. “帮我写一篇中国咖啡外卖市场的调研报告。”
2.“我想写一篇关于中国咖啡外卖市场的调研报告。请帮我分析一下市场规模、主要玩家(瑞幸、星巴克、Manner)的商业模式和优劣势,并预测一下未来的发展趋势。”
3. 见图
00
行小招
1天前
模型会犯错这事没法避免,但系统不能因为模型犯错就崩了,流程不能因为一次幻觉就断了,这是企业里落地 Agent 重点要关注的事情,

熔断、降级、兜底,这些在微服务时代就玩烂了的东西,现在要用到 agent 身上,

Harness 本质上干的就是这件事,不是让 agent 更聪明,而是建各种稳定性方案,让 agent 犯错的时候系统还能兜住。

体感上,企业用 AI 最怕的不是"不够强",是"不可控",你不需要它创造奇迹,你需要它把 SOP 老老实实跑完,且长期稳定运行,不搞幺蛾子。

ps:这可能是CC CLI 的代码泄露对应用开发工程师可学习借鉴的地方!
00
行小招
4天前
同样是 $20 $200,Anthropic OpenAI 的产品分层逻辑完全不一样。

Claude 的做法是,$20 Pro 用户能用 Opus 4.6、Sonnet 4.6、Haiku 4.5,全系列模型一个不少,你升 Max $100 $200,买的是更多用量,模型还是那些模型,体验还是那个体验。说白了,Anthropic 卖的是算力额度,不是功能特权。
ChatGPT 不一样,$20 Plus 能用 GPT-5.3 GPT-5.4 Thinking,但 GPT-5.4 Pro 这个最强模型是 $200 Pro 层级独占的,你不掏 200 刀就永远摸不到天花板。

这两种设计理念的差异,体感下来影响很大。Claude 这边,我 $20 就能体验到 Opus 的强悍,用多了自然升 Max,决策很简单:“我认可这个模型,我需要更多额度”。ChatGPT 那边呢,你让我花 200 刀去赌一个我从没用过的模型”可能更强”,这个转化链路天然就有问题,你连体验的机会都不给我,我凭什么为”未知的好”买单?

好产品的定价应该是让用户先爱上天花板,再为用量付费,而不是把天花板藏起来当成 VIP 门票卖。

ps:3 个月前我还是 ChatGPT 200 美金的付费深度用户,现在已经变成了 200 美金的 Claude 会员,OpenAI 变成了 20 刀,用脚投票比什么分析都诚实。
20
行小招
6天前
很多企业都使用dify 搭建自己的大模型平台,随着agent 用量的增大,卡顿、响应慢,性能终将成为瓶颈,而最快速的解决方法就是把 pg 的日志表迁移走,

升级到 1.11.2 版本以上,直接使用阿里云 SLS ,或者自己改造适配下 repository ,使用自己的 elk 存储也可以。
00
行小招
9天前
国产各厂“龙虾”生态图,toB vs toC
00
行小招
12天前
微信的 openclaw 插件是另外一个 channel,不影响你现在使用的,但它默认是主 agent 答复,所以能使用相同的记忆和行为习惯。

这个插件还比较原始,没有富文本效果,如果你有一些定时任务依赖富文本的,还是使用之前的吧。

但能无缝跟微信环境打通,是非常方便的,之前的 qclaw 只是在微信客服里面的二级入口,不像现在,直接是一个聊天对话框,还能置顶显示,相当便利。
00
行小招
13天前
claude 的工程师分享文化还是非常好的,这两点就很认同,

要用你用得起的最强模型,在没有形成自己的判断之前不要因为成本而放弃最前沿的能力,

agent 的上下文管理里面,也就是 prompt 中,很多以前的限制,随着模型能力的升级,要去掉,否则适得其反,效果不好,限制了模型能力。
00
行小招
14天前
如果你重度依赖 cc,那么在手机上使用的三个方案,最优雅的是方案三:
1、openclaw 通过 ClaudeMax 授权,模型改成 Opus/sonnet4.6;

2、cc 官方 remote control ,电脑上 /rc ,手机 app 里面 code 里面找到对应的 session,继续会话;

3、官方“龙虾方案”Claude code channels, cc telegram plugin

1 的问题, 模型相同的情况下,harness pi-coding-agent,不如 3 的cc 效果好, 2 的问题 remote control 不怎么稳定,且手机环境搞不定容易被封。
40
行小招
16天前
OpenRouter 上突然冒出来的 Hunter Alpha,1T 参数、1M 上下文、免费,一周内冲到排行榜第三,人们都期待是 DeepSeek V4。

但多个 AI 模型交叉分析下来,概率最高的答案不是 DeepSeek,是小米。

规格对得上:Hunter Alpha 1T + 1M context + reasoning,对应小米还没官宣的 MiMo V2 Pro;Healer Alpha 是多模态 + 262K context,对应 MiMo V2 Omni。两个模型的参数表级别重合,不是模糊相似,是精确匹配。

昨天 OpenClaw 仓库已经有人提了 PR #49214,新增 mimo-v2-pro mimo-v2-omni provider 支持,context window 数字一个不差。

如果真是小米,那就是从 DeepSeek 被雷军挖过来的罗福莉团队,交出的第一张真正的 agentic 答卷。

真实各领风骚三五月啊!
01
行小招
17天前
中文圈天天吹一人公司,好像有了 AI 啥都能干,设计、开发、运营、财务、法律都一个人干了,不需要“专业”这个东西了,
这让我想起了当年那个"有了百度,人人都是老中医" 的梗,

AI 确实能让你在不懂的领域快速略懂一二,但略懂一二和真正能交付之间,隔着十万八千里,一堆懂皮毛的凑在一起就能把事干成,还能成为护城河?

实在是太好笑了,百度那会儿好歹没人真去开诊所。
00
行小招
23天前
Anthropic 刚发了篇工程博客,基础设施配置(比如容器的内存、cpu、网络)本身能让 Agent 编程跑分波动 6 个百分点,有时候比榜单上头部模型之间的差距还大。

同一个模型,同一套题,同样的模型参数,容器资源给足和卡着给,跑出来的分可以差 6 个点多,

这解释了:为什么排行榜上分那么高,我自己用体感差很多?因为你的机器不是人家跑分的机器。你的 CPU、内存、网络条件都是随机的,跑分环境是精心调过的。榜单上 2 个点的领先,可能不是模型强,是硬件好。

个人感觉,Anthropic 的评测还是比较克制的,和自己真实使用相差不多,反观我们国内的这些顶级模型们,哎…

原文:www.anthropic.com
00