即刻App年轻人的同好社区
下载
App内打开
桑文锋SensorsData
44关注1k被关注1夸夸
桑文锋SensorsData
2天前
Harness Engineering 中的Harness怎么翻译?是个有趣的问题。用马具听着不好听,用马鞍又不贴切,因为Harness其实是指控制系统的连接层,在驾驭马干活的场景里,它是指缰绳、颈套之类的。我也看有的文章里用线束这个词,原来在航空航天领域更早的复用了这个词,用来表示线路连接的设计,保证信号传递的稳定可靠。在Agent工程的场景,我看现在的用法里,既包含了连接层,又包含了执行层如工具等,现在还处于概念形成期。
67
桑文锋SensorsData
7天前
今天用Codex做了个会议记录App,用在Macbook上的,使用MacOS自带的SpeechAnalyzer API做实时转录,然后再用Gemini 3 Flash做整理总结。实时转录的文字乱七八糟,但Gemini 3 Flash很轻松就把一些错误给校正了,尤其是一些术语。

本来还想着是不是连整理总结也变成本地模型,查了一下发现小模型耗用机器资源不少,并且效果也不好保证,还是做LLM API调用更合适。

SpeechAnalyzer只能转录,没办法区分人,要解决的话,还要配合其他模型,总之这么一件事想做好也不容易。回想在学校时曾经尝试用IBM的一款语音识别系统用来识别一些采访录音,准确率可能只有20-30%,短短二十年,技术的演进太快了。

PS:许多软硬件都有语音转录的功能,我这完全是为了研究AI Coding的能力边界和了解一下语音识别相关的技术。大家平时用的比较多的语音转文字的产品都哪些?
174
桑文锋SensorsData
7天前
我现在觉得模型窗口就是边界,模型本身没有记忆,这个原点决定了必须要有周边,也就是Harness。模型窗口不可能把每个人的私有信息和私有环境都同步进去。

一年多前其实有一种潜在的隐忧:大模型发展到AGI,还能干什么?现在的答案是:还能干Harness。
01
桑文锋SensorsData
8天前
山重水复疑无路,柳暗花明又一村。一个产品绞尽脑汁都看不到破局点了,忽然几个人在一起就碰撞出了新思路,这感觉挺棒,并且几天就能看到做出来是啥效果,AI Coding时代真伟大。
00
桑文锋SensorsData
8天前
分享我们的新产品UX Agent:用 AI 读懂用户回放,找到站内转化提升点。做出海站点的朋友欢迎体验,解决Session Replay看不过来的问题。

UX Agent:用 AI 读懂用户回放,找到站内转化提升点

60
桑文锋SensorsData
8天前
大家平时还有用Deep Research吗?去年初的时候,我觉得这是个非常牛逼的功能,直接出研究报告,但回顾这一年多来,我一共也就用了10来次,每次的产出物都差强人意,产出物都是些大路货材料,没有啥洞察,反而比不上和ChatGPT深度互动带来的认知收获。
32
桑文锋SensorsData
9天前
昨晚测试我的MiniClaw,也就是一个简单的OpenClaw学习版,使用的GPT-5.4-Mini模型。问了它一个问题:落日绣帘卷是哪一年写的?

结果给了我个答案是王维写的《辋川别业》,年代已不可考。我心里一惊,原来这句诗词也是苏东坡引用别人的,这种事在苏东坡这里很常见,并且经常改的比原句还要好。王维的这首词如截图:

落日绣帘卷,亭下水流深,
心闲无俗事,身是半闲人。

读起来也是王维飘逸的风格,长见识了。接着我又提醒是苏东坡的那首,结果又给我来了首以落日绣帘卷结尾的词,我一看,风格属于苏东坡,没想到苏东坡又复用了这句,这种事在他身上也常见。最后进一步引导,才给出了年份。安心睡觉。

今早醒来,感觉这王维的词句值得进一步学习,就问ChatGPT,结果发现没有,给我《辋川别业》的原文,根本不是那回事。又查了一下苏东坡那首,也是乱编的。

我好歹也是看过苏东坡传背过这么多首词的,被模型忽悠的这么彻底,还真是好笑。当然,问题主要出在像GPT-5.4-Mini这样的蒸馏模型,内部的知识量不够,比不上更大规模的,但这个Case对我来说很生动。
00
桑文锋SensorsData
12天前
想要理解龙虾(OpenClaw)是怎么运作的,推荐看一下李宏毅老师的视频,讲的特别通俗易懂。

对我来说,最近在做Agent实现时,对于Context该如何设计,好像并没有想到特别完美的方案,网上提到的一些压缩策略,也都是有所取舍。但在看这个视频时,忽然把一个认知构建起来了:LLM是没有任何记忆的,每次交互都是从零开始。一下变得清澈了。模型内部的神经网络是个黑盒,但input和output的不是,这样我可以结合Agent要解决的问题,主动去设计最合适的Context机制。

视频链接:youtu.be
24
桑文锋SensorsData
13天前
现在围绕Harness这个词,有两种主流含义:一是Agent Harness,这个其实就是Agent本身除了LLM之外的部分,正是有了这套Harness,才让Agent的任务完成度大幅提高,典型的像Claude Code、Codex和Manus,它们在使用公开的LLM API,但就是很强大。

二是Harness Engineering,这个就是从开发工程层面了,我们如何搭建一套环境,能够让Coding Agent(如Claude Code、Codex,甚至OpenClaw)能够自主完成研发和测试任务,这里典型的像Andrej Karpathy搞的Autoresearch,以及OpenAI、MiniMax都有相应的实践,其目的是不用人来写代码和调试,让Coding Agent自我行动,实现对目标产出的迭代。

这两种含义,都很好的明确了如何打造好的Agent的思路,让问题清晰化。
44
桑文锋SensorsData
16天前
前几天看了一篇文章,讲Agent OS,这就激起我的兴趣,一个多月前我刚做了个能发Twitter的MiniOS,那是不是可以改造为一个MiniAgentOS?启动后,只能和LLM互动,LLM可以调用本地工具,也就是个LLM-Tool-LLM的Loop。

于是昨天花了一整天时间,用两个Codex App账号接力工作,差不多搞好。因为使用了GPT-5.4 xhigh+Fast模式,额度消耗特别快。

现在MiniAgentOS可以实现正常的互动,这和早期的ChatGPT差不多,额外加了几个工具,如Twitter的查询和发帖。但由于MiniAgentOS既没有文件系统,也没有代码编译和执行能力,也就啥事儿也干不了。再进一步的话就要添加个简单文件系统和AI Coding能力了。

整个过程,调试最麻烦的还是网络连接,因为是AI写的网络协议栈,其中的一些Buffer设置,网络稳定性问题不少,现在也没完全稳定。另外就是Context Engineering了,AI最开始给我实现的一版是互动记录超过一个长度就直接截断,关键是把最新的互动给截断了,而不是历史的,但这个过程也让我对于传给模型的Context的设计,有了更深的理解。

整个项目,我尝试了Harness Engineering,也就是不是让Codex App上来就干,而是先明确目标和一些验收标准,然后先确认Harness环境,等Harness环境准备好了,再让AI开始编写和调试正式的功能。最近在做MiniOS和MiniManus时,其实也在有意无意的这么干,但明确以Harness Engineering方式尝试,这还是第一次。从最早的Vibe Coding,到最近的Spec Coding,再到现在的Harness Engineering,编程方式一年三迭代,真的突飞猛进。
113