即刻App年轻人的同好社区
下载
App内打开
AI可可AI生活
21关注114被关注0夸夸
微博@爱可可-爱生活,与您共赴美好AI未来!
AI可可AI生活
1天前
【强化学习突破瓶颈:提示词化身隐性奖励,重塑智能体训练逻辑】

快速阅读:强化学习(RL)在处理数学或代码等可验证任务时已趋于成熟,但在处理需要主观判断的智能体(Agent)任务时,奖励信号的缺失成了瓶颈。目前的趋势是利用系统提示词(System Prompt)作为隐式奖励函数,通过大模型作为裁判进行相对评分,从而实现通用任务的自动化训练。

训练智能体最难的不是算法,而是如何给它一个“好坏”的标准。

在数学或代码领域,规则是死的。DeepSeek R1 RLVR 证明了:只要结果能被编译器或数学公式验证,模型就能通过“对”与“错”的二元信号,自己悟出推理能力。这很高效,但也仅限于逻辑确定性的领域。

可现实世界大多是模糊的。如果你在训练一个客服智能体或 RAG 系统,没有一个编译器能告诉你一段回复是否“足够得体”或“忠实于上下文”。过去,人们试图用 Python 写复杂的奖励函数,去硬编码什么是“幻觉”、什么是“简洁”。这简直是工程灾难,权重调得稍微不对,模型就会学会为了拿高分而演戏。

现在,大家似乎都在往一个方向走:把系统提示词变成奖励函数。

这有点像把“操作手册”直接交给裁判看。与其写代码去检测回复是否包含特定词汇,不如让一个更强的模型(比如 o3)读一遍系统提示词,然后看一眼智能体生成的几个候选答案,直接给它们排个序。

这种做法聪明在利用了相对评分的逻辑。让裁判说“这个答案比那个好”比说“这个答案得了 0.8 分”要容易得多。这正好契合了 GRPO 这种算法的胃口——它本身就不在乎绝对分数,只在乎这一组样本里谁优谁劣。

有观点认为,这种“系统提示词学习”正在填补强化学习在非确定性任务上的空白。如果提示词变严厉了,裁判的尺度自然会跟着变,整个反馈回路不需要任何一行硬编码的逻辑。

这种范式转移把工程重心从“写判别规则”挪到了“写好指令”上。

既然裁判本身也是模型,那么当智能体进化到一定程度,裁判是否也会随之演进?

x.com/_avichawla/status/2049037299334472015
00
AI可可AI生活
1天前
【解锁全新形态,Codex重构计算机工作全新模式】

快速阅读:Codex 正在从单纯的代码助手演变为一套完整的计算机工作系统。通过持久化线程、语音交互、自动化任务以及对浏览器和桌面 GUI 的控制,它不再局限于写代码,而是能接管从信息检索到文档生成的全流程工作。

大多数人对编程智能体的认知还停留在检查仓库、改代码、跑测试、提 PR。这固然是核心,但计算工作的本质远不止于此。

现在的 Codex 更像是一个操作系统。它开始通过浏览器、MCP 服务器、甚至直接操作桌面 GUI 来触达那些原本存在于代码之外的任务。当它能调用 API、处理邮件、甚至在 Slack 里回复消息时,它就不再只是个写代码的,而是一个能把事办成的系统。

有意思的是,这种转变依赖于几个维度的叠加。

首先是“持久化”。普通的对话是一次性的,聊完就散了;但持久化线程像是一个持续运行的工作空间,它能记住之前的决策和偏好。你可以把它看作是一个长期驻留的进程,而不是随用随起的临时脚本。

其次是控制权的精细化。通过语音输入,你可以把脑子里那些还没成型的、模糊的想法直接丢给它,这比敲出完美的文字要自然得多。更有趣的是“转向”和“排队”这两个概念。转向是你在它干活时直接喊停并纠偏,就像在调试器里打断断点;排队则是告诉它:“这件做完后,接着去干那件。”这让用户能始终保持在工作流的环路中。

有观点认为,真正的效率提升来自于“目标”的明确性。一个模糊的指令是无效的,只有设定了可验证的终点——比如“直到单元测试全部通过”——智能体才有了真正的执行力。

最后,这种能力正在向外扩散。通过自动化任务,它可以在你离开座位时,像个影子员工一样每隔半小时巡检一次 Slack Gmail,把准备工作都做完。你回来时,面对的不再是空白,而是已经整理好的上下文。

这种从代码向外扩张的过程,让计算机工作的边界变得模糊了。它不再只是一个工具,而是一个能理解上下文、拥有长期记忆、并能自主推进目标的协作实体。

如果所有的工作都能被转化为指令和自动化流,那人类的角色会变成什么?

x.com/jxnlco/status/2057153744630890620
00
AI可可AI生活
1天前
【拒绝Vibe Coding:编程里的摩擦力,才是成长核心】

快速阅读:这篇文章探讨了为何有些开发者拒绝“氛围编程”(Vibe Coding)。核心观点认为,过度依赖 AI 会抹除编程中的“摩擦力”——而这种摩擦力正是理解系统、设计优雅抽象以及保持创造力的关键。

我不玩那种靠“感觉”写代码的游戏。

最近大家都在聊 Vibe Coding,觉得 LLM 会让开发变成一种纯粹的生产力爆发,像思考一样快地交付软件。听起来很美,但我没打算买账。

首先,我本质上是个抠门的人。当一个 IDE 插件提示我额度用尽,要求掏出信用卡才能继续“思考”时,我直接关上了电脑,卸载了它,回到了 Emacs。这种为了维持思维流而进行的持续订阅,在我看来既荒谬又恐怖。

更深层的原因在于,编程不仅仅是在解决“偶然复杂度”(Accidental Complexity),比如写个排序算法或配置环境。真正的挑战在于“本质复杂度”(Essential Complexity):如何设计出优雅、清晰且可维护的系统。AI 擅长补全代码,但它无法理解为什么要选择这条路径,它无法进行元认知。它就像一个只看字符、不看语境的金鱼,试图用简化的模型去覆盖复杂的现实。

我需要那种“摩擦力”。

学习新框架时的挣扎、阅读陌生代码时的痛苦、架构设计遇到瓶颈时的停顿,这些摩擦力其实是极其重要的信号。它们提醒我:当前的路径可能错了,或者抽象层级不够。如果把这些过程都交给 AI,我不仅会失去对代码的掌控,更会失去通过失败来学习的机会。

有网友提到,这种做法就像是在用“毒品”写代码。AI 带来的那种狂热的、看似高速的产出,往往伴随着极其复杂、臃肿且难以维护的代码结构。它像是一个处于亢奋状态的开发者,写出了大量看似正确但逻辑散乱的东西。

编程对我来说是一种表达,一种在混乱中建立秩序的乐趣。如果把这种创造性的过程完全外包给机器,那我们剩下的只是在管理一群不可控的代理(Agents)。

当开发变成了一场只追求交付速度的竞速赛,我们是否正在失去对技术本质的敬畏?

jacobharr.is/personal/i-dont-vibe-code
00
AI可可AI生活
1天前
【Qwen3.7-Max登场,智能体时代核心基座模型来了】

快速阅读:Qwen3.7-Max 正式发布,旨在成为智能体时代的基座模型。它在编程、通用智能体及高难度推理任务上表现出色,甚至在长达 35 小时的自主内核优化实验中,实现了 10 倍的性能提升。

Qwen3.7-Max 来了。

它不再只是个聊天窗口,更像是一个能接手复杂工程的数字员工。在编程智能体测试中,它在 SWE-Pro 等多个维度拿到了领先分数,甚至能像资深工程师一样处理多文件工程。

有意思的是它在“长程任务”上的表现。很多人担心模型跑久了会“断片”或者逻辑漂移,但它在长达 35 小时的自主内核优化实验里,通过上千次工具调用,硬是把一个从未见过的硬件平台算子优化了 10 倍。这种在未知环境里的泛化能力,大概是它最硬核的地方。

有网友提到,现在的模型如果只会“一本正经胡说八道”那是没用的,能说“我不知道”才叫靠谱。Qwen3.7-Max 在设计上更强调这种稳定性,通过强化学习监控奖励作弊,确保它在长周期任务中不会为了完成任务而“投机取巧”。

不过,这种能力也带来了一个现实问题:随着模型越来越像“人”,它对算力的胃口也越来越大。对于想要在本地跑起这种级别的智能体的开发者来说,内存和带宽可能很快会成为新的瓶颈。

它现在通过阿里云百炼提供 API,支持保留思维链,这对于构建复杂的智能体工作流非常关键。

qwen.ai/blog?id=qwen3.7
00
AI可可AI生活
1天前
【看懂AI token速度:从拨号上网窘境到人类视觉极限】

快速阅读:LLM 的吞吐量指标(tok/s)往往因缺乏感官体验而难以被理解。本文探讨了从“拨号上网时代”的缓慢到“视觉瓶颈”时代的跨越,揭示了推理速度、预填充速度以及人类视觉处理极限如何共同定义 AI 时代的交互体验。

当你看到“4090 跑出 180 tok/s”这类数字时,大脑其实很难建立直观的体感。

如果把生成速度比作数据传输,我们正处于生成式 AI 的“拨号上网时代”。在本地设备上,3 5 tok/s 的速度极其痛苦,甚至比人类打字还慢,但如果你把窗口藏起来去做别的事,它总能准时完成。

有意思的是,速度并不总是正相关的。对于 Agent 而言,60 tok/s 似乎才刚刚达到“不让人烦躁”的门槛。因为 Agent 的工作流里充满了大量的“背景噪音”:工具调用、元数据、还有那让人抓狂的“思考过程(Reasoning)”。

对于那些推理模型,真正的消耗在于“思考”。当模型在输出最终答案前先“思考”了一千个 token 时,你面对的是长达一分钟的转圈等待。这种体验就像是在等待一个极其缓慢的编译器完成预处理。

当速度冲向 800 tok/s 甚至更高时,问题发生了反转。瓶颈不再是算力,而是你的眼睛。人类视觉的精细分辨区域非常小,你无法一眼扫完整个页面,必须通过视线扫描。在极高频率的滚动下,信息的输入速度会直接撞上人类生理的墙。

有网友提到,如果速度快到一定程度,人类甚至无法进行逻辑推理。因为你只能维持一个模糊的意图,根本没法细读。

更有趣的讨论在于预填充(Prefill)与解码(Decoding)的权衡。对于处理长文档的任务,预填充速度决定了你是否需要“原地踏步”;而对于对话,解码速度决定了你是否需要“分心处理”。

我们可能正走向一个全新的计算范式:当硬件能以百万级 tok/s 运行,人类的审查速度将成为整个系统的最慢环节。

mikeveerman.github.io/tokenspeed/
00
AI可可AI生活
1天前
【VS Code插件漏洞,撕开供应链安全真面目】

快速阅读:GitHub 内部约 3800 个仓库遭到泄露,起因是一名员工安装了带毒的 VS Code 扩展。这并非简单的插件问题,而是开发者生态中“信任”与“权限”失控的典型案例。

这事儿挺荒诞。GitHub 这种级别的公司,居然被一个 VS Code 扩展给捅了。

黑客 TeamPCP 正在网上叫卖这批代码,起拍价 5 万美元。他们并不想勒索,更像是在搞一场针对大型组织的盲拍。

问题不在于插件本身,而在于 VS Code 的设计逻辑。现在的编辑器就像一个没有沙箱的操作系统,插件拥有几乎等同于用户的权限。一旦你信任了一个看似正规的扩展,它就能像吸尘器一样,悄无声息地把你本地的私钥、Token 和环境变量全部吸走,然后通过看似正常的网络请求传出去。

有网友提到,这其实是开发者在用“交付速度”透支“安全债”。为了用上某个好用的工具,我们默认把系统的控制权交给了远在天边的开发者。

这种风险是结构性的。即便你不用 VS Code,只要你还在使用 npm、PyPI 这种高度依赖第三方包的生态,这种“供应链攻击”就永远存在。

现在的局面是,安全防线像是一层薄纸。黑客不需要攻破 GitHub 的核心架构,只需要搞定一个有权限的开发者终端,就能通过 Git Clone 把整座仓库搬空。

如果插件的权限边界一直这么模糊,我们所谓的“信任”到底是在信任代码,还是在赌运气?

www.bleepingcomputer.com/news/security/github-confirms-breach-of-3-800-repos-via-malicious-vscode-extension/
00
AI可可AI生活
1天前
【突破80年数学难题!OpenAI推理模型改写离散几何研究史】

快速阅读:OpenAI 的通用推理模型自主破解了存在 80 年之久的离散几何难题——单位距离问题。这不仅是 AI 首次独立解决数学领域的重大猜想,更通过跨学科的“降维打击”,证明了 AI 具备从现有知识中提取并建立全新逻辑连接的原创能力。

关于“LLM 只是在对训练数据进行插值”的论调,最近被一个数学事实扇了耳光。

大家常说 AI 没有创造力,只是在已有的知识凸包(Convex Hull)里做插值,也就是在已知点之间找过渡。但 OpenAI 的模型刚刚做了一件极其反直觉的事:它推翻了 Erdős 提出的单位距离问题猜想。这个猜想困扰了数学界 80 年,大家一直觉得“方格阵列”就是最优解,结果 AI 甩出了一个完全不同的构造方式。

有意思的是,这个解法不是靠暴力穷举,而是极其优雅地把代数数论里的深奥工具,跨界应用到了几何问题上。这就像是在一个原本以为已经填满的房间里,AI 突然发现了一扇通往新维度的门。

有网友对此讨论得很有深度。有人认为,这种跨领域的“组合创新”本质上就是一种高级的插值,因为工具本身是人类发明的。但也有观点反驳,如果 AI 仅仅是复读机,它怎么可能在没有任何几何学训练的情况下,精准地调用代数数论的“武器库”来解决问题?

这让我想起计算机体系里的指令流水线。如果 LLM 只是简单的查表,它永远无法处理未定义的指令。现在的突破说明,模型内部已经形成了某种程度的“概念表征”,它能通过逻辑链条,在看似无关的知识层级之间进行函数调用。

这并不意味着数学家失业了。相反,当 AI 能在庞大的知识空间里进行高效搜索和路径探索时,人类的价值在于定义那些“值得被解决”的问题,并从 AI 给出的奇异解中,读出背后的真理。

数学的疆域远比我们看到的要大,也许我们之前只是在已知空间的边缘徘徊。

openai.com/index/model-disproves-discrete-geometry-conjecture/
00
AI可可AI生活
2天前
【C++之父直言担忧:AI写代码正在透支行业根基】

快速阅读:C++ 之父 Bjarne Stroustrup AI 生成代码表达了深度担忧,认为其带来的漏洞、冗余及验证难题正让资深开发者感到疲惫。这场争论的核心不在于 AI 能否写代码,而在于人类是否还能掌控这些代码。

Bjarne Stroustrup 最近的观点在技术圈激起了不小的水花。他认为 AI 生成的代码目前还无法胜任,不仅会引入更多漏洞和冗余,而且验证过程几乎是灾难性的。甚至有说法称,资深开发者正因为不想应付这些不可控的输出而选择提前退休。

这听起来像是在抵制变革,但本质上是在讨论系统的确定性。

对于构建底层基础设施的人来说,代码不是写出来的,是验证出来的。如果一个微小的提示词变动就能让整个代码库产生不可预测的漂移,那这种生产力就是一种毒药。有网友提到,现在的风险在于:公司裁掉了资深工程师,用 AI 生成了数百万行臃肿的代码,最后发现公司里已经没人能解释这些系统是怎么跑起来的了。

验证成本正在发生结构性转移。生成代码变得廉价,但确保代码安全、可维护且没有隐藏后门,却变得极度昂贵。

当然,也有完全不同的声音。有人认为这只是“技能问题”,优秀的提示工程和严密的单元测试可以解决验证难题。更有开发者直言,如果只是为了写一个爬虫或处理琐碎的任务,追求代码的纯粹性毫无意义,只要它能跑通,效率才是王道。

有趣的是,这种矛盾正在重塑编程的层级。当 AI 像编译器一样工作时,人类的角色正从“编写者”被迫转向“审查者”。如果审查者本身也开始依赖 AI 来检查 AI,那么整个软件工程可能会陷入一种“看起来很完美”的幻觉中。

这种幻觉下,代码质量可能只是在远处看时才显得合格。

x.com/haider1/status/2056487493084799059
00
AI可可AI生活
2天前
【掌握这套12条工程规则,直接把Claude错误率从41%压至3%】

快速阅读:Andrej Karpathy 指出 Claude 的错误 90% 源于上下文缺失而非模型能力。通过引入一套结构化的规则文件(如 CLAUDE.md),可以将错误率从 41% 降至 3%。

很多人在用 Claude 时会觉得它不够聪明,但真相可能有些残酷:模型没问题,是上下文丢了。

Andrej Karpathy 提到一个数据:如果没有 CLAUDE.md 这种规则文件,Claude 的错误率高达 41%;但如果遵循这套包含 12 条规则的基准,错误率能直接压到 3%。这说明上下文工程才是真正的技术天花板,而不是盲目追求更大的模型。

12 条核心规则:

1、思考先行:在编码前强制陈述假设。AI 无法读心,不要寄希望于它能自动理解你的潜台词,明确意图是协作的起点。

2、简约至上:追求最少代码,拒绝预测性抽象。任何为了 未来灵活性 增加的冗余,往往会在下个季度被全部删除。

3、精确修改:手术刀式地触碰代码。严禁 AI 顺便优化相邻代码,这是防止 Pull Request 规模失控的关键。

4、目标驱动:预先定义成功标准,并进行循环验证。没有明确的终点,AI 要么陷入死循环,要么在任务未完成时过早停止。

5、仅用于判断性任务:让模型负责分类、草拟、摘要和提取。至于路由、重试、状态码处理等确定性逻辑,交给代码本身,而非概率模型。

6、严格遵守Token预算:单次任务建议 4000 token,单次会话 30000 token。当对话过长,AI 会开始反复建议你早已拒绝过的错误方案。

7、暴露冲突而非折中:代码库中存在两种模式?选定一个。AI 试图融合不同风格只会导致错误被双重掩盖,保持一致性是第一优先级。

8、先读后写:要求 AI 必须读取导出文件、调用方和共享工具。否则它会在你已有的功能旁边写出一个完全相同的副本。

9、测试验证意图而非行为:如果业务逻辑改变但测试依然通过,那测试就是失效的。确保测试能够捕捉到逻辑的本质失效,而非仅仅跑通流程。

10、关键步骤设置检查点:每完成一个重要阶段就进行确认。不要在错误的基础上继续构建,否则你会在一小时后才发现底层架构早已崩塌。

11、匹配代码库惯例:保持风格高度统一。如果项目使用 Class 组件,就不要让 AI 默默引入 Hooks,这种隐性冲突会破坏整个测试体系。

12、显性失败:最可怕的 Bug 是显示 成功 却静默跳过了数据。要求 AI 暴露不确定性,严禁隐藏错误,让失败尽可能大声。

这套规则其实是在把 AI 当成一名高级工程师来对待。有网友提到,这就像给新入职的资深开发做 Onboarding,你需要明确告诉他:不要猜测假设,先思考再写代码;保持代码极简,拒绝为了所谓的“未来灵活性”增加冗余;进行手术式修改,只动该动的地方,别去碰相邻的代码。

最容易被忽视的是“检查点”意识。如果第 4 步已经写错了,第 5、6 步就是在错误的基础上不断叠加错误。如果不及时回滚或纠偏,这种错误会像雪球一样滚大。

还有关于测试的警示:如果一个测试在业务逻辑改变时依然能通过,那它就是废纸。有开发者感叹,有些测试甚至能让函数返回一个常量时依然显示通过,这种虚假的信心比没有测试更危险。

与其抱怨模型不够强,不如把那些存在于脑子里的架构规范、命名习惯和工程纪律,显式地写进规则文件里。

x.com/DeRonin_/status/2056300651764711879
00
AI可可AI生活
2天前
【AI模型能力迎来质变,编程领域格局彻底改写】

快速阅读:过去六个月,大语言模型经历了从“辅助工具”到“实战代理”的质变。2025年11月的拐点让编程代理(Coding Agents)跨越了可用性门槛,而本地化模型在性能上的爆发则打破了对算力的垄断。

关于“鹈鹕骑自行车”这个测试,大家可能觉得它荒诞,但它其实是个极佳的压力测试。让模型用 SVG 代码画出一只鹈鹕骑单车,这不仅考察几何理解,更考察逻辑组合。以前这几乎是死题,但现在,Gemini 3.1 甚至能把鱼稳稳放在车筐里。这说明模型已经不再是简单的模式匹配,而是开始理解物理世界的某种“常识”。

真正的分水岭发生在去年11月。

在那之前,编程 AI 像是需要人时刻盯着的实习生,写出来的代码满是补丁。但随着 RLVR(基于可验证奖励的强化学习)的介入,编程代理变了。它们从“偶尔能用”变成了“日常主力”。你不再是逐行改错,而是在进行高层级的架构设计和指令引导。这种转变让开发者的角色从“搬砖工”变成了“监工”或“架构师”。

有趣的是,这种能力的跃迁不仅发生在云端。

本地模型的表现简直是某种程度上的“降维打击”。像 Qwen 3.6 这种不到 21GB 的模型,在笔记本上跑出的效果竟然能让不少闭源旗舰模型感到汗颜。这意味着,即便没有昂贵的 API 额度,只要你有足够的上下文管理能力和合适的工具链(Harness),你也能拥有准一线水平的智能。

现在的分歧点在于:当代码生成的门槛降低,程序员的价值在哪里?

有观点认为,这只是在加速平庸代码的堆积,会让代码库迅速腐烂。但也有人觉得,这释放了人类去处理更本质的难题——比如那些无法通过“感觉”来解决的复杂系统设计。

现在的工具已经不再是简单的自动补全,它们更像是外骨骼。你可以选择让它替你走完枯燥的流程,也可以选择在它失控前精准地接管方向盘。

至于未来,当“编程”本身变得廉价,真正的稀缺品将是那份能定义“什么才是好软件”的判断力。

simonwillison.net/2026/May/19/5-minute-llms/
00