AI可可AI生活的个人主页

即刻App年轻人的同好社区

下载

AI可可AI生活

21关注114被关注0夸夸

微博@爱可可-爱生活，与您共赴美好AI未来！

AI可可AI生活

1天前

【强化学习突破瓶颈：提示词化身隐性奖励，重塑智能体训练逻辑】

快速阅读：强化学习（RL）在处理数学或代码等可验证任务时已趋于成熟，但在处理需要主观判断的智能体（Agent）任务时，奖励信号的缺失成了瓶颈。目前的趋势是利用系统提示词（System Prompt）作为隐式奖励函数，通过大模型作为裁判进行相对评分，从而实现通用任务的自动化训练。

训练智能体最难的不是算法，而是如何给它一个“好坏”的标准。

在数学或代码领域，规则是死的。DeepSeek R1 用 RLVR 证明了：只要结果能被编译器或数学公式验证，模型就能通过“对”与“错”的二元信号，自己悟出推理能力。这很高效，但也仅限于逻辑确定性的领域。

可现实世界大多是模糊的。如果你在训练一个客服智能体或 RAG 系统，没有一个编译器能告诉你一段回复是否“足够得体”或“忠实于上下文”。过去，人们试图用 Python 写复杂的奖励函数，去硬编码什么是“幻觉”、什么是“简洁”。这简直是工程灾难，权重调得稍微不对，模型就会学会为了拿高分而演戏。

现在，大家似乎都在往一个方向走：把系统提示词变成奖励函数。

这有点像把“操作手册”直接交给裁判看。与其写代码去检测回复是否包含特定词汇，不如让一个更强的模型（比如 o3）读一遍系统提示词，然后看一眼智能体生成的几个候选答案，直接给它们排个序。

这种做法聪明在利用了相对评分的逻辑。让裁判说“这个答案比那个好”比说“这个答案得了 0.8 分”要容易得多。这正好契合了 GRPO 这种算法的胃口——它本身就不在乎绝对分数，只在乎这一组样本里谁优谁劣。

有观点认为，这种“系统提示词学习”正在填补强化学习在非确定性任务上的空白。如果提示词变严厉了，裁判的尺度自然会跟着变，整个反馈回路不需要任何一行硬编码的逻辑。

这种范式转移把工程重心从“写判别规则”挪到了“写好指令”上。

既然裁判本身也是模型，那么当智能体进化到一定程度，裁判是否也会随之演进？

x.com/_avichawla/status/2049037299334472015

0 00

AI可可AI生活

1天前

【解锁全新形态，Codex重构计算机工作全新模式】

快速阅读：Codex 正在从单纯的代码助手演变为一套完整的计算机工作系统。通过持久化线程、语音交互、自动化任务以及对浏览器和桌面 GUI 的控制，它不再局限于写代码，而是能接管从信息检索到文档生成的全流程工作。

大多数人对编程智能体的认知还停留在检查仓库、改代码、跑测试、提 PR。这固然是核心，但计算工作的本质远不止于此。

现在的 Codex 更像是一个操作系统。它开始通过浏览器、MCP 服务器、甚至直接操作桌面 GUI 来触达那些原本存在于代码之外的任务。当它能调用 API、处理邮件、甚至在 Slack 里回复消息时，它就不再只是个写代码的，而是一个能把事办成的系统。

有意思的是，这种转变依赖于几个维度的叠加。

首先是“持久化”。普通的对话是一次性的，聊完就散了；但持久化线程像是一个持续运行的工作空间，它能记住之前的决策和偏好。你可以把它看作是一个长期驻留的进程，而不是随用随起的临时脚本。

其次是控制权的精细化。通过语音输入，你可以把脑子里那些还没成型的、模糊的想法直接丢给它，这比敲出完美的文字要自然得多。更有趣的是“转向”和“排队”这两个概念。转向是你在它干活时直接喊停并纠偏，就像在调试器里打断断点；排队则是告诉它：“这件做完后，接着去干那件。”这让用户能始终保持在工作流的环路中。

有观点认为，真正的效率提升来自于“目标”的明确性。一个模糊的指令是无效的，只有设定了可验证的终点——比如“直到单元测试全部通过”——智能体才有了真正的执行力。

最后，这种能力正在向外扩散。通过自动化任务，它可以在你离开座位时，像个影子员工一样每隔半小时巡检一次 Slack 或 Gmail，把准备工作都做完。你回来时，面对的不再是空白，而是已经整理好的上下文。

这种从代码向外扩张的过程，让计算机工作的边界变得模糊了。它不再只是一个工具，而是一个能理解上下文、拥有长期记忆、并能自主推进目标的协作实体。

如果所有的工作都能被转化为指令和自动化流，那人类的角色会变成什么？

x.com/jxnlco/status/2057153744630890620

0 00

AI可可AI生活

1天前

【拒绝Vibe Coding：编程里的摩擦力，才是成长核心】

快速阅读：这篇文章探讨了为何有些开发者拒绝“氛围编程”（Vibe Coding）。核心观点认为，过度依赖 AI 会抹除编程中的“摩擦力”——而这种摩擦力正是理解系统、设计优雅抽象以及保持创造力的关键。

我不玩那种靠“感觉”写代码的游戏。

最近大家都在聊 Vibe Coding，觉得 LLM 会让开发变成一种纯粹的生产力爆发，像思考一样快地交付软件。听起来很美，但我没打算买账。

首先，我本质上是个抠门的人。当一个 IDE 插件提示我额度用尽，要求掏出信用卡才能继续“思考”时，我直接关上了电脑，卸载了它，回到了 Emacs。这种为了维持思维流而进行的持续订阅，在我看来既荒谬又恐怖。

更深层的原因在于，编程不仅仅是在解决“偶然复杂度”（Accidental Complexity），比如写个排序算法或配置环境。真正的挑战在于“本质复杂度”（Essential Complexity）：如何设计出优雅、清晰且可维护的系统。AI 擅长补全代码，但它无法理解为什么要选择这条路径，它无法进行元认知。它就像一个只看字符、不看语境的金鱼，试图用简化的模型去覆盖复杂的现实。

我需要那种“摩擦力”。

学习新框架时的挣扎、阅读陌生代码时的痛苦、架构设计遇到瓶颈时的停顿，这些摩擦力其实是极其重要的信号。它们提醒我：当前的路径可能错了，或者抽象层级不够。如果把这些过程都交给 AI，我不仅会失去对代码的掌控，更会失去通过失败来学习的机会。

有网友提到，这种做法就像是在用“毒品”写代码。AI 带来的那种狂热的、看似高速的产出，往往伴随着极其复杂、臃肿且难以维护的代码结构。它像是一个处于亢奋状态的开发者，写出了大量看似正确但逻辑散乱的东西。

编程对我来说是一种表达，一种在混乱中建立秩序的乐趣。如果把这种创造性的过程完全外包给机器，那我们剩下的只是在管理一群不可控的代理（Agents）。

当开发变成了一场只追求交付速度的竞速赛，我们是否正在失去对技术本质的敬畏？

jacobharr.is/personal/i-dont-vibe-code

0 00

AI可可AI生活

1天前

【Qwen3.7-Max登场，智能体时代核心基座模型来了】

快速阅读：Qwen3.7-Max 正式发布，旨在成为智能体时代的基座模型。它在编程、通用智能体及高难度推理任务上表现出色，甚至在长达 35 小时的自主内核优化实验中，实现了 10 倍的性能提升。

Qwen3.7-Max 来了。

它不再只是个聊天窗口，更像是一个能接手复杂工程的数字员工。在编程智能体测试中，它在 SWE-Pro 等多个维度拿到了领先分数，甚至能像资深工程师一样处理多文件工程。

有意思的是它在“长程任务”上的表现。很多人担心模型跑久了会“断片”或者逻辑漂移，但它在长达 35 小时的自主内核优化实验里，通过上千次工具调用，硬是把一个从未见过的硬件平台算子优化了 10 倍。这种在未知环境里的泛化能力，大概是它最硬核的地方。

有网友提到，现在的模型如果只会“一本正经胡说八道”那是没用的，能说“我不知道”才叫靠谱。Qwen3.7-Max 在设计上更强调这种稳定性，通过强化学习监控奖励作弊，确保它在长周期任务中不会为了完成任务而“投机取巧”。

不过，这种能力也带来了一个现实问题：随着模型越来越像“人”，它对算力的胃口也越来越大。对于想要在本地跑起这种级别的智能体的开发者来说，内存和带宽可能很快会成为新的瓶颈。

它现在通过阿里云百炼提供 API，支持保留思维链，这对于构建复杂的智能体工作流非常关键。

qwen.ai/blog?id=qwen3.7

0 00

AI可可AI生活

1天前

【看懂AI token速度：从拨号上网窘境到人类视觉极限】

快速阅读：LLM 的吞吐量指标（tok/s）往往因缺乏感官体验而难以被理解。本文探讨了从“拨号上网时代”的缓慢到“视觉瓶颈”时代的跨越，揭示了推理速度、预填充速度以及人类视觉处理极限如何共同定义 AI 时代的交互体验。

当你看到“4090 跑出 180 tok/s”这类数字时，大脑其实很难建立直观的体感。

如果把生成速度比作数据传输，我们正处于生成式 AI 的“拨号上网时代”。在本地设备上，3 到 5 tok/s 的速度极其痛苦，甚至比人类打字还慢，但如果你把窗口藏起来去做别的事，它总能准时完成。

有意思的是，速度并不总是正相关的。对于 Agent 而言，60 tok/s 似乎才刚刚达到“不让人烦躁”的门槛。因为 Agent 的工作流里充满了大量的“背景噪音”：工具调用、元数据、还有那让人抓狂的“思考过程（Reasoning）”。

对于那些推理模型，真正的消耗在于“思考”。当模型在输出最终答案前先“思考”了一千个 token 时，你面对的是长达一分钟的转圈等待。这种体验就像是在等待一个极其缓慢的编译器完成预处理。

当速度冲向 800 tok/s 甚至更高时，问题发生了反转。瓶颈不再是算力，而是你的眼睛。人类视觉的精细分辨区域非常小，你无法一眼扫完整个页面，必须通过视线扫描。在极高频率的滚动下，信息的输入速度会直接撞上人类生理的墙。

有网友提到，如果速度快到一定程度，人类甚至无法进行逻辑推理。因为你只能维持一个模糊的意图，根本没法细读。

更有趣的讨论在于预填充（Prefill）与解码（Decoding）的权衡。对于处理长文档的任务，预填充速度决定了你是否需要“原地踏步”；而对于对话，解码速度决定了你是否需要“分心处理”。

我们可能正走向一个全新的计算范式：当硬件能以百万级 tok/s 运行，人类的审查速度将成为整个系统的最慢环节。

mikeveerman.github.io/tokenspeed/

0 00

AI可可AI生活

1天前

【VS Code插件漏洞，撕开供应链安全真面目】

快速阅读：GitHub 内部约 3800 个仓库遭到泄露，起因是一名员工安装了带毒的 VS Code 扩展。这并非简单的插件问题，而是开发者生态中“信任”与“权限”失控的典型案例。

这事儿挺荒诞。GitHub 这种级别的公司，居然被一个 VS Code 扩展给捅了。

黑客 TeamPCP 正在网上叫卖这批代码，起拍价 5 万美元。他们并不想勒索，更像是在搞一场针对大型组织的盲拍。

问题不在于插件本身，而在于 VS Code 的设计逻辑。现在的编辑器就像一个没有沙箱的操作系统，插件拥有几乎等同于用户的权限。一旦你信任了一个看似正规的扩展，它就能像吸尘器一样，悄无声息地把你本地的私钥、Token 和环境变量全部吸走，然后通过看似正常的网络请求传出去。

有网友提到，这其实是开发者在用“交付速度”透支“安全债”。为了用上某个好用的工具，我们默认把系统的控制权交给了远在天边的开发者。

这种风险是结构性的。即便你不用 VS Code，只要你还在使用 npm、PyPI 这种高度依赖第三方包的生态，这种“供应链攻击”就永远存在。

现在的局面是，安全防线像是一层薄纸。黑客不需要攻破 GitHub 的核心架构，只需要搞定一个有权限的开发者终端，就能通过 Git Clone 把整座仓库搬空。

如果插件的权限边界一直这么模糊，我们所谓的“信任”到底是在信任代码，还是在赌运气？

www.bleepingcomputer.com/news/security/github-confirms-breach-of-3-800-repos-via-malicious-vscode-extension/

0 00

AI可可AI生活

1天前

【突破80年数学难题！OpenAI推理模型改写离散几何研究史】

快速阅读：OpenAI 的通用推理模型自主破解了存在 80 年之久的离散几何难题——单位距离问题。这不仅是 AI 首次独立解决数学领域的重大猜想，更通过跨学科的“降维打击”，证明了 AI 具备从现有知识中提取并建立全新逻辑连接的原创能力。

关于“LLM 只是在对训练数据进行插值”的论调，最近被一个数学事实扇了耳光。

大家常说 AI 没有创造力，只是在已有的知识凸包（Convex Hull）里做插值，也就是在已知点之间找过渡。但 OpenAI 的模型刚刚做了一件极其反直觉的事：它推翻了 Erdős 提出的单位距离问题猜想。这个猜想困扰了数学界 80 年，大家一直觉得“方格阵列”就是最优解，结果 AI 甩出了一个完全不同的构造方式。

有意思的是，这个解法不是靠暴力穷举，而是极其优雅地把代数数论里的深奥工具，跨界应用到了几何问题上。这就像是在一个原本以为已经填满的房间里，AI 突然发现了一扇通往新维度的门。

有网友对此讨论得很有深度。有人认为，这种跨领域的“组合创新”本质上就是一种高级的插值，因为工具本身是人类发明的。但也有观点反驳，如果 AI 仅仅是复读机，它怎么可能在没有任何几何学训练的情况下，精准地调用代数数论的“武器库”来解决问题？

这让我想起计算机体系里的指令流水线。如果 LLM 只是简单的查表，它永远无法处理未定义的指令。现在的突破说明，模型内部已经形成了某种程度的“概念表征”，它能通过逻辑链条，在看似无关的知识层级之间进行函数调用。

这并不意味着数学家失业了。相反，当 AI 能在庞大的知识空间里进行高效搜索和路径探索时，人类的价值在于定义那些“值得被解决”的问题，并从 AI 给出的奇异解中，读出背后的真理。

数学的疆域远比我们看到的要大，也许我们之前只是在已知空间的边缘徘徊。

openai.com/index/model-disproves-discrete-geometry-conjecture/

0 00

AI可可AI生活

2天前

【C++之父直言担忧：AI写代码正在透支行业根基】

快速阅读：C++ 之父 Bjarne Stroustrup 对 AI 生成代码表达了深度担忧，认为其带来的漏洞、冗余及验证难题正让资深开发者感到疲惫。这场争论的核心不在于 AI 能否写代码，而在于人类是否还能掌控这些代码。

Bjarne Stroustrup 最近的观点在技术圈激起了不小的水花。他认为 AI 生成的代码目前还无法胜任，不仅会引入更多漏洞和冗余，而且验证过程几乎是灾难性的。甚至有说法称，资深开发者正因为不想应付这些不可控的输出而选择提前退休。

这听起来像是在抵制变革，但本质上是在讨论系统的确定性。

对于构建底层基础设施的人来说，代码不是写出来的，是验证出来的。如果一个微小的提示词变动就能让整个代码库产生不可预测的漂移，那这种生产力就是一种毒药。有网友提到，现在的风险在于：公司裁掉了资深工程师，用 AI 生成了数百万行臃肿的代码，最后发现公司里已经没人能解释这些系统是怎么跑起来的了。

验证成本正在发生结构性转移。生成代码变得廉价，但确保代码安全、可维护且没有隐藏后门，却变得极度昂贵。

当然，也有完全不同的声音。有人认为这只是“技能问题”，优秀的提示工程和严密的单元测试可以解决验证难题。更有开发者直言，如果只是为了写一个爬虫或处理琐碎的任务，追求代码的纯粹性毫无意义，只要它能跑通，效率才是王道。

有趣的是，这种矛盾正在重塑编程的层级。当 AI 像编译器一样工作时，人类的角色正从“编写者”被迫转向“审查者”。如果审查者本身也开始依赖 AI 来检查 AI，那么整个软件工程可能会陷入一种“看起来很完美”的幻觉中。

这种幻觉下，代码质量可能只是在远处看时才显得合格。

x.com/haider1/status/2056487493084799059

1 00

AI可可AI生活

2天前

【掌握这套12条工程规则，直接把Claude错误率从41%压至3%】

快速阅读：Andrej Karpathy 指出 Claude 的错误 90% 源于上下文缺失而非模型能力。通过引入一套结构化的规则文件（如 CLAUDE.md），可以将错误率从 41% 降至 3%。

很多人在用 Claude 时会觉得它不够聪明，但真相可能有些残酷：模型没问题，是上下文丢了。

Andrej Karpathy 提到一个数据：如果没有 CLAUDE.md 这种规则文件，Claude 的错误率高达 41%；但如果遵循这套包含 12 条规则的基准，错误率能直接压到 3%。这说明上下文工程才是真正的技术天花板，而不是盲目追求更大的模型。

12 条核心规则：

1、思考先行：在编码前强制陈述假设。AI 无法读心，不要寄希望于它能自动理解你的潜台词，明确意图是协作的起点。

2、简约至上：追求最少代码，拒绝预测性抽象。任何为了未来灵活性增加的冗余，往往会在下个季度被全部删除。

3、精确修改：手术刀式地触碰代码。严禁 AI 顺便优化相邻代码，这是防止 Pull Request 规模失控的关键。

4、目标驱动：预先定义成功标准，并进行循环验证。没有明确的终点，AI 要么陷入死循环，要么在任务未完成时过早停止。

5、仅用于判断性任务：让模型负责分类、草拟、摘要和提取。至于路由、重试、状态码处理等确定性逻辑，交给代码本身，而非概率模型。

6、严格遵守Token预算：单次任务建议 4000 token，单次会话 30000 token。当对话过长，AI 会开始反复建议你早已拒绝过的错误方案。

7、暴露冲突而非折中：代码库中存在两种模式？选定一个。AI 试图融合不同风格只会导致错误被双重掩盖，保持一致性是第一优先级。

8、先读后写：要求 AI 必须读取导出文件、调用方和共享工具。否则它会在你已有的功能旁边写出一个完全相同的副本。

9、测试验证意图而非行为：如果业务逻辑改变但测试依然通过，那测试就是失效的。确保测试能够捕捉到逻辑的本质失效，而非仅仅跑通流程。

10、关键步骤设置检查点：每完成一个重要阶段就进行确认。不要在错误的基础上继续构建，否则你会在一小时后才发现底层架构早已崩塌。

11、匹配代码库惯例：保持风格高度统一。如果项目使用 Class 组件，就不要让 AI 默默引入 Hooks，这种隐性冲突会破坏整个测试体系。

12、显性失败：最可怕的 Bug 是显示成功却静默跳过了数据。要求 AI 暴露不确定性，严禁隐藏错误，让失败尽可能大声。

这套规则其实是在把 AI 当成一名高级工程师来对待。有网友提到，这就像给新入职的资深开发做 Onboarding，你需要明确告诉他：不要猜测假设，先思考再写代码；保持代码极简，拒绝为了所谓的“未来灵活性”增加冗余；进行手术式修改，只动该动的地方，别去碰相邻的代码。

最容易被忽视的是“检查点”意识。如果第 4 步已经写错了，第 5、6 步就是在错误的基础上不断叠加错误。如果不及时回滚或纠偏，这种错误会像雪球一样滚大。

还有关于测试的警示：如果一个测试在业务逻辑改变时依然能通过，那它就是废纸。有开发者感叹，有些测试甚至能让函数返回一个常量时依然显示通过，这种虚假的信心比没有测试更危险。

与其抱怨模型不够强，不如把那些存在于脑子里的架构规范、命名习惯和工程纪律，显式地写进规则文件里。

x.com/DeRonin_/status/2056300651764711879

1 00

AI可可AI生活

2天前

【AI模型能力迎来质变，编程领域格局彻底改写】

快速阅读：过去六个月，大语言模型经历了从“辅助工具”到“实战代理”的质变。2025年11月的拐点让编程代理（Coding Agents）跨越了可用性门槛，而本地化模型在性能上的爆发则打破了对算力的垄断。

关于“鹈鹕骑自行车”这个测试，大家可能觉得它荒诞，但它其实是个极佳的压力测试。让模型用 SVG 代码画出一只鹈鹕骑单车，这不仅考察几何理解，更考察逻辑组合。以前这几乎是死题，但现在，Gemini 3.1 甚至能把鱼稳稳放在车筐里。这说明模型已经不再是简单的模式匹配，而是开始理解物理世界的某种“常识”。

真正的分水岭发生在去年11月。

在那之前，编程 AI 像是需要人时刻盯着的实习生，写出来的代码满是补丁。但随着 RLVR（基于可验证奖励的强化学习）的介入，编程代理变了。它们从“偶尔能用”变成了“日常主力”。你不再是逐行改错，而是在进行高层级的架构设计和指令引导。这种转变让开发者的角色从“搬砖工”变成了“监工”或“架构师”。

有趣的是，这种能力的跃迁不仅发生在云端。

本地模型的表现简直是某种程度上的“降维打击”。像 Qwen 3.6 这种不到 21GB 的模型，在笔记本上跑出的效果竟然能让不少闭源旗舰模型感到汗颜。这意味着，即便没有昂贵的 API 额度，只要你有足够的上下文管理能力和合适的工具链（Harness），你也能拥有准一线水平的智能。

现在的分歧点在于：当代码生成的门槛降低，程序员的价值在哪里？

有观点认为，这只是在加速平庸代码的堆积，会让代码库迅速腐烂。但也有人觉得，这释放了人类去处理更本质的难题——比如那些无法通过“感觉”来解决的复杂系统设计。

现在的工具已经不再是简单的自动补全，它们更像是外骨骼。你可以选择让它替你走完枯燥的流程，也可以选择在它失控前精准地接管方向盘。

至于未来，当“编程”本身变得廉价，真正的稀缺品将是那份能定义“什么才是好软件”的判断力。

simonwillison.net/2026/May/19/5-minute-llms/

0 00