BestBlogs 早报 · 05-24
# Project Glasswing / Skill 反直觉 / DeepSeek Harness / Context Engineering / Multi-Agent
[1] ★ 精讲|快模型需要慢开发者:超高速 AI coding 时代的工程纪律 [视频]
Cerebras 与 OpenAI 联合开发的 Codex Spark 可达每秒 1,200 tokens——传统推理速度的约 20 倍。Sarah Chieng 论证,速度越快反而要求开发者越慢:需实时监督、每次 agent 运行后即刻微验收测试,并用持久上下文文件保持上下文完整性。高速 AI coding 的核心纪律不是「相信模型」,而是「信任但验证」。
来源:AI Engineer
www.bestblogs.dev[2] ★ 精讲|Claude Mythos 护网计划:一月发现超 1 万个高危漏洞
Anthropic 联合约 50 家合作伙伴,用 Claude Mythos Preview 在一个月内发现超过 10,000 个高危或严重漏洞——Cloudflare 一家就找到 2,000 个,假阳率低于人工测试员。开源代码扫描超 1,000 个项目,估算 6,202 个高危漏洞。修补瓶颈已从「发现」转移到「修补」:安全 patch 的生产速度正在超过人类的核查与部署能力。
来源:Anthropic Research
www.bestblogs.dev[3] ★ 精讲|我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论
腾讯玄武实验室用 150 组对照实验评测 30 个 AI Skill,结果令人意外:Skill 组仅以 41.3% vs 36.7% 微弱领先裸模型,且 token 消耗平均增加 48%、耗时增加 19%。还有「虹吸」现象:13.3% 本应不触发 Skill 的请求被错误召回。有效 Skill 的共同特征是提供外部工具或约束性输出结构,而非只对模型现有能力做 Markdown 包装。
来源:腾讯科技
www.bestblogs.dev[4] Multi-Agent 火了,但 AI 的组织病还没人治|Hao 好聊趋势
本文深入剖析了多智能体系统在工程架构(Harness)成功解决外部协作问题后,内部浮现的群体认知病与个体解离病,指出当前主流对齐技术可能加剧而非解决这些深层问题。
来源:腾讯科技
www.bestblogs.dev[5] 会记忆的智能体:Memory Stores 与 Dreaming 如何支撑长期上下文 [视频]
这场 workshop 介绍 Anthropic 的 Agent Memory Stores 与 Dreaming,展示如何用文件系统式记忆和后台整理任务实现跨会话连续性。
来源:Claude
www.bestblogs.dev[6] [AINews] 所有模型实验室都变成了智能体实验室
本期 AI 新闻回顾涵盖了行业从模型实验室向智能体实验室的转变,OpenAI、AI21 和 DeepSeek 纷纷转向智能体产品,同时还有重大的定价变动、协议更新和研究突破。
来源:Latent Space
www.bestblogs.dev[7] C++之父开撕 AI Coding:资深开发者宁愿退休也不愿伺候 AI 生成的代码
C++ 之父 Bjarne Stroustrup 在播客中尖锐批评 AI 生成代码的质量与验证难题,并系统回顾了 C++ 语言的设计哲学、标准化历程与工程实践。
来源:InfoQ 中文
www.bestblogs.dev[8] Google Anti-gravity 2.0:以智能体为中心的开发平台和 OS 演示 [视频]
Google Anti-gravity 2.0 被定位为智能体优先的开发平台,由 Gemini 3.5 Flash 协调子智能体、hooks、异步任务和大型自动编码流程。
来源:Google
www.bestblogs.dev[9] 模型之外,皆属 Harness!DeepSeek 终于出手:招人、组队、从零造一个中国版 Claude Code
DeepSeek 组建 Harness 团队,从零构建对标 Claude Code 的代码智能体产品,标志着 AI 编程竞争从模型层转向模型外层的工程系统。
来源:AI 前线
www.bestblogs.dev[10] Context Engineering:AI Agent 上下文工程的完整指南
本文系统梳理了 AI Agent 上下文工程(Context Engineering)的完整方法论,涵盖上下文腐烂机制、四大核心策略(写入、选择、压缩、隔离)、四种失败模式及主流平台实践对比。
来源:王俊博客
www.bestblogs.devBestBlogs Pro 早鸟内测开放:关注你感兴趣的来源、配置兴趣标签,每天收到一份属于自己的「我的早报」。欢迎体验,把反馈发回给我们:
bestblogs.dev---
BestBlogs.dev · 发现真正适合你的高质量内容