BestBlogs 早报 | 2026-04-24
# GPT-5.5 / OpenAI 大重置 / Claude Code 质量 / Agentic Engineering / Agent Mode GA
[1] OpenAI 正式发布 GPT-5.5:百万上下文,终端基准夺回前沿王座
今日头条:OpenAI 在 4 月 23 日发布 GPT-5.5,这是首个支持 1M token API 上下文的前沿模型,也是 ChatGPT 和 Codex 的新默认模型。官方基准表格里,GPT-5.5 在 Terminal-Bench 2.0 拿到 82.7%(GPT-5.4 75.1%、Claude Opus 4.7 69.4%、Gemini 3.1 Pro 68.5%),GDPval 胜平率 84.9%,FrontierMath Tier 4 35.4%,OSWorld-Verified 78.7%。更关键的是它保持了和 GPT-5.4 持平的 per-token 延迟,同时在 Codex 任务上使用显著更少的 token,真正兼顾了智能跃升和服务成本。发布配套 200 家早期伙伴红队评测和 cybersecurity / biology 专项测试,Plus / Pro / Business / Enterprise 计划先推,API 稍后跟上。
来源:OpenAI Blog|评分:95
www.bestblogs.dev[2] Core Memory EP67:Altman 与 Brockman 首次联合上播客,讲清「OpenAI 的大重置」 [视频]
精讲:Ashlee Vance 和 Kylie Robison 在 Core Memory EP67「The Great Reset At OpenAI」请来 Sam Altman + Greg Brockman,这是两人多年来首次一起上播客。Greg 几周前重新接管产品,这期是公开的战略重述:Sora 被砍、Social Network 关停、聚焦 Agent 基础设施 + Codex 面向全民。Greg 把大模型比作「大脑」、把产品层比作「身体」,强调「模型从产品之上的薄软件层变成厚软件层」;Sam 直接给出两个未来情景——底线抬升 10 倍 + 约 10 位万亿富翁(不平等加剧),或者繁荣缩减 + 不平等较低,并明言 OpenAI 会亲自造机器人包括执行器,因为「美国除了 AI 加机器人没有第二条赶超路径」。Techmeme 概要还透露他们谈到 Anthropic 对 Mythos 的「fear-based marketing」。如果你想读懂今天 OpenAI 系列发布背后的长期逻辑,这 90 分钟不能跳。
来源:Core Memory Podcast|评分:94
www.bestblogs.dev[3] Anthropic 公开 Claude Code 三个 bug 根因复盘,4-20 全部修复并重置订阅额度
精讲:过去一月「Claude Code 变笨」的投诉被追溯到三件独立事件,Anthropic Engineering 官方罕见地公开全部根因:一、3-4 把默认 reasoning 从 high 降到 medium 减少 UI 冻结感,用户反馈变笨后 4-7 回滚,Opus 4.7 现在默认 xhigh,其他模型默认 high;二、缓存 bug——本应一次性清理的 thinking history 被每轮都清一遍,导致健忘、重复、工具选择奇怪;三、4-16 Opus 4.7 发布当日加的 25/100 词冗余上限,后续消融测试证实让编码质量掉了 3%。三个问题都在 4-20(v2.1.116)修复,4-23 给所有订阅用户重置使用额度作补偿。在 OpenAI 密集发布的同一天公开复盘 + 真金白银赔付,这种透明度和 OpenAI 的产品侧节奏形成了今天最有张力的对照。
来源:Anthropic Engineering|评分:92
www.bestblogs.dev[4] 腾讯云开发者:从第一性原理思考 Agentic Engineering 的工程纪律
入选:作者把 Agentic Engineering 定义为「工程师与 Agent 深度协作,但最终判断权在工程师」——明确和 vibe coding(不审查 diff、凭直觉接受输出)划清界限,强调 Engineering 的本质是约束优化。全文从第一性原理演绎出 SDLC workflow + best practices + self-refinement,方法论已经落地为 agentic-engineering-framework 开源项目。在今天的 GPT-5.5 + Codex 浪潮里,这篇是难得的理论深度文。
来源:腾讯云开发者|评分:93
www.bestblogs.dev[5] YC 总裁 Garry Tan 公开 Claude Code 日常工作流:并发测试与对抗式设计评审 [视频]
入选:Garry Tan 公开自己开源的 GStack,把 Claude Code 变成「全能 AI 工程团队」——用 YC Office Hours 模式逐轮打磨想法、Design Shotgun 做对抗性设计评审、并行开 Playwright/Chromium 自动测试实现单人开发。Garry 说软件开发门槛正在急剧降低,「现在是 make something people want 最好的时刻」。搭配今天 OpenAI Codex 的更新看,能完整感受前沿玩家是怎么用 Agent 重组个人生产力的。
来源:Y Combinator|评分:93
www.bestblogs.dev[6] Lenny 对话 Cat Wu:Anthropic 把 Claude Code 发布周期从 6 个月压到 1 天 [视频]
入选:Anthropic Claude Code 产品负责人 Cat Wu 拆解 AI 原生产品开发之道——团队把发布周期从传统的 6 个月压缩到 1 天,PM 角色向「产品品味」和「自动化专家」转型;她也正面回应了源码泄露、订阅策略调整等争议。配合今天 Anthropic 质量复盘一起看,能理解为什么他们既能快到 1 天发布、也会因为快而出三个同期 bug。
来源:Lenny's Podcast|评分:92
www.bestblogs.dev[7] Latent Space 现场盘点欧洲 AI 工程大会:Agent Labs 押注下一轮竞争的四大变量
入选:swyx 在 Latent Space 写的 AIE Europe 2026 现场 debrief,串联欧洲 AI 工程师大会的关键 session,加上 Agent Labs 的 thesis——他提出 Agent 领域下一轮竞争的四个核心变量。是把今天 OpenAI / Anthropic 各自发布放回「行业地图」的一篇索引长文。
来源:Latent Space|评分:92
www.bestblogs.dev[8] 纳德拉宣布 Office Copilot 智能体模式正式商用,全线计划默认开启
入选:微软 CEO Satya Nadella 在推特宣布 Microsoft 365 Copilot 的 Agent Mode 正式 GA(商用落地)——不再是预览,所有 Copilot 计划默认开启 Agent 模式。叠加今天 OpenAI Workspace Agents 研究预览,巨头企业 Agent 战场从「发不发」转入「谁的集成生态更好用」。
来源:Satya Nadella(@satyanadella)|评分:91
www.bestblogs.dev[9] Pragmatic Engineer:Meta 单月烧 60 万亿 Token,内部「Token Legend」排行榜被舆论骂到下架
入选:Gergely Orosz 独家报道 Meta 8.5 万员工在 30 天内用掉 60.2 万亿 tokens,按 Anthropic API 原价约 9 亿美元、折扣后仍达 1 亿美元量级。Meta 内部上线了把员工按 token 用量排名的「Session Immortal / Token Legend」排行榜——随后报道流出,Meta 在媒体曝光 24 小时内下架该排行榜。硅谷新型炫耀性消费「tokenmaxxing」的第一份实证记录。
来源:The Pragmatic Engineer|评分:90
www.bestblogs.dev[10] 腾讯研究院《AI Coding 观察报告 2.0》:丰饶之后,AI Coding 进入下半场
入选:腾讯研究院 AI 透镜系列的 2.0 版本,把 AI Coding 从「效率工具」重新定位为「软件生产要素」——覆盖开发范式、组织形态、产品落地的系统性观察。相较 1.0 版本,2.0 更关注「丰饶之后」的治理与分工问题,对国内工程团队做选型参考值得一读。
来源:腾讯研究院|评分:90
www.bestblogs.dev---
BestBlogs.dev - 遇见更好的技术阅读