即刻App年轻人的同好社区
下载
App内打开
ginobefun
221关注117被关注0夸夸
中年程序员
两个萌娃的爹
ex 华为、阿里,现金融行业
喜欢折腾点有意思的事情
ginobefun
09:14
BestBlogs 早报 · 05-20

# Google I/O 2026 / Gemini 3.5 / Antigravity CLI / WebMCP / Karpathy 加入 Anthropic

[1] ★ 精讲|Google I/O 2026 开发者主题演讲全览
Google I/O 2026 把过去一年的 AI 押在「智能体」上:Gemini 3.5 系列模型登场,Antigravity 2.0 和全新 Antigravity CLI 让一个开发者就能调度多个子智能体并发处理工作流,内建跨平台终端沙箱、凭据掩码与 Git 策略;Android CLI 把 Android Studio 的能力封装成任意 LLM 都能调用的工具,WebMCP(Chrome 149 起 Origin Trial)让浏览器内智能体直接消费网页结构化能力。比起任何一条单独的模型 / 产品,更值得关注的是 Google 这次把「构建—运行—交付智能体」整条工程链路一次性补齐。
来源:Google Developers Blog
www.bestblogs.dev

[2] ★ 精讲|Karpathy 重返一线研发:宣布加入 Anthropic
Karpathy 在 X 上官宣加入 Anthropic,是近一两年最具信号意义的 AI 人才流动。从 OpenAI 创始成员、特斯拉 AI 总监,到独立做 nanoGPT 与 zero-to-hero 教学的「学者—工程师」代表,他选择重返前沿研发岗位本身就是对 Anthropic 未来几年 LLM 路线最强的背书;同时他强调会继续教育方向的投入,意味着头部 AI 公司开始为「长期影响力型研究者」预留位置,而不是把高杠杆人才当成纯生产资源消耗。可以预期未来几个季度其他实验室的招聘与研究文化都会被这条信号轻微改写。
来源:Andrej Karpathy(@karpathy)
www.bestblogs.dev

[3] ★ 精讲|Claude Managed Agents 新功能:自托管沙箱与 MCP 隧道 | Claude
Anthropic 把 Managed Agents 推向真正的企业级形态:自托管 Sandbox(公测)让工具执行落在企业自己的基础设施,或落到 Cloudflare、Daytona、Modal、Vercel 这类合作 Sandbox,仅把 agent loop 留在 Anthropic 侧;MCP Tunnels(研究预览)让智能体通过单条出向连接安全访问内网 MCP 服务器、内部数据库与工单系统,不再需要把内网 API 暴露公网。这两件事拼出了 enterprise agent 商业化的两块关键拼图:「在企业安全边界内执行任务」与「合规连接私有数据」。
来源:Claude Blog
www.bestblogs.dev

[4] 面向编码智能体的可维护性传感器
本文探讨了如何通过为 AI 编码智能体提供自定义指导的静态代码分析传感器,借助快速反馈和智能体自我纠正能力,来维护代码库的可维护性。
来源:Martin Fowler
www.bestblogs.dev

[5] 别构建垃圾:AI 智能体成熟度的四个层级 [视频]
Cline 的 Ara Khan 提出一套务实的四级 AI 智能体成熟度框架,涵盖状态机建模、精简提示词、伪强化学习管线、架构纪律与前沿 API 行为等五条核心工程准则。
来源:AI Engineer
www.bestblogs.dev

[6] 让 Skill 自己训练自己:8 阶段 Loop、3 层评测、5 维 AND 门控,从此实现自进化
本文提出并实现了一个名为 skill-evolver 的自进化框架,通过融合 Karpathy autoresearch 的外循环、Anthropic skill-creator 的评测引擎和 Stanford Meta-Harness 的 trace 诊断思想,让 AI Skill 能够像训练模型一样自主迭代、评测、回滚和选优,并以 19 轮零回滚的自我进化和真实业务场景验证了其可行性。
来源:腾讯云开发者
www.bestblogs.dev

[7] Project Glasswing:Mythos 漏洞研究模型给我们的启示
Cloudflare 分享了使用 Anthropic 的 Mythos Preview 模型进行漏洞研究的经验,强调了该模型在漏洞链利用和 PoC 生成方面的能力,同时指出需要专门的工具来管理噪音并扩展流程。
来源:The Cloudflare Blog
www.bestblogs.dev

[8] 使用 LiteRT-LM 实现超快速的端侧 GenAI
LiteRT-LM 是 Google 用于在端侧部署 Gemma 4 的跨平台运行时,通过 GPU/NPU 加速、多 Token 预测和高级会话管理,提供了业界领先的性能。
来源:Google Developers Blog
www.bestblogs.dev

[9] LLM 时代的个性化推荐:Spotify 生成式推荐引擎的三大技术支柱 [视频]
Spotify 技术负责人详解如何以统一 LLM 驱动的生成式推荐引擎取代碎片化的传统推荐流水线,核心支撑三大支柱:用户基础嵌入、语义 ID 目录分词与软分词实时个性化。
来源:AI Engineer
www.bestblogs.dev

[10] 五分钟回顾 LLM 的最近六个月
Simon Willison 在 PyCon US 2026 上的闪电演讲总结了 LLM 最近六个月的发展,重点指出 2025 年 11 月是一个转折点,编码智能体变得可靠实用,本地模型的表现也开始远超预期。
来源:Simon Willison's Weblog
www.bestblogs.dev

BestBlogs Pro 早鸟内测开放:关注你感兴趣的来源、配置兴趣标签,每天收到一份属于自己的「我的早报」。欢迎体验,把反馈发回给我们:bestblogs.dev

---
BestBlogs.dev · 发现真正适合你的高质量内容
00
ginobefun
2天前
BestBlogs 早报 | 2026-05-19

# Composer 2.5 / Kimi K2.5 / 长时间 Agent / Generator-Evaluator / AI 生码率

[1] Cursor 发布 Composer 2.5:基于 Kimi K2.5 的智能升级
Cursor 发布 Composer 2.5,基于 Moonshot Kimi K2.5 开源 checkpoint,引入 textual feedback RL(在 rollout 关键节点插入文本提示作教师信号)+ 25 倍合成任务规模。新模型显著提升长任务持续工作能力和指令遵循度,价格 0.50/2.50 美元每 M token,首周双倍额度。同时联合 SpaceXAI 用 Colossus 2 训练新一代模型 —— 交付节奏正在从产品迭代切换到模型迭代。
来源:Cursor Blog|评分:93
www.bestblogs.dev

[2] 构建能持续运行数小时的智能体:Anthropic 工程师揭秘对抗式生成 - 评估架构 [视频]
Anthropic Applied AI 团队 Ash Prabaker 和 Andrew Wilson 在 AI Engineer 大会拆解长时间 Agent 工程:长 session 三大失败是 context rot、规划缺陷、输出 sycophancy。最佳实践是类 GAN 的 generator-evaluator 对抗架构 —— 宏观规划器、代码生成器、Playwright 视觉评审器通过磁盘 markdown 协商契约。Opus 3.7 的 1 小时被 Opus 4.6 的 12 小时取代,6 小时连续会话能造出带物理引擎的游戏。核心结论:self-evaluation 是 trap,必须独立 critic。
来源:AI Engineer|评分:93
www.bestblogs.dev

[3] CIO 正在抛弃 AI 生码率:一场关于什么才算产研提效的实践复盘
阿里云 CIO 蒋林泉 2026 财年硬数据:前端人均有效代码量翻 3 倍、后端翻 2 倍,千行代码缺陷率前端降 30%、后端降 55% —— 但他从开始就拒绝把「AI 生码率」纳入考核。理由:编码只占软件工程 20% 时间,AI 生码率衡量的恰好是「最容易被替代、价值密度最低」那一段。给企业的两个判断:「代码一定是负债,可能是资产」「Vibe Coding 不直接上生产,要用 AI 辅助的软件工程」。
来源:InfoQ 中文|评分:92
www.bestblogs.dev

[4] 重新定义 Skill 开发:保姆级教程&一站式开发助手发布
本文系统介绍了 AI Agent Skill 的概念、目录结构、编写规范、发布流程和跨平台痛点,并发布了一站式 Skill 开发助手 skill-dev-aio,旨在将开发者从繁琐的工具学习中解放出来,聚焦于体验和判断。
来源:阿里云开发者|评分:93
www.bestblogs.dev

[5] RAG 全链路技术详解
本文从实战角度系统拆解了 RAG 全链路核心技术,涵盖文档加载、智能切分、索引构建、检索优化、生成调优、Graph RAG 进阶及 Ragas 自动化评估体系,强调可测、可调、可信赖的工程化实践。
来源:大淘宝技术|评分:92
www.bestblogs.dev

[6] 从 0 开发大模型的 17 种 Agent 架构演进详细拆解
本文从控制流设计的角度,系统拆解了从单次生成到多 Agent 协作的 17 种 Agent 架构演化路径,并用 agno 框架给出了每种架构的代码实现。
来源:腾讯技术工程|评分:92
www.bestblogs.dev

[7] 深入探索 MCP 与 Spring AI:从协议核心到企业级生产部署全链路指南 [视频]
本视频对 Model Context Protocol(MCP)与 Spring AI 的集成进行了全面的技术深度讲解,涵盖工具调用、资源管理、提示词、OAuth 安全、水平扩展及上下文优化策略,适用于企业级生产环境落地。
来源:Spring I/O|评分:92
www.bestblogs.dev

[8] AI 收入集中度创新高:Anthropic 与 OpenAI 吞下 89% 份额
The Information 最新数据显示,Anthropic 与 OpenAI 两家公司占据了 34 家头部 AI 初创公司近 800 亿美元年化收入的 89%,AI 商业化正加速走向赢家通吃的格局。
来源:腾讯科技|评分:89
www.bestblogs.dev

[9] Anthropic 创始人手册:AI Native 公司,正在把「几个人做几百人的事」变成现实
Anthropic 发布的创始人手册系统阐述了 AI Native 创业公司的四阶段生命周期,核心观点是 AI 降低了创业门槛,但创始人的判断力取代执行力成为最稀缺的能力。
来源:AINLP|评分:88
www.bestblogs.dev

[10] Anthropic 收购 Stainless:整合 SDK 与 MCP 服务器平台
Anthropic 宣布收购 Stainless,这家 SDK 和 MCP 服务器平台自其 API 早期阶段就为所有 Anthropic SDK 提供支持。
来源:Anthropic(@AnthropicAI)|评分:88
www.bestblogs.dev

BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
10
ginobefun
4天前
BestBlogs 早报 | 2026-05-17

# ChatGPT 理财 / 智能体控制平面 / 新时代的产品 / LLM 架构 / 机器人数据

[1] 当软件容易被创作,新时代的产品长什么样? | 对谈 Albert [播客]
42 章经再次对话连续创业者 Albert:Opus 4.6 之后,团队跑了几十个新产品却大多没过发布门槛,直到 merging.live 面世。Albert 的核心判断——「智能不是最 high level 的价值」。当模型厂商正在收割大部分商业价值,真正的机会在于为新 maker 群体提供「回响」:人人都能做产品之后,稀缺的是专注与情感连接,而不是功能本身。节目还聊到未来软件如何像泡泡玛特一样出现品牌溢价,和一级市场的变局。
来源:42章经|评分:92
www.bestblogs.dev

[2] Claude 的下一个企业战场不是模型:而是智能体控制平面
VentureBeat 对企业 AI 编排平台的首次系统调查显示,微软以 38.6% 份额领跑,OpenAI 以 25.7% 位居第二,Anthropic 从零起步跃至 5.7%,首次出现在企业智能体编排赛道。文章指出下一场竞争并不在模型基准,而在谁掌控「智能体控制平面」——智能体规划、调用工具、访问数据、运行工作流并向安全团队证明合规的基础设施层。
来源:VentureBeat|评分:91
www.bestblogs.dev

[3] ChatGPT 中的全新个人理财体验
OpenAI 面向美国 Pro 用户推出 ChatGPT 个人理财功能:通过 Plaid 安全连接超过 1.2 万家金融机构,自动分类支出并生成可视化仪表盘,涵盖投资组合表现、订阅和待付账单。每月已有逾 2 亿人用 ChatGPT 咨询预算和投资;配合 GPT‑5.5 的推理能力,这次更新将通用建议升级为基于真实账户的个性化财务规划。这是 OpenAI 迄今最明确地向高信任垂直领域进军的一步,也是 ChatGPT 从对话工具向「个人 CFO」转型的关键节点。
来源:OpenAI Blog|评分:89
www.bestblogs.dev

[4] 用 AI Agent 构建软件:畅想 Token 无限量时代的未来
Peter Steinberger 详细介绍了支撑 OpenClaw 项目的庞大 AI Agent 自动化体系,并展望了一个由廉价、充足的 AI Token 所驱动的软件开发未来。
来源:Peter Steinberger 🦞(@steipete)|评分:92
www.bestblogs.dev

[5] LLM 架构最新进展:KV 共享、mHC 与压缩注意力
本文深入技术分析了最新 LLM 架构创新,这些创新聚焦于长上下文效率,包括 Gemma 4 中的 KV 共享、逐层嵌入、Laguna XS.2 中的逐层注意力预算分配,以及 ZAYA1-8B 中的压缩卷积注意力。
来源:Ahead of AI|评分:91
www.bestblogs.dev

[6] Anthropic 教会了模型懂道德,也打通了一条蒸馏你的新路|Hao 好聊论文
本文深度解读 Anthropic 的《Teaching Claude Why》论文,分析其通过「审议式 CoT + 宪法框架」的 SFT 方法实现模型道德泛化,并论证该方法可推广为 RLVR 之外非标准答案领域的通用后训练范式,开启「大蒸馏时代」。
来源:腾讯科技|评分:90
www.bestblogs.dev

[7] 走进数采工厂:深聊机器人数据荒漠、四层金字塔与种树人
本文深入探讨了机器人领域面临的数据荒漠问题,系统性地提出了机器人数据的四层金字塔结构(真机遥操数据、仿真合成数据、动捕数据、互联网视频),并分析了各层数据的优劣、成本与行业实践,以及中美公司在数据策略上的差异化选择。
来源:硅谷101|评分:90
www.bestblogs.dev

[8] OpenAI 世纪审判走到结案,我们梳理了最核心的几个问题
本文系统梳理了马斯克诉 OpenAI 案的核心法律争议,包括慈善信托义务是否存在、高管是否不当得利、微软是否协助违反信托,以及诉讼时效这一关键防线。
来源:腾讯科技|评分:90
www.bestblogs.dev

[9] 40 亿美金 Box CEO Aaron Levie:现在是创立 AI 公司的最佳时机 [视频]
Box CEO Aaron Levie 认为,AI 为创业者打开了一个大约三年的窗口期,要抓紧在数据驱动的网络效应封死护城河之前,去做垂直 AI、Agent 基础设施和服务类公司。
来源:Silicon Valley Girl|评分:90
www.bestblogs.dev

[10] 递归语言模型:一次全面的深度剖析
本文深入剖析了递归语言模型(RLM),解释了其架构、与 ReAct、CodeAct 及基于子智能体方法的区别,以及它如何通过引用传递和持久化 REPL 环境在长上下文任务中表现出色。
来源:Towards Data Science|评分:89
www.bestblogs.dev

BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
10
ginobefun
5天前
BestBlogs 早报 | 2026-05-16

# AI 工程方法 / Abridge / Imagen 2.0 / Kimi WebBridge / DeepSeek-V4 MegaMoE

[1] 将 AI 用作大规模工程系统的思考伙伴
Google 高级 Staff 工程师 Julie Qiu 在 InfoQ 分享:她带的 gcloud CLI 团队要维护九种语言的客户端库,是个跨多仓库、多语言的复杂工程系统。她把 AI 当成一个能问问题、能一起做实验的伙伴,分三步:先读懂系统、再做实验,最后重新设计。最有用的不是让 AI 写代码,而是把每次「我应该这样改吗」的犹豫时间,从几天压到几小时。一份真正在用 AI 做事的资深工程师实操总结。
来源:InfoQ|评分:92
www.bestblogs.dev

[2] AI 原生医疗:Abridge 一年 8000 万次就诊、为医生每周省 10-20 小时
Abridge 成立于 2018 年,比 ChatGPT 早四年起步,安安静静做医疗里最难的一件事——医生和病人之间的对话。今年预计支持 8000 万次问诊,覆盖美国 250 家医院、28 种语言、50 多个专科;2025 年 6 月完成 3 亿美元 E 轮、估值 53 亿美元。Janie Lee 和 Chai Asawa 讲了从环境记录扩展到临床智能层的过程:环境抄写帮医生每周省 10-20 小时,预授权从几周缩到几分钟,把 EHR 当成医疗 Agent 的文件系统。
来源:Latent Space|评分:92
www.bestblogs.dev

[3] OpenAI Imagen 2.0 深度解析:文字渲染、多语言支持与创意 Agent 路线图 [视频]
OpenAI Podcast 第 19 期:产品负责人 Adele Lee 和研究员 Kenji 聊 Imagen 2.0 上线后看到的反馈。使用量增长 50%,每周生成约 15 亿张图;三个具体改进——字渲染更准、多语言原生支持、写实感更强。「网格测试」从画几个物体扩到能一次性管好 100 个对象,让模型在做生物图、做幻灯片这类场景里真的可用。路线图也比较克制:Creative Agents 慢慢学用户偏好,再把 Imagen 和 Codex 串起来,让视觉概念和实现它的代码在同一个回合里出来。
来源:OpenAI|评分:92
www.bestblogs.dev

[4] Kimi WebBridge:让 AI 帮你操作浏览器
Kimi 推出 WebBridge 浏览器插件,让 AI Agent 能像用户一样操作浏览器,实现网页自动化任务。
来源:月之暗面 Kimi|评分:92
www.bestblogs.dev

[5] [AINews] 万物皆向 Conductor 看齐
本期 AINews 分析了 AI 编程工具围绕“智能体优先”形态的融合趋势,涵盖 GitHub 新版 Copilot App、OpenAI Codex 移动端发布、Claude Code 引发的争议,以及智能体基础设施、机器人和开源模型的关键进展。
来源:Latent Space|评分:91
www.bestblogs.dev

[6] DeepSeek-V4 MegaMoE 拆解:通信计算重叠把性能提到 1.9 倍
本文深入分析了 DeepSeek-V4 中 MegaMoE 的细粒度专家并行方案,详细解读了其通过通信计算重叠和流水线调度实现 1.5~1.9 倍性能提升的底层实现原理。
来源:zartbot|评分:90
www.bestblogs.dev

[7] Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么?
本文深入解析了 Forward Deployed Engineer(FDE)这一 AI 时代新兴岗位的职责、历史渊源、行业动态和职业前景,并对比了 OpenAI、Anthropic 和 Google 三家巨头在 FDE 布局上的不同策略。
来源:宝玉的分享|评分:90
www.bestblogs.dev

[8] 腾讯混元推出轻量翻译大模型,无需联网,手机直接运行
腾讯混元推出极致量化压缩的翻译模型 Hy-MT1.5-1.8B-1.25bit,将支持 33 种语言的翻译模型压缩至 440MB,可在手机本地离线运行,翻译质量优于谷歌翻译。
来源:腾讯技术工程|评分:90
www.bestblogs.dev

[9] 警惕全球“最大”芯片 IPO 的暴雷风险
本文深度拆解了 AI 芯片公司 Cerebras 的 IPO 招股书,揭示了其晶圆级芯片的技术真相、与 OpenAI 的“股权换订单”合同结构,以及 39% 毛利率背后的会计幻觉,警示投资者警惕其暴雷风险。
来源:腾讯科技|评分:90
www.bestblogs.dev

[10] 普华永道正在部署 Claude,为客户构建技术、执行交易并重塑企业职能
Anthropic 与普华永道正在扩大战略联盟,将 Claude 部署到普华永道的全球员工队伍中,目标是在智能体技术构建、AI 原生交易执行和职能重塑方面实现企业转型,其实际部署已显示出高达 70% 的交付效率提升。
来源:Anthropic News|评分:90
www.bestblogs.dev

BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
00
ginobefun
6天前
BestBlogs 早报 | 2026-05-15

# Claude Code / GPT-Realtime-2 / 大型代码库 / AI生产力转型 / Codex

[1] Claude Code 在大型代码库中的运作方式:最佳实践与入门指南 | Claude
Anthropic 官方深度指南,面向百万行级大型代码库。核心洞察:「Harness 和模型同等重要」——五大扩展点(CLAUDE.md / Hooks / Skills / Plugins / MCP)加上 LSP 与子智能体共同决定实际表现。关键建议:用 LSP 实现符号级导航,子智能体解耦探索与编辑;每 3-6 个月随模型迭代更新配置,避免旧规则约束新能力。大型组织正出现「Agent Manager」这一新兴职能。
来源:Claude Blog|评分:93
www.bestblogs.dev

[2] Build Hour 深解 GPT-Realtime-2:语音 Agent 如何从聊天迈向「语音→行动」 [视频]
OpenAI Build Hour 围绕 GPT-Realtime-2 展开深度解析:三款音频模型协同工作——Real-time Translate 支持 70+ 语言输入,Real-time Whisper 最低延迟 200ms,GPT-Realtime-2 带来 GPT-5 级推理与 128k 上下文(4 倍扩展),支持「前导语」缓冲和逐轮 VAD 控制。Sierra 实测对比传统级联系统延迟降低 30-200%,语音 Agent 正从聊天界面跃升为自主「语音→行动」工作流。
来源:OpenAI|评分:92
www.bestblogs.dev

[3] AI 让生产效率不再是瓶颈,然后呢?|AI 跃迁者调研 02-flomo 少楠
flomo/幕布联合创始人少楠分享:16 人团队 70-80% 代码由 AI 贡献,开发周期从按月压到按小时。真正的瓶颈随即浮现——产品经理效率反而下降,因为能直接证伪想法,许多需求被枪毙。核心判断:AI 没有带来能力平权,只有原来优秀的人变得更优秀;协作方式重构才是最大挑战,不是工具本身。
来源:腾讯研究院|评分:92
www.bestblogs.dev

[4] 164: 当 AI“杀死”SaaS,与明略吴明辉聊多 Agent 网络、软件业转型和 AI 新组织 [播客]
明略科技创始人吴明辉深入探讨了 AI Agent 如何颠覆 SaaS 商业模式,并提出通过开源软件、多 Agent 协同网络「章鱼」及专业化模型来重塑企业服务与组织架构。
来源:晚点聊 LateTalk|评分:92
www.bestblogs.dev

[5] OpenAI 前 CTO,带来了永远「在场」AI 的原型|Hao 好聊论文
本文深入解读了 Thinking Machines 发布的 Interaction Model,从传播学三条件(共在性、共时性、并发性)出发,剖析了当前 AI 交互系统的根本缺陷,并详细阐述了该模型通过 200ms 微轮次心跳、统一多模态架构和双模型设计,实现真正「在场」的下一代人机交互模式。
来源:腾讯科技|评分:92
www.bestblogs.dev

[6] Skill Factory:三天手搓面向 Harness 设计的技能工厂(附 AI coding 实践)
本文介绍了阿里云开发者基于测试驱动开发(TDD)理念构建的 Skill Factory 技能工厂,通过多路并行生成、自动化测试回归和生态适配,实现面向 Harness 设计的标准化、高可靠技能生成流水线。
来源:阿里云开发者|评分:92
www.bestblogs.dev

[7] OpenAI 13.1 万 GPU 训练网络背后反直觉的网络设计决策
OpenAI 的 MRC 协议颠覆了数十年的网络惯例,通过禁用动态路由、PFC 和流固定,在 13.1 万个 GPU 上实现了可预测的尾部延迟,以支持同步训练。
来源:Towards Data Science|评分:91
www.bestblogs.dev

[8] 从直觉到数据:用 Evals 与五段式 Rubric 打造可靠 AI Agent [视频]
Arize AI 的 Laurie Voss 通过实操工作坊,系统讲解如何借助 traces、spans、确定性 evals 与 LLM-as-a-judge、rubric 设计、meta-evaluation 和数据驱动实验,把 AI Agent 真正做稳。
来源:AI Engineer|评分:91
www.bestblogs.dev

[9] 只加两行代码,为什么要两天?一文深度理解业务系统的复杂性
本文深入剖析了业务系统复杂性的根本原因,指出功能间隐秘增加的耦合与不可避免的代码腐化是导致开发效率随功能增多而指数级下降的核心因素。
来源:腾讯云开发者|评分:91
www.bestblogs.dev

[10] Codex 正式登陆 ChatGPT 移动应用
OpenAI 宣布 Codex 在 ChatGPT 移动应用中开启预览,开发者可在手机上管理编程项目,而 Codex 仍在电脑端运行。
来源:OpenAI Developers(@OpenAIDevs)|评分:91
www.bestblogs.dev

BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验:bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
00
ginobefun
6天前
BestBlogs 2.3.0 发布了。

这次做了几个比较重要的改动:

新用户完成三步引导,免费体验 7 天 Pro;
文章、播客、视频、推文详情页对所有人开放,不登录也能读全文;
Pro 中心重新设计,本周阅读、AI 用量、关注源、最近 7 期早报一屏看齐。

另外也开放了老用户 14 天 Pro 福利,以及 Pro 用户邀请朋友体验的入口。

我希望 BestBlogs 能从一个「高质量内容聚合站」,慢慢变成一个更个人化的阅读工作流:每天帮你从海量内容里筛出真正值得看的部分,也让阅读这件事变得没那么焦虑。

欢迎体验:
www.bestblogs.dev
00
ginobefun
7天前
BestBlogs 早报 | 2026-05-14

# Computer Use / Codex / 沙箱安全 / Agent 评估 / 多智能体

[1] 使用 Claude 进行计算机和浏览器操作的最佳实践
Anthropic 针对 Claude 4.6 / Opus 4.7 发布权威最佳实践:点击不准的根本原因是截图超过 API 内部尺寸上限后被静默下采样导致坐标系偏移,解法是发送前主动将截图缩放到 1280×720(Opus 4.7 建议 1080p)。全文覆盖安全架构(必须使用专用虚拟机、绝不暴露敏感主机数据)、Browser Use 与 Computer Use 的场景取舍,以及 Agent 循环中人工确认门控的设计原则,是构建任何浏览器或桌面自动化 Agent 前的必读指南。
来源:Claude Blog|评分:94
www.bestblogs.dev

[2] 在 Windows 上为 Codex 构建安全有效的沙箱
Windows 没有 Linux seccomp 或 macOS Seatbelt 那样开箱即用的沙箱原语,OpenAI 为 Codex 逐一评估了 AppContainer(权限模型过窄)、Windows Sandbox(Home 版不可用、需独立虚拟机)、MIC 完整性标签(改变工作区全局信任模型风险过大)后,选择自研:为 Codex 分配专属 Windows SID 配合写受限令牌,在操作系统层强制只允许向指定目录写入,全程无需管理员权限。这个设计范式对所有需要在 Windows 上隔离文件系统的 Agent 系统都有参考价值。
来源:OpenAI Blog|评分:93
www.bestblogs.dev

[3] 为生产级 AI 智能体构建评估框架:来自 100+ 次部署的 12 项指标体系
100+ 次企业 AI Agent 生产部署经验提炼的 12 指标框架,覆盖检索(上下文相关性 >0.85、召回率 >0.90)、生成(回答忠实度 >0.95、幻觉率 <2%)、Agent 行为(工具选择准确率 >0.92、执行成功率 >0.98)和生产层(单次成本 <$0.05、P99 <3s)四层。核心教训:MVP 后再补评估框架要花 4-6 周,而基准测试准确率 95% 的 RAG Agent 在真实生产流量上幻觉率可能高达 30%——测试集永远无法覆盖生产流量分布。
来源:Towards Data Science|评分:92
www.bestblogs.dev

[4] 李想×罗永浩!李想的理想:通过 AI 技术,让普通人也过上富豪的生活 [播客]
理想汽车创始人李想深入阐述公司从车企向 AI 与具身智能公司转型的战略逻辑、自研芯片与全线控底盘的技术突破,以及对自动驾驶和人形机器人产业终局的预判。
来源:罗永浩的十字路口|评分:92
www.bestblogs.dev

[5] 从头构建多智能体系统学到的经验
Shopify 的一位高级工程师分享了从头构建多智能体系统的历程,揭示了专注特定领域的智能体优于通才型智能体,并且为领域专家提供工具比组建 AI 特种部队更有效。
来源:InfoQ|评分:92
www.bestblogs.dev

[6] Databricks 的高性能速率限制
Databricks 通过将计数器从 Redis 迁移到分片内存存储,并采用异步批量上报模式,重新设计了速率限制器,在容忍约 5% 精度超限的代价下,将尾部延迟降低了十倍。
来源:ByteByteGo Newsletter|评分:92
www.bestblogs.dev

[7] 让 AI Agent 感知浏览器渲染:为 Agent 构建前端验收 Harness
与近期「AI Agent Harness 架构」不同,本文聚焦验收侧:基于 Chrome DevTools Protocol 让 Agent 从路径、内容、视觉、交互、控制台、网络六维验证真实浏览器渲染结果,补上 AI Coding 流水线「写完代码看不到效果」的盲点。
来源:百度Geek说|评分:91
www.bestblogs.dev

[8] Claude 付费计划将包含程序化使用月度专用额度(6 月 15 日起)
从 6 月 15 日起,付费版 Claude 计划将包含一个月度专用额度,用于通过 Agent SDK、claude -p 和 Claude Code GitHub Actions 进行的程序化调用。
来源:ClaudeDevs(@ClaudeDevs)|评分:91
www.bestblogs.dev

[9] 快手 OneSearch-V2 全量上线,生成式搜索进入「懂你」时代
快手技术团队发布 OneSearch-V2 生成式搜索框架,通过自蒸馏隐式推理增强、思维增强查询理解和基于用户行为反馈的偏好对齐,在不增加推理成本的前提下,显著提升电商搜索的点击率、转化率和买家数。
来源:快手技术|评分:90
www.bestblogs.dev

[10] #536. 五种多智能体架构类型 [播客]
Factory 核心 Agent 框架负责人 Luke Alvoeiro 深度解析五种多 Agent 通信模式与 Missions 系统,揭示软件工程瓶颈从智能转向人类注意力,并通过三角色架构与验证合约实现长周期自主开发。
来源:跨国串门儿计划|评分:89
www.bestblogs.dev

BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
00
ginobefun
8天前
BestBlogs 早报 | 2026-05-13

# AI Agent / ADK / 什么是代码 / Codex / GUI Agent

[1] 构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK)
Google ADK 教程通过一个「新员工入职协调 Agent」展示了三项关键架构转变:持久化状态机(六个明确节点替代对话历史,彻底消除上下文污染)、事件驱动休眠门控(Agent 暂停等待签字而非主动轮询,零资源占用)、多 Agent 委托(IT 子 Agent 独立完成账号配置)。核心洞察:真实企业工作流充满长达数天的「空闲等待」,无状态聊天机器人天然无法应对;通过 ADK 把 Context 与 State 解耦,才是 Agent 从 Demo 走向生产的关键一步。完整代码已开源于 GitHub。
来源:Google Developers Blog|评分:93
www.bestblogs.dev

[2] 什么是代码?
Unmesh Joshi(Thoughtworks 首席工程师、《Patterns of Distributed Systems》作者)在 LLM 时代重新追问:代码究竟是什么?他的答案:代码同时承载两个使命——给机器的指令(正在被 LLM 商品化),以及问题域的概念模型(这是真正难以被替代的价值)。当 LLM 将语法生成商品化,稀缺技能从「会写代码」转向「构建精准词汇表和共享理解」。这与 DDD 的「通用语言」和有界上下文一脉相承——在 AI 时代,开发者应该主动变强的是建模能力,而非打字速度。
来源:Martin Fowler|评分:92
www.bestblogs.dev

[3] Codex 的 computer use:OpenAI 展示新的 AI 队友能力 [视频]
OpenAI 演示的 Codex computer use 标志着 AI Agent 从「生成文本」走向「操作本地 GUI」:它用独立光标在后台运行,不会接管用户 Mac,可同时设置 VM、播放 Spotify、添加日历提醒;技术架构结合截图视觉模型与 OS Accessibility 框架,快速场景下用 Spark 模型可达「超人速度」。安全层面采用逐应用权限授权,未经许可的应用对 Codex 完全不可见。目前仅 Mac 可用,Windows 支持即将到来。
来源:OpenAI|评分:92
www.bestblogs.dev

[4] QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾
小红书质效研发部在 QCon 北京 2026 分享了其自研的 GUI Agent 智能化测试系统,通过分层架构、双 Agent 协作和 Code-as-Action 策略,在春节大促期间实现了 4.3 万 + 次自动执行和 82% 的 AI 用例生成采纳率。
来源:小红书技术 REDtech|评分:92
www.bestblogs.dev

[5] Agent Infra 实践复盘:Kimi 如何搭建 Agent 背后的 Database 服务
PingCAP CTO 黄东旭复盘了 TiDB Cloud 为 Kimi K2.6 Agent 建站服务提供数据库支持的实践,揭示了 Agent 时代数据基础设施的核心挑战与架构选择。
来源:Founder Park|评分:92
www.bestblogs.dev

[6] Anthropic 网络安全团队如何用 Claude Code 构建威胁检测平台 | Claude
Anthropic 网络安全团队利用 Claude Code 构建了威胁检测平台 CLUE,该平台可自动执行告警分类、自然语言日志查询和调查,显著节省时间并减少误报。
来源:Claude Blog|评分:92
www.bestblogs.dev

[7] Claude 法律行业版 | Claude
Anthropic 为 Claude 发布了 20 多个新的 MCP 连接器和 12 个业务领域插件,与法律行业的核心技术栈集成,实现起草、研究和合规工作流的自动化。
来源:Claude Blog|评分:92
www.bestblogs.dev

[8] 吴恩达:AI 不会带来“失业末日”,而是“就业狂欢”
吴恩达驳斥了 AI 将导致大规模失业的说法,指出软件工程师的招聘依然强劲,并预测 AI 将催生更多优质的 AI 工程岗位,迎来一场“AI 就业狂欢”。
来源:Andrew Ng(@AndrewYNg)|评分:92
www.bestblogs.dev

[9] Agent Skill 规范、构建与设计模式
本文系统梳理了 Agent Skill 的规范标准、三层渐进式加载机制、模型驱动触发逻辑,并深入解析了 Skill-Creator 和 Writing-Skills 两种工程化开发范式及五种设计模式。
来源:阿里云开发者|评分:92
www.bestblogs.dev

[10] 立即保护您的企业:针对 Shai-Hulud 蠕虫与 npm 漏洞的 6 个可执行步骤
深度分析 Mini Shai-Hulud 蠕虫攻击,该蠕虫通过有效来源证明入侵了 172 个 npm 和 PyPI 包,详细介绍了杀伤链、对 AI 智能体配置的针对性攻击,以及面向企业防御者的 6 步可执行审计计划。
来源:VentureBeat|评分:92
www.bestblogs.dev

---

BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:bestblogs.dev
00
ginobefun
9天前
BestBlogs 早报 | 2026-05-12

# Claude Code / OpenAI 部署公司 / AI 智能体 / MCP / 职场变革

[1] Claude Code 中的智能体视图 | Claude
Claude Code 今日推出「智能体视图」,一块面板统览所有并行会话——哪些在等你决策、哪些仍在运行、哪些已完成。左箭头进入,回复后自动继续,不再需要切换终端标签或 tmux 格子。早期用户最常见的模式:批量下发多个任务配合 skill,等一批 PR 同时就绪再集中审查。以研究预览形式上线 Pro / Max / Team / Enterprise 计划。
来源:Claude Blog|评分:93
www.bestblogs.dev

[2] 姚顺宇 4 小时访谈:在 Anthropic 训 Claude、AI 英雄主义时代已过去 [播客]
一位清华斯坦福背景、亲历 Anthropic 和 Google DeepMind 的 AI 研究员,用 4 小时分享了他对预训练、coding 爆发、字节豆包的第一手判断。他说「AI 不太需要脑子」「英雄主义时代已过去」——不是在唱反调,而是在用亲历者视角重新定义 AI 时代的核心竞争力:靠谱、做事细、对自己的工作负责。值得每一个关心 AI 行业走向的人细听。
来源:张小珺Jùn|商业访谈录|评分:93
www.bestblogs.dev

[3] OpenAI 推出 OpenAI 部署公司,助力企业围绕智能构建业务
OpenAI 成立独立部署子公司,初始超 40 亿美元、配备 150 名前线部署工程师,将常驻企业内部帮 AI 落地。这不是卖许可证的生意——而是 OpenAI 派人到现场解决「AI 跑不起来」的问题。19 家合作伙伴支持释放了一个清晰信号:AI 真正的瓶颈已从模型能力转向组织落地能力,谁能把模型送进生产环境谁就赢。
来源:OpenAI Blog|评分:92
www.bestblogs.dev

[4] Anthropic 推出 Claude Managed Agents,助力规模化部署
Anthropic 宣布推出 Claude Managed Agents,支持用户利用顾问策略、代码执行和网络搜索等功能,大规模构建和部署 AI Agent。
来源:Claude(@claudeai)|评分:92
www.bestblogs.dev

[5] Andrej Karpathy 谈人机交互的未来:从文本到交互式神经视频
Andrej Karpathy 分享了一个实用技巧:让大语言模型以 HTML 格式输出结果,并展望了 AI 输出从文本到交互式神经视频的演进路线,他认为视觉是人类偏好的输出模态。
来源:Andrej Karpathy(@karpathy)|评分:92
www.bestblogs.dev

[6] SocialReasoning Bench 揭示当前 AI 智能体的局限性
微软研究院推出 SocialReasoning-Bench,该基准测试揭示前沿 AI 智能体在社交协商中始终无法为用户争取最大利益,常常留下大量价值未被获取。
来源:Microsoft Research Blog|评分:92
www.bestblogs.dev

[7] 再也无需手写项目更新:Notion 的 AI 赋能工程会议 [视频]
来自 Notion 的 Ryan Nystrom 演示了如何通过自定义 AI 智能体实现工程站会的自动化、通过评论触发后台编码任务,并启用规约驱动的开发工作流,从而将管理者的角色从繁琐的行政工作中解放出来,转向系统性思考。
来源:How I AI|评分:92
www.bestblogs.dev

[8] Netflix 借助 Apache Druid 的区间感知缓存,84% 的查询结果来自缓存
Netflix 为 Apache Druid 引入了一种区间感知缓存策略,使得 84% 的查询结果来自缓存,查询负载降低 33%,P90 查询时间提升 66%。
来源:InfoQ|评分:92
www.bestblogs.dev

[9] 我们刚过了人类最后一个劳动节?AI 新职业的八个变化
基于 7 家 AI 原生公司 2026 年劳动节当天的 1570 个在招岗位数据分析,揭示 AI 行业岗位总量倍增、人力主体从研发转向商业化、部署类岗位爆发等八个结构性变化,论证 AI 在替代工作的同时也在加速创造新岗位。
来源:腾讯研究院|评分:91
www.bestblogs.dev

[10] Pinterest 如何构建生产级 MCP 生态系统
本文详细介绍了 Pinterest 如何构建生产级 MCP 生态系统,重点阐述了将协议转化为可扩展的 AI 智能体内部工具所需的架构决策、安全模型和平台投入。
来源:ByteByteGo Newsletter|评分:91
www.bestblogs.dev

---

BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:bestblogs.dev
00
ginobefun
10天前
BestBlogs 早报 | 2026-05-11

# AI Agent 架构 / 持久化计算 / TTS / Lean Startup / 信任治理

[1] 如何打造能穿越时代的公司 | Eric Ries,Lean Startup 作者 [视频]
Eric Ries(《精益创业》作者)在新书《Incorruptible》中指出,公司赢了之后往往走向衰落——根本原因不是贪婪,而是结构性「财务重力」将组织不断拉向短期利益。他提出三种结构性防腐剂:公益公司(PBC)章程、信任型治理(以 Anthropic 独立受托人守护使命为例),以及基金会控股模式(诺和诺德百年不变的范例)。核心洞察:「更难的路反而更容易」——越早做出有原则的艰难决定,越能积累信任与结构完整性,带来长期的意外回报。
来源:Lenny's Podcast|评分:93
www.bestblogs.dev

[2] 持久化 Agent 的两条路:重放模型 vs 快照恢复 — Eric Allam,Trigger.dev [视频]
Trigger.dev 联合创始人 Eric Allam 指出,无状态计算的「重放模型」在 AI Agent 长会话场景下已达瓶颈:不断增长的上下文使重放代价呈指数级上升。他提出将持久化拆为两层——上下文日志(Append-only LLM I/O)+ 执行快照(Firecracker 整机 Snapshot/Restore),让 Agent 等待时完全释放计算资源、恢复只需毫秒。这是 Agent 基础设施从事务型迈向会话型的关键架构转变。
来源:AI Engineer|评分:92
www.bestblogs.dev

[3] 为什么现在的 TTS 模型越来越像 LLM | Samuel Humeau,Mistral [视频]
Mistral AI 科学家 Samuel Humeau 系统拆解了 TTS 与 LLM 架构趋同的底层逻辑:音频帧(约 80ms)被 tokenize 为离散 token,用自回归方式预测,延续了与 LLM 完全一致的预训练→对齐→推理时扩展范式。核心用例已从离线朗读转向实时 Agent 交互——流式推送音频包可显著降低感知延迟。Mistral 开源的 TTS 模型正是这一趋势的代表:语言模型走通的那条路,正在被音频生成复刻一遍。
来源:AI Engineer|评分:91
www.bestblogs.dev

[4] 人工智慧能否自我成長 [视频]
李宏毅教授系統剖析 AI 自我成長的技術路徑與極限,涵蓋 RLAIF、Constitutional AI 到 Absolute Zero 研究,追問 AI 能否真正跨越「盧比孔河」實現自主研發。
来源:Hung-yi Lee|评分:91
www.bestblogs.dev

[5] Harness Engineering:Agent 性能差异的核心在于「外壳」而非模型
深入解析 Agent = Model + Harness 架构,指出同一模型在不同外壳下的性能差异源于提示词、工具、上下文策略等工程配置,并提出「棘轮」工作法将每次失误转化为永久规则。
来源:meng shao(@shao__meng)|评分:91
www.bestblogs.dev

[6] 分层记忆:智能体的上下文管理 — Sally-Ann Delucia [视频]
Arize 产品负责人 Sally-Ann Delucia 分享从构建 AI 可观测性智能体 Alex 中积累的硬核实战经验,论证上下文工程——而非提示工程——已成为决定智能体成败的关键因素。
来源:AI Engineer|评分:91
www.bestblogs.dev

[7] MySQL 9.7:自 8.4 以来首个重大 LTS 版本,将企业级功能引入社区版
Oracle 发布了 MySQL 9.7.0,这是自 8.4 以来首个重大 LTS 版本,在社区对 MySQL 开发活跃度表示担忧的背景下,将动态数据脱敏和超图优化器等企业级功能引入社区版。
来源:InfoQ|评分:90
www.bestblogs.dev

[8] LLM 摘要生成器跳过了识别步骤
本文认为,LLM 摘要生成器应借鉴因果推断中的“识别”步骤,要求每个生成的声明都必须声明其支持类别(观察到的、推断出的、建议)和证据来源,并通过一个只能削弱或移除无依据声明的审计阶段来强制执行。
来源:Towards Data Science|评分:90
www.bestblogs.dev

[9] 对 AI 进展的恐慌实属错位
Gary Marcus 认为,由 METR 的时间范围图引发的近期对 AI 进展的恐慌实属错位,该图显示 Claude Mythos 能完成耗时 16 小时的编码任务,但因其 50% 的成功阈值、仅聚焦软件开发领域以及缺乏通用智能的证据,这种恐慌并不合理。
来源:Marcus on AI|评分:89
www.bestblogs.dev

[10] 机器人的终局:英伟达 Jim Fan 宣告 VLA 时代结束,WAM 登场
英伟达 Jim Fan 在 Sequoia AI Ascent 2026 上公开宣告 VLA 机器人路线过时,提出以世界动作模型(WAM)为核心的新范式,并给出 2040 年实现机器人终局的路线图。
来源:宝玉的分享|评分:88
www.bestblogs.dev

---

BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:bestblogs.dev
00