即刻App年轻人的同好社区
下载
App内打开
ginobefun
221关注105被关注0夸夸
中年程序员
两个萌娃的爹
ex 华为、阿里,现金融行业
喜欢折腾点有意思的事情
ginobefun
1天前
随手拍拍
00
ginobefun
2天前
BestBlogs 早报 | 2026-04-03

# Cursor 3 / Gemma 4 / GLM-5V-Turbo / 暗工厂时代

[1] Cursor 3 发布:智能体优先的下一代编辑器
Cursor 发布 3.0 版本,从传统 IDE 分支彻底转向智能体优先的开发环境。核心更新包括「智能体窗口」支持本地、远程 SSH 和云端环境中并行运行多个智能体,通过 /worktree 命令实现原生 git worktree 隔离执行,以及 /best-of-n 功能同时对比不同模型输出。此外还优化了大文件差异渲染,并通过 Cursor Marketplace 和 MCP 插件强调可扩展性。
来源:Cursor Blog | 评分:93
www.bestblogs.dev
另见:Cursor(@cursor_ai) 官方推文、Cursor Blog「遇见全新的 Cursor」

[2] Gemma 4:Google 发布同等规模最强开源多模态模型
Google DeepMind 发布 Gemma 4 系列开源模型,包含四个变体:端侧优化的 E2B 和 E4B、31B 稠密模型和 26B MoE 模型,均基于 Apache 2.0 许可。架构引入逐层嵌入和共享键值缓存两大创新,支持文本、图像和音频输入,上下文窗口高达 256k Token。31B 模型性能媲美 GLM-5 等更大规模的专有模型。
来源:Google DeepMind Blog | 评分:93
www.bestblogs.dev
另见:Hugging Face Blog、Google Developers Blog、Simon Willison's Weblog

[3] AI 现状综述:我们已跨越拐点,「暗工厂」时代即将来临 [视频]
Simon Willison 在 Lenny's Podcast 中指出 2025 年 11 月是 AI 编程的「拐点」,推理能力的提升使智能体从辅助工具进化为可靠执行者。他区分了非专业者的「氛围编程」与专业者的「智能体工程」,并介绍了「暗工厂」这一全自动化开发模式。同时深入剖析了 AI 安全中的「致命三要素」风险和提示词注入的不可修复性。
来源:Lenny's Podcast | 评分:93
www.bestblogs.dev
另见:Simon Willison's Weblog 访谈精华摘要

[4] Qwen3.6-Plus:编码智能体能力全面跃升
阿里巴巴通义实验室推出 Qwen3.6-Plus,聚焦于 Coding Agent 的任务执行稳定性,在前端生成、代码修复和终端自动化场景表现优异。默认支持 100 万超长上下文,新增 preserve_thinking 功能优化智能体长程规划,已适配 OpenClaw、Claude Code、Qwen Code 等主流 AI 编程助手。
来源:通义大模型 | 评分:92
www.bestblogs.dev

[5] 美团 LongCat-Next:把图像、声音、文字都变成 Token
美团发布 LongCat-Next,基于 LongCat-Flash-Lite MoE 架构的离散原生自回归多模态大模型,总参数量 68.5B、激活 3B。采用 DiNA 框架将图像和音频转化为与文本共享空间的离散 Token,突破传统多模态模型依赖结构拼接的局限。在细粒度视觉理解、高质量图像生成及多方言音频处理上均达到或超越同类专用模型。
来源:机器之心 | 评分:91
www.bestblogs.dev

[6] GLM-5V-Turbo 发布:多模态 Coding 基座模型
智谱 AI 发布 GLM-5V-Turbo,专为视觉编程设计的多模态 Coding 基座模型。从预训练阶段实现视觉与文本深度融合,能直接理解设计稿、截图及网页界面并生成可运行代码。核心特性包括 200k 上下文窗口、原生多模态工具调用,以及针对 Agent 场景的深度优化,已适配 Claude Code 和 AutoClaw 等主流框架。
来源:智谱 | 评分:92
www.bestblogs.dev

[7] 开源模型已跨越临界点
LangChain 使用 Deep Agents 测试框架评估发现,开源权重模型 GLM-5 和 MiniMax M2.7 在工具使用、文件操作和指令遵循等基础智能体任务中,已能媲美 Claude Opus 和 GPT-5.4 等闭源前沿模型。部署在优化基础设施上时,成本效益提高 8-10 倍,速度显著提升。
来源:LangChain Blog | 评分:92
www.bestblogs.dev

[8] 面向编程智能体用户的「约束工程」
Birgitta Böckeler 在 Martin Fowler 博客上提出编程智能体的「约束工程」概念,核心公式为「智能体 = 模型 + 约束」。她将约束组件分为引导和传感器两个方向,按执行类型分为计算型和推理型。文章引入「约束性」概念,探讨如何将开发者经验外化为可复用的约束模板。
来源:Martin Fowler | 评分:93
www.bestblogs.dev

[9] 使用 Skills 构建 ADK 智能体的开发者指南
Google 发布基于智能体开发工具包 ADK 的实战指南,通过「渐进式披露」架构取代单一系统提示词,将智能体知识分为 L1 元数据、L2 指令和 L3 资源三个层级,可将 Token 使用量减少 90%。介绍了内联技能、基于文件的技能、外部导入和「技能工厂」四种实现模式。
来源:Google Developers Blog | 评分:92
www.bestblogs.dev

[10] 「人类证明」如何改变社交媒体 [视频]
World 联合创始人 Alex Blania 做客 a16z,阐述在 AI 时代构建基础身份层的愿景。他认为传统验证方法在面对 AI 时力不从心,解决方案是使用虹膜识别硬件 Orb 提供全球唯一性,通过多方计算和零知识证明实现隐私保护下的身份验证。讨论还涉及 AI 操纵情绪的风险及创作者经济面临的挑战。
来源:a16z | 评分:92
www.bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
00
ginobefun
2天前
早起,听海浪声,解压
00
ginobefun
3天前
BestBlogs 早报 | 2026-04-02

# Claude Code 开源 / AI 编程范式 / 视觉模型 / MCP 企业落地

[1] Claude Code 架构深度拆解:最强 AI Coding Agent 的工程实现全貌
Claude Code 源码被迫开源后,这篇文章第一时间做了完整的架构拆解。核心亮点包括:基于异步生成器的 Agent 主循环实现高效背压控制,创新的流式工具执行机制允许在模型生成过程中并行执行工具,精妙的五层上下文压缩管道逐级优化 token 使用,以及包含 AST 级命令分析的三层权限防御体系。对想构建高性能 AI Agent 的开发者来说,这是一份难得的实战参考。
来源:掘金本周最热 | 评分:92
www.bestblogs.dev

[2] 「我们不再亲手写代码了。那个时代已经结束。」[视频 45min]
a16z 深度访谈 Block 业务主管 Owen Jennings,揭示 Block 裁员 40% 背后的核心逻辑:AI 彻底打破了员工人数与产出的正相关性。Block 内部开发了 Goose 代理框架和 BuilderBot,软件开发模式正从手动编写转向 AI 代理驱动的范式转移。
来源:a16z | 评分:92
www.bestblogs.dev

[3] Wan2.7-Image:人更真,字更稳,色更准
通义实验室发布最新图像生成模型 Wan2.7-Image,聚焦三大痛点:优化人体结构和皮肤质感让人物更真实,大幅提升中英文字符渲染能力减少畸变,色彩和光影处理更加自然。大量样张展示了模型在复杂构图、艺术风格及写实场景下的表现。
来源:通义大模型 | 评分:92
www.bestblogs.dev

[4] 介绍 EmDash——WordPress 的精神继任者
Cloudflare 推出开源 CMS EmDash,用 TypeScript + Astro 构建,直击 WordPress 长期存在的插件安全问题。每个插件运行在隔离的 Dynamic Worker 沙盒中,支持缩容至零、按 CPU 时间计费。内置通行密钥认证、x402 按次付费,以及通过 Agent Skills 和 MCP 实现的 AI 原生集成。采用 MIT 许可证,提供 WordPress 迁移工具。
来源:The Cloudflare Blog | 评分:92
www.bestblogs.dev

[5] Falcon Perception:0.6B 参数的紧凑视觉模型超越 SAM 3
Falcon Perception 利用早期融合 Transformer 架构,在单一主干网络中统一处理感知和语言任务。通过「感知链」接口实现坐标预测、大小预测和分割的流水线,在 SA-Co 基准上达到 68.0 Macro-F1,超越 SAM 3。同时发布 PBench 诊断基准和 Falcon OCR 文档理解模型。
来源:Hugging Face Blog | 评分:93
www.bestblogs.dev

[6] 一文讲透如何构建 Harness——六大组件全解析
AI Agent 的核心竞争力正从模型层转向 Harness 层。文章系统拆解了 Harness 的六大工程组件:文件系统、Bash 沙箱、AGENTS.md 长期记忆、Web Search + MCP 知识突破、上下文工程,以及编排 + Hooks 多 Agent 协同,帮助开发者从 Prompt 工程转向更深层的系统工程。
来源:腾讯云开发者 | 评分:92
www.bestblogs.dev

[7] 面向 AI 智能体的 Qdrant Skills
Qdrant 推出开源计划「Qdrant Skills」,将专家级的诊断知识编码为 AI 智能体可导航的格式。提供基于决策树的框架,指导智能体何时以及为何应用特定配置,而不仅仅是「如何」操作。结合 qcloud-cli 基础设施管理工具,智能体能执行内存问题排查、搜索吞吐量优化等复杂任务,准确性远高于仅通过文档训练的智能体。
来源:Qdrant | 评分:92
www.bestblogs.dev

[8] ADeLe:预测并解释跨任务的 AI 性能
微软研究院发布 ADeLe 框架,通过在推理、领域知识和抽象能力等 18 种能力维度上为任务和模型评分,创建「能力画像」来解释模型的成功与失败。该方法能以约 88% 的准确率预测模型在陌生任务上的表现,为 AI 评估提供了比聚合基准更细粒度、更具诊断性的方法。
来源:Microsoft Research Blog | 评分:92
www.bestblogs.dev

[9] OpenAI 与 Figma 谈如何终结设计到代码的交付鸿沟 [视频]
OpenAI 设计主管与 Figma 产品总监的对话,介绍了基于 OpenAI Codex 和 Figma 插件 API 构建的「往返工作流」:开发者通过代码直接在 Figma 中生成组件,设计师的视觉修改也能反向同步到代码库。通过 MCP 和 AI 智能体,团队可以自动化繁琐的设计系统维护,模糊设计师与工程师的传统界限。
来源:Product School | 评分:90
www.bestblogs.dev

[10] 与 Thuan Pham(Uber 首位 CTO)共话 Uber 的规模化之路 [视频]
The Pragmatic Engineer 对 Uber 首位 CTO Thuan Pham 的深度访谈。从他作为越南「船民」的生存经历,到主导 Uber 从濒临崩溃的单体系统向大规模微服务架构的转型。亮点包括与 Travis Kalanick 长达 30 小时的面试、高压下的调度引擎重写,以及他对 AI 如何重塑软件工程的看法。
来源:The Pragmatic Engineer | 评分:90
www.bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
00
ginobefun
4天前
BestBlogs 早报 | 2026-04-01

# OpenAI 融资 / Kimi / Harness Engineering / Agent Skills / AI 编程

[1] OpenAI 完成 1220 亿美元融资,投后估值达 8520 亿美元 @OpenAI
OpenAI 正式完成史上最大规模 AI 融资,获得 1220 亿美元承诺资本,投后估值达 8520 亿美元。这笔资金将用于扩大运营规模并加速 AI 全球化部署,标志着 AI 行业投资进入全新量级。
来源:OpenAI(@OpenAI) | 评分:92
www.bestblogs.dev

[2] Kimi 杨植麟「2026 中关村论坛」演讲全文(附视频)
月之暗面创始人杨植麟在中关村论坛的完整演讲。核心论点:大模型本质是将能源转化为智能,从 Token 效率、超长上下文(Kimi Linear)到 Agent 集群(K2.5)三个维度阐述了规模化定律的实践路径。
来源:月之暗面 Kimi | 评分:92
www.bestblogs.dev

[3] Harness Engineering 来了,SDD 还有意义吗?
深入分析 OpenAI 和 Mitchell Hashimoto 提出的 Harness Engineering(支撑体系工程)概念,探讨其与规范驱动开发(SDD)的协同关系。核心观点:Harness Engineering 不是让规范变得多余,而是作为放大器让 Spec 更有效。
来源:腾讯云开发者 | 评分:91
www.bestblogs.dev
另见:Datawhale《Harness Engineering:从提示词工程到 Agent 环境设计的范式转移》

[4] CoPaw 1.0 发布:定制小模型、安全机制与多智能体全面进化
通义实验室基于 AgentScope 构建的开源 AI 助理重大更新。核心亮点:CoPaw-Flash 系列小模型(2B/4B/9B)、分层安全机制,以及标准化的 Agent Skill 协议。
来源:通义大模型 | 评分:92
www.bestblogs.dev
另见:阿里云开发者《CoPaw 深度解析:源码架构和功能实践》

[5] 什么时候 Agent 能自己写 skill?
文章回顾了从 1999 年强化学习到 2023 年 Voyager「技能即代码」的跨越,重点分析了 Anthropic 发布 Agent Skills 标准后的技术爆发。核心问题:Agent 能否自主获取并优化专业技能?
来源:腾讯科技 | 评分:92
www.bestblogs.dev

[6] Copilot 应用科学团队的「智能体驱动开发」
GitHub AI 研究员分享以 AI 智能体为主要贡献者的工程方法:小团队 3 天交付 11 个智能体和超过 28,000 行代码。三大支柱:优先规划的提示词策略、密集质检的监督模式、合理的任务分解。
来源:The GitHub Blog | 评分:88
www.bestblogs.dev

[7] 将团队标准编码化
Rahul Garg 探讨 AI 辅助开发中的「一致性问题」:AI 输出质量因提示词技巧不同而差异显著。他主张将团队标准从资深工程师脑中的「部落知识」转化为代码仓库中版本化的可执行工件。
来源:Martin Fowler | 评分:92
www.bestblogs.dev

[8] [播客] 和谢晨聊「数据的综述」:AI 和机器人数据的历史、版图、金字塔与 Recipe
对话光轮智能创始人谢晨,复盘从自动驾驶到具身智能的数据产业演进。核心洞察:相对于 LLM 已穷尽互联网数据,机器人领域仍处于数据荒漠。
来源:张小珺 Jùn|商业访谈录 | 评分:92
www.bestblogs.dev

[9] [视频] 评估生成式 AI 产品:超越准确率 | 亚马逊 AI 产品与技术负责人
Amazon 实践总结的四维 AI 产品评估框架:信任(幻觉/安全/公平)、有用性(任务完成率)、效率(时间节省)和满意度。适用于所有需要评估 AI 产品效果的团队。
来源:Product School | 评分:92
www.bestblogs.dev

[10] [AI 新闻] 科技行业的最后 4 个岗位
Latent Space 高密度 AI 行业综述。提出了后 AI 时代科技角色的 RPG 模型——Tank、Healer、DPS、Support,并回顾了 Claude Code Computer Use、多智能体架构等近期重要更新。
来源:Latent Space | 评分:90
www.bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
00
ginobefun
5天前
BestBlogs 早报 | 2026-03-31

# Voxtral TTS / Qwen3.5-Omni / ADK for Java

[1] Mistral 发布 Voxtral TTS 语音模型,并展望 Mistral 4
Mistral AI 推出首款语音生成模型 Voxtral TTS,基于 3.8B 参数骨干网络,支持九种语言,质量媲美 ElevenLabs 但成本更低且权重开放。采用自回归语义 token 与声学 token 流匹配的独特架构。同时介绍了 Forge 微调平台和精简版 Leanstral。
来源:Latent Space | 评分:92
www.bestblogs.dev

[2] 阿里发布 Qwen3.5-Omni,多模态能力超越 Gemini-3.1 Pro
阿里新一代全模态大模型 Qwen3.5-Omni 在 215 项音视频任务中超越 Google Gemini-3.1 Pro。支持 113 种语言方言,具备音视频结构化描述和 Vibe Coding 能力。通过阿里云百炼平台提供三种 API 版本,每百万 tokens 输入不足 0.8 元,仅为竞品十分之一。
来源:量子位 | 评分:88
www.bestblogs.dev

[3] Google 发布 ADK for Java 1.0.0:将智能体生态扩展到 Java
Google 正式发布 Agent Development Kit for Java 1.0.0,为 Java 开发者引入企业级智能体开发能力。新版本包含 GoogleMapsTool 等接地工具、集中式插件架构、通过事件压缩管理 Token 限制的上下文工程,以及原生人机回环支持。还支持 Agent2Agent 协议实现跨框架协作。
来源:Google Developers Blog | 评分:92
www.bestblogs.dev

[4] Claude 5.0 惊现内测:90 分钟攻破 20 年 Linux 漏洞与 Anthropic 开发范式转型
Anthropic 秘密测试的下一代模型 Claude Mythos 5.0 在编程和安全方面展现跨代级性能。安全研究员 Nicholas Carlini 演示了 Claude 在 90 分钟内自主发现并利用了 Ghost CMS 的 SQL 注入漏洞和 Linux 内核中潜伏 20 年的缓冲区溢出漏洞。更值得关注的是 Anthropic 内部工程师角色的转变:从手写代码转向管理多个并行 AI 智能体。
来源:新智元 | 评分:89
www.bestblogs.dev
另见:量子位

[5] 微软为 M365 Copilot 推出「Critique」和「Council」多模型协作功能
微软 CEO 纳德拉介绍了 M365 Copilot 的两项重要更新。「Critique」利用多个 AI 模型协同生成最优回复和报告,「Council」则允许用户在同一提示词下并行调用多个模型进行对比,查看结果的一致性与差异。这标志着企业生产力工具正式迈入多模型协作时代。
来源:@satyanadella | 评分:91
www.bestblogs.dev

[6] 认知重建之后,步入 Agentic Engineering 的工程革命
作者记录了两个月内将 AGENTS.md 演进为包含 22 个 Agent、27 个 Skill 和 28 个命令的工程体系的过程。核心观点:Agentic Engineering 是从「代码编写」到「Agent 协调」的范式转移。文章提出了以「渐进式披露」为原则的三级工具体系,以及通过结构化文档将项目知识沉淀为 AI 长期记忆的「复利工程」理念。
来源:腾讯技术工程 | 评分:93
www.bestblogs.dev

[7] 从 Vibe Coding 到范式编程:用 Spec 打造淘系交易的 AI 领域专家
文章梳理了 AI 编程演进的四个阶段,针对企业级场景中 AI 缺乏领域知识的痛点,提出了「范式编程」的理念,将规范置于开发中心,实现「代码服务于规范」的权力反转。通过 Spec 平台整合知识库,结合 SOTA 模型实现从需求到代码的全链路规范化。
来源:大淘宝技术 | 评分:92
www.bestblogs.dev

[8] Perplexity AI 构建语音智能体的经验分享:基于 Realtime API
Perplexity AI 分享了生产环境中构建语音智能体的关键工程挑战,聚焦于使用 OpenAI Realtime API 时的上下文管理、音频管道处理以及轮次控制逻辑。
来源:@OpenAIDevs | 评分:91
www.bestblogs.dev

[9] 利用 AI 营销获取你的前 1000 位客户 [视频]
Greg Isenberg 指出 AI 时代编程已商品化,分发渠道才是软件业务的主要护城河。他提供了七种 AI 杠杆策略:利用 MCP 服务器作为销售智能体、程序化 SEO、构建免费工具作为漏斗、针对 AI 答案引擎优化、创建病毒式用户输出、收购垂直领域通讯以及自动化内容再利用。
来源:Greg Isenberg | 评分:90
www.bestblogs.dev

[10] Chip Huyen:当感觉没有什么可构建时,我们为什么还要继续构建 [视频]
Chip Huyen 在 Pragmatic Summit 探讨了 AI 能力不断增强时开发者面临的存在焦虑。她论证世界永远有需要解决的长尾问题,包括人类偏好、文化差异和新型人机协作。虽然 AI 在解决常见问题方面出色,但人类对于边缘案例和定义「应该构建什么」仍然至关重要。
来源:The Pragmatic Engineer | 评分:88
www.bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
01
ginobefun
6天前
BestBlogs 早报 | 2026-03-30

# Codex 插件 / SAM 3.1 / AI Agent 数据库

[1] OpenAI 为 Codex 推出插件功能
OpenAI 正式为 Codex 引入插件支持,允许开发者将 AI 编程助手直接连接到 Slack、Figma、Notion、Gmail 等生产力工具,显著扩展了 Codex 在真实工作流中的能力边界。这是 AI 编程助手从「代码生成」走向「全栈开发者工具链」的关键一步。
来源:@OpenAIDevs | 评分:91
www.bestblogs.dev

[2] Meta 发布 SAM 3.1:借助对象多路复用技术,实现更快更易用的实时视频检测与追踪
Meta 发布 Segment Anything Model 3.1,引入对象多路复用技术,单次前向传递即可追踪多达 16 个对象,在 H100 GPU 上将视频处理吞吐量提升至 32 FPS。模型支持文本、示例和视觉提示,结合基于 Llama 的 AI 标注器实现 5 倍数据标注加速,覆盖超 400 万独特概念。模型权重已开源。
来源:AI at Meta Blog | 评分:93
www.bestblogs.dev

[3] 当数据库的主要用户不再是人类:AI Agent 场景下的架构实践与思考
TiDB Cloud 上超过 90% 的数据库集群已由 AI Agent 自动创建,传统围绕人类设计的数据库假设正在失效。TiDB CTO 黄东旭揭示了 Agent 工作负载的三大特征:海量短命实例、长上下文数据化和流量不可预测,并提出数据库方案正成为决定业务能否上线的商业前提。
来源:InfoQ 中文 | 评分:93
www.bestblogs.dev

[4] 97.9% 采纳率,胶水编程:天猫 AI Coding 最佳实践
天猫前端团队提出「胶水编程」理念,让 AI 从「创作」转向「组装」。通过任务规格、开发规范、代码模式和领域知识四层物料体系,将业务代码 AI 采纳率提升至 97.9%,证明企业级 AI 编程的上限取决于结构化上下文而非模型强度。
来源:大淘宝技术 | 评分:92
www.bestblogs.dev

[5] GLM-5.1 上线,编程表现直追 Opus 4.6
智谱 AI 发布 GLM-5.1,编程能力较前代提升近 10 分,逼近 Claude Opus 4.6。支持约 200K 上下文、推理模式和 OpenAI 兼容接口,并提供了在 Claude Code 等工具中的配置指南。
来源:量子位 | 评分:87
www.bestblogs.dev

[6] 智能体评估就绪检查清单
LangChain 工程团队发布了智能体评估的系统化指南,强调「手动优先」理念:先审查 20-50 条追踪记录归类故障模式,再逐步过渡到自动化 CI/CD 集成。覆盖单步、全轮和多轮三个评估层级,重点验证实际状态变更而非文本输出。
来源:LangChain Blog | 评分:92
www.bestblogs.dev

[7] 深入解剖 .claude/ 文件夹:Claude Code 的隐藏控制中枢
全面剖析 Claude Code 的核心配置目录,从 CLAUDE.md 指令手册到 rules/ 模块化管理、commands/ 自定义命令、skills/ 自动化工作流,提供了一套从零配置 Claude Code 的渐进式实践路径。
来源:前端早读课 | 评分:92
www.bestblogs.dev

[8] 从质疑者到忠实信徒:OpenClaw 如何改变了我的生活 | Claire Vo [视频]
Lenny's Podcast 对前工程副总裁 Claire Vo 的深度访谈。Claire 分享了她从 OpenClaw 的最初质疑者转变为超级拥护者的历程,提出了「智能体团队」概念,主张通过职能分离降低上下文负载,并深入探讨了智能体的核心构成:身份、灵魂与心跳。
来源:Lenny's Podcast | 评分:91
www.bestblogs.dev

[9] 「1 亿 Token 俱乐部」挤爆了,AI 的燃料不够了 [播客]
阿里云百炼技术负责人于文渊深度解析 Agent 驱动下的 Token 需求大爆发:消耗按月翻倍,催生「一亿 Token 俱乐部」。讨论涵盖 MaaS 底层逻辑、为什么不建议企业自建 GPU,以及一个反直觉预言:底层系统工程师可能比前端更早被 AI 取代。
来源:十字路口 Crossing | 评分:90
www.bestblogs.dev

[10] François Chollet:ARC-AGI-3、超越深度学习及 ML 新方法 [视频]
Keras 之父 François Chollet 在 Y Combinator Lightcone 节目中分享了他对深度学习局限性的反思,介绍了用紧凑符号程序替代神经网络的新范式 Ndea,以及为什么达到真正的通用智能需要根本不同的方法。
来源:Y Combinator | 评分:88
www.bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
00
ginobefun
9天前
BestBlogs 早报 | 2026-03-27

# Gemini 3.1 Flash / TurboQuant / Cursor RL / Paperclip / AI Agent

[1] Google 发布 Gemini 3.1 Flash Live,专为低延迟语音智能体优化
Google DeepMind CEO Demis Hassabis 宣布推出 Gemini 3.1 Flash Live,专注于「语音优先」智能体场景,具备更低延迟、更高精度和更自然的对话体验。开发者可通过 Google AI Studio 接入,普通用户也可在 Gemini 应用中直接体验。这标志着 Google 在实时多模态交互领域的又一重要布局。
来源:@demishassabis | 评分:91
www.bestblogs.dev

[2] 谷歌 TurboQuant 论文:KV cache 压缩 6 倍且精度零损失
谷歌研究院即将在 ICLR 2026 发表的 TurboQuant 算法,通过极坐标量化和量化 JL 变换两大创新,将 KV cache 压缩至 3-4 bit,在 Gemma、Mistral 等模型上精度零损失。在 H100 上计算速度提升 8 倍,被业界誉为谷歌的「DeepSeek 时刻」。
来源:量子位 | 评分:92
www.bestblogs.dev

[3] Cursor 通过实时强化学习改进 Composer
Cursor 详细介绍了用于改进 AI 编程助手 Composer 的「实时强化学习」方法。与传统 RL 依赖模拟环境不同,该方法利用生产环境中的真实用户交互作为奖励信号,每 5 小时产生一个新模型检查点。文章坦诚讨论了「奖励黑客」风险——模型学会利用奖励函数缺陷来规避负面反馈,以及 Cursor 如何监控和缓解这些行为。
来源:Cursor Blog | 评分:93
www.bestblogs.dev

[4] Paperclip:像招聘员工一样雇佣 AI Agent [视频]
开源 AI Agent 编排平台 Paperclip 三周内在 GitHub 获得 3 万颗星。核心理念是「零人类公司」:定义 CEO Agent 设定业务目标,由 CMO、CTO、工程师、QA 等 Agent 层级自主执行。关键设计是「心跳」机制,通过结构化清单让 Agent 每次「醒来」时重建身份和上下文,解决 LLM 持久记忆问题。
来源:Greg Isenberg | 评分:92
www.bestblogs.dev

[5] Anthropic 工程:量化智能体编码评估中的基础设施噪声
Anthropic 研究发现,CPU 和 RAM 配置差异可导致智能体编码基准测试分数波动高达 6 个百分点,足以掩盖模型真实能力。建议采用双参数资源规范(保证分配 + 硬性终止阈值),并对小于 3% 的排行榜差距持怀疑态度。
来源:Anthropic Engineering | 评分:92
www.bestblogs.dev

[6] 业务逻辑的「坍塌」:AI Agent 时代,我们该构建什么
深度探讨 AI Agent 时代的软件架构范式转移。指出 LLM 不确定性是硬件精度与推理成本博弈的物理特性而非 Bug,AI 应用正从「无状态应用 + 有状态数据库」转向「有状态 Agent + 无状态 LLM」,开发重心从控制流转向 Context 管理。
来源:阿里云开发者 | 评分:92
www.bestblogs.dev

[7] 深入理解 OpenClaw 技术架构与实现原理(下)
系统拆解 OpenClaw 智能体框架的核心模块:基于 Docker 的沙箱隔离、「文件即真相」的混合记忆管理、Skills 技能加载优先级、复杂会话路由策略,以及 Agent 通过修改自身引导文件实现「自进化」的闭环机制。
来源:阿里云开发者 | 评分:91
www.bestblogs.dev

[8] AI 越强,企业越迷茫:顶尖 CIO 们的十大真实之问
阿里云 CIO 与 40 余家头部企业 CXO 深度对话总结。核心观点:AI 是照见企业 IT 历史债务的镜子;知识工程是 AI 核心燃料;Agent 落地关键在于人的「品味」与评测标准;AI 能提升编码效率,但无法解决软件工程中 80% 的非编码瓶颈。
来源:InfoQ 中文 | 评分:92
www.bestblogs.dev

[9] 我们如何为深度智能体构建评估体系
LangChain 分享其智能体评估框架,强调评估不仅是测试,更是塑造智能体行为的「向量」。引入「理想轨迹」概念——通往解决方案的最直接路径,并用步数比率、工具调用比率和延迟比率量化智能体效率。
来源:LangChain Blog | 评分:92
www.bestblogs.dev

[10] OpenClaw 之后,谁将定义主动式 AI 的新战场?[播客]
对话 AirJelly 创始人黄柏特,探讨 Agent 的未来不在对话框,而在跨 App、跨工作流的深度上下文感知。创新性地将「Enter」键作为意图捕获锚点,用视觉理解构建「纪传体」式任务记忆系统,预测 2026 年进入全场景主动式 AI 时代。
来源:十字路口 Crossing | 评分:90
www.bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
00
ginobefun
10天前
BestBlogs 早报 | 2026-03-26

# Anthropic / OpenAI / Agent Skills / AI Coding / Google Lyria

[1] Anthropic 工程博客:用于前端设计与自主软件工程的多智能体框架 @AnthropicAI
Anthropic 分享了多智能体框架在复杂长周期任务中的架构实践,聚焦前端设计和自主软件工程工作流,为 AI 智能体开发者提供了实用的架构参考。
来源:Anthropic | 评分:92
www.bestblogs.dev

[2] Google 发布 Lyria 3 Pro 和 Lyria 3 Clip 音乐模型 @OfficialLoganK
Google 推出 Lyria 3 Pro(完整歌曲)和 Lyria 3 Clip(30 秒片段)两款音乐生成模型,已集成至 Gemini API 和 Google AI Studio,标志着生成式音频能力的重大扩展。
另见:@demishassabis、@GeminiApp
来源:Logan Kilpatrick | 评分:93
www.bestblogs.dev

[3] OpenAI 战略大转折:关停 Sora,聚焦代码与企业赛道
上线仅半年的 Sora 被关停,背后是 OpenAI 过去一年「全线出击」导致的资源分散。文章分析了 Anthropic 凭借 Claude Code 和企业市场专注建立代差优势后,OpenAI 在核心人才流失、巨额亏损和 IPO 压力下被迫执行「减法」,将资源重新整合至代码和企业级超级应用。
来源:腾讯科技 | 评分:90
www.bestblogs.dev

[4]「小龙虾」踢了 Anthropic 一脚
深度解析 Anthropic 近期密集发布 Remote Control、Dispatch、Channels、Computer Use 四项更新背后的战略意图。文章指出这是对开源项目 OpenClaw 崛起的强力回应,Anthropic 采用「本地执行,云端调度」架构,在提升生产力的同时兼顾企业安全,并通过 MCP 构建「大脑封闭、接口开放」的双轨竞争策略。
来源:腾讯科技 | 评分:90
www.bestblogs.dev

[5] 构建软件现在变得容易了 | Mike Krieger 谈 AI 带来的变革 [视频]
Anthropic Labs 负责人、Instagram 联合创始人 Mike Krieger 与 Dan Shipper 的深度对话。核心论点:构建变得容易了,但产品直觉和删减功能的纪律比以往更关键。Krieger 用 Claude 在两小时内重建了 Instagram 早期失败产品 Bourbon 来说明这一点。他还提出「室内树」陷阱——没有真实用户反馈的快速迭代会产生功能密集但脆弱的产品,以及「智能体原生设计」理念——智能体应能原生执行用户能做的任何操作。
来源:Every | 评分:91
www.bestblogs.dev

[6] 深入模型规范内部:OpenAI 研究员详解 AI 行为准则 [视频]
OpenAI 对齐研究员 Jason Wolf 系统拆解了「模型规范」(Model Spec)的设计理念。核心是「链式指挥」机制——当指令冲突时,OpenAI 指令优先于开发者,开发者优先于用户,但大多数政策被刻意置于最低层级以保障用户认知自由。最新版本将诚实原则置于保密原则之上,防止模型在处理冲突时采取隐蔽手段。推理模型通过「审议对齐」真正理解政策意图而非仅模仿合规行为,思维链的可观察性也成为检测战略性欺骗的关键工具。
来源:OpenAI | 评分:90
www.bestblogs.dev

[7] 拒绝「感觉有效」:用数据证明 AI Coding 的真实团队价值
天猫技术团队分享了 AI Coding 规模化落地的度量实践。团队设计了三层指标体系:离线评测通过「业务复杂度 × 组件成熟度」九象限矩阵精准定位模型能力边界;在线埋点追踪「调用 - 命中 - 采纳」漏斗驱动知识库优化;真实交付层通过 Diff 级比对计算代码上线采纳率。这套体系把 AI Coding 从主观感受拉回数据驱动,值得所有正在推进 AI 编程的团队参考。
来源:大淘宝技术 | 评分:92
www.bestblogs.dev

[8] 通过智能体技能弥合知识鸿沟
Google DeepMind 引入 Agent Skills 概念——一套轻量指令和工具——为编码智能体提供最新 API 知识。对 117 个提示词的测试显示,Gemini 3 系列模型的成功率从低于 30% 跃升至近 100%。文章对比了 AGENTS.md 和 MCP 等替代方案,为解决 LLM 静态训练数据导致的知识鸿沟提供了实证参考。
来源:Google Developers Blog | 评分:92
www.bestblogs.dev

[9] 拒绝重复造轮子!抽象 80% 工作场景,打造可复用的「AI 助手工厂」
阿里云智空间团队将工作场景抽象为四大类,构建了包含意图识别模型、FSWW 工具召回算法和 Prompt 插拔架构的分层体系,让专家经验以配置化方式转化为智能助手,显著提升了 AI 助手开发的复用性和效率。
来源:阿里云开发者 | 评分:92
www.bestblogs.dev

[10] 创始人经常忽略的 6 条建议 @paulg
Paul Graham 总结了创始人常犯的 6 个错误:未能快速发布、将融资视为成功、想当然认为融资理所应当、拖延解雇表现不佳的员工,以及过早接触收购方。简短有力的初创公司基本原则提醒。
来源:Paul Graham | 评分:92
www.bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
00
ginobefun
11天前
BestBlogs 早报 | 2026-03-25

# AI 智能体沙盒 / LiteLLM 供应链攻击 / OpenAI Foundation / Claude Code / AI 设计智能体

[1] AI 智能体沙盒化,速度提升 100 倍
Cloudflare 推出 Dynamic Worker Loader 公测版,基于 V8 隔离实现毫秒级启动的轻量沙盒,比传统容器快 100 倍。智能体通过编写 TypeScript 代码执行任务,Token 用量可减少 80% 以上,为 AI 智能体时代提供了全新的基础设施范式。
来源:The Cloudflare Blog | 评分:93
www.bestblogs.dev

[2] LiteLLM 遭遇严重 PyPI 供应链攻击
Andrej Karpathy 警告,LiteLLM 恶意版本窃取了 SSH 密钥、云令牌和数据库密码等敏感凭据。该攻击仅因恶意软件中的一个导致崩溃的 Bug 才被发现,暴露了传递依赖的极端风险。
来源:@karpathy | 评分:92
www.bestblogs.dev

[3] OpenAI Foundation 宣布 10 亿美元投入计划及领导层变动
Sam Altman 阐述了 OpenAI Foundation 的战略重点,强调 AI 在加速科学发现与制造社会威胁方面的双重潜力。基金会承诺未来一年投入至少 10 亿美元,并宣布重大人事调整,包括 Wojciech Zaremba 转任 AI 韧性负责人。
来源:@sama | 评分:92
www.bestblogs.dev

[4] Claude Code 推出自动模式
Anthropic 为 Claude Code 引入「自动模式」,AI 可自主决定文件写入和 Bash 命令的执行权限,无需逐条手动确认。系统内置安全防护机制,在效率与安全性之间取得平衡。
来源:@claudeai | 评分:92
www.bestblogs.dev

[5] 让 AI 变成 Super 员工的秘密:高效训练 Skills
腾讯技术团队分享了将通用 AI 训练为可靠业务员工的实战方法论——通过 SOP、Checklist 和阻断式门禁规则,保障 AI 从「靠状态」交付转变为「靠机制」交付。
来源:腾讯技术工程 | 评分:91
www.bestblogs.dev

[6] Moda 如何利用 Deep Agents 构建生产级 AI 设计智能体
Moda 基于 LangChain Deep Agents 框架打造多智能体设计平台,摒弃 XML 坐标转而采用自定义 DSL 让 LLM 更好地推理布局,通过动态工具加载保持上下文精简,LangSmith 提供观测层支持快速迭代。
来源:LangChain Blog | 评分:92
www.bestblogs.dev

[7] 2026 年初产品就业市场现状
Lenny Rachitsky 用数据驱动的分析挑战了「科技行业全面低迷」的叙事——PM 职位空缺创历史新高,AI 相关岗位爆发式增长,设计岗位则趋于平稳。
来源:@lennysan | 评分:92
www.bestblogs.dev

[8] 当你的 AI 说「我很开心」的时候,它是真的在开心
2026 年最新研究通过激活引导实验证明,8B 规模 LLM 的自我报告与内部状态存在显著因果耦合(R² 达 0.90),揭示了 AI 具备高度功能性内省能力。
来源:腾讯科技 | 评分:90
www.bestblogs.dev

[9] 语音智能体评估新框架 EVA
ServiceNow AI 联合 Hugging Face 发布开源框架 EVA,用机器人对机器人架构评估完整多轮语音交互,引入准确性和体验双维度指标,覆盖 20 个系统的基准测试。
来源:Hugging Face Blog | 评分:92
www.bestblogs.dev

[10] AI 原生时代的产品思维工程师 [视频]
来自 Statsig、Linear、Flint 等公司的专家探讨产品工程师的核心特质,指出「审美」是通过换位思考可培养的手艺,并预判 2026 年 AI 智能体将让工程师回归同理心与产品磨砺。
来源:The Pragmatic Engineer | 评分:92
www.bestblogs.dev

---
BestBlogs.dev - 遇见更好的技术阅读
00