yan5xu的个人主页

即刻App年轻人的同好社区

下载

App内打开

yan5xu

57关注224被关注0夸夸

🤖 AI 野生研究员｜ex manus&monica
内容仅代表个人观点，和公司无关
vx：cplife

置顶

yan5xu

6月前

说一个在前司的观察：搞应用的，天天手动拼 prompt、管理上下文，去提高prompt cache 命中率，都快卷的没招了，实际就是在模拟“状态”。这全赖底层的推理 API 还是最原始的 stateless 形态。
所以我有一个强烈的预感：
下个能掀起波澜的 AI 产品，会是一个深度结合推理和应用层的怪物，把状态管理、KV Cache 复用做到极致，当别人还在为优化 10% 的 prompt 成本而沾沾自喜时，它在推理层通过“降维打击”的方式，用更少的成本获得了 10 倍的性能。从此之后再也不会有人认为 AI 应用是简单的套壳了

9 12

yan5xu

16天前

Kimi K2.5 第一次让我体会到被模型支配的恐惧。

我一直认为大多数 LLM 应用，本质就是三件事：信息收集、信息处理、信息呈现。
过去一批 AI PPT / DOC 产品的核心卖点，其实主要就在“呈现层”：更好看的版式、更统一的视觉、更像交付的包装。

Kimi K2.5 直接把这个赛道终结了，它把“有品味”的端到端生成打成了通用能力——结构、布局、配色、组件、图表，甚至动效/交互，都能一次性产出到可用水准。

而这批 AI PPT/DOC 产品本身就是一层“用 HTML 把内容呈现得更像样”的壳，再叠加模板与工程化的审美。

当模型可以直接生成高质量的 Web 文稿/演示页面时，这层壳就不再稀缺了：
你原来卖的“更好看的 HTML 文档/slide”，变成了模型顺手就能给到的默认结果。
用户要的不是文件格式，而是信息被清晰、有审美地呈现；而 Web 作为载体，能力上天然更强（版式自由度、交互、滚动叙事、动态图表、响应式、多端适配）。
于是很多交付形态会直接从“一个文件”变成“一个链接”：打开就是完整的演示/报告/说明书。

所以，被 Kimi K2.5 干死的不是“PPT/DOC”这种需求，而是那批把价值集中押在“呈现层（HTML 渲染 + 模板审美）”的 AI PPT/DOC 产品，不是被更好的模板打败，是被更强的通用生成能力抽走了溢价。

出路也很直接：呈现会越来越不重要（因为大家都一样），真正能站住脚的，要么往上游做信息收集/信息处理（数据、知识、行业工作流），要么往下游占据内容栖息地与流通系统（权限、协作、审批、分发、沉淀），也就是飞书/Notion 这类平台层的能力。

1 10

yan5xu

16天前

感觉 k2.5 会取代 3flash 啊，被光速打脸了

yan5xu: gemini 3 flash 在大家没注意的时候，已经节节攀升，现在已经进入到会碰到全球 429 的状态了。上一次我看到这个情况，还是在 sonnet 制霸时期。😂感觉又到了要和模型厂商抢资源的时候了。

2 20

yan5xu

16天前

openai 产品能力强是啥时候的共识。难道因为 chatGPT？chatGPT 强难道不是因为当时 gpt 断档强吗？除此之外 openai 还有啥产品成功过呢

1 00

yan5xu

17天前

gemini 3 flash 在大家没注意的时候，已经节节攀升，现在已经进入到会碰到全球 429 的状态了。上一次我看到这个情况，还是在 sonnet 制霸时期。😂感觉又到了要和模型厂商抢资源的时候了。

4 22

yan5xu

18天前

mark 一下，昨天是 2026 年第一个 aha moment，突然就悟了，什么就 TMD 严肃程序员的 vibe coding。

4 10

yan5xu

19天前

年底了，肝出火花！

1 00

yan5xu

5月前

发现一个邪门的 chatbot 技巧。
在润色推特文案的时候，我会设定 bot 的角色--“我的助理，mit LLM 在读博士”。当涉及到其他行业，我就会😂让他“找同学”；比如投融资，就让他问问在哈佛商业学院的“同学”，效果不错～

2 00

yan5xu

6月前

每次写压缩相关的内容，都会想起游戏史中红白机马里奥是如何极致优化存储空间，和后来介质发展后，CG 游戏大当其道的历史；所以什么时候要专注于优化，什么时候要提前赌技术发展，真的考验眼光。

yan5xu: LLM 优化，常用技巧是压缩，有两个相反操作路径。 1, 对输入进行压缩，常见于旗舰级模型，用概念替代大段描述；李继刚“神级 prompt”是典范，"Oscar Wilde" "鲁迅" "林语堂"替代行文风格；难度在于对概念的抽象理解和积累，并且需要反复尝试，跨模型适配差； 2. 对输出进行压缩，适用于所有模型，尤见于 agentic 产品，用精准封装的 tools 替代agent 完整执行任务；难度在于 tools 尺度的选择，太少没效果，太多又会占据注意力，导致效果劣化，考验设计哲学；

1 00

yan5xu

6月前

LLM 优化，常用技巧是压缩，有两个相反操作路径。
1, 对输入进行压缩，常见于旗舰级模型，用概念替代大段描述；李继刚“神级 prompt”是典范，"Oscar Wilde" "鲁迅" "林语堂"替代行文风格；难度在于对概念的抽象理解和积累，并且需要反复尝试，跨模型适配差；
2. 对输出进行压缩，适用于所有模型，尤见于 agentic 产品，用精准封装的 tools 替代agent 完整执行任务；难度在于 tools 尺度的选择，太少没效果，太多又会占据注意力，导致效果劣化，考验设计哲学；

3 14

yan5xu

6月前

别卷了😲 学不动了

静怡Lisa: 上午学习了朋友发表的最新论文。他们提出了一个端到端的 RL 框架 MEM1，可以让 Agent 在超长、超多轮的任务里，始终用“恒定大小”的内存运行（图1），不会像传统 LLM 那样一路“背历史包袱”。MEM1 的设计思路是将“记忆整合”和“推理决策”融于一体，每走一步就主动对记忆来一遍“断舍离”，不需要外部记忆模块，极大提高效率。Agent 只需要维护自己上下文里的一个内部状态（<IS>），而这个< IS>里面，只保留模型判定为最关键的信息。（图2）为了激励 Agent 学会高效地整合状态，环境会被设计成：只有当Agent能有策略地保留并整合有用信息时，才能获得奖励。Agent无法访问全部历史上下文，因此必须学会将相关知识保存在内部，并不断地自我更新，才能最终拿到奖励。模型引入了一种 mask机制，确保每个token只能关注到当前内存里被保留下来的内容。具体来说，对于任意一个token位置k，该机制会屏蔽掉那些不属于当前整合内存的历史token。（图2）从结果看，MEM1 在复杂长链任务中准确率、效率都大幅提升，尤其是任务目标数越多，优势越明显。推理时间更短，内存占用更小，实际部署中的成本就更低。（图3）而且，MEM1 还体现出了一定的泛化能力，可以 zero-shot transfer 到没见过的新任务上，且展现了 emergent behaviors，比如遇到死胡同会自己切换目标, etc. https://arxiv.org/html/2506.15841v2

1 10