即刻App年轻人的同好社区
下载
App内打开
yan5xu
57关注224被关注0夸夸
🤖 AI 野生研究员 |ex manus&monica
内容仅代表个人观点,和公司无关
vx:cplife
置顶
yan5xu
6月前
说一个在前司的观察:搞应用的,天天手动拼 prompt、管理上下文,去提高prompt cache 命中率,都快卷的没招了,实际就是在模拟“状态”。这全赖底层的推理 API 还是最原始的 stateless 形态。
所以我有一个强烈的预感:
下个能掀起波澜的 AI 产品,会是一个深度结合推理和应用层的怪物,把状态管理、KV Cache 复用做到极致,当别人还在为优化 10% prompt 成本而沾沾自喜时,它在推理层通过“降维打击”的方式,用更少的成本获得了 10 倍的性能。从此之后再也不会有人认为 AI 应用是简单的套壳了
12
yan5xu
16天前
Kimi K2.5 第一次让我体会到被模型支配的恐惧。

我一直认为大多数 LLM 应用,本质就是三件事:信息收集、信息处理、信息呈现。
过去一批 AI PPT / DOC 产品的核心卖点,其实主要就在“呈现层”:更好看的版式、更统一的视觉、更像交付的包装。

Kimi K2.5 直接把这个赛道终结了,它把“有品味”的端到端生成打成了通用能力——结构、布局、配色、组件、图表,甚至动效/交互,都能一次性产出到可用水准。

而这批 AI PPT/DOC 产品本身就是一层“用 HTML 把内容呈现得更像样”的壳,再叠加模板与工程化的审美。

当模型可以直接生成高质量的 Web 文稿/演示页面时,这层壳就不再稀缺了:
你原来卖的“更好看的 HTML 文档/slide”,变成了模型顺手就能给到的默认结果。
用户要的不是文件格式,而是信息被清晰、有审美地呈现;而 Web 作为载体,能力上天然更强(版式自由度、交互、滚动叙事、动态图表、响应式、多端适配)。
于是很多交付形态会直接从“一个文件”变成“一个链接”:打开就是完整的演示/报告/说明书。

所以,被 Kimi K2.5 干死的不是“PPT/DOC”这种需求,而是那批把价值集中押在“呈现层(HTML 渲染 + 模板审美)”的 AI PPT/DOC 产品,不是被更好的模板打败,是被更强的通用生成能力抽走了溢价。

出路也很直接:呈现会越来越不重要(因为大家都一样),真正能站住脚的,要么往上游做信息收集/信息处理(数据、知识、行业工作流),要么往下游占据内容栖息地与流通系统(权限、协作、审批、分发、沉淀),也就是飞书/Notion 这类平台层的能力。
10
yan5xu
16天前
openai 产品能力强是啥时候的共识。难道因为 chatGPT?chatGPT 强难道不是因为当时 gpt 断档强吗?除此之外 openai 还有啥产品成功过呢
00
yan5xu
17天前
gemini 3 flash 在大家没注意的时候,已经节节攀升,现在已经进入到会碰到全球 429 的状态了。上一次我看到这个情况,还是在 sonnet 制霸时期。😂感觉又到了要和模型厂商抢资源的时候了。
22
yan5xu
18天前
mark 一下,昨天是 2026 年第一个 aha moment,突然就悟了,什么就 TMD 严肃程序员的 vibe coding。
10
yan5xu
19天前
年底了,肝出火花!
00
yan5xu
5月前
发现一个邪门的 chatbot 技巧。
在润色推特文案的时候,我会设定 bot 的角色--“我的助理,mit LLM 在读博士”。当涉及到其他行业,我就会😂让他“找同学”;比如投融资,就让他问问在哈佛商业学院的“同学”,效果不错~
00
yan5xu
6月前
LLM 优化,常用技巧是压缩,有两个相反操作路径。
1, 对输入进行压缩,常见于旗舰级模型,用概念替代大段描述;李继刚“神级 prompt”是典范,"Oscar Wilde" "鲁迅" "林语堂"替代行文风格;难度在于对概念的抽象理解和积累,并且需要反复尝试,跨模型适配差;
2. 对输出进行压缩,适用于所有模型,尤见于 agentic 产品,用精准封装的 tools 替代agent 完整执行任务;难度在于 tools 尺度的选择,太少没效果,太多又会占据注意力,导致效果劣化,考验设计哲学;
14
yan5xu
6月前
别卷了😲 学不动了

静怡Lisa: 上午学习了朋友发表的最新论文。他们提出了一个端到端的 RL 框架 MEM1,可以让 Agent 在超长、超多轮的任务里,始终用“恒定大小”的内存运行(图1),不会像传统 LLM 那样一路“背历史包袱”。MEM1 的设计思路是将“记忆整合”和“推理决策”融于一体,每走一步就主动对记忆来一遍“断舍离”,不需要外部记忆模块,极大提高效率。Agent 只需要维护自己上下文里的一个内部状态(<IS>),而这个< IS>里面,只保留模型判定为最关键的信息。(图2) 为了激励 Agent 学会高效地整合状态,环境会被设计成:只有当Agent能有策略地保留并整合有用信息时,才能获得奖励。Agent无法访问全部历史上下文,因此必须学会将相关知识保存在内部,并不断地自我更新,才能最终拿到奖励。模型引入了一种 mask机制,确保每个token只能关注到当前内存里被保留下来的内容。具体来说,对于任意一个token位置k,该机制会屏蔽掉那些不属于当前整合内存的历史token。(图2) 从结果看,MEM1 在复杂长链任务中准确率、效率都大幅提升,尤其是任务目标数越多,优势越明显。推理时间更短,内存占用更小,实际部署中的成本就更低。(图3)而且,MEM1 还体现出了一定的泛化能力,可以 zero-shot transfer 到没见过的新任务上,且展现了 emergent behaviors, 比如遇到死胡同会自己切换目标, etc. https://arxiv.org/html/2506.15841v2

10