盖文Z的个人主页

即刻App年轻人的同好社区

下载

App内打开

盖文Z

204关注783被关注0夸夸

AI产品 ex美团｜清华NLP硕｜INTJ
希望和AI做些有意思的事
🌌&📷&🐱

盖文Z

00:14

AI 产品真的得在 Day 1就考虑商业化，也得 Day 1就开始算账

有人愿意付费才能证明不是伪需求

钱算明白才能知道产品要如何往能让“价值/token”最大化的方向走，Agnet 要如何设计怎么才能在“效果-效率-成本”上达到平衡

8 00

盖文Z

22天前

看 IIya 的原视频，从中感受到的语气、神情、当然还有他所讲的所有内容真的很有意思，也是看任何总结性的文章无法替代的
【Emotion is the value function】
从最简单的来讲，人做对了事情 happy，做错了事情 sad
对于 RL，做对了事情得分，做错了事情不得分（或减分）
但情绪真的是简单的+1或者-1能代替的吗？
显然不是，情绪本身比起数字好像更像一个复杂的函数，也就是 IIya 提到的这个 value function
随着年龄的增长，人们越来越也多是做自己喜欢的事情，而不一定是对的事情，更何况有对错之分的事情本来就是少数
（看视频的时候 IIya 总有种给人对于这个函数的探索有了一定的进展）
【The Age of Research】
Attention 和 transformer 让 AI 进入了 the age of scaling
但对比不需要大量数据就能学习和泛化的人类，基于 Attention 的 AI 明显还差些意思
Ilya 觉得人类的大脑其实就是从算法层面更强的 ML model，the age of research 就是找到下一代的 “Attention”，然后再次进入 the age of scaling
到时候人类可能只能因人对猫猫狗狗的怜爱而存活，这个时间点还是晚点来吧……

7 00

盖文Z

1月前

作为产品，最近发现90%的工作都已经可以由Claude Code完成了，但涉及到用需要用AI批量处理数据，还得靠飞书多维表格这样一个“数据库”来承载数据，也更需要一个“界面”来展示和交互结果。

这两天注意到飞书多维表格上线了 “应用模式”。在这个功能身上，看到了多维表格的形态正在从表格这个“数据容器”（Data Container）向“系统”（System）演进。

过去用表格本质上是在操作数据，而“应用模式”的出现意味着飞书试图将表格这一形态，通过应用模式，以更符合直觉的GUI形式呈现。它不再局限于二维的行列，而是提供了包括功能图标、可视化图表、甚至按钮在内的原子组件。这意味着能利用组合布局，将原本枯燥的数据表，重构为一套带有 Dashboard 属性的专属业务 App。通过“可视化”与“可交互化”，进一步降低了人与数据的交互成本。

接下来更期待的是——一句话让AI搭建多维表格，甚至搭建整个应用。目前来看飞书的AI定制系统的基建拼图已凑齐。这也是目前看到国内toB最接近“One Prompt to App”的了（根据之前了解到的飞书应该也有人正在做相关的事情了）

接下来，可能就等doubao在系统操作上的能力追平Claude Sonnet 4.5了

9 34

盖文Z

2月前

看完了Manus在10月中的视频，被Manus毫无保留的分享精神震撼到了！

不同于之前的那篇tech blog，视频真的基本上已经把Manus是如何做通用Agent的，从架构层面到具体的方法，结合大家在做Agent遇到的一些共性问题，都毫无保留的分享给大家了！任何做通用Agent，甚至是做任何Agent的从业者都能有很大的帮助！真的respect！

然而B站才1,000出头的播放量…

hidecloud: 最近 @PeakJi 和 Langchain 一起合作了一期 webinar，讲解 Manus 在 context engineering 上的一些探索。希望给从事这个领域的同学一些启发。

4 22

盖文Z

2月前

在skills出现前，一直觉得memory是非常重要的一环。但在skills出现后，某种程度上skills可以作为一种更主动、更可靠的memory，在一些效率场景下有没有memory也不是那么的重要了

5 20

盖文Z

3月前

Claude 4.5！ Agentic AI ➡️ Systematic AI初见端倪！

盖文Z: 上半年在即刻发表了一些暴论，对大模型训练的发展方向、交互方式都做了些“畅想”，回看发现不少想法已然被实现。尤其是在上周Kimi K2发布后，回看时突然发现很多核心思想和3/22的这篇“不谋而合”。更后悔当年没做大模型算法了，当然如果有这方面的产品机会也可以联系（开个小玩笑）。想结合这篇帖子，对下半年模型的发展趋势胡乱猜想一番。其实模型的能力（完全通过模型的输出实现）和发展趋势，仍然可以总结为3/22帖子中提到的两点，因为这也是新数据的生成方式： 1. 模型和人的交互：纯文本 → Markdown格式的文本 → 前端页面的GUI 2. 模型和世界的交互：纯文本 → 工具调用截止目前，回过头来看看模型过去的发展节奏，似乎都符合这个“范式”：人们使用模型的方式 → 生产了新能力和模型的交互数据 → 数据作为语料被模型内化成为新模型【Stage1】模型内化文本：人和模型对话 → “对话型”大语言模型（ChatGPT、GPT3.5等）【Stage2】模型内化CoT：人构建Prompt（CoT）作为模型的输入从而得到更好的结果 → 生产大量的带有CoT的数据 → “推理型”大语言模型（GPT o系列、DeepSeek R1等）【Stage3】模型内化工具调用：人构建Workflow使模型可以调用工具完成任务 → 生产大量的带有工具调用的数据 → “Agentic型”大语言模型（Claude 4、Kimi K2等）而每一次模型“范式”的进步所产生的数据，都可以进一步的作为“语料”，训练出更强的“base model”。当前【Stage3】其实也才刚刚起步，但这个阶段迭代时间在快速缩短，核心原因是当前不仅仅人能产生数据了，模型自身也可以生成可用的“合成数据”了，甚至比人生产的数据质量更高，例如Kimi K2就是通过这种方式来训练了，让一个Agent模拟用户使用工具，生成模型使用工具的数据。在有了“人的生产数据”+“模型的合成数据”后，下半年比较明显的一大趋势是，模型Agent相关的能力会越来越强，目前还会经常遇到的一些问题，如“工具调用出错”、“工具调用准确率低”等，可能下半年（比如在GPT-5发布后）被解决。那么接下来不妨再往更远的方向看看，【Stage4】可能会是什么呢？不妨先看看我们现在人们在用模型构建什么 —— 在构建系统的上下文，且越来越“系统化”的构建上下文。为了进一步提升模型和人交互、和世界交互的广度和深度： 1. 模型和人的交互：纯文本 → Markdown格式的文本 → 前端页面的GUI → 带有完整前、后端的GUI（现在已经有大模型公司这么做了，例如MiniMax的Agent） 2. 模型和世界的交互：纯文本 → 工具调用 → 复杂环境下的多工具调用（可能是操作系统级别的）以下为纯个人的“猜想”：【Stage4】可能会是模型内化系统上下文：人构建上下文使模型可以完成更复杂的任务 → 生产大量的带有系统上下文的数据 → “Systematic型”的大模型。即模型能作为操作系统，完成操作系统级别的复杂交互。你给他的上下文越多，他能干的越多。换句话说，限制模型能力的已经不再是模型能力，而是在传统工程系统中的“AI渗透率”。那模型到时候能干什么？想一想，给你了mac/window，你在做什么呢？

3 00

盖文Z

4月前

模型、产品可能本身并不存在谁更优先，只是不同公司，定位不同罢了

对于做模型的公司来说，模型即产品，模型能力是决定用户体验最关键的因素，没有之一

对于做模型应用的公司来说，所有模型都能用，Agent即为产品，如何通过Agent发挥模型能力交付更优质的结果是决定用户体验最关键的因素，可能也没有之一
（最近使用Claude Code/Cursor/我司的CatPaw，确切的感觉到了同一模型在结果交付上犹如鸿沟一般的巨大差距）

对于做模型的公司，到底做不做第一方的应用？做什么样的第一方应用？Claude给的答案应该就是标准答案了，做能帮助提升模型能力的产品（OpenAI真可以算是个负面教材了）

10 31

盖文Z

4月前

或许把claude code改名叫claude agent，再简单来个能交互的前端包装包装，真的能成为目前离agi最近的一个agent

1. 构建一个小的file system作为上下文（把一个项目所需要的文件和目录整理归纳好，然后用cursor打开根目录）
2. 在cursor终端中打开terminal，启动claude code
3. 输入你的需求

这就是目前我自己作为个人感觉离agi最短的路径，甚至在处理某些事情时，得到的结果给我一种“这已经可以算作agi了吧？”的做梦般的感觉。

但是我还想等等，等gpt5发布，毕竟它是openai，或许能带来更大的惊喜，或许真的就…但等到的却是一个让人有点无话可说的结果…或许gpt5在coding上是追上来了一些，但在以文字为输出的general task上实在是……哎😮‍💨

9 42

盖文Z

5月前

先不谈coding，有Cursor和Claude Code同时给我打工（处理文件/写文档/…），我感觉我无敌了🤣

6 01

盖文Z

5月前

模型越来越智能，而普通人和模型之间的信息差也将越来越大

3 01