即刻App年轻人的同好社区
下载
App内打开
盖文Z
204关注783被关注0夸夸
AI产品 ex美团|清华NLP硕|INTJ
希望和AI做些有意思的事
🌌&📷&🐱
盖文Z
00:14
AI 产品真的得在 Day 1就考虑商业化,也得 Day 1就开始算账

有人愿意付费才能证明不是伪需求

钱算明白才能知道产品要如何往能让“价值/token”最大化的方向走,Agnet 要如何设计怎么才能在“效果-效率-成本”上达到平衡
00
盖文Z
22天前
IIya 的原视频,从中感受到的语气、神情、当然还有他所讲的所有内容真的很有意思,也是看任何总结性的文章无法替代的
【Emotion is the value function】
从最简单的来讲,人做对了事情 happy,做错了事情 sad
对于 RL, 做对了事情得分,做错了事情不得分(或减分)
但情绪真的是简单的+1或者-1能代替的吗?
显然不是,情绪本身比起数字好像更像一个复杂的函数,也就是 IIya 提到的这个 value function
随着年龄的增长,人们越来越也多是做自己喜欢的事情,而不一定是对的事情,更何况有对错之分的事情本来就是少数
(看视频的时候 IIya 总有种给人对于这个函数的探索有了一定的进展)
【The Age of Research】
Attention transformer AI 进入了 the age of scaling
但对比不需要大量数据就能学习和泛化的人类,基于 Attention AI 明显还差些意思
Ilya 觉得人类的大脑其实就是从算法层面更强的 ML model,the age of research 就是找到下一代的 “Attention”,然后再次进入 the age of scaling
到时候人类可能只能因人对猫猫狗狗的怜爱而存活,这个时间点还是晚点来吧……
00
盖文Z
1月前
作为产品,最近发现90%的工作都已经可以由Claude Code完成了,但涉及到用需要用AI批量处理数据,还得靠飞书多维表格这样一个“数据库”来承载数据,也更需要一个“界面”来展示和交互结果。

这两天注意到飞书多维表格上线了 “应用模式”。在这个功能身上,看到了多维表格的形态正在从表格这个“数据容器”(Data Container)向“系统”(System)演进。

过去用表格本质上是在操作数据,而“应用模式”的出现意味着飞书试图将表格这一形态,通过应用模式,以更符合直觉的GUI形式呈现。它不再局限于二维的行列,而是提供了包括功能图标、可视化图表、甚至按钮在内的原子组件。这意味着能利用组合布局,将原本枯燥的数据表,重构为一套带有 Dashboard 属性的专属业务 App。通过“可视化”与“可交互化”,进一步降低了人与数据的交互成本。

接下来更期待的是——一句话让AI搭建多维表格,甚至搭建整个应用。目前来看飞书的AI定制系统的基建拼图已凑齐。这也是目前看到国内toB最接近“One Prompt to App”的了(根据之前了解到的飞书应该也有人正在做相关的事情了)

接下来,可能就等doubao在系统操作上的能力追平Claude Sonnet 4.5了
34
盖文Z
2月前
看完了Manus在10月中的视频,被Manus毫无保留的分享精神震撼到了!

不同于之前的那篇tech blog,视频真的基本上已经把Manus是如何做通用Agent的,从架构层面到具体的方法,结合大家在做Agent遇到的一些共性问题,都毫无保留的分享给大家了!任何做通用Agent,甚至是做任何Agent的从业者都能有很大的帮助!真的respect!

然而B站才1,000出头的播放量…

hidecloud: 最近 @PeakJi 和 Langchain 一起合作了一期 webinar,讲解 Manus 在 context engineering 上的一些探索。希望给从事这个领域的同学一些启发。

22
盖文Z
2月前
在skills出现前,一直觉得memory是非常重要的一环。但在skills出现后,某种程度上skills可以作为一种更主动、更可靠的memory,在一些效率场景下有没有memory也不是那么的重要了
20
盖文Z
3月前
Claude 4.5! Agentic AI ➡️ Systematic AI初见端倪!

盖文Z: 上半年在即刻发表了一些暴论,对大模型训练的发展方向、交互方式都做了些“畅想”,回看发现不少想法已然被实现。尤其是在上周Kimi K2发布后,回看时突然发现很多核心思想和3/22的这篇“不谋而合”。更后悔当年没做大模型算法了,当然如果有这方面的产品机会也可以联系(开个小玩笑)。想结合这篇帖子,对下半年模型的发展趋势胡乱猜想一番。 其实模型的能力(完全通过模型的输出实现)和发展趋势,仍然可以总结为3/22帖子中提到的两点,因为这也是新数据的生成方式: 1. 模型和人的交互:纯文本 → Markdown格式的文本 → 前端页面的GUI 2. 模型和世界的交互:纯文本 → 工具调用 截止目前,回过头来看看模型过去的发展节奏,似乎都符合这个“范式”:人们使用模型的方式 → 生产了新能力和模型的交互数据 → 数据作为语料被模型内化成为新模型 【Stage1】模型内化文本:人和模型对话 → “对话型”大语言模型(ChatGPT、GPT3.5等) 【Stage2】模型内化CoT:人构建Prompt(CoT)作为模型的输入从而得到更好的结果 → 生产大量的带有CoT的数据 → “推理型”大语言模型(GPT o系列、DeepSeek R1等) 【Stage3】模型内化工具调用:人构建Workflow使模型可以调用工具完成任务 → 生产大量的带有工具调用的数据 → “Agentic型”大语言模型(Claude 4、Kimi K2等) 而每一次模型“范式”的进步所产生的数据,都可以进一步的作为“语料”,训练出更强的“base model”。当前【Stage3】其实也才刚刚起步,但这个阶段迭代时间在快速缩短,核心原因是当前不仅仅人能产生数据了,模型自身也可以生成可用的“合成数据”了,甚至比人生产的数据质量更高,例如Kimi K2就是通过这种方式来训练了,让一个Agent模拟用户使用工具,生成模型使用工具的数据。在有了“人的生产数据”+“模型的合成数据”后,下半年比较明显的一大趋势是,模型Agent相关的能力会越来越强,目前还会经常遇到的一些问题,如“工具调用出错”、“工具调用准确率低”等,可能下半年(比如在GPT-5发布后)被解决。 那么接下来不妨再往更远的方向看看,【Stage4】可能会是什么呢?不妨先看看我们现在人们在用模型构建什么 —— 在构建系统的上下文,且越来越“系统化”的构建上下文。为了进一步提升模型和人交互、和世界交互的广度和深度: 1. 模型和人的交互:纯文本 → Markdown格式的文本 → 前端页面的GUI → 带有完整前、后端的GUI(现在已经有大模型公司这么做了,例如MiniMax的Agent) 2. 模型和世界的交互:纯文本 → 工具调用 → 复杂环境下的多工具调用(可能是操作系统级别的) 以下为纯个人的“猜想”:【Stage4】可能会是模型内化系统上下文:人构建上下文使模型可以完成更复杂的任务 → 生产大量的带有系统上下文的数据 → “Systematic型”的大模型。即模型能作为操作系统,完成操作系统级别的复杂交互。你给他的上下文越多,他能干的越多。换句话说,限制模型能力的已经不再是模型能力,而是在传统工程系统中的“AI渗透率”。 那模型到时候能干什么?想一想,给你了mac/window,你在做什么呢?

00
盖文Z
4月前
模型、产品可能本身并不存在谁更优先,只是不同公司,定位不同罢了

对于做模型的公司来说,模型即产品,模型能力是决定用户体验最关键的因素,没有之一

对于做模型应用的公司来说,所有模型都能用,Agent即为产品,如何通过Agent发挥模型能力交付更优质的结果是决定用户体验最关键的因素,可能也没有之一
(最近使用Claude Code/Cursor/我司的CatPaw,确切的感觉到了同一模型在结果交付上犹如鸿沟一般的巨大差距)

对于做模型的公司,到底做不做第一方的应用?做什么样的第一方应用?Claude给的答案应该就是标准答案了,做能帮助提升模型能力的产品(OpenAI真可以算是个负面教材了)
31
盖文Z
4月前
或许把claude code改名叫claude agent,再简单来个能交互的前端包装包装,真的能成为目前离agi最近的一个agent

1. 构建一个小的file system作为上下文(把一个项目所需要的文件和目录整理归纳好,然后用cursor打开根目录)
2. 在cursor终端中打开terminal,启动claude code
3. 输入你的需求

这就是目前我自己作为个人感觉离agi最短的路径,甚至在处理某些事情时,得到的结果给我一种“这已经可以算作agi了吧?”的做梦般的感觉。

但是我还想等等,等gpt5发布,毕竟它是openai,或许能带来更大的惊喜,或许真的就…但等到的却是一个让人有点无话可说的结果…或许gpt5在coding上是追上来了一些,但在以文字为输出的general task上实在是……哎😮‍💨
42
盖文Z
5月前
先不谈coding,有Cursor和Claude Code同时给我打工(处理文件/写文档/…),我感觉我无敌了🤣
01
盖文Z
5月前
模型越来越智能,而普通人和模型之间的信息差也将越来越大
01