即刻App年轻人的同好社区
下载
App内打开
orange.ai
373关注12k被关注8夸夸
CEO @火星电波
AI 降临派
AI First
凡事先用AI做一遍
orange.ai
1天前
10后小朋友用手机的方式让人震惊
开着全屏游戏+画中画开个短视频APP
说是单玩游戏太无聊了,在赶路的时候看看短视频…
3113
orange.ai
1天前
周五的时候,字节发布了扣子空间的公测。
我当时看完介绍视频,有感而发,写了一条朋友圈。
「恭喜 coze 找到了自己的新定位和飞书一样,都是你工作的好伙伴」
然后整个周末,群里都被三种内容刷屏。
求邀请码的,发邀请码的,吐槽服务器爆满的。

很多人都问我,扣子空间和 Manus 相比有什么优势?
我的回答是,扣子空间在国内生态扎根会更深,和飞书系列联动,和自家生成模型联动,和国内券商数据联动等。
真正让智能体差异化的,不是技术本身,而是生态和工具的不同。

但不管是 Manus 还是扣子空间,还是未来出现的 Agent 产品,他们都代表了一个美好的未来。
那些曾经占据我们80%时间的“执行性劳动”,正在被它温柔接棒,而我们终于能把最珍贵的创造力,留给真正重要的事。
Agent 的故事才刚刚开始,而我们,正站在见证未来的起点上。
当你不再被重复劳动消耗,当创意和灵感能被瞬间落地。
你会用这些多出来的时间,去完成怎样的“不可能”?

爆火的扣子空间里,藏着什么秘密?

02
orange.ai
1天前
美国的 AI 学术圈最近嗨起来了
强化学习之父 Richard S. Sutton AlphaGo 的领导开发者 David Silver 要通过麻省理工出版社发布新书《智能的设计》
其中的一个章节《体验时代》在网上疯传。
大家都说这是几年来读的最激动人心的篇章。

这个章节之所以引发广泛共鸣,是因为它不仅技术上前瞻,更在哲学上提出了一个令人振奋的命题:AI 不再是人类的影子,而是一个能自主成长、探索未知的智能生命体雏形。

《The Era of Experience》的 10 个精华要点:

1. 从“人类数据时代”迈入“体验时代”

AI 正从依赖人类数据训练(如 LLMs)转向依赖自身与环境互动所产生的经验数据。这种转变将打破人类知识的天花板,开启真正的超人类智能。

2. AlphaProof 的突破性案例

AlphaProof 通过与证明系统的互动,自主生成了上亿条数学证明,最终在国际数学奥林匹克中达到银牌水平,首次展示了“经验学习”超越人类数据的潜力。

3. “经验流”将取代短期交互

未来的 AI 不再是一次性回答问题的工具,而是像人类一样拥有“终身学习”的能力,能在长期目标下不断适应、优化和进化。

4. 丰富的动作与观察空间

AI 将不再局限于文本输入输出,而是通过传感器、API、用户界面等多种方式与世界互动,具备真正的“感知-行动”能力。

5. 奖励机制将“落地”现实

AI 的学习目标将不再由人类主观评分决定,而是基于现实世界的反馈信号(如心率、考试成绩、实验结果),实现真正“以结果为导向”的学习。

6. 非人类推理方式的崛起

AI 将发展出超越人类语言的推理方式,如符号、连续、可微分计算等,摆脱人类思维的局限,发现全新知识与策略。

7. 科学发现将被加速

AI 将能自主设计实验、运行模拟、分析结果,推动材料科学、药物研发、气候工程等领域的突破,成为“科学合作者”而非工具。

8. 安全性可能反而增强

体验智能体能感知环境变化、识别人类不满并自我调整,具备“自我纠偏”能力,避免固定系统在现实中失效。

9. 强化学习的全面复兴

文章呼吁回归强化学习的核心理念,并将其扩展到现实世界的复杂环境中,重拾价值函数、探索策略、世界模型与时间抽象等经典方法。

10. 体验数据将超越人类数据

最终,AI 自主生成的经验数据将远超人类数据的规模与质量,成为推动智能进化的主引擎。

https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

017
orange.ai
1天前
这是一个爱上 Dia 浏览器的周末。
感谢Super黄不遗余力的激情推荐。
虽然我一开始用 Dia 的时候觉得它就是个 Monica 而已。
但后来发现它的实际体验效果特别好,速度也速度快。
还完全消除了 Monica 各种侵入式的图标。
所以现在感觉它是个完美的 Monica?
现在还是免费体验期,可能也有加分。
也是在这周末 Dia 突然关闭了邀请。。。
53
orange.ai
2天前
这也太真实了吧...
121
orange.ai
2天前
周五的时候,字节发布了扣子空间的公测。
然后服务器就爆了一整天。
我很好奇基于国产模型的 Agent 能做到什么程度?
自己跑了几个实测。

第一个:处理文件,把 PDF 变成精美的演示网页。
扣子空间支持添加附件,我把一份88页的网民研究报告扔进去,让它做成一个精美的网页。
Prompt:
请分析报告中的重要数据,并用图表呈现数据,做成一个详尽的对外展示的精美的网页。

生成的网站包含四个模块,每个模块下都有丰富的数据,还贴心地绘制了带有小动画的图表。
00:33
48
orange.ai
2天前
《AI 的下半场》
最近非常重要的一篇文章
来自一线的 OpenAI Agent 研究员 yaoshunyu

文中提出了一些反共识的 Inshgts:

- 强化学习最重要的不是算法,而是先验知识:这颠覆了传统 RL 研究的重点。语言预训练提供的先验知识,是让 RL 泛化的关键,而不是我们几十年钻研的各种 RL 算法。

- 评估比训练更重要:过去 AI 社区关注如何训练出更强的模型,真正的挑战是定义“该做什么”和“如何衡量进展”。这意味着研究重点要转向问题设定和评估,而非模型本身。

- 通用配方会碾压大多数新方法:当前的“语言预训练 + 推理 + RL”配方已经能解决大多数任务,很多新提出的方法只带来小幅提升,甚至变得无关紧要。

- AI benchmark 设定与现实世界严重脱节:现实中的智能系统是连续互动、有记忆的,而现有评估设定(如 i.i.d.、自动化)忽略了这些关键特征,导致“智能水平提高了但效用没变”。

- 要像产品经理一样思考 AI:下半场的研究者需要具备产品思维,关注实际效用和用户体验,而不只是发表论文。这对传统学术研究者是一个挑战。

特别是RL的关键不是算法这一点,值得我们思考:

RL常被视为AI的“终局”——理论上能赢得所有游戏,现实中也确实推动了AlphaGo等超人系统的诞生。

RL有三大核心:算法、环境、先验。长期以来,研究者主要关注算法(如REINFORCE、DQN、PPO等),而把环境和先验当作固定或可忽略的东西。Sutton和Barto的经典教材几乎只讲算法,几乎不提环境和先验。

但在深度强化学习时代,环境的重要性逐渐显现:算法的表现往往高度依赖于所处环境。如果忽视环境,就可能开发出只适用于玩具问题的“最优”算法。那为何不先搞清楚我们想解决的环境,再去找最适合它的算法?

这正是OpenAI的初衷。他们开发了gym(一套标准RL环境)、World of Bits和Universe项目,试图把互联网和计算机变成游戏。听起来不错吧?只要我们把数字世界变成环境,用聪明的RL算法解决它,就能实现数字AGI。

计划虽好,但并不完全奏效。OpenAI在Dota、机器人手等方向取得了巨大进展,但在使用计算机或浏览网页方面始终不理想,RL代理在一个领域有效,在另一个领域就失效。缺了点什么。

直到GPT-2和GPT-3之后,我们才发现缺的是“先验”。我们需要强大的语言预训练,把常识和语言知识注入模型,然后再微调它们,变成WebGPT或ChatGPT(并改变世界)。结果发现,RL中最重要的部分可能既不是算法也不是环境,而是先验,而这些先验可以通过与RL完全无关的方式获得。

语言预训练提供了聊天的好先验,但对控制计算机或玩游戏的效果却不佳。为什么?这些领域离互联网文本分布更远,直接对这些任务进行监督微调或RL训练,泛化能力差。我2019年就注意到这个问题,那时GPT-2刚出,我尝试在其基础上用SFT/RL解决文字冒险游戏——CALM是全球第一个基于预训练语言模型构建的RL代理。但它需要上百万步RL训练才能通关一个游戏,且无法迁移到新游戏。这在RL里不奇怪,但我觉得奇怪——因为人类可以零样本玩新游戏并表现不错。然后我迎来了人生中第一个“顿悟时刻”:我们之所以能泛化,是因为我们不仅能选择“去2号柜子”或“用1号钥匙开3号箱子”,还可以选择去“思考”——“地下城很危险,我需要武器。看起来没有武器,也许在上锁的箱子里。3号箱子在2号柜子里,我先去那里。”

推理是一种奇怪的行为——它不会直接影响外部世界,但其空间是开放且组合爆炸的:你可以思考一个词、一句话、一段话,甚至一万个随机英文词,但世界不会立刻改变。在经典RL理论中,这是个糟糕的交易:想象你要从两个盒子中选一个,一个有100万美元,一个是空的,预期收益是50万。现在我加上无限个空盒子,你的预期收益变成了零。但如果我们把“推理”加入RL的行动空间,我们就能利用语言预训练的先验来泛化,而且可以灵活地在测试时使用计算资源。这真的很神奇,我在这里无法完全解释清楚,也许以后得专门写一篇文章。你可以读ReAct了解推理代理的原始故事,也可以读我当时的vibes。现在我直觉上的解释是:即使你见过无数空盒子,但这些经历让你在任何游戏中更容易选对那个有钱的盒子。抽象的说法是:语言通过推理在代理中实现泛化。

一旦我们拥有了正确的RL先验(语言预训练)和RL环境(将语言推理作为行动),RL算法反而成了最无关紧要的部分。于是我们有了o系列、R1、deep research、会用电脑的代理,以及更多即将到来的突破。多么讽刺啊!长期以来,RL研究者最关心算法,几乎没人关注先验——所有RL实验基本都是从零开始。但我们花了几十年才意识到,也许我们的优先级完全搞反了。

正如乔布斯所说:你无法预见未来的点如何连接,只能回头看时才明白。

The Second Half

915
orange.ai
3天前
Sam:
我认为现在的AI更像是文艺复兴而不是工业革命

我其实有点同意

当所有人都去卷效率的时候,效率会变的一文不值
当所有人都去卷文艺的时候,文艺复兴百花齐放

Robert 的回复也很好:
它们在同时进行。
11
orange.ai
3天前
Fellou 的定位是首个可以行动的浏览器
那就把一些脏活累活给它干

MCP 的一大痛点是申请各个服务的 API key
Fellou 去试试看

虽然中间实名字认证还是少不了我
但从找页面、创建应用,它确实都做到了。
52
orange.ai
3天前
一个东西那么难用,还有很多人坚持用
一定是因为它在某些方面做的太好了
自己体验一下才能发现
比如 MCP

体验这种的东西,用语言很难传递。
自己用的时候,会真的体验到脑子嗡的一下

这个协议让很多事情不再通过 UI 来做
就像默契的朋友之间不再需要语言沟通

会让你重新思考 interface 界面的未来
112