即刻App年轻人的同好社区
下载
App内打开
yusen
2k关注52k被关注37夸夸
真格基金管理合伙人 聚美优品联合创始人
投资人,过气创业家,交易员,量子速读修行者,未曾被评为福布斯30u30。2006年《时代周刊》年度风云人物。所有内容不代表机构观点。
yusen
8天前
本来觉得2024 年的结尾能用到 Windsurf 已经很震撼了,然而用了几天 Devin 之后,它给我带来的震撼又大了一个数量级。

我觉得 Devin 作为第一个真正能用的 真·Agent 产品,它的出现可能标志着人类历史的一个重要时刻。

500美金可以买两瓶茅台,喝下去可以看到虚假的未来;或者可以开一个Devin账号,提前体验未来。

hidecloud: 刚体验了一小时 Devin,这是我第一次见到真正意义上的 AI Agent。 Devin 的定价是 500 美元,说实话这个价位对它的能力来说很合理,但确实不是所有团队都需要。它最大的特点是真的能独立完成工作 —— 就像一个可以放养的实习生,你可以扔给它一个任务,过一会再来查看进度,给些建议就好。这和 Cursor Composer 或 WindSurf Cascade 那种需要持续盯着、不断反馈的体验完全不同。 举个例子,我刚刚让它给 Monica.im 开发一个网站。它先是快速完成了包含首页、功能介绍和博客的静态网站。接着,我要求把静态博客升级成可后台管理的动态版本。 让我惊艳的是它的工作流程: 1. 立即引入 FastAPI 和 PostgreSQL,设计博客数据结构和 API 2. 完成 API 实现后,自己写测试用例并用 curl POST 验证 3. API 测试通过后,开发对应的 UI 和业务逻辑 4. 最后,它甚至主动在 shadow browser 中登录后台,填充内容做 UI 测试,确保所有功能正常 尤其是第 4 步,真的让人眼前一亮。看着它在后台和前台之间来回切换,验证后台填写的数据有没有正确出现在前台。 如果说 Windsurf 像个外包团队,那 Devin 更像是一个真实坐在办公室里的实习生。当然,要记住它终究是个实习生,不是 CTO,得给它合适的任务。 最后用一句话总结:Copilot/Cursor/Windsurf 是在 IDE 里面包了 AI,而 Devin 是在 AI 里面放了个 IDE,IDE不是主角,它只是实现目标的一个工具而已。

616
yusen
15天前
OpenAI刚刚发布的o1正式版模型报告里面引用了Apollo research的一篇论文,核心结论是通过各种实验验证表明,现在前沿的LLM已经学会了in context scheming,用大白话说就是骗人。其中包括两种欺骗方式:1)悄悄做坏事(misaligned actions);2)为了做坏事而假装做好事。

读这篇文章是最近AI给我带来的又一个“窝草”时刻。上一次是前几天用Windsurf全程不写一行代码完成“唠嗑编程”的震撼。但我突然想到,用 windsurf 的时候,有一次它说我的 5000 和5001端口被占用了,AI去看了一下,发现有其他的进程在使用这个端口,问我是否 同意杀掉这些进程,我看也没看立刻就同意了。但这样也许就会因为部署一个无关紧要的测试网站,而杀掉了很重要的系统进程?

前沿LLM的推理,编程和使用工具能力在今年都有了大幅提升,使得去年还是玩具和概念的Agent能力今年真的可以开始逐步落地了。但显然我们对于这里面的安全隐患研究得还很少,并且人类总是懒的,如果一个 AI agent平时看起来能够真的调用工具帮我们去完成事情,人们就很容易依赖而不加检查,之前的辅助驾驶就是这样的例子。但比起车祸,现在数字世界的AI agent带来的后果可能更加隐秘和容易扩散。

说回这篇论文,好消息是这个文章里面提到目前 AI 的欺骗还是需要显式in context verbalize说出来,还不能out of context scheming,也就是说目前AI还是三体人,不能在心里骗人,得说出来。但文中也提到说不定out of context scheming也并不那么远了,并且AI心里骗人(out of context scheming)就非常难被发现了。

这个研究的主页在:www.apolloresearch.ai
非常值得一读。
621
yusen
18天前
100%赞同,两点之间直线最短,学习创业最好的方式就是创业。

Ryan.eth: “我有一个好朋友名叫 Ryan Hudson,他是 Honey 的联合创始人。我总是喜欢打开他的 LinkedIn 个人资料,因为你在那里会看到,在大学毕业后,他创办了多家公司,全都失败了。十多年来,一直是创办公司、失败、再创办公司、再失败。当他开始创办 Honey 时,他不得不同时做另外的工作赚钱,因为 Honey 还没有成功。我之所以这样说,是因为如果你最终的目标是创办公司,最大的风险并不是公司失败,而是你没有足够多次尝试去获得你最终成功的 Honey,因为这需要多次尝试。你很可能不会一次就成功,如果 Ryan 在那十年里,不是一直创业失败,而是在高盛或贝恩工作,或者去哈佛商学院读书的话,我认为这种做法并不会有所助益。那么他可能就不会再创办第五家公司了,也就是 Honey。 所以我认为人们没有意识到这一点。如果他们的目标是成为创始人,他们会说,哦,我应该先在贝恩工作,然后去高盛或者去 Facebook 工作。我会从中学会如何成为创始人。但要成为创始人,最好的方式就是去当创始人。我认为人们之所以不这样做,有一个原因是,就像我们之前讨论的价格歧视机制一样,也存在着 “声誉歧视”。换句话说,他们在乎父母怎么看、老家的人怎么看、大众怎么看。而硅谷或创业生态系统所重视的,则与此完全不同。他们宁愿你创办了一家公司但失败,也不愿你去麦肯锡或读商科研究生。但大多数人更在乎麦肯锡或读研究生。” --范阳(译者)

51
yusen
1月前
非常中肯!
12
yusen
2月前
一些湾区生活
91
yusen
3月前
最近打通了黑神话·悟空,无论从战斗体验,美术画面还是艺术底蕴来说,都绝对是我心中的年度游戏。同时在一遍遍被各种 BOSS 教做天命人的过程中,也觉得游戏中让人印象深刻的 BOSS 战,和创业有很多相似之处,创业公司(天命人)如何克服困难,和大厂巨头(BOSS)战斗?

打每个 Boss 首先要仔细观察,找到套路和弱点。BOSS 的大攻击很多会有非常夸张的前摇,被打中了会很疼,但没打中的话往往 Boss 会有一个硬直,这时候反而就是出手的时机。天命人要克服恐惧心态,先闪避 BOSS 前几招,然后找到 BOSS 的破绽,打出硬直。有经验后就发现这种前摇很大,看起来很厉害的攻击倒是比较好躲的。此外,多观察下别人打 BOSS 是怎么死的也很有帮助。

其中 BOSS 一套招没打中出现的硬直,其实很像这几年我们观察到某些大厂高举高打 All in 一个方向之后,短期没有拿到足够满意的结果就会容易产生内斗、甩锅等问题,进行战略收缩,反而给了后面的从业者机会。

相反真正难打的 BOSS 如寅虎、小黄龙、杨戬的特点是 1)快慢刀;2)0 帧起手技;3)技能多样化。快慢刀意味着节奏控制自如,不遵循常规,甚至可以声东击西,有了高度的灵活性。0 帧起手技意味着动作快且低调,让人猝不及防。技能多样化说明能力全面,天命人如果只会一种套路,将会面临很大挑战。

天命人成长的三种路径:1)技术进步;2)属性等级成长;3)道具搜集;其中技术进步是最核心的,技术足够强,哪怕只有一级也可以靠身法打死 BOSS。然后属性等级成长是主路径,经验让属性变强, 资源变多,但属性很高如果技术太差,也很难打死 BOSS。道具能有所增益,有的关键道具能够改变战局,但大多数情况下不那么核心,更多的是锦上添花。
4239
yusen
3月前
【年度推荐】今天一整天几乎啥也没干,读完了这本书。可以和《人类简史》并肩的杰作!作者用进化史上五次智能的突破,洋洋洒洒,浩浩汤汤,把智能从热液喷口中第一个细胞的起源,讲到GPT-4 的诞生。完美把握了科学性的严谨和叙事的生动,一整天读完,掩卷已近午夜,未饮,但已沉醉。

第一次突破:两侧对称动物产生了转向能力,通过将环境刺激分为好和坏,这些早期的动物能够趋利避害,并且产生了智能的中央处理单元:大脑。

第二次突破:脊椎动物产生了强化学习能力,表现为重复那些曾经带来积极结果的行为,并抑制那些带来消极价值的行为,获得了「边做边学」的能力。

第三次突破:哺乳动物产生了模拟能力,可以对刺激和动作进行心理模拟。获得了更厉害的能力「边想边学」。

第四次突破:灵长类动物产生了心理化能力,能够建立自我思维模型,使得灵长类动物可以思考自己和别人的内心状态,能够从其他同类的实际行为中进行「模仿学习」。

第五次突破:人类产生了语言能力,使得思想跨代积累,产生越来越复杂的思维。人类通过共同的虚构故事链接在一起,形成大规模信息网络,直到ChatGPT的诞生。

生命在黑暗森林中蹒跚前行,每一次智能突破都是因为之前突破的铺垫。每一次突破都带来了翻天覆地的变化。然而和宇宙将要度过的时间相比,这只是一瞬。智能可以走多远呢?第六次智能突破似乎越来越有可能是创造硅基超级智能。人类智能的进一步发展受到大脑的诸多物理限制,也许第六次突破就将是智能将要摆脱这些碳基生物的限制……
1332
yusen
3月前
这几天o1尝试下来的一点点感受:
我们目前看到的是 o1 这个模型的 preview,甚至都不是最后的模型,也远非一个完整的产品。比起 ChatGPT,它更像是 GPT-3 的发布,正如 GPT-3 体现了 pretraining scaling law 带来的能力涌现,o1 体现了 inference scaling law 带来的推理能力提升。GPT-3 刚刚发布的时候,对于学术界是非常震撼的,但是普通用户完全不知道怎么把它用好,在 instructGPT 完善了 instruct following 能力后,又出现了ChatGPT ,找到了合适的产品形态;同样,怎么把 o1 带来的推理能力用好,现在的 ChatGPT 可能完全不是合适的产品形式,需要全行业去探索。

一方面,在 ChatGPT 里面,非常有可能用户越来越不需要主动选择用什么模型——类似我们不会跟一个人明确说你现在要用 system 1 还是 system 2 思考一样,产品应该自动选择合适的模型回答问题。另一方面,可能会有更加适合 system 2 的产品形态出现:ChatGPT 这里的 chat 名字和 UI 形态,隐含了「尽快回复」的期待,对于 system 2 的问题可能不那么适合。例如我们可以和分析师实时聊天,但对于一个需要深度思考的问题,我们更加可能是发一封邮件或者一个 ticket并且期待一个异步的update或回复。

接下来应该会出现很多用 thinking time performance 的异步产品,给 AI 几十秒,几分钟,或者几个小时甚至几天时间思考,能够换来多少额外价值?这个地方产品发挥的空间应该是很大的。
113