即刻App年轻人的同好社区
下载
App内打开
yzhuo
196关注580被关注4夸夸
builder wannabe
yzhuo
2月前
和之前楼天城所说的两种学习差异呼应 www.xiaoyuzhoufm.com

歸藏: Andrej Karpathy 说了一些他对 Deepseek R1 的看法,我顺手学习记录一下: DeepSeek 的成功验证了算法创新与资源优化的潜力,但计算能力仍是长期智能发展的核心驱动力。 强化学习的突现能力是模型突破人类认知边界的关键,而合成数据与 RL 的结合将进一步释放深度学习的可能性。 计算资源是深度学习智能的上限: 深度学习对计算资源的依赖远超其他 AI 算法,计算能力直接决定了长期可实现智能的上限。 核心论点: 不仅是单次训练需要大量算力,整个算法创新的实验过程也依赖持续的计算投入。 数据生成本质上也依赖计算(如合成数据、强化学习中的试错过程),计算能力间接决定了数据质量与规模。 数据与计算的深层关联:合成数据与强化学习的等价性 合成数据生成(如模型生成数据后筛选)与强化学习(试错学习)在本质上是相通的。 例如:模型生成数据后通过“优势函数”筛选,等同于强化学习中的奖励机制。 模仿学习 vs. 强化学习的差异: 模仿学习(Imitation Learning):通过观察和重复(如预训练、监督微调),能力上限受限于人类标注者的认知。 强化学习(Reinforcement Learning, RL):通过试错探索(如 AlphaGo 的自我对弈),能产生突破性、超人类的表现。 强化学习的“魔法”: RL 是深度学习突破性成果的核心驱动力(如 AlphaGo 击败李世石、模型在思维链中回溯与调整策略的能力)。 这些能力是涌现(Emergent)的,无法通过模仿学习获得,因为人类无法预先标注复杂的认知策略。 RLHF ≠ 强化学习: RLHF(基于人类反馈的强化学习)被过度简化,其效果有限,可能无法真正发挥 RL 的潜力。 Karpathy 认为当前 RLHF 的实现方式偏离了 RL 的核心优势。

00
yzhuo
2月前
要选择客观、透明、开放的环境。
00
yzhuo
4月前
long google
00
yzhuo
4月前
最近遇到一个和我感受很相反的事情,总觉得哪里不对,琢磨了一段时间终于有一点清晰了。起因是同事告诉我,当下一些事情没有推进,我可以不必等着让别人考虑,决策者的重心不在我关心的地方,我可以自己提需求,找其他同事帮我推进,虽然决策者不能考虑我关心的问题,但也没有拦着我。我觉得道理似乎是这么个道理,但为什么我的感觉是过去一直被困住了。

回顾了一下过去发生的事情,我好像发现了问题:1. 我的团队被少了两个人。2. 虽然我关心的事情不在决策者考虑的重心里,但他们会提出其他的需求,团队的部分精力被转移到了另外的事情上。3. 我的动力被逐渐消耗,为了证明一些非共识的事情,本来是需要更大的精力付出,没有很大的动力谁会愿意多做更多的事情。

被困住是因为精力总和是在塌缩,且当下组织的权利是个零和博弈。同事 offer 我的是一个可能突破零和的方法,即提供额外的权利和精力,它并不是一直就存在的。
00
yzhuo
4月前
“不要听一个人说什么”

我:“要看他做什么”。

“不,要听他没说什么” —— 曾听一个外国老爷爷这么描述中国人。

What’s most interesting about Chinese people is the subtlety.
00
yzhuo
4月前
AI coding 提效的另一方面在于你的工作发起不是写下第一行代码,而是描述出第一件要完成的任务。
00
yzhuo
4月前
今日遇到一件坏事:再一次看到人可以如何甩锅;一件好事:一年前认为高收益期望的事,终于能确认结果了。
10
yzhuo
5月前
能为自己的决策下注是最好的参与
00
yzhuo
5月前
选哪个?

Straw Man: one side creates a caricature of the other side’s argument and engages with that. They undermine the opposition by attacking the weakest part of the argument.

Steel Man: building the best form of the other side’s argument and then engaging with it. It’s being charitable and patching up the weaknesses in the other side’s proposition so that he can bring the best counter-argument to your point of view.

稻草人(Straw Man):一方将对方的论点进行扭曲,夸大或歪曲成一个易于攻击的版本,然后与这个失真的论点交锋。他们通过攻击论点中最薄弱的部分来削弱对手。

钢铁人(Steel Man):构建对方论点的最佳形式,然后与之交锋。这是一种善意的做法,修补对方论点中的弱点,以便你能够对你的观点提出最有力的反驳。

The Steel Man Technique: How To Argue Better And Be More Persuasive

00
yzhuo
5月前
10