即刻App年轻人的同好社区
下载
App内打开
flash
64关注557被关注1夸夸
🏢 美团 AI 产品+技术
⚡ 负责 NoCode、CatPaw 干世界级产品
☕ wx: hi_the_flash
置顶
flash
5月前
2023.5 ~ 2025.4 学过的还不错的大模型原理严选清单,不难,放心学习。

一、图书系列,历史,第一性原理
1.《深度学习革命》 item.jd.com
2.《ChatGPT:人类新纪元》 item.jd.com
3.《深度学习入门:基于 python 的理论与实现》 item.jd.com
4.《深度学习中的数学》 item.jd.com
5.《深入浅出神经网络与深度学习》 item.jd.com
6.《深度学习进阶 自然语言处理》 item.jd.com
7.《这就是 ChatGPT》 item.jd.com

二、视频系列
2.1)零基础提认知,快速入门
1. Deep Dive into LLMs like ChatGPT www.youtube.com
2. Andrej Karpathy Let's build GPT: from scratch, in code, spelled out. www.youtube.com
3. Andrej Karpathy The spelled-out intro to neural networks and backpropagation: building micrograd www.youtube.com
4. Sebastian Raschka Building LLMs from the Ground Up: A 3-hour Coding Workshop www.youtube.com
5. 最好的致敬是学习:DeepSeek-R1 赏析 mp.weixin.qq.com
6. 深度学习之模型优化—理论实践篇 www.bilibili.com

2.2)系统性学习,需要花大量时间
1. coursera 吴恩达机器学习 专项课程 www.coursera.org
2. coursera 吴恩达深度学习 专项课程【5门】 www.coursera.org
3. coursera 无监督学习、推荐器、强化学习 www.coursera.org
4. 李宏毅 bilibili 系列视频 www.bilibili.com
220
flash
5天前
软件工程 swe bench verified 数据集的寿命到此终结
00
flash
15天前
Anthropic 自家的 Fin AI Agent 就跟傻子一样,谁用谁知道
00
flash
22天前
重新回归产品技术,继续猛干!
00
flash
29天前
AI Coding 当前落地最大的问题是模型的稳定性和实践的规模化之间的矛盾,中短期内还是依赖人
01
flash
1月前
美团 CatPaw,增量代码 AI 生成率超 50% 的秘密武器

https://mp.weixin.qq.com/s/I8AoM_lu6-2qxTWMbsDQZg

00
flash
1月前
一杯晚间咖啡
00
flash
1月前
美团自研 AI IDE Meituan CatPaw 发布啦,欢迎大家下载体验:catpaw.meituan.com
当前可下载 Mac 版本,Windows 版本将在下周发布!大家可以扫码加入用户群获取专属邀请码噢!
12
flash
2月前
2025.7.30 ~ 2025.10.12,两个半月,上下班+周末,进行 RL domain 一个 epoch CPT,耗时 100 human hours,dump check point,以下是训练轨迹和语料,自取。

一、书籍,可按顺序阅读
1. 📖《深度学习入门 4 强化学习》斎藤康毅,鱼书,数学公式少,有代码,极易入门
2. 📖《强化学习的数学原理》赵世钰,教材已翻译为英文,海外好评,数学公式多,原理强
3. 📖《深度强化学习》王树森,猫书,废话少,信息量大
4. 📖《大模型算法 强化学习、微调与对齐》余昌叶,最前沿的一本,唯一一本 GRPO

二、视频,可结合上述教材交叉学习
1. 🎥强化学习的数学原理:bilibili.com/video/BV1sd4y167NS
2. 🎥深度强化学习:bilibili.com/video/BV1hhbSzjEi1/
3. 🎥李宏毅强化学习:bilibili.com/video/BV15hw9euExZ
4. 🎥coursera.org/learn/fundamentals-of-reinforcement-learning
5. 🎥coursera.org/learn/sample-based-learning-methods
6. 🎥coursera.org/learn/prediction-control-function-approximation
11
flash
2月前
RL 的本质是冗余经验压缩与回放
00
flash
2月前
买书还是要坚定相信豆瓣,这本书强烈推荐大家别买,翻译得太烂了,举几个例子: “致命三要素,资格迹,分幕式半梯度控制”,这翻译的都是啥玩意,不太好翻译的直接用原文不好吗?哎,还是去看英文版吧
10