zxy老师这一期播客的前半小时,真的太精华,我来在即刻试写一下“千字长文”…
1. 老师之前做过ResNet(残参网络),该技术解决了模型的智能“随深度增加而退化”的问题。它让模型形成了积累式学习,而不是每学一个新知识都要把旧知识重头再学一遍。可想而知这个方案会遇到梯度爆炸等问题。
2. cv是什么,cv是computer vision。电脑可以像人类一样看懂图像确实很迷人,zxy老师在学术期间是跟随何恺明老师学习,而何恺明是把transformer从NLP做到cv上的第一批人。
3. 我们都知道transformer在NLP上的作用是self attention,全局自注意力,也就是在一个句子中,模型可以自由的理解任何一个字和整句话的关系。那么它在cv中的应用也是一样的:vit(vision transformer)把图形裁成一个个小块(patches),模型可以自由的理解任意一个小块和整张图的关系。这里简直是华点太高,因为原来视觉模型上用的是CNN(卷积-区域理解),模型只能理解局部关系(比如这是一朵花),而不能理解全局(这是一朵在花丛中的花,它上面还有蓝色的天空)。现在能想到有了vit的进展吗?
4. yes,全局理解会让生图出现大跨越。然而此时两个终极问题出现了:1️⃣模型无法学会图像上的物理规律,因为它是靠拟合预训练输出的,并不是靠推理。它生成 “苹果在桌上” 是因为在数据集里就长这样,而不是因为它理解重力(模型OS:好家伙,妄图让我通过看图自学地心引力🙂),所以模型在很多图像里完全不吻合物理规律,因为它本身就不知道。。。
2️⃣因此,一个生成能力很好的模型,它能做理解吗?答案是不能。生成是靠概率分布的,不是靠理解。
5. 那么用“图文混排数据”能解决这一点吗?比如给模型高中物理课本,用图像+文字解释的方式给模型解释重力。第一,这个数据要hand craft,手工标注,而不是模型自己在海量数据里识别规律(data driven)。因为太难了识别不出来。物理课本可能逻辑性比较清晰,想想看,如果模型看的是童话故事书呢?太抽象了。
第二,没有那么多数据;第三,互联网上很多图文混排的数据并不干净,图文关系不大。以上三点是我认为zxy老师在22年对cv比较悲观的原因,也是他自己开头不断强调架构没有那么重要,大概对了就行;但是怎么做优化和data scaling很重要。如果不能从海量数据中自动学习,就不能泛化,因此没有智能。
6. 后面开始讲next token predict的本质缺陷—容易过拟合,因此诞生了要一步一步来思考的CoT;以及GPT o1为什么非常厉害(因为这是CoT的CoT,教模型应该如何思考的思考)。后面相对好理解。
这期是我最近听到的最好的“大模型训练通识课”,每过几天都会拿出来重听重学(我需要一个ResNet🙂↕️),提出新的问题,常听常新。