即刻App
年轻人的同好社区
下载
App内打开
留夏-听夏
84
关注
68
被关注
0
夸夸
心不唤物物不至
留夏-听夏
1年前
0
0
0
留夏-听夏
2年前
老祖宗真厉害
4
0
1
留夏-听夏
2年前
如果你的直觉告诉你现在应该干某件事,最好相信你的直觉,不然这件事会在一个不恰当的时候等着你。
1
1
0
留夏-听夏
2年前
其实一直对百度没什么好感,但这次你赢了
2
4
1
留夏-听夏
2年前
大喜易失言 ,大衰易失颜,大醉易失德 ,大话易失信。
2
0
0
留夏-听夏
2年前
photoshop CC 的字符里有这么个菜单,什么高棉语,旁遮普语什么鬼的都有,找好几遍,居然没有中文
1
2
0
留夏-听夏
2年前
我好羡慕风啊羡慕雨
它们可以经常见到你
而我就算走上千万里
也不一定看到你
我想化作风啊化作雨
这样才能勇敢去找你
希望没有我的坏天气
会有人陪着你
1
0
0
留夏-听夏
2年前
Danielw: 分享两个近期看过的两个非常棒的资料: 1.openai的Jason Wei近期在Stanford分享的几点洞见。 https://x.com/_jasonwei/status/1729585618311950445?s=20 2.Alexandr Wang的一篇有关信息压缩的文章。 https://alexw.substack.com/p/information-compression?utm_source=profile&utm_medium=reader2 这两者让我对一个问题有了新的思考:为什么一天工作10小时的博士产出比8小时多50%,12小时比10小时多50%。 首先是Jason Wei的六点概要:(p1) 有两点我认为特别有启发 一个是不同的token有不同的信息密度,例如简单的语法问题和复杂的数学计算问题。(p2p3) 还有一点是模型其实不止是在学习如何预测单词,也是在学习上下文的表示。(p4) 无独有偶,ilya其实也在一次采访中谈到这个观点:(p5) 那这两点洞见结合起来就很有意思了,可以解释为什么大模型需要更大的参数和更长的上下文。 因为大模型在各个方面表现更好势必需要更多的“压缩知识”而无论是根据信息论还是热力学压缩程度都是有一个“极限”的,只能通过增大规模来解决。 而更长的上下文则是让模型有机会理解到底发生了什么。 Alexandr Wang的信息压缩文章很好的说明了这一点: 原文是用来说明小团队高效的原因,在于共享的背景足够理解对方的意图,而共享的背景其实也可以看做某种意义上的“上下文”,这可以解释大型团队的沟通成本在于彼此的“上下文”太短,导致即使能力很强也不能很好的预测意图。(p6)最后回到那个问题,为什么工作10小时的产出可以比8小时高50%。 现在可以有一种解释是你可以把每天工作的时间也看成某种“上下文长度”,并且这个上下文在第二天会自动进行压缩。(因为睡眠的机制就是不断将白天最重要的细节进行加工从而变成长期记忆,其他的进行遗忘)这也导致了第二天工作实质上是在前一天的基础上进行“预测”,那么自然上下文的长度越长预测效果越好。并且Transformer的自注意力机制比RNN的进步在于可以捕获token与其他token的依赖关系。(p7) 而通过演示的动画剪头也可以看出随着句子长度的增加(工作时间的延长),预测效果其实是平方而不是线性关系,因为多工作的一点点时间产出多很多除了个人的驱动以外也不是没有道理的。 (最后分享一个Transformer原理的文章,动画效果很棒) https://ig.ft.com/generative-ai/
1
0
0
留夏-听夏
2年前
1
3
0
留夏-听夏
2年前
露营还得是平日,人真少
1
2
0