王小贱_njl1的个人主页

即刻App年轻人的同好社区

下载

王小贱_njl1

79关注24被关注0夸夸

🌈 主业高性能计算攻城狮
💻 副业AI出海创业中
📷 摄影 & AIGC练习生

王小贱_njl1

1年前

想到前几个月跟deepseek的朋友吃饭，彼时deepseek虽然没有现在这么广泛的关注度，但已经在各种大赛屠榜，也因为mla的架构创新和开源在圈子里引起不小的震撼，朋友说他们老板的偶像是西蒙斯，现在想来梁文峰和西蒙斯的人生轨迹真是有某种相似性，一个是拿了数学界诺奖后创办了传奇基金公司文艺复兴，一个是从幻方量化基金到做出deepseek，现在看来已经算是一种真正意义上的理想照进现实了

0 00

王小贱_njl1

1年前

今天的徐家汇，nike连夜换上了queenwen的广告牌

1 00

王小贱_njl1

2年前

一个不恰当的比喻：

英伟达/amd等算力提供商 > 地主
openai等众多大模型厂商 > 地产商
各种牛鬼蛇神ai应用 > 房东
用户 > 租户

2 00

王小贱_njl1

2年前

最近的一个思考是：相比于前面几次工业和信息革命，大语言模型的诞生促进了现有社会分工领域大范围的去技能化

“技能的反面是解决问题”
曾几何时，作为一个菜鸟程序员，我总是因为Bill Buxton的这句名言自卑不已

很多时候明明有思路，但coding的时候却总是忘掉一些最基础的语法特性，面向google编程是个常态

现在有了gpt之后，再也不用在大部分细节问题上浪费时间了，而能不假思索解决这些细节问题恰好是我们之前所定义的“编程技能”的重要组成部分

但现在不懂语法可以开发应用吗？不会画画可以做绘本吗？似乎可以了

比起拥有编程/绘画这些用来解决具体问题的技能，我想现在重要的事情开始变成两件：

1. 整体设计和 2. 新知识/范式的定义

这两者都需要结合大量的事实信息分析，发挥一些想象力做全方位的准确判断和整合，这种能力是目前大语言模型尚不具备的

1 00

王小贱_njl1

2年前

最近因为工作原因密集地读了一百多篇llm和sd相关的论文，主要侧重于轻量化小型化技术，训练优化也有涉及，立个flag后面在这个号上陆续以专题形式做一些分享吧

1 00

王小贱_njl1

2年前

基于这个估算和同事讨论了一下，形成的一些共识和思考：
1. 就像很多说法所言，sora是视频生成的gpt3时刻，目前从效果来看还是有很多逻辑上的问题，趋势短期内应该还是越来越大，sora只是一个起点
2. sora如果采用DIT这种transformer结构而不是Unet-Conv，可能的主要原因有两点，一是transformer在海量数据集上的表现会更有优势，而且表现出了稳定的scaling-law，二是transformer可以捕捉更多的时空逻辑关联
3. 视频生成对算力需求相比于llm还是太大了，针对视频生成的ai infra技术发展会是分阶段的，第一阶段以效果为主，不会过于看重成本，主要是以服务端算力为主，但成本应该奇高无比，第二阶段落实到大规模的工业应用，大多还是要结合成本，要么是进行成本转移（服务端成本转嫁到消费者端上算力成本）、要么是技术本身能产生巨大营收远超服务端GPU成本。
4. 第3点中第二阶段的两种可能性或许取决于视频生成的适用场景，如果以b端为主的话大概率是通过向b端用户收取较高的服务费用来打平云服务的成本，如果广泛渗透到c端的话，成本转嫁到消费者端上会是更好的选择，ai pc或者搭配更高ai算力的移动设备可能会形成不小的市场需求
5. 不管怎么说卖卡的又要赚钱了

王小贱_njl1: sora需要的算力或许没有我们想象的那么多： - 根据Saining Xie的推断，sora沿用了Dit的架构，参数量可能是DiTXL/2的3倍多（3b） - 按照Dit的论文数据作为参考，计算量也差不多可以按三倍左右来估计，512512像素的单步计算量差不多是1.6TFlops，和sdxl差不多 - 一颗A100的计算量大概在300TFlops，按计算利用率30%，sampling步数是20来算，生成一个512512/30帧/10s视频大概需要在A100上跑96s btw，估计sora版本的LCM应该很快就跟进了，这样计算量应该可以继续优化百分之七八十

3 20

王小贱_njl1

2年前

sora需要的算力或许没有我们想象的那么多：
- 根据Saining Xie的推断，sora沿用了Dit的架构，参数量可能是DiTXL/2的3倍多（3b）
- 按照Dit的论文数据作为参考，计算量也差不多可以按三倍左右来估计，512*512像素的单步计算量差不多是1.6TFlops，和sdxl差不多
- 一颗A100的计算量大概在300TFlops，按计算利用率30%，sampling步数是20来算，生成一个512*512/30帧/10s视频大概需要在A100上跑96s

btw，估计sora版本的LCM应该很快就跟进了，这样计算量应该可以继续优化百分之七八十

3 11

王小贱_njl1

2年前

北京，匆匆一别数年了

4 00

王小贱_njl1

2年前

3 00

王小贱_njl1

2年前

万物有灵

7 11