最近TurboQuant带崩了DRAM/NAND概念股,自己的一点想法。
1. 很多自媒体都在说TurboQuant节省了显存,但其实TurboQuant只能用于inference,显存大小根本不是bottleneck。inference的核心bottleneck在于显存带宽,TurboQuant也优化了带宽(所有的Quant技术都会优化显存大小和带宽),所以TurboQuant加速了inference.
在用户的问题数量保持不变的情况下,inference快了,需要的显卡就少了。
但是历史的经验告诉我们,server侧latency优化之后,client侧的QPS立马就会增加😂最终会不会对采购量有影响,未可知。
2. 量化压缩float是个非常常见的思路,之前已经有不少前人做过探索,turboQuant故意把baseline拉低,无耻😅