Stable Video Diffusion视频生成的原始项目需要40G显存的运行空间,这对于我们普通公司和普通人有点困难。StabilityAI的研究人员分享了如何将项目的运行显存压缩到20G。下面是一些要点:
1)即使是在小型 GPU 上,你也可以生成视频(只需减少你一次解码的帧数,因为这会占用大部分的 VRAM)。14 帧(一次解码一帧)应该不会超过 20GB VRAM。
2)帧率条件 (fps conditioning) 和运动条件 (motion conditioning) 可以极大地影响结果。你不必非要选择帧率条件 = 渲染帧率!我在高帧率/高运动条件下,以较低的帧率渲染时也取得了非常好的结果。
3)指导比例 (guidance scale) 也会对结果产生重大影响。我们实际上是在帧轴上线性地从 w_min 增加到 w_max。更多的指导会带来更好的一致性,但可能导致过饱和。为了获得最佳结果,请尝试调整 w_min/w_max。
4)该模型只针对 576x1024 的分辨率进行了训练,当显著改变长宽比时,你可能会观察到一些异常。如果你仍然想尝试,增加条件增强的噪声可能会有所帮助。
4)当将模型应用于具有严重压缩伪影的图像时,增加条件增强的噪声也是必要的。
来源:
x.com