看了下昆仑万维这个无限时长的视频模型生成效果也很不错,还开源,而且硬件需求也不算很高 (使用 1.3B 型号生成 540P 视频需要大约 14.7GB 的峰值 VRAM,而使用 14B 型号生成相同分辨率的视频需要大约 43.4GB 的峰值 VRAM。),为啥好像没看到很多人讨论呢?🤔
《全球首个无限时长视频生成!新扩散模型引爆万亿市场,电影级理解,全面开源》
| SkyReels-V2 打破视频生成限制,开创“AI连续叙事时代”
🧐昆仑万维推出的 SkyReels-V2 是首个支持无限时长扩展的AI视频生成模型,不仅实现电影级镜头语法理解,还通过创新的结构化标注与扩散机制,全面开源,开启AI影视创作新范式。
➡️代码:
github.com➡️网页版:
www.skyreels.ai➡️拓展阅读:
mp.weixin.qq.com✨重点
●️**⏳ 无限生成:Prompt 驱动+片段接续**
SkyReels-V2 可通过持续输入提示词(Prompt)与已生成片段,逐帧续接内容,实现任意时长的视频生成 —— 理论上无限延长剧情。
●️🎥 懂“拍电影”的 AI
通过结构化镜头表示(含镜头类型、角度、运动、表情等),实现对电影语法、运镜逻辑的高度理解,远超现有通用视频扩散模型。
●️🧠 专家模型蒸馏成 SkyCaptioner-V1
训练多个标注器(镜头/表情/运动等)后进行统一蒸馏,构建专业视频语义识别系统,镜头类型识别准确率达 93.7%,支持“导演级”控制。
●️**⚙️ 技术突破:Diffusion Forcing**
创新“扩散强迫”机制,支持上下文缓存、时长分桶、FoPP 调度器等,使得原本有限时长的扩散模型具备跨段生成+上下文记忆能力。
●️🏞️ 高质量+长时序兼得
通过三阶段分辨率预训练(256p→360p→540p)+运动流质量奖励优化,解决传统模型“清晰度和运动流互斥”的问题。
●️️🎼 多模态协同
视频配乐可由 Mureka AI 生成,展示了图像、视频、音频协同创作的实际路径,助力完整影视作品 AI 化。
●️🧪 综合评测领先主流模型
在 SkyReels-Bench 与 VBench1.0 指标中超越 HunyuanVideo-13B、Wan2.1-14B,特别在指令遵循性与运动合理性两方面成绩显著。
●️🧬 生成哲学变革
AI 不再是“生成素材的工具”,而是理解场景、执行镜头、服务情节的“协同导演”,让创作者专注于情绪与叙事构建。