搞了一整天终于搞定了
给大家带来 Midjourney V1 视频模型的完整测评混剪
以及为什么我觉得这个“480P”的垃圾模型很重要
详细的教程和视频可以在这里看:
mp.weixin.qq.com来看一下模型的测试结果:
Midjourney Video 第一个长处是美学表现相当顶级。
这是 Midjourney 的看家本领,在色彩表现、氛围营造上无可挑剔。
然后是高风格化视频的表现。
图像和视频的风格是非常多的,不只是所谓的写实和动漫,尤其是MJ 生成的图片。
得益于MJ 本身的图片数据,导致 V1 模型在处理罕见的高风格化视频的时候非常稳,色彩、笔触、氛围都能保持得住。
而且即使是运动中新出现的部分也可以维持住原有的风格。
另外他们的生成速度也非常快。
我自己开秒表试了一下,一次生成 4 个视频只需要 65 秒的时间。
这在现在 1080P 动辄十几二十分钟的生成时间上可以说是清流了,普通用户完全没办法等这么长时间。
视频延长的稳定性也很好,基本上延长最后一次到第 17 秒的时候,视频依然没有崩溃,即使是复杂场景,这个在其他模型上是很难见到的。
说完了好的再说不行的。在现在视频模型经常考核的,提示词理解、复杂运动稳定性和物理特性上,基本处于二流模型水平。
与现在第一梯队的hailuo2、Kling 2.1、Seeddance 1.0 Pro、Veo 3 没法比,而且这些大部分默认分辨率都已经是 1080P 了,他还 480P。
看到这里你肯定也像大部分人认为的一样,觉得 Midjourney 视频模型这也太拉了,怎么跟其他模型竞争。
我不这么认为。
我觉得 Midjourney 很清楚他们模型的问题也清楚现在的视频模型竞争格局,但他们选择不去管这些,选择不去跟其他视频模型设定好的框架竞争。
在发布 V1 视频模型的时候他们重申了一下自己的愿景,他们长期目标是构建一个实时图像生成的 AI 系统。
你可以进入到图像所在的时间进行移动和游览,图像中的其他角色和环境也会随着你的移动变化,你可以跟所有的元素交互。实现这个方案需要四个部分:
- 视觉呈现,也就是现在 MJ 的图片模型
- 然后要让图像动起来,就是现在发布的 V1 视频模型
- 之后如果需要跟环境交互的话需要赋予内容实体,一个 3D 模型
- 最后生成速度要跟的上你的移动速度,也就是实时生成模型
看到这里你也许就能理解为什么他们不在乎现在其他视频模型在乎的那些东西,他们唯二在技术上在意和下功夫的地方就是两个,生成速度和长时间一致性。
这两个是实现他们愿景中视频模型负责的最关键的部分,物理的部分会交由 3D 模型完成。
可能有人说之前 Runway 也说过类似的话,但他们现在没声音了。
这个就要说到 Midjourney 的另一个优势了,他们没有融资压力,完全是自给自足,所以与需要频繁融资续命的公司不同,他们可以慢下来,可以与主流不同。
其实这个愿景实现之后的场景现在已经可以一窥究竟了,你可以去 Midjourney 的视频探索页面看看。
昨晚模型发布之后我刷了这个页面一个小时,困的不行了才恋恋不舍的去睡觉。
他们好像展示在我面前的真是一个个的异次元世界入口,每个世界的画面风格和物产都不同。
看着这些视频的时候我会不自觉的开始想想每个画面后的世界跟我产生的故事。
现在是不是知道为啥我要给模型测试视频起这个《精骛八极,心游万仞》的名字了。
这句话是陆机描述在进行艺术构思、艺术创作时需要做到的事情,思想纵横驰骋而不受时空的限制,就像骏马驰骋于天地四方,又像心灵畅游于万仞天空,是不是很像 Midjourney 的愿景。