Medeo 1.0 终于上线了,这是我认为第一个真正意义上的视频 Agent
试了一下相当惊艳,具体的特点有:
- 支持非常灵活的通过自然语言进行修改
- 支持超过上千字的超长提示词
- 提供非常好的泛化性,各种风格和垂类都可以做。
写了基础教程,并探索了三套非常好的提示词:
mp.weixin.qq.com由于篇幅所限这里先分享一下 Medeo 的基础教学和使用技巧以及他们关于视频 Agent 的思考
学一下基础操作
1️⃣第一个部分是他们的一些模板,这里不是只有画面风格,他包含了画面、台词、剪辑方式以及音乐等一系列优质视频的必要要求,你可以选择一个你喜欢的直接套用。
2️⃣第二个部分很好理解了,你可以选择生成横版或者竖版视频,这里目前只支持 16:9 以及 9:16 两个常见比例。
3️⃣第三个部分,里面支持超多的自定义设置,如果你对细节要求较高可以选择,比如视频时长、具体生成的类型只生成图片或者是视频、画面风格、配音的声音。
4️⃣最后一个部分是素材上传,支持直接从 URL 里面拉取其中的文本和图片作为素材,也可以自己上传对应的文本和图片。
基本上,你在输入框直接描述你的视频生成需求,就可以开始创作。
而且这里你也不需要过于详细地描述需求,因为 Medeo 是支持后续通过自然语言对生成的视频进行修改的。
比如,这里前面有两段素材重复了,你就可以告诉它这两段素材的位置,然后让它重新生成,并且替换。它可以很完美地执行这些操作。
当然,更简单的是让他自己找出重复的素材然后替换也行。
Medeo 几乎支持市面上常见的所有图像和视频模型
由于非常强的泛化性,你可以通过提示词指定他具体使用哪些模型生成图片或者视频,再或者直接用 Sora 这种模型直接生成完整视频。
他甚至非常聪明地自己在决定什么时候该用文生图,什么时候该用图生图。
除了支持自然语言编辑,Medeo 依然支持在左侧使用你熟悉的剪辑页面编辑,这个也是独一份的体验。
你可以拖动每个分镜的边界线去控制分镜的时长,也可以直接在 Audio script 部分编辑对应文案,还能具体定义每个音频的音量和时间。
他们为什么可以做好
从官号和跟他们日常聊天了解了一下,他们为了实现质量和灵活度都兼顾的 Agent 架构做了哪些事情。
传统的视频生产产品,其实一直以来都面临着如何解决和平衡 使用门槛、生产成本和效果控制 这个不可能三角的难题。
一些产品可以产出非常复杂而且高质量的内容,但是与此同时带来非常高的使用门槛和学习操作成本;
一些我们说的套壳产品,快速接入了各种模型和工具,但是他们各自为战,用户需要自己选择对应的模型并且在传统工具中进行复杂的剪辑工具;
最后是一些本质上是工作流的 Agent 产品,门槛变低了,但是内容制作的广度和多样性被牺牲了,普通用户只能等待产品更新模板或者工作流,而且工作流的更新非常消耗人力。
Medeo 的选择是:构建一套专门为视频 Agent 创作的语言Gensystem,主要由三部分构成:
首先是 Medeo DSL:一套专门用来对视频内容和制作方法进行表述的“视频制作语言”可以将用户的模糊自然语言指令转换为模型可以理解的视频编辑操作。
然后是 Context System:由工具集、视频制作方式等信息构建的上下文系统,每次对话都可以从用户的指令和需求中匹配更多的视频制作专业上下文。
最后是 Environment:这是一个可以支持用户与 AI 共同行动、控制编辑的视频剪辑界面,我们前面说的混合编辑就是这个东西。
我前几天说过,我写Medeo提示词有两个原则:
尽可能的简洁,少写一些具体的需求
尽可能的通用,让提示词能支持更多的能力和更多的场景
但是,这两个能促使我去实现这两种写法的,其实对于模型本身和整个Agent的系统有足够高的要求。
这个系统必须能够自己补充上下文,同时自己有一定的智能,无论是在图像设计上的智能,还是在视频剪辑以及视频构建上的智能。
所以一个系统是否能支持这两种写法和原则,可以一定程度上判断这个系统的上下文管理能力、上下文获取能力以及智能程度。