可灵昨晚发布了 O1:一个大一统的视频、图像生成和编辑工具,支持你能想到所有图像和视频编辑能力。
藏师傅会对这次新增的一些能力进行测试,同时大概教大家一下这个模式应该如何使用
完成的提示词和内容可以看长文→:
mp.weixin.qq.com总结一下这次更新内容:
1. 统一多模态视频大模型,把参考生视频、文生视频、首尾帧、内容增删与风格重绘等任务融合,一站式完成从生成到修改。
2. 支持图片、视频、主体与文字的多模态输入,直接用自然语言进行精细编辑,无需遮罩或关键帧。
3. 通过多视角主体与参考素材,保持角色、道具、场景的特征稳定与镜头间一致性,确保连贯画面。
4. 自由组合参考与指令,覆盖运镜、动作、镜头延展等复杂玩法。
5. 可生成约 3–10 秒 的自由叙事镜头,灵活控制节奏与镜头长度。
进到可灵页面,你就会注意到左侧新增了一个非常显眼的图标,用了这个后面那几个界面你基本就用不着了。
进来以后就会发现下方的提示词输入框位置集成了非常多的选项。
下方用来切换视频和图片生成的基础操作,比如时间比例等,上方的几个胶囊按钮主要用来控制输入内容的类型。
图片主体参考这里他就会出现、视频、图片、主体三个输入项,当然你可以删除图片或者主体,只用文本操作。
首尾帧这个输入项就会变成首帧和尾帧,这个我们就熟悉了,不过提示词也需要对首尾帧进行标注。
我们先来看一下最基本的通过文本进行视频编辑。
只需要上传需要编辑的视频,在提示词输入框输入提示词的时候在指代素材那里@ 对应的素材就行。
服饰的质感还是非常不错的,跟周围环境融合的也很好,窗台的阳光照在衣服上的高光也有。
嘴型和运动都可以迁移,所以可以将 O1 当做数字人模型使用。
文本的修改搞完之后就是,图片参考
如果你不知道想要修改的环境或者角色具体怎么描述的话,当然可以上传图片让他参考,支持单图也支持多图。
可以看到为了配合这种遗迹环境的结果,他还帮我把面部和身体的亮度变暗了,后面的角色也在运动都没啥问题。
关于图像参考这里有个技巧
第一次通过一张图片对视频进行修改后,再次将修改后的图片让他修改,这样可以最大程度确保对于视频编辑的控制力度。
比如这里,先是让他在我桌面上增加了最近比较火的疯狂动物城的朱迪,然后在用刚才生成的视频让他向视频中增加可灵 O1 的文字。
你可能好奇上面素材部分的主体是什么东西:
这是这次 O1 新增的一个元素,简单来说就可以理解为你创建的角色,常用角色创建后可以直接选择,不需要频繁上传了。
点击添加主体的图标右侧就会出现主体的选择弹窗,官方内置了很多常见的主体类似可以选择。
点击左侧“我的主体”去创建主体,它可以上传多个不同角度的图片,更大程度的提高角色、道具、场景在视频生成中的一致性。
如果要创作专业内容的话,建议还是多创建角色和场景的主体,一致性表现比单张图片要更好。
这里选择了将我自己改为林黛玉这个主体,同时还加上了天使之翼这个道具
但是视频的融合度非常好,翅膀也会跟这个我的身体运动,光照的部分也没啥大问题,真实感很高。
主体对于电商来说绝对是非常大的利好。
再也不用担心视频一运镜商品就跟原来的不像了,现在上传四张图片创建一个主体,随便怎么转都行。
当然,O1 也可以直接转变视频的风格,我试了一下毛毡风格、动漫风格、8-bit 像素风格都没啥问题,你直接跟他说将 XXX 视频转换为 XXX 视频风格就行。
以前那些做起来成本很高非常复杂的风格转换特效,现在非常简单的一句提示词就可以了。
O 1 依然是支持首尾帧生成视频
点击输入框上方“首尾帧”来获取素材上传 UI,视频编辑加上首尾帧能做出非常离谱的特效效果。
比如这里就是先通过图像参考的视频编辑将手里的鼠标换成了代码组成的龙。
然后再将视频最后一帧和代码龙的图片做了首尾帧视频生成,搞定了一个非常大场景的转换。
说完了视频我们来看一下 O1 图片。
输入框左下角切换为图片就可以使用,支持上传多张图片以及加入对应的主体,和对图片进行编辑。
搞一下最近很火的跟朱迪合影,这个其实相对复杂点,涉及到场景一致性、而且人物和动画角色风格不太一样。
好了这就是今天测评加 O1 简单教学的所有内容了。
从图片的发展来看,视频的推理能力&世界知识以及编辑能力一定是迈向产品和 C 端落地的两个必要能力,很高兴可灵能够在国内几家里面第一个踏出这一步。
目前肯定是无法跟图片的发展比的,无论是成本还是效果,但是回想一下今年三四月的图像编辑模型,再看依稀短短半年的发展成果,只要起步了进展就会很快了。