即梦在 Web 端上线他们的数字人 Omnihuman 1.5 版本。
今天来做个测试,同时教大家怎么用图像模型配合生成名人数字人视频。
1.5 的控制能力大幅提升,你可以定义视频中的人物表演和运动方式,直接改变了表演类 AI 视频的制作逻辑。
做了一个让乔布斯卖破拖鞋的演讲,后面是测试视频。
这里只说模型测试部分,教程因为即刻不好搞图文,可以看长文:
mp.weixin.qq.com这次更新最明显的一个改动就是数字人不再死板,我们可以通过动作控制让镜头和人物动起来,包括不只是主角也包括其他人物。
比如第一个案例,我们就可以让女子先抬头,到一个合适可以看到嘴唇的角度,然后再开始说话,同时镜头也在旋转到她的正脸,背后的其他人也在正常行走,这是纯粹的唇形同步模型不能做到的。
另外这次的模型升级在多风格化以及非人形生物的唇形同步上效果也变得非常的自然。
第二个测试案例这里这种平面插画的眼睛、嘴部和面部运动都非常自然而且生动,同时依然可以搭配他的动作比如抬手走动等,镜头平移的时候新出现的画面风格也跟原来的很好的保持一致。
这次更新的另一个优势是对表情和表演的响应也更得加的好。
可以看到第三个案例她响应的很好,先是面无表情的说话,然后变成讽刺的表情,之后非常顺畅的在轻笑之后变得温和,然后人物后撤开始看向纸船,最后嘘的动作也做了。
整个视频长达 16 秒,这个长度和提示词词遵循已经非常厉害了,市面上可以做到这么稳定的保持人像 ID 不变同时精准的提示词遵循的几乎没有。
这次更新还有一个优势就是可以控制同一场景多人的对话和表现,我们可以指定声音是由哪个角色发出的,这个一下就让模型的可用性拓展了很多。
比如这里我们就可以做两人的对唱视频,多人对话剧情也可以做了。
从上面这几个测试也可以看到,以往类似模型那种夸张的嘴型问题也一定程度上得到了解决,不再是所有角色说话嘴都张的很大了,模型现在会根据声音内容和提示词去调整,表现自然了非常多。