Nano Banana将永远改变人像摄影行业
(下图中的证件照、各种不同风格的写真均使用Nano Banana生成)
最近Google发布了预热已久的Nano Banana图像生成模型,让大家最为惊喜的是,它的人物一致性得到了非常大的提升。
之前我们用GPT-4o或者Gemini 2.0 Flash来修改人像,很明显地可以看出来AI改后的图片跟原来图片中的人差距很大。我们在社会中生活,每天都要与熟悉或不熟悉的人打交道,对于人脸的一致性具有极高的敏感度,如果照片中的人脸与自己印象中的脸有一些细微的差别,很容易就会察觉出来。在使用之前的模型时,这个现象就很明显。为了弥补这方面的缺陷,往往会加一层「换脸」的后处理环节来提高人脸辨识度,尽管如此,效果也不尽如人意。
除此之外,我们还会发现,Nano Banana更「聪明」了。要理解这一点,我们首先要知道,Nano Banana的全称是Gemini 2.5 Flash Image。和GPT-4o的原生图片输出能力类似,图片输出是Gemini 2.5 Flash模型的一项全新能力,这就意味着,它与2.5 Flash都共享用大量文本训练出的基座世界观和一定的推理能力。有了这些之后,我们会发现,首先在输入层面,它能够更好地理解我们给出的复杂指令,而且也能更好地理解参考图片,即使有时候你给它一个比较抽象的2D插画,它也能理解图中表达的意思。在输出方面,它的真实性也大大提升,在细节上的处理更加接近真实世界,这也是图片原生输出能力的一大优势。
那么这一切跟人像摄影行业有什么关系呢?
我们先从证件照说起。大家肯定都有去拍证件照的经历,一般情况下,我们会提前收拾一下发型,调整一下着装,找家附近的照相馆,站在他们的摄影棚里,咔擦一声,拍照结束。经过各种PS技法处理,我们看着那张不怎么认得出自己的精修证件照,扫码付款三四十块钱。对于某些比较高端的摄影机构,还会附带一点化妆和换装服务,价格在上百元。
而使用Nano Banana,你只需要找个光线好的地方拍一张自拍,就可以一键生成摄影棚级别的证件照,而成本是多少呢?按照我目前接触的API代理商的价格,一张图片在3分钱左右,假设我们生成10次,从里面挑一张最满意的,那也只有3毛钱。与原来去摄影机构的三四十元、上百元相比,成本降低了2-3个数量级。
这个数量级的成本差距,没有悬念地将会对原始行业造成毁灭性打击。
但人像摄影当然不止于证件照,写真照是一个单价更高的领域,不过这里得分三种情况。
对于有些人来说,拍写真是为了记录生命中美好的时刻、记录不同阶段的自己,提供情绪价值。对于这部分群体来说,Nano Banana可以用来优化光线、场景、人像细节,但能做的始终有限,毕竟还是需要有专业摄影师来拍照,成本不会有太大的变化。
对于另一部分人来说,拍写真是为了实用价值。比如说公司网站需要有一些看似比较「高端」的个人照片,再比如说社交媒体上需要有一些「更有吸引力」的照片,再比如说新品衣服需要有模特来试穿。这种场景对作品的质量要求比较高,一般的拍摄机构可能都无法满足需求,需要去找更专业的人,这也意味着成本急剧上升,几千元起步。而现在借助Nano Banana,这个成本可以降低至少3个数量级。
此外,还有一个更广阔的用户群体——那些从未体验过专业写真摄影的人。之前受限于高昂的拍摄成本,大多数人根本没有机会拍专业的写真照。但是,现在他们只需要几块钱就可以拥有一套高质量的写真照,不仅可以更换不同的服装,还可以成为不同电影的主角。想象一下,这些写真不仅仅是照片,他们让用户看到了一个「更好的自己」,一个「仿佛是平行时空的自己」。这种感觉非常奇妙,但凡体验过的人,都很难抵挡住分享的诱惑。如果大多数人都愿意分享,那这就是一个绝佳的病毒传播机会。
上面所说的这些,核心其实只有一点:成本的指数型降低所带来的行业革命。对于任何一个行业来说,当新玩家的生产成本比老玩家的生产成本低好几个数量级时,这已经变成了一场非常不公平的竞争。
其实不仅仅局限于证件照、写真照,正如我4月份在文章《LLM原生图片输出能力的影响仍远远被低估》(
m.okjike.com)中写过的,所有与图像相关的领域都会受到冲击。
未来已经到来,只不过还不太平均。但最终,会相对比较平均。