没人关心原生多模态吗?
我发现大部分人只使用GPT-4o在生成各种吉卜力风格头像,但讨论背后的原生多模态技术的反而寥寥无几!
一些核心观点:
1、对于纯业余小白用户来说,gpt-4o相对stable diffusion这类是碾压的,因为小白用户再也不用学prompt咒语了,门槛大幅降低
2、原生大模型训练成本高,数据量庞大,不是普通创业公司能参与的游戏,而字节、快手的优势更大
3、原生多模态模型生成图片,可能是扩散类模型成本的10倍
4、原生多模态暂时还未颠覆视频领域,做视频生成的企业还有机会,扩散路线也在进化,鹿死谁手尚未可知
5、原生多模态模型不能提升智力上限,但能增进模型对世界的认知。