我们可以从gpt4o的发布里面学到什么?
营销还是Sam精。
4o这个阶段的事情大量的工程优化,无论是算法层面还是工程层面,主要看性能数据的变化。先说结论,总体上这是一个效能更精进的版本,更好的成本表现,特定场景中(演示场景中)更好的效果预期,但是注意,这不是GPT5,这是一个SP1的加强版。
进步最明显的是ASR,对比whisper来说是大幅提升了,对于最强的Emm,现阶段主观评价能用,基本到cer 5%还要看场景覆盖,ASR小场景真的是难赚钱的深坑,在Translation上的性能和Google打拼。Vision understanding的部分,在4t的基础上进一步迭代,符合预期。
整个交互过程中,最精彩的语气发音输出,TTS的性能或者任何报告,没有在官方文档中找到。原本的设计中,完成这些需要whisper+TTS+GPT4v,模型的工程将这些做成GPT4o,所以TTS API中看不到的语气标记,在GPT4o中可能通过某些方式完成。
ASR和TTS在需求定义和工程上有很多细节,GPT4o可以在整个交互过程的响应230ms很厉害,比如流式的ASR模型单字模型输出200ms以内(三年前的工程数据)。好奇GPT4o 做了哪些事情(压缩也可以优化这个时间)。
token的压缩则达到更低成本的目标(图6,只截了一部分)。处理速度恒定的情况下,更高效率的将文本转化为token,以前一个窗口卖1个馒头,现在一个窗口卖10个馒头,可能后厨已经Blackwell了。
更加期待gpt4o的白皮书,不同模态的moe还是scaling law加强,或者是一个新的架构来支撑未来的GPT5.
产品层面,放出的视频场景,已经表现出了非常强对更多用户数量的需求,MAC的PC端,移动设备端,微软和google还没站稳的地方放进去,免费获取用户数和用户场景的策略,在C端总是屡试不爽,只需要一个很好的故事。
所以更加显得openAI的故事讲的很棒,一群人坐在那里,给你对话,给你场景,直接上产品,没有数据,有一个巨大的电影故事场景,并且之前你的认为是那样的,现在他是这样的巨大矛盾,这是一个天然的科幻电影。如果换成一些国内公司来讲,我们遥遥领先就是不跟你讲有啥用,卖房子的这年头都知道要毛坯房也要精装样板房,买的是未来生活的想象。用不用的上是另外一回事。
对终端用户的影响:
1 GPT4o API直接进新产品获取新能力,一波热点直接上。
2 各种无手环境,你都有个伴听在身上了,比如车上陪聊,谷爱凌滑雪打电话给她妈,加上腿就是BB8
3 Gemini 该干啥干啥,这一波难受肯定了。
4 Her滤镜直接上。
5 GPT4o在web上给用户的体感可能不明显,加上全套交互是有趣的工具。
openai在即将赚钱的前夜前进了一大步。