一句话点评GPT4o:更灵敏、更有人情味的眼睛、耳朵和嘴,但脑子没有更聪明。OpenAI 官网上的GPT-4o 的十几个各种用例值得看一遍,印象比较深刻的:
- 最有趣的还是多个 GPT-4o之间的 interaction,比如两个 GPT-4o 互相配合去创作一首歌曲并完成和声,比如一个带摄像头的 GPT-4o 给另一个不带摄像头的 GPT-4o 来描述环境。
- 最有启发的场景是客服场景,一个 GPT-4o 扮演主人的助理,帮主人去退货,另一个 GPT-4o 扮演客服。主人只需要吩咐一下助理,把需求交待清楚,把所有的决策做完,之后冗长繁琐的沟通,完全交由两个 GPT-4o 自己去解决。这种 bot 主导的场景可能是未来生活的主流。当时,视频里的 GPT4o 之间也在用语音交流,实际上完全没必要,直接用 script 交流就可以了。未来人人交互、人-模型交互、模型-模型交互应该是三种不同的方式
- GPT-4o 的声音确实比较有表现力,好几个视频都是为了展示声音在语音语调、节奏、音量、情绪、延迟方面的变化。翻译、会议场景、语言培训方面的用途会比较大。(Duolingo的股价跌了一把)
- GPT-4o 的视觉能力比较适合和眼镜搭配,理解环境。穿搭助理、实时导航、导游、儿童教育、做菜、面试辅助、宠物训练这些都是看得见的场景。在发布会上演示了程序员的实时代码辅助场景,不确定逻辑方面能否跟得上,但做个程序员鼓励师应该是没啥问题的
- 利好各种智能硬件。利好苹果。
整体上,本次进化更多发生在感知和交互层面,让模型拥有了更加灵敏的眼睛、耳朵和嘴。效果看起来很 fancy,但本质上“脑子”并没有太大变化,模型天花板并没有变高,所展示的 case 都还是简单推理下的问题,比如解小学数学题、处理简单客服退换货需求、讲睡前故事等等。更复杂的问题估计还是搞不定。
个人理解,这次还是把人-模型界面的接口体验做了很大优化,对人更友好了,加上成本大幅降低,可以让更多的用户用起来,渗透率能够狠狠拉一把。另外就是硬件层面上,对耳机、眼镜这些设备开启了新的机会窗口。