一句话点评GPT4o：更灵敏、更有人情味的眼睛、耳朵和嘴，但

即刻App年轻人的同好社区

下载

Diiiii

2年前

一句话点评GPT4o：更灵敏、更有人情味的眼睛、耳朵和嘴，但脑子没有更聪明。OpenAI 官网上的GPT-4o 的十几个各种用例值得看一遍，印象比较深刻的：

- 最有趣的还是多个 GPT-4o之间的 interaction，比如两个 GPT-4o 互相配合去创作一首歌曲并完成和声，比如一个带摄像头的 GPT-4o 给另一个不带摄像头的 GPT-4o 来描述环境。

- 最有启发的场景是客服场景，一个 GPT-4o 扮演主人的助理，帮主人去退货，另一个 GPT-4o 扮演客服。主人只需要吩咐一下助理，把需求交待清楚，把所有的决策做完，之后冗长繁琐的沟通，完全交由两个 GPT-4o 自己去解决。这种 bot 主导的场景可能是未来生活的主流。当时，视频里的 GPT4o 之间也在用语音交流，实际上完全没必要，直接用 script 交流就可以了。未来人人交互、人-模型交互、模型-模型交互应该是三种不同的方式

- GPT-4o 的声音确实比较有表现力，好几个视频都是为了展示声音在语音语调、节奏、音量、情绪、延迟方面的变化。翻译、会议场景、语言培训方面的用途会比较大。（Duolingo的股价跌了一把）

- GPT-4o 的视觉能力比较适合和眼镜搭配，理解环境。穿搭助理、实时导航、导游、儿童教育、做菜、面试辅助、宠物训练这些都是看得见的场景。在发布会上演示了程序员的实时代码辅助场景，不确定逻辑方面能否跟得上，但做个程序员鼓励师应该是没啥问题的

- 利好各种智能硬件。利好苹果。

整体上，本次进化更多发生在感知和交互层面，让模型拥有了更加灵敏的眼睛、耳朵和嘴。效果看起来很 fancy，但本质上“脑子”并没有太大变化，模型天花板并没有变高，所展示的 case 都还是简单推理下的问题，比如解小学数学题、处理简单客服退换货需求、讲睡前故事等等。更复杂的问题估计还是搞不定。

个人理解，这次还是把人-模型界面的接口体验做了很大优化，对人更友好了，加上成本大幅降低，可以让更多的用户用起来，渗透率能够狠狠拉一把。另外就是硬件层面上，对耳机、眼镜这些设备开启了新的机会窗口。

https://openai.com/index/hello-gpt-4o/

点击阅读原文

19 42

来自圈子

AI探索站

101234人已经加入