看完了 GPT-4o 发布会的所有视频、博客和相关 Twitter 内容,总结一下:
发布会主要内容:
GPT-4o 能力:
- 它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
- 它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似。GPT-4o 之前使用语音模式对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)
- 它现在可以观察音调、多个说话者或背景噪音,也可以输出笑声、歌唱或表达情感,可以控制语气、音色、音量、语速,可以不跑调地唱常见的歌曲如生日歌,可以让两个 GPT 交替合唱一首歌
- 它在英语文本和代码上的能力与 GPT-4 Turbo 的能力接近,在非英语文本上的能力显着提高
- 视觉理解方面,相比 GPT-4V(20240409) 提高了很多,也显著高于 Gemini 1.0 Ultra、Gemini 1.5 Pro、Claude Opus
- 音频转译和翻译方面,相比 whisper-v3 也有显著提升,也高于 Gemini
- 对20种主流语言的分词器做了重新设计,各种语言都更省 Token,中文压缩了1.4倍,英语压缩了1.1倍
- 目前的上下文窗口为 128k,知识截止日期为 2023 年 10 月。API支持函数调用和 JSON 模式。
产品发布:
- GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。免费套餐也开始灰度提供与现在付费版的所有功能,包括:GPT-4o 模型、联网能力、代码执行、图片输入与理解、文件上传与分析、使用GPTs、使用记忆功能。并向 Plus 用户(已全量推送)提供高达 5 倍的消息限制(预计付费3小时80条,免费3小时16条)。
- 界面 UI 有了优化,现在每条回复都能切换模型了
- 未来几周内,将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。
- 开发了 macOS 的新 ChatGPT 桌面应用程序,可以实时截图进行语音讨论,今天开始灰度,未来几周在Plus用户中推全。计划今年晚些推出Windows应用
- 已经开放了 GPT-4o 的文本和视觉 API,速度提高2倍,价格降低一半。未来几周邀请开发者内测音频和视频 API
信息整理自:
- 官方博客:
openai.com,
openai.com- 官方帮助文档:
help.openai.com- 发布会视频:
www.youtube.com- MacOS 应用程序使用文档:
help.openai.com其他讨论:
- 前几天 LMSys arena 上测试的 im-also-a-good-gpt2-chatbot 实际就是GPT-4o:
twitter.com- 虽然在 LMSys arena 上 GPT-4o(im-also-a-good-gpt2-chatbot)相比于之前的 GPT-4 更强,从博客提供的文本推理指标(MMLU等)来看,GPT-4o 也比之前有进步,但多个网友观察到,在处理困难级别的问题上,GPT-4o 不如之前的 GPT-4模型:
twitter.com- Jim Fan 评价 GPT-4o 技术实现、情感特点、以及可能与苹果的集成的帖子中,提到这个模型有意往情绪化方面发展,甚至有些调情(flirty):
twitter.com。我也确实观察到,几乎所有视频展示的都是女声而非男声,可能女声比男声更富情绪感染力。