OpenAI又一次颠覆性的更新,这一次并不是推出新的类似于GPT-5的模型,而是着眼于实用性,基于原有LLM的一些工程上的强化与应用创新,推出了支持语音、实时视频、文本、图片等多模态输入和输出的GPT-4o,使得其更走近人们的生活。
有几个亮点:
1. 实时语音交互,有着优于hume.AI的响应速度和交互体验。GPT-4o(“o”代表“omni”)朝着更自然的人机交互迈出了一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这与对话中的人类响应时间类似。
2.能通过摄像头实时感知面部表情并识别出其情绪,尤其是还能够识别出简笔画的爱心并以热情真挚的预期反馈。能够以更拟真的语气(叹气、笑)和情感(热情)实现人机交互,给予答复。比如能够唱歌、输出笑声和表达情感。
3. 具备近20种语言理解能力,且能实现高效的翻译。在英语和代码文本上的性能与 GPT-4 Turbo 相匹配,在非英语语言文本上有了显着提升,同时在 API 中也快得多,便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
4.推出桌面级应用,能够实现桌面级coding指导。
5.GPT-4o将在未来免费免费免费开放给用户使用。
官方链接:
openai.com