Sora发布后,我重读了一遍OpenAI的官方博客
1. 猜测比一年前Sora立项更早就谋划视频生成模型了。OpenAI从开始就奔着横向跨/多模态去的:大语言模型(GPT系列),图像生成(Dalle系列),3D生成(Point E),语音识别(Whisper),音乐生成(MuseNet/Jukebox),视觉理解(CLIP),编码(Codex),智能体(Neural MMO),词向量(Embedding)以及很多游戏的深度学习模型
2. Sora肯定是一个重要节点,从跟GPT,Dalle并列就可以看出来,之后应该会有Sora-2在内的更多版本
3. 既然是多模态,哪天出来个文字-气味模型应该也很合理hhh,更多其他维度的模型应该在源源不断的筹备中
下面是一些Milestone,对应的时间线和官方博客来源:
2015年12月11日,OpenAl成立(
openai.com)
2016年4月27日,发布第一个项目OpenAl Gym Beta,用于开发和比较强化学习算法的Python库(
openai.com)
2016年12月5日,发布游戏测试平台Universe,用于衡量和训练 AI 通用智能水平的开源平台(
openai.com)
2017年5月24日,开源OpenAl Baselines,用于复现强化学习算法(
openai.com)
2018年6月11日,发布GPT-1,首次将transformer与无监督的预训练技术相结合(
openai.com)
2018年6月25日,发布OpenAI Five,使用强化学习训练系统Rapid (
openai.com);在前一年的TI 1vs1中击败Dendi(
openai.com);并在下一年4月击败OG战队(恭喜OG!)
2018年7月9日,发布可逆生成模型Glow(
openai.com)
2019年2月14日,GPT-2发布(
openai.com)
2019年3月4日,发布Neural MMO,用于大规模多智能体研究(
openai.com)
2019年4月25日,发布MuseNet,用于生成音乐(
openai.com)
2020年4月14日,发布Microscope,用于可视化神经网络内部结构(
openai.com)
2020年4月30日,发布Jukebox,用于生成音乐(
openai.com)
2020年6月11日,发布OpenAI API,首个商业产品(
openai.com)
2020年6月17日,发布lmage GPT模型,用GPT方式预测像素(
openai.com)
2021年1月5日,发布CLIP,用于同时理解图像和文本(
openai.com)
2021年1月5日,发布Dalle模型,用于从文本生成图像(
openai.com)
2021年8月10日,发布Codex模型,OpenAl Codex就是Github Coplilot背后的模型(
openai.com)
2022年1月25日,发布向量化模型Embedding(
openai.com)
2022年1月27日,发布InstructGPT,用RLHF对齐后的模型(
openai.com)
2022年6月23日,发布视频预训练模型VPT,用来玩Minecraft(
openai.com)
2022年7月14日,发布Dalle2(
openai.com)
2022年9月21日,发布Whisper,语音识别预训练开源模型(
openai.com)
2022年11月30日,发布ChatGPT(
openai.com)
2022年12月16日,发布Point-E(
openai.com)
2023年3月14日,发布GPT-4(
openai.com)
2024年2月15日,发布Sora(
openai.com)