人工智能领域的下一次巨大飞跃已经延期并且费用高昂| OpenAI在其新的人工智能项目上遇到了一个又一个问题,该项目代号为Orion
作者: Deepa Seetharaman
2024年12月20 日
OpenAI的新人工智能项目已经延期并且产生了巨额费用。目前尚不清楚——甚至是否能够成功——它何时能运作。世界上可能没有足够的数据使其足够智能。
该项目正式名称为GPT-5,代号Orion,已经进行了超过18个月,旨在成为推动ChatGPT技术的重大进步。据知情人士透露,OpenAI最亲密的合作伙伴和最大投资者微软预计将在2024年中左右看到新模型。
OpenAI至少进行了两次大型训练运行,每次都需要数月的时间处理大量数据,目标是使Orion更智能。接近项目的人士表示,每次运行都出现了新问题,软件未能达到研究人员希望的结果。
他们说,最好的情况下,Orion的表现优于OpenAI目前的服务,但还没有足够的进步来证明维持新模型运行的巨大成本是合理的。根据公开和私人对训练各方面的估计,六个月的训练运行仅计算成本就可能高达五亿美元。
OpenAI及其直言不讳的首席执行官萨姆·奥特曼(Sam Altman)在两年前推出ChatGPT时,在硅谷引起了震动。人工智能承诺将继续展现出戏剧性的改进,并渗透到我们生活的几乎所有方面。分析师预测,未来几年,科技巨头可能在人工智能项目上花费1万亿美元。
这些期望的重担主要落在了OpenAI身上,该公司处于人工智能热潮的中心。
投资者在10月份给予OpenAI的1570亿美元估值在很大程度上是基于奥特曼的预测,即GPT-5将在各种主题和任务中代表着“重大飞跃”。
GPT-5应该能够解锁新的科学发现,并且完成像预订约会或航班这样的日常人类任务。研究人员希望它比当今的人工智能犯更少的错误,或者至少承认怀疑——对于当前的模型来说,这是一个挑战,它们可以带着明显的自信产生错误,被称为幻觉。
运行AI聊天机器人的基础技术被称为大型语言模型,或LLM。消费者、企业和政府已经依赖它们来完成从编写计算机代码到润色营销副本和策划派对等一切事务。OpenAI的模型被称为GPT-4,这是自2015年成立以来公司开发的第四个LLM。
虽然GPT-4表现得像一个聪明的高中生,但最终的GPT-5将在某些任务上有效地拥有博士学位,一位前OpenAI高管表示。今年早些时候,奥特曼在斯坦福大学的一次演讲中告诉学生,OpenAI可以“以高度的科学确定性”说GPT-5将比当前模型聪明得多。
没有确定的标准来决定何时一个模型变得足够聪明,可以被指定为GPT-5。OpenAI可以在数学和编码等领域测试其LLM。公司高管必须根据直觉或像许多技术专家所说的“氛围”来决定模型是否足够聪明,可以被称为GPT-5。
到目前为止,氛围并不对。
OpenAI和微软拒绝对本文发表评论。11月,奥特曼表示,该创业公司不会在2024年发布任何名为GPT-5的产品。
训练日
从2023年3月GPT-4发布的那一刻起,OpenAI一直在研究GPT-5。
长期的人工智能研究人员表示,开发像LLM这样的系统既是艺术也是科学。世界上最受尊敬的人工智能科学家因其直觉而受到赞誉,他们知道如何获得更好的结果。

参数数量*,按GPT世代
GPT-1 1.17亿
GPT-2 15亿
GPT-3 1750亿
GPT-4 1.76万亿†
*设置决定AI如何处理信息并做出决策 †估计
来源:OpenAI(GPT-1、-2、-3);SemiAnalysis(GPT-4)
在训练运行期间测试模型,这是一个持续的时期,模型可以被喂食数万亿的单词片段,称为令牌。一次大型训练运行可能需要在拥有数万个昂贵且令人垂涎的计算机芯片(通常来自Nvidia)的数据中心进行几个月。
在训练运行期间,研究人员会弯腰在电脑前几周甚至几个月,尝试使用一些最昂贵的硬件将世界上的知识输入到AI系统中。
奥特曼表示,GPT-4的训练成本超过1亿美元。未来的人工智能模型预计将超过10亿美元。失败的训练运行就像太空火箭在发射后不久在天空中爆炸一样。
研究人员试图通过在较小规模上进行实验——在真正的事情之前进行试运行——来最小化这种失败的可能性。
从一开始,GPT-5的计划就存在问题。
2023年中,OpenAI开始了一次训练运行,这也作为Orion新设计的测试。但这个过程很缓慢,表明更大的训练运行可能需要非常长的时间,这反过来又会使它变得极其昂贵。被称为Arrakis的项目的结果表明,创建GPT-5不会像希望的那样顺利。
OpenAI研究人员决定进行一些技术调整以加强Orion。他们还得出结论,他们需要更多样化、更高质量的数据。他们觉得公共互联网上没有足够的数据。
通常,人工智能模型吞噬的数据越多,它们的能力就越强。对于LLM来说,这些数据主要来自书籍、学术出版物和其他受人尊敬的来源。这些材料有助于LLM更清晰地表达自己,并处理广泛的任务。
对于之前的模型,OpenAI使用了从互联网上抓取的数据:新闻文章、社交媒体帖子和科学论文。
为了使Orion更智能,OpenAI需要使其更大。这意味着它需要更多的数据,但没有足够的数据。
“它变得非常昂贵,很难找到更多同等高质量的数据,”DatologyAI的首席执行官Ari Morcos说,这是一家构建工具以改善数据选择的初创公司。Morcos正在用更少但更好的数据构建模型,他认为这种方法将使当今的人工智能系统比所有顶级AI公司(如OpenAI)所采用的策略更有能力。
OpenAI的解决方案是从头开始创建数据。
它雇佣人员为Orion编写新的软件代码或解决数学问题以供学习。这些工人中有些是软件工程师和数学家,他们也与Orion分享他们工作的解释。
许多研究人员认为代码,即软件的语言,可以帮助LLM解决它们尚未见过的问题。
让人们解释他们的思维增加了新创建数据的价值。这是LLM吸收的更多语言;它也是模型未来可能解决类似问题的地图。
“我们正在将人类智能从人脑转移到机器大脑,”与OpenAI、Meta等合作的人工智能基础设施公司图灵的首席执行官兼联合创始人Jonathan Siddharth说。
在AI训练中,图灵高管表示,软件工程师可能会被提示编写一个程序,有效地解决一个复杂的逻辑问题。数学家可能需要计算由一百万个篮球建造的金字塔的最大高度。答案——以及更重要的,如何达到它们——随后被纳入AI训练材料。
OpenAI还与理论物理等领域的专家合作,解释他们将如何处理他们领域中最棘手的问题。这也可以有助于使Orion更智能。
这个过程非常缓慢。GPT-4在估计的13万亿个令牌上进行了训练。一千人每天写5000字需要几个月才能产生10亿个令牌。
OpenAI还开始开发所谓的合成数据,或由人工智能创建的数据,以帮助训练Orion。研究显示,人工智能创建数据以供人工智能训练的反馈循环经常会导致故障或产生无意义的答案。
OpenAI的科学家们认为他们可以通过使用另一个名为o1的AI模型生成的数据来避免这些问题,熟悉此事的人士说。
OpenAI已经困难重重的任务由于内部动荡和竞争对手不断试图挖走其顶级研究人员而变得更加复杂,有时甚至向他们提供数百万美元。
去年,奥特曼突然被OpenAI董事会解雇,一些研究人员想知道公司是否会继续。奥特曼很快被重新任命为首席执行官,并开始改革OpenAI的治理结构。
今年,包括联合创始人兼首席科学家Ilya Sutskever和首席技术官Mira Murati在内的二十多位关键高管、研究人员和长期员工离开了OpenAI。上周四,备受尊敬的研究人员Alec Radford在公司工作了大约八年后宣布离职,他曾担任OpenAI几篇科学论文的主要作者。
重启
到2024年初,高管们开始感受到压力。GPT-4已经一岁了,竞争对手开始迎头赶上。Anthropic的新LLM被业界许多人评为比GPT-4更好。几个月后,谷歌推出了今年最病毒式的新AI应用,名为NotebookLM。
据知情人士透露,随着Orion的停滞,OpenAI开始开发其他项目和应用程序。它们包括GPT-4的精简版本和Sora,这是一款可以生产AI生成视频的产品。
这导致了新产品研发团队和Orion研究人员之间对有限计算资源的竞争。
人工智能实验室之间的竞争变得如此激烈,以至于主要科技公司发表的关于最近发现或突破的论文比科学界通常的要少。由于两年前资金涌入市场,科技公司开始将这些研究成果视为需要保护的商业机密。一些研究人员非常重视这一点,他们不会在飞机上、咖啡店或任何可能有人窥视的地方工作,以免有人瞥见他们的工作。
这种保密态度让许多长期的AI研究人员感到沮丧,包括Meta的首席AI科学家Yann LeCun。LeCun表示,来自OpenAI和Anthropic的工作不应再被视为研究,而是“高级产品开发”。
“如果你在商业时钟上做这件事,它就不被称为研究,”LeCun在最近一个AI会议上说,OpenAI在会议上的存在感很小。“如果你秘密地做这件事,它就不被称为研究。”
2024年初,OpenAI准备再次尝试Orion,这次配备了更好的数据。研究人员在年初的几个月里进行了几次小规模的训练运行,以建立信心。
到了5月,OpenAI的研究人员决定他们准备好再次尝试Orion的大规模训练运行,他们预计这将持续到11月。
一旦训练开始,研究人员发现数据中存在问题:它并不像他们想象的那样多样化,这可能会限制Orion学到的东西。
这个问题在小规模努力中并不明显,只有在大规模训练运行已经开始后才变得明显。OpenAI已经花费了太多的时间和金钱,无法重新开始。
相反,研究人员争先恐后地寻找更广泛的数据范围,在训练过程中喂养模型。目前尚不清楚这种策略是否成功。
Orion的问题向OpenAI中的一些人发出了信号,表明更多就是更好的策略,这曾推动了它早期的许多成功,正在失去动力。
OpenAI并不是唯一担心进展遇到障碍的公司。整个行业都在争论人工智能的进步是否开始趋于平稳。
今年辞去OpenAI首席科学家职务的Sutskever最近共同创立了一家名为Safe Superintelligence或SSI的新人工智能公司,他在最近一个AI会议上宣称,最大数据时代已经结束。“数据不再增长,因为我们只有一个互联网,”他告诉一群研究人员、政策专家和科学家。“你甚至可以说数据是AI的化石燃料。”
而那种燃料开始耗尽了。
推理
他们在Orion上的挣扎导致OpenAI研究人员采用了一种新的方法来使LLM更智能:推理。研究人员说,花费很长时间“思考”可以让LLM解决它们尚未训练过的难题。
在幕后,OpenAI的o1对每个问题提供几个回应,并分析它们以找到最好的一个。它可以执行更复杂的任务,比如编写商业计划或创建填字游戏,同时解释其推理——这有助于模型从每个答案中学习一点。
苹果的研究人员最近发布了一篇论文,认为包括o1版本在内的推理模型最有可能模仿它们在训练中看到的数据,而不是真正解决新问题。
苹果的研究人员说,如果问题被更改为包含不相关的细节——比如调整一个关于猕猴桃的数学问题,指出其中一些水果比其他水果小——他们会找到“灾难性的性能下降”。
9月,OpenAI推出了其o1推理模型的预览,并在本月早些时候发布了o1的完整版本。
所有这些额外的脑力都是昂贵的。OpenAI现在支付生成多个答案而不是只有一个查询的费用。
在最近的一次TED演讲中,OpenAI的一位高级研究科学家强调了推理的优势。
“结果表明,在一手扑克中让机器人思考20秒,与将模型扩大100,000倍并训练100,000倍的时间一样,都能提高性能,”OpenAI科学家Noam Brown说。
一个更高级、更高效的推理模型可以构成Orion的基础。OpenAI的研究人员正在追求这种方法,并希望将其与旧的更多数据的方法结合起来,其中一些数据可能来自OpenAI的其他AI模型。然后,OpenAI可以用人为生成的材料来完善结果。
周五,奥特曼宣布计划推出一个比公司以往发布的任何模型都更智能的新型推理模型。他没有提到何时,或者是否会有一个值得被称为GPT-5的模型出现。
www.wsj.com