即刻App年轻人的同好社区
下载
App内打开
Szhans
6月前
正式宣布:xAI 的Grok来了!Elon Musk 说它的终极目标是为了人类的理解~

Grok 是一款仿照《银河系漫游指南》设计的人工智能,可以回答几乎任何问题,更难能可贵的是,它还能建议你问什么问题!

Grok 在回答问题时略带诙谐和反叛,因此如果你讨厌幽默,请不要使用它!

Grok 的一个独特而基本的优势是,它可以通过 𝕏 平台实时了解世界。它还能回答被大多数其他人工智能系统拒绝的辛辣问题。

Grok 仍然是一个非常早期的测试版产品--我们只能通过两个月的训练来达到最好的效果--因此,希望在您的帮助下,它能在每周的测试中迅速改进。

xAI 团队


官方全文如下:

🤔 为什么我们要建立Grok

在xAI,我们希望创建能够帮助人类追求理解和知识的人工智能工具。通过创建和改进Grok,我们的目标是:

- 收集反馈并确保我们正在构建最大程度地惠益全人类的人工智能工具。我们认为设计对所有背景和政治观点的人都有用的人工智能工具非常重要。我们还希望根据法律赋予用户使用我们的人工智能工具的权力。我们在Grok上的目标是在公众面前探索和展示这种方法。
- 赋予研究和创新能力:我们希望Grok能成为任何人的强大研究助手,帮助他们快速获取相关信息、处理数据并提出新的想法。

我们的终极目标是让我们的人工智能工具帮助人们加深理解。

🪐 前往Grok-1的旅程

Grok的引擎是我们在过去四个月中开发的前沿LLM——Grok-1。在这段时间里,Grok-1经历了许多迭代。

在宣布xAI之后,我们训练了一个拥有330亿参数的原型LLM(Grok-0)。这个早期模型在标准的语言模型基准测试中接近LLaMA 2(700亿)的能力,但只使用了一半的训练资源。在过去的两个月中,我们在推理和编码能力方面取得了显著的改进,最终开发出了Grok-1,这是一款先进的语言模型,具有更强大的性能,人工评估编码任务达到63.2%,MMLU达到73%。

为了了解我们在Grok-1上所做的能力改进,我们进行了一系列评估,使用了一些旨在衡量数学和推理能力的标准机器学习基准测试。

- GSM8k:《中学数学应用题》(Cobbe等,2021),采用思维链提示。
- MMLU:多学科多项选择题(Hendrycks等,2021年)提供了5个示例,包含了上下文。
- HumanEval:Python代码补全任务,(Chen等人,2021),零-shot评估通过率@1。
- 数学:中学和高中的数学问题以LaTeX格式编写,(Hendrycks等,2021),使用固定的4个提示进行提示。

在这些基准测试中,Grok-1展现出了强大的结果,超过了其所属计算级别中的所有其他模型,包括ChatGPT-3.5和Inflection-1。它只被那些使用了大量训练数据和计算资源进行训练的模型所超越,比如GPT-4。这展示了我们在xAI方面以卓越的效率训练LLM模型所取得的快速进展。

由于这些基准测试可以在网络上找到,我们不能排除我们的模型无意中是在这些基准测试上进行训练的,因此我们对我们的模型(以及Claude-2和GPT-4)进行了手动评分,评估的是2023年5月底发布的匈牙利国家高中数学期末考试,这是在我们收集数据集之后发布的。Grok在考试中获得了C(59%),而Claude-2获得了相同的成绩(55%),GPT-4获得了B(68%)。所有模型都在温度为0.1且相同的提示下进行评估。值得注意的是,我们没有为这次评估进行任何调整。这个实验是对我们的模型从未明确调整过的数据集进行的“现实生活”测试。

我们在模型卡中提供了Grok-1的重要技术细节摘要。

👩‍💻 xAI的工程技术
在深度学习研究的前沿,可靠的基础设施必须像数据集和学习算法一样慎重构建。为了创建Grok,我们基于Kubernetes、Rust和JAX构建了一个定制的训练和推理框架。

LLM培训就像一辆疾驰的货运火车,如果其中一节车厢出轨,整个火车都会脱轨,使得重新恢复正常运行变得困难。GPU的故障方式多种多样:制造缺陷、松动的连接、配置错误、降级的内存芯片、偶发的随机位翻转等等。在训练过程中,我们需要在数万个GPU之间进行计算同步,而由于规模的扩大,所有这些故障模式都变得更加频繁。为了克服这些挑战,我们采用了一套自定义的分布式系统,确保每一种故障都能立即被识别并自动处理。在xAI,我们将最大化每瓦有用计算作为我们努力的重点。在过去几个月中,我们的基础设施使我们能够将停机时间降至最低,并在硬件不可靠的情况下保持高模型浮点运算利用率(MFU)。

Rust已被证明是构建可扩展、可靠和易维护基础设施的理想选择。它提供高性能、丰富的生态系统,并防止了分布式系统中通常会遇到的大多数错误。考虑到我们团队规模较小,基础设施的可靠性至关重要,否则维护将会抑制创新。Rust让我们有信心,任何代码修改或重构都有可能产生可运行数月且需要最少监督的程序。

我们现在正在为我们下一次模型能力的跃升做准备,这将需要可靠地协调数万个加速器上的训练运行,运行互联网规模的数据管道,并将新的能力和工具集成到Grok中。如果这听起来令人兴奋,请申请加入我们的团队。

🔬 xAI的研究
我们为Grok提供了搜索工具和实时信息的访问权限,但是像所有基于下一个标记预测训练的LLM一样,我们的模型仍然可能生成错误或矛盾的信息。我们相信实现可靠的推理是解决当前系统限制的最重要的研究方向。在这里,我们想要强调一些在xAI最令人兴奋的有前途的研究方向。

- 可扩展的工具辅助监督。人类反馈至关重要。然而,在处理冗长的代码或复杂的推理步骤时,提供一致准确的反馈可能具有挑战性。人工智能可以通过查找不同来源的参考资料、使用外部工具验证中间步骤,并在必要时寻求人类反馈来协助可扩展的监督。我们的目标是在我们的模型的帮助下,最有效地利用我们的人工智能导师的时间。
- 将正式验证与安全性、可靠性和基础结合起来。为了创建能够深入思考现实世界的AI系统,我们计划在较少歧义和更可验证的情况下开发推理能力。这使我们能够在没有人类反馈或与现实世界的互动的情况下评估我们的系统。这种方法的一个主要即时目标是为代码正确性提供正式保证,特别是关于AI安全的可验证方面。
- 长上下文理解和检索。训练模型以高效地在特定上下文中发现有用的知识是打造真正智能系统的核心。我们正在研究能够在需要时发现和检索信息的方法。
- 对抗性鲁棒性。对抗性示例表明,优化器可以轻易地利用人工智能系统的漏洞,无论是在训练还是服务期间,从而导致系统犯下严重错误。这些漏洞是深度学习模型长期存在的弱点。我们特别关注提高LLMs、奖励模型和监控系统的鲁棒性。
- 多模态能力。目前,Grok没有其他感官,比如视觉和听觉。为了更好地帮助用户,我们将为Grok配备这些不同的感官,以实现更广泛的应用,包括实时互动和协助。

我们相信人工智能对于为社会做出重大科学和经济贡献具有巨大潜力,因此我们将努力开发可靠的防范措施,以防止恶意使用带来的灾难性后果。我们坚信要尽最大努力确保人工智能始终成为一种正能量。

如果你和我们一样乐观,并且想为我们的使命做出贡献,请申请加入我们的团队。

🧪 Grok的早期访问

我们正在向美国地区的一部分用户提供机会,让他们尝试我们的Grok原型,并提供宝贵的反馈意见,以帮助我们在正式发布之前改进其功能。您可以在这里加入Grok的等待列表。这次发布只是xAI的第一步。展望未来,我们有一个令人兴奋的路线图,并将在未来几个月推出新的功能和特性。

x.ai
1342

来自圈子

圈子图片

AI探索站

66837人已经加入