Grok 发布 by xAI

Grok 是一款受《银河系漫游指南》启发的人工智能，旨在回答几乎任何问题，甚至提供问题建议的难题！
Grok 被设计成带有一些幽默感和叛逆精神，因此如果您不喜欢幽默，请不要使用它！
Grok 的独特和根本优势在于通过 𝕏 平台实时了解世界。它还会回答大多数其他人工智能系统拒绝回答的问题。
Grok 仍处于早期测试版阶段 - 这是我们在两个月的训练中能够达到的最佳成果 - 因此请期望它在您的帮助下每周迅速改进。
谢谢，
xAI 团队

我们为何要构建 Grok#

在 xAI，我们希望创建协助人类追求理解和知识的人工智能工具。

通过创建和改进 Grok，我们的目标是：

收集反馈并确保我们正在构建最大程度惠及全人类的人工智能工具。我们认为，设计对各种背景和政治观点的人都有用的人工智能工具非常重要。我们还希望在遵守法律的前提下，为用户提供人工智能工具。我们与 Grok 的目标是在公开中探索和演示这种方法。
赋能研究和创新：我们希望 Grok 成为任何人强大的研究助手，帮助他们快速访问相关信息、处理数据并提出新的想法。
我们的最终目标是让我们的人工智能工具协助追求理解。

前往 Grok-1 的旅程#

为 Grok 提供动力的引擎是 Grok-1，它是我们在过去四个月内开发的前沿 LLM。Grok-1 在这段时间经历了多次迭代。

发布 xAI 后，我们训练了一个具有 330 亿个参数的原型 LLM (Grok-0)。这个早期模型在标准 LM 基准上接近 LLaMA 2 (70B) 功能，但仅使用其一半的训练资源。在过去的两个月里，我们在推理和编码能力方面取得了显着的进步，最终诞生了 Grok-1，这是一种最先进的语言模型，功能更加强大，在 HumanEval 编码任务上实现了 63.2%，在 HumanEval 编码任务上实现了 73%。在 MMLU 上。

为了了解我们使用 Grok-1 所做的能力改进，我们使用一些旨在衡量数学和推理能力的标准机器学习基准进行了一系列评估。

GSM8k：中学数学应用题，（Cobbe et al. 2021），使用思维链提示。

MMLU：多学科多项选择题（Hendrycks et al. 2021），提供了 5 个上下文示例。

HumanEval：Python 代码完成任务（Chen 等人，2021），针对 pass@1 进行零样本评估。

数学：用 LaTeX 编写的初中和高中数学问题（Hendrycks 等人，2021），以固定的 4 次提示进行提示。

Benchmark	Grok-0 (33B)	LLaMa 2 70B	Inflection-1	GPT-3.5	Grok-1	Palm 2	Claude 2	GPT-4
GSM8k	56.8%8-shot	56.8%8-shot	62.9%8-shot	57.1%8-shot	62.9%8-shot	80.7%8-shot	88.0%8-shot	92.0%8-shot
MMLU	65.7%5-shot	68.9%5-shot	72.7%5-shot	70.0%5-shot	73.0%5-shot	78.0%5-shot	75.0%5-shot + CoT	86.4%5-shot
HumanEval	39.7%0-shot	29.9%0-shot	35.4%0-shot	48.1%0-shot	63.2%0-shot	-	70%0-shot	67%0-shot
MATH	15.7%4-shot	13.5%4-shot	16.0%4-shot	23.5%4-shot	23.9%4-shot	34.6%4-shot	-	42.5%4-shot

在这些基准测试中，Grok-1 表现出卓越的成绩，在其计算类别中超越了所有其他模型，包括 ChatGPT-3.5 和 Inflection-1。只有那些经过大量训练数据和计算资源，例如 GPT-4 这类模型才能超越它。这展示了我们在 xAI 中以卓越的效率培训 LLMs 方面取得的迅猛进展。

由于这些基准测试可能存在于网络上，我们不能排除我们的模型无意间接受了这些基准测试的训练，因此我们手工对我们的模型（以及 Claude-2 和 GPT-4）在 2023 年匈牙利全国高中数学决赛上进行了评分，该竞赛于五月底发布，比我们收集数据集的时间晚。Grok 以 C（59％）的成绩通过了考试，而 Claude-2 获得了相同的成绩（55％），而 GPT-4 获得了 B，成绩为 68％。所有模型都在 temperature 为 0.1 下进行评估，并使用相同的 prompt 提示。必须指出，我们没有努力为此评估进行调整。这个实验作为一个 “现实生活” 测试，用于一个我们的模型从未明确调整的数据集。

Human-graded evaluation	Grok-0	GPT-3.5	Claude 2	Grok-1	GPT-4
Hungarian National High School Math Exam (May 2023)	37%1-shot	41%1-shot	55%1-shot	59%1-shot	68%1-shot

我们在模型卡中提供了 Grok-1 的重要技术细节摘要。

xAI 工程设计#

在深度学习研究的前沿，可靠的基础设施必须像数据集和学习算法一样小心建立。为了创建 Grok，我们构建了基于 Kubernetes、Rust 和 JAX 的自定义培训和推断堆栈。

LLM 训练就像一列火车一样前进迅猛；如果其中一辆车脱轨，整列火车就会被拖出轨道，使其难以重新竖起。GPU 故障的方式多种多样：制造缺陷、松散的连接、不正确的配置、退化的内存芯片、偶尔的随机位翻转等等。在培训过程中，我们在成千上万的 GPU 上同步计算数月，所有这些故障模式由于规模而变得频繁。为了克服这些挑战，我们采用一套自定义分布式系统，确保立即识别和自动处理每种类型的故障。在 xAI，我们已将最大化每瓦特的有用计算视为我们努力的关键焦点。在过去几个月中，我们的基础设施使我们能够最小化停机时间，并在硬件不可靠的情况下保持高模型 Flop 利用率（MFU）。

Rust 已被证明是构建可伸缩、可靠和易于维护的基础设施的理想选择，它提供高性能、丰富的生态系统，并可以防止在分布式系统中典型发现的大多数错误。鉴于我们团队规模较小，基础设施的可靠性至关重要，否则，维护将限制创新。Rust 为我们提供信心，任何代码修改或重构都有可能生成可在数月内几乎不需要监督的工作程序。

我们现在正在为我们的模型能力的下一跃升做准备，这将需要可靠地协调数万个加速器上的训练运行，运行互联网规模的数据流水线，并将新类型的功能和工具集成到 Grok 中。如果这听起来对你来说令人兴奋，请申请加入我们的团队。

xAI 的研究#

我们为 Grok 提供了搜索工具和实时信息访问权限，但与所有基于下一个令牌预测的 LLMs 一样，我们的模型仍然可能生成虚假或矛盾的信息，我们认为实现可靠的推理是解决当前系统限制最重要的研究方向。在这里，我们想突出一些在 xAI 最为兴奋的有希望的研究方向：

可扩展的工具辅助监督。人类反馈至关重要。然而，在处理冗长的代码或复杂的推理步骤时，提供一致和准确的反馈可能具有挑战性，特别是涉及复杂推理时。AI 可以通过查找不同来源的参考资料、使用外部工具验证中间步骤，并在必要时寻求人类反馈，以协助可扩展的监督。我们的目标是通过我们的模型的帮助，以 AI 助手的方式，最有效地利用我们的 AI 导师的时间。
与形式验证集成，用于安全、可靠和基础。为了创建具有深刻思考能力的 AI 系统，我们计划在更少含糊和更具可验证性的情境中培养推理能力。这使我们能够在无需人类反馈或与真实世界互动的情况下评估我们的系统。这种方法的一个主要目标是为代码正确性，特别是与 AI 安全的形式验证方面提供正式的保证。
长期上下文理解和检索。在特定背景中培训模型以高效地发现有用知识，这是生成真正智能系统的核心。我们正在研究在需要时可以发现和检索信息的方法。
对抗鲁棒性。对抗性示例表明，优化器很容易利用 AI 系统的漏洞，不仅在培训过程中，而且在服务时间中，导致它们犯下严重错误。这些漏洞是深度学习模型的长期弱点。我们特别关注提高 LLMs、奖励模型和监控系统的鲁棒性。
多模态能力。目前，Grok 没有其他感官，如视觉和音频。为了更好地帮助用户，我们将为 Grok 配备这些不同的感官，可以实现更广泛的应用，包括实时互动和协助。

我们相信 AI 具有为社会提供重要科学和经济价值的巨大潜力，因此我们将努力开发可靠的防范措施，以防止灾难性的恶意使用。我们相信应该尽最大努力确保 AI 仍然是一种积极的力量。

如果你想要为我们的使命做出贡献，请申请加入我们的团队。