Grokによる公開、xAIによる

Grok は、『銀河ヒッチハイク・ガイド』に触発された人工知能であり、ほぼすべての質問に答え、問題の提案さえも行います！
Grok はユーモアと反抗心を持つように設計されているため、ユーモアが好きでない場合は使用しないでください！
Grok のユニークで根本的な利点は、𝕏プラットフォームを通じてリアルタイムで世界を理解することです。また、他のほとんどの人工知能システムが回答を拒否する質問にも答えます。
Grok はまだ早期テスト版です - これは 2 か月のトレーニングで達成できる最高の成果です - そのため、週ごとに改善が期待できます。
ありがとうございます、
xAI チーム

Grok を構築する理由#

xAI では、人間が理解と知識を追求するのを支援する人工知能ツールを作成したいと考えています。

Grok を作成し改善することで、私たちの目標は次のとおりです：

フィードバックを収集し、人類全体に利益をもたらす人工知能ツールを構築していることを確認します。私たちは、さまざまな背景や政治的視点を持つ人々に役立つ人工知能ツールの設計が非常に重要だと考えています。また、法律を遵守しながら、ユーザーに人工知能ツールを提供することも望んでいます。私たちの目標は、Grok とともに、このアプローチを公開的に探求しデモンストレーションすることです。
研究とイノベーションの促進：私たちは、Grok が誰でも強力な研究アシスタントになることを望んでいます。彼らが迅速に関連情報にアクセスし、データを処理し、新しいアイデアを提案するのを助けます。
私たちの最終目標は、人工知能ツールが理解を追求するのを支援することです。

Grok-1 への旅#

Grok を駆動するエンジンである Grok-1 は、過去 4 か月間で開発された先進的な LLM です。Grok-1 はこの期間中に何度もイテレーションを経験しました。

xAI のリリース後、私たちは 330 億のパラメータを持つ LLM プロトタイプ（Grok-0）をトレーニングしました。この初期モデルは、標準の LM ベンチマークにおいて LLaMA 2（70B）の機能に近づいていますが、トレーニングリソースの半分しか使用していません。過去 2 か月間で、私たちは推論能力とエンコーディング能力の両方で大きな進歩を遂げ、最終的には Grok-1 を生み出しました。これは最先端の言語モデルであり、HumanEval エンコーディングタスクで 63.2％、MMLU で 73％を達成しています。

Grok-1 の能力向上を理解するために、数学と推論能力を測定するいくつかの標準的な機械学習ベンチマークを使用して評価を行いました。

GSM8k：中学校の数学の応用問題（Cobbe et al. 2021）、思考チェーンのヒントを使用。

MMLU：多学科の多肢選択問題（Hendrycks et al. 2021）、5 つのコンテキスト例を提供。

HumanEval：Python コードのタスク完了（Chen et al. 2021）、pass@1 に対するゼロショット評価。

MATH：中学校と高校の数学の問題（Hendrycks et al. 2021）、固定の 4 つのヒントで提示。

ベンチマーク	Grok-0（33B）	LLaMa 2 70B	Inflection-1	GPT-3.5	Grok-1	Palm 2	Claude 2	GPT-4
GSM8k	56.8％8-shot	56.8％8-shot	62.9％8-shot	57.1％8-shot	62.9％8-shot	80.7％8-shot	88.0％8-shot	92.0％8-shot
MMLU	65.7％5-shot	68.9％5-shot	72.7％5-shot	70.0％5-shot	73.0％5-shot	78.0％5-shot	75.0％5-shot + CoT	86.4％5-shot
HumanEval	39.7％0-shot	29.9％0-shot	35.4％0-shot	48.1％0-shot	63.2％0-shot	-	70％0-shot	67％0-shot
MATH	15.7％4-shot	13.5％4-shot	16.0％4-shot	23.5％4-shot	23.9％4-shot	34.6％4-shot	-	42.5％4-shot

これらのベンチマークテストでは、Grok-1 は優れたパフォーマンスを発揮し、計算カテゴリーで他のすべてのモデル、ChatGPT-3.5 や Inflection-1 を含む、を上回っています。これを超えるには、GPT-4 などの大量のトレーニングデータと計算リソースが必要です。これは、xAI で LLMs のトレーニング効率を大幅に向上させたことを示しています。

これらのベンチマークテストは、インターネット上に存在する可能性があるため、私たちのモデルがこれらのベンチマークテストのトレーニングを意図せずに受けた可能性は排除できません。そのため、私たちはモデル（および Claude-2 および GPT-4）を手動で評価し、2023 年のハンガリー全国高校数学競技大会での成績を付けました。この競技大会は私たちがデータセットを収集するよりも後に公開されました。Grok は C（59％）の成績で試験に合格し、Claude-2 も同じ成績（55％）を受けましたが、GPT-4 は B の成績を受けました。すべてのモデルは temperature 0.1 で評価され、同じプロンプトが使用されました。この評価については、調整を行っていません。この実験は、私たちのモデルが明示的に調整されていないデータセットに対して行われる「現実のテスト」として行われました。

人間による評価	Grok-0	GPT-3.5	Claude 2	Grok-1	GPT-4
ハンガリー全国高校数学競技大会（2023 年 5 月）	37％1-shot	41％1-shot	55％1-shot	59％1-shot	68％1-shot

Grok-1 の重要な技術的詳細については、モデルカードをご覧ください。

xAI のエンジニアリングデザイン#

深層学習の研究において、データセットや学習アルゴリズムと同様に、信頼性のあるインフラストラクチャを慎重に構築する必要があります。Grok を作成するために、Kubernetes、Rust、JAX をベースにしたカスタムトレーニングおよび推論スタックを構築しました。

LLM のトレーニングは、列車のように急速に前進しています。1 つの車両が脱線すると、列車全体が脱線し、再起動が困難になります。GPU の故障はさまざまな形で発生します：製造上の欠陥、緩んだ接続、誤った設定、劣化したメモリチップ、ランダムなビットフリップなど。トレーニングプロセスでは、何千もの GPU で数ヶ月にわたって同期計算を行い、これらの故障モードがスケールにより頻繁に発生します。これらの課題に対処するために、私たちは各タイプの故障を即座に識別し自動的に処理するカスタム分散システムを採用しました。xAI では、ワットあたりの有用な計算を最大化することを重要な焦点としています。過去数ヶ月間、私たちのインフラストラクチャは、ダウンタイムを最小限に抑え、ハードウェアの信頼性の低下にもかかわらず高いモデルの Flop 利用率（MFU）を維持することができました。

Rust は、スケーラブルで信頼性の高い、メンテナンスが容易なインフラストラクチャを構築するための理想的な選択肢として証明されています。高性能で豊富なエコシステムを提供し、分散システムで一般的なエラーのほとんどを防ぐことができます。私たちのチームの規模が比較的小さいため、インフラストラクチャの信頼性は非常に重要です。そうでないと、イノベーションが制限されてしまいます。Rust は、コードの変更やリファクタリングが数ヶ月間監視を必要としない作業プロセスになる可能性があることで、私たちに自信を与えてくれます。

私たちは現在、モデルの能力をさらに向上させる準備をしており、数万のアクセラレータ上でのトレーニングランを信頼性を持って調整し、インターネットスケールのデータパイプラインを実行し、新しいタイプの機能やツールを Grok に統合する必要があります。これがあなたにとって興味深いものであれば、私たちのチームに参加してください。

xAI の研究#

Grok には検索ツールとリアルタイム情報アクセスの権限がありますが、次のトークン予測に基づくすべての LLMs と同様に、モデルは依然として虚偽または矛盾した情報を生成する可能性があります。信頼性のある推論を実現することは、現在のシステムの制約を解決するための最も重要な研究方向だと考えています。ここでは、xAI で最も興味深い有望な研究方向のいくつかを強調したいと思います：

スケーラブルなツールによる補助的な監督。人間のフィードバックは非常に重要です。ただし、長いコードや複雑な推論手順を処理する際に、一貫した正確なフィードバックを提供することは困難な場合があります。特に複雑な推論が関わる場合には、AI はさまざまなソースの参考資料を検索し、中間ステップを外部ツールで検証し、必要に応じて人間のフィードバックを求めることで、スケーラブルな監督を支援することができます。私たちの目標は、AI アシスタントとしての役割を果たすことで、私たちのAI チューターの時間を最も効果的に活用することです。
安全、信頼性、および基礎のための形式的検証の統合。深い思考能力を持つ AI システムを作成するために、私たちは推論能力をより明確で検証可能なコンテキストで育成する計画です。これにより、人間のフィードバックや実世界との対話なしで、システムを評価することができます。このアプローチの主な目標は、コードの正確性、特に AI の安全性に関する形式的な保証を提供することです。
長期的なコンテキスト理解と検索。特定のコンテキストでモデルをトレーニングして、有用な知識を効率的に発見することは、真のインテリジェントシステムの作成の核心です。私たちは、必要に応じて情報を発見し、検索する方法を研究しています。
対抗的な頑健性。対抗的な例は、オプティマイザが AI システムの脆弱性を利用し、トレーニング中だけでなくサービス時間においても重大なエラーを引き起こすことを示しています。これらの脆弱性は、深層学習モデルの長年の弱点です。私たちは特に LLMs、報酬モデル、および監視システムの頑健性を向上させることに注力しています。
マルチモーダルな能力。現時点では、Grok には視覚や音声などの他の感覚はありません。ユーザーをよりよくサポートするために、これらの異なる感覚を Grok に組み込むことで、より幅広いアプリケーション、リアルタイムの対話、およびサポートを実現することができます。

私たちは、AI が社会に重要な科学的および経済的価値を提供する巨大な潜在能力を持っていると信じています。そのため、災害的な悪用を防ぐための信頼性のある対策を開発するための努力を惜しまないと考えています。AI が引き続き積極的な力であることを確保するために、最大限の努力を尽くすべきだと信じています。

私たちの使命に貢献したい場合は、チームに参加してください。