Levix

Levix's zone

x
telegram

Grok 發布 by xAI

Grok 是一款受《銀河系漫遊指南》啟發的人工智能,旨在回答幾乎任何問題,甚至提供問題建議的難題!
Grok 被設計成帶有一些幽默感和叛逆精神,因此如果您不喜歡幽默,請不要使用它!
Grok 的獨特和根本優勢在於通過 𝕏 平台實時了解世界。它還會回答大多數其他人工智能系統拒絕回答的問題。
Grok 仍處於早期測試版階段 - 這是我們在兩個月的訓練中能夠達到的最佳成果 - 因此請期望它在您的幫助下每週迅速改進。
謝謝,
xAI 團隊

我們為何要構建 Grok#

在 xAI,我們希望創建協助人類追求理解和知識的人工智能工具。

通過創建和改進 Grok,我們的目標是:

  • 收集反饋並確保我們正在構建最大程度惠及全人類的人工智能工具。我們認為,設計對各種背景和政治觀點的人都有用的人工智能工具非常重要。我們還希望在遵守法律的前提下,為用戶提供人工智能工具。我們與 Grok 的目標是在公開中探索和演示這種方法。

  • 賦能研究和創新:我們希望 Grok 成為任何人強大的研究助手,幫助他們快速訪問相關信息、處理數據並提出新的想法。
    我們的最終目標是讓我們的人工智能工具協助追求理解。

前往 Grok-1 的旅程#

為 Grok 提供動力的引擎是 Grok-1,它是我們在過去四個月內開發的前沿 LLM。Grok-1 在這段時間經歷了多次迭代。

發布 xAI 後,我們訓練了一個具有 330 億個參數的原型 LLM (Grok-0)。這個早期模型在標準 LM 基準上接近 LLaMA 2 (70B) 功能,但僅使用其一半的訓練資源。在過去的兩個月裡,我們在推理和編碼能力方面取得了顯著的進步,最終誕生了 Grok-1,這是一種最先進的語言模型,功能更強大,在 HumanEval 編碼任務上實現了 63.2%,在 MMLU 上實現了 73%。

為了了解我們使用 Grok-1 所做的能力改進,我們使用一些旨在衡量數學和推理能力的標準機器學習基準進行了一系列評估。

GSM8k:中學數學應用題,(Cobbe et al. 2021),使用思維鏈提示。

MMLU:多學科多項選擇題(Hendrycks et al. 2021),提供了 5 個上下文示例。

HumanEval:Python 代碼完成任務(Chen 等人,2021),針對 pass@1 進行零樣本評估。

數學:用 LaTeX 編寫的初中和高中數學問題(Hendrycks 等人,2021),以固定的 4 次提示進行提示。

BenchmarkGrok-0 (33B)LLaMa 2 70BInflection-1GPT-3.5Grok-1Palm 2Claude 2GPT-4
GSM8k56.8%8-shot56.8%8-shot62.9%8-shot57.1%8-shot62.9%8-shot80.7%8-shot88.0%8-shot92.0%8-shot
MMLU65.7%5-shot68.9%5-shot72.7%5-shot70.0%5-shot73.0%5-shot78.0%5-shot75.0%5-shot + CoT86.4%5-shot
HumanEval39.7%0-shot29.9%0-shot35.4%0-shot48.1%0-shot63.2%0-shot-70%0-shot67%0-shot
MATH15.7%4-shot13.5%4-shot16.0%4-shot23.5%4-shot23.9%4-shot34.6%4-shot-42.5%4-shot

在這些基準測試中,Grok-1 表現出卓越的成績,在其計算類別中超越了所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有那些經過大量訓練數據和計算資源,例如 GPT-4 這類模型才能超越它。這展示了我們在 xAI 中以卓越的效率培訓 LLMs 方面取得的迅猛進展。

由於這些基準測試可能存在於網絡上,我們不能排除我們的模型無意間接受了這些基準測試的訓練,因此我們手工對我們的模型(以及 Claude-2 和 GPT-4)在 2023 年匈牙利全國高中數學決賽上進行了評分,該競賽於五月底發布,比我們收集數據集的時間晚。Grok 以 C(59%)的成績通過了考試,而 Claude-2 獲得了相同的成績(55%),而 GPT-4 獲得了 B,成績為 68%。所有模型都在 temperature 為 0.1 下進行評估,並使用相同的 prompt 提示。必須指出,我們沒有努力為此評估進行調整。這個實驗作為一個 “現實生活” 測試,用於一個我們的模型從未明確調整的數據集。

Human-graded evaluationGrok-0GPT-3.5Claude 2Grok-1GPT-4
Hungarian National High School Math Exam (May 2023)37%1-shot41%1-shot55%1-shot59%1-shot68%1-shot

我們在模型卡中提供了 Grok-1 的重要技術細節摘要。

xAI 工程設計#

在深度學習研究的前沿,可靠的基礎設施必須像數據集和學習算法一樣小心建立。為了創建 Grok,我們構建了基於 Kubernetes、Rust 和 JAX 的自定義培訓和推斷堆棧。

LLM 訓練就像一列火車一樣前進迅猛;如果其中一輛車脫軌,整列火車就會被拖出軌道,使其難以重新豎起。GPU 故障的方式多種多樣:製造缺陷、鬆散的連接、不正確的配置、退化的內存芯片、偶爾的隨機位翻轉等等。在培訓過程中,我們在成千上萬的 GPU 上同步計算數月,所有這些故障模式由於規模而變得頻繁。為了克服這些挑戰,我們採用一套自定義分佈式系統,確保立即識別和自動處理每種型別的故障。在 xAI,我們已將最大化每瓦特的有用計算視為我們努力的關鍵焦點。在過去幾個月中,我們的基礎設施使我們能夠最小化停機時間,並在硬件不可靠的情況下保持高模型 Flop 利用率(MFU)。

Rust 已被證明是構建可伸縮、可靠和易於維護的基礎設施的理想選擇,它提供高性能、豐富的生態系統,並可以防止在分佈式系統中典型發現的大多數錯誤。鑑於我們團隊規模較小,基礎設施的可靠性至關重要,否則,維護將限制創新。Rust 為我們提供信心,任何代碼修改或重構都有可能生成可在數月內幾乎不需要監督的工作程序。

我們現在正在為我們的模型能力的下一躍升做準備,這將需要可靠地協調數萬個加速器上的訓練運行,運行互聯網規模的數據流水線,並將新類型的功能和工具集成到 Grok 中。如果這聽起來對你來說令人興奮,請申請加入我們的團隊。

xAI 的 研究#

我們為 Grok 提供了搜索工具和實時信息訪問權限,但與所有基於下一個令牌預測的 LLMs 一樣,我們的模型仍然可能生成虛假或矛盾的信息,我們認為實現可靠的推理是解決當前系統限制最重要的研究方向。在這裡,我們想突出一些在 xAI 最為興奮的有希望的研究方向:

  • 可擴展的工具輔助監督。人類反饋至關重要。然而,在處理冗長的代碼或複雜的推理步驟時,提供一致和準確的反饋可能具有挑戰性,特別是涉及複雜推理時。AI 可以通過查找不同來源的參考資料、使用外部工具驗證中間步驟,並在必要時尋求人類反饋,以協助可擴展的監督。我們的目標是通過我們的模型的幫助,以 AI 助手的方式,最有效地利用我們的 AI 導師的時間。

  • 與形式驗證集成,用於安全、可靠和基礎。為了創建具有深刻思考能力的 AI 系統,我們計劃在更少含糊和更具可驗證性的情境中培養推理能力。這使我們能夠在無需人類反饋或與真實世界互動的情況下評估我們的系統。這種方法的一個主要目標是為代碼正確性,特別是與 AI 安全的形式驗證方面提供正式的保證。

  • 長期上下文理解和檢索。在特定背景中培訓模型以高效地發現有用知識,這是生成真正智能系統的核心。我們正在研究在需要時可以發現和檢索信息的方法。

  • 對抗魯棒性。對抗性示例表明,優化器很容易利用 AI 系統的漏洞,不僅在培訓過程中,而且在服務時間中,導致它們犯下嚴重錯誤。這些漏洞是深度學習模型的長期弱點。我們特別關注提高 LLMs、獎勵模型和監控系統的魯棒性。

  • 多模態能力。目前,Grok 沒有其他感官,如視覺和音頻。為了更好地幫助用戶,我們將為 Grok 配備這些不同的感官,可以實現更廣泛的應用,包括實時互動和協助。

我們相信 AI 具有為社會提供重要科學和經濟價值的巨大潛力,因此我們將努力開發可靠的防範措施,以防止災難性的惡意使用。我們相信應該盡最大努力確保 AI 仍然是一種積極的力量。

如果你想要為我們的使命做出貢獻,請申請加入我們的團隊

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。