Nvidia 株を空売りする

約 10 年間、さまざまなロング / ショートヘッジファンド（ミレニアムやバリャスニーでの経験を含む）で一般的な投資アナリストとして働いてきた者として、また 2010 年からディープラーニングを学んできた数学とコンピュータのオタクとして、AI 技術の発展とそれが株式市場の株価評価にどのように関連しているかについて、かなり独特な視点を持っていると思っています。
多くの時間を一般的な投資アナリストとして過ごし、同時に 2010 年からディープラーニングを学んできた数学とコンピュータのオタクとして、AI 技術の発展とそれが株式市場の株価評価にどのように関連しているかについて、かなり独特な視点を持っていると思っています。

過去数年間、私はより開発者として働いており、さまざまな AI モデル / サービスと連携するためのいくつかの人気のオープンソースプロジェクトを持っています（例：LLM Aided OCR、Swiss Army Llama、Fast Vector Similarity、Source to Prompt、およびPastel Inference Layerなど、最近の例をいくつか挙げます）。基本的に、私はこれらの最前線のモデルを毎日、できる限り集中的に使用しています。リクエストが尽きないように 3 つの Claude アカウントを持っており、ChatGPT Pro が利用可能になってから数分以内に登録しました。
過去数年間、私はより開発者として働いており、さまざまな AI モデル / サービスと連携するためのいくつかの人気のオープンソースプロジェクトを持っています（例：LLM Aided OCR、Swiss Army Llama、Fast Vector Similarity、Source to Prompt、およびPastel Inference Layerなど、最近の例をいくつか挙げます）。基本的に、私はこれらの最前線のモデルを毎日、できる限り集中的に使用しています。リクエストが尽きないように 3 つの Claude アカウントを持っており、ChatGPT Pro が利用可能になってから数分以内に登録しました。

また、最新の研究の進展を常に把握しようと努めており、主要な AI ラボから発表されるすべての主要な技術報告書を注意深く読んでいます。したがって、私はこの分野の状況や物事がどのように進展しているかについて、かなり良い理解を持っていると思います。同時に、私は人生で多くの株をショートしており、バリューインベスターズクラブで 2 回最優秀アイデア賞を受賞したことがあります（自宅で記録している場合は、TMS ロングとPDH ショートです）。
また、最新の研究の進展を常に把握しようと努めており、主要な AI ラボから発表されるすべての主要な技術報告書を注意深く読んでいます。したがって、私はこの分野の状況や物事がどのように進展しているかについて、かなり良い理解を持っていると思います。同時に、私は人生で多くの株をショートしており、バリューインベスターズクラブで 2 回最優秀アイデア賞を受賞したことがあります（自宅で記録している場合は、TMS ロングとPDH ショートです）。

私は自慢するつもりで言っているのではなく、このテーマについて意見を述べる資格を確立するために言っているのです。技術者やプロの投資家に対して無知に見えないようにするためです。もちろん、数学や科学をよりよく知っている人々や、私よりも株式市場でのロング / ショート投資が得意な人々はたくさんいますが、私が主張できるほどの Venn ダイアグラムの交差点にいる人は非常に少ないと思います。
私は自慢するつもりで言っているのではなく、このテーマについて意見を述べる資格を確立するために言っているのです。技術者やプロの投資家に対して無知に見えないようにするためです。もちろん、数学や科学をよりよく知っている人々や、私よりも株式市場でのロング / ショート投資が得意な人々はたくさんいますが、私が主張できるほどの Venn ダイアグラムの交差点にいる人は非常に少ないと思います。

すべてを述べた上で、ヘッジファンドの世界の友人や元同僚と会って話すと、会話はすぐに Nvidia に移ります。会社が相対的な無名から、イギリス、フランス、ドイツの株式市場の合計よりも価値があるようになることは、毎日あることではありません！当然、これらの友人は私の考えを知りたがっています。私はこの技術の長期的な変革的影響を信じているため、Nvidia の勢いがすぐに減速したり止まったりするという議論をするのが難しいのです。
すべてを述べた上で、ヘッジファンドの世界の友人や元同僚と会って話すと、会話はすぐに Nvidia に移ります。会社が相対的な無名から、イギリス、フランス、ドイツの株式市場の合計よりも価値があるようになることは、毎日あることではありません！当然、これらの友人は私の考えを知りたがっています。私はこの技術の長期的な変革的影響を信じているため、Nvidia の勢いがすぐに減速したり止まったりするという議論をするのが難しいのです。

しかし、過去 1 年ほど、私はその評価が私の血には高すぎると考えてきましたが、最近の一連の出来事が私の通常の直感に少し変化をもたらしました。それは、見込みが高すぎると感じたときに、コンセンサスに疑問を投げかけることです。「賢者が最初に信じることは、愚者が最後に信じること」という言葉が有名になったのには理由があります。
しかし、過去 1 年ほど、私はその評価が私の血には高すぎると考えてきましたが、最近の一連の出来事が私の通常の直感に少し変化をもたらしました。それは、見込みが高すぎると感じたときに、コンセンサスに疑問を投げかけることです。「賢者が最初に信じることは、愚者が最後に信じること」という言葉が有名になったのには理由があります。

牛市論#

私たちが懸念を抱く発展について掘り下げる前に、まずは NVDA 株の強気の理由を簡単に振り返りましょう。これは基本的に今や誰もが知っていることです。ディープラーニングと AI は、インターネット以来最も変革的な技術であり、私たちの社会のほぼすべてを変える準備が整っています。Nvidia は、トレーニングと推論インフラに費やされる業界の総資本支出のシェアにおいて、ほぼ独占的な地位を確立しています。
私たちが懸念を抱く発展について掘り下げる前に、まずは NVDA 株の強気の理由を簡単に振り返りましょう。これは基本的に今や誰もが知っていることです。ディープラーニングと AI は、インターネット以来最も変革的な技術であり、私たちの社会のほぼすべてを変える準備が整っています。Nvidia は、トレーニングと推論インフラに費やされる業界の総資本支出のシェアにおいて、ほぼ独占的な地位を確立しています。

世界で最も大きく、最も利益を上げている企業のいくつか（Microsoft、Apple、Amazon、Meta、Google、Oracle など）は、競争力を維持するために何でもする必要があると決定しました。なぜなら、彼らは単に取り残される余裕がないからです。資本支出の金額、使用される電力のギガワット数、新しく建設されるデータセンターの面積、そしてもちろん GPU の数は、完全に爆発的に増加しており、減速の兆しは見えません。そして、Nvidia は、最も高級でデータセンター向けの製品で 90% 以上の驚異的な粗利率を得ることができます。
世界で最も大きく、最も利益を上げている企業のいくつか（Microsoft、Apple、Amazon、Meta、Google、Oracle など）は、競争力を維持するために何でもする必要があると決定しました。なぜなら、彼らは単に取り残される余裕がないからです。資本支出の金額、使用される電力のギガワット数、新しく建設されるデータセンターの面積、そしてもちろん GPU の数は、完全に爆発的に増加しており、減速の兆しは見えません。そして、Nvidia は、最も高級でデータセンター向けの製品で 90% 以上の驚異的な粗利率を得ることができます。

私たちはここで強気の理由の表面をかすめただけです。今ではさらに多くの側面があり、すでに非常に強気だった人々さえも徐々に強気になっています。人型ロボットの台頭のような事柄を除いて、これは多くの人々が考慮していない他の要因もあります。
私たちはここで強気の理由の表面をかすめただけです。今ではさらに多くの側面があり、すでに非常に強気だった人々さえも徐々に強気になっています。人型ロボットの台頭のような事柄を除いて、これは多くの人々が考慮していない他の要因もあります。

賢い人々が話している重要なことの一つは、「新しいスケーリング法則」の台頭であり、これは計算ニーズが時間とともにどのように増加するかを考える新しいパラダイムを生み出しました。元のスケーリング法則は、2012 年にAlexNetが登場し、2017 年に Transformer アーキテクチャが発明されて以来、AI の進展を推進してきたものです。それは、より多くのトークンをトレーニングデータとして使用し、トレーニングしているモデルのパラメータ数が大きくなり、これらのトークンでモデルをトレーニングするために消費する FLOPS が増えるほど、結果として得られるモデルのパフォーマンスが多様な有用な下流タスクで向上するというものです。
賢い人々が話している重要なことの一つは、「新しいスケーリング法則」の台頭であり、これは計算ニーズが時間とともにどのように増加するかを考える新しいパラダイムを生み出しました。元のスケーリング法則は、2012 年にAlexNetが登場し、2017 年に Transformer アーキテクチャが発明されて以来、AI の進展を推進してきたものです。それは、より多くのトークンをトレーニングデータとして使用し、トレーニングしているモデルのパラメータ数が大きくなり、これらのトークンでモデルをトレーニングするために消費する FLOPS が増えるほど、結果として得られるモデルのパフォーマンスが多様な有用な下流タスクで向上するというものです。

この改善はある程度予測可能であり、OpenAI や Anthropic のような主要な AI ラボは、実際のトレーニングを開始する前に、最新のモデルがどれほど優れているかをかなり正確に把握しています — 場合によっては、最終モデルのベンチマークを数パーセント以内で予測しています。この「元のスケーリング法則」は非常に重要ですが、常にそれを使って未来を予測する人々の心に疑念を引き起こしてきました。
この改善はある程度予測可能であり、OpenAI や Anthropic のような主要な AI ラボは、実際のトレーニングを開始する前に、最新のモデルがどれほど優れているかをかなり正確に把握しています — 場合によっては、最終モデルのベンチマークを数パーセント以内で予測しています。この「元のスケーリング法則」は非常に重要ですが、常にそれを使って未来を予測する人々の心に疑念を引き起こしてきました。

一つには、私たちはすでに世界中の高品質なトレーニングデータの蓄積を使い果たしているようです。もちろん、これは文字通りの真実ではありません — まだ適切にデジタル化されていない古い書籍や雑誌がたくさんあり、たとえデジタル化されていても、トレーニングデータとして使用するための適切なライセンスがない場合もあります。問題は、すべてのものにクレジットを与えたとしても — たとえば、1500 年から 2000 年までの「専門的に」生産された英語の書面コンテンツの合計は、現在の約 15 兆トークンのトレーニングコーパスを考えると、割合としてはそれほど大きくないということです。
一つには、私たちはすでに世界中の高品質なトレーニングデータの蓄積を使い果たしているようです。もちろん、これは文字通りの真実ではありません — まだ適切にデジタル化されていない古い書籍や雑誌がたくさんあり、たとえデジタル化されていても、トレーニングデータとして使用するための適切なライセンスがない場合もあります。問題は、すべてのものにクレジットを与えたとしても — たとえば、1500 年から 2000 年までの「専門的に」生産された英語の書面コンテンツの合計は、現在の約 15 兆トークンのトレーニングコーパスを考えると、割合としてはそれほど大きくないということです。

これらの数字の現実チェックを行うために：Google Books はこれまでに約 4000 万冊の書籍をデジタル化しています；典型的な書籍が 5 万から 10 万語、または 6.5 万から 13 万トークンを含む場合、書籍からだけで 2.6 兆から 5.2 兆トークンになりますが、その大部分はすでに大きなラボが使用するトレーニングコーパスに含まれているでしょう。さらに、arXiv ウェブサイトには 200 万以上の論文があります。アメリカ議会図書館には 30 億ページ以上のデジタル化された新聞があります。これらを合わせると、合計で最大 7 兆トークンになる可能性がありますが、その大部分は実際にはトレーニングコーパスに含まれているため、残りの「追加」トレーニングデータは全体的な観点から見るとそれほど重要ではないかもしれません。
これらの数字の現実チェックを行うために：Google Books はこれまでに約 4000 万冊の書籍をデジタル化しています；典型的な書籍が 5 万から 10 万語、または 6.5 万から 13 万トークンを含む場合、書籍からだけで 2.6 兆から 5.2 兆トークンになりますが、その大部分はすでに大きなラボが使用するトレーニングコーパスに含まれているでしょう。さらに、arXiv ウェブサイトには 200 万以上の論文があります。アメリカ議会図書館には 30 億ページ以上のデジタル化された新聞があります。これらを合わせると、合計で最大 7 兆トークンになる可能性がありますが、その大部分は実際にはトレーニングコーパスに含まれているため、残りの「追加」トレーニングデータは全体的な観点から見るとそれほど重要ではないかもしれません。

もちろん、より多くのトレーニングデータを収集する方法は他にもあります。たとえば、すべての YouTube 動画を自動的に文字起こしし、そのテキストを使用することができます。そして、それが限界で役立つかもしれませんが、それはたとえば、世界についての有用な知識のソースとして非常に尊敬される有機化学の教科書よりもはるかに低い品質です。したがって、元のスケーリング法則に関しては常に「データの壁」が迫っているという懸念があり、私たちは GPU にますます多くの資本支出を投入し、ますます多くのデータセンターを構築できることはわかっていますが、正確で既存の知識に追加される有用な新しい人間の知識を大量生産することははるかに難しいのです。現在、この問題に対する興味深い応答の一つは、「合成データ」の台頭です。これは、LLM の出力自体であるテキストです。
もちろん、より多くのトレーニングデータを収集する方法は他にもあります。たとえば、すべての YouTube 動画を自動的に文字起こしし、そのテキストを使用することができます。そして、それが限界で役立つかもしれませんが、それはたとえば、世界についての有用な知識のソースとして非常に尊敬される有機化学の教科書よりもはるかに低い品質です。したがって、元のスケーリング法則に関しては常に「データの壁」が迫っているという懸念があり、私たちは GPU にますます多くの資本支出を投入し、ますます多くのデータセンターを構築できることはわかっていますが、正確で既存の知識に追加される有用な新しい人間の知識を大量生産することははるかに難しいのです。現在、この問題に対する興味深い応答の一つは、「合成データ」の台頭です。これは、LLM の出力自体であるテキストです。

この理由は、これらの領域では、私たちが機械的にチェックし、事実を証明できるからです。したがって、私たちは可能な数学定理や Python スクリプトの広大な宇宙からサンプリングし、それらが正しいかどうかを実際にチェックし、正しい場合のみそれらをコーパスに含めることができます。このようにして、少なくともこれらの種類の領域では、高品質なトレーニングデータのコレクションを非常に劇的に拡大することができます。
この理由は、これらの領域では、私たちが機械的にチェックし、事実を証明できるからです。したがって、私たちは可能な数学定理や Python スクリプトの広大な宇宙からサンプリングし、それらが正しいかどうかを実際にチェックし、正しい場合のみそれらをコーパスに含めることができます。このようにして、少なくともこれらの種類の領域では、高品質なトレーニングデータのコレクションを非常に劇的に拡大することができます。

その後、テキスト以外の AI をトレーニングするためのデータの他の種類もあります。たとえば、100 万人の人々の全ゲノム配列（1 人あたり約 200GB から 300GB の非圧縮データ）を取得したらどうなるでしょうか？これは明らかに非常に大量のデータですが、ほとんどのデータは任意の 2 人の間でほぼ同じです。もちろん、さまざまな理由から、書籍やインターネットのテキストデータと比較するのは誤解を招く可能性があります：
その後、テキスト以外の AI をトレーニングするためのデータの他の種類もあります。たとえば、100 万人の人々の全ゲノム配列（1 人あたり約 200GB から 300GB の非圧縮データ）を取得したらどうなるでしょうか？これは明らかに非常に大量のデータですが、ほとんどのデータは任意の 2 人の間でほぼ同じです。もちろん、さまざまな理由から、書籍やインターネットのテキストデータと比較するのは誤解を招く可能性があります：

原始ゲノムサイズはトークン数と直接比較できない
原始ゲノムサイズはトークン数と直接比較できない
ゲノムデータの情報内容はテキストとは大きく異なる
ゲノムデータの情報内容はテキストとは大きく異なる
高度に冗長なデータのトレーニング価値は不明
高度に冗長なデータのトレーニング価値は不明
ゲノムデータを処理するための計算要件は異なる
ゲノムデータを処理するための計算要件は異なる

しかし、それは将来的に AI をトレーニングするための別の大規模な多様な情報源です。
しかし、それは将来的に AI をトレーニングするための別の大規模な多様な情報源です。

したがって、追加のトレーニングデータを取得できる可能性がある一方で、最近の数年間のトレーニングコーパスの成長率を見てみると、「一般的に有用な」知識のデータの可用性に関して壁に近づいていることがすぐに明らかになります。これは、人工的な超知能を得るという最終目標に近づくために必要なものであり、これはジョン・フォン・ノイマンよりも 10 倍賢く、知られているすべての専門分野の絶対的な世界的専門家である必要があります。
したがって、追加のトレーニングデータを取得できる可能性がある一方で、最近の数年間のトレーニングコーパスの成長率を見てみると、「一般的に有用な」知識のデータの可用性に関して壁に近づいていることがすぐに明らかになります。これは、人工的な超知能を得るという最終目標に近づくために必要なものであり、これはジョン・フォン・ノイマンよりも 10 倍賢く、知られているすべての専門分野の絶対的な世界的専門家である必要があります。

限られたデータ量の他にも、常に前提条件として存在しているいくつかのことがあります。これらの一つは、モデルをトレーニングした後、すべての計算インフラストラクチャをどうするかということです。次のモデルをトレーニングしますか？もちろん、それは可能ですが、GPU の速度と容量の急速な改善、電力やその他の運用費用が経済計算において重要であることを考えると、2 年前のクラスターを使って新しいモデルをトレーニングすることは本当に意味があるのでしょうか？
限られたデータ量の他にも、常に前提条件として存在しているいくつかのことがあります。これらの一つは、モデルをトレーニングした後、すべての計算インフラストラクチャをどうするかということです。次のモデルをトレーニングしますか？もちろん、それは可能ですが、GPU の速度と容量の急速な改善、電力やその他の運用費用が経済計算において重要であることを考えると、2 年前のクラスターを使って新しいモデルをトレーニングすることは本当に意味があるのでしょうか？

市場は AI に対する興奮が高まりすぎているため、幸いにもこれを無視しており、OpenAI のような企業が驚異的な累積運営損失を出しながら、後続の投資ラウンドでますます目を引く評価を得ることを可能にしています（ただし、彼らの功績として、非常に急成長する収益を示すこともできています）。しかし、最終的には、この状況が市場サイクル全体にわたって持続可能であるためには、これらのデータセンターコストが最終的に回収される必要があります。
市場は AI に対する興奮が高まりすぎているため、幸いにもこれを無視しており、OpenAI のような企業が驚異的な累積運営損失を出しながら、後続の投資ラウンドでますます目を引く評価を得ることを可能にしています（ただし、彼らの功績として、非常に急成長する収益を示すこともできています）。しかし、最終的には、この状況が市場サイクル全体にわたって持続可能であるためには、これらのデータセンターコストが最終的に回収される必要があります。

新しいパラダイム#

さて、これが予備トレーニングスケーリング法則です。この「新しい」スケーリング法則は何でしょうか？これは、過去 1 年間に人々が本当に注目し始めたものです：推論時間の計算スケーリングです。以前は、プロセス全体で消費する計算の大部分は、最初にモデルを作成するための前提トレーニング計算でした。トレーニング済みのモデルを持っていると、そのモデルで推論を行うこと — つまり、質問をしたり、LLM に何らかのタスクを実行させたりすること — は、一定の限られた計算量を使用しました。
さて、これが予備トレーニングスケーリング法則です。この「新しい」スケーリング法則は何でしょうか？これは、過去 1 年間に人々が本当に注目し始めたものです：推論時間の計算スケーリングです。以前は、プロセス全体で消費する計算の大部分は、最初にモデルを作成するための前提トレーニング計算でした。トレーニング済みのモデルを持っていると、そのモデルで推論を行うこと — つまり、質問をしたり、LLM に何らかのタスクを実行させたりすること — は、一定の限られた計算量を使用しました。

重要なのは、推論計算の総量（FLOPS、GPU メモリフットプリントなどで測定される）は、前提トレーニングフェーズで必要なものよりもはるかに少ないということです。もちろん、推論計算の量は、モデルのコンテキストウィンドウサイズや一度に生成する出力の量を増やすと増加します（ただし、研究者たちはこの点で、最初に予想された二次的なスケーリングに対して驚くべきアルゴリズムの改善を行っています）。しかし、基本的に、最近まで、推論計算は一般的にトレーニング計算よりもはるかに少ない負荷であり、処理しているリクエストの数に基本的に線形にスケールしました — たとえば、ChatGPT からのテキスト補完の需要が多ければ多いほど、消費する推論計算が増えます。
重要なのは、推論計算の総量（FLOPS、GPU メモリフットプリントなどで測定される）は、前提トレーニングフェーズで必要なものよりもはるかに少ないということです。もちろん、推論計算の量は、モデルのコンテキストウィンドウサイズや一度に生成する出力の量を増やすと増加します（ただし、研究者たちはこの点で、最初に予想された二次的なスケーリングに対して驚くべきアルゴリズムの改善を行っています）。しかし、基本的に、最近まで、推論計算は一般的にトレーニング計算よりもはるかに少ない負荷であり、処理しているリクエストの数に基本的に線形にスケールしました — たとえば、ChatGPT からのテキスト補完の需要が多ければ多いほど、消費する推論計算が増えます。

革命的な Chain-of-Thought（「COT」）モデルの登場により、特に OpenAI の旗艦 O1 モデルにおいて、すべてが変わりました（ただし、最近 DeepSeek の新しい R1 モデルでも同様のことが起こっています。これについては後で詳細に説明します）。推論計算の量がモデルによって生成される出力テキストの長さに直接比例するのではなく（より大きなコンテキストウィンドウ、モデルサイズなどに応じてスケールアップ）、これらの新しい COT モデルは中間の「論理トークン」も生成します。これは、モデルが問題を解決しようとする際の「内部独白」やメモのようなものと考えてください。
革命的な Chain-of-Thought（「COT」）モデルの登場により、特に OpenAI の旗艦 O1 モデルにおいて、すべてが変わりました（ただし、最近 DeepSeek の新しい R1 モデルでも同様のことが起こっています。これについては後で詳細に説明します）。推論計算の量がモデルによって生成される出力テキストの長さに直接比例するのではなく（より大きなコンテキストウィンドウ、モデルサイズなどに応じてスケールアップ）、これらの新しい COT モデルは中間の「論理トークン」も生成します。これは、モデルが問題を解決しようとする際の「内部独白」やメモのようなものと考えてください。

これは推論計算の働き方における真の海の変化を表しています：今や、内部思考プロセスに使用するトークンが多ければ多いほど、ユーザーに提供できる最終出力の質が向上します。実際には、これは人間の労働者にタスクを達成するためのより多くの時間とリソースを与えるようなもので、彼らは自分の仕事を二重三重に確認し、同じ基本的なタスクを複数の異なる方法で実行し、それらが同じ結果になることを確認し、得られた結果を「プラグイン」して方程式を解決できるかどうかを確認します。
これは推論計算の働き方における真の海の変化を表しています：今や、内部思考プロセスに使用するトークンが多ければ多いほど、ユーザーに提供できる最終出力の質が向上します。実際には、これは人間の労働者にタスクを達成するためのより多くの時間とリソースを与えるようなもので、彼らは自分の仕事を二重三重に確認し、同じ基本的なタスクを複数の異なる方法で実行し、それらが同じ結果になることを確認し、得られた結果を「プラグイン」して方程式を解決できるかどうかを確認します。

このアプローチは驚くほどうまく機能することが判明しました。これは、いわゆる「強化学習」の力と Transformer アーキテクチャの力を活用することに他なりません。これは、他の非常に成功した Transformer モデルの最大の弱点である「幻覚を引き起こす」傾向に直接対処しています。
このアプローチは驚くほどうまく機能することが判明しました。これは、いわゆる「強化学習」の力と Transformer アーキテクチャの力を活用することに他なりません。これは、他の非常に成功した Transformer モデルの最大の弱点である「幻覚を引き起こす」傾向に直接対処しています。

基本的に、Transformer が各ステップで次のトークンを予測する方法は、初期の応答で悪い「パス」に乗った場合、彼らはほとんど言い訳をする子供のようになり、実際には正しいはずのことを説明しようとします。
基本的に、Transformer が各ステップで次のトークンを予測する方法は、初期の応答で悪い「パス」に乗った場合、彼らはほとんど言い訳をする子供のようになり、実際には正しいはずのことを説明しようとします。

モデルは常に内部的一貫性を求め、生成された各トークンが前のトークンとコンテキストから自然に流れるようにするため、彼らはコースを修正し、後退するのが非常に難しいのです。推論プロセスを実質的に多くの中間段階に分解することで、彼らは多くの異なることを試し、何が機能しているかを見て、コースを修正し、他のアプローチを試すことができます。
モデルは常に内部的一貫性を求め、生成された各トークンが前のトークンとコンテキストから自然に流れるようにするため、彼らはコースを修正し、後退するのが非常に難しいのです。推論プロセスを実質的に多くの中間段階に分解することで、彼らは多くの異なることを試し、何が機能しているかを見て、コースを修正し、他のアプローチを試すことができます。

おそらくこのアプローチの最も驚くべき点は、実際に機能するという事実を超えて、論理 / COT トークンを多く使用すればするほど、効果が高まることです。突然、あなたは追加のダイヤルを持つことができ、COT 推論トークンの量を増やすにつれて（これは FLOPS やメモリの観点からはるかに多くの推論計算を使用します）、正しい応答を提供する確率が高くなります — エラーなしで最初に実行されるコード、または明らかに間違った演繹的ステップを含まない論理問題の解決策。
おそらくこのアプローチの最も驚くべき点は、実際に機能するという事実を超えて、論理 / COT トークンを多く使用すればするほど、効果が高まることです。突然、あなたは追加のダイヤルを持つことができ、COT 推論トークンの量を増やすにつれて（これは FLOPS やメモリの観点からはるかに多くの推論計算を使用します）、正しい応答を提供する確率が高くなります — エラーなしで最初に実行されるコード、または明らかに間違った演繹的ステップを含まない論理問題の解決策。

私は多くの直接的な経験からお伝えできますが、Anthropic の Claude3.5 Sonnet モデルが Python プログラミングにおいて非常に優れているとしても — 実際に非常に優れています — 長くて複雑なものを生成する必要があるとき、必ず愚かなミスを一つ以上犯します。これらのミスは通常非常に簡単に修正でき、実際には Python インタープリターによって生成されたエラーを単にフィードバックとして与えることで修正できます。
私は多くの直接的な経験からお伝えできますが、Anthropic の Claude3.5 Sonnet モデルが Python プログラミングにおいて非常に優れているとしても — 実際に非常に優れています — 長くて複雑なものを生成する必要があるとき、必ず愚かなミスを一つ以上犯します。これらのミスは通常非常に簡単に修正でき、実際には Python インタープリターによって生成されたエラーを単にフィードバックとして与えることで修正できます。

OpenAI の O1 モデルを初めて試したとき、それは啓示のようでした：私は、コードが最初から完璧であることがどれほど頻繁であるかに驚きました。そして、それは COT プロセスがモデルがあなたに与える答えの最終トークンに到達する前に問題を自動的に見つけて修正するからです。
OpenAI の O1 モデルを初めて試したとき、それは啓示のようでした：私は、コードが最初から完璧であることがどれほど頻繁であるかに驚きました。そして、それは COT プロセスがモデルがあなたに与える答えの最終トークンに到達する前に問題を自動的に見つけて修正するからです。

実際、OpenAI の ChatGPT Plus サブスクリプションで使用されている O1 モデル（毎月 20 ドル）は、基本的に新しい ChatGPT Pro サブスクリプションで特集されている O1-Pro モデル（価格は 10 倍の 200 ドル）と同じモデルです。主な違いは、O1-Pro が応答する前に多くの時間を考え、膨大な数の COT 論理トークンを生成し、各応答に対してはるかに多くの推論計算を消費することです。
実際、OpenAI の ChatGPT Plus サブスクリプションで使用されている O1 モデル（毎月 20 ドル）は、基本的に新しい ChatGPT Pro サブスクリプションで特集されている O1-Pro モデル（価格は 10 倍の 200 ドル）と同じモデルです。主な違いは、O1-Pro が応答する前に多くの時間を考え、膨大な数の COT 論理トークンを生成し、各応答に対してはるかに多くの推論計算を消費することです。

これは非常に注目すべき点であり、Claude3.5 Sonnet や GPT4o に対する非常に長く複雑なプロンプトで、約 400kb 以上のコンテキストを提供した場合、通常は 10 秒未満で応答を開始し、しばしば 5 秒未満で済みます。一方、同じプロンプトを O1-Pro に送ると、応答を得るまでに簡単に 5 分以上かかることがあります（ただし、OpenAI は待機中に生成された「推論ステップ」のいくつかを表示します；重要なのは、OpenAI はおそらく商業秘密に関連する理由から、生成された正確な推論トークンを隠すことに決めており、代わりにそれらの高度に要約された概要を表示します）。
これは非常に注目すべき点であり、Claude3.5 Sonnet や GPT4o に対する非常に長く複雑なプロンプトで、約 400kb 以上のコンテキストを提供した場合、通常は 10 秒未満で応答を開始し、しばしば 5 秒未満で済みます。一方、同じプロンプトを O1-Pro に送ると、応答を得るまでに簡単に 5 分以上かかることがあります（ただし、OpenAI は待機中に生成された「推論ステップ」のいくつかを表示します；重要なのは、OpenAI はおそらく商業秘密に関連する理由から、生成された正確な推論トークンを隠すことに決めており、代わりにそれらの高度に要約された概要を表示します）。

おそらく想像できるように、正確性が最も重要な状況がたくさんあります — あなたは、無駄に証明できるか、幻覚的な事実やその他の根拠のない推論を含む答えを与えるよりも、全くできないとユーザーに告げる方が良いと思うでしょう。お金 / 取引、医療、法律など、いくつかの例を挙げるだけです。
おそらく想像できるように、正確性が最も重要な状況がたくさんあります — あなたは、無駄に証明できるか、幻覚的な事実やその他の根拠のない推論を含む答えを与えるよりも、全くできないとユーザーに告げる方が良いと思うでしょう。お金 / 取引、医療、法律など、いくつかの例を挙げるだけです。

基本的に、推論のコストが人間の知識労働者の時間あたりの総報酬に対して無視できる場合、COT 計算を増やすことは完全に無駄のない選択になります（主な欠点は、応答の遅延が大幅に増加することですので、正確性や正しさが低い応答を得ることでより早く反復することを好む場合もあります）。
基本的に、推論のコストが人間の知識労働者の時間あたりの総報酬に対して無視できる場合、COT 計算を増やすことは完全に無駄のない選択になります（主な欠点は、応答の遅延が大幅に増加することですので、正確性や正しさが低い応答を得ることでより早く反復することを好む場合もあります）。

AI の世界で最もエキサイティングなニュースのいくつかは、ほんの数週間前に発表され、OpenAI の新しい未発表の O3 モデルに関するもので、これは現在の AI アプローチの範囲外と見なされていたさまざまなタスクを解決できるものでした。そして、これらの最も難しい問題を解決する方法（これは非常に高度な「基礎」数学の問題を含み、非常に熟練したプロの数学者でさえ解決するのが難しいものです）は、OpenAI が問題に対して驚異的な計算リソースを投入したことです — 場合によっては、単一のタスクを解決するために 3,000 ドル以上の計算能力を費やしています（これは、通常の Transformer モデルを使用して単一タスクを推論するためのコストが数ドルを超えることはないでしょう）。
AI の世界で最もエキサイティングなニュースのいくつかは、ほんの数週間前に発表され、OpenAI の新しい未発表の O3 モデルに関するもので、これは現在の AI アプローチの範囲外と見なされていたさまざまなタスクを解決できるものでした。そして、これらの最も難しい問題を解決する方法（これは非常に高度な「基礎」数学の問題を含み、非常に熟練したプロの数学者でさえ解決するのが難しいものです）は、OpenAI が問題に対して驚異的な計算リソースを投入したことです — 場合によっては、単一のタスクを解決するために 3,000 ドル以上の計算能力を費やしています（これは、通常の Transformer モデルを使用して単一タスクを推論するためのコストが数ドルを超えることはないでしょう）。

AI の未来の見通しがほぼ想像を超えるほど明るいと信じている場合でも、「なぜ一つの会社がこの技術から利益プールの大部分を抽出すべきなのか？」という質問は依然として残ります。確かに、非常に重要な新技術が世界を変えた歴史的な事例は多くありますが、プロセスの初期段階で最も有望に見えた企業が主な勝者ではなかったケースが多いのです。
AI の未来の見通しがほぼ想像を超えるほど明るいと信じている場合でも、「なぜ一つの会社がこの技術から利益プールの大部分を抽出すべきなのか？」という質問は依然として残ります。確かに、非常に重要な新技術が世界を変えた歴史的な事例は多くありますが、プロセスの初期段階で最も有望に見えた企業が主な勝者ではなかったケースが多いのです。

ライライト兄弟の航空機会社は、現在の多くの異なる企業におけるすべての形態で、彼らが他の誰よりも早く技術を発明し、完璧にしたにもかかわらず、現在の価値は 100 億ドルを超えません。そして、フォードは現在 400 億ドルの市場価値を持っていますが、それは Nvidia の現在の市場価値のわずか 1.1% です。
ライライト兄弟の航空機会社は、現在の多くの異なる企業におけるすべての形態で、彼らが他の誰よりも早く技術を発明し、完璧にしたにもかかわらず、現在の価値は 100 億ドルを超えません。そして、フォードは現在 400 億ドルの市場価値を持っていますが、それは Nvidia の現在の市場価値のわずか 1.1% です。

これを理解するためには、Nvidia が現在なぜこれほど多くのパイを占めているのかを本当に理解することが重要です。結局のところ、彼らは GPU を製造している唯一の会社ではありません。AMD は、理論上は同等のトランジスタ数を持つ立派な GPU を製造していますが、速度や先進性では Nvidia の GPU には及びませんが、Nvidia の GPU が 10 倍速いというわけではありません。実際、単純なドルあたりの FLOPS の観点から見ると、AMD の GPU は Nvidia の GPU の約半額です。
これを理解するためには、Nvidia が現在なぜこれほど多くのパイを占めているのかを本当に理解することが重要です。結局のところ、彼らは GPU を製造している唯一の会社ではありません。AMD は、理論上は同等のトランジスタ数を持つ立派な GPU を製造していますが、速度や先進性では Nvidia の GPU には及びませんが、Nvidia の GPU が 10 倍速いというわけではありません。実際、単純なドルあたりの FLOPS の観点から見ると、AMD の GPU は Nvidia の GPU の約半額です。

DRAM 市場のような他の半導体市場を見てみると、そこでも非常に高度に集中しており、意味のあるグローバルプレーヤーは 3 社（Samsung、Micron、SK-Hynix）しかありませんが、DRAM 市場の粗利率は、サイクルの底で負の値からサイクルの頂点で約 60% まで変動し、平均して 20% 程度です。これに対して、Nvidia の最近の四半期の全体的な粗利率は約 75% であり、これは低マージンでより商品化された消費者向け 3D グラフィックスカテゴリによって引き下げられています。
DRAM 市場のような他の半導体市場を見てみると、そこでも非常に高度に集中しており、意味のあるグローバルプレーヤーは 3 社（Samsung、Micron、SK-Hynix）しかありませんが、DRAM 市場の粗利率は、サイクルの底で負の値からサイクルの頂点で約 60% まで変動し、平均して 20% 程度です。これに対して、Nvidia の最近の四半期の全体的な粗利率は約 75% であり、これは低マージンでより商品化された消費者向け 3D グラフィックスカテゴリによって引き下げられています。

では、これはどうして可能なのでしょうか？主な理由はソフトウェアに関係しています —Linux で「ただ動く」より良いドライバーがあり、非常にテストされており信頼性が高い（AMD とは異なり、AMD は Linux ドライバーの品質と不安定性で悪名高い）、そして Nvidia の GPU で非常にうまく機能するように調整された人気のライブラリ（PyTorchなど）のオープンソースコードが高度に最適化されています。
では、これはどうして可能なのでしょうか？主な理由はソフトウェアに関係しています —Linux で「ただ動く」より良いドライバーがあり、非常にテストされており信頼性が高い（AMD とは異なり、AMD は Linux ドライバーの品質と不安定性で悪名高い）、そして Nvidia の GPU で非常にうまく機能するように調整された人気のライブラリ（PyTorchなど）のオープンソースコードが高度に最適化されています。

それを超えて、プログラミングフレームワーク自体、コーダーが GPU 向けに最適化された低レベルコードを書くために使用する CUDA は、完全に Nvidia の専有技術であり、事実上の標準となっています。GPU 上で本当に速く動かす方法を知っている非常に才能のあるプログラマーを雇いたい場合、彼らに 650,000 ドル / 年またはその特定の専門知識を持つ人々の市場価格を支払う場合、彼らはおそらく CUDA で「考え」て働くことになるでしょう。
それを超えて、プログラミングフレームワーク自体、コーダーが GPU 向けに最適化された低レベルコードを書くために使用する CUDA は、完全に Nvidia の専有技術であり、事実上の標準となっています。GPU 上で本当に速く動かす方法を知っている非常に才能のあるプログラマーを雇いたい場合、彼らに 650,000 ドル / 年またはその特定の専門知識を持つ人々の市場価格を支払う場合、彼らはおそらく CUDA で「考え」て働くことになるでしょう。

ソフトウェアの優位性に加えて、Nvidia が持つもう一つの大きな要素は、相互接続と呼ばれるものです — 基本的には、数千の GPU を効率的に接続する帯域幅であり、今日の最先端の基礎モデルをトレーニングするために共同で活用できるようにします。要するに、効率的なトレーニングの鍵は、すべての GPU を常に可能な限り完全に利用することです — 次のトレーニングプロセスのステップを計算するために必要なデータの次のチャンクを受け取るまで待機しているのではなく。
ソフトウェアの優位性に加えて、Nvidia が持つもう一つの大きな要素は、相互接続と呼ばれるものです — 基本的には、数千の GPU を効率的に接続する帯域幅であり、今日の最先端の基礎モデルをトレーニングするために共同で活用できるようにします。要するに、効率的なトレーニングの鍵は、すべての GPU を常に可能な限り完全に利用することです — 次のトレーニングプロセスのステップを計算するために必要なデータの次のチャンクを受け取るまで待機しているのではなく。

帯域幅要件は非常に高く、伝統的なデータセンターのユースケースで必要とされる典型的な帯域幅よりもはるかに高いです。この種の相互接続には、伝統的なネットワーク機器や光ファイバーを使用することはできません。なぜなら、それはあまりにも多くの遅延を引き起こし、すべての GPU を常に忙しく保つために必要な純粋なテラバイト毎秒の帯域幅を提供できないからです。
帯域幅要件は非常に高く、伝統的なデータセンターのユースケースで必要とされる典型的な帯域幅よりもはるかに高いです。この種の相互接続には、伝統的なネットワーク機器や光ファイバーを使用することはできません。なぜなら、それはあまりにも多くの遅延を引き起こし、すべての GPU を常に忙しく保つために必要な純粋なテラバイト毎秒の帯域幅を提供できないからです。

Nvidia は、2019 年にイスラエルの Mellanox を 69 億ドルで買収するという非常に賢い決定を下しました。この買収が、業界をリードする相互接続技術を提供しました。相互接続速度は、同時に数千の GPU の出力を結合する必要があるトレーニングプロセスにおいてはるかに関連性が高く、推論プロセス（COT 推論を含む）では、数個の GPU を使用することができます — 必要なのは、すでにトレーニングされたモデルの量子化（圧縮）されたモデル重みを保存するのに十分な VRAM だけです。
Nvidia は、2019 年にイスラエルの Mellanox を 69 億ドルで買収するという非常に賢い決定を下しました。この買収が、業界をリードする相互接続技術を提供しました。相互接続速度は、同時に数千の GPU の出力を結合する必要があるトレーニングプロセスにおいてはるかに関連性が高く、推論プロセス（COT 推論を含む）では、数個の GPU を使用することができます — 必要なのは、すでにトレーニングされたモデルの量子化（圧縮）されたモデル重みを保存するのに十分な VRAM だけです。

したがって、これらは Nvidia の「堀」の主要な要素であり、なぜ彼らがこれほど長い間高いマージンを維持できているのかを説明することができます（彼らはまた、飛行輪の側面も持っており、超常的な利益を大量の R&D に積極的に投資し、それが競争相手よりも速いペースで技術を改善するのに役立ち、したがって原始的な性能の観点で常にリードしています）。
したがって、これらは Nvidia の「堀」の主要な要素であり、なぜ彼らがこれほど長い間高いマージンを維持できているのかを説明することができます（彼らはまた、飛行輪の側面も持っており、超常的な利益を大量の R&D に積極的に投資し、それが競争相手よりも速いペースで技術を改善するのに役立ち、したがって原始的な性能の観点で常にリードしています）。

しかし、前述のように、顧客が本当に気にかけるのは、他のすべての条件が同じであれば、パフォーマンスあたりのコストです（設備の初期資本支出コストとエネルギー使用の両方、つまりワットあたりのパフォーマンス）。Nvidia の GPU が確かに最も速いものであるにもかかわらず、単純に FLOPS の観点から測定すると、最もコストパフォーマンスが良いわけではありません。
しかし、前述のように、顧客が本当に気にかけるのは、他のすべての条件が同じであれば、パフォーマンスあたりのコストです（設備の初期資本支出コストとエネルギー使用の両方、つまりワットあたりのパフォーマンス）。Nvidia の GPU が確かに最も速いものであるにもかかわらず、単純に FLOPS の観点から測定すると、最もコストパフォーマンスが良いわけではありません。

ただし、すべての条件が同じではなく、AMD のドライバーがひどいこと、人気のある AI ソフトウェアライブラリが AMD GPU でうまく動作しないこと、ゲームの世界以外で AMD GPU に特化した本当に優れた GPU 専門家を見つけることができないこと（市場で CUDA 専門家の需要が高いため、彼らはなぜそれに取り組む必要があるのでしょうか？）、AMD のひどい相互接続技術のために数千の GPU を効果的に接続できないこと — これらすべてが、AMD が高端データセンターの世界で基本的に競争力を持たず、短期的にそこに到達する良い見通しがないことを意味します。
ただし、すべての条件が同じではなく、AMD のドライバーがひどいこと、人気のある AI ソフトウェアライブラリが AMD GPU でうまく動作しないこと、ゲームの世界以外で AMD GPU に特化した本当に優れた GPU 専門家を見つけることができないこと（市場で CUDA 専門家の需要が高いため、彼らはなぜそれに取り組む必要があるのでしょうか？）、AMD のひどい相互接続技術のために数千の GPU を効果的に接続できないこと — これらすべてが、AMD が高端データセンターの世界で基本的に競争力を持たず、短期的にそこに到達する良い見通しがないことを意味します。

さて、これらすべては Nvidia にとって非常に強気に聞こえますよね？今、あなたはなぜ株がこれほど高い評価で取引されているのかを理解できます！しかし、他にどのような雲が地平線にあるのでしょうか？私が重要だと思ういくつかのことがあります。いくつかは過去数年間背景に潜んでいましたが、パイが急速に成長していることを考えると影響は小さすぎましたが、今、彼らは上昇する準備が整っています。他のものは非常に最近の発展（つまり、過去 2 週間）であり、GPU の需要の短期的な軌道を劇的に変える可能性があります。
さて、これらすべては Nvidia にとって非常に強気に聞こえますよね？今、あなたはなぜ株がこれほど高い評価で取引されているのかを理解できます！しかし、他にどのような雲が地平線にあるのでしょうか？私が重要だと思ういくつかのことがあります。いくつかは過去数年間背景に潜んでいましたが、パイが急速に成長していることを考えると影響は小さすぎましたが、今、彼らは上昇する準備が整っています。他のものは非常に最近の発展（つまり、過去 2 週間）であり、GPU の需要の短期的な軌道を劇的に変える可能性があります。

主要な脅威#

非常に高いレベルで考えると、Nvidia は非常にニッチな領域で長い間運営されてきました。彼らは非常に限られた競争を持ち、競争相手は利益を上げておらず、十分に成長していなかったため、Nvidia のような市場リーダーに対して本当の脅威をもたらすことはありませんでした。ゲーム市場は大きく成長していましたが、驚異的なマージンや特に素晴らしい年ごとの成長率を示しているわけではありません。
非常に高いレベルで考えると、Nvidia は非常にニッチな領域で長い間運営されてきました。彼らは非常に限られた競争を持ち、競争相手は利益を上げておらず、十分に成長していなかったため、Nvidia のような市場リーダーに対して本当の脅威をもたらすことはありませんでした。ゲーム市場は大きく成長していましたが、驚異的なマージンや特に素晴らしい年ごとの成長率を示しているわけではありません。

数社の大手テクノロジー企業は、2016 年から 2017 年にかけて機械学習や AI への採用と支出を増やし始めましたが、彼らにとっては決して真に重要な項目ではありませんでした — むしろ「ムーンショット」R&D 支出のようなものでした。しかし、2022 年に ChatGPT がリリースされ、本格的な AI レースが始まると — それはほんの 2 年ほど前のことですが、開発の観点から見ると、まるで生涯前のことのように感じられます — その状況は非常に劇的に変わりました。
数社の大手テクノロジー企業は、2016 年から 2017 年にかけて機械学習や AI への採用と支出を増やし始めましたが、彼らにとっては決して真に重要な項目ではありませんでした — むしろ「ムーンショット」R&D 支出のようなものでした。しかし、2022 年に ChatGPT がリリースされ、本格的な AI レースが始まると — それはほんの 2 年ほど前のことですが、開発の観点から見ると、まるで生涯前のことのように感じられます — その状況は非常に劇的に変わりました。

突然、大企業は非常に迅速に数十億ドルを支出する準備が整いました。Neurips や ICML のような大規模な研究会議に参加する研究者の数は非常に劇的に増加しました。以前は金融派生商品を学んでいたかもしれないすべての賢い学生が、代わりに Transformer を学んでおり、非管理職のエンジニアリング役割（つまり、チームを管理していない独立した貢献者）に対して 100 万ドル以上の報酬パッケージが、主要な AI ラボでの標準となりました。
突然、大企業は非常に迅速に数十億ドルを支出する準備が整いました。Neurips や ICML のような大規模な研究会議に参加する研究者の数は非常に劇的に増加しました。以前は金融派生商品を学んでいたかもしれないすべての賢い学生が、代わりに Transformer を学んでおり、非管理職のエンジニアリング役割（つまり、チームを管理していない独立した貢献者）に対して 100 万ドル以上の報酬パッケージが、主要な AI ラボでの標準となりました。

巨大なクルーズ船の方向を変えるには時間がかかります。そして、非常に迅速に動き、数十億ドルを支出しても、グリーンフィールドのデータセンターを構築し、すべての機器を注文し（リードタイムが膨張している）、すべてを設定して動作させるには 1 年またはそれ以上かかります。賢いコーダーを雇ってオンボーディングするのにも時間がかかり、彼らが本当に力を発揮し、既存のコードベースやインフラに慣れるまでには長い時間がかかります。
巨大なクルーズ船の方向を変えるには時間がかかります。そして、非常に迅速に動き、数十億ドルを支出しても、グリーンフィールドのデータセンターを構築し、すべての機器を注文し（リードタイムが膨張している）、すべてを設定して動作させるには 1 年またはそれ以上かかります。賢いコーダーを雇ってオンボーディングするのにも時間がかかり、彼らが本当に力を発揮し、既存のコードベースやインフラに慣れるまでには長い時間がかかります。

しかし今、あなたは想像できるでしょう。資本、頭脳、努力の絶対的な聖書のような量がこの分野に投入されています。そして、Nvidia は、今日の利益の大部分を得ているのは彼らであり、AI が私たちの生活を支配する仮想的な未来ではなく、現在の利益を得ているのは彼らです。
しかし今、あなたは想像できるでしょう。資本、頭脳、努力の絶対的な聖書のような量がこの分野に投入されています。そして、Nvidia は、今日の利益の大部分を得ているのは彼らであり、AI が私たちの生活を支配する仮想的な未来ではなく、現在の利益を得ているのは彼らです。

したがって、高レベル