とある日の午後…
凡田(チームリーダー・38, 主人公)

あの、業界で「うちのモデルは何B?」って聞かれるたびに分かったふりで頷くんですけど、本当は 何を数えてるのか知らない んですよ。

御託(シニアコンサル・39)

フッ、凡田、それは恥ずべきことだ。私は週末にパラメーターを 手で数えている ぞ。

大蔵(アシスタントマネージャー・35)

御託さん、GPT-3 の 1,750億 を、ご自宅で手で?…完了予定は 西暦六万二千年 ですわね。

御託

……(沈黙)

御託が自宅食卓でノートに「正」の字でパラメーターを手で数えてる、隣で大蔵が電卓を突きつけて「西暦62026年完了予定」を表示、御託は大汗滝
このページのまとめ
  • パラメーター数 = AI が学習で調整する「ダイヤルとノブの数」。実体はほぼ 重み(#009) + バイアスです。
  • LLM のサイズを示す通貨。「7B / 70B / 175B」のように呼び、◯B = ◯億個(正確には Billion=10億)。ただし大きい=賢い、とは限りません(理由は本文で)。
  • イメージは、機械の中にびっしり並んだ無数のツマミ。学習とは、それを正解に近づくよう一斉に回し続ける作業です。

LLM の話で必ず出てくる単位がある。「175B」「7B」「70B」「1.7T」。

これが パラメーター数。「そのモデルが学習で持っている、調整可能な数値の総数」を表す。LLM 業界では モデルのサイズを示す通貨 として使われる。

本記事はこの 「数」 にフォーカスして、(1) パラメーターの正体、(2) なぜサイズを語るのか、(3) 内訳と GPU の現実 を押さえる。重みの中身は 前記事(重み)(#009) 参照、ここは 数の話に絞る

パラメーター = ダイヤルとノブ

3Blue1Brown の解説 でも語られている言い方を借りる。

機械学習のモデルとは、調整可能なパラメーター(ダイヤルやノブ)をたくさん持った柔軟な構造。学習とは、それを正解に近づくように回す作業。

たとえば最も単純な線形回帰 y = a × x + b は、ダイヤルが 2個(a と b) しかない。住宅価格を予測したければ、過去データで a と b を最適化するだけ。

GPT-3 はこのダイヤルを 1,750億個 持っている。それぞれを学習で「正解に近づく方向に」少しずつ回す。これが訓練(training)の全て。

つまり パラメーター = ダイヤル = 重み + バイアス。実装上はほぼ重みの数とみなしてよい(バイアスは重みの 1%未満)。

なぜ 「数」 を語るのか — LLM の通貨単位

LLM の業界では、モデル名の後に必ず サイズ表記 が付く。

モデル パラメーター数 表記
GPT-3 1,750億 175B
GPT-4 非公開(推定1.7兆) ~1.7T(噂)
Llama 3 70億 / 80億 / 700億 / 4,050億 7B / 8B / 70B / 405B
Claude Opus 4.7 非公開
Mistral 7B 70億 7B
DeepSeek V3 6,710億(MoE: 活性 370億) 671B-A37B

B = Billion = 10億T = Trillion = 1兆。日本で言うと 「億」 ではなく 「10億」 単位なので注意(GPT-3 の 「175B」 を「175億」と訳すと一桁ズレる)。

なぜこの数字が独り歩きするかというと、「大きいほど賢くなる」 傾向 が経験的に確認されているから(これを スケーリング則 と呼ぶ)。同じ家系のモデルなら、パラメーターを増やしただけで性能が上がる。だから業界全体が 「パラメーター競争」 に走った。

ただし最近は 「パラメーターを増やすだけでは限界」 という認識も広がっている(後述)。

GPT-3 1,750億の内訳

「1,750億って、どこに何個あるの?」という素朴な疑問に答える。

GPT-3 パラメーター内訳の積み上げグラフ

図1: GPT-3 1,750億パラメーターの内訳(概算)

場所 パラメーター数 役割
埋め込み行列 約 6.17億 トークン → ベクトル変換
96層 × アテンション(Q/K/V/出力) 約 580億 文脈の関連度計算
96層 × MLP(全結合層) 約 1,158億 意味の変換・抽象化
位置埋め込み・LayerNorm 等 約 5億 補助
出力行列(unembedding) 約 6.17億 ベクトル → 次トークン確率

意外なポイント:

イメージとしては、アテンションは 「目線」 を決める層、MLP は 「解釈」 を決める層。LLM の 「厚み」 は MLP のパラメーター数に支えられている。

パラメーター数 ≠ 賢さ

業界の常識として知っておきたい注意点。

パラメーター数が同じでも、賢さは大きく変わる。最近の傾向:

これは、「データ量」「データ品質」「学習回数」「アーキテクチャ細部」 の進化によるもの。「パラメーター × データ × 計算量」の3軸がスケーリング則の本体で、パラメーターだけ増やしても頭打ちになる(Chinchilla の法則)。

つまり、現代のモデル評価で重要なのは 「パラメーターあたりの賢さ」。小さいモデルで大きいモデルの性能を出せる方が、当然 有利(GPU コストが安い、推論が速い)。

業界の流れは「大きく作って、賢く小さくする」になっている。GPT-4 や Claude も、おそらく 巨大な教師モデル → 蒸留 → 配信 という構造で動いている(公式には非公開)。

パラメーター数 × メモリ = GPU 戦争の正体

もう一つ実務に直結する話。パラメーター 1個には、メモリが必要

1パラメーター × 2byte(fp16, 半精度浮動小数) = 2byte/パラメ
GPT-3 1,750億 × 2byte = 350GB
Llama 70B × 2byte = 140GB

そして、推論(モデルを動かす)には、全パラメーターを GPU の VRAM に載せる必要がある(基本的には)。

2026年現在の主要GPU の VRAM 容量:

つまり GPT-3 を動かすには H100 が 5枚必要。Llama 70B でも H100 2枚。これが 「AI = GPU の戦い」 と言われる物理的な理由。

そして訓練(学習)には、推論の 3〜4倍のメモリ が必要(勾配・最適化状態を保持するため)。GPT-3 を訓練するなら H100 が 20〜30枚、それを 数千〜数万GPU 並列 で数ヶ月回し続ける。

これが、AI のトップ研究所が 「数千億円規模の設備投資」 を要求される構造。パラメーター数 1個ずつにGPU が高速にアクセスする必要があるため、ボトルネックは 計算速度ではなく、メモリ帯域

コンサル業務にもう一歩寄せる

パラメーターを「会社の意思決定における、細かい判断軸の総数」と思って業務に重ねる。

たとえば、ある企業が「採用するか否か」を決める判断構造を分解してみる:

判断軸の粒度 軸の数 性能(精度)
「直感だけ」 1個(社長の感覚) 当たり外れが大きい
「履歴書 + 面接」 10-20個(学歴・経験・話し方) 標準的
「コンピテンシー評価」 50-100個(リーダーシップ/分析力/協調性 等) 大手コンサル流
「アセスメントセンター」 500-1,000個(行動観察・心理・知能テスト) 外資金融・コンサル最終層
「LLM による全データ解析」 数万〜数百万個 理論上 最高だが、人間が解釈不能

軸を増やすほど判断は精緻になるが、(1) 軸が増えるほど運用コストが爆発する、(2) ある時点で頭打ちになる、(3) 多すぎると逆に判断がブレる(次元の呪い高次元空間(#006) 記事参照)。

LLM のパラメーター競争は、まさにこの構造を 機械の中で何百億倍に拡大した話。コンサルが普段「判断軸を何個にするか」で悩んでいる作業を、機械では「1,750億個まで増やしたら何が起きるか」のレベルでやっている。

逆に言えば、コンサルが「シンプルな3軸で意思決定」を推奨する場面と、AI が「数千億パラメーターで判断」する場面は、原理的に同じ「軸を何個用意するか」問題。だから、AI ベンダーの選定 や 内製モデル設計 の議論で パラメーター数だけで判断するのは危険 ということが、コンサル感覚で言える。

南雲社長が銀行員時代の融資審査ファイル(膨大な量)を懐かしげに見つめ、隣で凡田と赤崎が圧倒されるシーン
登場人物の反応 ①
南雲(社長・60-62)

ふむ、1,750億のパラメーター…私が都銀の融資審査で40年やってきた案件は、生涯で12,847件 だ。1件あたり 判断軸が約120 ある。掛けると、私の脳のパラメーター数は約 154万。GPT-3 は私の 11万倍 ということになるが、それでも私の方が 融資判断は外さない 自信があるな。

凡田(チームリーダー・38, 主人公)

社長、その自信はどこから…(あ、いまの計算、家でメモする)。…ちなみにうちの嫁、整体院の予約管理表 を5年作り続けてて、お客さんの予約パターンを 頭の中で約400軸 で覚えてるんですよ。「あの人は雨の日キャンセル多い」とか。あれもパラメーターでしょうか。

大蔵(アシスタントマネージャー・35)

あら、凡田さんの奥様、整体院ですの。素敵ですわ。…で、私の話で恐縮ですけど、北欧雑貨のIKEAで POÄNGチェアを5脚 買ったんですの。色・座面の硬さ・脚の長さ・カバーの取り外し性・組み立て難易度、5軸×5脚で25パラメーター比較しましたわ。結果、全部捨てましたけど

御託(シニアコンサル・39)

フッ、お前らはパラメーターを数で語っている。私はシンガポールのマリーナベイサンズに 過去17回 滞在してな。ホテルの評価軸は [部屋階数, スイートグレード, バトラー対応, インフィニティプールの隣の人, …] と 23軸ある。私のホテル鑑識眼は GPT-3 の23パラメ分くらいは間違いなく…

赤崎(部長 / AI戦略推進室室長・42)

御託さんの 23パラ vs GPT-3の1750億パラ、比率にすると 76億倍の差 だね。…でも、ふわっとした方向感で言うと、御託さんの 「23パラ」 の方が当社の事業判断に効いてる気もする。なんでだろう。

川口(アナリスト・22)

あの、ぼく入社1年で PowerPoint を 2,847枚 作ったんですけど、1枚あたり要素が平均35個で、配置・色・フォント・線の太さ等で 1要素 12パラメーター あるとすると…合計 120万パラメーター を脳内で調整した計算で。GPT-3 の14万分の1なので、ぼくの脳はだいぶ余裕がありそうです。

凡田

川口、それ 「余裕」 じゃなくて 「発想が止まらない病」 だぞ。

パラメーターを増やす vs 減らす — 業界の2つの流れ

業界の動きを整理する。

増やす派(スケーリング論者):

減らす派(効率論者):

コンサルの実務感覚で言うと、業務に AI を組み込むなら、絶対に 「減らす派」 を追うべき。GPU 1〜2枚で動く 7B〜13B モデルは、社内ローカル運用が可能で、データ漏洩リスクがゼロになる。

逆にフロンティア(GPT-5級)は API 経由でしか使えない 前提で、社外送信が許される業務に限定する、という設計判断になる。

登場人物の反応 ②
赤崎(部長 / AI戦略推進室室長・42)

ふわっとした方向感としては、当社は 「減らす派」 でいこう。GPU が買えない。…ところで、私のワインセラー、いま 97本 あるんだけど、銘柄・産地・年代・温度履歴・購入日 で5パラメーター × 97本 = 485パラメーターだ。これを脳内で管理してる私は、けっこうハイスペックモデルなのでは?

御託

部長、485パラメーターは Mistral 7B の 1444万分の1 ですよ。ハイスペックとは言いがたい。ちなみに私が定期購読しているマリーナベイサンズのスイートインフィニティプール側 47泊分の記憶は、軸が膨大で…

大蔵

御託さん、その 「47泊」 って、 領収書のスキャンデータ をどこかにお持ちですの? 経費精算のたびに「シンガポール出張」って書いていらっしゃいますけど、お一人で?

御託

…(沈黙)

南雲

大蔵くん、それは後で人事と税務で詰めてくれ。…で、社員みんなが 葉巻も嗜むようになれば、判断軸はあと数百は増える。葉巻は1本ごとに [産地, ヴィンテージ, リング径, 葉巻長, 味の深み, ドローの軽さ] と 少なくとも6軸。私の保管庫に357本あるから、軸数は 2,142。これが私の判断品質の源だ。

凡田

社長、それ パラメーター数の話ではなく、ただの自慢 ですよね…?

川口

あの…結論として、当社の AI 戦略は 「減らす派」 で7B モデル中心、ただし御託さんの 「経費パラメーター」 は 来期から監査対象 ということで…?(無言で議事録を取りはじめる)

南雲

…川口くん、その議事録はオフレコだ。

アイマイ社5人が各自の