あの、業界で「うちのモデルは何B?」って聞かれるたびに分かったふりで頷くんですけど、本当は 何を数えてるのか知らない んですよ。
フッ、凡田、それは恥ずべきことだ。私は週末にパラメーターを 手で数えている ぞ。
御託さん、GPT-3 の 1,750億 を、ご自宅で手で?…完了予定は 西暦六万二千年 ですわね。
……(沈黙)

- パラメーター数 = AI が学習で調整する「ダイヤルとノブの数」。実体はほぼ 重み(#009) + バイアスです。
- LLM のサイズを示す通貨。「7B / 70B / 175B」のように呼び、◯B = ◯億個(正確には Billion=10億)。ただし大きい=賢い、とは限りません(理由は本文で)。
- イメージは、機械の中にびっしり並んだ無数のツマミ。学習とは、それを正解に近づくよう一斉に回し続ける作業です。
LLM の話で必ず出てくる単位がある。「175B」「7B」「70B」「1.7T」。
これが パラメーター数。「そのモデルが学習で持っている、調整可能な数値の総数」を表す。LLM 業界では モデルのサイズを示す通貨 として使われる。
本記事はこの 「数」 にフォーカスして、(1) パラメーターの正体、(2) なぜサイズを語るのか、(3) 内訳と GPU の現実 を押さえる。重みの中身は 前記事(重み)(#009) 参照、ここは 数の話に絞る。
パラメーター = ダイヤルとノブ
3Blue1Brown の解説 でも語られている言い方を借りる。
機械学習のモデルとは、調整可能なパラメーター(ダイヤルやノブ)をたくさん持った柔軟な構造。学習とは、それを正解に近づくように回す作業。
たとえば最も単純な線形回帰 y = a × x + b は、ダイヤルが 2個(a と b) しかない。住宅価格を予測したければ、過去データで a と b を最適化するだけ。
GPT-3 はこのダイヤルを 1,750億個 持っている。それぞれを学習で「正解に近づく方向に」少しずつ回す。これが訓練(training)の全て。
つまり パラメーター = ダイヤル = 重み + バイアス。実装上はほぼ重みの数とみなしてよい(バイアスは重みの 1%未満)。
なぜ 「数」 を語るのか — LLM の通貨単位
LLM の業界では、モデル名の後に必ず サイズ表記 が付く。
| モデル | パラメーター数 | 表記 |
|---|---|---|
| GPT-3 | 1,750億 | 175B |
| GPT-4 | 非公開(推定1.7兆) | ~1.7T(噂) |
| Llama 3 | 70億 / 80億 / 700億 / 4,050億 | 7B / 8B / 70B / 405B |
| Claude Opus 4.7 | 非公開 | — |
| Mistral 7B | 70億 | 7B |
| DeepSeek V3 | 6,710億(MoE: 活性 370億) | 671B-A37B |
B = Billion = 10億、T = Trillion = 1兆。日本で言うと 「億」 ではなく 「10億」 単位なので注意(GPT-3 の 「175B」 を「175億」と訳すと一桁ズレる)。
なぜこの数字が独り歩きするかというと、「大きいほど賢くなる」 傾向 が経験的に確認されているから(これを スケーリング則 と呼ぶ)。同じ家系のモデルなら、パラメーターを増やしただけで性能が上がる。だから業界全体が 「パラメーター競争」 に走った。
ただし最近は 「パラメーターを増やすだけでは限界」 という認識も広がっている(後述)。
GPT-3 1,750億の内訳
「1,750億って、どこに何個あるの?」という素朴な疑問に答える。
| 場所 | パラメーター数 | 役割 |
|---|---|---|
| 埋め込み行列 | 約 6.17億 | トークン → ベクトル変換 |
| 96層 × アテンション(Q/K/V/出力) | 約 580億 | 文脈の関連度計算 |
| 96層 × MLP(全結合層) | 約 1,158億 | 意味の変換・抽象化 |
| 位置埋め込み・LayerNorm 等 | 約 5億 | 補助 |
| 出力行列(unembedding) | 約 6.17億 | ベクトル → 次トークン確率 |
意外なポイント:
- MLP 層が圧倒的に多い(66%)。「Transformer = アテンション」のイメージとは裏腹に、パラメーター数で言えば 主役は MLP。
- アテンションは 33%。表現力のコアだが、数では少数派。
- 埋め込み と 出力 で 12億超。語彙数(50,257) × 埋め込み次元(12,288)の単純な掛け算。
イメージとしては、アテンションは 「目線」 を決める層、MLP は 「解釈」 を決める層。LLM の 「厚み」 は MLP のパラメーター数に支えられている。
パラメーター数 ≠ 賢さ
業界の常識として知っておきたい注意点。
パラメーター数が同じでも、賢さは大きく変わる。最近の傾向:
- Llama 3 70B(700億)が、GPT-3 175B(1,750億)を 多くのベンチマークで上回る
- Mistral 7B(70億)が、Llama 2 13B(130億)を超える
- 蒸留モデル(数B級)が、元モデル(数十B)の 80-90% の性能を出す
これは、「データ量」「データ品質」「学習回数」「アーキテクチャ細部」 の進化によるもの。「パラメーター × データ × 計算量」の3軸がスケーリング則の本体で、パラメーターだけ増やしても頭打ちになる(Chinchilla の法則)。
つまり、現代のモデル評価で重要なのは 「パラメーターあたりの賢さ」。小さいモデルで大きいモデルの性能を出せる方が、当然 有利(GPU コストが安い、推論が速い)。
業界の流れは「大きく作って、賢く小さくする」になっている。GPT-4 や Claude も、おそらく 巨大な教師モデル → 蒸留 → 配信 という構造で動いている(公式には非公開)。
パラメーター数 × メモリ = GPU 戦争の正体
もう一つ実務に直結する話。パラメーター 1個には、メモリが必要。
1パラメーター × 2byte(fp16, 半精度浮動小数) = 2byte/パラメ GPT-3 1,750億 × 2byte = 350GB Llama 70B × 2byte = 140GB
そして、推論(モデルを動かす)には、全パラメーターを GPU の VRAM に載せる必要がある(基本的には)。
2026年現在の主要GPU の VRAM 容量:
- NVIDIA H100: 80GB
- NVIDIA H200: 141GB
- NVIDIA B200: 192GB
つまり GPT-3 を動かすには H100 が 5枚必要。Llama 70B でも H100 2枚。これが 「AI = GPU の戦い」 と言われる物理的な理由。
そして訓練(学習)には、推論の 3〜4倍のメモリ が必要(勾配・最適化状態を保持するため)。GPT-3 を訓練するなら H100 が 20〜30枚、それを 数千〜数万GPU 並列 で数ヶ月回し続ける。
これが、AI のトップ研究所が 「数千億円規模の設備投資」 を要求される構造。パラメーター数 1個ずつにGPU が高速にアクセスする必要があるため、ボトルネックは 計算速度ではなく、メモリ帯域。
コンサル業務にもう一歩寄せる
パラメーターを「会社の意思決定における、細かい判断軸の総数」と思って業務に重ねる。
たとえば、ある企業が「採用するか否か」を決める判断構造を分解してみる:
| 判断軸の粒度 | 軸の数 | 性能(精度) |
|---|---|---|
| 「直感だけ」 | 1個(社長の感覚) | 当たり外れが大きい |
| 「履歴書 + 面接」 | 10-20個(学歴・経験・話し方) | 標準的 |
| 「コンピテンシー評価」 | 50-100個(リーダーシップ/分析力/協調性 等) | 大手コンサル流 |
| 「アセスメントセンター」 | 500-1,000個(行動観察・心理・知能テスト) | 外資金融・コンサル最終層 |
| 「LLM による全データ解析」 | 数万〜数百万個 | 理論上 最高だが、人間が解釈不能 |
軸を増やすほど判断は精緻になるが、(1) 軸が増えるほど運用コストが爆発する、(2) ある時点で頭打ちになる、(3) 多すぎると逆に判断がブレる(次元の呪い、高次元空間(#006) 記事参照)。
LLM のパラメーター競争は、まさにこの構造を 機械の中で何百億倍に拡大した話。コンサルが普段「判断軸を何個にするか」で悩んでいる作業を、機械では「1,750億個まで増やしたら何が起きるか」のレベルでやっている。
逆に言えば、コンサルが「シンプルな3軸で意思決定」を推奨する場面と、AI が「数千億パラメーターで判断」する場面は、原理的に同じ「軸を何個用意するか」問題。だから、AI ベンダーの選定 や 内製モデル設計 の議論で パラメーター数だけで判断するのは危険 ということが、コンサル感覚で言える。

ふむ、1,750億のパラメーター…私が都銀の融資審査で40年やってきた案件は、生涯で12,847件 だ。1件あたり 判断軸が約120 ある。掛けると、私の脳のパラメーター数は約 154万。GPT-3 は私の 11万倍 ということになるが、それでも私の方が 融資判断は外さない 自信があるな。
社長、その自信はどこから…(あ、いまの計算、家でメモする)。…ちなみにうちの嫁、整体院の予約管理表 を5年作り続けてて、お客さんの予約パターンを 頭の中で約400軸 で覚えてるんですよ。「あの人は雨の日キャンセル多い」とか。あれもパラメーターでしょうか。
あら、凡田さんの奥様、整体院ですの。素敵ですわ。…で、私の話で恐縮ですけど、北欧雑貨のIKEAで POÄNGチェアを5脚 買ったんですの。色・座面の硬さ・脚の長さ・カバーの取り外し性・組み立て難易度、5軸×5脚で25パラメーター比較しましたわ。結果、全部捨てましたけど。
フッ、お前らはパラメーターを数で語っている。私はシンガポールのマリーナベイサンズに 過去17回 滞在してな。ホテルの評価軸は [部屋階数, スイートグレード, バトラー対応, インフィニティプールの隣の人, …] と 23軸ある。私のホテル鑑識眼は GPT-3 の23パラメ分くらいは間違いなく…
御託さんの 23パラ vs GPT-3の1750億パラ、比率にすると 76億倍の差 だね。…でも、ふわっとした方向感で言うと、御託さんの 「23パラ」 の方が当社の事業判断に効いてる気もする。なんでだろう。
あの、ぼく入社1年で PowerPoint を 2,847枚 作ったんですけど、1枚あたり要素が平均35個で、配置・色・フォント・線の太さ等で 1要素 12パラメーター あるとすると…合計 120万パラメーター を脳内で調整した計算で。GPT-3 の14万分の1なので、ぼくの脳はだいぶ余裕がありそうです。
川口、それ 「余裕」 じゃなくて 「発想が止まらない病」 だぞ。
パラメーターを増やす vs 減らす — 業界の2つの流れ
業界の動きを整理する。
増やす派(スケーリング論者):
- OpenAI、Google、Anthropic、xAI などのフロンティアラボ
- 「パラメーター × データ × 計算量」をひたすら積むと、新しい能力が 「創発」 される
- GPT-5、Claude Opus 5 などの次世代は、おそらく 数兆 (1T+) パラメーター級
減らす派(効率論者):
- Meta(Llama)、Mistral、DeepSeek、各種オープンソースコミュニティ
- 「同じ性能を、より少ないパラメーターで達成する」競争
- 量子化(8bit/4bit/1.58bit)、蒸留、MoE(Mixture of Experts)で物理メモリを節約
- 2026年現在、7B〜70B モデルがコンシューマGPU で動く 領域に来た
コンサルの実務感覚で言うと、業務に AI を組み込むなら、絶対に 「減らす派」 を追うべき。GPU 1〜2枚で動く 7B〜13B モデルは、社内ローカル運用が可能で、データ漏洩リスクがゼロになる。
逆にフロンティア(GPT-5級)は API 経由でしか使えない 前提で、社外送信が許される業務に限定する、という設計判断になる。
ふわっとした方向感としては、当社は 「減らす派」 でいこう。GPU が買えない。…ところで、私のワインセラー、いま 97本 あるんだけど、銘柄・産地・年代・温度履歴・購入日 で5パラメーター × 97本 = 485パラメーターだ。これを脳内で管理してる私は、けっこうハイスペックモデルなのでは?
部長、485パラメーターは Mistral 7B の 1444万分の1 ですよ。ハイスペックとは言いがたい。ちなみに私が定期購読しているマリーナベイサンズのスイートインフィニティプール側 47泊分の記憶は、軸が膨大で…
御託さん、その 「47泊」 って、 領収書のスキャンデータ をどこかにお持ちですの? 経費精算のたびに「シンガポール出張」って書いていらっしゃいますけど、お一人で?
…(沈黙)
大蔵くん、それは後で人事と税務で詰めてくれ。…で、社員みんなが 葉巻も嗜むようになれば、判断軸はあと数百は増える。葉巻は1本ごとに [産地, ヴィンテージ, リング径, 葉巻長, 味の深み, ドローの軽さ] と 少なくとも6軸。私の保管庫に357本あるから、軸数は 2,142。これが私の判断品質の源だ。
社長、それ パラメーター数の話ではなく、ただの自慢 ですよね…?
あの…結論として、当社の AI 戦略は 「減らす派」 で7B モデル中心、ただし御託さんの 「経費パラメーター」 は 来期から監査対象 ということで…?(無言で議事録を取りはじめる)
…川口くん、その議事録はオフレコだ。
