パラメーター数 — LLMのサイズを示す「通貨」、その正体は重みの集合

とある日の午後…

凡田(チームリーダー・38, 主人公)

あの、業界で「うちのモデルは何B?」って聞かれるたびに分かったふりで頷くんですけど、本当は 何を数えてるのか知らない んですよ。

御託(シニアコンサル・39)

フッ、凡田、それは恥ずべきことだ。私は週末にパラメーターを 手で数えている ぞ。

大蔵(アシスタントマネージャー・35)

御託さん、GPT-3 の 1,750億を、ご自宅で手で?…完了予定は 西暦六万二千年 ですわね。

御託

……(沈黙)

このページのまとめ

パラメーター数 = AI が学習で調整する「ダイヤルとノブの数」。実体はほぼ重み(#009) + バイアスです。
LLM のサイズを示す通貨。「7B / 70B / 175B」のように呼び、◯B = ◯億個(正確には Billion=10億)。ただし大きい=賢い、とは限りません(理由は本文で)。
イメージは、機械の中にびっしり並んだ無数のツマミ。学習とは、それを正解に近づくよう一斉に回し続ける作業です。

LLM の話で必ず出てくる単位がある。「175B」「7B」「70B」「1.7T」。

これが パラメーター数。「そのモデルが学習で持っている、調整可能な数値の総数」を表す。LLM 業界では モデルのサイズを示す通貨 として使われる。

本記事はこの「数」にフォーカスして、(1) パラメーターの正体、(2) なぜサイズを語るのか、(3) 内訳と GPU の現実 を押さえる。重みの中身は前記事(重み)(#009) 参照、ここは 数の話に絞る。

パラメーター = ダイヤルとノブ

3Blue1Brown の解説でも語られている言い方を借りる。

機械学習のモデルとは、調整可能なパラメーター(ダイヤルやノブ)をたくさん持った柔軟な構造。学習とは、それを正解に近づくように回す作業。

たとえば最も単純な線形回帰 y = a × x + b は、ダイヤルが 2個(a と b) しかない。住宅価格を予測したければ、過去データで a と b を最適化するだけ。

GPT-3 はこのダイヤルを 1,750億個 持っている。それぞれを学習で「正解に近づく方向に」少しずつ回す。これが訓練(training)の全て。

つまり パラメーター = ダイヤル = 重み + バイアス。実装上はほぼ重みの数とみなしてよい(バイアスは重みの 1%未満)。

なぜ「数」を語るのか — LLM の通貨単位

LLM の業界では、モデル名の後に必ず サイズ表記 が付く。

モデル	パラメーター数	表記
GPT-3	1,750億	175B
GPT-4	非公開(推定1.7兆)	~1.7T(噂)
Llama 3	70億 / 80億 / 700億 / 4,050億	7B / 8B / 70B / 405B
Claude Opus 4.7	非公開	—
Mistral 7B	70億	7B
DeepSeek V3	6,710億(MoE: 活性 370億)	671B-A37B

B = Billion = 10億、T = Trillion = 1兆。日本で言うと「億」ではなく「10億」単位なので注意(GPT-3 の「175B」を「175億」と訳すと一桁ズレる)。

なぜこの数字が独り歩きするかというと、「大きいほど賢くなる」傾向 が経験的に確認されているから(これを スケーリング則 と呼ぶ)。同じ家系のモデルなら、パラメーターを増やしただけで性能が上がる。だから業界全体が「パラメーター競争」に走った。

ただし最近は 「パラメーターを増やすだけでは限界」 という認識も広がっている(後述)。

GPT-3 1,750億の内訳

「1,750億って、どこに何個あるの?」という素朴な疑問に答える。

図1: GPT-3 1,750億パラメーターの内訳(概算)

場所	パラメーター数	役割
埋め込み行列	約 6.17億	トークン → ベクトル変換
96層 × アテンション(Q/K/V/出力)	約 580億	文脈の関連度計算
96層 × MLP(全結合層)	約 1,158億	意味の変換・抽象化
位置埋め込み・LayerNorm 等	約 5億	補助
出力行列(unembedding)	約 6.17億	ベクトル → 次トークン確率

意外なポイント:

MLP 層が圧倒的に多い(66%)。「Transformer = アテンション」のイメージとは裏腹に、パラメーター数で言えば 主役は MLP。
アテンションは 33%。表現力のコアだが、数では少数派。
埋め込みと出力で 12億超。語彙数(50,257) × 埋め込み次元(12,288)の単純な掛け算。

イメージとしては、アテンションは「目線」を決める層、MLP は「解釈」を決める層。LLM の「厚み」は MLP のパラメーター数に支えられている。

パラメーター数 ≠ 賢さ

業界の常識として知っておきたい注意点。

パラメーター数が同じでも、賢さは大きく変わる。最近の傾向:

Llama 3 70B(700億)が、GPT-3 175B(1,750億)を多くのベンチマークで上回る
Mistral 7B(70億)が、Llama 2 13B(130億)を超える
蒸留モデル(数B級)が、元モデル(数十B)の 80-90% の性能を出す

これは、「データ量」「データ品質」「学習回数」「アーキテクチャ細部」 の進化によるもの。「パラメーター × データ × 計算量」の3軸がスケーリング則の本体で、パラメーターだけ増やしても頭打ちになる(Chinchilla の法則)。

つまり、現代のモデル評価で重要なのは 「パラメーターあたりの賢さ」。小さいモデルで大きいモデルの性能を出せる方が、当然有利(GPU コストが安い、推論が速い)。

業界の流れは「大きく作って、賢く小さくする」になっている。GPT-4 や Claude も、おそらく 巨大な教師モデル → 蒸留 → 配信 という構造で動いている(公式には非公開)。

パラメーター数 × メモリ = GPU 戦争の正体

もう一つ実務に直結する話。パラメーター 1個には、メモリが必要。

1パラメーター × 2byte(fp16, 半精度浮動小数) = 2byte/パラメ
GPT-3 1,750億 × 2byte = 350GB
Llama 70B × 2byte = 140GB

そして、推論(モデルを動かす)には、全パラメーターを GPU の VRAM に載せる必要がある(基本的には)。

2026年現在の主要GPU の VRAM 容量:

NVIDIA H100: 80GB
NVIDIA H200: 141GB
NVIDIA B200: 192GB

つまり GPT-3 を動かすには H100 が 5枚必要。Llama 70B でも H100 2枚。これが 「AI = GPU の戦い」 と言われる物理的な理由。

そして訓練(学習)には、推論の 3〜4倍のメモリ が必要(勾配・最適化状態を保持するため)。GPT-3 を訓練するなら H100 が 20〜30枚、それを 数千〜数万GPU 並列 で数ヶ月回し続ける。

これが、AI のトップ研究所が 「数千億円規模の設備投資」 を要求される構造。パラメーター数 1個ずつにGPU が高速にアクセスする必要があるため、ボトルネックは 計算速度ではなく、メモリ帯域。

コンサル業務にもう一歩寄せる

パラメーターを「会社の意思決定における、細かい判断軸の総数」と思って業務に重ねる。

たとえば、ある企業が「採用するか否か」を決める判断構造を分解してみる:

判断軸の粒度	軸の数	性能(精度)
「直感だけ」	1個(社長の感覚)	当たり外れが大きい
「履歴書 + 面接」	10-20個(学歴・経験・話し方)	標準的
「コンピテンシー評価」	50-100個(リーダーシップ/分析力/協調性等)	大手コンサル流
「アセスメントセンター」	500-1,000個(行動観察・心理・知能テスト)	外資金融・コンサル最終層
「LLM による全データ解析」	数万〜数百万個	理論上最高だが、人間が解釈不能

軸を増やすほど判断は精緻になるが、(1) 軸が増えるほど運用コストが爆発する、(2) ある時点で頭打ちになる、(3) 多すぎると逆に判断がブレる(次元の呪い、高次元空間(#006) 記事参照)。

LLM のパラメーター競争は、まさにこの構造を 機械の中で何百億倍に拡大した話。コンサルが普段「判断軸を何個にするか」で悩んでいる作業を、機械では「1,750億個まで増やしたら何が起きるか」のレベルでやっている。

逆に言えば、コンサルが「シンプルな3軸で意思決定」を推奨する場面と、AI が「数千億パラメーターで判断」する場面は、原理的に同じ「軸を何個用意するか」問題。だから、AI ベンダーの選定や内製モデル設計の議論で パラメーター数だけで判断するのは危険 ということが、コンサル感覚で言える。

南雲社長が銀行員時代の融資審査ファイル(膨大な量)を懐かしげに見つめ、隣で凡田と赤崎が圧倒されるシーン

登場人物の反応 ①

南雲(社長・60-62)

ふむ、1,750億のパラメーター…私が都銀の融資審査で40年やってきた案件は、生涯で12,847件 だ。1件あたり 判断軸が約120 ある。掛けると、私の脳のパラメーター数は約 154万。GPT-3 は私の 11万倍 ということになるが、それでも私の方が 融資判断は外さない 自信があるな。

凡田(チームリーダー・38, 主人公)

社長、その自信はどこから…(あ、いまの計算、家でメモする)。…ちなみにうちの嫁、整体院の予約管理表 を5年作り続けてて、お客さんの予約パターンを 頭の中で約400軸 で覚えてるんですよ。「あの人は雨の日キャンセル多い」とか。あれもパラメーターでしょうか。

大蔵(アシスタントマネージャー・35)

あら、凡田さんの奥様、整体院ですの。素敵ですわ。…で、私の話で恐縮ですけど、北欧雑貨のIKEAで POÄNGチェアを5脚 買ったんですの。色・座面の硬さ・脚の長さ・カバーの取り外し性・組み立て難易度、5軸×5脚で25パラメーター比較しましたわ。結果、全部捨てましたけど。

御託(シニアコンサル・39)

フッ、お前らはパラメーターを数で語っている。私はシンガポールのマリーナベイサンズに 過去17回 滞在してな。ホテルの評価軸は [部屋階数, スイートグレード, バトラー対応, インフィニティプールの隣の人, …] と 23軸ある。私のホテル鑑識眼は GPT-3 の23パラメ分くらいは間違いなく…

赤崎(部長 / AI戦略推進室室長・42)

御託さんの 23パラ vs GPT-3の1750億パラ、比率にすると 76億倍の差 だね。…でも、ふわっとした方向感で言うと、御託さんの「23パラ」の方が当社の事業判断に効いてる気もする。なんでだろう。

川口(アナリスト・22)

あの、ぼく入社1年で PowerPoint を 2,847枚 作ったんですけど、1枚あたり要素が平均35個で、配置・色・フォント・線の太さ等で 1要素 12パラメーター あるとすると…合計 120万パラメーター を脳内で調整した計算で。GPT-3 の14万分の1なので、ぼくの脳はだいぶ余裕がありそうです。

凡田

川口、それ「余裕」じゃなくて「発想が止まらない病」だぞ。

パラメーターを増やす vs 減らす — 業界の2つの流れ

業界の動きを整理する。

増やす派(スケーリング論者):

OpenAI、Google、Anthropic、xAI などのフロンティアラボ
「パラメーター × データ × 計算量」をひたすら積むと、新しい能力が「創発」される
GPT-5、Claude Opus 5 などの次世代は、おそらく 数兆 (1T+) パラメーター級

減らす派(効率論者):

Meta(Llama)、Mistral、DeepSeek、各種オープンソースコミュニティ
「同じ性能を、より少ないパラメーターで達成する」競争
量子化(8bit/4bit/1.58bit)、蒸留、MoE(Mixture of Experts)で物理メモリを節約
2026年現在、7B〜70B モデルがコンシューマGPU で動く 領域に来た

コンサルの実務感覚で言うと、業務に AI を組み込むなら、絶対に「減らす派」を追うべき。GPU 1〜2枚で動く 7B〜13B モデルは、社内ローカル運用が可能で、データ漏洩リスクがゼロになる。

逆にフロンティア(GPT-5級)は API 経由でしか使えない 前提で、社外送信が許される業務に限定する、という設計判断になる。

登場人物の反応 ②

赤崎(部長 / AI戦略推進室室長・42)

ふわっとした方向感としては、当社は「減らす派」でいこう。GPU が買えない。…ところで、私のワインセラー、いま 97本 あるんだけど、銘柄・産地・年代・温度履歴・購入日で5パラメーター × 97本 = 485パラメーターだ。これを脳内で管理してる私は、けっこうハイスペックモデルなのでは?

御託

部長、485パラメーターは Mistral 7B の 1444万分の1 ですよ。ハイスペックとは言いがたい。ちなみに私が定期購読しているマリーナベイサンズのスイートインフィニティプール側 47泊分の記憶は、軸が膨大で…

大蔵

御託さん、その「47泊」って、 領収書のスキャンデータ をどこかにお持ちですの? 経費精算のたびに「シンガポール出張」って書いていらっしゃいますけど、お一人で?

御託

…(沈黙)

南雲

大蔵くん、それは後で人事と税務で詰めてくれ。…で、社員みんなが 葉巻も嗜むようになれば、判断軸はあと数百は増える。葉巻は1本ごとに [産地, ヴィンテージ, リング径, 葉巻長, 味の深み, ドローの軽さ] と 少なくとも6軸。私の保管庫に357本あるから、軸数は 2,142。これが私の判断品質の源だ。

凡田

社長、それ パラメーター数の話ではなく、ただの自慢 ですよね…?

川口

あの…結論として、当社の AI 戦略は「減らす派」で7B モデル中心、ただし御託さんの「経費パラメーター」は 来期から監査対象 ということで…?(無言で議事録を取りはじめる)

南雲

…川口くん、その議事録はオフレコだ。

KEY TAKEAWAYS

抑えておきたいポイント

パラメーター = AI が学習で調整するダイヤルとノブの総数。実体はほぼ重み + バイアス。
LLM のサイズ通貨: 7B / 13B / 70B / 175B 等の表記、B = Billion = 10億。
GPT-3 1,750億の内訳: MLP が 66%、アテンションは 33%、埋め込み + 出力で 12億超。
パラメーター数 ≠ 賢さ。データ・学習法・蒸留で、小さいモデルが大きいモデルを超える例多数。
1パラメ = 2byte(fp16)。GPT-3 = 350GB、H100 が5枚必要。これが GPU 戦争の物理的理由。
業界は「増やす派」(フロンティア)と「減らす派」(効率)の二極。業務組み込みは減らす派が現実解。
コンサル感覚: 「判断軸を何個用意するか」問題が、機械の中で1,750億倍に拡大した話。