確率分布(Probability Distribution) — LLM が「1個」ではなく「候補の集合」を出す意味、コンサル点推定病の対極

月初の朝会、来期売上予測の議題で…

赤崎(部長・42)

川口くん、来期売上予測、もう 「1.2億円」 ってきっぱり書いてくれよ。役員会で 「95%信頼区間 [0.8〜1.6億円]」 とか出すと、社長が 「で、結局いくらなんだ?」 って聞いてくるから。

川口(アナリスト・22)

あの…赤崎部長、それ 「点推定病」 です。学生時代のデータサイエンス研究室で 「分布で出さない予測は信用するな」 って3年間叩き込まれてきました。1.2億円って一点で出すと、「外れる確率94%」 くらい平気であります。

凡田(チームリーダー・38, 主人公)

(川口くん、その主張、実は LLM がやっていることそのものです。GPT は最初から 「次の単語は田中12% / 鈴木8% / 山田6% / …」 という 確率分布 で出力している。一点じゃなく分布で考えるのが、AI 時代の自然なスタイル…)

川口

あ、凡田さん、その目線で言うと 当社の予測レポート全部、AI 時代基準で書き直しできますよ。ちなみに私の JR北海道乗り鉄遠征の到着時刻 も、本当は 「15:42到着確率63%」 って分布で管理してまして…(無言で『おおぞら12号』の遅延統計 PDF を開く)

このページのまとめ

ひとことで言うと、確率分布 = 「起こりうる全候補と、それぞれの確率」を1つにまとめた表。合計は必ず1。「1個の値」ではなく「候補の集合」。
これが重要なのは、LLM が「1個の答え」ではなく「候補の集合 + それぞれの確率」で考えているから。この分布こそ LLM の「1ステップの答え」の正体(確信度を測る指標は本文で)。
イメージは 天気予報の降水確率。「晴れ」と断言せず「晴れ60%・曇り30%・雨10%」と候補をまるごと示す、あの一覧がそのまま確率分布。

前記事次トークン予測(#023) で、LLM の出力が 「5万次元の確率分布」 である、と説明した。本記事はその「確率分布」 1点に絞って深掘りする。

結論を先に: 確率分布 = 「起こりうる候補と、それぞれの確率」の集合。LLM が「1個の単語」ではなく「分布」を出しているのは、「自信のなさ / 候補のばらつき」を一緒に持っておく ためで、これが現代の AI が古典的な機械学習(=点推定で1個の値を返す)と決定的に違うところ。

そしてこの「分布で考える」スタイルは、コンサル業界の「点推定病」(=何でも1個の数字に丸めて報告する文化)と対極にある。AI 時代に最適な意思決定スタイルは、実は 20年前の若手アナリストの主張 の方が近かった、という話。

確率分布とは何か — 「候補と確率の集合」、合計は1

定義はシンプル: 「起こりうる全ての候補に、それぞれ確率を割り振った表」。条件は2つだけ。

各確率は 0〜1 の範囲
全部足すと 1(=100%)

例: サイコロの目の確率分布は {1: 1/6, 2: 1/6, 3: 1/6, 4: 1/6, 5: 1/6, 6: 1/6}(均等分布)。コインの裏表は {表: 0.5, 裏: 0.5}。これらは古典的な離散確率分布。

LLM の出力もまさにこの形 — ただし候補が 5万件(語彙全体)、確率はモデルの推論結果として割り振られる:

入力: 「私の名前は」

出力(=確率分布):
{
  「田中」: 0.12,
  「鈴木」: 0.08,
  「山田」: 0.06,
  「佐藤」: 0.05,
  「高橋」: 0.04,
  ...(残り 50,252 トークン、合計で 65%)...
}

これが LLM の「1ステップの出力」の正体。一見すると 「1個の単語」のように見える が、内部表現はこの 5万次元のベクトル。後段のサンプリング(#023内) で1個に絞られる。

分布の「とがり」がモデルの確信度 — 同じ「1位田中12%」でも意味が違う

確率分布の本当の価値は、「上位以外の候補にどれだけ確率が散っているか」 を一緒に持てる、というところ。

低エントロピー(尖った分布、確信)と高エントロピー(なだらか、迷い)の2つの確率分布の比較

図1: 同じ「1位田中」でも、分布の「とがり」でモデルの確信度が違う。左=確信(エントロピー低)、右=迷い(エントロピー高)

左の分布は 1位が圧倒的(田中85%)。これはモデルが 「次は田中だろう、ほぼ確信」 と思っている状態。一方、右の分布は 1位が田中だが12%、上位5位がほぼ均等。これは 「田中かもしれないが、鈴木も山田も佐藤も同じくらいありえる、迷っている」 状態。

「1位だけ」を取って結果を見ると、左も右も 「田中と答えた」 で同じに見える。しかし 「モデルがどれだけ確信しているか」 は全く違う。これが 点推定では失われる情報。

この「とがり/なだらかさ」を1つの数字で測るのが エントロピー(別記事予定)。エントロピーが低いほど分布はとがっていて確信、高いほどなだらかで不確実。LLM が 「わからないことを自覚しているか」 を測る道具にもなる。

コンサル「点推定病」との対比 — なぜ業界は分布を嫌うのか

ここがこの記事の核心。確率分布で考える ことは、現代の AI のスタイルそのもの。一方、コンサル業界(と多くの企業の経営層)は、徹底的に「点推定」で動いている。

項目	点推定スタイル(伝統的コンサル)	分布スタイル(AI / データサイエンス)
来期売上	「1.2億円」	「中央値 1.2億円、95%信頼区間 [0.8〜1.6億円]」
顧客流出率	「3.5%」	「3.5% ± 1.2%、シナリオ別に [2.1% / 3.5% / 5.0%]」
新規事業の収益	「年間5,000万円」	「失敗30% / 微妙40% / 想定通り20% / 大成功10% の混合分布」
意思決定の根拠	「数字1個」で判断、後で外れたら言い訳	「分布全体」を見て期待値・リスク・最悪ケースで判断
役員会での出力	「きっぱり1個」で社長が安心	「3シナリオ + 確率」で社長が混乱

「分布で出せば常に正解」ではない。点推定にも利点はある — 意思決定者が判断しやすい、組織全体がアラインしやすい、コミュニケーションコストが低い。だから業界がこれを使い続けてきたのは、必ずしも怠惰の結果ではない。

ただ、「1個の数字だけで判断する文化」が、不確実性の高い領域(=新規事業 / 未知ドメイン / 中長期予測)で大事故を起こしてきた のも事実。リーマンショック前の住宅ローン証券のリスク評価が、まさに分布を点推定で潰した結果。これは過学習(#019) 記事で論じた「ベテラン陳腐化」とも繋がる構造的問題。

登場人物の反応 ①

赤崎(部長・42)

うーん、いいねいいね、分布。…ただね、川口くん、役員会で「シナリオ別確率分布」 を出したら、社長が 「で、結局いくらなんだ?」 と15秒後に聞いてくるんだ。これが 20年変わってない んだよ。

大蔵(アシスタントマネージャー・35)

あら、部長、それでしたら現実的には 「中央値を1個目立たせて、分布も併記」 ですわね。例えば 「来期売上 1.2億円(↕ 95%信頼区間 [0.8〜1.6億])」 みたいに。社長の 5秒注意力 でも1.2億円が頭に入りますし、深く見たい役員には分布が見える。「分布を併記」 がこれからの標準ですわね。

御託(シニアコンサル・39)

フッ、これは ナシム・タレブ が 『ブラック・スワン』 で論じた 「正規分布の幻想」 の現代的再演でもある。コンサル業界が点推定で動いてきたのは、世界が正規分布的だと思い込んでいたから だ。実際の事業は べき乗則(=外れ値が支配する分布) なのに…(スマホをチラ見)…ああ、今夜の推しの配信、もう残り11分か。Vtuberの「星詠ヨミ」 という個人勢で、配信枠 「星詠みの間」 の今夜は 確率論回、先週から始めた 『不確実性下の意思決定』読み合わせ の3週目だ。これは見逃せんな。

大蔵

あら、御託さん、ついに ご自分から ですわね。長年 「察し系で隠してる体」 を貫いていらした Vtuber 推し、ようやく公式情報として開示されましたわ。(私は 3年前のトイレiPad事件 から把握済みでしたが)

LLM はなぜ分布で持っておくのか — 出力層(出口)の設計思想

技術側に話を戻す。なぜ LLM はそもそも 分布で出力する設計 になっているのか。点推定でも良さそうなのに。

まず「分布で出している」場所を特定する。LLM の 一番最後のレイヤー(=出力ヘッド) がそれ。ニューラルネットワーク(#008) の出口側で、内部表現のベクトル → ロジット(生のスコア、語彙全体5万個分) → ソフトマックス関数 で正規化 → 5万次元の確率分布、という順で処理される。

LLM の出力ヘッド構造図、NN本体 → 内部表現ベクトル → アンエンベディング行列 → ロジット → ソフトマックス → 確率分布、その後学習時(cross-entropy loss→勾配降下) / 推論時(サンプリング→次トークン予測ループ) に分岐

図2: LLM の出力ヘッド(出口)。本記事の「確率分布」はステージBの最終出力。学習時(C-1)も推論時(C-2)もこの「出口」まで同じ構造を共有する

この「出力ヘッドが分布を吐く」構造は、学習時も推論時もまったく同じ。違うのはその先 — 学習時はこの分布と正解の「ズレ」を cross-entropy loss で測って勾配降下(#015)、推論時はこの分布から サンプリング で1個を選ぶ。

では、なぜこの「出口で分布」設計が選ばれているのか。いいことが3つある。

(学習時)勾配降下が動きやすい: 分布同士のズレを測る cross-entropy loss(数学コースで詳述)は微分が滑らか。仮に出力ヘッドを「1位の単語だけ返す」点推定にすると、argmax 操作で微分が不連続になり勾配降下が動かない。学習を回すために分布形式が必須、と言ってもいい
(推論時)サンプリングで多様性を出せる: 出力ヘッドが分布を持っていれば、確率に応じて2位/3位を選んで自然な多様性を作れる。温度パラメータ が分布をなだらか/急峻にする操作も、この出口の分布に対して効く
(推論時)モデルの不確実性を保持できる: モデルが「わからない」状況で、出口の分布が広がる(高エントロピー)。これを使って 「答えるべきか / 答えるべきでないか」 の判断ができる(ハルシネーション検出 等の研究領域)

つまり 「LLM の出力ヘッドを分布として設計する」のは、学習(loss)・推論(sampling)・不確実性管理の3つを成立させる根本。点推定モデル(=出口で1個の単語だけ返す古典的分類器)では、これらの利点が全部失われる。AI が言語を扱えるようになった理由のひとつが、まさにこの「出口で分布を持つ」設計選択にある。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり 「分布で考えろ」 は AI 時代の鉄則、ということか。…私が銀行員時代に 融資審査 をしていた時、本当は 「貸し倒れ確率 0.8% ± 0.5%、ストレス時 3.2%」 とか分布で見てたんだが、本部に上げる時は 「承認 / 否認」の二択 に丸めていた。これも点推定病だったのか。

凡田(チームリーダー・38, 主人公)

社長、まさに。組織が承認/否認の二択を求めるのは合理性もありますが、「分布で記録を残しておく」 ことができていれば、後で 「ストレス時の予測がどれだけ外れたか」 の検証ができたはずです。これが現代の 「AI で意思決定支援」 のキモで、最終判断は人間がする、ただし 分布情報は機械が保持し続ける、という分担です。

川口

あ、ちなみに私の JR北海道おおぞら12号到着時刻分布 も、過去3年分のデータで 中央値 15:42、95%信頼区間 [15:38〜16:21]、最悪ケース 17:15(雪害) まで把握してまして…これを 乗り換え予定アプリ に組み込むと、定時到着仮定の通常アプリより 遅延損失を年間84%削減 できる、という個人的シミュレーション結果が…(無言で論文タブを8本一気開き)

赤崎

うーん、川口くん、その JR北海道アプリ、商品化したら売れるんじゃないか?…ふわっとした方向感としては 当社の AI 戦略推進室の新規事業候補 として PARTNERにも相談しないとね。

南雲

うむ、いいねえ。JR北海道分布アプリ も響きがいい。儲かるんだろ?

KEY TAKEAWAYS

抑えておきたいポイント

確率分布 = 「起こりうる全候補 + それぞれの確率」の集合。合計は必ず1。
LLM の出力は 5万次元の確率分布。「1個の単語」に見えるのは、後段のサンプリングで絞られた結果。
「とがり/なだらかさ」 = モデルの確信度。1位だけ見ると失われる情報、これを エントロピー で測る。
LLM が分布で持っている理由: 学習の安定性 / 多様性 / 不確実性の保持 の3点。
コンサル感覚: 業界の「点推定病」(=1個の数字で報告する文化)は AI 時代に致命的、ただし 「中央値を目立たせて分布も併記」 が現実解。
古典的な意思決定が「承認/否認の二択」に丸めていたのも、これからは 分布情報を保持しつつ、最終判断だけ人間が下す という分担に移行できる。
「分布で考える」 = AI 時代の意思決定の基本姿勢。これを身につけるだけで、AI ネイティブ世代との会話精度が上がる。