川口くん、来期売上予測、もう 「1.2億円」 ってきっぱり書いてくれよ。役員会で 「95%信頼区間 [0.8〜1.6億円]」 とか出すと、社長が 「で、結局いくらなんだ?」 って聞いてくるから。
あの…赤崎部長、それ 「点推定病」 です。学生時代のデータサイエンス研究室で 「分布で出さない予測は信用するな」 って3年間叩き込まれてきました。1.2億円って一点で出すと、「外れる確率94%」 くらい平気であります。
(川口くん、その主張、実は LLM がやっていることそのものです。GPT は最初から 「次の単語は田中12% / 鈴木8% / 山田6% / …」 という 確率分布 で出力している。一点じゃなく分布で考えるのが、AI 時代の自然なスタイル…)
あ、凡田さん、その目線で言うと 当社の予測レポート全部、AI 時代基準で書き直しできますよ。ちなみに私の JR北海道乗り鉄遠征の到着時刻 も、本当は 「15:42到着確率63%」 って分布で管理してまして…(無言で『おおぞら12号』の遅延統計 PDF を開く)

- ひとことで言うと、確率分布 = 「起こりうる全候補と、それぞれの確率」 を1つにまとめた表。合計は必ず1。「1個の値」ではなく「候補の集合」。
- これが重要なのは、LLM が 「1個の答え」 ではなく 「候補の集合 + それぞれの確率」 で考えているから。この分布こそ LLM の 「1ステップの答え」 の正体(確信度を測る指標は本文で)。
- イメージは 天気予報の降水確率。「晴れ」と断言せず「晴れ60%・曇り30%・雨10%」と候補をまるごと示す、あの一覧がそのまま確率分布。
前記事 次トークン予測(#023) で、LLM の出力が 「5万次元の確率分布」 である、と説明した。本記事はその 「確率分布」 1点に絞って深掘りする。
結論を先に: 確率分布 = 「起こりうる候補と、それぞれの確率」 の集合。LLM が 「1個の単語」 ではなく 「分布」 を出しているのは、「自信のなさ / 候補のばらつき」を一緒に持っておく ためで、これが現代の AI が古典的な機械学習(=点推定で1個の値を返す)と決定的に違うところ。
そしてこの 「分布で考える」 スタイルは、コンサル業界の 「点推定病」(=何でも1個の数字に丸めて報告する文化)と対極にある。AI 時代に最適な意思決定スタイルは、実は 20年前の若手アナリストの主張 の方が近かった、という話。
確率分布とは何か — 「候補と確率の集合」、合計は1
定義はシンプル: 「起こりうる全ての候補に、それぞれ確率を割り振った表」。条件は2つだけ。
- 各確率は 0〜1 の範囲
- 全部足すと 1(=100%)
例: サイコロの目の確率分布は {1: 1/6, 2: 1/6, 3: 1/6, 4: 1/6, 5: 1/6, 6: 1/6}(均等分布)。コインの裏表は {表: 0.5, 裏: 0.5}。これらは古典的な離散確率分布。
LLM の出力もまさにこの形 — ただし候補が 5万件(語彙全体)、確率はモデルの推論結果として割り振られる:
入力: 「私の名前は」
出力(=確率分布):
{
「田中」: 0.12,
「鈴木」: 0.08,
「山田」: 0.06,
「佐藤」: 0.05,
「高橋」: 0.04,
...(残り 50,252 トークン、合計で 65%)...
}
これが LLM の 「1ステップの出力」 の正体。一見すると 「1個の単語」 のように見える が、内部表現はこの 5万次元のベクトル。後段の サンプリング(#023内) で1個に絞られる。
分布の 「とがり」 がモデルの確信度 — 同じ 「1位田中12%」 でも意味が違う
確率分布の本当の価値は、「上位以外の候補にどれだけ確率が散っているか」 を一緒に持てる、というところ。
左の分布は 1位が圧倒的(田中85%)。これはモデルが 「次は田中だろう、ほぼ確信」 と思っている状態。一方、右の分布は 1位が田中だが12%、上位5位がほぼ均等。これは 「田中かもしれないが、鈴木も山田も佐藤も同じくらいありえる、迷っている」 状態。
「1位だけ」 を取って結果を見ると、左も右も 「田中と答えた」 で同じに見える。しかし 「モデルがどれだけ確信しているか」 は全く違う。これが 点推定では失われる情報。
この 「とがり/なだらかさ」 を1つの数字で測るのが エントロピー(別記事予定)。エントロピーが低いほど分布はとがっていて確信、高いほどなだらかで不確実。LLM が 「わからないことを自覚しているか」 を測る道具にもなる。
コンサル 「点推定病」 との対比 — なぜ業界は分布を嫌うのか
ここがこの記事の核心。確率分布で考える ことは、現代の AI のスタイルそのもの。一方、コンサル業界(と多くの企業の経営層)は、徹底的に 「点推定」 で動いている。
| 項目 | 点推定スタイル(伝統的コンサル) | 分布スタイル(AI / データサイエンス) |
|---|---|---|
| 来期売上 | 「1.2億円」 | 「中央値 1.2億円、95%信頼区間 [0.8〜1.6億円]」 |
| 顧客流出率 | 「3.5%」 | 「3.5% ± 1.2%、シナリオ別に [2.1% / 3.5% / 5.0%]」 |
| 新規事業の収益 | 「年間5,000万円」 | 「失敗30% / 微妙40% / 想定通り20% / 大成功10% の混合分布」 |
| 意思決定の根拠 | 「数字1個」 で判断、後で外れたら言い訳 | 「分布全体」 を見て期待値・リスク・最悪ケースで判断 |
| 役員会での出力 | 「きっぱり1個」 で社長が安心 | 「3シナリオ + 確率」 で社長が混乱 |
「分布で出せば常に正解」ではない。点推定にも利点はある — 意思決定者が判断しやすい、組織全体がアラインしやすい、コミュニケーションコストが低い。だから業界がこれを使い続けてきたのは、必ずしも怠惰の結果ではない。
ただ、「1個の数字だけで判断する文化」 が、不確実性の高い領域(=新規事業 / 未知ドメイン / 中長期予測)で大事故を起こしてきた のも事実。リーマンショック前の住宅ローン証券のリスク評価が、まさに分布を点推定で潰した結果。これは 過学習(#019) 記事で論じた 「ベテラン陳腐化」 とも繋がる構造的問題。
うーん、いいねいいね、分布。…ただね、川口くん、役員会で 「シナリオ別 確率分布」 を出したら、社長が 「で、結局いくらなんだ?」 と15秒後に聞いてくるんだ。これが 20年変わってない んだよ。
あら、部長、それでしたら現実的には 「中央値を1個目立たせて、分布も併記」 ですわね。例えば 「来期売上 1.2億円(↕ 95%信頼区間 [0.8〜1.6億])」 みたいに。社長の 5秒注意力 でも1.2億円が頭に入りますし、深く見たい役員には分布が見える。「分布を併記」 がこれからの標準ですわね。
フッ、これは ナシム・タレブ が 『ブラック・スワン』 で論じた 「正規分布の幻想」 の現代的再演でもある。コンサル業界が点推定で動いてきたのは、世界が正規分布的だと思い込んでいたから だ。実際の事業は べき乗則(=外れ値が支配する分布) なのに…(スマホをチラ見)…ああ、今夜の推しの配信、もう残り11分か。Vtuberの 「星詠 ヨミ」 という個人勢で、配信枠 「星詠みの間」 の今夜は 確率論回、先週から始めた 『不確実性下の意思決定』読み合わせ の3週目だ。これは見逃せんな。
あら、御託さん、ついに ご自分から ですわね。長年 「察し系で隠してる体」 を貫いていらした Vtuber 推し、ようやく公式情報として開示されましたわ。(私は 3年前のトイレiPad事件 から把握済みでしたが)

LLM はなぜ分布で持っておくのか — 出力層(出口)の設計思想
技術側に話を戻す。なぜ LLM はそもそも 分布で出力する設計 になっているのか。点推定でも良さそうなのに。
まず 「分布で出している」 場所を特定する。LLM の 一番最後のレイヤー(=出力ヘッド) がそれ。ニューラルネットワーク(#008) の出口側で、内部表現のベクトル → ロジット(生のスコア、語彙全体5万個分) → ソフトマックス関数 で正規化 → 5万次元の確率分布、という順で処理される。
この 「出力ヘッドが分布を吐く」 構造は、学習時も推論時もまったく同じ。違うのはその先 — 学習時はこの分布と正解の 「ズレ」 を cross-entropy loss で測って 勾配降下(#015)、推論時はこの分布から サンプリング で1個を選ぶ。
では、なぜこの 「出口で分布」 設計が選ばれているのか。いいことが3つある。
- (学習時)勾配降下が動きやすい: 分布同士のズレを測る cross-entropy loss(数学コースで詳述)は微分が滑らか。仮に出力ヘッドを 「1位の単語だけ返す」 点推定にすると、argmax 操作で微分が不連続になり勾配降下が動かない。学習を回すために分布形式が必須、と言ってもいい
- (推論時)サンプリングで多様性を出せる: 出力ヘッドが分布を持っていれば、確率に応じて2位/3位を選んで自然な多様性を作れる。温度パラメータ が分布をなだらか/急峻にする操作も、この出口の分布に対して効く
- (推論時)モデルの不確実性を保持できる: モデルが 「わからない」 状況で、出口の分布が広がる(高エントロピー)。これを使って 「答えるべきか / 答えるべきでないか」 の判断ができる(ハルシネーション検出 等の研究領域)
つまり 「LLM の出力ヘッドを分布として設計する」 のは、学習(loss)・推論(sampling)・不確実性管理 の3つを成立させる根本。点推定モデル(=出口で1個の単語だけ返す古典的分類器)では、これらの利点が全部失われる。AI が言語を扱えるようになった理由のひとつが、まさにこの 「出口で分布を持つ」 設計選択にある。
ふむ、つまり 「分布で考えろ」 は AI 時代の鉄則、ということか。…私が銀行員時代に 融資審査 をしていた時、本当は 「貸し倒れ確率 0.8% ± 0.5%、ストレス時 3.2%」 とか分布で見てたんだが、本部に上げる時は 「承認 / 否認」 の二択 に丸めていた。これも点推定病だったのか。
社長、まさに。組織が承認/否認の二択を求めるのは合理性もありますが、「分布で記録を残しておく」 ことができていれば、後で 「ストレス時の予測がどれだけ外れたか」 の検証ができたはずです。これが現代の 「AI で意思決定支援」 のキモで、最終判断は人間がする、ただし 分布情報は機械が保持し続ける、という分担です。
あ、ちなみに私の JR北海道 おおぞら12号 到着時刻分布 も、過去3年分のデータで 中央値 15:42、95%信頼区間 [15:38〜16:21]、最悪ケース 17:15(雪害) まで把握してまして…これを 乗り換え予定アプリ に組み込むと、定時到着仮定の通常アプリより 遅延損失を年間84%削減 できる、という個人的シミュレーション結果が…(無言で論文タブを8本一気開き)
うーん、川口くん、その JR北海道アプリ、商品化したら売れるんじゃないか?…ふわっとした方向感としては 当社の AI 戦略推進室の新規事業候補 として PARTNERにも相談しないと ね。
うむ、いいねえ。JR北海道分布アプリ も響きがいい。儲かるんだろ?
