サンプリング(Sampling) — 確率分布から「1個」に絞る操作、AIの「性格」を決めるダイヤル

金曜の夕方、来期の戦略案レビューで…

赤崎(部長・42)

うーん、ふわっとした方向感としてはね、案A(海外進出)もいいねえ、案B(M&A)もいいねえ、案C(新規事業)もいいねえ。…じゃあ 全部承認 でPARTNERにも相談しないとね。

凡田(チームリーダー・38, 主人公)

(赤崎部長、それは 「温度高めのサンプリング」 です。LLM で言うと Temperature = 2.0 くらいの状態。確率分布がなだらかすぎて どの案でも均等に出てきてしまう。3案あるならどれか1案に絞らないと、組織が動かない…)

大蔵(アシスタントマネージャー・35)

あら、部長、3案全部承認 ですか。それでしたら、銀座カフェの常連様にも「コーヒー全種類お試しください」と申し上げているようなものですわね。「温度を下げて1個に絞る」 のがマネジメントの本義ですわ。

川口(アナリスト・22)

あ、それでしたら ChatGPT が 毎回違う回答を返す のと同じ仕組みです。LLM は 確率分布から1個をランダムに選ぶ ステップを必ず通っていて、「温度パラメータ」 で選び方の幅を調整します。…ちなみに私の JR北海道の駅選び も実は内部温度 1.7 程度の高めサンプリングでして…(無言で時刻表アプリを開く)

会議室で赤崎が3案全部「いいねいいね」承認しそうな表情、凡田が気づきの顔、大蔵が冷静ツッコミ、川口が時刻表アプリを開く

このページのまとめ

サンプリング(Sampling) = LLM が確率分布から「1個」を選ぶ操作。前ステップで確率分布(#024) を作った後、最後に1単語に絞るところがこれ。
選び方には流派がある: Greedy(必ず最大確率) / Temperature サンプリング(分布の「とがり」を調整) / Top-k / Top-p(上位だけに絞る)。
温度(Temperature, T) = 分布をなだらか/急峻にするツマミ。T低い(0.2) = 1位ばかり = 無難、T高い(1.5) = 2位3位もよく出る = 多様、T=0 = 完全に1位固定(=Greedy)。
ChatGPT が同じ質問で 毎回違う答え を返すのは、サンプリングがランダム要素を持つから。T=0 設定にすれば、毎回ほぼ同じ回答が返る。
Top-k: 上位 k 候補までに絞ってサンプリング(極端な選択を防ぐ)。Top-p: 累積確率 p% までに絞る(分布のとがり具合に応じて候補数が動く)。
「AIの性格」を制御するのが温度。創作 → T高め、コード/事実回答 → T低め。LLM API ではほぼ必ずこのパラメータが露出する。
コンサル感覚: 「全案いいねいいね」は温度高すぎ で組織が動かなくなる、「いつも案Aだけ」は温度0で硬直する。意思決定の温度を場面で使い分けるのが現代マネジメント。

前記事確率分布(#024) で、LLM が出口で 5万次元の確率分布 を作る、と説明した。本記事はその後の「分布から1個に絞る」ステップ、サンプリング の話。

結論を先に: サンプリング = 確率分布から1個を選ぶ操作。LLM の 「最後の決断」 がここに集約される。同じ分布でも、選び方を変えると AI の「性格」 が変わる。ChatGPT が「真面目に答える」「ふざけて答える」「同じ質問でも毎回違う」と振る舞いを変える理由は、ほぼ全てこのサンプリングの設定で決まる。

サンプリングとは何か — 分布から「1個」を引き当てる

確率分布は 候補と確率の集合。具体的には例えばこうなっている:

入力: 「私の名前は」

確率分布(出口で生成):
{ 「田中」: 0.12, 「鈴木」: 0.08, 「山田」: 0.06, 「佐藤」: 0.05, ... }

このままでは出力できないので、1個を選ぶ 必要がある。これがサンプリング。素朴な方法はいくつかある。

Greedy(貪欲): 常に最大確率を選ぶ。例だと毎回「田中」。「安全だが定型的」 な選び方。
ランダムサンプリング: 確率に応じてくじを引く。例だと12%の確率で「田中」、8%で「鈴木」…。多様な出力が出るが、外れも増える。

実用では両者の中間を狙う。それを調整するためのツマミが 温度パラメータ。

温度(Temperature) — 分布の「とがり」を変えるツマミ

温度は LLM 業界でいちばんよく出てくるパラメータ。T(Temperature) と書く。0〜2 程度の範囲で設定する。

温度低(T=0.3)/中(T=1.0)/高(T=1.7) の3つの分布の比較、温度が上がるほどなだらかになる

図1: 同じロジット(生スコア)でも、温度を変えると分布の「とがり」が大きく変わる

温度の効果を一言で言うと:

T が低い(0.2〜0.5): 分布がとがる → 1位の確率がさらに上がる → 「無難で定型的」 な出力
T = 1.0(デフォルト): 分布そのまま → 「標準的なバランス」
T が高い(1.5〜2.0): 分布がなだらかになる → 2位や3位も選ばれやすい → 「多様で創造的」(ただし暴走リスク増)
T = 0(極端): 分布が完全に1位に集中 → 毎回必ず同じ出力 → Greedy と同じ

つまり 温度 = AI の「性格」ダイヤル。低温は几帳面な事務員、高温は気まぐれな芸術家、というイメージ。用途で使い分けるのが基本。

用途	推奨温度	理由
コード生成	0.0〜0.3	動くコードに収束させたい、多様性は要らない
事実回答 / 要約	0.2〜0.5	正確さ優先、ハルシネーション抑制
業務文章 / メール	0.5〜0.8	無難で自然な文章
創作 / アイデア出し	0.9〜1.3	多様性が欲しい、捻りが欲しい
実験 / ブレスト	1.3〜2.0	想定外を引き当てたい、外れは許容

登場人物の反応 ①

赤崎(部長・42)

うーん、つまり 私の「いいねいいね」 は 温度2.0、ということか。…ふわっとした方向感としては、これは 「全方位許容型のリーダーシップ」 と言えなくもないが…大蔵くん、私の判断温度を下げる方法、ある?

大蔵

あら、部長、温度を下げる即効策としましては 「3案のうち、ワインセラー予算と引き換えにできる案だけ承認」 という制約を入れることですわね。これで Top-1 に絞られます。…ちなみに、3案とも ワインセラー予算と引き換え不可 なので、該当案ゼロ という結論にもなりますが。

御託(シニアコンサル・39)

フッ、温度の話か。これは キルケゴール が 『あれか、これか』 で論じた 「美的実存 vs 倫理的実存」 の構造そのものだな。温度高め=美的実存(=瞬間の快楽を多様にサンプリング)、温度0=倫理的実存(=単一の決断に身を投じる)、と。…ちなみに今夜の Vtuber 「星詠ヨミ」 の 「星詠みの間」 は、サンプリング理論回、推しが哲学から統計学に脱線して4週目だ。これは見逃せん。

Top-k と Top-p — 極端な選択を防ぐもう2つのツマミ

温度だけだと 「低確率の暴走」 が残る。例えば温度高めにすると、確率0.0001% の極端な単語まで選ばれる可能性があり、文章が破綻する。これを防ぐのが Top-k / Top-p。

Top-k サンプリング: 上位 k 個の候補だけに絞ってからサンプリング。k=40 なら、5万候補のうち上位40件だけ。「下位の極端な候補」を物理的に排除。
Top-p サンプリング(Nucleus サンプリング): 累積確率が p% に達するまでの候補に絞る。p=0.9 なら、確率の高い順に足していって90%に達したところで打ち切り。分布のとがり具合に応じて候補数が自動調整 されるのが特徴。

実務では 温度 + Top-p の組み合わせ が定番。例えば「温度0.7 + Top-p=0.9」みたいに設定する。OpenAI / Anthropic / Google の API はいずれもこの3つのパラメータを公開している。

コンサル感覚 — 意思決定の温度を場面で使い分ける

温度パラメータの考え方は、組織の意思決定にもそのまま応用できる。

場面	「温度」の目安	意思決定スタイル
緊急対応 / オペレーション	0.0(Greedy)	マニュアル通り、1番手の案を即実行
定型的な業務判断	0.3	過去の成功パターンから無難な選択
中期戦略の意思決定	0.7	主案+対案、リスク考慮しつつ決定
新規事業 / 創造的領域	1.0〜1.3	複数案を真剣に検討、多様性を確保
ブレスト / 発散セッション	1.5〜2.0	外れ案も歓迎、想定外を引き当てる

赤崎の 「いいねいいね」 は 常時温度2.0 なので、緊急対応の場では機能不全になる。逆に 「いつも案Aだけ」 の硬直マネージャは 常時温度0 で、創造的領域では機能不全になる。場面で温度を変える のが現代のマネジメントスキル、と整理できる。

AI と人間の意思決定が同じ語彙で語れるようになったのも、サンプリングという概念のおかげ。「あの上司は温度高すぎ」「あのチームは温度0で硬直してる」 のような語り方が、組織論として有効になってくる。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり 「私の融資審査40年」は温度0.2 あたり、ということか。確かに、若い頃から 「無難な案件を選ぶ」 訓練を叩き込まれてきた。…ところで、いまの当社の AI戦略推進室 は赤崎くん率いて温度どれくらいなんだ?

凡田(チームリーダー・38, 主人公)

社長、赤崎部長率いる AI 戦略推進室は 常時温度1.8 です。3案あれば3案承認、5案あれば5案承認、で 「何も決まらない」 状態になりがちです。提案としては、社内に Top-p フィルタ を入れて、「PARTNER 相談済みで予算合致の案」 までに絞ることをおすすめします。

赤崎

うーん、凡田くん、その 「Top-p フィルタ」、私の判断ふわっと感を保ったまま、案を絞れるということか。ふわっとした方向感としては 「いいねいいね」 なんだが…(これでワインセラー予算は守れそうだ)

大蔵

あら、凡田さん、ナイス提案ですわね。Top-p フィルタなら、部長の 「いいねいいね」 も保たれつつ、最終決定がワインセラー予算を超えない範囲に収まる。…ちなみに私の 銀座カフェ接客レイヤー も、実は Top-3 サンプリング で運用してまして、4位以下のお客様の選好は無視させていただいておりました。(あと0.1%でモカが選ばれる可能性まで追っていたら、業務が破綻しますわ)

南雲

うむ、いいねえ。「Top-p フィルタ経営」 も響きがいい。儲かるんだろ?

KEY TAKEAWAYS

抑えておきたいポイント

サンプリング = 確率分布から「1個」を選ぶ操作。LLM の次トークン予測ループの最終ステップ。
温度(Temperature) = 分布のとがり/なだらかを調整するツマミ。低=無難、高=多様、0=毎回同じ(Greedy)。
Top-k: 上位 k 候補に絞る / Top-p: 累積確率 p% までに絞る。実務は 温度 + Top-p の組み合わせが定番。
ChatGPT が 毎回違う答え を返すのはサンプリングのランダム性。T=0 にすればほぼ同じ回答に固定できる。
用途別: コード生成は低温(0〜0.3)、創作は高温(0.9〜1.3)、ブレストは超高温(1.5〜2.0)。
コンサル感覚: 意思決定にも「温度」がある。「全案いいねいいね」=温度高すぎ / 「いつも案Aだけ」=温度0で硬直。場面で温度を切り替えるのが現代マネジメント。