金曜の夕方、来期の戦略案レビューで…
赤崎(部長・42)

うーん、ふわっとした方向感としてはね、案A(海外進出)もいいねえ案B(M&A)もいいねえ案C(新規事業)もいいねえ。…じゃあ 全部承認 でPARTNERにも相談しないとね。

凡田(チームリーダー・38, 主人公)

(赤崎部長、それは 「温度高めのサンプリング」 です。LLM で言うと Temperature = 2.0 くらいの状態。確率分布がなだらかすぎて どの案でも均等に出てきてしまう。3案あるならどれか1案に絞らないと、組織が動かない…)

大蔵(アシスタントマネージャー・35)

あら、部長、3案全部承認 ですか。それでしたら、銀座カフェの常連様にも「コーヒー全種類お試しください」と申し上げているようなものですわね。「温度を下げて1個に絞る」 のがマネジメントの本義ですわ。

川口(アナリスト・22)

あ、それでしたら ChatGPT が 毎回違う回答を返す のと同じ仕組みです。LLM は 確率分布から1個をランダムに選ぶ ステップを必ず通っていて、「温度パラメータ」 で選び方の幅を調整します。…ちなみに私の JR北海道の駅選び も実は内部温度 1.7 程度の高めサンプリングでして…(無言で時刻表アプリを開く)

会議室で赤崎が3案全部「いいねいいね」承認しそうな表情、凡田が気づきの顔、大蔵が冷静ツッコミ、川口が時刻表アプリを開く
このページのまとめ
  • サンプリング(Sampling) = LLM が確率分布から 「1個」 を選ぶ操作。前ステップで 確率分布(#024) を作った後、最後に1単語に絞るところがこれ。
  • 選び方には流派がある: Greedy(必ず最大確率) / Temperature サンプリング(分布の 「とがり」 を調整) / Top-k / Top-p(上位だけに絞る)
  • 温度(Temperature, T) = 分布をなだらか/急峻にするツマミ。T低い(0.2) = 1位ばかり = 無難、T高い(1.5) = 2位3位もよく出る = 多様、T=0 = 完全に1位固定(=Greedy)。
  • ChatGPT が同じ質問で 毎回違う答え を返すのは、サンプリングがランダム要素を持つから。T=0 設定にすれば、毎回ほぼ同じ回答が返る。
  • Top-k: 上位 k 候補までに絞ってサンプリング(極端な選択を防ぐ)。Top-p: 累積確率 p% までに絞る(分布のとがり具合に応じて候補数が動く)。
  • 「AIの性格」 を制御するのが温度。創作 → T高め、コード/事実回答 → T低め。LLM API ではほぼ必ずこのパラメータが露出する。
  • コンサル感覚: 「全案いいねいいね」 は温度高すぎ で組織が動かなくなる、「いつも案Aだけ」 は温度0で硬直する。意思決定の温度を場面で使い分けるのが現代マネジメント。

前記事 確率分布(#024) で、LLM が出口で 5万次元の確率分布 を作る、と説明した。本記事はその後の「分布から1個に絞る」ステップ、サンプリング の話。

結論を先に: サンプリング = 確率分布から1個を選ぶ操作。LLM の 「最後の決断」 がここに集約される。同じ分布でも、選び方を変えると AI の 「性格」 が変わる。ChatGPT が「真面目に答える」「ふざけて答える」「同じ質問でも毎回違う」と振る舞いを変える理由は、ほぼ全てこのサンプリングの設定で決まる。

サンプリングとは何か — 分布から 「1個」 を引き当てる

確率分布は 候補と確率の集合。具体的には例えばこうなっている:

入力: 「私の名前は」

確率分布(出口で生成):
{ 「田中」: 0.12, 「鈴木」: 0.08, 「山田」: 0.06, 「佐藤」: 0.05, ... }

このままでは出力できないので、1個を選ぶ 必要がある。これがサンプリング。素朴な方法はいくつかある。

実用では両者の中間を狙う。それを調整するためのツマミが 温度パラメータ

温度(Temperature) — 分布の 「とがり」 を変えるツマミ

温度は LLM 業界でいちばんよく出てくるパラメータ。T(Temperature) と書く。0〜2 程度の範囲で設定する。

温度低(T=0.3)/中(T=1.0)/高(T=1.7) の3つの分布の比較、温度が上がるほどなだらかになる

図1: 同じロジット(生スコア)でも、温度を変えると分布の 「とがり」 が大きく変わる

温度の効果を一言で言うと:

つまり 温度 = AI の 「性格」 ダイヤル。低温は几帳面な事務員、高温は気まぐれな芸術家、というイメージ。用途で使い分けるのが基本。

用途 推奨温度 理由
コード生成 0.0〜0.3 動くコードに収束させたい、多様性は要らない
事実回答 / 要約 0.2〜0.5 正確さ優先、ハルシネーション抑制
業務文章 / メール 0.5〜0.8 無難で自然な文章
創作 / アイデア出し 0.9〜1.3 多様性が欲しい、捻りが欲しい
実験 / ブレスト 1.3〜2.0 想定外を引き当てたい、外れは許容
登場人物の反応 ①
赤崎(部長・42)

うーん、つまり 私の 「いいねいいね」温度2.0、ということか。…ふわっとした方向感としては、これは 「全方位許容型のリーダーシップ」 と言えなくもないが…大蔵くん、私の判断温度を下げる方法、ある?

大蔵

あら、部長、温度を下げる即効策としましては 「3案のうち、ワインセラー予算と引き換えにできる案だけ承認」 という制約を入れることですわね。これで Top-1 に絞られます。…ちなみに、3案とも ワインセラー予算と引き換え不可 なので、該当案ゼロ という結論にもなりますが。

御託(シニアコンサル・39)

フッ、温度の話か。これは キルケゴール『あれか、これか』 で論じた 「美的実存 vs 倫理的実存」 の構造そのものだな。温度高め=美的実存(=瞬間の快楽を多様にサンプリング)、温度0=倫理的実存(=単一の決断に身を投じる)、と。…ちなみに今夜の Vtuber 「星詠 ヨミ」「星詠みの間」 は、サンプリング理論回、推しが哲学から統計学に脱線して4週目だ。これは見逃せん。

会議室で赤崎が

Top-k と Top-p — 極端な選択を防ぐもう2つのツマミ

温度だけだと 「低確率の暴走」 が残る。例えば 温度高めにすると、確率0.0001% の極端な単語まで選ばれる可能性があり、文章が破綻する。これを防ぐのが Top-k / Top-p。

実務では 温度 + Top-p の組み合わせ が定番。例えば「温度0.7 + Top-p=0.9」みたいに設定する。OpenAI / Anthropic / Google の API はいずれもこの3つのパラメータを公開している。

コンサル感覚 — 意思決定の温度を場面で使い分ける

温度パラメータの考え方は、組織の意思決定にもそのまま応用できる。

場面 「温度」 の目安 意思決定スタイル
緊急対応 / オペレーション 0.0(Greedy) マニュアル通り、1番手の案を即実行
定型的な業務判断 0.3 過去の成功パターンから無難な選択
中期戦略の意思決定 0.7 主案+対案、リスク考慮しつつ決定
新規事業 / 創造的領域 1.0〜1.3 複数案を真剣に検討、多様性を確保
ブレスト / 発散セッション 1.5〜2.0 外れ案も歓迎、想定外を引き当てる

赤崎の 「いいねいいね」常時温度2.0 なので、緊急対応の場では機能不全になる。逆に 「いつも案Aだけ」 の硬直マネージャは 常時温度0 で、創造的領域では機能不全になる。場面で温度を変える のが現代のマネジメントスキル、と整理できる。

AI と人間の意思決定が同じ語彙で語れるようになったのも、サンプリングという概念のおかげ。「あの上司は温度高すぎ」「あのチームは温度0で硬直してる」 のような語り方が、組織論として有効になってくる。

登場人物の反応 ②
南雲(社長・60-62)

ふむ、つまり 「私の融資審査40年」 は温度0.2 あたり、ということか。確かに、若い頃から 「無難な案件を選ぶ」 訓練を叩き込まれてきた。…ところで、いまの当社の AI戦略推進室 は赤崎くん率いて温度どれくらいなんだ?

凡田(チームリーダー・38, 主人公)

社長、赤崎部長率いる AI 戦略推進室は 常時温度1.8 です。3案あれば3案承認、5案あれば5案承認、で 「何も決まらない」 状態になりがちです。提案としては、社内に Top-p フィルタ を入れて、「PARTNER 相談済みで予算合致の案」 までに絞ることをおすすめします。

赤崎

うーん、凡田くん、その 「Top-p フィルタ」、私の判断ふわっと感を保ったまま、案を絞れるということか。ふわっとした方向感としては 「いいねいいね」 なんだが…(これでワインセラー予算は守れそうだ)

大蔵

あら、凡田さん、ナイス提案ですわね。Top-p フィルタなら、部長の 「いいねいいね」 も保たれつつ、最終決定がワインセラー予算を超えない範囲に収まる。…ちなみに私の 銀座カフェ接客レイヤー も、実は Top-3 サンプリング で運用してまして、4位以下のお客様の選好は無視させていただいておりました。(あと0.1%でモカが選ばれる可能性まで追っていたら、業務が破綻しますわ)

南雲

うむ、いいねえ。「Top-p フィルタ経営」 も響きがいい。儲かるんだろ?

社長室で凡田が「Top-pフィルタを入れましょう」と提案、南雲が前向き、赤崎が