あら、部長、本日はカフェ・モカでよろしいですわよね。雨の日の夕方、月曜、それから先ほどの会議で 過学習 の話で疲れていらした…確率92% でモカ、5% でホットチョコ、3% でやけくそコーヒー、ですわ。
うーん、大蔵くん、その 銀座カフェ接客レイヤー20年 の予測精度、いつ聞いても怖いんだけど…今日はその 92%のモカ でお願いするよ。
大蔵さん、それまさに 「次トークン予測」 の構造です。LLM が GPT を動かしている時、内部でやっているのも同じ形 — 過去の文脈 → 次に来る単語の確率分布 を計算して、そこから1つ選ぶ。GPT が 「次の単語を1個ずつ吐いている」 のは、大蔵さんの 「客の次の注文の予測」 と 「予測パーツ」 としては似た仕組み なんです。(もちろん人間の接客には共感や意図読みも乗ってるので、完全一致ではないですが)
あら、では私の 「接客モデル」 も、GPT と同じ仕組みで動いていた、ということですわね。…(私は20年で 1日200客 × 365日 × 20年 = 146万件 の予測トレーニング済み、と心の中で計算)

- ひとことで言うと、LLM は 「今までの文脈から、次に来る1個の単語を予測する」 という1点だけを延々と繰り返している。
- これがないと話にならない、LLM の心臓部。GPT が長文を生成して見えるのも、事前訓練で延々と練習しているのも、突き詰めればこの単純動作の繰り返しだけ(候補の選び方は サンプリング(#025) で本文)。
- イメージは、文章の続きを一語ずつ予想し続けるゲーム。1個予測してつなげ、また予測…を高速で回しているのが、ChatGPT が 「1文字ずつ表示する」 正体。
前記事 事前訓練(#022) で、LLM が 「自己教師あり学習で web 全体規模のテキストから何を学んでいるか」 を扱った。本記事はその “何を学んでいるか” の中身、次トークン予測 を 1記事に切り出す。
結論を先に: LLM がやっているのは 「次に来る単語1個」 を予測する、それだけ。GPT が長い文章を生成しているように見えるのは、この単純な動作を 何百回も繰り返して連結しているだけ。事前訓練ではこの 「次トークン予測」 の精度を web 全体級データで叩き上げ、推論時もこの動作を繰り返すだけ。
「AI が言葉を出している」 という表現が誤解を生むのなら、こう言い換えてもよい — 「AI は次に来そうな単語を1個ずつ選び出しているだけ」。
次トークン予測とは何か — 「1単語ずつ吐く」 のが LLM の本性
ChatGPT に質問を投げると、画面に 1文字ずつ滲み出るように 答えが現れる。あれが演出ではなく、LLM の本当の動作。
LLM は 一度に1個のトークン(=単語、または単語の一部)を予測する。
- 入力:
「私の名前は」 - 出力:
「田中」(例)
次に、出力された 「田中」 を入力末尾につなげて、もう一度予測。
- 入力:
「私の名前は田中」 - 出力:
「です」
さらに 「です」 をつなげて、また予測。
- 入力:
「私の名前は田中です」 - 出力:
「。」(句点)
この 1トークン予測 → 連結 → 再投入 → 次の予測 をループするだけ。これが 自己回帰生成(Autoregressive Generation)。LLM はそれ以上のことをしていない。
「LLM が文章を理解して書く」 のではなく、「次に来そうな単語を1個選ぶ動作を、何百回も繰り返している」。これが LLM の正体。
出力は 「1単語」 ではなく 「確率分布」
もう一段精度を上げて言うと、LLM の出力は 1個の単語 ではない。語彙全体(GPT-3 で 50,257トークン)についての確率分布。
例: 入力 「私の名前は」 に対して、LLM の出力は ↓ のような 5万次元のベクトル。
この「生のスコア(ロジット) → 確率分布」変換を担っているのが ソフトマックス関数(#040)。シグモイド を多クラス(語彙全体の5万件)に拡張したもの、と理解すると入りやすい — 「二択ならシグモイド、多択ならソフトマックス」 の関係。シグモイドについては 非線形関数(活性化関数)(#012) 記事の「主要な活性化関数」節で 古典の0〜1出力関数 として登場済み、現代でも 二値分類の出力層 で現役。
この確率分布の中から 1つを選ぶ操作 が サンプリング(#025)。選び方には流派がある:
- Greedy(貪欲): 常に最大確率の単語を選ぶ。安全だが定型的、退屈な文章になる
- Temperature サンプリング: 確率分布をなだらか/急峻にして、ランダムさを調整する。温度が高いと多様、低いと無難
- Top-k / Top-p サンプリング: 上位k個 や 累積確率p% までに絞ってからランダム選択。極端な選択を防ぐ
ChatGPT がたまに同じ質問でも違う回答を返すのは、この サンプリングがランダム要素を持つ から。温度0(=Greedy)に設定すれば、毎回ほぼ同じ回答が返る。
事前訓練で延々と練習しているのもこれ
前記事の 事前訓練(#022) でも触れたが、LLM が事前訓練で何を学んでいるかは、まさにこの “次トークン予測の精度” 1点。
具体的にやっていること:
- web からテキストを大量に集める(数千億トークン)
- 文章をランダムな位置でぶった切る
- 「ここまでの文脈」を LLM に与え、「次の1単語」を予測させる
- 予測と正解(=ぶった切った直後の単語)のズレを 損失(#014)として計算
- 勾配降下(#015)で重みを更新
- これを 何兆回 繰り返す
つまり 事前訓練 = ひたすら「次トークン予測ゲーム」を web 全体規模で練習、推論時もまさにこの「次トークン予測」を繰り返す。学習も推論も 「同じ動作」。
うーん、つまり LLM が考えてる感じ は、実は 「次の単語を1個ずつ吐く動作のループ」 でしかないんだね。…これ、ふわっとした方向感としては、なんだか 拍子抜け だなあ。「AI が言葉を理解している」 感じが消えてしまうじゃないか。
赤崎部長、まさにそこが面白いところです。「単純な動作を超大規模で繰り返したら、人間レベルの会話が出てきた」 のが Scaling Hypothesis(規模仮説)です。GPT-3 論文(Brown et al., 2020)も、GPT-4 のシステムカード(OpenAI, 2023)も、「特別なことは何もしていない、ただ次トークン予測を巨大化しただけ」 と書いてます。…ちなみに、自分のブラウザでは 「次トークン予測」 関連の研究論文を 2,847本 開きっぱなしで…(無言で論文 PDF を10タブ開く)
フッ、つまり 「言葉を吐く知性」 とは 「次に来そうな単語を予測する装置」 に過ぎなかった、ということだ。これは ヴィトゲンシュタイン が 『論理哲学論考』 の終盤で論じた 「語りえぬものについては沈黙せねばならない」 の現代的再演でもある…(スマホをチラ見、配信開始まで残り8分 — 今日は 「星詠みの間」 の読書枠、先週から始まった 『論理哲学論考』読み合わせ の続き回)

コンサル感覚: 大蔵の 「接客モデル」 と 「予測パーツ」 が似ている
冒頭で大蔵が見せた 「銀座カフェの常連客の次の注文を確率92%で当てる」。これは LLM の次トークン予測と 「予測の仕組み」 として構造が近い。完全に同じ、ではない(これは後述)。
| 要素 | LLM(GPT) | 大蔵の接客モデル |
|---|---|---|
| 入力(文脈) | 今までの単語列(数千トークン) | 客の表情/季節/天気/直前の世間話/曜日/前回の注文… |
| 出力 | 次トークンの確率分布(5万次元) | 注文候補の確率分布(モカ92%/ホットチョコ5%/コーヒー3%) |
| 学習データ量 | 数千億トークン | 1日200客 × 365日 × 20年 = 146万客との対話 |
| 選び方 | サンプリング(温度・top-k 等) | 「確率最大を提案、外れたら2位」(top-2 greedy 風) |
| 共通する部分 | 「過去文脈 → 次に来そうなものの確率分布」 を出す予測パーツ(構造が近い) | |
| 人間側にだけ乗る要素 | — (純粋な統計予測装置) | 共感 / 意図推定 / 身体性 / 相手の感情の読み / 目的に対する意識的調整 |
注意したいのは、これは 「完全に同じ」 という主張ではない こと。人間の 「察し」 には 共感・意図推定・身体性・相手の感情を読む・目的に対する意識的な調整 といった、確率的なパターン照合では説明しきれない要素が乗っている。LLM の次トークン予測は 「予測パーツ」だけを取り出した装置 であって、人間の接客や営業を丸ごと内包しているわけではない。
ただし 「過去文脈 → 次に来そうなものを当てる」 という1点に絞れば、人間の経験ベースの予測モデルと LLM は 構造的にかなり近いことをやっている。LLM が 「賢く見える」 のは、まさにこの “文脈→予測” 部分の精度が、熟練者の暗黙知レベルに迫ってきているから。
これは AI 導入を考える経営者にとっての示唆でもある — 「文脈読みの予測」部分は LLM が肩代わりできる範囲が広い。一方で 共感や意図推定が本質の業務(対面の信頼構築、機微の交渉、心理的ケア)、あるいは 「文脈にない、まったく新規の判断」(新規事業開発、未経験ドメインの戦略)は、依然として人間側に残る領域。「丸ごと置き換え」ではなく「予測パーツの肩代わり」が現実的な見立て。
ふむ、つまり大蔵くんの 「次の注文を当てる」 も、私が銀行員時代に 「次に融資審査で何を聞かれるか」 を 40年で叩き込んだのも、全部 「次トークン予測モデル」 だった、と。…で、これ、当社の 「優秀な営業の暗黙知」 も全部 AI で再現できるんじゃないのか?儲かるんだろ?
社長、原理的には可能です。ただし、営業の 「次の発話」 を予測する ための 「文脈データ」 を社内に蓄積するところから始めます。これは 「営業の事前訓練データ集め」 なので、最低でも 1年 はかかる仕事ですね。…大蔵さんの 20年に追いつくには 20倍速 でデータを集めて 1年、というわけで。
あら、凡田さん、つまり私の 「接客 20年」 がそのまま事前訓練データ ですわね。…社長、私の 離職時の引き継ぎ書をデータセット化 するご予定がありましたら、引き継ぎ料として2,000万円 頂戴できますでしょうか。…(これで来年の北欧クルーズ予算が確保)
うーん、大蔵くん、2,000万円はちょっと…うちのワインセラー予算と 同額 なんだよね。…ふわっとした方向感としては、1,500万円で PARTNERにも相談しないと ね。
あ、参考までに、大蔵さんの接客レイヤー をデータセット化するには、客 146万件 × 平均8トークン で 約1,200万トークン、データセット作成コスト 約600万円、ファインチューニングコスト 約80万円 で実現可能です。…(無言で AWS の見積もり PDF を開く)
