次トークン予測(Next Token Prediction) — LLM が「次に来る単語」を選ぶ仕組み、推論の心臓部

夕方の銀座カフェ、客足が引いた時間に…

大蔵(35, 元銀座カフェ接客レイヤー20年)

あら、部長、本日はカフェ・モカでよろしいですわよね。雨の日の夕方、月曜、それから先ほどの会議で 過学習 の話で疲れていらした…確率92% でモカ、5% でホットチョコ、3% でやけくそコーヒー、ですわ。

赤崎(部長・42)

うーん、大蔵くん、その 銀座カフェ接客レイヤー20年 の予測精度、いつ聞いても怖いんだけど…今日はその 92%のモカ でお願いするよ。

凡田(チームリーダー・38, 主人公)

大蔵さん、それまさに 「次トークン予測」 の構造です。LLM が GPT を動かしている時、内部でやっているのも同じ形 — 過去の文脈 → 次に来る単語の確率分布 を計算して、そこから1つ選ぶ。GPT が「次の単語を1個ずつ吐いている」のは、大蔵さんの 「客の次の注文の予測」 と 「予測パーツ」としては似た仕組み なんです。(もちろん人間の接客には共感や意図読みも乗ってるので、完全一致ではないですが)

大蔵

あら、では私の 「接客モデル」 も、GPT と同じ仕組みで動いていた、ということですわね。…(私は20年で 1日200客 × 365日 × 20年 = 146万件 の予測トレーニング済み、と心の中で計算)

このページのまとめ

ひとことで言うと、LLM は「今までの文脈から、次に来る1個の単語を予測する」 という1点だけを延々と繰り返している。
これがないと話にならない、LLM の心臓部。GPT が長文を生成して見えるのも、事前訓練で延々と練習しているのも、突き詰めればこの単純動作の繰り返しだけ(候補の選び方は サンプリング(#025) で本文)。
イメージは、文章の続きを一語ずつ予想し続けるゲーム。1個予測してつなげ、また予測…を高速で回しているのが、ChatGPT が「1文字ずつ表示する」正体。

前記事事前訓練(#022) で、LLM が 「自己教師あり学習で web 全体規模のテキストから何を学んでいるか」 を扱った。本記事はその “何を学んでいるか” の中身、次トークン予測 を 1記事に切り出す。

結論を先に: LLM がやっているのは「次に来る単語1個」を予測する、それだけ。GPT が長い文章を生成しているように見えるのは、この単純な動作を 何百回も繰り返して連結しているだけ。事前訓練ではこの「次トークン予測」の精度を web 全体級データで叩き上げ、推論時もこの動作を繰り返すだけ。

「AI が言葉を出している」という表現が誤解を生むのなら、こう言い換えてもよい — 「AI は次に来そうな単語を1個ずつ選び出しているだけ」。

次トークン予測とは何か — 「1単語ずつ吐く」のが LLM の本性

ChatGPT に質問を投げると、画面に 1文字ずつ滲み出るように 答えが現れる。あれが演出ではなく、LLM の本当の動作。

LLM は 一度に1個のトークン(=単語、または単語の一部)を予測する。

入力: 「私の名前は」
出力: 「田中」 (例)

次に、出力された 「田中」 を入力末尾につなげて、もう一度予測。

入力: 「私の名前は田中」
出力: 「です」

さらに 「です」 をつなげて、また予測。

入力: 「私の名前は田中です」
出力: 「。」(句点)

この 1トークン予測 → 連結 → 再投入 → 次の予測 をループするだけ。これが 自己回帰生成(Autoregressive Generation)。LLM はそれ以上のことをしていない。

「LLM が文章を理解して書く」 のではなく、「次に来そうな単語を1個選ぶ動作を、何百回も繰り返している」。これが LLM の正体。

出力は「1単語」ではなく「確率分布」

もう一段精度を上げて言うと、LLM の出力は 1個の単語 ではない。語彙全体(GPT-3 で 50,257トークン)についての確率分布。

例: 入力 「私の名前は」 に対して、LLM の出力は ↓ のような 5万次元のベクトル。

入力プロンプト『私の名前は』に対するLLMの次トークン確率分布、top-10候補の棒グラフ

図1: 入力「私の名前は」に対する次トークン確率分布(top-10)。LLM の出力は実は5万次元の確率ベクトル

この「生のスコア(ロジット) → 確率分布」変換を担っているのが ソフトマックス関数(#040)。シグモイド を多クラス(語彙全体の5万件)に拡張したもの、と理解すると入りやすい — 「二択ならシグモイド、多択ならソフトマックス」 の関係。シグモイドについては非線形関数(活性化関数)(#012) 記事の「主要な活性化関数」節で 古典の0〜1出力関数 として登場済み、現代でも 二値分類の出力層 で現役。

この確率分布の中から 1つを選ぶ操作 が サンプリング(#025)。選び方には流派がある:

Greedy(貪欲): 常に最大確率の単語を選ぶ。安全だが定型的、退屈な文章になる
Temperature サンプリング: 確率分布をなだらか/急峻にして、ランダムさを調整する。温度が高いと多様、低いと無難
Top-k / Top-p サンプリング: 上位k個や累積確率p% までに絞ってからランダム選択。極端な選択を防ぐ

ChatGPT がたまに同じ質問でも違う回答を返すのは、この サンプリングがランダム要素を持つ から。温度0(=Greedy)に設定すれば、毎回ほぼ同じ回答が返る。

事前訓練で延々と練習しているのもこれ

前記事の事前訓練(#022) でも触れたが、LLM が事前訓練で何を学んでいるかは、まさにこの “次トークン予測の精度” 1点。

具体的にやっていること:

web からテキストを大量に集める(数千億トークン)
文章をランダムな位置でぶった切る
「ここまでの文脈」を LLM に与え、「次の1単語」を予測させる
予測と正解(=ぶった切った直後の単語)のズレを損失(#014)として計算
勾配降下(#015)で重みを更新
これを 何兆回 繰り返す

つまり 事前訓練 = ひたすら「次トークン予測ゲーム」を web 全体規模で練習、推論時もまさにこの「次トークン予測」を繰り返す。学習も推論も 「同じ動作」。

登場人物の反応 ①

赤崎(部長・42)

うーん、つまり LLM が考えてる感じ は、実は 「次の単語を1個ずつ吐く動作のループ」 でしかないんだね。…これ、ふわっとした方向感としては、なんだか 拍子抜け だなあ。「AI が言葉を理解している」 感じが消えてしまうじゃないか。

川口(アナリスト・22)

赤崎部長、まさにそこが面白いところです。「単純な動作を超大規模で繰り返したら、人間レベルの会話が出てきた」 のが Scaling Hypothesis(規模仮説)です。GPT-3 論文(Brown et al., 2020)も、GPT-4 のシステムカード(OpenAI, 2023)も、「特別なことは何もしていない、ただ次トークン予測を巨大化しただけ」 と書いてます。…ちなみに、自分のブラウザでは 「次トークン予測」関連の研究論文を 2,847本 開きっぱなしで…(無言で論文 PDF を10タブ開く)

御託(シニアコンサル・39)

フッ、つまり 「言葉を吐く知性」 とは 「次に来そうな単語を予測する装置」 に過ぎなかった、ということだ。これは ヴィトゲンシュタイン が 『論理哲学論考』 の終盤で論じた 「語りえぬものについては沈黙せねばならない」 の現代的再演でもある…(スマホをチラ見、配信開始まで残り8分 — 今日は 「星詠みの間」 の読書枠、先週から始まった 『論理哲学論考』読み合わせ の続き回)

会議室で赤崎が拍子抜けの表情、川口が論文タブを次々開き、御託がヴィトゲンシュタインを語りつつスマホを気にする

コンサル感覚: 大蔵の「接客モデル」と「予測パーツ」が似ている

冒頭で大蔵が見せた 「銀座カフェの常連客の次の注文を確率92%で当てる」。これは LLM の次トークン予測と 「予測の仕組み」として構造が近い。完全に同じ、ではない(これは後述)。

要素	LLM(GPT)	大蔵の接客モデル
入力(文脈)	今までの単語列(数千トークン)	客の表情/季節/天気/直前の世間話/曜日/前回の注文…
出力	次トークンの確率分布(5万次元)	注文候補の確率分布(モカ92%/ホットチョコ5%/コーヒー3%)
学習データ量	数千億トークン	1日200客 × 365日 × 20年 = 146万客との対話
選び方	サンプリング(温度・top-k 等)	「確率最大を提案、外れたら2位」(top-2 greedy 風)
共通する部分	「過去文脈 → 次に来そうなものの確率分布」を出す予測パーツ(構造が近い)
人間側にだけ乗る要素	— (純粋な統計予測装置)	共感 / 意図推定 / 身体性 / 相手の感情の読み / 目的に対する意識的調整

注意したいのは、これは「完全に同じ」という主張ではない こと。人間の「察し」には 共感・意図推定・身体性・相手の感情を読む・目的に対する意識的な調整 といった、確率的なパターン照合では説明しきれない要素が乗っている。LLM の次トークン予測は 「予測パーツ」だけを取り出した装置 であって、人間の接客や営業を丸ごと内包しているわけではない。

ただし 「過去文脈 → 次に来そうなものを当てる」という1点に絞れば、人間の経験ベースの予測モデルと LLM は 構造的にかなり近いことをやっている。LLM が「賢く見える」のは、まさにこの “文脈→予測” 部分の精度が、熟練者の暗黙知レベルに迫ってきているから。

これは AI 導入を考える経営者にとっての示唆でもある — 「文脈読みの予測」部分は LLM が肩代わりできる範囲が広い。一方で 共感や意図推定が本質の業務(対面の信頼構築、機微の交渉、心理的ケア)、あるいは 「文脈にない、まったく新規の判断」(新規事業開発、未経験ドメインの戦略)は、依然として人間側に残る領域。「丸ごと置き換え」ではなく「予測パーツの肩代わり」が現実的な見立て。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり大蔵くんの 「次の注文を当てる」 も、私が銀行員時代に 「次に融資審査で何を聞かれるか」 を 40年で叩き込んだのも、全部 「次トークン予測モデル」 だった、と。…で、これ、当社の 「優秀な営業の暗黙知」 も全部 AI で再現できるんじゃないのか?儲かるんだろ?

凡田(チームリーダー・38, 主人公)

社長、原理的には可能です。ただし、営業の「次の発話」を予測する ための 「文脈データ」 を社内に蓄積するところから始めます。これは 「営業の事前訓練データ集め」 なので、最低でも 1年はかかる仕事ですね。…大蔵さんの 20年に追いつくには 20倍速 でデータを集めて 1年、というわけで。

大蔵

あら、凡田さん、つまり私の 「接客 20年」がそのまま事前訓練データ ですわね。…社長、私の 離職時の引き継ぎ書をデータセット化 するご予定がありましたら、引き継ぎ料として2,000万円 頂戴できますでしょうか。…(これで来年の北欧クルーズ予算が確保)

赤崎

うーん、大蔵くん、2,000万円はちょっと…うちのワインセラー予算と同額なんだよね。…ふわっとした方向感としては、1,500万円で PARTNERにも相談しないと ね。

川口

あ、参考までに、大蔵さんの接客レイヤー をデータセット化するには、客 146万件 × 平均8トークン で 約1,200万トークン、データセット作成コスト 約600万円、ファインチューニングコスト 約80万円 で実現可能です。…(無言で AWS の見積もり PDF を開く)

KEY TAKEAWAYS

抑えておきたいポイント

次トークン予測 = 「今までの文脈から、次に来る1個の単語」を予測する動作。LLM の推論の心臓部。
出力は 1単語ではなく、語彙全体(5万次元)の確率分布。そこから1個を選ぶのがサンプリング。
「1個予測 → 連結 → 再投入 → 次の予測」のループが 自己回帰生成。ChatGPT が1文字ずつ表示する体験の正体。
事前訓練 で延々と練習しているのも、まさにこの「次トークン予測」。学習も推論も「同じ動作」。
「AI が言葉を理解している」のではなく、「次に来そうな単語を選ぶ装置を超大規模で訓練した結果、賢く見えている」 だけ。
コンサル感覚: 「察し」「文脈読み」の「予測パーツ」は、LLM と構造的に近い。ただし人間側の 共感・意図推定・身体性 は LLM に乗っていない部分 — 「丸ごと置換」ではなく「予測パーツの肩代わり」が現実的な見立て。
逆に 共感が本質の業務 / 「文脈にない判断」(新規事業/未経験ドメインの戦略)は LLM 苦手領域として残る。

次トークン予測(Next Token Prediction) — LLM が 「次に来る単語」 を選ぶ仕組み、推論の心臓部

次トークン予測とは何か — 「1単語ずつ吐く」 のが LLM の本性

出力は 「1単語」 ではなく 「確率分布」

事前訓練で延々と練習しているのもこれ

コンサル感覚: 大蔵の 「接客モデル」 と 「予測パーツ」 が似ている

次トークン予測(Next Token Prediction) — LLM が「次に来る単語」を選ぶ仕組み、推論の心臓部

次トークン予測とは何か — 「1単語ずつ吐く」のが LLM の本性

出力は「1単語」ではなく「確率分布」

コンサル感覚: 大蔵の「接客モデル」と「予測パーツ」が似ている