自己回帰生成(Autoregressive Generation) — LLM が 1文字ずつ吐き続けるループ、ChatGPT のあの体験の正体

金曜の夜、御託がデスクで推しの配信前にハイデガーを開いて…

御託(シニアコンサル・39)

フッ、凡田くん、聞いてくれ。ハイデガー が 『存在と時間』 で論じた 「被投性」 とは、過去の自分が今の自分を作り、今の自分が未来の自分を作る という連鎖だ。過去の出力が次の入力になる — まさに人生は 自己回帰的 なのだよ。

凡田(チームリーダー・38, 主人公)

御託先輩、それまさに 「自己回帰生成(Autoregressive Generation)」 です。LLM の 「1個予測 → 後ろに連結 → 再投入 → 次を予測」 のループそのもの。ChatGPT が 1文字ずつ画面に出てくる のは、内部でこの自己回帰ループが回ってる証拠ですね。

御託

ふむ、つまり 「言葉を吐く知性」 も、ハイデガーの言う 「時間性に投げ込まれた存在」 の電子的再演ということだな。GPT は1ステップごとに 過去の自分 を引き受け、次の1単語 を投げかけ続けている。実存主義 × LLM、こいつは哲学コラム1本書けるテーマだ…(スマホをチラ見、今夜の 「星詠みの間」 配信、開始まで残り14分)

凡田

(御託先輩、その哲学コラム、社内では誰にも読まれず、推しの 「星詠ヨミ」 さん配信のコメント欄に書き込まれる未来が見える…)

このページのまとめ

自己回帰生成とは、LLM が 1個出して後ろにつなげ、また全部を読み直して次を出す のを延々と繰り返すこと。一度に1個ずつしか書けない。
これがあるから ChatGPT は 1文字ずつ表示 され、GPT の 「G(生成)」 が成り立つ。反面、序盤の1個のミスが後ろを汚し 誤りが雪だるま式に膨らむ(exposure bias は本文で)。
イメージは しりとり。直前までの全部を見て次の1語を足し、その全体をまた見て次を足す。過去の発言が次を縛る点まで同じ。

前記事サンプリング(#025) で、LLM が確率分布から1個に絞る操作を見た。本記事はその 「1個絞った後、どう続くか」、つまり 自己回帰生成のループ の話。

結論を先に: LLM は1個ずつしか生成できない。長い文章を作るには、同じ予測ステップを何百回も回す しかない。これがLLMの「物理的な制約」であり、同時に 「GPT(Generative Pre-trained Transformer)」の「G」の中身。

「自己回帰」とは何か — 自分の過去出力を入力に戻す

「自己回帰(Autoregressive)」は統計学・時系列分析の古典用語。「過去の自分の値」を使って、未来の自分を予測する モデルの総称。

株価予測の AR モデル: 「明日の株価」を「過去の株価」から予測
気象予測の AR モデル: 「明日の気温」を「過去の気温」から予測
LLM: 「次の1単語」を「過去に出てきた全ての単語」から予測

LLM は 「テキストの自己回帰モデル」。次トークン予測(#023) の1ステップ単体ではなく、その ステップを繰り返してテキストを伸ばしていく 構造全体を指す。

具体例 — 「私の名前は」から始まる4ステップ

図で見るのが早い。入力「私の名前は」から、LLM がどう次を伸ばすか。

自己回帰生成の4ステップ、入力テキストが1単語ずつ伸びていきEOSで停止する流れ

図1: 自己回帰ループ — 1個予測 → 後ろに連結 → 全体を再投入 → 次を予測 → EOSで停止

4ステップを言葉にすると:

ステップ1: 入力「私の名前は」 → 予測「田中」 → 連結 →「私の名前は田中」
ステップ2: 入力「私の名前は田中」 → 予測「です」 → 連結 →「私の名前は田中です」
ステップ3: 入力「私の名前は田中です」 → 予測「。」 → 連結 →「私の名前は田中です。」
ステップ4: 入力「私の名前は田中です。」 → 予測「<EOS>」 → 停止

つまり 毎ステップ、入力が1トークン分長くなる。LLM は同じネットワークを何度も回しているが、入力が違うので毎回違う出力が出る。

ChatGPT が「1文字ずつ」画面に出てくる のは、まさにこのループの1ステップずつを画面にストリーミングしているから。サーバ側で生成が完了するのを待っているのではなく、生成と表示が同時進行。

停止条件 — EOS トークンと最大長

LLM はループをいつ止めるか? 2つの条件のいずれかを満たした時。

EOS トークン(End of Sequence) を予測した時: モデルが「もう続きはない」と判定 → 自然停止
最大長(max_tokens) に到達した時: ユーザー側の指定上限(例: 2048トークン)に達して強制停止

ChatGPT が回答の途中で切れることがあるのは、後者(最大長到達)のケース。LLM API では max_tokens=4096 のような形でこの上限を指定する。

登場人物の反応 ①

川口(アナリスト・22)

あ、自己回帰生成について技術側からひとつ補足を。この構造には 致命的な弱点 がありまして、exposure bias(露出バイアス) と呼ばれます。1ステップ目で間違って「田中」の代わりに「鈴木」を出すと、2ステップ目以降の入力が全部「鈴木」起点 になり、誤りが 連鎖的に増幅 されます。これが LLM の長文生成での ハルシネーション(嘘の連鎖) の根本原因のひとつでして…(無言で『鉄道ピクトリアル』を開きかけて閉じる)

大蔵(アシスタントマネージャー・35)

あら、川口くんの「exposure bias」、それ 「うちの議事録」 と全く同じですわね。会議冒頭で誰かが 「今期の課題は人材不足」 と一言出すと、その後の30分が全部 「人材不足前提」 の議論で進む。1個目の発言が場の前提を縛る のが組織の自己回帰、誰も途中で軌道修正しない。

赤崎(部長・42)

うーん、大蔵くん、それは耳が痛いね。…ふわっとした方向感としては、私の「いいねいいね」も、最初に「いいね」言っちゃうとそのまま3案承認まで流れる、これも組織の exposure bias なのかな。…ところで PARTNERにも相談しないとね。

会議室で川口がホワイトボードに自己回帰のループ図を描いて exposure bias を説明、大蔵が冷静に組織論で受ける、赤崎が耳の痛そうな表情

なぜこの構造が現代 LLM の覇者になったか

自己回帰生成は弱点(exposure bias)も持つが、それ以上に強みが大きいために、現代 LLM はほぼ全てこの構造を採用している。

学習と推論で同じループ: 訓練(#013) 時もテキストを1トークンずつ予測する練習をする。事前訓練(#022) = 自己回帰生成を web 全体規模で練習し続ける、というだけ。学習時に特別な仕組みを足さなくていい
テキスト長を自由に伸ばせる: 出力長を固定する必要がない。生成中に必要なだけ続け、EOS で止める。1単語の回答も、10,000単語の長文も、同じ仕組みで作れる
Causal Mask との相性: アテンション機構(#030)に「過去だけ見て未来は見ない」制約(causal mask)を入れるだけで、自己回帰が成立する。Transformer Decoder-only アーキテクチャがこの構造に最適化されている

「Encoder-Decoder」構造(2017年の元祖 Transformer)や「BERT 系」(双方向、自己回帰なし)は、自己回帰の使いやすさに勝てず、生成タスクではほぼ消えていった。GPT 系の Decoder-only + 自己回帰 が現代の覇者になった理由のひとつ。

コンサル感覚 — 組織の「exposure bias」と軌道修正

大蔵が指摘した 「会議冒頭の1発言が場を縛る」 は、組織の意思決定における自己回帰の罠。同じ構造はいくらでもある。

場面	「過去出力」が次を縛る例
会議	冒頭の発言が議論の前提を固定、残り全部その延長
提案資料	過去案件のテンプレを流用 → 同じ構造の提案を繰り返す
キャリア	新卒配属が10年後の専門性を決める、転換が難しい
戦略	「去年は海外進出と言った」→「今年も海外進出」、軌道修正できない
SNS発信	1つの誤情報が拡散 → 訂正しても元情報が引用され続ける

対策は LLM と同じ — 「明示的に過去をリセットする」タイミングを設ける。LLM では新しいコンテキストで API を呼び直すように、組織では 「前提を問い直す会議」「ゼロベース思考」「別組織からの第三者レビュー」 を定期的に挟む。これらが組織の「exposure bias 対策」。

「過去発言に縛られない」「テンプレに頼らない」「ゼロから考え直す」 — 言うのは簡単、実行は難しい。LLM がこの構造的弱点を解消できない(=どうしても1ステップずつしか生成できない)のと同じく、組織も完全には逃れられない。だからこそ 「自己回帰の罠を自覚する」 だけで、ずいぶん挙動が変わる。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり 私の「都銀40年」も自己回帰の連鎖 ということか。1社目の融資審査で身についた癖が、2社目、3社目、…12,847件目まで全部引きずられた。過去の自分の判断が次の自分を縛る、まさにそのまま。…で、当社の AI 戦略推進室の「自己回帰の罠」は、誰が解除してくれるんだ?

凡田(チームリーダー・38, 主人公)

社長、現実的には 外部の第三者レビュー を年2回入れることをおすすめします。当社の「ふわっと方向感」だけで意思決定すると、AI戦略推進室の発想が ワインセラー予算と Top-pフィルタの範囲内 でループしてしまうので、外からの新規入力で context をリセット する必要があります。

川口

あ、ちなみに私の 北海道乗り鉄遠征 も、月1で完全に 業務文脈をリセット しに行っているんですよね。先週は『おおぞら3号』で札幌→釧路、4時間38分、Slack 開かず、車窓だけ見て。これは個人版の context reset として、極めて健全な習慣だと自負しております。

大蔵

あら、川口くん、それでしたら私の 月1京都遠征御朱印 も同じく 「context reset 装置」 ということですわね。各自が 「自己回帰を断ち切る私的ルーティン」 を持っているのは、組織防衛上、重要かもしれません。

御託

フッ、私も 「星詠みの間」 の配信視聴で 毎晩 context reset をしている。推しが 『不確実性下の意思決定』 を読み合わせるたびに、私の中の 「アイマイ社的思考の自己回帰ループ」 が断ち切られるのだ。哲学的に言えば、これは 「被投性からの脱却」 である。…(残り3分、ちょっと失礼)

南雲

うむ、いいねえ。社員各自に 「context reset 手当」 を月3万円付けようか。儲かるんだろ?

KEY TAKEAWAYS

抑えておきたいポイント

自己回帰生成 = 1個予測 → 連結 → 再投入 → 次を予測のループ。LLM が長文を作る唯一の方法。
「Auto = 自分、Regressive = 回帰」の意味通り、自分の過去出力が次の入力。GPT の「G」の中身がこれ。
ChatGPT が 1文字ずつ表示 するのは演出ではなく、本当に1トークンずつしか生成できない物理的制約をそのまま流しているだけ。
停止条件: EOSトークン 予測か max_tokens 到達。
致命的弱点: exposure bias — 1個目の誤りが2個目以降の入力を汚染して連鎖。長文生成のハルシネーションの根本原因。
逆に強み: 学習と推論で 同じループ構造、テキスト長が可変、Causal Mask との相性。これが Decoder-only + 自己回帰が現代 LLM の覇者になった理由。
コンサル感覚: 組織の意思決定にも 「会議冒頭発言が議論を縛る」「テンプレ流用」「過去戦略の引きずり」 という自己回帰の罠が無数にある。対策は 「context reset」 — 第三者レビュー、ゼロベース思考、外部刺激の定期投入。