デコーダーのみ(Decoder-only) — いまの対話AIは、翻訳機の「半分」でできている

朝の役員室、南雲が新聞を畳みながら、資料を届けに来た川口を呼び止めた…

南雲(社長・60-62)

川口くん、ひとつ教えてくれ。新聞に翻訳AIの仕組みが載っていてな ── 原文を理解する 「読む係」 と、訳文を作る 「書く係」 の二人組だと。ふむ、分業として実に真っ当だ。では、君らがいつも使っている 対話のAI も、同じ二人組かね?

川口(アナリスト・22)

それが、違うんです。いまの対話AIは、その二人組から 「書く係」だけを取り出した 構成で。読む係は、いません。

南雲

ほう? 読む係を置かずに、どうやってこちらの文章を理解するのだ。

川口

「次の言葉を当て続ける」訓練だけをひたすらやるんですが、これ、文が読めていないと当てられない んです。書く訓練の中で、読む力が勝手に育つというか。

南雲

……都銀の頃を思い出すな。若手に稟議の起案を書かせ続けると、審査の眼も一緒に育った。書くためには、読めねばならんからだ。なるほど、今も昔も、そこは同じか。

この記事の要約(3行)

元祖 Transformer(2017)は、読む係(エンコーダー)+書く係(デコーダー)の二人組 でできた 翻訳機 だった。いまの対話AI(GPT / Claude / Gemini 系)は、そこから 書く係だけを取り出して巨大化させた もの ── これが「デコーダーのみ」構成。
なぜ書く係だけで読めるのか。「次の言葉を当てる」訓練は、文の関係が読めていないと解けない ── つまり 書く訓練が、読む力を内側に育てる。係は1人で足りる。
勝因は シンプルさ。訓練の目的が1つ、構造も半分だから、ひたすら大きくする(スケールさせる)のが楽 ── 専用設計の作り込みより、単純な仕組み×規模 が勝った。

Transformer ブロック (#032) を何十段も積んだものが LLM だ、とここまで見てきた。本記事はその 一番外側の骨格 の話 ── 実は元祖 Transformer は翻訳機で、いまの対話AIは その半分だけ でできている。

元祖は「読む係+書く係」の翻訳機だった

2017年に登場した元祖 Transformer は、英語→ドイツ語のような翻訳のための機械だった。構成は、はっきりした分業になっている:

エンコーダー(読む係): 原文を丸ごと受け取り、文全体を 双方向に(前からも後ろからも)眺めて、意味を整理する。
デコーダー(書く係): 読む係が整理した内容を参照しながら、訳文を 左から右へ1語ずつ 書いていく。

その後、この二人組は バラ売り されるようになる。読む係だけを取り出したのが BERT 系(文の分類・検索が得意)。そして 書く係だけ を取り出したのが、GPT に始まる現在の対話AIの系譜 ── デコーダーのみ(Decoder-only) 構成だ。

Transformerの3つの使い方の図。①二人組(エンコーダー+デコーダー、元祖2017の翻訳機)、②読む係だけ(エンコーダーのみ、BERT系、分類・検索)、③書く係だけ(デコーダーのみ、GPT/Claude/Gemini系、いまの主流)を3パネルで比較

図1: 元祖は二人組の翻訳機。読む係だけ=BERT系、書く係だけ=いまの対話AI。現在の主流は③のデコーダーのみ

なぜ「書く係」だけで読めるのか

ここが本記事の核心だ。読む係を捨てたのに、なぜ文章が理解できるのか。鍵は、書く係の訓練 ── 次トークン予測 (#023) ── の性質にある。

書く係のルールは「ここまでの文だけを見て(未来は見ない)、次の言葉を当てる」。そして ── 次の言葉は、文が読めていないと当てられない。

「会議の資料を金曜までに部長へ──」の次を当てるには、誰が・何を・いつ・誰に、という 関係の理解 が要る。つまり「当てる」という出口の訓練が、その手前に「読む」を強制する。この訓練を膨大なテキストで繰り返すうちに、書くための読む力が、モデルの内側に育っていく (#022)。

『会議の/資料を/金曜までに/部長へ/??』という文で、??を当てるにはここまでの全単語との関係を読む必要があることを、??から過去の単語への参照矢印で示した図。次を当てる訓練が読む力を内側に育てることを説明

図2: 次の言葉を当てるには、ここまでの文との関係を「読む」しかない。当てる訓練が、読む力を内側に育てる

ちなみに「ここまでだけを見て、未来を見ない」という縛りは、生成時の 自己回帰 (#026) ── 自分の書いた言葉を文脈に足しながら、左から右へ1語ずつ進む ── とそのまま対応している。訓練と本番が、同じ形をしているわけだ。

なぜ「半分」が勝ったのか

分業の二人組より、書く係1人の方が強かった。理由は、性能の魔法ではなく シンプルさの経済 だ:

訓練の目的が1つ: 「次を当てる」だけ。翻訳用・分類用と作り分けなくても、この1つの訓練で読み書き両方が育つ。
構造が半分: 部品が単純なほど、ひたすら大きくする(層を増やす・データを増やす)のが楽で、規模を上げた分だけ素直に賢くなった。
1人で何でもこなせる: 翻訳も要約も分類も、「指示文の続きを書く」という形に直せば、書く係1人で全部できてしまう(プロンプト (#043))。

つまり、用途ごとの専用設計を作り込む路線 より、単純な仕組みを巨大なスケールに乗せる路線 が勝った ── デコーダーのみ構成は、その象徴だ。

コンサル感覚 — 「凝った分業」より「単純な仕組み×規模」

本記事の核心メッセージは 「いまのAIの強さは、複雑な設計ではなく、単純な仕組みをスケールさせたことから来ている」。これは実務の議論にそのまま使える:

① クライアントへの一言説明: 「ChatGPT って何がすごいんですか?」には ── 「元は翻訳機の「書く係」半分です。『次の言葉を当てる』訓練だけを桁外れの規模でやったら、読む力も会話力も全部ついてきた、という話です」。仕組みの正体が、誇張なしに伝わる。

② 「専用AI乱立 vs 汎用基盤」の議論の土台になる: 翻訳用・要約用・分類用と専用ツールを並べる構想に対して、「汎用の対話AI1本+指示の工夫で賄える範囲」をまず見極めるのが現代のセオリー。デコーダーのみが二人組に勝った経緯 は、その判断のいちばん分かりやすい根拠になる。

③ 「書かせると育つ」は人材育成にも通じる: 南雲の言う通り、起案を書かせると審査の眼も育つ ── アウトプットの訓練がインプットの力を引き上げる構図は、組織の育成設計でも同じだ。ただし AI のそれは「当てるための計算上の必要」から来るもので、人の学びと同じ仕組みではない ── 比喩として使うなら、そこは添えておきたい。

昼下がりの給湯室、「書く係だけ」の話が広がって…

凡田(チームリーダー・38)

分業をやめて1人にしたら最強になった、って組織論としてはなかなか衝撃だよなあ。うちは「議事録係」と「提案書係」を分けようか悩んでたのに。

大蔵(アシスタントマネージャー・35)

あら、接客は昔からそうですわよ。「聞く係」と「売る係」を分けたお店は、お客様の話が途中で切れてしまう。一人で聞いて一人で勧めるから、文脈が繋がる んですの。

川口

その「文脈が切れない」のは、デコーダーのみの利点と本当に重なります。読む係と書く係の間で情報を渡す継ぎ目が無いので。…ただ凡田さん、人間のチームの分業はまた別の話なので、AIを根拠に係を統合するのはやめてくださいね。

Takeaways

4行で整理

元祖 Transformer(2017)は「読む係(エンコーダー)+書く係(デコーダー)」の二人組の翻訳機。いまの対話AIは、書く係だけを取り出して巨大化させた「デコーダーのみ」構成。
書く係だけで読める理由: 「次の言葉を当てる」訓練は、文の関係が読めていないと解けない ── 書く訓練が読む力を内側に育てる。訓練と生成(自己回帰)は同じ「左から右、未来は見ない」形。
勝因はシンプルさ: 訓練の目的が1つ・構造が半分だからスケールさせやすく、規模を上げた分だけ素直に賢くなった。翻訳も分類も「続きを書く」形に直せば1人でこなせる。
コンサル感覚: 「単純な仕組み×規模」が「凝った専用設計」に勝った象徴。専用AI乱立か汎用基盤かの議論で、いちばん分かりやすい根拠になる。