金曜の夜、凡田が一人 ホワイトボードで LLM 全体図を整理中…
凡田(チームリーダー・38, 主人公)

(月曜の朝会で AI 戦略推進室向けに LLM 全体図 を出す宿題、いま書き起こしてる。…結局 Transformer って 4つの構成要素のセット を 96個 とか 120個 とか積み上げてるだけなんだよな。アテンション + MLP + 残差接続 + 正規化、これが1ブロック。「プレハブユニット」 を積む構造 と理解すると一気にスッキリする。)

川口(アナリスト・22)

あ、凡田さん、まだ残ってたんですね。…ちょうど私も Transformer 全体図を書いていて。「アテンション → 残差+正規化 → MLP → 残差+正規化」 の4ステップで 1ブロック、それを GPT-3 で96回 / GPT-4 推定 120回 繰り返す。同じ構造が何十回もスタックされて、徐々に深い意味を獲得していく。

凡田

(川口くんも金曜の夜にオフィスに残ってる時点でだいぶ似てきた。…)川口くん、「同じプレハブを何十回も積む」 設計、なぜこれが効くんだろう?シンプルすぎて逆に不思議だ。

川口

正直 「なぜ効くのか」 は AI 業界でも完全には解明されていない んです。経験的には「ブロック数を増やすと性能が上がる」が観測される、でも理論的になぜ階層化で言語理解が深まるかは未解明。「動くのは確か、理由は謎」 という最大の謎の一つです。

金曜夜のオフィスで凡田がホワイトボードに Transformer 全体図を書き起こし、川口が偶然残業で合流
このページのまとめ
  • Transformer ブロック とは、ひとことで言えば 同じ部品を積み重ねる 仕組み。アテンション(#030)を中心に決まった要素を 1セット にまとめ、それを 何十回も積み上げて LLM の中身をつくる(セットの中身は本文で)。
  • 大事なのは、毎回ゼロから設計せず 規格化した同じユニットをただ繰り返す こと。この 「工業化された設計」 のおかげで、巨大なモデルでも安定して深く積み上げられる。
  • イメージは 同じ規格の階を何十階も積み上げるビル。プレハブの部屋を量産して載せていくように、シンプルなユニットの大量スタック で言語を扱う力が生まれる。

前2記事 アテンションブロック(#030)3ステップ詳細(#031)アテンション単独 を扱った。本記事は 「アテンションが LLM 全体のどこに位置するか」、つまり Transformer ブロック全体構造の話。

結論を先に: 1つの Transformer ブロック = アテンション + MLP + 残差接続 + 正規化 のセット。これを 何十回も繰り返す ことで LLM 本体が出来上がる。同じ構造を何回も積む、極めて 工業化されたモジュラー設計

1ブロックの構造 — 4つの構成要素

Transformer ブロックは、データの流れ順に4つのステップから成る。

Transformer ブロックの構造図、アテンション→残差+正規化→MLP→残差+正規化、それを何十回も積む

図1: Transformer ブロックの構造 — 4ステップ(アテンション+残差/正規化+MLP+残差/正規化)を1ブロック、これを何十回も積む

① セルフアテンション

前記事までで扱った アテンション(#030)。文中の各単語が、他の単語を見て自分のベクトルを更新する。文脈統合のステップ。

② 残差接続 + 正規化(1回目)

アテンションの出力を、元のベクトルに足す(=残差接続、Skip Connection)。その後 正規化(LayerNorm)(#018) でベクトルの大きさを揃える。

残差接続を式で書くとシンプル:

もしアテンション層が 何も有効なことを学習できず、出力が 「ほぼゼロ」 になった場合:

つまり残差接続は「各層は 「元情報に差分を上乗せ」 するだけ、最悪なにも貢献できない層があっても情報はスルーで生き残る」という設計。

残差接続の挙動比較、左: 残差なしはアテンションが壊れると出力ゼロで元情報消滅、右: 残差ありはスキップ接続で元情報がそのまま生存する図

図2: 残差接続(Skip Connection)— アテンション層が壊れて出力≒0になった場合、残差なしは元情報消滅、残差ありはスキップ経由で元情報がそのまま通過

コンサル的アナロジー: パワポを 20人のレビュアー に順番に回すと思ってください。置き換え型(残差なし) は毎回スライドを上書きするので、もし F さんが誤って文字色を全部白にしたら、以降の14人は 白文字スライドを受け取って作業する ハメに。元の意図は永遠に失われる。差分追加型(残差あり) は元のスライドに 付箋でコメントを貼る だけ、F さんが無能で付箋ゼロでも元スライドはそのまま T さんまで届く。「貢献できる人だけ貢献する、できない人は素通り」。

Transformer は 50〜120層 積むので、もし置き換え型だったら 1層でも事故ると全部終わる。差分追加型(残差)だから、深く積んでも情報が劣化しない = 「深層化を可能にした」と言われる所以。この残差接続だけを単独で深掘りした記事 → 残差接続(Residual Connection)(#045)(勾配消失/degradationの2病をどう解くか、残差ストリームの全体像)。

残差接続とペアで使われる 正規化(LayerNorm) は、ベクトルの「桁を揃える」役割を担う。残差接続で x = x + アテンション(x) + MLP(x)足し算が毎層積み重なる ので、放置すると 50〜120層後にはベクトルの各次元が 桁外れに巨大化(数千〜数万)してしまう。

LayerNorm のやっていること: 各単語のベクトル(例: 512次元の数値の並び)について、ベクトル内の 平均 を引き、標準偏差 で割る。結果、ベクトルの数値が だいたい ±2 の範囲 に収まる。

つまり 「どの次元が大きいか・小さいか」 の相対関係は完全に保存、絶対値だけスケール変換 = 情報の中身は変えずに桁直し

正規化(LayerNorm)の挙動比較、左: 正規化なしは層を重ねるごとに数値が暴走して最終的にNaN/Infオーバーフロー、右: 正規化ありは毎層±2程度に収まり学習が安定する図

図3: LayerNorm の役割 — 残差で足し算が積み重なって数値が暴走する問題を、毎層後に「平均0・分散1」にスケール揃えで防ぐ

なぜ放置すると詰むのか: 数値が暴走すると、softmax がガチガチに尖って 確率がほぼ 0 か 1 になり 勾配が消失(学習が進まなくなる)。さらに数値計算で NaN/Inf オーバーフロー も起きやすい。LayerNorm は「次の層が安心して受け取れるサイズに整える」前処理。

コンサル的アナロジー: 国際営業会議で各国支社が「売上 1億2300万円 / 4500万ドル / 800万ユーロ / 9億ウォン / …」と 生数字 で報告 → 桁も通貨もバラバラで 比較不能円換算 + 前年同月比% に統一すると、どこも「100±20%」程度に収まって 一目で比較可能。LayerNorm はこの「桁揃え・通貨統一」担当、各国(各次元)の 相対比較情報は失わずスケールだけ整える

この残差接続は実は CNN(#028) の世界で先に発明された手法(Microsoft Research の ResNet、2015年)で、当時 unthinkable な 152層 という深さの CNN を訓練可能にして ImageNet 2015 で圧勝。Transformer はその技を借りてきた、というのが「CNN ResNet から継承」の意味。

③ MLP(多層パーセプトロン、Feed Forward)

各単語のベクトルを、独立に 通常の NN(#008)(=多層パーセプトロン)に通す。アテンションが 「単語間」 の関係処理 だったのに対し、MLP は 「各単語ごとの特徴抽出・変換」

具体的には、隠れ層を 4倍に拡張 してから元の次元に戻す形が多い(例: 512次元 → 2048次元 → 512次元)。この 「拡張して圧縮」 が、各単語のベクトル内で複雑な情報処理を可能にする。

④ 残差接続 + 正規化(2回目)

MLP の出力を、再び元のベクトルに足して正規化。これで 1つの Transformer ブロックが完成

ブロックの繰り返し — 「同じプレハブを何十回も積む」

このブロックを 何十回もスタック するのが Transformer 本体。具体的な層数:

モデル ブロック数 パラメータ数
GPT-2 (small) 12層 1.2億
GPT-2 (xl) 48層 15億
GPT-3 96層 1,750億
GPT-4 (推定) 120層 1兆超
Llama 3 70B 80層 700億
Claude / Gemini 非公開 非公開

各ブロックは 同じ構造(アテンション+残差+正規化+MLP+残差+正規化)だが、重みは別々に学習 される。つまり「同じ構造の部屋を何十回も通す、各部屋は別の役割を担当」というイメージ。

面白いのは、深い層ほど抽象度の高い特徴 を捉えること:

これは経験的に観測される現象で、研究界ではこれを 「層ごとの特徴の階層化」 と呼ぶ。CNN の 「浅い層がエッジ、深い層が物体」 の構造と類似している。

「なぜ同じブロックの繰り返しで言語理解できるのか?」 これは AI 業界でも完全には解明されていない最大の謎のひとつ。経験的には「動く」、理論的には「なぜ動くか」がまだ未解明。

深掘り記事 ・ 公開中残差接続(Residual Connection) (#045)本記事②の残差接続を単独で深掘り — 出力=x+F(x)で層に 「差分」 だけを学ばせる仕組み、勾配消失とdegradationの2病をどう解くか、Transformer の残差ストリームの全体像まで。

登場人物の反応
赤崎(部長・42)

うーん、つまり Transformer は 「プレハブ住宅を何十回も積み上げた構造」 なんだね。ふわっとした方向感としては、これは 建売住宅メーカー の発想と同じだ。「同じ部品を量産して積む」 設計 の方が、品質が安定し、コストが下がる、というやつ。AI も同じ構造でスケールしている、と。

大蔵(アシスタントマネージャー・35)

あら、部長、それは 当社の組織構造 にも示唆ですわね。「同じ役割の課」(=同じ Transformer ブロック)を 何十も並べる モジュラー組織は、AI と同じく 個別の課の出来 × 並列数 でスケールできる。一方、「特殊で唯一無二の課」(=非モジュラー)はスケールしにくい。当社の AI 戦略推進室、構造的に 「プレハブ複製可能」 なフォーマット で設計すべき、と整理できますわ。

凡田

(大蔵さん、組織論として完全に綺麗な接続。…私の月曜朝会向け図、「Transformer = プレハブの大量積み上げ」 という一言で説明できそうだ。スライド3枚で済む。)

会議室で赤崎が

コンサル感覚 — モジュラー組織と Transformer の相似

本記事の核心メッセージは 「Transformer は工業化された深層学習」。シンプルなプレハブユニットを大量に積むことで、品質安定 + スケール容易 を両立した。

大蔵が言うように、組織設計でも 「同じ役割の課を並列で並べる」 モジュラー組織 は、Transformer と同じ思想で動く。例:

逆に 「特殊で唯一無二のユニット」 しか持たない組織は、スケールが難しい。研究所、職人工房、芸術団体などがこのタイプで、「複製不可能」 こそが価値 という構造。

AI 戦略を考える時の示唆: 当社の AI 戦略推進室を 「プレハブ複製可能」 な単位に設計 しておくと、後で複数チームに展開しやすい。逆に 「特殊な天才に依存」 した設計 だと、その人が抜けると終わる、Transformer 的に言うと 「1ブロックだけで成立する LLM」 は存在しない、ということ。