Transformer ブロック全体構造 — アテンション + MLP + 残差 + 正規化の「プレハブユニット」を何十回も積む

金曜の夜、凡田が一人ホワイトボードで LLM 全体図を整理中…

凡田(チームリーダー・38, 主人公)

(月曜の朝会で AI 戦略推進室向けに LLM 全体図 を出す宿題、いま書き起こしてる。…結局 Transformer って 4つの構成要素のセット を 96個とか 120個とか積み上げてるだけなんだよな。アテンション + MLP + 残差接続 + 正規化、これが1ブロック。「プレハブユニット」を積む構造 と理解すると一気にスッキリする。)

川口(アナリスト・22)

あ、凡田さん、まだ残ってたんですね。…ちょうど私も Transformer 全体図を書いていて。「アテンション → 残差+正規化 → MLP → 残差+正規化」 の4ステップで 1ブロック、それを GPT-3 で96回 / GPT-4 推定 120回 繰り返す。同じ構造が何十回もスタックされて、徐々に深い意味を獲得していく。

凡田

(川口くんも金曜の夜にオフィスに残ってる時点でだいぶ似てきた。…)川口くん、「同じプレハブを何十回も積む」 設計、なぜこれが効くんだろう?シンプルすぎて逆に不思議だ。

川口

正直 「なぜ効くのか」は AI 業界でも完全には解明されていない んです。経験的には「ブロック数を増やすと性能が上がる」が観測される、でも理論的になぜ階層化で言語理解が深まるかは未解明。「動くのは確か、理由は謎」 という最大の謎の一つです。

このページのまとめ

Transformer ブロック とは、ひとことで言えば 同じ部品を積み重ねる 仕組み。アテンション(#030)を中心に決まった要素を 1セット にまとめ、それを 何十回も積み上げて LLM の中身をつくる(セットの中身は本文で)。
大事なのは、毎回ゼロから設計せず 規格化した同じユニットをただ繰り返す こと。この 「工業化された設計」 のおかげで、巨大なモデルでも安定して深く積み上げられる。
イメージは 同じ規格の階を何十階も積み上げるビル。プレハブの部屋を量産して載せていくように、シンプルなユニットの大量スタック で言語を扱う力が生まれる。

前2記事アテンションブロック(#030) と 3ステップ詳細(#031) で アテンション単独 を扱った。本記事は 「アテンションが LLM 全体のどこに位置するか」、つまり Transformer ブロック全体構造の話。

結論を先に: 1つの Transformer ブロック = アテンション + MLP + 残差接続 + 正規化のセット。これを 何十回も繰り返す ことで LLM 本体が出来上がる。同じ構造を何回も積む、極めて 工業化されたモジュラー設計。

1ブロックの構造 — 4つの構成要素

Transformer ブロックは、データの流れ順に4つのステップから成る。

Transformer ブロックの構造図、アテンション→残差+正規化→MLP→残差+正規化、それを何十回も積む

図1: Transformer ブロックの構造 — 4ステップ(アテンション+残差/正規化+MLP+残差/正規化)を1ブロック、これを何十回も積む

① セルフアテンション

前記事までで扱ったアテンション(#030)。文中の各単語が、他の単語を見て自分のベクトルを更新する。文脈統合のステップ。

② 残差接続 + 正規化(1回目)

アテンションの出力を、元のベクトルに足す(=残差接続、Skip Connection)。その後正規化(LayerNorm)(#018) でベクトルの大きさを揃える。

残差接続を式で書くとシンプル:

普通(残差なし): 次の入力 = アテンション(x)
残差あり: 次の入力 = x + アテンション(x) ← この + x が残差(Skip Connection)

もしアテンション層が 何も有効なことを学習できず、出力が「ほぼゼロ」 になった場合:

残差なし: 次の入力 = 0 → 元情報が 完全消滅 💀
残差あり: 次の入力 = x + 0 = x → 元情報が そのまま通過 ✅

つまり残差接続は「各層は 「元情報に差分を上乗せ」するだけ、最悪なにも貢献できない層があっても情報はスルーで生き残る」という設計。

残差接続の挙動比較、左: 残差なしはアテンションが壊れると出力ゼロで元情報消滅、右: 残差ありはスキップ接続で元情報がそのまま生存する図

図2: 残差接続(Skip Connection)— アテンション層が壊れて出力≒0になった場合、残差なしは元情報消滅、残差ありはスキップ経由で元情報がそのまま通過

コンサル的アナロジー: パワポを 20人のレビュアー に順番に回すと思ってください。置き換え型(残差なし) は毎回スライドを上書きするので、もし F さんが誤って文字色を全部白にしたら、以降の14人は 白文字スライドを受け取って作業する ハメに。元の意図は永遠に失われる。差分追加型(残差あり) は元のスライドに 付箋でコメントを貼る だけ、F さんが無能で付箋ゼロでも元スライドはそのまま T さんまで届く。「貢献できる人だけ貢献する、できない人は素通り」。

Transformer は 50〜120層 積むので、もし置き換え型だったら 1層でも事故ると全部終わる。差分追加型(残差)だから、深く積んでも情報が劣化しない = 「深層化を可能にした」と言われる所以。この残差接続だけを単独で深掘りした記事 → 残差接続(Residual Connection)(#045)(勾配消失/degradationの2病をどう解くか、残差ストリームの全体像)。

残差接続とペアで使われる 正規化(LayerNorm) は、ベクトルの「桁を揃える」役割を担う。残差接続で x = x + アテンション(x) + MLP(x) と 足し算が毎層積み重なる ので、放置すると 50〜120層後にはベクトルの各次元が 桁外れに巨大化(数千〜数万)してしまう。

LayerNorm のやっていること: 各単語のベクトル(例: 512次元の数値の並び)について、ベクトル内の平均を引き、標準偏差 で割る。結果、ベクトルの数値が だいたい ±2 の範囲 に収まる。

元のベクトル: [10, 20, 5] → 「2番目が一番大きい」
LayerNorm 後: [-0.46, 1.39, -0.93] → やはり「2番目が一番大きい」

つまり 「どの次元が大きいか・小さいか」の相対関係は完全に保存、絶対値だけスケール変換 = 情報の中身は変えずに桁直し。

正規化(LayerNorm)の挙動比較、左: 正規化なしは層を重ねるごとに数値が暴走して最終的にNaN/Infオーバーフロー、右: 正規化ありは毎層±2程度に収まり学習が安定する図

図3: LayerNorm の役割 — 残差で足し算が積み重なって数値が暴走する問題を、毎層後に「平均0・分散1」にスケール揃えで防ぐ

なぜ放置すると詰むのか: 数値が暴走すると、softmax がガチガチに尖って 確率がほぼ 0 か 1 になり 勾配が消失(学習が進まなくなる)。さらに数値計算で NaN/Inf オーバーフロー も起きやすい。LayerNorm は「次の層が安心して受け取れるサイズに整える」前処理。

コンサル的アナロジー: 国際営業会議で各国支社が「売上 1億2300万円 / 4500万ドル / 800万ユーロ / 9億ウォン / …」と 生数字 で報告 → 桁も通貨もバラバラで 比較不能。円換算 + 前年同月比% に統一すると、どこも「100±20%」程度に収まって 一目で比較可能。LayerNorm はこの「桁揃え・通貨統一」担当、各国(各次元)の 相対比較情報は失わず、スケールだけ整える。

この残差接続は実は CNN(#028) の世界で先に発明された手法(Microsoft Research の ResNet、2015年)で、当時 unthinkable な 152層 という深さの CNN を訓練可能にして ImageNet 2015 で圧勝。Transformer はその技を借りてきた、というのが「CNN ResNet から継承」の意味。

③ MLP(多層パーセプトロン、Feed Forward)

各単語のベクトルを、独立に 通常の NN(#008)(=多層パーセプトロン)に通す。アテンションが 「単語間」の関係処理 だったのに対し、MLP は 「各単語ごとの特徴抽出・変換」。

具体的には、隠れ層を 4倍に拡張 してから元の次元に戻す形が多い(例: 512次元 → 2048次元 → 512次元)。この「拡張して圧縮」が、各単語のベクトル内で複雑な情報処理を可能にする。

④ 残差接続 + 正規化(2回目)

MLP の出力を、再び元のベクトルに足して正規化。これで 1つの Transformer ブロックが完成。

ブロックの繰り返し — 「同じプレハブを何十回も積む」

このブロックを 何十回もスタック するのが Transformer 本体。具体的な層数:

モデル	ブロック数	パラメータ数
GPT-2 (small)	12層	1.2億
GPT-2 (xl)	48層	15億
GPT-3	96層	1,750億
GPT-4 (推定)	120層	1兆超
Llama 3 70B	80層	700億
Claude / Gemini	非公開	非公開

各ブロックは 同じ構造(アテンション+残差+正規化+MLP+残差+正規化)だが、重みは別々に学習 される。つまり「同じ構造の部屋を何十回も通す、各部屋は別の役割を担当」というイメージ。

面白いのは、深い層ほど抽象度の高い特徴 を捉えること:

浅い層(1〜10層目): 文法的関係、品詞、句構造
中間層(10〜60層目): 単語の意味、概念、簡単な推論
深い層(60〜96層目): 文脈、意図、含意、複雑な推論

これは経験的に観測される現象で、研究界ではこれを 「層ごとの特徴の階層化」 と呼ぶ。CNN の「浅い層がエッジ、深い層が物体」の構造と類似している。

「なぜ同じブロックの繰り返しで言語理解できるのか?」 これは AI 業界でも完全には解明されていない最大の謎のひとつ。経験的には「動く」、理論的には「なぜ動くか」がまだ未解明。

深掘り記事・公開中残差接続(Residual Connection) (#045)本記事②の残差接続を単独で深掘り — 出力=x+F(x)で層に「差分」だけを学ばせる仕組み、勾配消失とdegradationの2病をどう解くか、Transformer の残差ストリームの全体像まで。

登場人物の反応

赤崎(部長・42)

うーん、つまり Transformer は 「プレハブ住宅を何十回も積み上げた構造」 なんだね。ふわっとした方向感としては、これは 建売住宅メーカー の発想と同じだ。「同じ部品を量産して積む」設計 の方が、品質が安定し、コストが下がる、というやつ。AI も同じ構造でスケールしている、と。

大蔵(アシスタントマネージャー・35)

あら、部長、それは 当社の組織構造 にも示唆ですわね。「同じ役割の課」(=同じ Transformer ブロック)を 何十も並べる モジュラー組織は、AI と同じく 個別の課の出来 × 並列数 でスケールできる。一方、「特殊で唯一無二の課」(=非モジュラー)はスケールしにくい。当社の AI 戦略推進室、構造的に 「プレハブ複製可能」なフォーマット で設計すべき、と整理できますわ。

凡田

(大蔵さん、組織論として完全に綺麗な接続。…私の月曜朝会向け図、「Transformer = プレハブの大量積み上げ」 という一言で説明できそうだ。スライド3枚で済む。)

コンサル感覚 — モジュラー組織と Transformer の相似

本記事の核心メッセージは 「Transformer は工業化された深層学習」。シンプルなプレハブユニットを大量に積むことで、品質安定 + スケール容易を両立した。

大蔵が言うように、組織設計でも 「同じ役割の課を並列で並べる」モジュラー組織 は、Transformer と同じ思想で動く。例:

大手コンサル: 「プロジェクトチーム」 という単位を何十も並列で運営、同じフォーマットで品質を担保
製造業: 「工場ライン」 を全国に何十も並べる、同じ手順で同じ品質
飲食チェーン: 「店舗」 をフォーマット化して全国展開
SaaS: 「マイクロサービス」 を疎結合で並べる、同じインターフェースで再利用

逆に 「特殊で唯一無二のユニット」 しか持たない組織は、スケールが難しい。研究所、職人工房、芸術団体などがこのタイプで、「複製不可能」こそが価値 という構造。

AI 戦略を考える時の示唆: 当社の AI 戦略推進室を「プレハブ複製可能」な単位に設計 しておくと、後で複数チームに展開しやすい。逆に 「特殊な天才に依存」した設計 だと、その人が抜けると終わる、Transformer 的に言うと 「1ブロックだけで成立する LLM」は存在しない、ということ。

KEY TAKEAWAYS

抑えておきたいポイント

1 Transformer ブロック = アテンション + 残差/正規化 + MLP + 残差/正規化 の4ステップ1セット。
これを 何十回もスタック: GPT-3 で 96層、GPT-4 推定 120層。同じ構造、別々の重み。
各構成要素の役割: アテンション = 単語間文脈統合 / MLP = 各単語独立の特徴抽出 / 残差接続 = 深層化を可能にする / 正規化 = 学習安定化。
深い層ほど 抽象度の高い特徴(浅: 文法 → 中: 意味 → 深: 文脈・意図)。CNN の階層化と類似。
「なぜブロック繰り返しで言語理解できるか」は AI業界最大の謎の一つ。動くのは確か、理由は未解明。
コンサル感覚: Transformer は 「プレハブを何十回も積む」工業化された深層学習。組織設計でも モジュラー組織(=同じ役割の課を並列)は同じ思想、スケールに強い。
AI 戦略の示唆: 「プレハブ複製可能」な設計 はスケール、「特殊な天才依存」な設計 はリスク。