祝日明けの朝、役員室。南雲社長が AI戦略推進室から回ってきた紙の稟議書を眺めている…
南雲(社長・61)

このAI戦略の稟議、電子で一発承認か。早くて結構だがね…わしの都銀時代は、稟議書は 紙を10人で回した もんだ。

南雲(続き)

面白いのはな、誰も前の人の判断を消さんかった。最初の与信メモはそのまま残して、各々が赤ペンで「ここはこう見る」と 自分の判断を書き加える。元はそのまま+追記、で回す。だから10人通っても、最初の観点が最後まで生き残る

凡田(チームリーダー・38, 主人公) — 書類を届けに来て立ち止まる

(……それ、いま AI戦略室で扱ってる Transformer の 残差接続 と、構造がまったく同じだ。各層が元を消さず、処理した結果を元に足し戻す。だから深く積んでも初期の情報が消えない……。)

南雲

全部消してゼロから書き直す若いのもおったが、そういう稟議は 決まって筋が悪くなった。足し算で重ねるのが、組織の知恵というもんだよ。

役員室で南雲社長が紙の稟議書を眺めている、書類には何重にも赤ペンの書き込みと付箋が重なり最初の与信メモが残っている、書類を届けに来た凡田が背後で何かに気づいた表情で立ち止まっている図
この記事の要約(3行)
  • 残差接続 = 層が入力を処理した結果 F(x) に、入力 x をそのまま足し戻す 配線(出力 = x + F(x))。層 F は 「差分」 という特別なものを出すわけではなく、ふつうに入力を処理するだけ ── 違いは 「その結果に入力を足し戻す」 一点。
  • 効くポイントは2つ ── ①深く積んでも学習の信号(勾配)が薄まらず届く ②効かない層は素通りできる。だから深いネットワークが安定して学習でき、2015年の ResNet 以降ネットは一気に深くなった(いまの Transformer の土台)。
  • Transformer の構成図に頻出する 「Add & Norm」 の 「Add」 が、この残差接続(Norm は別物の正規化)。派手なアテンションを陰で支える土台。

アテンション (#030) が華やかな主役なら、残差接続は、それを 深く積み重ねられるようにする土台 だ。やっていることはたった一つ ── 層の出力に、入力をそのまま足し戻すだけ。この地味な足し算が、深いネットワークを 「そもそも学習できる」 ものに変えた。

定義 — 出力 = 入力 + 層の計算

ネットワークの各「層」は、入力を受け取って計算し、結果を次の層へ渡す。残差接続は、その 渡し方 を変える仕掛けだ:

この 「+ 入力 x」── 下の図の ⊕(足し算)── が、残差接続そのもの だ。

大事なのは、層 F 自体は 「差分」 という特別なものを出しているわけではない こと。F は普通の層と同じく、入力 x を処理して F(x) を出すだけ。違いは 「その結果に入力 x を足し戻す」配線 の一点だけだ。この足し戻しがあるおかげで、F は結果的に「x にどんな補正を加えるか」を担うことになり、それが 「残差(residual)」 という名の由来(F が差分を直接計算しているのではなく、構造の結果としてそうなる)。なお、その層が「手を加えない方がよい」場合は F(x) = 0出力 = x となり、入力がそのまま通り抜ける(この性質が後で効く)。

普通の層と残差接続つきの層の比較図。普通の層は 入力x→層F→出力=F(x)。残差接続つきの層は 入力x→層F→F(x) に、xを迂回(skip)させて⊕で足し、出力=x+F(x)。⊕(xを足し戻す)が残差接続であること、F(x)=0なら出力=xで素通りすることを明記

図1: 違いは「入力 x を足し戻すか」だけ。残差接続つきの層は x を迂回させて ⊕ で足す(出力 = x + F(x))。この ⊕ が残差接続。層 F が何もしなければ(F(x)=0)出力 = x で素通りする

なぜ嬉しいのか — 効くポイントは2つ

① 深く積んでも学習が壊れない。 出力に入力 x がそのまま含まれるので、学習の信号(勾配)が、深い層を通っても薄まらず入口まで届く。残差がないと信号は途中で消えてしまい(勾配消失 / 逆伝播(#016))、入口側の層がうまく学習できない。

② 効かない層は 「素通り」 できる。 定義のとおり F(x)=0 なら 出力 = x。役に立たない層は「何もしない」に逃げられるので、層を増やしても性能が下がらない。── この2つのおかげで、ResNet(2015) 以降ネットワークは一気に深くでき、いまの Transformer も数十〜百層まで積めるようになった。

Transformer では — 「Add & Norm」 の Add がこれ

Transformer の構成図に何度も出てくる 「Add & Norm」。その 「Add」(足し戻す)が、まさにこの残差接続 だ。各ブロックで アテンション(#036)MLP(#037) の直後に1つずつ入る。なお同居している 「Norm」 は別物 ── 値のばらつきをならす 正規化(#018) で、残差で足し算が積み重なって値が膨らむのを後始末する役。残差はあくまで 「Add」 の側。ブロック全体での組まれ方は Transformer ブロック(#032) で。

コンサル感覚 — 「差分で重ねる組織」 は強い

本記事の核心メッセージは 「良い改修は、元を消さずに差分を上乗せする。ゼロから書き直す改修は、前の良かった部分まで失う」。残差接続は、その原理をネットワークの配線にしたものだ。実務で効く見方が3つ:

① 前任の成果を消さず、差分で重ねる文化: 稟議書の赤ペン追記、ドキュメントの版改訂、ソフトウェアの Git コミット — いずれも「元を保存したまま差分を積む」構造。これは残差接続そのもの。逆に 「刷新」 と称して全部ゼロから作り直す プロジェクトは、前任が苦労して獲得した知見(=初期の与信メモ)まで捨ててしまい、しばしば劣化する。深い組織ほど 「足し算で重ねる」 設計が要る。

② 「最悪でも素通り」という安全設計: 残差接続の本質は「効かない改修なら、何もしない(素通り)に退避できる」こと。これは 改修のダウンサイドを構造的に断つ 発想。DX / AI 施策でも、「やってみて悪化したら元の業務フローにそのまま戻せる」差分主義の導入は、「全業務を一斉に刷新する」賭けより圧倒的に安全で、結果的に速い。

③ クライアント説明の一言: 「なぜ最新の LLM はあんなに層が深いのに、ちゃんと学習できるのか?」と聞かれたら、「残差接続という、各層が元を消さず差分だけ学ぶ配線のおかげです。深さがリスクにならない仕組みが入っているんです」 と答えられる。アテンションばかりが語られるが、それを深く積めるのはこの土台があるから、と添えると一段深い。

昼の給湯室、南雲の 「稟議の差分文化」 の話が回ってきて…
大蔵(アシスタントマネージャー・35)

あら、それ私が13年やってることですわよ。Excel で 元データは絶対に上書きしません。隣に 補正列 を足して、元の値 + 調整分、で計算する。だから後から「なぜこの数字になったか」が全部たどれますの。…社長の稟議と、同じ作法ですのね。

川口(アナリスト・22)

それ、Git のコミット がまさにそうですよね。元のコードを消さずに「ここをこう変えた」という差分を積み重ねる。だから100回直しても履歴で巻き戻せる。…残差接続って、要は 「差分の積み重ね」 をネットワークの配線でやってる だけなんだな、と腑に落ちました。

御託(シニアコンサル・39)

フン、私は常に ゼロベースで本質から問い直す 主義でね。前提を全部疑ってこそ…(先月、提案書を3回 全部書き直して結局 初稿が一番良かった件を、ふと思い出す)…まあ、その、「良かった部分は残して差分を足す」 のも、一つの見識ではあるな。うん。

凡田

(御託さん、自分のゼロベース信仰が今ちょっと揺らいだな…。でも実際、残差接続の教訓って「全部作り直すな、差分で重ねろ」だから、御託さんが折れたのは正しい。社長の40年前の稟議が、最新の Transformer と同じ知恵に行き着いてるのが、地味にすごい。)

昼の給湯室で4人が談笑、大蔵がノートPCでExcelの元データ列と補正列を指し示し、川口がタブレットでGitの差分履歴を見せ、御託が少しばつの悪い表情で腕を組み、凡田が手帳に書き込みながら納得している図