残差接続(Residual Connection) — 元の入力を足し戻し、層に「差分」だけを学ばせる配線

祝日明けの朝、役員室。南雲社長が AI戦略推進室から回ってきた紙の稟議書を眺めている…

南雲(社長・61)

このAI戦略の稟議、電子で一発承認か。早くて結構だがね…わしの都銀時代は、稟議書は 紙を10人で回した もんだ。

南雲(続き)

面白いのはな、誰も前の人の判断を消さんかった。最初の与信メモはそのまま残して、各々が赤ペンで「ここはこう見る」と 自分の判断を書き加える。元はそのまま＋追記、で回す。だから10人通っても、最初の観点が最後まで生き残る。

凡田(チームリーダー・38, 主人公) — 書類を届けに来て立ち止まる

(……それ、いま AI戦略室で扱ってる Transformer の 残差接続 と、構造がまったく同じだ。各層が元を消さず、処理した結果を元に足し戻す。だから深く積んでも初期の情報が消えない……。)

南雲

全部消してゼロから書き直す若いのもおったが、そういう稟議は 決まって筋が悪くなった。足し算で重ねるのが、組織の知恵というもんだよ。

この記事の要約(3行)

残差接続 = 層が入力を処理した結果 F(x) に、入力 x をそのまま足し戻す 配線(出力 = x + F(x))。層 F は「差分」という特別なものを出すわけではなく、ふつうに入力を処理するだけ ── 違いは「その結果に入力を足し戻す」一点。
効くポイントは2つ ── ①深く積んでも学習の信号(勾配)が薄まらず届く ②効かない層は素通りできる。だから深いネットワークが安定して学習でき、2015年の ResNet 以降ネットは一気に深くなった(いまの Transformer の土台)。
Transformer の構成図に頻出する 「Add & Norm」の「Add」が、この残差接続(Norm は別物の正規化)。派手なアテンションを陰で支える土台。

アテンション (#030) が華やかな主役なら、残差接続は、それを 深く積み重ねられるようにする土台 だ。やっていることはたった一つ ── 層の出力に、入力をそのまま足し戻すだけ。この地味な足し算が、深いネットワークを「そもそも学習できる」ものに変えた。

定義 — 出力 = 入力 + 層の計算

ネットワークの各「層」は、入力を受け取って計算し、結果を次の層へ渡す。残差接続は、その 渡し方 を変える仕掛けだ:

普通の層: 出力は「層の計算結果」そのもの。入力は上書きされ、計算結果だけが次へ進む(出力 = F(x))。
残差接続つきの層: 層の計算結果に、入力 x をそのまま足し戻して から次へ渡す(出力 = x + F(x))。

この 「+ 入力 x」── 下の図の ⊕(足し算)── が、残差接続そのもの だ。

大事なのは、層 F 自体は「差分」という特別なものを出しているわけではない こと。F は普通の層と同じく、入力 x を処理して F(x) を出すだけ。違いは 「その結果に入力 x を足し戻す」配線 の一点だけだ。この足し戻しがあるおかげで、F は結果的に「x にどんな補正を加えるか」を担うことになり、それが 「残差(residual)」という名の由来(F が差分を直接計算しているのではなく、構造の結果としてそうなる)。なお、その層が「手を加えない方がよい」場合は F(x) = 0 で 出力 = x となり、入力がそのまま通り抜ける(この性質が後で効く)。

普通の層と残差接続つきの層の比較図。普通の層は入力x→層F→出力=F(x)。残差接続つきの層は入力x→層F→F(x) に、xを迂回(skip)させて⊕で足し、出力=x+F(x)。⊕(xを足し戻す)が残差接続であること、F(x)=0なら出力=xで素通りすることを明記

図1: 違いは「入力 x を足し戻すか」だけ。残差接続つきの層は x を迂回させて ⊕ で足す(出力 = x + F(x))。この ⊕ が残差接続。層 F が何もしなければ(F(x)=0)出力 = x で素通りする

なぜ嬉しいのか — 効くポイントは2つ

① 深く積んでも学習が壊れない。 出力に入力 x がそのまま含まれるので、学習の信号(勾配)が、深い層を通っても薄まらず入口まで届く。残差がないと信号は途中で消えてしまい(勾配消失 / 逆伝播(#016))、入口側の層がうまく学習できない。

② 効かない層は「素通り」できる。 定義のとおり F(x)=0 なら 出力 = x。役に立たない層は「何もしない」に逃げられるので、層を増やしても性能が下がらない。── この2つのおかげで、ResNet(2015) 以降ネットワークは一気に深くでき、いまの Transformer も数十〜百層まで積めるようになった。

Transformer では — 「Add & Norm」の Add がこれ

Transformer の構成図に何度も出てくる 「Add & Norm」。その 「Add」(足し戻す)が、まさにこの残差接続 だ。各ブロックでアテンション(#036) と MLP(#037) の直後に1つずつ入る。なお同居している 「Norm」は別物 ── 値のばらつきをならす正規化(#018) で、残差で足し算が積み重なって値が膨らむのを後始末する役。残差はあくまで「Add」の側。ブロック全体での組まれ方は Transformer ブロック(#032) で。

コンサル感覚 — 「差分で重ねる組織」は強い

本記事の核心メッセージは 「良い改修は、元を消さずに差分を上乗せする。ゼロから書き直す改修は、前の良かった部分まで失う」。残差接続は、その原理をネットワークの配線にしたものだ。実務で効く見方が3つ:

① 前任の成果を消さず、差分で重ねる文化: 稟議書の赤ペン追記、ドキュメントの版改訂、ソフトウェアの Git コミット — いずれも「元を保存したまま差分を積む」構造。これは残差接続そのもの。逆に 「刷新」と称して全部ゼロから作り直す プロジェクトは、前任が苦労して獲得した知見(=初期の与信メモ)まで捨ててしまい、しばしば劣化する。深い組織ほど「足し算で重ねる」設計が要る。

② 「最悪でも素通り」という安全設計: 残差接続の本質は「効かない改修なら、何もしない(素通り)に退避できる」こと。これは 改修のダウンサイドを構造的に断つ 発想。DX / AI 施策でも、「やってみて悪化したら元の業務フローにそのまま戻せる」差分主義の導入は、「全業務を一斉に刷新する」賭けより圧倒的に安全で、結果的に速い。

③ クライアント説明の一言: 「なぜ最新の LLM はあんなに層が深いのに、ちゃんと学習できるのか?」と聞かれたら、「残差接続という、各層が元を消さず差分だけ学ぶ配線のおかげです。深さがリスクにならない仕組みが入っているんです」 と答えられる。アテンションばかりが語られるが、それを深く積めるのはこの土台があるから、と添えると一段深い。

昼の給湯室、南雲の「稟議の差分文化」の話が回ってきて…

大蔵(アシスタントマネージャー・35)

あら、それ私が13年やってることですわよ。Excel で 元データは絶対に上書きしません。隣に 補正列 を足して、元の値 + 調整分、で計算する。だから後から「なぜこの数字になったか」が全部たどれますの。…社長の稟議と、同じ作法ですのね。

川口(アナリスト・22)

それ、Git のコミット がまさにそうですよね。元のコードを消さずに「ここをこう変えた」という差分を積み重ねる。だから100回直しても履歴で巻き戻せる。…残差接続って、要は 「差分の積み重ね」をネットワークの配線でやってる だけなんだな、と腑に落ちました。

御託(シニアコンサル・39)

フン、私は常に ゼロベースで本質から問い直す 主義でね。前提を全部疑ってこそ…(先月、提案書を3回全部書き直して結局初稿が一番良かった件を、ふと思い出す)…まあ、その、「良かった部分は残して差分を足す」のも、一つの見識ではあるな。うん。

凡田

(御託さん、自分のゼロベース信仰が今ちょっと揺らいだな…。でも実際、残差接続の教訓って「全部作り直すな、差分で重ねろ」だから、御託さんが折れたのは正しい。社長の40年前の稟議が、最新の Transformer と同じ知恵に行き着いてるのが、地味にすごい。)

Takeaways

4行で整理

残差接続 = 層が入力を処理した結果 F(x) に、入力 x をそのまま足し戻す配線(出力 = x + F(x))。F は「差分」を出す特別な層ではなく、ふつうに入力を処理するだけ。違いは図の ⊕(入力を足し戻す)の一点。
効くポイント2つ: ①出力に x が残るので勾配が薄まらず深い層まで届く(勾配消失の回避) ②F(x)=0 で素通りでき、効かない層を増やしても性能が下がらない。
これで深いネットが安定学習でき、ResNet(2015)以降ネットは一気に深く。Transformer の「Add & Norm」の 「Add」がこの残差接続(Norm は別物の正規化 #018)。詳しい組まれ方は #032。
コンサル感覚: 良い改修は元を消さず差分で重ねる / 効かなければ最悪そのまま戻せる(素通り)。「全部作り直す」賭けより、ダウンサイドを断つ差分主義が強い。