正則化(Dropout / L1 / L2) — モデルが特定の重みやデータに頼りすぎないよう抑える技

年末年始の有給消化期間、ガラガラの社長室にて…

南雲(社長・60-62)

凡田、暇だから昔話を1つ。俺が 都銀の支店長代理 だった頃な、3週間インフルで休んだ時 があってな。…支店の融資審査が完全に止まった。俺の 頭の中 にしか審査ノウハウが無かったから、誰も代わりが利かない。これは 「良い人材」の証明 だと当時は思ってたんだ。

凡田(チームリーダー・38, 主人公)

社長、それは 「Dropout なしの組織」 の典型ですね。1人のキーマンに全部の重みが集中して、新規データ(社長の不在)に全く対応できない状態。過学習の組織版 です。

南雲

Dropout? 誰かを意図的に休ませる、ということか?

凡田

まさに。AI 学習中に ランダムにニューロンを「ない」ことにする 技術です。特定の重みに依存させないようにする。組織で言うと、毎週ランダムに誰かを強制有給 にする感じで…

このページのまとめ

ひとことで言うと 正則化 = モデルが訓練データや特定の重みに 頼りすぎないようにする ための、追加の制約のかけ方。
過学習(#019) 対策の主役。やりすぎな丸暗記を抑え、初見のデータにも効く力(汎化)を取り戻す。
イメージは 特定の人に依存しないチーム作り。代表は Dropout や L1 / L2(詳細は本文へ)。

過学習(#019) 記事で「対策の4軸」のうち1つとして 正則化 を挙げた、その中身が本記事のテーマ。Early Stopping は「止め時を決める」シンプルな対策、データを増やすのは「材料を多くする」物理対策。正則化は 「モデルの中に制約を仕込む」 別軸の対策。

結論を先に: 正則化 = モデルが訓練データや特定の重みに依存しすぎないように、追加の制約を入れる。代表は Dropout(ニューロンをランダムに切る)と L1 / L2 正則化(重みが大きくなることを罰する)。LLM では Weight Decay(L2 の発展形)が主役。

Dropout — 訓練中、ニューロンの一部をランダムに「ない」ことにする

2014年に Hinton らが提案した、簡単で強力な正則化手法。仕組みは驚くほどシンプル。

Dropout のイメージ、NN のニューロンの一部が訓練中ランダムにグレーアウトされる図

図1: Dropout — 訓練の各ステップで、ニューロンの一部をランダムに無効化する

訓練の各ステップで、各層のニューロンを 50%(など)の確率でランダムに「ない」ことにする
「ない」にされたニューロンは、そのステップでは出力もせず、勾配も流れない
毎ステップ、無効化されるニューロンの組み合わせが変わる(ランダム)
推論時(本番)では全ニューロンを使う + 出力を比率(0.5など)で調整

これで何が起きるか:

モデルは 「特定のニューロンが必ずある」前提で学習できなくなる
結果として、各ニューロンが 「単独で意味を持つ」学習を強制される(他のニューロンに依存できない)
これは内部的に「沢山の小さなモデルを並行訓練して、本番でアンサンブルする」のと同じ効果

組織のアナロジー: 毎週ランダムに 30%の社員を強制有給 にする。みんな「自分が居なくても回る仕組み」を意識せざるを得なくなる。これがキーマン依存を破壊する。

L1 / L2 正則化 — 重みが大きくなることを罰する

もう一つの王道、L1 と L2 正則化。これは損失関数(#014) に直接「罰則項」を追加する方法。

L2 正則化(Ridge / Weight Decay)

損失に 「全重みの二乗の和」 を加算
大きい重みほど罰則が二乗で効くので、モデルは「全体的に小さい重み」を選ぶ方向に学習
特定の重みが暴走するのを防ぐ(過学習は「暴走した重みが訓練データの細部に強く反応する」現象なので、ここを抑える)
AdamW(#017) の「W」がこの Weight Decay。LLM 訓練で標準

L1 正則化(Lasso)

損失に 「全重みの絶対値の和」 を加算
L2 が「全体的に小さく」するのに対し、L1 は 「多くの重みを完全にゼロにする」 効果(=スパース化)
結果として「重要な少数の特徴だけを使うモデル」が出来上がる
特徴選択(どの入力が効いているか)を兼ねたい時に有効

使い分け

深層学習一般: L2(Weight Decay)が標準
LLM: L2 系の Weight Decay、典型値 0.01 〜 0.1
特徴選択したい古典的 ML: L1(Lasso 回帰)
両方欲しい: Elastic Net(L1 + L2 を混ぜる)

本質: 「依存しすぎない」を強制する装置

Dropout も L1/L2 も、表面上の手法は違うが、本質は同じ。

正則化の本質は、モデルが 「特定の重み・特定の入力パターン・特定のニューロン」に依存しすぎる ことを禁じること。多様な内部構造を強制することで、結果として汎化能力が上がる。

これは “過学習(#019) の原因を直接ブロックする” 設計。過学習が「訓練データの細部を覚える」現象だとしたら、正則化は「細部を覚えるための強い重みを作れなくする」物理的制約。

LLM 時代の正則化事情 — Dropout が消え、Weight Decay が残った

2010年代の深層学習では、Dropout が主役級だった。AlexNet (2012)、VGG、ResNet など、当時の有名モデルはほぼ Dropout を使っていた。

でも LLM 時代になって状況が変わった。

GPT-3 以降の巨大 LLM では、Dropout はほぼ使わない(または使ってもごく低い確率)
理由: 過学習(#019) 記事で触れた「スケーリング則」の通り、巨大モデル + 巨大データでは過学習リスク自体が低い
Dropout を強くかけると、むしろ 必要な表現力を削ってしまう
代わりに Weight Decay(AdamW)が標準的に使われ続けている。これは「副作用が少なくて常に少しだけ汎化を助ける」性質があるため

つまり LLM 時代の正則化事情は 「Dropout は控えめか不使用、Weight Decay は常用」 という形に落ち着いている。Dropout が完全に消えたわけではなく、画像認識や中規模モデルではまだ現役。

登場人物の反応 ①

赤崎(部長 / AI戦略推進室室長・42)

うーん、Dropout か。…当社の月次レビューで 「ランダムに3割の議題をスキップする」 っていうのは、ふわっとした方向感としては 「効率化」 として既にやってる気がするんだよね。あれが Dropout だったとは。

大蔵(アシスタントマネージャー・35)

あら部長、それは Dropout ではなく 「忘却」 ですわよ。3割の議題は 本当に消えて、誰も覚えてないまま 1年後にお客様から指摘される 流れですわ。技術的に申しますと、これは 「過学習対策の正則化」ではなく「未学習の促進」 です。

川口(アナリスト・22)

大蔵さん、的確すぎます。…ちなみに Dropout は推論時(本番)では 全ニューロンを使う のが正解で、訓練中だけランダムに切る、というのが肝心です。部長の運用だと、本番(=お客様提案)でも消えたままなので、これは 「訓練と推論の不整合」 という別バグでして…(無言で実装ガイドの PDF を取り出しはじめる)

赤崎

うーん、川口くんに 「バグ」 と言われた気がするが、私の中の L2 正則化 が 「そんなことはない」 という結論に重みづけしてるね。

大蔵

部長、ご自身の中の L2 正則化が「否定」に過剰重みづけ されているのは、典型的な 「自己防衛バイアス」 ですわ。これは AI でも組織でも、最も 汎化を阻害する パターンですわよ。

コンサル感覚: キーマン依存解消との完全相似

正則化の発想を、組織運営の「キーマン依存解消」に翻訳する。

正則化の手法	組織での対応
Dropout(ランダムに無効化)	毎週ランダムに社員を強制有給、その間は他のメンバーで回す
L2 正則化(重みが大きすぎることを罰)	個人の年間目標が肥大化しないよう、上限を設定して全員が並走
L1 正則化(多くを完全にゼロに)	本当に重要な少数の指標だけに絞って、残りは捨てる(KPI 削減)
Weight Decay(常に少し抑える)	毎月の評価で過剰な成果偏重を防ぐ調整係数を入れる

つまり 正則化 = 組織の「キーマン依存を物理的に作らせない」仕組み。機械では毎ステップ自動で実行される、組織では人事制度に組み込む必要がある。両方とも目的は同じ: 「特定の何かに頼りすぎた構造を作らない」。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、整理がついた。俺の 3週間休んで支店停止 は 「Dropout なし組織」、そして俺自身が 「L2 制約なしで暴走した重み」 だったわけだ。…当時の俺は 「必殺キーマン」 として誇らしかったが、これは 過学習組織の典型だった、と。

凡田(チームリーダー・38, 主人公)

社長、まさに。当時の「1人カリスマ」評価基準 が、まさにそれを助長してたんですよね。「あいつが居ないと回らない」 = 過学習組織。当社の人事制度も、Dropout 的にランダムジョブローテーション を入れたほうがいいかもしれません。

御託(シニアコンサル・39)

フッ、Dropout か。これは ニーチェ が 『ツァラトゥストラ』 で論じた 「超人は孤立を恐れない」 という命題そのものだな。私が以前から…(スマホ通知、配信開始まで残り22分)

大蔵

御託さん、それは 「超人」 ではなく、配信時間に向けて 「自分の重要度を最小化」 されているだけですわ。ご自身を組織から Dropout されようとされてる、という意味では正しい正則化ですが。

川口

あ、社長、結論として当社の人事制度を 「Dropout + L2 Weight Decay」 準拠で再設計する戦略提言を、パワポ600枚 でまとめさせていただきます。…(これで休日11週連続)

南雲

うむ、いいねえ。「Dropout 経営」、響きがいい。儲かるんだろ?