凡田、暇だから昔話を1つ。俺が 都銀の支店長代理 だった頃な、3週間 インフルで休んだ時 があってな。…支店の融資審査が完全に止まった。俺の 頭の中 にしか審査ノウハウが無かったから、誰も代わりが利かない。これは 「良い人材」 の証明 だと当時は思ってたんだ。
社長、それは 「Dropout なしの組織」 の典型ですね。1人のキーマンに全部の重みが集中して、新規データ(社長の不在)に全く対応できない状態。過学習の組織版 です。
Dropout? 誰かを意図的に休ませる、ということか?
まさに。AI 学習中に ランダムにニューロンを 「ない」 ことにする 技術です。特定の重みに依存させないようにする。組織で言うと、毎週ランダムに誰かを強制有給 にする感じで…

- ひとことで言うと 正則化 = モデルが訓練データや特定の重みに 頼りすぎないようにする ための、追加の制約のかけ方。
- 過学習(#019) 対策の主役。やりすぎな丸暗記を抑え、初見のデータにも効く力(汎化)を取り戻す。
- イメージは 特定の人に依存しないチーム作り。代表は Dropout や L1 / L2(詳細は本文へ)。
過学習(#019) 記事で「対策の4軸」のうち1つとして 正則化 を挙げた、その中身が本記事のテーマ。Early Stopping は 「止め時を決める」 シンプルな対策、データを増やすのは 「材料を多くする」 物理対策。正則化は 「モデルの中に制約を仕込む」 別軸の対策。
結論を先に: 正則化 = モデルが訓練データや特定の重みに依存しすぎないように、追加の制約を入れる。代表は Dropout(ニューロンをランダムに切る)と L1 / L2 正則化(重みが大きくなることを罰する)。LLM では Weight Decay(L2 の発展形)が主役。
Dropout — 訓練中、ニューロンの一部をランダムに 「ない」 ことにする
2014年に Hinton らが提案した、簡単で強力な正則化手法。仕組みは驚くほどシンプル。
- 訓練の各ステップで、各層のニューロンを 50%(など)の確率でランダムに 「ない」 ことにする
- 「ない」 にされたニューロンは、そのステップでは出力もせず、勾配も流れない
- 毎ステップ、無効化されるニューロンの組み合わせが変わる(ランダム)
- 推論時(本番)では全ニューロンを使う + 出力を比率(0.5など)で調整
これで何が起きるか:
- モデルは 「特定のニューロンが必ずある」前提で学習できなくなる
- 結果として、各ニューロンが 「単独で意味を持つ」 学習を強制される(他のニューロンに依存できない)
- これは内部的に「沢山の小さなモデルを並行訓練して、本番でアンサンブルする」のと同じ効果
組織のアナロジー: 毎週ランダムに 30%の社員を強制有給 にする。みんな「自分が居なくても回る仕組み」を意識せざるを得なくなる。これがキーマン依存を破壊する。
L1 / L2 正則化 — 重みが大きくなることを罰する
もう一つの王道、L1 と L2 正則化。これは 損失関数(#014) に直接 「罰則項」 を追加する方法。
L2 正則化(Ridge / Weight Decay)
- 損失に 「全重みの二乗の和」 を加算
- 大きい重みほど罰則が二乗で効くので、モデルは 「全体的に小さい重み」 を選ぶ方向に学習
- 特定の重みが暴走するのを防ぐ(過学習は 「暴走した重みが訓練データの細部に強く反応する」 現象なので、ここを抑える)
- AdamW(#017) の 「W」 がこの Weight Decay。LLM 訓練で標準
L1 正則化(Lasso)
- 損失に 「全重みの絶対値の和」 を加算
- L2 が 「全体的に小さく」 するのに対し、L1 は 「多くの重みを完全にゼロにする」 効果(=スパース化)
- 結果として「重要な少数の特徴だけを使うモデル」が出来上がる
- 特徴選択(どの入力が効いているか)を兼ねたい時に有効
使い分け
- 深層学習一般: L2(Weight Decay)が標準
- LLM: L2 系の Weight Decay、典型値 0.01 〜 0.1
- 特徴選択したい古典的 ML: L1(Lasso 回帰)
- 両方欲しい: Elastic Net(L1 + L2 を混ぜる)
本質: 「依存しすぎない」 を強制する装置
Dropout も L1/L2 も、表面上の手法は違うが、本質は同じ。
正則化の本質は、モデルが 「特定の重み・特定の入力パターン・特定のニューロン」に依存しすぎる ことを禁じること。多様な内部構造を強制することで、結果として汎化能力が上がる。
これは “過学習(#019) の原因を直接ブロックする” 設計。過学習が「訓練データの細部を覚える」現象だとしたら、正則化は「細部を覚えるための強い重みを作れなくする」物理的制約。
LLM 時代の正則化事情 — Dropout が消え、Weight Decay が残った
2010年代の深層学習では、Dropout が主役級だった。AlexNet (2012)、VGG、ResNet など、当時の有名モデルはほぼ Dropout を使っていた。
でも LLM 時代になって状況が変わった。
- GPT-3 以降の巨大 LLM では、Dropout はほぼ使わない(または使ってもごく低い確率)
- 理由: 過学習(#019) 記事で触れた 「スケーリング則」 の通り、巨大モデル + 巨大データでは過学習リスク自体が低い
- Dropout を強くかけると、むしろ 必要な表現力を削ってしまう
- 代わりに Weight Decay(AdamW)が標準的に使われ続けている。これは 「副作用が少なくて常に少しだけ汎化を助ける」 性質があるため
つまり LLM 時代の正則化事情は 「Dropout は控えめか不使用、Weight Decay は常用」 という形に落ち着いている。Dropout が完全に消えたわけではなく、画像認識や中規模モデルではまだ現役。
うーん、Dropout か。…当社の月次レビューで 「ランダムに3割の議題をスキップする」 っていうのは、ふわっとした方向感としては 「効率化」 として既にやってる気がするんだよね。あれが Dropout だったとは。
あら部長、それは Dropout ではなく 「忘却」 ですわよ。3割の議題は 本当に消えて、誰も覚えてないまま 1年後にお客様から指摘される 流れですわ。技術的に申しますと、これは 「過学習対策の正則化」 ではなく 「未学習の促進」 です。
大蔵さん、的確すぎます。…ちなみに Dropout は推論時(本番)では 全ニューロンを使う のが正解で、訓練中だけランダムに切る、というのが肝心です。部長の運用だと、本番(=お客様提案)でも消えたままなので、これは 「訓練と推論の不整合」 という別バグでして…(無言で実装ガイドの PDF を取り出しはじめる)
うーん、川口くんに 「バグ」 と言われた気がするが、私の中の L2 正則化 が 「そんなことはない」 という結論に重みづけしてるね。
部長、ご自身の中の L2 正則化が 「否定」 に過剰重みづけ されているのは、典型的な 「自己防衛バイアス」 ですわ。これは AI でも組織でも、最も 汎化を阻害する パターンですわよ。

コンサル感覚: キーマン依存解消との完全相似
正則化の発想を、組織運営の 「キーマン依存解消」 に翻訳する。
| 正則化の手法 | 組織での対応 |
|---|---|
| Dropout(ランダムに無効化) | 毎週ランダムに社員を強制有給、その間は他のメンバーで回す |
| L2 正則化(重みが大きすぎることを罰) | 個人の年間目標が肥大化しないよう、上限を設定して全員が並走 |
| L1 正則化(多くを完全にゼロに) | 本当に重要な少数の指標だけに絞って、残りは捨てる(KPI 削減) |
| Weight Decay(常に少し抑える) | 毎月の評価で過剰な成果偏重を防ぐ調整係数を入れる |
つまり 正則化 = 組織の 「キーマン依存を物理的に作らせない」 仕組み。機械では毎ステップ自動で実行される、組織では人事制度に組み込む必要がある。両方とも目的は同じ: 「特定の何かに頼りすぎた構造を作らない」。
ふむ、整理がついた。俺の 3週間休んで支店停止 は 「Dropout なし組織」、そして俺自身が 「L2 制約なしで暴走した重み」 だったわけだ。…当時の俺は 「必殺キーマン」 として誇らしかったが、これは 過学習組織の典型だった、と。
社長、まさに。当時の 「1人カリスマ」 評価基準 が、まさにそれを助長してたんですよね。「あいつが居ないと回らない」 = 過学習組織。当社の人事制度も、Dropout 的に ランダムジョブローテーション を入れたほうがいいかもしれません。
フッ、Dropout か。これは ニーチェ が 『ツァラトゥストラ』 で論じた 「超人は孤立を恐れない」 という命題そのものだな。私が以前から…(スマホ通知、配信開始まで残り22分)
御託さん、それは 「超人」 ではなく、配信時間に向けて 「自分の重要度を最小化」 されているだけですわ。ご自身を組織から Dropout されようとされてる、という意味では正しい正則化ですが。
あ、社長、結論として当社の人事制度を 「Dropout + L2 Weight Decay」 準拠で再設計する戦略提言を、パワポ600枚 でまとめさせていただきます。…(これで休日11週連続)
うむ、いいねえ。「Dropout 経営」、響きがいい。儲かるんだろ?
