年末年始の有給消化期間、ガラガラの社長室にて…
南雲(社長・60-62)

凡田、暇だから昔話を1つ。俺が 都銀の支店長代理 だった頃な、3週間 インフルで休んだ時 があってな。…支店の融資審査が完全に止まった。俺の 頭の中 にしか審査ノウハウが無かったから、誰も代わりが利かない。これは 「良い人材」 の証明 だと当時は思ってたんだ。

凡田(チームリーダー・38, 主人公)

社長、それは 「Dropout なしの組織」 の典型ですね。1人のキーマンに全部の重みが集中して、新規データ(社長の不在)に全く対応できない状態。過学習の組織版 です。

南雲

Dropout? 誰かを意図的に休ませる、ということか?

凡田

まさに。AI 学習中に ランダムにニューロンを 「ない」 ことにする 技術です。特定の重みに依存させないようにする。組織で言うと、毎週ランダムに誰かを強制有給 にする感じで…

年末年始のガラガラの社長室で南雲がソファに座って凡田に昔話、窓の外は雪景色、温かい照明
このページのまとめ
  • ひとことで言うと 正則化 = モデルが訓練データや特定の重みに 頼りすぎないようにする ための、追加の制約のかけ方。
  • 過学習(#019) 対策の主役。やりすぎな丸暗記を抑え、初見のデータにも効く力(汎化)を取り戻す。
  • イメージは 特定の人に依存しないチーム作り。代表は DropoutL1 / L2(詳細は本文へ)。

過学習(#019) 記事で「対策の4軸」のうち1つとして 正則化 を挙げた、その中身が本記事のテーマ。Early Stopping は 「止め時を決める」 シンプルな対策、データを増やすのは 「材料を多くする」 物理対策。正則化は 「モデルの中に制約を仕込む」 別軸の対策。

結論を先に: 正則化 = モデルが訓練データや特定の重みに依存しすぎないように、追加の制約を入れる。代表は Dropout(ニューロンをランダムに切る)と L1 / L2 正則化(重みが大きくなることを罰する)。LLM では Weight Decay(L2 の発展形)が主役。

Dropout — 訓練中、ニューロンの一部をランダムに 「ない」 ことにする

2014年に Hinton らが提案した、簡単で強力な正則化手法。仕組みは驚くほどシンプル。

Dropout のイメージ、NN のニューロンの一部が訓練中ランダムにグレーアウトされる図

図1: Dropout — 訓練の各ステップで、ニューロンの一部をランダムに無効化する

これで何が起きるか:

組織のアナロジー: 毎週ランダムに 30%の社員を強制有給 にする。みんな「自分が居なくても回る仕組み」を意識せざるを得なくなる。これがキーマン依存を破壊する。

L1 / L2 正則化 — 重みが大きくなることを罰する

もう一つの王道、L1 と L2 正則化。これは 損失関数(#014) に直接 「罰則項」 を追加する方法。

L2 正則化(Ridge / Weight Decay)

L1 正則化(Lasso)

使い分け

本質: 「依存しすぎない」 を強制する装置

Dropout も L1/L2 も、表面上の手法は違うが、本質は同じ。

正則化の本質は、モデルが 「特定の重み・特定の入力パターン・特定のニューロン」に依存しすぎる ことを禁じること。多様な内部構造を強制することで、結果として汎化能力が上がる。

これは “過学習(#019) の原因を直接ブロックする” 設計。過学習が「訓練データの細部を覚える」現象だとしたら、正則化は「細部を覚えるための強い重みを作れなくする」物理的制約。

LLM 時代の正則化事情 — Dropout が消え、Weight Decay が残った

2010年代の深層学習では、Dropout が主役級だった。AlexNet (2012)、VGG、ResNet など、当時の有名モデルはほぼ Dropout を使っていた。

でも LLM 時代になって状況が変わった。

つまり LLM 時代の正則化事情は 「Dropout は控えめか不使用、Weight Decay は常用」 という形に落ち着いている。Dropout が完全に消えたわけではなく、画像認識や中規模モデルではまだ現役。

登場人物の反応 ①
赤崎(部長 / AI戦略推進室室長・42)

うーん、Dropout か。…当社の月次レビューで 「ランダムに3割の議題をスキップする」 っていうのは、ふわっとした方向感としては 「効率化」 として既にやってる気がするんだよね。あれが Dropout だったとは。

大蔵(アシスタントマネージャー・35)

あら部長、それは Dropout ではなく 「忘却」 ですわよ。3割の議題は 本当に消えて、誰も覚えてないまま 1年後にお客様から指摘される 流れですわ。技術的に申しますと、これは 「過学習対策の正則化」 ではなく 「未学習の促進」 です。

川口(アナリスト・22)

大蔵さん、的確すぎます。…ちなみに Dropout は推論時(本番)では 全ニューロンを使う のが正解で、訓練中だけランダムに切る、というのが肝心です。部長の運用だと、本番(=お客様提案)でも消えたままなので、これは 「訓練と推論の不整合」 という別バグでして…(無言で実装ガイドの PDF を取り出しはじめる)

赤崎

うーん、川口くんに 「バグ」 と言われた気がするが、私の中の L2 正則化「そんなことはない」 という結論に重みづけしてるね。

大蔵

部長、ご自身の中の L2 正則化が 「否定」 に過剰重みづけ されているのは、典型的な 「自己防衛バイアス」 ですわ。これは AI でも組織でも、最も 汎化を阻害する パターンですわよ。

会議室で赤崎が

コンサル感覚: キーマン依存解消との完全相似

正則化の発想を、組織運営の 「キーマン依存解消」 に翻訳する。

正則化の手法 組織での対応
Dropout(ランダムに無効化) 毎週ランダムに社員を強制有給、その間は他のメンバーで回す
L2 正則化(重みが大きすぎることを罰) 個人の年間目標が肥大化しないよう、上限を設定して全員が並走
L1 正則化(多くを完全にゼロに) 本当に重要な少数の指標だけに絞って、残りは捨てる(KPI 削減)
Weight Decay(常に少し抑える) 毎月の評価で過剰な成果偏重を防ぐ調整係数を入れる

つまり 正則化 = 組織の 「キーマン依存を物理的に作らせない」 仕組み。機械では毎ステップ自動で実行される、組織では人事制度に組み込む必要がある。両方とも目的は同じ: 「特定の何かに頼りすぎた構造を作らない」

登場人物の反応 ②
南雲(社長・60-62)

ふむ、整理がついた。俺の 3週間休んで支店停止「Dropout なし組織」、そして俺自身が 「L2 制約なしで暴走した重み」 だったわけだ。…当時の俺は 「必殺キーマン」 として誇らしかったが、これは 過学習組織の典型だった、と。

凡田(チームリーダー・38, 主人公)

社長、まさに。当時の 「1人カリスマ」 評価基準 が、まさにそれを助長してたんですよね。「あいつが居ないと回らない」 = 過学習組織。当社の人事制度も、Dropout 的に ランダムジョブローテーション を入れたほうがいいかもしれません。

御託(シニアコンサル・39)

フッ、Dropout か。これは ニーチェ『ツァラトゥストラ』 で論じた 「超人は孤立を恐れない」 という命題そのものだな。私が以前から…(スマホ通知、配信開始まで残り22分)

大蔵

御託さん、それは 「超人」 ではなく、配信時間に向けて 「自分の重要度を最小化」 されているだけですわ。ご自身を組織から Dropout されようとされてる、という意味では正しい正則化ですが。

川口

あ、社長、結論として当社の人事制度を 「Dropout + L2 Weight Decay」 準拠で再設計する戦略提言を、パワポ600枚 でまとめさせていただきます。…(これで休日11週連続)

南雲

うむ、いいねえ。「Dropout 経営」、響きがいい。儲かるんだろ?

社長室で南雲がソファに座って一人 深く考え込む、窓の外は雪、テーブルに温かいコーヒー