役員室前の廊下にて、提案前の調整時間で…
凡田(チームリーダー・38, 主人公)

御託さん、ふと思ったんですけど、AI の学習って 勾配降下(#015) でいいんですよね? なんでわざわざ 「最適化手法」 って別に呼ぶんでしたっけ。

御託(シニアコンサル・39)

フッ、それじゃ LLM は学習できんよ。素朴な勾配降下には、致命的な欠点が3つある。だから改良が必要だ。

凡田

(あ、御託さんの 「本質はそこではない」 モードじゃない…珍しく 具体性のある語り出し…)

大蔵(アシスタントマネージャー・35)

あら御託さん、今日は何やら 「妙に詳しい」 モードでいらっしゃいますわね。何かこう、最近 「動画」 でも見ましたかしら?

御託

……(目を逸らす)

役員室前の廊下で御託が珍しく真面目な顔で凡田に解説、大蔵が眉を上げて観察、御託は微妙に目を逸らす
このページのまとめ
  • 最適化手法(Optimizer) = ひとことで言えば 「坂の下り方を賢くする工夫」。坂を下って正解に近づく 勾配降下(#015) の進化版。
  • 素朴な勾配降下のままでは LLM はうまく学習できない。勢いをつけたり、場所ごとに歩幅を変えたりして、その弱点を補うのが Optimizer の役割(代表格が Adam)。
  • イメージは 下り坂のスキーヤー。ただ転がるのではなく、慣性で勢いに乗り、急斜面では歩幅を抑える。だから速く確実にふもとへ着ける。

勾配降下(#015) 記事で「現代の LLM は SGD の派生形が支配している」と書いた。その「派生形」の正体が本記事のテーマ、最適化手法(Optimizer)

結論を先に: 素朴な勾配降下では、現代の LLM 級モデルは学習できない。「最も急な下り方向に動く」というシンプルなルールは理論的には正しいが、実際の1,750億パラメーター級モデルだと収束が遅すぎる・振動する・局所的に詰まる、といった問題が頻発する。これを乗り越えるための工夫の積み重ねが、Momentum、AdaGrad、RMSprop、Adam、AdamW という一連のアルゴリズム群。

本記事は 「なぜ改良が必要か」と「改良の3軸」 までを押さえる入口記事。個別アルゴリズムの中身は、各 「深掘り記事 準備中」 カードからリンクされる子記事で扱う。

素朴な勾配降下の致命的な3問題

勾配降下(#015) をそのまま LLM 級モデルで回そうとすると、3つの問題が出る。これが「改良が必要だった」理由。

  1. 谷底でジグザグする: 損失地形が方向によって急峻さが違うと(これが普通)、急な方向に大きく動き、緩い方向にあまり動かない → 谷底に 「ジグザグ」 しながら降りるので遅い
  2. 重みごとに最適な学習率が違う: よく更新される重みと、めったに更新されない重みでは、最適な歩幅が違う。全重みに同じ学習率を使うとどちらかが必ず 「歩きすぎ or 歩かなさすぎ」
  3. 平坦な台地でほぼ止まる: 勾配が極めて小さい場所に入ると1歩で 0.0001 しか動けない、事実上 学習が止まる

これらを別々に解決していった結果が、現代の Optimizer 群。

改良の3軸 — 「慣性」「適応学習率」「合体型」

最適化手法の系譜: SGD → Momentum → AdaGrad → RMSprop → Adam → AdamW

図1: 最適化手法の系譜 — 3軸の改良を継承して LLM 級まで進化

① 慣性(Momentum)

「過去に動いてきた方向」を慣性として加算する。重いボールが谷を転がるイメージ。1番目の問題(ジグザグ) を解決。1986年 Rumelhart らが NN に導入。

② 重みごとの適応学習率(AdaGrad / RMSprop)

各重みが「自分は過去どれだけ動かされたか」を覚えておき、それに応じて学習率を自動調整する。よく動かされる重みは小刻みに、めったに動かない重みは大胆に動かす。2番目の問題(重みごとの最適学習率) を解決。2011年 AdaGrad、2012年 RMSprop。

③ 合体型(Adam / AdamW)

①と②を合体させた万能型。「過去の慣性」+「重みごとの自動学習率」を両方持つ。3つの問題を同時に解決。2014年 Adam が登場、2017年 AdamW が改良版、2026年現在、LLM 訓練の事実上の標準。GPT、Llama、Claude、Mistral、DeepSeek、すべてこの系統で学習されている。

本質: 「状態を持たない単純ルール」から「状態を持つ賢い意思決定者」へ

この3軸の進化を構造で抽象化する。

素朴な勾配降下は 「いまの勾配」だけ を見ていた。Adam 系の本質は、「過去の勾配の履歴」+「重みごとの個別状態」を覚えておく こと。

これは 「状態を持たない単純ルール」 → 「状態を持つ賢い意思決定者」 への進化。各重みは「直近どう動いたか」と「累積でどう動いたか」の両方の情報を持ち、状況に応じた賢い更新ができる。これが純粋な勾配降下では到達できなかった 「実用性」 の正体。

同じ 「状態を持たせて賢くする」 発想は、後で出てくる 学習率スケジューリング強化学習の policy gradient 系 でも繰り返される。「状態を持つ最適化器」が現代深層学習の標準パラダイム。

登場人物の反応 ①
川口(アナリスト・22)

御託さん、3軸の整理、お見事です。…ところで先日、御託さんのデスクトップで 「3D LIVE.mp4」 というファイル名が見えた気がするんですけど、あれは何の動画でしたっけ?

御託(シニアコンサル・39)

……(急に勾配がゼロに近づいた)

大蔵

あら、川口くん、御託さんの 「3D LIVE.mp4」「ご家族のホームムービー」 ですわよね、御託さん。きっとそうですわよね。

凡田(チームリーダー・38, 主人公)

(御託さんの 「学習源」 が 推し配信のAI解説雑談 説、ほぼ確定…ただ 学習効率は異常に高い のは尊敬する)

赤崎(部長・42)

いいねいいね、御託くんの “意外な情報源” は、当社の 「隠れた知財」 として再評価しよう。ふわっとした方向感としては、来期から 「動画学習手当」 を新設する方向で。

御託のデスクで開きっぱなしのデスクトップ画面にMP4ファイル名がチラ見え、大蔵が眼鏡を直しながら冷静に観察、御託は冷や汗

コンサル感覚: チーム最適化との対比

Optimizer の進化を、組織運営に翻訳する。素朴な勾配降下が「画一的な月次評価」だったとしたら、Adam 系は「個別最適化された継続的改善」に相当する。

Optimizer の工夫 組織での対応
慣性(Momentum) 過去の改善方向の 「勢い」 を覚えて、毎月リセットせずに継続
適応学習率(Adaptive) メンバーごとに違う成長ペースに合わせて、画一的な目標を押し付けない
合体型(Adam) 両方を組み合わせて、毎ステップ 「状況に応じた賢い判断」 を機械的に

機械はこれを 毎ステップ正確に やる。これが、SGD 的な 「毎月リセット + 全員同じ目標」 の組織運営が、Adam 級の AI に長期戦で構造的に追い抜かれる理由。

登場人物の反応 ②
南雲(社長・60-62)

ふむ、つまり当社の人事評価は 「素朴な SGD」 だった、と。全員同じ目標、毎月リセット。これは現代の AI に長期戦で抜かれる構造だな。

凡田(チームリーダー・38, 主人公)

社長、そうです。メンバー個別の成長ペース + 過去の改善継続性 を入れた 「Adam 級の組織運営」 を3カ年計画として、提案資料の最終章に…

川口

(パワポ800枚案件、確定…これで休日8週連続…)

南雲

うむ、いいねえ。「Adam 経営」、響きがいい。儲かるんだろ?

会議室で南雲が「AdamW経営、響きがいい」と満足げ、凡田が頷き、川口がパワポ枚数で内心ため息、御託が背景でスマホを伏せる