御託さん、ふと思ったんですけど、AI の学習って 勾配降下(#015) でいいんですよね? なんでわざわざ 「最適化手法」 って別に呼ぶんでしたっけ。
フッ、それじゃ LLM は学習できんよ。素朴な勾配降下には、致命的な欠点が3つある。だから改良が必要だ。
(あ、御託さんの 「本質はそこではない」 モードじゃない…珍しく 具体性のある語り出し…)
あら御託さん、今日は何やら 「妙に詳しい」 モードでいらっしゃいますわね。何かこう、最近 「動画」 でも見ましたかしら?
……(目を逸らす)

- 最適化手法(Optimizer) = ひとことで言えば 「坂の下り方を賢くする工夫」。坂を下って正解に近づく 勾配降下(#015) の進化版。
- 素朴な勾配降下のままでは LLM はうまく学習できない。勢いをつけたり、場所ごとに歩幅を変えたりして、その弱点を補うのが Optimizer の役割(代表格が Adam)。
- イメージは 下り坂のスキーヤー。ただ転がるのではなく、慣性で勢いに乗り、急斜面では歩幅を抑える。だから速く確実にふもとへ着ける。
勾配降下(#015) 記事で「現代の LLM は SGD の派生形が支配している」と書いた。その「派生形」の正体が本記事のテーマ、最適化手法(Optimizer)。
結論を先に: 素朴な勾配降下では、現代の LLM 級モデルは学習できない。「最も急な下り方向に動く」というシンプルなルールは理論的には正しいが、実際の1,750億パラメーター級モデルだと収束が遅すぎる・振動する・局所的に詰まる、といった問題が頻発する。これを乗り越えるための工夫の積み重ねが、Momentum、AdaGrad、RMSprop、Adam、AdamW という一連のアルゴリズム群。
本記事は 「なぜ改良が必要か」と「改良の3軸」 までを押さえる入口記事。個別アルゴリズムの中身は、各 「深掘り記事 準備中」 カードからリンクされる子記事で扱う。
素朴な勾配降下の致命的な3問題
勾配降下(#015) をそのまま LLM 級モデルで回そうとすると、3つの問題が出る。これが「改良が必要だった」理由。
- 谷底でジグザグする: 損失地形が方向によって急峻さが違うと(これが普通)、急な方向に大きく動き、緩い方向にあまり動かない → 谷底に 「ジグザグ」 しながら降りるので遅い
- 重みごとに最適な学習率が違う: よく更新される重みと、めったに更新されない重みでは、最適な歩幅が違う。全重みに同じ学習率を使うとどちらかが必ず 「歩きすぎ or 歩かなさすぎ」
- 平坦な台地でほぼ止まる: 勾配が極めて小さい場所に入ると1歩で 0.0001 しか動けない、事実上 学習が止まる
これらを別々に解決していった結果が、現代の Optimizer 群。
改良の3軸 — 「慣性」「適応学習率」「合体型」
① 慣性(Momentum)
「過去に動いてきた方向」を慣性として加算する。重いボールが谷を転がるイメージ。1番目の問題(ジグザグ) を解決。1986年 Rumelhart らが NN に導入。
② 重みごとの適応学習率(AdaGrad / RMSprop)
各重みが「自分は過去どれだけ動かされたか」を覚えておき、それに応じて学習率を自動調整する。よく動かされる重みは小刻みに、めったに動かない重みは大胆に動かす。2番目の問題(重みごとの最適学習率) を解決。2011年 AdaGrad、2012年 RMSprop。
③ 合体型(Adam / AdamW)
①と②を合体させた万能型。「過去の慣性」+「重みごとの自動学習率」を両方持つ。3つの問題を同時に解決。2014年 Adam が登場、2017年 AdamW が改良版、2026年現在、LLM 訓練の事実上の標準。GPT、Llama、Claude、Mistral、DeepSeek、すべてこの系統で学習されている。
本質: 「状態を持たない単純ルール」から「状態を持つ賢い意思決定者」へ
この3軸の進化を構造で抽象化する。
素朴な勾配降下は 「いまの勾配」だけ を見ていた。Adam 系の本質は、「過去の勾配の履歴」+「重みごとの個別状態」を覚えておく こと。
これは 「状態を持たない単純ルール」 → 「状態を持つ賢い意思決定者」 への進化。各重みは「直近どう動いたか」と「累積でどう動いたか」の両方の情報を持ち、状況に応じた賢い更新ができる。これが純粋な勾配降下では到達できなかった 「実用性」 の正体。
同じ 「状態を持たせて賢くする」 発想は、後で出てくる 学習率スケジューリング や 強化学習の policy gradient 系 でも繰り返される。「状態を持つ最適化器」が現代深層学習の標準パラダイム。
御託さん、3軸の整理、お見事です。…ところで先日、御託さんのデスクトップで 「3D LIVE.mp4」 というファイル名が見えた気がするんですけど、あれは何の動画でしたっけ?
……(急に勾配がゼロに近づいた)
あら、川口くん、御託さんの 「3D LIVE.mp4」 は 「ご家族のホームムービー」 ですわよね、御託さん。きっとそうですわよね。
(御託さんの 「学習源」 が 推し配信のAI解説雑談 説、ほぼ確定…ただ 学習効率は異常に高い のは尊敬する)
いいねいいね、御託くんの “意外な情報源” は、当社の 「隠れた知財」 として再評価しよう。ふわっとした方向感としては、来期から 「動画学習手当」 を新設する方向で。

コンサル感覚: チーム最適化との対比
Optimizer の進化を、組織運営に翻訳する。素朴な勾配降下が「画一的な月次評価」だったとしたら、Adam 系は「個別最適化された継続的改善」に相当する。
| Optimizer の工夫 | 組織での対応 |
|---|---|
| 慣性(Momentum) | 過去の改善方向の 「勢い」 を覚えて、毎月リセットせずに継続 |
| 適応学習率(Adaptive) | メンバーごとに違う成長ペースに合わせて、画一的な目標を押し付けない |
| 合体型(Adam) | 両方を組み合わせて、毎ステップ 「状況に応じた賢い判断」 を機械的に |
機械はこれを 毎ステップ正確に やる。これが、SGD 的な 「毎月リセット + 全員同じ目標」 の組織運営が、Adam 級の AI に長期戦で構造的に追い抜かれる理由。
ふむ、つまり当社の人事評価は 「素朴な SGD」 だった、と。全員同じ目標、毎月リセット。これは現代の AI に長期戦で抜かれる構造だな。
社長、そうです。メンバー個別の成長ペース + 過去の改善継続性 を入れた 「Adam 級の組織運営」 を3カ年計画として、提案資料の最終章に…
(パワポ800枚案件、確定…これで休日8週連続…)
うむ、いいねえ。「Adam 経営」、響きがいい。儲かるんだろ?
