最適化手法(Optimizer) — なぜ素朴な勾配降下では LLM が学習できないか、改良の3軸

役員室前の廊下にて、提案前の調整時間で…

凡田(チームリーダー・38, 主人公)

御託さん、ふと思ったんですけど、AI の学習って勾配降下(#015) でいいんですよね? なんでわざわざ 「最適化手法」 って別に呼ぶんでしたっけ。

御託(シニアコンサル・39)

フッ、それじゃ LLM は学習できんよ。素朴な勾配降下には、致命的な欠点が3つある。だから改良が必要だ。

凡田

(あ、御託さんの「本質はそこではない」モードじゃない…珍しく 具体性のある語り出し…)

大蔵(アシスタントマネージャー・35)

あら御託さん、今日は何やら 「妙に詳しい」 モードでいらっしゃいますわね。何かこう、最近 「動画」 でも見ましたかしら?

御託

……(目を逸らす)

このページのまとめ

最適化手法(Optimizer) = ひとことで言えば 「坂の下り方を賢くする工夫」。坂を下って正解に近づく勾配降下(#015) の進化版。
素朴な勾配降下のままでは LLM はうまく学習できない。勢いをつけたり、場所ごとに歩幅を変えたりして、その弱点を補うのが Optimizer の役割(代表格が Adam)。
イメージは 下り坂のスキーヤー。ただ転がるのではなく、慣性で勢いに乗り、急斜面では歩幅を抑える。だから速く確実にふもとへ着ける。

勾配降下(#015) 記事で「現代の LLM は SGD の派生形が支配している」と書いた。その「派生形」の正体が本記事のテーマ、最適化手法(Optimizer)。

結論を先に: 素朴な勾配降下では、現代の LLM 級モデルは学習できない。「最も急な下り方向に動く」というシンプルなルールは理論的には正しいが、実際の1,750億パラメーター級モデルだと収束が遅すぎる・振動する・局所的に詰まる、といった問題が頻発する。これを乗り越えるための工夫の積み重ねが、Momentum、AdaGrad、RMSprop、Adam、AdamW という一連のアルゴリズム群。

本記事は 「なぜ改良が必要か」と「改良の3軸」 までを押さえる入口記事。個別アルゴリズムの中身は、各「深掘り記事準備中」カードからリンクされる子記事で扱う。

素朴な勾配降下の致命的な3問題

勾配降下(#015) をそのまま LLM 級モデルで回そうとすると、3つの問題が出る。これが「改良が必要だった」理由。

谷底でジグザグする: 損失地形が方向によって急峻さが違うと(これが普通)、急な方向に大きく動き、緩い方向にあまり動かない → 谷底に「ジグザグ」しながら降りるので遅い
重みごとに最適な学習率が違う: よく更新される重みと、めったに更新されない重みでは、最適な歩幅が違う。全重みに同じ学習率を使うとどちらかが必ず「歩きすぎ or 歩かなさすぎ」
平坦な台地でほぼ止まる: 勾配が極めて小さい場所に入ると1歩で 0.0001 しか動けない、事実上学習が止まる

これらを別々に解決していった結果が、現代の Optimizer 群。

改良の3軸 — 「慣性」「適応学習率」「合体型」

最適化手法の系譜: SGD → Momentum → AdaGrad → RMSprop → Adam → AdamW

図1: 最適化手法の系譜 — 3軸の改良を継承して LLM 級まで進化

① 慣性(Momentum)

「過去に動いてきた方向」を慣性として加算する。重いボールが谷を転がるイメージ。1番目の問題(ジグザグ) を解決。1986年 Rumelhart らが NN に導入。

② 重みごとの適応学習率(AdaGrad / RMSprop)

各重みが「自分は過去どれだけ動かされたか」を覚えておき、それに応じて学習率を自動調整する。よく動かされる重みは小刻みに、めったに動かない重みは大胆に動かす。2番目の問題(重みごとの最適学習率) を解決。2011年 AdaGrad、2012年 RMSprop。

③ 合体型(Adam / AdamW)

①と②を合体させた万能型。「過去の慣性」+「重みごとの自動学習率」を両方持つ。3つの問題を同時に解決。2014年 Adam が登場、2017年 AdamW が改良版、2026年現在、LLM 訓練の事実上の標準。GPT、Llama、Claude、Mistral、DeepSeek、すべてこの系統で学習されている。

本質: 「状態を持たない単純ルール」から「状態を持つ賢い意思決定者」へ

この3軸の進化を構造で抽象化する。

素朴な勾配降下は 「いまの勾配」だけ を見ていた。Adam 系の本質は、「過去の勾配の履歴」+「重みごとの個別状態」を覚えておく こと。

これは 「状態を持たない単純ルール」 → 「状態を持つ賢い意思決定者」 への進化。各重みは「直近どう動いたか」と「累積でどう動いたか」の両方の情報を持ち、状況に応じた賢い更新ができる。これが純粋な勾配降下では到達できなかった「実用性」の正体。

同じ「状態を持たせて賢くする」発想は、後で出てくる 学習率スケジューリング や 強化学習の policy gradient 系 でも繰り返される。「状態を持つ最適化器」が現代深層学習の標準パラダイム。

登場人物の反応 ①

川口(アナリスト・22)

御託さん、3軸の整理、お見事です。…ところで先日、御託さんのデスクトップで 「3D LIVE.mp4」 というファイル名が見えた気がするんですけど、あれは何の動画でしたっけ?

御託(シニアコンサル・39)

……(急に勾配がゼロに近づいた)

大蔵

あら、川口くん、御託さんの 「3D LIVE.mp4」 は 「ご家族のホームムービー」 ですわよね、御託さん。きっとそうですわよね。

凡田(チームリーダー・38, 主人公)

(御託さんの「学習源」が 推し配信のAI解説雑談 説、ほぼ確定…ただ 学習効率は異常に高い のは尊敬する)

赤崎(部長・42)

いいねいいね、御託くんの “意外な情報源” は、当社の 「隠れた知財」 として再評価しよう。ふわっとした方向感としては、来期から 「動画学習手当」 を新設する方向で。

御託のデスクで開きっぱなしのデスクトップ画面にMP4ファイル名がチラ見え、大蔵が眼鏡を直しながら冷静に観察、御託は冷や汗

コンサル感覚: チーム最適化との対比

Optimizer の進化を、組織運営に翻訳する。素朴な勾配降下が「画一的な月次評価」だったとしたら、Adam 系は「個別最適化された継続的改善」に相当する。

Optimizer の工夫	組織での対応
慣性(Momentum)	過去の改善方向の「勢い」を覚えて、毎月リセットせずに継続
適応学習率(Adaptive)	メンバーごとに違う成長ペースに合わせて、画一的な目標を押し付けない
合体型(Adam)	両方を組み合わせて、毎ステップ「状況に応じた賢い判断」を機械的に

機械はこれを 毎ステップ正確に やる。これが、SGD 的な「毎月リセット + 全員同じ目標」の組織運営が、Adam 級の AI に長期戦で構造的に追い抜かれる理由。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり当社の人事評価は 「素朴な SGD」 だった、と。全員同じ目標、毎月リセット。これは現代の AI に長期戦で抜かれる構造だな。

凡田(チームリーダー・38, 主人公)

社長、そうです。メンバー個別の成長ペース + 過去の改善継続性 を入れた「Adam 級の組織運営」を3カ年計画として、提案資料の最終章に…

川口

(パワポ800枚案件、確定…これで休日8週連続…)

南雲

うむ、いいねえ。「Adam 経営」、響きがいい。儲かるんだろ?

KEY TAKEAWAYS

抑えておきたいポイント

Optimizer = 素朴な勾配降下では LLM が学習できないので、それを実用化するための改良の総称。
素朴な勾配降下の3問題: ジグザグ振動 / 重みごとの最適学習率 / 平坦地でほぼ止まる。
改良の3軸: ① 慣性(Momentum)/ ② 適応学習率(AdaGrad・RMSprop)/ ③ 合体型(Adam・AdamW)。
LLM 訓練の事実上の標準は AdamW。GPT、Llama、Claude、Mistral、DeepSeek すべてこの系統。
本質: 「状態を持たない単純ルール」から「過去を覚える賢い意思決定者」への進化。これが純粋な勾配降下では到達できなかった「実用性」の正体。
コンサル感覚: 「画一的な月次評価」から「個別最適化された継続的改善」への進化 と同型。