勾配降下(Gradient Descent) — 一番急な下り方向を計算してそっちに歩く、霧の中の正攻法下山

ランチ後の眠気と戦いながら…

凡田(チームリーダー・38, 主人公)

川口、損失(#014) を下げる方向を計算する あのアルゴリズム、なんて言うんだっけ。資料に1行入れたくて。

川口(アナリスト・22)

勾配降下 です。あ、これ完全に 鉄道計画 と同じなんですよ。JR 北海道の 「おおぞら」 で、根室本線の 滝川〜新得 間の 狩勝峠 を越えるルート、これ 勾配最適化の歴史 がそのままで、明治時代の 33.3‰ から大正の 新狩勝トンネル開通 で 20‰ まで下げて、いまの 石勝線 ルートだと…

凡田

(止まる気配がない…)

大蔵(アシスタントマネージャー・35)

あら凡田さん、川口くんの 「勾配」 が 機械学習の勾配 から 鉄道の勾配 に 確率的に降下 してしまわれたみたいですわね。…まあ、本人は 同じ単語 として処理されてますの。

会議室で川口が熱量高めに鉄道路線図を広げて説明、凡田が困惑した目で見て、大蔵が冷静に観察

このページのまとめ

勾配降下 = ズレ(損失)の「山」を、一番急な下り方向へ一歩ずつ降りていく やり方。ひとことで言えば「とにかく下りが急なほうへ進む」。
AI 学習の主役アルゴリズム。「重みをどっちに、どれだけ動かせばズレが減るか」を決めているのがこれ。学習の心臓部。
イメージは 霧の中で山を下る登山者。全体地図は見えなくても、足元の傾きだけを頼りに少しずつ低いほうへ(歩幅や落とし穴は本文で)。

訓練(#013) 記事で「重みをズレが減る方向に少し動かす」と書いた、その 「方向」と「少し」の決め方 が本記事のテーマ。AI 学習の心臓部にあるアルゴリズム、勾配降下。

結論を先に: 勾配降下 = 損失関数の「山」を、最も急な下り方向に向かって少しずつ降りていく方法。それ以上でもそれ以下でもない。シンプルな考え方が、GPT-3 の 1,750億パラメーター(#010) を学習させる主役になっている。

原理は 霧の中の登山者。視界が悪く全体地図は見えない。だけど、足元の傾きだけは分かる。「いまの足元で一番急に下がっている方向に一歩進む」を延々と繰り返せば、いつか谷底にたどり着く。これが勾配降下の全て。

「最も急な下り方向」をどう計算するか — 勾配の逆方向

機械の中では、登山者の足元の傾きにあたるのが 勾配(gradient)。

勾配 = 「各重みを微妙に動かしたとき、損失がどっち向きに、どれだけ変わるか」を全重みに対して計算した方向のセット
勾配の逆方向 = 損失が最も急に減る方向(数学的に証明される)
つまり「勾配を計算して、その逆向きに重みを動かす」だけで、損失が確実に減る

この計算を全重み(1,750億個)(#009) に対して同時にやる。1ステップで1,750億方向ベクトルを計算する。重い。これを効率的にやる仕組みが逆伝播(Backpropagation)(#016)。

図1: 勾配降下のイメージ — 損失関数の「山」を最急下り方向に降りていく

学習率(step size) — 1歩の大きさを決める

勾配の方向は決まった。次は 「1歩でどれだけ動くか」。これが 学習率(learning rate)。訓練(#013) 記事で触れた3大ハイパーパラメーターのひとつ。

学習率が大きすぎる場合

1歩で谷を飛び越えてしまう、向こう側の斜面に着地
そこからまた最急下り方向に動く → また向こう側へ
結果として 「暴走」して収束しない。損失が下がるどころか上下に揺れる、最悪は無限大に発散

学習率が小さすぎる場合

1歩で 1cm しか動かない、谷底まで気が遠くなる回数のステップが必要
GPT-3 級の訓練だと、収束に数千年かかる計算になる(現実的には不可能)

現代のテクニック

学習率スケジューリング: 最初は大きく(早く粗く下る)、徐々に小さくしていく(精密に底を狙う)
Warmup: 最初の数千ステップは特に小さく始め、徐々に上げる(初期暴走防止)
Adam / RMSprop: 各重みごとに自動で学習率を調整するアルゴリズム(別記事予定)

局所最適 — 「ここが谷底だと思ったら、隣の方が深かった」

勾配降下は 必ず「どこかの谷底」にたどり着く。問題は、それが 本当に最低点(=大域最適) か、それとも たまたま近くにあった盆地(=局所最適) かが分からないこと。

霧の中の登山者で言えば、「ここが下まで来た」と思ってリュックを下ろしたら、もう一山越えた向こうにもっと深い谷があるかもしれない。だけど、霧で見えないから分からない。

機械学習でも全く同じことが起きる。1,750億次元(#010) の空間に、無数の「盆地」が散らばっていて、勾配降下はそのうち1つにしか到達できない。

古典的な悩み: 「うちのモデル、損失 0.03 で収束したけど、別の初期値で再訓練したら 0.02 まで下がった。最初のは局所最適だった」
意外な実証: 深層学習の現場では、局所最適は思ったほど深刻な問題ではない ことが分かってきた。高次元空間では、ほとんどの局所最適が大域最適と「ほぼ同じ性能」を持つ(理論的解析あり)
とはいえ初期値ガチャ: 訓練を何度かやり直して、一番良いものを採用するのは普通のプラクティス

SGD(確率的勾配降下) — データの一部で勾配を計算する

普通の勾配降下(バッチ勾配降下)は、毎ステップで 全データを使って勾配を計算 する。これは GPT-3 の事前訓練(3,000億トークン)で1ステップ毎にやると、現実的に不可能。

そこで生まれたのが SGD(Stochastic Gradient Descent / 確率的勾配降下)。

毎ステップ、データの一部(=ミニバッチ) だけで勾配を計算
計算量が 桁違いに軽い(全データ vs 32〜数千件のサンプル)
勾配にノイズが乗るが、結果的に 局所最適から脱出できる効果 もある(偶然の揺らぎで盆地を飛び出せる)

つまり SGD は「速くて軽くて、しかも副作用で良い解にたどり着きやすい」という三拍子。現代の LLM 訓練は SGD の派生形(Adam 等) がほぼ全てを支配している。

登場人物の反応 ①

赤崎(部長 / AI戦略推進室室長・42)

いいねいいね、勾配降下。これ キャンプ でテント張る場所を探すときの感覚に似てるね。「なんとなく平らで風当たりがゆるい方向」に少しずつ歩く。実はあれ、勾配降下なんだろうな。

川口(アナリスト・22)

赤崎部長、それは 多目的最適化 でして、損失関数が「地面の平らさ + 風の弱さ」の 2変量重みづけ和。技術的には部長は 2軸スカラー化勾配降下 を実行されてます。…ちなみに JR 北海道の 新狩勝トンネル の建設経緯も、勾配と カーブ半径 と 用地買収コスト の3変量最適化で…

大蔵(アシスタントマネージャー・35)

川口くん、勾配の話題が来ると停止が困難 なご様子ですわね。これは 学習率が大きすぎる暴走モード とお見受けしますが、いかが?

御託(シニアコンサル・39)

フッ、私のような知性は、勾配を サンデル流に「正義の探索」 として扱うがな。ニーチェ も 『ツァラトゥストラ』 で語ったろう、「山を降りる者は谷を識る」 と。…(あ、配信通知、ホロライブ3D 残り20分)

凡田(チームリーダー・38, 主人公)

御託さん、ニーチェは 「神は死んだ」 でしか覚えてないですけど、「山を降りる者は谷を識る」 はちょっと勾配降下を言い当てすぎていて怖いです。…で、結論として勾配降下は資料に 「損失を最小化するための最急下降法」 って1行で書いておきます。

赤崎が霧深いキャンプ場で地面の傾きを確かめながらテント設営位置を探している、川口が横で熱く解説、大蔵が冷静に見守る

コンサル業務に寄せる — PDCA との対比

勾配降下を、コンサル業務でおなじみの PDCA サイクル に重ねる。

勾配降下のステップ	PDCA との対応	違い
現在地で勾配計算(=どの方向に動けば損失が減るか)	C: Check(KPI 確認、ボトルネック特定)	機械は数学的に正確に「下り方向」を計算、人間は経験と直感
勾配の逆方向に1歩動く(=重みを少し更新)	A: Act → P: Plan(改善策を実行)	機械は秒間数百ステップ、人間は週1〜月1
新しい位置で再度勾配計算	D: Do(実行と次回 Check への準備)	機械は途切れずループ、人間は会議体に依存
収束したら終了(損失が下がらなくなる)	(PDCA は終わらない)	機械は明確な停止基準あり、人間は無限ループ気味

つまり 勾配降下 = 高速で正確で疲れない PDCA。違いは「計測の精度」と「反復速度」と「感情の有無」。

逆に、人間の PDCA が機械の勾配降下より優れる場面もある:

損失関数が定義不能 な場面(=何を最適化すべきか自体が決まってない)。新規事業の方針決定など
勾配を超えた「ジャンプ」 が必要な場面(=パラダイムシフト、業態転換)。これは勾配降下が原理的にできない
政治と感情 が絡む場面。機械には人間関係のしがらみが見えない

機械が勾配降下で局所最適に陥りやすいのと同じく、PDCA だけ回し続ける組織も 「今のビジネスモデル内での改善」 しかできなくなり、業態転換に弱くなる。これが大企業が破壊的イノベーションに対応しづらい構造的理由。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり PDCA だけ回してる組織は局所最適 ということか。…俺の都銀OB会で 「銀行はPDCAを完璧に回した結果ガラパゴス化した」 という話が出るんだが、これも勾配降下と同じ構造だな。「ジャンプ」は機械にも人間にも難しい のだ。

凡田(チームリーダー・38, 主人公)

社長、まさにそれです。勾配降下では業態転換ができない。だから AI も 「同じビジネスモデルの中で延々と最適化」 はめっぽう得意ですが、「次の事業を作る」 は今のところ人間の役割で…

赤崎

うーん、ふわっとした方向感としては、当社の 事業転換も AI に任せたい んだけど。…川口くん、「業態転換 AI」 って論文ある?

川口

赤崎部長、それは 強化学習 + 探索アルゴリズム(MCTS や Evolution Strategy) の領域でして、純粋な勾配降下では原理的に 新しい盆地への大ジャンプ ができないんです。ただ、最近の AlphaEvolve 系では…(無言で論文 PDF を10本ほどタブで開きはじめる)

大蔵

川口くんがブラウザのタブを 10本一気 に開かれるのは、ご自身の 勾配が「鉄道」から「強化学習」に再降下 されたサインですわね。今度は 新しい局所最適 に向かわれるご様子。

御託

……(スマホを伏せて立ち上がる、配信時間)

南雲

御託、また iPad を持ってトイレか? …まあいい。勾配降下も「局所最適」でいいから、まず動かしてみる、これが正解だな。パワポ500枚 でまとめてくれ、川口くん。儲かるんだろ?

川口

あ、はい、やっておきます。(これで休日6週目…局所最適から抜け出せない)

南雲がオフィスでホワイトボードのPDCAサイクル図を見つめながら「局所最適か」と呟いている、凡田が横で頷く

KEY TAKEAWAYS

抑えておきたいポイント

勾配降下 = 損失関数の「山」を最も急な下り方向に降りる方法。AI 学習の主役アルゴリズム。
「最も急な下り方向」= 勾配の逆方向。各重みごとに「どっち向きにどれだけ動かせば損失が減るか」を計算。
1歩の大きさ = 学習率。大きすぎ暴走 / 小さすぎ遅すぎ。スケジューリング・Warmup・Adam で実用化。
霧の中の登山者: 全体地図は見えない、足元の傾きだけで降りる。
局所最適 の罠あり。ただし高次元空間ではほぼ気にしなくていい(深層学習の実証的発見)。
LLM 学習では SGD(確率的勾配降下) + Adam 等の派生形。データの一部だけで勾配計算、軽くて副作用で良解に行きやすい。
コンサル感覚: 高速・正確・疲れない PDCA。ただし業態転換(=「大ジャンプ」)は原理的に苦手。人間の出番はそこ。