川口、損失(#014) を下げる方向を計算する あのアルゴリズム、なんて言うんだっけ。資料に1行入れたくて。
勾配降下 です。あ、これ完全に 鉄道計画 と同じなんですよ。JR 北海道の 「おおぞら」 で、根室本線の 滝川〜新得 間の 狩勝峠 を越えるルート、これ 勾配最適化の歴史 がそのままで、明治時代の 33.3‰ から大正の 新狩勝トンネル開通 で 20‰ まで下げて、いまの 石勝線 ルートだと…
(止まる気配がない…)
あら凡田さん、川口くんの 「勾配」 が 機械学習の勾配 から 鉄道の勾配 に 確率的に降下 してしまわれたみたいですわね。…まあ、本人は 同じ単語 として処理されてますの。

- 勾配降下 = ズレ(損失)の 「山」 を、一番急な下り方向へ一歩ずつ降りていく やり方。ひとことで言えば「とにかく下りが急なほうへ進む」。
- AI 学習の主役アルゴリズム。「重みをどっちに、どれだけ動かせばズレが減るか」を決めているのがこれ。学習の心臓部。
- イメージは 霧の中で山を下る登山者。全体地図は見えなくても、足元の傾きだけを頼りに少しずつ低いほうへ(歩幅や落とし穴は本文で)。
訓練(#013) 記事で「重みをズレが減る方向に少し動かす」と書いた、その 「方向」 と 「少し」 の決め方 が本記事のテーマ。AI 学習の心臓部にあるアルゴリズム、勾配降下。
結論を先に: 勾配降下 = 損失関数の 「山」 を、最も急な下り方向に向かって少しずつ降りていく方法。それ以上でもそれ以下でもない。シンプルな考え方が、GPT-3 の 1,750億パラメーター(#010) を学習させる主役になっている。
原理は 霧の中の登山者。視界が悪く全体地図は見えない。だけど、足元の傾きだけは分かる。「いまの足元で一番急に下がっている方向に一歩進む」を延々と繰り返せば、いつか谷底にたどり着く。これが勾配降下の全て。
「最も急な下り方向」をどう計算するか — 勾配の逆方向
機械の中では、登山者の足元の傾きにあたるのが 勾配(gradient)。
- 勾配 = 「各重みを微妙に動かしたとき、損失がどっち向きに、どれだけ変わるか」を全重みに対して計算した方向のセット
- 勾配の逆方向 = 損失が最も急に減る方向(数学的に証明される)
- つまり「勾配を計算して、その逆向きに重みを動かす」だけで、損失が確実に減る
この計算を 全重み(1,750億個)(#009) に対して同時にやる。1ステップで1,750億方向ベクトルを計算する。重い。これを効率的にやる仕組みが 逆伝播(Backpropagation)(#016)。
学習率(step size) — 1歩の大きさを決める
勾配の方向は決まった。次は 「1歩でどれだけ動くか」。これが 学習率(learning rate)。訓練(#013) 記事で触れた3大ハイパーパラメーターのひとつ。
学習率が大きすぎる場合
- 1歩で谷を飛び越えてしまう、向こう側の斜面に着地
- そこからまた最急下り方向に動く → また向こう側へ
- 結果として 「暴走」 して収束しない。損失が下がるどころか上下に揺れる、最悪は無限大に発散
学習率が小さすぎる場合
- 1歩で 1cm しか動かない、谷底まで気が遠くなる回数のステップが必要
- GPT-3 級の訓練だと、収束に数千年かかる計算になる(現実的には不可能)
現代のテクニック
- 学習率スケジューリング: 最初は大きく(早く粗く下る)、徐々に小さくしていく(精密に底を狙う)
- Warmup: 最初の数千ステップは特に小さく始め、徐々に上げる(初期暴走防止)
- Adam / RMSprop: 各重みごとに自動で学習率を調整するアルゴリズム(別記事予定)
局所最適 — 「ここが谷底だと思ったら、隣の方が深かった」
勾配降下は 必ず 「どこかの谷底」 にたどり着く。問題は、それが 本当に最低点(=大域最適) か、それとも たまたま近くにあった盆地(=局所最適) かが分からないこと。
霧の中の登山者で言えば、「ここが下まで来た」と思ってリュックを下ろしたら、もう一山越えた向こうにもっと深い谷があるかもしれない。だけど、霧で見えないから分からない。
機械学習でも全く同じことが起きる。1,750億次元(#010) の空間に、無数の 「盆地」 が散らばっていて、勾配降下はそのうち1つにしか到達できない。
- 古典的な悩み: 「うちのモデル、損失 0.03 で収束したけど、別の初期値で再訓練したら 0.02 まで下がった。最初のは局所最適だった」
- 意外な実証: 深層学習の現場では、局所最適は思ったほど深刻な問題ではない ことが分かってきた。高次元空間では、ほとんどの局所最適が大域最適と 「ほぼ同じ性能」 を持つ(理論的解析あり)
- とはいえ初期値ガチャ: 訓練を何度かやり直して、一番良いものを採用するのは普通のプラクティス
SGD(確率的勾配降下) — データの一部で勾配を計算する
普通の勾配降下(バッチ勾配降下)は、毎ステップで 全データを使って勾配を計算 する。これは GPT-3 の事前訓練(3,000億トークン)で1ステップ毎にやると、現実的に不可能。
そこで生まれたのが SGD(Stochastic Gradient Descent / 確率的勾配降下)。
- 毎ステップ、データの一部(=ミニバッチ) だけで勾配を計算
- 計算量が 桁違いに軽い(全データ vs 32〜数千件のサンプル)
- 勾配にノイズが乗るが、結果的に 局所最適から脱出できる効果 もある(偶然の揺らぎで盆地を飛び出せる)
つまり SGD は「速くて軽くて、しかも副作用で良い解にたどり着きやすい」という三拍子。現代の LLM 訓練は SGD の派生形(Adam 等) がほぼ全てを支配している。
いいねいいね、勾配降下。これ キャンプ でテント張る場所を探すときの感覚に似てるね。「なんとなく平らで風当たりがゆるい方向」 に少しずつ歩く。実はあれ、勾配降下なんだろうな。
赤崎部長、それは 多目的最適化 でして、損失関数が「地面の平らさ + 風の弱さ」の 2変量重みづけ和。技術的には部長は 2軸スカラー化勾配降下 を実行されてます。…ちなみに JR 北海道の 新狩勝トンネル の建設経緯も、勾配 と カーブ半径 と 用地買収コスト の3変量最適化で…
川口くん、勾配の話題が来ると停止が困難 なご様子ですわね。これは 学習率が大きすぎる暴走モード とお見受けしますが、いかが?
フッ、私のような知性は、勾配を サンデル流に 「正義の探索」 として扱うがな。ニーチェ も 『ツァラトゥストラ』 で語ったろう、「山を降りる者は谷を識る」 と。…(あ、配信通知、ホロライブ3D 残り20分)
御託さん、ニーチェは 「神は死んだ」 でしか覚えてないですけど、「山を降りる者は谷を識る」 はちょっと勾配降下を言い当てすぎていて怖いです。…で、結論として勾配降下は資料に 「損失を最小化するための最急下降法」 って1行で書いておきます。

コンサル業務に寄せる — PDCA との対比
勾配降下を、コンサル業務でおなじみの PDCA サイクル に重ねる。
| 勾配降下のステップ | PDCA との対応 | 違い |
|---|---|---|
| 現在地で勾配計算(=どの方向に動けば損失が減るか) | C: Check(KPI 確認、ボトルネック特定) | 機械は数学的に正確に 「下り方向」 を計算、人間は経験と直感 |
| 勾配の逆方向に1歩動く(=重みを少し更新) | A: Act → P: Plan(改善策を実行) | 機械は秒間数百ステップ、人間は週1〜月1 |
| 新しい位置で再度勾配計算 | D: Do(実行と次回 Check への準備) | 機械は途切れずループ、人間は会議体に依存 |
| 収束したら終了(損失が下がらなくなる) | (PDCA は終わらない) | 機械は明確な停止基準あり、人間は無限ループ気味 |
つまり 勾配降下 = 高速で正確で疲れない PDCA。違いは 「計測の精度」 と 「反復速度」 と 「感情の有無」。
逆に、人間の PDCA が機械の勾配降下より優れる場面もある:
- 損失関数が定義不能 な場面(=何を最適化すべきか自体が決まってない)。新規事業の方針決定など
- 勾配を超えた 「ジャンプ」 が必要な場面(=パラダイムシフト、業態転換)。これは勾配降下が原理的にできない
- 政治と感情 が絡む場面。機械には人間関係のしがらみが見えない
機械が勾配降下で局所最適に陥りやすいのと同じく、PDCA だけ回し続ける組織も 「今のビジネスモデル内での改善」 しかできなくなり、業態転換に弱くなる。これが大企業が破壊的イノベーションに対応しづらい構造的理由。
ふむ、つまり PDCA だけ回してる組織は局所最適 ということか。…俺の都銀OB会で 「銀行はPDCAを完璧に回した結果ガラパゴス化した」 という話が出るんだが、これも勾配降下と同じ構造だな。「ジャンプ」 は機械にも人間にも難しい のだ。
社長、まさにそれです。勾配降下では業態転換ができない。だから AI も 「同じビジネスモデルの中で延々と最適化」 はめっぽう得意ですが、「次の事業を作る」 は今のところ人間の役割で…
うーん、ふわっとした方向感としては、当社の 事業転換も AI に任せたい んだけど。…川口くん、「業態転換 AI」 って論文ある?
赤崎部長、それは 強化学習 + 探索アルゴリズム(MCTS や Evolution Strategy) の領域でして、純粋な勾配降下では原理的に 新しい盆地への大ジャンプ ができないんです。ただ、最近の AlphaEvolve 系では…(無言で論文 PDF を10本ほどタブで開きはじめる)
川口くんがブラウザのタブを 10本一気 に開かれるのは、ご自身の 勾配が 「鉄道」 から 「強化学習」 に再降下 されたサインですわね。今度は 新しい局所最適 に向かわれるご様子。
……(スマホを伏せて立ち上がる、配信時間)
御託、また iPad を持ってトイレか? …まあいい。勾配降下も 「局所最適」 でいいから、まず動かしてみる、これが正解だな。パワポ500枚 でまとめてくれ、川口くん。儲かるんだろ?
あ、はい、やっておきます。(これで休日6週目…局所最適から抜け出せない)
