ランチ後の眠気と戦いながら…
凡田(チームリーダー・38, 主人公)

川口、損失(#014) を下げる方向を計算する あのアルゴリズム、なんて言うんだっけ。資料に1行入れたくて。

川口(アナリスト・22)

勾配降下 です。あ、これ完全に 鉄道計画 と同じなんですよ。JR 北海道の 「おおぞら」 で、根室本線の 滝川〜新得 間の 狩勝峠 を越えるルート、これ 勾配最適化の歴史 がそのままで、明治時代の 33.3‰ から大正の 新狩勝トンネル開通20‰ まで下げて、いまの 石勝線 ルートだと…

凡田

(止まる気配がない…)

大蔵(アシスタントマネージャー・35)

あら凡田さん、川口くんの 「勾配」機械学習の勾配 から 鉄道の勾配確率的に降下 してしまわれたみたいですわね。…まあ、本人は 同じ単語 として処理されてますの。

会議室で川口が熱量高めに鉄道路線図を広げて説明、凡田が困惑した目で見て、大蔵が冷静に観察
このページのまとめ
  • 勾配降下 = ズレ(損失)の 「山」 を、一番急な下り方向へ一歩ずつ降りていく やり方。ひとことで言えば「とにかく下りが急なほうへ進む」。
  • AI 学習の主役アルゴリズム。「重みをどっちに、どれだけ動かせばズレが減るか」を決めているのがこれ。学習の心臓部。
  • イメージは 霧の中で山を下る登山者。全体地図は見えなくても、足元の傾きだけを頼りに少しずつ低いほうへ(歩幅や落とし穴は本文で)。

訓練(#013) 記事で「重みをズレが減る方向に少し動かす」と書いた、その 「方向」 と 「少し」 の決め方 が本記事のテーマ。AI 学習の心臓部にあるアルゴリズム、勾配降下

結論を先に: 勾配降下 = 損失関数の 「山」 を、最も急な下り方向に向かって少しずつ降りていく方法。それ以上でもそれ以下でもない。シンプルな考え方が、GPT-3 の 1,750億パラメーター(#010) を学習させる主役になっている。

原理は 霧の中の登山者。視界が悪く全体地図は見えない。だけど、足元の傾きだけは分かる。「いまの足元で一番急に下がっている方向に一歩進む」を延々と繰り返せば、いつか谷底にたどり着く。これが勾配降下の全て。

「最も急な下り方向」をどう計算するか — 勾配の逆方向

機械の中では、登山者の足元の傾きにあたるのが 勾配(gradient)

この計算を 全重み(1,750億個)(#009) に対して同時にやる。1ステップで1,750億方向ベクトルを計算する。重い。これを効率的にやる仕組みが 逆伝播(Backpropagation)(#016)

損失関数の

図1: 勾配降下のイメージ — 損失関数の 「山」 を最急下り方向に降りていく

学習率(step size) — 1歩の大きさを決める

勾配の方向は決まった。次は 「1歩でどれだけ動くか」。これが 学習率(learning rate)訓練(#013) 記事で触れた3大ハイパーパラメーターのひとつ。

学習率が大きすぎる場合

学習率が小さすぎる場合

現代のテクニック

局所最適 — 「ここが谷底だと思ったら、隣の方が深かった」

勾配降下は 必ず 「どこかの谷底」 にたどり着く。問題は、それが 本当に最低点(=大域最適) か、それとも たまたま近くにあった盆地(=局所最適) かが分からないこと。

霧の中の登山者で言えば、「ここが下まで来た」と思ってリュックを下ろしたら、もう一山越えた向こうにもっと深い谷があるかもしれない。だけど、霧で見えないから分からない。

機械学習でも全く同じことが起きる。1,750億次元(#010) の空間に、無数の 「盆地」 が散らばっていて、勾配降下はそのうち1つにしか到達できない。

SGD(確率的勾配降下) — データの一部で勾配を計算する

普通の勾配降下(バッチ勾配降下)は、毎ステップで 全データを使って勾配を計算 する。これは GPT-3 の事前訓練(3,000億トークン)で1ステップ毎にやると、現実的に不可能。

そこで生まれたのが SGD(Stochastic Gradient Descent / 確率的勾配降下)

つまり SGD は「速くて軽くて、しかも副作用で良い解にたどり着きやすい」という三拍子。現代の LLM 訓練は SGD の派生形(Adam 等) がほぼ全てを支配している。

登場人物の反応 ①
赤崎(部長 / AI戦略推進室室長・42)

いいねいいね、勾配降下。これ キャンプ でテント張る場所を探すときの感覚に似てるね。「なんとなく平らで風当たりがゆるい方向」 に少しずつ歩く。実はあれ、勾配降下なんだろうな。

川口(アナリスト・22)

赤崎部長、それは 多目的最適化 でして、損失関数が「地面の平らさ + 風の弱さ」の 2変量重みづけ和。技術的には部長は 2軸スカラー化勾配降下 を実行されてます。…ちなみに JR 北海道の 新狩勝トンネル の建設経緯も、勾配 と カーブ半径用地買収コスト の3変量最適化で…

大蔵(アシスタントマネージャー・35)

川口くん、勾配の話題が来ると停止が困難 なご様子ですわね。これは 学習率が大きすぎる暴走モード とお見受けしますが、いかが?

御託(シニアコンサル・39)

フッ、私のような知性は、勾配を サンデル流に 「正義の探索」 として扱うがな。ニーチェ『ツァラトゥストラ』 で語ったろう、「山を降りる者は谷を識る」 と。…(あ、配信通知、ホロライブ3D 残り20分)

凡田(チームリーダー・38, 主人公)

御託さん、ニーチェは 「神は死んだ」 でしか覚えてないですけど、「山を降りる者は谷を識る」 はちょっと勾配降下を言い当てすぎていて怖いです。…で、結論として勾配降下は資料に 「損失を最小化するための最急下降法」 って1行で書いておきます。

赤崎が霧深いキャンプ場で地面の傾きを確かめながらテント設営位置を探している、川口が横で熱く解説、大蔵が冷静に見守る

コンサル業務に寄せる — PDCA との対比

勾配降下を、コンサル業務でおなじみの PDCA サイクル に重ねる。

勾配降下のステップ PDCA との対応 違い
現在地で勾配計算(=どの方向に動けば損失が減るか) C: Check(KPI 確認、ボトルネック特定) 機械は数学的に正確に 「下り方向」 を計算、人間は経験と直感
勾配の逆方向に1歩動く(=重みを少し更新) A: Act → P: Plan(改善策を実行) 機械は秒間数百ステップ、人間は週1〜月1
新しい位置で再度勾配計算 D: Do(実行と次回 Check への準備) 機械は途切れずループ、人間は会議体に依存
収束したら終了(損失が下がらなくなる) (PDCA は終わらない) 機械は明確な停止基準あり、人間は無限ループ気味

つまり 勾配降下 = 高速で正確で疲れない PDCA。違いは 「計測の精度」 と 「反復速度」 と 「感情の有無」。

逆に、人間の PDCA が機械の勾配降下より優れる場面もある:

機械が勾配降下で局所最適に陥りやすいのと同じく、PDCA だけ回し続ける組織も 「今のビジネスモデル内での改善」 しかできなくなり、業態転換に弱くなる。これが大企業が破壊的イノベーションに対応しづらい構造的理由。

登場人物の反応 ②
南雲(社長・60-62)

ふむ、つまり PDCA だけ回してる組織は局所最適 ということか。…俺の都銀OB会で 「銀行はPDCAを完璧に回した結果ガラパゴス化した」 という話が出るんだが、これも勾配降下と同じ構造だな。「ジャンプ」 は機械にも人間にも難しい のだ。

凡田(チームリーダー・38, 主人公)

社長、まさにそれです。勾配降下では業態転換ができない。だから AI も 「同じビジネスモデルの中で延々と最適化」 はめっぽう得意ですが、「次の事業を作る」 は今のところ人間の役割で…

赤崎

うーん、ふわっとした方向感としては、当社の 事業転換も AI に任せたい んだけど。…川口くん、「業態転換 AI」 って論文ある?

川口

赤崎部長、それは 強化学習 + 探索アルゴリズム(MCTS や Evolution Strategy) の領域でして、純粋な勾配降下では原理的に 新しい盆地への大ジャンプ ができないんです。ただ、最近の AlphaEvolve 系では…(無言で論文 PDF を10本ほどタブで開きはじめる)

大蔵

川口くんがブラウザのタブを 10本一気 に開かれるのは、ご自身の 勾配が 「鉄道」 から 「強化学習」 に再降下 されたサインですわね。今度は 新しい局所最適 に向かわれるご様子。

御託

……(スマホを伏せて立ち上がる、配信時間)

南雲

御託、また iPad を持ってトイレか? …まあいい。勾配降下も 「局所最適」 でいいから、まず動かしてみる、これが正解だな。パワポ500枚 でまとめてくれ、川口くん。儲かるんだろ?

川口

あ、はい、やっておきます。(これで休日6週目…局所最適から抜け出せない)

南雲がオフィスでホワイトボードのPDCAサイクル図を見つめながら「局所最適か」と呟いている、凡田が横で頷く