訓練(Training) — AIが「学ぶ」の正体、入力 → ズレ計算 → 補正を延々繰り返す装置

銀座のバーで、社長の昔話を聞きながら…

南雲(社長・60-62)

凡田、俺が 都銀の融資審査 をやってた頃はな、新人は3年で叩き上げた。先輩が10件の案件を見せて、自分にやらせて、間違ったら朝まで詰める。これでようやくベテランだ。…で、今のAIってのは、これとどう違うんだ?

凡田(チームリーダー・38, 主人公)

えーと、社長…それ 完全に AI の「訓練」と同じ構造 です。先輩=正解データ、新人のトライ=順伝播、間違い=損失、詰める=逆伝播、3年=エポック数3,000ぐらい。

南雲

ふむ。…じゃあ俺は、40年前から AI を作っていた ということになるな。

凡田

(うわ、来た。「俺の40年」武勇伝本を出そうとしてる…)

このページのまとめ

訓練 = AI が「学ぶ」プロセスそのもの。パラメーター(#010)を最初ランダムに置いて、データで少しずつ調整していく作業。
正体はシンプルで、「やらせてみる → 正解とのズレを測る → ズレを縮める方向に少し補正する」 をひたすら繰り返すだけ。これが「学ぶ」の中身。
イメージは OJT(現場で覚える仕事)。やらせて、間違いを直して、また反復——AI も同じ要領で経験を積む(詳しい工程は本文で)。

「AI を訓練する」「モデルを学習させる」。ニュースで毎日聞くこの言葉、具体的に内部で何が起きているか を3分で説明できる人は意外に少ない。

本記事は、訓練 = AI が「学ぶ」の正体 を分解する。技術的にはそんなに難しくない。シンプルに言えば「入力を投げてみて、正解とのズレを測って、ズレを縮める方向にダイヤルを少し回す」を延々と繰り返すだけ。

この構造は、人間社会で言うところの OJT(オン・ザ・ジョブ・トレーニング) と原理的に完全に同じ。違いは 反復回数(40年 vs 3週間) と 並列度(1人ずつ vs 数千GPU 同時) だけ。

訓練の「1ステップ」の中身 — 4工程の反復

訓練ループの1回(1ステップ)は、下の4つの工程で成り立つ。

訓練ループの図: input → forward → loss → backward → update → 繰り返し

図1: 訓練ループの1ステップ(順伝播 → 損失 → 逆伝播 → 更新)を延々繰り返す

順伝播(forward pass): 入力データをモデルに通して、いまの重み(#009)での出力を計算する
損失計算(loss): モデルの出力と 正解ラベル のズレを数値化する
逆伝播(backward pass): そのズレを「どの重みが、どれだけズレに寄与したか」に分解する(各重みの勾配を計算)
重み更新(update): 各重みを「ズレが減る方向に」少し動かす

これだけ。これを 同じデータセットで何百〜何千周(=エポック)、1周の中で何千〜数百万回のステップ(=ミニバッチ単位) 繰り返す。

GPT-3 の訓練では、3,000億トークンのデータを延々と回して、合計約3億ステップ 程度の重み更新を行ったと推定されている(公式値は非公開、Chinchilla 論文等から推計)。

OJT(オン・ザ・ジョブ・トレーニング)と完全に同じ構造

この訓練ループは、人間の OJT と 原理的に同じ。

工程	AI の訓練	銀行員の OJT(南雲社長時代)
順伝播	モデルが出力を出す	新人が融資判断をしてみる
損失計算	正解とのズレを数値化	先輩「お前、その融資、利息低すぎだぞ」
逆伝播	どの重みがズレに効いたかを分解	「お前、決算書の何ページを見落としたんだ?」
重み更新	重みを少し補正	新人が次回から決算書のそのページを意識
1エポック	全データを1周	10件の融資審査を1周
収束(=訓練終了)	損失が十分小さくなる	3年でほぼ間違わなくなる(=ベテラン)

違うのは 「速度」と「並列度」 だけ。

AI は 1秒に数万ステップ 回せる(GPU 並列化)、人間は1日に数件
AI は 同時に数千ノード で訓練できる、人間は1人ずつ
AI は 疲れない・忘れない・気分で揺れない、人間は揺れる

逆に言えば、OJT で人間が長年やってきたことを高速化したのが機械学習の訓練。新しいことをしているわけではない。「先輩が背中で教える」ことを、機械が “重み(#009)を数値で動かす” 形で実装しているだけ。

3つのチューニング — 学習率・バッチ・エポック

訓練には実務上 3つの「回し方」のパラメーター がある。これらをハイパーパラメーターと呼ぶ。

学習率(Learning Rate)

1回の更新で 重みをどれだけ動かすか。OJT で言えば「先輩のダメ出しを、新人がどれだけ真剣に受け止めるか」。

大きすぎる → 重みが暴れて収束しない(新人が言われるたびに極端に修正)
小さすぎる → 学習が遅すぎる(新人が言われても1ミリしか変えない)
典型値: 0.001 〜 0.0001(GPT 系)、訓練中に徐々に下げるのが普通

バッチサイズ(Batch Size)

1ステップで 何件の事例を同時に処理するか。OJT で言えば「先輩が1度に何件レビューするか」。

大きい(1024件等): 1ステップの計算が重いが、勾配が安定する(平均化)
小さい(8件等): 軽いがブレやすい、GPU メモリも節約
典型値: 32 〜数千(GPU メモリ次第)

エポック数(Epoch)

全データを何周するか。OJT で言えば「同じ10件の案件を何回見直すか」。

少ない → 学び切れない(未学習)
多すぎる → 訓練データを丸暗記して、新しい案件に対応できない(過学習)
LLM の事前訓練では 1〜数エポック、ファインチューニングでは 3〜10エポックが典型

これら3つを 勘と経験 で(あるいは Optuna 等の自動チューニングで)決める。ここが現代の機械学習エンジニアの最大の腕の見せ所のひとつ。

登場人物の反応 ①

南雲(社長・60-62)

ふむ、つまり俺の「朝まで詰める」は学習率が大きすぎた、ということか? 新人が暴れて辞めていったのは…

凡田(チームリーダー・38, 主人公)

社長、典型的な収束失敗 です。学習率が大きすぎると重みが暴れて損失が逆に増えるんですけど、人間の場合は 「離職」という形で収束しない ですね。

川口(アナリスト・22)

あの、社長…ちなみに、現代の OJT で機械学習の 「learning rate warmup」 っていうテクニックがあって、最初は超やさしく、徐々に厳しくしていく方法でして…これ 離職率を3割下げた っていう人事系の論文もあって…(無言で PDF を取り出しはじめる)

赤崎(部長・42)

いいねいいね、その方向で。…川口くん、それうちのチーム研修にも応用できないかな? ふわっとした方向感で、来週までに資料50枚で。

川口

あ、はい、やっておきます。(これで休日4週目…)

大蔵(アシスタントマネージャー・35)

あら、部長…川口くんに 学習率を大きくしすぎ ですわよ。離職しますわよ。

深夜のオフィスで川口がデスクで論文PDFを開いて読み込んでいる。横に積まれた紙の山、デスクランプだけ灯る

訓練の終わり方 — 「完璧」を目指すと逆に弱くなる

訓練は いつ止めるか が決定的に重要。直感に反するが、損失をゼロまで下げると、かえって弱いモデルになる。

これは 過学習(overfitting) と呼ばれる現象。訓練データに対しては100点満点だが、新しいデータに対して全く役立たない。

具体例: 過去10年の融資データを訓練データにして、損失をゼロまで下げる(=10年分を完全に暗記する)と、11年目に新しい業種(例えば AI 関連スタートアップ)が来たら、どう判断していいか分からない。10年分の「前例」にしか反応できない。

これを避けるため、訓練は 「検証データ(validation set)」 の損失を見ながら止める。

訓練データの損失 = ずっと下がり続ける
検証データの損失 = 途中まで下がるが、ある時点から上がり始める
この「上がり始め」が 過学習の入口。ここで止めるのが正解

これを 早期終了(Early Stopping) と呼ぶ。完璧を捨てて、汎用性を取る。

これも OJT で人間が経験的にやっていること: 新人を3年で現場に出す。10年訓練しても完璧にはならないし、現場経験で学ぶことの方が多い。「ベテランになりすぎると新しい流れに対応できない」 問題は、機械学習でも人事でも同じ構造で発生する。

登場人物の反応 ②

大蔵(アシスタントマネージャー・35)

つまり 13年プロパー の私が、新しい AI に対応できないのは、過学習 ということですのね…?(小さく目を伏せる)

凡田(チームリーダー・38, 主人公)

大蔵さん、それは 過学習 というか、「Early Stopping を3年目にすべきだった」 という話で…いや、今のはなしで。すみません。

御託(シニアコンサル・39)

フッ、お前ら、過学習を語るならまず ハラリ の『ホモ・デウス』を読め。あれは 人類全体が「過学習」した状態 をだな…(と言いつつスマホをチラ見、配信時間まで残り8分)

大蔵

御託さん、ハラリさんもよろしいですけど、いま 「3D LIVE」 ってまたスマホに出てましたわよ?

御託

……(画面を伏せて立ち上がる)

南雲(社長)

御託、また iPad を持ってトイレか? …まあいい。俺は40年前から AI を作っていた という結論で、川口くん、これを パワポ500枚 でまとめてくれ。儲かるんだろ?

川口

あ、はい、やっておきます。(これで休日5週目…早期終了したい)

オフィスで大蔵が静かに目を伏せて手帳を握っている、横で凡田が苦笑い、控えめなオフィス背景

コンサル業務に寄せる — 「訓練」は人材育成と何が違うか

機械学習の訓練を、コンサル業務に翻訳する。最大のポイントは 「ルール(if-then)」を更新する作業ではなく、「暗黙知を反復で内面化させる」作業 である点。

業務	マニュアル更新(ルール書き換え)	訓練(暗黙知の内面化)
営業トーク	新しい商品が出たので説明用スクリプトを書き換える	ロープレで失敗を繰り返して「間」を覚える
提案書作成	テンプレートに新しい項目を足す	過去100本を読み込んで「勝つ提案」の構造を体得
クライアント関係	商談記録を共有する	顧客の「顔色」を読む感覚を OJT で得る
機械学習モデル	(該当なし)	大量データで重みを反復調整 = 本記事の話

つまり、マニュアル更新 = 古典プログラミング、訓練 = 機械学習。両者は別物で、業務によって向き不向きがある(機械学習モデル(#011) 記事参照)。

そして、コンサル業界の「シニアの市場価値」の核は マニュアル化できない暗黙知。これを機械学習で形式知化することが現在進行中で、シニアコンサルがじわじわ AI に侵食されている主戦場でもある。

訓練(Training) — AIが「学ぶ」の正体、入力 → ズレ計算 → 補正 を延々繰り返す装置

訓練の 「1ステップ」 の中身 — 4工程の反復

OJT(オン・ザ・ジョブ・トレーニング)と完全に同じ構造

3つのチューニング — 学習率・バッチ・エポック

学習率(Learning Rate)

バッチサイズ(Batch Size)

エポック数(Epoch)

訓練の終わり方 — 「完璧」を目指すと逆に弱くなる

コンサル業務に寄せる — 「訓練」 は人材育成と何が違うか

訓練(Training) — AIが「学ぶ」の正体、入力 → ズレ計算 → 補正を延々繰り返す装置

訓練の「1ステップ」の中身 — 4工程の反復

コンサル業務に寄せる — 「訓練」は人材育成と何が違うか