期末前夜、月次レビューの直前…
凡田(チームリーダー・38, 主人公)

あ…俺、いま気づいたんですけど、広告会社時代に毎日見てた CTR と ROAS と CPA、あれ 損失関数 だったわ。日次で Excel 開いて、上がった下がったで一喜一憂してたあの数字、AI の学習と全く同じ構造じゃないか。

大蔵(アシスタントマネージャー・35)

あら、凡田さん、急に呟きから入りましたわね。…で、ご自分のキャリアが 10年前から AI を最適化していた ということを発見されたんですの?

御託(シニアコンサル・39)

フッ、凡田、それは正しい気づきだ。お前は 無自覚に MSE を最適化していた。気づくのが遅すぎるが、まあ凡人のスピードとしては及第点だな。

凡田

(なんか褒められた? でも刺された気もする…)

期末前夜のオフィスで凡田がExcel画面を前に固まり、何かに気づいた表情。隣で大蔵と御託が冷静に見ている
このページのまとめ
  • 損失関数 = モデルの出力と正解の 「ズレ」 を 1個の数字 にまとめる装置。
  • この数字を 下げる方向にダイヤルを回す のが学習。だから損失は 学習の羅針盤(どっちに進めばいいかを示す)。
  • イメージは テストの失点合計。間違えるほど点が増え、それを最小にしていく(計算式は本文で)。

AI が「学ぶ」=訓練(#013) のプロセスは、「損失を下げる方向にダイヤルを少し回す」 を延々と繰り返す作業だ。前記事(訓練(#013))では「ズレを数値化する」と一言で済ませた、その中身が本記事のテーマ。

結論を先に: 損失関数 = 「ズレを1個の数字にする」 装置。ただし、その 「1個」 の決め方によって、AI が何を学ぶかが大きく変わる。MSE で訓練するか Cross-Entropy で訓練するかで、同じデータからでも別物のモデルが生まれる。

これは コンサル業務における KPI 設計 と完全に相似形。「何を測れば改善できるか」を1個の指標に凝縮する作業は、機械の中でも企業の中でも、同じ難しさを抱えている。

なぜ 「1個の数字」 にする必要があるのか

素朴な疑問: なぜ、複数の指標を組み合わせず、わざわざ 1個 の数字にまとめるのか?

答えは 「勾配を計算するため」。AI の訓練では、重み(#009) を「ズレが減る方向」に少し動かす(訓練(#013) 記事参照)。この「ズレが減る方向」は、損失を重みで微分した 勾配 という数学的な道具で計算する。

勾配計算は 「スカラー(1個の数字)を入力にして、重みごとの方向ベクトルを返す」 形式の演算。だから損失は必ず1個の数字でないといけない。

もし損失を「精度・速度・公平性」の3指標で表現すると、3指標のうちどれを優先するかが決まらず、ダイヤルを回す方向が定まらない。だから複数指標を持ちたいときは、重みづけ和で1個に押し込める (例: 0.7×精度損失 + 0.2×公平性損失 + 0.1×サイズペナルティ)。これを 多目的最適化 と呼ぶ。

主要な損失関数 — 何を測りたいかで選び分ける

世の中で最もよく使われる損失関数を整理する。

MSE / MAE / Cross-Entropy / Hinge の4つグラフ比較

図1: 主要な損失関数(横軸=予測のズレ or 正解確率、縦軸=損失)

MSE (Mean Squared Error / 平均二乗誤差)

回帰問題(連続値の予測、例: 住宅価格)で最もよく使う。

MAE (Mean Absolute Error / 平均絶対誤差)

MSE の 「外れ値に弱い」 弱点を補う形。

Cross-Entropy (交差エントロピー)

分類問題(クラス予測)と LLM で標準。AI の世界では最重要級の損失関数。

Hinge Loss (ヒンジ損失)

SVM(サポートベクターマシン)で使われる古典的損失。深層学習でも稀に使う。

Triplet Loss / Contrastive Loss

埋め込み学習(顔認証、画像検索、文章類似度)で使う特殊な損失。

LLM の損失関数 — 次トークン予測の Cross-Entropy

本連載の主役である LLM の学習で使われる損失関数を1つ取り上げる。次トークン予測の Cross-Entropy。これがほぼ全て。

LLM の事前訓練の中身を超簡略化すると: 文章を途中まで見せて、「次に来る単語(トークン)を当てる」 ゲームを延々と繰り返す。

例: 「今日の天気は」の次に来るトークンを当てさせる。モデルが出す予測は、全語彙(GPT-3 で 50,257トークン)に対する 確率分布(#010)。正解は「晴れ」のトークン。

これを 訓練データの全トークン(数千億)で繰り返して合計 したものが、LLM の学習中の損失。これをひたすら下げる方向に 1,750億個のダイヤル(#010) を回し続けるのが、GPT-3 の事前訓練の本質。

つまり、ChatGPT が 「今日の天気は晴れですね」 と自然に返してくれる背景には、「正解トークンの予測確率を最大化する Cross-Entropy」 を3000億回叩いた結果がある。

登場人物の反応 ①
凡田(チームリーダー・38, 主人公)

つまり俺の 広告時代の CPA = (実コスト – 目標CPA) の二乗を全キャンペーンで平均、これ MSE そのものなんだよな。日次でこれが下がるように、入札単価のダイヤルを毎朝回してた。俺、AIエンジニアだったのか

赤崎(部長 / AI戦略推進室室長・42)

いいねいいね、凡田くん。…ちなみに私のチームの 「案件評価表」 も損失関数なんだよね、たぶん。「ふわっとした方向感」 という単一指標で、毎週ダイヤルを 「いいねいいね」 の方向に回してる。

川口(アナリスト・22)

赤崎部長、「ふわっとした方向感」 は数値化されてないので、技術的に 損失関数として未定義 です。あと 「いいねいいね」 しか出力されないので 分散がゼロ、勾配も計算できなくて、結果的に 学習が進まない構造 でして…(無言で組織設計の論文を開きはじめる)

赤崎

うーん、ふわっとした方向感としては、川口くんに 「学習が進んでいない」 と言われた気がするが、私の中の損失関数が認識を 0.99 で否定 しているので、たぶん気のせいだね。

大蔵(アシスタントマネージャー・35)

部長…Sigmoid で全肯定 していらっしゃるのは前回 学習済 ですわ。今回は ReLU の話 ではなく、損失関数のお話 ですわよ。

赤崎が会議室のホワイトボードに「ふわっとした方向感」と手書きし、川口が論文タブレットを掲げて指摘、大蔵が冷静に観察

損失関数の選び方が 「学ばせたいこと」 の宣言

同じデータで訓練しても、損失関数が違えば違うモデルが生まれる。これは現場で見落とされがちなポイント。

住宅価格予測を例にする。MSE と MAE を比較すると:

損失関数 性質 結果として学ぶモデル
MSE 大きいズレを強烈にペナルティ 外れ値を必死に当てに行く。100億円邸宅を外すと損失爆増なので、極端な物件にも対応するモデル
MAE ズレは線形に評価 中央値的な予測に寄る。100億円邸宅を外しても損失はそこそこ。普通の物件の精度が上がる

つまり 「外れ値を当てに行く / 行かない」という方針 が損失関数の選択に込められている。エンジニアが MSE を選んだか MAE を選んだかで、ビジネス的に何を重視してるかが透ける。

これは KPI 設計と同じ問題。例えば営業組織で:

「何を KPI にするか」がそのまま「組織が何を学ぶか」を決める。AI の損失関数選択も、これと完全に同じ構造の問題。

悪い損失関数の典型 — 「現場と乖離した KPI」 問題

AI の損失関数を間違って設計すると、「数字は良いが現場では使えない」 モデルが完成する。

有名な事例:

これらは全部、「損失関数が現場の正解と微妙にズレていた」 ことが原因。「視聴時間」 は 「視聴満足」 と違う、「過去の採用結果」 は 「適性」 と違う、「貸し倒れ率」 は 「信用力」 と違う。

コンサル業界で言うところの 「KPI 設計の失敗」 と同じ。本当に測りたいものを 1個の数字に凝縮するのは難しい、しかし損失関数を間違えると AI は 「間違った正解」 を全力で学んでしまう

登場人物の反応 ②
南雲(社長・60-62)

ふむ、つまり 損失関数を間違えると AI が「間違った正解」を全力で学ぶ、ということか。…俺の銀行員時代も、「貸出ボリューム」 を KPI にした年は、支店長が無理筋の融資を量産 して翌年大荒れだったな。あれは 損失関数の設計ミス だったのか。

凡田(チームリーダー・38, 主人公)

社長、それです。「貸出ボリューム最大化」 = MSE 型損失で、無理筋融資という外れ値を当てに行く モデルが完成しちゃったわけで。「貸し倒れ率含む利益最大化」 という多目的損失にしておけば、たぶん健全な状態に。

御託(シニアコンサル・39)

フッ、多目的損失か。これは ハーバードのサンデル が言うところの 「正義は単一指標で測れない」 問題と同じ構造だな。私は週末に 銀座のバー で銘酒を嗜みながら、人生の 多目的最適化 を…(あ、スマホ確認、配信15分前)

大蔵

御託さんの 「多目的最適化」 って、「銘酒会」「ホロライブ」「ニーチェ」 の3軸ですわよね? 重みづけは 0.7 : 0.25 : 0.05 あたりですの?

御託

……(沈黙、無言でiPad方面に視線を逃がす)

川口(アナリスト・22)

あの、社長、結論として当社の AI 導入時の 損失関数設計レビュー を3段階チェック化すべき、という戦略提言で…(これでパワポ300枚案件また確定…)

南雲

うむ、いいねえ、それを パワポ500枚 で頼む。儲かるんだろ?

南雲が新聞を片手に銀行員時代の