損失関数(Loss) — モデルの「ズレ」を1個の数字に、これを下げる方向にダイヤルを回す

期末前夜、月次レビューの直前…

凡田(チームリーダー・38, 主人公)

あ…俺、いま気づいたんですけど、広告会社時代に毎日見てた CTR と ROAS と CPA、あれ 損失関数 だったわ。日次で Excel 開いて、上がった下がったで一喜一憂してたあの数字、AI の学習と全く同じ構造じゃないか。

大蔵(アシスタントマネージャー・35)

あら、凡田さん、急に呟きから入りましたわね。…で、ご自分のキャリアが 10年前から AI を最適化していた ということを発見されたんですの?

御託(シニアコンサル・39)

フッ、凡田、それは正しい気づきだ。お前は 無自覚に MSE を最適化していた。気づくのが遅すぎるが、まあ凡人のスピードとしては及第点だな。

凡田

(なんか褒められた? でも刺された気もする…)

このページのまとめ

損失関数 = モデルの出力と正解の「ズレ」を 1個の数字 にまとめる装置。
この数字を 下げる方向にダイヤルを回す のが学習。だから損失は 学習の羅針盤(どっちに進めばいいかを示す)。
イメージは テストの失点合計。間違えるほど点が増え、それを最小にしていく(計算式は本文で)。

AI が「学ぶ」=訓練(#013) のプロセスは、「損失を下げる方向にダイヤルを少し回す」 を延々と繰り返す作業だ。前記事(訓練(#013))では「ズレを数値化する」と一言で済ませた、その中身が本記事のテーマ。

結論を先に: 損失関数 = 「ズレを1個の数字にする」装置。ただし、その「1個」の決め方によって、AI が何を学ぶかが大きく変わる。MSE で訓練するか Cross-Entropy で訓練するかで、同じデータからでも別物のモデルが生まれる。

これは コンサル業務における KPI 設計 と完全に相似形。「何を測れば改善できるか」を1個の指標に凝縮する作業は、機械の中でも企業の中でも、同じ難しさを抱えている。

なぜ「1個の数字」にする必要があるのか

素朴な疑問: なぜ、複数の指標を組み合わせず、わざわざ 1個の数字にまとめるのか?

答えは 「勾配を計算するため」。AI の訓練では、重み(#009) を「ズレが減る方向」に少し動かす(訓練(#013) 記事参照)。この「ズレが減る方向」は、損失を重みで微分した勾配という数学的な道具で計算する。

勾配計算は 「スカラー(1個の数字)を入力にして、重みごとの方向ベクトルを返す」 形式の演算。だから損失は必ず1個の数字でないといけない。

もし損失を「精度・速度・公平性」の3指標で表現すると、3指標のうちどれを優先するかが決まらず、ダイヤルを回す方向が定まらない。だから複数指標を持ちたいときは、重みづけ和で1個に押し込める (例: 0.7×精度損失 + 0.2×公平性損失 + 0.1×サイズペナルティ)。これを 多目的最適化 と呼ぶ。

主要な損失関数 — 何を測りたいかで選び分ける

世の中で最もよく使われる損失関数を整理する。

MSE / MAE / Cross-Entropy / Hinge の4つグラフ比較

図1: 主要な損失関数(横軸=予測のズレ or 正解確率、縦軸=損失)

MSE (Mean Squared Error / 平均二乗誤差)

回帰問題(連続値の予測、例: 住宅価格)で最もよく使う。

「予測値と正解値の差を二乗して、全データで平均」する
大きいズレを 強烈にペナルティ(二乗だから)。外れ値1個で全体が引きずられる
勾配が滑らか、計算しやすい
用途: 売上予測、需要予測、需要時間予測、回帰問題全般

MAE (Mean Absolute Error / 平均絶対誤差)

MSE の「外れ値に弱い」弱点を補う形。

「予測値と正解値の差の絶対値を、全データで平均」する
外れ値の影響が線形なので、MSE より頑健
勾配が不連続(0点で折れる)、最適化はやや難しい
用途: 外れ値が混じるデータ、ロバスト回帰

Cross-Entropy (交差エントロピー)

分類問題(クラス予測)と LLM で標準。AI の世界では最重要級の損失関数。

「正解クラスに対する予測確率が低いほど、強くペナルティ」を全クラスで合計
確率分布が苦手なケース(=出力分布が正解から遠い)を強く罰する
勾配が綺麗、ソフトマックスとの組み合わせが計算上効率的
用途: 画像分類、文書分類、LLM の次トークン予測(後述)

Hinge Loss (ヒンジ損失)

SVM(サポートベクターマシン)で使われる古典的損失。深層学習でも稀に使う。

「正解との距離が一定の「マージン」を超えたらゼロ、入り込んだら線形ペナルティ」
「間違っていない範囲」を作って学習する
用途: SVM、敵対的学習の一部、メタ学習

Triplet Loss / Contrastive Loss

埋め込み学習(顔認証、画像検索、文章類似度)で使う特殊な損失。

「同じグループのペアは近く、違うグループのペアは遠く」を一括で表現
Aさんの顔写真2枚は近く、Aさんと Bさんの顔写真は遠く、という三つ組を1ステップで学ぶ
用途: 顔認証(FaceNet)、画像検索、Sentence-BERT 系

LLM の損失関数 — 次トークン予測の Cross-Entropy

本連載の主役である LLM の学習で使われる損失関数を1つ取り上げる。次トークン予測の Cross-Entropy。これがほぼ全て。

LLM の事前訓練の中身を超簡略化すると: 文章を途中まで見せて、「次に来る単語(トークン)を当てる」 ゲームを延々と繰り返す。

例: 「今日の天気は」の次に来るトークンを当てさせる。モデルが出す予測は、全語彙(GPT-3 で 50,257トークン)に対する確率分布(#010)。正解は「晴れ」のトークン。

正解「晴れ」に対する予測確率が 0.0001 だったら、損失は大きい(-log(0.0001) ≈ 9.2)
正解「晴れ」に対する予測確率が 0.99 だったら、損失は小さい(-log(0.99) ≈ 0.01)

これを 訓練データの全トークン(数千億)で繰り返して合計 したものが、LLM の学習中の損失。これをひたすら下げる方向に 1,750億個のダイヤル(#010) を回し続けるのが、GPT-3 の事前訓練の本質。

つまり、ChatGPT が「今日の天気は晴れですね」と自然に返してくれる背景には、「正解トークンの予測確率を最大化する Cross-Entropy」 を3000億回叩いた結果がある。

登場人物の反応 ①

凡田(チームリーダー・38, 主人公)

つまり俺の 広告時代の CPA = (実コスト – 目標CPA) の二乗を全キャンペーンで平均、これ MSE そのものなんだよな。日次でこれが下がるように、入札単価のダイヤルを毎朝回してた。俺、AIエンジニアだったのか。

赤崎(部長 / AI戦略推進室室長・42)

いいねいいね、凡田くん。…ちなみに私のチームの 「案件評価表」 も損失関数なんだよね、たぶん。「ふわっとした方向感」 という単一指標で、毎週ダイヤルを 「いいねいいね」 の方向に回してる。

川口(アナリスト・22)

赤崎部長、「ふわっとした方向感」 は数値化されてないので、技術的に 損失関数として未定義 です。あと 「いいねいいね」 しか出力されないので 分散がゼロ、勾配も計算できなくて、結果的に 学習が進まない構造 でして…(無言で組織設計の論文を開きはじめる)

赤崎

うーん、ふわっとした方向感としては、川口くんに 「学習が進んでいない」 と言われた気がするが、私の中の損失関数が認識を 0.99 で否定 しているので、たぶん気のせいだね。

大蔵(アシスタントマネージャー・35)

部長…Sigmoid で全肯定 していらっしゃるのは前回学習済ですわ。今回は ReLU の話 ではなく、損失関数のお話 ですわよ。

赤崎が会議室のホワイトボードに「ふわっとした方向感」と手書きし、川口が論文タブレットを掲げて指摘、大蔵が冷静に観察

損失関数の選び方が「学ばせたいこと」の宣言

同じデータで訓練しても、損失関数が違えば違うモデルが生まれる。これは現場で見落とされがちなポイント。

住宅価格予測を例にする。MSE と MAE を比較すると:

損失関数	性質	結果として学ぶモデル
MSE	大きいズレを強烈にペナルティ	外れ値を必死に当てに行く。100億円邸宅を外すと損失爆増なので、極端な物件にも対応するモデル
MAE	ズレは線形に評価	中央値的な予測に寄る。100億円邸宅を外しても損失はそこそこ。普通の物件の精度が上がる

つまり 「外れ値を当てに行く / 行かない」という方針 が損失関数の選択に込められている。エンジニアが MSE を選んだか MAE を選んだかで、ビジネス的に何を重視してるかが透ける。

これは KPI 設計と同じ問題。例えば営業組織で:

「売上総額」を KPI にする → 大型案件にリソースが集中(MSE 型)
「受注件数」を KPI にする → 小さい案件にもリソースが分散(MAE 型)
「顧客満足度スコア平均」を KPI にする → 客の表面感情に振り回される(Cross-Entropy で報酬モデル化したRLHF型)

「何を KPI にするか」がそのまま「組織が何を学ぶか」を決める。AI の損失関数選択も、これと完全に同じ構造の問題。

悪い損失関数の典型 — 「現場と乖離した KPI」問題

AI の損失関数を間違って設計すると、「数字は良いが現場では使えない」 モデルが完成する。

有名な事例:

YouTube の「視聴時間最大化」(2010年代): 視聴時間を損失関数の主役にした結果、陰謀論動画 が上位推薦されるアルゴリズムが完成。当時の社会問題に直結
Amazon の採用 AI(2018年お蔵入り): 過去10年の採用データを Cross-Entropy で学習したら、女性候補者を低スコアに評価する モデルが完成。原データのバイアスが損失最適化で再生産
金融与信 AI: 過去の貸し倒れデータで損失最小化したら、特定地域・年代を一律で弾くモデルになり、差別問題化

これらは全部、「損失関数が現場の正解と微妙にズレていた」 ことが原因。「視聴時間」は「視聴満足」と違う、「過去の採用結果」は「適性」と違う、「貸し倒れ率」は「信用力」と違う。

コンサル業界で言うところの 「KPI 設計の失敗」 と同じ。本当に測りたいものを 1個の数字に凝縮するのは難しい、しかし損失関数を間違えると AI は 「間違った正解」を全力で学んでしまう。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり 損失関数を間違えると AI が「間違った正解」を全力で学ぶ、ということか。…俺の銀行員時代も、「貸出ボリューム」 を KPI にした年は、支店長が無理筋の融資を量産 して翌年大荒れだったな。あれは 損失関数の設計ミス だったのか。

凡田(チームリーダー・38, 主人公)

社長、それです。「貸出ボリューム最大化」 = MSE 型損失で、無理筋融資という外れ値を当てに行く モデルが完成しちゃったわけで。「貸し倒れ率含む利益最大化」 という多目的損失にしておけば、たぶん健全な状態に。

御託(シニアコンサル・39)

フッ、多目的損失か。これは ハーバードのサンデル が言うところの 「正義は単一指標で測れない」 問題と同じ構造だな。私は週末に 銀座のバー で銘酒を嗜みながら、人生の 多目的最適化 を…(あ、スマホ確認、配信15分前)

大蔵

御託さんの「多目的最適化」って、「銘酒会」 と 「ホロライブ」 と 「ニーチェ」 の3軸ですわよね? 重みづけは 0.7 : 0.25 : 0.05 あたりですの?

御託

……(沈黙、無言でiPad方面に視線を逃がす)

川口(アナリスト・22)

あの、社長、結論として当社の AI 導入時の 損失関数設計レビュー を3段階チェック化すべき、という戦略提言で…(これでパワポ300枚案件また確定…)

南雲

うむ、いいねえ、それを パワポ500枚 で頼む。儲かるんだろ?

KEY TAKEAWAYS

抑えておきたいポイント

損失関数 = モデルの出力と正解の「ズレ」を1個の数字にまとめる装置。
「1個」にするのは 勾配計算が「スカラー入力 → ベクトル出力」の演算 だから。複数指標を持ちたいときは重みづけ和。
主要: MSE(回帰)/ Cross-Entropy(分類・LLM)/ MAE(外れ値耐性)/ Hinge(SVM)/ Triplet(類似度)。
LLM の事前訓練 = 次トークン予測の Cross-Entropy を全トークンで合計、これをひたすら下げる。
損失関数の選択 = 「何を学ばせたいか」の宣言。MSE と MAE で同じデータから別物のモデルが生まれる。
悪い損失関数 = 「間違った正解」を全力で学ぶ。YouTube 視聴時間最大化、Amazon 採用 AI、与信差別すべてここに起因。
コンサル感覚: KPI 設計と完全相似。「何を測れば改善できるか」を1個の指標に凝縮する作業、企業でも機械でも同じ難しさ。

損失関数(Loss) — モデルの 「ズレ」 を1個の数字に、これを下げる方向にダイヤルを回す

なぜ 「1個の数字」 にする必要があるのか

主要な損失関数 — 何を測りたいかで選び分ける

MSE (Mean Squared Error / 平均二乗誤差)

MAE (Mean Absolute Error / 平均絶対誤差)

Cross-Entropy (交差エントロピー)

Hinge Loss (ヒンジ損失)

Triplet Loss / Contrastive Loss

LLM の損失関数 — 次トークン予測の Cross-Entropy

損失関数の選び方が 「学ばせたいこと」 の宣言

悪い損失関数の典型 — 「現場と乖離した KPI」 問題

損失関数(Loss) — モデルの「ズレ」を1個の数字に、これを下げる方向にダイヤルを回す

なぜ「1個の数字」にする必要があるのか

損失関数の選び方が「学ばせたいこと」の宣言

悪い損失関数の典型 — 「現場と乖離した KPI」問題