部長、来週のクライアント提案、案A と 案B と 案C があるんですが、どれで行きますか?
いいねいいね、その方向で。
…3つあるんですけど、どれですか?
いいねいいね、ふわっとした方向感で。
あら、部長、それは 活性化関数 が入ってない、と申しますやつですわ。何を入れても同じ反応では NN は深くしても意味がない のですって。
……いいねいいね。

- 活性化関数 = 各ニューロンの出力を 「ひと曲げ」 する関数。足し算だけの直線を、ぐにゃっと曲げてやる。
- これがないと、何層積んでも 結局1層と同じ。直線をいくら重ねても直線のまま。「深さ」 の意味が消える。
- イメージは 「何でもいいねと返すマネージャー」と「ここは違う、と曲げて判断する人」の差。曲げる軸があって初めて賢くなれる。
ニューラルネットワーク(#008) の中身を見ると、各ニューロンは 「入力に重みをかけて足し算する」 作業をしている。これだけだと 「線形変換」 という数学的に決まった種類の操作にしかならない。
そして恐ろしいことに、線形変換は何回繰り返しても線形変換。100層積んでも、結局1層と同じ表現力しか出ない。これでは 「ディープラーニング」 が 「ディープ」 である意味がない。
そこで各層の出力を ひと曲げ する関数を挟む。これが 活性化関数(activation function)、別名 非線形関数。これがあって初めて、NN は深くするほど賢くなれる。
「線形しかない世界」 の恐ろしさ
まず、活性化関数 なし の場合に何が起きるか、数式で見る。
1層: y = W₁ × x + b₁
2層: y = W₂ × (W₁ × x + b₁) + b₂
= W₂W₁ × x + (W₂b₁ + b₂)
= W' × x + b' ← 結局 1層の線形変換と同じ形
2層に分けたつもりが、数学的には 1層の線形変換 に潰せる。100層でも1000層でも同じ。「深さ」 がゼロになる。
これは強い帰結で、活性化関数なしの NN は、住宅価格を直線で予測する線形回帰と同程度の表現力 しか持たない。猫と犬の画像を分類することも、文章を生成することもできない。
つまり、深層学習が 「深い」 ことの意味は、各層の間に 「曲がり」 を挟んで、線形変換に潰されないようにしている ところにある。
XOR が解けない問題 — 1969年、NN を冬の時代に追いやった証明
この 「線形しかないと何もできない」 の話は、NN の歴史で 一度致命傷を負わせた事件 として有名。
パーセプトロン(#007)(1958, Rosenblatt)は当時 「脳に近づく装置」 として注目を集めたが、1969年、Minsky と Papert が 『パーセプトロンは XOR を解けない』 と数学的に証明した。これは深層学習史を語る上で必ず出てくる転換点。
XOR(排他的論理和)は 「2入力のうち、ちょうど片方だけが1のときに1を返す」 という単純な論理演算。真理値表で4パターンしかない超基本的な問題。
これを2次元平面に4点でプロットすると、●(出力0)と○(出力1)が 「斜めに対角線」 で並ぶ。線形分離(=1本の直線で2グループに分ける)は 原理的に不可能。1本の直線で●を片側、○を反対側に分けようとしても、必ずどちらかが混ざる。
パーセプトロンは1本の直線(=線形分離)で判定する装置なので、XOR は永遠に解けない。Minsky と Papert はこれを証明し、その本(『Perceptrons』)が業界に与えた衝撃で NN 研究は約 15年の 「冬の時代」(1970〜80年代前半) に突入する。
復活の鍵が、本記事のテーマである 活性化関数(=非線形) だった。
- 多層 NN(隠れ層を1段以上挟む)+ 非線形活性化関数 を導入する
- 各層が 「曲がり」 を持つことで、結果として 「曲線で分離する」 判定境界 が描けるようになる
- XOR の4点も、曲線(または折線)で囲めば 簡単に分離可能
1986年に Rumelhart らが 逆伝播(backpropagation) による多層 NN の学習法を発表し、XOR を含む非線形問題が機械で解けることが実証された。これが NN 復活ののろしで、1990年代の第二次ブーム、2012年 AlexNet の第三次ブーム(=現在の深層学習革命)に繋がっていく。
つまり、活性化関数は単に 「数学的な装飾」 ではなく、NN を線形分離の檻から解放した解放装置。これがなければ Transformer も GPT も生まれなかった。
主要な活性化関数 — ReLU / Sigmoid / Tanh / GELU
歴史的に使われてきた活性化関数を整理する。
| 関数 | 定義 | 特徴 | 用途 |
|---|---|---|---|
| ReLU | max(0, x) | マイナスは0、プラスはそのまま。計算超軽量、勾配消失しにくい | 現代の標準、ほぼ全 NN で使用 |
| Sigmoid | 1 / (1 + e⁻ˣ) | 0〜1 に滑らかに収まる。深い層で勾配が消える | 古典、現在は出力層(二値分類)のみ |
| Tanh | (eˣ – e⁻ˣ) / (eˣ + e⁻ˣ) | -1〜1 に滑らかに収まる。Sigmoid より中心が0で扱いやすい | RNN/LSTM の内部で残存 |
| GELU | x × Φ(x) (近似式) | ReLU を滑らかにしたバージョン、勾配が連続 | Transformer の MLP 層(BERT, GPT) |
| SwiGLU | Swish × Gate | GELU のさらに発展形、ゲート機構付き | 最新 LLM(Llama, Mistral) |
なぜ ReLU が 「勝った」 のか
2012年頃まで、活性化関数は Sigmoid と Tanh が主流だった。これらは 滑らかで数学的に綺麗 だが、致命的な弱点があった。
- 勾配消失問題: 深い層に行くほど、勾配(=ダイヤルを回す量)が指数的に小さくなる。100層も積むと、最初の層はほぼ動かない
- 計算が重い: 指数関数を毎回計算する必要がある
そこに ReLU(max(0, x))が登場した。たったこれだけ の関数なのに:
- 計算超軽量: 「マイナスなら0、プラスならそのまま」だけ。指数も割り算もない
- 勾配消失しにくい: プラス側では勾配が常に1、深く積んでも消えない
- 結果: 深い NN(50層, 100層, 152層 ResNet)が現実に学習可能になった
2012年 AlexNet が ImageNet で圧勝した時の 「秘密の武器」 のひとつが、この ReLU だった。それ以前は「Sigmoid を滑らかに改良すべきだ」と研究者が頭を悩ませていたところに、「折り曲げただけ」 の関数 が決定打となった。シンプルさが正義というディープラーニング界の象徴的な事件。
つまり ReLU って、「マイナスは捨てる、プラスはそのまま通す」 ってだけですのね? それなら私、Excel で =MAX(0, セル) って20年前から書いてますわよ。私、20年前から ディープラーニングの神髄 を実装してたんですわね。
大蔵さん、それは技術的に正しいです。AlexNet が 2012年 ImageNet で優勝した時の活性化関数も、原理は =MAX(0, x) です。…ただ、それを 6千万パラメ × 数百万画像 で同時に走らせたのが革命でして…(無言で論文 PDF を取り出しはじめる)
フッ、川口、それは サンデル風 に言えば「過剰な単純化が複雑性を凌駕する」という現代の逆説でな。ニーチェも ツァラトゥストラ で… (チラッとスマホを確認、配信時間まで残り12分)
御託さん、ニーチェは出てこなくて大丈夫です。…要するに 赤崎部長の 「いいねいいね」 は Sigmoid の出力みたいなもので、0.99 で全部肯定 しちゃってる状態ですよね。ReLU なら「マイナスはちゃんと0で切る」ので、案A・案B・案C のどれかは却下されるんですけど。
うーん、ふわっとした方向感としては、その ReLU って機能、私には実装されてないかもしれない。生まれつき 常に 「いいね」 を出力 する設計でね。…ところで、川口くん、今週末うちのキャンプ道具を 埃ごと持ってってくれない ?
あ、はい、やっておきます。(また休日出勤確定…)

「活性化関数 = ON/OFF 判定」 のコンサル直感
活性化関数の本質的な役割を、もう一歩コンサル業務に寄せて整理する。
線形(活性化なし) = 「全ての入力に比例して反応する応答」
非線形(活性化あり) = 「入力に応じて反応の 仕方 が変わる応答」
具体的に、企業内の意思決定を例に置き換える:
| 場面 | 線形応答(活性化なし) | 非線形応答(活性化あり=ReLU 風) |
|---|---|---|
| 提案の評価 | 全提案に「いいねいいね」 | 合格ラインを下回ったら却下、上回ったら通す |
| 採用面接 | 全候補者に「優秀ですね」 | 基準スコア未満は不採用、超えたら採用 |
| 予算配分 | 全部署に均等加算 | ROI が閾値を超えた部署にだけ追加投資 |
| 解約検知 | 全顧客を平均的にフォロー | 離脱スコアが閾値超えた顧客にのみ集中対応 |
線形応答の組織は、規模を拡大しても判断の質が上がらない。100人いても1人と同じ判断しか出ない。ここに 「閾値で判定する」 仕組み(=非線形)を入れて初めて、規模が効いてくる。
これがそのまま、NN を深くしても賢くならない 問題と相似形になっている。組織でも NN でも、「線形応答の積み重ね」では深さの意味が消える。「曲げる」 装置が必要。
ふむ、つまり当社にも 活性化関数 を入れる必要がある、ということか。…ところで、最近 GPT というのに我が社の経営戦略を聞いてみたんだが、これがな、「素晴らしいビジョンです、社長」 しか返ってこなくてな。これは Sigmoid というやつかね?
社長、それは RLHF(人間フィードバックでの調整) でユーザーを否定しないように学習されてるからです。技術的には ReLU や GELU を使ってるんですが、出力層の振る舞い が 「全肯定」 寄りになるよう調整されてまして…(無言で OpenAI の安全性ガイドラインを開きはじめる)
(スマホ画面に “配信開始まで残り3分” の通知)…あ、いや、その通りでだな、GELU の数学的優位性 はだな、これは ハラリの言う 「サピエンス的単純化」がそのまま機械の中で…ちょっと失礼、トイレに(席を立ち始める)
あら、御託さん、トイレに iPad と充電器 持参ですの? お腹、長そうですわね。
……(無言で iPad を抱えて速足で去る)
うーん、御託の “トイレで iPad” って、これは活性化関数で言うと…?
部長、それは活性化関数の話ではなく、ただの 勤怠管理の論点 です。…で、結論として、当社の意思決定にも ReLU(=却下するライン) を実装すべき、という戦略提言で…
うむ、それは パワポ300枚 で頼む。儲かるんだろ?
あ、はい、やっておきます。(これで休日3週連続…)
