月曜の朝会の直前で…
凡田(チームリーダー・38, 主人公)

部長、来週のクライアント提案、案A案B案C があるんですが、どれで行きますか?

赤崎(部長 / AI戦略推進室室長・42)

いいねいいね、その方向で。

凡田

…3つあるんですけど、どれですか?

赤崎

いいねいいね、ふわっとした方向感で。

大蔵(アシスタントマネージャー・35)

あら、部長、それは 活性化関数 が入ってない、と申しますやつですわ。何を入れても同じ反応では NN は深くしても意味がない のですって。

赤崎

……いいねいいね。

朝会前で赤崎が凡田の提案資料(案A・案B・案C)を見て「いいねいいね」とだけ返している。凡田は3枚の資料を持って困惑、大蔵が冷静に観察、Excelファイルを抱えてる
このページのまとめ
  • 活性化関数 = 各ニューロンの出力を 「ひと曲げ」 する関数。足し算だけの直線を、ぐにゃっと曲げてやる。
  • これがないと、何層積んでも 結局1層と同じ。直線をいくら重ねても直線のまま。「深さ」 の意味が消える。
  • イメージは 「何でもいいねと返すマネージャー」と「ここは違う、と曲げて判断する人」の差。曲げる軸があって初めて賢くなれる。

ニューラルネットワーク(#008) の中身を見ると、各ニューロンは 「入力に重みをかけて足し算する」 作業をしている。これだけだと 「線形変換」 という数学的に決まった種類の操作にしかならない。

そして恐ろしいことに、線形変換は何回繰り返しても線形変換。100層積んでも、結局1層と同じ表現力しか出ない。これでは 「ディープラーニング」 が 「ディープ」 である意味がない。

そこで各層の出力を ひと曲げ する関数を挟む。これが 活性化関数(activation function)、別名 非線形関数。これがあって初めて、NN は深くするほど賢くなれる。

「線形しかない世界」 の恐ろしさ

まず、活性化関数 なし の場合に何が起きるか、数式で見る。

1層: y = W₁ × x + b₁
2層: y = W₂ × (W₁ × x + b₁) + b₂
    = W₂W₁ × x + (W₂b₁ + b₂)
    = W' × x + b'    ← 結局 1層の線形変換と同じ形

2層に分けたつもりが、数学的には 1層の線形変換 に潰せる。100層でも1000層でも同じ。「深さ」 がゼロになる

これは強い帰結で、活性化関数なしの NN は、住宅価格を直線で予測する線形回帰と同程度の表現力 しか持たない。猫と犬の画像を分類することも、文章を生成することもできない。

つまり、深層学習が 「深い」 ことの意味は、各層の間に 「曲がり」 を挟んで、線形変換に潰されないようにしている ところにある。

XOR が解けない問題 — 1969年、NN を冬の時代に追いやった証明

この 「線形しかないと何もできない」 の話は、NN の歴史で 一度致命傷を負わせた事件 として有名。

パーセプトロン(#007)(1958, Rosenblatt)は当時 「脳に近づく装置」 として注目を集めたが、1969年、Minsky と Papert が 『パーセプトロンは XOR を解けない』 と数学的に証明した。これは深層学習史を語る上で必ず出てくる転換点。

XOR の真理値表と 2D 散布図、直線で分離できないことを示す図

図2: XOR — 4点を1本の直線で分離することはできない(=線形では解けない)

XOR(排他的論理和)は 「2入力のうち、ちょうど片方だけが1のときに1を返す」 という単純な論理演算。真理値表で4パターンしかない超基本的な問題。

これを2次元平面に4点でプロットすると、●(出力0)と○(出力1)が 「斜めに対角線」 で並ぶ。線形分離(=1本の直線で2グループに分ける)は 原理的に不可能。1本の直線で●を片側、○を反対側に分けようとしても、必ずどちらかが混ざる。

パーセプトロンは1本の直線(=線形分離)で判定する装置なので、XOR は永遠に解けない。Minsky と Papert はこれを証明し、その本(『Perceptrons』)が業界に与えた衝撃で NN 研究は約 15年の 「冬の時代」(1970〜80年代前半) に突入する。

復活の鍵が、本記事のテーマである 活性化関数(=非線形) だった。

1986年に Rumelhart らが 逆伝播(backpropagation) による多層 NN の学習法を発表し、XOR を含む非線形問題が機械で解けることが実証された。これが NN 復活ののろしで、1990年代の第二次ブーム、2012年 AlexNet の第三次ブーム(=現在の深層学習革命)に繋がっていく。

つまり、活性化関数は単に 「数学的な装飾」 ではなく、NN を線形分離の檻から解放した解放装置。これがなければ Transformer も GPT も生まれなかった。

主要な活性化関数 — ReLU / Sigmoid / Tanh / GELU

歴史的に使われてきた活性化関数を整理する。

ReLU・Sigmoid・Tanh・GELU の4つのグラフ比較

図1: 主要な活性化関数のグラフ(横軸=入力、縦軸=出力)

関数 定義 特徴 用途
ReLU max(0, x) マイナスは0、プラスはそのまま。計算超軽量、勾配消失しにくい 現代の標準、ほぼ全 NN で使用
Sigmoid 1 / (1 + e⁻ˣ) 0〜1 に滑らかに収まる。深い層で勾配が消える 古典、現在は出力層(二値分類)のみ
Tanh (eˣ – e⁻ˣ) / (eˣ + e⁻ˣ) -1〜1 に滑らかに収まる。Sigmoid より中心が0で扱いやすい RNN/LSTM の内部で残存
GELU x × Φ(x) (近似式) ReLU を滑らかにしたバージョン、勾配が連続 Transformer の MLP 層(BERT, GPT)
SwiGLU Swish × Gate GELU のさらに発展形、ゲート機構付き 最新 LLM(Llama, Mistral)

なぜ ReLU が 「勝った」 のか

2012年頃まで、活性化関数は Sigmoid と Tanh が主流だった。これらは 滑らかで数学的に綺麗 だが、致命的な弱点があった。

そこに ReLU(max(0, x))が登場した。たったこれだけ の関数なのに:

2012年 AlexNet が ImageNet で圧勝した時の 「秘密の武器」 のひとつが、この ReLU だった。それ以前は「Sigmoid を滑らかに改良すべきだ」と研究者が頭を悩ませていたところに、「折り曲げただけ」 の関数 が決定打となった。シンプルさが正義というディープラーニング界の象徴的な事件。

登場人物の反応 ①
大蔵(アシスタントマネージャー・35)

つまり ReLU って、「マイナスは捨てる、プラスはそのまま通す」 ってだけですのね? それなら私、Excel で =MAX(0, セル) って20年前から書いてますわよ。私、20年前から ディープラーニングの神髄 を実装してたんですわね。

川口(アナリスト・22)

大蔵さん、それは技術的に正しいです。AlexNet が 2012年 ImageNet で優勝した時の活性化関数も、原理は =MAX(0, x) です。…ただ、それを 6千万パラメ × 数百万画像 で同時に走らせたのが革命でして…(無言で論文 PDF を取り出しはじめる)

御託(シニアコンサル・39)

フッ、川口、それは サンデル風 に言えば「過剰な単純化が複雑性を凌駕する」という現代の逆説でな。ニーチェも ツァラトゥストラ で… (チラッとスマホを確認、配信時間まで残り12分)

凡田(チームリーダー・38, 主人公)

御託さん、ニーチェは出てこなくて大丈夫です。…要するに 赤崎部長の 「いいねいいね」 は Sigmoid の出力みたいなもので、0.99 で全部肯定 しちゃってる状態ですよね。ReLU なら「マイナスはちゃんと0で切る」ので、案A・案B・案C のどれかは却下されるんですけど。

赤崎

うーん、ふわっとした方向感としては、その ReLU って機能、私には実装されてないかもしれない。生まれつき 常に 「いいね」 を出力 する設計でね。…ところで、川口くん、今週末うちのキャンプ道具を 埃ごと持ってってくれない ?

川口

あ、はい、やっておきます。(また休日出勤確定…)

大蔵がノートPC画面でExcelの =MAX(0, A1) という数式を誇らしげに指差す。川口が横で論文PDFをタブレットに表示している

「活性化関数 = ON/OFF 判定」 のコンサル直感

活性化関数の本質的な役割を、もう一歩コンサル業務に寄せて整理する。

線形(活性化なし) = 「全ての入力に比例して反応する応答」
非線形(活性化あり) = 「入力に応じて反応の 仕方 が変わる応答」

具体的に、企業内の意思決定を例に置き換える:

場面 線形応答(活性化なし) 非線形応答(活性化あり=ReLU 風)
提案の評価 全提案に「いいねいいね」 合格ラインを下回ったら却下、上回ったら通す
採用面接 全候補者に「優秀ですね」 基準スコア未満は不採用、超えたら採用
予算配分 全部署に均等加算 ROI が閾値を超えた部署にだけ追加投資
解約検知 全顧客を平均的にフォロー 離脱スコアが閾値超えた顧客にのみ集中対応

線形応答の組織は、規模を拡大しても判断の質が上がらない。100人いても1人と同じ判断しか出ない。ここに 「閾値で判定する」 仕組み(=非線形)を入れて初めて、規模が効いてくる。

これがそのまま、NN を深くしても賢くならない 問題と相似形になっている。組織でも NN でも、「線形応答の積み重ね」では深さの意味が消える。「曲げる」 装置が必要。

登場人物の反応 ②
南雲(社長・60-62)

ふむ、つまり当社にも 活性化関数 を入れる必要がある、ということか。…ところで、最近 GPT というのに我が社の経営戦略を聞いてみたんだが、これがな、「素晴らしいビジョンです、社長」 しか返ってこなくてな。これは Sigmoid というやつかね?

川口

社長、それは RLHF(人間フィードバックでの調整) でユーザーを否定しないように学習されてるからです。技術的には ReLU や GELU を使ってるんですが、出力層の振る舞い が 「全肯定」 寄りになるよう調整されてまして…(無言で OpenAI の安全性ガイドラインを開きはじめる)

御託

(スマホ画面に “配信開始まで残り3分” の通知)…あ、いや、その通りでだな、GELU の数学的優位性 はだな、これは ハラリの言うサピエンス的単純化」がそのまま機械の中で…ちょっと失礼、トイレに(席を立ち始める)

大蔵

あら、御託さん、トイレに iPad と充電器 持参ですの? お腹、長そうですわね。

御託

……(無言で iPad を抱えて速足で去る)

赤崎

うーん、御託の “トイレで iPad” って、これは活性化関数で言うと…?

凡田

部長、それは活性化関数の話ではなく、ただの 勤怠管理の論点 です。…で、結論として、当社の意思決定にも ReLU(=却下するライン) を実装すべき、という戦略提言で…

南雲

うむ、それは パワポ300枚 で頼む。儲かるんだろ?

川口

あ、はい、やっておきます。(これで休日3週連続…)

御託がオフィスからiPadと充電器を抱えてトイレに速足で向かおうとしている。大蔵が横目でチラ見しながら穏やかな表情