非線形関数(活性化関数) — これがないと NN は何層積んでも「ただの線形」にしかならない

月曜の朝会の直前で…

凡田(チームリーダー・38, 主人公)

部長、来週のクライアント提案、案A と案B と案C があるんですが、どれで行きますか?

赤崎(部長 / AI戦略推進室室長・42)

いいねいいね、その方向で。

凡田

…3つあるんですけど、どれですか?

赤崎

いいねいいね、ふわっとした方向感で。

大蔵(アシスタントマネージャー・35)

あら、部長、それは 活性化関数 が入ってない、と申しますやつですわ。何を入れても同じ反応では NN は深くしても意味がない のですって。

赤崎

……いいねいいね。

このページのまとめ

活性化関数 = 各ニューロンの出力を 「ひと曲げ」 する関数。足し算だけの直線を、ぐにゃっと曲げてやる。
これがないと、何層積んでも 結局1層と同じ。直線をいくら重ねても直線のまま。「深さ」の意味が消える。
イメージは 「何でもいいねと返すマネージャー」と「ここは違う、と曲げて判断する人」の差。曲げる軸があって初めて賢くなれる。

ニューラルネットワーク(#008) の中身を見ると、各ニューロンは 「入力に重みをかけて足し算する」 作業をしている。これだけだと 「線形変換」 という数学的に決まった種類の操作にしかならない。

そして恐ろしいことに、線形変換は何回繰り返しても線形変換。100層積んでも、結局1層と同じ表現力しか出ない。これでは「ディープラーニング」が「ディープ」である意味がない。

そこで各層の出力を ひと曲げ する関数を挟む。これが 活性化関数(activation function)、別名 非線形関数。これがあって初めて、NN は深くするほど賢くなれる。

「線形しかない世界」の恐ろしさ

まず、活性化関数なしの場合に何が起きるか、数式で見る。

1層: y = W₁ × x + b₁
2層: y = W₂ × (W₁ × x + b₁) + b₂
    = W₂W₁ × x + (W₂b₁ + b₂)
    = W' × x + b'    ← 結局 1層の線形変換と同じ形

2層に分けたつもりが、数学的には 1層の線形変換 に潰せる。100層でも1000層でも同じ。「深さ」がゼロになる。

これは強い帰結で、活性化関数なしの NN は、住宅価格を直線で予測する線形回帰と同程度の表現力 しか持たない。猫と犬の画像を分類することも、文章を生成することもできない。

つまり、深層学習が「深い」ことの意味は、各層の間に「曲がり」を挟んで、線形変換に潰されないようにしている ところにある。

XOR が解けない問題 — 1969年、NN を冬の時代に追いやった証明

この「線形しかないと何もできない」の話は、NN の歴史で 一度致命傷を負わせた事件 として有名。

パーセプトロン(#007)(1958, Rosenblatt)は当時「脳に近づく装置」として注目を集めたが、1969年、Minsky と Papert が 『パーセプトロンは XOR を解けない』 と数学的に証明した。これは深層学習史を語る上で必ず出てくる転換点。

図2: XOR — 4点を1本の直線で分離することはできない(=線形では解けない)

XOR(排他的論理和)は 「2入力のうち、ちょうど片方だけが1のときに1を返す」 という単純な論理演算。真理値表で4パターンしかない超基本的な問題。

これを2次元平面に4点でプロットすると、●(出力0)と○(出力1)が「斜めに対角線」で並ぶ。線形分離(=1本の直線で2グループに分ける)は 原理的に不可能。1本の直線で●を片側、○を反対側に分けようとしても、必ずどちらかが混ざる。

パーセプトロンは1本の直線(=線形分離)で判定する装置なので、XOR は永遠に解けない。Minsky と Papert はこれを証明し、その本(『Perceptrons』)が業界に与えた衝撃で NN 研究は約 15年の「冬の時代」(1970〜80年代前半) に突入する。

復活の鍵が、本記事のテーマである 活性化関数(=非線形) だった。

多層 NN(隠れ層を1段以上挟む)+ 非線形活性化関数 を導入する
各層が「曲がり」を持つことで、結果として 「曲線で分離する」判定境界 が描けるようになる
XOR の4点も、曲線(または折線)で囲めば簡単に分離可能

1986年に Rumelhart らが 逆伝播(backpropagation) による多層 NN の学習法を発表し、XOR を含む非線形問題が機械で解けることが実証された。これが NN 復活ののろしで、1990年代の第二次ブーム、2012年 AlexNet の第三次ブーム(=現在の深層学習革命)に繋がっていく。

つまり、活性化関数は単に「数学的な装飾」ではなく、NN を線形分離の檻から解放した解放装置。これがなければ Transformer も GPT も生まれなかった。

主要な活性化関数 — ReLU / Sigmoid / Tanh / GELU

歴史的に使われてきた活性化関数を整理する。

図1: 主要な活性化関数のグラフ(横軸=入力、縦軸=出力)

関数	定義	特徴	用途
ReLU	max(0, x)	マイナスは0、プラスはそのまま。計算超軽量、勾配消失しにくい	現代の標準、ほぼ全 NN で使用
Sigmoid	1 / (1 + e⁻ˣ)	0〜1 に滑らかに収まる。深い層で勾配が消える	古典、現在は出力層(二値分類)のみ
Tanh	(eˣ – e⁻ˣ) / (eˣ + e⁻ˣ)	-1〜1 に滑らかに収まる。Sigmoid より中心が0で扱いやすい	RNN/LSTM の内部で残存
GELU	x × Φ(x) (近似式)	ReLU を滑らかにしたバージョン、勾配が連続	Transformer の MLP 層(BERT, GPT)
SwiGLU	Swish × Gate	GELU のさらに発展形、ゲート機構付き	最新 LLM(Llama, Mistral)

なぜ ReLU が「勝った」のか

2012年頃まで、活性化関数は Sigmoid と Tanh が主流だった。これらは 滑らかで数学的に綺麗 だが、致命的な弱点があった。

勾配消失問題: 深い層に行くほど、勾配(=ダイヤルを回す量)が指数的に小さくなる。100層も積むと、最初の層はほぼ動かない
計算が重い: 指数関数を毎回計算する必要がある

そこに ReLU(max(0, x))が登場した。たったこれだけ の関数なのに:

計算超軽量: 「マイナスなら0、プラスならそのまま」だけ。指数も割り算もない
勾配消失しにくい: プラス側では勾配が常に1、深く積んでも消えない
結果: 深い NN(50層, 100層, 152層 ResNet)が現実に学習可能になった

2012年 AlexNet が ImageNet で圧勝した時の「秘密の武器」のひとつが、この ReLU だった。それ以前は「Sigmoid を滑らかに改良すべきだ」と研究者が頭を悩ませていたところに、「折り曲げただけ」の関数 が決定打となった。シンプルさが正義というディープラーニング界の象徴的な事件。

登場人物の反応 ①

大蔵(アシスタントマネージャー・35)

つまり ReLU って、「マイナスは捨てる、プラスはそのまま通す」 ってだけですのね? それなら私、Excel で =MAX(0, セル) って20年前から書いてますわよ。私、20年前から ディープラーニングの神髄 を実装してたんですわね。

川口(アナリスト・22)

大蔵さん、それは技術的に正しいです。AlexNet が 2012年 ImageNet で優勝した時の活性化関数も、原理は =MAX(0, x) です。…ただ、それを 6千万パラメ × 数百万画像 で同時に走らせたのが革命でして…(無言で論文 PDF を取り出しはじめる)

御託(シニアコンサル・39)

フッ、川口、それは サンデル風 に言えば「過剰な単純化が複雑性を凌駕する」という現代の逆説でな。ニーチェも ツァラトゥストラ で… (チラッとスマホを確認、配信時間まで残り12分)

凡田(チームリーダー・38, 主人公)

御託さん、ニーチェは出てこなくて大丈夫です。…要するに 赤崎部長の「いいねいいね」 は Sigmoid の出力みたいなもので、0.99 で全部肯定 しちゃってる状態ですよね。ReLU なら「マイナスはちゃんと0で切る」ので、案A・案B・案C のどれかは却下されるんですけど。

赤崎

うーん、ふわっとした方向感としては、その ReLU って機能、私には実装されてないかもしれない。生まれつき 常に「いいね」を出力 する設計でね。…ところで、川口くん、今週末うちのキャンプ道具を 埃ごと持ってってくれない ?

川口

あ、はい、やっておきます。(また休日出勤確定…)

「活性化関数 = ON/OFF 判定」のコンサル直感

活性化関数の本質的な役割を、もう一歩コンサル業務に寄せて整理する。

線形(活性化なし) = 「全ての入力に比例して反応する応答」
非線形(活性化あり) = 「入力に応じて反応の仕方が変わる応答」

具体的に、企業内の意思決定を例に置き換える:

場面	線形応答(活性化なし)	非線形応答(活性化あり=ReLU 風)
提案の評価	全提案に「いいねいいね」	合格ラインを下回ったら却下、上回ったら通す
採用面接	全候補者に「優秀ですね」	基準スコア未満は不採用、超えたら採用
予算配分	全部署に均等加算	ROI が閾値を超えた部署にだけ追加投資
解約検知	全顧客を平均的にフォロー	離脱スコアが閾値超えた顧客にのみ集中対応

線形応答の組織は、規模を拡大しても判断の質が上がらない。100人いても1人と同じ判断しか出ない。ここに 「閾値で判定する」仕組み(=非線形)を入れて初めて、規模が効いてくる。

これがそのまま、NN を深くしても賢くならない 問題と相似形になっている。組織でも NN でも、「線形応答の積み重ね」では深さの意味が消える。「曲げる」装置が必要。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり当社にも 活性化関数 を入れる必要がある、ということか。…ところで、最近 GPT というのに我が社の経営戦略を聞いてみたんだが、これがな、「素晴らしいビジョンです、社長」 しか返ってこなくてな。これは Sigmoid というやつかね?

川口

社長、それは RLHF(人間フィードバックでの調整) でユーザーを否定しないように学習されてるからです。技術的には ReLU や GELU を使ってるんですが、出力層の振る舞い が「全肯定」寄りになるよう調整されてまして…(無言で OpenAI の安全性ガイドラインを開きはじめる)

御託

(スマホ画面に “配信開始まで残り3分” の通知)…あ、いや、その通りでだな、GELU の数学的優位性 はだな、これは ハラリの言う 「サピエンス的単純化」がそのまま機械の中で…ちょっと失礼、トイレに(席を立ち始める)

大蔵

あら、御託さん、トイレに iPad と充電器 持参ですの? お腹、長そうですわね。

御託

……(無言で iPad を抱えて速足で去る)

赤崎

うーん、御託の “トイレで iPad” って、これは活性化関数で言うと…?

凡田

部長、それは活性化関数の話ではなく、ただの 勤怠管理の論点 です。…で、結論として、当社の意思決定にも ReLU(=却下するライン) を実装すべき、という戦略提言で…

南雲

うむ、それは パワポ300枚 で頼む。儲かるんだろ?

川口

あ、はい、やっておきます。(これで休日3週連続…)

御託がオフィスからiPadと充電器を抱えてトイレに速足で向かおうとしている。大蔵が横目でチラ見しながら穏やかな表情

非線形関数(活性化関数) — これがないと NN は何層積んでも 「ただの線形」 にしかならない

「線形しかない世界」 の恐ろしさ