水曜の昼休み、社員食堂で凡田が広告会社時代を思い出して…
凡田(チームリーダー・38, 主人公)

あー、川口くん、いま AI 戦略推進室で 「画像認識を業務に取り入れる」 案件 あるけど、これ 10年前なら大ニュース だったんだよ。私が 広告会社時代の2014年頃、技術部門の人が クリエイティブバナー画像を CNN で自動分類するツール を作ってくれて、私はそれを業務で 使う側 だった。私は触ってるだけなのに、当時は 「AIで広告効率化」 って役員に持ち上げられて、役員報告会で説明させられたよ。…いまや当たり前すぎて誰も騒がない。

川口(アナリスト・22)

凡田さん、2014年 ですか?それまさに CNN 黄金期 の入口です。AlexNet 2012 で ImageNet コンペが大爆発して、VGG 2014 / GoogLeNet 2014 / ResNet 2015 と次々モデルが出てきた時期。広告業界はその初期波に乗ってた、ということですね。

凡田

そうそう、当時は 「AI = CNN = 画像認識」 ってイメージが強くて、テキスト系(自然言語処理)は 後発で地味 だった。それが Transformer 登場(2017)で逆転、いまは 「AI = LLM = テキスト」。10年でメインストリームが入れ替わったわけ。

川口

(凡田さん、広告会社時代に CNN ツールを業務で触ってた経歴 初めて聞きました。AI 黎明期の現場ユーザー視点 を持ってる方、社内ではめずらしいです…)

社員食堂で凡田が川口に広告会社時代のCNN画像分類業務を語る、川口が驚きの表情
このページのまとめ
  • ひとことで言うと CNN(畳み込みニューラルネット) は、画像を見るのが得意な NN(#008)。写真のどこに何が写っているかを自分で見抜く(中身の仕組みは本文で)。
  • 2012年に AlexNet が画像コンペで圧勝し、現代のAIブームに火をつけた立役者。ただし Transformer 登場後は主役を譲り、今はマルチモーダル LLM(GPT-4V など)に吸収されつつある
  • イメージは 小さな窓で画像をずらし見ながら、エッジや模様といった特徴を少しずつ拾っていく 感じ。

本記事から フェーズ④.5 「アーキテクチャ歴史編」 入る。これまでの フェーズ① 〜 ④ で NN基礎 → 学習 → 落とし穴 → 事前学習 と LLM の中身を順に追ってきた。次に来るのは Transformer 本体だが、その前に 「Transformer 以前に画像/時系列で覇者だった 2つのアーキテクチャ」 を押さえる。本記事はその1本目、画像認識の覇者 CNN

結論を先に: CNN = 畳み込み層 + プーリング層で画像認識を解いた NN。2012年の AlexNet で AI ブームが始まり、Transformer 登場まで(2017)の5年間は 「AI = 画像認識 = CNN」 という時代だった。しかし2023年以降の マルチモーダル LLM(画像も Transformer で処理する系統)により、画像認識タスクも LLM 側に吸収されつつある。CNN は今後数年でエッジ用途・既存システムに後退、教養として知っておく技術へと位置付けが変わっていく。

畳み込み(Convolution) — 小さなフィルタを画像にスライドする

CNN の心臓部が 畳み込み(Convolution) 演算。これは画像処理の古典的なテクニック(Sobel フィルタや Gaussian ぼかし)を、「フィルタ自体をデータから学習する」 形に拡張したもの。

畳み込み演算のイメージ、フィルタが画像上をスライドして特徴マップを作る

図1: 畳み込み演算 — 小さなフィルタを画像上でスライドさせ、各位置で内積を計算 → 特徴マップ

具体的には:

フィルタの中身を変えれば検出する特徴が変わる:

CNN の革命は 「フィルタの中身を人間が設計するのではなく、データから自動で学習させる」 ことを可能にした点。逆伝播(#016) + 勾配降下(#015) でフィルタの数値が 「最も画像を識別しやすい形」 に収束していく。

プーリング(Pooling) — 縮小して 「ざっくり化」

畳み込みだけだと 計算量が爆発する + 「目が左に2ピクセルずれた顔」と「ずれてない顔」を別物として扱ってしまう。これを解決するのが プーリング(Pooling)

畳み込み → プーリング → 畳み込み → プーリング… を何層も繰り返すと、深い層では 「画像の細部」ではなく「画像全体の意味」 を捉えるようになる。これが CNN の階層構造の意味。

出発点 — 1990年代の MNIST と LeNet

そもそも CNN の発想自体は 1990年代に遡る。Yann LeCun(現 Meta チーフAIサイエンティスト)が LeNet-5(1998) という小さな CNN を作り、MNIST という手書き数字認識データセット(28×28グレースケール、0-9 の10クラス、7万枚)を高精度で解いて見せた。これが 「CNN で画像認識が解ける」 の最初の実証。

MNIST はその後 機械学習の 「Hello World」 として、AI を学ぶ人なら必ず触れる教養データセットになっている。0〜9 の手書き数字をたった28×28ピクセルで認識する、という極めてシンプルな問題が、ニューラルネットの実用化の出発点だった。

ただし当時は 計算機性能の限界 で、応用は手書き数字や簡単な物体認識に留まった。本格的な実用化は、それから10年以上待つことになる。

2012年 AlexNet と ImageNet — AI ブームの点火事件

時代が動いたのは 2012年。Geoffrey Hinton 教授の研究室から AlexNet という CNN モデルが、ImageNet(Fei-Fei Li が2009年に整備した、1,000カテゴリ / 120万枚の大規模画像分類データセット)コンペに投入された。

この瞬間が、「ニューラルネット冬の時代」が終わって 「現代 AI ブーム」 が始まった点火事件 として歴史に刻まれている。GPU(NVIDIA)を訓練に使ったこと、ReLU を活性化関数に採用したこと、Dropout で過学習を抑えたこと — いまの NN 設計の 「三種の神器」 は全て AlexNet で実証された。

その後の系譜 — VGG / ResNet / Inception

AlexNet 以降、CNN は深さ競争に突入する。

モデル 層数 キーアイデア
2012 AlexNet 8層 GPU訓練 / ReLU / Dropout の確立
2014 VGG 16-19層 3×3フィルタの積み重ねでシンプル深層化
2014 GoogLeNet (Inception) 22層 異なるサイズのフィルタを並列実行
2015 ResNet 152層 残差接続(Skip Connection) で深層化を可能に、勾配消失を解消
2017〜 DenseNet / EfficientNet / NASNet 等 多様化 効率化、自動アーキテクチャ探索

特に ResNet の 「残差接続」 はその後 Transformer にも採用される基本パーツとなり、現代 NN の 標準構成要素 として残っている。CNN は NN の深層化を可能にした技術的遺産 を、画像領域だけでなく Transformer にも受け渡したと言える。

登場人物の反応 ①
赤崎(部長・42)

うーん、つまり 「AI = LLM」 って思い込んでたけど、画像認識は別系統で進化してきた ということか。ふわっとした方向感としては、当社のクライアントの工場検品案件、これは Transformer ではなく CNN で対応するのが正解、ということだね。

大蔵(アシスタントマネージャー・35)

あら、部長、それは 少し古い整理 ですわよ。最近は Vision Transformer(ViT)GPT-4V / Claude / Gemini 等のマルチモーダル系 も画像認識で力を発揮していますの。工場検品のような 「常時動かす検品ライン」では CNN が依然有力(エッジデバイスに載りやすく、推論コストが軽い) ですが、新規検討時は Transformer 系も並行検討 するのが今の標準ですわ。「CNN が正解」と決めうちすると、選択肢を狭めてしまいます。…ちなみに私の 銀座カフェ接客レイヤー でも、常連客の 「今日は不機嫌そう」 の表情判定 を、当時は完全に手作業でやってました。あれも今なら CNN or マルチモーダル LLM で自動化できますわね。

御託(シニアコンサル・39)

フッ、CNN の話か。私のオーディオで言えば、レコード針が溝をなぞる あの感覚に近い。Linn LP12 のカートリッジが溝の波形を1ミクロン単位でスキャン しているのと、CNN のフィルタが画像をスライドするのが、構造としては相似形。物理的にスライドして特徴を読み取る という発想は、オーディオの世界では1970年代から完成していた、ということだ。…(という話をしている間に、今夜の 「星詠みの間」 配信開始まで残り19分)

会議室で赤崎が工場検品案件のCNN活用を語る、大蔵が接客比喩で受ける、御託がレコード針アナロジーで脱線

画像 AI は LLM に統合されつつある — マルチモーダル時代

2020年に Vision Transformer(ViT) が登場、画像領域に Transformer の波が来た。ViT は CNN を使わず、画像を 16×16 ピクセルの小ブロックに分割 → トークン化 して、LLM と同じ Transformer で処理する。

そして2023〜2025年、流れが決定的に変わる。GPT-4V(2023) / Claude 3 系 / Gemini 系 などのマルチモーダル LLM が一気に普及。これらは 画像とテキストを同じ Transformer 内で処理 する構造で、「画像理解」を LLM の機能の一部として吸収 しつつある。

現時点(2026年)の整理:

つまり 「画像 = CNN」 という枠組み自体が消えつつある。新規プロジェクトで CNN を選ぶ意味は、「コスト/レイテンシに厳しい制約があるエッジユースケース」 等の限定的なニッチに後退している。今後5-10年で CNN は MNIST と並ぶ 「教養・歴史」 レベル に位置付け直される見通し。

コンサル感覚 — AI 戦略は 「マルチモーダル LLM を中心に据える」 時代

過去の系譜を整理する。

時期 「AI」 のメインストリーム 当時の覇者 その後
2012-2017 画像認識 CNN(AlexNet → ResNet) Transformer/マルチモーダルLLMが吸収中
2017-2020 翻訳 / 自然言語処理 Transformer 原型(Encoder-Decoder) LLM に進化、独占
2020-2023 テキスト生成 LLM Decoder-only Transformer(GPT系) マルチモーダルへ拡張中
2023-現在 マルチモーダル LLM GPT-4V / Claude / Gemini 画像・音声・動画 を統合中

この流れの特徴は、新しい覇者が前の覇者を 「置き換える」 だけでなく 「吸収していく」 こと。Transformer は翻訳タスクを CNN/RNN から奪った後、次々と 画像 → 音声 → 動画 → 3D と他のモダリティも飲み込み続けている。CNN もこの吸収先に入った。

AI 戦略を組む時、もう 「画像 = CNN / テキスト = LLM」 みたいな分業を前提にする時代は終わりつつあるマルチモーダル LLM を中心に据えて、必要に応じて CNN 等の専用モデルで補強、という設計が現実解。

ただし注意: 既存システム(自動運転 / 工場検品 / 医療画像)で CNN は現役で動いている。今後数年は CNN の運用ノウハウも必要 な移行期間。一気に置き換わるのではなく、新規はマルチモーダル LLM、既存は CNN を維持しつつ徐々に移行 の二段運用が当面の現実。

登場人物の反応 ②
南雲(社長・60-62)

ふむ、つまり 「AI 戦略推進室」 が テキスト LLM ばかり追ってるのは片手落ち、ということか。当社のクライアントには 製造業も病院も自動車部品メーカー もある。彼らが必要なのは ChatGPT そのもの ではなく、画像も扱えるマルチモーダル LLM や、エッジ用途で動く CNN ベースの検品システム ということか。…赤崎くん、当社の 「AI 戦略推進室」「マルチモーダルAI 戦略推進室」 に改名するか?

赤崎

うーん、社長、その改名はちょっと長いですね。ふわっとした方向感としては 「AI 戦略推進室」 のままで、内部に 「画像認識チーム」 「テキストAI チーム」 「音声AI チーム」 の3チーム制を組む方が現実的かもしれません。…ところで その3チームのリーダー、凡田くんが全部兼任で良いですか?

凡田(チームリーダー・38, 主人公)

(部長、3チーム兼任は 過学習 です…ふつうにキャパオーバーで、各チームへの帰属感も希薄化、組織版 catastrophic forgetting が発生します。)…赤崎部長、それでしたら 画像系は私が 「ユーザー目線」 の要件定義役で立ち上げ補助(=広告会社時代に CNN ツール使ってた経験を活かして)、技術実装は外部ベンダーか川口くん補助、テキスト系は川口くんメイン、音声系は専門外なので外部パートナー、という分業をご提案します。

川口

あ、テキスト系の私からひとつ、画像系の最新動向としては 「Vision Language Model(VLM)」 = LLM + 画像理解 という統合系も伸びていまして。GPT-4V や Claude 3 系はもう VLM です。「画像 vs テキスト」 の境界が今後3年で消える 可能性も。…組織設計としては、境界を最初から作らない のが正解かもしれません。

南雲

うむ、いいねえ。「境界を作らない経営」 も響きがいい。儲かるんだろ?

社長室で南雲が