CNN(畳み込みニューラルネット) — 画像認識を解いた「Transformer 以前の覇者」、いまマルチモーダル LLM に吸収されつつある

水曜の昼休み、社員食堂で凡田が広告会社時代を思い出して…

凡田(チームリーダー・38, 主人公)

あー、川口くん、いま AI 戦略推進室で 「画像認識を業務に取り入れる」案件 あるけど、これ 10年前なら大ニュース だったんだよ。私が 広告会社時代の2014年頃、技術部門の人が クリエイティブバナー画像を CNN で自動分類するツール を作ってくれて、私はそれを業務で 使う側 だった。私は触ってるだけなのに、当時は 「AIで広告効率化」 って役員に持ち上げられて、役員報告会で説明させられたよ。…いまや当たり前すぎて誰も騒がない。

川口(アナリスト・22)

凡田さん、2014年 ですか?それまさに CNN 黄金期 の入口です。AlexNet 2012 で ImageNet コンペが大爆発して、VGG 2014 / GoogLeNet 2014 / ResNet 2015 と次々モデルが出てきた時期。広告業界はその初期波に乗ってた、ということですね。

凡田

そうそう、当時は 「AI = CNN = 画像認識」 ってイメージが強くて、テキスト系(自然言語処理)は 後発で地味 だった。それが Transformer 登場(2017)で逆転、いまは 「AI = LLM = テキスト」。10年でメインストリームが入れ替わったわけ。

川口

(凡田さん、広告会社時代に CNN ツールを業務で触ってた経歴 初めて聞きました。AI 黎明期の現場ユーザー視点 を持ってる方、社内ではめずらしいです…)

このページのまとめ

ひとことで言うと CNN(畳み込みニューラルネット) は、画像を見るのが得意な NN(#008)。写真のどこに何が写っているかを自分で見抜く(中身の仕組みは本文で)。
2012年に AlexNet が画像コンペで圧勝し、現代のAIブームに火をつけた立役者。ただし Transformer 登場後は主役を譲り、今はマルチモーダル LLM(GPT-4V など)に吸収されつつある。
イメージは 小さな窓で画像をずらし見ながら、エッジや模様といった特徴を少しずつ拾っていく 感じ。

本記事から フェーズ④.5 「アーキテクチャ歴史編」 入る。これまでのフェーズ① 〜 ④ で NN基礎 → 学習 → 落とし穴 → 事前学習 と LLM の中身を順に追ってきた。次に来るのは Transformer 本体だが、その前に 「Transformer 以前に画像/時系列で覇者だった 2つのアーキテクチャ」 を押さえる。本記事はその1本目、画像認識の覇者 CNN。

結論を先に: CNN = 畳み込み層 + プーリング層で画像認識を解いた NN。2012年の AlexNet で AI ブームが始まり、Transformer 登場まで(2017)の5年間は 「AI = 画像認識 = CNN」 という時代だった。しかし2023年以降の マルチモーダル LLM(画像も Transformer で処理する系統)により、画像認識タスクも LLM 側に吸収されつつある。CNN は今後数年でエッジ用途・既存システムに後退、教養として知っておく技術へと位置付けが変わっていく。

畳み込み(Convolution) — 小さなフィルタを画像にスライドする

CNN の心臓部が 畳み込み(Convolution) 演算。これは画像処理の古典的なテクニック(Sobel フィルタや Gaussian ぼかし)を、「フィルタ自体をデータから学習する」 形に拡張したもの。

図1: 畳み込み演算 — 小さなフィルタを画像上でスライドさせ、各位置で内積を計算 → 特徴マップ

具体的には:

例えば 3×3 の小さなフィルタ(=9個の数字)を用意
そのフィルタを画像の左上から1ピクセルずつスライド
各位置で「フィルタの数値」と「画像のその場所の画素値」の内積(#005) を計算
結果が 「その場所にどれだけそのフィルタの特徴があるか」 を表す数値になる

フィルタの中身を変えれば検出する特徴が変わる:

横線検出フィルタ、縦線検出フィルタ、斜め線検出フィルタ
角(コーナー)検出フィルタ、円検出フィルタ
顔の輪郭検出、目の検出、口の検出などより複雑なパターン

CNN の革命は 「フィルタの中身を人間が設計するのではなく、データから自動で学習させる」 ことを可能にした点。逆伝播(#016) + 勾配降下(#015) でフィルタの数値が「最も画像を識別しやすい形」に収束していく。

プーリング(Pooling) — 縮小して「ざっくり化」

畳み込みだけだと 計算量が爆発する + 「目が左に2ピクセルずれた顔」と「ずれてない顔」を別物として扱ってしまう。これを解決するのが プーリング(Pooling)。

Max Pooling(主流): 2×2 や 3×3 の領域から最大値だけを取る → 画像が縮小される
結果: 計算量 1/4, 1/9 に削減 + 位置のズレに強くなる

畳み込み → プーリング → 畳み込み → プーリング… を何層も繰り返すと、深い層では 「画像の細部」ではなく「画像全体の意味」 を捉えるようになる。これが CNN の階層構造の意味。

出発点 — 1990年代の MNIST と LeNet

そもそも CNN の発想自体は 1990年代に遡る。Yann LeCun(現 Meta チーフAIサイエンティスト)が LeNet-5(1998) という小さな CNN を作り、MNIST という手書き数字認識データセット(28×28グレースケール、0-9 の10クラス、7万枚)を高精度で解いて見せた。これが 「CNN で画像認識が解ける」 の最初の実証。

MNIST はその後 機械学習の「Hello World」 として、AI を学ぶ人なら必ず触れる教養データセットになっている。0〜9 の手書き数字をたった28×28ピクセルで認識する、という極めてシンプルな問題が、ニューラルネットの実用化の出発点だった。

ただし当時は 計算機性能の限界 で、応用は手書き数字や簡単な物体認識に留まった。本格的な実用化は、それから10年以上待つことになる。

2012年 AlexNet と ImageNet — AI ブームの点火事件

時代が動いたのは 2012年。Geoffrey Hinton 教授の研究室から AlexNet という CNN モデルが、ImageNet(Fei-Fei Li が2009年に整備した、1,000カテゴリ / 120万枚の大規模画像分類データセット)コンペに投入された。

ImageNet コンペ: 1,000カテゴリ / 120万枚の画像分類タスク
従来手法(SVM + 手作り特徴量)のエラー率: 26%
AlexNet のエラー率: 15.3%(=従来比で約10ポイント改善)
翌年以降、全参加チームが 「CNN ベース」に乗り換え、エラー率は毎年下がり、2015年には 3.6%(=人間の精度を超える) へ

この瞬間が、「ニューラルネット冬の時代」が終わって「現代 AI ブーム」が始まった点火事件 として歴史に刻まれている。GPU(NVIDIA)を訓練に使ったこと、ReLU を活性化関数に採用したこと、Dropout で過学習を抑えたこと — いまの NN 設計の「三種の神器」は全て AlexNet で実証された。

その後の系譜 — VGG / ResNet / Inception

AlexNet 以降、CNN は深さ競争に突入する。

年	モデル	層数	キーアイデア
2012	AlexNet	8層	GPU訓練 / ReLU / Dropout の確立
2014	VGG	16-19層	3×3フィルタの積み重ねでシンプル深層化
2014	GoogLeNet (Inception)	22層	異なるサイズのフィルタを並列実行
2015	ResNet	152層	残差接続(Skip Connection) で深層化を可能に、勾配消失を解消
2017〜	DenseNet / EfficientNet / NASNet 等	多様化	効率化、自動アーキテクチャ探索

特に ResNet の「残差接続」 はその後 Transformer にも採用される基本パーツとなり、現代 NN の 標準構成要素 として残っている。CNN は NN の深層化を可能にした技術的遺産 を、画像領域だけでなく Transformer にも受け渡したと言える。

登場人物の反応 ①

赤崎(部長・42)

うーん、つまり 「AI = LLM」 って思い込んでたけど、画像認識は別系統で進化してきた ということか。ふわっとした方向感としては、当社のクライアントの工場検品案件、これは Transformer ではなく CNN で対応するのが正解、ということだね。

大蔵(アシスタントマネージャー・35)

あら、部長、それは 少し古い整理 ですわよ。最近は Vision Transformer(ViT) や GPT-4V / Claude / Gemini 等のマルチモーダル系 も画像認識で力を発揮していますの。工場検品のような 「常時動かす検品ライン」では CNN が依然有力(エッジデバイスに載りやすく、推論コストが軽い) ですが、新規検討時は Transformer 系も並行検討 するのが今の標準ですわ。「CNN が正解」と決めうちすると、選択肢を狭めてしまいます。…ちなみに私の 銀座カフェ接客レイヤー でも、常連客の「今日は不機嫌そう」の表情判定 を、当時は完全に手作業でやってました。あれも今なら CNN or マルチモーダル LLM で自動化できますわね。

御託(シニアコンサル・39)

フッ、CNN の話か。私のオーディオで言えば、レコード針が溝をなぞる あの感覚に近い。Linn LP12 のカートリッジが溝の波形を1ミクロン単位でスキャン しているのと、CNN のフィルタが画像をスライドするのが、構造としては相似形。物理的にスライドして特徴を読み取る という発想は、オーディオの世界では1970年代から完成していた、ということだ。…(という話をしている間に、今夜の 「星詠みの間」 配信開始まで残り19分)

会議室で赤崎が工場検品案件のCNN活用を語る、大蔵が接客比喩で受ける、御託がレコード針アナロジーで脱線

画像 AI は LLM に統合されつつある — マルチモーダル時代

2020年に Vision Transformer(ViT) が登場、画像領域に Transformer の波が来た。ViT は CNN を使わず、画像を 16×16 ピクセルの小ブロックに分割 → トークン化 して、LLM と同じ Transformer で処理する。

そして2023〜2025年、流れが決定的に変わる。GPT-4V(2023) / Claude 3 系 / Gemini 系などのマルチモーダル LLM が一気に普及。これらは 画像とテキストを同じ Transformer 内で処理 する構造で、「画像理解」を LLM の機能の一部として吸収 しつつある。

現時点(2026年)の整理:

テキスト系: Transformer LLM がほぼ独占
画像分類 / 検出: エッジ・低コスト用途では CNN が残るが、汎用画像理解はマルチモーダル LLM が主流化
画像生成: Stable Diffusion 系(内部に Transformer)が主流
動画 / 音声 / 3D: マルチモーダル LLM の拡張領域として急速進化

つまり 「画像 = CNN」という枠組み自体が消えつつある。新規プロジェクトで CNN を選ぶ意味は、「コスト/レイテンシに厳しい制約があるエッジユースケース」 等の限定的なニッチに後退している。今後5-10年で CNN は MNIST と並ぶ「教養・歴史」レベル に位置付け直される見通し。

コンサル感覚 — AI 戦略は「マルチモーダル LLM を中心に据える」時代

過去の系譜を整理する。

時期	「AI」のメインストリーム	当時の覇者	その後
2012-2017	画像認識	CNN(AlexNet → ResNet)	Transformer/マルチモーダルLLMが吸収中
2017-2020	翻訳 / 自然言語処理	Transformer 原型(Encoder-Decoder)	LLM に進化、独占
2020-2023	テキスト生成 LLM	Decoder-only Transformer(GPT系)	マルチモーダルへ拡張中
2023-現在	マルチモーダル LLM	GPT-4V / Claude / Gemini	画像・音声・動画を統合中

この流れの特徴は、新しい覇者が前の覇者を「置き換える」だけでなく「吸収していく」 こと。Transformer は翻訳タスクを CNN/RNN から奪った後、次々と 画像 → 音声 → 動画 → 3D と他のモダリティも飲み込み続けている。CNN もこの吸収先に入った。

AI 戦略を組む時、もう 「画像 = CNN / テキスト = LLM」みたいな分業を前提にする時代は終わりつつある。マルチモーダル LLM を中心に据えて、必要に応じて CNN 等の専用モデルで補強、という設計が現実解。

ただし注意: 既存システム(自動運転 / 工場検品 / 医療画像)で CNN は現役で動いている。今後数年は CNN の運用ノウハウも必要 な移行期間。一気に置き換わるのではなく、新規はマルチモーダル LLM、既存は CNN を維持しつつ徐々に移行 の二段運用が当面の現実。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり 「AI 戦略推進室」がテキスト LLM ばかり追ってるのは片手落ち、ということか。当社のクライアントには 製造業も病院も自動車部品メーカー もある。彼らが必要なのは ChatGPT そのもの ではなく、画像も扱えるマルチモーダル LLM や、エッジ用途で動く CNN ベースの検品システム ということか。…赤崎くん、当社の 「AI 戦略推進室」 を 「マルチモーダルAI 戦略推進室」 に改名するか?

赤崎

うーん、社長、その改名はちょっと長いですね。ふわっとした方向感としては 「AI 戦略推進室」 のままで、内部に 「画像認識チーム」「テキストAI チーム」「音声AI チーム」 の3チーム制を組む方が現実的かもしれません。…ところで その3チームのリーダー、凡田くんが全部兼任で良いですか?

凡田(チームリーダー・38, 主人公)

(部長、3チーム兼任は 過学習 です…ふつうにキャパオーバーで、各チームへの帰属感も希薄化、組織版 catastrophic forgetting が発生します。)…赤崎部長、それでしたら 画像系は私が「ユーザー目線」の要件定義役で立ち上げ補助(=広告会社時代に CNN ツール使ってた経験を活かして)、技術実装は外部ベンダーか川口くん補助、テキスト系は川口くんメイン、音声系は専門外なので外部パートナー、という分業をご提案します。

川口

あ、テキスト系の私からひとつ、画像系の最新動向としては 「Vision Language Model(VLM)」 = LLM + 画像理解という統合系も伸びていまして。GPT-4V や Claude 3 系はもう VLM です。「画像 vs テキスト」の境界が今後3年で消える 可能性も。…組織設計としては、境界を最初から作らない のが正解かもしれません。

南雲

うむ、いいねえ。「境界を作らない経営」 も響きがいい。儲かるんだろ?

KEY TAKEAWAYS

抑えておきたいポイント

CNN = 畳み込み層 + プーリング層で画像認識を解いた NN。Transformer 以前の覇者。
畳み込み = 小さなフィルタを画像にスライド、特徴を抽出。フィルタの中身が データから自動学習 されるのが革命点。
プーリング = 縮小して計算量削減 + 位置ズレに強くする。Max Pooling が主流。
2012年 AlexNet が ImageNet で従来手法を10ポイント以上ぶっちぎり → 現代AIブームの点火事件。
その後 VGG / GoogLeNet / ResNet(残差接続) で深層化、ResNet の残差接続は Transformer にも継承。
Vision Transformer(2020)→ マルチモーダル LLM(2023-) の流れで、画像認識タスクは 急速に LLM 側に吸収されつつある。CNN はエッジ用途・既存システムで残るが、5-10年で MNIST と並ぶ「教養・歴史」レベルへ後退する見通し。
コンサル感覚: 新しい覇者(Transformer/LLM)は前の覇者を 「置き換える」だけでなく「吸収していく」。AI 戦略は マルチモーダル LLM を中心に据えて、必要に応じて CNN 等の専用モデルで補強 が現実解。既存 CNN の運用知識は移行期間で当面必要。