あー、川口くん、いま AI 戦略推進室で 「画像認識を業務に取り入れる」 案件 あるけど、これ 10年前なら大ニュース だったんだよ。私が 広告会社時代の2014年頃、技術部門の人が クリエイティブバナー画像を CNN で自動分類するツール を作ってくれて、私はそれを業務で 使う側 だった。私は触ってるだけなのに、当時は 「AIで広告効率化」 って役員に持ち上げられて、役員報告会で説明させられたよ。…いまや当たり前すぎて誰も騒がない。
凡田さん、2014年 ですか?それまさに CNN 黄金期 の入口です。AlexNet 2012 で ImageNet コンペが大爆発して、VGG 2014 / GoogLeNet 2014 / ResNet 2015 と次々モデルが出てきた時期。広告業界はその初期波に乗ってた、ということですね。
そうそう、当時は 「AI = CNN = 画像認識」 ってイメージが強くて、テキスト系(自然言語処理)は 後発で地味 だった。それが Transformer 登場(2017)で逆転、いまは 「AI = LLM = テキスト」。10年でメインストリームが入れ替わったわけ。
(凡田さん、広告会社時代に CNN ツールを業務で触ってた経歴 初めて聞きました。AI 黎明期の現場ユーザー視点 を持ってる方、社内ではめずらしいです…)

- ひとことで言うと CNN(畳み込みニューラルネット) は、画像を見るのが得意な NN(#008)。写真のどこに何が写っているかを自分で見抜く(中身の仕組みは本文で)。
- 2012年に AlexNet が画像コンペで圧勝し、現代のAIブームに火をつけた立役者。ただし Transformer 登場後は主役を譲り、今はマルチモーダル LLM(GPT-4V など)に吸収されつつある。
- イメージは 小さな窓で画像をずらし見ながら、エッジや模様といった特徴を少しずつ拾っていく 感じ。
本記事から フェーズ④.5 「アーキテクチャ歴史編」 入る。これまでの フェーズ① 〜 ④ で NN基礎 → 学習 → 落とし穴 → 事前学習 と LLM の中身を順に追ってきた。次に来るのは Transformer 本体だが、その前に 「Transformer 以前に画像/時系列で覇者だった 2つのアーキテクチャ」 を押さえる。本記事はその1本目、画像認識の覇者 CNN。
結論を先に: CNN = 畳み込み層 + プーリング層で画像認識を解いた NN。2012年の AlexNet で AI ブームが始まり、Transformer 登場まで(2017)の5年間は 「AI = 画像認識 = CNN」 という時代だった。しかし2023年以降の マルチモーダル LLM(画像も Transformer で処理する系統)により、画像認識タスクも LLM 側に吸収されつつある。CNN は今後数年でエッジ用途・既存システムに後退、教養として知っておく技術へと位置付けが変わっていく。
畳み込み(Convolution) — 小さなフィルタを画像にスライドする
CNN の心臓部が 畳み込み(Convolution) 演算。これは画像処理の古典的なテクニック(Sobel フィルタや Gaussian ぼかし)を、「フィルタ自体をデータから学習する」 形に拡張したもの。
具体的には:
- 例えば 3×3 の小さなフィルタ(=9個の数字)を用意
- そのフィルタを画像の左上から1ピクセルずつスライド
- 各位置で「フィルタの数値」と「画像のその場所の画素値」の 内積(#005) を計算
- 結果が 「その場所にどれだけそのフィルタの特徴があるか」 を表す数値になる
フィルタの中身を変えれば検出する特徴が変わる:
- 横線検出フィルタ、縦線検出フィルタ、斜め線検出フィルタ
- 角(コーナー)検出フィルタ、円検出フィルタ
- 顔の輪郭検出、目の検出、口の検出 などより複雑なパターン
CNN の革命は 「フィルタの中身を人間が設計するのではなく、データから自動で学習させる」 ことを可能にした点。逆伝播(#016) + 勾配降下(#015) でフィルタの数値が 「最も画像を識別しやすい形」 に収束していく。
プーリング(Pooling) — 縮小して 「ざっくり化」
畳み込みだけだと 計算量が爆発する + 「目が左に2ピクセルずれた顔」と「ずれてない顔」を別物として扱ってしまう。これを解決するのが プーリング(Pooling)。
- Max Pooling(主流): 2×2 や 3×3 の領域から最大値だけを取る → 画像が縮小される
- 結果: 計算量 1/4, 1/9 に削減 + 位置のズレに強くなる
畳み込み → プーリング → 畳み込み → プーリング… を何層も繰り返すと、深い層では 「画像の細部」ではなく「画像全体の意味」 を捉えるようになる。これが CNN の階層構造の意味。
出発点 — 1990年代の MNIST と LeNet
そもそも CNN の発想自体は 1990年代に遡る。Yann LeCun(現 Meta チーフAIサイエンティスト)が LeNet-5(1998) という小さな CNN を作り、MNIST という手書き数字認識データセット(28×28グレースケール、0-9 の10クラス、7万枚)を高精度で解いて見せた。これが 「CNN で画像認識が解ける」 の最初の実証。
MNIST はその後 機械学習の 「Hello World」 として、AI を学ぶ人なら必ず触れる教養データセットになっている。0〜9 の手書き数字をたった28×28ピクセルで認識する、という極めてシンプルな問題が、ニューラルネットの実用化の出発点だった。
ただし当時は 計算機性能の限界 で、応用は手書き数字や簡単な物体認識に留まった。本格的な実用化は、それから10年以上待つことになる。
2012年 AlexNet と ImageNet — AI ブームの点火事件
時代が動いたのは 2012年。Geoffrey Hinton 教授の研究室から AlexNet という CNN モデルが、ImageNet(Fei-Fei Li が2009年に整備した、1,000カテゴリ / 120万枚の大規模画像分類データセット)コンペに投入された。
- ImageNet コンペ: 1,000カテゴリ / 120万枚の画像分類タスク
- 従来手法(SVM + 手作り特徴量)のエラー率: 26%
- AlexNet のエラー率: 15.3%(=従来比で約10ポイント改善)
- 翌年以降、全参加チームが 「CNN ベース」 に乗り換え、エラー率は毎年下がり、2015年には 3.6%(=人間の精度を超える) へ
この瞬間が、「ニューラルネット冬の時代」が終わって 「現代 AI ブーム」 が始まった点火事件 として歴史に刻まれている。GPU(NVIDIA)を訓練に使ったこと、ReLU を活性化関数に採用したこと、Dropout で過学習を抑えたこと — いまの NN 設計の 「三種の神器」 は全て AlexNet で実証された。
その後の系譜 — VGG / ResNet / Inception
AlexNet 以降、CNN は深さ競争に突入する。
| 年 | モデル | 層数 | キーアイデア |
|---|---|---|---|
| 2012 | AlexNet | 8層 | GPU訓練 / ReLU / Dropout の確立 |
| 2014 | VGG | 16-19層 | 3×3フィルタの積み重ねでシンプル深層化 |
| 2014 | GoogLeNet (Inception) | 22層 | 異なるサイズのフィルタを並列実行 |
| 2015 | ResNet | 152層 | 残差接続(Skip Connection) で深層化を可能に、勾配消失を解消 |
| 2017〜 | DenseNet / EfficientNet / NASNet 等 | 多様化 | 効率化、自動アーキテクチャ探索 |
特に ResNet の 「残差接続」 はその後 Transformer にも採用される基本パーツとなり、現代 NN の 標準構成要素 として残っている。CNN は NN の深層化を可能にした技術的遺産 を、画像領域だけでなく Transformer にも受け渡したと言える。
うーん、つまり 「AI = LLM」 って思い込んでたけど、画像認識は別系統で進化してきた ということか。ふわっとした方向感としては、当社のクライアントの工場検品案件、これは Transformer ではなく CNN で対応するのが正解、ということだね。
あら、部長、それは 少し古い整理 ですわよ。最近は Vision Transformer(ViT) や GPT-4V / Claude / Gemini 等のマルチモーダル系 も画像認識で力を発揮していますの。工場検品のような 「常時動かす検品ライン」では CNN が依然有力(エッジデバイスに載りやすく、推論コストが軽い) ですが、新規検討時は Transformer 系も並行検討 するのが今の標準ですわ。「CNN が正解」と決めうちすると、選択肢を狭めてしまいます。…ちなみに私の 銀座カフェ接客レイヤー でも、常連客の 「今日は不機嫌そう」 の表情判定 を、当時は完全に手作業でやってました。あれも今なら CNN or マルチモーダル LLM で自動化できますわね。
フッ、CNN の話か。私のオーディオで言えば、レコード針が溝をなぞる あの感覚に近い。Linn LP12 のカートリッジが溝の波形を1ミクロン単位でスキャン しているのと、CNN のフィルタが画像をスライドするのが、構造としては相似形。物理的にスライドして特徴を読み取る という発想は、オーディオの世界では1970年代から完成していた、ということだ。…(という話をしている間に、今夜の 「星詠みの間」 配信開始まで残り19分)

画像 AI は LLM に統合されつつある — マルチモーダル時代
2020年に Vision Transformer(ViT) が登場、画像領域に Transformer の波が来た。ViT は CNN を使わず、画像を 16×16 ピクセルの小ブロックに分割 → トークン化 して、LLM と同じ Transformer で処理する。
そして2023〜2025年、流れが決定的に変わる。GPT-4V(2023) / Claude 3 系 / Gemini 系 などのマルチモーダル LLM が一気に普及。これらは 画像とテキストを同じ Transformer 内で処理 する構造で、「画像理解」を LLM の機能の一部として吸収 しつつある。
現時点(2026年)の整理:
- テキスト系: Transformer LLM がほぼ独占
- 画像分類 / 検出: エッジ・低コスト用途では CNN が残るが、汎用画像理解は マルチモーダル LLM が主流化
- 画像生成: Stable Diffusion 系(内部に Transformer)が主流
- 動画 / 音声 / 3D: マルチモーダル LLM の拡張領域として急速進化
つまり 「画像 = CNN」 という枠組み自体が消えつつある。新規プロジェクトで CNN を選ぶ意味は、「コスト/レイテンシに厳しい制約があるエッジユースケース」 等の限定的なニッチに後退している。今後5-10年で CNN は MNIST と並ぶ 「教養・歴史」 レベル に位置付け直される見通し。
コンサル感覚 — AI 戦略は 「マルチモーダル LLM を中心に据える」 時代
過去の系譜を整理する。
| 時期 | 「AI」 のメインストリーム | 当時の覇者 | その後 |
|---|---|---|---|
| 2012-2017 | 画像認識 | CNN(AlexNet → ResNet) | Transformer/マルチモーダルLLMが吸収中 |
| 2017-2020 | 翻訳 / 自然言語処理 | Transformer 原型(Encoder-Decoder) | LLM に進化、独占 |
| 2020-2023 | テキスト生成 LLM | Decoder-only Transformer(GPT系) | マルチモーダルへ拡張中 |
| 2023-現在 | マルチモーダル LLM | GPT-4V / Claude / Gemini | 画像・音声・動画 を統合中 |
この流れの特徴は、新しい覇者が前の覇者を 「置き換える」 だけでなく 「吸収していく」 こと。Transformer は翻訳タスクを CNN/RNN から奪った後、次々と 画像 → 音声 → 動画 → 3D と他のモダリティも飲み込み続けている。CNN もこの吸収先に入った。
AI 戦略を組む時、もう 「画像 = CNN / テキスト = LLM」 みたいな分業を前提にする時代は終わりつつある。マルチモーダル LLM を中心に据えて、必要に応じて CNN 等の専用モデルで補強、という設計が現実解。
ただし注意: 既存システム(自動運転 / 工場検品 / 医療画像)で CNN は現役で動いている。今後数年は CNN の運用ノウハウも必要 な移行期間。一気に置き換わるのではなく、新規はマルチモーダル LLM、既存は CNN を維持しつつ徐々に移行 の二段運用が当面の現実。
ふむ、つまり 「AI 戦略推進室」 が テキスト LLM ばかり追ってるのは片手落ち、ということか。当社のクライアントには 製造業も病院も自動車部品メーカー もある。彼らが必要なのは ChatGPT そのもの ではなく、画像も扱えるマルチモーダル LLM や、エッジ用途で動く CNN ベースの検品システム ということか。…赤崎くん、当社の 「AI 戦略推進室」 を 「マルチモーダルAI 戦略推進室」 に改名するか?
うーん、社長、その改名はちょっと長いですね。ふわっとした方向感としては 「AI 戦略推進室」 のままで、内部に 「画像認識チーム」 「テキストAI チーム」 「音声AI チーム」 の3チーム制を組む方が現実的かもしれません。…ところで その3チームのリーダー、凡田くんが全部兼任で良いですか?
(部長、3チーム兼任は 過学習 です…ふつうにキャパオーバーで、各チームへの帰属感も希薄化、組織版 catastrophic forgetting が発生します。)…赤崎部長、それでしたら 画像系は私が 「ユーザー目線」 の要件定義役で立ち上げ補助(=広告会社時代に CNN ツール使ってた経験を活かして)、技術実装は外部ベンダーか川口くん補助、テキスト系は川口くんメイン、音声系は専門外なので外部パートナー、という分業をご提案します。
あ、テキスト系の私からひとつ、画像系の最新動向としては 「Vision Language Model(VLM)」 = LLM + 画像理解 という統合系も伸びていまして。GPT-4V や Claude 3 系はもう VLM です。「画像 vs テキスト」 の境界が今後3年で消える 可能性も。…組織設計としては、境界を最初から作らない のが正解かもしれません。
うむ、いいねえ。「境界を作らない経営」 も響きがいい。儲かるんだろ?
