(GPT-4V に推しの 「星詠 ヨミ」 の3Dお披露目配信スクショを入れて「この映像の意図を解説して」と聞いたら、「Vtuber キャラクターの3Dモデル発表、新衣装と新ポーズ」 と一発で返ってきた。…AI が テキストだけでなく画像も理解 するようになって、私の趣味解説能力すら超えてきた。これは マルチモーダルアテンション の威力だ。)
(御託先輩、業務時間に堂々と推し画像を GPT-4V に入れている…ただ、これは技術的には極めて妥当な検証。マルチモーダル LLM は画像も音声も動画も 同じ Transformer で処理 できる、つまり 「察し」 の対象が全モダリティに広がっている。)
凡田くん、噛み砕いて言うとな。昔は 「画像専用AI」 「音声専用AI」 「テキスト専用AI」 と別々の機械 だった。それが 1台の AI で全部食える ようになった、ということ。私が B&W で音楽を、Kindle で本を、プロジェクターで映像を と別々の機材で楽しんでいるのを、AI 側はワンチップでこなす 世界が来た、と言えば伝わるか?
(その例え、急に分かりやすい…)つまり 画像を見せながら 「これ何?」 と文字で質問 すると、AI が 画像と文字を一緒に理解して 答えてくれる、と。GPT-4V や Claude/Gemini で「写真撮って AI に聞く」が成立してるのも、これが下にあるからですね。
その通り。私が STAX SR-X9000 で配信の音 を聴き、同時に 3D配信のスクショ画像 を見て総合的に推しを味わうのを、AI は 音と画像を1度に飲み込んで 評価できる。…ま、人間の 「総合的な味わい」 には及ばないがな、フッ。
(御託先輩、最後に 「人間には及ばない」 と謙遜する前に B&W・STAX・3D配信スクショ で推し+機材を完全に晒したぞ…。とはいえ核心は伝わった、画像 + 音 + 文字を1台で扱える AI。当社案件で言えば 監視カメラ映像 + 作業員音声 + 作業日報テキスト の横断分析、みたいな提案が刺さりそうだ。…ただ業務時間中の推し検証、赤崎部長の気配が…)

- マルチモーダルアテンション = 画像も音声も動画も、テキストと同じ Transformer の中で一緒に処理する仕組み(画像を細かく刻んで 「トークン」 扱いにする方法は本文で)。
- これで 「画像 vs テキスト」の境界が消えつつある。GPT-4V / Gemini のように、文章も画像も同時に読み取る AI が普通になった。AI 業界の最大の流れのひとつ。
- イメージは、文字も画像も音も 「同じ土俵」 に乗せて見ること。優秀な接客が表情・所作・場の空気を丸ごと汲むのと同じ 「察し」 が、全モダリティに広がった(業務応用は本文で)。
本記事はアテンションシリーズの 4本目(最終)。テーマは アテンションの 「外側」、テキスト以外のモダリティ(画像・音声・動画)への拡張。これが現代 AI の最大の変化のひとつ。
結論を先に: マルチモーダルアテンション = 画像も音声も動画もテキストと同じ Transformer で処理。これにより画像 AI(従来 CNN(#028))も音声 AI も、すべて Transformer に統合されつつある。「察し」 の対象が全モダリティに広がる時代の始まり。
画像をどう 「トークン」 化するか — Vision Transformer の発明
2020年に Vision Transformer(ViT) 論文(Dosovitskiy et al., Google)が出た時の発明はシンプル: 画像を 16×16 ピクセルの小ブロック(パッチ)に分割し、各パッチを 「トークン」 として扱う、これだけ。
- 例: 224×224ピクセルの画像 → 196個 の 16×16 パッチ
- 各パッチをベクトル化(埋め込み(#002) と同じ要領)
- あとは テキストの単語トークンと同じ Transformer 処理(アテンション(#030))を流すだけ
これで 画像認識タスクも Transformer で解ける ことが示された。当時は CNN(#028)が画像の覇者だったが、ViT が大規模データで CNN を上回ったことで、画像 AI も Transformer 化の波が始まった。
テキスト + 画像の融合 — VLM(Vision Language Model)
ViT が画像単独だったのに対し、VLM(Vision Language Model) は 画像パッチトークンとテキストトークンを同じ Transformer に混ぜて入力 する。
これにより、「画像を見ながらテキストで質問する」「画像とテキストの関係を理解する」「画像にキャプションを付ける」といった 画像 × テキスト統合タスク が一気に可能になった。
代表例:
- GPT-4V / GPT-4o(OpenAI, 2023-): ChatGPT で画像を入れて質問できる
- Claude 3 / Claude 4 系(Anthropic): 画像理解+長文推論が強い
- Gemini(Google): 画像・音声・動画・コードを統合処理
VLM の中で 「画像パッチが他の画像パッチを見る + テキスト単語を見る + その逆」 という形でクロスモダリティのアテンションが回る。これが マルチモーダルアテンション の本体。
音声・動画も同じ発想で吸収されている
音声・動画もパッチ化の発想で Transformer に乗る:
- 音声: 波形を時間方向で小区間(数十ms単位)に分割 → 各区間をトークン化 → Transformer 処理。代表例: Whisper(OpenAI)、AudioPaLM(Google)
- 動画: フレームを時空間パッチに分割(空間 + 時間の3次元パッチ)→ トークン化 → Transformer 処理。代表例: Video Vision Transformer(ViViT)、Sora(OpenAI、動画生成)
つまり 「何でもトークン化して Transformer に流す」 という設計思想が、AI 領域全体を統合しつつある。これは なぜアテンションが RNN を駆逐したか 記事で論じた 「並列処理可能 + GPU相性」 の優位が、画像・音声・動画にもそのまま転移したから可能になった。
あら、つまり私の 銀座カフェ20年 = 客の表情(画像)+ 直前の会話(音声→テキスト)+ 場の空気(動画的な時間情報)を統合する 「察し」 は、いまや マルチモーダル LLM がデジタル再現できる ということですわね。…社長、離職時の引き継ぎ料、「全モダリティデータセット化」 込みで 5,000万円 でいかがですか?
あ、大蔵さんの 「全モダリティ」 提案は技術的には 「客の動画フレーム(表情+所作)+ 音声波形(声色+話速度)+ 会話履歴テキスト」 を1つの VLM に流し込む構造になります。3年前なら不可能、いまや GPT-4o で実装可能。コスト試算したら、構築費用 2,000万円程度、運用月 50万円 ですので、大蔵さんの引き継ぎ料は 「AIで代替可能」 な部分のプレミアム上乗せ として 1,000万円 が妥当値かと…(無言で AWS 見積もり PDF を開く)
うーん、ふわっとした方向感としては 「全モダリティ察し AI」 は当社のクライアント向けに 「顧客体験分析 SaaS」 として商品化できそうだね。大蔵くんの20年知見 + 川口くんの実装コスト試算 + 御託くんの推し画像検証ノウハウ、全部統合して PARTNERにも相談しないと ね。
