夕方、御託がデスクで GPT-4V に推し配信の切り抜き画像を入れて遊んでいると…
御託(シニアコンサル・39)

(GPT-4V に推しの 「星詠 ヨミ」 の3Dお披露目配信スクショを入れて「この映像の意図を解説して」と聞いたら、「Vtuber キャラクターの3Dモデル発表、新衣装と新ポーズ」 と一発で返ってきた。…AI が テキストだけでなく画像も理解 するようになって、私の趣味解説能力すら超えてきた。これは マルチモーダルアテンション の威力だ。)

凡田(チームリーダー・38, 主人公)

(御託先輩、業務時間に堂々と推し画像を GPT-4V に入れている…ただ、これは技術的には極めて妥当な検証。マルチモーダル LLM は画像も音声も動画も 同じ Transformer で処理 できる、つまり 「察し」 の対象が全モダリティに広がっている。)

御託

凡田くん、噛み砕いて言うとな。昔は 「画像専用AI」 「音声専用AI」 「テキスト専用AI」 と別々の機械 だった。それが 1台の AI で全部食える ようになった、ということ。私が B&W で音楽を、Kindle で本を、プロジェクターで映像を と別々の機材で楽しんでいるのを、AI 側はワンチップでこなす 世界が来た、と言えば伝わるか?

凡田

(その例え、急に分かりやすい…)つまり 画像を見せながら 「これ何?」 と文字で質問 すると、AI が 画像と文字を一緒に理解して 答えてくれる、と。GPT-4V や Claude/Gemini で「写真撮って AI に聞く」が成立してるのも、これが下にあるからですね。

御託

その通り。私が STAX SR-X9000 で配信の音 を聴き、同時に 3D配信のスクショ画像 を見て総合的に推しを味わうのを、AI は 音と画像を1度に飲み込んで 評価できる。…ま、人間の 「総合的な味わい」 には及ばないがな、フッ。

凡田

(御託先輩、最後に 「人間には及ばない」 と謙遜する前に B&W・STAX・3D配信スクショ で推し+機材を完全に晒したぞ…。とはいえ核心は伝わった、画像 + 音 + 文字を1台で扱える AI。当社案件で言えば 監視カメラ映像 + 作業員音声 + 作業日報テキスト の横断分析、みたいな提案が刺さりそうだ。…ただ業務時間中の推し検証、赤崎部長の気配が…)

夕方のオフィスで御託がノートPCで GPT-4V に画像を入れて検証中、凡田が背景で気づきの表情
このページのまとめ
  • マルチモーダルアテンション = 画像も音声も動画も、テキストと同じ Transformer の中で一緒に処理する仕組み(画像を細かく刻んで 「トークン」 扱いにする方法は本文で)。
  • これで 「画像 vs テキスト」の境界が消えつつあるGPT-4V / Gemini のように、文章も画像も同時に読み取る AI が普通になった。AI 業界の最大の流れのひとつ。
  • イメージは、文字も画像も音も 「同じ土俵」 に乗せて見ること。優秀な接客が表情・所作・場の空気を丸ごと汲むのと同じ 「察し」 が、全モダリティに広がった(業務応用は本文で)。

本記事はアテンションシリーズの 4本目(最終)。テーマは アテンションの 「外側」、テキスト以外のモダリティ(画像・音声・動画)への拡張。これが現代 AI の最大の変化のひとつ。

結論を先に: マルチモーダルアテンション = 画像も音声も動画もテキストと同じ Transformer で処理。これにより画像 AI(従来 CNN(#028))も音声 AI も、すべて Transformer に統合されつつある。「察し」 の対象が全モダリティに広がる時代の始まり。

画像をどう 「トークン」 化するか — Vision Transformer の発明

2020年に Vision Transformer(ViT) 論文(Dosovitskiy et al., Google)が出た時の発明はシンプル: 画像を 16×16 ピクセルの小ブロック(パッチ)に分割し、各パッチを 「トークン」 として扱う、これだけ。

これで 画像認識タスクも Transformer で解ける ことが示された。当時は CNN(#028)が画像の覇者だったが、ViT が大規模データで CNN を上回ったことで、画像 AI も Transformer 化の波が始まった。

テキスト + 画像の融合 — VLM(Vision Language Model)

ViT が画像単独だったのに対し、VLM(Vision Language Model)画像パッチトークンとテキストトークンを同じ Transformer に混ぜて入力 する。

これにより、「画像を見ながらテキストで質問する」「画像とテキストの関係を理解する」「画像にキャプションを付ける」といった 画像 × テキスト統合タスク が一気に可能になった。

代表例:

VLM の中で 「画像パッチが他の画像パッチを見る + テキスト単語を見る + その逆」 という形でクロスモダリティのアテンションが回る。これが マルチモーダルアテンション の本体。

音声・動画も同じ発想で吸収されている

音声・動画もパッチ化の発想で Transformer に乗る:

つまり 「何でもトークン化して Transformer に流す」 という設計思想が、AI 領域全体を統合しつつある。これは なぜアテンションが RNN を駆逐したか 記事で論じた 「並列処理可能 + GPU相性」 の優位が、画像・音声・動画にもそのまま転移したから可能になった。

登場人物の反応
大蔵(アシスタントマネージャー・35)

あら、つまり私の 銀座カフェ20年 = 客の表情(画像)+ 直前の会話(音声→テキスト)+ 場の空気(動画的な時間情報)を統合する 「察し」 は、いまや マルチモーダル LLM がデジタル再現できる ということですわね。…社長、離職時の引き継ぎ料、「全モダリティデータセット化」 込みで 5,000万円 でいかがですか?

川口(アナリスト・22)

あ、大蔵さんの 「全モダリティ」 提案は技術的には 「客の動画フレーム(表情+所作)+ 音声波形(声色+話速度)+ 会話履歴テキスト」 を1つの VLM に流し込む構造になります。3年前なら不可能、いまや GPT-4o で実装可能。コスト試算したら、構築費用 2,000万円程度、運用月 50万円 ですので、大蔵さんの引き継ぎ料は 「AIで代替可能」 な部分のプレミアム上乗せ として 1,000万円 が妥当値かと…(無言で AWS 見積もり PDF を開く)

赤崎(部長・42)

うーん、ふわっとした方向感としては 「全モダリティ察し AI」 は当社のクライアント向けに 「顧客体験分析 SaaS」 として商品化できそうだね。大蔵くんの20年知見 + 川口くんの実装コスト試算 + 御託くんの推し画像検証ノウハウ、全部統合して PARTNERにも相談しないと ね。

社長室で大蔵が