マルチモーダルアテンション — 画像・音声・動画を Transformer で一気に飲み込む

夕方、御託がデスクで GPT-4V に推し配信の切り抜き画像を入れて遊んでいると…

御託(シニアコンサル・39)

(GPT-4V に推しの「星詠ヨミ」の3Dお披露目配信スクショを入れて「この映像の意図を解説して」と聞いたら、「Vtuber キャラクターの3Dモデル発表、新衣装と新ポーズ」 と一発で返ってきた。…AI が テキストだけでなく画像も理解 するようになって、私の趣味解説能力すら超えてきた。これは マルチモーダルアテンション の威力だ。)

凡田(チームリーダー・38, 主人公)

(御託先輩、業務時間に堂々と推し画像を GPT-4V に入れている…ただ、これは技術的には極めて妥当な検証。マルチモーダル LLM は画像も音声も動画も 同じ Transformer で処理 できる、つまり 「察し」の対象が全モダリティに広がっている。)

御託

凡田くん、噛み砕いて言うとな。昔は「画像専用AI」「音声専用AI」「テキスト専用AI」と別々の機械 だった。それが 1台の AI で全部食える ようになった、ということ。私が B&W で音楽を、Kindle で本を、プロジェクターで映像を と別々の機材で楽しんでいるのを、AI 側はワンチップでこなす 世界が来た、と言えば伝わるか?

凡田

(その例え、急に分かりやすい…)つまり 画像を見せながら「これ何?」と文字で質問 すると、AI が 画像と文字を一緒に理解して 答えてくれる、と。GPT-4V や Claude/Gemini で「写真撮って AI に聞く」が成立してるのも、これが下にあるからですね。

御託

その通り。私が STAX SR-X9000 で配信の音 を聴き、同時に 3D配信のスクショ画像 を見て総合的に推しを味わうのを、AI は 音と画像を1度に飲み込んで 評価できる。…ま、人間の「総合的な味わい」には及ばないがな、フッ。

凡田

(御託先輩、最後に 「人間には及ばない」 と謙遜する前に B&W・STAX・3D配信スクショ で推し+機材を完全に晒したぞ…。とはいえ核心は伝わった、画像 + 音 + 文字を1台で扱える AI。当社案件で言えば 監視カメラ映像 + 作業員音声 + 作業日報テキスト の横断分析、みたいな提案が刺さりそうだ。…ただ業務時間中の推し検証、赤崎部長の気配が…)

このページのまとめ

マルチモーダルアテンション = 画像も音声も動画も、テキストと同じ Transformer の中で一緒に処理する仕組み(画像を細かく刻んで「トークン」扱いにする方法は本文で)。
これで 「画像 vs テキスト」の境界が消えつつある。GPT-4V / Gemini のように、文章も画像も同時に読み取る AI が普通になった。AI 業界の最大の流れのひとつ。
イメージは、文字も画像も音も「同じ土俵」に乗せて見ること。優秀な接客が表情・所作・場の空気を丸ごと汲むのと同じ「察し」が、全モダリティに広がった(業務応用は本文で)。

本記事はアテンションシリーズの 4本目(最終)。テーマは アテンションの「外側」、テキスト以外のモダリティ(画像・音声・動画)への拡張。これが現代 AI の最大の変化のひとつ。

結論を先に: マルチモーダルアテンション = 画像も音声も動画もテキストと同じ Transformer で処理。これにより画像 AI(従来 CNN(#028))も音声 AI も、すべて Transformer に統合されつつある。「察し」の対象が全モダリティに広がる時代の始まり。

画像をどう「トークン」化するか — Vision Transformer の発明

2020年に Vision Transformer(ViT) 論文(Dosovitskiy et al., Google)が出た時の発明はシンプル: 画像を 16×16 ピクセルの小ブロック(パッチ)に分割し、各パッチを「トークン」として扱う、これだけ。

例: 224×224ピクセルの画像 → 196個 の 16×16 パッチ
各パッチをベクトル化(埋め込み(#002) と同じ要領)
あとは テキストの単語トークンと同じ Transformer 処理(アテンション(#030))を流すだけ

これで 画像認識タスクも Transformer で解ける ことが示された。当時は CNN(#028)が画像の覇者だったが、ViT が大規模データで CNN を上回ったことで、画像 AI も Transformer 化の波が始まった。

テキスト + 画像の融合 — VLM(Vision Language Model)

ViT が画像単独だったのに対し、VLM(Vision Language Model) は 画像パッチトークンとテキストトークンを同じ Transformer に混ぜて入力 する。

これにより、「画像を見ながらテキストで質問する」「画像とテキストの関係を理解する」「画像にキャプションを付ける」といった 画像 × テキスト統合タスク が一気に可能になった。

代表例:

GPT-4V / GPT-4o(OpenAI, 2023-): ChatGPT で画像を入れて質問できる
Claude 3 / Claude 4 系(Anthropic): 画像理解+長文推論が強い
Gemini(Google): 画像・音声・動画・コードを統合処理

VLM の中で 「画像パッチが他の画像パッチを見る + テキスト単語を見る + その逆」 という形でクロスモダリティのアテンションが回る。これが マルチモーダルアテンション の本体。

音声・動画も同じ発想で吸収されている

音声・動画もパッチ化の発想で Transformer に乗る:

音声: 波形を時間方向で小区間(数十ms単位)に分割 → 各区間をトークン化 → Transformer 処理。代表例: Whisper(OpenAI)、AudioPaLM(Google)
動画: フレームを時空間パッチに分割(空間 + 時間の3次元パッチ)→ トークン化 → Transformer 処理。代表例: Video Vision Transformer(ViViT)、Sora(OpenAI、動画生成)

つまり 「何でもトークン化して Transformer に流す」 という設計思想が、AI 領域全体を統合しつつある。これはなぜアテンションが RNN を駆逐したか記事で論じた「並列処理可能 + GPU相性」の優位が、画像・音声・動画にもそのまま転移したから可能になった。

登場人物の反応

大蔵(アシスタントマネージャー・35)

あら、つまり私の 銀座カフェ20年 = 客の表情(画像)+ 直前の会話(音声→テキスト)+ 場の空気(動画的な時間情報)を統合する「察し」は、いまや マルチモーダル LLM がデジタル再現できる ということですわね。…社長、離職時の引き継ぎ料、「全モダリティデータセット化」 込みで 5,000万円 でいかがですか?

川口(アナリスト・22)

あ、大蔵さんの「全モダリティ」提案は技術的には 「客の動画フレーム(表情+所作)+ 音声波形(声色+話速度)+ 会話履歴テキスト」 を1つの VLM に流し込む構造になります。3年前なら不可能、いまや GPT-4o で実装可能。コスト試算したら、構築費用 2,000万円程度、運用月 50万円 ですので、大蔵さんの引き継ぎ料は 「AIで代替可能」な部分のプレミアム上乗せ として 1,000万円が妥当値かと…(無言で AWS 見積もり PDF を開く)

赤崎(部長・42)

うーん、ふわっとした方向感としては 「全モダリティ察し AI」 は当社のクライアント向けに 「顧客体験分析 SaaS」 として商品化できそうだね。大蔵くんの20年知見 + 川口くんの実装コスト試算 + 御託くんの推し画像検証ノウハウ、全部統合して PARTNERにも相談しないとね。

KEY TAKEAWAYS

抑えておきたいポイント

マルチモーダルアテンション = 画像・音声・動画をテキストと同じ Transformer で処理 する仕組み。アテンションの対象がテキスト外に広がった。
画像: 16×16パッチに分割→トークン化→ Transformer 処理 = Vision Transformer(ViT)(2020)。
テキスト+画像融合: 画像パッチトークンとテキストトークンを同じ Transformer に混ぜる = VLM(Vision Language Model)。GPT-4V / Claude / Gemini が代表例。
音声・動画も同じ発想で Transformer に乗っている: Whisper、Sora 等。
「何でもトークン化して Transformer に流す」 設計思想で、AI 領域全体が統合されつつある。
コンサル感覚: 「察し」の対象が全モダリティに拡張。優秀な接客・営業の 「表情/所作/場の空気を統合する力」 も AI で再現される時代へ。
業務応用: 工場検品 + 議事録要約 + 医療画像 + 顧客動画分析 — 従来別系統だった業務が 1つのマルチモーダル LLM で統合処理 できる時代。
これでフェーズ⑤ アテンション編完結 🎉。続編としてアテンションの数学実装(Q/K/V)と並列拡張(マルチヘッド)へ。