月曜の朝会前、川口がプリントアウトを片手に…
川口(アナリスト・22)

凡田さん、聞いてください。週末に 「Attention Is All You Need」(Vaswani et al., 2017)を 17回目の読み返し をして、改めて気づきました。このアテンション機構ひとつ が、その後の GPT / Claude / Gemini 全部 の根幹を作った、と。社内勉強会で LLM の本丸 を、いまこそ発表したいです。

凡田(チームリーダー・38, 主人公)

(川口くんの 「17回目の読み返し」 は明らかにオタクの域だが、確かにアテンションは Transformer の心臓部だ。)…川口くん、要するにアテンションは 「単語が他の単語を見て、自分の意味を更新する」 仕組みですよね。「モデル」という単語が、文脈次第で 機械学習モデルファッションモデル で全然意味が変わる、あの問題を一発で解いた。

川口

凡田さん、まさにその整理です。「周りの単語を見て自分を更新する」 という一文に集約される。シンプルなのに、これが効いた。…ちなみに今日の朝会で、私はこれを パワポ47枚 で社内発表する準備が…

凡田

(47枚は明らかに過剰、当社の朝会は8分しかない…3枚に圧縮を提案しよう。)…川口くん、その熱量を 社内ナレッジ5本 に分割してみよう。今日は アテンションのコンセプトだけ に絞る、3ステップ詳細 / Transformer ブロック構造 / RNN との比較 / マルチモーダル拡張 は別ナレッジに分けて、新人が一気に消化できるサイズ に。

月曜朝のオフィスで川口がプリントアウトを片手にアテンション論文の興奮を凡田に語る、凡田が困惑半分の表情
このページのまとめ
  • アテンションブロック = 文中の 各単語が「他の単語を見て、自分の意味を更新する」 仕組み。
  • これがあるおかげで 同じ単語でも文脈で意味を変えられる。「モデル」が機械学習の話か服飾の話かを取り違えない。だから現代 AI の 心臓部(中身は本文で)。
  • イメージは 会議で全員が互いの発言を聞き合い、その場で自分の発言の意味を補い合う 感じ。「察し」 の自動化。

本記事から フェーズ⑤ アテンション編。これが LLM 理解の 本丸。新概念が多いため 5本に分割(本記事=コンセプト、続編4本で詳細各論)。本記事はアテンションの コンセプト全体像 に絞る。

結論を先に: アテンション = 単語が他の単語を見て、自分の意味を更新する装置。これだけ。ただしこの 「これだけ」 が、2017年以降の AI 全体を作り変えた。

そもそもの問題 — 「モデル」 の意味は文脈で変わる

言語の難しさを、ひとつの例で考える:

同じ文字列「モデル」だが、意味は 正反対。AI がこれを区別するには、「モデル」 単語のベクトル表現を、周囲の文脈に応じて変える 必要がある。

従来の 埋め込み(#002) は、各単語に 1つの固定ベクトル を割り当てる方式。「モデル」のベクトルは常に同じ。これだと文脈による意味の違いが扱えない。

これを解決したのが アテンション「モデル」 のベクトルを、文中の他の単語(機械学習 / ファッション 等)を見て、その場で動的に更新する 仕組み。

アテンションの動作 — 3ステップで 「周りを見て自分を更新する」

アテンションの動作は、概念レベルで 3ステップ に集約される。

  1. 関連スコアを計算: 「モデル」が文中の他の単語(「機械学習」「を」「訓練する」)それぞれに対して、「自分とどれくらい関連があるか」 のスコアを計算
  2. スコアで重み付け: スコアが高い単語(=関連性が強い単語、例えば「機械学習」)から、より多くの情報を吸い上げる
  3. 自分のベクトルを更新: 集めた情報を混ぜて、「モデル」の新しいベクトルを作る。これが 「機械学習文脈での モデル」 という意味を持つ
アテンションの概念図、「モデル」が他の単語との関連スコアを計算し自分のベクトルを更新する

図1: アテンションの動作 — 「モデル」が他の単語との関連スコアで重み付けし、自分の意味を更新

ここではこの3ステップを 概念として理解 するところまで。各ステップの具体的な計算(何を関連スコアにするか、どう重み付けするか、どう更新するか)は、続編の「3ステップ詳細」で詳しく扱う。

セルフアテンション — 「自分の文の中で」 全単語が他全単語を見る

アテンションを 「同じ文の中で全ての単語が他の全単語を参照する」 形で使うのが セルフアテンション(Self-Attention)。「機械学習」も「を」も「訓練する」も、それぞれが他の全単語を見て自分を更新する。

これが Transformer のデフォルト動作。「自分自身の文の中での」 アテンション、というのが 「Self-」 の意味。

(別の文を参照する クロスアテンション もあるが、それは別記事で扱う)

深掘り記事 ・ 公開中アテンションの3ステップ詳細 (#031)関連スコア / 重み付け / 更新 の具体動作と 「質問と回答」 メタファー
深掘り記事 ・ 公開中Transformer ブロック全体構造 (#032)アテンション + MLP + 残差接続 + 正規化 のセット、何十回繰り返し
深掘り記事 ・ 公開中なぜ RNN を駆逐したか (#033)並列処理 + 長距離依存 + GPU相性 の決定打
深掘り記事 ・ 公開中マルチモーダルアテンション (#034)画像・音声・動画への拡張、GPT-4V / Claude / Gemini
深掘り記事 ・ 公開中Q/K/V(Query/Key/Value) (#035)アテンション数学実装の3行列(本筋)
深掘り記事 ・ 公開中マルチヘッドアテンション (#036)複数アテンション並列実行の拡張(本筋)

登場人物の反応
赤崎(部長・42)

うーん、つまりアテンションは 「会議で他の発言者の文脈を瞬時に統合する優秀な人」 の動作をモデル化したもの、ということか。ふわっとした方向感としては、当社の 「察しのいい中堅」 の脳内処理を AI で再現した、と理解できそうだ。

大蔵(アシスタントマネージャー・35)

あら、部長、まさにそれですわね。私が 銀座カフェ接客レイヤー でやっていた 「このお客様が常連の田中様で、隣の女性は奥様ではなく秘書、テーブルの本は趣味ではなく今日の商談資料」 という 瞬間的な文脈統合 は、まさにアテンションそのもの。優秀な人間の 「察し」 を AI が代替できるようになったのは、このアテンション機構のおかげですわ。

凡田

(赤崎部長と大蔵さん、コンセプトはきれいに着地した。…社内ナレッジは 3ステップの中身 を次に、その後 Transformer ブロック構造 / RNN 比較 / マルチモーダル と続く構成で。分割した方が 新人の頭に入る、と確信した。)

会議室で赤崎が

コンサル感覚 — 「察し」 を AI で再現できる時代

本記事の核心メッセージは 「アテンションは 「優秀な中堅の文脈統合 = 察し」 を AI で実装したもの」 という1点。

大蔵が銀座カフェで20年やっていた「常連客の表情・場の空気・直前の会話・季節・天気 を瞬間統合して接客判断を出す」あの動作。これと、LLM が 「モデル」 の意味を文脈次第で動的に決める 動作が、構造的に同じ仕組み(=文脈の重み付け統合)で動いている。

つまり 人間の 「察し」 は AI で再現可能な構造を持っていた、という発見が、アテンション革命の本質。具体的な構造変化(察しのコモディティ化、人材戦略への影響)は別記事「なぜアテンションが RNN を駆逐したか」でじっくり扱う。