アテンションブロック(Attention) — 単語が「他の単語を見て自分の意味を更新する」仕組み、Transformer の心臓

月曜の朝会前、川口がプリントアウトを片手に…

川口(アナリスト・22)

凡田さん、聞いてください。週末に 「Attention Is All You Need」(Vaswani et al., 2017)を 17回目の読み返し をして、改めて気づきました。このアテンション機構ひとつ が、その後の GPT / Claude / Gemini 全部 の根幹を作った、と。社内勉強会で LLM の本丸 を、いまこそ発表したいです。

凡田(チームリーダー・38, 主人公)

(川口くんの「17回目の読み返し」は明らかにオタクの域だが、確かにアテンションは Transformer の心臓部だ。)…川口くん、要するにアテンションは 「単語が他の単語を見て、自分の意味を更新する」 仕組みですよね。「モデル」という単語が、文脈次第で 機械学習モデル と ファッションモデル で全然意味が変わる、あの問題を一発で解いた。

川口

凡田さん、まさにその整理です。「周りの単語を見て自分を更新する」 という一文に集約される。シンプルなのに、これが効いた。…ちなみに今日の朝会で、私はこれを パワポ47枚 で社内発表する準備が…

凡田

(47枚は明らかに過剰、当社の朝会は8分しかない…3枚に圧縮を提案しよう。)…川口くん、その熱量を 社内ナレッジ5本 に分割してみよう。今日は アテンションのコンセプトだけ に絞る、3ステップ詳細 / Transformer ブロック構造 / RNN との比較 / マルチモーダル拡張は別ナレッジに分けて、新人が一気に消化できるサイズ に。

このページのまとめ

アテンションブロック = 文中の 各単語が「他の単語を見て、自分の意味を更新する」 仕組み。
これがあるおかげで 同じ単語でも文脈で意味を変えられる。「モデル」が機械学習の話か服飾の話かを取り違えない。だから現代 AI の 心臓部(中身は本文で)。
イメージは 会議で全員が互いの発言を聞き合い、その場で自分の発言の意味を補い合う 感じ。「察し」の自動化。

本記事から フェーズ⑤ アテンション編。これが LLM 理解の本丸。新概念が多いため 5本に分割(本記事=コンセプト、続編4本で詳細各論)。本記事はアテンションの コンセプト全体像 に絞る。

結論を先に: アテンション = 単語が他の単語を見て、自分の意味を更新する装置。これだけ。ただしこの「これだけ」が、2017年以降の AI 全体を作り変えた。

そもそもの問題 — 「モデル」の意味は文脈で変わる

言語の難しさを、ひとつの例で考える:

「機械学習 モデル を訓練する」 — ここの「モデル」 = 数式の塊
「ファッション モデル を撮影する」 — ここの「モデル」 = 人間

同じ文字列「モデル」だが、意味は 正反対。AI がこれを区別するには、「モデル」単語のベクトル表現を、周囲の文脈に応じて変える 必要がある。

従来の埋め込み(#002) は、各単語に 1つの固定ベクトル を割り当てる方式。「モデル」のベクトルは常に同じ。これだと文脈による意味の違いが扱えない。

これを解決したのが アテンション。「モデル」のベクトルを、文中の他の単語(機械学習 / ファッション等)を見て、その場で動的に更新する 仕組み。

アテンションの動作 — 3ステップで「周りを見て自分を更新する」

アテンションの動作は、概念レベルで 3ステップ に集約される。

関連スコアを計算: 「モデル」が文中の他の単語(「機械学習」「を」「訓練する」)それぞれに対して、「自分とどれくらい関連があるか」 のスコアを計算
スコアで重み付け: スコアが高い単語(=関連性が強い単語、例えば「機械学習」)から、より多くの情報を吸い上げる
自分のベクトルを更新: 集めた情報を混ぜて、「モデル」の新しいベクトルを作る。これが 「機械学習文脈でのモデル」 という意味を持つ

アテンションの概念図、「モデル」が他の単語との関連スコアを計算し自分のベクトルを更新する

図1: アテンションの動作 — 「モデル」が他の単語との関連スコアで重み付けし、自分の意味を更新

ここではこの3ステップを 概念として理解 するところまで。各ステップの具体的な計算(何を関連スコアにするか、どう重み付けするか、どう更新するか)は、続編の「3ステップ詳細」で詳しく扱う。

セルフアテンション — 「自分の文の中で」全単語が他全単語を見る

アテンションを 「同じ文の中で全ての単語が他の全単語を参照する」 形で使うのが セルフアテンション(Self-Attention)。「機械学習」も「を」も「訓練する」も、それぞれが他の全単語を見て自分を更新する。

これが Transformer のデフォルト動作。「自分自身の文の中での」アテンション、というのが「Self-」の意味。

(別の文を参照する クロスアテンション もあるが、それは別記事で扱う)

深掘り記事・公開中アテンションの3ステップ詳細 (#031)関連スコア / 重み付け / 更新の具体動作と「質問と回答」メタファー
 深掘り記事・公開中Transformer ブロック全体構造 (#032)アテンション + MLP + 残差接続 + 正規化のセット、何十回繰り返し
 深掘り記事・公開中なぜ RNN を駆逐したか (#033)並列処理 + 長距離依存 + GPU相性の決定打
 深掘り記事・公開中マルチモーダルアテンション (#034)画像・音声・動画への拡張、GPT-4V / Claude / Gemini
深掘り記事・公開中Q/K/V(Query/Key/Value) (#035)アテンション数学実装の3行列(本筋)
深掘り記事・公開中マルチヘッドアテンション (#036)複数アテンション並列実行の拡張(本筋)

登場人物の反応

赤崎(部長・42)

うーん、つまりアテンションは 「会議で他の発言者の文脈を瞬時に統合する優秀な人」 の動作をモデル化したもの、ということか。ふわっとした方向感としては、当社の 「察しのいい中堅」 の脳内処理を AI で再現した、と理解できそうだ。

大蔵(アシスタントマネージャー・35)

あら、部長、まさにそれですわね。私が 銀座カフェ接客レイヤー でやっていた 「このお客様が常連の田中様で、隣の女性は奥様ではなく秘書、テーブルの本は趣味ではなく今日の商談資料」 という 瞬間的な文脈統合 は、まさにアテンションそのもの。優秀な人間の「察し」を AI が代替できるようになったのは、このアテンション機構のおかげですわ。

凡田

(赤崎部長と大蔵さん、コンセプトはきれいに着地した。…社内ナレッジは 3ステップの中身 を次に、その後 Transformer ブロック構造 / RNN 比較 / マルチモーダルと続く構成で。分割した方が 新人の頭に入る、と確信した。)

コンサル感覚 — 「察し」を AI で再現できる時代

本記事の核心メッセージは 「アテンションは「優秀な中堅の文脈統合 = 察し」を AI で実装したもの」 という1点。

大蔵が銀座カフェで20年やっていた「常連客の表情・場の空気・直前の会話・季節・天気 を瞬間統合して接客判断を出す」あの動作。これと、LLM が 「モデル」の意味を文脈次第で動的に決める 動作が、構造的に同じ仕組み(=文脈の重み付け統合)で動いている。

つまり 人間の「察し」は AI で再現可能な構造を持っていた、という発見が、アテンション革命の本質。具体的な構造変化(察しのコモディティ化、人材戦略への影響)は別記事「なぜアテンションが RNN を駆逐したか」でじっくり扱う。

KEY TAKEAWAYS

抑えておきたいポイント

アテンション = 単語が他の単語を見て、自分のベクトル(意味)を更新する仕組み。Transformer の心臓部。
解決した問題: 「モデル」のような単語が文脈で意味が変わる、固定埋め込みでは扱えない問題。
動作は3ステップ: 関連スコア計算 → スコアで重み付け → 自分のベクトル更新。詳細は続編「3ステップ詳細」で。
同じ文の中で全単語が他全単語を見る形が セルフアテンション、Transformer のデフォルト。
2017年論文「Attention Is All You Need」で導入、現代 LLM 全アーキの基礎。
コンサル感覚: アテンションは 「優秀な中堅の文脈統合 = 察し」 の AI 実装。「察し」を AI で再現できる時代の入り口。

アテンションブロック(Attention) — 単語が 「他の単語を見て自分の意味を更新する」 仕組み、Transformer の心臓

そもそもの問題 — 「モデル」 の意味は文脈で変わる

アテンションの動作 — 3ステップで 「周りを見て自分を更新する」

セルフアテンション — 「自分の文の中で」 全単語が他全単語を見る

コンサル感覚 — 「察し」 を AI で再現できる時代

アテンションブロック(Attention) — 単語が「他の単語を見て自分の意味を更新する」仕組み、Transformer の心臓

そもそもの問題 — 「モデル」の意味は文脈で変わる

アテンションの動作 — 3ステップで「周りを見て自分を更新する」

セルフアテンション — 「自分の文の中で」全単語が他全単語を見る

コンサル感覚 — 「察し」を AI で再現できる時代