月曜朝、コーヒー片手に…
川口(アナリスト・22)

あの、高次元空間って、ぼくが乗り鉄ルートを組むときに使ってる 30軸の最適化問題 とほぼ同じなんですよ。

凡田(チームリーダー・38, 主人公)

川口、それいま 必要な情報 だった?

大蔵(アシスタントマネージャー・35)

凡田さん、川口さんの乗り鉄話を止めたら、当社の唯一の福利厚生 が消えますわよ。

凡田

……(なるほど、続けてもらおう)。

月曜朝、川口が床に時刻表を広げて30軸最適化を熱弁、凡田と大蔵が福利厚生扱いの諦め顔で見守る
このページのまとめ
  • 高次元空間 とは、ものを位置づける 座標軸が4本以上ある場所。人間の直感は3本(縦・横・高さ)までしか効かない。
  • 軸が増えるほど 「意味を仕分ける物差し」を山ほど持てる。だからAIは言葉の細かなニュアンスまで区別できる(#066)。人間が見られないだけで、AIはそこに住んでいる。
  • イメージは、評価項目が3つの採点表ではなく 何千項目もある巨大な採点表。AIはその全項目で同時に対象を測っている(細かな性質は本文で)。

「埋め込みは12,288次元のベクトル」「ベクトルは高次元空間の点」と聞いて、「12,288次元?どんな空間?」と詰まった人向け。

結論から言うと: イメージしようとしないでいい。人間の脳は3次元までしか直感が効かないように出来ている。高次元は、定義としては存在するが、絵に描けないし、頭の中で回せない。AI 教科書を読むとき、ここで挫折する人が一番多い ポイントだ。

本記事は高次元空間を、(1) どう諦めるか、(2) なぜAIに不可欠か、(3) コンサル業務との接続 の3点で押さえる。

高次元空間 = ただ「軸がたくさんある空間」

凡田が28軸の食事ログ塔に押し潰され、御託が説教ポーズ、大蔵が冷静にツッコみ準備

定義は身も蓋もなくシンプル。

つまり高次元空間とは、「ベクトルの次元 = N」のとき、その N本の座標で全ての点が一意に決まる空間 のこと。

数学的にはどんな N でも自然に定義できる。10次元でも、1万次元でも、無限次元でも。だが 人間がイメージできるのは3次元まで。4次元目を頭に描こうとした瞬間に脳がフリーズする。これは脳の構造的限界で、訓練で克服できるものではない。

なぜ「諦める」のが正解なのか

3次元までは矢印として図に描ける。だから2次元・3次元の説明に頼って高次元を直感的に理解しようとする本が多い。

しかし 多くの 「高次元の感覚」 は、3次元の延長では絶対に得られない。むしろ低次元の直感を持ち込むと、間違える。

実例:

これは「球の体積は半径の N乗で増える」ことから素直に出てくる結果だが、3次元の直感では「えっ?」となる。

だから戦略は明確: 3次元のイメージは捨てる。高次元では何が起きるかを、性質として記憶する。これが諦めの中身。

高次元で起きる「奇妙なこと」

機械学習に関係する3つだけ覚えておけば十分。

(1) ほぼ全てのペアが「直交」する

まず 「直交」が嬉しい理由 から。

2つのベクトルが直交している = 互いに完全に独立している ということ。一方を動かしても、もう一方には影響しない。これが意味の世界で起きると、「1つの意味の軸を、他の軸を巻き込まずに動かせる」状態が作れる。

たとえば埋め込み空間で「性別の方向」と「複数形の方向」が直交していれば、

互いに混ざらない、独立した「ノブ」として扱える。

ところが、低次元では直交軸はすぐ枯渇する

つまり3次元空間に「意味の独立軸」を入れたければ、3つしか入らない。「性別」「単複」「国名」で3つ使ったら、もう「感情」「職業」「年代」を入れる場所がない。あふれた意味は、既存の軸と干渉する。

ここで「コンサルの2軸マップで価格×品質をプロットしたら、なぜか右上に偏る」現象を思い出してほしい。価格と品質は実は相関していて(高いものは品質も高い傾向)、本当の意味で直交した独立軸ではない。だから「品質を上げつつ価格は据え置き」みたいなポジションが空白になる。これが軸の干渉。

高次元の何が嬉しいか — 軸を取り放題

12,288次元の空間では、ランダムに2本のベクトルを取ると、ほぼ確実に内積がゼロに近くなる(=ほぼ直交している)。これは数学的事実で、次元が高いほど顕著になる。

なので、意味の軸を 何千本でも、互いに干渉せずに並べられる。性別・単複・国名・感情・職業・年代・時制・…と、必要なだけ独立スロットが取れる。

これが「意味の独立スロットの取り放題」の正体。AI が複雑な意味を扱える根本理由はここにある。

(2) 距離がほぼ均一化する

まず 何が困るのか から。

機械学習の素朴な発想は、「距離が近いものは似ている」だ。顧客 A と B の特徴ベクトルを比べて、距離が小さければ「似た顧客」と判定する。これが k-NN(k近傍法)やクラスタリングの基本。

ところが、高次元ではこの直感が壊れる

ランダムに点を撒いたとき:

東京駅の朝のラッシュをイメージしてほしい。少人数のオフィスなら「あの人、私の隣の席で近い」と分かる。だが何千人の人混みの中で「誰が一番近い?」と聞かれても、全員がほぼ同じ距離に見える。これが高次元で起きる現象。

つまり 「距離が近いから似ている」が成立しない。最近傍検索(k-NN)が高次元で実用的に機能しない、という古典的問題の正体。

じゃあどうするか — 距離ではなく 「向き」 で測る

これが内積(=方向ベースの類似度)が AI の主役になった理由。距離は死んでも、「2人が同じ方向を向いているか」は高次元でも崩れない

「同じ方向 = 似ている」という発想転換が、AI が高次元データを扱える根本理由。検索エンジン・レコメンド・アテンション機構、全て内積で似ている度を測っている。

(3) 体積は「表面」にしかない

低次元では「平均的なやつ」「中心的な例」が直感的に存在する。ところが高次元では、この感覚が崩れる

10次元・100次元の球を想像してほしい(できないけど数学的に存在する)。直感では「中心に物が詰まっている」イメージだが、実際は 体積のほぼ全てが、表面の薄い殻に集中する。中心はほぼ空。

何が困るかというと、「典型例」「平均的なケース」が存在しない世界になる

たとえば 12,288次元で「平均的な顧客像」を作ろうとして、全ての属性の平均値を並べてみる。するとその「平均顧客」は、実在する顧客の誰にも似ていない、架空の存在 になる。データ点は全部「縁」に並んでいて、中心にいる人がいないから。

コンサル流に言えば、「ペルソナを作りたい、平均像を出したい」という発想が、高次元では機能しない。代わりに「個別の似た事例を引っ張る」(=ベクトル類似検索)が主流になる。

AIのレコメンドが「あなたに似た人はこの商品を買いました」をやって、「平均的な顧客はこの商品が好きです」をやらない理由は、ここにある。

機械学習にとっての「祝福」

ここまで読むと「高次元って厄介じゃん」と思える。実際、これらの性質をまとめて 「次元の呪い (Curse of Dimensionality)」 と呼ぶ。

ところが、機械学習はこの呪いを 利用する側に回った

つまり「呪い」と「祝福」は同じ現象の裏表。AI、特に LLM は 祝福側だけを使い倒している

GPT-3 が 12,288次元を選んだのは、これより少ないと「干渉しない意味の軸が足りない」 = 性別と単複が混じってしまうから。これより多いと計算コストが爆発するから。意味同士の独立性 vs 計算量 のトレードオフで選ばれた数字。

コンサル業務にもう一歩寄せる

コンサルの仕事で 12,288軸の評価マトリクス を描くことは無いが、本質的に同じ発想は使える。

業務 高次元化のメリット
顧客評価 業界・売上だけでなく数百軸で評価すれば、表面マッチでなく構造マッチが見える
競合分析 価格・品質の2軸では見えない「文化軸」「速度軸」「リスク選好軸」が拾える
人材アサイン 10軸なら漏れる「相性」「成長カーブ」「危機対応力」を独立軸で持てる
案件類似検索 タグマッチでなく、案件全体のベクトル類似(=内積)で「雰囲気が近い案件」が拾える

「2軸マップで分かった気になる」のコンサル文化に対して、高次元は逆を行く。「もっと軸を増やしていい、ただし直交化すれば干渉しない」というのが高次元の教え。

ただし、人間が読むレポートには2軸まで に圧縮する必要がある(=次元削減)。AIが12,288軸で考えた結果を、人間用に2軸に潰す、というのが現代の流れになる。

登場人物の反応 ①
凡田(チームリーダー・38, 主人公)

あー…俺、筋トレマニアだった頃に、自分の食事を28軸でログ取ってたんですよ。3ヶ月後に分かったのは、「軸が多すぎて何の判断もできない」。これがあの「次元の呪い」ですか?

御託(シニアコンサル・39)

フッ、凡田、お前は次元削減を知らなかっただけだ。主成分分析を使えば28軸を2-3軸に圧縮できる。私が銘酒会で常にやっているのは…

大蔵(アシスタントマネージャー・35)

あら、御託さん。その「主成分分析」、御託さんはバーで実際に計算なさってるんですの?それともお話だけ?

御託(シニアコンサル・39)

…(視線を逸らす)

凡田(チームリーダー・38, 主人公)

いや御託さん黙らないで、そこ知りたい、…

川口(アナリスト・22)

あの、ぼく週末に時刻表持って稚内まで乗り鉄してきたんですけど、JR北海道の特急網って [路線, 時間, 乗換回数, 待ち時間, 駅弁の種類, 車窓の景観, 雪の影響, ……] と結構な高次元なんですよ。これを「最短ルート」の1軸に潰すと、釧路湿原を通る『おおぞら』号の良さが消えるんです。先週は釧路を朝6時に出て、稚内に夜10時着で…

凡田(チームリーダー・38, 主人公)

……川口、その話、いつも長くなるよな。

赤崎(部長 / AI戦略推進室室長・42)

(聞いてなかった)…で、なんの話だっけ?あ、そうだ、私もキャンプ装備で同じ失敗したよ。テントを15軸で評価して数値の高い順で買ったら、結果は 「使いにくい高級品の山」。納戸を見るたびに気が滅入る。

川口が時刻表を開いて乗り鉄ルートを語る、他4人が完全に聞いてない

アテンション機構との関係

高次元空間は、Transformer のアテンション機構が 意味のある類似度計算 を成立させるための前提条件でもある。

低次元では:

高次元(12,288)では:

つまり Transformer の精度の根源には、「高次元空間の祝福を最大限利用する設計」 がある。アテンション機構を理解するには、高次元の性質を直感ではなく 性質として 受け入れる必要がある。

登場人物の反応 ②
南雲(社長・60-62)

12,288次元か。…私が都銀の融資審査をやっていた40年前は、評価軸は7つしかなかった。それが今のAIは1万超え。…人間が考えていた世界が、いかに低次元だったかということだな。

凡田(チームリーダー・38, 主人公)

社長、つまり 「AIで判断してください」 って言うのは、「人間の3次元の直感を超えた判断をしてください」 と頼んでることになるんですよね。なのに我々は その結果を2軸マップで説明し直してる。AIの強みを自分で潰してる気が…

大蔵(アシスタントマネージャー・35)

凡田さん、ご立派なご意見ですわね。…ところで先日、京都の貴船神社で御朱印いただいてきましたの。あちらの空気感は3次元では表現できませんわ。完全に高次元の祝福ですわよ。

赤崎(部長 / AI戦略推進室室長・42)

えっ、大蔵さん御朱印やってるの?意外…

大蔵(アシスタントマネージャー・35)

あら、人を一軸で見ないでくださいまし。私だって12,288軸あります。

凡田(チームリーダー・38, 主人公)

(スマホを見て)あ、すみません、嫁さんから「今日は早く帰ってきてね」って LINE が…

赤崎(部長 / AI戦略推進室室長・42)

凡田くん、まだ話の途中だぞ。

凡田(チームリーダー・38, 主人公)

あの、すみません、新婚なので、家計の話で詰められる可能性が…

南雲(社長・60-62)

…凡田くん、行きなさい。仕事は明日でいい。奥さん大事に。AI の話より、そちらが先だ。

凡田(チームリーダー・38, 主人公)

…ありがとうございます社長!(走り去る)

赤崎(部長 / AI戦略推進室室長・42)

(取り残されて)…で、なんの話だっけ?

南雲が穏やかに見送り、赤崎が取り残されて呆然、凡田がスマホ持って走り去るシーン