午前の執務室、御託が川口の英語資料をレビューしている…
御託(シニアコンサル・39)

川口。この英語スライド、”These datas show…” とあるが ── フッ、言わせてもらおう。data はそれ自体が複数形。単数は datum だ。ついでに言えば criteria の単数は criterion、phenomena の単数は phenomenon。ラテン語・ギリシャ語由来の語はだな…

川口(アナリスト・22)

うっ、すみません…。でも御託さん、その 不規則変化、面白い話があって。AI の埋め込み空間だと「複数にする」もひとつの 方向 なんですけど、person→people みたいな不規則変化も、ちゃんと同じ向きに乗る んですよ。

御託

ほう。文字面の 「+s」 ルールでは説明できない例外を、暗記もせずに、か?

川口

はい。つまり AI は 文字の形じゃなくて「意味の関係」 を掴んでる、っていう証拠なんです。…御託さんが15年かけて蓄えた不規則変化の蘊蓄を、AIは 「向き」 1本で。

執務室で御託が川口の英語資料の誤りを指摘して英文法の蘊蓄を語り、川口が恐縮しつつも『不規則変化もAIでは同じ方向に乗る』と返している図
この記事の要約(3行)
  • 複数にする」という文法の変化も、埋め込み空間では ひとつの 「方向」。cat→cats も king→kings も、同じ向き・同じ長さ の矢印で結ばれる。
  • 面白いのは 不規則変化。person→people、child→children は文字面がまるで違うのに、矢印は同じ向きに乗る。「最後に s を足す」という文字のルールでは説明できない例外を、空間は平然と扱う。
  • つまり、埋め込みが捉えているのは 文字の形ではなく「意味の関係」。単数・複数の方向は、その いちばん分かりやすい証拠 だ。

「方向=意味」(#049) では国→首都、性別ベクトル (#050) では王→女王を見た。本記事は3本目 ── 文法の変化 すら方向になる、という例だ。そしてこの例には、前の2つにはない 決定的に面白いポイント がある。

定義 — 「複数にする」も、ひとつの方向

埋め込み空間で、単数形と複数形のペアを結んでみる。cat → catsking → kingsdog → dogs。すると、もうお馴染みのパターンが現れる ── これらの矢印は、どれもほぼ同じ向き・同じ長さ になる。

その共通の向きが、「複数にする」という意味の差。国→首都、王→女王と同じ仕組みが、文法の変化にもそのまま効いている。

埋め込み空間のイメージ図。cat→cats、king→kingsの矢印が同じ向きで平行に並び、さらに不規則変化のperson→peopleも赤い矢印で同じ向きに乗っていることを示す

図1: cat→cats も king→kings も同じ向き。そして注目は person→people ── 不規則変化なのに、矢印は同じ向きに乗る

本題 — 不規則変化が「同じ向き」に乗る、という事件

ここからが、この記事の核心だ。英語の複数形には、御託の言う通り 不規則変化 がある。person→people、child→children、foot→feet。「最後に s を足す」という 文字のルール は、これらの前で破綻する。

ところが、埋め込み空間では ── person→people の矢印も、cat→cats とほぼ同じ向きに乗る。文字面はまったく違うのに、だ。

左パネルは文字のルール『最後にsを足す』でcat→cats、king→kingsは○だがperson→persons?、child→childs?が✕になり不規則変化で破綻することを示す。右パネルは意味の方向『複数の向きに進む』でperson→people、child→childrenも含めて全部○になることを示す比較図

図2: 文字のルールは不規則変化で破綻する。意味の方向は文字を見ていないので、不規則変化も同じ向きに乗る

これが何を意味するか。埋め込みは、文字の形を操作しているのではなく、「単数のモノ」と「複数のモノ」という意味の関係そのものを、空間の向きとして掴んでいる ── ということだ。「+s」 の暗記でも、不規則変化の例外リストでもなく、大量のテキストの中で cat と cats、person と people がどう使われるかから、同じ関係なら同じ向き、という構造が勝手に立ち上がる (#022)

時制(walk→walked)、比較級(big→bigger)、国籍(Japan→Japanese)── 同じことが、いろいろな文法・意味の関係で確認されている。言葉の規則性が、空間の幾何学として浮かび上がる。埋め込みの一番美しいところだ。

ちなみに — 日本語には「複数形」がほぼ無い

ここまで英語の例ばかりなのには、理由がある。日本語は「猫が1匹」でも「猫が3匹」でも 「猫」のまま ── 文法としての複数形を、ほとんど持たない言語だからだ。

では日本語では意味の方向が使えないかというと、そうではない。「東京→日本」「行く→行った」のような 意味・活用の関係 は、日本語の埋め込みでも同じように方向として現れる。言語ごとに 「どんな関係が方向になるか」 は違うが、「関係が向きになる」という仕組み自体は共通 ── ここを押さえておけば十分だ。

コンサル感覚 — 「表記のゆれ」を意味で束ねる

本記事の核心メッセージは 「AIは文字の形ではなく、意味の関係で言葉を扱っている」。これが実務で効く場面は、はっきりしている:

① 検索・分析が 「表記ゆれ」 に強い理由を説明できる: 「子供/子ども/こども」「サーバ/サーバー」── 文字としては別物でも、意味の空間では ほぼ同じ位置 に来る。AI検索が表記ゆれを越えてヒットするのは、文字合わせではなく 意味の位置合わせ をしているからだ。

② ルールベースとAIの使い分けが語れる: 「最後に s を足す」式の 文字ルールは、例外で破綻する。例外が多い・列挙しきれない業務(類義語の吸収、あいまいな問い合わせの振り分け)ほど、ルールベースより 意味ベース(埋め込み) が向く。逆に、例外ゼロの厳密な処理(金額計算、コード変換)はルールのままが正しい。この線引きを示せると、提案の精度が上がる。

③ 「例外も含めて構造を掴む」のは、優れた現場感覚と同じ: マニュアルの字面ではなく、仕事の 「関係」 で覚えている人は、例外的な状況にも応用が利く。AIの埋め込みがやっているのは、それの計算版だ ── と言えば、埋め込みの価値が一言で伝わる。

昼休み明けの執務室、英文法の話を引きずって…
御託

……認めよう。私が単語帳で1つずつ覚えた不規則変化を、AIは 「向き」 1本で乗りこなす。だがな川口、datum と data を使い分ける美学 は、向きでは出せん。資料の品格の話だ。

大蔵(アシスタントマネージャー・35)

あら、日本語は「猫」が1匹でも3匹でも「猫」ですのにね。英語の方々は、わざわざ形を変えて大変ですこと。

川口

それ、実は深い話で。言語ごとに 「何が方向になるか」 は違うんですけど、「関係が向きになる」仕組み自体は同じ なんです。日本語なら活用とか敬語とか。…あ、御託さん、品格の話は、ぼくのスライド直しておきます。

昼休み明けの執務室で、御託が少し誇らしげに美学を語り、大蔵が日本語には複数形がないことを上品に面白がり、川口が言語ごとの違いを説明している3人の図