ふふ…AIにイタズラ思いついた。「ボンダリゼーションとは何ですか」っと。俺がいま作った造語だぞ。さすがに「そんな言葉はありません」って返って…え。「組織やプロセスを 「ボンダ」 的な何かに変革することを指す造語と思われます」!? なんで 当たりをつけてくる んだ!?
あはは、それ サブワード のおかげです。AIは単語を丸ごとじゃなくて、もっと小さい 「部品」 に割って読むんです。「ボンダリゼーション」→「ボンダ」+「リゼーション」。後ろの部品は globalization とかで学習済みだから、「〜化って意味だな」って分かるんですよ。
つまり、初めて見る単語でも、知ってる部品から意味を推測 してると。…ちょっと待て、じゃあ世界中の誰も知らない俺の造語に、AIだけがついてきたのか。
そうなりますね(笑)。で、この仕組みのおかげで、AIは 「知らない単語で詰む」 ことが構造的に無い んです。クライアントの社内用語だらけの資料が読めるのも、これが理由で。

- サブワードとは、単語より小さい「部品」 のこと。LLM の語彙は「単語」ではなく、この部品でできている。凡田の造語が通じたのは、AIが「ボンダ」+「リゼーション(〜化)」に 割って 読んだから。
- 理由は、新語・造語・社内用語・タイプミスが無限に生まれる から。単語まるごとの辞書(有限)は必ず未知語で詰むが、部品の組み立てなら何でも表せる ── 未知語の問題が構造的に消える。
- しかも 部品には意味が乗る。un(否定)+ happi(幸せ)+ ness(名詞化)のように、初見の単語でも部品から意味の当たりがつく。単なる節約術ではなく、言葉の応用力の源泉。
トークナイザー (#044) で、文章は「トークン」に切られてから LLM に入る、と見た。本記事はその続き ── なぜトークンは 「単語」 ではなく、単語より小さい 「部品(サブワード)」 なのか。地味に見えて、LLM が実用に耐える理由の核心が、ここにある。
問題 — 「単語まるごと」の辞書は、必ず詰む
素朴に考えると、AIの語彙は「単語の辞書」でよさそうに思える。「こんにちは」「会議」「予算」…と単語を登録しておき、入ってきた文章を単語単位で引く。だが、この方式には 致命的な欠陥 がある。
辞書(語彙)は 有限。だが、新語・造語・社内用語・製品名・人名・タイプミスは 無限に生まれる。単語まるごと方式は、辞書に無い単語 ── 未知語 ── に出会った瞬間、その単語を扱えなくなる。
「ボンダリゼーション」も「DX人材リスキリング」も、昨日できた新サービス名も、辞書には載っていない。実際の業務文書は、こういう言葉だらけだ。未知語で詰む方式は、実務では使いものにならない。
解決 — 単語より小さい「部品」に割る
そこで現代の LLM は、語彙を 単語ではなく「サブワード(部品)」 で持つ。よく使う単語(「こんにちは」)はそのまま1部品、珍しい単語や新語は 複数の部品に割って 表す。「ボンダリゼーション」なら「ボンダ」+「リゼーション」。最悪、どの部品にも当てはまらなければ 1文字ずつ・1バイトずつ まで割れる (#044)。
この「どの部品を語彙にするか」を決めるのが、トークナイザーの学習だ。代表的な BPE という方式は、大量のテキストの中で よく隣り合う文字の並びを、頻度の高い順にくっつけて部品に昇格させていく。頻出の「リゼーション」は1部品になり、滅多に出ない並びは細かいまま残る ── よく使う表現ほど少ないトークンで済む、効率のいい部品セットが出来上がる。
核心 — 部品には「意味」が乗っている
サブワードの価値は、未知語が消えるだけではない。もっと面白いのは、部品それぞれが、埋め込み (#002) として 「意味」 を持つ ことだ。
「unhappiness」を初めて見ても、un(否定)+ happi(幸せ)+ ness(名詞化) と割れば、「幸せでない状態」だと組み立てられる。凡田の「ボンダリゼーション」も同じで、「ボンダ」は不明でも、「リゼーション」が globalization や digitalization で学習済み だから、「何かを〜化する話だな」と当たりがつく。
人間が漢字でやっていることに、実はよく似ている。「未踏峰」という言葉を初めて見ても、未(まだ)+ 踏(ふむ)+ 峰(みね)から「まだ誰も登っていない山」と読める ── 部品が意味を運ぶから、初見の言葉に応用が利く。サブワードは、その仕組みを語彙の設計に組み込んだものだ。
コンサル感覚 — 「専門用語だらけの現場」でAIが使える理由
本記事の核心メッセージは 「AIが業務の現場で使いものになるのは、サブワードが未知語を消しているから」。地味だが、提案の足腰になる:
① 社内用語・製品名だらけの文書が読める理由を説明できる: クライアントから「うちの専門用語、AIは知らないのでは?」と聞かれたら ── 「単語ではなく部品で読むので、初見の用語も部品から当たりをつけます。さらに文脈 (#051) からも意味を吸収します」。導入前の不安を、仕組みで解消できる。
② ただし 「当たり」 は外れることもある: 部品からの推測は、あくまで推測。固有名詞を誤読したり、変な位置で割れて意味を取り違えることもある(専門用語の誤解の一因)。重要な固有名詞・社内用語は、プロンプトで定義を渡す (#043) のが確実 ── 「読める」と「正しく分かる」は別、と添えるのが誠実だ。
③ トークン数=コストの感覚にも直結する: 珍しい言葉ほど部品が細かくなり、トークン数が増える (#044)。社内用語だらけの文書は見た目より 「高い」。コスト見積もりのとき、この感覚があると精度が上がる。
あら、面白い。漢字と同じですのね。私、初めて見るお寺の名前でも、漢字の部品でだいたい意味が分かりますもの。部品が意味を運ぶ、ですか。
そうそう。で、調子に乗って「オークライゼーション」も聞いてみたんだよ。そしたら「組織の管理を高度に整える変革では」って。…大蔵さん、AIに性格まで読まれてるかも。
それはさすがに偶然です(笑)。「リゼーション」の意味に、文脈の雰囲気が乗っただけで…。あ、でも、お二人とも、遊んだ分のトークン代 は経費精算できませんからね。
