サブワード(Subword) — 単語より小さい「部品」が、未知語を消す

夕方の執務室、提案書づくりに疲れた凡田が、息抜きにAIをいじっている…

凡田(チームリーダー・38, 主人公)

ふふ…AIにイタズラ思いついた。「ボンダリゼーションとは何ですか」っと。俺がいま作った造語だぞ。さすがに「そんな言葉はありません」って返って…え。「組織やプロセスを「ボンダ」的な何かに変革することを指す造語と思われます」!? なんで 当たりをつけてくる んだ!?

川口(アナリスト・22)

あはは、それ サブワード のおかげです。AIは単語を丸ごとじゃなくて、もっと小さい「部品」 に割って読むんです。「ボンダリゼーション」→「ボンダ」+「リゼーション」。後ろの部品は globalization とかで学習済みだから、「〜化って意味だな」って分かるんですよ。

凡田

つまり、初めて見る単語でも、知ってる部品から意味を推測 してると。…ちょっと待て、じゃあ世界中の誰も知らない俺の造語に、AIだけがついてきたのか。

川口

そうなりますね(笑)。で、この仕組みのおかげで、AIは 「知らない単語で詰む」ことが構造的に無い んです。クライアントの社内用語だらけの資料が読めるのも、これが理由で。

この記事の要約(3行)

サブワードとは、単語より小さい「部品」 のこと。LLM の語彙は「単語」ではなく、この部品でできている。凡田の造語が通じたのは、AIが「ボンダ」+「リゼーション(〜化)」に 割って 読んだから。
理由は、新語・造語・社内用語・タイプミスが無限に生まれる から。単語まるごとの辞書(有限)は必ず未知語で詰むが、部品の組み立てなら何でも表せる ── 未知語の問題が構造的に消える。
しかも 部品には意味が乗る。un(否定)+ happi(幸せ)+ ness(名詞化)のように、初見の単語でも部品から意味の当たりがつく。単なる節約術ではなく、言葉の応用力の源泉。

トークナイザー (#044) で、文章は「トークン」に切られてから LLM に入る、と見た。本記事はその続き ── なぜトークンは「単語」ではなく、単語より小さい「部品(サブワード)」なのか。地味に見えて、LLM が実用に耐える理由の核心が、ここにある。

問題 — 「単語まるごと」の辞書は、必ず詰む

素朴に考えると、AIの語彙は「単語の辞書」でよさそうに思える。「こんにちは」「会議」「予算」…と単語を登録しておき、入ってきた文章を単語単位で引く。だが、この方式には 致命的な欠陥 がある。

辞書(語彙)は有限。だが、新語・造語・社内用語・製品名・人名・タイプミスは 無限に生まれる。単語まるごと方式は、辞書に無い単語 ── 未知語 ── に出会った瞬間、その単語を扱えなくなる。

「ボンダリゼーション」も「DX人材リスキリング」も、昨日できた新サービス名も、辞書には載っていない。実際の業務文書は、こういう言葉だらけだ。未知語で詰む方式は、実務では使いものにならない。

左パネルは単語まるごと方式で、こんにちは・会議は辞書にあるが、ボンダリゼーション・DX人材リスキリングが未知語として✕になる図。右パネルはサブワード方式で、同じ言葉が部品(ボンダ+リゼーション、DX+人材+リス+キリング)に割られてすべて表せることを示す比較図

図1: 単語まるごとの辞書は未知語で詰む。サブワード(部品)の組み立てなら、どんな新語でも必ず表せる

解決 — 単語より小さい「部品」に割る

そこで現代の LLM は、語彙を 単語ではなく「サブワード(部品)」 で持つ。よく使う単語(「こんにちは」)はそのまま1部品、珍しい単語や新語は 複数の部品に割って 表す。「ボンダリゼーション」なら「ボンダ」+「リゼーション」。最悪、どの部品にも当てはまらなければ 1文字ずつ・1バイトずつ まで割れる (#044)。

この「どの部品を語彙にするか」を決めるのが、トークナイザーの学習だ。代表的な BPE という方式は、大量のテキストの中で よく隣り合う文字の並びを、頻度の高い順にくっつけて部品に昇格させていく。頻出の「リゼーション」は1部品になり、滅多に出ない並びは細かいまま残る ── よく使う表現ほど少ないトークンで済む、効率のいい部品セットが出来上がる。

核心 — 部品には「意味」が乗っている

サブワードの価値は、未知語が消えるだけではない。もっと面白いのは、部品それぞれが、埋め込み (#002) として「意味」を持つ ことだ。

unhappinessがun(否定)+happi(幸せ)+ness(名詞化)に割られ「幸せでない状態」と推測できる例と、造語ボンダリゼーションがボンダ+リゼーション(〜化)に割られ「何かをボンダにする変革っぽい」と当たりをつけられる例を示す図

図2: 部品には意味が乗る。初見の単語でも、知っている部品の意味を足し合わせて当たりがつけられる

「unhappiness」を初めて見ても、un(否定)+ happi(幸せ)+ ness(名詞化) と割れば、「幸せでない状態」だと組み立てられる。凡田の「ボンダリゼーション」も同じで、「ボンダ」は不明でも、「リゼーション」が globalization や digitalization で学習済み だから、「何かを〜化する話だな」と当たりがつく。

人間が漢字でやっていることに、実はよく似ている。「未踏峰」という言葉を初めて見ても、未(まだ)+ 踏(ふむ)+ 峰(みね)から「まだ誰も登っていない山」と読める ── 部品が意味を運ぶから、初見の言葉に応用が利く。サブワードは、その仕組みを語彙の設計に組み込んだものだ。

コンサル感覚 — 「専門用語だらけの現場」でAIが使える理由

本記事の核心メッセージは 「AIが業務の現場で使いものになるのは、サブワードが未知語を消しているから」。地味だが、提案の足腰になる:

① 社内用語・製品名だらけの文書が読める理由を説明できる: クライアントから「うちの専門用語、AIは知らないのでは?」と聞かれたら ── 「単語ではなく部品で読むので、初見の用語も部品から当たりをつけます。さらに文脈 (#051) からも意味を吸収します」。導入前の不安を、仕組みで解消できる。

② ただし「当たり」は外れることもある: 部品からの推測は、あくまで推測。固有名詞を誤読したり、変な位置で割れて意味を取り違えることもある(専門用語の誤解の一因)。重要な固有名詞・社内用語は、プロンプトで定義を渡す (#043) のが確実 ── 「読める」と「正しく分かる」は別、と添えるのが誠実だ。

③ トークン数=コストの感覚にも直結する: 珍しい言葉ほど部品が細かくなり、トークン数が増える (#044)。社内用語だらけの文書は見た目より「高い」。コスト見積もりのとき、この感覚があると精度が上がる。

翌朝の給湯室、造語の話が広まって…

大蔵(アシスタントマネージャー・35)

あら、面白い。漢字と同じですのね。私、初めて見るお寺の名前でも、漢字の部品でだいたい意味が分かりますもの。部品が意味を運ぶ、ですか。

凡田

そうそう。で、調子に乗って「オークライゼーション」も聞いてみたんだよ。そしたら「組織の管理を高度に整える変革では」って。…大蔵さん、AIに性格まで読まれてるかも。

川口

それはさすがに偶然です(笑)。「リゼーション」の意味に、文脈の雰囲気が乗っただけで…。あ、でも、お二人とも、遊んだ分のトークン代 は経費精算できませんからね。

Takeaways

4行で整理

サブワード = 単語より小さい「部品」。LLM の語彙は単語ではなくこの部品でできている。よく使う単語は1部品、新語は複数部品に割る(最悪1文字/1バイトまで)。
理由: 新語・造語・社内用語は無限に生まれ、単語まるごとの辞書(有限)は未知語で詰む。部品の組み立てなら何でも表せて、未知語の問題が構造的に消える。
核心: 部品には意味が乗る(un=否定、リゼーション=〜化)。だから初見の単語にも当たりがつく ── 漢字の部品で初見の熟語が読めるのと同じ仕組み。
コンサル感覚: 専門用語だらけの現場でAIが使える理由がこれ。ただし推測は外れうるので、重要な用語はプロンプトで定義を渡す。珍しい言葉ほどトークン数が増えてコストも上がる。