朝の通勤、駅のホームで…
赤崎(部長 / AI戦略推進室室長・42)

凡田くん、Claude 200K の 「K」 って 千円の K だよね?

凡田(チームリーダー・38, 主人公)

……部長、K はキロ=千、で合ってます。ただし単位は円ではなく、トークン です。

赤崎

トークン?日本円換算で?

凡田

それを次の章でお話しします。

朝の駅ホーム、赤崎が「Claude 200K=¥200,000」と元気に説明、凡田が両手で顔を覆って絶望
このページのまとめ
  • トークンとは、LLM がテキストを読み込むときの 最小の単位。単語より少し細かい「文字の塊」です。
  • 文脈窓のサイズ・課金・速度は、文字数ではなく すべてトークン数で測られるので、コストや上限を考えるときの基準になります。
  • イメージは レゴのブロック。文章は一枚板ではなく、決まった大きさのブロックに分解されてから組み立てられます。

「ChatGPT で1万トークン使いました」と聞いて、「単語1万個分くらいか」とイメージしていたら少し違う。

LLM の世界は トークン という独自の単位で動いている。文字数でも単語数でもない。この単位が分かっていないと、「コンテキスト窓 200K トークン」「100万トークンあたり3ドル」みたいな数字が、何を意味しているのか掴めないままで終わる。

本記事はトークンの正体を、仕組み・課金・現場で起きる奇妙な現象 の3点に絞って整理する。

トークン = テキストの「ひと噛み」

英文と日本語文がトークンに分割される図(5 tokens / 4 tokens)

LLM はテキストをそのまま見ていない。最初の処理は トークン化(tokenization): 入力テキストを トークン という小さな塊に切り分けることだ。

たとえば英語の 「The quick brown fox jumps」 は、こんな感じで切れる。

[「The」, 「 quick」, 「 brown」, 「 fox」, 「 jumps」]

日本語の「猫が走った」はこうなる(モデルにより微差)。

[「猫」, 「が」, 「走」, 「った」]

つまりトークンは 文字でも単語でもない。「よく出てくる文字の塊」を経験的に決めたもので、英単語1つは1トークンに収まりやすいが、固有名詞や複合語は複数トークンに割れる。

なぜ単語でも文字でもないのか

両極端には欠点がある。

その中間として、サブワード分割 という発想が生まれた。よく出てくる文字列は1トークン、出てこない長い単語は複数トークンに割る、というバランス策。これが現代の LLM トークナイザーの主流。

詳細(BPE などのアルゴリズム)は別記事に譲る。ここでは「トークンは「よく出てくる文字の塊」を経験的に決めたもの」と覚えればいい。

トークン = LLM経済の通貨単位

コンサル業務に直結する話に移る。LLM 周辺の数字は、ほぼ全部トークンで計算される

指標 単位
課金 $/1Mトークン Claude Opus 4.7 入力 $15/1M、出力 $75/1M
コンテキスト窓 トークン数 Claude 200K、Gemini 1M、初期 GPT-3 は 2,048
レイテンシ トークン/秒 「30tps」みたいに表記される
モデル規模 パラメーター数(別軸だが) GPT-3 1,750億パラメーター

つまり「ChatGPT の API、月いくらかかる?」「うちの社内 RAG で、文書何本まで載せられる?」「リアルタイム応答に耐えるレイテンシは?」という業務判断は、全部トークンを数えるところから始まる

実務的な感覚値:

「Claude 200K トークン」というのは、A4 約 250 枚分の日本語を一度に入力できる、というスケール感。

登場人物の反応 ①
赤崎(部長 / AI戦略推進室室長・42)

トークン課金?コスト試算は私の得意分野だよ。キャンプブームのときに、薪1束あたりの燃焼時間で完璧にコスパ計算してたからね。…千葉のローン抱えてるとさ、コスト感覚は人一倍鋭くなるんだ。

凡田(チームリーダー・38, 主人公)

部長…先週、妻に「最近の ChatGPT 課金、家計で見たら月いくらになってるの」って詰められて答えられなかったんですよ。新婚で家計感覚を擦り合わせてる最中で、けっこう真剣にやばくて…

大蔵(アシスタントマネージャー・35)

あら、凡田さん、奥様にちゃんと出費を共有しているんですの?ご立派だわ。私なんて、銀座のサロン月3回行くだけで結構な額になりますけど、実家暮らしですから誰にも詰められませんもの。

御託(シニアコンサル・39)

トークンの本質は、銘柄分類だ。私が日本酒銘酒会で学んだのは、「生酒」「火入れ」「山廃」「速醸」のように、流通する酒を粒度別に分類するあの感覚なんだ。トークナイザーが採る粒度設計は、まさに杜氏の精米歩合の決定と同じ哲学で…

川口(アナリスト・22)

あの、ぼく、ゲームの世界で「1秒に何回マウスクリック」「装備1個いくら」で生きてるんで、トークン/秒も1Mトークンあたり何ドルも、わりと直感的なんです…(無言で課金計算シートを開く)

トークン=コインのメタファで billing/context window/latency を統合

トークンが生む奇妙な現象

LLM の挙動を理解するには、トークン境界がモデルの認知に強く影響している ことを押さえる必要がある。

数が数えられない

「strawberry に 「r」 は何個ある?」と GPT に聞くと、よく間違える。なぜか — モデルが見ているのは [「straw」, 「berry」] のようなトークンであって、1文字ずつではない。文字を数えるという作業が、モデルの内部構造に存在しないタスクになっている。

Reddit 「SolidGoldMagikarp」 現象

過去、GPT-3 に SolidGoldMagikarp という単語を入れると、応答が完全に壊れる(意味不明な単語を返す、または特定の挨拶を返す)という現象が報告された。これは、トークナイザー作成時のデータには大量に含まれていたが、本体モデルの学習データにはほとんど出てこなかった「ゴーストトークン」で、モデルが処理方法を学習していなかったため。

日本語の方が割高

同じ意味を伝えるのに、英語より日本語の方がトークン数が多い → 同じAPIコストでより少ない情報量しか扱えない。日本語ユーザーは構造的に英語ユーザーより不利、というのが現実。最近のモデル(GPT-4o、Claude 4 など)はトークナイザーが改善されて差が縮まっているが、依然として残る。

なぜLLMの推論は「1トークンずつ」進むのか

LLM の出力生成は 1トークン生成 → 入力に追加 → また1トークン生成 → … という繰り返しになっている(自己回帰生成)。

これがチャットGPTで文字が左から右へポチポチ出てくる正体だ。トークン = LLMの「ひと噛み」の単位 であると同時に、LLMが一歩ずつ進める歩幅 でもある。

レイテンシ(応答速度)が「30トークン/秒」と表現されるのも、この歩幅が単位だから。

登場人物の反応 ②
南雲(社長・60-62)

ゴルフ場でこの前、同年代の社長が「うちの会社、月のAPI課金が300万に達した」とぼやいてたんだよ。…うち、大丈夫なのか?

赤崎(部長・42)

はい社長、私も先週試算しました。キャンプ時代の経験を活かして、薪…じゃなくて、トークン単価で全社見える化を進めておりまして、ふわっとした方向感としては…

凡田(チームリーダー・38, 主人公)

部長、ちょっと待ってください、その「ふわっと」は今日は危ないです。社長、見積もりは「うちは何のタスクをLLMに任せるのか」を先に定義しないと、ご自宅のワイン代と同じで青天井になります。

南雲(社長・60-62)

…ワイン?シャトーマルゴーの値段は決まってる。トークンは、決まってないのか?

大蔵(アシスタントマネージャー・35)

社長、決まってますわ、1Mあたり数ドル〜数十ドルと。私の脱毛サロン月3回より安いくらいですわよ、本当は。

南雲(社長・60-62)

…(脱毛サロン3回の方が高いのか…?と思いつつ口に出さない)

川口(アナリスト・22)

あの、ぼく、社内全文書をトークン化して、タスク別に月額シミュレーションした結果をダッシュボードにしておきました…(無言で部長と社長に画面を見せる)

南雲(社長・60-62)

…うむ、これは産業革命だ。川口くん、来期は君が AI 戦略推進室の主担当だ。

赤崎(部長・42)

(青ざめる)

社長室で5人がトークン課金ダッシュボードを見て驚愕するシーン