凡田くん、Claude 200K の 「K」 って 千円の K だよね?
……部長、K はキロ=千、で合ってます。ただし単位は円ではなく、トークン です。
トークン?日本円換算で?
それを次の章でお話しします。

- トークンとは、LLM がテキストを読み込むときの 最小の単位。単語より少し細かい「文字の塊」です。
- 文脈窓のサイズ・課金・速度は、文字数ではなく すべてトークン数で測られるので、コストや上限を考えるときの基準になります。
- イメージは レゴのブロック。文章は一枚板ではなく、決まった大きさのブロックに分解されてから組み立てられます。
「ChatGPT で1万トークン使いました」と聞いて、「単語1万個分くらいか」とイメージしていたら少し違う。
LLM の世界は トークン という独自の単位で動いている。文字数でも単語数でもない。この単位が分かっていないと、「コンテキスト窓 200K トークン」「100万トークンあたり3ドル」みたいな数字が、何を意味しているのか掴めないままで終わる。
本記事はトークンの正体を、仕組み・課金・現場で起きる奇妙な現象 の3点に絞って整理する。
トークン = テキストの「ひと噛み」

LLM はテキストをそのまま見ていない。最初の処理は トークン化(tokenization): 入力テキストを トークン という小さな塊に切り分けることだ。
たとえば英語の 「The quick brown fox jumps」 は、こんな感じで切れる。
[「The」, 「 quick」, 「 brown」, 「 fox」, 「 jumps」]
- 5語 → 5トークン(空白を含めて1トークン扱い)
日本語の「猫が走った」はこうなる(モデルにより微差)。
[「猫」, 「が」, 「走」, 「った」]
- 5文字 → 4トークン
つまりトークンは 文字でも単語でもない。「よく出てくる文字の塊」を経験的に決めたもので、英単語1つは1トークンに収まりやすいが、固有名詞や複合語は複数トークンに割れる。
「transformer」→[「transformer」](1トークン)「transformative」→[「transform」, 「ative」](2トークン)「Anthropic」→[「Ant」, 「hropic」](2トークン)「あいまいコンサルティング」→[「あ」, 「いま」, 「い」, 「コン」, 「サル」, 「ティング」]のように細切れ(6トークン超)
なぜ単語でも文字でもないのか
両極端には欠点がある。
- 文字単位(1文字=1トークン): 語彙(扱える種類)は小さくて済むが、シーケンスが長くなりすぎて計算が重い。意味の塊を捉えにくい。
- 単語単位(1単語=1トークン): シーケンスは短くて済むが、人類の全ての単語+固有名詞を辞書に持つのは無理。「未知語」だらけになる。
その中間として、サブワード分割 という発想が生まれた。よく出てくる文字列は1トークン、出てこない長い単語は複数トークンに割る、というバランス策。これが現代の LLM トークナイザーの主流。
詳細(BPE などのアルゴリズム)は別記事に譲る。ここでは「トークンは「よく出てくる文字の塊」を経験的に決めたもの」と覚えればいい。
トークン = LLM経済の通貨単位
コンサル業務に直結する話に移る。LLM 周辺の数字は、ほぼ全部トークンで計算される。
| 指標 | 単位 | 例 |
|---|---|---|
| 課金 | $/1Mトークン | Claude Opus 4.7 入力 $15/1M、出力 $75/1M |
| コンテキスト窓 | トークン数 | Claude 200K、Gemini 1M、初期 GPT-3 は 2,048 |
| レイテンシ | トークン/秒 | 「30tps」みたいに表記される |
| モデル規模 | パラメーター数(別軸だが) | GPT-3 1,750億パラメーター |
つまり「ChatGPT の API、月いくらかかる?」「うちの社内 RAG で、文書何本まで載せられる?」「リアルタイム応答に耐えるレイテンシは?」という業務判断は、全部トークンを数えるところから始まる。
実務的な感覚値:
- 英文 1,000語 ≒ 約 1,300トークン
- 日本語 1,000文字 ≒ 約 700〜1,200トークン(モデル次第で大きく変動)
- A4 1枚ぶんの日本語文書 ≒ 約 600〜900トークン
「Claude 200K トークン」というのは、A4 約 250 枚分の日本語を一度に入力できる、というスケール感。
トークン課金?コスト試算は私の得意分野だよ。キャンプブームのときに、薪1束あたりの燃焼時間で完璧にコスパ計算してたからね。…千葉のローン抱えてるとさ、コスト感覚は人一倍鋭くなるんだ。
部長…先週、妻に「最近の ChatGPT 課金、家計で見たら月いくらになってるの」って詰められて答えられなかったんですよ。新婚で家計感覚を擦り合わせてる最中で、けっこう真剣にやばくて…
あら、凡田さん、奥様にちゃんと出費を共有しているんですの?ご立派だわ。私なんて、銀座のサロン月3回行くだけで結構な額になりますけど、実家暮らしですから誰にも詰められませんもの。
トークンの本質は、銘柄分類だ。私が日本酒銘酒会で学んだのは、「生酒」「火入れ」「山廃」「速醸」のように、流通する酒を粒度別に分類するあの感覚なんだ。トークナイザーが採る粒度設計は、まさに杜氏の精米歩合の決定と同じ哲学で…
あの、ぼく、ゲームの世界で「1秒に何回マウスクリック」「装備1個いくら」で生きてるんで、トークン/秒も1Mトークンあたり何ドルも、わりと直感的なんです…(無言で課金計算シートを開く)

トークンが生む奇妙な現象
LLM の挙動を理解するには、トークン境界がモデルの認知に強く影響している ことを押さえる必要がある。
数が数えられない
「strawberry に 「r」 は何個ある?」と GPT に聞くと、よく間違える。なぜか — モデルが見ているのは [「straw」, 「berry」] のようなトークンであって、1文字ずつではない。文字を数えるという作業が、モデルの内部構造に存在しないタスクになっている。
Reddit 「SolidGoldMagikarp」 現象
過去、GPT-3 に SolidGoldMagikarp という単語を入れると、応答が完全に壊れる(意味不明な単語を返す、または特定の挨拶を返す)という現象が報告された。これは、トークナイザー作成時のデータには大量に含まれていたが、本体モデルの学習データにはほとんど出てこなかった「ゴーストトークン」で、モデルが処理方法を学習していなかったため。
日本語の方が割高
同じ意味を伝えるのに、英語より日本語の方がトークン数が多い → 同じAPIコストでより少ない情報量しか扱えない。日本語ユーザーは構造的に英語ユーザーより不利、というのが現実。最近のモデル(GPT-4o、Claude 4 など)はトークナイザーが改善されて差が縮まっているが、依然として残る。
なぜLLMの推論は「1トークンずつ」進むのか
LLM の出力生成は 1トークン生成 → 入力に追加 → また1トークン生成 → … という繰り返しになっている(自己回帰生成)。
- 「次のトークンの確率分布」を計算
- そこから1つサンプル
- 入力末尾に追加
- もう一度全体を入力して、また次の確率分布
これがチャットGPTで文字が左から右へポチポチ出てくる正体だ。トークン = LLMの「ひと噛み」の単位 であると同時に、LLMが一歩ずつ進める歩幅 でもある。
レイテンシ(応答速度)が「30トークン/秒」と表現されるのも、この歩幅が単位だから。
ゴルフ場でこの前、同年代の社長が「うちの会社、月のAPI課金が300万に達した」とぼやいてたんだよ。…うち、大丈夫なのか?
はい社長、私も先週試算しました。キャンプ時代の経験を活かして、薪…じゃなくて、トークン単価で全社見える化を進めておりまして、ふわっとした方向感としては…
部長、ちょっと待ってください、その「ふわっと」は今日は危ないです。社長、見積もりは「うちは何のタスクをLLMに任せるのか」を先に定義しないと、ご自宅のワイン代と同じで青天井になります。
…ワイン?シャトーマルゴーの値段は決まってる。トークンは、決まってないのか?
社長、決まってますわ、1Mあたり数ドル〜数十ドルと。私の脱毛サロン月3回より安いくらいですわよ、本当は。
…(脱毛サロン3回の方が高いのか…?と思いつつ口に出さない)
あの、ぼく、社内全文書をトークン化して、タスク別に月額シミュレーションした結果をダッシュボードにしておきました…(無言で部長と社長に画面を見せる)
…うむ、これは産業革命だ。川口くん、来期は君が AI 戦略推進室の主担当だ。
(青ざめる)
