コンテキストサイズ(Context Window) — LLM が「一度に抱えられる」トークン数の上限、AI の「短期記憶容量」

金曜の夜21時、千葉郊外の赤崎宅のリビング、赤崎が妻に向かってぼやく…

赤崎(部長・42)

(リビングを見渡しながら)…うちさ、キャンプ道具一式 / ワインセラー97本 / 生ハム塊 / 月曜のパワポ150枚原稿 でだいぶ部屋が圧迫されてるけど、それでもまだ 新しい趣味 入れたいんだよな。最近 ベランダのトマト 始めたじゃない?あれ楽しいんだけど、その分 キャンプ道具がさらに納戸の奥 に押し込まれてさ、もう 何が入ってるかも思い出せない。

赤崎(独白)

(これ、頭の中も同じだ。月曜は パワポ案件A / クライアントBの提案 / 部下C評価面談 / D社飲み / 妻の誕生日プラン / トマト水やり で頭が常に満杯。新しい案件が1つ入ると、古い案件の細部 がポロッと抜けて、月曜に部下から「金曜の指示」を聞かれてもピンとこない。家の納戸と頭の容量、構造的に同じなんだよなぁ。)

凡田(チームリーダー・38, 主人公) — LINEで部長に質問中

赤崎さん、月曜の朝会の前に金曜の案件の 方針確認 したいんですが、お時間1分いいですか?

赤崎

(あ、これ 納戸の奥 に押し込まれた件だ…ちょっと思い出すから3分くれ)…これ、LLM で言うと コンテキストウィンドウ の話だよな。Claude Opus 4.7 が 200K(拡張1M)、GPT-4 Turbo が 128K って、「一度に抱えられる量」 が決まってる。私の頭は 200K より遥かに小さい から、トマト1本入れただけで何かが押し出される。

この記事の要約(3行)

コンテキストサイズ(コンテキストウィンドウ)= AI が一度に抱えられる「短期記憶容量」。プロンプトと応答とこれまでの会話が、全部このひと枠に収まる必要がある。
ここを超えると古い情報から押し出されて消える。長い相談の途中で「最初に言ったこと、忘れてない?」が起きるのはこのため。
イメージは机の上に一度に広げられる書類の枚数。机が広いほど多くを見渡せるが、はみ出した書類は引き出しに戻される(具体的な数の目安は本文で)。

パラメーター数 (#010) が LLM の「脳の重み」だとすれば、コンテキストサイズは LLM の「短期記憶容量」。両者は別物。GPT-4 級の巨大モデルでも、コンテキストを超えた入力は受け付けない。「頭は良いが、一度に読める長さが決まってる」状態。

「Claude 200K」、「GPT-4 128K」、「Gemini 1M」 — クライアントが LLM を選ぶ時、コスト感の次に必ず聞かれる指標。なぜそんなに気にするのか、本当に大きい方がいいのか、そこに切り込む。

定義 — プロンプト+応答+履歴、全部の合計上限

コンテキストサイズの正体はシンプル: 「あなたの入力(プロンプト) + LLM の出力(応答) + 過去の会話履歴」を全部足したトークン数の上限。

例えば Claude Opus 4.7 の 200K(拡張1M)というのは、標準で 200,000 トークン、拡張枠で 1,000,000 トークンの意味。日本語の場合、200K でざっくり 15万文字 ≒ 文庫本1.5冊分。これに収まる長さなら一度に処理できる、超えると 古い部分から自動で切り捨てられる(または API がエラーを返す)。

コンテキストサイズを視覚化、横方向にトークン列(Harry/Potter/was/a/highly/...Professor/???)が並び、各トークンの下に縦長の数値ベクトル、横全体に「Context size」、縦に埋め込み次元のラベル

図1: コンテキスト = 「横にトークン、縦に埋め込み次元」の長方形領域。例として GPT-3 のスペック(横: コンテキスト 2,048 トークン / 縦: 埋め込み次元 12,288)を表示。現代の主要モデルは下記表参照

図1がコンテキストの正体。読み方の手順は次の4ステップ:

LLM はまず文章を 1個ずつトークンに分解 する(トークン(#003))
各トークンを 1本の縦長ベクトル に変換する(埋め込み(#002))
それを 左から右へ、入力順に並べる
並んだ 縦ベクトルの「本数」 = LLM が今抱えているトークン数 = コンテキスト

4ステップの可視化: 文章「Hello world from AI」 → トークン分解(Hello/world/from/AI) → 各トークンを縦ベクトルに変換 → 横に並べる、本数=Context size。実際のLLMは Claude Opus 4.7 200,000本 / GPT-4 Turbo 128,000本 / Gemini 1.5 Pro 1,000,000本

図2: 「Hello world from AI」を例にした4ステップの流れ。STEP 4 で並んだ縦ベクトルの本数 = コンテキストサイズ

つまり「横方向 = トークン数」とは「スケール軸」の話ではなく、「縦ベクトルが何本並んでいるか」 という本数のこと。一番右の ??? が「次に予測する1語」の枠で、これも含めて全部この長方形領域に収まる必要がある。Claude Opus 4.7 の 200K とは、この縦ベクトルを横に最大 200,000 本まで並べられる、という意味になる。

本記事の理解の核 — 新しい1語を生成するたびに、この長方形は右に1列ずつ伸びていく。上限に達したら、左端から1列ずつ切り捨てられる。これが「長い会話の途中で AI が最初の指示を忘れた」という現象の正体。

具体的にどんな構成で消費されるか:

システムプロンプト(裏側で設定された AI の役割定義)= 数百〜数千トークン
あなたのプロンプト本文(質問、添付PDFやコード含む)= 場合により数千〜数十万トークン
過去のチャット履歴(同じ会話の中での過去のやり取り)= 増え続ける
LLM の応答(これから生成する出力)= まだ書かれてないが、上限の中に予約席が必要

全部足して 200K を超えそうになると、古い履歴から消えていく。「長い会話の途中で AI が最初の指示を忘れた」現象の正体がこれ。

2026年現在の主要モデル早見表

モデル	コンテキスト	文庫本換算(日本語)	主な特徴
GPT-3.5 Turbo	16K	約12,000字	2023年初期の標準
GPT-4(初代)	8K / 32K	約6,000 / 24,000字	2023年当時の上限
Claude 2	100K	約75,000字	2023年に長文枠を切り拓いた
GPT-4 Turbo	128K	約96,000字	2024年汎用主力
Claude 3.5 Sonnet	200K	約150,000字	2024年長文処理の定石
Claude Opus 4.7	200K / 1M(拡張)	150,000 / 750,000字	Anthropic 現行フラッグシップ(2026)
Claude Sonnet 4.6	200K / 1M(拡張)	150,000 / 750,000字	Opus 4.7 と同等の長文枠、軽量寄り
Claude Haiku 4.5	200K	約150,000字	軽量・低レイテンシ・低コスト
Gemini 1.5 Pro	1M(100万)	約750,000字	長編小説まるごと、動画/音声も対応
Gemini 1.5 Pro(実験版)	2M	約1,500,000字	業界最大、専門用途
Llama 3.1	128K	約96,000字	OSS、ローカル運用可

2023年は 8K〜32K が主流だったが、2024〜2026年で 桁が2つ上がる 急成長。Gemini 1.5 の 1M は、Google が AI 開発で得た 長距離アテンション技術 の結晶。各モデルが 「自社の特徴」として最優先で訴求 する指標になっている。

なぜ「無限に大きい」じゃダメなのか — 二乗の壁

素朴な疑問: 「コンテキストを 100M にしたら全部解決じゃないの?」答えは「計算コストが二乗で爆発するから」。

アテンション (#030) は、すべてのトークンが すべてのトークンを見る 仕組み。トークン数を N とすると、計算量は N² に比例する。N=1,000 なら 100万回の計算、N=100,000 なら 100億回。N=1,000,000 なら 1兆回。

コンテキスト 10倍 → 計算コスト 100倍
コンテキスト 100倍 → 計算コスト 10,000倍
コンテキスト 1,000倍 → 計算コスト 1,000,000倍

これが 二乗の壁。Google の Gemini 1.5 が 1M を実現したのは、この二乗を 巧妙に近似する技術(Sparse Attention、Ring Attention 等) の研究が前進したからで、決して「GPU を増やせば自動で大きくなる」わけではない。

もう1つの副作用: 長くなるほど「注意の集中力」が薄まる。10万トークンの中から特定の1文を正確に拾う精度(Needle in a Haystack)は、長くなるほど落ちる傾向。「大きいコンテキスト = 自動で賢い」ではなく、「使い切れる賢さ」には限界 がある。

主要LLMのコンテキストサイズ比較棒グラフ、GPT-3.5 16K / GPT-4 32K / Claude 2 100K / GPT-4 Turbo 128K / Claude 3.5 200K / Gemini 1.5 Pro 1M を視覚的に並べた図

図3: 主要モデルのコンテキストサイズ。2023→2026で桁が2つ上がる急成長、ただし二乗の壁で実用上限がある

コンサル感覚 — クライアントが本当に必要なサイズはいくらか

本記事の核心メッセージは 「コンテキストサイズは「短期記憶容量」、用途次第で必要量がまったく違う」。これを実務で意識するメリット:

① 大半の業務は 32K で足りる: クライアントが「Claude の 200K を使いたい」と言ってきた時、実際の入力長を測ると 4〜16K しか使ってないケースが大半。本当に長文処理が必要なのは 契約書レビュー / 議事録要約 / 長尺PDF分析 のような特殊用途。汎用問い合わせなら 32K 以下のモデルで コストが半額以下 に。

② 「長くしたら賢くなる」は誤解: 200K のモデルに 200K 投げ込むと、中盤の情報が読み飛ばされやすい(中央部精度の低下、Lost in the Middle 現象)。関連する箇所だけ抽出して 32K に絞る 方が、精度もコストも勝る。RAG(検索拡張生成)の発想の根拠もここ。

③ チャット履歴の管理: 長い会話を続けると、最初の指示が消える。業務 AI で 「重要指示は毎回プロンプト先頭に再注入する」 設計がプロの定石。Claude のような長コンテキストでも、本当に変えたくない指示は システムプロンプト(別枠)に置く。

月曜の朝、給湯室、赤崎の「千葉のマンション容量」話がチームに広まる…

赤崎

昨夜、リビングで気づいたんだよ。千葉のマンションの納戸容量 と、俺の 頭の中の同時保持容量 と、AI の コンテキストウィンドウ が、全部同じ構造だって。新しいの入れたら古いのが押し出される。…まあ、今朝になったらどれが押し出されたか思い出せないんだけど。

大蔵(アシスタントマネージャー・35)

あら、赤崎さんのお宅、まだ キャンプ道具 残ってましたのね。私の実家は母が容量管理に厳しくて、北欧雑貨も IKEA の POÄNG 椅子も「1年使わなかったら処分」 ルールで、結局5脚全部消えました。頭の中の「私のラインじゃない案件」も同じく1週間で処分 いたしておりますわよ、ホホ。

川口(アナリスト・22)

(大蔵さんの「1週間で処分」は、FIFO(先入れ先出し)型のコンテキスト管理 ですね。一方、赤崎さんの「新趣味で押し出される」は、新しい関心が優先度を持つLRU(最近使った順)型。LLM 側は通常 古いものから切り捨てる FIFO 型 なので、構造的には大蔵さんの方が近いです。…って解説するとまた長くなるから、相槌だけ打とう。)

御託(シニアコンサル・39)

フッ、コンテキストか。私の 世田谷の独身オーディオルーム は レコード200枚超、ベルリンフィル盤200枚、推し配信録音、雑誌バックナンバー、ケーブル予備…と物量はあるが、収納設計が完璧 なので押し出される物はない。これは 長コンテキスト + 高精度 の理想形だ。赤崎の千葉マンションは 容量 200K でも収納設計が雑なのが Lost in the Middle ということだな。

凡田

(御託さん、人のマンションをディスりながら自分の世田谷オーディオ自慢に持っていったのすごい。…まあ、確かに 「容量より整理」 が本質ってのは正論。私も新婚で 妻の整体院グッズ + 自分のアイコス周辺 + 韓ドラのDVDセット でリビングが圧迫されてきたから、他人事じゃない。)

応用 — RAG とコンテキスト圧縮

本記事の余談として、コンテキストサイズに関する実務的なテクニック:

RAG(Retrieval-Augmented Generation): 大量のドキュメントをコンテキストに丸ごと入れず、必要な箇所だけ検索して入れる 設計。100万トークンの社内資料から関連3,000トークンだけを抽出して LLM に渡す。長コンテキストの代替手段として実務で主流。
Context Compression: 過去の会話履歴を 要約してから保持 するテクニック。50ターンの会話を 500トークンの要約に圧縮すれば、コンテキストを節約しながら継続性を維持。
Chunking 戦略: 長文を複数の塊に分けて、それぞれを別の LLM 呼び出しで処理し、結果を統合する設計。コンテキスト上限を超える長文を扱う標準テク。
Prompt Caching: Anthropic / OpenAI が提供する機能、長いシステムプロンプトを キャッシュして再利用。長コンテキスト時代の必須コスト最適化。

コンサル感覚: クライアントが「LLM を導入したが応答が遅い・コストが高い」と相談してきた時、最初に 「プロンプトの実トークン数」 を測る。8割はここで 「無駄に長い」 問題が発覚する。プロンプトを 1/3 に圧縮するだけで、コストも速度も劇的に改善する。

Takeaways

4行で整理

コンテキストサイズ = LLM が一度に抱えられるトークン数の上限。プロンプト+応答+履歴の合計がこの中に収まらないと、古いものが切り捨てられる。AI の「短期記憶容量」。
2026年現在: GPT-4 Turbo 128K / Claude 3.5 Sonnet 200K / Gemini 1.5 Pro 1M。2023年比で桁が2つ上がる急成長。日本語換算で 100K ≒ 文庫本1冊分。
無限に大きくできない理由: アテンションの計算量は N² に比例、二乗の壁。さらに長くなると「中央部精度の低下」で実効性能も落ちる。「大きい=自動で賢い」は誤解。
コンサル感覚: 業務の8割は 32K で足りる。Claude 200K より RAG で必要箇所抽出のほうがコストも精度も勝る。赤崎の千葉マンションが新趣味で古い物を押し出すのと同型。