事前訓練(Pre-training) — 汎用能力を先に作っておく「下準備」、LLM の「P」

祝日の午前、誰もいないオフィスで…

南雲(社長・60-62)

凡田、祝日に何してるんだ。…まあ俺も書類整理に来ただけだがな。…で、思い出したんだ。俺の都銀員時代の40年 はな、過学習だったかもしれんが、いま思えば 「何でも対応できる人間」を作る下準備 だった気もする。コンサル業に転身した時、最初は何も解けなかったが、3年で 大体のことに勘が働く ようになった。

凡田(チームリーダー・38, 主人公)

社長、それまさに 「事前訓練(Pre-training)」 です。GPT の 「P」 がこれです。タスクを限定せず、大量データで汎用能力を作っておく 段階。社長の40年は 「銀行業界全体の事前訓練」、いまのコンサル業は 「ファインチューニング」 ですね。

南雲

ふむ、俺は 事前訓練を済ませて、コンサル業にファインチューニングされた、ということか。…まあ、悪い再評価ではないな。

凡田

(社長、過学習、キーマン依存組織、今回 事前訓練。3週連続で 自分のキャリアを AI 用語で再解釈 していらっしゃる…)

このページのまとめ

タスクを決めず、大量のデータで「なんでもこなせる土台」を先に作る 学習の第1段階。これが 事前訓練。
ここを飛ばすと AI は言葉の感覚すら持てない。だから先に汎用力を作り、後で 用途別に微調整(ファインチューニング(#027)) する2段階が今の標準。費用は事前訓練が桁違いに重く、現場が触れるのは微調整側。
イメージは 大学+新卒研修=事前訓練 / OJT=微調整。汎用の基礎体力を先に作るのは人でも AI でも同じ(学び方の仕組みは本文で)。

訓練記事で「AI が学ぶ全体プロセス」を扱った。本記事はそれを 2段階に分けたうちの第1段階、事前訓練(Pre-training) の話。

結論を先に: 事前訓練 = タスクを限定せず、大量データで「汎用能力」を作っておく学習。LLM の場合は web 全体級のテキストを使い、ひたすら「次トークン予測」を繰り返す。これが GPT の「P」、現代の AI 革命の核心。

続く第2段階の ファインチューニング(#027)で、特定タスク向けに微調整する。事前訓練 → ファインチューニングの2段階構成が、現代 LLM の標準パターン。

事前訓練とは何か — タスクを決めずに「汎用能力」を作る

「事前」の意味から考える。何の「前」か?

「特定タスク向けの微調整(=ファインチューニング)」の前 という意味。

つまり、最初から「翻訳できる AI」「コード書ける AI」を目指すのではなく、「言語そのものの感覚を持つ AI」を先に作っておいて、後で各タスクに合わせる 2段階構成。

具体例として、人間の教育を考えると分かりやすい:

事前訓練に相当する段階: 小中高で読み書き・基礎知識・思考力を育てる(タスクを限定しない)
ファインチューニングに相当する段階: 新卒研修で営業/エンジニア/会計等の業務に合わせて専門スキルを身につける

大学を出たての新人は、配属先で何を任されてもまず「勘が働く」。これは中高大で 「なんでも屋」としての汎用能力 が事前訓練されてるから。AI も同じで、事前訓練を経たモデルは、ファインチューニングで何のタスクに振っても「ある程度はこなせる」状態にある。

GPT の「P」 — Generative Pre-trained Transformer

OpenAI の GPT という名前を分解する。

G = Generative(生成型、テキストを作り出す)
P = Pre-trained(事前訓練済み)
T = Transformer(アーキテクチャ、別記事 #030 で詳述)

つまり GPT の名前の真ん中は「事前訓練済み」。これが GPT というモデルの命名の核心。「事前訓練 = 価値の本体」と OpenAI は自ら宣言している。

2017年の Transformer 論文(Attention Is All You Need)が「アーキテクチャ」を提供し、2018年の GPT-1 が 「事前訓練の威力」 を世界に見せた。GPT-2 (2019)、GPT-3 (2020)、GPT-4 (2023)、と毎年スケールアップしてきたが、構造的には 「事前訓練を巨大化する」 という1点を突き詰めた歴史。

自己教師あり学習 — ラベル不要、これが革命の正体

事前訓練を可能にした技術的ブレイクスルーが 自己教師あり学習(Self-Supervised Learning)。

2010年代までの機械学習は 「教師あり学習」 が主流だった: 画像とラベル(「これは犬」)のペアを人間が作って、モデルに教える。問題は ラベル付けのコスト — 100万枚の画像にラベルをつけるのに、研究室予算を使い切る。

自己教師あり学習はこの制約を 原理的に消した。テキストデータの場合:

文章の最後の単語を隠す → モデルに当てさせる(=次トークン予測)
正解は「元の文章の次の単語」、自動的に決まる
つまり 「テキストそのものが教師」 として機能する
人間によるラベル付け不要 → web 全体級のデータ を訓練に使える

この仕組みのおかげで、GPT-3 は 3,000億トークン(=本にして数百万冊相当)を学習できた。人間が手作業でラベル付けしていたら、地球上の全研究者が10年がかりでも到底足りない量。

事前訓練 → ファインチューニングの2段階構成

事前訓練 → ファインチューニングの2段階フロー、データ量・コスト・GPU数の対比

図1: 事前訓練(汎用能力作り)→ ファインチューニング(タスク特化)の2段階

現代 LLM の標準的な学習プロセス:

段階	事前訓練	ファインチューニング
目的	汎用言語能力を作る	特定タスクに合わせる(対話 / コード / 要約)
データ	web 全体級(数千億トークン)	タスク固有(数千〜数百万件)
計算規模	数千〜数万GPU / 数ヶ月	数〜数十GPU / 数日
コスト	数億ドル(GPT-4 で推定 1億ドル超)	数百万円〜数千万円
誰がやるか	OpenAI / Google / Anthropic / Meta 等のフロンティアラボ	一般企業・エンジニアも可
頻度	1モデルにつき1〜数回(数ヶ月かけて)	用途ごとに何度でも(数日サイクル)

つまり 事前訓練は「土台作り」の超大型インフラ投資、ファインチューニングは「上物の調整」。エンジニアが日常的に触れるのは後者が大半で、前者はフロンティアラボに依存する構造になっている。

なぜ事前訓練は圧倒的にコスト高か — 物理と数学の問題

事前訓練のコストが異次元な理由は、「全部を一気にやらないと汎用能力が出ない」 から。

少量データだと汎化しない: 数百万トークン程度の「小規模事前訓練」では言語の感覚が育たない。過学習記事で論じた「スケーリング則」の通り、データ × モデル × 計算量が揃わないと性能が出ない
途中で止めると意味がない: ファインチューニングのように途中で止めて使えるものではない。事前訓練は完走前提
1回の「やり直し」が数千万ドル: ハイパーパラメータ調整ミスに気づいて再訓練、なんてことが起きると死活問題
巨大GPU クラスタの確保が困難: H100 を数千枚同時に動かすには、AWS/GCP/Azure でも調整が必要。NVIDIA からの供給待ちが半年

これらの理由で、現代 LLM の事前訓練は OpenAI / Google / Anthropic / Meta / xAI 等 5-10社程度 しか実施できていない。日本でも数社が国産 LLM の事前訓練に挑戦しているが、ほぼ全てフロンティアラボ製の Llama / Mistral 等を ファインチューニングして再配布 する形が主流。

登場人物の反応 ①

赤崎(部長 / AI戦略推進室室長・42)

いいねいいね、事前訓練。…つまり 当社が自社 LLM を事前訓練するのは絶望的 ということだね。数億ドルどころか うちの千葉のローン も払えていない私には、事前訓練の「じ」の字も無理だな。

川口(アナリスト・22)

赤崎部長、技術的に正しいです。当社規模で現実的なのは 「オープンソース LLM(Llama 3 / Mistral / Qwen 等)をファインチューニング」 の路線で。事前訓練済みモデル を借りて、自社データで微調整するスタイルが、コスト的に唯一の選択肢です。…ちなみに Llama 3 70B のファインチューニング なら、A100 8枚 × 3日で 50万円 程度から…(無言で AWS の見積もり PDF を開く)

大蔵(アシスタントマネージャー・35)

あら、川口くん、50万円 なら部長の ワインセラー1ヶ月の電気代 と同じくらいですわね。…部長、AI 戦略推進室として、ワインセラー予算を AI ファインチューニング予算に振り替え るのはいかがですの?

赤崎

うーん、ふわっとした方向感としては、ワインセラーは 「私自身の事前訓練の延長」 なので、削れないなあ。…ただし、大蔵くんの提案は PARTNERにも相談しないと ね。

御託(シニアコンサル・39)

フッ、事前訓練か。これは ハラリ が 『サピエンス全史』 で論じた 「認知革命前の人類10万年」 こそが、現生人類の 事前訓練フェーズ だった、という構造そのものだな…(スマホをチラ見、配信開始まで残り14分)

コンサル感覚: 人材育成との完全相似

事前訓練 / ファインチューニングの 2段階構成を、人材育成に翻訳する。

段階	AI(LLM)	人材育成
事前訓練	web 全体級データで汎用言語能力	小中高 + 大学 + 新卒研修(汎用ベース体力)
ファインチューニング	タスク固有データで微調整	配属先での OJT、専門スキル獲得
誰が担うか	OpenAI 等のフロンティアラボ	家庭 + 公教育 + 大企業の総合研修
コスト	数億ドル	1人 20年で 2,000万円超(教育費)
転用可能性	事前訓練済モデルを各社が借りる	大学卒新人を各社が「中途・新卒採用」として獲得

つまり 「事前訓練済みを買ってきて、自社用にファインチューニングする」 という構造は、新卒採用 + 自社研修 と完全に同型。当然、企業が自前で大学を作ることはないように、自前で LLM の事前訓練をすることもない(GAFA級でない限り)。

これがコンサル業務での AI 導入の現実的な戦略指針 — 「ファインチューニング戦略」が現実、「事前訓練戦略」は妄想。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり 俺の40年は事前訓練、コンサル業はファインチューニング という整理がついた。…ところで、孫がいま 5歳で、これからの15-20年が 孫の事前訓練フェーズ ということだな。「何でも対応できる人間」を作る下準備。これは大事に育てねば。

凡田(チームリーダー・38, 主人公)

社長、まさに。AI の事前訓練と同じく、「後で何のタスクに振られるか分からない」 前提で、汎用能力を厚く積んでおくのが正解です。…ちなみに私の新婚妻も、最近 韓ドラ視聴 を 「妻自身の事前訓練」 と呼んで正当化してきています。

大蔵

あら、凡田さんの奥様、お見事ですわね。…ちなみに私の 御朱印帳 5冊目 も、「私の精神性の事前訓練」 と呼んでよろしいですわよね、凡田さん?

凡田

大蔵さん、それは 事前訓練 というより、「何にもファインチューニングされる予定のない、純粋な趣味の汎用能力」 ですね。…まあ、それも事前訓練と言えなくもないですが。

川口

あ、社長、結論として当社の AI 戦略を 「ファインチューニング戦略」 として整理し、自社事前訓練は諦める方向で パワポ300枚 でまとめさせていただきます。…(これで休日13週連続)

南雲

うむ、いいねえ。「ファインチューニング経営」 も響きがいい。儲かるんだろ?

KEY TAKEAWAYS

抑えておきたいポイント

事前訓練 = タスクを限定せず、大量データで「汎用能力」を作る学習。GPT の「P」。
キモは 自己教師あり学習: ラベル付け不要 → web 全体級データを使える。これが LLM 革命の根本。
2段階構成: 事前訓練(汎用能力)→ ファインチューニング(タスク特化)。
事前訓練のコスト: 数億ドル / 数ヶ月 / 数千〜数万GPU。フロンティアラボ 5-10社しか実施できない。
ファインチューニングは 数日 / 数十GPU / 数百万円〜。一般企業も触れる。
コンサル感覚: 大学+新卒研修 = 事前訓練 / OJT = ファインチューニング。「事前訓練済みモデルを買って、自社用にファインチューニング」は新卒採用と同型。
実務戦略: 「ファインチューニング戦略」が現実、「事前訓練戦略」は GAFA級でない限り妄想。