凡田、祝日に何してるんだ。…まあ俺も書類整理に来ただけだがな。…で、思い出したんだ。俺の都銀員時代の40年 はな、過学習だったかもしれんが、いま思えば 「何でも対応できる人間」 を作る下準備 だった気もする。コンサル業に転身した時、最初は何も解けなかったが、3年で 大体のことに勘が働く ようになった。
社長、それまさに 「事前訓練(Pre-training)」 です。GPT の 「P」 がこれです。タスクを限定せず、大量データで汎用能力を作っておく 段階。社長の40年は 「銀行業界全体の事前訓練」、いまのコンサル業は 「ファインチューニング」 ですね。
ふむ、俺は 事前訓練を済ませて、コンサル業にファインチューニングされた、ということか。…まあ、悪い再評価ではないな。
(社長、過学習、キーマン依存組織、今回 事前訓練。3週連続で 自分のキャリアを AI 用語で再解釈 していらっしゃる…)

- タスクを決めず、大量のデータで 「なんでもこなせる土台」 を先に作る 学習の第1段階。これが 事前訓練。
- ここを飛ばすと AI は言葉の感覚すら持てない。だから先に汎用力を作り、後で 用途別に微調整(ファインチューニング(#027)) する2段階が今の標準。費用は事前訓練が桁違いに重く、現場が触れるのは微調整側。
- イメージは 大学+新卒研修=事前訓練 / OJT=微調整。汎用の基礎体力を先に作るのは人でも AI でも同じ(学び方の仕組みは本文で)。
訓練 記事で「AI が学ぶ全体プロセス」を扱った。本記事はそれを 2段階に分けたうちの第1段階、事前訓練(Pre-training) の話。
結論を先に: 事前訓練 = タスクを限定せず、大量データで 「汎用能力」 を作っておく学習。LLM の場合は web 全体級のテキストを使い、ひたすら 「次トークン予測」 を繰り返す。これが GPT の 「P」、現代の AI 革命の核心。
続く第2段階の ファインチューニング(#027)で、特定タスク向けに微調整する。事前訓練 → ファインチューニング の2段階構成が、現代 LLM の標準パターン。
事前訓練とは何か — タスクを決めずに 「汎用能力」 を作る
「事前」 の意味から考える。何の 「前」 か?
「特定タスク向けの微調整(=ファインチューニング)」 の前 という意味。
つまり、最初から「翻訳できる AI」「コード書ける AI」を目指すのではなく、「言語そのものの感覚を持つ AI」を先に作っておいて、後で各タスクに合わせる 2段階構成。
具体例として、人間の教育を考えると分かりやすい:
- 事前訓練に相当する段階: 小中高で読み書き・基礎知識・思考力を育てる(タスクを限定しない)
- ファインチューニングに相当する段階: 新卒研修で営業/エンジニア/会計 等の業務に合わせて専門スキルを身につける
大学を出たての新人は、配属先で何を任されてもまず 「勘が働く」。これは中高大で 「なんでも屋」 としての汎用能力 が事前訓練されてるから。AI も同じで、事前訓練を経たモデルは、ファインチューニングで何のタスクに振っても 「ある程度はこなせる」 状態にある。
GPT の 「P」 — Generative Pre-trained Transformer
OpenAI の GPT という名前を分解する。
- G = Generative(生成型、テキストを作り出す)
- P = Pre-trained(事前訓練済み)
- T = Transformer(アーキテクチャ、別記事 #030 で詳述)
つまり GPT の名前の真ん中は 「事前訓練済み」。これが GPT というモデルの命名の核心。「事前訓練 = 価値の本体」と OpenAI は自ら宣言している。
2017年の Transformer 論文(Attention Is All You Need)が 「アーキテクチャ」 を提供し、2018年の GPT-1 が 「事前訓練の威力」 を世界に見せた。GPT-2 (2019)、GPT-3 (2020)、GPT-4 (2023)、と毎年スケールアップしてきたが、構造的には 「事前訓練を巨大化する」 という1点を突き詰めた歴史。
自己教師あり学習 — ラベル不要、これが革命の正体
事前訓練を可能にした技術的ブレイクスルーが 自己教師あり学習(Self-Supervised Learning)。
2010年代までの機械学習は 「教師あり学習」 が主流だった: 画像とラベル(「これは犬」)のペアを人間が作って、モデルに教える。問題は ラベル付けのコスト — 100万枚の画像にラベルをつけるのに、研究室予算を使い切る。
自己教師あり学習はこの制約を 原理的に消した。テキストデータの場合:
- 文章の最後の単語を隠す → モデルに当てさせる(=次トークン予測)
- 正解は「元の文章の次の単語」、自動的に決まる
- つまり 「テキストそのものが教師」 として機能する
- 人間によるラベル付け不要 → web 全体級のデータ を訓練に使える
この仕組みのおかげで、GPT-3 は 3,000億トークン(=本にして数百万冊相当)を学習できた。人間が手作業でラベル付けしていたら、地球上の全研究者が10年がかりでも到底足りない量。
事前訓練 → ファインチューニングの2段階構成
現代 LLM の標準的な学習プロセス:
| 段階 | 事前訓練 | ファインチューニング |
|---|---|---|
| 目的 | 汎用言語能力を作る | 特定タスクに合わせる(対話 / コード / 要約) |
| データ | web 全体級(数千億トークン) | タスク固有(数千〜数百万件) |
| 計算規模 | 数千〜数万GPU / 数ヶ月 | 数〜数十GPU / 数日 |
| コスト | 数億ドル(GPT-4 で推定 1億ドル超) | 数百万円〜数千万円 |
| 誰がやるか | OpenAI / Google / Anthropic / Meta 等のフロンティアラボ | 一般企業・エンジニアも可 |
| 頻度 | 1モデルにつき1〜数回(数ヶ月かけて) | 用途ごとに何度でも(数日サイクル) |
つまり 事前訓練は 「土台作り」 の超大型インフラ投資、ファインチューニングは 「上物の調整」。エンジニアが日常的に触れるのは後者が大半で、前者は フロンティアラボに依存する構造になっている。
なぜ事前訓練は圧倒的にコスト高か — 物理と数学の問題
事前訓練のコストが異次元な理由は、「全部を一気にやらないと汎用能力が出ない」 から。
- 少量データだと汎化しない: 数百万トークン程度の 「小規模事前訓練」 では言語の感覚が育たない。過学習 記事で論じた 「スケーリング則」 の通り、データ × モデル × 計算量が揃わないと性能が出ない
- 途中で止めると意味がない: ファインチューニングのように途中で止めて使えるものではない。事前訓練は完走前提
- 1回の 「やり直し」 が数千万ドル: ハイパーパラメータ調整ミスに気づいて再訓練、なんてことが起きると死活問題
- 巨大GPU クラスタの確保が困難: H100 を数千枚同時に動かすには、AWS/GCP/Azure でも調整が必要。NVIDIA からの供給待ちが半年
これらの理由で、現代 LLM の事前訓練は OpenAI / Google / Anthropic / Meta / xAI 等 5-10社程度 しか実施できていない。日本でも数社が国産 LLM の事前訓練に挑戦しているが、ほぼ全てフロンティアラボ製の Llama / Mistral 等を ファインチューニングして再配布 する形が主流。
いいねいいね、事前訓練。…つまり 当社が自社 LLM を事前訓練するのは絶望的 ということだね。数億ドルどころか うちの千葉のローン も払えていない私には、事前訓練の 「じ」 の字も無理だな。
赤崎部長、技術的に正しいです。当社規模で現実的なのは 「オープンソース LLM(Llama 3 / Mistral / Qwen 等)をファインチューニング」 の路線で。事前訓練済みモデル を借りて、自社データで微調整するスタイルが、コスト的に唯一の選択肢です。…ちなみに Llama 3 70B のファインチューニング なら、A100 8枚 × 3日で 50万円 程度から…(無言で AWS の見積もり PDF を開く)
あら、川口くん、50万円 なら部長の ワインセラー1ヶ月の電気代 と同じくらいですわね。…部長、AI 戦略推進室として、ワインセラー予算を AI ファインチューニング予算に振り替え るのはいかがですの?
うーん、ふわっとした方向感としては、ワインセラーは 「私自身の事前訓練の延長」 なので、削れないなあ。…ただし、大蔵くんの提案は PARTNERにも相談しないと ね。
フッ、事前訓練か。これは ハラリ が 『サピエンス全史』 で論じた 「認知革命前の人類10万年」 こそが、現生人類の 事前訓練フェーズ だった、という構造そのものだな…(スマホをチラ見、配信開始まで残り14分)

コンサル感覚: 人材育成との完全相似
事前訓練 / ファインチューニングの 2段階構成を、人材育成に翻訳する。
| 段階 | AI(LLM) | 人材育成 |
|---|---|---|
| 事前訓練 | web 全体級データで汎用言語能力 | 小中高 + 大学 + 新卒研修(汎用ベース体力) |
| ファインチューニング | タスク固有データで微調整 | 配属先での OJT、専門スキル獲得 |
| 誰が担うか | OpenAI 等のフロンティアラボ | 家庭 + 公教育 + 大企業の総合研修 |
| コスト | 数億ドル | 1人 20年で 2,000万円超(教育費) |
| 転用可能性 | 事前訓練済モデルを各社が借りる | 大学卒新人を各社が 「中途・新卒採用」 として獲得 |
つまり 「事前訓練済みを買ってきて、自社用にファインチューニングする」 という構造は、新卒採用 + 自社研修 と完全に同型。当然、企業が自前で大学を作ることはないように、自前で LLM の事前訓練をすることもない(GAFA級でない限り)。
これがコンサル業務での AI 導入の現実的な戦略指針 — 「ファインチューニング戦略」が現実、「事前訓練戦略」は妄想。
ふむ、つまり 俺の40年は事前訓練、コンサル業はファインチューニング という整理がついた。…ところで、孫がいま 5歳 で、これからの15-20年が 孫の事前訓練フェーズ ということだな。「何でも対応できる人間」 を作る下準備。これは大事に育てねば。
社長、まさに。AI の事前訓練と同じく、「後で何のタスクに振られるか分からない」 前提で、汎用能力を厚く積んでおくのが正解です。…ちなみに私の新婚妻も、最近 韓ドラ視聴 を 「妻自身の事前訓練」 と呼んで正当化してきています。
あら、凡田さんの奥様、お見事ですわね。…ちなみに私の 御朱印帳 5冊目 も、「私の精神性の事前訓練」 と呼んでよろしいですわよね、凡田さん?
大蔵さん、それは 事前訓練 というより、「何にもファインチューニングされる予定のない、純粋な趣味の汎用能力」 ですね。…まあ、それも事前訓練と言えなくもないですが。
あ、社長、結論として当社の AI 戦略を 「ファインチューニング戦略」 として整理し、自社事前訓練は諦める方向で パワポ300枚 でまとめさせていただきます。…(これで休日13週連続)
うむ、いいねえ。「ファインチューニング経営」 も響きがいい。儲かるんだろ?
