あなた、入社3週間目ね。パワーポイントは大学で習った でしょう?でも当社の 「パワポ」 は別物よ。表紙のロゴ位置、フッターの日付フォーマット、見出しの色番号 #d33b3b、目次の階層、各章の余白 — 全部、当社独自のルール。背中で覚えなさい。1週間で身につけて。
(大蔵さん、それまさに 「ファインチューニング」 です。新人さんの 「大学までの汎用能力 = 事前訓練済み」 モデルに、当社固有のパワポルール = タスク特化データ を上書きしている。…そして、大蔵さん自身も 銀座カフェ → コンサル業 でファインチューニングされた身ですよね。)
あら、凡田さん、それ 自覚はあります わよ。私の 「接客レイヤー20年」 はベース、その上に 「コンサル資料作成レイヤー13年」 が重ねられた。完全にファインチューニング型のキャリアですわ。…ちなみに、いまの新人さんも 3週間後にはアイマイ社専用 OS が脳にインストール される予定です。
(…大蔵さんの 「アイマイ社専用 OS」 という表現、技術的にはまさに 「カスタムファインチューニングモデル」 ですね。新人さんが本来持っていた汎用能力に上書き保存、不可逆。新人さん、すでに 引き返せない ところまで来ている…)

- ひとことで言うと、できあがった 「汎用脳」 を、特定の仕事用のデータで仕込み直す 第2段階。事前訓練(#022) のあとに来る工程。
- 事前訓練が数億ドル級なのに対し、こちらは コストが3〜4桁安く、一般企業でも手が届く。いま LLM で何かするときの現実的な選択肢はほぼこれ(手法の SFT/RLHF/LoRA は本文で)。
- イメージは 汎用に育った新人を、自社の業務に合わせて研修し直す 感覚。ポイントは 元の汎用力を壊さずに特化力を足す こと(やりすぎると忘れる仕組みは本文で)。
これは フェーズ④ 事前学習編の最終記事。前6記事(事前訓練 → 次トークン予測 → 確率分布 → サンプリング → 自己回帰生成 → 本記事)で LLM の 「学習と生成」 の全体像を扱ってきた。本記事はその締めくくり、「事前訓練の後に何が起きるか」 の話。
結論を先に: ファインチューニング = 事前訓練済みモデルを、自社/特定タスク用に 「上書き調整」 する工程。コストが事前訓練の 1/1000以下、一般企業がいま LLM で何かするときの 「現実的な選択肢」。
大蔵が新人にやっていることも、自分自身がカフェ→コンサル業で経験したことも、構造的にはまったく同じ。「汎用ベース + 特化レイヤー」 の2段階で能力を作る、というのは AI でも人間でも同じパターン。
ファインチューニングとは何か — 「上書き調整」 の意味
事前訓練済みモデルは、web 全体規模で学習しているので 「何でもそこそこ知ってる」 が「専門的なタスクは平均的」 な状態。
- 例: GPT-4 ベースモデルに「うちの社内 FAQ を答えさせる」と、ありがちな一般論を返す
- 例: Llama 3 ベースモデルに「医療文書を要約させる」と、専門用語の精度がイマイチ
- 例: 任意の LLM に「うちの会社のメール文体で返信させる」と、無難な定型文しか出ない
これを解決するのが ファインチューニング。特定タスクのデータ(自社FAQ / 医療文書 / 自社メールアーカイブ)で 追加学習 させると、その領域での精度が大幅に上がる。
事前訓練との対比 — コスト/データ量/担い手が桁違い
規模感の対比は以前 事前訓練(#022) 記事でも触れたが、改めて整理する。
| 項目 | 事前訓練 | ファインチューニング |
|---|---|---|
| データ量 | web 全体級(数千億トークン) | タスク固有(数千〜数百万件) |
| 計算規模 | 数千〜数万GPU × 数ヶ月 | 数〜数十GPU × 数日 |
| コスト | 数億ドル(GPT-4で推定1億ドル超) | 数百万円〜数千万円(LoRA なら数十万円〜) |
| 誰がやるか | OpenAI / Google / Anthropic / Meta 等のフロンティアラボ | 一般企業・エンジニアも可能 |
| 頻度 | 1モデルにつき1〜数回(数ヶ月単位) | 用途ごとに何度でも(数日サイクル) |
| 目的 | 汎用言語能力を作る | 特定タスクに合わせる(対話 / コード / 要約 / 自社仕様) |
つまり 事前訓練は土台作りの超大型インフラ投資、ファインチューニングは上物の調整。エンジニアと一般企業が触れるのは、ほぼ 100% 後者。
ファインチューニングの3大流派 — SFT / Instruction Tuning / RLHF
① SFT(Supervised Fine-Tuning)— 入出力ペアで教え込む
最もシンプル。「この入力にはこの出力」というペア を大量に用意して、モデルにそれを覚えさせる。
- 例: 「Q: 当社の営業時間は? / A: 平日9時〜18時です」のペアを 500件用意してファインチューニング → 社内 FAQ Bot が完成
- 例: 「英文: … / 和訳: …」のペアを5万件で翻訳特化モデル
シンプルだが、用途を絞れば極めて強力。社内ナレッジボット系はほぼこれ。
② Instruction Tuning — 「指示に従う」 性質を獲得
素の事前訓練済みモデルは 「テキストの続きを書く」 しかできない。「以下を要約してください」と指示しても、要約せずに似たような文章を続けてしまう。
これを 「指示を理解して、それに従って動く」 モデルに変えるのが Instruction Tuning。
- 例: 「指示: 次の文章を3行で要約せよ / 入力: … / 出力: …」のフォーマットで何万件も学習
- 結果: モデルが 「指示を読む → それに従う」 という挙動を獲得
GPT-3.5 が 「InstructGPT」 として登場した時、これが ChatGPT への第一歩になった。
③ RLHF(Reinforcement Learning from Human Feedback) — 「つるんとした応答」 の正体
ChatGPT の 「丁寧で、有害でなく、まあまあ役に立つ」 あの応答スタイルは、RLHF の成果。
- 人間が複数の回答候補を見比べて 「こっちの方がいい」 とランキングする
- このランキングデータから 「人間が好む応答の特徴」 をモデルが学習
- 強化学習(Reinforcement Learning)で、その特徴を増やす方向に重みを更新
RLHF は 「何が良い回答かは人間に聞かないとわからない」 領域(=ほぼ全ての対話タスク)で必須。一方で 「人間の好みに過剰最適化されて、ハルシネーション増加」 「つるっとした優等生回答ばかりで尖りがない」 といった副作用も生む。
低コスト派の本命 — LoRA(Low-Rank Adaptation)
素朴なファインチューニングは 「事前訓練済みモデルの重み全部を動かす」 ので、Llama 3 70B のような巨大モデルでも数百万円以上かかる。これを 1/100 のコスト にしたのが LoRA。
- 元のモデルの重みは凍結(動かさない)
- そこに 小さな追加層(=低ランク行列分解 A・B) を挿入
- 追加層 だけ を訓練する
- 結果: 訓練対象パラメータが 0.1〜1% 程度に、GPU メモリ使用量も激減
2021年の論文(Hu et al.)以降、LoRA は急速に普及。現代の一般企業がファインチューニングを実施する時、ほぼ 100% LoRA(またはその派生の QLoRA など)を使う。「事前訓練済みモデルを借りて、自社データで LoRA ファインチューニング」 が標準構成。
国産 LLM の実例 — ほぼ全てこの構造で作られている
日本国内で公開されている 「国産 LLM」 は、ほぼ 全てが「海外フロンティアラボの事前訓練済みモデル + 日本語特化のファインチューニング(+ トークナイザー拡張)」 の構造で作られている。代表例:
- RakutenAI-7B / RakutenAI 2.0(楽天グループ) — Mistral-7B をベースに、日本語データで 継続事前学習 + ファインチューニング。トークナイザーも日本語効率化のため独自拡張
- ELYZA-japanese-Llama-2 / ELYZA Llama 3(ELYZA) — Meta の Llama 2 / 3 を日本語データでファインチューニング
- Japanese StableLM(Stability AI Japan) — Llama 2 ベースに日本語特化
- CyberAgent / LINE NEOWIZ系の日本語LLM — Llama / Mistral 系をベースに日本語ファインチューニング
つまり日本の 「国産 LLM 開発」 の実態は、「OpenAI / Meta / Mistral などが数億ドルかけて事前訓練したベースモデルを借りて、各社が日本語データ + 業務領域データでファインチューニング」 という構造。「完全自社事前訓練」 をやっているのはごく一部(NTT の tsuzumi 等、ただしコスト効率は厳しい)。
言い換えると、本記事で説明した 「事前訓練 = フロンティアラボ独占 / ファインチューニング = 一般企業の戦場」 という構造は、日本の 「国産 LLM」 シーンでもそのまま当てはまる。ファインチューニング技術の理解は、国産 LLM の中身を読み解く時の必須リテラシー。
あ、技術側から補足です。LoRA は 「元の Llama 3 70B の重み(数千億パラメータ)を凍結したまま、追加層 0.1% のみ訓練」 という構成で、メモリと時間がほぼ 1/100 になります。例えば Llama 3 70B フルファインチューニングは A100 80GB × 8枚 × 5日 = 約450万円 ですが、LoRA なら A100 80GB × 1枚 × 1日 = 約8万円 程度。…ちなみに当社の AI 戦略推進室の年間予算でしたら、56回 LoRA ファインチューニングできる 計算になります。
あら、川口くん、その 「凍結したまま追加層だけ」 ですわね。それ、私が新人スタッフを指導する時の 「基本キャラを変えずに、当社業務だけ上塗り」 戦略とまったく同じ構造ですわ。3週間で完全インストール 可能なのも、LoRA の効率と通じるものがありますわね。
うーん、ふわっとした方向感としては、当社の AI 戦略推進室を 「LoRA 工房」 と呼んでもいいかもしれないね。Llama 3 を借りて、ワインセラー予算の 1/50 でファインチューニング、これは PARTNERにも相談しないと ね。

コンサル感覚 — 人材育成と完全同型
ファインチューニングの構造は 人材育成と完全に同じ。これも前記事 事前訓練(#022) で軽く触れたが、本記事では深く整理する。
| 場面 | AI(LLM) | 人材育成 |
|---|---|---|
| 事前訓練 | web 全体級データで汎用言語能力 | 小中高 + 大学(汎用基礎能力) |
| SFT | 入出力ペアで業務固有タスク覚え込み | 新卒研修で「この依頼にはこの定型回答」を覚える |
| Instruction Tuning | 「指示に従う」性質の獲得 | 「上司の指示を読み取って動く」社会人マナー |
| RLHF | 人間フィードバックで応答品質調整 | OJT 中の上司の 「もう少しソフトに」 「もっと簡潔に」 フィードバック |
| LoRA | 元モデル凍結、追加層だけ訓練 | 「基本人格は変えずに、当社専用業務を上塗り」型 OJT |
| Catastrophic Forgetting | 強くファインチューニングしすぎて元の汎用能力を破壊 | 当社業務を叩き込みすぎて、転職時に潰しが効かない人材 |
大蔵の 「アイマイ社専用 OS が脳にインストール」 発言は、技術的には 「アイマイ社用ファインチューニング」。新人が本来持っていた汎用能力(大学までの知識)に対して、当社固有のタスクデータ(社内パワポ規格、議事録フォーマット、クライアント対応の暗黙ルール)で上書き調整される。
そして大蔵自身も 「接客レイヤー20年 = 銀座カフェ業界のファインチューニング済み」 な状態でアイマイ社に入り、その上に 「コンサル資料作成レイヤー13年」 が乗っかった、二段ファインチューニングのキャリア。これは AI で言うと 「特化モデルをさらに別タスクでファインチューニング」 という構造で、実は割と難しい(catastrophic forgetting リスクが高い)。
大蔵が 「接客スキルも完全に保ったまま、コンサル資料も完璧に作れる」 状態を維持しているのは、人間版の LoRA 構造 を自然に実装しているからかもしれない — 元の 「接客レイヤー」 を凍結したまま、追加層だけ訓練、という構造。
ふむ、つまり 大蔵くんも自然 LoRA 実装者 だったということか。…私の方は、コンサル業に転身した時、銀行員時代の40年 が catastrophic forgetting で半分消えた 気がするな。今でも夜中に 融資稟議書のフォーマット を夢の中で書いている。
社長、その 「夢で融資稟議書」 は、半分消えたわけではなく 「凍結された旧レイヤーが推論時に活性化している」 状態かと。元の 「都銀員モデル」 は脳の奥に保存されたまま、今のコンサル業ファインチューニング層の下で 静かに動き続けている んです。社長の銀行員時代は 消えていない、ただ重ね書きされただけ。
フッ、社長、それですか。AI 構造論的に極めて妥当な現象ですよ。私の自宅オーディオで言うと、1970年代録音のベルリンフィル盤 を Linn LP12 で再生すると、いまの B&W 802 D4 でも色褪せない。社長の脳内に 凍結された 「都銀員時代の元音源」 が、今のコンサル業ファインチューニング層を通しても、夜の 「再生環境」(=夢)で 原音のまま立ち上がってくる。むしろ夢で活きるのは 「ちゃんと録られた音 = よく訓練された事前学習層」 の証ですな。…(今夜の 「星詠みの間」 配信は STAX SR-X9000 で待機している、残り3分)
あら、御託さんの推し配信、今度はフロイトですわね。…ちなみに、私の新人さんへのファインチューニング、今朝の段階で パワポルール 87% 内製化済み ですわ。LoRA で言うと収束間近、あと数日で完全に 当社専用モデル として稼働開始できます。
うむ、いいねえ。「LoRA 経営」 も響きがいい。フェーズ④の事前学習編もこれで一区切りだな。儲かるんだろ?
