ファインチューニング(Fine-tuning) — 事前訓練済みの「汎用脳」を、特定タスク用に上書き調整する第2段階

月曜の朝、新人女性スタッフへの OJT 中…

大蔵(アシスタントマネージャー・35)

あなた、入社3週間目ね。パワーポイントは大学で習った でしょう?でも当社の 「パワポ」 は別物よ。表紙のロゴ位置、フッターの日付フォーマット、見出しの色番号 #d33b3b、目次の階層、各章の余白 — 全部、当社独自のルール。背中で覚えなさい。1週間で身につけて。

凡田(チームリーダー・38, 主人公)

(大蔵さん、それまさに 「ファインチューニング」 です。新人さんの 「大学までの汎用能力 = 事前訓練済み」 モデルに、当社固有のパワポルール = タスク特化データ を上書きしている。…そして、大蔵さん自身も 銀座カフェ → コンサル業 でファインチューニングされた身ですよね。)

大蔵

あら、凡田さん、それ 自覚はあります わよ。私の 「接客レイヤー20年」 はベース、その上に 「コンサル資料作成レイヤー13年」 が重ねられた。完全にファインチューニング型のキャリアですわ。…ちなみに、いまの新人さんも 3週間後にはアイマイ社専用 OS が脳にインストール される予定です。

凡田

(…大蔵さんの「アイマイ社専用 OS」という表現、技術的にはまさに 「カスタムファインチューニングモデル」 ですね。新人さんが本来持っていた汎用能力に上書き保存、不可逆。新人さん、すでに 引き返せない ところまで来ている…)

このページのまとめ

ひとことで言うと、できあがった「汎用脳」を、特定の仕事用のデータで仕込み直す 第2段階。事前訓練(#022) のあとに来る工程。
事前訓練が数億ドル級なのに対し、こちらは コストが3〜4桁安く、一般企業でも手が届く。いま LLM で何かするときの現実的な選択肢はほぼこれ(手法の SFT/RLHF/LoRA は本文で)。
イメージは 汎用に育った新人を、自社の業務に合わせて研修し直す 感覚。ポイントは 元の汎用力を壊さずに特化力を足す こと(やりすぎると忘れる仕組みは本文で)。

これは フェーズ④ 事前学習編の最終記事。前6記事(事前訓練 → 次トークン予測 → 確率分布 → サンプリング → 自己回帰生成 → 本記事)で LLM の「学習と生成」の全体像を扱ってきた。本記事はその締めくくり、「事前訓練の後に何が起きるか」 の話。

結論を先に: ファインチューニング = 事前訓練済みモデルを、自社/特定タスク用に「上書き調整」する工程。コストが事前訓練の 1/1000以下、一般企業がいま LLM で何かするときの 「現実的な選択肢」。

大蔵が新人にやっていることも、自分自身がカフェ→コンサル業で経験したことも、構造的にはまったく同じ。「汎用ベース + 特化レイヤー」 の2段階で能力を作る、というのは AI でも人間でも同じパターン。

ファインチューニングとは何か — 「上書き調整」の意味

事前訓練済みモデルは、web 全体規模で学習しているので 「何でもそこそこ知ってる」が「専門的なタスクは平均的」 な状態。

例: GPT-4 ベースモデルに「うちの社内 FAQ を答えさせる」と、ありがちな一般論を返す
例: Llama 3 ベースモデルに「医療文書を要約させる」と、専門用語の精度がイマイチ
例: 任意の LLM に「うちの会社のメール文体で返信させる」と、無難な定型文しか出ない

これを解決するのが ファインチューニング。特定タスクのデータ(自社FAQ / 医療文書 / 自社メールアーカイブ)で 追加学習 させると、その領域での精度が大幅に上がる。

事前訓練との対比 — コスト/データ量/担い手が桁違い

図1: 事前訓練 vs ファインチューニング — データ量・コスト・担い手の比較。一般企業が触れるのは右側

規模感の対比は以前事前訓練(#022) 記事でも触れたが、改めて整理する。

項目	事前訓練	ファインチューニング
データ量	web 全体級(数千億トークン)	タスク固有(数千〜数百万件)
計算規模	数千〜数万GPU × 数ヶ月	数〜数十GPU × 数日
コスト	数億ドル(GPT-4で推定1億ドル超)	数百万円〜数千万円(LoRA なら数十万円〜)
誰がやるか	OpenAI / Google / Anthropic / Meta 等のフロンティアラボ	一般企業・エンジニアも可能
頻度	1モデルにつき1〜数回(数ヶ月単位)	用途ごとに何度でも(数日サイクル)
目的	汎用言語能力を作る	特定タスクに合わせる(対話 / コード / 要約 / 自社仕様)

つまり 事前訓練は土台作りの超大型インフラ投資、ファインチューニングは上物の調整。エンジニアと一般企業が触れるのは、ほぼ 100% 後者。

ファインチューニングの3大流派 — SFT / Instruction Tuning / RLHF

① SFT(Supervised Fine-Tuning)— 入出力ペアで教え込む

最もシンプル。「この入力にはこの出力」というペア を大量に用意して、モデルにそれを覚えさせる。

例: 「Q: 当社の営業時間は? / A: 平日9時〜18時です」のペアを 500件用意してファインチューニング → 社内 FAQ Bot が完成
例: 「英文: … / 和訳: …」のペアを5万件で翻訳特化モデル

シンプルだが、用途を絞れば極めて強力。社内ナレッジボット系はほぼこれ。

② Instruction Tuning — 「指示に従う」性質を獲得

素の事前訓練済みモデルは 「テキストの続きを書く」 しかできない。「以下を要約してください」と指示しても、要約せずに似たような文章を続けてしまう。

これを 「指示を理解して、それに従って動く」 モデルに変えるのが Instruction Tuning。

例: 「指示: 次の文章を3行で要約せよ / 入力: … / 出力: …」のフォーマットで何万件も学習
結果: モデルが 「指示を読む → それに従う」 という挙動を獲得

GPT-3.5 が 「InstructGPT」 として登場した時、これが ChatGPT への第一歩になった。

③ RLHF(Reinforcement Learning from Human Feedback) — 「つるんとした応答」の正体

ChatGPT の 「丁寧で、有害でなく、まあまあ役に立つ」 あの応答スタイルは、RLHF の成果。

人間が複数の回答候補を見比べて 「こっちの方がいい」 とランキングする
このランキングデータから 「人間が好む応答の特徴」 をモデルが学習
強化学習(Reinforcement Learning)で、その特徴を増やす方向に重みを更新

RLHF は 「何が良い回答かは人間に聞かないとわからない」 領域(=ほぼ全ての対話タスク)で必須。一方で 「人間の好みに過剰最適化されて、ハルシネーション増加」「つるっとした優等生回答ばかりで尖りがない」 といった副作用も生む。

低コスト派の本命 — LoRA(Low-Rank Adaptation)

素朴なファインチューニングは 「事前訓練済みモデルの重み全部を動かす」 ので、Llama 3 70B のような巨大モデルでも数百万円以上かかる。これを 1/100 のコスト にしたのが LoRA。

元のモデルの重みは凍結(動かさない)
そこに 小さな追加層(=低ランク行列分解 A・B) を挿入
追加層だけを訓練する
結果: 訓練対象パラメータが 0.1〜1% 程度に、GPU メモリ使用量も激減

2021年の論文(Hu et al.)以降、LoRA は急速に普及。現代の一般企業がファインチューニングを実施する時、ほぼ 100% LoRA(またはその派生の QLoRA など)を使う。「事前訓練済みモデルを借りて、自社データで LoRA ファインチューニング」 が標準構成。

国産 LLM の実例 — ほぼ全てこの構造で作られている

日本国内で公開されている「国産 LLM」は、ほぼ 全てが「海外フロンティアラボの事前訓練済みモデル + 日本語特化のファインチューニング(+ トークナイザー拡張)」 の構造で作られている。代表例:

RakutenAI-7B / RakutenAI 2.0(楽天グループ) — Mistral-7B をベースに、日本語データで 継続事前学習 + ファインチューニング。トークナイザーも日本語効率化のため独自拡張
ELYZA-japanese-Llama-2 / ELYZA Llama 3(ELYZA) — Meta の Llama 2 / 3 を日本語データでファインチューニング
Japanese StableLM(Stability AI Japan) — Llama 2 ベースに日本語特化
CyberAgent / LINE NEOWIZ系の日本語LLM — Llama / Mistral 系をベースに日本語ファインチューニング

つまり日本の「国産 LLM 開発」の実態は、「OpenAI / Meta / Mistral などが数億ドルかけて事前訓練したベースモデルを借りて、各社が日本語データ + 業務領域データでファインチューニング」 という構造。「完全自社事前訓練」 をやっているのはごく一部(NTT の tsuzumi 等、ただしコスト効率は厳しい)。

言い換えると、本記事で説明した 「事前訓練 = フロンティアラボ独占 / ファインチューニング = 一般企業の戦場」 という構造は、日本の「国産 LLM」シーンでもそのまま当てはまる。ファインチューニング技術の理解は、国産 LLM の中身を読み解く時の必須リテラシー。

登場人物の反応 ①

川口(アナリスト・22)

あ、技術側から補足です。LoRA は 「元の Llama 3 70B の重み(数千億パラメータ)を凍結したまま、追加層 0.1% のみ訓練」 という構成で、メモリと時間がほぼ 1/100 になります。例えば Llama 3 70B フルファインチューニングは A100 80GB × 8枚 × 5日 = 約450万円 ですが、LoRA なら A100 80GB × 1枚 × 1日 = 約8万円 程度。…ちなみに当社の AI 戦略推進室の年間予算でしたら、56回 LoRA ファインチューニングできる 計算になります。

大蔵

あら、川口くん、その 「凍結したまま追加層だけ」 ですわね。それ、私が新人スタッフを指導する時の 「基本キャラを変えずに、当社業務だけ上塗り」 戦略とまったく同じ構造ですわ。3週間で完全インストール 可能なのも、LoRA の効率と通じるものがありますわね。

赤崎(部長・42)

うーん、ふわっとした方向感としては、当社の AI 戦略推進室を 「LoRA 工房」 と呼んでもいいかもしれないね。Llama 3 を借りて、ワインセラー予算の 1/50 でファインチューニング、これは PARTNERにも相談しないとね。

コンサル感覚 — 人材育成と完全同型

ファインチューニングの構造は 人材育成と完全に同じ。これも前記事事前訓練(#022) で軽く触れたが、本記事では深く整理する。

場面	AI(LLM)	人材育成
事前訓練	web 全体級データで汎用言語能力	小中高 + 大学(汎用基礎能力)
SFT	入出力ペアで業務固有タスク覚え込み	新卒研修で「この依頼にはこの定型回答」を覚える
Instruction Tuning	「指示に従う」性質の獲得	「上司の指示を読み取って動く」社会人マナー
RLHF	人間フィードバックで応答品質調整	OJT 中の上司の「もう少しソフトに」「もっと簡潔に」フィードバック
LoRA	元モデル凍結、追加層だけ訓練	「基本人格は変えずに、当社専用業務を上塗り」型 OJT
Catastrophic Forgetting	強くファインチューニングしすぎて元の汎用能力を破壊	当社業務を叩き込みすぎて、転職時に潰しが効かない人材

大蔵の 「アイマイ社専用 OS が脳にインストール」 発言は、技術的には 「アイマイ社用ファインチューニング」。新人が本来持っていた汎用能力(大学までの知識)に対して、当社固有のタスクデータ(社内パワポ規格、議事録フォーマット、クライアント対応の暗黙ルール)で上書き調整される。

そして大蔵自身も 「接客レイヤー20年 = 銀座カフェ業界のファインチューニング済み」 な状態でアイマイ社に入り、その上に 「コンサル資料作成レイヤー13年」 が乗っかった、二段ファインチューニングのキャリア。これは AI で言うと 「特化モデルをさらに別タスクでファインチューニング」 という構造で、実は割と難しい(catastrophic forgetting リスクが高い)。

大蔵が 「接客スキルも完全に保ったまま、コンサル資料も完璧に作れる」 状態を維持しているのは、人間版の LoRA 構造 を自然に実装しているからかもしれない — 元の「接客レイヤー」を凍結したまま、追加層だけ訓練、という構造。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり 大蔵くんも自然 LoRA 実装者 だったということか。…私の方は、コンサル業に転身した時、銀行員時代の40年が catastrophic forgetting で半分消えた 気がするな。今でも夜中に 融資稟議書のフォーマット を夢の中で書いている。

凡田(チームリーダー・38, 主人公)

社長、その 「夢で融資稟議書」 は、半分消えたわけではなく 「凍結された旧レイヤーが推論時に活性化している」 状態かと。元の「都銀員モデル」は脳の奥に保存されたまま、今のコンサル業ファインチューニング層の下で 静かに動き続けている んです。社長の銀行員時代は 消えていない、ただ重ね書きされただけ。

御託(シニアコンサル・39)

フッ、社長、それですか。AI 構造論的に極めて妥当な現象ですよ。私の自宅オーディオで言うと、1970年代録音のベルリンフィル盤 を Linn LP12 で再生すると、いまの B&W 802 D4 でも色褪せない。社長の脳内に 凍結された「都銀員時代の元音源」 が、今のコンサル業ファインチューニング層を通しても、夜の「再生環境」(=夢)で 原音のまま立ち上がってくる。むしろ夢で活きるのは 「ちゃんと録られた音 = よく訓練された事前学習層」 の証ですな。…(今夜の 「星詠みの間」 配信は STAX SR-X9000 で待機している、残り3分)

大蔵

あら、御託さんの推し配信、今度はフロイトですわね。…ちなみに、私の新人さんへのファインチューニング、今朝の段階で パワポルール 87% 内製化済み ですわ。LoRA で言うと収束間近、あと数日で完全に 当社専用モデル として稼働開始できます。

南雲

うむ、いいねえ。「LoRA 経営」 も響きがいい。フェーズ④の事前学習編もこれで一区切りだな。儲かるんだろ?

KEY TAKEAWAYS

抑えておきたいポイント

ファインチューニング = 事前訓練済みモデルを、特定タスク用データで上書き調整 する第2段階。
コストは事前訓練の 1/1000 以下、一般企業がいま LLM で何かするときの現実的な選択肢。
3大流派: SFT / Instruction Tuning / RLHF。ChatGPT の「つるんとした応答」は RLHF の成果。
低コスト本命: LoRA — 元の重み凍結、追加層 0.1〜1% だけ訓練、コスト 1/100。現代企業の標準構成。
注意: catastrophic forgetting — 強くファインチューニングしすぎると元の汎用能力を破壊する。学習率/エポック数の調整が必須。
コンサル感覚: 新人 OJT = 新人へのファインチューニング、転職 = 自分自身のファインチューニング、大蔵の「接客 + コンサル」二段キャリア = 自然 LoRA 実装。
「汎用ベース + 特化レイヤー」の2段階で能力を作るのは AI でも人材でも同じ。フェーズ④ 事前学習編はここで完結、次フェーズは Transformer のアーキテクチャ歴史(CNN/RNN)へ。