月曜の朝、新人女性スタッフへの OJT 中…
大蔵(アシスタントマネージャー・35)

あなた、入社3週間目ね。パワーポイントは大学で習った でしょう?でも当社の 「パワポ」 は別物よ。表紙のロゴ位置、フッターの日付フォーマット、見出しの色番号 #d33b3b、目次の階層、各章の余白 — 全部、当社独自のルール。背中で覚えなさい。1週間で身につけて。

凡田(チームリーダー・38, 主人公)

(大蔵さん、それまさに 「ファインチューニング」 です。新人さんの 「大学までの汎用能力 = 事前訓練済み」 モデルに、当社固有のパワポルール = タスク特化データ を上書きしている。…そして、大蔵さん自身も 銀座カフェ → コンサル業 でファインチューニングされた身ですよね。)

大蔵

あら、凡田さん、それ 自覚はあります わよ。私の 「接客レイヤー20年」 はベース、その上に 「コンサル資料作成レイヤー13年」 が重ねられた。完全にファインチューニング型のキャリアですわ。…ちなみに、いまの新人さんも 3週間後にはアイマイ社専用 OS が脳にインストール される予定です。

凡田

(…大蔵さんの 「アイマイ社専用 OS」 という表現、技術的にはまさに 「カスタムファインチューニングモデル」 ですね。新人さんが本来持っていた汎用能力に上書き保存、不可逆。新人さん、すでに 引き返せない ところまで来ている…)

月曜朝のオフィスで大蔵が新人女性スタッフへPowerPoint特訓、凡田が傍で気づきの表情
このページのまとめ
  • ひとことで言うと、できあがった 「汎用脳」 を、特定の仕事用のデータで仕込み直す 第2段階。事前訓練(#022) のあとに来る工程。
  • 事前訓練が数億ドル級なのに対し、こちらは コストが3〜4桁安く、一般企業でも手が届く。いま LLM で何かするときの現実的な選択肢はほぼこれ(手法の SFT/RLHF/LoRA は本文で)。
  • イメージは 汎用に育った新人を、自社の業務に合わせて研修し直す 感覚。ポイントは 元の汎用力を壊さずに特化力を足す こと(やりすぎると忘れる仕組みは本文で)。

これは フェーズ④ 事前学習編の最終記事。前6記事(事前訓練 → 次トークン予測 → 確率分布 → サンプリング → 自己回帰生成 → 本記事)で LLM の 「学習と生成」 の全体像を扱ってきた。本記事はその締めくくり、「事前訓練の後に何が起きるか」 の話。

結論を先に: ファインチューニング = 事前訓練済みモデルを、自社/特定タスク用に 「上書き調整」 する工程。コストが事前訓練の 1/1000以下、一般企業がいま LLM で何かするときの 「現実的な選択肢」

大蔵が新人にやっていることも、自分自身がカフェ→コンサル業で経験したことも、構造的にはまったく同じ。「汎用ベース + 特化レイヤー」 の2段階で能力を作る、というのは AI でも人間でも同じパターン。

ファインチューニングとは何か — 「上書き調整」 の意味

事前訓練済みモデルは、web 全体規模で学習しているので 「何でもそこそこ知ってる」 が「専門的なタスクは平均的」 な状態。

これを解決するのが ファインチューニング特定タスクのデータ(自社FAQ / 医療文書 / 自社メールアーカイブ)で 追加学習 させると、その領域での精度が大幅に上がる。

事前訓練との対比 — コスト/データ量/担い手が桁違い

事前訓練とファインチューニングのデータ量・コスト・担い手の3桁の差を視覚化

図1: 事前訓練 vs ファインチューニング — データ量・コスト・担い手の比較。一般企業が触れるのは右側

規模感の対比は以前 事前訓練(#022) 記事でも触れたが、改めて整理する。

項目 事前訓練 ファインチューニング
データ量 web 全体級(数千億トークン) タスク固有(数千〜数百万件)
計算規模 数千〜数万GPU × 数ヶ月 数〜数十GPU × 数日
コスト 数億ドル(GPT-4で推定1億ドル超) 数百万円〜数千万円(LoRA なら数十万円〜)
誰がやるか OpenAI / Google / Anthropic / Meta 等のフロンティアラボ 一般企業・エンジニアも可能
頻度 1モデルにつき1〜数回(数ヶ月単位) 用途ごとに何度でも(数日サイクル)
目的 汎用言語能力を作る 特定タスクに合わせる(対話 / コード / 要約 / 自社仕様)

つまり 事前訓練は土台作りの超大型インフラ投資ファインチューニングは上物の調整。エンジニアと一般企業が触れるのは、ほぼ 100% 後者。

ファインチューニングの3大流派 — SFT / Instruction Tuning / RLHF

① SFT(Supervised Fine-Tuning)— 入出力ペアで教え込む

最もシンプル。「この入力にはこの出力」というペア を大量に用意して、モデルにそれを覚えさせる。

シンプルだが、用途を絞れば極めて強力。社内ナレッジボット系はほぼこれ。

② Instruction Tuning — 「指示に従う」 性質を獲得

素の事前訓練済みモデルは 「テキストの続きを書く」 しかできない。「以下を要約してください」と指示しても、要約せずに似たような文章を続けてしまう。

これを 「指示を理解して、それに従って動く」 モデルに変えるのが Instruction Tuning。

GPT-3.5 が 「InstructGPT」 として登場した時、これが ChatGPT への第一歩になった。

③ RLHF(Reinforcement Learning from Human Feedback) — 「つるんとした応答」 の正体

ChatGPT の 「丁寧で、有害でなく、まあまあ役に立つ」 あの応答スタイルは、RLHF の成果。

RLHF は 「何が良い回答かは人間に聞かないとわからない」 領域(=ほぼ全ての対話タスク)で必須。一方で 「人間の好みに過剰最適化されて、ハルシネーション増加」 「つるっとした優等生回答ばかりで尖りがない」 といった副作用も生む。

低コスト派の本命 — LoRA(Low-Rank Adaptation)

素朴なファインチューニングは 「事前訓練済みモデルの重み全部を動かす」 ので、Llama 3 70B のような巨大モデルでも数百万円以上かかる。これを 1/100 のコスト にしたのが LoRA。

2021年の論文(Hu et al.)以降、LoRA は急速に普及。現代の一般企業がファインチューニングを実施する時、ほぼ 100% LoRA(またはその派生の QLoRA など)を使う。「事前訓練済みモデルを借りて、自社データで LoRA ファインチューニング」 が標準構成。

国産 LLM の実例 — ほぼ全てこの構造で作られている

日本国内で公開されている 「国産 LLM」 は、ほぼ 全てが「海外フロンティアラボの事前訓練済みモデル + 日本語特化のファインチューニング(+ トークナイザー拡張)」 の構造で作られている。代表例:

つまり日本の 「国産 LLM 開発」 の実態は、「OpenAI / Meta / Mistral などが数億ドルかけて事前訓練したベースモデルを借りて、各社が日本語データ + 業務領域データでファインチューニング」 という構造。「完全自社事前訓練」 をやっているのはごく一部(NTT の tsuzumi 等、ただしコスト効率は厳しい)。

言い換えると、本記事で説明した 「事前訓練 = フロンティアラボ独占 / ファインチューニング = 一般企業の戦場」 という構造は、日本の 「国産 LLM」 シーンでもそのまま当てはまる。ファインチューニング技術の理解は、国産 LLM の中身を読み解く時の必須リテラシー

登場人物の反応 ①
川口(アナリスト・22)

あ、技術側から補足です。LoRA は 「元の Llama 3 70B の重み(数千億パラメータ)を凍結したまま、追加層 0.1% のみ訓練」 という構成で、メモリと時間がほぼ 1/100 になります。例えば Llama 3 70B フルファインチューニングは A100 80GB × 8枚 × 5日 = 約450万円 ですが、LoRA なら A100 80GB × 1枚 × 1日 = 約8万円 程度。…ちなみに当社の AI 戦略推進室の年間予算でしたら、56回 LoRA ファインチューニングできる 計算になります。

大蔵

あら、川口くん、その 「凍結したまま追加層だけ」 ですわね。それ、私が新人スタッフを指導する時の 「基本キャラを変えずに、当社業務だけ上塗り」 戦略とまったく同じ構造ですわ。3週間で完全インストール 可能なのも、LoRA の効率と通じるものがありますわね。

赤崎(部長・42)

うーん、ふわっとした方向感としては、当社の AI 戦略推進室を 「LoRA 工房」 と呼んでもいいかもしれないね。Llama 3 を借りて、ワインセラー予算の 1/50 でファインチューニング、これは PARTNERにも相談しないと ね。

会議室で川口がLoRAコスト試算を披露、大蔵が

コンサル感覚 — 人材育成と完全同型

ファインチューニングの構造は 人材育成と完全に同じ。これも前記事 事前訓練(#022) で軽く触れたが、本記事では深く整理する。

場面 AI(LLM) 人材育成
事前訓練 web 全体級データで汎用言語能力 小中高 + 大学(汎用基礎能力)
SFT 入出力ペアで業務固有タスク覚え込み 新卒研修で「この依頼にはこの定型回答」を覚える
Instruction Tuning 「指示に従う」性質の獲得 「上司の指示を読み取って動く」社会人マナー
RLHF 人間フィードバックで応答品質調整 OJT 中の上司の 「もう少しソフトに」 「もっと簡潔に」 フィードバック
LoRA 元モデル凍結、追加層だけ訓練 「基本人格は変えずに、当社専用業務を上塗り」型 OJT
Catastrophic Forgetting 強くファインチューニングしすぎて元の汎用能力を破壊 当社業務を叩き込みすぎて、転職時に潰しが効かない人材

大蔵の 「アイマイ社専用 OS が脳にインストール」 発言は、技術的には 「アイマイ社用ファインチューニング」。新人が本来持っていた汎用能力(大学までの知識)に対して、当社固有のタスクデータ(社内パワポ規格、議事録フォーマット、クライアント対応の暗黙ルール)で上書き調整される。

そして大蔵自身も 「接客レイヤー20年 = 銀座カフェ業界のファインチューニング済み」 な状態でアイマイ社に入り、その上に 「コンサル資料作成レイヤー13年」 が乗っかった、二段ファインチューニングのキャリア。これは AI で言うと 「特化モデルをさらに別タスクでファインチューニング」 という構造で、実は割と難しい(catastrophic forgetting リスクが高い)。

大蔵が 「接客スキルも完全に保ったまま、コンサル資料も完璧に作れる」 状態を維持しているのは、人間版の LoRA 構造 を自然に実装しているからかもしれない — 元の 「接客レイヤー」 を凍結したまま、追加層だけ訓練、という構造。

登場人物の反応 ②
南雲(社長・60-62)

ふむ、つまり 大蔵くんも自然 LoRA 実装者 だったということか。…私の方は、コンサル業に転身した時、銀行員時代の40年 が catastrophic forgetting で半分消えた 気がするな。今でも夜中に 融資稟議書のフォーマット を夢の中で書いている。

凡田(チームリーダー・38, 主人公)

社長、その 「夢で融資稟議書」 は、半分消えたわけではなく 「凍結された旧レイヤーが推論時に活性化している」 状態かと。元の 「都銀員モデル」 は脳の奥に保存されたまま、今のコンサル業ファインチューニング層の下で 静かに動き続けている んです。社長の銀行員時代は 消えていない、ただ重ね書きされただけ

御託(シニアコンサル・39)

フッ、社長、それですか。AI 構造論的に極めて妥当な現象ですよ。私の自宅オーディオで言うと、1970年代録音のベルリンフィル盤Linn LP12 で再生すると、いまの B&W 802 D4 でも色褪せない。社長の脳内に 凍結された 「都銀員時代の元音源」 が、今のコンサル業ファインチューニング層を通しても、夜の 「再生環境」(=夢)で 原音のまま立ち上がってくる。むしろ夢で活きるのは 「ちゃんと録られた音 = よく訓練された事前学習層」 の証ですな。…(今夜の 「星詠みの間」 配信は STAX SR-X9000 で待機している、残り3分)

大蔵

あら、御託さんの推し配信、今度はフロイトですわね。…ちなみに、私の新人さんへのファインチューニング、今朝の段階で パワポルール 87% 内製化済み ですわ。LoRA で言うと収束間近、あと数日で完全に 当社専用モデル として稼働開始できます。

南雲

うむ、いいねえ。「LoRA 経営」 も響きがいい。フェーズ④の事前学習編もこれで一区切りだな。儲かるんだろ?

社長室で南雲が