記事一覧｜アイマイコンサルティング

2026年6月10日 #054

デコーダーのみ(Decoder-only) — いまの対話AIは、翻訳機の「半分」でできている

元祖 Transformer は「読む係(エンコーダー)+書く係(デコーダー)」の二人組の翻訳機だった。いまの対話AIは、その書く係半分だけを取り出して巨大化させたもの = デコーダーのみ構成。なぜ書く係だけで読めるのか ── 次の言葉を当てる訓練は、読めていないと解けないから。たった1つの訓練が読む力と書く力の両方を作る。
読む　→
2026年6月10日 #053

サブワード(Subword) — 単語より小さい「部品」が、未知語を消す

サブワード = 単語より小さい「部品」。LLM の語彙は単語ではなくこの部品でできている。新語・造語・社内用語は無限に生まれるから、単語まるごとの辞書は未知語で詰む ── 部品の組み立てなら何でも表せる。しかも部品には意味が乗るので、AIは初見の言葉にも当たりをつけられる。
読む　→
2026年6月10日 #052

単数・複数の方向 — 文法の変化も「方向」になる、不規則変化さえも

「複数にする」も埋め込み空間ではひとつの方向。cat→cats も king→kings も同じ向きで結ばれる。面白いのは不規則変化 ── person→people は文字面が全然違うのに矢印は同じ向きに乗る。埋め込みが捉えているのは文字の形ではなく「意味の関係」── その分かりやすい証拠。
読む　→
2026年6月9日 #051

文脈吸収 — 同じ単語の意味が、前後の文脈で変わる仕組み

単語の意味は固定ではない。「あつい」はコーヒーなら熱い・天気なら暑い・本なら厚い ── 前後の文脈を吸ってはじめて意味が決まる。これが文脈吸収。静的な埋め込み(辞書引き)の限界を超える仕組みで、その混ぜ役がアテンション。同じ単語のベクトルが層を通るたびに周りの語を吸って更新される。
読む　→
2026年6月8日 #050

性別ベクトル — 「方向=意味」の代表例と、AIバイアスの正体

「性別を変える」も埋め込み空間ではひとつの方向。王→女王・父→母が同じ向きになる、これが方向=意味の代表例。だが同じ仕組みは学習データの偏見まで方向として吸い込む ── これがAIバイアスの正体。便利さと偏見は同じ仕組みの裏表で、AI活用では偏りの監査・補正が必須。
読む　→
2026年6月8日

閑話休題 #008 — 南雲社長の日曜ゴルフ、40年の接待癖が抜けない

閑話休題 #008。南雲(60-62)、社長。都銀40年で接待ゴルフを数えきれず回った男が、引退後はじめて『自分のためのゴルフ』を始めた。…はずが、接待の所作と与信審査40年の人を格付けする癖が、一人予約のラウンドでも止まらない。AIは1ミリも出てきません。
読む　→
2026年6月7日 #049

方向 = 意味 — 埋め込み空間では「ベクトルの向き」が意味になる

埋め込み空間では、単語は『点』で、点と点をつなぐ向き(方向)が意味を表す。『国→首都』のように同じ意味の変化はどの単語でも同じ向き。だから足し算・引き算で意味が動く。御託の2軸ポジショニングマップを数百次元に拡張したもの、と捉えると腑に落ちる。
読む　→
2026年6月6日 #048

行列・ベクトルの積(Matrix-Vector Product) — ニューラルネット1層の計算の正体

行列・ベクトルの積 = 内積を行の数だけまとめて一気にやる演算。重み行列 × 入力ベクトル = 出力ベクトルで、出力の各マスは『その行と入力の内積』1回ぶん。これがニューラルネット1層の計算そのもので、GPU が一括並列でこなすからAIは速い。
読む　→
2026年6月5日 #047

テンソル(Tensor) — 数を多次元に並べた「箱」、AI のデータは全部これ

スカラー・ベクトル・行列の延長線上にある「数を多次元に並べた箱」がテンソル。AI が扱う文章も画像も音声も、全部このテンソル。次元の数で呼び名が変わるだけ、という話。
読む　→
2026年6月1日 #046

位置エンコーディング(Positional Encoding) — Transformer に「語順」を教える仕組み

位置エンコーディング = 各単語の埋め込みに「これは何番目か」のベクトルを足して、語順をAIに教える仕組み。Transformerのアテンションは全単語を同時・並列に見るので、放っておくと『犬が猫を追う』と『猫が犬を追う』が同じに見える。その語順の欠落を埋める必須部品を直感で。
読む　→
2026年5月29日 #045

残差接続(Residual Connection) — 元の入力を足し戻し、層に「差分」だけを学ばせる配線

残差接続(Residual Connection)= 各層が「出力 = 元の入力 + 層の計算」という形で元の入力を足し戻す配線。層は『何を出力するか』ではなく『元をどう微修正するか(差分)』だけを学べばよくなる。これがないと深い網は学習が壊れる。Transformer が数十〜百層も積めるのは、この地味な足し算のおかげ。
読む　→
閑話休題

2026年5月29日

閑話休題 #007 — 御託のベルリンフィル定期、土曜未明3時の世田谷オーディオルーム

閑話休題 #007。御託(39)、世田谷の防音オーディオルーム。ベルリンフィルの「定期」を土曜未明のライブ配信で「生」聴きする男。アンプを30分暖機し、椅子を1mm単位で詰め、午前3時にブルックナーへ正座で臨む。AIは1ミリも出てきません。
読む　→
2026年5月29日 #044

トークナイザー(Tokenizer) — 文章を LLM の「ひと噛み」に切る装置、日本語が英語より割高な理由

文章を LLM の「ひと噛み」単位に切る装置がトークナイザー。同じ意味の文章でも日本語は英語の約2.5倍のトークンを消費する、その理由と実務での影響(コスト・コンテキスト枠の食い方・多言語LLMの設計)を直感で。
読む　→
2026年5月28日 #043

プロンプト(Prompt) — LLM への「1回限りの指示書」、AI 出力を支配する最大の武器

LLM に毎回ゼロから渡す「1回限りの指示文」がプロンプト。本質は「タスク・制約・期待形式」の3要素、役割設定は任意のトーン調整。これだけで AI 出力が劇的に変わる、その場限りの説明書の本質を直感で。
読む　→
2026年5月28日 #042

コンテキストサイズ(Context Window) — LLM が「一度に抱えられる」トークン数の上限、AI の「短期記憶容量」

LLM が「一度に抱えられる」トークン数の上限。Claude Opus 4.7 200K(拡張1M)、GPT-4 Turbo 128K、Gemini 1.5 Pro 1M。長文を投げ込めるか、会話履歴を覚えていられるかを決める「AI の短期記憶容量」、その実態を直感で。
読む　→
2026年5月28日 #041

温度(Temperature) — softmax 前にロジットを T で割って分布のとがり具合を調整するダイヤル

同じロジットでも出力分布の「集中度」を変えられる唯一のダイヤル。T を下げれば1位独占、T を上げれば均等分布に。「AIの個性」・「クリエイティブ度」・「再現性」を1つのつまみで動かす仕組みを直感で。
読む　→
2026年5月26日 #040

ソフトマックス(Softmax) — ロジットを「合計1の確率分布」に変換する関数、指数で差を増幅する仕組み

ロジットの実数ベクトルを「合計1の確率分布」に変換する関数。指数で差を増幅し、全要素を正にして、合計で割る。AI が「1個」を選ぶ前にやっている「気分の正規化」を直感で。
読む　→
閑話休題

2026年5月26日

閑話休題 #006 — 凡田の韓ドラ視聴日記、妻に巻き込まれて梨泰院クラスを3週間で完走

凡田光輝（38）、新婚3ヶ月。妻に巻き込まれて韓ドラ視聴に突入、最初は嫌々だったはずが、いまや妻が寝た後にこっそり続きを見る側になっている。アイコス3本と引き換えに迎える翌日の月曜朝。AI は1ミリも出てきません。
読む　→
2026年5月25日 #039

ロジット(Logit) — softmax 前の「未正規化の生スコア」、AI の「初見の評価値」

W_u が出力する「未正規化の生スコア」がロジット。softmax を通る前の段階で、各候補単語に対する「好み度」の比較値。負の値もマイナス無限大もありえる、確率ではない素のスコアの正体を直感で。
読む　→
2026年5月23日 #038

アンエンベディング行列 W_u — Transformer 最終層、意味ベクトルを「語彙のスコア」に翻訳する射影装置

Transformer ブロックを全部通った後の最終ベクトル(d_model次元)を、語彙数次元のスコア(ロジット)に変換する射影行列。LLMが「次の単語」を選ぶ直前、内部の意味から外部の語彙への翻訳装置の正体。
読む　→
2026年5月23日 #037

MLP / フィードフォワード層 — アテンションが集めた情報を「知識」に変換する装置

アテンションが文脈情報を集めた後、各トークンが独立に通る2層NN。LLMの「知識」の本体はここに格納される(Transformer の重みの約2/3がこの層)。GPTがなぜ世界の事実を答えられるかの正体。
読む　→
2026年5月21日 #036

マルチヘッドアテンション(Multi-Head Attention) — 同じ文章を複数の「視点」で並列に読む Q/K/V の拡張

アテンションを Q/K/V の「1組」ではなく h 組(典型 h=8 or 16)並列で走らせる拡張。各ヘッドが構文・意味・距離など異なる視点を自然と分担して学習する、Transformer 性能の鍵を直感で掴む。
読む　→
2026年5月20日 #035

Q / K / V(Query / Key / Value) — アテンション3ステップを行列1本に集約する3行列の正体

アテンションの3ステップを行列演算1本に集約する Q(Query)/K(Key)/V(Value) の正体。各単語が「質問・見出し・本文」の3役を同時に持って、文脈情報を取り出す仕組みを直感で掴む。
読む　→
閑話休題

2026年5月20日

閑話休題 #005 — 赤崎のコーヒー器具コレクション、千葉郊外の「Saturday Morning Coffee 儀式」

閑話休題 #005。赤崎健太郎(42)、千葉郊外の一軒家、土曜の朝の
読む　→
2026年5月19日 #034

マルチモーダルアテンション — 画像・音声・動画を Transformer で一気に飲み込む

マルチモーダルアテンションの仕組み。画像・音声・動画を「パッチに分割してトークン化」することで、テキスト用 Transformer がそのまま流用できる構造を解説。
読む　→
2026年5月19日 #033

なぜアテンションが RNN を駆逐したか — 並列処理 + 長距離依存 + GPU相性の3つの決定打

なぜアテンションが RNN を駆逐したか。並列処理 + 長距離依存 + GPU相性の3つの決定打を整理し、AI 技術選定の判断軸を学ぶ。
読む　→
2026年5月19日 #032

Transformer ブロック全体構造 — アテンション + MLP + 残差 + 正規化の「プレハブユニット」を何十回も積む

Transformer ブロックの全体構造。アテンション + MLP + 残差 + 正規化という「プレハブユニット」を何十回も積む工業化設計の本質を読み解く。
読む　→
2026年5月19日 #031

アテンションの3ステップ — 関連スコア / 重み付け / ベクトル更新の具体動作

アテンションの動作を3ステップに分解。関連スコア計算 → 重み付け → ベクトル更新、という流れを行列計算に踏み込まず直感レベルで掴む。
読む　→
2026年5月19日 #030

アテンションブロック(Attention) — 単語が「他の単語を見て自分の意味を更新する」仕組み、Transformer の心臓

アテンションは「単語が他の単語を見て、自分の意味を更新する」仕組み。Transformer の心臓部、GPT/Claude/Gemini 全部の根幹を作ったキー機構をコンセプト中心に整理。
読む　→
2026年5月19日 #029

RNN / LSTM / GRU — 時系列処理を解いた「Transformer 直前の覇者」、いまや教養レベル

土曜の夜、御託の世田谷マンションのオーディオルームで… 御託(シニアコンサル・39) (凡田を初めて自宅オーディオルームに招いて)…凡田くん、見たまえ。Linn LP12 のカートリッジが、いまレコードの溝を1ミクロン単位で 1秒間に5万回読み取っている。これが B&W 802 D4 から音になる。…時間の流れに沿って、波形を1点ずつ拾って、過去の文脈を踏まえて次を出す。これは技術的には時系列処理そのものだ。凡田(チームリーダー・38, 主人公) (オーディオルームに招かれた時点で何かが終わっている気がする…)御託先輩、それまさに RNN(リカレント・ニューラル・ネット) です。1点読む → 状態を更新 → 次を読むのループ、時系列データを扱う AI の基本構造。2014-2017 の機械翻訳の覇者でした。Transformer に置き換えられて、いまや教養レベルですが。御託ふむ、つまりレコード針 = RNN ということだ。私のオーディオは「時系列処理の物理実装」だったわけだな。…ちなみに STAX SR-X9000 で聴く推しの「星詠みの間」配信も、結局は時系列の音声波形を出力する装置なのだから、こちらも RNN 系の系譜上にある。凡田 (御託先輩、その配信視聴環境の話、私を巻き込まないでください…帰りたい。…ただ、レコード針 vs RNN のアナロジーは確かに筋がいい。時系列を1点ずつ処理する構造、というのは1990年代から AI の中心課題だった。) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: […]
読む　→
2026年5月19日 #028

CNN(畳み込みニューラルネット) — 画像認識を解いた「Transformer 以前の覇者」、いまマルチモーダル LLM に吸収されつつある

水曜の昼休み、社員食堂で凡田が広告会社時代を思い出して… 凡田(チームリーダー・38, 主人公) あー、川口くん、いま AI 戦略推進室で「画像認識を業務に取り入れる」案件あるけど、これ 10年前なら大ニュースだったんだよ。私が広告会社時代の2014年頃、技術部門の人がクリエイティブバナー画像を CNN で自動分類するツールを作ってくれて、私はそれを業務で使う側だった。私は触ってるだけなのに、当時は「AIで広告効率化」って役員に持ち上げられて、役員報告会で説明させられたよ。…いまや当たり前すぎて誰も騒がない。川口(アナリスト・22) 凡田さん、2014年ですか?それまさに CNN 黄金期の入口です。AlexNet 2012 で ImageNet コンペが大爆発して、VGG 2014 / GoogLeNet 2014 / ResNet 2015 と次々モデルが出てきた時期。広告業界はその初期波に乗ってた、ということですね。凡田そうそう、当時は「AI = CNN = 画像認識」ってイメージが強くて、テキスト系(自然言語処理)は後発で地味だった。それが Transformer 登場(2017)で逆転、いまは「AI = LLM = テキスト」。10年でメインストリームが入れ替わったわけ。 […]
読む　→
2026年5月19日 #027

ファインチューニング(Fine-tuning) — 事前訓練済みの「汎用脳」を、特定タスク用に上書き調整する第2段階

月曜の朝、新人女性スタッフへの OJT 中… 大蔵(アシスタントマネージャー・35) あなた、入社3週間目ね。パワーポイントは大学で習ったでしょう?でも当社の「パワポ」は別物よ。表紙のロゴ位置、フッターの日付フォーマット、見出しの色番号 #d33b3b、目次の階層、各章の余白 — 全部、当社独自のルール。背中で覚えなさい。1週間で身につけて。凡田(チームリーダー・38, 主人公) (大蔵さん、それまさに「ファインチューニング」です。新人さんの「大学までの汎用能力 = 事前訓練済み」モデルに、当社固有のパワポルール = タスク特化データを上書きしている。…そして、大蔵さん自身も銀座カフェ → コンサル業でファインチューニングされた身ですよね。) 大蔵あら、凡田さん、それ自覚はありますわよ。私の「接客レイヤー20年」はベース、その上に「コンサル資料作成レイヤー13年」が重ねられた。完全にファインチューニング型のキャリアですわ。…ちなみに、いまの新人さんも 3週間後にはアイマイ社専用 OS が脳にインストールされる予定です。凡田 (…大蔵さんの「アイマイ社専用 OS」という表現、技術的にはまさに「カスタムファインチューニングモデル」ですね。新人さんが本来持っていた汎用能力に上書き保存、不可逆。新人さん、すでに引き返せないところまで来ている…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 事前訓練(#022) — ファインチューニングが乗っかる「汎用ベース能力」を作る第1段階訓練(#013) […]
読む　→
2026年5月19日 #026

自己回帰生成(Autoregressive Generation) — LLM が 1文字ずつ吐き続けるループ、ChatGPT のあの体験の正体

金曜の夜、御託がデスクで推しの配信前にハイデガーを開いて… 御託(シニアコンサル・39) フッ、凡田くん、聞いてくれ。ハイデガーが『存在と時間』で論じた「被投性」とは、過去の自分が今の自分を作り、今の自分が未来の自分を作るという連鎖だ。過去の出力が次の入力になる — まさに人生は自己回帰的なのだよ。凡田(チームリーダー・38, 主人公) 御託先輩、それまさに「自己回帰生成(Autoregressive Generation)」です。LLM の「1個予測 → 後ろに連結 → 再投入 → 次を予測」のループそのもの。ChatGPT が 1文字ずつ画面に出てくるのは、内部でこの自己回帰ループが回ってる証拠ですね。御託ふむ、つまり「言葉を吐く知性」も、ハイデガーの言う「時間性に投げ込まれた存在」の電子的再演ということだな。GPT は1ステップごとに過去の自分を引き受け、次の1単語を投げかけ続けている。実存主義 × LLM、こいつは哲学コラム1本書けるテーマだ…(スマホをチラ見、今夜の「星詠みの間」配信、開始まで残り14分) 凡田 (御託先輩、その哲学コラム、社内では誰にも読まれず、推しの「星詠ヨミ」さん配信のコメント欄に書き込まれる未来が見える…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 次トークン予測(#023) — […]
読む　→
閑話休題

2026年5月19日

閑話休題 #004 — 川口の北海道乗り鉄、『おおぞら』号で札幌から釧路まで

AI解説の合間に挟む短編・第4回。川口光輝(22)の月1北海道乗り鉄遠征、特急『おおぞら』で札幌から釧路までの4時間38分。普段は社内便利屋として朝も夜もSlackで呼ばれ続けている彼が、唯一その通知音から逃げ切れる24時間。
読む　→
2026年5月18日 #025

サンプリング(Sampling) — 確率分布から「1個」に絞る操作、AIの「性格」を決めるダイヤル

金曜の夕方、来期の戦略案レビューで… 赤崎(部長・42) うーん、ふわっとした方向感としてはね、案A(海外進出)もいいねえ、案B(M&A)もいいねえ、案C(新規事業)もいいねえ。…じゃあ全部承認でPARTNERにも相談しないとね。凡田(チームリーダー・38, 主人公) (赤崎部長、それは「温度高めのサンプリング」です。LLM で言うと Temperature = 2.0 くらいの状態。確率分布がなだらかすぎてどの案でも均等に出てきてしまう。3案あるならどれか1案に絞らないと、組織が動かない…) 大蔵(アシスタントマネージャー・35) あら、部長、3案全部承認ですか。それでしたら、銀座カフェの常連様にも「コーヒー全種類お試しください」と申し上げているようなものですわね。「温度を下げて1個に絞る」のがマネジメントの本義ですわ。川口(アナリスト・22) あ、それでしたら ChatGPT が毎回違う回答を返すのと同じ仕組みです。LLM は確率分布から1個をランダムに選ぶステップを必ず通っていて、「温度パラメータ」で選び方の幅を調整します。…ちなみに私の JR北海道の駅選びも実は内部温度 1.7 程度の高めサンプリングでして…(無言で時刻表アプリを開く) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 確率分布(#024) — サンプリングが「何から」選ぶかを先に把握次トークン予測(#023) — サンプリングはこのループの最終ステップ → 全記事の繋がりマップを見るこのページのまとめサンプリング(Sampling) = LLM が確率分布から「1個」を選ぶ操作。前ステップで確率分布(#024) を作った後、最後に1単語に絞るところがこれ。選び方には流派がある: […]
読む　→
2026年5月18日 #024

確率分布(Probability Distribution) — LLM が「1個」ではなく「候補の集合」を出す意味、コンサル点推定病の対極

月初の朝会、来期売上予測の議題で… 赤崎(部長・42) 川口くん、来期売上予測、もう「1.2億円」ってきっぱり書いてくれよ。役員会で「95%信頼区間 [0.8〜1.6億円]」とか出すと、社長が「で、結局いくらなんだ?」って聞いてくるから。川口(アナリスト・22) あの…赤崎部長、それ「点推定病」です。学生時代のデータサイエンス研究室で「分布で出さない予測は信用するな」って3年間叩き込まれてきました。1.2億円って一点で出すと、「外れる確率94%」くらい平気であります。凡田(チームリーダー・38, 主人公) (川口くん、その主張、実は LLM がやっていることそのものです。GPT は最初から「次の単語は田中12% / 鈴木8% / 山田6% / …」という確率分布で出力している。一点じゃなく分布で考えるのが、AI 時代の自然なスタイル…) 川口あ、凡田さん、その目線で言うと当社の予測レポート全部、AI 時代基準で書き直しできますよ。ちなみに私の JR北海道乗り鉄遠征の到着時刻も、本当は「15:42到着確率63%」って分布で管理してまして…(無言で『おおぞら12号』の遅延統計 PDF を開く) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 次トークン予測(#023) — 確率分布が「何の」分布なのか(=次トークン候補)を先に把握ベクトル(#004) — 確率分布も結局は数のリスト、ベクトルの一種 → 全記事の繋がりマップを見る […]
読む　→
2026年5月18日 #023

次トークン予測(Next Token Prediction) — LLM が「次に来る単語」を選ぶ仕組み、推論の心臓部

夕方の銀座カフェ、客足が引いた時間に… 大蔵(35, 元銀座カフェ接客レイヤー20年) あら、部長、本日はカフェ・モカでよろしいですわよね。雨の日の夕方、月曜、それから先ほどの会議で過学習の話で疲れていらした…確率92% でモカ、5% でホットチョコ、3% でやけくそコーヒー、ですわ。赤崎(部長・42) うーん、大蔵くん、その銀座カフェ接客レイヤー20年の予測精度、いつ聞いても怖いんだけど…今日はその 92%のモカでお願いするよ。凡田(チームリーダー・38, 主人公) 大蔵さん、それまさに「次トークン予測」の構造です。LLM が GPT を動かしている時、内部でやっているのも同じ形 — 過去の文脈 → 次に来る単語の確率分布を計算して、そこから1つ選ぶ。GPT が「次の単語を1個ずつ吐いている」のは、大蔵さんの「客の次の注文の予測」と「予測パーツ」としては似た仕組みなんです。(もちろん人間の接客には共感や意図読みも乗ってるので、完全一致ではないですが) 大蔵あら、では私の「接客モデル」も、GPT と同じ仕組みで動いていた、ということですわね。…(私は20年で 1日200客 × 365日 × 20年 = 146万件の予測トレーニング済み、と心の中で計算) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 訓練(#013) — 予測モデルがどう学ぶかの全体ループ […]
読む　→
2026年5月18日 #022

事前訓練(Pre-training) — 汎用能力を先に作っておく「下準備」、LLM の「P」

祝日の午前、誰もいないオフィスで… 南雲(社長・60-62) 凡田、祝日に何してるんだ。…まあ俺も書類整理に来ただけだがな。…で、思い出したんだ。俺の都銀員時代の40年はな、過学習だったかもしれんが、いま思えば「何でも対応できる人間」を作る下準備だった気もする。コンサル業に転身した時、最初は何も解けなかったが、3年で大体のことに勘が働くようになった。凡田(チームリーダー・38, 主人公) 社長、それまさに「事前訓練(Pre-training)」です。GPT の「P」がこれです。タスクを限定せず、大量データで汎用能力を作っておく段階。社長の40年は「銀行業界全体の事前訓練」、いまのコンサル業は「ファインチューニング」ですね。南雲ふむ、俺は事前訓練を済ませて、コンサル業にファインチューニングされた、ということか。…まあ、悪い再評価ではないな。凡田 (社長、過学習、キーマン依存組織、今回事前訓練。3週連続で自分のキャリアを AI 用語で再解釈していらっしゃる…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 機械学習モデル(#011) — 事前訓練が動かす対象の枠組み訓練(#013) — 事前訓練はその第1段階(2段階構成の前半) → 全記事の繋がりマップを見るこのページのまとめタスクを決めず、大量のデータで「なんでもこなせる土台」を先に作る学習の第1段階。これが事前訓練。ここを飛ばすと AI は言葉の感覚すら持てない。だから先に汎用力を作り、後で用途別に微調整(ファインチューニング(#027)) する2段階が今の標準。費用は事前訓練が桁違いに重く、現場が触れるのは微調整側。イメージは大学+新卒研修=事前訓練 […]
読む　→
2026年5月18日 #021

線形回帰(Linear Regression) — 機械学習の最小単位、シンプルさ故に実務で消えない装置

会議室の窓辺で外を眺めながら… 御託(シニアコンサル・39) フッ、線形回帰こそ、機械学習の最も美しい姿だ。y = ax + b。この単純な式に、宇宙の単純性が宿っている。ニーチェは『美しいものは単純である』と言ったが、まさにそれだ。凡田(チームリーダー・38, 主人公) えーと、御託さん、線形回帰は単に「a と b の2つの数字を当てるだけ」の作業です。哲学的な深みは特になくて、Excel の =SLOPE() と =INTERCEPT() で2秒で出ます。大蔵(アシスタントマネージャー・35) あら、御託さんは本日も「哲学化」モード絶好調ですわね。…線形回帰、私 Excel で13年やってますけど、宇宙の単純性とは特に出会ったことがありませんわ。御託 ……(目を逸らす。本当は今朝の 3D LIVE で推しが「線形回帰って美しいよね〜」と言ってたのを聞いただけ、とは言えない) このページのまとめ線形回帰 = 散らばった点の集まりに 1本の直線を引いて、入力から出力をざっくり予測する、最も古典的な機械学習モデル。シンプルゆえに速い・解釈できる・データが少なくても使える。だから LLM 時代の今も実務(KPI 予測や機械学習モデル(#011) の入口)から消えない。イメージは定規で点の真ん中を通す線を引く感じ。傾きと切片という2つのツマミだけで、その線が決まる(式 […]
読む　→
2026年5月17日 #020

正則化(Dropout / L1 / L2) — モデルが特定の重みやデータに頼りすぎないよう抑える技

年末年始の有給消化期間、ガラガラの社長室にて… 南雲(社長・60-62) 凡田、暇だから昔話を1つ。俺が都銀の支店長代理だった頃な、3週間インフルで休んだ時があってな。…支店の融資審査が完全に止まった。俺の頭の中にしか審査ノウハウが無かったから、誰も代わりが利かない。これは「良い人材」の証明だと当時は思ってたんだ。凡田(チームリーダー・38, 主人公) 社長、それは「Dropout なしの組織」の典型ですね。1人のキーマンに全部の重みが集中して、新規データ(社長の不在)に全く対応できない状態。過学習の組織版です。南雲 Dropout? 誰かを意図的に休ませる、ということか? 凡田まさに。AI 学習中にランダムにニューロンを「ない」ことにする技術です。特定の重みに依存させないようにする。組織で言うと、毎週ランダムに誰かを強制有給にする感じで… 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 過学習(#019) — 正則化が対策する元の問題線形回帰(#021) — L1/L2 正則化(Lasso/Ridge)の元祖 → 全記事の繋がりマップを見るこのページのまとめひとことで言うと正則化 = モデルが訓練データや特定の重みに頼りすぎないようにするための、追加の制約のかけ方。過学習(#019) 対策の主役。やりすぎな丸暗記を抑え、初見のデータにも効く力(汎化)を取り戻す。イメージは特定の人に依存しないチーム作り。代表は Dropout や […]
読む　→
2026年5月17日 #019

過学習(Overfitting) — 訓練データには満点、本番では赤点という典型失敗

クライアント提案2時間前、最終リハで… 赤崎(部長 / AI戦略推進室室長・42) 凡田、リハ用に戦略パワポ150枚持ってきた。これな、私の「必殺テンプレ」なんだ。過去5年で同じ構成のものを150案件で使い回してる。打率95%。今日も完璧だね。大蔵(アシスタントマネージャー・35) あら、赤崎部長…それは「過学習」でいらっしゃいませんかしら? 過去案件には完璧でも、新規業界の案件には応用が利かない状態。本日のクライアントは AI スタートアップですわよね。赤崎過学習? いいねいいね、その方向で。ふわっとした方向感としては、AI スタートアップ案件は…ジーパンとジャケットで行けば大丈夫だろう。凡田(チームリーダー・38, 主人公) (部長、過学習の意味分かってないな…これ完全に大蔵さんの指摘通り、「訓練データには満点、本番では赤点」の典型例…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 訓練(#013) — 過学習が起きる場所損失関数(#014) — 訓練/検証損失の乖離で過学習を判定 → 全記事の繋がりマップを見るこのページのまとめ過学習とは、ひとことで言えばモデルが練習問題を「丸暗記」してしまった状態。練習では満点、本番(未知のデータ)では赤点を取る。これが厄介なのは練習の成績だけ見ると「優秀」に見えてしまうこと。本番用のデータで別に試して、そこから成績が落ち始めたら丸暗記のサイン(見分け方は本文で)。イメージは過去問だけを丸暗記して臨んだ受験。答えごと覚えた問題は解けても、少しひねられた本番の問題でつまずく。訓練(#013) 記事と損失関数(#014) 記事で「完璧を目指すと逆に弱くなる」と何度か触れた。その正体が過学習(Overfitting)、機械学習で最もよく聞く失敗パターン。結論を先に: […]
読む　→
2026年5月17日 #018

正規化(BatchNorm / LayerNorm) — 深いNNを安定して学習させる「ならし」の技

月初のフリースペースで、コーヒー片手に… 凡田(チームリーダー・38, 主人公) あー、また気づいてしまった。「正規化」って広告時代に毎月やってたんだよな。月によって配信ボリュームが違うので、CTR とか CV 数を「月の平均で割って標準化」して、月次比較できるようにしてた。あれもう完全に正規化だわ。大蔵(アシスタントマネージャー・35) あら凡田さん、本日も「気づきの広告時代」シリーズですの? もう第3話ぐらいになりますわよね。次は「広告時代の昼休み」あたりが出てきそうですわ。御託(シニアコンサル・39) フッ、凡田、それは BatchNorm 系の発想だな。深層学習では LayerNorm もある。Transformer は基本 LayerNorm だ。凡田 (御託さん、今日も「妙に詳しい」モード…昨夜の 3D LIVE.mp4 で推しが解説してたんだろうな) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 訓練(#013) — 正規化が安定化する場所非線形関数(#012) — 正規化と並ぶ深層学習3大柱の1つ → 全記事の繋がりマップを見るこのページのまとめ正規化(Normalization) = 各層の出力の桁やばらつき(分布)を揃えること。代表的な手法に BatchNorm […]
読む　→
2026年5月17日 #017

最適化手法(Optimizer) — なぜ素朴な勾配降下では LLM が学習できないか、改良の3軸

役員室前の廊下にて、提案前の調整時間で… 凡田(チームリーダー・38, 主人公) 御託さん、ふと思ったんですけど、AI の学習って勾配降下(#015) でいいんですよね? なんでわざわざ「最適化手法」って別に呼ぶんでしたっけ。御託(シニアコンサル・39) フッ、それじゃ LLM は学習できんよ。素朴な勾配降下には、致命的な欠点が3つある。だから改良が必要だ。凡田 (あ、御託さんの「本質はそこではない」モードじゃない…珍しく具体性のある語り出し…) 大蔵(アシスタントマネージャー・35) あら御託さん、今日は何やら「妙に詳しい」モードでいらっしゃいますわね。何かこう、最近「動画」でも見ましたかしら? 御託 ……(目を逸らす) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 勾配降下(#015) — Optimizer の素朴版、起点訓練(#013) — Optimizer が動く全体ループ → 全記事の繋がりマップを見るこのページのまとめ最適化手法(Optimizer) = ひとことで言えば「坂の下り方を賢くする工夫」。坂を下って正解に近づく勾配降下(#015) の進化版。素朴な勾配降下のままでは LLM はうまく学習できない。勢いをつけたり、場所ごとに歩幅を変えたりして、その弱点を補うのが Optimizer の役割(代表格が Adam)。イメージは下り坂のスキーヤー。ただ転がるのではなく、慣性で勢いに乗り、急斜面では歩幅を抑える。だから速く確実にふもとへ着ける。 […]
読む　→
閑話休題

2026年5月17日

閑話休題 #003 — 大蔵の月1京都遠征、鞍馬寺の御朱印

AI解説の合間の短編。大蔵(35)が月1で京都・奈良に通う御朱印帳遠征の1日。美容Instagramフォロワー2,800人の裏に隠した精神性、鞍馬寺の九十九折参道でハイヒールを脱ぎ白足袋に履き替え、御朱印帳5冊目の最後の見開きに「鞍馬山」の墨字を頂く物語。
読む　→
閑話休題

2026年5月17日

閑話休題 #002 — 南雲社長と Apple Watch の45分

AI解説の合間の短編。南雲社長(62)が土曜の朝、世田谷の和室で Apple Watch のセットアップに挑む45分間。孫の一言で買ったが、ペアリングと2要素認証で詰まり、妻に聞いたら「面倒くさい」と一蹴され、桐の引き出しの奥にそっとしまう物語。
読む　→
2026年5月17日 #016

逆伝播(Backpropagation) — 結果のズレを上流のダイヤルに「犯人探し」で配分する技

四半期レビューの提出24時間前で… 大蔵(アシスタントマネージャー・35) あら、本日のお題は逆伝播ですって? 私、13年Excelで毎日やってますわよ。「数式エラーの参照元トレース」、Ctrl + [ で上流のセルに飛んで、犯人をどんどん遡るアレですわ。凡田(チームリーダー・38, 主人公) 大蔵さん…まさかと思って聞きますけど、それ本気で逆伝播と同じです。出力(エラー)から各セル(=重み)に「誰のせいか」を遡って配分する作業、概念的にはまったく同じ構造。大蔵ということは、私は 1980年代の Rumelhart 先生と同じ作業を、毎月のセル参照エラー潰しで繰り返してきたわけですわね。…これは名誉教授級ではなくて? 御託(シニアコンサル・39) ……(沈黙、また Excel に持っていかれた) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 勾配降下(#015) — 逆伝播で得た勾配を実際に使うアルゴリズム訓練(#013) — 逆伝播が走る場所 → 全記事の繋がりマップを見るこのページのまとめ逆伝播とは、AIが出した答えのズレを、出力側から入力側へ逆向きにたどって、つまみ一つひとつ(=重み(#009))に「お前はどれだけ悪い」と責任を割り振っていく計算。これがあるから AI は学習できる。無いと膨大なつまみをどう直せばいいか分からず、GPT も生まれなかった(連鎖律の計算は本文で)。イメージは […]
読む　→
2026年5月17日 #015

勾配降下(Gradient Descent) — 一番急な下り方向を計算してそっちに歩く、霧の中の正攻法下山

ランチ後の眠気と戦いながら… 凡田(チームリーダー・38, 主人公) 川口、損失(#014) を下げる方向を計算するあのアルゴリズム、なんて言うんだっけ。資料に1行入れたくて。川口(アナリスト・22) 勾配降下です。あ、これ完全に鉄道計画と同じなんですよ。JR 北海道の「おおぞら」で、根室本線の滝川〜新得間の狩勝峠を越えるルート、これ勾配最適化の歴史がそのままで、明治時代の 33.3‰ から大正の新狩勝トンネル開通で 20‰ まで下げて、いまの石勝線ルートだと… 凡田 (止まる気配がない…) 大蔵(アシスタントマネージャー・35) あら凡田さん、川口くんの「勾配」が機械学習の勾配から鉄道の勾配に確率的に降下してしまわれたみたいですわね。…まあ、本人は同じ単語として処理されてますの。 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 損失関数(#014) — 勾配降下が下る対象訓練(#013) — 勾配降下を含む全体ループ → 全記事の繋がりマップを見るこのページのまとめ勾配降下 […]
読む　→
2026年5月17日 #014

損失関数(Loss) — モデルの「ズレ」を1個の数字に、これを下げる方向にダイヤルを回す

期末前夜、月次レビューの直前… 凡田(チームリーダー・38, 主人公) あ…俺、いま気づいたんですけど、広告会社時代に毎日見てた CTR と ROAS と CPA、あれ損失関数だったわ。日次で Excel 開いて、上がった下がったで一喜一憂してたあの数字、AI の学習と全く同じ構造じゃないか。大蔵(アシスタントマネージャー・35) あら、凡田さん、急に呟きから入りましたわね。…で、ご自分のキャリアが 10年前から AI を最適化していたということを発見されたんですの? 御託(シニアコンサル・39) フッ、凡田、それは正しい気づきだ。お前は無自覚に MSE を最適化していた。気づくのが遅すぎるが、まあ凡人のスピードとしては及第点だな。凡田 (なんか褒められた? でも刺された気もする…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 訓練(#013) — 損失関数が「ズレ計算」として機能する場所機械学習モデル(#011) — 損失を持つ装置の枠組み → 全記事の繋がりマップを見るこのページのまとめ損失関数 = モデルの出力と正解の「ズレ」を 1個の数字にまとめる装置。この数字を下げる方向にダイヤルを回すのが学習。だから損失は学習の羅針盤(どっちに進めばいいかを示す)。イメージはテストの失点合計。間違えるほど点が増え、それを最小にしていく(計算式は本文で)。 AI が「学ぶ」=訓練(#013) […]
読む　→
2026年5月17日 #013

訓練(Training) — AIが「学ぶ」の正体、入力 → ズレ計算 → 補正を延々繰り返す装置

銀座のバーで、社長の昔話を聞きながら… 南雲(社長・60-62) 凡田、俺が都銀の融資審査をやってた頃はな、新人は3年で叩き上げた。先輩が10件の案件を見せて、自分にやらせて、間違ったら朝まで詰める。これでようやくベテランだ。…で、今のAIってのは、これとどう違うんだ? 凡田(チームリーダー・38, 主人公) えーと、社長…それ完全に AI の「訓練」と同じ構造です。先輩=正解データ、新人のトライ=順伝播、間違い=損失、詰める=逆伝播、3年=エポック数3,000ぐらい。南雲ふむ。…じゃあ俺は、40年前から AI を作っていたということになるな。凡田 (うわ、来た。「俺の40年」武勇伝本を出そうとしてる…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 機械学習モデル(#011) — 訓練が動かす対象の枠組み重み(#009) — 訓練で動かされるダイヤルそのもの → 全記事の繋がりマップを見るこのページのまとめ訓練 = AI が「学ぶ」プロセスそのもの。パラメーター(#010)を最初ランダムに置いて、データで少しずつ調整していく作業。正体はシンプルで、「やらせてみる → 正解とのズレを測る → ズレを縮める方向に少し補正する」をひたすら繰り返すだけ。これが「学ぶ」の中身。イメージは OJT(現場で覚える仕事)。やらせて、間違いを直して、また反復——AI も同じ要領で経験を積む(詳しい工程は本文で)。「AI を訓練する」「モデルを学習させる」。ニュースで毎日聞くこの言葉、具体的に内部で何が起きているかを3分で説明できる人は意外に少ない。本記事は、訓練 = AI が「学ぶ」 […]
読む　→
2026年5月17日 #012

非線形関数(活性化関数) — これがないと NN は何層積んでも「ただの線形」にしかならない

月曜の朝会の直前で… 凡田(チームリーダー・38, 主人公) 部長、来週のクライアント提案、案A と案B と案C があるんですが、どれで行きますか? 赤崎(部長 / AI戦略推進室室長・42) いいねいいね、その方向で。凡田 …3つあるんですけど、どれですか? 赤崎いいねいいね、ふわっとした方向感で。大蔵(アシスタントマネージャー・35) あら、部長、それは活性化関数が入ってない、と申しますやつですわ。何を入れても同じ反応では NN は深くしても意味がないのですって。赤崎 ……いいねいいね。 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: ニューラルネットワーク(#008) — 活性化関数が「曲がり」を入れる対象パーセプトロン(#007) — 1層版で活性化関数(ステップ関数)が既に登場 → 全記事の繋がりマップを見るこのページのまとめ活性化関数 = 各ニューロンの出力を「ひと曲げ」する関数。足し算だけの直線を、ぐにゃっと曲げてやる。これがないと、何層積んでも結局1層と同じ。直線をいくら重ねても直線のまま。「深さ」の意味が消える。イメージは「何でもいいねと返すマネージャー」と「ここは違う、と曲げて判断する人」の差。曲げる軸があって初めて賢くなれる。ニューラルネットワーク(#008) の中身を見ると、各ニューロンは「入力に重みをかけて足し算する」作業をしている。これだけだと「線形変換」という数学的に決まった種類の操作にしかならない。そして恐ろしいことに、線形変換は何回繰り返しても線形変換。100層積んでも、結局1層と同じ表現力しか出ない。これでは […]
読む　→
2026年5月17日 #011

機械学習モデル — 「ルールを書かずに、データから振る舞いを決める」すべての AI の共通骨格

給湯室の前で、ペットボトルを取りながら… 凡田(チームリーダー・38, 主人公) 御託さん、そもそも論で恐縮なんですが…「機械学習」って結局なんなんでしょうね? 私、3年これで飯食ってますけど、ふわっとしか分かってなくて。御託(シニアコンサル・39) フッ、凡田、そんなことも知らんのか。機械学習とはな、要するにダイヤルとノブだ。大蔵(アシスタントマネージャー・35) あら、ダイヤルとノブですって? それなら Excel のスピンボタンでしょう? 私、13年使ってますけど。御託 ……(沈黙) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 線形回帰(#021) — 機械学習モデルの最小例、これを上位概念として再構成 → 全記事の繋がりマップを見るこのページのまとめ機械学習モデル = 人間がルールを書くのではなく、データから振る舞いを覚えさせる仕組みの総称。だから新しい例にも対応できる。「もし〜ならこうする」を一つずつ書く従来のプログラムでは追いつかない仕事を任せられる。イメージはたくさんのダイヤルを持つ装置。正解に近づくよう回し方を調整していく(回す仕組みは本文で)。「機械学習」という言葉は、いまや業界誌・経営層・顧客提案で毎日100回見る単語になった。だが、「で、機械学習って何なんですか?」と素朴に聞かれて、3分で答えられる人は意外に少ない。本記事はその素朴な疑問に正面から答える。機械学習モデルとは、調整可能なダイヤルとノブをたくさん持った装置を、データで正解に近づくように回す仕組み。これだけ。線形回帰も、ニューラルネットワークも、GPT も、原理は完全に同じ枠の中にいる。違いはダイヤルの数と並べ方だけ — そこを掴むと、「ディープラーニング」「LLM」「Transformer」がすべて機械学習モデルのバリエーションだと見えてくる。機械学習以前 — 「コードで if-then を書く」時代機械学習を理解するには、まず機械学習以前のやり方 […]
読む　→
2026年5月16日 #010

パラメーター数 — LLMのサイズを示す「通貨」、その正体は重みの集合

とある日の午後… 凡田(チームリーダー・38, 主人公) あの、業界で「うちのモデルは何B?」って聞かれるたびに分かったふりで頷くんですけど、本当は何を数えてるのか知らないんですよ。御託(シニアコンサル・39) フッ、凡田、それは恥ずべきことだ。私は週末にパラメーターを手で数えているぞ。大蔵(アシスタントマネージャー・35) 御託さん、GPT-3 の 1,750億を、ご自宅で手で?…完了予定は西暦六万二千年ですわね。御託 ……(沈黙) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 重み(#009) — パラメーターのほぼ全部ニューラルネットワーク(#008) — 1,750億パラメーターが住む装置 → 全記事の繋がりマップを見るこのページのまとめパラメーター数 = AI が学習で調整する「ダイヤルとノブの数」。実体はほぼ重み(#009) + バイアスです。 LLM のサイズを示す通貨。「7B / 70B / 175B」のように呼び、◯B = ◯億個(正確には Billion=10億)。ただし大きい=賢い、とは限りません(理由は本文で)。イメージは、機械の中にびっしり並んだ無数のツマミ。学習とは、それを正解に近づくよう一斉に回し続ける作業です。 LLM の話で必ず出てくる単位がある。「175B」「7B」「70B」「1.7T」。これがパラメーター数。「そのモデルが学習で持っている、調整可能な数値の総数」を表す。LLM 業界ではモデルのサイズを示す通貨として使われる。 […]
読む　→
2026年5月16日 #009

重み(Weights) — AIの「知性」は、何百億個の小さな数字の中に詰まっている

提案準備中の深夜にて… 凡田(チームリーダー・38, 主人公) 「AIの知性」って結局1,750億個の小さな小数点の数字に詰まってるって、ロマンないですよね。赤崎(部長 / AI戦略推進室室長・42) 凡田くん、いいや。それを言うなら、ぼくのワインのテイスティングノートだって、結局 [香り 4.2, 渋み 3.8, 余韻 4.5] みたいな数字に集約されてる。凡田部長、それもロマンないですね。赤崎 ……。 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: パーセプトロン(#007) — 重みが実際に「入力に掛かる」場所ニューラルネットワーク(#008) — 重みが何層にも積まれた装置の全体像 → 全記事の繋がりマップを見るこのページのまとめ重みとは、ニューラルネットの各接続にある「この入力をどれだけ重要視するか」を表す小さな数字。AI の知性の実体は、この数字が何百億個も集まったもの。だから「AI を学習させる = 重みを正解側に少しずつ調整する作業」。それ以外に賢さを作る方法はなく、ここが知能の正体そのもの。イメージは無数の音量つまみ。どの入力を大きく/小さく鳴らすかを一つひとつ調整して、全体の「音」を仕上げていく(調整の仕組みは本文で)。「ニューラルネット(NN)って何?」と聞かれたら、「パーセプトロンを何層も積んだ装置」と答える(別記事ニューラルネットワーク(#008) 参照)。では、その装置を賢くしているものは何か。正解は「重み」。NN […]
読む　→
2026年5月16日 #008

ニューラルネットワーク — パーセプトロンを積み重ねた「深い」装置

月初の朝会の前で… 凡田(チームリーダー・38, 主人公) 「ニューラルネット」って、ぼくのデスクの引き出しと同じくらい複雑なんですよ。整理した方が早いんですけど。大蔵(アシスタントマネージャー・35) 凡田さんのデスク、先週まで3層、現在5層、レシート3年分が層構造の最下層とのことですわ。凡田大蔵さん、なぜそんな詳細まで… 大蔵私が昨日経費精算の催促で目視確認いたしましたから。 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 線形回帰(#021) — NN は線形回帰を活性化関数付きで何層も重ねたものパーセプトロン(#007) — NN の最小単位、ニューロン1個の構造 → 全記事の繋がりマップを見るこのページのまとめニューラルネットワークとは、ひとことで言えば判断する部品(ニューロン)を何個も、何層にも繋げた装置。1個だけのパーセプトロン(#007)を大量に積み重ねたもの。なぜ重ねるか。1個だけでは単純な切り分けしかできないが、層を重ねるほど複雑な判断ができるようになる。GPT のような大規模 AI も、結局はこれを巨大にしただけ(層の数やしくみは本文で)。イメージは組織の判断リレー。アナリストが下調べし、マネージャーがまとめ、パートナーが結論を出す——情報が層を通るたびに磨かれていく流れと同じ構造。「AI 解説で必ず出てくるニューラルネットワークって何?」と聞かれて、一言で答えられるか。正解は「パーセプトロン1個を、何個も、何層にも繋げただけ」だ。パーセプトロンは「入力に重みを掛けて合計し、しきい値を超えたら発火する」という、ニューロン1個の最小モデル(1958年 Frank Rosenblatt 発)。詳細はパーセプトロン(#007)の記事へ。それを大量に積んだのがニューラルネットワーク。本記事は NN の構造を、(1) 層という概念、(2) なぜ「深く」するのか、(3) コンサル業務との接続の3点で押さえる。ニューラルネットワーク = […]
読む　→
2026年5月16日 #007

パーセプトロン — 1個のニューロンを機械で作ったらどうなったか

期末前夜の深夜2時、最終資料校正中… 大蔵(アシスタントマネージャー・35) あら、パーセプトロンが XOR を解けなかったって、私の Excel 200層は XOR をネイティブで解いてますわよ。凡田(チームリーダー・38, 主人公) 大蔵さん、その200層、Minsky と Papert が今ここにいたら学術論文に出されてたかもしれないですね。大蔵あら、ありがたいわ。ノーベル賞の心配も、そろそろ… 凡田 …いや、Minsky と Papert は別人ですし、ノーベル賞に数学部門ないですし、いろいろ。 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 線形回帰(#021) — パーセプトロン = 線形回帰 + ステップ関数。先にこの式の感覚を掴むとスッキリ → 全記事の繋がりマップを見るこのページのまとめパーセプトロン = 脳のニューロン1個を数式に落とした「最小のAI」(1958年, Frank Rosenblatt)。これがニューラルネットワークの最小単位であり、現代のディープラーニングの出発点。世界で初めて機械が「学習」した装置でもある。イメージは「入力それぞれの重要度を加味して合計し、ある一線を超えたら発火する」装置(計算の中身は本文で)。「ニューラルネットワークって何?」「アテンションって?」「Transformer って?」と聞かれる前に、もっと根っこの話がある。ニューロン1個を機械で作ったらどうなるか。それがパーセプトロン。これを知らないと、その後の AI 史も、現代のディープラーニングも、足元が抜けたまま登る山になる。本記事は、パーセプトロンを […]
読む　→
閑話休題

2026年5月16日

閑話休題 #001 — エレベーターで御託と二人きりになった45秒

AI解説の合間に挟む、登場人物のプライベートに踏み込む短編。第1回は主人公・凡田光輝(38)が、ある月曜日の朝、会社のエレベーターで御託さんと二人きりになってしまった、45秒間の物語。
読む　→
2026年5月16日 #006

高次元空間 — 直感が効かないが、AIが住んでいる場所

月曜朝、コーヒー片手に… 川口(アナリスト・22) あの、高次元空間って、ぼくが乗り鉄ルートを組むときに使ってる 30軸の最適化問題とほぼ同じなんですよ。凡田(チームリーダー・38, 主人公) 川口、それいま必要な情報だった? 大蔵(アシスタントマネージャー・35) 凡田さん、川口さんの乗り鉄話を止めたら、当社の唯一の福利厚生が消えますわよ。凡田 ……(なるほど、続けてもらおう)。このページのまとめ高次元空間とは、ものを位置づける座標軸が4本以上ある場所。人間の直感は3本（縦・横・高さ）までしか効かない。軸が増えるほど「意味を仕分ける物差し」を山ほど持てる。だからAIは言葉の細かなニュアンスまで区別できる(#066)。人間が見られないだけで、AIはそこに住んでいる。イメージは、評価項目が3つの採点表ではなく何千項目もある巨大な採点表。AIはその全項目で同時に対象を測っている(細かな性質は本文で)。「埋め込みは12,288次元のベクトル」「ベクトルは高次元空間の点」と聞いて、「12,288次元?どんな空間?」と詰まった人向け。結論から言うと: イメージしようとしないでいい。人間の脳は3次元までしか直感が効かないように出来ている。高次元は、定義としては存在するが、絵に描けないし、頭の中で回せない。AI 教科書を読むとき、ここで挫折する人が一番多いポイントだ。本記事は高次元空間を、(1) どう諦めるか、(2) なぜAIに不可欠か、(3) コンサル業務との接続の3点で押さえる。高次元空間 = ただ「軸がたくさんある空間」定義は身も蓋もなくシンプル。 1次元 = 数直線 (軸1本、x で位置を指定) 2次元 = 平面 (軸2本、(x, y) で点を指定) 3次元 = 立体 (軸3本、(x, y, z) で点を指定) […]
読む　→
2026年5月16日 #005

内積(Dot Product) — 「どれだけ波長が合うか」を1つの数値にする道具

役員室前の廊下にて… 南雲(社長・60-62) ふむ、内積か。私は40年間、融資審査で「客の真意ベクトル」と「銀行の与信ベクトル」の内積を毎日計算していたな。凡田(チームリーダー・38, 主人公) 社長、それを紙とそろばんで? 南雲そろばん、紙、そして勘だ。1件あたり3分で判定していた。凡田 ……(光速GPUと同じ速度では、と思ったが言わない) このページのまとめ内積(Dot Product) とは、2つのベクトルから 1つの数値を作る演算で、その数値は「2つがどれだけ同じ方向を向いているか(波長が合うか)」を表す。(計算式は本文で) これが重要なのは、LLM のアテンション機構が内積でトークン同士の関連度を測っているから。Transformer の心臓部の演算であり、ここを押さえると次の仕組みが一気に見通せる。イメージは「波長一致度スコア」: 顧客と提案、候補者と職務、戦略と実行が噛み合っているかを、数値1つでパッと測るようなもの。「ベクトル同士の似ている度合いを測る」と言われると、なんとなく難しそうに聞こえるが、実態はただの掛け算と足し算だ。その演算を内積(Dot Product) と呼ぶ。中学高校で出てきたかもしれないが、機械学習で出てくると意味合いがガラッと変わって見える。本記事は内積の正体を、計算・直感・使われ方の3点で押さえる。LLM のアテンション機構を理解する直前の「最後のピース」でもある。計算は驚くほどシンプル定義から入る。内積 = 同じ位置の要素同士を掛けて、全部足したもの例: v1 = [1, 2, 3] v2 = [4, 5, […]
読む　→
2026年5月16日 #004

ベクトル(Vector) — 「複数の数字でひとつのモノを表現する」道具

残業中の22時、フロアに4人だけ… 凡田(チームリーダー・38, 主人公) 過去にマッチングアプリで嫁とマッチしたとき、相性 99% って出たんですよ。大蔵(アシスタントマネージャー・35) あら、それベクトルの内積で計算されたスコアですわよね。凡田そう。5項目のプロフィールベクトルが、それぞれ8割以上一致していて。大蔵 ……(残業中にそれを語る理由は、いずれ深掘りいたしますわ) このページのまとめベクトルとは、ひとことで言うと順序が決まった数の並び。たとえば [1.2, -0.4, 0.8] のような形。 AI が大事なのは、これが 1つのモノを複数の数で表す道具だから。文章も画像も、まずこの形にして初めて計算できる。イメージは「顧客を業界・売上・地域…で並べた1行のスコアシート」。あの横並びの数字こそがベクトル。「LLM はトークンをベクトルに変換してから処理する」と聞いて、「ベクトル…?」と引っかかった人向け。ベクトルは、高校数学に出てきた「矢印」のイメージとは少し違う。機械学習の文脈では、ただの「順序が決まった数のリスト」に過ぎない。だが、この道具が現代の AI 全体の土台になっている。本記事はベクトルの正体を、仕組み・直感・コンサル業務との接続の3点で押さえる。ベクトル = 順序付きの数のリスト定義は身も蓋もなくシンプル。ベクトル = 順序が決まった数のリスト例: v1 = [3.2, -1.4] ← 2次元 v2 = [0.1, […]
読む　→
2026年5月16日 #003

トークン(Token) — LLMにとっての「ひと噛み」の単位

朝の通勤、駅のホームで… 赤崎(部長 / AI戦略推進室室長・42) 凡田くん、Claude 200K の「K」って千円の K だよね? 凡田(チームリーダー・38, 主人公) ……部長、K はキロ=千、で合ってます。ただし単位は円ではなく、トークンです。赤崎トークン?日本円換算で? 凡田それを次の章でお話しします。このページのまとめトークンとは、LLM がテキストを読み込むときの最小の単位。単語より少し細かい「文字の塊」です。文脈窓のサイズ・課金・速度は、文字数ではなくすべてトークン数で測られるので、コストや上限を考えるときの基準になります。イメージはレゴのブロック。文章は一枚板ではなく、決まった大きさのブロックに分解されてから組み立てられます。「ChatGPT で1万トークン使いました」と聞いて、「単語1万個分くらいか」とイメージしていたら少し違う。 LLM の世界はトークンという独自の単位で動いている。文字数でも単語数でもない。この単位が分かっていないと、「コンテキスト窓 200K トークン」「100万トークンあたり3ドル」みたいな数字が、何を意味しているのか掴めないままで終わる。本記事はトークンの正体を、仕組み・課金・現場で起きる奇妙な現象の3点に絞って整理する。トークン = テキストの「ひと噛み」 LLM はテキストをそのまま見ていない。最初の処理はトークン化(tokenization): 入力テキストをトークンという小さな塊に切り分けることだ。たとえば英語の「The quick brown fox jumps」は、こんな感じで切れる。 […]
読む　→
2026年5月16日 #002

埋め込み(Embedding) — 単語を「空間の住所」にする

給湯室にて… 凡田(チームリーダー・38, 主人公) 「king − man + woman = queen」って数式、AIが本当に解いてるんですか? 御託(シニアコンサル・39) フッ、その式は私が独自に発見し、AAAIで発表予定だ。大蔵(アシスタントマネージャー・35) 御託さん、それ 30年前に Mikolov 氏が論文で出されていますわよ。御託 ……。このページのまとめ埋め込み(Embedding) とは、トークン(単語の塊)に意味の「住所」を与える仕組み。一語一語を空間の中の1点として置き直す。これで意味の近さが「距離の近さ」になる。似た言葉ほど近くに集まるので、機械が言葉の意味を扱えるようになる(変換のしくみは本文で)。イメージは意味の地図上の住所。同じ町内に仲間が住み、地図上の方向が「性別」「複数形」などの意味のちがいを表す。「ChatGPT は単語をどう扱っているのか?」と聞かれて、「いや、文字列でしょ?」と答えてしまうと、その先の Attention も MLP もすべて意味不明になる。LLM は文字列を直接扱わない。最初にやるのは、トークンをベクトル(数のリスト)に変換することだ。これが埋め込み(Embedding) と呼ばれる仕組みで、Transformer の入口にあたる。本記事は、なぜ単語をベクトルにするのか、ベクトルになるとなぜ「意味の演算」ができてしまうのか、そこに焦点を絞る。なぜ文字列をそのまま使えないのか機械学習モデルが扱える入力は、突き詰めれば数の配列だけ。掛け算と足し算ができないと学習できない。「king」という文字列を入れて「queen」という文字列を出すモデル、というイメージは数学的には成立しない。何らかの形で数値表現に落とす必要がある。最も素朴な方法は、辞書順で 1番目の単語に 1、2番目に 2、…と番号を振ることだ(整数 ID)。だが、これだと「1と2が近い意味」「3はその2倍」という意味のない関係が紛れ込む。「apple = […]
読む　→
2026年5月15日 #001

AIの歴史 — なぜ今度は本物なのか

AIは過去70年で3度のブームを経験している。最初の2回は失望で終わった。なぜ3度目だけが違う構造を持っているのか、過去の失敗構造から辿る。
読む　→

記事一覧

デコーダーのみ(Decoder-only) — いまの対話AIは、翻訳機の「半分」でできている

サブワード(Subword) — 単語より小さい「部品」が、未知語を消す

単数・複数の方向 — 文法の変化も「方向」になる、不規則変化さえも

文脈吸収 — 同じ単語の意味が、前後の文脈で変わる仕組み

性別ベクトル — 「方向=意味」の代表例と、AIバイアスの正体

閑話休題 #008 — 南雲社長の日曜ゴルフ、40年の接待癖が抜けない

方向 = 意味 — 埋め込み空間では「ベクトルの向き」が意味になる

行列・ベクトルの積(Matrix-Vector Product) — ニューラルネット1層の計算の正体

テンソル(Tensor) — 数を多次元に並べた「箱」、AI のデータは全部これ

位置エンコーディング(Positional Encoding) — Transformer に 「語順」 を教える仕組み

残差接続(Residual Connection) — 元の入力を足し戻し、層に 「差分」 だけを学ばせる配線

閑話休題 #007 — 御託のベルリンフィル定期、土曜未明3時の世田谷オーディオルーム

トークナイザー(Tokenizer) — 文章を LLM の 「ひと噛み」 に切る装置、日本語が英語より割高な理由

プロンプト(Prompt) — LLM への 「1回限りの指示書」、AI 出力を支配する最大の武器

コンテキストサイズ(Context Window) — LLM が 「一度に抱えられる」 トークン数の上限、AI の 「短期記憶容量」

温度(Temperature) — softmax 前にロジットを T で割って分布のとがり具合を調整するダイヤル

ソフトマックス(Softmax) — ロジットを 「合計1の確率分布」 に変換する関数、指数で差を増幅する仕組み

閑話休題 #006 — 凡田の韓ドラ視聴日記、妻に巻き込まれて 梨泰院クラス を3週間で完走

ロジット(Logit) — softmax 前の 「未正規化の生スコア」、AI の 「初見の評価値」

アンエンベディング行列 W_u — Transformer 最終層、意味ベクトルを 「語彙のスコア」 に翻訳する射影装置

MLP / フィードフォワード層 — アテンションが集めた情報を 「知識」 に変換する装置

マルチヘッドアテンション(Multi-Head Attention) — 同じ文章を 複数の 「視点」 で並列に読む Q/K/V の拡張

Q / K / V(Query / Key / Value) — アテンション3ステップを行列1本に集約する3行列の正体

閑話休題 #005 — 赤崎のコーヒー器具コレクション、千葉郊外の 「Saturday Morning Coffee 儀式」

マルチモーダルアテンション — 画像・音声・動画を Transformer で一気に飲み込む

なぜアテンションが RNN を駆逐したか — 並列処理 + 長距離依存 + GPU相性 の3つの決定打

Transformer ブロック全体構造 — アテンション + MLP + 残差 + 正規化 の 「プレハブユニット」 を何十回も積む

アテンションの3ステップ — 関連スコア / 重み付け / ベクトル更新の具体動作

アテンションブロック(Attention) — 単語が 「他の単語を見て自分の意味を更新する」 仕組み、Transformer の心臓

RNN / LSTM / GRU — 時系列処理を解いた 「Transformer 直前の覇者」、いまや教養レベル

CNN(畳み込みニューラルネット) — 画像認識を解いた 「Transformer 以前の覇者」、いまマルチモーダル LLM に吸収されつつある

ファインチューニング(Fine-tuning) — 事前訓練済みの 「汎用脳」 を、特定タスク用に上書き調整する第2段階

自己回帰生成(Autoregressive Generation) — LLM が 1文字ずつ吐き続けるループ、ChatGPT のあの体験の正体

閑話休題 #004 — 川口の北海道乗り鉄、『おおぞら』号で札幌から釧路まで

サンプリング(Sampling) — 確率分布から 「1個」 に絞る操作、AIの 「性格」 を決めるダイヤル

確率分布(Probability Distribution) — LLM が 「1個」 ではなく 「候補の集合」 を出す意味、コンサル点推定病の対極

次トークン予測(Next Token Prediction) — LLM が 「次に来る単語」 を選ぶ仕組み、推論の心臓部

事前訓練(Pre-training) — 汎用能力を先に作っておく「下準備」、LLM の 「P」

線形回帰(Linear Regression) — 機械学習の最小単位、シンプルさ故に実務で消えない装置

正則化(Dropout / L1 / L2) — モデルが特定の重みやデータに頼りすぎないよう抑える技

過学習(Overfitting) — 訓練データには満点、本番では赤点という典型失敗

正規化(BatchNorm / LayerNorm) — 深いNNを安定して学習させる「ならし」の技

最適化手法(Optimizer) — なぜ素朴な勾配降下では LLM が学習できないか、改良の3軸

閑話休題 #003 — 大蔵の月1京都遠征、鞍馬寺の御朱印

閑話休題 #002 — 南雲社長と Apple Watch の45分

逆伝播(Backpropagation) — 結果のズレを上流のダイヤルに「犯人探し」で配分する技

勾配降下(Gradient Descent) — 一番急な下り方向を計算してそっちに歩く、霧の中の正攻法下山

損失関数(Loss) — モデルの 「ズレ」 を1個の数字に、これを下げる方向にダイヤルを回す

訓練(Training) — AIが「学ぶ」の正体、入力 → ズレ計算 → 補正 を延々繰り返す装置

非線形関数(活性化関数) — これがないと NN は何層積んでも 「ただの線形」 にしかならない

機械学習モデル — 「ルールを書かずに、データから振る舞いを決める」 すべての AI の共通骨格

パラメーター数 — LLMのサイズを示す 「通貨」、その正体は重みの集合

重み(Weights) — AIの 「知性」 は、何百億個の小さな数字の中に詰まっている

ニューラルネットワーク — パーセプトロンを積み重ねた 「深い」 装置

パーセプトロン — 1個のニューロンを機械で作ったらどうなったか

閑話休題 #001 — エレベーターで御託と二人きりになった45秒

高次元空間 — 直感が効かないが、AIが住んでいる場所

内積(Dot Product) — 「どれだけ波長が合うか」を1つの数値にする道具

ベクトル(Vector) — 「複数の数字でひとつのモノを表現する」道具

トークン(Token) — LLMにとっての「ひと噛み」の単位

埋め込み(Embedding) — 単語を「空間の住所」にする

AIの歴史 — なぜ今度は本物なのか

位置エンコーディング(Positional Encoding) — Transformer に「語順」を教える仕組み

残差接続(Residual Connection) — 元の入力を足し戻し、層に「差分」だけを学ばせる配線

トークナイザー(Tokenizer) — 文章を LLM の「ひと噛み」に切る装置、日本語が英語より割高な理由

プロンプト(Prompt) — LLM への「1回限りの指示書」、AI 出力を支配する最大の武器

コンテキストサイズ(Context Window) — LLM が「一度に抱えられる」トークン数の上限、AI の「短期記憶容量」

ソフトマックス(Softmax) — ロジットを「合計1の確率分布」に変換する関数、指数で差を増幅する仕組み

閑話休題 #006 — 凡田の韓ドラ視聴日記、妻に巻き込まれて梨泰院クラスを3週間で完走

ロジット(Logit) — softmax 前の「未正規化の生スコア」、AI の「初見の評価値」

アンエンベディング行列 W_u — Transformer 最終層、意味ベクトルを「語彙のスコア」に翻訳する射影装置

MLP / フィードフォワード層 — アテンションが集めた情報を「知識」に変換する装置

マルチヘッドアテンション(Multi-Head Attention) — 同じ文章を複数の「視点」で並列に読む Q/K/V の拡張

閑話休題 #005 — 赤崎のコーヒー器具コレクション、千葉郊外の「Saturday Morning Coffee 儀式」

なぜアテンションが RNN を駆逐したか — 並列処理 + 長距離依存 + GPU相性の3つの決定打

Transformer ブロック全体構造 — アテンション + MLP + 残差 + 正規化の「プレハブユニット」を何十回も積む

アテンションブロック(Attention) — 単語が「他の単語を見て自分の意味を更新する」仕組み、Transformer の心臓

RNN / LSTM / GRU — 時系列処理を解いた「Transformer 直前の覇者」、いまや教養レベル

CNN(畳み込みニューラルネット) — 画像認識を解いた「Transformer 以前の覇者」、いまマルチモーダル LLM に吸収されつつある

ファインチューニング(Fine-tuning) — 事前訓練済みの「汎用脳」を、特定タスク用に上書き調整する第2段階

サンプリング(Sampling) — 確率分布から「1個」に絞る操作、AIの「性格」を決めるダイヤル

確率分布(Probability Distribution) — LLM が「1個」ではなく「候補の集合」を出す意味、コンサル点推定病の対極

次トークン予測(Next Token Prediction) — LLM が「次に来る単語」を選ぶ仕組み、推論の心臓部

事前訓練(Pre-training) — 汎用能力を先に作っておく「下準備」、LLM の「P」

損失関数(Loss) — モデルの「ズレ」を1個の数字に、これを下げる方向にダイヤルを回す

訓練(Training) — AIが「学ぶ」の正体、入力 → ズレ計算 → 補正を延々繰り返す装置

非線形関数(活性化関数) — これがないと NN は何層積んでも「ただの線形」にしかならない

機械学習モデル — 「ルールを書かずに、データから振る舞いを決める」すべての AI の共通骨格

パラメーター数 — LLMのサイズを示す「通貨」、その正体は重みの集合

重み(Weights) — AIの「知性」は、何百億個の小さな数字の中に詰まっている

ニューラルネットワーク — パーセプトロンを積み重ねた「深い」装置