AI使えないとビジネスパーソンとして死ぬ時代の構造的生存マニュアル。 線形代数からビジネス意思決定まで、地続きで読めるよう設計されています。
元祖 Transformer は「読む係(エンコーダー)+書く係(デコーダー)」の二人組の翻訳機だった。いまの対話AIは、その書く係半分だけを取り出して巨大化させたもの = デコーダーのみ構成。なぜ書く係だけで読めるのか ── 次の言葉を当てる訓練は、読めていないと解けないから。たった1つの訓練が読む力と書く力の両方を作る。
読む →
サブワード = 単語より小さい「部品」。LLM の語彙は単語ではなくこの部品でできている。新語・造語・社内用語は無限に生まれるから、単語まるごとの辞書は未知語で詰む ── 部品の組み立てなら何でも表せる。しかも部品には意味が乗るので、AIは初見の言葉にも当たりをつけられる。
読む →
「複数にする」も埋め込み空間ではひとつの方向。cat→cats も king→kings も同じ向きで結ばれる。面白いのは不規則変化 ── person→people は文字面が全然違うのに矢印は同じ向きに乗る。埋め込みが捉えているのは文字の形ではなく「意味の関係」── その分かりやすい証拠。
読む →
単語の意味は固定ではない。「あつい」はコーヒーなら熱い・天気なら暑い・本なら厚い ── 前後の文脈を吸ってはじめて意味が決まる。これが文脈吸収。静的な埋め込み(辞書引き)の限界を超える仕組みで、その混ぜ役がアテンション。同じ単語のベクトルが層を通るたびに周りの語を吸って更新される。
読む →
「性別を変える」も埋め込み空間ではひとつの方向。王→女王・父→母 が同じ向きになる、これが方向=意味の代表例。だが同じ仕組みは学習データの偏見まで方向として吸い込む ── これがAIバイアスの正体。便利さと偏見は同じ仕組みの裏表で、AI活用では偏りの監査・補正が必須。
読む →
閑話休題 #008。南雲(60-62)、社長。都銀40年で接待ゴルフを数えきれず回った男が、引退後はじめて『自分のためのゴルフ』を始めた。…はずが、接待の所作と与信審査40年の 人を格付けする癖 が、一人予約のラウンドでも止まらない。AIは1ミリも出てきません。
読む →
埋め込み空間では、単語は『点』で、点と点をつなぐ向き(方向)が意味を表す。『国→首都』のように同じ意味の変化はどの単語でも同じ向き。だから足し算・引き算で意味が動く。御託の2軸ポジショニングマップを数百次元に拡張したもの、と捉えると腑に落ちる。
読む →
行列・ベクトルの積 = 内積を行の数だけまとめて一気にやる演算。重み行列 × 入力ベクトル = 出力ベクトルで、出力の各マスは『その行と入力の内積』1回ぶん。これがニューラルネット1層の計算そのもので、GPU が一括並列でこなすからAIは速い。
読む →
スカラー・ベクトル・行列の延長線上にある「数を多次元に並べた箱」がテンソル。AI が扱う文章も画像も音声も、全部このテンソル。次元の数で呼び名が変わるだけ、という話。
読む →
位置エンコーディング = 各単語の埋め込みに「これは何番目か」のベクトルを足して、語順をAIに教える仕組み。Transformerのアテンションは全単語を同時・並列に見るので、放っておくと『犬が猫を追う』と『猫が犬を追う』が同じに見える。その語順の欠落を埋める必須部品を直感で。
読む →
残差接続(Residual Connection)= 各層が「出力 = 元の入力 + 層の計算」という形で元の入力を足し戻す配線。層は『何を出力するか』ではなく『元をどう微修正するか(差分)』だけを学べばよくなる。これがないと深い網は学習が壊れる。Transformer が数十〜百層も積めるのは、この地味な足し算のおかげ。
読む →
閑話休題 閑話休題 #007。御託(39)、世田谷の防音オーディオルーム。ベルリンフィルの 「定期」 を土曜未明のライブ配信で 「生」 聴きする男。アンプを30分暖機し、椅子を1mm単位で詰め、午前3時にブルックナーへ正座で臨む。AIは1ミリも出てきません。
読む →
文章を LLM の「ひと噛み」単位に切る装置がトークナイザー。同じ意味の文章でも日本語は英語の約2.5倍のトークンを消費する、その理由と実務での影響(コスト・コンテキスト枠の食い方・多言語LLMの設計)を直感で。
読む →
LLM に毎回ゼロから渡す「1回限りの指示文」がプロンプト。本質は「タスク・制約・期待形式」の3要素、役割設定は任意のトーン調整。これだけで AI 出力が劇的に変わる、その場限りの説明書の本質を直感で。
読む →
LLM が 「一度に抱えられる」 トークン数の上限。Claude Opus 4.7 200K(拡張1M)、GPT-4 Turbo 128K、Gemini 1.5 Pro 1M。長文を投げ込めるか、会話履歴を覚えていられるかを決める 「AI の短期記憶容量」、その実態を直感で。
読む →
同じロジットでも出力分布の 「集中度」 を変えられる唯一のダイヤル。T を下げれば1位独占、T を上げれば均等分布に。「AIの個性」・「クリエイティブ度」・「再現性」 を1つのつまみで動かす仕組みを直感で。
読む →
ロジットの実数ベクトルを 「合計1の確率分布」 に変換する関数。指数で差を増幅し、全要素を正にして、合計で割る。AI が 「1個」 を選ぶ前にやっている 「気分の正規化」 を直感で。
読む →
閑話休題 凡田光輝(38)、新婚3ヶ月。妻に巻き込まれて韓ドラ視聴に突入、最初は嫌々だったはずが、いまや妻が寝た後にこっそり続きを見る側になっている。アイコス3本と引き換えに迎える翌日の月曜朝。AI は1ミリも出てきません。
読む →
W_u が出力する 「未正規化の生スコア」 がロジット。softmax を通る前の段階で、各候補単語に対する 「好み度」 の比較値。負の値もマイナス無限大もありえる、確率ではない素のスコアの正体を直感で。
読む →
Transformer ブロックを全部通った後の最終ベクトル(d_model次元)を、語彙数次元のスコア(ロジット)に変換する射影行列。LLMが 「次の単語」 を選ぶ直前、内部の意味から外部の語彙への翻訳装置の正体。
読む →
アテンションが文脈情報を集めた後、各トークンが独立に通る2層NN。LLMの 「知識」 の本体はここに格納される(Transformer の重みの約2/3がこの層)。GPTがなぜ世界の事実を答えられるかの正体。
読む →
アテンションを Q/K/V の 「1組」 ではなく h 組(典型 h=8 or 16)並列で走らせる拡張。各ヘッドが構文・意味・距離など異なる視点を自然と分担して学習する、Transformer 性能の鍵を直感で掴む。
読む →
アテンションの3ステップを行列演算1本に集約する Q(Query)/K(Key)/V(Value) の正体。各単語が「質問・見出し・本文」の3役を同時に持って、文脈情報を取り出す仕組みを直感で掴む。
読む →
閑話休題 閑話休題 #005。赤崎健太郎(42)、千葉郊外の一軒家、土曜の朝の
読む →
マルチモーダルアテンションの仕組み。画像・音声・動画を「パッチに分割してトークン化」することで、テキスト用 Transformer がそのまま流用できる構造を解説。
読む →
なぜアテンションが RNN を駆逐したか。並列処理 + 長距離依存 + GPU相性 の3つの決定打を整理し、AI 技術選定の判断軸を学ぶ。
読む →
Transformer ブロックの全体構造。アテンション + MLP + 残差 + 正規化 という「プレハブユニット」を何十回も積む工業化設計の本質を読み解く。
読む →
アテンションの動作を3ステップに分解。関連スコア計算 → 重み付け → ベクトル更新、という流れを行列計算に踏み込まず直感レベルで掴む。
読む →
アテンションは「単語が他の単語を見て、自分の意味を更新する」仕組み。Transformer の心臓部、GPT/Claude/Gemini 全部の根幹を作ったキー機構をコンセプト中心に整理。
読む →
土曜の夜、御託の世田谷マンションのオーディオルームで… 御託(シニアコンサル・39) (凡田を初めて自宅オーディオルームに招いて)…凡田くん、見たまえ。Linn LP12 のカートリッジが、いまレコードの溝を1ミクロン単位で 1秒間に5万回 読み取っている。これが B&W 802 D4 から音になる。…時間の流れに沿って、波形を1点ずつ拾って、過去の文脈を踏まえて次を出す。これは技術的には 時系列処理 そのものだ。 凡田(チームリーダー・38, 主人公) (オーディオルームに招かれた時点で何かが終わっている気がする…)御託先輩、それまさに RNN(リカレント・ニューラル・ネット) です。1点読む → 状態を更新 → 次を読む のループ、時系列データを扱う AI の基本構造。2014-2017 の機械翻訳の覇者 でした。Transformer に置き換えられて、いまや教養レベルですが。 御託 ふむ、つまり レコード針 = RNN ということだ。私のオーディオは 「時系列処理の物理実装」 だったわけだな。…ちなみに STAX SR-X9000 で聴く推しの 「星詠みの間」 配信も、結局は 時系列の音声波形を出力する装置 なのだから、こちらも RNN 系の系譜上にある。 凡田 (御託先輩、その配信視聴環境の話、私を巻き込まないでください…帰りたい。…ただ、レコード針 vs RNN のアナロジーは確かに筋がいい。時系列を1点ずつ処理する構造、というのは1990年代から AI の中心課題だった。) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: […]
読む →
水曜の昼休み、社員食堂で凡田が広告会社時代を思い出して… 凡田(チームリーダー・38, 主人公) あー、川口くん、いま AI 戦略推進室で 「画像認識を業務に取り入れる」 案件 あるけど、これ 10年前なら大ニュース だったんだよ。私が 広告会社時代の2014年頃、技術部門の人が クリエイティブバナー画像を CNN で自動分類するツール を作ってくれて、私はそれを業務で 使う側 だった。私は触ってるだけなのに、当時は 「AIで広告効率化」 って役員に持ち上げられて、役員報告会で説明させられたよ。…いまや当たり前すぎて誰も騒がない。 川口(アナリスト・22) 凡田さん、2014年 ですか?それまさに CNN 黄金期 の入口です。AlexNet 2012 で ImageNet コンペが大爆発して、VGG 2014 / GoogLeNet 2014 / ResNet 2015 と次々モデルが出てきた時期。広告業界はその初期波に乗ってた、ということですね。 凡田 そうそう、当時は 「AI = CNN = 画像認識」 ってイメージが強くて、テキスト系(自然言語処理)は 後発で地味 だった。それが Transformer 登場(2017)で逆転、いまは 「AI = LLM = テキスト」。10年でメインストリームが入れ替わったわけ。 […]
読む →
月曜の朝、新人女性スタッフへの OJT 中… 大蔵(アシスタントマネージャー・35) あなた、入社3週間目ね。パワーポイントは大学で習った でしょう?でも当社の 「パワポ」 は別物よ。表紙のロゴ位置、フッターの日付フォーマット、見出しの色番号 #d33b3b、目次の階層、各章の余白 — 全部、当社独自のルール。背中で覚えなさい。1週間で身につけて。 凡田(チームリーダー・38, 主人公) (大蔵さん、それまさに 「ファインチューニング」 です。新人さんの 「大学までの汎用能力 = 事前訓練済み」 モデルに、当社固有のパワポルール = タスク特化データ を上書きしている。…そして、大蔵さん自身も 銀座カフェ → コンサル業 でファインチューニングされた身ですよね。) 大蔵 あら、凡田さん、それ 自覚はあります わよ。私の 「接客レイヤー20年」 はベース、その上に 「コンサル資料作成レイヤー13年」 が重ねられた。完全にファインチューニング型のキャリアですわ。…ちなみに、いまの新人さんも 3週間後にはアイマイ社専用 OS が脳にインストール される予定です。 凡田 (…大蔵さんの 「アイマイ社専用 OS」 という表現、技術的にはまさに 「カスタムファインチューニングモデル」 ですね。新人さんが本来持っていた汎用能力に上書き保存、不可逆。新人さん、すでに 引き返せない ところまで来ている…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 事前訓練(#022) — ファインチューニングが乗っかる「汎用ベース能力」を作る第1段階 訓練(#013) […]
読む →
金曜の夜、御託がデスクで推しの配信前にハイデガーを開いて… 御託(シニアコンサル・39) フッ、凡田くん、聞いてくれ。ハイデガー が 『存在と時間』 で論じた 「被投性」 とは、過去の自分が今の自分を作り、今の自分が未来の自分を作る という連鎖だ。過去の出力が次の入力になる — まさに人生は 自己回帰的 なのだよ。 凡田(チームリーダー・38, 主人公) 御託先輩、それまさに 「自己回帰生成(Autoregressive Generation)」 です。LLM の 「1個予測 → 後ろに連結 → 再投入 → 次を予測」 のループそのもの。ChatGPT が 1文字ずつ画面に出てくる のは、内部でこの自己回帰ループが回ってる証拠ですね。 御託 ふむ、つまり 「言葉を吐く知性」 も、ハイデガーの言う 「時間性に投げ込まれた存在」 の電子的再演ということだな。GPT は1ステップごとに 過去の自分 を引き受け、次の1単語 を投げかけ続けている。実存主義 × LLM、こいつは哲学コラム1本書けるテーマだ…(スマホをチラ見、今夜の 「星詠みの間」 配信、開始まで残り14分) 凡田 (御託先輩、その哲学コラム、社内では誰にも読まれず、推しの 「星詠 ヨミ」 さん配信のコメント欄に書き込まれる未来が見える…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 次トークン予測(#023) — […]
読む →
閑話休題 AI解説の合間に挟む短編・第4回。川口光輝(22)の月1北海道乗り鉄遠征、特急『おおぞら』で札幌から釧路までの4時間38分。普段は社内便利屋として朝も夜もSlackで呼ばれ続けている彼が、唯一その通知音から逃げ切れる24時間。
読む →
金曜の夕方、来期の戦略案レビューで… 赤崎(部長・42) うーん、ふわっとした方向感としてはね、案A(海外進出)もいいねえ、案B(M&A)もいいねえ、案C(新規事業)もいいねえ。…じゃあ 全部承認 でPARTNERにも相談しないとね。 凡田(チームリーダー・38, 主人公) (赤崎部長、それは 「温度高めのサンプリング」 です。LLM で言うと Temperature = 2.0 くらいの状態。確率分布がなだらかすぎて どの案でも均等に出てきてしまう。3案あるならどれか1案に絞らないと、組織が動かない…) 大蔵(アシスタントマネージャー・35) あら、部長、3案全部承認 ですか。それでしたら、銀座カフェの常連様にも「コーヒー全種類お試しください」と申し上げているようなものですわね。「温度を下げて1個に絞る」 のがマネジメントの本義ですわ。 川口(アナリスト・22) あ、それでしたら ChatGPT が 毎回違う回答を返す のと同じ仕組みです。LLM は 確率分布から1個をランダムに選ぶ ステップを必ず通っていて、「温度パラメータ」 で選び方の幅を調整します。…ちなみに私の JR北海道の駅選び も実は内部温度 1.7 程度の高めサンプリングでして…(無言で時刻表アプリを開く) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 確率分布(#024) — サンプリングが「何から」選ぶかを先に把握 次トークン予測(#023) — サンプリングはこのループの最終ステップ → 全記事の繋がりマップを見る このページのまとめ サンプリング(Sampling) = LLM が確率分布から 「1個」 を選ぶ操作。前ステップで 確率分布(#024) を作った後、最後に1単語に絞るところがこれ。 選び方には流派がある: […]
読む →
月初の朝会、来期売上予測の議題で… 赤崎(部長・42) 川口くん、来期売上予測、もう 「1.2億円」 ってきっぱり書いてくれよ。役員会で 「95%信頼区間 [0.8〜1.6億円]」 とか出すと、社長が 「で、結局いくらなんだ?」 って聞いてくるから。 川口(アナリスト・22) あの…赤崎部長、それ 「点推定病」 です。学生時代のデータサイエンス研究室で 「分布で出さない予測は信用するな」 って3年間叩き込まれてきました。1.2億円って一点で出すと、「外れる確率94%」 くらい平気であります。 凡田(チームリーダー・38, 主人公) (川口くん、その主張、実は LLM がやっていることそのものです。GPT は最初から 「次の単語は田中12% / 鈴木8% / 山田6% / …」 という 確率分布 で出力している。一点じゃなく分布で考えるのが、AI 時代の自然なスタイル…) 川口 あ、凡田さん、その目線で言うと 当社の予測レポート全部、AI 時代基準で書き直しできますよ。ちなみに私の JR北海道乗り鉄遠征の到着時刻 も、本当は 「15:42到着確率63%」 って分布で管理してまして…(無言で『おおぞら12号』の遅延統計 PDF を開く) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 次トークン予測(#023) — 確率分布が「何の」分布なのか(=次トークン候補)を先に把握 ベクトル(#004) — 確率分布も結局は数のリスト、ベクトルの一種 → 全記事の繋がりマップを見る […]
読む →
夕方の銀座カフェ、客足が引いた時間に… 大蔵(35, 元銀座カフェ接客レイヤー20年) あら、部長、本日はカフェ・モカでよろしいですわよね。雨の日の夕方、月曜、それから先ほどの会議で 過学習 の話で疲れていらした…確率92% でモカ、5% でホットチョコ、3% でやけくそコーヒー、ですわ。 赤崎(部長・42) うーん、大蔵くん、その 銀座カフェ接客レイヤー20年 の予測精度、いつ聞いても怖いんだけど…今日はその 92%のモカ でお願いするよ。 凡田(チームリーダー・38, 主人公) 大蔵さん、それまさに 「次トークン予測」 の構造です。LLM が GPT を動かしている時、内部でやっているのも同じ形 — 過去の文脈 → 次に来る単語の確率分布 を計算して、そこから1つ選ぶ。GPT が 「次の単語を1個ずつ吐いている」 のは、大蔵さんの 「客の次の注文の予測」 と 「予測パーツ」 としては似た仕組み なんです。(もちろん人間の接客には共感や意図読みも乗ってるので、完全一致ではないですが) 大蔵 あら、では私の 「接客モデル」 も、GPT と同じ仕組みで動いていた、ということですわね。…(私は20年で 1日200客 × 365日 × 20年 = 146万件 の予測トレーニング済み、と心の中で計算) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 訓練(#013) — 予測モデルがどう学ぶかの全体ループ […]
読む →
祝日の午前、誰もいないオフィスで… 南雲(社長・60-62) 凡田、祝日に何してるんだ。…まあ俺も書類整理に来ただけだがな。…で、思い出したんだ。俺の都銀員時代の40年 はな、過学習だったかもしれんが、いま思えば 「何でも対応できる人間」 を作る下準備 だった気もする。コンサル業に転身した時、最初は何も解けなかったが、3年で 大体のことに勘が働く ようになった。 凡田(チームリーダー・38, 主人公) 社長、それまさに 「事前訓練(Pre-training)」 です。GPT の 「P」 がこれです。タスクを限定せず、大量データで汎用能力を作っておく 段階。社長の40年は 「銀行業界全体の事前訓練」、いまのコンサル業は 「ファインチューニング」 ですね。 南雲 ふむ、俺は 事前訓練を済ませて、コンサル業にファインチューニングされた、ということか。…まあ、悪い再評価ではないな。 凡田 (社長、過学習、キーマン依存組織、今回 事前訓練。3週連続で 自分のキャリアを AI 用語で再解釈 していらっしゃる…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 機械学習モデル(#011) — 事前訓練が動かす対象の枠組み 訓練(#013) — 事前訓練はその第1段階(2段階構成の前半) → 全記事の繋がりマップを見る このページのまとめ タスクを決めず、大量のデータで 「なんでもこなせる土台」 を先に作る 学習の第1段階。これが 事前訓練。 ここを飛ばすと AI は言葉の感覚すら持てない。だから先に汎用力を作り、後で 用途別に微調整(ファインチューニング(#027)) する2段階が今の標準。費用は事前訓練が桁違いに重く、現場が触れるのは微調整側。 イメージは 大学+新卒研修=事前訓練 […]
読む →
会議室の窓辺で外を眺めながら… 御託(シニアコンサル・39) フッ、線形回帰こそ、機械学習の 最も美しい姿 だ。y = ax + b。この単純な式に、宇宙の単純性 が宿っている。ニーチェは 『美しいものは単純である』 と言ったが、まさにそれだ。 凡田(チームリーダー・38, 主人公) えーと、御託さん、線形回帰は単に 「a と b の2つの数字を当てるだけ」 の作業 です。哲学的な深みは特になくて、Excel の =SLOPE() と =INTERCEPT() で2秒で出ます。 大蔵(アシスタントマネージャー・35) あら、御託さんは本日も 「哲学化」 モード絶好調ですわね。…線形回帰、私 Excel で13年やってます けど、宇宙の単純性とは特に出会ったことがありませんわ。 御託 ……(目を逸らす。本当は今朝の 3D LIVE で推しが 「線形回帰って美しいよね〜」 と言ってたのを聞いただけ、とは言えない) このページのまとめ 線形回帰 = 散らばった点の集まりに 1本の直線を引いて、入力から出力をざっくり予測する、最も古典的な機械学習モデル。 シンプルゆえに 速い・解釈できる・データが少なくても使える。だから LLM 時代の今も実務(KPI 予測や 機械学習モデル(#011) の入口)から消えない。 イメージは 定規で点の真ん中を通す線を引く 感じ。傾きと切片という2つのツマミだけで、その線が決まる(式 […]
読む →
年末年始の有給消化期間、ガラガラの社長室にて… 南雲(社長・60-62) 凡田、暇だから昔話を1つ。俺が 都銀の支店長代理 だった頃な、3週間 インフルで休んだ時 があってな。…支店の融資審査が完全に止まった。俺の 頭の中 にしか審査ノウハウが無かったから、誰も代わりが利かない。これは 「良い人材」 の証明 だと当時は思ってたんだ。 凡田(チームリーダー・38, 主人公) 社長、それは 「Dropout なしの組織」 の典型ですね。1人のキーマンに全部の重みが集中して、新規データ(社長の不在)に全く対応できない状態。過学習の組織版 です。 南雲 Dropout? 誰かを意図的に休ませる、ということか? 凡田 まさに。AI 学習中に ランダムにニューロンを 「ない」 ことにする 技術です。特定の重みに依存させないようにする。組織で言うと、毎週ランダムに誰かを強制有給 にする感じで… 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 過学習(#019) — 正則化が対策する元の問題 線形回帰(#021) — L1/L2 正則化(Lasso/Ridge)の元祖 → 全記事の繋がりマップを見る このページのまとめ ひとことで言うと 正則化 = モデルが訓練データや特定の重みに 頼りすぎないようにする ための、追加の制約のかけ方。 過学習(#019) 対策の主役。やりすぎな丸暗記を抑え、初見のデータにも効く力(汎化)を取り戻す。 イメージは 特定の人に依存しないチーム作り。代表は Dropout や […]
読む →
クライアント提案2時間前、最終リハで… 赤崎(部長 / AI戦略推進室室長・42) 凡田、リハ用に 戦略パワポ150枚 持ってきた。これな、私の 「必殺テンプレ」 なんだ。過去5年で同じ構成のものを150案件 で使い回してる。打率95%。今日も完璧だね。 大蔵(アシスタントマネージャー・35) あら、赤崎部長…それは 「過学習」 でいらっしゃいませんかしら? 過去案件には完璧でも、新規業界の案件 には 応用が利かない 状態。本日のクライアントは AI スタートアップ ですわよね。 赤崎 過学習? いいねいいね、その方向で。ふわっとした方向感としては、AI スタートアップ案件は…ジーパンとジャケットで行けば大丈夫だろう。 凡田(チームリーダー・38, 主人公) (部長、過学習の意味分かってない な…これ完全に大蔵さんの指摘通り、「訓練データには満点、本番では赤点」 の典型例…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 訓練(#013) — 過学習が起きる場所 損失関数(#014) — 訓練/検証損失の乖離で過学習を判定 → 全記事の繋がりマップを見る このページのまとめ 過学習とは、ひとことで言えば モデルが練習問題を「丸暗記」してしまった状態。練習では満点、本番(未知のデータ)では赤点を取る。 これが厄介なのは 練習の成績だけ見ると「優秀」に見えてしまう こと。本番用のデータで別に試して、そこから成績が落ち始めたら丸暗記のサイン(見分け方は本文で)。 イメージは 過去問だけを丸暗記して臨んだ受験。答えごと覚えた問題は解けても、少しひねられた本番の問題でつまずく。 訓練(#013) 記事と 損失関数(#014) 記事で「完璧を目指すと逆に弱くなる」と何度か触れた。その正体が 過学習(Overfitting)、機械学習で最もよく聞く失敗パターン。 結論を先に: […]
読む →
月初のフリースペースで、コーヒー片手に… 凡田(チームリーダー・38, 主人公) あー、また気づいてしまった。「正規化」って広告時代に毎月やってた んだよな。月によって配信ボリュームが違うので、CTR とか CV 数を 「月の平均で割って標準化」 して、月次比較できるようにしてた。あれもう完全に 正規化 だわ。 大蔵(アシスタントマネージャー・35) あら凡田さん、本日も 「気づきの広告時代」 シリーズですの? もう 第3話 ぐらいになりますわよね。次は 「広告時代の昼休み」 あたりが出てきそうですわ。 御託(シニアコンサル・39) フッ、凡田、それは BatchNorm 系の発想だな。深層学習では LayerNorm もある。Transformer は基本 LayerNorm だ。 凡田 (御託さん、今日も 「妙に詳しい」 モード…昨夜の 3D LIVE.mp4 で推しが解説してたんだろうな) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 訓練(#013) — 正規化が安定化する場所 非線形関数(#012) — 正規化と並ぶ深層学習3大柱の1つ → 全記事の繋がりマップを見る このページのまとめ 正規化(Normalization) = 各層の出力の 桁やばらつき(分布)を揃える こと。代表的な手法に BatchNorm […]
読む →
役員室前の廊下にて、提案前の調整時間で… 凡田(チームリーダー・38, 主人公) 御託さん、ふと思ったんですけど、AI の学習って 勾配降下(#015) でいいんですよね? なんでわざわざ 「最適化手法」 って別に呼ぶんでしたっけ。 御託(シニアコンサル・39) フッ、それじゃ LLM は学習できんよ。素朴な勾配降下には、致命的な欠点が3つある。だから改良が必要だ。 凡田 (あ、御託さんの 「本質はそこではない」 モードじゃない…珍しく 具体性のある語り出し…) 大蔵(アシスタントマネージャー・35) あら御託さん、今日は何やら 「妙に詳しい」 モードでいらっしゃいますわね。何かこう、最近 「動画」 でも見ましたかしら? 御託 ……(目を逸らす) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 勾配降下(#015) — Optimizer の素朴版、起点 訓練(#013) — Optimizer が動く全体ループ → 全記事の繋がりマップを見る このページのまとめ 最適化手法(Optimizer) = ひとことで言えば 「坂の下り方を賢くする工夫」。坂を下って正解に近づく 勾配降下(#015) の進化版。 素朴な勾配降下のままでは LLM はうまく学習できない。勢いをつけたり、場所ごとに歩幅を変えたりして、その弱点を補うのが Optimizer の役割(代表格が Adam)。 イメージは 下り坂のスキーヤー。ただ転がるのではなく、慣性で勢いに乗り、急斜面では歩幅を抑える。だから速く確実にふもとへ着ける。 […]
読む →
閑話休題 AI解説の合間の短編。大蔵(35)が月1で京都・奈良に通う御朱印帳遠征の1日。美容Instagramフォロワー2,800人の裏に隠した精神性、鞍馬寺の九十九折参道でハイヒールを脱ぎ白足袋に履き替え、御朱印帳5冊目の最後の見開きに「鞍馬山」の墨字を頂く物語。
読む →
閑話休題 AI解説の合間の短編。南雲社長(62)が土曜の朝、世田谷の和室で Apple Watch のセットアップに挑む45分間。孫の一言で買ったが、ペアリングと2要素認証で詰まり、妻に聞いたら「面倒くさい」と一蹴され、桐の引き出しの奥にそっとしまう物語。
読む →
四半期レビューの提出24時間前で… 大蔵(アシスタントマネージャー・35) あら、本日のお題は 逆伝播 ですって? 私、13年Excelで 毎日やってますわよ。「数式エラーの参照元トレース」、Ctrl + [ で 上流のセル に飛んで、犯人をどんどん遡るアレですわ。 凡田(チームリーダー・38, 主人公) 大蔵さん…まさかと思って聞きますけど、それ 本気で逆伝播と同じ です。出力(エラー)から各セル(=重み)に 「誰のせいか」 を遡って配分する作業、概念的にはまったく同じ構造。 大蔵 ということは、私は 1980年代の Rumelhart 先生 と同じ作業を、毎月の セル参照エラー潰し で繰り返してきたわけですわね。…これは 名誉教授級 ではなくて? 御託(シニアコンサル・39) ……(沈黙、また Excel に持っていかれた) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 勾配降下(#015) — 逆伝播で得た勾配を実際に使うアルゴリズム 訓練(#013) — 逆伝播が走る場所 → 全記事の繋がりマップを見る このページのまとめ 逆伝播とは、AIが出した答えの ズレ を、出力側から入力側へ逆向きにたどって、つまみ一つひとつ(=重み(#009))に 「お前はどれだけ悪い」 と責任を割り振っていく計算。 これがあるから AI は学習できる。無いと膨大なつまみをどう直せばいいか分からず、GPT も生まれなかった(連鎖律の計算は本文で)。 イメージは […]
読む →
ランチ後の眠気と戦いながら… 凡田(チームリーダー・38, 主人公) 川口、損失(#014) を下げる方向を計算する あのアルゴリズム、なんて言うんだっけ。資料に1行入れたくて。 川口(アナリスト・22) 勾配降下 です。あ、これ完全に 鉄道計画 と同じなんですよ。JR 北海道の 「おおぞら」 で、根室本線の 滝川〜新得 間の 狩勝峠 を越えるルート、これ 勾配最適化の歴史 がそのままで、明治時代の 33.3‰ から大正の 新狩勝トンネル開通 で 20‰ まで下げて、いまの 石勝線 ルートだと… 凡田 (止まる気配がない…) 大蔵(アシスタントマネージャー・35) あら凡田さん、川口くんの 「勾配」 が 機械学習の勾配 から 鉄道の勾配 に 確率的に降下 してしまわれたみたいですわね。…まあ、本人は 同じ単語 として処理されてますの。 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 損失関数(#014) — 勾配降下が下る対象 訓練(#013) — 勾配降下を含む全体ループ → 全記事の繋がりマップを見る このページのまとめ 勾配降下 […]
読む →
期末前夜、月次レビューの直前… 凡田(チームリーダー・38, 主人公) あ…俺、いま気づいたんですけど、広告会社時代に毎日見てた CTR と ROAS と CPA、あれ 損失関数 だったわ。日次で Excel 開いて、上がった下がったで一喜一憂してたあの数字、AI の学習と全く同じ構造じゃないか。 大蔵(アシスタントマネージャー・35) あら、凡田さん、急に呟きから入りましたわね。…で、ご自分のキャリアが 10年前から AI を最適化していた ということを発見されたんですの? 御託(シニアコンサル・39) フッ、凡田、それは正しい気づきだ。お前は 無自覚に MSE を最適化していた。気づくのが遅すぎるが、まあ凡人のスピードとしては及第点だな。 凡田 (なんか褒められた? でも刺された気もする…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 訓練(#013) — 損失関数が「ズレ計算」として機能する場所 機械学習モデル(#011) — 損失を持つ装置の枠組み → 全記事の繋がりマップを見る このページのまとめ 損失関数 = モデルの出力と正解の 「ズレ」 を 1個の数字 にまとめる装置。 この数字を 下げる方向にダイヤルを回す のが学習。だから損失は 学習の羅針盤(どっちに進めばいいかを示す)。 イメージは テストの失点合計。間違えるほど点が増え、それを最小にしていく(計算式は本文で)。 AI が「学ぶ」=訓練(#013) […]
読む →
銀座のバーで、社長の昔話を聞きながら… 南雲(社長・60-62) 凡田、俺が 都銀の融資審査 をやってた頃はな、新人は3年で叩き上げた。先輩が10件の案件を見せて、自分にやらせて、間違ったら朝まで詰める。これでようやくベテランだ。…で、今のAIってのは、これとどう違うんだ? 凡田(チームリーダー・38, 主人公) えーと、社長…それ 完全に AI の 「訓練」 と同じ構造 です。先輩=正解データ、新人のトライ=順伝播、間違い=損失、詰める=逆伝播、3年=エポック数3,000ぐらい。 南雲 ふむ。…じゃあ俺は、40年前から AI を作っていた ということになるな。 凡田 (うわ、来た。「俺の40年」 武勇伝本を出そうとしてる…) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 機械学習モデル(#011) — 訓練が動かす対象の枠組み 重み(#009) — 訓練で動かされるダイヤルそのもの → 全記事の繋がりマップを見る このページのまとめ 訓練 = AI が「学ぶ」プロセスそのもの。パラメーター(#010)を最初ランダムに置いて、データで少しずつ調整していく作業。 正体はシンプルで、「やらせてみる → 正解とのズレを測る → ズレを縮める方向に少し補正する」 をひたすら繰り返すだけ。これが「学ぶ」の中身。 イメージは OJT(現場で覚える仕事)。やらせて、間違いを直して、また反復——AI も同じ要領で経験を積む(詳しい工程は本文で)。 「AI を訓練する」「モデルを学習させる」。ニュースで毎日聞くこの言葉、具体的に内部で何が起きているか を3分で説明できる人は意外に少ない。 本記事は、訓練 = AI が 「学ぶ」 […]
読む →
月曜の朝会の直前で… 凡田(チームリーダー・38, 主人公) 部長、来週のクライアント提案、案A と 案B と 案C があるんですが、どれで行きますか? 赤崎(部長 / AI戦略推進室室長・42) いいねいいね、その方向で。 凡田 …3つあるんですけど、どれですか? 赤崎 いいねいいね、ふわっとした方向感で。 大蔵(アシスタントマネージャー・35) あら、部長、それは 活性化関数 が入ってない、と申しますやつですわ。何を入れても同じ反応では NN は深くしても意味がない のですって。 赤崎 ……いいねいいね。 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: ニューラルネットワーク(#008) — 活性化関数が「曲がり」を入れる対象 パーセプトロン(#007) — 1層版で活性化関数(ステップ関数)が既に登場 → 全記事の繋がりマップを見る このページのまとめ 活性化関数 = 各ニューロンの出力を 「ひと曲げ」 する関数。足し算だけの直線を、ぐにゃっと曲げてやる。 これがないと、何層積んでも 結局1層と同じ。直線をいくら重ねても直線のまま。「深さ」 の意味が消える。 イメージは 「何でもいいねと返すマネージャー」と「ここは違う、と曲げて判断する人」の差。曲げる軸があって初めて賢くなれる。 ニューラルネットワーク(#008) の中身を見ると、各ニューロンは 「入力に重みをかけて足し算する」 作業をしている。これだけだと 「線形変換」 という数学的に決まった種類の操作にしかならない。 そして恐ろしいことに、線形変換は何回繰り返しても線形変換。100層積んでも、結局1層と同じ表現力しか出ない。これでは […]
読む →
給湯室の前で、ペットボトルを取りながら… 凡田(チームリーダー・38, 主人公) 御託さん、そもそも論で恐縮なんですが…「機械学習」って 結局なんなんでしょうね? 私、3年これで飯食ってますけど、ふわっとしか分かってなくて。 御託(シニアコンサル・39) フッ、凡田、そんなことも知らんのか。機械学習とはな、要するに ダイヤルとノブ だ。 大蔵(アシスタントマネージャー・35) あら、ダイヤルとノブですって? それなら Excel の スピンボタン でしょう? 私、13年使ってますけど。 御託 ……(沈黙) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 線形回帰(#021) — 機械学習モデルの最小例、これを上位概念として再構成 → 全記事の繋がりマップを見る このページのまとめ 機械学習モデル = 人間がルールを書くのではなく、データから振る舞いを覚えさせる 仕組みの総称。 だから新しい例にも対応できる。「もし〜ならこうする」を一つずつ書く従来のプログラム では追いつかない仕事を任せられる。 イメージは たくさんのダイヤルを持つ装置。正解に近づくよう回し方を調整していく(回す仕組みは本文で)。 「機械学習」という言葉は、いまや業界誌・経営層・顧客提案で 毎日100回見る単語 になった。だが、「で、機械学習って何なんですか?」と素朴に聞かれて、3分で答えられる人は意外に少ない。 本記事はその素朴な疑問に正面から答える。機械学習モデルとは、調整可能なダイヤルとノブをたくさん持った装置を、データで正解に近づくように回す仕組み。これだけ。線形回帰も、ニューラルネットワークも、GPT も、原理は完全に同じ枠の中にいる。 違いはダイヤルの数と並べ方だけ — そこを掴むと、「ディープラーニング」「LLM」「Transformer」がすべて 機械学習モデルのバリエーション だと見えてくる。 機械学習以前 — 「コードで if-then を書く」 時代 機械学習を理解するには、まず 機械学習以前のやり方 […]
読む →
とある日の午後… 凡田(チームリーダー・38, 主人公) あの、業界で「うちのモデルは何B?」って聞かれるたびに分かったふりで頷くんですけど、本当は 何を数えてるのか知らない んですよ。 御託(シニアコンサル・39) フッ、凡田、それは恥ずべきことだ。私は週末にパラメーターを 手で数えている ぞ。 大蔵(アシスタントマネージャー・35) 御託さん、GPT-3 の 1,750億 を、ご自宅で手で?…完了予定は 西暦六万二千年 ですわね。 御託 ……(沈黙) 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 重み(#009) — パラメーターのほぼ全部 ニューラルネットワーク(#008) — 1,750億パラメーターが住む装置 → 全記事の繋がりマップを見る このページのまとめ パラメーター数 = AI が学習で調整する「ダイヤルとノブの数」。実体はほぼ 重み(#009) + バイアスです。 LLM のサイズを示す通貨。「7B / 70B / 175B」のように呼び、◯B = ◯億個(正確には Billion=10億)。ただし大きい=賢い、とは限りません(理由は本文で)。 イメージは、機械の中にびっしり並んだ無数のツマミ。学習とは、それを正解に近づくよう一斉に回し続ける作業です。 LLM の話で必ず出てくる単位がある。「175B」「7B」「70B」「1.7T」。 これが パラメーター数。「そのモデルが学習で持っている、調整可能な数値の総数」を表す。LLM 業界では モデルのサイズを示す通貨 として使われる。 […]
読む →
提案準備中の深夜にて… 凡田(チームリーダー・38, 主人公) 「AIの知性」って結局1,750億個の 小さな小数点の数字 に詰まってるって、ロマンないですよね。 赤崎(部長 / AI戦略推進室室長・42) 凡田くん、いいや。それを言うなら、ぼくのワインの テイスティングノート だって、結局 [香り 4.2, 渋み 3.8, 余韻 4.5] みたいな数字に集約されてる。 凡田 部長、それも ロマンないですね。 赤崎 ……。 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: パーセプトロン(#007) — 重みが実際に「入力に掛かる」場所 ニューラルネットワーク(#008) — 重みが何層にも積まれた装置の全体像 → 全記事の繋がりマップを見る このページのまとめ 重みとは、ニューラルネットの各接続にある「この入力をどれだけ重要視するか」を表す小さな数字。AI の知性の実体は、この数字が何百億個も集まったもの。 だから「AI を学習させる = 重みを正解側に少しずつ調整する作業」。それ以外に賢さを作る方法はなく、ここが知能の正体そのもの。 イメージは 無数の音量つまみ。どの入力を大きく/小さく鳴らすかを一つひとつ調整して、全体の 「音」 を仕上げていく(調整の仕組みは本文で)。 「ニューラルネット(NN)って何?」と聞かれたら、「パーセプトロンを何層も積んだ装置」 と答える(別記事 ニューラルネットワーク(#008) 参照)。 では、その装置を 賢くしているもの は何か。 正解は 「重み」。NN […]
読む →
月初の朝会の前で… 凡田(チームリーダー・38, 主人公) 「ニューラルネット」って、ぼくのデスクの引き出しと同じくらい複雑なんですよ。整理した方が早いんですけど。 大蔵(アシスタントマネージャー・35) 凡田さんのデスク、先週まで3層、現在5層、レシート3年分が層構造の最下層 とのことですわ。 凡田 大蔵さん、なぜそんな詳細まで… 大蔵 私が 昨日 経費精算の催促で目視確認 いたしましたから。 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 線形回帰(#021) — NN は線形回帰を活性化関数付きで何層も重ねたもの パーセプトロン(#007) — NN の最小単位、ニューロン1個の構造 → 全記事の繋がりマップを見る このページのまとめ ニューラルネットワークとは、ひとことで言えば 判断する部品(ニューロン)を何個も、何層にも繋げた装置。1個だけのパーセプトロン(#007)を大量に積み重ねたもの。 なぜ重ねるか。1個だけでは単純な切り分けしかできないが、層を重ねるほど複雑な判断ができるようになる。GPT のような大規模 AI も、結局はこれを巨大にしただけ(層の数やしくみは本文で)。 イメージは 組織の判断リレー。アナリストが下調べし、マネージャーがまとめ、パートナーが結論を出す——情報が層を通るたびに磨かれていく流れと同じ構造。 「AI 解説で必ず出てくる ニューラルネットワーク って何?」と聞かれて、一言で答えられるか。 正解は「パーセプトロン1個を、何個も、何層にも繋げただけ」だ。 パーセプトロンは「入力に重みを掛けて合計し、しきい値を超えたら発火する」という、ニューロン1個の最小モデル(1958年 Frank Rosenblatt 発)。詳細はパーセプトロン(#007)の記事へ。それを大量に積んだのがニューラルネットワーク。本記事は NN の構造を、(1) 層という概念、(2) なぜ 「深く」 するのか、(3) コンサル業務との接続 の3点で押さえる。 ニューラルネットワーク = […]
読む →
期末前夜の深夜2時、最終資料校正中… 大蔵(アシスタントマネージャー・35) あら、パーセプトロンが XOR を解けなかったって、私の Excel 200層は XOR をネイティブで解いてます わよ。 凡田(チームリーダー・38, 主人公) 大蔵さん、その200層、Minsky と Papert が今ここにいたら 学術論文に出されてた かもしれないですね。 大蔵 あら、ありがたいわ。ノーベル賞の心配も、そろそろ… 凡田 …いや、Minsky と Papert は別人 ですし、ノーベル賞に数学部門ないですし、いろいろ。 📐 Prerequisite 本記事を理解するには、以下を先に読むとスッキリ降ります: 線形回帰(#021) — パーセプトロン = 線形回帰 + ステップ関数。先にこの式の感覚を掴むとスッキリ → 全記事の繋がりマップを見る このページのまとめ パーセプトロン = 脳のニューロン1個を数式に落とした「最小のAI」(1958年, Frank Rosenblatt)。 これが ニューラルネットワークの最小単位であり、現代のディープラーニングの出発点。世界で初めて機械が 「学習」 した装置でもある。 イメージは「入力それぞれの重要度を加味して合計し、ある一線を超えたら発火する」装置(計算の中身は本文で)。 「ニューラルネットワークって何?」「アテンションって?」「Transformer って?」と聞かれる前に、もっと根っこの話がある。ニューロン1個を機械で作ったらどうなるか。それが パーセプトロン。 これを知らないと、その後の AI 史も、現代のディープラーニングも、足元が抜けたまま登る山になる。本記事は、パーセプトロンを […]
読む →
閑話休題 AI解説の合間に挟む、登場人物のプライベートに踏み込む短編。第1回は主人公・凡田 光輝(38)が、ある月曜日の朝、会社のエレベーターで御託さんと二人きりになってしまった、45秒間の物語。
読む →
月曜朝、コーヒー片手に… 川口(アナリスト・22) あの、高次元空間って、ぼくが乗り鉄ルートを組むときに使ってる 30軸の最適化問題 とほぼ同じなんですよ。 凡田(チームリーダー・38, 主人公) 川口、それいま 必要な情報 だった? 大蔵(アシスタントマネージャー・35) 凡田さん、川口さんの乗り鉄話を止めたら、当社の唯一の福利厚生 が消えますわよ。 凡田 ……(なるほど、続けてもらおう)。 このページのまとめ 高次元空間 とは、ものを位置づける 座標軸が4本以上ある場所。人間の直感は3本(縦・横・高さ)までしか効かない。 軸が増えるほど 「意味を仕分ける物差し」を山ほど持てる。だからAIは言葉の細かなニュアンスまで区別できる(#066)。人間が見られないだけで、AIはそこに住んでいる。 イメージは、評価項目が3つの採点表ではなく 何千項目もある巨大な採点表。AIはその全項目で同時に対象を測っている(細かな性質は本文で)。 「埋め込みは12,288次元のベクトル」「ベクトルは高次元空間の点」と聞いて、「12,288次元?どんな空間?」と詰まった人向け。 結論から言うと: イメージしようとしないでいい。人間の脳は3次元までしか直感が効かないように出来ている。高次元は、定義としては存在するが、絵に描けないし、頭の中で回せない。AI 教科書を読むとき、ここで挫折する人が一番多い ポイントだ。 本記事は高次元空間を、(1) どう諦めるか、(2) なぜAIに不可欠か、(3) コンサル業務との接続 の3点で押さえる。 高次元空間 = ただ「軸がたくさんある空間」 定義は身も蓋もなくシンプル。 1次元 = 数直線 (軸1本、x で位置を指定) 2次元 = 平面 (軸2本、(x, y) で点を指定) 3次元 = 立体 (軸3本、(x, y, z) で点を指定) […]
読む →
役員室前の廊下にて… 南雲(社長・60-62) ふむ、内積か。私は40年間、融資審査で 「客の真意ベクトル」と「銀行の与信ベクトル」の内積 を毎日計算していたな。 凡田(チームリーダー・38, 主人公) 社長、それを 紙とそろばん で? 南雲 そろばん、紙、そして勘だ。1件あたり3分 で判定していた。 凡田 ……(光速GPUと同じ速度では、と思ったが言わない) このページのまとめ 内積(Dot Product) とは、2つのベクトルから 1つの数値 を作る演算で、その数値は 「2つがどれだけ同じ方向を向いているか(波長が合うか)」 を表す。(計算式は本文で) これが重要なのは、LLM のアテンション機構が 内積でトークン同士の関連度を測っている から。Transformer の心臓部の演算であり、ここを押さえると次の仕組みが一気に見通せる。 イメージは 「波長一致度スコア」: 顧客と提案、候補者と職務、戦略と実行 が噛み合っているかを、数値1つでパッと測るようなもの。 「ベクトル同士の似ている度合いを測る」と言われると、なんとなく難しそうに聞こえるが、実態はただの掛け算と足し算 だ。 その演算を 内積(Dot Product) と呼ぶ。中学高校で出てきたかもしれないが、機械学習で出てくると意味合いがガラッと変わって見える。本記事は内積の正体を、計算・直感・使われ方 の3点で押さえる。LLM のアテンション機構を理解する直前の「最後のピース」でもある。 計算は驚くほどシンプル 定義から入る。 内積 = 同じ位置の要素同士を掛けて、全部足したもの 例: v1 = [1, 2, 3] v2 = [4, 5, […]
読む →
残業中の22時、フロアに4人だけ… 凡田(チームリーダー・38, 主人公) 過去にマッチングアプリで嫁とマッチしたとき、相性 99% って出たんですよ。 大蔵(アシスタントマネージャー・35) あら、それベクトルの内積で計算されたスコアですわよね。 凡田 そう。5項目のプロフィールベクトルが、それぞれ8割以上一致 していて。 大蔵 ……(残業中にそれを語る理由は、いずれ深掘りいたしますわ) このページのまとめ ベクトルとは、ひとことで言うと 順序が決まった数の並び。たとえば [1.2, -0.4, 0.8] のような形。 AI が大事なのは、これが 1つのモノを複数の数で表す道具 だから。文章も画像も、まずこの形にして初めて計算できる。 イメージは 「顧客を業界・売上・地域…で並べた1行のスコアシート」。あの横並びの数字こそがベクトル。 「LLM はトークンを ベクトル に変換してから処理する」と聞いて、「ベクトル…?」と引っかかった人向け。 ベクトルは、高校数学に出てきた 「矢印」 のイメージとは少し違う。機械学習の文脈では、ただの 「順序が決まった数のリスト」 に過ぎない。だが、この道具が現代の AI 全体の土台になっている。本記事はベクトルの正体を、仕組み・直感・コンサル業務との接続 の3点で押さえる。 ベクトル = 順序付きの数のリスト 定義は身も蓋もなくシンプル。 ベクトル = 順序が決まった数のリスト 例: v1 = [3.2, -1.4] ← 2次元 v2 = [0.1, […]
読む →
朝の通勤、駅のホームで… 赤崎(部長 / AI戦略推進室室長・42) 凡田くん、Claude 200K の 「K」 って 千円の K だよね? 凡田(チームリーダー・38, 主人公) ……部長、K はキロ=千、で合ってます。ただし単位は円ではなく、トークン です。 赤崎 トークン?日本円換算で? 凡田 それを次の章でお話しします。 このページのまとめ トークンとは、LLM がテキストを読み込むときの 最小の単位。単語より少し細かい「文字の塊」です。 文脈窓のサイズ・課金・速度は、文字数ではなく すべてトークン数で測られるので、コストや上限を考えるときの基準になります。 イメージは レゴのブロック。文章は一枚板ではなく、決まった大きさのブロックに分解されてから組み立てられます。 「ChatGPT で1万トークン使いました」と聞いて、「単語1万個分くらいか」とイメージしていたら少し違う。 LLM の世界は トークン という独自の単位で動いている。文字数でも単語数でもない。この単位が分かっていないと、「コンテキスト窓 200K トークン」「100万トークンあたり3ドル」みたいな数字が、何を意味しているのか掴めないままで終わる。 本記事はトークンの正体を、仕組み・課金・現場で起きる奇妙な現象 の3点に絞って整理する。 トークン = テキストの「ひと噛み」 LLM はテキストをそのまま見ていない。最初の処理は トークン化(tokenization): 入力テキストを トークン という小さな塊に切り分けることだ。 たとえば英語の 「The quick brown fox jumps」 は、こんな感じで切れる。 […]
読む →
給湯室にて… 凡田(チームリーダー・38, 主人公) 「king − man + woman = queen」って数式、AIが本当に解いてるんですか? 御託(シニアコンサル・39) フッ、その式は私が独自に発見し、AAAIで発表予定だ。 大蔵(アシスタントマネージャー・35) 御託さん、それ 30年前に Mikolov 氏が論文で出されています わよ。 御託 ……。 このページのまとめ 埋め込み(Embedding) とは、トークン(単語の塊)に 意味の「住所」を与える仕組み。一語一語を空間の中の1点として置き直す。 これで 意味の近さが「距離の近さ」になる。似た言葉ほど近くに集まるので、機械が言葉の意味を扱えるようになる(変換のしくみは本文で)。 イメージは 意味の地図上の住所。同じ町内に仲間が住み、地図上の方向が「性別」「複数形」などの意味のちがいを表す。 「ChatGPT は単語をどう扱っているのか?」と聞かれて、「いや、文字列でしょ?」と答えてしまうと、その先の Attention も MLP もすべて意味不明になる。LLM は文字列を直接扱わない。最初にやるのは、トークンを ベクトル(数のリスト)に変換すること だ。 これが 埋め込み(Embedding) と呼ばれる仕組みで、Transformer の入口にあたる。本記事は、なぜ単語をベクトルにするのか、ベクトルになるとなぜ「意味の演算」ができてしまうのか、そこに焦点を絞る。 なぜ文字列をそのまま使えないのか 機械学習モデルが扱える入力は、突き詰めれば 数の配列だけ。掛け算と足し算ができないと学習できない。 「king」という文字列を入れて「queen」という文字列を出すモデル、というイメージは数学的には成立しない。何らかの形で 数値表現に落とす 必要がある。 最も素朴な方法は、辞書順で 1番目の単語に 1、2番目に 2、…と番号を振ることだ(整数 ID)。だが、これだと 「1と2が近い意味」「3はその2倍」 という意味のない関係が紛れ込む。「apple = […]
読む →
AIは過去70年で3度のブームを経験している。最初の2回は失望で終わった。なぜ3度目だけが違う構造を持っているのか、過去の失敗構造から辿る。
読む →