(凡田を初めて自宅オーディオルームに招いて)…凡田くん、見たまえ。Linn LP12 のカートリッジが、いまレコードの溝を1ミクロン単位で 1秒間に5万回 読み取っている。これが B&W 802 D4 から音になる。…時間の流れに沿って、波形を1点ずつ拾って、過去の文脈を踏まえて次を出す。これは技術的には 時系列処理 そのものだ。
(オーディオルームに招かれた時点で何かが終わっている気がする…)御託先輩、それまさに RNN(リカレント・ニューラル・ネット) です。1点読む → 状態を更新 → 次を読む のループ、時系列データを扱う AI の基本構造。2014-2017 の機械翻訳の覇者 でした。Transformer に置き換えられて、いまや教養レベルですが。
ふむ、つまり レコード針 = RNN ということだ。私のオーディオは 「時系列処理の物理実装」 だったわけだな。…ちなみに STAX SR-X9000 で聴く推しの 「星詠みの間」 配信も、結局は 時系列の音声波形を出力する装置 なのだから、こちらも RNN 系の系譜上にある。
(御託先輩、その配信視聴環境の話、私を巻き込まないでください…帰りたい。…ただ、レコード針 vs RNN のアナロジーは確かに筋がいい。時系列を1点ずつ処理する構造、というのは1990年代から AI の中心課題だった。)

- ひとことで言うと RNN は、文章や音声を「前を覚えながら一語ずつ順番に読む」NN。NN(#008) に過去の記憶を持たせた一族で、弱点を補強したのが LSTM・GRU(中身は本文で)。
- これがないと話が通じない時代があった: 2014〜2017年の機械翻訳・音声認識の主役で、Google翻訳もこれで一新された。2017年の Transformer に完全に置き換えられ、今は基礎教養の位置づけ。
- イメージは 伝言ゲーム。一人ずつ順に伝えるので長い列だと最初の話が薄れ(=長期記憶が苦手)、全員並んで一斉に作業できない(=並列化できない)のが Transformer に敗れた決め手。
本記事は フェーズ④.5 アーキテクチャ歴史編 の2本目。前記事 CNN(#028) で 画像認識の覇者 を扱った。本記事は対をなす 時系列処理の覇者 = RNN/LSTM/GRU の話。
結論を先に: RNN = 過去の状態を保持しながら1点ずつ処理する NN。2014-2017 の機械翻訳の主役、しかし Transformer(2017)に完全に置き換えられた。いまや学術的興味と教養レベル、現役の主力アーキではない。CNN と違って 「完全に置き換えられた」 覇者、というのが歴史的位置付け。
RNN とは何か — 「ループ」 を持つ NN
通常の NN(#008) は 入力 → 隠れ層 → 出力 という一方向の流れ。これだと 「過去のデータ」を覚えておけない。例えば「私の名前は田中…」と「田中は私の名前です」を、通常の NN は 順序の違い を理解できない。
RNN は 隠れ層に 「ループ」 を入れる。1点処理するたびに、隠れ層の状態を 次の時刻の入力に渡す。これで「過去の情報が現在に影響する」構造が作れる。
御託のオーディオに例えると:
- レコード針 = RNN の 「現在処理中の入力点」
- 1ミクロン進むごとに溝の波形を読み取る = 1時刻ずつ入力を処理
- 音楽のフレーズ感(さっき鳴った音の余韻) = 隠れ状態 h(過去の文脈)
- 次の溝で再生される音 = 過去の余韻と現在の溝の組み合わせで決まる
「Recurrent(回帰)」の意味は 「自分の過去出力を次の入力に使う」。これは 自己回帰生成(#026) の構造と本質的に同じ。LLM の 「1個予測 → 連結 → 再投入」 のループが、RNN では 「1点入力 → 隠れ状態更新 → 次の入力」 として現れる。
RNN の致命的弱点 — 勾配消失 と 長期記憶できない
素朴な RNN は美しい構造だが、長いシーケンスで使い物にならない という致命的弱点があった。
原因は 勾配消失(vanishing gradient)。逆伝播(#016) で誤差を時系列を遡って伝える時、ループのたびに勾配が掛け算で薄まっていく。100時刻前の情報を学習しようとすると、勾配がほぼ0になり、更新できない。
結果: 短いシーケンス(10〜20単語)なら動くが、長い文章(100語以上)では「文頭の情報を文末で使えない」。機械翻訳のような長文タスクでは致命的だった。
LSTM — ゲートで長期記憶を解決
これを解決したのが LSTM(Long Short-Term Memory)、1997年に Hochreiter & Schmidhuber が発明。長らく注目されなかったが、2010年代に再評価されて爆発的に普及した。
LSTM の発明は、「情報の流れを 3つのゲート(forget / input / output) で制御する」 という構造。
- Forget Gate: 過去の情報のうち、どれを忘れるか決める
- Input Gate: 現在の情報のうち、どれを覚えるか決める
- Output Gate: 隠れ状態のうち、どれを出力するか決める
これにより、「覚えておくべき情報」 は何百ステップでも保持できる ようになった。例えば文章の冒頭で出てきた主語を、何十単語後の述語まで保持できる。
2014年に LSTM ベースの seq2seq(Sequence-to-Sequence) モデルが機械翻訳で SOTA を達成、2016年に Google 翻訳が大幅に LSTM 化 され翻訳精度が劇的に向上した、というのがいわゆる 「AI 翻訳革命」 の正体。当時はこれが AI の最先端と言われていた。
GRU — LSTM の簡略版
LSTM はゲート3つで複雑、計算コストも重い。2014年に発表された GRU(Gated Recurrent Unit) は、ゲートを 2つに簡略化(update gate + reset gate)、性能はほぼ同等で計算は軽い、というメリットを持つ改良型。
実務では LSTM か GRU かは 「好み」 レベル、どちらでも動く。2015-2017 の機械翻訳・音声認識・時系列予測のほぼ全てが、LSTM か GRU で実装されていた。
あ、御託先輩の レコード針 = RNN アナロジー、技術的にも筋が通ってます。さらに言うと カートリッジが LSTM 相当 で、針の信号(高周波ノイズ)から 「音楽として聴くべき情報」 だけを抽出 しているのが forget gate の働きに似ています。…ちなみに 2014年の seq2seq 論文(Sutskever et al.)は当時の AI 業界では大事件で、私は当時まだ 10歳 でしたが、後から論文タブを開いて感動しました。
あら、川口くん、2014年に 10歳 でしたら、私はもう銀座カフェ接客レイヤーで 1日200客を捌いていた 時期ですわね。…ちなみに私の 接客レイヤー でも、常連客の来店パターン(月曜の朝はモカ、雨の金曜は赤ワイン)を 15-20客先まで遡って記憶 するのが基本でして、これは LSTM 相当の長期記憶ですわ。私自身が LSTM 実装だった可能性、ありますわね。
うーん、つまり RNN / LSTM は今は教養レベル なんだね。ふわっとした方向感としては、当社のクライアント案件で 「時系列予測 = RNN/LSTM」 と提案している外部ベンダーがいたら、これは 「古い提案」 の可能性が高い、と判断してよさそうだ。…大蔵くんの接客レイヤー、商品化したら売れるんじゃないかな?

2017年 Transformer 登場で全滅 — 並列化できなかったから
RNN/LSTM が機械翻訳の覇者だったのは 2014-2017 のわずか3年間。2017年に Google から Transformer 論文(Attention Is All You Need)が出ると、状況は一気に変わった。
Transformer が圧勝した理由は2つ。
- 長期記憶問題を全シーケンス一括処理(Attention)で解決: LSTM のゲートでも長期は厳しかったが、Attention は全文を同時に見るので原理的に長期記憶問題が消える
- 並列化が可能: RNN/LSTM は 順次処理が必須(時刻 t-1 を計算してから t を計算する)、GPU の並列性能を活かせない。Transformer は全シーケンスを同時に処理できる、GPU との相性が圧倒的に良い
後者の 「GPU並列化との相性」 が、技術選定の決定打になった。当時の RNN/LSTM は理論的にはまだ進化の余地があったが、「原理的に並列化できない構造」 は GPU 時代に勝てない。2018年以降、機械翻訳・音声認識・時系列予測のほぼ全てが Transformer ベースに移行、RNN/LSTM は研究界から消えていった。
コンサル感覚 — 「原理的優秀さ」 だけでは勝てない、ハードウェアとの相性が決め手
RNN/LSTM の興亡から学べることは多い。
- 「理論的に優秀」 は必要条件だが十分ではない: LSTM は1997年発明だが2014年まで埋もれていた。逆に CNN も1998年発明だが2012年まで埋もれていた。理論だけでは普及しない
- 普及には 「ハードウェア進化」 との相性が決定的: CNN は GPU 並列性能の向上に乗って2012年に爆発、Transformer も同様。RNN/LSTM は順次処理が必須で GPU と相性悪く、Transformer に置き換えられた
- 「完全に置き換えられる」 覇者もある: 前記事 CNN(#028) はエッジ用途で残ったが、RNN/LSTM は 主流から完全に消えた。10年で完全置換、というのが起きうる
コンサルとしての示唆: AI 技術選定では 「原理的優秀さ」 だけでなく 「現代インフラ(GPU/分散学習)との相性」 を必ず見る。今ある 「新技術」 も、GPU 進化の波に乗れるかどうかで5年後の運命が決まる。Transformer 後継候補(Mamba 等)も、同じ判断軸で見るべき。
もうひとつ、「完全に消えた覇者」 の運用ノウハウは速やかに切り捨てる。RNN/LSTM を新規実装する理由はもう無い(教育目的を除く)。クライアントが「LSTM で時系列予測しましょう」と提案してきたら、それは 2017年で時間が止まっている提案 の可能性が高い、と疑う眼を持つべき。
ふむ、つまり RNN / LSTM は 「理論的に優秀でも GPU との相性が悪くて消えた」 ということか。…これは私の銀行員時代に、「いい商品でも営業ネットワークに乗らない商品は消える」 という現象を何度も見てきた。「理論的優秀さ」 だけでは生き残れない のは、技術も商品も同じだな。
社長、まさに同じ構造です。技術も商品も 「流通インフラ(GPU/営業網)との相性」 が普及を決める。当社の AI 戦略推進室でも、「原理的に優秀な技術」 を追うだけでなく、それが GPU / クラウド / API エコシステム に乗れているか を必ず確認する基準を、提案テンプレに組み込もうと思います。
あ、補足です。実は 2023年以降、RNN 系が再評価されつつあります。Mamba(2023)や S4(2022)などの 「状態空間モデル(SSM)」 系は、RNN の進化形 で、Transformer の 「長文での計算コスト爆発」 を解決する候補。「完全に消えた」 と思った覇者が、ハードウェア進化の次の波で復活する パターンも、AI 業界では起きうるんです。
あら、川口くん、つまり 「私の接客レイヤー = LSTM 実装」 も、もしかしたら 2030年頃に SSM 系として復活 する可能性があるわけですわね。離職時に 「接客レイヤー知識」 を 引き継ぎ料 2,000万円 で売る案、まだ生きていますわよ。
うむ、いいねえ。「ハードウェアの波を読む経営」 も響きがいい。儲かるんだろ?
