RNN / LSTM / GRU — 時系列処理を解いた「Transformer 直前の覇者」、いまや教養レベル

土曜の夜、御託の世田谷マンションのオーディオルームで…

御託(シニアコンサル・39)

(凡田を初めて自宅オーディオルームに招いて)…凡田くん、見たまえ。Linn LP12 のカートリッジが、いまレコードの溝を1ミクロン単位で 1秒間に5万回 読み取っている。これが B&W 802 D4 から音になる。…時間の流れに沿って、波形を1点ずつ拾って、過去の文脈を踏まえて次を出す。これは技術的には 時系列処理 そのものだ。

凡田(チームリーダー・38, 主人公)

(オーディオルームに招かれた時点で何かが終わっている気がする…)御託先輩、それまさに RNN(リカレント・ニューラル・ネット) です。1点読む → 状態を更新 → 次を読む のループ、時系列データを扱う AI の基本構造。2014-2017 の機械翻訳の覇者 でした。Transformer に置き換えられて、いまや教養レベルですが。

御託

ふむ、つまり レコード針 = RNN ということだ。私のオーディオは 「時系列処理の物理実装」 だったわけだな。…ちなみに STAX SR-X9000 で聴く推しの「星詠みの間」配信も、結局は 時系列の音声波形を出力する装置 なのだから、こちらも RNN 系の系譜上にある。

凡田

(御託先輩、その配信視聴環境の話、私を巻き込まないでください…帰りたい。…ただ、レコード針 vs RNN のアナロジーは確かに筋がいい。時系列を1点ずつ処理する構造、というのは1990年代から AI の中心課題だった。)

このページのまとめ

ひとことで言うと RNN は、文章や音声を「前を覚えながら一語ずつ順番に読む」NN。NN(#008) に過去の記憶を持たせた一族で、弱点を補強したのが LSTM・GRU(中身は本文で)。
これがないと話が通じない時代があった: 2014〜2017年の機械翻訳・音声認識の主役で、Google翻訳もこれで一新された。2017年の Transformer に完全に置き換えられ、今は基礎教養の位置づけ。
イメージは 伝言ゲーム。一人ずつ順に伝えるので長い列だと最初の話が薄れ(=長期記憶が苦手)、全員並んで一斉に作業できない(=並列化できない)のが Transformer に敗れた決め手。

本記事は フェーズ④.5 アーキテクチャ歴史編 の2本目。前記事 CNN(#028) で 画像認識の覇者 を扱った。本記事は対をなす 時系列処理の覇者 = RNN/LSTM/GRU の話。

結論を先に: RNN = 過去の状態を保持しながら1点ずつ処理する NN。2014-2017 の機械翻訳の主役、しかし Transformer(2017)に完全に置き換えられた。いまや学術的興味と教養レベル、現役の主力アーキではない。CNN と違って 「完全に置き換えられた」覇者、というのが歴史的位置付け。

RNN とは何か — 「ループ」を持つ NN

通常の NN(#008) は 入力 → 隠れ層 → 出力 という一方向の流れ。これだと 「過去のデータ」を覚えておけない。例えば「私の名前は田中…」と「田中は私の名前です」を、通常の NN は 順序の違い を理解できない。

RNN は 隠れ層に「ループ」を入れる。1点処理するたびに、隠れ層の状態を 次の時刻の入力に渡す。これで「過去の情報が現在に影響する」構造が作れる。

図1: RNN の「展開図」 — 時刻 t-1 / t / t+1 で同じネットを再利用、隠れ状態 h を引き継ぐ

御託のオーディオに例えると:

レコード針 = RNN の「現在処理中の入力点」
1ミクロン進むごとに溝の波形を読み取る = 1時刻ずつ入力を処理
音楽のフレーズ感(さっき鳴った音の余韻) = 隠れ状態 h(過去の文脈)
次の溝で再生される音 = 過去の余韻と現在の溝の組み合わせで決まる

「Recurrent(回帰)」の意味は 「自分の過去出力を次の入力に使う」。これは自己回帰生成(#026) の構造と本質的に同じ。LLM の「1個予測 → 連結 → 再投入」のループが、RNN では「1点入力 → 隠れ状態更新 → 次の入力」として現れる。

RNN の致命的弱点 — 勾配消失と長期記憶できない

素朴な RNN は美しい構造だが、長いシーケンスで使い物にならない という致命的弱点があった。

原因は 勾配消失(vanishing gradient)。逆伝播(#016) で誤差を時系列を遡って伝える時、ループのたびに勾配が掛け算で薄まっていく。100時刻前の情報を学習しようとすると、勾配がほぼ0になり、更新できない。

結果: 短いシーケンス(10〜20単語)なら動くが、長い文章(100語以上)では「文頭の情報を文末で使えない」。機械翻訳のような長文タスクでは致命的だった。

LSTM — ゲートで長期記憶を解決

これを解決したのが LSTM(Long Short-Term Memory)、1997年に Hochreiter & Schmidhuber が発明。長らく注目されなかったが、2010年代に再評価されて爆発的に普及した。

LSTM の発明は、「情報の流れを 3つのゲート(forget / input / output) で制御する」 という構造。

Forget Gate: 過去の情報のうち、どれを忘れるか決める
Input Gate: 現在の情報のうち、どれを覚えるか決める
Output Gate: 隠れ状態のうち、どれを出力するか決める

これにより、「覚えておくべき情報」は何百ステップでも保持できる ようになった。例えば文章の冒頭で出てきた主語を、何十単語後の述語まで保持できる。

2014年に LSTM ベースの seq2seq(Sequence-to-Sequence) モデルが機械翻訳で SOTA を達成、2016年に Google 翻訳が大幅に LSTM 化 され翻訳精度が劇的に向上した、というのがいわゆる 「AI 翻訳革命」 の正体。当時はこれが AI の最先端と言われていた。

GRU — LSTM の簡略版

LSTM はゲート3つで複雑、計算コストも重い。2014年に発表された GRU(Gated Recurrent Unit) は、ゲートを 2つに簡略化(update gate + reset gate)、性能はほぼ同等で計算は軽い、というメリットを持つ改良型。

実務では LSTM か GRU かは「好み」 レベル、どちらでも動く。2015-2017 の機械翻訳・音声認識・時系列予測のほぼ全てが、LSTM か GRU で実装されていた。

登場人物の反応 ①

川口(アナリスト・22)

あ、御託先輩の レコード針 = RNN アナロジー、技術的にも筋が通ってます。さらに言うと カートリッジが LSTM 相当 で、針の信号(高周波ノイズ)から 「音楽として聴くべき情報」だけを抽出 しているのが forget gate の働きに似ています。…ちなみに 2014年の seq2seq 論文(Sutskever et al.)は当時の AI 業界では大事件で、私は当時まだ 10歳 でしたが、後から論文タブを開いて感動しました。

大蔵(アシスタントマネージャー・35)

あら、川口くん、2014年に 10歳 でしたら、私はもう銀座カフェ接客レイヤーで 1日200客を捌いていた 時期ですわね。…ちなみに私の 接客レイヤー でも、常連客の来店パターン(月曜の朝はモカ、雨の金曜は赤ワイン)を 15-20客先まで遡って記憶 するのが基本でして、これは LSTM 相当の長期記憶ですわ。私自身が LSTM 実装だった可能性、ありますわね。

赤崎(部長・42)

うーん、つまり RNN / LSTM は今は教養レベル なんだね。ふわっとした方向感としては、当社のクライアント案件で 「時系列予測 = RNN/LSTM」 と提案している外部ベンダーがいたら、これは 「古い提案」の可能性が高い、と判断してよさそうだ。…大蔵くんの接客レイヤー、商品化したら売れるんじゃないかな?

会議室で川口がレコード針=RNNアナロジーを補足、大蔵が銀座カフェ接客レイヤー=LSTM自慢、赤崎がふわっと方向感で受ける

2017年 Transformer 登場で全滅 — 並列化できなかったから

RNN/LSTM が機械翻訳の覇者だったのは 2014-2017 のわずか3年間。2017年に Google から Transformer 論文(Attention Is All You Need)が出ると、状況は一気に変わった。

Transformer が圧勝した理由は2つ。

長期記憶問題を全シーケンス一括処理(Attention)で解決: LSTM のゲートでも長期は厳しかったが、Attention は全文を同時に見るので原理的に長期記憶問題が消える
並列化が可能: RNN/LSTM は 順次処理が必須(時刻 t-1 を計算してから t を計算する)、GPU の並列性能を活かせない。Transformer は全シーケンスを同時に処理できる、GPU との相性が圧倒的に良い

後者の 「GPU並列化との相性」 が、技術選定の決定打になった。当時の RNN/LSTM は理論的にはまだ進化の余地があったが、「原理的に並列化できない構造」は GPU 時代に勝てない。2018年以降、機械翻訳・音声認識・時系列予測のほぼ全てが Transformer ベースに移行、RNN/LSTM は研究界から消えていった。

コンサル感覚 — 「原理的優秀さ」だけでは勝てない、ハードウェアとの相性が決め手

RNN/LSTM の興亡から学べることは多い。

「理論的に優秀」は必要条件だが十分ではない: LSTM は1997年発明だが2014年まで埋もれていた。逆に CNN も1998年発明だが2012年まで埋もれていた。理論だけでは普及しない
普及には「ハードウェア進化」との相性が決定的: CNN は GPU 並列性能の向上に乗って2012年に爆発、Transformer も同様。RNN/LSTM は順次処理が必須で GPU と相性悪く、Transformer に置き換えられた
「完全に置き換えられる」覇者もある: 前記事 CNN(#028) はエッジ用途で残ったが、RNN/LSTM は 主流から完全に消えた。10年で完全置換、というのが起きうる

コンサルとしての示唆: AI 技術選定では「原理的優秀さ」だけでなく「現代インフラ(GPU/分散学習)との相性」を必ず見る。今ある「新技術」も、GPU 進化の波に乗れるかどうかで5年後の運命が決まる。Transformer 後継候補(Mamba 等)も、同じ判断軸で見るべき。

もうひとつ、「完全に消えた覇者」の運用ノウハウは速やかに切り捨てる。RNN/LSTM を新規実装する理由はもう無い(教育目的を除く)。クライアントが「LSTM で時系列予測しましょう」と提案してきたら、それは 2017年で時間が止まっている提案 の可能性が高い、と疑う眼を持つべき。

登場人物の反応 ②

南雲(社長・60-62)

ふむ、つまり RNN / LSTM は「理論的に優秀でも GPU との相性が悪くて消えた」 ということか。…これは私の銀行員時代に、「いい商品でも営業ネットワークに乗らない商品は消える」 という現象を何度も見てきた。「理論的優秀さ」だけでは生き残れない のは、技術も商品も同じだな。

凡田(チームリーダー・38, 主人公)

社長、まさに同じ構造です。技術も商品も 「流通インフラ(GPU/営業網)との相性」 が普及を決める。当社の AI 戦略推進室でも、「原理的に優秀な技術」を追うだけでなく、それが GPU / クラウド / API エコシステムに乗れているか を必ず確認する基準を、提案テンプレに組み込もうと思います。

川口

あ、補足です。実は 2023年以降、RNN 系が再評価されつつあります。Mamba(2023)や S4(2022)などの「状態空間モデル(SSM)」系は、RNN の進化形 で、Transformer の「長文での計算コスト爆発」を解決する候補。「完全に消えた」と思った覇者が、ハードウェア進化の次の波で復活する パターンも、AI 業界では起きうるんです。

大蔵

あら、川口くん、つまり 「私の接客レイヤー = LSTM 実装」 も、もしかしたら 2030年頃に SSM 系として復活 する可能性があるわけですわね。離職時に 「接客レイヤー知識」 を引き継ぎ料 2,000万円で売る案、まだ生きていますわよ。

南雲

うむ、いいねえ。「ハードウェアの波を読む経営」 も響きがいい。儲かるんだろ?

KEY TAKEAWAYS

抑えておきたいポイント

RNN = 過去の状態を保持しながら1点ずつ処理する NN。時系列データ(音声・文章・株価)を扱う基本構造。
「Recurrent」(回帰)= 自分の過去出力を次の入力に使う。自己回帰生成(#026) と本質的に同じ構造。
素朴な RNN は 勾配消失で長期記憶できない。LSTM(1997) が 3つのゲート で解決、2014年から大ブレイク、機械翻訳の主役に。
GRU(2014) は LSTM の簡略版、性能ほぼ同等で計算軽い。
2014-2017 は機械翻訳 = LSTM の時代、Google 翻訳が2016年に LSTM 化されて精度劇的向上。
2017年 Transformer 登場で全滅。原因は 「並列化できない」 こと、GPU 時代に勝てなかった。
コンサル感覚: 「原理的優秀さ」だけでは技術は普及しない、ハードウェア進化との相性が決め手。CNN と違い RNN/LSTM は 「完全に置き換えられた」覇者、教養レベルへ。
ただし 2023年以降の Mamba / SSM 系 で RNN の進化形が復活の兆し。「完全に消えた覇者が、ハードウェア進化の次の波で復活」するパターンも AI 業界では起きうる。

RNN / LSTM / GRU — 時系列処理を解いた 「Transformer 直前の覇者」、いまや教養レベル

RNN とは何か — 「ループ」 を持つ NN

RNN の致命的弱点 — 勾配消失 と 長期記憶できない