世界モデル（World Model）

1. 世界モデル（World Model）とは何か

1.1 用語の由来と歴史的背景

「世界モデル（World Model）」という言葉自体は、AI研究者だけでなく認知科学・ロボティクスの分野などでも使われてきた歴史があります。人間や動物が外界をどのように内部表現しているのか、という問題意識は古くから存在し、脳科学・心理学などではそれを「内部モデル（Internal Model）」と呼んだり、あるいは「メンタルモデル（Mental Model）」と呼んだりすることもありました。
2018年に Google Brain の David Ha と、機械学習の大御所である Jürgen Schmidhuber（LSTMの共同発明者としても有名）が発表した論文「World Models」(Ha & Schmidhuber, 2018) によって、強化学習（RL: Reinforcement Learning）コミュニティで「世界モデル」という概念が一気に注目を浴びるようになりました。この論文タイトル自体が非常に象徴的だったこともあり、以来「モデルベース強化学習（Model-based RL）の要点を端的に“世界モデル”と呼ぶ」流れが定着しつつあります。

1.2 定義と核心のアイデア

一般に「世界モデル」とは、エージェントが観測する外界（環境）を内部で再現・予測できるモデル のことを指します。
強化学習においては、エージェントが状態sts_tを観測し、行動ata_tをとったときに、環境が次の状態st+1s_{t+1}へ遷移し、報酬rtr_tを与える…という一連のプロセスが存在します。世界モデルは、この「状態遷移関数」や「観測モデル」などをエージェントの内部で近似的に学習し、環境を模倣できるようにするものといえます。

“夢を見る”ような学習

Ha & Schmidhuber の世界モデルの研究では、VAE(Variational Autoencoder) で画像を潜在空間へ圧縮し、さらに MDN-RNN (Mixture Density Network + RNN) で時間方向の遷移を学習し、最後に Controller（ポリシー）がその潜在空間を使って行動選択を行うという構造を提案しました。
その中で、エージェントが一度学習した世界モデルを使い、「実際の環境を使わずに、“自分の中でシミュレーション＝夢を見る” ことで戦略を磨く」ようなイメージが示されています。この“夢を見る”というメタファーが非常にわかりやすく、世界モデルの重要性が広く認知される一因となりました。

2. 世界モデルの構成要素

世界モデルを大きく分解すると、主に以下のような要素が含まれると考えられます。

エンコーダ（観測データを潜在表現に圧縮する）
- 画像やセンサー情報など高次元データを直接扱うのは計算的・サンプル効率的に不利なことが多いです。
- VAEやβ-VAE、あるいは近年だと自己回帰型のトランスフォーマーモデル、Diffusionモデル等を使い、観測を圧縮・抽象化することで学習を容易にします。
ダイナミクスモデル（状態遷移を予測する）
- 過去の状態ztz_t（潜在表現）と行動ata_tから、次の状態zt+1z_{t+1}を生成・予測する仕組み。
- RNN（LSTM、GRU）やトランスフォーマー、MDN-RNNなど多様な手法が使われます。
- 場合によっては確率的に遷移先を分布として表現する必要があり、そのための混合密度ネットワーク（MDN）やフロー系モデルなどが利用されることもあります。
リワードモデル（報酬関数を予測する）
- 行動ata_tや状態ztz_tから、次の報酬rtr_tを推定するサブモデルを含む場合もあります。
- こうした報酬モデルがあれば、実際の環境を試さなくても「どのような行動をとったら報酬が得られるか」を内部で計算できます。
デコーダ（生成モデルとしての再構成）
- エンコーダの逆プロセスとして、潜在表現ztz_tから元の観測（ピクセル画像など）を再現する。
- 「内部世界のビジョン」を可視化できるため、デバッグや可視化の面で重要となる場合があります。
- “夢をみる”を実際に可視化し、モデルがどのように環境を理解しているかを人間が覗き見る手段とも言えます。
コントローラー / ポリシー（行動決定モジュール）
- 潜在空間を元に、最適な行動ata_tを選択する。
- これは強化学習におけるポリシーネットワークにあたります。
- 世界モデルと密接に連携し、「内部シミュレーションを通じて予測した報酬を最大化する行動」を学習することが可能です。

3. 世界モデルがもたらすメリット

3.1 モデルベース強化学習でのサンプル効率向上

**強化学習(RL)**は、環境との試行錯誤（探索）を通じて最適ポリシーを学ぶプロセスですが、実世界や複雑なシミュレーション環境での試行回数を大幅に減らしたいという要望が常にあります。
「世界モデル」を構築することで、実環境を使わずに内部で多数のシミュレーション“ロールアウト”が可能になり、サンプル効率が向上するという大きなメリットがあります。ロボットなどは実機実験のコストが高く、壊れるリスクもあるため、仮想的に学習できるのは極めて重要です。

3.2 計画（プランニング）や予測の可能性

環境を単に受動的に学習するだけでなく、予測（もしこの行動をとったら次にどんな世界が来るか？）を行えるようになるのが世界モデルの大きな強みです。
この機能を活かして、アクションをとる前に内部で複数の分岐を試し、最適と思われる行動を選択できるのが「モデルベース（Model-based）」アプローチです。
これはチェスや将棋、囲碁などの分野でも効果が発揮されており、例えば AlphaZero（DeepMind）は環境モデルそのものを内在化しているわけではありませんが、モンテカルロ木探索との組み合わせで「先読み」を行い、高性能を実現しました。MuZero(2020)に至っては環境モデルの学習そのものを取り入れたことで、より汎用性を高めています。

3.3 創発的知能の可能性

内部に世界の物理法則や構造をある程度“わかっている”モデルがあれば、理論的には抽象的推論や計画的思考につながる可能性があります。
人間が「頭の中でシミュレーションをして物事を判断する」ように、AIが自らの内部モデルを使って「推論や計画をする」ことで、より高次の知能が生まれるのではないか、という期待も研究の原動力となっています。

4. 代表的な研究事例

4.1 Ha & Schmidhuber (2018)「World Models」

最も有名な事例の一つ。ミニマルな構成ながら、
- VAE による観測の潜在空間化、
- MDN-RNN による確率的時系列予測、
- Controller（ポリシー）による最適行動の学習
  を一つのパイプラインで実装し、CarRacing-v0（自動車レース）やVizDoom（FPSゲーム）で成功を示しました。
実際の学習では、エージェントが世界モデル上で“夢を見ながら”ポリシーを更新するステップを取り入れ、現実の環境相手に学習するよりも効率的に方策を得られたことが報告されています。

4.2 Dreamer シリーズ（Dreamer, DreamerV2, DreamerV3）

DeepMindなどの研究者が中心に開発しているモデルベースRLのフレームワークです。
「世界モデル」を構築し、その世界モデルの中だけでポリシー更新を行う“Imagination-based”学習アプローチを提案しています。
DreamerV2では、Atari 57種類のゲームを実機相当の少量ステップ（他の手法より格段に少ないステップ）で高いスコアを出すなど、驚きの成果を示しました。
DreamerV3ではさらに安定性や汎用性が高められ、3D環境・連続行動空間にも対応が強化されています。

4.3 MuZero (DeepMind, 2020)

AlphaGo → AlphaZero という歴史的成功をさらに推し進め、「ルールが明確に定義されたボードゲームだけでなく、Atariのような環境のダイナミクスも学習しながら高い性能を達成しよう」と開発された手法。
報酬と次状態の予測をニューラルネットワークで学習し、木探索(MCTS)と組み合わせて最適方策を導き出します。
囲碁・将棋・チェスだけでなく、ビデオゲームでも高い性能を示し、世界モデルの応用として大きく話題を呼びました。

4.4 PlaNet, SimPLe など

PlaNet(Danijar Hafner ら, 2019)は、画像ベースの世界モデルを用いて学習する手法で、DREAMERの基礎になった研究といえます。
SimPLe(Alexander et al., 2019)は、Atariゲームに対してデータ効率良く方策学習するためのモデルベースRLフレームワークで、当時モデルフリー型のRainbowやPPOなどと比較してサンプル効率の高さが注目されました。

5. 世界モデルの実装・アルゴリズム上のポイント

5.1 潜在表現（Latent Representation）の取得

高次元の画素情報をそのまま扱うと、状態遷移の学習が難しくなるため、VAEやβ-VAE、あるいは時系列に特化したVQ-VAE、Transformer系モデル（例えばPerceiver IOなど）を組み合わせるなど、多様な工夫がされています。
ポイントは「必要十分な情報を抽象化した潰れた潜在空間」で扱えば、ダイナミクスの学習や予測が格段に簡単になるということです。

5.2 ダイナミクスモデル（Dynamics Model）の学習

状態ztz_t と行動ata_t が与えられたとき、次状態zt+1z_{t+1} を正しく予測する関数p(zt+1∣zt,at)p(z_{t+1} | z_t, a_t) を学ぶ必要があります。
これが誤っていると、内部シミュレーションがどんどん現実から乖離してしまい、ポリシー学習も破綻してしまいます。
そのため、確率的モデリング(MDN-RNN)や注意機構(Transformer)を導入し、複雑な分布を近似できるように工夫します。

5.3 報酬モデル

タスクに依存する「報酬関数」rtr_t を予測する機能を世界モデルに組み込む場合も多いです。
「この状態や行動を取った時に得られる報酬はいくらか」を予測できれば、内部シミュレーションの段階で報酬を測りながら方策を改善できます。
タスクによっては報酬を明示的に定義しにくいものもあり、逆強化学習や学習型の「価値モデル」を組み合わせるケースも存在します。

5.4 プランニング手法との組み合わせ

世界モデルを構築した後、それを活用してプランニングを行う方法はいくつか存在します。代表的なものは以下の2種類に大別できます。
1. オンライン・プランニング (On-line Planning)
  - MuZeroのように、世界モデルを利用しながらモンテカルロ木探索(MCTS)などを動的に実行し、最適行動を選ぶ方法。
  - 計算コストが大きい反面、その時点での最善手を探せます。
2. イマジネーションロールアウト (Imagination Rollouts) + モデルフリーRL
  - Dreamerのように、ある程度世界モデルを使ってデータを“仮想生成”し、その仮想データを利用してポリシーネットワークを更新する方法。
  - オフライン的にポリシーの更新が可能になるため、実環境でのサンプル消費が削減できます。

6. 世界モデルの限界・課題

6.1 スケーラビリティ（大規模・複雑世界への対応）

現実世界は非常に多様で高次元、かつ変化も複雑です。ゲーム程度の世界であればまだ何とかなるかもしれませんが、「屋外環境や多数のエージェントが同時に存在する環境を再現する」となると、現在の手法では扱いきれない部分が多く残ります。
スケールアップを図るには、大規模なニューラルネットワークや膨大な計算資源が必要で、しかも取り込むべきデータが爆発的に増えるため、コストが非常に大きくなってしまいます。

6.2 シミュレーションと実環境のギャップ（Sim2Real問題）

ロボティクスなどでは、シミュレータ内でうまくいっても「実機で同じ行動が通用しない」ケースが往々にしてあります。
世界モデル自体も、シミュレータで学習・構築されたモデルが実環境の物理法則やノイズを正しく再現していないと無意味になってしまうため、**Sim2Real（Simulation to Real）**問題は大きな課題です。

6.3 学習の難しさ・不安定さ

世界モデルを学習する際、潜在空間の設計やダイナミクスの予測精度、報酬モデルなど、多くの要素が相互に影響を与え合うため、学習が不安定になりがちです。
実装も複雑になりがちで、モデルフリー強化学習（例: PPO, DQN）のように単純なフレームワークと比べると、デバッグやチューニングのコストが高いという現状があります。

6.4 解釈性の問題

「世界モデル」と聞くと、あたかも人間が頭の中で世界を想像するようなメンタルモデルを作っているように思われますが、実際にはニューラルネットワークの潜在ベクトルとしてエンコードされているだけです。
そのため、「モデルがどのように世界を理解・認識しているのか」を人間が直感的に捉えるのは容易ではありません。「どうしてその予測をしたのか」が解釈しにくい、いわゆる“ブラックボックス”問題は依然として存在します。

7. 今後の展望と研究の方向性

7.1 世界モデル＋基盤モデル（Foundation Model）の融合

近年急速に進む「大規模言語モデル(LLM)」や「画像生成モデル(DALL·E, Stable Diffusion)」などの“基盤モデル”との統合が期待されています。
基盤モデルは膨大な知識を含む一方で、実環境と対話して試行錯誤する機能は弱い（あるいは持たない）ことが多い。
そこで、基盤モデルを「観測エンコーダ」や「世界の構造の事前知識」として活用しつつ、強化学習で動的に世界とのインタラクションを学ぶ仕組み（＝世界モデル）が組み合わされば、より汎用的なAIが誕生するかもしれません。

7.2 モデルベースRLとプラニング技術の高度化

プランニング手法をいかに効率的に組み込むか、長期的な推論をどう実現するかは、今後の大きなテーマです。
トランスフォーマーベースのダイナミクス予測モデルなどが近年登場しており、これまでより長い時間スケールでの予測が可能になると期待されています。

7.3 生物・認知科学との連携

世界モデルという概念は、生物が外界を脳内に再現し、それを使って行動決定をする、という認知科学的テーマにも直結します。
脳がどのように世界を予測しているのか、という研究とAIの世界モデル研究を連携させることで、新たなインスピレーションや発見が生まれるかもしれません（例えば、脳科学で言う「内受容感覚や身体スキーマ」も世界モデルの一部とみなす、など）。

7.4 ロボティクス・自動運転など実社会への応用

シミュレーション空間を使ったトレーニングはロボット工学や自動運転の領域で盛んに行われています。
世界モデルが高精度・高信頼性を持てれば、実機テストを最小限にして安全かつ効率的に方策を学習できるようになり、商業利用にも大きく前進するでしょう。

8. まとめ

定義
- 世界モデル（World Model） は、エージェントが外界の状態遷移や観測を内部で再現・予測できるモデルのことを指す。特に強化学習文脈で重視される。
ポイント
- 観測の潜在表現化、ダイナミクス予測、報酬モデルなどを組み合わせた構造を持ち、エージェントが環境を“理解”し、内部シミュレーションで学習・行動を最適化できるのが大きな強み。
メリット
- サンプル効率向上: 実機・実環境を頻繁に操作しなくても内部で試行錯誤できる
- プランニング: 未来を仮想実験し、最適な行動を立案できる
- 汎用性: 観測データをうまく圧縮すれば、多様な環境にも応用可能
課題
- 大規模かつ複雑な世界を正しくモデル化することの困難
- シミュレーションと実環境のギャップ（Sim2Real）
- 学習の安定性や解釈性の不足
今後の展開
- 基盤モデルとの融合: 大規模事前学習モデルと世界モデルを組み合わせ、より高度な“総合知能”へ
- 長期プランニング: トランスフォーマーベース等で、長い時間スケールでの予測と制御を実現
- 実世界応用・シミュレーション科学: ロボティクス、自動運転、産業自動化のさらなる発展

9. 終わりに

世界モデルは、「AIが世界を“理解している”と言える状態に近づくためのキーテクノロジーの一つ」 です。
ディープラーニングの隆盛とともに「モデルフリー強化学習」も大きく伸びましたが、将来的には「世界モデルを持って能動的に動けるAI」が、より少ない試行錯誤で複雑なタスクをこなし、抽象的推論や計画にも長けたシステムになっていくと期待されています。実際の環境やロボットに応用するときのハードルはまだ高いものの、研究コミュニティでは絶え間なく改良が進められています。

「世界モデル」という考え方は、認知科学や脳科学の領域とも密接に関わり、人間の脳の働きを理解する手掛かりになる可能性もあると言われます。外界の情報をコンパクトな内部表現にしてしまい、それを使って計画・推論をするという仕組みは、我々人間の頭の中で起きていることと類似するからです。

今後、ロボティクス、自動運転、あるいはインタラクティブなエージェント（仮想空間でNPCを学習させる、など）に世界モデルが浸透していく中で、「“AIが自律的に考える”とはどういうことか」という哲学的問いにも迫っていくかもしれません。

参考文献・論文（英語含む）

Ha, D. & Schmidhuber, J. (2018). World Models. arXiv.
Hafner, D. et al. (2019). Learning Latent Dynamics for Planning from Pixels (PlaNet). (https://arxiv.org/abs/1811.04551)
Hafner, D. et al. (2020). Dream to Control: Learning Behaviors by Latent Imagination (Dreamer). (https://arxiv.org/abs/1912.01603)
Hafner, D. (2021-2022). DreamerV2, DreamerV3 論文群 (https://danijar.com/project/dreamer/)
Schrittwieser, J. et al. (2020). Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero). (https://arxiv.org/abs/1911.08265)
Kaiser, L. et al. (2019). Model-Based Reinforcement Learning for Atari (SimPLe). (https://arxiv.org/abs/1903.00374)
Silver, D. et al. (2017). Mastering the Game of Go without Human Knowledge (AlphaGo Zero). Nature. (https://www.nature.com/articles/nature24270)