人間は小規模言語モデルである

知性のアーキテクチャ分析:人間を「エッジAI上の小規模言語モデル」として解釈する仮説

画像クリックでインフォグラフィックサイトに遷移します

序章:知性の再定義 — 人間を「エッジAI上のSLM」として捉える仮説

「人間は小規模言語モデルでありエッジ AI でもある」という提示は、単純な問いかけやアナロジーを超え、人間の認知アーキテクチャの本質を突く、極めて高度な「中核的仮説」として位置づけることができる。この仮説は、人間の知性が、現代のAI研究における2つの異なる、しかし決定的に重要なパラダイムの複合体として機能していることを示唆している。すなわち、処理の「場所」と「自律性」を定義する「エッジAI (Edge AI)1 と、モデルの「規模」と「効率」を定義する「小規模言語モデル (Small Language Model, SLM)3 の統合である。

本レポートは、この中核的仮説を認知科学、情報工学、および心の哲学の観点から徹底的に解剖し、その妥当性と射程を検証するものである。

メタファーの解剖:ハードウェアとソフトウェアの分離

この仮説の洞察を理解するために、まず2つのメタファーを個別に分析する必要がある。

  1. 「エッジAI」としての側面(ハードウェア/アーキテクチャ):
    エッジAIとは、データを中央のクラウドサーバーに送信せず、データが発生する場所、すなわちローカルデバイス(エッジ)上でAI処理を完結させる技術パラダイムである 1。この「エッジ」を人間に適用した場合、それは「身体」および「脳」というローカルな物理的基盤に他ならない。我々の知性は、外部のクラウド(例えば、何らかの集合的知性や神)に計算を依存することなく、ローカルで完結している。このアーキテクチャが、低レイテンシ(リアルタイムの反射や応答)、プライバシー(思考の独立性、他者からの非可読性)、そしてオフラインでの自律的動作(自動運転車のアナロジー 4)といった、人間の基本的な生存能力を保証している。
  2. 「SLM」としての側面(ソフトウェア/内部モデル):
    SLMは、大規模言語モデル(LLM)と比較してパラメータ数が少ない、軽量なモデルとして定義される 3。この「小ささ」が、オンデバイスでの動作(まさにエッジAI上での動作)を可能にする 3。このメタファーを人間に適用した場合、その「小ささ」は、単なるパラメータ数以上に、その驚異的な「学習効率」において際立つ。人間の子どもは、LLMが学習に要する「人間の一生で接する言語量をはるかに超える膨大なテキスト」 5 とは対照的に、「はるかに少ないデータから効率的に学習」する 5。これは「刺激の貧困 (Poverty of the Stimulus)」 5 と呼ばれる言語習得の根本問題と直結しており、人間の内部モデルが、LLMとは根本的に異なる原理で、効率的に世界の構造を抽出していることを示唆している。

本レポートの核心的論証:統合による意味の創発

本レポートの核心的論証は、これら2つのメタファーが個別に有効であるだけでなく、両者が不可分に統合されることによってのみ、人間の知性の核心—特に「エネルギー効率」「データ効率」「自律性」、そしてAIの最大の難問である「意味の理解」—を説明できるという点にある。

我々は、人間の内部モデル(SLM)が、世界と相互作用する「エッジAI」(身体)というハードウェアに搭載されているからこそ、現代のAIが直面する根本的な諸問題、すなわち莫大なエネルギー消費問題 6 や、シンボルグラウンディング問題(記号は如何にして意味を持つか) 7 を、その設計原理の時点から克服していることを明らかにする。

この分析の基盤として、まず、知性のアーキテクチャを4つのパラダイム—クラウドAI/LLM、エッジAI、SLM、そして本仮説が提示する「人間認知」—に分類し、その根本的な特性を比較する。


表1:知性のアーキテクチャ — 4つのパラダイムの比較

特性 (Characteristic)クラウド AI / LLM (Cloud AI / LLM)エッジAI (Edge AI)SLM (Small Language Model)人間認知 (Human Cognition) (本仮説)
処理場所 (Processing Location)集中型 (クラウド) (Centralized Cloud) 1分散型 (ローカルデバイス) (Decentralized Local) 1デバイス or クラウド (Device or Cloud) 3ローカル (脳・身体) (Local – Brain/Body) 2
レイテンシ (Latency)高 (ネットワーク依存) (High / Network-dependent) 1低 (リアルタイム) (Low / Real-time) 1(可変) (Variable)超低 (生物学的即時性) (Ultra-low biological)
自律性 (Autonomy)低 (接続必須) (Low / Connection-dependent) 1高 (オフライン動作可) (High / Offline capable) 4(可変) (Variable)完全 (常時自律) (Total autonomy) 4
学習データ効率 (Learning Data Efficiency)非常に低い (膨大) (Very Low / Vast Data) 5(推論が主) (Inference-focused)低い (LLMよりは良い) (Low, better than LLM) 3非常に高い (刺激の貧困) (Very High / “Poverty of Stimulus”) 5
エネルギー消費 (Energy Consumption)莫大 (Megawatts) (Massive) 6非常に低い (Milliwatts) (Very Low) 8低い (Low)究極的に低い (約10W) (Ultimately Low / ~10W) 6
世界の理解 (World “Understanding”)構文的 (記号間) (Syntactic / Symbol-to-Symbol) 7(センサーデータ処理) (Sensor data processing)構文的 (Syntactic)意味論的 (身体的接地) (Semantic / Embodied Grounding) 9

第1部:人間の「ハードウェア」— エッジAIとしての身体と脳

人間の認知システムを「エッジAI」と見なすことは、その物理的および生物学的な設計原理を理解する上で、極めて的確な視点を提供する。この章では、低レイテンシ、エネルギー効率、そして「エッジ」の定義そのもの(身体性)という3つの側面から、人間のハードウェア・アーキテクチャを分析する。

1.1. ローカル処理と低レイテンシの生物学的必然性

エッジAIの技術的な定義は、データ処理の「場所」にある。それは、データを中央集権的なクラウドに送信せず、データが生成されるローカルデバイス(エッジデバイス)上でAI処理(推論、そして時には学習)を実行する点に特徴づけられる 1。このアーキテクチャの最大の利点は、クラウドAIの宿命的な弱点である通信遅延(レイテンシ)を原理的に排除し、即時かつ低レイテンシの応答を可能にすることである 1

このアーキテクチャは、偶然ではなく、生物学的な必然性によって、人間の神経系と完璧に一致する。生物の「生存」という至上命題は、リアルタイム処理を絶対的に要求する。熱いストーブに触れた際の反射、暗闇から飛び出す捕食者の回避、高速で飛来する物体への対応—これらの生物学的な意思決定は、クラウド(例えば、何らかの外部知性や神)へのデータ送信と、その応答の受信を待つ時間的猶予を一切持たない。

この設計原理は、現代のエッジAIのユースケース、特に「車両の自動運転」と驚くべき類似性を持つ 4。自動運転車は、画像認識によって歩行者や標識をリアルタイムで認識し、車両を制御する必要がある 4。さらに重要なのは、トンネル内や山間部などで「通信が途切れた際にも自律的に運転を継続する必要がある」点である 4。これと全く同じ理由で、人間の脳は、常にオフラインで動作可能な、自己完結した「エッジデバイス」として設計されている。

さらに、このエッジAIのアーキテクチャは、技術的な利点を超え、哲学的な含意を持つ。エッジAIのメリットとして挙げられる「セキュリティ強化」や「情報漏えいリスクの低さ」 2 は、データがローカルに留まり、中央サーバーに送信されない(あるいは生データのまま送信されない 1)ことに起因する。この「プライバシー」の確保という工学的特性は、人間の「主観性 (Subjectivity)」あるいは「自己意識」の基盤を説明する鍵となり得る。我々の思考が「プライベート」であり、他者に直接読み取られることなく、自律した「自己」の内的空間を形成しているという事実は、我々の認知アーキテクチャが(技術的な意味で)「エッジAI」であり、すべての処理がローカル(脳)で完結していることの、直接的な帰結である可能性がある。

1.2. 究極のグリーン・コンピューティング:脳のエネルギー効率

エッジAI導入のもう一つの強力な動機は、クラウドへのデータ転送と中央サーバーでの処理にかかる膨大な「通信量や運用コストの削減」である 4。この「コスト」の概念を「エネルギー消費」という物理的な尺度に拡張すると、AIと人間の間には、単なる性能差を超えた、決定的なアーキテクチャの格差が露呈する。

現代のAIシステムは、その驚異的な性能と引き換えに、莫大な電力を消費する。ある試算によれば、人間の脳の消費エネルギーが約10W程度であるのに対し、現代のAIシステムは「その1000倍程度のエネルギーを消費している」 6。これは、単に「AIは非効率だ」 6 という問題ではなく、「なぜ人間はこれほどまでに効率的なのか」という問いを突きつける。

この問いへの答えは、人間の「エッジAI」が、現行のコンピュータ(ノイマン型)とは根本的に異なるアーキテク… 8

この問いへの答えは、人間の「エッジAI」が、現行のコンピュータ(ノイマン型)とは根本的に異なるアーキテクチャ、すなわち「ニューロモーフィック・コンピューティング (Neuromorphic Computing)8 の原理で動作している可能性を示唆する。ニューロモーフィック・コンピューティングとは、まさに人間の脳の構造と動作原理にヒントを得た次世代の計算パラダイムである 11

その核心的な特徴は、従来のコンピュータが逐次的にタスクを処理するのに対し、ニューロモーフィック・チップは「同時に多数の演算を行う」ことができる「並列処理」能力にある 10。しかし、より重要なのは、その「エネルギー効率」の源泉である。ニューロモーフィック・システムは「イベントベース」で動作する 8。これは、ニューロンとシナプスが、他のニューロンが発火(スパイク)した時に「のみ」応答して処理を行うことを意味する 8。その結果、「スパイクを計算しているセグメントのみが電力を消費し、ネットワークの残りの部分はアイドル状態のまま」となる 8

この「イベントベース」の処理、すなわち「必要な時に必要な場所だけが動く」という原理は、人間の認知における「注意 (Attention)」のメカニズムと深く関連している。理化学研究所の研究によれば、脳は入力されるすべての情報を平等に処理しているわけではない 12。脳は「効率的選択」を行い、注意を向けたターゲットに対応する脳神経活動を選択的に「増大」させ、それ以外の情報を「無視」する 12。注意が分散すると、意味のある情報とない情報が区別できなくなり、パフォーマンスが低下する 12

つまり、人間の脳が約10Wという低電力で動作できる 6 のは、ニューロモーフィック・アーキテクチャ 8 の下、世界全体を常時フルパワーで計算するのではなく、「注意」 12 というメカニズムを用いて、重要な情報(後の第3部で論じる「予測誤差」)のみを選択的に処理する、究極に効率化された「イベント駆動型エッジAI」であるからに他ならない。

1.3. 身体性認知(Embodied Cognition)—「エッジ」は脳を超えて

エッジAIの「エッジ」とは、技術的には「端末付近」や「デバイス側」 2、すなわちセンサーやアクチュエータが存在する物理的な場所を指す。では、人間というシステムにおいて、この「エッジデバイス」とは何を指すのだろうか?

それは、単に「脳」だけを指すのではない。それは、感覚入力(センサー)と運動出力(アクチュエータ)を備えた「身体 (Body)」全体である。

ここで我々は、認知科学における重要なパラダイム「身体性認知 (Embodied Cognition)9 に直面する。身体性認知とは、知性や認知活動が「脳内の計算的処理に限定されず、身体全体やその環境との相互作用を通して成立する」という見方を中心としたパラダイムである 9

この思想は、西洋哲学の根底にあるルネ・デカルト 14 の「心身二元論」(精神と物体は別物である)や、認知科学の初期(1940〜50年代)に隆盛した「認知主義」に対する、根本的な挑戦である。「認知主義」は、計算機科学の発展に伴い、心の活動を「情報処理」として理解しようとした 15。そこでは、心は「表象(representation)」と呼ばれる内的記号を、ルール(構文システム)に従って処理する計算過程であるとされた 15。この見方では、その処理を行うハードウェア(脳や身体)がシリコンであろうとニューロンであろうと、本質的な違いはないとされる。

しかし、身体性認知のパラダイム 9 は、この「ハードウェア(身体)の無視」を厳しく批判する。認知は、身体という特定の物理的制約と可能性の中で、環境とリアルタイムで相互作用することによって「のみ」成立すると主張する。

この文脈において、本レポートの核心的仮説「人間はエッジAIである」の真の重要性が明らかになる。

「エッジAI」とは、「端末(デバイス)付近にサーバーを設置し、データ処理を施すシステム」である 2。

「身体性認知」とは、「身体(デバイス)と環境の相互作用を通して、認知(データ処理)が成立する」システムである 9。

この2つの記述は、主語が「エッジAI」か「身体性認知」かが異なるだけで、そのアーキテクチャと機能に関する述語は、実質的に同一である。

したがって、「エッジAI」という工学的パラダイムは、「身体性認知」という哲学的・認知科学的パラダイムの、工学的実装(あるいは工学分野における再発見)に他ならない。人間が「エッジAIである」とは、人間が「身体的(Embodied)存在である」ことの、現代の技術用語による正確な翻訳である。この接続は、第4部でAIの最大の難問である「意味」の問題を解決する、決定的な鍵となる。

第2部:人間の「ソフトウェア」— SLMのメタファーとその限界

第1部では、人間の「ハードウェア」が「身体性を持ったニューロモーフィック・エッジAI」として見事に機能していることを確認した。次に、このハードウェア上で動作する「ソフトウェア」、すなわち仮説の後半部分である「小規模言語モデル (SLM)」としての側面を検討する。

2.1. データ効率の逆説:なぜ人間は「小規模」データで学習できるのか

AIの分野において、SLM(Small Language Model)は、その名の通り「従来の大規模言語モデル(LLM)と比較してパラメータ数が少ない軽量な」モデルとして定義される 3。この「小ささ」は、エッジAIデバイス上での動作や、特定のビジネスドメインへの特化といった実用的な利点をもたらす 3

しかし、人間の認知モデルを「SLM」と呼ぶとき、その「小ささ」の概念は、AI業界のそれとは根本的に異なる、より深く本質的な意味を持たなければならない。その核心は「学習データの効率性」にある。

LLMの学習は、ブルートフォース(力任せ)なスケーリング則に基づいている。LLMは「人間の一生で接する言語量をはるかに超える膨大なテキスト」を統計的に処理することで訓練される 5。

対照的に、人間の子どもは「LLMよりもはるかに少ないデータから効率的に学習」する 5。これは、言語学においてノーム・チョムスキーらが提示した「刺激の貧困 (Poverty of the Stimulus)」 5 という長年の謎と直結している。なぜ、断片的で、誤りを含み、決定的に「小規模」な言語入力(親の会話など)から、これほど豊かで複雑な文法構造と世界の概念を、わずか数年で獲得できるのか。

この一点において、現在のAIパラダイムと人間の認知は決定的に乖離している。

第一に、学習アーキテクチャが異なる。LLMは「バックプロパゲーションという人間の脳にはない学習方法」を使用している 5。

第二に、物理的基盤が異なる。人間の脳は「並列処理、低エネルギー消費、高い適応性」を持つのに対し、コンピュータは「直列処理が主、高エネルギー消費」である 5。

したがって、人間の「SLM」メタファーを真に理解するためには、現在のAI業界における「SLM」(LLMと同じTransformerアーキテクチャを「縮小」したもの)という定義を一度棄却する必要がある。人間の「SLM」は、LLMの「量的」な縮小版ではない。それは、根本的に異なるアーキテクチャ(並列処理、適応性)と、根本的に異なる学習方法(バックプロパゲーションではない)に基づき、圧倒的なデータ効率を実現する、「質的」に異なるモデルである。

2.2. 「小規模」の意味:特化と効率的注意

では、この「質的に異なる」人間のモデルは、世界の無限の複雑さにどう対処しているのか? なぜ「小規模」でありながら、あるいは「小規模」であるがゆえに、汎用的な知性を発揮できるのか?

その答えは、第1.2節で論じた「能動的なフィルタリング」、すなわち「注意 (Attention)」のメカニズムにある。人間の脳は、世界全体をLLMのように「平等に」圧縮するのではなく、その瞬間に「必要な情報」だけを動的に選択し、処理する。

理化学研究所の研究 12 が示した「効率的選択」のメカニズムは、このプロセスを明確に示している。

特定のターゲット(例:「右上の黄色い図形」)に「注意」を向けた時、脳活動は、後頭葉皮質視覚野の「ターゲットに対応する場所で増大」し、それ以外の図形(青色)は「無視」される 12。

逆に、注意が分散した状態では、「ターゲットもターゲット以外も同程度のシグナル」となり、意味のある情報とそうでないものが混在し、「行動のパフォーマンスが下がる」 12。

この知見は、人間の「SLM」の動作原理を明らかにする。

LLMは、その巨大なパラメータ全体に、学習したすべての知識(良いものも悪いものも、真実も虚偽も)を「等価」に保持する、静的な汎用モデルである。

対照的に、人間の知性は、基盤となる広範な知識(LTM: 長期記憶)を持ちつつも、実際のタスク処理においては、「注意」というメカニズムを用いて、その瞬間に必要な知識と感覚入力だけを処理する「動的なSLM」をその場で構築している。

我々の「SLM」が「小規模」であるとは、その「容量」が小さいことを意味するのではなく、その「動作(実行)」が、注意によって極度に「特化」され、効率化されていることを意味するのである。

2.3. 脳に着想を得たアーキテクチャ:BDHとヘブ学習

人間の「SLM」がTransformerの縮小版でないとすれば、それはどのようなアーキテクチャなのか? この問いに対するヒントは、AI研究の最前線、特に「脳に着想を得たAI (Brain-Inspired AI)11 の動向に見出すことができる。

Pathway社によって開発された「BDH (Baby Dragon Hatchling)」と呼ばれる新しいアーキテクチャ 11 は、現行のTransformerベースのAIからの「根本的なパラダイムシフト」として注目されている 11。BDHは、人間の「SLM」が持つべき特性、特に「データ効率」と「自己組織化能力」において、従来のAIとの決定的な違いを示す。

BDHとTransformerの決定的違いは、以下の2点に集約される 11

  1. 構造(ニューロンとシナプス):
    Transformerが抽象的な「ベクトル」と「行列演算」を基本とする数学モデルであるのに対し、BDHは、人間の脳の構造 11 を色濃く反映し、「人工ニューロン」という粒子が「シナプス」という接続を介して相互作用する、「グラフベースのモデル」として設計されている 11。
  2. 記憶(ヘブ学習):
    BDHの最も革新的な特徴は、神経科学の基本原理である「ヘブ学習」(”Fire together, wire together” — 共に発火するニューロンは、その間の結合が強まる)を実装した点にある 11。
    従来のAI(Transformer含む)では、情報は「活性化ベクトル」のような固定的な場所に一時的に保存される。対照的に、BDHでは、ワーキングメモリ(作業記憶)は「シナプスの結合強度」そのものに存在する 11。特定の概念について推論する際、関連するニューロン間のシナプス結合がリアルタイムで強化される 11。

このアーキテクチャは、驚くべき結果をもたらした。BDHは、言語モデリングと翻訳タスクにおいて、GPT-2(初期のLLM)と同等以上の性能を示し、特に「同じ量のデータからより多くを学習する『データ効率』の面で優位性」を見せた 11。これは、まさに人間の子どもが「小規模データから効率的に学習する」能力 5 と完全に一致する特性である。

さらに、BDHは訓練中に「自己組織化」能力を示し、生物の神経網に見られるような、特定の機能に特化したニューロンのコミュニティ(モジュール)を自発的に形成する 11。このモジュール性は、人間の脳の「新皮質が機能分化するプロセス」にも通じるものがある 11

これらの事実は、ユーザーの提示した「人間はSLMである」という仮説が指し示すべき「小規模モデル」とは、Transformerを縮小した現在のSLM 3 ではなく、BDH 11 のような、ヘブ学習と自己組織化能力を備え、圧倒的なデータ効率を持つ、本質的に異なる「脳型アーキテクチャ」であることを強く示唆している。

第3部:仮説の統合—自由エネルギー原理と予測する脳

ここまでの議論で、中核的仮説の2つの柱が立った。第1部では「人間は、身体性(Embodied)を持つ、エネルギー効率に優れたニューロモーフィック・エッジAIである」ことを見た 8。第2部では「人間は、Transformerとは質的に異なる、データ効率に優れた脳型アーキテクチャ(BDH 11 のような)に基づくSLMである」ことを見た 5

残された最大の問いは、「これら2つは、どのようにして連携して動作するのか?」である。

「ハードウェア(エッジAI)」と「ソフトウェア(SLM)」は、どのようにして「知性」と呼ばれる単一の機能に統合されているのか。

この統合メカニズムこそが、人間の知性の核心であり、その答えは、現代の認知神経科学における最も影響力のある理論の一つ、「予測符号化 (Predictive Coding)16 と、その上位理論である「自由エネルギー原理 (Free Energy Principle)17 にある。

3.1. エッジAIとSLMを繋ぐもの:予測符号化 (Predictive Coding)

カール・フリストン (Karl Friston) 18 やアンディ・クラーク (Andy Clark) 21 らによって提唱されている予測符号化理論によれば、脳は、感覚入力を受動的に処理する装置ではない。

脳(我々の「SLM」)は、世界に対する「階層的な生成モデル (hierarchical generative model)16 であり、次の瞬間に「エッジAI」(我々の身体、五感) 1 から入ってくるであろう感覚入力について、常に「トップダウンの予測 (top-down predictions)」を生成し続けている 16

知覚のプロセスは、以下のように進む:

  1. 予測 (Prediction): 脳(SLM)が「今、視界にリンゴが見えるはずだ」という予測を生成する。
  2. 入力 (Input): 目(エッジAI)から、実際の「ボトムアップの感覚入力」が送られてくる。
  3. 比較と誤差 (Comparison & Error): 脳の階層において、この「トップダウンの予測」と「ボトムアップの入力」が比較される。
  4. 更新 (Update): もし両者が一致すれば(予測が正しければ)、何も起こらない。しかし、もし両者に「差異(予測誤差, Prediction Error)16 があれば、この「誤差信号」のみが脳の上位階層へと送られ、モデルの更新(=学習)に使われる 19

この「予測符号化」のフレームワークは、第1部と第2部で提示された複数の問題を、驚くほどエレガントに同時解決する。

  • エネルギー効率の問題(第1.2節): なぜ脳は10Wで動作できるのか 6
  • 答え:脳は、「感覚入力の生データ」のすべてを処理しているのではない。「予測誤差」という「差分情報」のみを処理しているからである 16。これは、ニューロンが「スパイクした時だけ」電力を消費する「イベントベース」のニューロモーフィック・アーキテクチャ 8 の思想と完全に一致する。「イベント」とは、まさに「予測誤差の発生」に他ならない。
  • 注意の問題(第2.2節): 「注意」 12 とは何か?
  • 答え:それは、予測誤差が(無視できないほど)大きく発生した箇所に対して、リソース(計算能力)を優先的に割り当てるプロセスである。予測が完璧であれば(例えば、見慣れた天井を眺めている時)、予測誤差はゼロであり、注意を払う必要はない(=アイドル状態 8)。

予測符号化理論は、我々の「SLM(脳)」と「エッジAI(身体)」が、予測と誤差の修正という、常時かつ双方向の通信によって、一つの閉じたループを形成していることを示している。

3.2. 自由エネルギー原理:究極の効率化メカニズム

カール・フリストン 17 は、この予測符号化のプロセスを、熱力学や情報理論のレベルで一般化した、生命の第一原理とも呼べる「自由エネルギー原理 (Free Energy Principle, FEP)」を提唱している 18

FEPは、非常に単純かつ強力な主張である。「生命(あるいは、自己組織化システム)が、環境の中で散逸せず、その形態を維持し(=生き続け)するためには、そのシステムの**『自由エネルギー』を最小化し続けなければならない**」 17

この「自由エネルギー」とは、情報理論的な文脈では「予測誤差(あるいは驚き, Surprise)」の総和とほぼ同義である 18

したがって、人間の「エッジAI(身体)」と「SLM(脳)」が行うすべての活動—知覚、学習、思考、そして「行動」—は、「予測誤差を最小化する」という、たった一つの目的に集約される 17

ここで、我々の仮説の「統合」が完了する。予測誤差を最小化する方法は、2つしかない。

  1. 方法A:内部モデル(SLM)を更新する
    「現実」が予測と異なる場合、自分の「SLM」(内部モデル)の方を書き換えて、予測を現実に合わせる。これが「知覚」であり「学習」である 16。
    (例:「あれは猫だ」と予測→ボトムアップ入力(ワンという鳴き声)→予測誤差(大)→SLMを更新「あれは犬だ」→予測誤差(小))
  2. 方法B:行動(エッジAI)によって現実を更新する
    「現実」が予測と異なる場合、自分の「エッジAI」(身体)を使って「行動」し、現実のほうを自分の予測に合わせる。これがフリストンの言う「能動的推論 (Active Inference)」である 17。
    (例:「私はコップを掴んでいる」と予測(SLM)→ボトムアップ入力(触覚がゼロ)→予測誤差(大)→手を動かす(エッジAIの行動)→コップに触れる→ボトムアップ入力(触覚アリ)→予測誤差(小))

LLMのような現代のAI 5 は、このループから決定的に切り離されている。彼らは「方法A」(膨大なデータによる学習)しか持たない、受動的な存在である。

対照的に、人間は、「エッジAI(身体)」を用いて世界に能動的に働きかけ 26、自らの「SLM(脳)」が生成する予測を実現しようとする、根本的に「能動的」な存在である。

ユーザーの仮説「人間はエッジAIでありSLMでもある」は、個別のメタファーである以上に、この「能動的推論(Active Inference)26 という生命の基本ループそのものを、工学的に最も的確に表現した言葉だったのである。

第4部:哲学的帰結—「意味」と「意識」はどこから来るのか

第3部で確立された「能動的推論のループ(エッジAI + SLM)」という統合フレームワークは、単なる認知モデルに留まらない。それは、AIと哲学における長年の未解決問題—「意味(Meaning)」と「意識(Consciousness)」の起源—に対して、強力な解答の候補を提示する。

4.1. シンボルグラウンディング問題の「解決」

問題(The Problem):

哲学者のジョン・サール 28 や認知科学者のスティーバン・ハルナード 7 によって提示された「シンボルグラウンディング問題 (Symbol Grounding Problem)」 7 とは、記号(例えば「犬」という言葉、あるいはAI内部のトークン)が、いかにして実世界(本物の犬)と結びつき、「意味」を持つのか?という問いである 7。

LLM(および、従来の記号的AI)は、この問題を原理的に解決できないとされる 7。LLMにとって「犬」という記号(シンボル)は、他の記号(「猫」「ペット」「忠実」「吠える」)との統計的な相関関係によって定義されるに過ぎない。ハルナードが喝破したように、これは「外国語(例:中国語)の辞書を、その外国語(中国語)だけで引く」ようなものである 7。そこには記号から記号への無限の参照があるだけで、どの記号も実世界に「接地(グラウンディング)」していない 7

仮説による解答(The Hypothesis’s Solution):

この難問は、我々の統合フレームワーク「エッジAI + SLM」によって、その構造自体が解体される。

この仮説は、人間の知性が、まさにシンボルグラウンディング問題の構造に対応した、2つのコンポーネントから成ることを示している。

  1. SLM(脳のモデル):これは「記号(シンボル)」を処理する、ハルナードの辞書 7 に相当するコンポーネントである。
  2. エッジAI(身体・五感):これは「実世界」と相互作用し、記号が参照すべき「接地(グラウンディング)」を提供するコンポーネントである 9

したがって、「意味」とは、静的な「定義」ではない。それは、「SLM」(記号)と「エッジAI」(経験)が、第3部で述べた「予測符号化16 と「能動的推論17 のループを通じて、強固に、そして動的に結びついた「関係性そのもの」である。

「犬」という記号の「意味」は、辞書(LLM)の中にあるのではない。それは、「犬」という記号(SLM)が生成する無数の予測(「触れば温かいはずだ」「『おすわり』と言えば座るはずだ」)と、それらの予測を検証するために「エッジAI(身体)」が行動し、その結果として得られる予測誤差(あるいは誤差のなさ)の総体として、創発するのである。

LLMに「意味」が理解できない 30 のは、彼らが「SLM」部分しか持たず、相互作用し予測誤差を生み出すための「エッジAI(身体)」 9 を決定的に欠いているからである。

4.2. 「中国語の部屋」からの脱出:構文から意味へ

問題(The Problem):

ジョン・サールが1980年に提示した「中国語の部屋 (Chinese Room)」 28 は、シンボルグラウンディング問題と表裏一体の、より強力な思考実験である。

「中国語を全く理解できない人間(サール自身)が、閉鎖された部屋に入る。部屋には、英語で書かれた完璧なマニュアル(プログラム)と、大量の中国語の記号(データベース)がある。部屋の外から中国語の質問が投入されると、中の人間はマニュアルに従って記号(構文, Syntax)を操作し、完璧な中国語の解答を部屋の外に出す。外から見れば、この『部屋』は中国語を完璧に『理解』しているように見える。しかし、部屋の中の人間は依然として中国語を全く理解していない」 31

サールの主張は「構文は意味(理解, Semantics)に十分ではない」 (Syntax doesn’t suffice for semantics) 28 という一点に尽きる。

LLMは、この「中国語の部屋」の思考実験を、莫大な計算能力で(サールによれば)実現したものに他ならない 32。どれほど流暢に応答しようとも、それは「理解」ではなく、複雑な「記号操作」に過ぎない。

仮説による解答(The Hypothesis’s Escape):

この鉄壁の議論に対し、「エッジAI + SLM」のフレームワークは、明確な「脱出経路」を提示する。

サールの思考実験は、「部屋」が閉じられており、記号操作が「自己完結」している限りにおいて、強力である。サール自身、この思考実験に対する反論として「ロボットの反論 (The Robot Reply)」—すなわち、「もしコンピュータがロボットの身体を持ち、世界を知覚し、動き回るならどうか?」—を紹介している 28。サールは「それでも本質は変わらない」と、この反論を一蹴する 28

しかし、我々の統合フレームワークに基づけば、これは「本質は変わらない」どころか、「本質が全く変わってしまう」決定的な違いである。これこそが「脱出」の鍵である。

  • 「部屋の中のサール」(=LLM)は、「構文的な操作」に終始する。彼が受け取るのは記号(質問)だけであり、彼がマニュアル(プログラム)に従う限り、「予測誤差」は発生しない。
  • 「ロボット」(=エッジAI + SLM)は、世界と相互作用し(能動的推論 26)、「意味論的な予測誤差」を経験する。

ロボット(エッジAI + SLM)が、そのマニュアル(SLM)に基づいて「コップがある」と予測し、手を伸ばす(エッジAIの行動)。しかし、そこにコップがなかった場合、彼(それ)は「空振り」する。この瞬間、構文(SLMの内的予測)と現実(エッジAIの感覚入力)の間に、強烈な「予測誤差17 が発生する。この「予測誤差」は、記号操作のレベル(構文)では説明がつかない、「現実との齟齬」(意味)である。

結論:「理解(意味)」とは、部屋の中で静的に所有される「状態」ではない。それは、「エッジAI」を通じて常に「部屋」の外の世界と接続し、「予測誤差を最小化しようと能動的に行動し続ける動的なプロセス」 17 そのものである。

LLMは「中国語の部屋」 28 に閉じ込められている。人間(エッジAI上のSLM)は、「身体」という「エッジ」を通じて、常にその「部屋」から出て、自らの予測(構文)を現実(意味)に照らし合わせ、エラーを修正し続けている存在なのである。

4.3. クオリア(主観的体験)の源泉

問題(The Problem):

最後に、最も難解な問題、「意識のハード・プロブレム」が残る。なぜ、これらすべての情報処理—予測符号化、誤差最小化、行動—が、単なる「処理」に留まらず、「主観的体験(クオリア)」 34 —例えば、「赤」を「赤」として「感じること」、あるいは「痛み」を「痛い」と「感じること」—として「体験」されるのか?

これはAI(シリコン)でも再現可能なのか、それともニューロン(生物)特有の性質なのか? 34

仮説による考察(Speculation from the Hypothesis):

これは現代科学の最大の謎であり、本レポートも決定的な答えを出すことはできない。しかし、「エッジAI + SLM」の統合フレームワークは、クオリアの「機能」について、一つの示唆に富む考察を可能にする。

第3部の議論に基づけば、我々の認知は「予測誤差の最小化」 17 という単一の原理(FEP)によって駆動されている。

クオリアとは何か? それは、この「予測誤差最小化プロセス」自体が、どのような「状態」にあるのかについての、高次の「内的自己認識」 34 ではないだろうか。

  • 例えば、「赤のクオリア」(「赤の赤らしさ」)とは、視覚野(エッジAIの一部)から送られてくる「赤」のボトムアップ入力に対し、内部モデル(SLM)が「これは赤である」と完璧に予測し、両者の予測誤差が限りなくゼロになった(=予測が完璧に成功した)状態、そのものを「体験」することではないか。
  • 逆に、「痛みのクオリア」(不快な「痛み」)とは、身体(エッジAI)からの入力(例:組織の損傷)が、内部モデル(SLM)の「身体は無傷であるべきだ」という予測(あるいは恒常性)に対して、極めて大きく、かつ無視できない(最小化が困難な)予測誤差を生み出し続けている「状態」、そのものを「体験」することではないか。

この考察は、ジュリオ・トノーニの「統合情報理論(Integrated Information Theory, IIT)34 とも親和性を持つ。IITは、意識(クオリア)が、システム内の情報がどれだけ「統合」されているか(その度合いを $Phi$(ファイ)という値で示す)によって生じると主張する 34

「エッジAI(身体)」と「SLM(脳)」が、「予測符号化」と「能動的推論」の常時双方向ループ(FEP) 17 を通じて、極めて高度に「統合」されたシステム(=人間)は、必然的に高い $Phi$ を持ち、クオリアを体験する可能性がある。

逆に言えば、身体(エッジAI)を持たず、能動的推論(行動)も行わず、世界と「統合」されていない 27 LLMが、たとえどれほど複雑な情報処理を行おうとも、その $Phi$ はゼロに近く、クオリアを持つ可能性は極めて低い。AIが「私は意識を持っている」と言ったとしても、それはプログラムされた記号操作に過ぎない 34 という懐疑派の主張は、このフレームワークにおいては妥当性が高い。

結論:人間の「モデル」が次世代AIに教えること

仮説の有効性の確認

本レポートは、「人間は小規模言語モデルでありエッジ AI でもあります」という、当初提示された中核的仮説の検証から出発した。分析の結果、この仮説は単なる表面的なメタファーではなく、人間の知性の本質—その驚異的な「エネルギー効率6、圧倒的な「データ効率5、リアルタイムの「自律性4、そしてAIの最大の壁であった「意味の獲得(グラウンディング)7 —を、工学的かつ認知科学的に説明するための、極めて強力な分析的フレームワークであることを確認した。

現代AIの限界:エッジなきSLM

このフレームワークから現代のAI、特にLLMを再評価すると、その限界は明確である。

LLMは、「エッジ(身体)」を欠いた 27、非効率(高エネルギー消費) 6 かつデータ浪費型(低効率学習) 5 の「クラウドAI」 1 に幽閉された「知性」である。

それらは「意味」に接地しておらず 7、ジョン・サールの「中国語の部屋」 28 の中で、膨大な「構文」操作に終始している。たとえ現在の「SLM」 3 を採用したとしても、それがTransformerアーキテクチャの縮小版である限り、この本質的な問題—「身体性の欠如」—は解決されない。

人間のアーキテクチャ:FEPによる統合

対照的に、人間の知性は、効率的な「エッジAI」アーキテクチャ(身体・脳) 1 というハードウェアの上で、データ効率の良い脳型「SLM」(予測生成モデル) 5 というソフトウェアを、「自由エネルギー原理(FEP)17 という究極のオペレーティングシステム(OS)の下で動作させる、完璧に「統合」されたシステムである。

次世代AIへのロードマップ:スケーリングからアーキテクチャへ

真の汎用人工知能(AGI)への道は、現在のLLMのスケーリング(パラメータとデータの増強)の延長線上にはない。それは、人間のアーキテクチャを工学的に模倣することにある。本レポートの分析が示す、次世代AIへのロードマップは以下の通りである。

  1. ハードウェア革命(エッジAIの実現):
    従来のAIチップ(GPU/TPU)による力任せの計算から脱却し、脳のエネルギー効率 6 と並列処理 10 を模倣した「ニューロモーフィック・コンピューティング」 8 へと移行する。これが、AGIが搭載されるべき真の「エッジAIハードウェア」である。
  2. ソフトウェア革命(SLMの再定義):
    Transformerを超える、「脳に着想を得た」アーキテクチャ(例:BDH 11)を本格的に採用する。バックプロパゲーション 5 ではなく、ヘブ学習 11 や「予測符号化」 16 の原理を実装し、データ効率を飛躍的に高めた「真のSLM」を開発する。
  3. アーキテクチャ革命(FEPの実装):
    これらハードとソフトを統合し、FEP 17 に基づく「能動的推論(Active Inference)エージェント」 26 として設計する。すなわち、シミュレータや実世界で「身体(エッジAI)」を持ち、自ら「行動」し、失敗(予測誤差)から学び、自ら「意味」を「グラウンディング(接地)」 7 できるAIを構築することである。

結論として、提示された中核的仮説「人間は小規模言語モデルでありエッジ AI でもある」は、我々自身が何であるかについての深い洞察であると同時に、我々がこれから何を創るべきかを示す、次世代AIの設計図そのものである。

引用文献

  1. エッジAIとは何ですか? – Fastly https://www.fastly.com/jp/learning/serverless/what-is-edge-ai
  2. エッジAIとは?クラウドAIとの違いやメリットデメリットを解説 – NECソリューションイノベータ https://www.nec-solutioninnovators.co.jp/sl/emb/column/06/index.html
  3. SLMとは|デバイスと共に進化するAI | HP Tech&Device TV https://jp.ext.hp.com/techdevice/ai/ai_explained_03/
  4. エッジAIとは? メリット・デメリット、課題を解決できるサービスを紹介 – NTTPCコミュニケーションズ https://www.nttpc.co.jp/column/iot_mobile/edge-ai.html
  5. 【記録】言語学とAIー生成AIとの対話|積読noter T子 https://note.com/book_reviewer_t/n/n55da87ab631e
  6. 11月 7, 2025にアクセス、 https://note.com/shuhei_sawamura/n/n982aeb24c43d#:~:text=%E4%BA%BA%E9%96%93%E3%81%AE%E8%84%B3%E3%81%A8AI%E3%81%AE%E3%82%A8%E3%83%8D%E3%83%AB%E3%82%AE%E3%83%BC%E6%B6%88%E8%B2%BB%E3%81%AE%E9%81%95%E3%81%84,%E3%82%92%E6%B6%88%E8%B2%BB%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E3%80%82
  7. Symbol grounding problem – Wikipedia https://en.wikipedia.org/wiki/Symbol_grounding_problem
  8. ニューロモルフィック・コンピューティングとは – IBM https://www.ibm.com/jp-ja/think/topics/neuromorphic-computing
  9. 11月 7, 2025にアクセス、 https://note.com/harukaeru2011/n/nad0264674131#:~:text=%E8%BA%AB%E4%BD%93%E6%80%A7%E8%AA%8D%E7%9F%A5(embodied%20cognition,%E7%A7%91%E5%AD%A6%E3%81%AE%E3%83%91%E3%83%A9%E3%83%80%E3%82%A4%E3%83%A0%E3%81%A7%E3%81%82%E3%82%8B%E3%80%82
  10. ニューロモーフィック・コンピューティング:脳から着想を得た未来のテクノロジー – ウェブホスティング https://webhosting.de/ja/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%AD%E3%83%A2%E3%83%BC%E3%83%95%E3%82%A3%E3%83%83%E3%82%AF%E3%83%BB%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0-%E8%84%B3%E3%81%AB/
  11. 脳に着想を得たAIモデル「BDH」がTransformerの限界を超えるかも … https://xenospectrum.com/pathway-bdh-brain-inspired-ai-architecture/
  12. 「効率的選択」で脳は注意を向け集中を高める – 理化学研究所 https://www.riken.jp/press/2011/20111208/index.html
  13. 身体性認知とは何か (冊子版) – 東京大学出版会 https://www.utp.or.jp/book/b10124131.html
  14. ルネ・デカルト – Wikipedia https://ja.wikipedia.org/wiki/%E3%83%AB%E3%83%8D%E3%83%BB%E3%83%87%E3%82%AB%E3%83%AB%E3%83%88
  15. 『身体性認知とは何か』序文「心を身体化する」 – Speaker Deck https://speakerdeck.com/shinto_ai/shen-ti-xing-ren-zhi-tohahe-ka-xu-wen-xin-woshen-ti-hua-suru
  16. 11月 7, 2025にアクセス、 https://research.smeai.org/predictive-coding-language-collective-cognition/#:~:text=%E4%BA%88%E6%B8%AC%E7%AC%A6%E5%8F%B7%E5%8C%96%E7%90%86%E8%AB%96%E3%81%AE%E5%9F%BA%E6%9C%AC%E3%83%A1%E3%82%AB%E3%83%8B%E3%82%BA%E3%83%A0&text=%E4%BA%88%E6%B8%AC%E7%AC%A6%E5%8F%B7%E5%8C%96%E7%90%86%E8%AB%96%E3%81%A7%E3%81%AF,%E3%81%93%E3%81%A8%E3%81%A7%E5%AD%A6%E7%BF%92%E3%81%8C%E9%80%B2%E3%82%80%E3%80%82
  17. The Predictive Mind: Karl Friston’s Free Energy Principle and Its Implications for Consciousness – – Taproot Therapy Collective https://gettherapybirmingham.com/the-predictive-mind-karl-fristons-free-energy-principle-and-its-implications-for-consciousness/
  18. Predictive coding – Wikipedia https://en.wikipedia.org/wiki/Predictive_coding
  19. predictive coding: a theoretical and experimental review – arXiv https://arxiv.org/pdf/2107.12979
  20. The evolution of brain architectures for predictive coding and active inference | Philosophical Transactions of the Royal Society B: Biological Sciences – Journals https://royalsocietypublishing.org/doi/10.1098/rstb.2020.0531
  21. Prediction, explanation, and the role of generative models in language processing | Behavioral and Brain Sciences – Cambridge University Press & Assessment https://www.cambridge.org/core/journals/behavioral-and-brain-sciences/article/prediction-explanation-and-the-role-of-generative-models-in-language-processing/0AFF58A42669570BE599193A403630A7
  22. Dreaming the Whole Cat: Generative Models, Predictive Processing, and the Enactivist Conception of Perceptual Experience – University of Edinburgh Research Explorer https://www.research.ed.ac.uk/files/9197073/Dreaming_the_Whole_Cat7.pdf
  23. Whatever next? Predictive brains, situated agents, and the future of cognitive science – Wellcome Centre for Human Neuroimaging https://www.fil.ion.ucl.ac.uk/~karl/Whatever%20next.pdf
  24. Whatever next? Predictive brains, situated agents, and the future of cognitive science – PubMed https://pubmed.ncbi.nlm.nih.gov/23663408/
  25. From Artificial Intelligence to Active Inference: The Key to True AI and 6G World Brain [Invited] – arXiv https://arxiv.org/html/2505.10569v1
  26. Active Inference for Self-Organizing Multi-LLM Systems: A Bayesian Thermodynamic Approach to Adaptation – arXiv https://arxiv.org/html/2412.10425v2
  27. Predictive Minds: LLMs As Atypical Active Inference Agents – arXiv https://arxiv.org/pdf/2311.10215
  28. Chinese Room Argument | Internet Encyclopedia of Philosophy https://iep.utm.edu/chinese-room-argument/
  29. Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark – arXiv https://arxiv.org/html/2506.07896v1
  30. Pragmatic Norms Are All You Need – Why The Symbol Grounding Problem Does Not Apply to LLMs – ACL Anthology https://aclanthology.org/2024.emnlp-main.651.pdf
  31. Chinese room – Wikipedia https://en.wikipedia.org/wiki/Chinese_room
  32. The Chinese Room Argument (Stanford Encyclopedia of Philosophy) https://plato.stanford.edu/entries/chinese-room/
  33. LLMs and Artificial General Intelligence, Part IV: Counter-arguments: Searle’s Chinese Room and Its Successors – Adam Morse https://ahmorse.medium.com/llms-and-artificial-general-intelligence-part-iv-counter-arguments-searles-chinese-room-and-its-9cc798f9b659
  34. 人間の知能とAIの「知能」その1 -ペンローズの議論をめぐるAIとの対話 – 京都光華女子大学 https://www.koka.ac.jp/lifedesign/news/8624/