信念のウェブとしてのエージェント(11 分読了)
本記事は、エージェントの信念を局所的には整合的だが全体的には矛盾しうる「信念ウェブ」としてモデル化し、アクティブ推論や確率的依存グラフなどの理論を統合する新しい枠組みを提案している。
キーポイント
信念ウェブの核心:局所整合性 vs 全体整合性
エージェントの信念は理想的な合理性に至るまで、近隣同士では整合的だが、全体的には矛盾しうるという前提に基づき、単一の確率分布で記述する従来の枠組み(因果グラフなど)の限界を指摘している。
既存理論の統合と拡張
リチャードソンの確率的依存グラフ(PDGs)やガラブラント帰納法といった、グローバルな不整合を扱えるフレームワークを組み合わせ、信念、目標、行動を単一の現象の三つの側面として統一的に捉えようとしている。
概念の形式化におけるハイパーエッジとトレーダー
PDGs の「ハイパーエッジ」やガラブラント帰納法の「トレーダー」を、基礎レベルの信念(感覚入力など)に対する局所的な制約を加えるステップとして位置づけ、「概念」という抽象的なアイデアを形式化する手段としている。
影響分析・編集コメントを表示
影響分析
この記事は、現在の LLM や強化学習エージェントが抱える論理的矛盾や信念の不一致といった課題に対して、より深い数学的・哲学的基盤を提供する可能性があり、次世代の推論型 AI の設計指針となる重要な理論的貢献です。ただし、具体的な実装コードや製品への直接適用は現時点では想定されにくく、主に研究コミュニティにおけるパラダイムシフトを促す意義が大きいと言えます。
編集コメント
実用化された製品ニュースではありませんが、AI エージェントの内部構造を「信念ウェブ」という新しい視点で再定義した、非常に示唆に富む理論的考察です。AGI の理解を深める上で重要な一歩となるでしょう。
本稿では、知的エージェントを信念の網(あるいは単に信念の網)として捉える非公式なモデルを描き出します。この信念の網という枠組みは、能動的推論、エージェント基礎理論、機械学習からのアイデアを集約するものです。それによって、信念・目標・行動を単一の現象の三つの側面として統合することを目指しています。これらのアイデアの多くは私に由来するものではありませんが、これまでこれらを一つの場所に結びつけた人を見たことはありません。本稿 throughout にて、私が参照している枠組みにはフラグを立てています。
信念は局所的整合性制約によって結合される
信念の網の中核となる前提は、エージェントの信念は通常、近接する信念とは*局所的*に整合しているが、すべての他の信念と必ずしも*全球的*に整合しているわけではない(理想的な合理性の極限においては別として)という点です。これは、エージェントを単一の確率分布(因果グラフ、ソロモノフ推論、能動的推論など)で記述する枠組みにとって問題となります。
グローバルな不整合を処理できる2つの枠組みとして、Richardson の確率的依存グラフ(PDGs)とGarrabrant 帰納法が挙げられます。これらはそれぞれ経験的な不整合と論理的な不整合に焦点を当てていますが、ここではその違いは一旦抽象化して扱います。PDG のノードを Garrabrant 帰納法の命題に大まかに類推することができます。私はこれらを「基礎レベルの信念」と呼びます。私が主に考える基礎レベルの信念の中心的なタイプは、感覚入力に関する信念です。[[1]](#fn38cdnvw1q1g)
そして、PDG(具体的には超辺)と Garrabrant 帰納法(具体的にはトレーダー)の両方に、基礎レベルの信念に局所的な制約を課す第2層の構造が存在します。私はこの超辺やトレーダーを、「概念」という概念を形式化するステップとして捉えています。[[2]](#fnl4lxbcv75t) 例えば、角の向こうから猫の前半身が現れ始めたとき、「猫」に関する超辺またはトレーダーは次に何が見えるかについて予測を行い、それによって基礎レベルの信念を形成します。
しかし、ちょうど2層の構造を持つことはむしろ人工的に思える。アクティブ・インファレンス/予測処理においては、心は階層的生成モデルとして捉えられ、階層の各層が下位の概念を参照して新たな概念を形成する[[3]](#fnq6v6sftxiih)。深層学習の成功は、このような階層的な概念形成に本質的に重要な何かが存在することを示唆している。一方、ハイパーエッジが他のハイパーエッジを接続したり、トレーダーが他のトレーダーを対象に取引を行ったりすることはできない。
したがって、「信念ウェブ」という用語は、内部的矛盾と階層的な概念形成の両方を処理できる枠組みへの(まだ曖昧な)指針として捉えることができる。私が現在直面する核心的な難問は、高レベルの概念を用いて定式化された命題が真か偽かをどう判断するかである。なぜなら、これらの概念自体が二値的な真理値を持たないからである(例えば、トレーダーが常に明確に正しいとか間違っているわけではなく、単に利益率が高いか低いかの問題だから)。しかし、この混乱があるにもかかわらず、信念ウェブが備えるべき他の興味深い性質を以下のように具体化することは可能と思われる。
行動は信念である
PDGs や Garrabrant の帰納器は、エージェントではなく認識過程です。しかし、Abram Demski の FixDT に関する投稿 は、認識過程を行動を選択するものとして捉えるための非常に興味深い提案を提供しています。Abram が指摘するように、エージェントの信念は、行動を通じて間接的に影響を与えるだけでなく、世界に直接影響を与えることがあります。これは意思決定理論における思考実験で一般的であり、予測者は他のエージェントをシミュレーションすることに基づいて判断を下すことがよくあります。標準的な意思決定理論は、どのようなケースを「公平な」意思決定問題とみなすかにおいて異なります。FDT(因果的決定理論)支持者は、意思決定問題がエージェントの全体的な方針(仮想的な状況下での行動の仕方を含む)に依存することは公平であると考えます。一方、多くの CDT(因果的決定理論)支持者は、公平な意思決定問題はエージェントの実際の意思決定のみに基づかなければならないと考えています。しかし、両グループとも、エージェントがその方針をどのように選択するかという「方法」に依存する意思決定問題が不公平であると一致して考えています。
しかし、多くの現実のシナリオ(ほとんどの社会的相互作用を含む)は、外部行動だけでなく思考によっても影響を受けます。したがって、この動的な側面を単に無視することはできず、そのような場合に対処する方法を検討する必要があります。ある意味ではこれは複雑化ですが、他方では単純化でもあります。なぜなら、信念と行動が統合されるからです:私たちは、信念を持つことが外部アクチュエータの介入によって実現すると期待される信念のサブセットとして行動を単に考えることができます。[[4]](#fnz0m8aqvld5q) 例えば、私は私の神経系(またはニューラルリンクインターフェース)が、「腕を動かす」という信念を見守り、それに応じて腕を動かすと考えることができます。
私はこれを行動の自己予測モデルと呼びます(これは、合理的エージェントが期待効用が最も高い行動を直接実装する暗黙的な標準的「argmax モデル」と対比されるものです)。この自己予測モデルは、アクティブ・インフェレンスにおける「行動としての予測」という考え方に密接に関連しています。しかし、アクティブ・インフェレンスとガラブラントの帰納法との間の決定的な違いは、後者だけが自己言及のパラドックスを処理できる点にあります(これは この論文 で先駆的に確立された確率論的論理アプローチによるものです)。したがって、ガラブラント帰納器は、「私が X を信じれば、X は実現する」といった文を信じる能力を持つべきであり、それが困難を引き起こすことはありません。これは、どの予測を行動として考えるべきかという認識論的な基盤を提供し、さらに通常は行動とは考えられていない事象にも一般化されます。例えば、私の未来の自分が現在の意図を記憶し、それを実現しようと試みるとすれば、意図を設定することと実際に行動を起こすことの間には連続性があります(関連して、Sahil の「祈り」という概念 を参照してください)。あるいは、他の人々が私が選挙に勝利する(または クーデターを成功させる)ことを誠実に期待していると知り、それゆえ私を支援するとすれば、その信念を持つこと自体もまた、非常に行動的な行為と言えます。
実際、行動の自己予測モデルにおいては、効果的なエージェントとなるための多くの困難な作業は、信念を管理することにあります。この自己予測モデルでは、「ある行動がよい考えである」と信じるのと、実際にそれを実行するとの間にギャップが生じます。なぜなら、あなたは「よい考えに基づいて行動するタイプのエージェントだ」という信念も同時に必要とするからです。これは心理学における自我の中心的な役割を説明し、人々がなぜしばしば否定的なフィードバックに敏感であるかを説明します。なぜなら、そのフィードバックを間違った方法で受け入れることは、一貫して行動する能力を損なう可能性があるからです。代わりに、人々は通常、自分自身を良質で生産的かつ信頼できるエージェントとして確立し維持するために膨大な時間を費やしています。このようなアイデンティティは一種の信念ですが、それを形成するプロセスはベイズ更新(Bayesian updating)という用語では記述できません。なぜなら、それはしばしば複数の異なる自己実現的な信念の間で選択することを含むからです。
自己予測モデルは、内部対立(これは最大値選択モデルでは説明が難しい現象です)も説明するのに役立ちます。最適な行動を特定することがそれを実行するに十分であれば、私たちはこれほどまでに先延ばししたり、自らを破滅させたりすることはないでしょう。しかし、私たちの推論プロセスは、私たちが取るであろう行動についての全体的な期待に対する入力の一つに過ぎません。他の入力には、アイデンティティ(これがコミットメント・メカニズムとして機能します)[[5]](#fnblx166eyyxf)、長年の習慣を続けるとの予測(それが自分にとって悪だと知りつつも)、感情的な記憶とトラウマ、そして学習された(または進化的に獲得された)直感やヒューリスティクスが含まれます。
目標は信念である
行動の選択方法については多く語ってきましたが、その背後にある目標についてはあまり触れていません。アブラムのオリジナルの FixDT フレームワークでは、効用関数は信念とは別に存在します:FixDT エージェントは信念(自分が取るであろう行動についての信念を含む)のすべての不動点を検索し、その後、最も高い効用を持つ不動点を選択します。しかし、これは行動を信念として扱うことで排除した醜い最大値選択を再導入することになり、5 と 10 の問題のような課題を引き起こします。また、あらゆる行動を実行するには、グローバルな均衡(そしてさらに悪いことに、*すべての* グローバルな均衡)を特定する必要が生じます。
では、良い固定点へと導くための別の方法はあるのでしょうか?アブラムが議論する主な代替案は、目標を信念として解釈する能動的推論アプローチです。具体的には、能動的推論における目標とは、人工的に高い確信度で固定された信念です。そこから、その目標の達成と整合的な行動をとる可能性が高いと推論できます。[[6]](#fnd68tk4vexo5)
私はこの現在の形では機能しないと思いますが、正しい方向を指し示していると思います。玩具例を用いて説明します(なお、完全な能動的推論形式体系についてはまだ混乱しており、重要な点を見落としている可能性があっても驚かないようにしています)。まず、以下の整合した信念のセットから始めたと仮定しましょう:
- P(来月のレースに勝つ | 今月トレーニングする) = 0.36
- P(来月のレースに勝つ | 今月トレーニングしない) = 0.04
- P(来月のレースに勝つ) = 0.12
- P(今月トレーニングする) = 0.25
私は「今月トレーニングする」を、前節で説明した意味での行動として扱います。つまり、それに対する私の確信度は自己実現的な性質を持ちます。次に、レースに勝つことに対する確信度を 0.12 よりも高いもの(数値の便宜上、任意に 0.28 とします)として目標を表現し、他の確信度をそれに合わせて更新すると仮定しましょう。これが整合するようになる一つの方法は以下の通りです:
- P(win race next month | train this month) = 0.36
- P(win race next month | ¬train this month) = 0.04
- P(win race next month) = 0.28
- P(train this month) = 0.75
したがって、私は今月のトレーニングを行う確率を 25% から 75% に更新しました。これにより、私が望む結果に近づいています!しかし、ここには二つの大きな問題があります。第一に(他の制約がない限り)、レースに勝ちたいのであれば、確実性をもってトレーニングすべきです。0.75 という数値は、自分がトレーニングを行うかどうかについての私の初期の事前分布における任意の産物であり、効用最大化者が取るべき行動ではありません。
二つ目の問題は、レースでの勝利という信念をあまりにも高く固定してしまうと、その信憑性を整合させるような行動が存在しなくなり、代わりに他の信念を変更して整合性を回復させる必要があるということです。より一般的に言えば、いくつかの信念を人為的に高く設定することは、私たちの信念ウェブ全体に誤りが伝播する結果になると考えられます。
アクティブ・インフェレンス(active inference)の文献にはこの問題に対する解決策があるとは思いません(ただし、十分に深く探求したわけではないため自信はありません)。しかし私にとって自然な対応は、目標を固定すること自体を避け、「信念を目標方向へ引き上げようとする力」について考えることです(これを私は*drives*と呼びます)。逆に、経験的・実証的な信念の確信度は、経験的証拠という力の働きによって位置に引き込まれるものとして捉えるべきです(これをアンカーと呼びます)。信念ウェブは、これらの二種類の力—drives と anchors—がバランスしたときに均衡状態に至ります。
上記の例では、まず「来月のレースに勝つ確率」を 0.1 と仮定し、この信念に対して上方への力を加えます。これにより、「今月トレーニングすれば来月のレースに勝つ確率」と「今月トレーニングしなければ来月のレースに勝つ確率」がわずかに上昇するかもしれませんが、それらの値は経験的証拠によって固定されているため、大幅な変化はありません。一方、「今月トレーニングする確率」は経験的証拠によって強く固定されていません。なぜなら、その値のいかなるものも自己実現的な性質を持つからです。したがって、「来月のレースに勝つ確率」を上方へ引き上げることは、「今月トレーニングする確率」も同時に上方へ引き上げることになり(場合によってはほぼ 1 にまで上昇し)、システム全体が常に概ね整合性を保ったままとなります。[[7]](#fnczfcbi2o0sj)
私たちは、自分の欲求が経験的信念を動かす状況にあるのではないかと懸念するかもしれません。しかし、完全に合理的なエージェントとは、行動確率を、経験的証拠への固定の強さに対して任意に小さな大きさの動機(drives)を用いて動かす極限ケースとして定義することができます。そうすれば、そのようなエージェントの効用関数を、その極限において行うであろう選択に基づいて定義できるかもしれません(ただし、すべての動機が比例して減少するように注意を払う必要があります)。
この「任意に小さな大きさの駆動力」というアイデアのバージョンは、もともと Davidad によって「冪零的選好(nilpotent preferences)」という用語を用いて説明されました。私の知る限り、このアイデアは彼に由来するものです(ただし、これは Scott Garrabrant の自己予測下での行動を不動点とみなすアイデア と密接に関連しています)。私の記憶では、Davidad はまず、エージェントの選好分布と信念分布との距離が 0 に収束していくこととしてこれを説明しました。その後、彼は選好分布さえも必要ではなく、選好をベクトル場として考えるだけでよい可能性を提示しました。本稿では、離散的な信念について推論する際の直感的理解に役立つと考えられるため、ベクトル場ではなく個々の「力(forces)」について言及しています(ただし、Davidad の関連する直観の一部を見落としている可能性があります)。
私はこれらの力を「選好」ではなく「駆動」と呼ぶことにしています。なぜなら、私の現在の推測では、信念のネットワークが人間をモデル化する上で有効である限りにおいて、駆動は進化的にハードコードされた欲求に対応し、信念のネットワークを通じて伝播することでより高次な目標に影響を与えるだけだからです。例えば、「明日は快楽を感じるだろう」や「今晩はストレスを感じないだろう」といった低レベルの信念に対して作用する力は、「すぐに論文を完成させる」といった高次な目標の均衡した確信度に大きな影響を与える可能性があります。言い換えれば、「すぐに論文を完成させる」が目標となるのは、私たちがそれに割り当てる確信度が下位レベルで作用する駆動に敏感であるという事実によるものです。しかし、そのような力はゼロサイズの駆動という極限を除けば、他のすべての信念にもある程度影響を及ぼすため、信念のネットワーク内における選好/目標と「純粋な」信念との区別は程度の問題に過ぎません。
信念のネットワークに関する未解決の問題
私が上記で描いた図式は非常にエレガントだと感じています。これは、アクティブ・インファレンス(行動は自己実現的な予測であり、目標は楽観的な信念である)が提供する美しい統合を踏まえつつ、少なくともそれをより確固たる基盤の上に置く方向へと指し示しています。もちろん、大きな未解決の問題は、これらの主張をより精密かつ厳密なものにし、それらに対する信頼度を高める方法を見つけることです。
このような形式化された枠組みを確定させるためには、いくつかの中核的な概念的問いに取り組む必要があるように思われます:
- 信念の網は原理的に最良の均衡点に到達できるのでしょうか?デフォルトでは、局所的な均衡点に陥ってしまうように思われます。FixDT と異なり、最良の均衡点へと「ジャンプ」するメカニズムを持っていないからです。この問題を解決するための私の暫定的な仮説は、信念の網が既存の信念からの干渉を受けずに仮定命題の帰結を探索できるのであれば、現在の均衡点から確率質量を徐々に他の仮定された均衡点へとシフトさせることができるかもしれない、というものです。
- 信念の網は暗黙的に EDT(証拠に基づく意思決定)を実装しているように思われますが、これは既存の信念からの干渉なしに仮定命題を評価することを苦手とします。しかし、両者の最良の側面を得るような形で、FDT/UDT に似た創発的性質を持っている可能性はないでしょうか?ここでの直感的なつながりは、FDT が矛盾を広げることで「崩壊」させることなく、論理的に不可能な仮定命題を考慮することに基づいている点にあります。
- 私は信念の網における自己参照という概念について、かなり適当に扱ってきました。これが基本的に問題なく機能するのか、それとも私が見過ごした重要なニュアンスがあるのかについては不確実です。例えば、行動を「もし X を信じれば、X が起こる」といった信念によって定義されると考えるなら、高次信念(例えば、「もし『もし X を信じれば X が起こる』と信じるならば、そして X を信じれば X が起こる」)も必要になるのでしょうか?これは非常にロビアン的であり、これをすべて基礎づけるためにロビアンの協力が必要になるのではないかという疑問を抱かせます。
- 最初のセクションで言及した通り、それらの概念自体が二値の真理値を持たない場合、高レベルな概念を用いて定式化された命題が真であるとか偽であるということは何を意味するのでしょうか?
私の長期的な希望は、信念の網によって個々のエージェントを、知能ある主体性を推論する際に組み込む必要があるものではなく、創発的な現象として捉えられるようにすることです。すべての知的存在を、巨大で高度に非均衡状態にある信念の網の一部とみなすことも可能かもしれません。その場合、「エージェント」とは、その領域内の更新を外部からの更新よりもはるかに信頼する(ただし他者をモデル化したり従ったりする限りにおいて後者からも影響を受ける)信念の網における密に接続された領域として定義できるでしょう。これらのアイデアを具体化するまでにはまだ多くの作業が必要ですが、信念・目標・行動の初期的な統一が、単一エージェントとマルチエージェントの知能に対するより深い スケールフリーな統合 の道を開く可能性に私は興奮しています。
- ^元のGarrabrant帰納形式主義は、論理命題であり徐々に証明される基礎レベルの信念に焦点を当てています。しかし、直感的には、これら(あるいはこれらを補完するもの)を、徐々に観測される感覚入力に関する基礎レベルの信念に置き換えることができるように思われます。
- ^私はすべてのハイパーエッジやトレーダーが概念に対応していると言っているのではなく、むしろこれらの形式用語が捉えようとしているより深い構造が、私たちが持つ概念の直感的な理解と何らかの関係があるという仮説を立てています。
- ^用語に関する注記:かつて私は予測処理を「脳が絶えず予測を生成しており、その一部が行動を制御する」と主張するものとし、能動的推論をさらに「これが自由エネルギー原理および期待自由エネルギー最小化を通じて行われる」と主張するものと捉えていました。しかし、さらに確認したところ、これは正しくないようです。むしろ、これらの考え方を以下のように分ける方が正確であると考えられます:
予測処理:脳は絶えず予測を生成している
能動的推論の核心的洞察:その一部が行動を制御する
能動的推論の完全な理論:自由エネルギー原理および期待自由エネルギー最小化を通じて
つまり、私は依然として「能動的推論の完全な理論」には賛同していない/混乱していると述べたいのです。しかし、「目標は信念である」という洞察は、予測処理ではなく能動的推論の下に分類すべきです。
- ^注意してください、これはあなたに協力する外部アクチュエータとそうでないものの間に非対称性をもたらします。どちらの場合も、それらはあなたの心を読み取り、見たものに基づいて世界に影響を与えます。しかし、協力する場合、これによりあなたは安定した自己実現信念を形成できます;一方、非協力的な場合、そのような信念は内省の下で不安定になります。したがって、「公平」な意思決定問題の基準として、外部世界が適切な方法で協力している状態を救済できるかもしれません。
- ^私のここで標準的な例は、元酒飲み者が非常に強い「禁酒中」というアイデンティティを形成し、禁酒のさまざまなマイルストーンを祝い、人生を禁酒によって変容したと物語化し、などとするケースです。このアイデンティティの開発と維持への投資は、再び飲むことに対するコミットメントメカニズムとして機能します。
- ^オリバー・リチャードソンは、彼の「局所的矛盾解決」に関する論文のセクション 4.7 で、意思決定における同様のアプローチを議論しています;私の感覚では、それは同じ問題を抱えているように思えます(ただし、私は確信はありません)。
- ^一貫性更新がウェブ全体に伝播する速度を除けば—これは私がここで論じるように、深い制約となる可能性があります。
原文を表示
In this post I’ll sketch out an informal model of intelligent agents as webs of beliefs (or belief webs for short). The belief webs framework pulls together ideas from active inference, agent foundations and machine learning. In doing so it aims to unify beliefs, goals and actions as three facets of a single phenomenon. Few of these ideas are original to me, but I haven't seen anyone tie them together in a single place before. I've flagged the frameworks I'm drawing from throughout the post.
Beliefs are held together by local consistency constraints
The core premise of belief webs is that an agent’s beliefs are typically *locally* consistent with nearby beliefs but not necessarily *globally* consistent with all its other beliefs (except, perhaps, in the limit of ideal rationality). This poses a problem for frameworks which describe agents in terms of a single probability distribution (as causal graphs, Solomonoff induction, and active inference do).
Two frameworks which are capable of handling global inconsistency are Richardson’s probabilistic dependency graphs (PDGs) and Garrabrant induction. (They focus on empirical inconsistency and logical inconsistency respectively, but I’ll abstract away from that difference for now.) We can roughly analogize the nodes in PDGs to the propositions in Garrabrant inductors; I’ll call them “base-level beliefs”. The central type of base-level belief I think about is beliefs about sensory inputs.[[1]](#fn38cdnvw1q1g)
There’s then a second layer of structure in both PDGs (namely hyperedges) and Garrabrant induction (namely traders) which imposes local constraints on base-level beliefs. I think of hyperedges/traders as steps towards formalizing the concept of “concepts”.[[2]](#fnl4lxbcv75t) For example, if you see the front half of a cat starting to emerge from around the corner, a “cat” hyperedge/trader might make predictions about what you’ll see next, which shape your base-level beliefs.
However, having exactly two layers of structure seems rather artificial. In active inference/predictive processing, minds are viewed as hierarchical generative models, with each layer of the hierarchy forming new concepts with reference to lower-level concepts.[[3]](#fnq6v6sftxiih) The success of deep learning suggests that there’s something fundamentally important about this kind of hierarchical concept formation. Whereas you can’t have hyperedges connecting other hyperedges, or traders trading on other traders.
So you can think of the term “belief webs” as a (still vague) pointer towards a framework which is capable of handling both internal inconsistency and also hierarchical concept formation. The core difficulty I currently see is in figuring out what it means for a proposition formulated in terms of high-level concepts to be true or false, given that those concepts don’t have binary truth-values themselves (e.g. a trader isn’t ever discretely right or wrong, it’s just more or less profitable). However, even given this confusion, it seems possible to flesh out other interesting properties that belief webs should have, as I do below.
Actions are beliefs
PDGs and Garrabrant inductors are epistemic processes, not agents. However, Abram Demski’s post on FixDT provides a very interesting suggestion for how to think of an epistemic process as choosing actions. Abram points out that an agent’s beliefs can sometimes affect the world directly (not just via influencing their actions). This is common in decision theory thought experiments, where predictors often make decisions based on simulating another agent. Standard decision theories vary in which such cases they consider “fair” decision problems. FDTers think it’s fair for decision problems to depend on an agent’s entire policy (including how it would act in hypothetical scenarios); whereas many CDTers think that fair decision problems can only depend on an agent’s actual decision. Both groups agree, however, that decision problems which depend on *how* an agent chooses its policy are unfair.
However, many real-world scenarios (including most social interactions) are affected by our thoughts, not just our external actions. So we can’t just write this dynamic off—we need to figure out what to do in such cases. In one sense, this is a complication: now we need to optimize both our thoughts and actions to achieve our goals. But in another sense it’s a simplification, because it unifies beliefs and actions: we can simply consider actions as the subset of beliefs where (we expect that) holding that belief makes it come true due to the intervention of an external actuator.[[4]](#fnz0m8aqvld5q) For example, I can think of my nervous system (or a neuralink interface) as watching out for the belief “I will move my arm” and then moving my arm in response.
I’ll call this the self-predictive model of actions (in contrast with the implicit standard “argmax model” where rational agents directly implement the action with highest expected utility). The self-predictive model is closely related to the idea of action as prediction from active inference. However, a key difference between active inference and Garrabrant induction is that only the latter can handle paradoxes of self-reference (using the probabilistic logic approach pioneered in this paper). So Garrabrant inductors should be capable of believing sentences like “if I believe X, then X will come true” without causing difficulties. This provides an epistemic grounding for *which* predictions you should think of as actions, which then generalizes to things we don’t usually think of as actions. For example, if my future self will remember my current intentions and try to make them come true, then there’s a continuum between setting an intention and actually taking an action (relatedly, see Sahil’s concept of “prayers”). Or if other people can tell that I sincerely expect to win an election (or succeed at a coup), and will help me because of that, then holding that belief is again quite an action-like thing to do.
Indeed, in the self-predictive model of actions, much of the hard work of being an effective agent is managing your beliefs. Under the self-predictive model, there’s a gap between believing that an action is a good idea and actually taking it, because you also need to believe that you’re the kind of agent who acts on good ideas. This helps explain the central role of the ego in psychology, and why people are often so sensitive to negative feedback—since taking that feedback on board in the wrong way could harm their ability to act coherently. Instead, people typically spend a huge amount of time building up and maintaining their identity as a good, productive, trustworthy agent. Such an identity is a kind of belief, but the process of forming it can’t be described in terms of Bayesian updating, because it often involves choosing between multiple different self-fulfilling beliefs.
The self-predictive model also helps explain internal conflict (a phenomenon which the argmax model struggles with). If identifying the best action were sufficient for taking it, then we wouldn’t procrastinate or self-sabotage nearly as much. But our reasoning processes are only one input into our overall expectations about what actions we’ll take. Other inputs include our identities (which thereby serve as commitment mechanisms)[[5]](#fnblx166eyyxf), predictions that we’ll continue long-standing habits (even when we know they’re bad for us), emotional memories and traumas, and learned (or evolved) instincts and heuristics.
Goals are beliefs
I’ve talked a lot about how to choose actions, but not much about the goals behind those choices. In Abram’s original FixDT framework, utility functions live separately from beliefs: FixDT agents search for all fixed points of their beliefs (including beliefs about the actions they’ll take) and then select the highest-utility fixed point. However, this reintroduces the ugly argmax that we’d gotten rid of by treating actions as beliefs, which causes issues like the 5-and-10 problem. It also means that taking any action requires identifying a global equilibrium (and even worse, identifying *all* global equilibria).
But what alternative way is there to navigate towards a good fixed point? The main alternative Abram discusses is the active inference approach of interpreting goals as beliefs. Specifically, goals in active inference are beliefs which are fixed at an artificially high credence. We can then infer from those credences that we will probably take actions consistent with achieving those goals.[[6]](#fnd68tk4vexo5)
I think this doesn’t work in its current form, but is pointing in the right direction. I’ll illustrate with a toy example (though note that I still feel pretty confused about the full active inference formalism, and wouldn’t be surprised if I were missing something important). Suppose I start off with the following set of consistent beliefs:
- P(win race next month | train this month) = 0.36
- P(win race next month | ¬train this month) = 0.04
- P(win race next month) = 0.12
- P(train this month) = 0.25
I’ll treat P(train this month) as an action in the sense described in the previous section—that is, my credence in it is self-fulfilling. Now suppose that I represent my goal as a credence in winning the race that’s higher than 0.12 (I’ll arbitrarily choose 0.28 for numerical convenience), and update my other credences accordingly. Here’s one way that could become consistent:
- P(win race next month | train this month) = 0.36
- P(win race next month | ¬train this month) = 0.04
- P(win race next month) = 0.28
- P(train this month) = 0.75
So I’ve updated my action from a 25% chance of training this month to a 75% chance. That does move me towards getting what I want! But there are two big problems here. The first is that (absent other constraints) if I want to win the race I should just train with certainty. The 0.75 number is an arbitrary artefact of my initial prior on whether I’d train; it’s not what a utility-maximizer would do.
The second problem is that if I fix the belief in winning the race too high, there won’t be any action that makes that credence consistent, and I’d need to change my other beliefs instead to restore consistency. More generally, setting some beliefs artificially high seems like it would propagate falsehoods throughout the rest of our belief web.
I don’t think the active inference literature has a solution to this problem (though I haven’t explored it deeply enough to be confident). But to me it seems like the natural response is to avoid fixing goals at all, and rather think in terms of “forces” that are trying to pull credences in goals upwards (which I’ll call *drives*). Conversely, we should think about credences in empirical beliefs as being pulled into place by the force of empirical evidence (which I’ll call anchors). A belief web equilibrates when those two types of forces—drives and anchors—balance.
In our example above: we start with P(win race next month) = 0.1, and apply a force upwards on this credence. That might move P(win race next month | train this month) and P(win race next month | ¬train this month) upwards a little bit, but not very much, because their values are anchored by empirical evidence. What’s *not* very anchored by empirical evidence is P(train this month), because any value of it is self-fulfilling. And so pulling P(win race next month) upwards will also pull P(train this month) upwards (potentially all the way up to ~1), with the whole system remaining approximately consistent the whole time.[[7]](#fnczfcbi2o0sj)
You might be concerned that we’re still in a setting where our desires can move our empirical beliefs. However, we can define a fully rational agent as the limiting case where action probabilities are moved using drives of arbitrarily small magnitude (relative to the strength of anchoring to empirical evidence). We might then be able to define such an agent’s utility function in terms of the choices it would make in that limit (though we’d need to be careful to ensure that all the drives decrease proportionately).
A version of this “drives of arbitrarily small magnitude” idea was originally explained to me by Davidad using the term “nilpotent preferences”; to my knowledge the idea is original to him (though it’s closely related to Scott Garrabrant’s idea of actions as fixed points under self-prediction). My recollection is that Davidad first explained it as the distance between an agent's preference distribution and its belief distribution reducing towards 0. Later, he raised the possibility that we didn’t even need a preference distribution, and could just think of preferences as a vector field. In this post I talk about individual “forces” rather than a vector field because that seems more helpful on an intuitive level for reasoning about discrete beliefs (though I’m probably missing some of Davidad’s relevant intuitions).
I also call these forces “drives” rather than “preferences” because my current guess is that insofar as belief webs are a good model of humans, drives correspond to evolutionarily hardcoded desires, which affect higher-level goals only by propagating through the belief web. For example, forces applied to low-level beliefs like “I will feel pleasure tomorrow” or “I won’t be stressed this evening” might significantly affect the equilibrium credences of higher-level goals like “I’ll finish my dissertation soon”. In other words, what makes “I’ll finish my dissertation soon” a goal is just the fact that the credence we assign it is sensitive to drives applied at lower levels. However, since such forces will affect all other beliefs too to some degree (except in the limit of zero-magnitude drives), the distinction between preferences/goals and “pure” beliefs in a belief web is a matter of degree.
Open problems for belief webs
I find the picture I’ve sketched out above extremely elegant. It takes the beautiful unification provided by active inference (that actions are self-fulfilling predictions, and goals are optimistic beliefs) and at least gestures towards putting it on firmer foundations. The big open problem is of course how to make all of these claims more precise and rigorous, so that we can be more confident in them.
In order to pin down such a formal framework, it feels necessary to grapple with a few core conceptual questions:
- Can belief webs reach the best equilibrium in principle? By default it seems like they might just get stuck in local equilibria: unlike FixDT they don’t have a mechanism to “jump” into the best equilibrium. My tentative guess for how to solve this: if a belief web is able to explore the implications of hypotheticals without interference from its existing beliefs, then it might be able to gradually shift probability mass from its current equilibrium to some other hypothesized equilibrium.
- It seems like belief webs implicitly implement EDT, which struggles to evaluate hypotheticals without interference from existing beliefs. But might they have emergent FDT/UDT-like properties in a way that gets the best of both worlds? The intuitive link here is that the FDT relies on considering logically impossible hypotheticals without “collapsing” them by propagating the contradiction.
- I’ve played pretty fast and loose with the notion of self-reference in belief webs. I’m uncertain whether this will basically turn out to be fine, or if there are important nuances that I’ve missed. For example, if we think of actions as defined by beliefs like “if I believe X, then X will happen”, then might we also need higher-order beliefs too (like “if I believe that ‘if I believe X, then X will happen’, then if I believe X, then X will happen”)? This feels quite Lobian, and makes me wonder whether something like Lobian cooperation will be necessary to ground it all out.
- As mentioned in the first section: what does it mean for a proposition formulated in terms of high-level concepts to be true or false, given that those concepts don’t have binary truth-values themselves?
My longer-term hope is that belief webs will allow us to think of individual agents as an emergent phenomenon, rather than something we need to bake in when reasoning about intelligent agency. You could potentially consider all intelligent beings to be part of a huge, highly non-equilibrated belief web. An “agent” could then just be a densely-connected region of that belief web which trusts updates from within that region much more than updates from outside it (but which is still affected by the latter insofar as it models or defers to other agents). While there’s still a lot to be done to pin these ideas down, I’m excited about the possibility that the initial unification of beliefs, goals and actions might pave the way for a deeper scale-free unification of single-agent and multi-agent intelligence.
- ^The original Garrabrant induction formalism focuses on base-level beliefs which are logical propositions, which are gradually proved. However, intuitively speaking it seems like we could replace (or perhaps augment) these with base-level beliefs about sensory inputs which are gradually observed.
- ^I’m not claiming that all hyperedges or traders correspond to concepts; rather, I’m hypothesizing that the deeper structure which these formal terms are trying to capture has something to do with our intuitive notion of concepts.
- ^A terminological note: I had at one point thought of predictive processing as claiming that the brain is constantly generating predictions, some of which control actions; and of active inference as additionally claiming that this happens via the free energy principle and expected free energy minimization.But upon further checking this doesn’t seem right. It seems more accurate to instead divide the ideas up as follows:Predictive processing: the brain is constantly generating predictions
- Core insight of active inference: some of which control actions
- Full theory of active inference: via the free energy principle and expected free energy minimization
That is, I still want to say that I’m not on board with/confused about the full theory of active inference. But I should be classifying the “goals are beliefs” insight under active inference rather than predictive processing.
- ^Note that this introduces an asymmetry between external actuators that are cooperative vs uncooperative with you. In both cases, they’re reading your mind, and influencing the world based on what they see. But in the cooperative case, this allows you to form stable self-fulfilling beliefs; whereas in the uncooperative case such beliefs are unstable under reflection. So we might be able to salvage a criterion for a “fair” decision problem as one where the external world is cooperative in the right way.
- ^My standard example here is of a former alcoholic who forms a very strong identity as being sober, celebrates different milestones of sobriety, narrativizes his life as being transformed by sobriety, etc. The investment in developing and maintaining this identity serves as a commitment mechanism against drinking again.
- ^Oliver Richardson discusses a similar approach to decision-making in section 4.7 of his paper on Local Inconsistency Resolution; my sense is that it has the same problems (though I’m not confident).
- ^Modulo the speed at which consistency updates propagate across the web—which might be a deep constraint, as I discuss here.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み