グーグル研究者、大規模言語モデル向けベイズ的教授法を提案
Google Researchは、大規模言語モデルが最適なベイジアンシステムの予測から学習することでベイズ推論を近似するように教える新しいトレーニング手法を提案し、多段階インタラクションにおける信念更新の改善に焦点を当てている。
キーポイント
ベイジアン推論近似の新手法
Google Researchが提案したトレーニング手法は、大規模言語モデルが最適なベイジアンシステムの予測から学習することで、ベイジアン推論を近似することを目指している。
多段階インタラクションにおける信念更新の改善
このアプローチは、モデルが新しい情報を受け取る際に、どのように信念を更新するかを改善することに焦点を当てている。
大規模言語モデルの能力拡張
従来の大規模言語モデルのトレーニング方法を拡張し、不確実性下での推論能力を高めることを目的としている。
影響分析・編集コメントを表示
影響分析
この研究は、大規模言語モデルが不確実性をより適切に扱い、段階的な推論を改善する可能性を示しており、AIの信頼性と実用性の向上に寄与する重要な技術的進展である。特に、複雑な意思決定や対話システムへの応用が期待される。
編集コメント
大規模言語モデルの核心的能力である推論プロセスに直接アプローチする研究であり、基礎研究から実用化への橋渡しとして注目される。技術的深度と業界への影響度のバランスが取れた重要な発表と言える。
Google の研究者たちは、最適なベイズ推論システムからの予測を学習することで、大規模言語モデルにベイズ推論の近似を教えるトレーニング手法を提案しました。このアプローチは、多段階の相互作用の中で新しい情報を取得する際に、モデルがどのように信念を更新するかを改善することに焦点を当てています。
本研究は、言語モデルが時間とともにユーザーと対話する際に信念をどのように更新するかを検討しています。レコメンデーションシステムなどの多くの実世界アプリケーションでは、モデルは新しい情報に基づいてユーザーの嗜好を徐々に推測する必要があります。ベイズ推論は、新たな証拠が利用可能になったときに確率を更新するための数学的枠組みを提供します。研究者たちは、言語モデルがベイズ信念更新と整合した方法で振る舞うかどうかを検証し、その行動を改善するトレーニング方法を探索しました。
これを評価するために、チームはシミュレーションされたフライト推薦タスクを作成しました。実験では、モデルがシミュレーションされたユーザーと5 ラウンドにわたって対話します。各ラウンドでは、アシスタントとユーザーには、出発時刻、所要時間、乗り換え回数、価格によって定義された 3 つのフライトオプションが表示されます。各シミュレーションされたユーザーは、これらの属性に対して隠れた嗜好を持っています。各推薦の後、ユーザーはアシスタントが正しいオプションを選択したかどうかを示し、好まれるフライトを明らかにします。アシスタントはこのフィードバックを使用して、将来の推薦を改善することが期待されています。
研究者たちは、ユーザーの好意に関する確率分布を維持し、各インタラクション後にベイズの法則を用いてそれを更新するベイズ型アシスタントと、いくつかの言語モデルを比較しました。実験において、ベイズ型アシスタントは正しい選択肢を選択する際に約 81% の精度を達成しました。一方、言語モデルはそれよりも劣り、最初のインタラクション後に限定的な改善しか示さず、ユーザーの好意に関する内部推定値を効果的に更新できていないことが示唆されました。
次に本研究では、ベイズ型ティーチングと呼ばれるトレーニング手法がテストされました。これは正解のみから学習するのではなく、モデルがシミュレーションされたインタラクション中にベイズ型アシスタントの予測を模倣するように訓練されるアプローチです。初期のラウンドでは、ユーザーの好意に関する不確実性のためベイズ型アシスタントは誤った推奨を行うこともありましたが、その意思決定は利用可能な証拠に基づく確率的推論を反映したものでした。
以下の画像は、ベイズ型アシスタントまたはオラクルとのユーザーインタラクションに対してファインチューニングを行った後の Gemma および Qwen の推薦精度を示しています。
教師ありファインチューニングのためのトレーニングデータは、ユーザーとベイズ型アシスタントの間でシミュレーションされた会話から構成されていました。比較のため、研究者らは、ユーザーの好意に関する完全な知識を有しているため常に正しい選択肢を選択するアシスタントから学習させる手法もテストしました。
両方のファインチューニング手法はモデルのパフォーマンスを向上させましたが、ベイズティーチングの方がより良い結果を生み出しました。この手法で訓練されたモデルは、ベイズアシスタントの予測とより一致する予測を行い、複数の対話ラウンドにわたってより顕著な改善を示しました。また、ユーザーの選択を評価する際にも、ベイズシステムとの合意度が高かったことが示されました。
Google Research の投稿に対するコミュニティの反応は概ね好意的で、コメントでは LLM における確率的推論の向上や多ターン適応が強調されました。
ソフトウェア開発者の Yann Kronberg は次のようにコメントしました:
「人々は推論ベンチマークについて話しますが、これは本質的に信念更新に関するものです。新しい情報が到着した後にほとんどの LLM が内部仮定をうまく修正できないことは知られており、@GoogleResearch がベイズ推論の近似方法を教えることは、長期稼働するエージェントにとって非常に重要になる可能性があります。」
また、ベイズ推論の近似に強化学習(Reinforcement Learning)ではなく教師ありファインチューニング(Supervised Fine-Tuning: SFT)を使用することについて疑問を呈する声もありました。
研究者 Aidan Li は次のように引用しました:
「なぜ著者は確率的推論の近似のためにモデルを訓練する際に強化学習(RL)ではなく SFT を使用したのでしょうか?LLM においても、RL と確率的推論に関連する膨大な研究が存在します。何か見落としているかもしれませんが、RL が明白な選択肢のように思えます。」
研究者たちは、この手法をベイズ推論を実装する記号システムの振る舞いを近似するようにニューラルネットワークが学習するモデル蒸留の一種として説明しています。その結果、言語モデルは逐次相互作用において最適な意思決定戦略を示す事後トレーニングを通じて、確率的推論スキルを獲得できることが示唆されています。
著者について
Daniel Dominguez
Daniel は SamXLabs のマネージングパートナーです。SamXLabs は AWS パートナーネットワークに所属する企業です。彼はスタートアップおよびフォーチュン 500 企業のソフトウェア製品開発において、13 年以上の経験を持っています。Daniel はワシントン大学で工学の学位を取得し、機械学習を専門としています。AI とクラウドコンピューティングを活用して革新的なソリューションを生み出すことに情熱を注いでいます。機械学習ティアの AWS コミュニティビルダーとして、Daniel は知識の共有とソフトウェア製品におけるイノベーションの推進に尽力しています。
Show moreShow less
原文を表示
Google Researchers have proposed a training method that teaches large language models to approximate Bayesian reasoning by learning from the predictions of an optimal Bayesian system. The approach focuses on improving how models update beliefs as they receive new information during multi-step interactions.
The study examines how language models update beliefs when interacting with users over time. In many real-world applications, such as recommendation systems, models need to infer user preferences gradually based on new information. Bayesian inference provides a mathematical framework for updating probabilities as new evidence becomes available. The researchers investigated whether language models behave in ways consistent with Bayesian belief updates and explored training methods to improve that behavior.
To evaluate this, the team created a simulated flight recommendation task. In the experiment, a model interacted with a simulated user for five rounds. In each round, the assistant and user were shown three flight options defined by departure time, duration, number of stops, and price. Each simulated user had hidden preferences for these attributes. After each recommendation, the user indicated whether the assistant selected the correct option and revealed the preferred flight. The assistant was expected to use this feedback to improve future recommendations.
The researchers compared several language models with a Bayesian assistant that maintains a probability distribution over possible user preferences and updates it using Bayes’ rule after each interaction. In the experiment, the Bayesian assistant reached about 81% accuracy in selecting the correct option. Language models performed worse and often showed limited improvement after the first interaction, suggesting that they did not effectively update their internal estimates of user preferences.
The study then tested a training approach called Bayesian teaching. Instead of learning only from correct answers, models were trained to imitate the predictions of the Bayesian assistant during simulated interactions. In early rounds, the Bayesian assistant sometimes made incorrect recommendations due to uncertainty about the user’s preferences, but its decisions reflected probabilistic reasoning based on the available evidence.
The image below shows the recommendation accuracy of Gemma and Qwen after fine-tuning on user interactions with the Bayesian assistant or with an oracle.
The training data for supervised fine-tuning consisted of simulated conversations between users and the Bayesian assistant. For comparison, the researchers tested a method in which the model learned from an assistant that always selected the correct option because it had perfect knowledge of the user’s preferences.
Both fine-tuning approaches improved model performance, but Bayesian teaching produced better results. Models trained with this method made predictions that more closely matched those of the Bayesian assistant and demonstrated stronger improvement across multiple interaction rounds. The trained models also showed higher agreement with the Bayesian system when evaluating user choices.
Community reactions to the Google Research post were largely positive, with commenters highlighting improved probabilistic reasoning and multi-turn adaptation in LLMs.
Software developer Yann Kronberg commented:
People talk about reasoning benchmarks but this is basically about belief updates. We know that most LLMs don’t revise their internal assumptions well after new information arrives, so @GoogleResearch teaching them to approximate Bayesian inference could matter a lot for long-running agents.
Some also questioned the use of supervised fine-tuning instead of reinforcement learning for approximating Bayesian inference.
Researcher Aidan Li quoted:
Why did the authors use SFT instead of RL to train the model to approximate probabilistic inference? There is a wealth of work relating RL and probabilistic inference, even for LLMs. Maybe I'm missing something but RL seems like the obvious choice.
The researchers describe the method as a form of model distillation in which a neural network learns to approximate the behavior of a symbolic system implementing Bayesian inference. The results suggest that language models can acquire probabilistic reasoning skills through post-training that demonstrates optimal decision strategies during sequential interactions.
About the Author
Daniel Dominguez
Daniel is the Managing Partner at SamXLabs an AWS Partner Network company. He has over 13 years of experience in software product development for startups and Fortune 500 companies. Daniel holds a degree in Engineering and a Machine Learning specialization from the University of Washington. He is passionate about leveraging AI and cloud computing to create innovative solutions. As an AWS Community Builder in the Machine Learning tier, Daniel is committed to sharing knowledge and driving innovation in software products.
Show moreShow less
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み