社会的学習:大規模言語モデルを用いた協調学習
Google Researchの研究チームは、大規模言語モデル(LLM)が人間の社会的学習のように自然言語を通じて互いに知識を共有・学習する「Social Learning」フレームワークを提案し、スパム検出や数学問題解決などのタスクで評価した。
キーポイント
社会的学習のLLMへの拡張
人間の社会的学習理論(バンデューラ)を基に、LLMが教師エージェントから自然言語による指示や模倣を通じて学習する枠組みを構築した。
プライバシーを考慮した知識共有
従来の連合学習(勾配ベース)とは異なり、自然言語のみで知識を共有するため、データのプライバシー保護が可能な手法を提案している。
多様なタスクでの実証評価
SMSスパム検出、小学校レベルの数学問題解決、テキストに基づく質問応答など、複数のデータセットでフレームワークの有効性を検証した。
研究論文の公開
詳細な手法と結果は「Social Learning: Towards Collaborative Learning with Large Language Models」としてarXivで公開されている。
社会学習のプライバシー保護的側面
教師モデルはプライベートデータを共有せずに、少数の例示や指示を通じて学生モデルに知識を伝達し、プライバシー懸念を回避する。
スパム検出における具体例
ユーザーが「スパム」または「非スパム」とラベル付けしたメッセージデータを教師モデルが活用し、個人メッセージを共有することなく学生モデルにスパム検出能力を学習させる。
合成例による学習手法
教師がタスクのための新しい合成例を生成し、学生と共有する学習方法を提案している。生成された例は元の例と十分に異なるが、同等の教育効果を持つ。
影響分析・編集コメントを表示
影響分析
この研究は、LLMが単独で学習するだけでなく、複数のエージェントが自然言語を通じて協調的に能力を高める可能性を示しており、将来的にはより適応的で効率的なAIシステムの構築につながる。また、プライバシーを考慮した知識共有手法は、実社会でのLLM応用における重要な課題に対処する一歩となる。
編集コメント
LLMの進化が「個」から「群」への段階に入りつつあることを示唆する研究。自然言語を媒介とした知識共有は、技術的に興味深いだけでなく、実用面での障壁(プライバシー、計算コスト)を下げる可能性も秘めている。
Google Research の研究インターンの Amirkeivan Mohtashami とソフトウェアエンジニアの Florian Hartmann によって投稿されました

大規模言語モデル(LLM: Large Language Models)は、自然言語で指定されたタスクを解決する際の最先端技術を大幅に向上させ、多くの場合人間の性能に近い成果を達成しています。これらのモデルが支援エージェントとしてますます活用されるにつれ、人間が社会的な場面でそうするように、互いから効果的に学習することが有益となる可能性があります。これにより、LLM ベースのエージェント同士が互いのパフォーマンスを向上させることが可能になります。
人間の学習プロセスについて議論する際、Bandura と Walters は 1977 年に 社会学習 の概念を記述し、人々が用いる観察学習の異なるモデルを概説しました。他者から学ぶ一般的な方法の一つは、特定の行動を実行する方法を説明する *言語による指示*(例えば教師からの指導)を通じて行うことです。あるいは、学習は、その行動の生きた例を模倣することによって *ライブモデル* を通じて起こることもあります。
LLM が人間のコミュニケーションを模倣する上で成功を収めていることを踏まえ、私どもの論文「[Social Learning: Towards Collaborative Learning with Large Language Models]」では、LLM がソーシャルラーニングを用いて互いから学習できるかどうかを検証しました。そのために、LLM が自然言語を用いてプライバシーに配慮した方法で互いに知識を共有するソーシャルラーニングの枠組みを提示します。私どもの枠組みの有効性を様々なデータセットで評価し、この設定におけるプライバシーを測定するための定量的手法を提案します。勾配に依存することが多い従来の共同学習アプローチである一般的な [federated learning] とは対照的に、私どもの枠組みではエージェントが自然言語のみを用いて互いに教えます。
LLM 向けのソーシャルラーニング
ソーシャルラーニングを言語モデルに拡張するために、すでにそのタスクを知っている複数の教師エンティティから学生 LLM がタスクの解決方法を学ぶというシナリオを検討します。私どもの論文では、学生のパフォーマンスを、短文メッセージ(SMS)における [スパム検出]、[小学校レベルの数学問題] の解決、および与えられたテキストに基づく [質問への回答] など、多様なタスクで評価しました。
社会学習プロセスの可視化:教師モデルは、自身のプライベートデータを共有することなく、生徒モデルに対して指示やfew-shot(数ショット)例を提供します。
言語モデルは、ほんの数例の提示だけでタスクを遂行する顕著な能力を示してきました。このプロセスはfew-shot learningと呼ばれています。この点を踏まえ、教師モデルが生徒モデルに教えることを可能にする人間がラベル付けしたタスク例を提供します。社会学習の主なユースケースの一つは、プライバシー上の懸念などによりこれらの例を直接生徒モデルと共有できない場合に生じます。
これを説明するために、スパム検出タスクに関する仮想的な例を見てみましょう。教師モデルは、一部のユーザーが受信する着信メッセージを「スパム」または「スパムではない」としてマークするデバイス上に配置されています。これはスパムと非スパムを区別する生徒モデルの訓練に役立つ有用なデータですが、他のユーザーと個人メッセージを共有することはプライバシー侵害にあたるため避けるべきです。これを防ぐために、社会学習プロセスを通じて教師モデルから生徒モデルへ知識を転送し、ユーザーの個人テキストメッセージを共有する必要なく、スパムメッセージがどのようなものかを学習できるようにします。
上記で議論した確立された人間の社会的学習理論との類推により、この社会的学習アプローチの有効性を調査します。これらの実験では、教師と学生の両方に PaLM 2-S モデルを使用します。
社会的学習のシステム視点:トレーニング時には複数の教師が学生を指導します。推論時には、学生は教師から学んだものを利用します。
合成例
従来の社会的学習で説明されたライブ教授モデルに対する対照として、教師がタスクのために新しい合成例を生成し、それを学生と共有する学習手法を提案します。これは、元の例とは十分に異なるが、同じように教育的な新たな例を作成できるという考えに基づいています。実際、生成した例はプライバシーを維持しつつも、元の例を使用した場合と同程度の性能を発揮するのに十分なほど異なっていることを観察しています。
8 つの生成された例は、いくつかのタスクにおいて元データと同等のパフォーマンスを示します(論文を参照)。
合成例を用いた学習の有効性を、タスクスイート上で評価しました。特に例の数が十分多い場合(例えば n = 16)、社会学習を通じてオリジナルデータを共有することと、合成データを用いて指導を行うことの間に、ほとんどのタスクで統計的に有意な差は見られませんでした。これは、プライバシー向上がモデル品質を犠牲にする必要がないことを示しています。
例を8個ではなく16個生成することで、オリジナルの例に対する性能格差はさらに縮小します。
唯一の例外はスパム検出タスクで、合成データを用いた指導では精度が低下しました。これは、現在のモデルの訓練手順により、非スパム例のみを生成するバイアスがかかっているためかもしれません。論文 ではさらに、使用に適した例の良いサブセットを選択するための集約手法についても検討しています。
合成指示語
言語モデルが指示に従うことに成功していることから、教師がタスクに対する指示を生成することで、言語モデルに対して自然に言語モデルによる指示モデルを適応させることができます。私たちの実験では、このような生成された指示を提供することが、ゼロショットプロンプティングよりも効果的に性能を向上させ、オリジナルの例を用いたフューショットプロンプティングと同等の精度に達することを示しました。ただし、出力の複雑なフォーマット要件などにより、教師モデルが特定のタスクで適切な指示を提供できない場合があることも発見しました。
Lambada、GSM8k、および Random Insertion においては、合成例(synthetic examples)を提供する方が生成された指示(generated instructions)を提供するよりも優れた結果を示しますが、他のタスクでは生成された指示の方が高い精度を達成します。この観察結果は、人に対する指導において最も効果的な方法がタスクによって異なるのと同様に、指導モデルの選択も現在のタスクに依存することを示唆しています。
タスクによっては、新しい例を生成するよりも指示を生成する方が効果的である場合があります。
個別データの暗記(Memorization of the private examples)
社会学習における教師は、元のデータの詳細を明らかにすることなく生徒に教える必要があります。このプロセスが情報を漏洩しやすい程度を定量化するために、モデルがトレーニングデータをどの程度の範囲で暗記しているかを評価する一般的な手法である Secret Sharer を使用し、社会学習の文脈に合わせて適応させました。この手法を選んだのは、以前に連合学習(federated learning)における暗記評価にも 利用 されていたからです。
ソーシャルラーニングに Secret Sharer メソッドを適用するため、トレーニングプロセスがこれらのデータポイントをどの程度記憶したかを具体的に測定できる「カナリア」データポイントを設計します。これらのデータポイントは、教師が新しい例を生成するために使用するデータセットに含まれています。ソーシャルラーニングプロセスが完了した後、教師が使用した秘密のデータポイントに対する学生の自信度が、教師にも共有されていない類似のデータポイントと比較してどの程度向上しているかを測定できます。
論文で詳細に議論されている分析において、私たちは名前とコードを含むカナリア例を使用しました。その結果、学生が教師が使用したカナリアに対してわずかに高い自信を持っていることが示されました。一方、元のデータポイントが直接学生に共有された場合、含まれるカナリアに対する自信度は、保留セットにおけるものよりもはるかに高くなります。これは、教師がデータを単にコピーするのではなく、実際にそのデータを使用して指導を行っているという結論を支持するものです。
結論と今後のステップ
私たちは、プライベートデータへのアクセスを持つ言語モデルが、データのプライバシーを維持しながらテキストコミュニケーションを通じて知識を転送できるソーシャルラーニングのフレームワークを紹介しました。このフレームワークにおいて、共有例と共有指示を基本モデルとして特定し、複数のタスクで評価を行いました。さらに、Secret Sharer 指標を私たちのフレームワークに適応させ、データ漏洩を測定するための指標を提案しました。
次のステップとして、フィードバックループや反復処理を追加するなど、教育プロセスを改善する方法を探っています。さらに、テキスト以外のモダリティにもソーシャルラーニングを適用できるか調査したいと考えています。
謝辞
*本論文の共著者である Matt Sharifi, Sian Gooding, Lukas Zilka, および Blaise Aguera y Arcas に感謝と謝意を表します。さらに、Victor Cărbune, Zachary Garrett, Tautvydas Misiunas, Sofia Neata, John Platt 各位からのフィードバックにより論文が大幅に改善されたことに深く感謝いたします。また、アニメーション図を作成していただいた Tom Small にもお礼申し上げます。
原文を表示
Posted by Amirkeivan Mohtashami, Research Intern, and Florian Hartmann, Software Engineer, Google Research

Large language models (LLMs) have significantly improved the state of the art for solving tasks specified using natural language, often reaching performance close to that of people. As these models increasingly enable assistive agents, it could be beneficial for them to learn effectively from each other, much like people do in social settings, which would allow LLM-based agents to improve each other’s performance.
To discuss the learning processes of humans, Bandura and Walters described the concept of *social learning* in 1977, outlining different models of observational learning used by people. One common method of learning from others is through a *verbal instruction* (e.g., from a teacher) that describes how to engage in a particular behavior. Alternatively, learning can happen through a *live model* by mimicking a live example of the behavior.
Given the success of LLMs mimicking human communication, in our paper “Social Learning: Towards Collaborative Learning with Large Language Models”, we investigate whether LLMs are able to learn from each other using social learning. To this end, we outline a framework for social learning in which LLMs share knowledge with each other in a privacy-aware manner using natural language. We evaluate the effectiveness of our framework on various datasets, and propose quantitative methods that measure privacy in this setting. In contrast to previous approaches to collaborative learning, such as common federated learning approaches that often rely on gradients, in our framework, agents teach each other purely using natural language.
Social learning for LLMs
To extend social learning to language models, we consider the scenario where a student LLM should learn to solve a task from multiple teacher entities that already know that task. In our paper, we evaluate the student’s performance on a variety of tasks, such as spam detection in short text messages (SMS), solving grade school math problems, and answering questions based on a given text.
A visualization of the social learning process: A teacher model provides instructions or few-shot examples to a student model without sharing its private data.
Language models have shown a remarkable capacity to perform tasks given only a handful of examples–a process called few-shot learning. With this in mind, we provide human-labeled examples of a task that enables the teacher model to teach it to a student. One of the main use cases of social learning arises when these examples cannot be directly shared with the student due, for example, to privacy concerns.
To illustrate this, let’s look at a hypothetical example for a spam detection task. A teacher model is located on device where some users volunteer to mark incoming messages they receive as either “spam” or “not spam”. This is useful data that could help train a student model to differentiate between spam and not spam, but sharing personal messages with other users is a breach of privacy and should be avoided. To prevent this, a social learning process can transfer the knowledge from the teacher model to the student so it learns what spam messages look like without needing to share the user’s personal text messages.
We investigate the effectiveness of this social learning approach by analogy with the established human social learning theory that we discussed above. In these experiments, we use PaLM 2-S models for both the teacher and the student.
A systems view of social learning: At training time, multiple teachers teach the student. At inference time, the student is using what it learned from the teachers.
Synthetic examples
As a counterpart to the live teaching model described for traditional social learning, we propose a learning method where the teachers generate new synthetic examples for the task and share them with the student. This is motivated by the idea that one can create a new example that is sufficiently different from the original one, but is just as educational. Indeed, we observe that our generated examples are sufficiently different from the real ones to preserve privacy while still enabling performance comparable to that achieved using the original examples.
The 8 generated examples perform as well as the original data for several tasks (see our paper).
We evaluate the efficacy of learning through synthetic examples on our task suite. Especially when the number of examples is high enough, e.g., n = 16, we observe no statistically significant difference between sharing original data and teaching with synthesized data via social learning for the majority of tasks, indicating that the privacy improvement does not have to come at the cost of model quality.
Generating 16 instead of just 8 examples further reduces the performance gap relative to the original examples.
The one exception is spam detection, for which teaching with synthesized data yields lower accuracy. This may be because the training procedure of current models makes them biased to only generate non-spam examples. In the paper, we additionally look into aggregation methods for selecting good subsets of examples to use.
Synthetic instruction
Given the success of language models in following instructions, the verbal instruction model can also be naturally adapted to language models by having the teachers generate an instruction for the task. Our experiments show that providing such a generated instruction effectively improves performance over zero-shot prompting, reaching accuracies comparable to few-shot prompting with original examples. However, we did find that the teacher model may fail on certain tasks to provide a good instruction, for example due to a complicated formatting requirement of the output.
For Lambada, GSM8k, and Random Insertion, providing synthetic examples performs better than providing generated instructions, whereas in the other tasks generated instruction obtains a higher accuracy. This observation suggests that the choice of the teaching model depends on the task at hand, similar to how the most effective method for teaching people varies by task.
Depending on the task, generating instructions can work better than generating new examples.
Memorization of the private examples
We want teachers in social learning to teach the student without revealing specifics from the original data. To quantify how prone this process is to leaking information, we used Secret Sharer, a popular method for quantifying to what extent a model memorizes its training data, and adapted it to the social learning setting. We picked this method since it had previously been used for evaluating memorization in federated learning.
To apply the Secret Sharer method to social learning, we design “canary” data points such that we can concretely measure how much the training process memorized them. These data points are included in the datasets used by teachers to generate new examples. After the social learning process completes, we can then measure how much more confident the student is in the secret data points the teacher used, compared to similar ones that were not shared even with the teachers.
In our analysis, discussed in detail in the paper, we use canary examples that include names and codes. Our results show that the student is only slightly more confident in the canaries the teacher used. In contrast, when the original data points are directly shared with the student, the confidence in the included canaries is much higher than in the held-out set. This supports the conclusion that the teacher does indeed use its data to teach without simply copying it over.
Conclusion and next steps
We introduced a framework for social learning that allows language models with access to private data to transfer knowledge through textual communication while maintaining the privacy of that data. In this framework, we identified sharing examples and sharing instructions as basic models and evaluated them on multiple tasks. Furthermore, we adapted the Secret Sharer metric to our framework, proposing a metric for measuring data leakage.
As next steps, we are looking for ways of improving the teaching process, for example by adding feedback loops and iteration. Furthermore, we want to investigate using social learning for modalities other than text.
Acknowledgements
*We would like to acknowledge and thank Matt Sharifi, Sian Gooding, Lukas Zilka, and Blaise Aguera y Arcas, who are all co-authors on the paper. Furthermore, we would like to thank Victor Cărbune, Zachary Garrett, Tautvydas Misiunas, Sofia Neata and John Platt for their feedback, which greatly improved the paper. We’d also like to thank Tom Small for creating the animated figure.*
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み