研究:最新LLMをランク付けするプラットフォームは信頼性に欠ける可能性
MITの研究により、LLM比較プラットフォームのランキングが少数のユーザーフィードバックに過度に依存しやすく、信頼性が低いことが明らかになった。
キーポイント
ランキングの脆弱性
MITの研究チームは、LLMランキングプラットフォームがわずかな数のユーザー相互作用(投票)によって結果が大きく歪められることを発見した。
評価手法の開発
ランキングプラットフォームの信頼性をテストし、結果を歪める主要な個別投票を特定する高速評価手法が開発された。
企業への警告
多くのLLMバリエーションから最適なモデルを選定する企業に対し、現在のランキングに過度に依存することのリスクが警告されている。
改善提案
ランキングの堅牢性を高めるため、より詳細なフィードバック収集などの厳格な評価戦略の実装が必要であると提言されている。
ランキングの不安定性と少量データへの依存
人気のあるLLM評価プラットフォームでは、投票数の0.0035%(5万7千票中わずか2票)を削除するだけでトップモデルの順位がひっくり返ることが示された。
ユーザーエラーによる影響と専門家の関与
多くの重要な投票はユーザーの誤選択によるものであったが、専門 annotator と高品質なプロンプトを使用するプラットフォームはより堅牢で、約3%のデータ削除で順位が変動した。
効率的な近似手法の導入
研究者は、手動でのデータドロップテストが不可能な規模に対応するため、既存の理論に基づいた効率的な近似手法を開発し、問題のあるデータポイントを特定して再分析可能にした。
影響分析・編集コメントを表示
影響分析
この研究は、LLM市場における「比較プラットフォーム」の信頼性に根本的な疑問を投げかけ、企業によるAI導入判断プロセスの見直しを促す重要な示唆となる。ランキングに依存した安易なモデル選定がリスクを生む可能性があるため、より厳格なベンチマークやPoC(概念実証)の重要性が再認識されるだろう。
編集コメント
多数のLLMが存在する現在、比較プラットフォームのランキングは「参考」までとし、自社のユースケースに特化した厳密な評価を必須とするべきという警告は的を射ています。
Press Inquiries Press Contact:
MITニュースオフィスウェブサイトでダウンロード可能な画像は、クリエイティブ・コモンズ表示-非営利-改変禁止ライセンスの下、非営利団体、報道機関、一般に提供されています。提供された画像は、サイズ調整のためのトリミング以外、変更してはなりません。画像を複製する際はクレジットラインを使用する必要があります。以下に記載がない場合は、画像のクレジットを「MIT」としてください。
Close
キャプション: 「結局のところ、ユーザーは自分が最良のLLMを選択しているかどうかを知りたいのです。もしほんの少数のプロンプトがこのランキングを左右しているなら、そのランキングは絶対的なものではない可能性を示唆しています」とタマラ・ブロデリックは述べる。 クレジット: Image: MIT News; iStock Previous image Next image
販売報告書の要約や顧客問い合わせのトリアージに大規模言語モデル(LLM)を利用したい企業は、何百もの固有のLLMと数十のモデルバリエーションの中から選択することができ、それぞれがわずかに異なる性能を持っています。
選択肢を絞り込むために、企業はしばしばLLMランキングプラットフォームを頼りにします。これらのプラットフォームは、特定のタスクにおける性能に基づいて最新のLLMをランク付けするために、モデルとのインタラクションに関するユーザーフィードバックを収集します。
しかし、MITの研究者らは、ほんの一握りのユーザーインタラクションが結果を歪め、特定のユースケースに最適なLLMについて誤った判断を導く可能性があることを発見しました。彼らの研究は、クラウドソーシングされたデータのごく一部を除去するだけで、トップにランクされるモデルが変わりうることを明らかにしています。
彼らは、ランキングプラットフォームがこの問題の影響を受けやすいかどうかを判断するための迅速なテスト手法を開発しました。この評価手法は、結果を歪める原因となっている個々の投票を特定するので、ユーザーはこれらの影響力の大きい投票を検証することができます。
研究者らは、この研究がモデルランキングを評価するためのより厳密な戦略の必要性を強調していると述べています。この研究では緩和策には焦点を当てていませんが、ランキング作成により詳細なフィードバックを収集するなど、これらのプラットフォームの堅牢性を向上させる可能性のある提案を提供しています。
この研究はまた、ビジネスや組織に広範かつ高コストな影響を与えうるLLMに関する意思決定においてランキングに依存する可能性のあるユーザーに対して警告を発するものです。
「これらのランキングプラットフォームがこの問題に対してこれほど敏感であることに驚きました。もしトップにランクされたLLMが数万件のユーザーフィードバックのうち、たった2、3件のフィードバックに依存しているのであれば、そのLLMが実際に導入された際に、他のすべてのLLMを一貫して上回る性能を発揮すると想定することはできません」と、MIT電気工学・コンピュータ科学科(EECS)准教授で、情報意思決定システム研究所(LIDS)およびデータ・システム・社会研究所のメンバー、コンピュータ科学・人工知能研究所(CSAIL)のアフィリエイトであり、本研究のシニアオーサーであるタマラ・ブロデリックは述べています。
共著者には、筆頭著者でEECS大学院生のジェニー・ホアンとユンニィ・シェン、およびIBMリサーチのシニアリサーチサイエンティストであるデニス・ウェイが名を連ねています。この研究は国際学習表現会議で発表される予定です。
LLMランキングプラットフォームには多くの種類がありますが、最も一般的なタイプは、ユーザーに2つのモデルにクエリを送信させ、どちらのLLMがより良い応答を提供したかを選ばせるものです。
これらのプラットフォームは、これらの対戦結果を集計して、コーディングや視覚的理解などの特定のタスクにおいてどのLLMが最も優れた性能を発揮したかを示すランキングを生成します。
高性能なLLMを選択することで、ユーザーはおそらく、そのモデルのトップランキングが一般化する、つまり、類似しているが同一ではない自身のアプリケーションにおいて、新しいデータセットに対しても他のモデルを凌駕することを期待します。
MITの研究者らは以前、統計学や経済学などの分野における一般化を研究していました。その研究は、データのごく一部を除去することでモデルの結果が変わりうる特定のケースを明らかにし、それらの研究の結論が狭い設定を超えて保持されない可能性を示唆していました。
研究者らは、同じ分析がLLMランキングプラットフォームにも適用できるかどうかを確かめたいと考えました。
「結局のところ、ユーザーは自分が最良のLLMを選択しているかどうかを知りたいのです。もしほんの少数のプロンプトがこのランキングを左右しているなら、そのランキングは絶対的なものではない可能性を示唆しています」とブロデリックは述べます。
しかし、データ除去の現象を手動でテストすることは不可能です。例えば、彼らが評価したあるランキングには57,000件以上の投票がありました。0.1%のデータ除去をテストするということは、57,000件のデータから57票のサブセットをそれぞれ除去し(10の194乗以上のサブセットが存在します)、その都度ランキングを再計算することを意味します。
代わりに、研究者らは以前の研究に基づいた効率的な近似手法を開発し、それをLLMランキングシステムに適合させました。
「特定の仮定の下でこの近似が機能することを証明する理論はありますが、ユーザーはそれを盲信する必要はありません。私たちの手法は最後に問題のあるデータポイントをユーザーに示すので、ユーザーは単にそれらのデータポイントを除去し、分析を再実行して、ランキングに変化があるかどうかを確認することができます」と彼女は述べています。
驚くほど敏感
研究者らがこの手法を人気のあるランキングプラットフォームに適用したところ、トップLLMに大きな変化を引き起こすために除去する必要のあるデータポイントが驚くほど少ないことに気づきました。ある事例では、57,000件以上の投票のうちわずか2票(0.0035%)を除去するだけで、トップにランクされるモデルが変わりました。
専門家による注釈者とより高品質なプロンプトを使用する別のランキングプラットフォームは、より堅牢でした。ここでは、2,575件の評価のうち83件(約3%)を除去することで、トップモデルが入れ替わりました。
彼らの調査により、多くの影響力の大きい投票はユーザーエラーの結果であった可能性が明らかになりました。ブロデリックによると、どのLLMの性能が優れているかについて明確な答えがある場合でも、ユーザーが別のモデルを選択しているように見えるケースがあったとのことです。
「その時点でユーザーの頭の中に何があったかを知ることは決してできませんが、おそらく誤クリックしたか、注意を払っていなかったか、あるいはどちらが優れているか本当に分からなかったのでしょう。ここでの大きな教訓は、ノイズやユーザーエラー、あるいは外れ値によって、どのLLMがトップランクされるかが決まってほしくないということです」と彼女は付け加えます。
研究者らは、各投票に対する信頼度など、ユーザーから追加のフィードバックを収集することが、この問題の緩和に役立つより豊富な情報を提供するだろうと提案しています。ランキングプラットフォームは、クラウドソーシングされた回答を評価するために人間の仲介者を使用することもできるでしょう。
研究者らとしては、他の文脈における一般化の探求を続けながら、非堅牢性のより多くの例を捉えることができるより優れた近似手法の開発を進めたいと考えています。
「ブロデリックと彼女の学生たちの研究は、現代の機械学習モデルとデータセットの規模を考えると網羅的な計算が困難であるにもかかわらず、特定のデータが下流プロセスに与える影響の有効な推定値をどのように得られるかを示しています」と、この研究に関与していないノースウェスタン大学のギニー・ロメッティ計算機科学教授、ジェシカ・ハルマンは述べています。「最近の研究は、日常的に適用されている――しかし同時に非常に脆弱でもある――人間の選好を集約し、それらを用いてモデルを更新する方法における強いデータ依存性を垣間見せています。微調整されたモデルの振る舞いを本当に変えうる選好がどれほど少ないかを知ることは、これらのデータを収集するためのより慎重な方法を刺激するかもしれません。」
この研究は、海軍研究事務所、MIT-IBMワトソンAIラボ、全米科学財団、アマゾン、およびCSAILシードアワードによって一部資金提供されています。
Share this news article on:
論文: "Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings" 関連リンク
タマラ・ブロデリック
情報意思決定システム研究所
データ・システム・社会研究所
コンピュータ科学・人工知能研究所
電気工学・コンピュータ科学科
工学部
MITシュワルツマン・コンピューティング・カレッジ
MIT-IBMワトソン
原文を表示
Press Inquiries Press Contact:
Images for download on the MIT News office website are made available to non-commercial entities, press and the general public under a Creative Commons Attribution Non-Commercial No Derivatives license. You may not alter the images provided, other than to crop them to size. A credit line must be used when reproducing images; if one is not provided below, credit the images to "MIT."
Close
Caption: “At the end of the day, a user wants to know whether they are choosing the best LLM. If only a few prompts are driving this ranking, that suggests the ranking might not be the end-all-be-all,” Tamara Broderick says. Credits: Image: MIT News; iStock Previous image Next image
A firm that wants to use a large language model (LLM) to summarize sales reports or triage customer inquiries can choose between hundreds of unique LLMs with dozens of model variations, each with slightly different performance.
To narrow down the choice, companies often rely on LLM ranking platforms, which gather user feedback on model interactions to rank the latest LLMs based on how they perform on certain tasks.
But MIT researchers found that a handful of user interactions can skew the results, leading someone to mistakenly believe one LLM is the ideal choice for a particular use case. Their study reveals that removing a tiny fraction of crowdsourced data can change which models are top-ranked.
They developed a fast method to test ranking platforms and determine whether they are susceptible to this problem. The evaluation technique identifies the individual votes most responsible for skewing the results so users can inspect these influential votes.
The researchers say this work underscores the need for more rigorous strategies to evaluate model rankings. While they didn’t focus on mitigation in this study, they provide suggestions that may improve the robustness of these platforms, such as gathering more detailed feedback to create the rankings.
The study also offers a word of warning to users who may rely on rankings when making decisions about LLMs that could have far-reaching and costly impacts on a business or organization.
“We were surprised that these ranking platforms were so sensitive to this problem. If it turns out the top-ranked LLM depends on only two or three pieces of user feedback out of tens of thousands, then one can’t assume the top-ranked LLM is going to be consistently outperforming all the other LLMs when it is deployed,” says Tamara Broderick, an associate professor in MIT’s Department of Electrical Engineering and Computer Science (EECS); a member of the Laboratory for Information and Decision Systems (LIDS) and the Institute for Data, Systems, and Society; an affiliate of the Computer Science and Artificial Intelligence Laboratory (CSAIL); and senior author of this study.
She is joined on the paper by lead authors and EECS graduate students Jenny Huang and Yunyi Shen as well as Dennis Wei, a senior research scientist at IBM Research. The study will be presented at the International Conference on Learning Representations.
While there are many types of LLM ranking platforms, the most popular variations ask users to submit a query to two models and pick which LLM provides the better response.
The platforms aggregate the results of these matchups to produce rankings that show which LLM performed best on certain tasks, such as coding or visual understanding.
By choosing a top-performing LLM, a user likely expects that model’s top ranking to generalize, meaning it should outperform other models on their similar, but not identical, application with a set of new data.
The MIT researchers previously studied generalization in areas like statistics and economics. That work revealed certain cases where dropping a small percentage of data can change a model’s results, indicating that those studies’ conclusions might not hold beyond their narrow setting.
The researchers wanted to see if the same analysis could be applied to LLM ranking platforms.
“At the end of the day, a user wants to know whether they are choosing the best LLM. If only a few prompts are driving this ranking, that suggests the ranking might not be the end-all-be-all,” Broderick says.
But it would be impossible to test the data-dropping phenomenon manually. For instance, one ranking they evaluated had more than 57,000 votes. Testing a data drop of 0.1 percent means removing each subset of 57 votes out of the 57,000, (there are more than 10194 subsets), and then recalculating the ranking.
Instead, the researchers developed an efficient approximation method, based on their prior work, and adapted it to fit LLM ranking systems.
“While we have theory to prove the approximation works under certain assumptions, the user doesn’t need to trust that. Our method tells the user the problematic data points at the end, so they can just drop those data points, re-run the analysis, and check to see if they get a change in the rankings,” she says.
Surprisingly sensitive
When the researchers applied their technique to popular ranking platforms, they were surprised to see how few data points they needed to drop to cause significant changes in the top LLMs. In one instance, removing just two votes out of more than 57,000, which is 0.0035 percent, changed which model is top-ranked.
A different ranking platform, which uses expert annotators and higher quality prompts, was more robust. Here, removing 83 out of 2,575 evaluations (about 3 percent) flipped the top models.
Their examination revealed that many influential votes may have been a result of user error. In some cases, it appeared there was a clear answer as to which LLM performed better, but the user chose the other model instead, Broderick says.
“We can never know what was in the user’s mind at that time, but maybe they mis-clicked or weren’t paying attention, or they honestly didn’t know which one was better. The big takeaway here is that you don’t want noise, user error, or some outlier determining which is the top-ranked LLM,” she adds.
The researchers suggest that gathering additional feedback from users, such as confidence levels in each vote, would provide richer information that could help mitigate this problem. Ranking platforms could also use human mediators to assess crowdsourced responses.
For the researchers’ part, they want to continue exploring generalization in other contexts while also developing better approximation methods that can capture more examples of non-robustness.
“Broderick and her students’ work shows how you can get valid estimates of the influence of specific data on downstream processes, despite the intractability of exhaustive calculations given the size of modern machine-learning models and datasets,” says Jessica Hullman, the Ginni Rometty Professor of Computer Science at Northwestern University, who was not involved with this work. “The recent work provides a glimpse into the strong data dependencies in routinely applied — but also very fragile — methods for aggregating human preferences and using them to update a model. Seeing how few preferences could really change the behavior of a fine-tuned model could inspire more thoughtful methods for collecting these data.”
This research is funded, in part, by the Office of Naval Research, the MIT-IBM Watson AI Lab, the National Science Foundation, Amazon, and a CSAIL seed award.
Share this news article on:
Paper: "Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings" Related Links
Tamara Broderick
Laboratory for Information and Decision Systems
Institute for Data, Systems, and Society
Computer Science and Artificial Intelligence Laboratory
Department of Electrical Engineering and Computer Science
School of Engineering
MIT Schwarzman College of Computing
MIT-IBM Watson AI Lab
Computer science and technology
Artificial intelligence
Machine learning
Laboratory for Information and Decision Systems (LIDS)
Electrical engineering and computer science (EECS)
School of Engineering
MIT Schwarzman College of Computing
National Science Foundation (NSF)
MIT-IBM Watson AI Lab
Related Articles
New method improves the reliability of statistical estimations


関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み