Amazon Science·2026年5月27日 00:17
多様な推論経路が LLM により良い意思決定を教える
TL;DR
Amazon Science は、LLM の推論能力を向上させるため、単一の正解ではなく多様な推論経路を学習する「セット教師付き微調整(SSFT)」と新しい強化学習手法を発表し、ベンチマークで5〜7%の精度向上を実現した。
AI深層分析2026年5月27日 01:02
4
重要/ 5段階
関連性
新規性
影響度
信頼性
Amazon Science は、LLM の推論能力を向上させるため、単一の正解ではなく多様な推論経路を学習する「セット教師付き微調整(SSFT)」と新しい強化学習手法を発表し、ベンチマークで5〜7%の精度向上を実現した。
重要度スコアの内訳、キーポイント、影響分析、編集コメントをプレミアムで公開中。
大規模言語モデル(LLM)は、ラベル付けされていない膨大なデータセット上で事前学習されますが、その後、指示の追従や有害な出力の回避、推論の実行、または生成された出力に対する正当性の提示といった特定のタスクに対してポストトレーニングが行われます。並列推論——すなわち、同じ問題に対して複数の多様な推論経路を生成して比較する手法——は、LLM の推論能力の限界を理解するための重要なツールとして台頭しています。また、これは自己一貫性(self-consistency)といった LLM をテストする技術の基盤でもあり、ここでは複数の推論経路を集約して精度を向上させます。LLM は通常、各トレーニング例に単一の人間検証済み推論トレースがラベル付けされた教師付き微調整(SFT: Supervised Fine-Tuning)を通じて推論のために最適化されています。評価における並列推論の有効性を考慮すると、「同じ質問に対して多様な推論トレースでモデルを訓練することで、LLM の推論能力の限界を広げられるだろうか」という疑問が自然に生じます。今年開催された国際学習表現会議(ICLR)で発表した論文において、私たちはこの課題に対する解決策を提案します。これは、従来指摘されていた並列推論のいくつかの落とし穴を回避する手法です。
単一の LLM に異なる推論戦略を採用させるために、ポストトレーニング段階
続きを日本語で読む
無料登録で1日5記事まで読めます。プレミアムなら無制限。
7日間の無料トライアル ・ いつでもキャンセル可能
関連記事
Microsoft Research★42026年5月28日 01:00
AI を通じた人間の知能の拡張
マイクロソフト・リサーチは、現代の AI システムが人間の知能を複製するのではなく、人間のコグニションや言語に既に存在する構造を前提として拡張することで強力になると主張し、その能力と限界(幻覚や推論の破綻)を説明している。
404 Media★32026年5月28日 23:40
Ouraリングの月額課金なし利用を可能にするアプリ「Cracked Oura」が登場
開発者が、Ouraリングユーザーが月額サブスクリプションを支払わずに健康データを照会・分析できるオープンソースアプリ「Cracked Oura」を作成した。これは、多くの人が評価する新モデル「Ring 5」発表の直後に登場した。
The Zvi★32026年5月28日 23:18
AI #170:大統領令の欠如
ザヴィ・コウが、米国の AI 政策に関する大統領令が事実上廃止され、代わりにイリノイ州の法案が成立したと報告し、米国 AI 政策が依然として場当たり的であると指摘している。