#post-training のAIニュース

5件の記事

Frontier のポストトレーニングレシピを Finbarr Timbers とレビュー

著者が RLHF やポストトレーニングの基礎をまとめるため、Finbarr Timbers をポッドキャストに招き、Olmo 型レシピを最先端レベルへ引き上げるための現状と必要な手順について議論した。

分布の視点から見るSFT、RL、およびオンポリシー蒸留

研究チームは、SFT（教師あり微調整）、RL（強化学習）、オンポリシー蒸留という異なる事後学習手法がモデルの確率分布に与える影響を分析しました。その結果、RL は既存能力の忘却リスクを抑えつつタスク性能を向上させる一方、SFT は外部データへの引き寄せにより既存能力を損なう恐れがあることが示されました。また、オンポリシー蒸留は教師モデルを上回る可能性があり、サンプリングデータの重要性が確認されました。

TLDR AI·5月11日·★★★★

1年の沈黙を経て、MetaがLLM競争に再参入

メタは新モデル「Muse Spark」および158ページの安全報告書を公開し、大規模言語模型分野での事業再始動を示した。マーク・ザッカーバーグ氏が莫大な資金を投じたこの動きは、同社のAI業界における将来の役割と戦略的意図を示す重要な指標である。

Understanding AI·4月20日·★★★★

個別訓練、統合結合：Mixture-of-Expertsを用いたモジュール化ポストトレーニング

Google ResearchはBAR手法を提案した。これは言語モデルの能力ごとにドメイン専門家を独立して訓練し、単一のMoEモデルに統合するプロセスである。この手法により、特定の専門家のアップグレードが他の専門家に影響を与えずに行える。

Allen AI (AI2)·4月20日·★★★★

私が構築してきたもの：ATOMレポート、ポストトレーニング講座、書籍の完成、そして継続的な研究

著者はATOMレポート、RLHF関連書籍の完成、ポストトレーニング講座の制作、および技術研究といった最近の取り組みを総括し、その目的と成果について説明している。

Interconnects·4月15日