1件の記事
Meta社がComposerにオンライン強化学習を適用し、本番環境でモデルチェックポイントを提供し、実際のユーザーインタラクションを報酬信号として使用して、1日に複数回改善されたチェックポイントをリリースした。