Accelerating Federated Learning Research with AI Agents and NVIDIA FLARE Auto-FL｜AI エージェントと NVIDIA FLARE Auto-FL を用いた連合学習研究の加速 | AIニュース最前線

[Federated learning (FL)](https://nvflare.readthedocs.io/en/2.4/fl_introduction.html) 研究は、往々にして欺瞞的なほど単純な問いから始まります：次に何を試すべきか？新しい集約ルール、[FedProx](https://arxiv.org/abs/1812.06127) の係数、サーバーの最適化器設定、[SCAFFOLD](https://arxiv.org/abs/1910.06378) の派生型、あるいはモデルアーキテクチャの微調整など、実験開始前にはどれも有望に見えます。 実行が完了した後、より困難な問いが浮上します：その変更は実際に指標を改善したのか？比較は公平だったか？その向上のためにランタイム（実行時間）を費やす価値があったのか？このアイデアは維持すべきか、絞り込むべきか、それとも捨てるべきか。 本稿では、有界な [AI agent](https://www.nvidia.com/en-us/ai/) のアクション、固定されたベンチマーク契約、実験台帳、文献に基づく回復機能、そして再現可能なレポート作成が、FL 研究者により多くのアイデアをより迅速に評価するのをどう支援するかを示す、新しい [NVIDIA FLARE](https://developer.nvidia.com/flare) の例を紹介します。 ## NVIDIA FLARE における Auto-FL とは何か？ [NVIDIA FLARE Auto-FL](https://github.com/NVIDIA/NVFlare/tree/main/research/auto-fl-research) は、フェデレーテッドラーニング戦略をテストおよび最適化するために設計された、自動化され AI ドライブ型の研究ループです。 この考え方は単純明快です。比較可能なベンチマークタスクから始め、エージェントに明確な研究制御平面を与え、固定されたトレーニング予算を設定し、変異の範囲を制限し、すべての結果を実験台帳に記録します。そこから、エージェントは FLARE Client API および Recipe API の契約を維持しながら、候補となる FL 戦略を自律的に反復実行できます。 エージェントに開放的な研究課題を任せるのではなく、Auto-FL は公平で比較可能なベンチマークから始めます。これは、固定されたトレーニング予算と一貫したスコアリングを持つ、制限された FL シミュレーションです。この共有ベースラインから、エージェントはプロトコルの安定性を維持し、比較を測定可能にし、結果を追跡できる構造化ワークフロー内で候補となる FL 戦略を探求できます。 有用なエージェント主導の実験ループは、FL 契約を破らない程度に制限され、アイデアを比較できる程度に測定可能で、長期の自律的キャンペーンに適する程度に安定しており、完了した Auto-FL キャンペーンを単なるログの羅列されたディレクトリではなく、再現可能で出典が明記されたレポートに変換できる程度に詳細であるべきです。 図 1 は、NVIDIA FLARE CIFAR-10 シミュレーションハッチャーにおける Auto-FL キャンペーンの進行状況を示しています。各点は実験台帳に記録された候補ランを表しており、灰色の点は破棄されたラン、青色の点はアクティブな候補、緑色の点は保持されたランです。また、緑色のステップ線は時間経過に伴うベストな観測サイト間評価スコアを追跡し、紫色の線は記録された文献レビューイベントを示しています。 ![image](https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/nvidia-flare-auto-fl-example-progress.webp)*図 1. FLARE における 8 つのシミュレートされた FL クライアントを持つ、不均一な CIFAR-10 データ分割での完了した Auto-FL キャンペーン* ## Auto-FL はどのようにして研究ループを明示化しますか？ コーディングエージェントは、複雑なコード変更を迅速に行うために有用です。FL（Federated Learning: 連合学習）実験は、通常のローカルモデルチューニングとは異なり、その実験の正しさが、サーバー、クライアント、モデル更新、メタデータ、データ分割、評価ロジック間の契約に依存します。候補者が報告されたスコアを上げながら、比較対象を静かに変更することがあります。例えば、評価データの改変、モデル容量の変更、通信バジェットの変更、ローカル計算リソースの変更、あるいはサーバーとクライアントの更新セマンティクスの変更などです。 Auto-FL は研究ループを明示化します。エージェントは [program.md](https://github.com/NVIDIA/NVFlare/blob/main/research/auto-fl-research/program.md) から開始し、これが制御プレーンとして機能します。その後、限定された変更を提案し、同じベンチマークバジェットを実行し、比較可能なスコアを抽出し、結果を results.tsv に追加し、台帳（ledger）を使用してどの候補ランを保持するか、あるいは破棄するかを決定します。人間はキャンペーンの任意の時点で中断し、実験履歴を分析することができます。 ## Auto-FL はどのようなコンポーネントを提供しますか？ Auto-FL は、その運用モデルを実行するために必要なコンポーネントを単一の場所にパッケージ化しています。これには、タスクプロファイル内に用意されたすぐに実行可能な実験用ハッチスが含まれています。具体的には、job.py 内の FLARE ベースラインレシピ、client.py 内のクライアント API によるトレーニングループ、カスタム FL 集約フック、追加のモデルおよびトレーニングユーティリティ、そしてミューテーションガードレールです。また、パッケージには実行スクリプト、プロット用ユーティリティ、テンプレート、完了したキャンペーン用のレポート機能も含まれています。 タスクプロファイルでは、FedAvg、FedOpt スタイルのサーバー更新、FedAdam、SCAFFOLD、中央値集約、および FedProx フックなど、サポートされる戦略範囲を定義できます。Auto-FL はまた、制約付きアーキテクチャ探索もサポートします。これは重要です。なぜなら、アーキテクチャ探索を行わない場合、連合アルゴリズムの比較が、制御不能なモデル容量の比較に陥ってしまう可能性があるからです。 **コンポーネント****カテゴリ****役割** program.mdメインエントリーポイントエージェント向け研究制御平面 job.py および client.pyタスクプロファイルFL 実験のための FLARE レシピ API とクライアント API ハッチス custom_aggregators.pyタスクプロファイルFedAvg、FedOpt/FedAdam、SCAFFOLD、中央値、および関連フック mutation_schema.yamlタスクプロファイルエージェント変更用の制約付きミューテーション表面 results.tsv台帳スコア、実行時間、ステータス、ターゲット、説明、およびアーティファクトのための実験台帳 plot_progress.pyユーティリティ台帳から生成された進行状況プロット autofl-nvflareスキル[NVFlare](https://github.com/NVIDIA/FLARE) ベースの Auto-FL ハッチスで、[autoresearch](https://github.com/karpathy/autoresearch) スタイルのループに従います。 翻訳全文 停止した実行に対する Auto-FL-NV-FLARE リポートスキルのキャンペーン報告フロー *表 1. Auto-FL の主要コンポーネント* ## Auto-FL はどのようにしてエージェント主導のコーディングを制御された実験ワークフローに変換するのか？ 最も重要な変化は運用面におけるものです。Auto-FL は、エージェント主導のコーディングを制御された実験ワークフローへと変換します。エージェントはコントロールプレーンを参照し、文献レビューを行い、候補案を提案し、許可された表面のみを変異させ、実験を実行し、スコアを抽出し、結果を記録し、その候補案を維持するか、絞り込むか、却下するかを決定します。 コントロールプレーンは program.md に存在します。バンドルされたローカルスキルファイルが、エージェントに対して運用ルールを指示します。これにより、人間は研究責任者の役割に留まります：質問を定義し、予算を設定し、どの変異が許可されるかを決定し、台帳を検証する一方で、AI エージェントは制限付きの候補戦略を試行し結果を記録するという反復作業を担当します。 図 2 は、文献に基づいた停止回復機能を備えた Auto-FL の研究ループを示しています。ワークフローは、研究意図、program.md、アクティブなタスクプロファイル、固定された予算、そして制限付きの変異表面から始まります。候補となる FLARE（Federated Learning for AI Research and Education）の実行結果は results.tsv に追加され、レビュー済みのバッチは維持、絞り込み、却下、または次の候補選択のために使用されます。 進歩が行き詰まった場合、ワークフローは構造化された文献レビューループに入り、ソースに基づく検索を実行し、課題カードを抽出し、提案カードをフィルタリングしてスコア付けし、文献イベントをログ記録し、同じ有界実験ループに契約安全な提案を返します。 ![image](https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/auto-fl-research-loop-2.webp)*図 2. 文献に基づく停止回復を備えた Auto-FL 研究ループ* ## 文献に基づく回復の機能とは何か？ Auto-FL は台帳（results.tsv）でパフォーマンスを追跡します。有用なキャンペーンは、台帳が探索方向が行き詰まっていることを示した後に、小さなローカル変更を続け続けるべきではありません。そのため、その瞬間のために文献に基づく回復パスが含まれています。 エージェントは台帳を使用して、現在の最良のスタック、最近の候補、繰り返されるクラッシュ、無効または悪化させたアイデア、およびアクティブなミューテーション契約を要約します。実行が行き詰まっているように見える場合、ワークフローはローカルスweep からソースに基づく文献ループに切り替わります。目的は、推測を止め、キャンペーンが遭遇している障害モードの種類を特定し、少数の契約安全な提案を持って戻ることです。 文献ループにおいて、エージェントは構造化されたワークシートを埋め、関連する手法を検索し、課題カードを作成し、提案カードを生成し、重複および過去に失敗したアイデアをフィルタリングし、期待される利益、実装リスク、契約安全性、証拠、新規性、ランタイムコストに対して提案を評価します。選択された提案は、同じ制限付き実験ループに再入力されます：許可された表面のみを変異させ、固定されたタスク契約の下で実行し、比較可能なスコアを抽出し、結果を台帳に追加します。 ## 最終的な Auto-FL レポートには何が含まれますか？ 人間が手動で Auto-FL キャンペーンを停止した後、レポート作成スキルは results.tsv を含む実験ブランチに対して使用されます。これにより、最終的な進捗プロットが作成され、レポートが記述され、レポート用アーティファクトがコミットされます。 この最終レポートは、自律的な反復と研究者によるレビューをつなぐ架け橋です。これはベースラインと最高スコア、絶対的および相対的な向上度、ランタイムコスト、最終スタック、クラッシュの注記、無効またはそれ以下のアイデア、推奨される次のステップの実験を要約したものです。Auto-FL ループ内では、却下された候補はコミットされた台帳に可視化されたまま残され、保持されたコード変更は実験ブランチにコミットされます。エージェントと人間研究者はこのメモリを使用して、同じ低価値のアイデアを再度試みるのを回避できます。 ## Auto-FL をどのようにして独自のデータセットやタスクに適応させますか？ デフォルトの CIFAR-10 シミュレーションを超えて、Auto-FL パターンは非常に適応性が高いです。主要な制御プレーンとタスクプロファイル（データセット、メトリクス、変異制約を指定するもの）を分離することで、研究者は基盤となるハッチを再構築することなく、自律的な実験の規律をさまざまなモデルファミリーに適用できます。 この柔軟性を示すために、本例には医療用視覚言語モデル（VLM）タスクが含まれています。この例では、連合 [Qwen3-VL](https://github.com/QwenLM/Qwen3-VL) LoRA 学習ワークフローを NVIDIA FLARE のクライアントおよびレシピ API に統合しています。セットアップは、3 つの異なる医療データサイトをシミュレートします：[VQA-RAD](https://huggingface.co/datasets/flaviagiammarino/vqa-rad)、[SLAKE](https://huggingface.co/datasets/BoKelvin/SLAKE)、および [PathVQA](https://huggingface.co/datasets/flaviagiammarino/path-vqa)。この連合アプローチは LoRA アダプターに焦点を当て、評価にはトークンレベルの F1 スコアを使用します。 ![image](https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/medical-vlm-benchmarks.webp)*本調査で評価された医療 VLM ベンチマーク：VQA-RAD（胸部レントゲン）、SLAKE（胸部 CT）、PathVQA（H&E 組織染色スライド）* 再度、タスクプロファイルは意図的に範囲を限定しています。これはサイトマッピング、プロンプトと評価セマンティクス、モデル参照、アダプターランク、データ制限、ラウンド数、シードポリシー、最終評価クライアント、およびランタイムキャップを固定するものです。この契約内において、エージェントは学習率、ローカルオプティマイザステップ、サイト固有の学習率スケーリング、勾配累積、[FedProx](https://proceedings.mlsys.org/paper_files/paper/2020/file/1f5fe83998a09396ebe6477d9475ba0c-Paper.pdf) スタイルの正則化、および [LoRA 集約バリアント](https://proceedings.neurips.cc/paper_files/paper/2024/file/28312c9491d60ed0c77f7fff4ad86dd1-Paper-Conference.pdf) など、タスク安全な選択肢を探求することができます。 同じ Auto-FL スキルとメインエントリーポイントを用いることで、エージェントはゼロショットおよびベースライン性能と比較して、図 4 に示されるように、この特定のタスクプロファイルに対する結果を改善できます。棒グラフは各データセットのテスト分割におけるトークン F1 を示しています。Auto-FL による向上は、データセット全体に均一に分布するのではなく、より困難な分布外（out-of-distribution）のサイトに集中しています。 ![image](https://developer-blogs.nvidia.com/wp-content/uploads/2026/06/auto-fl-medical-vlm-token-federated.webp)*図 4. ゼロショット、FedAvg ベースラインポリシー、Auto-FL が発見した最良のポリシー、および全データを用いた集中型トレーニングの下における、連合 Qwen3 VL 8B Instruct および LoRA (r=32) アダプターのデータセット別クロスサイトトークンレベル F1* ## NVIDIA FLARE Auto-FL の始め方 Auto-FL の研究例 [Auto-FL research example](https://github.com/NVIDIA/NVFlare/tree/main/research/auto-fl-research) を固定された足場としてではなく、出発点として活用してください。まずはベースラインを実行し、生成された台帳（ledger）を検査することから始めます。その後、ご自身の federated learning (FL) の問い、データセット、タスクに合わせて変異表面（mutation surface）とスコアリング契約を適応させてください。このパターンは移植可能です：予算は固定し、指標は比較可能にし、変異表面を明示的に定義してください。タスク固有のプロファイルやスクリプト（例えば client.py や job.py など）を調整することで、他のシナリオにもこの概念を適用できます。ここで [task profile](https://github.com/NVIDIA/NVFlare/blob/main/research/auto-fl-research/tasks/cifar10/profile.md) と [mutation schema](https://github.com/NVIDIA/NVFlare/blob/main/research/auto-fl-research/tasks/cifar10/mutation_schema.yaml) がタスクの詳細を定義します。 コーディングエージェントを用いた Auto-FL は魔法ではありません。より良い FL 研究の問いを、より速く導き出すための実用的な足場です。その価値は、エージェントを取り巻く構造から生まれます：制御プレーン（control plane）、専用の文献レビューループ、安全な変異表面、固定された予算、比較可能なスコア、そして各候補を記録する台帳です。これらの要素が整えば、エージェントは研究者が必要とする比較可能性と再現性を保ちつつ、FL 実験の反復的な作業の多くを引き受けることができます。

AI エージェントと NVIDIA FLARE Auto-FL を用いた連合学習研究の加速

背景や根拠まで確認しますか？

調べる

選ぶ

サイト