Amazon Nova Forge におけるハイパーパラメータ最適化の芸術と科学

大規模言語モデル（LLM）は一般的なタスクにおいて強力な結果をもたらしますが、独自データや内部プロセス、ドメイン固有の用語の理解を必要とする専門的な業務ではしばしば苦戦します。[Amazon Nova Forge](https://aws.amazon.com/nova/forge/) は、[Amazon Nova](https://aws.amazon.com/nova/) を用いて独自の最先端モデルを構築できるようにすることで、この課題に対処します。開発は初期のモデルチェックポイントから開始し、独自データを Amazon Nova がキュレーションしたトレーニングデータとブレンドし、カスタムモデルを AWS 上で安全にホストできます。重要な機能の一つがデータミキシングであり、これはトレーニングデータをキュレーションされたデータセットとブレンドするものです。これにより、モデルはドメインの知識を吸収しつつも、広範な推論能力、指示従順性、言語能力を維持することができます。これによって、通常はドメインカスタマイズを損なう壊滅的な忘却（カタストロフィック・フォッティング）を防ぐことができます。 成功するカスタマイズには、慎重なハイパーパラメータ調整が必要です。学習率、データミキシング比率、チェックポイントの選択、トレーニング手法はすべて、 silently 訓練を無効にするような方法で相互作用します。これらどれかが間違っていれば、一つの課題を別の課題と引き換えにすることになります。本記事では、高価な失敗したトレーニングランを避けるために、Amazon Nova Forge におけるハイパーパラメータ調整の芸術（戦略的なトレードオフ）と科学（指標に基づく意思決定）について解説します。 ドメイン固有タスク向けのファインチューニングとは、特定の領域でのパフォーマンスを向上させる一方で、モデルの汎用能力を低下させないことを意味し、このバランスを適切に保つことは見た目以上に難しいものです。本記事では、データとタスクに適したカスタマイズ戦略の選択から、学習率、バッチサイズ、チェックポイント設定など結果に最も影響を与えるトレーニングパラメータの設定に至るまで、そのバランスをどう乗り越えるかについて解説します。また、無駄なトレーニングランにつながる一般的なミステイクとその早期発見方法についても取り上げます。これにより、汎用能力の低下や回避可能な失敗による計算リソースの浪費を防ぎながら、ドメイン固有のパフォーマンスを向上させることが可能になります。 この記事を読み終える頃には、汎用能力を損なうことなくドメイン固有のパフォーマンスを向上させる方法と、バランスを誤ることによって生じる高価な失敗を回避する方法を理解しているはずです。 ## ハイパーパラメータ調整の課題 このバランスを実現することは、外見ほど簡単ではありません。3 つの根本的な課題が、ドメイン特化型モデルにおけるハイパーパラメータ調整を特に困難にしています。 ## チャレンジ 1：壊滅的忘却 狭いドメインのデータでモデルを訓練すると、事前学習中に習得した汎用的な能力が上書きされてしまうことがあります。この現象は「壊滅的忘却（catastrophic forgetting）」と呼ばれ、訓練ドメイン外のタスクにおいて性能が低下する形で現れます。モデルは高度に特化しますが、指示に従う能力や推論能力、広範な知識を失ってしまいます。実運用においては、サポートチケットで微調整されたカスタマーサービスモデルが、曖昧なリクエストについて推論できなくなったり、一貫性のある多ターン対話を維持できなくなったりする可能性があります。 これは安定性と柔軟性のトレードオフを生み出します。理想的には、モデルは組織のドメインを学習するのに十分な柔軟性を備えつつも、汎用的な能力を保持するのに十分な安定性を有している必要があります。Nova Forge は、訓練中にトレーニングデータと厳選されたデータセットを混合する「データミキシング（data mixing）」や、既存のアライメントをどの程度維持するかを選択できる「チェックポイント選択（checkpoint selection）」を通じて、この課題に対処します。 ## チャレンジ 2：適切な学習率の発見 学習率は、各トレーニングバッチに対するモデルの重みの変化量を制御します。これはすべてのカスタマイズ手法において最も敏感なハイパーパラメータです。学習率が大きすぎると、モデルは最適な状態を逸脱し、トレーニング中に不安定化したり、基礎的な能力を急速に失ったりする可能性があります。逆に小さすぎると、収束が非常に遅くなるため計算リソースが無駄になります。適切な値は、データの分布、混合比率、およびトレーニング手法によって異なります。 Nova Forge は、これらの相互作用を考慮した上で、各トレーニング技法に対して調整済みのサービスデフォルト値を提供しています。データミキシングを使用する場合、この敏感性はさらに高まります。Nova データと独自のデータを混合する際にデフォルトの学習率から逸脱することは、トレーニング不安定化の最も一般的な原因であるため、これらのサービスデフォルト値が推奨される出発点となります。 ## チャレンジ 3：ベースライン性能の制約 強化学習ファインチューニング（RFT）は、複数の候補回答を生成し、品質基準に対してスコアリングすることでモデルの振る舞いを改善する技術です。モデルは自身の出力を比較し、より優れたものを強化することによって学習します。RFT は、ファインチューニング前にモデルが正解または高品質な回答を生成する頻度で測定される特定のベースラインタスク精度の範囲内で最大限の能力を発揮します。もしベースライン精度が低すぎる場合（モデルがほとんど正答しない場合）、報酬誘導探索のために学習できる十分な良質な例が存在しません。逆に、ベースライン精度がすでに非常に高い場合、追加のトレーニングは収穫逓減を起こし、既存のパフォーマンスを低下させるリスクがあります。これはつまり、RFT はモデルが根本的に知識や推論能力を欠いているためタスクを試みることのできない大きな能力格差を埋めることはできないことを意味します。RFT は、ゼロから全く新しい機能を教えるのではなく、モデルがすでに部分的に示すことのできる振る舞いを洗練させ強化するものです。 Nova Forge パイプラインは両方の境界に対応しています。低ベースラインのシナリオでは、効果的な報酬ベース学習に必要な基盤となる能力を確立するために、まず教師ありファインチューニング（SFT）を実行します。高ベースラインのタスクでは、モデルの品質範囲全体にわたって報酬関数に識別力があることを確認してください。もしほとんどの回答がすでに高いスコアを獲得している場合、RFT は最適化するための意味のあるシグナルを持たなくなります。 ## Nova Forge カスタマイズパイプライン これらの課題を理解することは、Amazon Nova Forge のカスタマイズパイプラインがそれらに対処するためにどのように設計されているかを枠組みとして示します。Nova Forge は、モデル開発ライフサイクルにおいてそれぞれが異なる目的を果たす 3 つの補完的なカスタマイズ手法を提供しています。 **手法** **機能** **使用タイミング** **入力データ** **継続事前学習 (CPT: Continued pre-training)** 大量のラベルなし、ドメイン固有の独自データを自己教師あり学習させることで、基盤モデル (FM) の知識を拡張します。CPT は、テキストコーパスからドメイン特有の用語やパターンをモデルに習得させます。 ベースモデルに存在しない専門用語、業界概念、または組織内の知識を理解させる必要がある場合に使用します。 大量のラベルなしドメインテキスト。Nova Forge はデータミキシングと 3 つのチェックポイントオプション（事前学習済み、中間学習済み、事後学習済み）をサポートしており、それぞれが異なるデータ規模や下流タスクの要件に適しています。 **教師あり微調整 (SFT)** ターゲットとするタスクに固有の入力 - 出力ペアからなるトレーニングデータセットを用いて、モデルの動作をカスタマイズします。SFT はデモンストレーションを通じて、「X が与えられたら Y を出力する」という振る舞いをモデルに学習させます。 モデルが特定の応答形式に従ったり、特定のトーンを採用したり、分類や抽出のような構造化タスクを実行したりする必要があります。 各タスクあたり 1,000〜10,000 の高品質なデモンストレーションが必要です。量よりも、品質、一貫性、多様性が重要です。Nova Forge は、Amazon Nova がキュレートしたデータセット（一般的能力を維持する推論・指示追従カテゴリを含む）を用いたデータミックスによる SFT をサポートしています。 **強化学習微調整 (RFT)** 報酬信号を用いて、モデルの出力を望ましい結果へと誘導します。RFT は、先行するトレーニングによって確立された行動的近傍内で、単一ターンまたはマルチターンの対話タスクにおけるモデルを最適化します。 応答品質を評価できる明確な報酬関数を持っており、SFT のみでは達成できない性能を引き出したいと考えています。 プロンプトと報酬関数が必要です。Nova Forge は、[AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/welcome.html) を通じて独自の外部報酬環境を持ち込むことをサポートしており、ドメイン固有の品質評価のためのカスタム検証ロジックを可能にします。 これら3つのステージ（CPT、次にSFT、そしてRFT）をすべて組み合わせて使用すると、最も強力な結果が得られます。ただし、適切なパイプラインがあれば、各ステージは任意のものとなります。これは、利用可能なデータ、タスクの種類、および出発点に依存します。ベースモデルに、タスクで必要とされるドメインの語彙や知識が欠けている場合にのみ、CPTが必要です。SFTとRFTは、タスクの要件に応じて、独立して使用することも組み合わせることもできます。 ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/29/ML-20384-1.png) *図 1: Amazon Nova Forgeのカスタマイズパイプライン。CPTはラベルなしテキストからドメイン知識を教え込み、SFTはデモンストレーションからタスク固有の動作を教え込み、RFTは報酬信号を用いてパフォーマンスを最適化します。各ステージは任意であり、すべての3つがユースケースに適用可能な場合、完全なパイプライン（CPT→SFT→RFT）が最も強力な結果を生み出します。 [Amazon SageMaker AI](https://aws.amazon.com/sagemaker/) は、カスタマイズ用の異なる環境を提供しています。SageMaker Serverlessは自動計算リソースのプロビジョニングを備えたUI駆動型の体験を提供し、SageMaker AIトレーニングジョブ（SMTJ）はクラスター管理を必要としない完全マネージド型体験を提供します。一方、[Amazon SageMaker HyperPod](https://aws.amazon.com/sagemaker/hyperpod/) は、高度な分散トレーニングシナリオ向けの専用環境を提供します。 ## 戦略的決定 カスタマイズパイプラインを視野に入れると、次のステップは設定を形作る定性的なトレードオフを理解することです。これらの戦略的決定は、個々のハイパーパラメータ値と同様に重要です：チェックポイントの選択、データの混合、およびトレーニングモード。 ## チェックポイントの選択（最も影響度の高い決定） CPT において、チェックポイントの選択はどのハイパーパラメータよりも影響力が大きいです。Amazon Nova Forge は3つの [チェックポイントオプション](https://docs.aws.amazon.com/nova/latest/nova2-userguide/nova-forge-cpt.html) を提供しており、それぞれが異なるデータ規模や下流の要件に適しています。 - 事前学習済みチェックポイントは最も柔軟性が高く、最速の収束を提供します。これらのチェックポイントは新しいパターンを容易に受け入れ、1000 億トークンを超える大規模なトークン予算を持つ大規模 CPT（Continual Pre-Training）において最も効果的です。事前学習済みチェックポイントを大規模データセットで使用する場合は、知識吸収を加速するためにより高い学習率（例：1e-4）を使用できます。その後、モデルの安定性を確保し SFT（Supervised Fine-Tuning: 教師あり微調整）を実行する前に、学習率を徐々に約 1e-6 に下げて、モデルが学んだ内容に「落ち着く」ように overshooting（オーバーシュート：振れすぎ）を防ぐ必要があります。事前学習済みチェックポイントにはチューニング用の指示が含まれていない点にご注意ください。CPT の後には、モデルを実際の downstream タスク（下流タスク）で有用にするために SFT を実行する必要があります。 - 中間学習済みチェックポイントは柔軟性と整合性のバランスが取れています。ドメイン知識を受け入れつつ、一部の指示従順行動も保持します。ポストトレーニングよりも高速なドメイン適応を、事前トレーニングよりも高い安定性を求める中規模データセットに使用してください。中間学習済みチェックポイントは、微調整中にモデルのすべてのパラメータを更新するフルランクトレーニング（full rank training）と、大規模で構造化されたデータセットにおいてよく機能します。 - 事後学習済みチェックポイントは新しいパターンに対して最も耐性がありますが、指示従順性と一般的な能力を保持しています。整合性の維持がドメイン知識の吸収最大化よりも重要である小規模な CPT に使用してください。LoRA（Low-Rank Adaptation: 低ランク適応）や他のパラメータ効率の高い微調整手法の推奨される開始点です。LoRA は元のモデル重みを凍結し、その上に小さなアダプター行列を訓練する手法であり、既存の能力を維持しつつ標的型適応を可能にします。小規模データセットまたは後期段階のチェックポイントには、サービスデフォルトから保守的な学習率値を使用してください。 ![image](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/05/29/ML-20384-2.png) *図 2：継続事前トレーニングにおけるチェックポイントの選択。事前学習済みチェックポイントは大規模データセットに対して最大の柔軟性を提供しますが、その後は指令追従機能を回復させるための SFT（Supervised Fine-Tuning: 教師あり微調整）が必要です。事後学習済みチェックポイントはアライメントを維持し、小規模データセットや LoRA（Low-Rank Adaptation：低ランク適応）のようなパラメータ効率の高い手法に適しています。 ## データミキシング戦略 データミキシングを行わない場合、狭いドメインのデータのみでトレーニングするとモデルが不安定になり、訓練挙動が不安定（勾配の不安定性や損失の急上昇など）になったり、パフォーマンスが突然低下したりする可能性があります。 データミキシングを設定する際は、[ほとんどのユースケースにおいて顧客データを全体の約 50 パーセントにバランスさせる](https://aws.amazon.com/blogs/machine-learning/nova-forge-sdk-series-part-2-practical-guide-to-fine-tune-nova-models-using-data-mixing-capabilities/)ことをお勧めします。SFT の場合、Nova データミックスには必ず「推論指令追従」カテゴリを含めてください。この単一のカテゴリが、微調整後の汎用ベンチマークパフォーマンスを大幅に向上させます。このカテゴリを省略すると、微調整済みモデルの推論性能が低下する一般的な原因となります。 データミキシングは学習率に対して非常に敏感です。データミキシングを使用する際にデフォルトの学習率から外れると不安定化します。これは実務者が犯す最も一般的なミスです。データミキシングでトレーニングの不安定性を観察した場合は、まず学習率が疑われます。 最適な混合比率を見つけるには実験が必要です。ドメインデータは一定に保ち、Nova データの割合を複数の実行で変化させてください。一般的能力が Nova データをより多く混ぜ込むほど向上する一方、ドメインのパフォーマンスは通常一定のままです。より良い収束を得るために、最も高品質なデータをトレーニングの末尾に配置してください。 ## トレーニングモード：Low-Rank Adaptation (LoRA) とフルランク Amazon Nova Forge は、トレーニング中にモデルパラメータがどのように更新されるかを決定する 2 つのトレーニングモードをサポートしています： - LoRA はアダプター層のみを更新するため、計算コストが低く、反復速度が速く、オンデマンド推論との互換性も提供します。LoRA はほとんどのタスクでフルランク性能に近く、最適ではないハイパーパラメータにも比較的寛容です。デフォルトのアルファスケーリング係数 64 はほとんどのタスクで機能します。LoRA がデータに適応しきれていない場合は alpha を増やし、過剰適応して汎用能力を失っている場合は減らしてください。LoRA 学習の開始点として、トレーニング済みチェックポイントを使用してください。 - フルランクはモデルのパラメータすべてを更新するため、最大限の適応容量を提供します。フルランクでは、デプロイに Amazon Bedrock のプロビジョニングスループットが必要であり（オンデマンドは LoRA ベースのカスタマイズのみ利用可能）、トレーニング中はより高い計算リソースを要します。パイプラインが検証済みで、追加コストに見合うデプロイアーキテクチャがある場合にフルランクを使用してください。大規模で構造化されたデータセットを用いたフルランク学習には、中間トレーニング済みのチェックポイントがよく機能します。 まずは LoRA でパイプライン、データ品質、および報酬関数（RFT の場合）を検証し、アプローチが有効であることが確認でき、かつ生産要件（例えばモデル性能やコスト制約など）がそれを正当化する場合に、フルランクへと移行してください。 ## 推奨ワークフロー これらの戦略的決定を特定の状況に適用するには、保有するデータと目標次第です。以下のパスは、あなたの開始条件から適切な技術シーケンスへ導くものです。 ラベル付けされたデモンストレーションと検証可能な報酬関数（SFT 後に RFT）がある場合: - LoRA を使用した SFT で開始し、ターゲット行動を教え、ベースラインの能力を確立します。 - ドメイン適応中もモデルが構造化されたプロンプトに従い、整形された出力を生成する能力を維持できるよう、「推論・指示従順」を含むデータミキシングを有効にします。 - 学習率はデフォルト値を変更せずに使用します。 - バリデーション損失を監視し、最適な SFT チェックポイントを選択します。 - さらに報酬シグナルを通じて最適化を行うため、SFT チェックポイント上で RFT に移行します。 - LoRA でアプローチを検証した後にのみ、フルランクトレーニングを検討してください。 - 本番環境への展開前に、ドメインタスクと一般的なベンチマークの両方で徹底的にテストしてください（例については「実験と洞察」セクションを参照）。 検証可能な結果は定義できるが、大規模に応答を手動でラベル付けするのが容易でない場合（RFT のみ）: - まず代表的なサンプルにおいてベースモデルのパフォーマンスを評価します。 - ベースモデルが約 5 パーセント以上の正の報酬を獲得する場合は、直接 RFT を進めます。 - 報酬スコアが一貫してほぼゼロである場合は SFT に戻ります。報酬誘導学習が効果を発揮するためには、モデルにベースラインの能力が必要です。 ベースモデルにタスクに必要なドメイン固有の語彙や知識がない場合、CPT から開始してください。 - ラベルなしテキストからドメイン知識を吸収するために CPT を実行します。 - 次に SFT を続けます。CPT に使用される事前学習済みチェックポイントには指示調整が含まれていないため、モデルを実用的にするために CPT 後に SFT が必要です。 - 必要に応じて RFT を続けてパフォーマンスをさらに最適化します。 ## パラメータ設定 戦略的な決定がなされた今、各技術の実行方法を支配する特定のハイパーパラメータを最適化できます。このセクションでは、各技術に関するガイダンスを提供します。 ## 学習率の設定 学習率は、モデルがトレーニングシグナルに基づいてどの程度速く更新されるかを制御します。サービスのデフォルトは、多様なユースケースで機能するテスト済み構成を表しています。 - CPT の場合：サービスデフォルト値から開始してください。1 トリリオントークンを超える大規模データセットでは、知識吸収を加速するためにより高い学習率（例：1e-4）を使用できますが、SFT 前にモデルの安定性を確保するため、学習率を約 1e-6 に戻すための減衰段階が必要です。constant_steps パラメータは、この減衰段階が始まる前にモデルが最大学習率で訓練するステップ数を制御します。より多くのステップを最大学習率で行うことがドメイン吸収に有益な非常に大規模なトークン実行では constant_steps を増やしてください。小規模データセットまたは後期チェックポイントの場合は、最初からデフォルト（低）の学習率を使用してください。 - SFT の場合：特にデータミックスを行う際はサービスデフォルト値を維持してください。推奨される学習率は、LoRA の場合 1e-5、フルランク SFT の場合 5e-6 です。Nova データをミックスする際にデフォルトの学習率から外れると不安定化します。データミックス時にトレーニングの不安定性が観測された場合は、まず学習率が疑われます。 - RFT の場合：サービスデフォルト値から開始してください。必要に応じてのみ小さな乗数増分で調整してください。報酬が急激に低下して回復しない場合、学習率が高すぎる可能性が高いです。わずかな乗数の増加でもパフォーマンスがベースラインを下回ることがあります。 ウォームアップステップを約 15 ペに設定してください

Amazon Nova Forge におけるハイパーパラメータ最適化の芸術と科学

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト