Amazon Nova Forge におけるハイパーパラメータ最適化の芸術と科学
AWS は Amazon Nova Forge におけるハイパーパラメータ最適化の戦略と科学的アプローチを解説し、ドメイン特化モデル開発における「壊滅的忘却」の回避と汎用能力維持のバランスを取る方法を提示している。
キーポイント
壊滅的忘却(Catastrophic Forgetting)のリスク管理
ドメイン固有データでの微調整により、モデルが事前学習で獲得した汎用的な推論や指示従順能力を失う現象を防ぐための戦略が必要である。
ハイパーパラメータの複雑な相互作用
学習率、データ混合比率、チェックポイント選択などのパラメータは互いに密接に関連しており、一つでも誤るとトレーニングが失敗する可能性がある。
データ混合による能力維持
proprietary データと Amazon Nova がキュレートした汎用データを適切にブレンドすることで、ドメイン知識の吸収と広範な推論能力の両立を実現できる。
コストのかかる失敗の回避
計算リソースを浪費する前に早期に問題を検知し、戦略的なトレードオフに基づいたパラメータ設定を行うことで、効率的なカスタムモデル開発が可能になる。
影響分析・編集コメントを表示
影響分析
この記事は、大規模言語モデルを実務レベルでカスタマイズする際の最大の障壁である「汎用能力の喪失」を解決するための具体的な技術的アプローチを提供しており、企業による独自モデル開発の成功率向上に寄与します。また、ハイパーパラメータチューニングにおける定量的・定性的な判断基準を示すことで、開発リソースの最適化とコスト削減に直接的な影響を与える重要なガイダンスとなります。
編集コメント
LLM の実装において、単に精度を上げるだけでなく「汎用能力の維持」という観点からハイパーパラメータを設計する重要性が強く示唆されています。特に大規模モデルをドメイン特化させる際のリスク管理策として非常に参考になる記事です。
大規模言語モデル(LLM)は一般的なタスクにおいて強力な結果をもたらしますが、独自データや内部プロセス、ドメイン固有の用語の理解を必要とする専門的な業務ではしばしば苦戦します。Amazon Nova Forge は、Amazon Nova を用いて独自の最先端モデルを構築できるようにすることで、この課題に対処します。開発は初期のモデルチェックポイントから開始し、独自データを Amazon Nova がキュレーションしたトレーニングデータとブレンドし、カスタムモデルを AWS 上で安全にホストできます。重要な機能の一つがデータミキシングであり、これはトレーニングデータをキュレーションされたデータセットとブレンドするものです。これにより、モデルはドメインの知識を吸収しつつも、広範な推論能力、指示従順性、言語能力を維持することができます。これによって、通常はドメインカスタマイズを損なう壊滅的な忘却(カタストロフィック・フォッティング)を防ぐことができます。
成功するカスタマイズには、慎重なハイパーパラメータ調整が必要です。学習率、データミキシング比率、チェックポイントの選択、トレーニング手法はすべて、 silently 訓練を無効にするような方法で相互作用します。これらどれかが間違っていれば、一つの課題を別の課題と引き換えにすることになります。本記事では、高価な失敗したトレーニングランを避けるために、Amazon Nova Forge におけるハイパーパラメータ調整の芸術(戦略的なトレードオフ)と科学(指標に基づく意思決定)について解説します。
ドメイン固有タスク向けのファインチューニングとは、特定の領域でのパフォーマンスを向上させる一方で、モデルの汎用能力を低下させないことを意味し、このバランスを適切に保つことは見た目以上に難しいものです。本記事では、データとタスクに適したカスタマイズ戦略の選択から、学習率、バッチサイズ、チェックポイント設定など結果に最も影響を与えるトレーニングパラメータの設定に至るまで、そのバランスをどう乗り越えるかについて解説します。また、無駄なトレーニングランにつながる一般的なミステイクとその早期発見方法についても取り上げます。これにより、汎用能力の低下や回避可能な失敗による計算リソースの浪費を防ぎながら、ドメイン固有のパフォーマンスを向上させることが可能になります。
この記事を読み終える頃には、汎用能力を損なうことなくドメイン固有のパフォーマンスを向上させる方法と、バランスを誤ることによって生じる高価な失敗を回避する方法を理解しているはずです。
ハイパーパラメータ調整の課題
このバランスを実現することは、外見ほど簡単ではありません。3 つの根本的な課題が、ドメイン特化型モデルにおけるハイパーパラメータ調整を特に困難にしています。
チャレンジ 1:壊滅的忘却
狭いドメインのデータでモデルを訓練すると、事前学習中に習得した汎用的な能力が上書きされてしまうことがあります。この現象は「壊滅的忘却(catastrophic forgetting)」と呼ばれ、訓練ドメイン外のタスクにおいて性能が低下する形で現れます。モデルは高度に特化しますが、指示に従う能力や推論能力、広範な知識を失ってしまいます。実運用においては、サポートチケットで微調整されたカスタマーサービスモデルが、曖昧なリクエストについて推論できなくなったり、一貫性のある多ターン対話を維持できなくなったりする可能性があります。
これは安定性と柔軟性のトレードオフを生み出します。理想的には、モデルは組織のドメインを学習するのに十分な柔軟性を備えつつも、汎用的な能力を保持するのに十分な安定性を有している必要があります。Nova Forge は、訓練中にトレーニングデータと厳選されたデータセットを混合する「データミキシング(data mixing)」や、既存のアライメントをどの程度維持するかを選択できる「チェックポイント選択(checkpoint selection)」を通じて、この課題に対処します。
チャレンジ 2:適切な学習率の発見
学習率は、各トレーニングバッチに対するモデルの重みの変化量を制御します。これはすべてのカスタマイズ手法において最も敏感なハイパーパラメータです。学習率が大きすぎると、モデルは最適な状態を逸脱し、トレーニング中に不安定化したり、基礎的な能力を急速に失ったりする可能性があります。逆に小さすぎると、収束が非常に遅くなるため計算リソースが無駄になります。適切な値は、データの分布、混合比率、およびトレーニング手法によって異なります。
Nova Forge は、これらの相互作用を考慮した上で、各トレーニング技法に対して調整済みのサービスデフォルト値を提供しています。データミキシングを使用する場合、この敏感性はさらに高まります。Nova データと独自のデータを混合する際にデフォルトの学習率から逸脱することは、トレーニング不安定化の最も一般的な原因であるため、これらのサービスデフォルト値が推奨される出発点となります。
チャレンジ 3:ベースライン性能の制約
強化学習ファインチューニング(RFT)は、複数の候補回答を生成し、品質基準に対してスコアリングすることでモデルの振る舞いを改善する技術です。モデルは自身の出力を比較し、より優れたものを強化することによって学習します。RFT は、ファインチューニング前にモデルが正解または高品質な回答を生成する頻度で測定される特定のベースラインタスク精度の範囲内で最大限の能力を発揮します。もしベースライン精度が低すぎる場合(モデルがほとんど正答しない場合)、報酬誘導探索のために学習できる十分な良質な例が存在しません。逆に、ベースライン精度がすでに非常に高い場合、追加のトレーニングは収穫逓減を起こし、既存のパフォーマンスを低下させるリスクがあります。これはつまり、RFT はモデルが根本的に知識や推論能力を欠いているためタスクを試みることのできない大きな能力格差を埋めることはできないことを意味します。RFT は、ゼロから全く新しい機能を教えるのではなく、モデルがすでに部分的に示すことのできる振る舞いを洗練させ強化するものです。
Nova Forge パイプラインは両方の境界に対応しています。低ベースラインのシナリオでは、効果的な報酬ベース学習に必要な基盤となる能力を確立するために、まず教師ありファインチューニング(SFT)を実行します。高ベースラインのタスクでは、モデルの品質範囲全体にわたって報酬関数に識別力があることを確認してください。もしほとんどの回答がすでに高いスコアを獲得している場合、RFT は最適化するための意味のあるシグナルを持たなくなります。
Nova Forge カスタマイズパイプライン
これらの課題を理解することは、Amazon Nova Forge のカスタマイズパイプラインがそれらに対処するためにどのように設計されているかを枠組みとして示します。Nova Forge は、モデル開発ライフサイクルにおいてそれぞれが異なる目的を果たす 3 つの補完的なカスタマイズ手法を提供しています。
手法
機能
使用タイミング
入力データ
継続事前学習 (CPT: Continued pre-training)
大量のラベルなし、ドメイン固有の独自データを自己教師あり学習させることで、基盤モデル (FM) の知識を拡張します。CPT は、テキストコーパスからドメイン特有の用語やパターンをモデルに習得させます。
ベースモデルに存在しない専門用語、業界概念、または組織内の知識を理解させる必要がある場合に使用します。
大量のラベルなしドメインテキスト。Nova Forge はデータミキシングと 3 つのチェックポイントオプション(事前学習済み、中間学習済み、事後学習済み)をサポートしており、それぞれが異なるデータ規模や下流タスクの要件に適しています。
教師あり微調整 (SFT)
ターゲットとするタスクに固有の入力 - 出力ペアからなるトレーニングデータセットを用いて、モデルの動作をカスタマイズします。SFT はデモンストレーションを通じて、「X が与えられたら Y を出力する」という振る舞いをモデルに学習させます。
モデルが特定の応答形式に従ったり、特定のトーンを採用したり、分類や抽出のような構造化タスクを実行したりする必要があります。
各タスクあたり 1,000〜10,000 の高品質なデモンストレーションが必要です。量よりも、品質、一貫性、多様性が重要です。Nova Forge は、Amazon Nova がキュレートしたデータセット(一般的能力を維持する推論・指示追従カテゴリを含む)を用いたデータミックスによる SFT をサポートしています。
強化学習微調整 (RFT)
報酬信号を用いて、モデルの出力を望ましい結果へと誘導します。RFT は、先行するトレーニングによって確立された行動的近傍内で、単一ターンまたはマルチターンの対話タスクにおけるモデルを最適化します。
応答品質を評価できる明確な報酬関数を持っており、SFT のみでは達成できない性能を引き出したいと考えています。
プロンプトと報酬関数が必要です。Nova Forge は、AWS Lambda を通じて独自の外部報酬環境を持ち込むことをサポートしており、ドメイン固有の品質評価のためのカスタム検証ロジックを可能にします。
これら3つのステージ(CPT、次にSFT、そしてRFT)をすべて組み合わせて使用すると、最も強力な結果が得られます。ただし、適切なパイプラインがあれば、各ステージは任意のものとなります。これは、利用可能なデータ、タスクの種類、および出発点に依存します。ベースモデルに、タスクで必要とされるドメインの語彙や知識が欠けている場合にのみ、CPTが必要です。SFTとRFTは、タスクの要件に応じて、独立して使用することも組み合わせることもできます。

*図 1: Amazon Nova Forgeのカスタマイズパイプライン。CPTはラベルなしテキストからドメイン知識を教え込み、SFTはデモンストレーションからタスク固有の動作を教え込み、RFTは報酬信号を用いてパフォーマンスを最適化します。各ステージは任意であり、すべての3つがユースケースに適用可能な場合、完全なパイプライン(CPT→SFT→RFT)が最も強力な結果を生み出します。
Amazon SageMaker AI は、カスタマイズ用の異なる環境を提供しています。SageMaker Serverlessは自動計算リソースのプロビジョニングを備えたUI駆動型の体験を提供し、SageMaker AIトレーニングジョブ(SMTJ)はクラスター管理を必要としない完全マネージド型体験を提供します。一方、Amazon SageMaker HyperPod は、高度な分散トレーニングシナリオ向けの専用環境を提供します。
戦略的決定
カスタマイズパイプラインを視野に入れると、次のステップは設定を形作る定性的なトレードオフを理解することです。これらの戦略的決定は、個々のハイパーパラメータ値と同様に重要です:チェックポイントの選択、データの混合、およびトレーニングモード。
チェックポイントの選択(最も影響度の高い決定)
CPT において、チェックポイントの選択はどのハイパーパラメータよりも影響力が大きいです。Amazon Nova Forge は3つの チェックポイントオプション を提供しており、それぞれが異なるデータ規模や下流の要件に適しています。
- 事前学習済みチェックポイントは最も柔軟性が高く、最速の収束を提供します。これらのチェックポイントは新しいパターンを容易に受け入れ、1000 億トークンを超える大規模なトークン予算を持つ大規模 CPT(Continual Pre-Training)において最も効果的です。事前学習済みチェックポイントを大規模データセットで使用する場合は、知識吸収を加速するためにより高い学習率(例:1e-4)を使用できます。その後、モデルの安定性を確保し SFT(Supervised Fine-Tuning: 教師あり微調整)を実行する前に、学習率を徐々に約 1e-6 に下げて、モデルが学んだ内容に「落ち着く」ように overshooting(オーバーシュート:振れすぎ)を防ぐ必要があります。事前学習済みチェックポイントにはチューニング用の指示が含まれていない点にご注意ください。CPT の後には、モデルを実際の downstream タスク(下流タスク)で有用にするために SFT を実行する必要があります。
- 中間学習済みチェックポイントは柔軟性と整合性のバランスが取れています。ドメイン知識を受け入れつつ、一部の指示従順行動も保持します。ポストトレーニングよりも高速なドメイン適応を、事前トレーニングよりも高い安定性を求める中規模データセットに使用してください。中間学習済みチェックポイントは、微調整中にモデルのすべてのパラメータを更新するフルランクトレーニング(full rank training)と、大規模で構造化されたデータセットにおいてよく機能します。
- 事後学習済みチェックポイントは新しいパターンに対して最も耐性がありますが、指示従順性と一般的な能力を保持しています。整合性の維持がドメイン知識の吸収最大化よりも重要である小規模な CPT に使用してください。LoRA(Low-Rank Adaptation: 低ランク適応)や他のパラメータ効率の高い微調整手法の推奨される開始点です。LoRA は元のモデル重みを凍結し、その上に小さなアダプター行列を訓練する手法であり、既存の能力を維持しつつ標的型適応を可能にします。小規模データセットまたは後期段階のチェックポイントには、サービスデフォルトから保守的な学習率値を使用してください。

*図 2:継続事前トレーニングにおけるチェックポイントの選択。事前学習済みチェックポイントは大規模データセットに対して最大の柔軟性を提供しますが、その後は指令追従機能を回復させるための SFT(Supervised Fine-Tuning: 教師あり微調整)が必要です。事後学習済みチェックポイントはアライメントを維持し、小規模データセットや LoRA(Low-Rank Adaptation:低ランク適応)のようなパラメータ効率の高い手法に適しています。
データミキシング戦略
データミキシングを行わない場合、狭いドメインのデータのみでトレーニングするとモデルが不安定になり、訓練挙動が不安定(勾配の不安定性や損失の急上昇など)になったり、パフォーマンスが突然低下したりする可能性があります。
データミキシングを設定する際は、ほとんどのユースケースにおいて顧客データを全体の約 50 パーセントにバランスさせることをお勧めします。SFT の場合、Nova データミックスには必ず「推論指令追従」カテゴリを含めてください。この単一のカテゴリが、微調整後の汎用ベンチマークパフォーマンスを大幅に向上させます。このカテゴリを省略すると、微調整済みモデルの推論性能が低下する一般的な原因となります。
データミキシングは学習率に対して非常に敏感です。データミキシングを使用する際にデフォルトの学習率から外れると不安定化します。これは実務者が犯す最も一般的なミスです。データミキシングでトレーニングの不安定性を観察した場合は、まず学習率が疑われます。
最適な混合比率を見つけるには実験が必要です。ドメインデータは一定に保ち、Nova データの割合を複数の実行で変化させてください。一般的能力が Nova データをより多く混ぜ込むほど向上する一方、ドメインのパフォーマンスは通常一定のままです。より良い収束を得るために、最も高品質なデータをトレーニングの末尾に配置してください。
トレーニングモード:Low-Rank Adaptation (LoRA) とフルランク
Amazon Nova Forge は、トレーニング中にモデルパラメータがどのように更新されるかを決定する 2 つのトレーニングモードをサポートしています:
- LoRA はアダプター層のみを更新するため、計算コストが低く、反復速度が速く、オンデマンド推論との互換性も提供します。LoRA はほとんどのタスクでフルランク性能に近く、最適ではないハイパーパラメータにも比較的寛容です。デフォルトのアルファスケーリング係数 64 はほとんどのタスクで機能します。LoRA がデータに適応しきれていない場合は alpha を増やし、過剰適応して汎用能力を失っている場合は減らしてください。LoRA 学習の開始点として、トレーニング済みチェックポイントを使用してください。
- フルランクはモデルのパラメータすべてを更新するため、最大限の適応容量を提供します。フルランクでは、デプロイに Amazon Bedrock のプロビジョニングスループットが必要であり(オンデマンドは LoRA ベースのカスタマイズのみ利用可能)、トレーニング中はより高い計算リソースを要します。パイプラインが検証済みで、追加コストに見合うデプロイアーキテクチャがある場合にフルランクを使用してください。大規模で構造化されたデータセットを用いたフルランク学習には、中間トレーニング済みのチェックポイントがよく機能します。
まずは LoRA でパイプライン、データ品質、および報酬関数(RFT の場合)を検証し、アプローチが有効であることが確認でき、かつ生産要件(例えばモデル性能やコスト制約など)がそれを正当化する場合に、フルランクへと移行してください。
推奨ワークフロー
これらの戦略的決定を特定の状況に適用するには、保有するデータと目標次第です。以下のパスは、あなたの開始条件から適切な技術シーケンスへ導くものです。
ラベル付けされたデモンストレーションと検証可能な報酬関数(SFT 後に RFT)がある場合:
- LoRA を使用した SFT で開始し、ターゲット行動を教え、ベースラインの能力を確立します。
- ドメイン適応中もモデルが構造化されたプロンプトに従い、整形された出力を生成する能力を維持できるよう、「推論・指示従順」を含むデータミキシングを有効にします。
- 学習率はデフォルト値を変更せずに使用します。
- バリデーション損失を監視し、最適な SFT チェックポイントを選択します。
- さらに報酬シグナルを通じて最適化を行うため、SFT チェックポイント上で RFT に移行します。
- LoRA でアプローチを検証した後にのみ、フルランクトレーニングを検討してください。
- 本番環境への展開前に、ドメインタスクと一般的なベンチマークの両方で徹底的にテストしてください(例については「実験と洞察」セクションを参照)。
検証可能な結果は定義できるが、大規模に応答を手動でラベル付けするのが容易でない場合(RFT のみ):
- まず代表的なサンプルにおいてベースモデルのパフォーマンスを評価します。
- ベースモデルが約 5 パーセント以上の正の報酬を獲得する場合は、直接 RFT を進めます。
- 報酬スコアが一貫してほぼゼロである場合は SFT に戻ります。報酬誘導学習が効果を発揮するためには、モデルにベースラインの能力が必要です。
ベースモデルにタスクに必要なドメイン固有の語彙や知識がない場合、CPT から開始してください。
- ラベルなしテキストからドメイン知識を吸収するために CPT を実行します。
- 次に SFT を続けます。CPT に使用される事前学習済みチェックポイントには指示調整が含まれていないため、モデルを実用的にするために CPT 後に SFT が必要です。
- 必要に応じて RFT を続けてパフォーマンスをさらに最適化します。
パラメータ設定
戦略的な決定がなされた今、各技術の実行方法を支配する特定のハイパーパラメータを最適化できます。このセクションでは、各技術に関するガイダンスを提供します。
学習率の設定
学習率は、モデルがトレーニングシグナルに基づいてどの程度速く更新されるかを制御します。サービスのデフォルトは、多様なユースケースで機能するテスト済み構成を表しています。
- CPT の場合:サービスデフォルト値から開始してください。1 トリリオントークンを超える大規模データセットでは、知識吸収を加速するためにより高い学習率(例:1e-4)を使用できますが、SFT 前にモデルの安定性を確保するため、学習率を約 1e-6 に戻すための減衰段階が必要です。constant_steps パラメータは、この減衰段階が始まる前にモデルが最大学習率で訓練するステップ数を制御します。より多くのステップを最大学習率で行うことがドメイン吸収に有益な非常に大規模なトークン実行では constant_steps を増やしてください。小規模データセットまたは後期チェックポイントの場合は、最初からデフォルト(低)の学習率を使用してください。
- SFT の場合:特にデータミックスを行う際はサービスデフォルト値を維持してください。推奨される学習率は、LoRA の場合 1e-5、フルランク SFT の場合 5e-6 です。Nova データをミックスする際にデフォルトの学習率から外れると不安定化します。データミックス時にトレーニングの不安定性が観測された場合は、まず学習率が疑われます。
- RFT の場合:サービスデフォルト値から開始してください。必要に応じてのみ小さな乗数増分で調整してください。報酬が急激に低下して回復しない場合、学習率が高すぎる可能性が高いです。わずかな乗数の増加でもパフォーマンスがベースラインを下回ることがあります。
ウォームアップステップを約 15 ペに設定してください
原文を表示
Large language models (LLMs) deliver strong results on general tasks, but they often struggle with specialized work that requires understanding proprietary data, internal processes, or domain-specific terminology. Amazon Nova Forge addresses this by enabling you to build your own frontier models using Amazon Nova. You can start development from early model checkpoints, blend proprietary data with Amazon Nova-curated training data, and host custom models securely on AWS. A key capability is data mixing, which blends your training data with curated datasets. This helps the model absorb your domain while retaining broad reasoning, instruction-following, and language capabilities. This prevents catastrophic forgetting that typically undermines domain customization.
Successful customization requires careful hyperparameter tuning. Learning rate, data mixing ratio, checkpoint selection, and training techniques all interact in ways that can silently undermine a training run. If any of them are wrong, you trade one problem for another. This post covers the art (strategic trade-offs) and science (metric-driven decisions) of hyperparameter tuning on Amazon Nova Forge to help you avoid expensive failed training runs.
Fine-tuning for domain-specific tasks means improving performance in one area without degrading the model’s general capabilities, and getting that balance right is harder than it looks. This post walks through how to navigate that balance, from selecting the right customization strategy for your data and task, to configuring the training parameters that most influence outcomes, like learning rate, batch size, and checkpointing. We also cover the common mistakes that lead to wasted training runs and how to catch them early, so you can improve domain performance without degrading general capabilities or burning through compute on avoidable failures.
By the end, you will know how to improve domain performance without degrading general capabilities and how to avoid the expensive failures that come from getting the balance wrong.
The hyperparameter tuning challenge
Achieving this balance is harder than it appears. Three fundamental challenges make hyperparameter tuning particularly difficult on domain-specialized models.
Challenge 1: Catastrophic forgetting
When you train a model on narrow domain data, the model can overwrite general capabilities it learned during pre-training. This phenomenon, called *catastrophic forgetting*, shows up as degraded performance on tasks outside your training domain. The model becomes highly specialized but loses instruction-following ability, reasoning capability, and broad knowledge. In production, this means a customer service model fine-tuned on your support tickets may no longer reason about ambiguous requests or maintain coherent multi-turn conversations.
This creates a stability-flexibility tradeoff. Ideally, the model is flexible enough to learn about an organization’s domain but stable enough to retain general capabilities. Nova Forge addresses this through data mixing, which blends your training data with curated datasets during training, and checkpoint selection, which lets you choose how much existing alignment to preserve.
Challenge 2: Finding the right learning rate
The learning rate controls how much the model’s weights change in response to each batch of training examples. It’s the most sensitive hyperparameter across all customization techniques. A learning rate that’s too high causes the model to overshoot the optimal state, destabilize during training, or forget base capabilities rapidly. A learning rate that’s too low wastes compute on very slow convergence. The right value depends on your data distribution, mixing ratio, and training technique.
Nova Forge provides calibrated service defaults for each training technique that account for these interactions. When you use data mixing, the sensitivity increases further. Deviating from the default learning rate when mixing Nova data with your own data is the most common source of training instability, so these service defaults are the recommended starting point.
Challenge 3: Baseline performance constraints
Reinforcement fine-tuning (RFT) is a technique that improves model behavior by generating multiple candidate responses and scoring them against quality criteria. The model learns by comparing its own outputs and reinforcing the better ones. RFT works at its full capacity within a specific range of baseline task accuracy, measured by how often the model produces correct or high-quality responses before fine-tuning. If baseline accuracy is too low (the model rarely produces correct responses), there aren’t enough good examples for reward-guided exploration to learn from. If baseline accuracy is already very high, additional training yields diminishing returns and risks degrading existing performance. This means RFT can’t close large competence gaps where the model fundamentally lacks the knowledge or reasoning ability to attempt a task. It refines and strengthens behaviors the model can already partially demonstrate, rather than teaching entirely new capabilities from scratch.
The Nova Forge pipeline addresses both bounds. For low-baseline scenarios, run supervised fine-tuning (SFT) first to establish the foundational capabilities needed for effective reward-based learning. For high-baseline tasks, make sure that your reward function has discriminative power across the model’s quality range. If most responses already score highly, RFT has no meaningful signal to optimize against.
The Nova Forge customization pipeline
Understanding these challenges frames how the Amazon Nova Forge customization pipeline is designed to address them. Nova Forge provides three complementary customization techniques, each serving a distinct purpose in the model development lifecycle.
Technique
What it does
When to use
Input data
Continued pre-training (CPT)
Expands foundational model (FM) knowledge through self-supervised learning on large quantities of unlabeled, domain-specific proprietary data. CPT teaches the model domain terminology and patterns from your text corpus.
You need the model to understand specialized vocabulary, industry concepts, or organizational knowledge that does not exist in the base model.
Large volumes of unlabeled domain text. Nova Forge supports CPT with data mixing and three checkpoint options (pre-trained, mid-trained, and post-trained), each suited to different data scales and downstream requirements.
Supervised fine-tuning (SFT)
Customizes model behavior using a training dataset of input-output pairs specific to your target tasks. SFT teaches the model “given X, output Y” behavior through demonstrations.
You need the model to follow specific response formats, adopt particular tones, or perform structured tasks like classification or extraction.
1,000–10,000 high-quality demonstrations per task. Quality, consistency, and diversity matter more than volume. Nova Forge supports SFT with data mixing using Amazon Nova-curated datasets, including reasoning-instruction-following categories that preserve general capabilities.
Reinforcement fine-tuning (RFT)
Steers model output toward preferred outcomes using reward signals. RFT optimizes the model within a behavioral neighborhood established by prior training for single-turn or multi-turn conversational tasks.
You have a clear reward function that can evaluate response quality and want to push performance beyond what SFT alone achieves.
Prompts and a reward function. Nova Forge supports bringing your own external reward environment through AWS Lambda, enabling custom verification logic for domain-specific quality assessment.
When all three stages are used together (CPT, then SFT, then RFT), they produce the strongest results. However, with the right pipeline, each stage can be optional. It depends on your data availability, task type, and starting point. CPT is only needed when the base model lacks domain vocabulary or knowledge your task requires. SFT and RFT can be used independently or combined depending on what your task demands.

*Figure 1: The Amazon Nova Forge customization pipeline. CPT teaches domain knowledge from unlabeled text, SFT teaches task-specific behavior from demonstrations, and RFT optimizes performance using reward signals. Each stage is optional, and the full pipeline (CPT, then SFT, then RFT) produces the strongest results when all three are applicable to your use case.*
Amazon SageMaker AI offers different environments for customization: SageMaker Serverless provides a UI-driven experience with automatic compute provisioning, SageMaker AI training jobs (SMTJ) provide a fully managed experience without cluster management, while Amazon SageMaker HyperPod offers specialized environments for advanced distributed training scenarios.
Strategic decisions
With the customization pipeline in view, the next step is understanding the qualitative trade-offs that shape your configuration. These strategic decisions matter as much as any individual hyperparameter value: checkpoint selection, data mixing, and training mode.
Checkpoint selection (most impactful decision)
For CPT, checkpoint selection is more impactful than any hyperparameter. Amazon Nova Forge provides three checkpoint options, each suited to different data scales and downstream requirements.
- Pre-trained checkpoints are the most flexible and offer the fastest convergence. These checkpoints accept new patterns readily and work best for large-scale CPT with substantial token budgets exceeding 100 billion tokens. When using pre-trained checkpoints with large datasets, you can use a higher learning rate (such as 1e-4) to accelerate knowledge absorption. You then need to gradually reduce the learning rate back to approximately 1e-6 for model stability before running SFT to let the model “settle” into what it learned without overshooting. Be aware that pre-trained checkpoints have no instructions for tuning. After CPT, you must run SFT to make the model useful for downstream tasks.
- Mid-trained checkpoints balance flexibility and alignment. They accept domain knowledge while retaining some instruction-following behavior. Use mid-trained checkpoints for medium-sized datasets where you want faster domain adaptation than post-trained but more stability than pre-trained. Mid-trained checkpoints work well for full rank training, which updates every parameter in the model during fine-tuning, with large, structured datasets.
- Post-trained checkpoints are the most resistant to new patterns but preserve instruction-following and general capabilities. Use post-trained for smaller-scale CPT where preserving alignment matters more than maximizing domain knowledge absorption. Post-trained checkpoints are the recommended starting point for LoRA (Low-Rank Adaptation), which freezes the original model weights and trains small adapter matrices on top, and other parameter-efficient fine-tuning methods, as they maintain the model’s existing capabilities while allowing targeted adaptation. For small datasets or later-stage checkpoints, use conservative learning rate values from the service defaults.

*Figure 2: Checkpoint selection for continued pre-training. Pre-trained checkpoints offer maximum flexibility for large datasets but require SFT afterward to restore instruction-following. Post-trained checkpoints preserve alignment and suit smaller datasets or parameter-efficient methods like LoRA.*
Data mixing strategy
Without data mixing, training on narrow domain data can cause the model to become unstable, resulting in erratic training behavior (gradient instability or loss spikes) or a sudden degradation in performance.
When configuring data mixing, balance your customer data around 50 percent of the total mix for most use cases. For SFT, always include the “reasoning-instruction-following” category in your Nova data mix. This single category significantly improves generic benchmark performance after fine-tuning. Skipping this category is a common cause of degraded reasoning performance in fine-tuned models.
Data mixing is very sensitive to learning rate. Deviating from the default learning rate when using data mixing causes instability. This is the most common mistake practitioners make. If you observe training instability with data mixing, the learning rate is the first suspect.
Finding the optimal mixing ratio requires experimentation. Hold your domain data constant and vary the Nova data proportion across several runs. Domain performance typically stays constant while general capabilities keep improving the more Nova data is mixed in. Place your highest-quality data toward the end of training for better convergence.
Training mode: Low-Rank Adaptation (LoRA) vs Full Rank
Amazon Nova Forge supports two training modes that determine how model parameters are updated during training:
- LoRA updates only adapter layers, offering lower compute costs, faster iteration, and compatibility with on-demand inference. LoRA achieves near Full Rank performance for most tasks while being more forgiving of suboptimal hyperparameters. The default alpha scaling factor of 64 works for most tasks. Increase alpha if LoRA is under-adapting to your data or decrease it if LoRA is over-adapting and losing general capabilities. Use post-trained checkpoints as your starting point for LoRA training.
- Full Rank updates all model parameters, providing maximum adaptation capacity. Full Rank requires Amazon Bedrock Provisioned Throughput for deployment (On-Demand is only available for LoRA-based customization) and higher compute during training. Use Full Rank when you have validated your pipeline and your deployment architecture justifies the additional cost. Mid-trained checkpoints work well for Full Rank training with large, structured datasets.
Start with LoRA to validate your pipeline, data quality, and reward function (for RFT). Graduate to Full Rank when you have confirmed the approach works, and your production requirements justify it (for example, model performance or cost constraints).
Recommended workflow
Applying these strategic decisions to your specific situation depends on what data and objectives you have. The following paths map your starting conditions to the right sequence of techniques.
If you have labeled demonstrations and a verifiable reward function (SFT then RFT):
- Start with SFT using LoRA to teach the target behavior and establish baseline competency.
- Enable data mixing with “reasoning-instruction-following” included to preserve the model’s ability to follow structured prompts and produce well-formatted outputs during domain adaptation.
- Use default learning rates without modification.
- Monitor validation loss to select the best SFT checkpoint.
- Graduate to RFT on the SFT checkpoint to optimize further through reward signals.
- Consider Full Rank training only after validating the approach with LoRA.
- Test thoroughly on both your domain task and general benchmarks before production deployment (see the Experiments and insights section for an example).
If you can define verifiable outcomes but cannot easily label responses at scale (RFT only):
- Evaluate base model performance on a representative sample of your task first.
- Proceed with RFT directly if the base model achieves more than approximately 5 percent positive reward.
- Fall back to SFT if reward scores are consistently near zero. The model needs baseline competency before reward-guided learning can take effect.
If the base model lacks domain vocabulary or knowledge your task requires, start with CPT:
- Run CPT to absorb domain knowledge from unlabeled text.
- Follow with SFT. Pre-trained checkpoints used for CPT have no instruction tuning, so SFT is required after CPT to make the model useful.
- Optionally follow with RFT to further optimize performance.
Parameter configuration
With strategic decisions made, you can now optimize specific hyperparameters that govern how each technique executes. This section provides guidance for each technique.
Learning rate configuration
Learning rate controls how quickly the model updates based on training signals. Service defaults represent tested configurations that work across diverse use cases.
- For CPT: Start at service defaults. For large datasets exceeding one trillion tokens, you can use a higher learning rate (such as 1e-4) to accelerate knowledge absorption, but you need a ramp-down stage to reduce the learning rate back to approximately 1e-6 for model stability before SFT. The constant_steps parameter controls how many steps the model trains at the peak learning rate before this ramp-down stage begins. Increase constant_steps for very large token runs where more steps at full learning rate help domain absorption. For smaller datasets or later-stage checkpoints, use the default (lower) learning rate from the start.
- For SFT: Stick to service defaults, especially with data mixing. The recommended learning rate is 1e-5 for LoRA and 5e-6 for full-rank SFT. Deviating from the default learning rate when mixing Nova data causes instability. If you observe training instability with data mixing, the learning rate is the first suspect.
- For RFT: Start at service defaults. Adjust in small multiplier increments only if needed. If reward drops suddenly and does not recover, the learning rate is likely too high. Even a small multiplier increase can drop performance below baseline.
Configure warmup steps to approximately 15 pe
関連記事
ミニマックスが109BパラメータMoEモデル向けに開発したスパースアテンション手法「MSA」を発表
中国のAI企業ミニマックスは、長文コンテキストにおける計算コストを削減する新手法「MiniMax Sparse Attention(MSA)」を開発し、109BパラメータのMoEモデルで実証した。同社はさらに推論用カーネルをオープンソース化し、生産環境向けモデル「MiniMax-M3」もリリースした。
[AINews] GLM-5.2:世界最高峰のフロントエンドコーディングモデル、推測型デコーディングのための IndexShare を発表
Z.ai は週末に「GLM-5.2」をリリースし、この新モデルが世界最高のフロントエンドコーディング性能を持つと主張した。また、推測型デコーディング技術の向上を目指す「IndexShare」という仕組みも紹介された。
パッキングシーケンス、GQA、ALiBi、SwiGLU、因果アテンションを用いたメモリ効率的なTransformerの構築方法(xFormers活用)
MarkTechPost は、GPU上で高速かつメモリ効率の高いTransformerモデルを構築するための実践的ツールキット「xFormers」の使用法を紹介しています。記事では、標準的な実装との比較を通じて、因果マスクやパッキングシーケンス、グループ化クエリアテンション(GQA)、カスタムALiBi位置バイアスなどの技術を組み合わせ、訓練可能なGPTスタイルのモデルを実装する方法を解説します。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み