#モデル学習のAIニュース

3件の記事

エージェント型強化学習：トークンの入力と出力を正しく扱う方法（16 分読了）

TLDR AI は、大規模言語モデルを用いた強化学習において、サンプリングされたトークンを再トークン化するとドリフトが生じるリスクがあるため、デコード後のトークンを再エンコードせずバッファを維持する手法の重要性を解説している。

NVIDIAが、LLM学習時のチェックポイント保存コストを削減するPythonスクリプトを公開した。約30行のコードでモデル重み・オプティマイザ状態・勾配の圧縮保存を実現し、ストレージコストとI/O負荷を低減できる。

米国防総省は、AI企業が機密データ上でモデルを訓練できる安全な環境を整備している。従来は機密データの閲覧のみ許可されていたが、学習も可能になる。