#grpo のAIニュース

5件の記事

神話の物理学（25 分読み）

ラファ・シュウィンガーは、Claude の Mythos と Fable を逆解析し、競争優位性の源泉がアーキテクチャではなく環境基盤であると論じた。テキストや計算資源が不再重要となる中、検証可能な報酬が新たな決定的要素となっている。

TLDR AI·6月15日·★★★★

On-policy のはずが Off-policy になる：LLM 強化学習の rollout mismatchと対策(rollout correction)

ABEJA Tech Blog·6月8日·★★★★

コミュニティが Tunix と TPU を活用して Gemma に「思考」能力を習得させた方法

Google が Kaggle で開催したハッカソンにおいて、開発者たちは限られた計算資源と Kaggle TPU を用いて、小規模なベースモデルに多段階の事後学習パイプラインを適用し、推論エンジンとしての能力を獲得させることに成功しました。

Google Developers AI·5月28日·★★★★

報酬信号の課題克服：SageMaker AI 上の GRPO を用いた検証可能報酬型強化学習

AWS は、大規模言語モデルの学習における報酬信号の信頼性問題を解決するため、SageMaker AI で動作する検証可能な報酬に基づく強化学習手法「GRPO」を紹介した。この手法は、隠れたバイアスや曖昧な成功基準による学習の破綻を防ぎ、モデルがより正確に学習・判断できるようにする技術である。

AWS Machine Learning Blog·5月8日·★★★★

今さらながらDeepSeek-R1の論文を読んでみた

中国DeepSeek社が公開した軽量で高品質なLLMについて、蒸留手法を用いた軽量化の技術的観点から考察。高価なGPUが不要で動かせる点が特徴。

ABEJA Tech Blog·12月24日·★★★★