1件の記事
ABEJAの服部氏が、LLMの自律的(Agentic)能力向上のためのPost Training(SFTと強化学習)の手法と知見を紹介した。SFTでの精度劣化回避やTool-Useを用いた強化学習タスク、実装上の課題などをまとめている。