#ポストトレーニング のAIニュース
6件の記事
TRL v1.0:分野の前提が崩れても機能するポストトレーニングライブラリ
Hugging Faceが、AIモデルのポストトレーニング用ライブラリ「TRL v1.0」をリリースした。このライブラリは、研究分野の前提が変化しても柔軟に対応できる設計となっている。
Hugging Face Blog·3月31日·★★★★
エージェントのための合成タスク生成のスケーリング:探索によるアプローチ
研究者らが、マルチモーダル大規模言語モデル(MLLM)のポストトレーニングにおける課題として、多様で実行可能な高品質なタスクデータセットの不足を指摘し、探索ベースの合成タスク生成手法を提案している。
Apple Machine Learning·3月24日·★★★★
ImportAI 449:LLMが他のLLMを訓練;72Bパラメータの分散学習実行;コンピュータビジョンは生成テキストより困難
Jack Clarkのニュースレター「ImportAI 449」は、大規模言語モデル(LLM)が自律的に他のLLMを改善する可能性、720億パラメータ規模の分散学習の実績、および生成テキスト処理と比較してコンピュータビジョンが依然として困難である課題について報じている。
Import AI·3月16日·★★★★
LLMの自律的調査能力を高めるAgenticRLの取り組みと知見
ABEJAの服部氏が、LLMの自律的(Agentic)能力向上のためのPost Training(SFTと強化学習)の手法と知見を紹介した。SFTでの精度劣化回避やTool-Useを用いた強化学習タスク、実装上の課題などをまとめている。
ABEJA Tech Blog·3月10日
LLMに個性を与えることは優れたエンジニアリングである
著者は、大規模言語モデル(LLM)に一貫した個性を付与することが、ユーザー体験を向上させる重要なエンジニアリング手法であると主張している。
Andrej Karpathy 厳選·3月3日·★★★★
オン・ポリシー蒸留
ケビン・ルーらによる、思考機械におけるオン・ポリシー蒸留の研究についての記事。
Thinking Machines Lab·10月27日·★★★★