ティンカー:コミュニティプロジェクトの募集
Thinking Machines Labが、ティンカーを通じてコミュニティプロジェクトの参加者を募集しています。
キーポイント
Thinking Machines LabがTinkerコミュニティ向けにプロジェクト募集を開始
ML研究、他分野でのAI応用、カスタムモデル、データセット、インフラなど多様な貢献を歓迎
Constitutional AIの再現研究やRLVR with Noisy studentなど具体的な研究方向性を提案
厳密な評価と透明性のある成果を重視し、オープンソース公開を推奨
影響分析・編集コメントを表示
影響分析
この取り組みはAI研究コミュニティの活性化とオープンサイエンスの促進に寄与する。Tinkerプラットフォームの採用拡大と、実用的な研究事例の蓄積を通じて、AI開発の民主化を後押しする可能性がある。
編集コメント
研究コミュニティの育成と実践的な成果の共有を重視する姿勢が、AI開発の透明性向上に貢献する取り組み。
Tinker:コミュニティプロジェクト募集のお知らせ
Thinking Machines Labは、研究者や開発者が独自の方法でモデルをトレーニングできるプラットフォーム「Tinker」を立ち上げました。研究目的でも、新たなアプリケーション向けにモデルをカスタマイズする場合でも、自由な実験を促進することを目指しています。同Labは、Tinkerコミュニティから生まれた優れたプロジェクトを定期的に紹介するレポートを公開する計画であり、ブログで紹介されるプロジェクトの応募を広く呼びかけています。
募集対象となる「注目プロジェクト」のガイドラインとして、以下のような具体例が示されています。
- Tinkerを用いた既存研究論文や技術レポートの再実装。
- トレーニング・最適化の新手法の探求、新規ベンチマークの適用など、機械学習分野での独自研究。
- 数学定理証明器や化学モデルなど、AI以外の学術分野でファインチューニングモデルを活用した研究。
- 斬新で魅力的な機能を持つモデルをデモする、Tinkerを用いたプロダクトプロトタイプ。
- モデルトレーニングのための新規データセットやタスク環境の構築。
- 経験の浅い実践者でも効果的にファインチューニングを行える、Tinker上に構築された高レベルライブラリ。
- TinkerトレーニングAPIの簡潔なセルフホスティング実装などのインフラ貢献。
応募には、プロジェクトの説明文書と、可能であればコードのオープンソース公開が求められます。説明文書では、厳密さと明確な評価が重視され、明確なグラフ、生の出力例、関連ベンチマークや指標を用いた他手法との比較が推奨されています。新奇性や誇大な宣伝よりも、勤勉な実験と透明性のある結果が求められる点が強調されています。応募は「Featured Project」という件名で、指定のメールアドレスへ送信します。
さらに、Tinkerが特に進展を期待する具体的な研究テーマも例示されています。現時点では主に以下の2つの方向性が示され、詳細な動機とガイドラインをまとめたリポジトリが公開されています。
- 「憲法AI(Constitutional AI)」のベースモデルからの再現実験:現在広く使われるRLAIF(人間のフィードバックに代わる憲法による強化学習)は、既存の指示チューニング済みモデルから開始されることが一般的です。これでは、憲法そのものの影響と、それを解釈するデータ生成モデルの影響とを分離できません。指示チューニングモデルをパイプラインに含む場合と含まない場合での比較研究は、憲法とRLAIFの本質的な効果を明らかにするでしょう。
- 「ノイジースチューデント」手法を用いた「RLVR(Reward Learning via Verification)」:このテーマについては詳細が途中で切れていますが、検証を介した報酬学習と、ノイジースチューデント(自己学習と擬似ラベリングを組み合わせた手法)を組み合わせる研究が想定されています。
要約すると、Tinkerは、多様な背景を持つ実践者が厳密で再現性のある実験を行い、その成果を広く
原文を表示
Tinker: Call for Community Projects - Thinking Machines Lab Tinker: Call for Community Projects
We launched Tinker to enable builders and researchers to train models their own way, whether they’re conducting studies or customizing models for new applications. We plan to publish regular roundups of the coolest projects from the Tinker community, and we invite you to submit what you’ve been Tinkering on to be featured on our blog.
Below are some broad suggestions for what we hope to see from the Tinker featured projects, and some specific research directions we would particularly love to see pursued.
Guidelines for Tinker Featured Projects
We’re interested in featuring ML research projects, AI-enabled research in other domains, custom models, and other contributions. Some examples:
A reimplementation of a research project or tech report using Tinker, such as papers that compare algorithmic recipes or datasets.
Original research in machine learning, such as exploring new approaches to training or optimization or applying novel benchmarks and evaluations.
Research in a non-AI field that uses fine-tuned models, such as the work on mathematical theorem provers and chemistry models we highlighted previously.
Product prototypes built with Tinker, demoing a model that does something fresh or delightful.
Novel datasets and task environments for training models.
High-level libraries built on top of Tinker that enable less experienced practitioners to perform fine-tuning effectively.
Infrastructure contributions, such as a clean self-hosted implementation of the Tinker training API.
Your submission should include a write-up and, preferably, an open-source release of your code. We encourage you to focus on rigor and clear evaluation in your write-ups: crisp charts, raw output examples, clear comparisons to alternative approaches or models on relevant benchmarks and metrics. Tinkering is experimenting — we want to feature diligent work and transparent results over novelty or hype.
Please send your projects and any related questions to [email protected] with “Featured Project” in the subject line.
Here are some research directions that we would personally love to see explored and that Tinker can enable real progress on. We have created a repo with detailed motivation and guidelines for each; we’ll be adding more resources to it over time to help researchers get started. We expect most project ideas to surprise us, but this short list could serve as inspiration.
Replicating Constitutional AI, starting from the base model. Though RLAIF is widely used, it’s most often bootstrapped from existing instruction-tuned models. This makes it difficult to separate the impact of the constitution from the impact of the data-generating model that interprets it. A study of Constitutional AI with and without instruction-tuned models in the pipeline would shed light on the use of constitutions and RLAIF.
RLVR with Noisy student. Noisy student self-distillation was a popular technique in an earlier era of machine learning for making use of large unlabeled datasets, but it hasn’t been adapted widely to LLMs. One possible adaptation is to start RLVR with a small labeled training set and a large unlabeled one, then have the student apply labels to the latter set after each RL run and iterate.
On-Policy Context Distillation. Context distillation trains a student model with empty context on a teacher model with long and detailed context. Prior work used off-policy distillation — fine-tuning on teacher samples. We have found that on-policy distillation is often much more effective; it would be useful to compare the two approaches for context distillation in particular.
RL memory test. Our post on LoRA presented theoretical arguments on the rate of information acquisition by both SFT and RL. You can set up a toy environment where RL must learn a completely random number sequence, to compare the empirical learning rate under various reward functions to the theoretical estimate.
Direct RL on pairwise judge. RLHF and RLAIF use datasets of pairwise preferences, which are used to train a reward model, which is then used in RL. As an alternative “direct” approach, we can do RL using a prompted model that does pairwise comparisons, without training the reward model. It would be interesting to do experiments comparing the direct and indirect approaches.
Replicate Open Character Training. Replicate the recent paper on Open Character Training using Tinker.
GAN for jokes. In domains such as humor, it is easier to curate a human-vetted set of demonstrations than to train a reliable judge or reward model. Try implementing GAN-style training for a joke evaluator and joke generator that can craft a joke with a requested subject and keywords.
Tips for high-quality ML experiments
In closing, we want to offer a few guidelines for running quality ML studies, the same guidelines we strive to adhere to internally whe
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み