Tinker: 一般提供開始と視覚入力機能
Thinking Machines LabがTinkerの一般提供を開始し、視覚入力機能を追加しました。
キーポイント
Tinkerが一般公開され、誰でも利用可能になった
新しい推論モデルKimi K2 Thinking(1兆パラメータ)の提供開始
OpenAI API互換インターフェースの実装で既存エコシステムとの連携が容易に
Qwen3-VLモデルによる視覚入力(画像・図表処理)機能の追加
画像分類などの実践的応用例とクックブックの提供
影響分析・編集コメントを表示
影響分析
Tinkerの一般公開と多機能化は、AI開発プラットフォーム市場の競争を激化させる可能性がある。特にOpenAI API互換性と大規模推論モデル・視覚モデルの組み合わせは、企業や研究者のAI開発ワークフローを効率化し、マルチモーダルAIの実用化を加速させる重要な進展と言える。
編集コメント
OpenAI API互換性と大規模推論・視覚モデルを組み合わせたTinkerの一般公開は、AI開発エコシステムの多様化と実用化を促進する重要なマイルストーン。競合プラットフォームへの影響が注目される。
Tinkerの一般提供開始と視覚入力機能の追加に関する発表
Thinking Machines Labは、AIモデル開発プラットフォーム「Tinker」に関する4つの重要なアップデートを発表しました。主な内容は以下の通りです。
1. 待機リストの終了と一般提供開始
Tinkerは待機リスト制限を廃止し、誰でも利用可能になりました。ユーザーはサインアップしてすぐに使用を開始できます。利用可能なモデルと価格はTinkerホームページで、コード例はクックブックで確認することができます。
2. 新しい推論モデル「Kimi K2 Thinking」の導入
パラメータ数1兆を誇る、これまでで最大のモデル「Kimi K2 Thinking」がTinkerでファインチューニング可能になりました。このモデルは、長い推論チェーンとツール使用のために構築されており、複雑な思考プロセスを必要とするタスクに適しています。
3. OpenAI API互換の新しい推論インターフェース
TinkerはOpenAI APIと互換性のあるスキャフォールディング(枠組み)を追加しました。これにより、モデルがトレーニング中であっても、パスを指定して迅速にサンプリングを行うことが可能になります。また、この互換性により、TinkerはOpenAI APIと互換性のあるあらゆるプラットフォームと「プラグアンドプレイ」で連携できるようになり、ユーザーは既存のワークフローやツールを容易に統合できます。
4. Qwen3-VLによる視覚入力サポートの追加
Tinkerに2つの視覚言語モデル(VLM)が追加されました:「Qwen3-VL-30B-A3B-Instruct」と「Qwen3-VL-235B-A22B-Instruct」です。これらのモデルを使用することで、ユーザーは画像、スクリーンショット、図表などを入力として処理できるようになり、多様なアプリケーションが可能となります。画像入力は、画像データ(バイト形式)を含む「ImageChunk」と、テキストチャンクを交互に組み合わせるシンプルな方法で行えます。
この視覚入力機能は、教師ありファインチューニング(SFT)や強化学習によるファインチューニング(RL finetuning)を含む、様々なアプリケーションでそのまま利用可能です。機能を実証するため、VLMを画像分類器としてファインチューニングする新しいクックブックレシピも公開されています。具体的には、Qwen3-VL-235B-A22B-Instructモデルを用いて、Caltech 101(一般物体)、Stanford Cars(自動車)、Oxford Flowers(花)、Oxford Pets(ペット)という4つの古典的なデータセットで画像分類タスクのファインチューニングを行いました。Qwen3-VLは言語モデルであるため、分類タスクを「画像を入力としてクラス名を生成する」テキスト生成問題として扱っています。その結果、このモデルはクラスごとにわずか1例のデータを与えられた場合でも合理的な精度を示し、ラベル付きデータが増えると性能が向上することが確認されました。
まとめると、今回のアップデートにより、Tinkerはより強力な推論モデルへのアクセス、開発の柔軟性を高めるAPI互換性、画像理解という新たな次元の機能を提供するようになり、研究者
原文を表示
Tinker: General Availability and Vision Input - Thinking Machines Lab Tinker: General Availability and Vision Input
Today we are announcing four updates to Tinker:
New reasoning model: Kimi K2 Thinking
New inference interface that is compatible with the OpenAI API
Vision input support with Qwen3-VL
The waitlist is over! Everybody can use Tinker now; sign up here to get started. See the Tinker homepage for available models and pricing, and check out the Tinker cookbook for code examples.
More reasoning with Kimi K2 Thinking
Users can now fine-tune Kimi K2 Thinking on Tinker. With a trillion parameters, Kimi K2 is the largest model in our lineup so far. It is built for long chains of reasoning and tool use.
Tinker has a standard function for inference:
prompt = types.ModelInput.from_ints(tokenizer.encode("The capital of France is",)) params = types.SamplingParams(max_tokens=20, temperature=0.0, stop=["\n"]) future = sampling_client.sample(prompt=prompt, sampling_params=params) With this release, we have added OpenAI API-compatible scaffolding for quickly sampling from a model by specifying a path, even while it’s still training. This also means Tinker can now plug-and-play with any OpenAI API-compatible platform. See more information in our Tinker documentation.
response = openai_client.completions.create( model="tinker://0034d8c9-0a88-52a9-b2b7-bce7cb1e6fef:train:0/sampler_weights/000080", prompt="The capital of France is", max_tokens=20, temperature=0.0, stop=["\n"], ) Vision input with Qwen3-VL
We’ve added two vision models to Tinker: Qwen3-VL-30B-A3B-Instruct and Qwen3-VL-235B-A22B-Instruct. With these, users can process pictures, screenshots, and diagrams for a variety of applications.
To input images, just interleave together an ImageChunk – consisting of your image, saved as bytes – with text chunks. For example:
model_input = tinker.ModelInput(chunks=[ tinker.types.ImageChunk(data=image_data, format="png"), tinker.types.EncodedTextChunk(tokens=tokenizer.encode("What is this?")), ]) These vision inputs can be used in a variety of applications out-of-the-box, including SFT and RL finetuning.
To demonstrate vision understanding in action, we are sharing a new cookbook recipe for fine-tuning VLMs as image classifiers. Qwen3-VL-235B-A22B-Instruct obtains reasonable accuracy even given just one example per class; performance improves with more labeled data.
Training image classifiers with Tinker
To showcase Tinker’s new vision capabilities, we finetuned Qwen3-VL-235B-A22B-Instruct to classify images on four classic datasets:
Caltech 101, a dataset of 101 general object categories.
Stanford Cars, a dataset of car makes, models, and years.
Oxford Flowers, a dataset of flower species.
Oxford Pets, a dataset of pet breeds.
Since Qwen3-VL is a language model, we frame classification as text generation: given an image, the model outputs the class name. We compare this approach against a traditional vision baseline of finetuning a vision-only model — DINOv2-base. DINOv2 is a self-supervised vision transformer that was trained to encode images, and is commonly used as a backbone for pure computer vision tasks. For DINOv2, we add a classification head that predicts a distribution over all N classes. Both models are fine-tuned with LoRA.
Labeled image data is scarce for many real-world use cases, so data efficiency is the primary measure we look at. We show the classification accuracy when sweeping across the number of labeled examples per class, starting with just a single one.
In the limited-data regime, Qwen3-VL-235-A22B outperforms DINOv2. Not only is it a bigger model, but as a VLM, it also comes with language knowledge out-of-the-box (i.e. what a “golden retriever” or “sunflower” is). This general language-and-vision capability of Qwen3-VL makes it readily available for vision tasks beyond classification.
Tinker exists to enable builders and researchers to train and customize state-of-the-art models. As always, we look forward to seeing what you build with Tinker. Happy holidays!
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み