最新オープンアーティファクト(第19号):Qwen 3.5、GLM 5、MiniMax 2.5 — 中国ラボの最前線への最新のアタック
Qwen、MiniMax、StepFunなどの中国AIラボが最新フラッグシップモデルを相次いで公開し、Open-Weights分野での競争が激化している。
キーポイント
中国ラボによるフラッグシップモデルの相次ぎ公開
Qwen 3.5、GLM 5、MiniMax 2.5など、主要な中国AIラボが最新の大規模言語モデルをリリースし、オープンソース分野での覇権争いが加速している。
Relative Adoption Metrics (RAM)による評価指標の導入
モデルのダウンロード数を同規模クラスのモデルで正規化した「RAMスコア」を導入し、GPT-OSSやKimi K2 Thinkingなどの注目モデルを可視化している。
Qwen 3.5の技術的特徴と実装上の課題
MoEアーキテクチャを採用したQwen 3.5はマルチモーダル対応と推論能力を強化したが、小規模モデルでは過剰な推論(overthinking)が発生する課題がある。
DeepSeek V3.2の苦戦と次期DeepSeek V4への期待
直近のDeepSeekモデルは前期リリースに比べて評価が低迷している一方、噂される次期フラッグシップ「DeepSeek V4」のリリースに注目が集まっている。
GLM-5の需要急増と価格改定
Zhipuチームによる744B-A40BのGLM-5は需要が急増し、コーディングプランの価格引き上げにつながった。
MiniMax-M2.5のコミュニティ評価
比較的小規模ながらGLM-5やKimi K2.5と互角の性能を示し、コミュニティから高い支持を得ている。
OpenThinker-Agent-v1のリリース内容
Agentic reasoningに取り組むOpenThinkersにより、SFTおよびRLデータと小規模モデル評価用の「lite」版ターミナルタスクが公開された。
影響分析・編集コメントを表示
影響分析
このニュースは、オープンソースAI分野において中国のラボが技術的・市場面で米国勢(Llamaなど)と対等、あるいはそれ以上の競争力を発揮していることを示唆しています。特にRAMスコアのような相対評価指標の導入は、開発者がモデル選定を行う際の重要な判断材料となるでしょう。また、DeepSeekの不振と次期モデルへの期待は、市場が「品質」よりも「革新性」を求めていることを示しており、今後のオープンソースモデルの競争構造に影響を与える可能性があります。
編集コメント
中国発のオープンソースモデルが急速に成熟しており、単なるクローンではなく独自のアーキテクチャ革新(MoEや推論最適化)で差別化を図っています。開発者はRAMスコアを活用し、モデルの「実質的な人気」と「技術的特徴」を併せて評価することが重要です。
オープンウェイト AI の最上位層では、Qwen、MiniMax、Z.ai、Ant Ling、StepFun からすべて新しいフラッグシップモデルが登場し、非常に忙しく過ごした1ヶ月となりました。それでも、すべての注目は現在噂が加速している DeepSeek V4 の公開待ちに集まっています。大規模なフロンティアモデル以外については、この号ではニッチなモダリティやモデルサイズのロングテールに関する内容はやや軽めとなっています。
これらの新リリースに伴い、私たちは新しい「相対採用指標(Relative Adoption Metrics: RAM)」を用いて追跡を行っています。これは、サイズクラス内の競合モデルと比較してモデルのダウンロード数を正規化する測定ツールです。すでに非常に有用なツールとなっており、GPT-OSS のような過小評価されているモデルを浮き彫りにしています。GPT-OSS はダウンロード数が桁外れで、Llama 3.1 以来最も人気のあるアメリカ製のオープンウェイトモデルとなっています。RAM スコアが 1 を超える場合、そのサイズクラスにおいて歴代トップ 10 のダウンロード数を誇るモデルになる見込みがあることを示します。特に興味深いのは、Qwen 3 と比較して、より小さな Qwen 3.5 の密集型モデルの初期採用がどうなるかです。これは、Qwen の絶え間なく成長するブランドと、一部のオープンソースツールの限界を押し広げられる複雑なハイブリッドモデルアーキテクチャとのバランスにかかっています。
2025 年後半にリリースされたいくつかの人気モデルの RAM スコアの要約は以下の通りで、Kimi K2 Thinking といくつかの OCR モデルが明確な勝者として際立っています。DeepSeek V3.2 およびその他の最近の大規模モデルは、2025 年早期にリリースされた DeepSeek のモデルと比較して著しくパフォーマンスが低下しています。

ここでの時間は、リリースからの経過日数です。
アーティファクトログ
私たちが選ぶもの
Qwen 社による Qwen3.5-397B-A17B:待ちに待った Qwen のアップデートがついに登場しました。0.8B から 27B(密型)まで、そして 35B-A3B から 397B-A17B(MoE: モデルの混合専門家機構)までの様々なサイズで提供されており、一部にはベースモデルも含まれています。これらはすべてマルチモーダルであり、デフォルトで推論機能を持ち、GDN レイヤーを備えた Qwen-Next アーキテクチャに基づいています。
私たちは過去数日間これらのモデルをテストしましたが、前バージョンと比較して明確なアップグレードです。あらゆる面で実質的な改善が見られ、幅広いタスクにわたって完璧なワークホースとなっています。そのスタイルと指示の従順性が向上し、さらに多くの言語をカバーする多言語タスクにおいても、より優れたパフォーマンスを発揮しています。
ただし、少なくとも小規模モデルでは(依然として)過剰推論する傾向があります。チャットテンプレートで推論機能を無効化することで、これをオフにすることができます。

Step-3.5-Flash by stepfun-ai:stepfun-ai は本当にゲームレベルを上げました(あえて冗談ではありません)、196B-A11B の MoE(Mixture of Experts)をリリースし、あらゆる分野で強力な指標を示しています。特に数学ベンチマークでは非常に強く、自身よりも数倍大きいモデルたちを凌駕しています。
GLM-5 by zai-org:Zhipu チームによる 744B-A40B のリリースで、需要が急増し、コーディングプランの価格を引き上げるに至りました。また、これに伴う技術レポートも公開されています。
MiniMax-M2.5 by MiniMaxAI:比較的小さなサイズにもかかわらず、MiniMax-M2.5 は GLM-5 や Kimi K2.5 といったモデルと互角に渡り合い、すぐにコミュニティのお気に入りの一つとなりました。

OpenThinker-Agent-v1 by open-thoughts:OpenThoughts 3 のようなオープンな推論リリースで知られる OpenThinkers は、今やエージェント型推論に取り組んでいます。最初のリリースには SFT(Supervised Fine-Tuning)および RL(Reinforcement Learning)データが含まれており、さらに小型モデルを評価するためのターミナルベースのタスク用「ライト」バージョンも用意されています。
これらのモデルのアーキテクチャにおける微妙な違いについては、同様に技術に焦点を当てたラウンドアップ記事で詳しく解説されています。より深く掘り下げたい場合に最適な補完資料です:
imageAhead of AI
オープンウェイト大規模言語モデル(LLM)への春の夢:2026 年 1 月〜2 月の 10 アーキテクチャ
今月、オープンウェイトモデルのリリースに追いつくのに少し苦労された方へ。この記事で主要なテーマをお伝えします…
続きを読む
2 ヶ月前 · 150 のいいね · 7 コメント · Sebastian Raschka, PhD
モデル
汎用
trillionlabs による Tri-21B-Think:韓国企業のトリリオン・ラボ(Trillion Labs)は、本シリーズの常連ゲストです。今回は、英語、韓国語、日本語に対応した推論能力に特化した 210 億パラメータモデルをリリースしました。
openbmb による MiniCPM-SALA:英語と中国語に対応し、スパースアテンション(sparse attention)を採用した 80 億パラメータモデルで、100 万トークンのコンテキストウィンドウをサポートします。
続きを読む
原文を表示
It’s been a busy month at the top end of open-weights AI — with new flagship models from all of Qwen, MiniMax, Z.ai, Ant Ling, and StepFun. Still, all eyes are on DeepSeek V4’s pending release, which rumors continue to accelerate towards. Outside of the large, frontier models, this issue is a bit lighter on the long-tail of niche modalities and model sizes.
Share
With all these new releases, we’re tracking them with our new Relative Adoption Metrics (RAM), a measurement tool that normalizes model downloads relative to peer models in their size class. This has already been an extremely useful tool for us, highlighting underrated models like GPT-OSS, which is literally off the charts in how downloaded it is — the most popular American open-weights model since Llama 3.1. A RAM score >1 means the model is on track to be a top 10 all-time downloaded model in its size class. We’re particularly interested to see how the early adoption of the smaller Qwen 3.5 dense models will go relative to Qwen 3 — balancing Qwen’s ever growing brand with a trickier, hybrid model architecture that can push the limits of some open-source tools.
A summary of the RAM scores for some of the popular models released late in 2025 is below, highlighting Kimi K2 Thinking and some OCR models as clear winners. DeepSeek V3.2, and their other recent large models, have wildly underperformed DeepSeek’s earlier releases in 2025.

The time here is days since release.
Artifacts Log
Our Picks
Qwen3.5-397B-A17B by Qwen: The long-awaited update to Qwen is finally here. It comes in various sizes from 0.8B to 27B (dense) and 35B-A3B to 397B-A17B (MoE), some of them even with base models. All of them are multi-modal, use reasoning by default and are based on the Qwen-Next architecture with GDN layers.
We tested these models over the last few days, and they are a clear upgrade over the previous version: There are a lot of substantial improvements across the board, making them perfect workhorses for a wide range of tasks.
Their style and instruction-following have improved, and the models are even better at multilingual tasks, covering more languages.
However, at least the small models (still) tend to overthink. You can turn off reasoning by disabling it in the chat template.

Step-3.5-Flash by stepfun-ai: StepFun really stepped up its game (no pun intended), releasing a 196B-A11B MoE with strong metrics across the board. It is especially strong in math benchmarks, beating out models that are several times larger than it.
GLM-5 by zai-org: A 744B-A40B release from the Zhipu team, which has resulted in such a big increase in demand that they raised prices for their coding plan. It also comes with an accompanying tech report.
MiniMax-M2.5 by MiniMaxAI: Despite the relatively small size, Minimax-M2.5 can rival models such as GLM-5 and Kimi K2.5 and has quickly become one of the favorites of the community.

OpenThinker-Agent-v1 by open-thoughts: OpenThinkers, known for their open reasoning releases (such as OpenThoughts 3) are now tackling agentic reasoning. Their initial release includes SFT and RL data, as well as a “lite” version of terminal-based tasks to evaluate smaller models.
The subtle differences in architecture of these models are covered in detail in the similar, more technically focused, round-up from — it’s a good complement if you’re looking to go deeper:
imageAhead of AI
A Dream of Spring for Open-Weight LLMs: 10 Architectures from Jan-Feb 2026
If you have struggled a bit to keep up with open-weight model releases this month, this article should catch you up on the main themes…
Read more
2 months ago · 150 likes · 7 comments · Sebastian Raschka, PhD
Models
General Purpose
Tri-21B-Think by trillionlabs: The Korean Trillion Labs is a repeated guest at the Artifacts series. This time, they are releasing a 21B reasoning model with support for English, Korean and Japanese.
MiniCPM-SALA by openbmb: An English and Chinese 8B model with sparse attention, supporting a 1M context window.
Read more
関連記事
Google の技術を採用した Siri AI が登場、しかし世界の多くは利用不可
Apple は WWDC 2026 で、ゼロから再構築された新 Siri AI を発表し、Google の技術を組み込んで多段階対話を実現したが、多くの地域ではまだ利用できない。
マクドナルド、Google 支援の AI ドライブスルー注文システムをテスト中
マクドナルドは、Google が支援する「ArchIQ」と呼ばれるAIシステムを米国の5店舗で試験運用しており、このシステムがドライブスルーでの注文受付や店舗運営をサポートしている。
Anthropic、Claude Fable 5 と Claude Mythos 5 を発表:基盤モデルは同一だが安全策が異なり、新「Mythos クラス」 tiers 登場
Anthropic は 2026 年 6 月 9 日、能力が Opus クラスを上回る新 tiers「Mythos クラス」に属する Claude Fable 5 と Claude Mythos 5 を発表した。Fable 5 は一般利用向けに安全策を強化し、Mythos 5 は一部制限を解除した限定版として提供される。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み