Qwen3.6-27B、大半のコーディングベンチマークで大型後継モデルを凌駕
アリババは270億パラメータの密型オープンソースモデル「Qwen3.6-27B」をリリースし、コード生成ベンチマークで大幅に大型な前身モデルを上回る性能を実現した。
キーポイント
コードベンチマークでの大型モデル凌駕
270億パラメータのQwen3.6-27Bが、3970億パラメータのMoEモデルQwen3.5-397B-A17Bを上回るスコアをSWE-benchやTerminal-Benchで記録。
密型アーキテクチャの実用性
タスクごとにサブモデルを激活するMoEと異なり、密型構造のため推論コストが低く、開発者が容易に導入・運用できる設計。
多様なアクセス経路の提供
Qwen Studio、Alibaba Cloud API、Hugging Face、ModelScopeを通じてオープンウェイトで公開され、開発者向けの実装ハードルを低下。
ベンチマークと実運用の乖離への注意喚起
記事は数値結果が実際の性能を完全に保証するものではないとし、中国のオープンソースモデルが西洋の研究開発から恩恵を受けている可能性を示唆。
影響分析・編集コメントを表示
影響分析
本リリースは、パラメータ数を抑えつつ高性能を達成する密型モデルの競争力を示し、オープンソースAI界隈における計算資源の最適化トレンドを加速させる。特にコード生成分野での性能向上は、開発ツールの標準モデル選定に影響を与えうる。一方でベンチマークと実運用の差を指摘する記事の姿勢は、過度なパラメータ競争への冷静な検証を求める業界の成熟度を反映している。
編集コメント
大型MoEモデルを上回るコード性能を270億パラメータの密型で達成した点は、計算資源制約のある現場にとって極めて現実的な進歩である。ベンチマーク至上主義への注意喚起も併せて受け止め、実際の開発パイプラインでの検証を推奨する。
アリババは、270億パラメータを備えた新しい「密集型(dense)」のオープンソースモデルであるQwen3.6-27Bをリリースしました。 アリババによると、このモデルはテストされたほぼすべてのコーディングベンチマークにおいて、はるかに大規模な後継モデルであるQwen3.5-397B-A17B(3970億パラメータ)を上回っています。SWE-bench Verifiedでは76.2に対して77.2、Terminal-Bench 2.0では52.5に対して59.3を記録しました。
270億パラメータのQwen3.6-27B(濃い紫色、左)はほぼすべてのコーディングベンチマークで首位を走り、アリババの専門家の混合(MoE)モデルを抑えています。GPQA DiamondやMMMUといった推論およびマルチモーダルタスクにおいても、Claude 4.5 Opusなどの競合モデルに引けを取らない性能を発揮します。| Image: Alibaba/Qwen
このモデルはテキスト処理とマルチモーダル推論の両方を扱います。「密集型(dense)」モデルであるため、タスクに応じて異なるサブモデルを起動する複雑な専門家の混合(MoE)アーキテクチャと比較して、実行が容易です。
Qwen3.6-27Bは、Qwen Studio、Alibaba Cloud Model Studio APIを通じて利用可能であり、Hugging FaceおよびModelScopeでは公開重み(open weights)として提供されています。これは、大規模モデルの運用を避けつつも強力なコーディングパフォーマンスを求める開発者向けに設計されています。
常に言えることですが、ベンチマーク(benchmark)結果は実環境での性能(real-world performance)を示すに過ぎず、効率的な中国のオープンソースモデル(open-source model)は、西洋のAIラボ(AI lab)から生まれる研究開発(research and development)から恩恵を受ける可能性があります。
過大評価(hype)を排除したAIニュース – 人間が厳選
THE DECODERを購読すると、広告なしでの閲覧、週刊のAIニュースレター(newsletter)、年6回の限定「AI Radar」フロンティアレポート、アーカイブアクセス(archive access)、そしてコメント欄へのアクセスが得られます。
原文を表示
Alibaba has released Qwen3.6-27B, a new dense open-source model with 27 billion parameters. According to Alibaba, the model outperforms its much larger predecessor, Qwen3.5-397B-A17B (397 billion parameters) on nearly every coding benchmark tested. It scored 77.2 on SWE-bench Verified compared to 76.2, and 59.3 on Terminal-Bench 2.0 compared to 52.5.
The model handles both text and multimodal reasoning. As a "dense" model, it's easier to run than the more complex MoE (Mixture of Experts) architectures, which activate different sub-models depending on the task.
Qwen3.6-27B is available through Qwen Studio, the Alibaba Cloud Model Studio API, and as open weights on Hugging Face and ModelScope. It's aimed at developers who want strong coding performance without dealing with a massive model.
As always, benchmark results only hint at real-world performance, and efficient Chinese open-source models might benefit from research and development coming out of Western AI labs.
AI News Without the Hype – Curated by Humans
Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.
関連記事
ミシシッピ州の裁判官、双方の弁護士が AI を使用したと判明し裁判をキャンセル・全当事者を排除
ミシシッピ州の連邦裁判所において、訴訟の両側を担当する弁護士らが生成 AI ツールを使用して主張を展開していたことが発覚。裁判官はこれを法廷時間の浪費とし、厳しく非難して裁判をキャンセルし、すべての関係者を事件から排除した。
Apple の AI 約束がいよいよ、ほぼ、あるいは少しだけ実現した
Apple は開発者会議で AI に関する大胆な約束を表明したが、CEO ティム・クックが述べた新技術の導入よりも、むしろ「Siri AI」を中心とした発表は他社に追いつくためのものだった。
「スロッペンハイマー」:アマゾンの従業員が社内チャットで同社の AI を揶揄
アマゾン創業者のジェフ・ベゾスは AI が生産性を飛躍的に高めると信じているが、社内の従業員は AI ツールの出力を「ゴミ(スロップ)」と呼び、同社の動機付け策の失敗をジョークとして嘲笑している。