AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Simon Willison Blog·2026年4月17日 02:16·約3分で読める

Qwen3.6-35B-A3BがClaude Opus 4.7より優れたペリカン画像を生成

#マルチモーダル画像生成#ローカル推論環境#量子化モデル#ベンチマーク評価#Qwen#Anthropic
TL;DR

Simon Willison氏がローカル環境で動作するQwen3.6-35B-A3BとAnthropicのClaude Opus 4.7を比較し、ローカルモデルの方が空間認識と指示遵守において優れていることを実証した。

AI深層分析2026年4月17日 03:43
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

ローカル推論環境の実用性向上

MacBook Pro M5上で20.9GBの量子化モデルをLM Studio経由で実行し、API依存なしで高品質な画像生成を実現した。

2

クラウド大規模モデルの空間認識課題

Claude Opus 4.7は自転車のフレーム形状を誤るなど物理構造の生成に苦戦し、思考レベルを最大にしても改善不明显だった。

3

コミュニティベンチマークの検証力

作者は過剰学習疑惑を検証するためバックアップテストを実施し、Qwenの汎化能力とベンチマークの実効性を裏付けた。

影響分析・編集コメントを表示

影響分析

本記事は、クラウド大規模言語モデルの優位性が相対的に低下しつつある現状を浮き彫りにし、ローカル推論環境の急速な成熟を示している。開発者やエンドユーザーにとって、APIコストやプライバシーを気にせず高性能なマルチモーダルモデルをローカルで運用できる道が開けたことを意味する。また、コミュニティベンチマークが公式評価指標に匹敵する実証力を得つつある点も、AI評価文化の多様化を示唆している。

編集コメント

ローカル推論環境の成熟により、クラウドAPIに依存しない高品質な画像生成が可能になりつつある。開発者は用途に応じてローカルモデルとクラウドAPIの使い分けを戦略的に検討すべきだ。

もし私のpelican riding a bicycle benchmarkを、モデルをテストする堅牢な手法として真剣に受け止めてくださっている方がいれば、今朝の2つの大規模モデルリリースからのペリカン画像をお届けします。Alibaba製のQwen3.6-35B-A3Bと、Anthropic製のClaude Opus 4.7です。

こちらはQwen 3.6のペリカンです。Unslothによるthis 20.9GB Qwen3.6-35B-A3B-UD-Q4_K_S.gguf量子化モデル (quantized model) を使用し、MacBook Pro M5上でLM Studio(およびllm-lmstudioプラグイン)経由で実行して生成しました。-transcript here:

image
image

そしてこちらはAnthropicのbrand new Claude Opus 4.7から得たものです。(transcript):

image
image

こちらはQwen 3.6に軍配を上げます。Opusは自転車フレームの描写を台無しにしてしまいました!

thinking_level: max (thinking_level) を渡してOpusを2回目のテストで試しましたが、あまり改善しませんでした(transcript):

image
image

Qwenが不正をしているとは思えない

多くの人が、ラボが私のくだらないベンチマークのために学習していると確信しています。私はそうは思いませんが、正直この結果は少し疑念を抱かせるものでした。そこで秘密のバックアップテストの一つを投入します - 「Generate an SVG of a flamingo riding a unicycle」というプロンプトで、Qwen3.6-35B-A3BとOpus 4.7から得た結果がこちらです:

Qwen3.6-35B-A3B

(transcript)

imageimage

Opus 4.7

(transcript)

imageimage

私はこの結果もQwenに軍配を上げます。優れたSVGコメント (SVG comment) のおかげもあってのことです。

ここから何が学べるのか

このpelican benchmarkは常にジョークとして意図されたものであり、主にこれらのモデルを比較するという作業がいかに難解で不合理であるかを示す声明です。

そのジョークの奇妙な点は、大部分において、生成されたペリカンの品質とモデル (models) の全体的な有用性の間に直接的な相関関係があったことです。それらの2024年10月最初のペリカンはゴミ同然でした。より最近の投稿は全体的にずっとずっと良く、ペリカンが自転車に乗っているイラストを急務で必要とするような場合であれば、Gemini 3.1 Proは実際にどこかで使えるイラストを生み出すに至っています。

今日の時点で、その有用性への緩やかな結びつきでさえ断ち切られています。Qwenに対しては多大な敬意を抱いていますが、彼らの最新モデルの21GB量子化版 (quantized version) がAnthropicの最新の独自リリース (proprietary release) よりも強力であるか、あるいは有用であると確信できるわけではありません。

ただし、あなたが求めているのがペリカンが自転車に乗っているSVGイラスト (SVG illustration) であるならば、現時点ではラップトップ上で動作するQwen3.6-35B-A3Bの方が、Opus 4.7よりも確実な選択肢と言えます!

タグ: ai, generative-ai, local-llms, llms, anthropic, claude, qwen, pelican-riding-a-bicycle, llm-release, lm-studio

原文を表示

For anyone who has been taking my pelican riding a bicycle benchmark seriously as a robust way to test models, here are pelicans from this morning's two big model releases - Qwen3.6-35B-A3B from Alibaba and Claude Opus 4.7 from Anthropic.

Here's the Qwen 3.6 pelican, generated using this 20.9GB Qwen3.6-35B-A3B-UD-Q4_K_S.gguf quantized model by Unsloth, running on my MacBook Pro M5 via LM Studio (and the llm-lmstudio plugin) - transcript here:

The bicycle frame is the correct shape. There are clouds in the sky. The pelican has a dorky looking pouch. A caption on the ground reads Pelican on a Bicycle!
The bicycle frame is the correct shape. There are clouds in the sky. The pelican has a dorky looking pouch. A caption on the ground reads Pelican on a Bicycle!

And here's one I got from Anthropic's brand new Claude Opus 4.7 (transcript):

The bicycle frame is entirely the wrong shape. No clouds, a yellow sun. The pelican is looking behind itself, and has a less pronounced pouch than I would like.
The bicycle frame is entirely the wrong shape. No clouds, a yellow sun. The pelican is looking behind itself, and has a less pronounced pouch than I would like.

I'm giving this one to Qwen 3.6. Opus managed to mess up the bicycle frame!

I tried Opus a second time passing thinking_level: max. It didn't do much better (transcript):

The bicycle frame is entirely the wrong shape but in a different way. Lines are more bold. Pelican looks a bit more like a pelican.
The bicycle frame is entirely the wrong shape but in a different way. Lines are more bold. Pelican looks a bit more like a pelican.

I don't think Qwen are cheating

A lot of people are convinced that the labs train for my stupid benchmark. I don't think they do, but honestly this result did give me a little glint of suspicion. So I'm burning one of my secret backup tests - here's what I got from Qwen3.6-35B-A3B and Opus 4.7 for "Generate an SVG of a flamingo riding a unicycle":

Qwen3.6-35B-A3B([transcriptQwen3.6-35B-A3B([transcript)](https://static.simonwillison.net/static/2026/qwen-flamingo.png)

Opus 4.7([transcriptOpus 4.7([transcript)](https://static.simonwillison.net/static/2026/opus-flamingo.png)

I'm giving this one to Qwen too, partly for the excellent `` SVG comment.

What can we learn from this?

The pelican benchmark has always been meant as a joke - it's mainly a statement on how obtuse and absurd the task of comparing these models is.

The weird thing about that joke is that, for the most part, there has been a direct correlation between the quality of the pelicans produced and the general usefulness of the models. Those first pelicans from October 2024 were junk. The more recent entries have generally been much, much better - to the point that Gemini 3.1 Pro produces illustrations you could actually use somewhere, provided you had a pressing need to illustrate a pelican riding a bicycle.

Today, even that loose connection to utility has been broken. I have enormous respect for Qwen, but I very much doubt that a 21GB quantized version of their latest model is more powerful or useful than Anthropic's latest proprietary release.

If the thing you need is an SVG illustration of a pelican riding a bicycle though, right now Qwen3.6-35B-A3B running on a laptop is a better bet than Opus 4.7!

Tags: ai, generative-ai, local-llms, llms, anthropic, claude, qwen, pelican-riding-a-bicycle, llm-release, lm-studio

この記事をシェア

関連記事

Anthropic Research★32026年3月6日 09:00

2026年3月6日 Frontier Red TeamによるClaudeのCVE-2026-2796エクスプロイトのリバースエンジニアリング

Frontier Red Teamが、Claudeの脆弱性CVE-2026-2796を悪用するエクスプロイトをリバースエンジニアリングした。

Anthropic Research★32026年3月6日 09:00

フロンティア・レッドチーム、Firefoxのセキュリティ向上のためにMozillaと提携

フロンティア・レッドチームは、Firefoxのセキュリティを向上させるため、Mozillaと提携した。

宝玉的分享★42026年2月17日 09:00

59%のユーザーがより安価なモデルを選択:Sonnet 4.6の詳細解説

Anthropic社がClaude Sonnet 4.6をリリースし、Claude Codeテストで70%のユーザーが前世代モデルより好み、59%がフラッグシップモデルOpus 4.5よりも選択した。コーディング、コンピュータ利用、100万トークンコンテキストなど6次元で全面アップグレードされ、価格は据え置き。

ニュース一覧に戻る元記事を読む