LLM の過去半年を5分で解説
Simon Willison は PyCon US 2026 の登壇で、直近半年の LLM 業界を「2025 年 11 月の転換点」を中心に要約し、最優秀モデルの座が主要 3 社間で激しく移り変わった現状と、評価基準の流動性を指摘した。
キーポイント
2025 年 11 月の転換点
LLM の発展において 2025 年 11 月が重要な転換期となり、特にコーディング能力の劇的な向上や業界構造の変化がこの時期に集中した。
最優秀モデルの激しい入れ替わり
「現在最強」とされるモデルの座が、Anthropic、OpenAI、Google の 3 大プロバイダー間で 5 回も交代するほど競争が熾烈化している。
評価基準の定量化と「ペリカン」テスト
モデル間の差を可視化するため、難易度の高い「ペリカンが自転車に乗る SVG を生成」という一貫したテストケースを用いて比較分析を行っている。
影響分析・編集コメントを表示
影響分析
この分析は、LLM 業界が単なる性能向上の競争から、特定の分野(コーディングなど)での実用性確立と、ベンダー間の覇権争いが極めて短期間で激化する「ハイパー競争期」に入ったことを示唆しています。開発者や企業にとっては、特定のモデルに依存するリスクが高まっているため、マルチモデル戦略や評価基準の柔軟な見直しが急務であることを意味します。
編集コメント
2026 年という未来の時点での回顧記事ですが、現在の LLM 業界が抱える「モデルの優劣が流動的である」という課題を象徴的に示しており、技術選定におけるリスク管理の重要性を浮き彫りにしています。
私は、PyCon US 2026 で行った 5 分間のライトニングトークのために、これらの注釈付きスライドを作成しました。使用したのは、私の 注釈付きプレゼンテーションツール の最新バージョン 最新版 です。

私は PyCon US 2026 でこのライトニングトークを行い、直近 6 ヶ月間の LLM(大規模言語モデル)における開発動向を 5 分間で要約しようと試みました。

6 ヶ月という期間は、私が「2025 年 11 月の転換点」と呼んでいるものを捉えるのに非常に都合の良い期間です。11 月は LLM、特にコーディング分野において重要な月でした。

まず、いわゆる「最良」モデル(主に雰囲気や評判によって評価が変動する)が、主要な 3 つの提供者の間で 5 回も持ち主を変えました。

いつも通り、私はモデル間の違いを説明するために ペリカンが自転車に乗っている SVG を生成する というテストを使用しています。
なぜこのテストなのか? ペリカンは描くのが難しく、自転車も描くのが難しい。さらにペリカン*は自転車に乗れない*からだ……そして、そんなばかげたタスクのために AI ラボがモデルを訓練する可能性はゼロだ。

11 月初め、広く認められた「最高」のモデルは 9 月 29 日 にリリースされた Claude Sonnet 4.5 であった。このモデルはこのペリカンを描いた。
11 月には、GPT-5.1 に抜かれ、次に Gemini 3、そして GPT-5.1 Codex Max に抜かれた。その後、Anthropic が Claude Opus 4.5 で再び王座を奪還した。
Gemini 3 がこの中から最も優れたペリカン(※注:文脈上の比喩または誤記の可能性あり)を引き出したと思いますが、ペリカンだけがすべてではありません。多くの実務家は、Opus 4.5 が今後数ヶ月の間、王座を維持し続けると合意するでしょう。

これが明確になるまで少し時間がかかりましたが、11 月からの本当のニュースは、コーディングエージェント(coding agents)が「上手になった」ことです。
OpenAI と Anthropic は 2025 年の大半を、モデルが生成するコードの品質、特に Codex や Claude Code エージェントハッチス(agent harnesses)と組み合わせた際の品質を向上させるために、検証可能な報酬からの強化学習(Reinforcement Learning from Verifiable Rewards)に注力していました。
11 月になり、この取り組みの結果が明らかになりました。コーディングエージェントは「しばしば機能する」状態から「主に機能する」状態へと進化し、実務で実際に作業を完了させるための日常使いとして使えるレベルの品質バリアーを超えました。これにより、彼らの愚かなミスを修正するために時間を費やす必要がなくなりました。

また 11 月には、このような出来事も起こりました。ある「ピーター」という名前の人物が、当時まだ無名のリポジトリ(repo)である「Warelay」への最初のコミットが行われたのです。

休暇期間、12月から1月にかけて、多くの人がこの休みを利用してこれらの新しいモデルやコーディングエージェント(coding agents)に触れてみて、何ができたか試しました。
彼らは多くのことができるのです!一部の人は少し興奮しすぎました。私もまた、短期間でしたが LLM パニック(LLM psychosis)のような状態に陥り、限界まで押し広げてみようとして wildly 野心的なプロジェクトを次々と立ち上げていました。
image n * 2);
console.log('Doubled: "', doubled);
var evens = numbers.filter(n => n % 2 === 0);
console.log('Evens: ', evens);
var sum = numbers.reduce((a, b) => a + b, @);
console.log('Sum:', sum);
Output 27
Doubled: [2, 4, 6, 8, 10, 12, 14, 16, 18, 20]
Evens: [2, 4, 6, 8, 10]
Sum: 55
Execution time: 8.00ms
About: micro-javascript is a pure Python JavaScript interpreter with configurable memory and time limits. This playground runs entirely in your browser using Pyodide (Python compiled to WebAssembly). View on GitHub" style="max-width: 100%" />
One of my projects was a vibe-coded implementation of JavaScript in Python - a loose port of MicroQuickJS - which I called micro-javascript. You can try it out in your browser in this playground.

That playground demo shows JavaScript code run using my micro-javascript library, in Python, running inside Pyodide, running in WebAssembly, running in JavaScript, running in a browser!
とても素晴らしいですね!でも、誰かが Python で実装されたバグだらけで遅く、セキュリティ上の問題がある不完全な JavaScript の実装を本当に必要としていたのでしょうか?
誰も必要としませんでした。私はその休暇期間中に他にもいくつかのプロジェクトを持っていましたが、それらは静かに廃止しました!

次に 2 月へ。11 月末に最初のコミットが行われた Warelay プロジェクトを覚えていますか?

12 月と 1 月の間、いくつかの名前変更を経験しましたが、2 月にはついに最終名である OpenClaw で世界を席巻しました。
このプロジェクトがまだ 3 ヶ月未満の期間であったことを考えると、得られた注目の量は驚くべきものです。

OpenClaw は「パーソナル AI アシスタント」であり、NanoClaw や ZeroClaw などを基に、これらのための一般的な用語も得られました。それらはClaws(クロー)と呼ばれています。

Mac Mini がシリコンバレー周辺で売り切れ始めたのは、人々がこれらを自分の Claws(クロー)を動かすために購入したからです。
Drew Breunig は私に冗談めかして、「これは新しいデジタルペットだからです。Mac Mini はあなたの Claw にとって完璧な水槽のようなものです」と言いました。

Claws に対する私の最もお気に入りの比喩は、2004 年の映画『スパイダーマン 2』に登場するアルフレッド・モリーナ演じるドク・オックです。彼のクローは AI によって駆動されており、抑制チップ(inhibitor chip)が損傷しない限りは完全に安全でした……しかし、それが損傷するとクローは悪化し、支配を奪い取ってしまいます。

また、2 月には Gemini 3.1 Pro が登場し、私に「自転車に乗るペリカン」を*非常に上手に*描かせました。これを見てください!かごの中には魚まで入っています。

そしてその後、Google のジェフ・ディーンが、自転車をこぐアニメーションのペリカン、ペニーファージングに乗ったカエル、小さな車を運転するキリン、ローラースケートを履いたダチョウ、スケートボードでキックフラップをするカメ、そしてストレッチ・リムジン(大型リムジン)を運転するダックスフントが登場する動画 この動画をツイートしました。
おそらく AI 研究所も、結局は注目していたのかもしれません!

先月のわずか一ヶ月の間にも、多くの出来事が起こりました。

Google は Gemma 4 シリーズのモデルをリリースしました。これは私がこれまで米国の企業から見た中で、最も能力の高いオープンウェイト(重み公開)モデルです。

また先月、中国の AI ラボである GLM が GLM-5.1 を発表しました。これはオープンウェイト(重み公開)の 1.5TB という巨大なモデルです!非常に能力の高いモデルですが、それを動かすためのハードウェアを所有できる場合に限り有効です。

GLM-5.1 は、自転車に乗る非常に有能なペリカンの画像を描きました。

……しかし、それをアニメーション化しようとした際、自転車は上部に跳ね上がり、歪んでしまいました。

Bluesky の Charles が、私はノースバージニアオポッサムを E スクーターに乗せて試してみるよう提案しました。

そして、これを実現しました!他のモデルで試してみましたが、これほどには到底及びません。「夕暮れからコモンウェルス(英連邦)を巡航」という表現は完璧です。また アニメーション化もされています。

4 月に登場した他の注目の中国製オープンウェイトモデルは Qwen からのものでした。私のラップトップ上で、Qwen3.6-35B-A3B は Claude Opus 4.7 よりも優れたペリカンの絵を描きました。これは私のラップトップで動作する、20.9GB のオープンウェイトモデルです!
(私は、この自転車に乗ったペリカンという画像が、もはや有用なベンチマークとして限界を超えてしまったことを主に示しているのだと思います)
原文を表示
I put together these annotated slides from my five minute lightning talk at PyCon US 2026, using the latest iteration of my annotated presentation tool.

I presented this lightning talk at PyCon US 2026, attempting to summarize the last six months of developments in LLMs in five minutes.

Six months is a pretty convenient time period to cover, because it captures what I've been calling the November 2025 inflection point. November was a critical month in LLMs, especially for coding.

For one thing, the supposedly "best" model (depending mostly on vibes) changed hands five times between the three big providers.

As always, I'm using my Generate an SVG of a pelican riding a bicycle test to help illustrate the differences between the models.
Why this test? Because pelicans are hard to draw, bicycles are hard to draw, pelicans *can't ride bicycles*... and there's zero chance any AI lab would train a model for such a ridiculous task.

At the start of November the widely acknowledged "best" model was Claude Sonnet 4.5, released on 29th September. It drew me this pelican.
In November it was overtaken by GPT-5.1, then Gemini 3, then GPT-5.1 Codex Max, and then Anthropic took the crown back again with Claude Opus 4.5.
I think Gemini 3 drew the best pelican out of this lot, but pelicans aren't everything. Most practitioners will agree that Opus 4.5 held the crown for the next couple of months.

It took a little while for this to become clear, but the real news from November was that the coding agents got *good*.
OpenAI and Anthropic had spent most of 2025 running Reinforcement Learning from Verifiable Rewards to increase the quality of code written by their models, especially when paired up with their Codex and Claude Code agent harnesses.
In November the results of this work became apparent. Coding agents went from often-work to mostly-work, crossing a quality barrier where you could use them as a daily-driver to get real work done, without needing to spend most of your time fixing their stupid mistakes.

Also in November, this happened - the first commit to an obscure (back then) repo called "Warelay" by some guy called Pete.

Over the holiday period, from December to January, a whole lot of us took advantage of the break to have a poke at these new models and coding agents and see what they could do.
They could do a lot! Some of us got a little bit over-excited. I had my own short-lived bout of a form of LLM psychosis as I started spinning up wildly ambitious projects to see how far I could push them.

n * 2);
console.log('Doubled: "', doubled);
var evens = numbers.filter(n => n % 2 === 0);
console.log('Evens: ', evens);
var sum = numbers.reduce((a, b) => a + b, @);
console.log('Sum:", sum);
Output 27
Doubled: [2, 4, 6, 8, 10, 12, 14, 16, 18, 20]
Evens: [2, 4, 6, 8, 10]
Sum: 55
Execution time: 8.00ms
About: micro-javascript is a pure Python JavaScript interpreter with configurable memory and time limits. This playground runs entirely in your browser using
Pyodide (Python compiled to WebAssembly). View on GitHub" style="max-width: 100%" />
One of my projects was a vibe-coded implementation of JavaScript in Python - a loose port of MicroQuickJS - which I called micro-javascript. You can try it out in your browser in this playground.

That playground demo shows JavaScript code run using my micro-javascript library, in Python, running inside Pyodide, running in WebAssembly, running in JavaScript, running in a browser!
It's pretty cool! But did anyone out there *need* a buggy, slow, insecure half-baked implementation of JavaScript in Python?
They did not. I have quite a few other projects from that holiday period that I have since quietly retired!

On to February. Remember that Warelay project that had its first commit at the end of November?

In December and January it had gone through quite a few name changes... and by February it was taking the world by storm under its final name, OpenClaw.
The amount of attention it got is pretty astonishing for a project that was less than three months old.

OpenClaw is a "personal AI assistant", and we actually got a generic term for these, based on NanoClaw and ZeroClaw and suchlike... they're called Claws.

Mac Minis started to sell out around Silicon Valley, because people were buying them to run their Claws.
Drew Breunig joked to me that this is because they're the new digital pets, and a Mac Mini is the perfect aquarium for your Claw.

My favourite metaphor for Claws is Alfred Molina's Doc Ock in the 2004 movie Spider-Man 2. His claws were powered by AI, and were perfectly safe provided nothing damaged his inhibitor chip... after which they turned evil and took over.

Also in February: Gemini 3.1 Pro came out, and drew me a *really good pelican riding a bicycle*. Look at this! It's even got a fish in its basket.

And then Google's Jeff Dean tweeted this video of an animated pelican riding a bicycle, plus a frog on a penny-farthing and a giraffe driving a tiny car and an ostrich on roller skates and a turtle kickflipping a skateboard and a dachshund driving a stretch limousine.
So maybe the AI labs have been paying attention after all!

A lot of stuff happened just in the past month.

Google released the Gemma 4 series of models, which are the most capable open weight models I've seen from a US company.

Also last month, Chinese AI lab GLM came out with GLM-5.1 - an open weight 1.5TB monster! This is a very effective model... if you can afford the hardware to run it.

GLM-5.1 drew me this very competent pelican on a bicycle.

... though when it tried to animate it the bicycle bounced off into the top and the bicycle got warped.

Charles on Bluesky suggested I try it with a North Virginia Opossum on an E-scooter

And it did this! I've tried this on other models and they don't even come close. "Cruising the commonwealth since dusk" is perfect. It's animated too.

The other neat Chinese open weight models in April came from Qwen. Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7. That's a 20.9GB open weights model that runs on my laptop!
(I think this mainly demonstrates that the pelican on the bicycle has firmly exceeded its limits as a useful benchmark.)
<div clas
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み