モデルの半減期(4 分読)
TLDR AI は、モデルリリースのペースが加速しているという一般的な認識に対し、実際のデータ分析を通じて「半減期」仮説は誤りであり、単純な指数関数的成長ではないと指摘し、今後のリリーススケジュールに関する予測を提示した。
キーポイント
モデル半減期仮説の否定
モデルリリースが半年ごとに半分になるという「モデル半減期」の概念は、実際のデータ分析において実証されず、単純な加速曲線ではないことが示された。
主要モデルのリリース履歴分析
最も有名な複数のAIモデルの公開日データを調査し、ペースが速まっている事実は認められるものの、その速度は予測されるほど劇的ではないと結論付けた。
今後のリリース予測
過去の傾向に基づき、次期主要モデルの登場時期に関する具体的な予測を提示し、業界関係者への戦略的な示唆を与えている。
影響分析・編集コメントを表示
影響分析
この記事は、AI業界における過度な楽観論や「永遠に加速する」という誤解をデータに基づいて是正する役割を果たします。開発者や投資家に対して、モデルリリースのペースが直線的または対数的である可能性を示唆することで、リソース配分や市場予測の精度向上に寄与します。
編集コメント
「半減期」という直感的な概念がデータによって否定された点は、AI業界の成熟度を測る重要な指標と言えます。開発スピードの過熱感を冷静に捉え直す機会となる記事です。
モデルの「半減期」について、リリース間隔が年単位から数ヶ月へと短縮されており、その結果としてモデルのリリース頻度自体もさらに低下するだろうという主張を、私はよく耳にします。最近この「モデルの半減期」というフレーズをあまりにも多く聞いたので、実際にデータを調べてみることにしました。
私は 2022 年後半から今日に至るまで、米国のフロンティア・ラボ(OpenAI, Anthropic, Google, xAI, Meta, Mistral)および主要な中国のラボ(DeepSeek, Qwen, Zhipu, MiniMax, Moonshot, ByteDance)で発表されたすべてのヘッドラインモデルのリリースを TSV 形式 にまとめました。各ベンダーについては、実際に出荷されているサブシリーズごとに分割しました(Claude Opus は Claude Sonnet とは異なる系列であり、GPT は o シリーズとは異なる系列であり、Gemini Pro は Flash とは異なる系列です)。そして、これらをプロットしました。
私はこの分析を数ヶ月ごとに再実行したいと考えています。初期データセットは、この投稿の末尾にある参考文献および Claude によるベンダー発表から作成されました。日付の確認を手作業で行っており、誤りを見つけた箇所はその場で修正していきます。もし行の内容が不自然に思える場合は、お知らせください。完全なソースリストは以下の ソースセクション にあります。
破線と点線は予測値です。各シリーズについて、ドロップを時系列順に並べ替え、連続するペア間の日数差を計算し、直近の 3 つのギャップ(3 つ未満の場合はすべて)を取り出し、中央値を最寄りの日付に丸めます。平均ではなく中央値を用いるのは、単一の外れ値(同一週でのダブルドロップや、長期の不計画な休止など)が予測を歪めないようにするためです。この中央値ギャップを最新のリリース日に加算することで、次のドロップの予測日が得られます。
これはかなり単純なヒューリスティックですが、内容は以下の通りです:1 つのドロップしかないシリーズには予測は行われません。2 つのドロップがあるシリーズでは、その 1 つのギャップを使用します。3 つ以上のドロップからは直近の 3 つのみがカウントされるため、予測は長期平均ではなく「現在のペース」を追跡します。「シリーズごとの予測次期ドロップ」テーブルは昇順でソートされているため、過去にあるものは期限切れであり、タイムライン上の破線セグメントは各シリーズの最後に出荷されたドロップから、その予測される次のドロップへと接続しています。
振り返ってみると、「モデルの半減期」という表現は実際にはあまり意味をなしておらず、単に「モデルのリリースがより速くなっている」という流行語的な表現に過ぎないようです。上記のチャートでリリースを確認すると、確かに活動が増加し傾向が上向きになっていることはわかりますが、6 ヶ月ごとにリリース時間が半分になるようなことはありません…
モデルがいつローンチされるかを予測するのは楽しいことですが、データポイントが十分に多くない限り、その予測は非常に頼りないものになります… 2027 年末に GPT OSS が登場する?いや、もしかしたらそうなるかもしれませんが…
データファイルは /model-drops.tsv にあります。日付やシリーズに誤りがある場合は、Issue を作成するか、私にお知らせください。
ソース
これらは、/model-drops.tsv の作成と検証に使用された主要な参考文献です。データセットが更新されるにつれて、このリストにも順次追加していきます。
ベンダーの発表およびリリースノート:
- OpenAI: ニュースおよびリリースノート
- Anthropic: ニュース
- Google DeepMind: Google ブログ AI カテゴリ、Gemini モデルドキュメント、DeepMind ブログ
- xAI: ニュース
- Meta AI: ブログ、Llama モデルカード
- Mistral: ニュース
- DeepSeek: API ニュース
- Qwen (Alibaba): ブログ
- Zhipu / GLM: z.ai ブログ
- MiniMax: ニュース
- Moonshot: moonshot.cn
- ByteDance Seed: チームページ
日付のクロスチェックに使用したアグリゲーター:
- LMArena リーダーボード(旧 LMSys)
- Hugging Face モデルページ
- 個別モデルファミリーに関する Wikipedia エントリー(発表日とリリース日の三角測量に有効)
開示: 初期の TSV ファイルは Claude によって作成されました。私は行ごとに検証を行っており、随時誤りを修正していきます。誤りを見つけた場合は、Issue を作成するか、私までメッセージをお送りください。
原文を表示
I keep hearing people say that there is a model “half-life” which keeps dropping from years between model releases down to a few months, with the implied assumptions that model releasing will drop to even further. I’ve heard the phrase “model half-life” so much recently that I wanted to actually look at the data.
I made a TSV of every headline model release from late 2022 through today across the US frontier labs (OpenAI, Anthropic, Google, xAI, Meta, Mistral) and the major Chinese labs (DeepSeek, Qwen, Zhipu, MiniMax, Moonshot, ByteDance). I split each vendor into the sub-series it actually ships in (Claude Opus is a different line from Claude Sonnet, GPT is a different line from the o-series, Gemini Pro is a different line from Flash). Then I plotted them.
Since I want to re-run this every few months. The initial dataset was compiled by Claude from vendor announcements and the references at the bottom of this post. I am working through it manually to verify dates, and I will correct entries in place when I find errors. If a row looks wrong to you, tell me. The full source list is in the sources section below.
The dashed dots are predictions. For each series I sort drops chronologically, compute the gap in days between each consecutive pair, take the trailing three gaps (or all of them if there are fewer than three), and round the median to the nearest day. I use median rather than mean so a single outlier (a same-week double-drop, or a long unplanned hiatus) does not distort the prediction. Adding that median gap to the most recent release date gives the predicted next drop.
It’s a pretty naive heuristic, but its as follows: A one-drop series gets no prediction. A two-drop series uses its single gap. From three drops up, only the trailing three count, so the prediction tracks *current* cadence rather than a long-run average. The “predicted next drop per series” table sorts ascending, so anything in the past is overdue, and the dashed segments in the timeline connect each series’s last shipped drop to its predicted next.
On reflection, model halflife really doesnt make much sense and it’s just a bit of a buzzword to mean that models now ship faster. If you look at the release the releases in the charts above you see that things have up-ticked and there is more activitiy but we’re not halving the release time every 6 months…
While it’s fun to predict when a model might be launched, unless we have a lot of data points then the predictions are pretty weak… GPT OSS at the end of 2027??? I mean, maybe…
The data file is at /model-drops.tsv. If I have got dates or series wrong, file an issue or just tell me.
Sources
These are the primary references used to compile and verify /model-drops.tsv. I will keep adding to this list as the dataset is updated.
Vendor announcements and release notes:
- OpenAI: news and release notes
- Anthropic: news
- Google DeepMind: Google blog AI category, Gemini models docs, DeepMind blog
- xAI: news
- Meta AI: blog, Llama model cards
- Mistral: news
- DeepSeek: API news
- Qwen (Alibaba): blog
- Zhipu / GLM: z.ai blog
- MiniMax: news
- Moonshot: moonshot.cn
- ByteDance Seed: team page
Aggregators used for cross-checking dates:
- LMArena leaderboard (formerly LMSys)
- Hugging Face model pages
- Wikipedia entries for individual model families (good for triangulating announcement vs release dates)
Disclosure: the initial TSV was compiled by Claude. I am verifying it row by row and will correct entries as I go. If you spot an error, please open an issue or message me.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み