1 ドルあたりの知能(2 分読了)
Microsoft がモデル評価に「平均トークン使用量」を追加したことで、AI の性能だけでなくコスト効率(知能対ドル)が業界の新たな標準指標となり、過剰なベンチマーク最適化や補助金依存の時代が終わる兆候を示している。
キーポイント
新評価指標の導入
Microsoft がモデルリリースカードに「平均トークン使用量」を追加し、性能とコストの両軸でモデルを評価する基準を確立した。
コスト効率の可視化
特定のベンチマーク(SWE-Bench Verified)において、Microsoft モデルは Claude Haiku 4.5 の約 1/3 のトークンで同等以上の性能を達成した。
業界の転換点
この動きは、補助金依存やトークン数最大化(tokenmaxxing)に頼る時代が終わり、実用的なコスト対効果(Intelligence Per Dollar)が最優先される時代への移行を示唆している。
企業の予算制約
Uber や Salesforce などの大手企業が AI 支出の抑制や採用凍結に踏み切っている背景には、最先端モデルをあらゆる用途で維持するコスト負担が限界に達している現実がある。
パフォーマンスとコストの二軸評価
Microsoft が導入した「平均トークン使用量」指標により、ベンチマークは従来の性能だけでなく、その知能を得るためのコストも同時に測定されるようになった。
AI 普及における予算制約の現実化
Uber や Salesforce の事例に見られるように、大手企業ですら最先端モデルをあらゆる用途に使用できるほど潤沢な予算を持っていないため、コスト効率への転換が不可避となっている。
業界全体での「結果単価」へのシフト
モデル開発層だけでなくアプリケーション層も競争し始め、トークン数ではなく「クローズされたチケット」や「完了した PR」といった具体的な成果あたりのコストで価格設定が行われるようになる。
影響分析・編集コメントを表示
影響分析
この記事は、AI 業界が技術的な性能競争から、経済的な持続可能性とコスト効率を重視する成熟期へと移行したことを示す重要な転換点です。企業にとって、単に高性能なモデルを選ぶだけでなく、運用コスト(トークン使用量)を最適化することが競争優位性の源泉となる時代が到来しました。
編集コメント
AI の普及において、性能の向上だけでなく「いかに安く高性能を発揮できるか」が次の重要な課題となっています。この指標の標準化は、開発者にとってモデル選定の新たな指針となるでしょう。
Yesterday Microsoft added a new metric to a model release card, one that will likely become a standard.1
Average token usage.
In the first row, the Microsoft model hits 71.6 on SWE-Bench Verified using about a third of the tokens Claude Haiku 4.5 burns.
Benchmarks are now measured on two different dimensions, the overall performance & the cost to achieve that intelligence.
This is yet another sign that the era of subsidies2, tokenmaxxing3, & all-out performance for many use cases is over.
Even the most valuable companies in the world cannot afford state-of-the-art intelligence for every conceivable use case.4 Uber capped employee AI spending after blowing through its budget in four months.5 Salesforce is spending $300M on Anthropic tokens & has frozen engineering hires.6
This new dual benchmark answers the buyer’s only question : what is my intelligence per dollar?
Artificial Analysis already benchmarks this.7 GPT 5.5 & Claude Opus 4.8 land within a point of each other on the Intelligence Index, around 60. Running the index costs $3,357 on GPT 5.5 & $4,685 on Opus 4.8. Same answer, 40% more expensive.
Model companies must now compete on both dimensions. The application layer will compete one level up, on dollars per outcome, what a closed ticket, a shipped PR, or a resolved support case actually costs.
Every layer in the stack now has to price the same way the customer thinks : per result, not per token.
- Introducing MAI-Code-1-Flash — Microsoft announces a new coding model with average token usage on the release card. ↩︎
- The Unsustainable Subsidy — The era of AI subsidies is ending. ↩︎
- Tokenmaxxing — Models that game benchmarks with extra tokens are losing their edge. ↩︎
- Microsoft cancels Claude Code licenses, shifting developers to GitHub Copilot CLI — Microsoft cancelled Claude Code licenses across its Experiences and Devices division (Windows, Microsoft 365, Outlook, Teams, Surface) after engineering usage outran budgets. ↩︎
- Uber caps employee AI spending after blowing through budget in 4 months — Uber caps employee AI spending after blowing through budget in four months. ↩︎
- Salesforce Spends $300M on AI, Freezes Engineering Hires — Salesforce Spends $300M on AI, Freezes Engineering Hires. ↩︎
- AI Model & API Providers Analysis — Independent analysis of AI model costs. ↩︎
関連記事
IPO 計画を背景にアントロピックが企業パートナープログラムを強化
アントロピックは、自社 AI 製品「Claude」の第三者販売業者向けパートナープログラムを強化した。同社は IPO 申請を控え、市場に対して事業規模拡大への意欲を示す狙いがある。
マイクロソフトと OpenAI の決裂後、両社は激しく対立する準備を整えた
マイクロソフトは年次カンファレンスで、自社開発の推論モデルやセキュリティツールなど新たな AI 施策を発表し、OpenAI との決裂後に業界を主導する姿勢を示した。
[AINews] 今日は何も大きな出来事はありませんでした
Anthropic が RSI の兆候を示し、OpenAI の ChatGPT が月間アクティブユーザー数で 10 億人を突破。SpaceX AI は IPO について説明しているが、最も重要なのは AIE WF のチケット確保とイベント参加である。