AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
TLDR AI·2026年4月29日 09:00·約9分

Opus 4.7 の新トークナイザー:実際のコストはどれくらいか

#LLM#Anthropic#Claude#Tokenization#API Cost
TL;DR

Anthropic は Claude Opus 4.7 の理解能力を向上させるため新しいトークナイザーを導入したが、その結果として長文プロンプトのコストが最大 27% 上昇し、開発者にとっての予算計画に直接的な影響を与える。

AI深層分析2026年4月29日 23:05
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

コスト増大の実態

モデル価格自体は据え置きだが、新しいトークナイザーにより同じ入力に対して従来比で 12% から 27% のコスト増加が発生している。

2

短文プロンプトの効率化

長文におけるコスト増とは対照的に、短いプロンプトについてはトークン効率が向上し、以前よりもコストパフォーマンスが良くなっている。

3

理解能力とコストのトレードオフ

Anthropic は入力への理解度を高めることを優先した結果、計算リソースやトークン使用量が増加する構造変更を敢行した。

影響分析・編集コメントを表示

影響分析

この変更は、大規模な LLM を活用する企業や開発者にとって、API 利用コストの予測可能性に新たな変動要因をもたらします。特にバッチ処理や長文分析を頻繁に行うワークロードでは、予算超過のリスクが高まるため、アーキテクチャの見直しやトークン管理戦略の調整が急務となります。

編集コメント

モデルの性能向上がコスト増に直結するケースであり、開発者は「安さ」だけでなく「質への投資」として捉え直す必要があります。

Anthropic は、Claude Opus 4.7 が新しいトークナイザーにより入力への理解を改善したと発表しました。これは、モデル価格が変更されていない(入力 100 万トークンあたり 5 ドル、出力 100 万トークンあたり 25 ドル)にもかかわらず、同じ入力でも以前のモデルよりもコストがかかることを意味します。コンテンツの種類に応じて、1.0~1.35 倍のインフレ率が開示されています。OpenRouter における Opus の利用はプログラミングや技術分野に偏っており、エージェント型コーディングワークフローがトークンボリュームの大部分を占めています。

私たちは知りたいと思いました:実際にはどのような状況なのか?実際のユーザーは何を見ているのか?Opus 4.6 から 4.7 へ移行した利用パターンを調査し、両モデルのパターンを比較しました。

コストは 12~27% 増加しましたが、短いプロンプトについてはむしろコスト効率が向上していることが例外として見つかりました。

比較可能な基準値を得るために独自のトークナイザーを使用

OpenRouter はすべてのリクエストに対して 2 つのトークン数を記録しています。

  • OpenRouter トークン:私たちが独自に開発した一貫性のあるトークナイザー「QuadChars」。これは軽量でモデル非依存な文字カウント方式であり、4 つの印刷可能な ASCII 文字を 1 トークンとしてグループ化し、各非 ASCII 文字(Unicode や絵文字など)を個別のトークンとしてカウントします。
  • ネイティブトークン:プロバイダーが報告したカウントで、モデルの実際のトークナイザーを使用しています。

プロバイダーがトークナイザーを変更すると、ネイティブ側のカウントは変動しますが、私たちのカウントは一定のままです。両者の比率を調べることで、プロンプト内容の違いとは別に、トークナイザーの変更による影響だけを切り離して分析できます。

Opus 4.7 のリリース以前、リクエスト数に基づいてトップモデルが Opus 4.6 であったユーザーを特定し、その後彼らが Opus 4.7 をトップモデルとして切り替えたケースを対象としました。この「切り替えコホート」により、同じユーザーベースにおけるモデルバージョン間の統制された前後比較が可能となります。

Opus 4.7 はネイティブトークンを 32–45% 多く生成する

各モデルについて、プロンプトサイズ別に(OpenRouter トークンを一貫した基準として用いて)ネイティブトークンと OpenRouter トークンの比率の中央値を計算しました:

プロンプトサイズ | Opus 4.6 比率 | Opus 4.7 比率 | トークナイザー膨張率

< 2K トークン | ~1.11x | ~1.62x | ~45%

2K – 10K | ~1.00x | ~1.41x | ~42%

10K – 25K | ~1.14x | ~1.52x | ~34%

25K – 50K | ~1.19x | ~1.58x | ~32%

50K – 128K | ~1.25x | ~1.65x | ~32%

128K+ | ~1.30x | ~1.73x | ~33%

本番環境規模のプロンプト(10K トークン以上)において、同等のテキストに対して Opus 4.7 のトークナイザーは Opus 4.6 よりも 32–34% 多いネイティブトークンを生成します。より小さなプロンプトでは、膨張率はさらに高く 42–45% に達します。このトークナイザーによる膨張はプロンプトだけでなく、完了(completion)トークンにおいても同様に観測されました。

なぜ上記の絶対比率の多くが 1.0 を超えているのでしょうか?OpenRouter のトークナイザーは一般的に Anthropic のネイティブトークナイザーよりも少ないトークンを生成するため、Opus 4.6 でさえも比率が 1.0 付近またはそれ以上になります。重要なのはバージョン間の*変化*であり、これは新しいトークナイザーによるものです。

注意: これらのインフレ率は、ネイティブから OpenRouter への比率の変化を測定したものであり、同一テキストに対する直接のトークナイザー比較ではありません。参考までに、Simon Willison は Anthropic のトークナイザーを直接使用してシステムプロンプトで約 1.46 倍のインフレを独立して測定しています。

キャッシングがトークンインフレの大部分を吸収する

このトークナイザーは、ネイティブトークンを 32〜45% 多く生成します。しかし、プロンプトキャッシングがインフレの大きな割合を吸収するため(キャッシュされたトークンは 90% オフで請求される)、キャッシュに収まる追加トークンのコストへの影響は最小限です。

プロンプトサイズ | 平均ネイティブトークン増分 | 平均キャッシュ増分 | 平均非キャッシュ増分 | キャッシュによる吸収率

---|---|---|---|---

< 2K トークン | +266 | -149 | +415 | —*

2K – 10K | +2,768 | +1,561 | +1,207 | 56%

10K – 25K | +6,445 | +577 | +5,868 | 9%

25K – 50K | +13,695 | +8,800 | +4,896 | 64%

50K – 128K | +26,304 | +20,257 | +6,046 | 77%

128K+ | +108,559 | +100,410 | +8,149 | 93%

*キャッシュ率は < 2K のバケットで極めて低く、リクエストの 10% 未満しかキャッシュにヒットしないため、ネガティブなデルタとなっています。

25K を超えるプロンプトでは、新しいトークナイザーからの追加トークンの大部分がキャッシュによって捕捉されます。最も長いプロンプト(128K+)では、追加トークンの 93% がキャッシュに収まります。

Opus 4.7 の完了長さはプロンプトサイズに応じて分岐する

OpenRouter の一貫したトークンカウントを使用し、モデル間の完了長さの変化も測定しました:

プロンプトサイズ | メディアン完成量 (4.6) | メディアン完成量 (4.7) | 変化

< 2K トークン | 3021 | 114 | -62%

2K – 10K | 3383 | 351 | +4%

10K – 25K | 1912 | 248 | +30%

25K – 50K | 1191 | 135 | +13%

50K – 128K | 1081 | 129 | +19%

128K+ | 1131 | 142 | +26%

Opus 4.7 は短いプロンプトにおいて大幅に簡潔になり、2K 未満の単純なクエリではトークン生成量が 62% 減少します。より長いコンテキストを持つプロンプト(10K 以上)では、中位数で 13〜30% トークン数が増加する、やや長めの回答を生成します。

実際のコストへの影響

切り替えコホートにおける 100 万件以上のリクエストから請求されたコストデータを用いて、OpenRouter トークン 100 万個あたりの平均コストを算出しました。これによりプロンプト長の影響を正規化し、コスト効率の直接的な比較が可能になります。

プロンプトサイズ | OpenRouter トークン 100 万個あたりの平均費用 (4.6) | OpenRouter トークン 100 万個あたりの平均費用 (4.7) | 変化

< 2K トークン | $14.60 | $14.37 | -1.6%

2K – 10K | $6.65 | $8.46 | +27.2%

10K – 25K | $3.82 | $4.78 | +25.2%

25K – 50K | $2.25 | $2.73 | +21.3%

50K – 128K | $1.66 | $1.86 | +11.9%

128K+ | $1.29 | $1.49 | +15.3%

各要因は最終コストに異なる形で寄与します。以下に、トークナイザーのインフレ(膨張)、キャッシュ吸収率、完成量の変化がどのように組み合わさるかを解説します。

プロンプトサイズ | トークナイザーのインフレ | キャッシュ吸収 | 完成量変化 (Δ) | ネットコスト変化 (Δ)

< 2K トークン | +45% | — | -62% | -1.6%

2K – 10K | +42% | 56% | +4% | +27.2%

10K – 25K | +34% | 9% | +30% | +25.2%

25K – 50K | +32% | 64% | +13% | +21.3%

50K – 128K | +32% | 77% | +19% | +11.9%

128K+ | +33% | 93% | +26% | +15.3%

Opus 4.7 の実際の使用状況に関する私たちの調査では、キャッシュ吸収を考慮すると、2K トークンを超えるプロンプトにおいて実際のコストが 12〜27% 増加していることが示されました。2K を超えない短いプロンプトは例外であり、著しく短い補完(completion)によってトークナイザーのオーバーヘッドが完全に相殺されたためです。

方法論

  • ソース:OpenRouter のリクエストログ
  • コホート:リクエスト数で上位モデルが Opus 4.6 であったユーザーのうち、その後 Opus 4.7 を上位モデルに切り替えた人々。
  • サンプルサイズ:Opus 4.6 と 4.7 にまたがる 100 万件を超えるリクエスト。テキストのみで、キャンセルされたものは除く。
  • 正規化:OpenRouter はトークン数を Anthropic のネイティブカウントとは独立して計上しています。ネイティブカウントと OpenRouter(OR)のトークン数の比率から、トークナイザーの変更を特定できます。
  • コスト指標:OpenRouter トークン数 100 万あたりの平均コスト。OpenRouter プロンプトトークン数でバケット分けされています。OpenRouter トークン数で割ることで、モデルバージョン間のプロンプト長の違いを正規化しています。
  • コントロール:メディア(画像、ファイル、音声、動画)、キャンセルされたリクエスト、ゼロトークンのリクエストは除外しました。
原文を表示

Anthropic announced that Claude Opus 4.7 improves the model's understanding of inputs with a new tokenizer. This means that while the model price hasn't changed ($5/M input, $25/M output), the same inputs will cost more than previous models. They disclosed a 1.0–1.35x inflation range depending on content type. On OpenRouter, Opus usage skews heavily toward programming and technology, with agentic coding workflows making up the bulk of token volume.

We wanted to know: what does this actually look like in practice? What are real users seeing? We looked at usage that shifted from Opus 4.6 to 4.7, comparing patterns across both models.

We found that costs increased 12–27%, with the exception of short prompts, which actually got more cost efficient.

We Used Our Own Tokenizer to Get a Comparable Baseline

OpenRouter records two token counts for every request:

  • OpenRouter tokens: Our own consistent tokenizer called "QuadChars," a lightweight, model-agnostic character counting method that groups every 4 printable ASCII characters as one token while counting each non-ASCII character (e.g. Unicode, emoji) as a separate token
  • Native tokens: The provider's reported count, which uses the model's actual tokenizer

When a provider changes their tokenizer, the native count shifts while ours stays constant. The ratio between them isolates the tokenizer change from any differences in prompt content.

We identified users whose top model by request count was Opus 4.6 prior to Opus 4.7 launch, who then switched to Opus 4.7 as their top model. This "switcher cohort" gives us a controlled before-and-after comparison of the same user base across model versions.

Opus 4.7 Produces 32–45% More Native Tokens

We computed the median native-to-OpenRouter prompt token ratio for each model, bucketed by prompt size (using OpenRouter tokens as the consistent baseline):

Prompt SizeOpus 4.6 RatioOpus 4.7 RatioTokenizer Inflation

< 2K tokens~1.11x~1.62x~45%

2K – 10K~1.00x~1.41x~42%

10K – 25K~1.14x~1.52x~34%

25K – 50K~1.19x~1.58x~32%

50K – 128K~1.25x~1.65x~32%

128K+~1.30x~1.73x~33%

For production-scale prompts (10K+ tokens), the 4.7 tokenizer produces 32–34% more native tokens than 4.6 for equivalent text. Smaller prompts see even higher inflation at 42–45%. We observed the same tokenizer inflation on completion tokens as well, not just prompts.

Why are the absolute ratios above 1.0 for most buckets? OpenRouter's tokenizer generally produces fewer tokens than Anthropic's native tokenizer, so even Opus 4.6 has ratios near or above 1. What matters is the *shift* between versions, which is attributable to the new tokenizer.

Note: These inflation percentages measure changes in the native-to-OpenRouter ratio, not a direct tokenizer comparison on identical text. For reference, Simon Willison independently measured ~1.46× inflation on system prompts using Anthropic's tokenizer directly.

Caching Absorbs Most of the Token Inflation

The tokenizer produces 32–45% more native tokens. However, prompt caching absorbs a large share of the inflation (cached tokens are billed at a 90% discount) so extra tokens that land in cache have minimal cost impact.

Prompt SizeAvg Δ Native TokensAvg Δ CachedAvg Δ Uncached% Absorbed by Cache

< 2K tokens+266-149+415—*

2K – 10K+2,768+1,561+1,20756%

10K – 25K+6,445+577+5,8689%

25K – 50K+13,695+8,800+4,89664%

50K – 128K+26,304+20,257+6,04677%

128K++108,559+100,410+8,14993%

**Cache rate is extremely low in the < 2K bucket, with less than 10% of requests hitting the cache at all, leading to a negative delta.*

For prompts above 25K, the majority of extra tokens from the new tokenizer are captured by the cache. At the longest prompts (128K+), 93% of the extra tokens land in cache.

Completion Length in Opus 4.7 Diverges Based on the Prompt Size

Using OpenRouter's consistent token counts, we also measured how completion lengths changed between models:

Prompt SizeMedian Completion (4.6)Median Completion (4.7)Change

< 2K tokens302114-62%

2K – 10K338351+4%

10K – 25K191248+30%

25K – 50K119135+13%

50K – 128K108129+19%

128K+113142+26%

Opus 4.7 is significantly more concise with short prompts, generating 62% fewer tokens for simple queries under 2K. For longer context prompts (10K+), it produces moderately longer responses, with 13–30% more tokens at the median.

Actual Cost Impact

Using billed costs from over one million requests in the switcher cohort, we calculated the average cost per million OpenRouter tokens. This normalizes for prompt length, allowing a direct comparison of cost efficiency.

Prompt SizeAvg $/M OR Tokens (4.6)Avg $/M OR Tokens (4.7)Change

< 2K tokens$14.60$14.37-1.6%

2K – 10K$6.65$8.46+27.2%

10K – 25K$3.82$4.78+25.2%

25K – 50K$2.25$2.73+21.3%

50K – 128K$1.66$1.86+11.9%

128K+$1.29$1.49+15.3%

Each factor contributes differently to the final cost. Here's how tokenizer inflation, cache absorption, and completion length changes combine:

Prompt SizeTokenizer InflationCache AbsorptionCompletion ΔNet Cost Δ

< 2K tokens+45%—-62%-1.6%

2K – 10K+42%56%+4%+27.2%

10K – 25K+34%9%+30%+25.2%

25K – 50K+32%64%+13%+21.3%

50K – 128K+32%77%+19%+11.9%

128K++33%93%+26%+15.3%

Our study of real Opus 4.7 usage shows that actual costs increased 12–27% for prompts above 2K tokens when cache absorption is taken into account. Short prompts under 2K were the exception, where significantly shorter completions offset the tokenizer overhead entirely.

Methodology

  • Source: OpenRouter's request logs
  • Cohort: Users whose top model by request count was Opus 4.6, who then switched to Opus 4.7 as their top model.
  • Sample size: Over one million requests split across 4.6 and 4.7, text-only, non-cancelled
  • Normalization: OpenRouter counts tokens independently from Anthropic's native count. The ratio between native and OR token counts isolates the tokenizer change.
  • Cost metric: Average cost per million OpenRouter tokens, bucketed by OR prompt token count. Dividing by OR tokens normalizes for prompt length differences across model versions.
  • Controls: Excluded media (images, files, audio, video), cancelled requests, and zero-token requests
この記事をシェア

関連記事

TechCrunch AI重要度42026年6月26日 02:38

Anthropic の Claude が有料消費者層で ChatGPT を凌駕し市場を席巻

The Zvi2026年6月25日 20:34

AI #174:あなた自身こそが重要

TLDR AI重要度42026年6月25日 09:00

ジェミニ研究者らがアンソロピックへ移籍(1 分読了)

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む