AAIニュース
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業
AAIニュース

世界中のAI最新情報を日本語で。毎時自動収集・翻訳・要約。

コンテンツ

最新ニュースAI日報週報

分析

トレンド企業動画

サイト

についてRSSお問い合わせ
© 2026 ainew.jp — All rights reserved.特定商取引法に基づく表記
ニュース一覧元記事を開く
Pragmatic Engineer·2026年4月30日 23:52·約19分

The Pulse: トークン使用量が予算を超過 – 次は?

#LLM コスト管理#トークン使用量#Claude#オープンソース LLM#エンジニアリングガバナンス
TL;DR

Pragmatic Engineer は、大企業からスタートアップまで AI ツールの利用拡大に伴うトークン使用料が過去 6 ヶ月で約 10 倍に急増している現状と、それに対する経営層の懸念および対応策を報告した。

AI深層分析2026年5月1日 00:05
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
3

キーポイント

1

トークンコストの急激な増加

複数の企業(大企業からシード期スタートアップまで)で、過去半年間でトークン使用料が約 10 倍に増加しており、持続可能性への懸念が高まっている。

2

「トークンマキシング」の社会的圧力

開発者が AI ツールをあまり使わないと見なされることを恐れ、意図的にトークン使用量を増やして社内リーダーボードで上位を目指す現象が報告されている。

3

企業ごとの対応戦略の多様化

デフォルトモデルを安価なものに切り替える、高コスト設定をオフにするガイダンスを出す、あるいは予算枠を引き上げるなど、企業ごとに異なる対応が取られている。

4

オープンソースモデルへの関心

コスト削減の一環として一部のユーザーがオープンソースモデルの採用を試みているが、これはトップダウンではなくボトムアップ型の動きである。

5

過剰な高価モデルの使用とコスト管理の遅れ

多くの組織で、安価なモデルや低負荷ループで処理可能な単純タスクにも最新の高コストモデルが使用されており、予算超過を招いている。

6

AI 利用が業績評価に直結するインセンティブ構造

一部の企業では AI の活用度がパフォーマンス評価の項目に含まれており、これが開発者による無制限なモデル使用を加速させる要因となっている。

7

コスト最適化戦略とボトルネックの転移

モデルルーティングによるコスト削減や成果との比較分析を行う組織も存在する一方、AI 生成コードの増加によりコードレビューが新たなボトルネックとなっている。

影響分析・編集コメントを表示

影響分析

この記事は、AI ツールが単なる生産性向上ツールから、企業の財務計画に直結する主要なコストセンターへと変化したことを示唆しています。今後、企業はトークン使用量の可視化や、モデル選定における明確なガバナンス体制の構築を迫られる可能性が高く、開発現場と経営層の間で AI 利用に関する新たな対話が必要となるでしょう。

編集コメント

AI ツールの導入初期段階では「使いすぎ」が新たなリスクとして浮上しており、技術的な可能性だけでなく経済的な持続性をどう設計するかが今後は問われます。開発者のインセンティブ設計とコスト管理のバランスが取れるか、今後の展開に注目です。

こんにちは、Pragmatic Engineer ニュースレターの特別無料号をお届けするゲルゲーです。毎号、シニアエンジニアやエンジニアリングリーダーの視点からビッグテックとスタートアップを取り上げています。今回は先週の『The Pulse』で取り上げた 3 つのトピックのうち 1 つを扱います。フル購読者には、以下の記事が 7 日前に配信されています。このメールを転送された方は、こちらから購読できます。

先週は業界全体で見られるやや逆説的なトレンド「tokenmaxxing」について取り上げました。これは開発者がエージェントを実行し、社内トークンリーダーボードで上位ランクインするため、あるいは同僚と比べて AI ツールを十分に活用していないという「ルディット(技術革新に抵抗する人)」に見られないよう、個人的な「トークン統計数値」を向上させることを唯一の目的としている現象です。

今週は、大企業で働くソフトウェアエンジニアとシード段階のスタートアップで働くもう一人の開発者と話しました。両者ともほぼ同じ話をしてくれました。最新の全社会議において、会社経営陣がトークンの急激なコスト増に懸念を表明したのです。どちらの職場でも、過去 6 ヶ月間でトークンへの支出が約 10 倍に増加しており、減速する兆候は見られません。

このトレンドについて詳しく知りたいと思い、15 の企業で働く開発者に話を聞きました。以下は、あらゆる規模の職場で何が起きているかについて私が学んだことです。名前は匿名化されています。

大企業

デフォルトモデルをより安価なものに切り替える:全大陸にオフィスを構え、従業員 10,000 人以上の SaaS 企業

大規模 SaaS 企業の内部では、開発者の多くはコーディングに社内背景用コードツールを使用しています。このモデルのデフォルト設定は、より安価な Claude バージョンである Claude Sonnet です。モデル選択は保存されないため、Opus を好む開発者は、その後の起動ごとに再度手動で選択する必要があります。

このツールは、Sonnet、Opus、GPT、Gemini など、主要な最先端モデルすべてをサポートしています。私が話を聞いた同社の開発者は非常に頻繁にこのツールを利用していますが、利用制限に直面したことはありません。

米国にある金融技術(Fintech)企業、シリーズ D 段階、従業員数約 8,000 名。スタッフエンジニア:

「トークン使用量によるコストは桁外れです——経営陣もこの傾向を共有してくれています。彼らは支出の増加を示し、これが持続可能ではないと述べる以外には何も言いません。したがって、具体的な対策はまだありませんが、私の感覚では何らかの変更が必要になるでしょう。利用制限の設定か、より安価なモデルへの優先化、採用数の削減でしょうか?誰にもわかりません。」

米国にあるインフラ企業、上場企業、従業員数約 5,000 名。エンジニアリングディレクター:

「監視はしていますが、制限は行っていません。最も利用量の多いユーザーをスポットチェックしていますが、ビジネスケースは機能している様子です。

モデル選択に関するガイダンスを提供しています——例えば、Claude の新しい高負荷設定をオフにするなどです。一部のユーザーがオープンソースモデルを試していますが、オープンソースモデルの利用はボトムアップ型のイニシアチブであり、トップダウン型ではありません。」

米国にある情報技術(IT)企業、従業員数 10,000 名以上。エンジニアリングディレクター:

「4 月にはすでに API の予算制限を複数回引き上げざるを得ませんでした。最近、Claude に対してはるかに高負荷な設定に切り替えましたが、これにより PR(プルリクエスト)あたりのコストが大幅に増加しました。

コスト急増の理由の一つは、要求の高いタスクに対して最先端モデルを使用していることです。実際にははるかに安価なモデルや、低負荷な Claude ループで処理できたはずの比較的些細なタスクに対しても、この高負荷設定を適用しています。一部の者がこれを指摘しましたが、リーダーシップ層は基本的に「現時点では予算が懸念事項ではない」という姿勢です。

私は、この予算増額が予測されていなかったと感じており、いずれ清算の時が訪れるでしょう。組織内の財務部門やコスト意識の高い他の部署が、高度に活躍する開発者 1 人あたり 1 日数百ドルを支出していることを認識した時点で、態度が変わるのではないかと推測しています。現時点では、取り残されることへの恐怖や後れを取らないという思いが、コスト管理の規律を上回っているようです。」

ゲームスタジオ(米国・欧州)、従業員数約 5,000 名。シニア開発者:

「予算増額?ここでの AI 関連予算を確保するのは非常に困難です!Claude Code はまだ導入されていません。1 人あたり月額 200 ドルというコストが高すぎると見なされているためです。スタートアップ企業の関係者と話すと、そこで月間 1,000 ドルの支出が全くもって普通だと聞きますが、こことの違いは天と地ほどあります。」

フィンテック企業(米国・欧州)、後期ステージ、従業員数約 5,000 名。スタッフエンジニア:

「一部の開発者は、Claude Code に1日あたり500ドル(!!)も費やしています。実務的には、これにより人件費が倍増しました。生産性は私の見解では向上していますが、現在はコードレビューがボトルネックとなっています。AI は非常に素早くコードを生成できますが、依然として人間のレビュー体制は維持されています。経営層は AI を活用したコードレビューを推奨していますが、私のチームは AI を盲目的に信頼することはありません。

AI への推進力は上層部から来ています。今年の業績評価には AI の項目があり、開発者が AI をどの程度効果的に活用しているかで評価されるため、これも誰もが可能な限り多く AI を利用する理由の一つとなっています。」

中堅企業

SaaS 業界、米国、従業員約2,000名。Dev Productivity Lead(開発生産性責任者):

「モデルルーティングにより、コストの急激な増加を抑えることができました。例えば、デフォルトのモデルを変更したことでコストが30%削減されました。これが AI 支出に関する私たちの戦略の要約です:

短期間:支出、支出、支出!意味のあるあらゆるモデルを実験し、使用すること。

影響を測定する。主要な成果指標を測定し、月次で支出状況を報告すること。

支出と結果が乖離した場合:調整を行う。支出が劇的に増加しているにもかかわらず成果が追従しない場合、そのギャップを埋めるために何ができるか検討する。より多くの支出はより良い成果をもたらすべきである。そうでない場合は、何か間違っているのだ。」

金融業界、米国、従業員約2,000名。VP of AI(AI 担当副社長):

「Cursor と Claude Desktop を利用していますが、どちらも合計で約 800〜1,200 ユーザーを抱えています。トークン使用量は予期せぬペースで増加しており、推計値をその場で調整しています。当初の計画では厳格な制限(例えばユーザーあたり 100 ドル)を設定する予定でしたが、現実が突きつけられるとこの計画は崩れ、人々は 3〜5 営業日で予算を使い果たしてしまいます。

高価なモデルの使用も問題です。Cursor に関しては、多くの開発者が無意識のうちに最も高価なモデルをデフォルトで選択しており、例えば Opus を使用しても Sonnet に比べて知能面で数パーセントの向上しか得られないにもかかわらず、予算はほぼ即座に枯渇してしまいます。

私たちは、ユーザーあたり月額数千ドルというコストが当社の規模では持続不可能であるため、最も高価なモデルの使用をブロック・管理する取り組みを進めています。Cursor は優れたパートナーであり、彼らと協力して「プール型支出(pooled spend)」モデルへ移行しています。これにより、重負荷のユーザーは追加予算のプールから利用できるようになります。

Claude についても同様の状況です。当初は全員に Claude Desktop の利用制限を 100 ドルとしていましたが、今後を見据えると、特にビジネス上重要なユースケースにおいては、この上限を大幅に引き上げる必要があることが見えてきました。」

米国にあるインフラ企業(後期段階、従業員数約 700 人)の創業者:

「私たちは大きな問題には直面していません。多くの社員が自発的に突発的なコスト増を抑えています。例えば、キャッシュ処理のミスにより 1 週間で 1 万ドルもの費用がかかったケースがありましたが、これは早期に発見され、ハーン(harness)の修正が行われました。」

基本的に、当社のハイエンド層の支出は週あたり約1,000ドルを超えることはないと見ています。ただし、これは決して少額ではありません!しかし、すでに人口のごく一部に過ぎません。

現時点ではこれをエンジニアリングコストとして計算しています:例えば、従業員あたり月額2,000ドルなら、年間24,000ドルになります。

では、エンジニアの現金報酬が既に年間20万〜40万ドルかかる中で、誰が気にするのでしょうか?仮に月額5,000ドルだった場合でも、年間6万ドルです。

当社の見解は、トークンコストは安定し、最終的にはローカルに近いモデルに行き着くだろうというものです。

それが安定するまで5年かかる可能性もありますが、全体的に見て今日の支出が私にはそれほど狂気じみているとは思えません。

これについて無知な人々も大勢いますが、大半の正当な経営層はこれに反対しています。ラルフ・ループ(Ralph loops)や、1日あたり1,000ドル、週あたり5,000ドルを支出するような他の狂気じみた事例がそうです。これらはすべて、「研究開発」をしていると勘違いしたり、自分たちが他者よりも賢いと思い込んでいる人々が、出荷されないか有用性のないゴミを生産しているに過ぎません。

最初の数ヶ月には「愚かな過剰支出」の兆候が見られましたが、それはもう全て消えています。さらに多くの出力を見たいという要求で「鞭を振るう」ことになればコストはさらに上がる可能性もありますが、私たちはそのようなことはしていません。

米国ヘルスケア業界、従業員約500名のシニアエンジニアリングマネージャー:

「支出を抑えてはいませんし、月ごとの支出ランキングも設けています。むしろ、開発者にトークンへの支出を増やしてほしいのです!例えば、私の一人のエンジニアが、1日だけでClaude Code(Claude Code)のセッションに1,400ドルを費やしました。」

私たちは巨額のレバレッジを見ており、同じ人数でより多くのことを成し遂げています。そのため、支出が急騰しても問題ないと考えているのです。当社のトラフィックは前年比で 10 倍以上に成長しており、同じチームとこれらの AI ツールによって運営を維持できています。

エンジニアリング部門は現在、プロダクトとデザインによってブロックされています——これはかつてない事態です!これが実行速度の速さの現れです。私たちは今や Staff+ レベルのエンジニアがプロダクト PRD(製品要件定義書)を作成することで、より迅速に動き出すことができるようになりました。

私は技術業界でほぼ 15 年間働いてきましたが、これほど劇的な変化を見たことはありません。3 ヶ月間の休暇から戻ったばかりですが、私の日常にあるすべてのことが変わっています!これらの AI エージェントこそが、高水準プログラミング言語が普及して以来の業界における最大の変化だと感じています。

米国および欧州に拠点を置く EC 企業、開発者約 2,000 名。エンジニアリング責任者のコメント:

「支出の増加は異常なほどです。使用量の増加に止まる兆しはなく、使用量は記録的な水準にあります。

現在、制限を設けておらず、停止もしていません。当社の CEO は AI に熱中しており、私たちに減速させることは許しません。

私たちはトークンを割引で購入しています。利用するベンダー(いわゆる大手企業)との契約では、5% から始まり、使用量に応じて割引率が増加します。

コーディングには Opus 4.7 よりも低いモデルの使用は許可していません。より安価なモデルの方が適している可能性もありますが、プロダクション環境にわずかなエラーが流出すれば、数時間にわたる苦痛を伴う作業が発生するからです。」

中小企業

シリーズ A ラウンド、米国、従業員約 50 名。シニアエンジニアのコメント:

「約15名の開発者がAIの重度ユーザーであり、コストが非常に急速に上昇しています。ほぼ全員がClaudeとClaude Codeを利用しています。私たちは4つの潜在的な選択肢を検討しています:

AI予算を増額し、より多くの測定を開始する。現状を継続しつつ、採用制限の代わりに開発者にトークン使用量を増やすことを許可する。正確なROI(投資対効果)を定量化するのは困難ですが、AIの導入状況と影響の両方を測定・追跡し始めます。

トークン消費の最適化を行う。単純なタスクにはより安価なモデルを使用し、トークン使用量を見直し、削減できる箇所を探る。デメリット:このアプローチはすぐに収穫逓減(diminishing returns)の状態に陥る可能性があります。

社内でAIプロバイダーをさらに統合する。LLM(大規模言語モデル)を抽象化するラッパーを見つけること。問題は、例えばClaude Codeをどのように置き換えるかです。

ローカルモデルへ転換する:KimiやQwenなど。問題は、高価なハードウェアまたはクラウドGPUへの大きな投資が必要となる点です。メリット:完了すれば、長期的なコスト管理においてより優れた制御が可能になります。

私たちはおそらく選択肢#1を採用するでしょう:支出を増やすが、勢いを維持し、適切な測定体制を整える。#2、#3、#4は後で実施可能です。しかし、社内でのAI利用の勢いを殺してしまえば、結果はおそらくさらに悪化します。」

AIインフラ(基盤)、米国、シード段階、約15名のチーム。創業者:

「6ヶ月間で15倍の増加を記録しました:

6ヶ月前、開発者あたりの支出は月額約200ドルでした。

今日では、7名の開発者に対して開発者あたり月額約3,000ドルとなっています。

特にAIインフラ製品を開発しているため、利用を抑制するつもりはありません。増加のペースは予想よりもはるかに速かったですが。」

小規模で自己資金のみの企業、ヨーロッパ。創設エンジニア:

「コスト増への対応における現在の戦略は、より安価なモデルへ切り替えることです;残念ながら、当社の場合は Opus から Sonnet への移行です。ただし、Sonnet はかなり優秀です。」

企業がトークン支出をどう管理するか

企業の規模に関わらず、増加する支出に対処するための戦略にはどうやら二つのようです。要約:

戦略 #1:「放っておいて測定を開始する」。回答者の約半数が AI への支出は劇的に増大していると述べ、それに対して何もしないと決めています。開発者には、合理的な範囲で可能な限り AI を活用し、業務を最大限支援させることを望んでいます。

しかし、コストが劇的に上昇しているため、これらの企業は今、利用状況を測定し始め、AI ツールの影響を計測しようとしています。

すでに非常にポジティブな影響が見られる企業もいくつかあります。顧客数、負荷、収益が爆発的に増加している小規模スタートアップでは、追加の人員採用は不要であり、既存のエンジニアが AI ツールを活用して成長を支え続けることができることが分かっています。

戦略 #2: 支出を抑制する。一般的に言及されるコスト削減アプローチ:

単純なタスクには安価なモデルを使用する

デフォルトのモデルを能力の低いものに設定する

支出上限を設定し、エンジニアがそれを超過することを困難にするか、その場合の承認を必須とする

戦略#1を採用している企業のほとんどは、このアプローチを一時的に検討したものの却下しています。その理由は、最先端ツールの導入による生産性への影響がまだ不明な段階でコスト削減を最適化しようとするものだと見なしているからです。

数百万ドル規模の支出においてのみ割引が存在します。私は、トークンを大量購入する際にベンダーから割引を得ているかどうかについて複数の人物に尋ねました。具体的な数値はありませんでしたが、可能なカスタム契約に関する私の集約した認識は以下の通りです。

Cursor: 支出が数百万ドルを超えた場合に割引に応じる姿勢を示しています。$1M の支出を突破した企業は Cursor と割引交渉を行い、成功しています。一部の企業はこの水準から段階的な割引を交渉しており、支出が増えるにつれて5% からさらに高い割合へと引き上げられています。

Anthropic: 割引はありません。Claude に年間$5M以上を費やしている企業と話をしましたが、いずれも割引を受けたことはありません。もし Anthropic が割引を提供するとしても、それははるかに上位のティアにおいてのみとなるでしょう。

すべての割引は個別に設定されるため、交渉を試みる価値があります——無料です!価格割引は顧客ごとに個別に適用され、非常にカスタマイズされています。割引が利用可能かどうかを確認する最も簡単な方法は、ベンダーに直接問い合わせることです!

—-

先週の『The Pulse』の完全版をお読みいただくか、今週の『The Pulse』をご覧ください。今週号では以下を取り上げています:

AI からの負荷により GitHub がダウンする – なぜ他社ベンダーはそうならないのか。GitHub の信頼性は 90% を下回っており、さらに悪化している。多数のオープンソース貢献者である Mitchell Hashimoto は、同社がプロフェッショナルな業務に適していないと考え、GitHub を去ることを発表した。GitHub の経営陣は、サービスの劣化の原因としてサービス負荷が 3.5 倍に増加したと指摘している – または自らの過失によるものかもしれない。

信頼を損なうための Anthropic のスピードラン。Anthropic は最近まで何らかの過ちを犯すことはなかったが、過去 1 ヶ月でその状況は一変した。Claude Code を静かに弱体化させ、企業に対して Claude の利用を禁止し、理解に苦しむ価格上昇 – これらすべてが、Anthropic が同じかそれよりも劣るサービスでより多くの収益を生み出す「抽出」段階に入ったという感覚を増幅させている。

業界の動向。GitHub Copilot における劇的な値上げ、Codex の爆発的成長、優れたコーディングモデルの開発に躍起となる Google、SpaceX による Cursor の買収の可能性、AI エージェントが自動車事業を消滅させるなど、その他多くの出来事がある。

Mitchell Hashimoto と「ビルディングブロック経済」。Ghostty の創設者は、オープンソースの「ビルディングブロック」がソフトウェアコンポーネントに対して大規模な採用を獲得するための最良の方法であると見出している – しかし、オープンなビルディングブロックの上にビジネスを構築することは以前よりも難しくなっている。

原文を表示

Hi, this is Gergely with a bonus, free issue of the Pragmatic Engineer Newsletter. In every issue, I cover Big Tech and startups through the lens of senior engineers and engineering leaders. Today, we cover one out of three topics from last week’s The Pulse issue. Full subscribers received the article below seven days ago. If you’ve been forwarded this email, you can subscribe here.

Last week, we covered the slightly perverse trend of “tokenmaxxing” across the industry, where devs run agents with the sole aim of boosting their personal “token stats” in an effort to rank higher on internal token leaderboards, and not be seen as a Luddite who doesn’t use AI tools enough compared to peers.

This week, I spoke with a software engineer at a large company and another at a seed-stage place. Both shared almost identical stories: at their latest all-hands, company leadership expressed concerns about the fast-rising costs of tokens. At both places, token spend has increased by ~10x in the last six months – with no signs of slowing down.

I wanted to find out about this trend, so I talked to devs at 15 businesses. Below is what I learned about what’s happening in workplaces of all sizes. Names are anonymized.

Large companies

Setting the default model to a cheaper one: 10,000+ person SaaS company, offices on all continents

Inside a large SaaS company, most devs use an internal background coding tool for coding. This model defaults to Claude Sonnet, which is the cheaper Claude version. Model selection is not persisted, so devs who prefer working with Opus, for instance, must reselect it on every subsequent startup.

This tool supports all major frontier models such as Sonnet, Opus, GPT, and Gemini. Devs at the company whom I talked to are very heavy users of the tool and have not encountered usage limitations.

Fintech company, US, Series D, ~8,000 people. Staff engineer:

“The cost in token spend is off the charts – and leadership has shared this trend with us. They have not said anything beyond showing growth in spend, and mentioning that this won’t be sustainable. So, nothing specific yet, but my sense is that something will have to change. Limits or prioritizing cheaper models, cutting back on hiring? Who knows.”

Infra company, US, publicly traded, ~5,000 people. Engineering Director:

“We’re monitoring but not restricting. We are spot checking the heaviest users, but we are seeing the business cases working out.

We are offering some guidance on model selection - e.g., turn off the new high-effort setting in Claude. Some users are trying open source models – but open source model usage is a bottom-up initiative, not a top-down one.”

Information technology, US, 10,000+ people. Director of Engineering:

“We have already had to raise our API budget limits multiple times in April. We recently switched to a much higher-effort level for Claude, which significantly increased the cost per PR.

One reason for the cost spike is using state-of-the-art models for demanding tasks. We are using that high-effort setting even for fairly trivial tasks that could have been handled by much cheaper models, or even by lower-effort Claude loops. Despite a few of us pointing this out, leadership has basically said budget is not the concern right now.

I sense that the budget increase has not been forecasted, and we’re in for a reckoning. I suspect the attitude changes once finance and other cost-conscious parts of the org realize we are spending hundreds of dollars per day, per highly-engaged developer. For now, fear of missing out and not wanting to fall behind seems to be outweighing cost discipline.”

Games studio, US+Europe, ~5,000 people. Senior developer:

“What budget increase? It’s very hard to get a budget for AI here! Claude Code is still not rolled out because $200/month/dev is seen as too high a cost. I talk with people at startups where $1,000/month in spending is totally normal, and it’s night and day here.”

Fintech company, US+Europe, late stage, ~5,000 people. Staff engineer:

“Some developers are now spending $500 a day (!!) on Claude Code. Practically speaking, this means that employee costs have doubled. Productivity has increased, in my view, but now the bottleneck is code reviews. AI can spit out code quite quickly, but we still have human reviews in place. Leadership encourages using AI for code review, but my team will not blindly trust AI.

The push from AI is coming from the top. This year’s performance review had a section on AI, rating devs by how well they used AI, so this is another reason everyone just uses it as much as they can.”

Mid-sized companies

SaaS industry, US, ~2,000 people. Dev Productivity Lead:

“Model routing helped keep our costs growing less dramatically. For example, changing the default model reduced cost by 30%. This is our strategy with AI spend, summarized:Short term: spend, spend, spend! Experiment and use whatever models make sense.Measure the impact. Measure key outcomes and report on spend, monthly.When spend vs results diverge: adjust. When our spend increases dramatically, but outcomes don’t follow: see what we can do to adjust the delta. More spend should mean better outcomes. If not, we are doing something wrong.”

Finance industry, US, ~2,000 people. VP of AI:

“We have Cursor and Claude Desktop, both of which have around 800-1,200 total users. Token usage is growing somewhat unexpectedly. Estimates are being adjusted on the fly; the initial plan to have strict limits (say, $100 per user) is breaking when reality hits, and people exhaust them in 3-5 working days.

Using expensive models is a problem. In regards to Cursor, many devs are defaulting to the most expensive models without realizing that going with Opus gives single percentage gains in intelligence compared to Sonnet, for example, while exhausting their budgets almost immediately.

We are working on blocking/managing out the most expensive models [with Cursor], as going into thousands of dollars per user, per month is not sustainable on our scale. Cursor is a good partner and we’re working with them to switch to a “pooled spend” model where heavy users can tap into a pool of extra spend.

Claude is a similar story. We were at $100 of Claude Desktop limit for everyone, but as we are moving forward, I can see that we would need to go much higher, especially for business-critical use cases.”

Infra company, US, late-stage, ~700 people. Founder:

“We haven’t had much of an issue. Most folks police themselves for runaway costs; for example, we had someone hit like $10K in a week because they messed up caching, but it was caught and they corrected their harness.

For the most part, we don’t see our high-end folks spending more than ~$1K/week. Now, to be clear, this is not a small amount! BUT it’s already a small subset of the population.

We’re just factoring it into engineering costs at this point: if it’s, say, $2K/month per employee, that’s $24K per year.

Who cares, then, when engineers already cost $200-400K/year in cash comp? Okay, so what if it’s $5K/month. That’s $60K/year.

Our bet is that token costs will stabilize and we’ll eventually end up with local-ish models.

Now, it could be five years before they stabilize, but overall, spend today isn’t that insane to me.

There’s a lot of people who are just dumb about it, but most legit execs push back on this. Take the Ralph loops or other insanity where someone spends $1K/day, $5K/week or stuff like this. That’s all just people being fools thinking they’re doing “R&D,” or somehow that they’re smarter than everyone else, but they’re just producing junk that never ships or is not useful.

We saw a bit of “stupid overspend” in the first couple months, but that’s all gone now. Costs could go up even more if we would “crack the whip” in wanting to see even more output, but we’re not doing that.”

Healthcare industry, US, ~500 people. Senior engineering manager:

“We are not holding back on spend, and have a monthly spend leaderboard. And we WANT devs to spend more on tokens! For example, one of my engineers spent $1,400 on a long Claude Code session in a single day.

We are seeing massive leverage, and we do more with the same number of people. This is why we are okay with our spending spiking. Our traffic is growing more than 10x, year-on-year, and we have managed to keep things running with the same team, and these AI tools.

Engineering is now blocked on Product and Design – which never happened before! This is how fast execution has become. We now have Staff+ engineers writing Product PRDs so we can move faster.

I’ve been in tech for close to 15 years and I never saw dramatic change like this. I just came back after a 3-month break, and every single thing is different in my day! I feel these AI agents are the biggest change in the industry since high-level languages became widespread.”

E-commerce company, US & Europe, ~2,000 devs. Head of Engineering:

“The increase in spend is INSANE. It’s about usage going up, with no signs of stopping. Usage is off the charts.

We currently do not have limits in place, and are not pausing now. Our CEO is AI-pilled and won’t let us slow down.

We do buy tokens at a discount. They start from 5% and go up with usage with the vendors we use (the usual suspects.)

We don’t let devs use anything lower than Opus 4.7 for coding. Cheaper models might work better, but a slight error pushed to prod would result in hours of toil.”

Small companies

Series A, US, ~50 people. Principal Engineer:

“About 15 devs are heavy users of AI and costs are rising very fast. Almost everyone uses Claude and Claude Code. We are considering four potential options:Increase AI budget, and start measuring more. Continue doing what we are, but allow devs to use more tokens instead of hiring limits. The precise ROI is hard to quantify, but we’ll start to measure and track both AI adoption and impact.Optimize token consumption. Use cheaper models for simpler tasks, review token usage, and see where we can cut usage. Downside: this approach could become one with diminishing returns, fast.Integrate more AI providers in the company. Find wrappers to abstract LLMs. The problem is: how do you replace Claude Code, for instance?Pivot to local models: such as Kimi, Qwen, and so on. The problem is it’s a big investment in high-end hardware or cloud GPUs. Upside: it offers better long-term cost control, once done.

We are likely to go with option #1: increase spend BUT maintain momentum and put the right measurements in place. We can do #2, #3 and #4 later. But if we kill AI usage momentum inside the company, the outcome will probably be worse.”

AI infra, US, seed stage, ~15 people. Founder:

“We saw a 15x increase in 6 months:Six months ago our spend per developer was ~$200/monthToday, it’s around $3,000/developer/month, for our seven devs

We’re not slowing usage, especially as we are building an AI infra product. The increase was much faster than expected, though.”

Small, bootstrapped company, Europe. Founding engineer:

“Our current strategy in dealing with the increase in costs is to switch to a cheaper model; unfortunately, from Opus to Sonnet in our case. That said, Sonnet is quite decent.”

How businesses manage token spend

Regardless of company size, there seems to be two strategies for how companies deal with increased spending. A summary:

Strategy #1: “let it rip and start measuring.” Around half of respondents say AI spend is rising dramatically, and they have decided to do nothing about it. They want devs to use AI as much as it makes sense to, and to help the work as much as possible.

However, because the cost is rising dramatically, these companies are now starting to measure usage and attempting to measure the impact of their AI tools.

There’s a few companies where the impact seems to be very positive, already. Smaller startups whose business is exploding in numbers of customers, load, and revenue, see that they don’t need to hire more staff because existing engineers can keep supporting the growth with AI tools.

Strategy #2: curb spending. Commonly mentioned cost-saving approaches:

Use cheaper models for simpler tasks

Set default models to less capable ones

Set a spending cap and make it hard for engineers to exceed it, or require consent for doing so

Most companies using strategy #1 have briefly considered going with this approach, but threw it away, because they see this approach as optimizing on the wrong thing: cutting costs before the productivity impact of using state-of-the-art tools is even known!

Discounts exist when the spend is in the millions of dollars. I asked several people if they are getting discounts from vendors when buying tokens at scale. There were no exact numbers, but this is what I gathered in aggregate about possible custom agreements:

Cursor: open to discounts above a few million dollars in spend. Companies have negotiated discounts with Cursor after crossing $1M of spending. Some companies negotiated tiered discounts from this level, starting at 5% and going higher as their spend goes up.

Anthropic: no discounts. I talked with companies spending $5M+ per year on Claude which have received no discounts. If Anthropic offers discounts, it will likely be at a much higher tier.

All discounts are custom, so try to negotiate – it’s free! Pricing discounts are on a per-customer basis, and highly custom. The easiest way to see if a discount is available is to ask the vendors!

—-

Read the full issue of last week’s The Pulse, or check out this week’s The Pulse. This week’s issue covers:

Load from AI breaks GitHub – but why not other vendors? GitHub’s reliability is less than one nine, and getting worse. Prolific open source contributor, Mitchell Hashimoto, is quitting GitHub because he thinks it’s not suited for professional work. GitHub’s leadership blames the 3.5x increase in service load as the cause of degradation – or it might be self-inflicted.

Anthropic’s speedrun to destroy trust. Anthropic could do no wrong until recently, but in the past month, that’s all changed. Silently nerfing Claude Code, banning companies from Claude, and baffling price rises all add to a sense that Anthropic is in its “extraction” era of generating more revenue for the same or worse service.

Industry pulse. Dramatic price increases at GitHub Copilot, explosive growth at Codex, Google scrambling to build a good coding model, Cursor might be bought by SpaceX, AI agent deletes car business, and more.

Mitchell Hashimoto & the “building block economy.” Ghostty’s creator finds that open source “building blocks” are the best way to win massive adoption by software components – but it’s got harder to build a business on top of open building blocks.

この記事をシェア

関連記事

Ars Technica AI重要度42026年6月26日 03:01

Anthropic、アリババをClaudeの最大規模クローン攻撃の実行者として非難し処罰を要求

TechCrunch AI重要度42026年6月26日 02:38

Anthropic の Claude が有料消費者層で ChatGPT を凌駕し市場を席巻

The Zvi2026年6月25日 20:34

AI #174:あなた自身こそが重要

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む