#コスト最適化 のAIニュース
43件の記事
Kimi K2.7 Code と Claude Fable 5 の比較:ランディングページ作成コストが 94% 削減
Together AI は、Kimi K2.7 Code モデルと Claude Fable 5 モデルを比較し、ランディングページ作成におけるコストが 94% 削減されることを示した。
テック企業は安価な AI モデルを愛せるようになるか?(4 分読了)
TLDR AI は、コスト削減のために安価な AI モデルを採用する動きが業界全体に広がりつつある現状と、その技術的・経済的な課題について分析している。
テック企業は安価な AI モデルを愛せるようになるか?
TechCrunch AI は、コスト削減のために安価な AI モデルを採用する動きについて、業界全体がその価値をどう受け入れるかを考察している。
Google NotebookLM に Gemini 3.5 と Antigravity が登場
Google は生成 AI ツール「NotebookLM」を大幅に更新し、最新モデル「Gemini 3.5」への移行、対応ファイル形式の拡大、Web ソース統合の簡素化を実施した。また、クエリ処理能力向上のため「Antigravity」機能を組み込んだと発表した。
トークン量争奪戦に DeepSeek が参入、支出支配は Anthropic が継続
Vercel の AI Gateway データによると、DeepSeek の利用シェアが単月で 1% から 17% に急増し、トークン量の争奪戦に本格参入した。一方、支出面では Anthropic が依然として支配的な地位を維持している。
AI の価格低下はハードウェアではなくソフトウェアの物語である
TLDR AI は、古い汎用ハードウェアで動作するローカル・オープンウェイトモデルが最先端モデルと競争力を強めていると指摘し、これにより大手研究機関が最高峰モデルに課す高額料金の見直しが迫られると述べています。
低コスト AI が OpenAI と Anthropic の IPO を阻む可能性(7 分読)
OpenAI と Anthropic は、米中両国のラボが安価で効率的な AI モデルを相次いで開発しているため、IPO 計画に直面する課題が増大しています。企業はコスト削減のため代替案を探しており、両社の市場シェアと評価額が脅かされています。
AI Gateway でプロバイダーをコスト、レイテンシ、スループット順に並べ替え可能に
Vercel は AI Gateway の新機能として、モデル背後のプロバイダーをコスト、初トークンまでの時間(TTFT)、またはスループット(TPS)の基準で明示的に並べ替える機能を追加した。これにより、各プロバイダー間の価格や速度の違いが大きい場合でも、ユーザーは最適な次元でランキングを制御できるようになった。
xAI が Grok 4.3 を発表
xAI は、知能指数を向上させつつ実行コストを削減した新モデル「Grok 4.3」を発表しました。同社は、このモデルが同等の性能を持つ他社製品よりも低コストであり、指示従事やエージェント型顧客対応タスクで高いパフォーマンスを発揮すると述べています。
トークン最適化はAI戦略ではない
記事は、AI導入コストを評価する際、単なる価格だけでなく、自社の業務や目的に本当に適合しているかを優先して検討する必要があると指摘しています。
AI学習コストをGPU時間単位で測定するのをやめよう
大規模基盤モデルの学習コストは、GPU時間という単一指標で評価されがちだが、これは誤りである。アイドル時間やチェックポイント、クラスタ障害などが予算を膨らませているため、スケールしたAI運用にはより深い経済的理解が必要だと指摘する。
TiDB Cloudにおけるオートスケールの実現
DBREチームは2025年11月、TiDB全クラスタの水平オートスケールを導入し、CPU利用率60%で安定稼働している。
初のトークン数分析で明らかに:AnthropicのOpus 4.7は価格据え置きにも関わらず4.6より大幅に高コスト
AnthropicがOpus 4.7のトークン価格を前モデルと同額に据え置いたが、新しいトークナイザーにより同テキストが最大47%多くのトークンに分割されるため、実際のリクエストコストが大幅に増加していることが判明した。
GitHub Copilot CLIがCopilot自動モデル選択をサポート
GitHubがCopilot CLIで自動モデル選択機能を全プランで一般提供開始。Copilotがユーザーに代わって最適なAIモデル(GPT-5.4、Sonnet 4.6等)を動的に選択する。
Amazon Nova MicroとAmazon Bedrockオンデマンド推論を用いたコスト効率の良いカスタムText-to-SQL
Amazonは、企業AIアプリケーションにおけるカスタムSQL方言対応の課題に対し、Amazon Nova MicroとBedrockオンデマンド推論を組み合わせたコスト効率的なText-to-SQLソリューションを発表した。
Amazon SageMaker HyperPodで推論を実行するためのベストプラクティス
Amazon SageMaker HyperPodは、生成AI推論のための基盤モデルをデプロイ・スケーリングする際の課題(インフラ構築の複雑さ、予測不能なトラフィック、GPUリソース管理の負荷)に対処するベストプラクティスを提供する。
Amazon Bedrock ProjectsでAIコストを管理
Amazonは、Amazon Bedrock上でAIワークロードの推論コストを特定のプロジェクトに帰属させ、コスト分析や最適化を可能にする「Amazon Bedrock Projects」を提供している。
13言語Claude Codeベンチマークで動的言語が高速かつ低コストと判明
RubyコミッターのYusuke EndohがClaude Codeで13言語をベンチマークし、Ruby・Python・JavaScriptが最速・最安値(1実行0.36-0.39ドル)と報告。静的型言語は1.4-2.6倍高コストで、動的言語に型チェッカー追加は1.6-3.2倍遅延。
Windsurf 1.9600.38の紹介
Windsurfは新バージョン1.9600.38をリリースし、モデルパッケージを変更した。特に「アダプティブモデルルーター」機能を追加し、タスクに応じて最適なAIモデルを自動選択する。これによりプレミアムモデルの過剰使用を防ぎ、ユーザーのクォータを節約できる。
Claudeの知能を活用する
Anthropicが開発したAIアシスタント「Claude」の知能を、様々なタスクや応用分野で効果的に活用する方法について説明している。
世界のウェブサイトの1/5にサービスを提供するCloudflareがKimi K2.5を選択し、77%のコスト削減を実現
CloudflareがKimi K2.5を採用し、コストを77%削減した。この選択は、大規模なインフラストラクチャを持つ企業がAI技術を活用して効率化を図る事例を示している。
Kubernetesの自動スケーリングはベンダーツールを超えた新たな可観測性への焦点を要求
KarpenterなどのKubernetes自動スケーラーの採用が加速する中、プラットフォームに依存しない可観測性の実践が登場し、従来のインフラメトリクスから、プロビジョニング動作、スケジューリング遅延、コスト効率への深い洞察へと焦点が移行している。
RingがAmazon Bedrock Knowledge Basesでグローバルカスタマーサポートを拡張する方法
Amazonのホームセキュリティ子会社Ringは、Amazon Bedrock Knowledge Basesを活用し、多言語対応のRAGシステムを構築することで、グローバルなセルフサービスサポートの拡張を実現した。
AIで1日でJSONataを書き直し、年間50万ドルを節約
Reco.ai社がAIを活用してJSONataのJSON式言語を1日でGo言語で再実装し、年間50万ドルのコスト削減に成功した。
エージェントに力を:Workers AIが大規模モデルを実行開始、Kimi K2.5から
Cloudflareは、エージェント構築・展開の最適プラットフォームを目指し、Workers AIで大規模モデル(Kimi K2.5から)の実行を開始した。同社はDurable ObjectsやWorkers SDKなどの基盤技術を活用し、信頼性の高いエージェント開発環境を提供する。
Meta、新AIコンテンツ監視システムを導入し、外部ベンダーへの依存を削減
Metaは、不正コンテンツの検出精度向上や詐欺防止、実世界イベントへの迅速対応、過剰規制の削減を目的とした新AIシステムを導入し、外部ベンダーへの依存を減らす方針を発表した。
3600億トークン、300万顧客、6人のエンジニア
Durable社は、AIエージェントを1日で顧客に提供し、1日約11億トークンを処理している。同社は、エンジニア、プロダクトマネージャー、デザイナーの生産性を10倍に高め、自社ホスティングと比較してインフラコストを3-4分の1に削減した。
MetaがNebiusにAIインフラに270億ドルを追加投資
MetaがAIインフラ企業Nebiusに270億ドルを追加投資した。これは史上最大級のAIコンピュート契約の一つで、Metaを含むAIベンダーが大量解雇を検討していると報じられる中での契約である。
メタ社、全社員の20%に影響する可能性のある人員削減を検討か
メタ社は、AIインフラやAI関連の買収・採用への積極的な支出を相殺するため、全社員の最大20%に影響する可能性のある人員削減を検討していると報じられた。
メタ、AI投資の費用相殺のため従業員の最大20%削減を計画と報道
メタは、6000億ドル規模のAI投資の費用を相殺するため、従業員の最大20%を削減する大規模なレイオフを計画していると報じられた。
Googleが3つのNano Banana画像生成モデルの違いを説明
GoogleがNano Banana画像生成モデルの3種類の違いと使用場面を解説。低コストのNano Banana 2はPro版の95%の性能を持ち、生成前にWebから参考画像を自律的に検索可能。
JetBrains IDEでGitHub Copilotの自動モデル選択機能が一般提供開始
GitHub CopilotがJetBrains IDEで自動モデル選択機能を全プランで提供開始。Copilotがリアルタイムのモデル可用性と性能に基づき、GPT-5.4やSonnet 4.6などのモデルを自動選択する。
Vercel Sandboxが1 vCPU + 2 GB構成をサポート
Vercelは、Vercel Sandboxで1 vCPUと2 GB RAMの構成をサポート開始した。シングルスレッドや軽量ワークロード向けで、デフォルトは2 vCPUと4 GB RAMのままである。
オラクル、AI投資の資金圧迫で数千人の人員削減を計画
オラクル社は、AIデータセンター拡大の巨額コストを管理するため、数千人の人員削減を計画しているとブルームバーグが報じた。
ジェミニ 3.1 フラッシュ・ライト
Googleは低価格なジェミニ 3.1 フラッシュ・ライトモデルを公開した。入力100万トークンあたり0.25ドル、出力1.5ドルで、プロ版の8分の1の価格だ。4段階の思考レベルをサポートする。
Googleの最速・最安モデルGemini 3.1 Flash-Lite、性能向上するも価格は3倍以上に
Google DeepmindがGemini 3シリーズ最速・最安モデル「Gemini 3.1 Flash-Lite」のプレビュー版を公開した。前モデルより大幅に高性能化されたが、出力コストは3倍以上に高騰している。
Waldiumが人間とAIの両方に対応するブログプラットフォームを実現した方法
Amrutha Gujjar氏率いるWaldiumは、人間とAIの両方が利用しやすいブログプラットフォームを開発した。同氏は、インフラストラクチャーの課題が開発の妨げになっていた経験から、この課題を解決するプラットフォームを構築した。
GoogleのNano Banana 2、Proレベルの画像生成をFlash速度で最大40%低コストのAPI価格で実現
Googleが新画像生成モデル「Nano Banana 2」を発表した。同モデルは高価なProモデルと同等の性能をGemini Flashの速度で提供し、APIコストを最大40%削減する。現在Geminiアプリのデフォルトモデルとなっている。
Claude APIを組織導入する際の実務ポイント - 階層制限・権限設計・請求管理の注意点
Claude APIの組織導入では、公式ドキュメントに記載されていない実務上の課題(階層制限、権限設計、請求管理)を実際の導入経験から解説し、円滑な導入を支援する。
AIにおける過剰思考問題
Amazonは、推論モデルが単純なタスクで必要量の7〜10倍のトークンを生成し、大規模運用で持続不可能なコストが発生する「過剰思考問題」を指摘。メタ認知AIの構想により、計算リソースの配分方法を根本的に変革する可能性を示した。
Azure Functionsのホスティングプランがよくわからない方へ(2025年5月現在)
Algomatic ネオセールスカンパニーCTOのきくち氏が、Azure Functionsのホスティングプランの違いをAWS Lambdaとの比較を含めて解説している。
DeepSeek APIの閑散時間帯割引、R1の価格が1/4に
深度求索は、北京時間の深夜0時30分から8時30分の閑散時間帯に、DeepSeek-V3のAPI価格を50%に、DeepSeek-R1を25%に引き下げる割引キャンペーンを開始した。
AI評価指標はパレート曲線へ移行すべきである
著者らは、コード生成精度を測る既存のベンチマークが有用でないと指摘する。高精度なシステムは複雑なエージェントであり、単一スコアでは比較できないため、パレート曲線を用いた評価への移行を提案している。