#推論最適化 のAIニュース
44件の記事
OpenAI と Broadcom が LLM 最適化推論チップを発表
OpenAI と Broadcom は、大規模言語モデルの推論処理に特化した新しい半導体チップを共同で発表しました。
NVIDIA Blackwell で DFlash 推測デコーディングを活用し、推論パフォーマンスを最大 15 倍に向上
NVIDIA は、DFlash 推測デコーディング技術を採用することで、Blackwell アーキテクチャ上の推論パフォーマンスを最大 15 倍まで向上させることに成功したと発表した。
今日は何も大きな出来事はありませんでした
Smol AI News は、6 月 17 日から 18 日にかけての期間に、主要な AI ニュースや技術進展がない静かな一日であったと報告しています。
Amazon SageMaker AI で P-EAGLE を用いた推測的デコーディングの並列化
AWS は、大規模言語モデルの推論スループットを最大化し遅延を最小化する戦略として、軽量ドラフトモデルとターゲット LLM を組み合わせた「P-EAGLE」による推測的デコーディングの並列化技術を Amazon SageMaker AI で実装したと発表した。
AI推論エンジニアリングへのガイド(17分読了)
TLDR AI は、生産環境で訓練済みAIモデルを効率的に実行する分野である「AI推論エンジニアリング」について解説し、遅延・スループット・コスト・品質の最適化が重要であると述べています。
DFlash と Spec V2 デコーディングの解説(14 分読了)
TLDR AI が、生成モデルの推論効率を向上させる DFlash および Spec V2 デコーディング技術について解説している。
スケール時の推論コストをナプキン計算で算出する方法(13 分読)
TLDR AI は、GPU 仕様やモデルのアクティブパラメータ数などを用いて、ユーザーあたりのドル単価を紙上で計算する手法を紹介し、推論エンジン最適化が SaaS の収益性にどう寄与するかを示した。
PyTorch の Fused MLP を活用した最適化手法(29 分読了)
TLDR AI が、PyTorch で Fused MLP(融合型多層パーセプトロン)技術を用いて深層学習モデルの計算効率を向上させる具体的な最適化手法を紹介している。
今日は何も大きな出来事はありませんでした
Smol AI News は、6月3日から4日にかけての期間に、12件のサブレッドや544件のツイートを調査しましたが、AI業界で特筆すべき動きは確認されませんでした。
[AI ニュース] コグニションが 260 億ドルのシリーズ D で 10 億ドルを調達
コグニション社が 260 億ドルの評価額で 10 億ドルの資金調達を実施し、年間収益は年内に 10 億ドル超を見込む。これにより同社は AI エージェント分野で最大級の独立系ラボとなった。
連続バッチ処理における非同期性の解放(20 分読了)
CUDA ストリームとイベントを活用し、CPU が次のバッチ準備を並行して行うことで、GPU のアイドル時間を削減。これにより推論時の GPU 利用率が 22% 向上し、モデル変更なしで生成速度が大幅に改善される。
AI モデル推論パイプラインの摩擦を解消する方法
NVIDIA は、訓練済み AI モデルを実環境へ展開する際のボトルネック解消法を提示し、モデルのエクスポートや最適化プロセスにおける課題解決策を解説している。
vLLM V0 から V1 へ:RL における修正前の正しさの重要性(8 分読了)
vLLM は V1 アップデートにより、ログ確率計算や重み更新の不整合を解消し、V0 と同等の推論精度と RL パフォーマンスを確保した。
大規模言語モデルの拡張方法(14 分読了)
本書は、TPU や GPU の動作原理や相互通信、実機での LLM 実行方法、および大規模スケールで効率的に動作させるための並列化手法を解説し、トレーニングコストやメモリ要件などの課題への回答を示す。
LLM の重みがどの程度の情報を運んでいるか:無駄なビットを探して
研究者らは、大規模言語モデル(LLM)の推論において計算ユニットがデータバス速度不足で待機するボトルネックを解消するため、メモリを計算に変換する手法や量子化技術の限界について調査している。
大規模言語モデル向け高精度量子化ツールキット「AutoRound」
GitHub で公開された「AutoRound」というツールは、大規模言語モデルや視覚言語モデルを対象に、最小限の調整で超低ビット幅でも高い精度を達成する高度な量子化キットです。単一の GPU で 7B モデルを 10 分以内に量子化可能であり、Transformers や vLLM などのフレームワークとシームレスに連携します。
AI ニュース:本日は目立った動きなし、GPT-6 の噂と新モデル発表に注視
AINews チームは、本日は推論需要やマルチエージェントに関する小論文の執筆中だが、大きな出来事はないと報告。Nvidia や Alec Radford 氏らの新モデルが発表されたものの、長期的な価値は不明確。一方、GPT-6 を巡る噂が高まりつつある。
本日は特に目立った出来事なし
AIニュース配信「AINews」は、2026年4月27日から28日にかけて12のサブレッドと544件のツイートを調査したが、特筆すべき技術進展や業界動向は見られず、静かな一日であったと報告している。
トリニティ:多様な専門 AI を統括する進化した LLM コーディネーター
研究者らが ICLR2026 で発表した論文「TRINITY」は、単一の巨大 AI ではなく、多様な専門 AI チームを調整する協調型システム「トリニティ」の進化版を示した。このアプローチにより複雑な問題解決が効率化される可能性が示された。
阶跃(StepFun)「StepAudio 2.5 ASR」リリース!500TPSの超高速推論、30分音声を「数秒で文字起こし」
阶跃(StepFun)は新ASRモデル「StepAudio 2.5」をリリースした。LLM推論加速技術を導入し、速度を400%向上させ、30分音声を数秒で文字起こし可能にした。
分布認識型推論特定デコーディングでRLロールアウトを最大50%高速化
強化学習のポストトレーニングにおけるボトルネック「ロールアウト」を、適応型推論特定デコーディング(DAS)により最大50%高速化する。この手法は報酬品質の低下なしに処理速度を向上させる。
Amazon SageMaker AIが最適化された生成AI推論の推奨機能を提供開始
AWSはAmazon SageMaker AIに、生成AI推論の最適化を自動推奨する機能を提供開始した。これにより企業は、GPU設定や手動ベンチマークの作業を省略し、モデルの実装期間を大幅に短縮できる。
NVIDIA Dynamoによるエージェント推論のフルスタック最適化
NVIDIAがDynamoを発表し、エージェント推論のフルスタック最適化を提供。Stripeのエージェントは週1300以上のPRを生成、RampはマージPRの30%をエージェントに帰属。
Amazon Novaモデル蒸留でビデオ意味検索の意図を最適化
AWSは、Amazon Bedrock上でAmazon Novaモデル蒸留を活用し、ビデオ意味検索システムの精度、コスト、遅延のバランスを最適化する方法を紹介した。
2時間の激論:黄仁勲がTPU、華為、輸出規制を恐れない理由
NVIDIAのCEO黄仁勲が2時間のインタビューで、CUDAの競争優位性から中国への輸出規制まで、幅広い話題について率直に議論した。
このスタートアップはトークンマキシングが次のコンピューティング巨人を生むと賭けている
ParasailがシリーズAで3200万ドルを調達し、モデルとコンピューティングの分断化された未来を示唆した。
資本市場向けに一桁マイクロ秒レベルの推論遅延を実現
NVIDIAが、アルゴリズム取引向けに市場イベントへの応答時間を短縮する技術を開発した。高速電子市場に対応するため、遅延に敏感な企業向けに推論遅延を一桁マイクロ秒レベルに低減するソリューションを提供する。
NVIDIAプラットフォーム、極限の共同設計により最低トークンコストを実現
NVIDIAは、ハードウェア・ソフトウェア・モデルの共同設計により、AIファクトリーの最高スループットと最低トークンコストを提供するプラットフォームを発表した。
AIチップ新興企業RebellionsがIPO前ラウンドで23億ドル評価額の4億ドルを調達
AIチップ新興企業RebellionsがIPO前ラウンドで4億ドルを調達し、評価額は23億ドルに達した。同社はAI推論専用チップを設計しており、NVIDIAの支配に挑戦する存在となっている。
Multiverse Computing、圧縮AIモデルを主流に押し上げる
Multiverse Computingは、OpenAIやMetaなどの主要AIラボのモデルを圧縮した後、圧縮モデルの能力を示すアプリと、より広く利用可能にするAPIを両方リリースした。
ジェンセン・フアンCEO、NvidiaのBlackwellとVera Rubinの売上予測を1兆ドル規模に引き上げ
Nvidiaのジェンセン・フアンCEOは、同社の次世代チップ「Blackwell」と「Vera Rubin」に対する受注が1兆ドル規模に達するとの見通しを示した。
NVIDIA Dynamo 1.0が本番規模のマルチノード推論を実現する仕組み
NVIDIAがDynamo 1.0を発表し、大規模化する推論モデルを複数ノードで効率的に実行する本番環境向けソリューションを提供した。
NVIDIA Vera Rubin POD:7チップ、5つのラックスケールシステム、1つのAIスーパーコンピューター
NVIDIAは、7つのチップと5つのラックスケールシステムで構成される「Vera Rubin POD」AIスーパーコンピューターを発表した。同システムはトークン駆動型AI処理に最適化されており、急増するトークン消費需要に対応する高性能計算基盤を提供する。
マルチエージェントAIの経済性がビジネス自動化に与える影響
企業がマルチエージェントAIを導入する際、「思考コスト」と「文脈爆発」という2つの課題に直面する。これらの経済的制約が、現代のビジネス自動化ワークフローの実現可能性を左右している。
コーディングエージェントでゲームランタイム推論コストを最小化する方法
NVIDIAが、ゲーム向けAIエージェント構築技術スイート「ACE」を提供し、クラウドとオンデバイスのAIモデルを統合することで、ゲーム内推論コストの最適化を実現している。
知性はパラメータ数ではなく時間についてである
AIモデルは大きくなるほど洞察力が低下するため、学習を継続させるには推論時間を短縮する必要がある。
AMD、OpenAIとの契約をほぼコピーしてMetaと提携、6ギガワットの電力と10%の株式を含む
MetaとAMDが複数年にわたるパートナーシップを締結。AMDはOpenAIとの契約内容をほぼそのまま適用し、6ギガワットの電力供給と10%の株式を含む条件で合意。
Meta、AMDと最大1000億ドルのAIチップ契約を締結、「パーソナル超知能」追求へ
MetaはAMDのAIチップを数十億ドル規模で複数年契約し、NVIDIA依存からの脱却とデータセンター拡大を図っています。
GGMLとllama.cppがHFに参加し、ローカルAIの長期的な進歩を確保
GGMLとllama.cppがHugging Faceに参加し、オープンソースのローカルAI開発を強化し、長期的な進歩とコミュニティ主導のイノベーションを促進します。
LWiAIポッドキャスト #230 - 2025年振り返り、NvidiaがGroqを買収、GLM 4.7、METR
NvidiaがAIチップスタートアップGroqを約200億ドルで買収。MetaもAIスタートアップManusを買収し、Z.AIはGLM-4.7を発表。
実践!gpt-5-mini推論レイテンシ改善:パラメータ調整とプロンプトエンジニアリングによる高速化
LayerXのエンジニアが、推論モデルgpt-5-miniの本番運用で生じたレイテンシ問題を、推論パラメータ調整とプロンプトエンジニアリングにより精度を維持しながら改善した事例を紹介する。
DeepSeekが推論コスト削減、OpenAIがAMDと連携強化、Thinking Machinesがファインチューニング簡素化、ロボットが空間認識向上
DeepSeekがAI推論コストを削減し、OpenAIがAMDと協力関係を強化した。Thinking Machinesがファインチューニングプロセスを簡素化し、ロボットが空間認識能力を向上させた。
スクラッチから理解するLLMのKVキャッシュの仕組みと実装
著者が、LLMの推論効率化に重要なKVキャッシュの概念と、スクラッチでの実装方法を解説している。
智譜AIのオープンソース戦略:高速GLMモデルとIPOを見据えたグローバル展開
中国のAI企業智譜AIは、次世代GLM-4シリーズおよび推論モデルGLM-Z1を完全オープンソース化し、国際ドメインZ.aiを立ち上げた。これにより推論速度が大幅に向上し、将来的なIPOに向けたグローバル展開を加速させる。