#推論効率化のAIニュース

6件の記事

クラウドフレア、アンサンブル AI の人材を招いて AI チームを拡大

クラウドフレアは、アンサンブル AI の主要メンバーを採用し、大規模な AI モデルの効率的な実行を支援するインフラ開発を加速させる。

JetBrains が開発ツール「Mellum」のバージョン 2 を公開し、詳細な機能解説を 49 分間の読了量で提供している。

あるチップスタートアップが、AIの最大のボトルネックは計算能力ではなくメモリであると確信し、1億3500万ドルの資金調達に成功した。

Google Researchが、大規模言語モデルのKey-Valueキャッシュを最大6倍圧縮する新量子化アルゴリズム「TurboQuant」を発表した。3.5ビット圧縮で精度低下ほぼゼロ、再学習不要で、従来より低性能なハードウェアで大規模コンテキストウィンドウを実行可能にする。

研究者のRushil AnirudhとAnjie Fangが、低ランク適応（LoRA）を使用してAIモデルをファインチューニングする際の精度と効率性のトレードオフを明らかにするアブレーション研究を実施した。

NVIDIAが大規模言語モデルの分散推論を効率化する「推論転送ライブラリ」を発表し、複数GPU間での計算負荷分散とリクエスト処理の最適化を実現した。