#推論効率化 のAIニュース
6件の記事
クラウドフレア、アンサンブル AI の人材を招いて AI チームを拡大
クラウドフレアは、アンサンブル AI の主要メンバーを採用し、大規模な AI モデルの効率的な実行を支援するインフラ開発を加速させる。
Cloudflare Blog·6月15日·★★★★
JetBrains の Mellum 2(49 分読み)
JetBrains が開発ツール「Mellum」のバージョン 2 を公開し、詳細な機能解説を 49 分間の読了量で提供している。
TLDR AI·6月2日·★★★★
このチップスタートアップ、AI の最大のボトルネックは計算能力ではなくメモリだと信じて1億3500万ドルを調達
あるチップスタートアップが、AIの最大のボトルネックは計算能力ではなくメモリであると確信し、1億3500万ドルの資金調達に成功した。
TechCrunch AI·5月29日·★★★★
GoogleのTurboQuant圧縮技術、性能低下なしに高速推論と低性能ハードウェア対応を実現
Google Researchが、大規模言語モデルのKey-Valueキャッシュを最大6倍圧縮する新量子化アルゴリズム「TurboQuant」を発表した。3.5ビット圧縮で精度低下ほぼゼロ、再学習不要で、従来より低性能なハードウェアで大規模コンテキストウィンドウを実行可能にする。
InfoQ·4月16日·★★★★
効率的なファインチューニングのためのLoRAターゲットモジュール選択の最適化
研究者のRushil AnirudhとAnjie Fangが、低ランク適応(LoRA)を使用してAIモデルをファインチューニングする際の精度と効率性のトレードオフを明らかにするアブレーション研究を実施した。
Amazon Science·3月19日·★★★★
NVIDIA推論転送ライブラリによる分散推論性能の向上
NVIDIAが大規模言語モデルの分散推論を効率化する「推論転送ライブラリ」を発表し、複数GPU間での計算負荷分散とリクエスト処理の最適化を実現した。
NVIDIA Developer Blog·3月10日·★★★★