メインコンテンツへスキップ

#推論効率化 のAIニュース

6件の記事

クラウドフレア、アンサンブル AI の人材を招いて AI チームを拡大

クラウドフレアは、アンサンブル AI の主要メンバーを採用し、大規模な AI モデルの効率的な実行を支援するインフラ開発を加速させる。

Cloudflare Blog·6月15日·★★★★

JetBrains の Mellum 2(49 分読み)

JetBrains が開発ツール「Mellum」のバージョン 2 を公開し、詳細な機能解説を 49 分間の読了量で提供している。

TLDR AI·6月2日·★★★★

このチップスタートアップ、AI の最大のボトルネックは計算能力ではなくメモリだと信じて1億3500万ドルを調達

あるチップスタートアップが、AIの最大のボトルネックは計算能力ではなくメモリであると確信し、1億3500万ドルの資金調達に成功した。

TechCrunch AI·5月29日·★★★★

GoogleのTurboQuant圧縮技術、性能低下なしに高速推論と低性能ハードウェア対応を実現

Google Researchが、大規模言語モデルのKey-Valueキャッシュを最大6倍圧縮する新量子化アルゴリズム「TurboQuant」を発表した。3.5ビット圧縮で精度低下ほぼゼロ、再学習不要で、従来より低性能なハードウェアで大規模コンテキストウィンドウを実行可能にする。

InfoQ·4月16日·★★★★

効率的なファインチューニングのためのLoRAターゲットモジュール選択の最適化

研究者のRushil AnirudhとAnjie Fangが、低ランク適応(LoRA)を使用してAIモデルをファインチューニングする際の精度と効率性のトレードオフを明らかにするアブレーション研究を実施した。

Amazon Science·3月19日·★★★★

NVIDIA推論転送ライブラリによる分散推論性能の向上

NVIDIAが大規模言語モデルの分散推論を効率化する「推論転送ライブラリ」を発表し、複数GPU間での計算負荷分散とリクエスト処理の最適化を実現した。

NVIDIA Developer Blog·3月10日·★★★★