メインコンテンツへスキップ

#llm最適化 のAIニュース

14件の記事

AI が読みやすい文書へ再フォーマットする提案:5 分で読める記事

著者は、AI が文書をより理解しやすく処理できるよう、すべてのドキュメントを再フォーマットするよう提案している。このアプローチにより、AI との相互作用が改善される可能性がある。

TLDR AI·6月16日

Import AI 454: アライメント研究の自動化、中国モデルの安全性調査、HiFloat4

Jack Clarkは、HuaweiのHiFloat4がAscendチップでMXFP4を上回る性能を示したと報告。また、アライメント研究の自動化や中国モデルの安全性調査について言及し、AI技術動向を解説している。

Import AI·4月20日·★★★★

GoogleのTurboQuant圧縮技術、性能低下なしに高速推論と低性能ハードウェア対応を実現

Google Researchが、大規模言語モデルのKey-Valueキャッシュを最大6倍圧縮する新量子化アルゴリズム「TurboQuant」を発表した。3.5ビット圧縮で精度低下ほぼゼロ、再学習不要で、従来より低性能なハードウェアで大規模コンテキストウィンドウを実行可能にする。

InfoQ·4月16日·★★★★

GitHub Copilot Pro+の新制限導入とOpus 4.6 Fastの廃止について

GitHubは、Copilot Pro+の高負荷使用によるインフラ負担を軽減するため、新たな利用制限を導入し、Opus 4.6 Fastモデルを廃止する。これにより、全ユーザーに高速で信頼性の高いサービス提供を目指す。

GitHub Changelog·4月11日

アドバイザー戦略:エージェントに知能ブーストを与える

OpenAIが、AIエージェントにアドバイザー戦略を導入し、複雑なタスクの実行能力を向上させる手法を発表した。

Claude Blog·4月9日·★★★★

量子化の基礎から解説

Sam Roseが大規模言語モデルの量子化の仕組みをインタラクティブな記事で解説し、浮動小数点数のバイナリ表現についても視覚的に説明している。

Simon Willison Blog·3月27日

3つの手法でトークン消費量40%削減 ― ADKで実践するコンテキストエンジニアリング

LINEヤフー株式会社の井上秀一氏が、ADK(AI Development Kit)を用いたコンテキストエンジニアリングの3つの手法を紹介し、トークン消費量を40%削減する実践的なアプローチを説明している。

LY Corp Tech Blog·3月23日

自律的コンテキスト圧縮

LangChain社がDeep Agents SDKとCLIに、モデルが適切なタイミングで自身のコンテキストウィンドウを圧縮できるツールを追加した。

LangChain Blog·3月12日·★★★★

NVIDIA推論転送ライブラリによる分散推論性能の向上

NVIDIAが大規模言語モデルの分散推論を効率化する「推論転送ライブラリ」を発表し、複数GPU間での計算負荷分散とリクエスト処理の最適化を実現した。

NVIDIA Developer Blog·3月10日·★★★★

CloudflareがAIクローラー向けMarkdown機能とコンテンツシグナルを発表

Cloudflareは、AIクローラーがWebページのMarkdown版を要求できる「Markdown for Agents」機能を導入した。同時に、コンテンツがAIトレーニングや検索インデックスに利用可能かどうかを出版社が宣言できる「Content Signals」機構を提案している。

InfoQ·3月5日·★★★★

トランスフォーマーにおけるエキスパート混合(MoEs)

トランスフォーマーモデルに複数の専門家ネットワークを組み合わせるMoE手法を紹介。効率的な計算と高性能化を実現する技術で、大規模AIモデルの開発に寄与。

Hugging Face Blog·2月26日·★★★★

スペインの『スーニコーン』企業Multiverse Computing、無料圧縮AIモデルを公開

スペインのスタートアップMultiverse Computingが、Hugging FaceでHyperNova 60Bモデルの新版を公開。Mistralのモデルを上回る性能を主張。

TechCrunch AI·2月25日·★★★★

AIエージェントのための効果的なコンテキスト設計

AIエージェントにとってコンテキストは重要だが有限なリソースであり、効果的な管理・最適化戦略を探る。

Anthropic Engineering·9月29日·★★★★

LLMのレイテンシ最適化

OpenAIが大規模言語モデルの応答遅延を改善する技術を発表した。同社は推論プロセスの効率化により、ユーザー体験の向上を目指している。

Hamel Husain·10月15日