#system architecture のAIニュース

7件の記事

Cloud Functions 世代移行に伴う 1000 万件のメッセージ滞留：Pub/Sub、Cloud Run、Spanner のチューニング

Mercari Engineering の会計チームは、Cloud Functions の世代移行により Cloud Pub/Sub に 1000 万件のメッセージが滞留した事象を報告し、Cloud Run と Spanner を含むシステム全体のチューニングで解決に至った経緯を解説している。

Mercari Engineering·6月16日

Pub/Sub を駆使するマイクロサービスにおける PR 単位の検証環境導入の取り組み

メルカリ・メルペイの Santa チームが、ポイント還元システムの QA プロセス課題に対し、Pub/Sub Pull 型サブスクリプションを基盤とする非同期処理環境で、PR（プルリクエスト）単位での検証環境を導入した事例を紹介している。

Mercari Engineering·6月11日

エージェントシステムにおける意図と実行の架橋

Amazon Science は、AI エージェントのパフォーマンスはモデル自体の問題ではなく、LLM とツール間の仲介役となるハッチ（OS）の設計がボトルネックであると指摘し、意図を実行に移すシステムの重要性を強調した。

Amazon Science·6月9日·★★★★

LLM サービングにおける CPU と GPU の分離の必要性：SMG の事例

Shepherd Model Gateway（SMG）は、大規模な大規模言語モデル（LLM）展開向けの高パフォーマンスなモデルルーティングゲートウェイです。同ツールは、ワーカーライフサイクル管理を一元化し、HTTP/gRPC/OpenAI 互換バックエンド間でトラフィックを分散させます。また、履歴保存や MCP ツール、プライバシー重視のワークフローに対する企業レベルの制御を提供します。

TLDR AI·5月1日·★★★★

LLMエージェントのための適応型メモリ許可制御

研究者らが、LLMベースのエージェント向けに、長期記憶の内容を制御する適応型メモリ許可制御手法を提案した。これにより、幻覚や陳腐化した事実を含む大量の会話内容の蓄積や、高コストで監査困難な不透明なメモリポリシーへの依存を解決する。

ArXiv cs.AI·3月6日·★★★★

ポッドキャスト: AIの自律性がアーキテクチャを再定義 - 境界が最も重要に

ジェスペ氏が、生成AIが単なる自動化層ではなく自律性への移行であると指摘。AIを従来の手順的ワークフローに組み込むことはできず、自律性導入によりシステムは予期せぬ挙動を示すと説明。

InfoQ·3月4日·★★★★

最大40%高速化を実現するキャッシュ対応プリフィル・デコード分離（CPD）

Together AIは、LLMの長文コンテキスト処理におけるCPDアーキテクチャを発表した。この手法は暖系と冷系の推論作業を分離し、スループットを40%向上させ、最初のトークン生成までの時間を大幅に短縮する。

Together AI Blog·3月4日·★★★★