#sre のAIニュース

21件の記事

Amazon Bedrock におけるモデル使用量制限リクエストと運用課題の自動処理機能

AWS は Amazon Bedrock の新機能を公開し、10 万社以上の組織が利用する生成 AI サービスにおいて、モデルの使用量制限のリクエスト手続きや運用上の問題のトリアージを自動化した。

AWS Machine Learning Blog·6月4日·★★★★

Amazon Bedrock で大規模な自律型 AI オペレーションを構築する方法

AWS は、10 万社以上の組織で利用されている Amazon Bedrock を活用し、生産環境で動作するアプリケーションやエージェントを構築するための大規模な自律型 AI オペレーションの構築手法を発表した。

AWS Machine Learning Blog·6月4日·★★★★

パーサ回帰で Datadog Agent の CPU が急増する問題

CyberAgent Developers Blog·6月2日

データは不足していない。不足しているのは想像力だ(8 分読了)

Asuka Zheng は、トレーニングデータの枯渇への不安が市場の実態を捉えていないと指摘し、自身の SRE 代替プロジェクトで世界モデルの訓練が失敗した事例を紹介する。同氏は、最初の異常から完全な解決に至るまでの長期エンドツーエンドの事象軌跡データが存在しないことがボトルネックだったと述べている。

TLDR AI·5月29日·★★★★

GitHub 2026 年 4 月可用性レポート:10 件のインシデントでサービス性能が低下

GitHub は 2026 年 4 月に 10 件のインシデントが発生し、サービス全体の性能が低下したと報告。同社は透明性向上のため主要事象をブログで公開し、ステータスページの詳細化を進めている。

GitHub Blog·5月15日

ARFBenchの紹介:実際のインシデントに基づく時系列質問応答ベンチマーク

カーネギーメロン大学とDatadog、Amazonの研究者らが、実際の運用インシデントデータを用いた時系列データの質問応答を評価する新ベンチマーク「ARFBench」を発表した。

ML@CMU·4月28日·★★★★

Devin Enterpriseのプロビジョニング自動化から学ぶ、運用設計の進め方

IT戦略部の滝氏は、Devin Enterpriseの運用自動化事例を通じて、運用設計の考え方や方法論を共有し、初学者の参考としている。

DeNA Engineering·4月21日

末端スイッチの設定ミスから拠点全体の通信障害が起きてしまった話 [DeNA インフラ SRE]

DeNAのネットワークグループの林氏が、L2スイッチのインターフェース設定ミスが拠点全体のネットワーク障害を引き起こした事例を報告し、再発防止策を共有した。

DeNA Engineering·4月14日

Aurora MySQLのエラーレート悪化の原因がPerformance Schemaだった事例

Amazon Aurora MySQLで、負荷が高くないにもかかわらずエラーレートが悪化した問題について、原因がPerformance Schemaの設定にあることが判明した。

CyberAgent Developers Blog·4月13日·★★★★

信頼性向上のためのSLI/SLO活用vol.1 - SLI/SLOフレームワークおよびサービス稼働状況確認ツール「LINE Status」開発記

LINEのSREチームが、サービス信頼性向上のためにSLI/SLOフレームワークを導入し、サービス稼働状況確認ツール「LINE Status」を開発したことを報告している。

LY Corp Tech Blog·4月13日

Pococha開発環境をEKS上で再設計:ブランチ単位の開発とPull Request単位の検証 [DeNAインフラSRE]

DeNAのインフラSREチームが、Pocochaの開発環境をAmazon EC2からAmazon EKSへ移行し、ブランチ単位の開発とPull Request単位の検証を可能にするコンテナベースの環境を構築した。

DeNA Engineering·4月7日

複数のAIを使い分けて新たな施策に次々と取り組んだSREの働き方 [DeNAインフラSRE]

DeNAのSREチームが、AIオールインの方針のもと、複数のAIツールを駆使してインフラ運用・効率化・コスト削減・セキュリティ対応などの多岐にわたる業務を効率的に処理し、新たな施策に次々と取り組んでいる事例を紹介している。

DeNA Engineering·3月31日

設定を制御平面として:大規模な安全性と信頼性の設計

ハイパースケーラーは、設定をライブ制御平面として運用し、段階的ロールアウトと検証を実施して安全に変更をデプロイしている。

InfoQ·3月20日·★★★★

変化を指標として:変更配信シグナルによるシステム信頼性の測定

InfoQの記事が、システム変更は本番環境インシデントの主な要因であり、変更関連指標が信頼性の重要なシグナルであると指摘している。変更リードタイム、変更成功率、インシデント漏洩率の最小指標セットが、実用的な技術指標とイベント中心のデータウェアハウスによって支えられ、配信効率と信頼性を評価する。

InfoQ·3月9日

最初の失敗は「学びの機会」。LayerXが語る形式知の循環活用方法

LayerXのエンジニアリングマネージャーが、自身のマネジメント経験に基づき、失敗を学習機会と捉える形式知の活用方法について述べている。

LayerX Tech Blog·3月9日

CAMのSREユニットで学んだ、クラウドネイティブ基盤を「安全に運用し続ける」ための視点と設計

東京科学大学の千代丸怜央氏が、CAMのSREユニットでの経験から、クラウドネイティブ基盤を安全に継続運用するための設計と視点を学んだことを述べている。

CyberAgent Developers Blog·3月2日

AIワークフォース事業部SREの現状と将来展望

LayerXのAIワークフォース事業部でSREを担当する筆者が、入社1年を振り返り、現在のチーム体制と今後のサイト信頼性エンジニアリングの方向性について語っています。

LayerX Tech Blog·1月30日

なぜ再発防止は期待通りに機能しないのか。メルカリのプロダクト開発でCAST分析が必要だった理由

メルカリグループが製品開発でCAST分析を導入した背景と、再発防止策が期待通りに機能しない理由についての考察。

Mercari Engineering·12月24日·★★★★

SRE × Dynatrace - AIを活用した脆弱性対応の効率化 [DeNA インフラ SRE]

DeNAのIT基盤部が、AI機能を駆使したオブザーバビリティプラットフォームDynatraceのPoCを実施し、SREの脆弱性対応業務の効率化を目指している。

DeNA Engineering·12月12日

hbstudy#86 SRE大全:スマートニュース編での登壇について

スマートニュースのSREチームのエンジニアリングマネージャー尾形氏が、ハートビーツ主催のイベント「hbstudy#86」でSREの実践について講演した。

SmartNews Developer Blog·12月18日

スマートニュースにおけるインシデントへの対応方法

スマートニュースのSREチームエンジニアリングマネージャー尾形氏が、同社のインシデント対応プロセスやSREチームの取り組みについて解説している。

SmartNews Developer Blog·7月18日