#システム信頼性のAIニュース

5件の記事

コードオレンジ：小規模障害対策完了によりクラウドフレアネットワークが強化

クラウドフレアは過去2四半期にわたり「コードオレンジ」と呼ぶ内部プロジェクトを通じてインフラの耐障害性とセキュリティを向上させる取り組みを行い、11月18日の障害回避に必要な作業を完了した。

GitHubは、自社のソースコードをgithub.comでホストしており、サービス障害時にデプロイメントが困難になる循環依存問題を、eBPF技術を用いて解決している。

RabobankのAIテックリードLan Chu氏が、1万文書・300ユーザー以上で運用するAI検索システムの導入経験を共有。RAGシステムの失敗の多くは言語モデル自体ではなく、インデックス作成と検索に起因することを示した。

InfoQの記事が、システム変更は本番環境インシデントの主な要因であり、変更関連指標が信頼性の重要なシグナルであると指摘している。変更リードタイム、変更成功率、インシデント漏洩率の最小指標セットが、実用的な技術指標とイベント中心のデータウェアハウスによって支えられ、配信効率と信頼性を評価する。

AI Gatewayが推論プロバイダーごとのタイムアウト設定を導入し、応答が遅い場合に次のプロバイダーへ自動的にフェイルオーバーする機能を提供した。現在はBYOK認証でのみベータ版として利用可能。