#インフラストラクチャ のAIニュース
39件の記事
Netris が a16z からシリーズ A で 1500 万ドルを調達し、AI ネオクラウドの立ち上げを加速
スタートアップ企業の Netris は、ベンチャーキャピタル firm の a16z からシリーズ A ラウンドで 1500 万ドルの資金調達に成功しました。この資金は、AI に特化した新世代クラウド(ネオクラウド)の迅速な立ち上げを支援するために使用されます。
出力最大化の教授——アンジニー・ミドハ氏(AMP)
AI エンジニア世界博覧会が終了間近で、参加者に高額スポンサークレジットが付与される。アンジニー・ミドハ氏は、GPU 増設よりも既存リソースの最適化を重視する議論を提起している。
テック企業は安価な AI モデルを愛せるようになるか?(4 分読了)
TLDR AI は、コスト削減のために安価な AI モデルを採用する動きが業界全体に広がりつつある現状と、その技術的・経済的な課題について分析している。
BGP AS_PATH の最初の AS を強制する仕組みの導入
Cloudflare は、Spamhaus が報告したルート乗っ取り事案を踏まえ、不正なアクターが未使用の自律システム番号(ASN)を利用して偽の AS_PATH を作成しトラフィックを誤誘導する手口に対処するため、BGP の経路情報において最初の AS 番号の検証を強化する措置を発表した。
生産環境向け AI パイプラインのための Mistral Search ツールキット(4 分読了)
Mistral が、生産環境の AI パイプラインで検索機能を統合するためのツールキットを公開した。これにより開発者は検索能力を容易に実装できる。
アルファベット、AI 構築資金として 800 億ドルの調達を計画
アルファベットは AI インフラの構築費用に充てるため、最大 800 億ドルの資金調達を検討している。
ミシガン州における知能時代のためのインフラ構築:OpenAI、1GW データセンターの起工式を実施
OpenAI はグレッチェン・ウィットマー知事らと共に、ミシガン州サラインに 1GW のデータセンターキャンパス「The Barn」の建設を開始した。Oracle や Related Digital などのパートナーと協力し、知能時代のインフラ整備を進める。
Vercel Blob が OIDC 認証をサポートし、新規プロジェクト接続時のデフォルト設定に
Vercel は Vercel Blob の新機能として OIDC 認証のサポートを開始しました。これにより、新しいプロジェクト接続時に OIDC がデフォルトとなり、短期間で自動回転するトークンが利用可能になります。その結果、従来の長期有効な BLOB_READ_WRITE_TOKEN を不要とし、セキュリティを強化します。
Auth Proxy が LangSmith エージェントサンドボックスをどのように保護するか
LangChain は、認証プロキシにより LangSmith のエージェント実行環境から機密情報を排除し、外部への通信を制限することでセキュリティリスクを軽減する仕組みを発表した。
Cloudflareサンドボックスが一般提供開始、AIエージェントに永続的な隔離環境を提供
CloudflareはAIエージェント向けにSandboxesを一般提供開始し、永続的な隔離Linux環境を提供した。資格情報注入やセッション復元機能も実装された。
デプロイメント保持ポリシーがアクティブなブランチのデプロイメントを保持するようになりました
GitHubがデプロイメント保持ポリシーを変更し、オープンまたは未マージのプルリクエストがあるブランチの最新プレビューデプロイメントを保持するようになりました。これにより、短い保持期間を設定してもアクティブなプレビューデプロイメントが失われるリスクがなくなりました。
GitHubがeBPFを活用してデプロイメントの安全性を向上させる方法
GitHubは、自社のソースコードをgithub.comでホストしており、サービス障害時にデプロイメントが困難になる循環依存問題を、eBPF技術を用いて解決している。
CloudflareがAIエージェント向けトークン使用最適化のためCode Mode MCPサーバーを発表
CloudflareがCode Mode搭載のModel Context Protocolサーバーを発表した。AIエージェントが最小限のトークン使用で大規模APIと対話可能となり、2500以上のエンドポイントでコンテキストフットプリントを削減する。
Airbnbが大量メトリクスパイプラインをOpenTelemetryに移行
Airbnbの監視エンジニアリングチームが、StatsDと独自のVeneurベースの集計パイプラインから、OpenTelemetry CollectorとVictoriaMetricsのvmagentを基盤とするオープンソースメトリクススタックへの大規模移行を実施し、毎秒1億サンプル以上の処理を実現した。
末端スイッチの設定ミスから拠点全体の通信障害が起きてしまった話 [DeNA インフラ SRE]
DeNAのネットワークグループの林氏が、L2スイッチのインターフェース設定ミスが拠点全体のネットワーク障害を引き起こした事例を報告し、再発防止策を共有した。
エージェントが独自のコンピュータをサンドボックスで利用可能に
Cloudflareが、AIエージェントが安全にコードを開発・実行できるサンドボックス環境を一般提供開始した。エージェントは開発者のようにリポジトリのクローンや多言語でのコードビルドなどを行うため、完全なコンピュータ環境を必要とする。
Etsy、1000シャード・425TBのMySQLシャーディングアーキテクチャをVitessに移行
Etsyのエンジニアリングチームは、長年運用してきたMySQLシャーディング基盤をVitessに移行した。内部システムからVitessのvindexesを使用してシャードルーティングを移行し、データの再シャーディングや未シャーディングテーブルのシャーディングを可能にした。
Google CloudがPostgreSQLコア機能への継続的な取り組みを強調
Google Cloudは、PostgreSQLへの技術的貢献として、論理レプリケーション、アップグレードプロセス、システム安定性の向上を発表した。これはスケーラビリティや運用課題の解決を目指すコアエンジンの強化に焦点を当てている。
Kubernetes上でSlurmを使用した大規模GPUワークロードの実行
NVIDIAが、オープンソースのクラスタ管理システムSlurmをKubernetesと統合し、大規模GPUワークロードを効率的に管理・スケジューリングする方法を紹介している。SlurmはTOP500システムの65%以上で採用されている実績を持つ。
CloudflareとETHチューリッヒがAI駆動型キャッシュ最適化のアプローチを概説
CloudflareとETHチューリッヒは、AI駆動型クローラーがCDNとデータベースの従来のキャッシュに課題をもたらすと指摘し、別個のキャッシュ階層や適応アルゴリズム、従量制モデルなどのAI対応戦略を提案した。
プレゼンテーション: DuolingoのKubernetesへの移行
Franka Passing氏が、Duolingoの500以上のバックエンドサービスをKubernetesに移行したアーキテクチャ変更について説明している。GitOpsへの移行、IPv6のみのポッドへの移行、環境を分離する「セルラーアーキテクチャ」の採用を解説した。
NeocloudパイオニアCoreWeaveが推論に完全集中
GPU-as-a-serviceベンダーとして知られるCoreWeaveが、事業戦略を再編し、AI推論サービスに注力する方針を発表した。
AI時代におけるキャッシュの再考理由
Cloudflareが、自社ネットワークの32%のトラフィックがAIアシスタントを含む自動化トラフィックであることを報告し、AIエージェントの攻撃的なリクエスト行動に対応するためキャッシュシステムの再設計を進めている。
Together AIのカーネルチーム内覧
Together AIのカーネル研究チームは、FlashAttentionやThunderKittensの開発者であり、GPUハードウェアと本番環境のAIとの間のギャップを埋める役割を果たしている。
ProxySQLが安定版、革新版、AI版の多層リリース戦略を導入
ProxySQLが3.0.6をリリースし、安定性重視の「安定版」、新機能早期導入の「革新版」、AI統合などを探求する「AI/MCP版」の多層リリース戦略を発表した。
年間600時間を節約したKubernetesの一行修正
チームがTerraform変更を計画・適用するツールAtlantisを再起動する際、Kubernetesの安全なデフォルト設定が原因で30分間のダウンタイムが発生していた。月100回の再起動で50時間以上のエンジニア時間がブロックされていたが、一行の修正で問題を解決した。
AWS Load Balancer ControllerがKubernetes Gateway APIサポートで一般提供開始
AWSがKubernetes Gateway APIのサポートをAWS Load Balancer Controllerで一般提供した。アノテーションベースの設定から型安全なCRDに移行し、L4/L7ルーティング、クロスネームスペースルーティング、自動証明書発見などを提供する。
NVIDIA CEOジェンスン・フアン:AIがソフトウェアを破壊するという考えは「ばかげている」
NVIDIA CEOジェンスン・フアンは、AIエージェントがソフトウェアを置き換えるのではなく活用すると説明し、同社はラックアーキテクチャ全体を再設計した。
スタートアップGimlet Labs、驚くほど洗練された方法でAI推論のボトルネックを解決
Gimlet Labsは、AIがNVIDIA、AMD、Intel、ARM、Cerebras、d-Matrixのチップを同時に実行できる技術で8000万ドルのシリーズA資金を調達した。
設定を制御平面として:大規模な安全性と信頼性の設計
ハイパースケーラーは、設定をライブ制御平面として運用し、段階的ロールアウトと検証を実施して安全に変更をデプロイしている。
AWSがEC2インスタンスでネスト型仮想化を導入
AWSは、KVMまたはHyper-Vを実行する仮想化EC2インスタンス内でネスト型仮想マシンをサポートすることを発表した。この新機能により、C8i、M8i、R8iインスタンス上でのアプリケーションエミュレーションやハードウェアシミュレーションなどのユースケースが可能になる。
CNCFがDragonflyを卒業認定、クラウドネイティブなイメージ配信の主要マイルストーン達成
Cloud Native Computing Foundation(CNCF)が、オープンソースのイメージ・ファイル配信システム「Dragonfly」を最高成熟度の「卒業」ステータスに認定した。
VercelのCDNが新ダッシュボードを導入
VercelがCDN向けに新ダッシュボードを発表した。同社はユーザーがグローバルトラフィック分布やキャッシュ管理、ルーティングルール更新を一元的に追跡・管理できる機能を提供する。
OpenAIが1100億ドルの資金調達を発表、AWSとの提携を拡大
OpenAIが1100億ドルの資金調達を実施し、AWSとの提携を拡大した。この取引はAI投資が急増する中で史上最大級の民間資金調達ラウンドの一つである。
KubernetesがPodスケジューリングの信頼性向上のためにNode Readiness Controllerを導入
Kubernetesプロジェクトが、APIサーバーのノード準備状態の見解をより正確にすることで、スケジューリングの信頼性とクラスターの健全性を向上させるNode Readiness Controllerを発表した。
ASPA:インターネットルーティングのセキュリティ向上
Cloudflareが、BGPルートリークによる誤った経路誘導を防ぐための経路検証技術「ASPA」を開発し、インターネットルーティングのセキュリティ強化を目指している。
余剰PCを活用したプライベートクラウド構築によるネットワーク実験
筆者が余剰PCを活用し、Proxmox VEやHAProxyなどのオープンソース技術を用いて検証用プライベートクラウド環境を構築し、ネットワーク設計と可用性向上の実践的実験を行った。
AWS RDS Aurora Serverless v1からv2への移行手順メモ
バックエンドエンジニアのわいけい氏が、AWS RDS Aurora Serverless v1からv2へのアップグレード手順を業務で実施した経験を共有している。v1のサポート終了に伴う移行作業で、サービス影響を考慮した慎重な対応が必要だった。
MLエンジニアがKubernetesを学ぶべき理由
MLエンジニアは、機械学習モデルのデプロイとスケーリングを効率化するために、コンテナオーケストレーションツールであるKubernetesを学ぶべきである。