NSDI 2026におけるマイクロソフトの大規模ネットワークシステムに関する進展発表
Microsoft は NSDI '26 で大規模ネットワークシステムに関する 11 の論文を発表し、LLM の推論効率向上や自動テスト、次世代メモリアーキテクチャにおける具体的な技術的突破を示した。
キーポイント
LLM 推論効率の劇的向上(DroidSpeak)
同構造を持つファインチューニング済みモデル間で KV キャッシュを共有・再利用する「DroidSpeak」により、スループットが最大 4 倍に向上し、レスポンス速度が大幅に改善された。
LLM を活用した自動テストの自動化(Eywa)
自然言語からプロトコルモデルを構築する「Eywa」により、広範なネットワーク実装で 33 のバグ(未発見 16 件含む)を発見し、テスト工程の自動化と品質向上を実現した。
コスト削減と高速化を実現するメモリ設計(Octopus)
スイッチレスな非集約型メモリポッド設計「Octopus」により、マルチラックスケーリングが可能になり、既存の RDMA 方式と比較して RPC が最大 3.2 倍高速化した。
大規模システム研究への継続的貢献
Microsoft は NSDI '26 の主要スポンサーとして参加し、データセンター・広域ネットワーク・AI システム分野で 11 件の論文を採択させるなど、学界との連携を強化している。
Octopus のスイッチレス分散メモリ設計
コスト削減とマルチラックスケーリングを実現する Octopus は、3 サーバープロトタイプで RDMA を 3.2 倍、CXL スイッチを 2.4 倍高速化しました。
HEDGE の光ネットワーク耐障害性
波長固有の故障に対応し、リンクローカルとグローバルな回復力を組み合わせることで、変動するリンク性能下でも安定した容量維持とトラフィック最適化を実現します。
AVA の超長時間動画解析ベンチマーク
10 時間を超える 8 本の動画と複雑な QA ペアからなる AVA-100 ベンチチャートで、イベント知識グラフとビジョン言語モデルを組み合わせた分析が 75.8% の精度を達成しました。
影響分析・編集コメントを表示
影響分析
この発表は、生成 AI の大規模展開におけるボトルネックである推論コストと遅延に対する具体的な解決策を示しており、データセンター設計のパラダイムシフトを促す可能性があります。特に KV キャッシュの共有やスイッチレスメモリ設計は、今後のクラウドプロバイダーが AI 基盤を構築する際の標準的なアーキテクチャ候補となり得る画期的な技術です。
編集コメント
NSDI というトップカンファレンスでの発表は、単なる研究論文の域を超え、実システムへの適用が近いことを示唆しています。特に KV キャッシュ共有技術は、生成 AI の普及を加速させる鍵となるインフラ技術として注目すべきです。
大規模ネットワークシステムは、クラウドコンピューティング、AI、および分散型アプリケーションやサービスの基盤となっています。USENIX ネットワークシステム設計と実装シンポジウム 2026 (新しいタブで開く)(NSDI '26)は、これらのシステムの設計と運用における新たな研究、洞察、進展を研究者や実践者が共有する主要なフォーラムです。
Microsoft は、システムおよびネットワーク研究の推進とより広いコミュニティとの関与に対する継続的なコミットメントを反映し、NSDI '26 のリターンスポンサーとして支援することを誇りに思います。また、Microsoft の研究者やエンジニアリングリーダーもプログラム委員会やその他の組織的役割を務めています。
今年、データセンターおよび広域ネットワーク、AI システム、クラウドインフラストラクチャにわたる Microsoft 著者および協力者による 11 編の論文が会議に採択されました。これらは、大規模ネットワークシステムの構築と運用における進展を強調するものです。

Azure AI Foundry Labs
Microsoft Research のこれらの実験的技術を通じて、AI の将来の可能性ある方向性をご覧ください。
Azure AI Foundry
新しいタブで開く
技術セッション
5月4日(月)午後2時00分~3時20分
DroidSpeak:微調整済みモデル変種間でのKVキャッシュの共有(新しいタブで開く)
Yuhan Liu, Yuyang Huang, Jiayi Yao, Zhuohan Gu, Kuntai Du, Hanchen Li, Yihua Cheng, Junchen Jiang(シカゴ大学)、Shan Lu, Madan Musuvathi, Esha Choukse(Microsoft)
DroidSpeakは、同じアーキテクチャを持つ大規模言語モデル(LLM)が、モデル間でKVキャッシュを共有し部分的に再利用することを可能にし、出力品質への影響を最小限に抑えつつ、スループットを最大4倍向上させ、より高速な応答を実現します。
5月4日(月)午後3時50分~5時30分
Eywa:LLMを用いたモデルベーステストの自動化(新しいタブで開く)
Rajdeep Mondal, Rathin Singha, Todd D. Millstein, George Varghese(UCLA)、Ryan Beckett, Siva Kesava Reddy Kakarla(Microsoft Research)
Eywaは、LLMを用いて自然言語ソースからプロトコルモデルを自動的に構築し、モデルベーステストを可能にします。これにより、広く使用されているネットワークプロトコル実装において33件のバグを発見しました。そのうち16件は未発見のバグでした。
5月5日(火)午後2時00分~3時20分
Octopus:スパーストポロジによるCXLメモリポッドの強化(新しいタブで開く)
Yuhong Zhong(コロンビア大学)、Fiodar Kazhamiaka, Pantea Zardoshti, Shuwei Teng, Rodrigo Fonseca(Microsoft Azure)、Mark D. Hill(ウィスコンシン大学マディソン校)、Daniel S. Berger(Microsoft Azureおよびワシントン大学)
Octopus は、コスト削減とマルチラックポッドへのスケーリングを実現する、分散メモリポッド向けのスイッチレス設計を導入しています。3 サーバーのハードウェアプロトタイプ上では、Octopus の RPC はラック内 RDMA より 3.2 倍高速で、CXL スイッチよりも 2.4 倍高速です。
火曜日、5 月 5 日 午後 3:50–5:30
HEDGE: 確率的リンク容量を用いたトラフィックエンジニアリング(新しいタブで開く)
Arjun Devraj(コーネル大学)、Bill Owens(NYSERNet)、Umesh Krishnaswamy(Microsoft)、Ying Zhang(Meta)、Rachee Singh(コーネル大学)
HEDGE は、リンクローカルとネットワーク全体のレジリエンスを組み合わせることで、光ネットワークにおける波長固有の障害に対処し、変動するリンク性能にもかかわらず安定した容量を維持し、トラフィックフローを最適化します。既存システムのスループットを維持しつつ、ネットワークの混乱を削減します。
水曜日、5 月 6 日 午前 9:00–10:20
AVA: ビジョン言語モデルを用いたビデオ分析への道(新しいタブで開く)
Yuxuan Yan(浙江大学)、Shiqi Jiang(Microsoft Research)、Ting Cao(清華大学)、Yifan Yang(Microsoft Research)、Qianqian Yang および Yuanchao Shu(浙江大学)、Yuqing Yang および Lili Qiu(Microsoft Research)
AVA は、イベント知識グラフとビジョン・ランゲージモデル(Vision-Language Models)を基盤としたエージェント型検索を組み合わせることで、オープンエンドなビデオ解析をサポートします。さらに、超長期間かつオープンワールドのシナリオにおけるビデオ解析を評価するために、著者らは AVA-100 というベンチマークを導入しました。これは 10 時間を超える動画が各 8 本と、手動で注釈付けされた多様で複雑な質問 - 回答ペア 120 組から構成されており、AVA はこれにおいて 75.8% の精度を達成しています。
水曜日、5 月 6 日 9:00–10:20 AM
ストレージ最適化仮想マシン向けの SmartNIC 対応ライブマイグレーション:Pyrocumulus(新しいタブで開く)
Jiechen Zhao(トロント大学および Microsoft Research Asia)、Ran Shu、Lei Qu、Ziyue Yang、Rui Ma(Microsoft Research Asia)、Derek Chiou(Microsoft および UT Austin)、Natalie Enright Jerger(トロント大学)、Peng Cheng、Yongqiang Xiong(Microsoft Research Asia)
Pyrocumulus は、FPGA SmartNIC のハードウェアカスタマイズ性と LM プロトコル、アーキテクチャ、アルゴリズム設計による効率的なネットワークアクセスを実現することで、ストレージ最適化仮想マシン向けの高速かつオーバーヘッドの少ないライブマイグレーションを可能にします。
水曜日、5 月 6 日 10:50 AM–12:30 PM
ForestColl:異種ネットワーキングファブリクスにおけるスループット最適化集合通信(新しいタブで開く)
Liangyu Zhao(ワシントン大学)、Saeed Maleki(独立研究者)、Yuanhong Wang(清華大学)、Zezhou Wang(ワシントン大学)、Ziyue Yang(Microsoft Research)、Hossein Pourreza(Microsoft)、Arvind Krishnamurthy(ワシントン大学)
ForestColl は、通信スケジュールとしてブロードキャスト/集約 spanning trees を構築し、理論的な最適性を達成します。そのスケジュール生成は多項式時間で実行可能であり、高いスケーラビリティを備えています。スイッチングファブリックと直接アクセラレータ接続の両方を含む、あらゆるネットワークファブリックをサポートしています。
5 月 6 日(水)10:50 AM–12:30 PM
シンボル指向最適化によるソースコードからのヒューリスティック分析 (新しいタブで開く)
Pantea Karimi, MIT; Siva Kesava Reddy Kakarla および Ryan Beckett, Microsoft Research; Santiago Segarra, Rice University; Pooria Namyar, Microsoft Research; Mohammad Alizadeh, MIT; Behnaz Arzani, Microsoft Research
MetaEase は、複雑な形式モデル化の必要性を排除し、ソースコードから直接ヒューリスティックを分析して最悪ケースのパフォーマンスシナリオを明らかにします。これはドメイン全体において最先端の解析ツールと同等かそれ以上の性能を発揮し、実世界システムにおけるこれまで未知であったパフォーマンスギャップを明らかにします。
5 月 6 日(水)2:00–3:20 PM
コンテナシステムにおける余剰 CPU リソースの活用 (新しいタブで開く)
Adam Hall および Anirudh Sarma, Georgia Institute of Technology; Esha Choukse, Microsoft Azure Research; Umakishore Ramachandran, Georgia Institute of Technology; Sameh Elnikety, Microsoft Research
HarvestContainers は、遅延耐性のあるワークロードを予備の CPU コアで実行しながらも、遅延に敏感なコンテナが干渉を受けるのを防ぎます。安全に収穫できるコア数を動的に決定し、アプリケーションやオペレーティングシステムへの改変は不要です。これにより、スナップショット性能の 4% 以内の尾部遅延を維持しつつ、予備 CPU の利用率を最大 75% まで引き上げることができます。
水曜日、5 月 6 日、午後 3:50–5:30
SONiC DASH SmartSwitch を用いた大規模生産環境におけるクラウドネットワークサービスのオフロード (新しいタブで開く)
コミュニティ賞受賞者
Shaofeng Wu(香港中文大学および Microsoft Research Asia)、Zhixiong Niu(Microsoft Research Asia)、Riff Jiang、Lawrence Lee、Junhua Zhai、Ze Gan、Vasundhara Volam、Prabhat Aravind、Prince Sunny、Prince George、Qi Luo、Evan Langlais、Soumya Tiwari、Venkat Satish Katta、Weixi Chen、Rishiraj Hazarika、Sachin Jain、Deven Jagasia、Michal Zygmunt、Avijit Gupta、Neeraj Motwani、Pranjal Shrivastava(Microsoft)、Qiang Su(香港中文大学)、Anil Reddy Pannala、Kristina Moore、James Grantham、Anupam Pandey、Xin Liu、Guohan Lu、Gerald De Grace、Rishabh Tewari、Lihua Yuan、Erica Lan、Deepak Bansal、Dave Maltz(Microsoft)、Yongqiang Xiong(Microsoft Research Asia)、Hong Xu(香港中文大学)
SONiC DASH SmartSwitch は、ハードウェアに優しいパイプライン、統一されたスイッチアーキテクチャ、そしてオープンな開発モデルを再設計することでクラウドネットワークのオフローディングを実現し、主要なスケーラビリティと展開の課題に対処しています。Azure で大規模に展開されており、高いスループットと接続容量を提供すると同時に、電力効率とスペース効率を大幅に向上させています。
水曜日 5 月 6 日 午後 3:50–5:30
KRAKENGUARD: 微細粒度の eBPF 分離に向けた取り組み (新しいタブで開く)
Jainil Patel, IIT Roorkee; Lucas Graeff Buhl-Nielsen, Quantco; Adrien Ghosn, Microsoft; Marios Kogias, Imperial College London
KRAKENGUARD は、シンボリック実行を用いてロード時に eBPF プログラムに対して微細粒度かつポリシーベースの制御を適用し、粗い Linux 機能に依存することなくマルチテナント環境での安全な利用を可能にします。悪意のある動作を防ぎ、脆弱性を検出し、強力な分離保証を持つ信頼できないプログラムの安全な実行を許可します。
Microsoft のシンポジウム組織者
プログラム委員会
Ganesh Ananthanarayanan
Behnaz Arzani
Hitesh Ballani
Ryan Beckett
Ranveer Chandra
Paolo Costa
Rodrigo Fonseca
Xenofon Foukas
Kevin Hsieh
Umesh Krishnaswamy (新しいタブで開く)
Jing Liu
Jonathan Mace
Dave Maltz
Sathiya Mani
Dushyanth Narayanan
Suman Nath
Ram Ramjee
Stefan Saroiu
運営委員会
Sujata Banerjee
Jay Lorch
新しいタブで開くMicrosoft at NSDI 2026: Advances in large-scale networked systems の投稿は、Microsoft Research で最初に表示されました。
原文を表示

Large-scale networked systems underpin cloud computing, AI, and distributed applications and services. The USENIX Symposium on Networked Systems Design and Implementation 2026 (opens in new tab) (NSDI ’26) is a leading forum where researchers and practitioners share new research, insights, and advances in the design and operation of these systems.
Microsoft is proud to support NSDI ’26 as a returning sponsor, reflecting our ongoing commitment to advancing systems and networking research and engaging with the broader community. Microsoft researchers and engineering leaders are also serving on the program committee and in other organizational roles.
This year, 11 papers by Microsoft authors and collaborators were accepted to the conference, spanning datacenter and wide-area networks, AI systems, and cloud infrastructure. Together, they highlight advances in building and operating large-scale networked systems.
image
Azure AI Foundry Labs
Get a glimpse of potential future directions for AI, with these experimental technologies from Microsoft Research.
Azure AI Foundry
Opens in a new tab
Technical sessions
Monday, May 4, 2:00–3:20 PM
DroidSpeak: KV Cache Sharing Across Fine-tuned Model Variants (opens in new tab)
Yuhan Liu, Yuyang Huang, Jiayi Yao, Zhuohan Gu, Kuntai Du, Hanchen Li, Yihua Cheng, and Junchen Jiang, University of Chicago; Shan Lu, Madan Musuvathi, and Esha Choukse, Microsoft
DroidSpeak enables LLMs with the same architecture to share and partially reuse KV caches across models, delivering up to 4 times higher throughput and faster responses with minimal impact on output quality.
Monday, May 4, 3:50–5:30 PM
Eywa: Automating Model-Based Testing using LLMs (opens in new tab)
Rajdeep Mondal, Rathin Singha, Todd D. Millstein, and George Varghese, UCLA; Ryan Beckett and Siva Kesava Reddy Kakarla, Microsoft Research
Eywa uses LLMs to automatically build protocol models from natural language sources, enabling model-based testing. It uncovered 33 bugs, including 16 previously unknown, in widely used network protocol implementations.
Tuesday, May 5, 2:00–3:20 PM
Octopus: Enhancing CXL Memory Pods via Sparse Topology (opens in new tab)
Yuhong Zhong, Columbia University; Fiodar Kazhamiaka, Pantea Zardoshti, Shuwei Teng and Rodrigo Fonseca, Microsoft Azure; Mark D. Hill, University of Wisconsin-Madison; Daniel S. Berger, Microsoft Azure and University of Washington
Octopus introduces a switch-free design for disaggregated memory pods that reduces cost and scales to multi-rack pods. On a three-server hardware prototype, Octopus RPCs are 3.2x faster than in-rack RDMA and 2.4x faster than CXL switches.
Tuesday, May 5, 3:50–5:30 PM
HEDGE: Traffic Engineering with Probabilistic Link Capacities (opens in new tab)
Arjun Devraj, Cornell University; Bill Owens, NYSERNet; Umesh Krishnaswamy, Microsoft; Ying Zhang, Meta; Rachee Singh, Cornell University
HEDGE mitigates wavelength-specific faults in optical networks by combining link-local and global network-wide resilience that maintain stable capacity and optimize traffic flow despite fluctuating link performance. It matches existing systems’ throughput while reducing network disruptions.
Wednesday, May 6, 9:00–10:20 AM
AVA: Towards Video Analytics with Vision Language Models (opens in new tab)
Yuxuan Yan, Zhejiang University; Shiqi Jiang, Microsoft Research; Ting Cao, Tsinghua University; Yifan Yang, Microsoft Research; Qianqian Yang and Yuanchao Shu, Zhejiang University; Yuqing Yang and Lili Qiu, Microsoft Research
AVA supports open-ended video analytics by combining event knowledge graphs with agentic retrieval over vision-language models. Furthermore, to evaluate video analytics in ultra-long, open-world scenarios, the authors introduce AVA-100, a benchmark comprising eight videos each exceeding 10 hours and 120 manually annotated, diverse, and complex question–answer pairs, on which AVA achieves 75.8% accuracy.
Wednesday, May 6, 9:00–10:20 AM
SmartNIC-Enabled Live Migration for Storage-Optimized VMs with Pyrocumulus (opens in new tab)
Jiechen Zhao, University of Toronto and Microsoft Research Asia; Ran Shu, Lei Qu, Ziyue Yang, and Rui Ma, Microsoft Research Asia; Derek Chiou, Microsoft and UT Austin; Natalie Enright Jerger, University of Toronto; Peng Cheng and Yongqiang Xiong, Microsoft Research Asia
Pyrocumulus enables fast, low-overhead live migration for storage-optimized VMs through hardware customizability and efficient network accessibility of the FPGA SmartNIC with LM protocol, architecture, and algorithm designs.
Wednesday, May 6, 10:50 AM–12:30 PM
ForestColl: Throughput-Optimal Collective Communications on Heterogeneous Network Fabrics (opens in new tab)
Liangyu Zhao, University of Washington; Saeed Maleki, Independent Researcher; Yuanhong Wang, Tsinghua University; Zezhou Wang, University of Washington; Ziyue Yang, Microsoft Research; Hossein Pourreza, Microsoft; Arvind Krishnamurthy, University of Washington
ForestColl constructs broadcast/aggregation spanning trees as the communication schedule, achieving theoretical optimality. Its schedule generation runs in polynomial time and is highly scalable. It supports any network fabric, including both switching fabrics and direct accelerator connections.
Wednesday, May 6, 10:50 AM–12:30 PM
Heuristic Analysis from Source Code via Symbolic-Guided Optimization (opens in new tab)
Pantea Karimi, MIT; Siva Kesava Reddy Kakarla and Ryan Beckett, Microsoft Research; Santiago Segarra, Rice University; Pooria Namyar, Microsoft Research; Mohammad Alizadeh, MIT; Behnaz Arzani, Microsoft Research
MetaEase analyzes heuristics directly from source code to uncover worst-case performance scenarios, eliminating the need for complex formal modeling. It matches or outperforms state-of-the-art analyzers across domains and reveals previously unknown performance gaps in real-world systems.
Wednesday, May 6, 2:00–3:20 PM
Harvesting Spare CPU Resources in Container Systems (opens in new tab)
Adam Hall and Anirudh Sarma, Georgia Institute of Technology; Esha Choukse, Microsoft Azure Research; Umakishore Ramachandran, Georgia Institute of Technology; Sameh Elnikety, Microsoft Research
HarvestContainers protects latency-sensitive containers from interference while using their spare CPU cores to run latency-tolerant workloads. It dynamically determines how many cores can be safely harvested and requires no changes to applications or the operating system. It enables up to 75% utilization of spare CPU while keeping tail latency within 4% of standalone performance.
Wednesday, May 6, 3:50–5:30 PM
Offloading Cloud Network Services at Production Scale with SONiC DASH SmartSwitch (opens in new tab)
Community Award Winner
Shaofeng Wu, The Chinese University of Hong Kong and Microsoft Research Asia; Zhixiong Niu, Microsoft Research Asia; Riff Jiang, Lawrence Lee, Junhua Zhai, Ze Gan, Vasundhara Volam, Prabhat Aravind, Prince Sunny, Prince George, Qi Luo, Evan Langlais, Soumya Tiwari, Venkat Satish Katta, Weixi Chen, Rishiraj Hazarika, Sachin Jain, Deven Jagasia, Michal Zygmunt, Avijit Gupta, Neeraj Motwani, and Pranjal Shrivastava, Microsoft; Qiang Su, The Chinese University of Hong Kong; Anil Reddy Pannala, Kristina Moore, James Grantham, Anupam Pandey, Xin Liu, Guohan Lu, Gerald De Grace, Rishabh Tewari, Lihua Yuan, Erica Lan, Deepak Bansal, and Dave Maltz, Microsoft; Yongqiang Xiong, Microsoft Research Asia; Hong Xu, The Chinese University of Hong Kong
SONiC DASH SmartSwitch redesigns cloud network offloading with a hardware-friendly pipeline, unified switch architecture, and open development model while addressing key scalability and deployment challenges. Deployed at scale in Azure, it delivers high throughput and connection capacity while significantly improving power and space efficiency.
Wednesday, May 6, 3:50–5:30 PM
KRAKENGUARD: Towards Fine-Grained eBPF Isolation (opens in new tab)
Jainil Patel, IIT Roorkee; Lucas Graeff Buhl-Nielsen, Quantco; Adrien Ghosn, Microsoft; Marios Kogias, Imperial College London
KRAKENGUARD enforces fine-grained, policy-based controls on eBPF programs at load time using symbolic execution, enabling safe use in multi-tenant environments without relying on coarse Linux capabilities. It prevents malicious behavior, detects vulnerabilities, and allows for secure execution of untrusted programs with strong isolation guarantees.
Symposium organizers from Microsoft
Program Committee
Ganesh Ananthanarayanan
Behnaz Arzani
Hitesh Ballani
Ryan Beckett
Ranveer Chandra
Paolo Costa
Rodrigo Fonseca
Xenofon Foukas
Kevin Hsieh
Umesh Krishnaswamy (opens in new tab)
Jing Liu
Jonathan Mace
Dave Maltz
Sathiya Mani
Dushyanth Narayanan
Suman Nath
Ram Ramjee
Stefan Saroiu
Steering Committee
Sujata Banerjee
Jay Lorch
Opens in a new tabThe post Microsoft at NSDI 2026: Advances in large-scale networked systems appeared first on Microsoft Research.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み