AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
NVIDIA Developer Blog·2026年6月3日 04:00·約13分で読める

マイクロソフトと NVIDIA の新ツールを用いて Windows PC でパーソナル AI エージェントを構築する

TL;DR

マイクロソフトと NVIDIA は、Windows PC 上でパーソナル AI エージェントを構築するための新ツールを提供した。これにより開発者はローカル環境で効率的にエージェントを設計・実装できる。

AI エージェント は、PC とのインタラクション方法を変革しています。クリエイター、開発者、および AI 愛好家はすでに、コーディング、動画編集、コンテンツ管理といった日々のタスクを支援するためにこれらのエージェントを幅広く活用しています。

NVIDIA と Microsoft は、セットアップの簡素化、ネイティブセキュリティの実装、ならびに開発者が既に使用しているアプリやツールとの統合を実現し、Windows プラットフォーム上でオンデバイス型エージェントを構築できる次世代の開発者を支援するために連携しています。

本記事では、エージェントへの爆発的な需要に応えるために NVIDIA と Microsoft が COMPUTEX 2026 における NVIDIA GTC Taipei および Microsoft Build 2026 で発表した新ツールについて詳述します。これらのツールには、ネイティブ Windows 上のターンキー型エージェントサンドボックス化、2 倍高速なエージェント推論(inference)、Nous Research および H Company による新たなエージェントアプリとツール、そして llama.cpp と ComfyUI を横断する強化されたマルチ GPU サポートが含まれます。ローカル AI 開発スタックは、ユーザーと共に複雑なエージェント型 AI ワークフローを実行できる状態となっています。

Microsoft eXecution Containers(eXC)および NVIDIA OpenShell を用いたローカルエージェントのセキュリティ確保

Microsoft Build において、Microsoft は、エージェントがコードを実行し、ファイルを操作し、システム間でタスクをオーケストレーションできるようにするための一連のセキュリティプリミティブを発表しました。これには組み込みのアイデンティティとポリシー実行機能が含まれています。Microsoft eXecution Containers (MXC) はポリシー層を形成し、ネイティブの Windows オペレーティングシステムの構成要素に依存しながら、分離と封じ込めを定義・計測します。

開発者にとって、これは重要な障壁の低減となります:個人ファイルやアプリケーションと相互作用するエージェントは実際のプロンプトインジェクションリスクをもたらしますが、MXC により、それらがシステム全体にアクセスできないことが保証されます。

NVIDIA もまた、Microsoft と協力して、MXC を基盤とした NVIDIA OpenShell ランタイムを Windows に導入しています。OpenShell を通じて MXC を統合することで、開発者は自律的で常時稼働するエージェントを安全にデプロイするための容易な統合パッケージを利用でき、さらにポリシーの作成と管理、推論ルーティング、個人識別情報 (PII) の曖昧化などの追加機能も提供されます。

主要なエージェント型アプリケーションは、Windows におけるセキュリティ強化のために MXC と OpenShell の活用を検討しており、その中には人気のあるオープンソースのエージェント OpenClaw や Hermes Agent も含まれています。

NVIDIA RTX Spark はどのようにして個人向け AI エージェントを駆動するのか?

先週台北で開催された GTC で、NVIDIA は NVIDIA RTX Spark 製品ファミリーを発表しました。これはパーソナルアシスタントの時代に対応した小型デスクトップおよびラップトップを含むものです。これらのデスクトップとラップトップは、1 ペタフロップの AI パワー、最大 128 GB のメモリ、そして日常業務と並行して大規模モデルを実行するための CUDA アクセラレーションされた AI フレームワークを提供します。

Microsoft は、開発者向け特別エディションとして RTX Spark を作成しており、「Microsoft Surface NVIDIA RTX Spark Dev Box」と名付けられています。これは開発者に最適化された修正済み Windows と、すぐに始められるための主要な開発ツールがプリインストールされています。詳細については、開発者のための次世代デバイスの構築:Surface RTX Spark Dev Box をご覧ください。

NVIDIA NemoClaw、Hermes Agent、および H Company はどのようにエージェントの能力を拡張しているのでしょうか?

NVIDIA NemoClaw は、自律型 AI エージェントの構築のために利用可能で、現在 Linux および Windows Subsystem for Linux (WSL) を通じて、すべての NVIDIA クライアントシステム——GeForce RTX、NVIDIA RTX PRO、NVIDIA DGX Spark、および Windows 向け NVIDIA DGX Station——をサポートしています。これにより、ハードウェアに最適化されたローカルモデルを手動で選定してエージェントを簡単にセットアップし、サンドボックス環境で実行することが可能になります。今回のアップデートでは、インストールプロセスの改善も含まれており、より容易かつシームレスな利用を実現します。また、NemoClaw では now Hermes エージェントを実行するオプションもサポートされるようになりました。

今週、Hermes エージェントはネイティブ Windows サポートをリリースしました。これにはコマンドラインインターフェースに加え、洗練された新しいデスクトップアプリケーションが含まれています。これによりユーザーエクスペリエンスが合理化され、エージェントがネイティブの Windows アプリケーション、API、およびファイルをより容易に操作・利用できるようになります。

さらに、AI 研究および製品企業である H Company は、新しい Holo 3.1 モデルシリーズを発表しました。これらのモデルは「Computer Use(コンピューター使用)」モード向けにチューニングされており、このモードではエージェントが画面を見てクリックすることでアクションを実行できるようになり、より幅広いアプリケーションでエージェントの能力を拡張できます。また、FP8 と比較してメモリ使用量を 35% 削減した量子化済みチェックポイントも含まれています。同社はまた、ローカルモデルをサポートする新しい Computer Use ハンネスについても発表しており、近日公開予定です。NVIDIA は H Company の新モデルとハンネスの最適化を支援し、NVIDIA GPU 上で 2 倍以上のパフォーマンスを実現しました。

NVIDIA とオープンソースコミュニティは、ローカルエージェント AI の推論をどのように加速しているのか?

エージェントが週 7 日 24 時間稼働し、ますます複雑なタスクに取り組む中、効率的なローカル計算の重要性はさらに高まっています。NVIDIA はオープンソースコミュニティと協力して、エージェント向けの主要な推論バックエンドである llama.cpp と vLLM を強化しました。

llama.cpp では、Qwen 3.5 および 3.6 の 27B 密度モデルで 2 倍のパフォーマンスを、Qwen 3.5 および 3.6 の 35B モエ(Mixture-of-Expert: MoE)モデルで 1.6 倍のパフォーマンスを実現しています。これを実現する以下の 2 つの技術があります:

  • マルチトークン予測 (Multi-Token Prediction, MTP): より小さなドラフトモデルがターゲットモデルの単一の順方向パスで検証する複数の先行トークンを提案する、高度な推測デコーディング技術です。これにより、出力品質を維持しながらスループットを向上させます。MTP は、すでにサポートされているモデルに対して追加のトレーニングを必要としないため、開発者にとって最も実用的な手法です。
  • プログラム依存起動 (PDL): この更新により、デコードパフォーマンスが向上します。依存するカーネルを同じ CUDA ストリーム上で並列実行できるようになりました。これまでは、単一の CUDA ストリーム内の依存するカーネルは逐次実行する必要がありました。

vLLM はすでに MTP を採用していますが、推論パフォーマンスを 2.6 倍向上させる追加の最適化も受け入れています。これには、MoE モデル向けの BF16 カーネル選択の改善や、CUDA Graphs の改良によるランタイムオーバーヘッドの削減が含まれます。

これらの更新は、LM Studio、llama.cpp、vLLM を通じてすぐに探索を開始できます。

imageimage*図 1. NVIDIA DGX Spark および NVIDIA RTX 5090 上のローカルエージェント AI デプロイメントにおいて、全体のスループットパフォーマンスが向上*。

マルチ GPU サポートは RTX PC の AI パフォーマンスをどのようにスケーリングするか?

AI をローカルで実行する一般的な方法の一つとして、複数の GPU を使用してより多くのメモリと計算リソースにアクセスすることが挙げられます。クラウドフレームワークである vLLM はデータセンターでの利用によりマルチ GPU 向けに最適化されていますが、llama.cpp や PyTorch 内の ComfyUI 実装といった PC 向けのフレームワークは、その点で最適化されていませんでした。

この課題を解決するため、NVIDIA は llama.cpp と ComfyUI の両者と協力し、同等の GPU を 2 基搭載した RTX PC 向けのパフォーマンス向上を実現しました。これにより、より大規模なモデルを実行したり、両方の GPU の計算リソースを活用してパフォーマンスを向上させたりすることが可能になります。

llama.cpp は now tensor parallelism (TP) をサポートし、両方の GPU を最大限に活用して、メモリ容量を約 2 倍、計算性能を約 1.8 倍向上させることができます。LM Studio はこれらの変更をアプリケーションを通じてより広く利用可能にしました。LM Studio の使い始めには、LM Studio アプリを開き、設定を選択した後、ランタイムを選択して TP を有効にしてください。

imageimage*図 2. Tensor Parallel Multi-GPU 技術は、llama.cpp におけるパイプライン並列処理および単一 GPU 推論と比較して、トークン生成性能を最大 1.8 倍向上させます*

ComfyUI は、2 つの GPU にわたって計算リソースを最大 2 倍活用するための Classifier-Free Guidance (CFG) 手法を統合しています。ユーザーはまた、モデルチェーンを GPU 間で分割してメモリに完全にロードし、高 VRAM モードを実行できるようにすることもできます。これにより、低 VRAM モードのメモリスワップオーバーヘッドが排除され、追加のパフォーマンス向上が実現します。

imageimage*図 3. RTX 5090 構成における ComfyUI のマルチ GPU 技術の生成時間パフォーマンス向上*

マルチ GPU 推論を始めるには、llama.cpp GitHub リポジトリおよび How to Build a Multi-GPU AI PC をご覧ください。

NVIDIA AI for Media SDK (AI4M) は、AI を活用したビデオおよび放送パイプラインを構築する開発者向けに、現在プライベートアクセスとして利用可能となっています。同 SDK には以下の機能が含まれています:

  • LipSync が一般提供(GA)へ: 言語最適化モデルがフランス語、ドイツ語、スペイン語に対応したことで、LipSync はベースモデルよりも発音の精度を向上させ、高品質な吹き替えやコンテンツのローカライズを実現します。
  • Active Speaker Detection (ASD) が一般提供(GA)へ: マルチカメラおよびマルチマイクサポートの強化に加え、動画間での話者 ID の相関分析が可能になったことで、以前は手作業を要していたリップシンク吹き替え、ビデオ編集、高度なログ記録などの自動化ワークフローが実現します。

Windows における GPU アクセラレーション対応 AI 開発およびデプロイのためのさらなるツール

NVIDIA GPU 上で NVIDIA TensorRT for RTX を基盤とする、Windows ML を含む広範な Windows AI プラットフォームは着実に成熟しています。現在、開発者は Windows アプリケーション内で GPU アクセラレーションされた AI を展開するための複数の経路を有しています。

Windows AI Foundry および Windows AI API は now GPU 加速化されています。RTX ハードウェア上で対応する API を呼び出すと、ワークロードは NVIDIA GPU 上でのより高パフォーマンスなローカル推論のためにルーティングされます。最初にサポートされるモデルは、要約、書き換え、コード生成、およびその他のオンデバイス AI タスク向けの 3.3B 小型言語モデル(SLM)である Phi-Silica です。

Windows ML および TensorRT for RTX の採用はさらに勢いを増しています。4 つのパートナーが最近 DirectML から移行しました:

  • Voicemod は、リアルタイム AI ボイス変換を 42% 高速化しました
  • Topaz は、エンジンストレージを 3〜4 倍削減しながら、1080p から 4K へのアップスケーリングを 20% 高速化しました
  • DxO PhotoLab 9.7 では、AI を活用した写真処理がさらに高速化されました
  • Camo Streamlight の AI オートチューン機能は、リアルタイムで光レベルを知的に調整します

Windows で Linux アプリケーションを実行したい方のために、新しい Windows Subsystem for Linux Containers (WSL-C) は、ネイティブの Windows アプリケーションから Linux AI コンテナを作成・実行・対話するための組み込み手段です。アプリケーションユーザーが WSL システムリソースを手動でインストール・管理する必要はなく、開発者は C/C++ ライブラリを使用してこの機能をアプリに実装できます。WSL-C は、Windows PC 上で直接複雑なプロフェッショナルグレードの開発環境を解放し、より高速に作業を行い、ローカルで反復処理を行い、本番環境のワークフローとの整合性を維持することを可能にします。

Windows PC でパーソナル AI エージェントの構築を開始する

AI エージェントは、ソフトウェアの構築・利用・展開の方法を変革しており、NVIDIA RTX 上のローカル AI スタックも準備が整っています。安全なエージェントサンドボックス化、高速推論、マルチ GPU スケーリング、そして成熟しつつある Windows AI プラットフォームにより、世界中で 1 億台を超える NVIDIA RTX PC で開発を行う開発者は、次世代の AI アプリケーションをリリースするためのインフラストラクチャを備えています。

詳細は NVIDIA RTX AI PC のための開発を開始する ページをご覧ください。

原文を表示

AI agents are changing how you interact with your PC. Creators, developers, and AI enthusiasts are already using these agents extensively to assist with day-to-day tasks such as coding, video editing, and content management.

NVIDIA and Microsoft are teaming up to enable the next generation of developers to build on-device agents on the Windows platform, with easier setup, native security, and integration with the apps and tools developers already use.

This post details new tools NVIDIA and Microsoft unveiled at NVIDIA GTC Taipei at COMPUTEX 2026 and Microsoft Build 2026 to meet the exploding demand for agents. These tools include turnkey agent sandboxing on native Windows, 2x faster agentic inference, new agent apps and tools from Nous Research and H Company, and enhanced multi-GPU support across llama.cpp and ComfyUI. The local AI development stack is now ready to run complex agentic AI workflows alongside users.

How to secure local agents with Microsoft eXecution Containers and NVIDIA OpenShell

At Microsoft Build, Microsoft announced a set of security primitives to allow agents to execute code, operate on files, and orchestrate tasks across systems with built-in identity and policy execution. The Microsoft eXecution Containers (MXC) form the policy layer, defining and instrumenting isolation and containment while relying on native Windows operating system constructs to apply these policies.

For developers, this lowers a critical barrier: agents interacting with personal files and apps pose real prompt injection risks, and MXC ensures they can’t access the full system.

NVIDIA is also collaborating with Microsoft to bring NVIDIA OpenShell runtime to Windows, built on MXC. Integrating MXC through OpenShell provides an easy-to-integrate package for developers to deploy autonomous, always-on agents safely, while providing additional capabilities such as policy creation and management, inference routing, and personally identifiable information (PII) obfuscation.

Top agentic apps are looking to leverage MXC and OpenShell to strengthen their security in Windows, including the popular open source agents OpenClaw and Hermes Agent.

How does NVIDIA RTX Spark power personal AI agents?

Earlier this week at GTC Taipei, NVIDIA unveiled the NVIDIA RTX Spark product family, including small form factor desktops and laptops built for the age of personal assistants. These desktops and laptops deliver 1 petaflop of AI power, up to 128 GB of memory, and CUDA-accelerated AI frameworks for running large models alongside everyday work.

Microsoft is creating an RTX Spark special developer edition—the Microsoft Surface NVIDIA RTX Spark Dev Box—preloaded with a modified Windows configured for developers and the top developer tools you need to get started. To learn more, see Building the next generation of devices for developers: Surface RTX Spark Dev Box.

How are NVIDIA NemoClaw, Hermes Agent, and H Company expanding agent capabilities?

NVIDIA NemoClaw for building autonomous AI agents now supports all NVIDIA client systems—GeForce RTX, NVIDIA RTX PRO, NVIDIA DGX Spark, and NVIDIA DGX Station for Windows—through Linux and Windows Subsystem for Linux (WSL). This enables you to easily set up and sandbox an agent, with optimized local models handpicked for your hardware. The update also includes enhancements to the installer to make it easier and more seamless. NemoClaw also now supports running Hermes Agent as an option.

This week, Hermes Agent also released native Windows support, including both a command-line interface, alongside a sleek, new desktop application. This streamlines the user experience, while making it easier for the agent to interact with and use native Windows apps, APIs, and files.

In addition, AI research and product firm H Company released their new Holo 3.1 range of models. These models are tuned for Computer Use, a mode that enables agents to take actions by seeing the screen and clicking, extending agentic capabilities across a broader range of apps. They include quantized checkpoints for 35% lower memory compared to FP8. The company also announced a new Computer Use harness with support for local models, coming soon. NVIDIA has helped H Company optimize their new models and harness to deliver over 2x performance on NVIDIA GPUs.

How are NVIDIA and the OSS community accelerating inference for local agentic AI?

With agents running 24 hours a day, seven days a week on increasingly complex tasks, efficient local compute matters even more. NVIDIA has collaborated with the open source community to enhance the top inference backends for agents, llama.cpp and vLLM.

llama.cpp now delivers 2x performance on Qwen 3.5 and 3.6 27B dense models, and 1.6x performance on Qwen 3.5 and 3.6 35B mixture-of-expert (MoE) models. The following two techniques make this possible:

  • Multi-Token Prediction (MTP): An advanced speculative decoding technique, where a smaller draft model proposes several tokens ahead that the target model verifies in a single forward pass, delivering faster throughput at identical output quality. MTP is the most practical for developers because it requires no additional training for models that already support it.
  • Programmatic Dependent Launch (PDL): This update provides faster decode performance. Dependent kernels can be concurrently executed on the same CUDA stream. Prior to this, dependent kernels in a single CUDA stream had to be sequential.

vLLM has already adopted MTP, but is receiving additional optimizations that improve inference performance by 2.6x. These include better BF16 kernel selection for MoE models and reduced runtime overhead through improvements to CUDA Graphs.

You can start exploring these updates now through LM Studio, llama.cpp, and vLLM.

Figure 1. Overall throughput performance improves for local agentic AI deployments on NVIDIA DGX Spark and NVIDIA RTX 5090
Figure 1. Overall throughput performance improves for local agentic AI deployments on NVIDIA DGX Spark and NVIDIA RTX 5090

How does multi-GPU support scale AI performance for RTX PCs?

One popular way to run AI locally has been to use multiple GPUs to access more memory and compute. While cloud frameworks like vLLM are well optimized for multiple GPUs thanks to their use in data centers, PC frameworks like llama.cpp and the ComfyUI implementation in PyTorch are not optimized for it.

To solve this challenge, NVIDIA has collaborated with both llama.cpp and ComfyUI to enhance performance for RTX PCs with two equivalent GPUs. This enables you to run larger models and use the compute of both GPUs for better performance.

llama.cpp now supports tensor parallelism (TP), fully utilizing both GPUs for up to ~2x memory capacity and up to ~1.8x compute performance. LM Studio has made these changes available for wider use through their application. To get started with LM Studio, Open the LM Studio app, select Settings, then select Runtime to enable TP.

Figure 2. The Tensor Parallel Multi-GPU technique improves token generation performance up to 1.8x compared to pipeline parallel and single-GPU inferencing on llama.cpp
Figure 2. The Tensor Parallel Multi-GPU technique improves token generation performance up to 1.8x compared to pipeline parallel and single-GPU inferencing on llama.cpp

ComfyUI integrates the Classifier-Free Guidance (CFG) method for up to 2x compute across two GPUs. Users can also split model chains across GPUs to fully load them in memory, enabling them to run the high VRAM mode. This eliminates the memory swapping overhead of low VRAM mode for an additional performance gain.

Figure 3. Generation time performance improvements for multi-GPU techniques on ComfyUI across RTX 5090 configurations
Figure 3. Generation time performance improvements for multi-GPU techniques on ComfyUI across RTX 5090 configurations

To get started with multi-GPU inference, check out the llama.cpp GitHub repo and How to Build a Multi-GPU AI PC.

The NVIDIA AI for Media SDK (AI4M) is now available under private access for developers building AI-powered video and broadcast pipelines. It includes the following features:

  • LipSync reaches GA: With language-optimized models now supporting French, German, and Spanish, LipSync enables higher-quality dubbing and content localization with improved articulation over the base model.
  • Active Speaker Detection (ASD) GA: Enhanced multicamera and multimic support plus cross-video speaker ID correlation unlock automated workflows—lip-sync dubbing, video editing, and advanced logging—that previously required manual effort.

More tools for GPU-accelerated AI development and deployment on Windows

The broader Windows AI platform with Windows ML continues to mature, powered by NVIDIA TensorRT for RTX on NVIDIA GPUs. Developers now have multiple paths to ship GPU-accelerated AI in Windows applications.

Windows AI Foundry and Windows AI APIs are now GPU accelerated. When you call a supported API on RTX hardware, workloads are routed for higher-performance local inference on NVIDIA GPUs. The first supported model is Phi-Silica, a 3.3B small language model (SLM) for summarization, rewriting, code generation, and other on-device AI tasks.

Windows ML and TensorRT for RTX adoption continue to gain momentum. Four partners have recently upgraded from DirectML:

  • Voicemod achieves 42% faster real-time AI voice conversion
  • Topaz delivers 20% faster 1080p-to-4K upscaling while reducing engine storage by 3-4x
  • DxO PhotoLab 9.7 ships faster AI photo processing
  • Camo Streamlight AI autotune feature intelligently adjust light levels in real time

For those interested in running Linux applications in Windows, the new Windows Subsystem for Linux Containers (WSL-C) is a built-in way to create, run, and interact with Linux AI containers from native Windows applications. Application users do not need to install and manage WSL system resources themselves, and developers can build this functionality into their apps using a C/C++ library. WSL-C unlocks complex, professional-grade development environments directly on Windows PCs, enabling you to work faster, iterate locally, and maintain parity with production workflows.

Get started building personal AI agents on Windows PCs

AI agents are reshaping how software is built, used, and deployed—and the local AI stack on NVIDIA RTX is ready. With secure agent sandboxing, faster inference, multi-GPU scaling, and a maturing Windows AI platform, developers building on the over 100 million NVIDIA RTX PCs worldwide have the infrastructure to ship the next generation of AI applications.

Learn more and start developing for NVIDIA RTX AI PCs.

この記事をシェア

関連記事

NVIDIA Developer Blog★42026年6月4日 22:02

NVIDIA Nemotron 3 Ultra が長時間実行型エージェントの推論を高速化・効率化

NVIDIA は、長時間実行型エージェントが推論を行い、文脈を維持し、ツールを活用して効率的に動作するための新モデル「Nemotron 3 Ultra」を発表した。これにより、単発チャットボットから複雑なタスクをこなすエージェントへの進化が加速する。

NVIDIA Developer Blog★42026年6月3日 01:00

Hermes エージェントと NVIDIA NemoClaw を活用し、より高速かつ安全な研究のために自己進化型エージェントをデプロイする

NVIDIA は、データ合成や意思決定支援に強力なツールである AI エージェントの課題解決のため、Hermes エージェントと自社の NemoClaw プラットフォームを組み合わせた手法を発表した。これにより、研究プロセスの高速化とセキュリティ強化を実現できる。

NVIDIA Developer Blog★42026年6月2日 11:00

メモリ効率を重視し、エッジでエージェント対応 AI を展開する NVIDIA JetPack 7.2 の発表

NVIDIA は、AI エージェントが物理環境へ移行する際に実世界での展開を加速させるため、メモリ効率を最適化した「NVIDIA JetPack 7.2」を発表した。これにより、NVIDIA Jetson 上でエッジデバイス向けの実用的な AI エージェントの導入が可能となる。

ニュース一覧に戻る元記事を読む