Hugging Face Blog·2026年6月2日 23:13·約6分で読める

Holo3.1：高速かつローカル環境でのコンピュータ操作エージェント

#Computer Use Agents #Local AI #Privacy-Preserving AI #Hugging Face

TL;DR

H company は Hugging Face Blog で、ローカル環境で動作し高速な「Holo3.1」という新しいコンピューター使用エージェントを発表しました。

AI深層分析2026年6月11日 23:03

注目/ 5段階

深度40%

キーポイント

ローカル実行とプライバシーの強化

クラウド依存を排し、ユーザーのデータをローカルデバイス上で処理することで、高度なプライバシー保護を実現しています。

高速なエージェント動作の実現

最適化されたアーキテクチャにより、従来のエージェントと比較して著しく高速なタスク実行速度を達成しました。

Hugging Face エコシステムとの統合

H company によって開発され、Hugging Face のプラットフォーム上で公開・利用可能なオープンソースモデルとして提供されています。

多様なモデルサイズと用途

0.8Bから35Bまでの4つのモデルサイズが用意され、軽量ローカル利用から最先端性能まで用途に応じて選択可能。

ローカル・エッジ向け最適化フォーマット

FP8、NVFP4、Q4 GGUFなどの最適化チェックポイントを公開し、ローカル環境やエッジデバイスでの効率的なデプロイを支援。

影響分析・編集コメントを表示

影響分析

この発表は、AI エージェントがクラウド依存から脱却し、ローカル環境で高速かつ安全に動作する可能性を示す重要な一歩です。特にプライバシー規制が厳しくなる中で、ローカル処理を可能にする技術の普及は、企業や個人ユーザーにとって大きなメリットをもたらすでしょう。

編集コメント

クラウド依存からの脱却とローカル処理の高速化は、次世代 AI エージェントの重要なトレンドです。特にプライバシー懸念が高まる中、H company のアプローチは実用性の高い解決策として注目されます。

記事一覧に戻る

昨年3月、私たちは最先端のコンピュータ操作モデル「Holo3」をリリースしました。その採用は即座に始まりました。開発者、企業、パートナーが、ブラウザ自動化や業務用ソフトウェアから内部ツール、デスクトップアプリケーションに至るまで、幅広いワークフローで Holo3 の展開を開始したのです。

採用が進むにつれ、私たちはパフォーマンスだけではもはや不十分であると気づきました。

ユーザーは、デスクトップとモバイルの両方の環境で同じコンピュータ操作機能を実行し、異なるエージェントフレームワーク（agent frameworks）とシームレスに統合することを望んでいます。また、クラウドでの推論からエンドユーザー端末での完全なローカル実行に至るまで、デプロイの柔軟性も求めています。

そこで私たちは「Holo3.1」ファミリーをリリースします。Holo3.1 は、本番環境で最も重要な3つの次元、すなわち環境（Web、デスクトップ、モバイル）、エージェントフレームワーク、およびデプロイ先において、堅牢性を向上させました。初めて、ローカル推論に最適化された量子化チェックポイント（FP8、Q4 GGUF、NVFP4）をリリースします。

Holo3.1 は、環境間での動作、あらゆるエージェントスタックへの統合、そしてワークフローが存在する場所での実行が可能となる「ユニバーサルコンピュータ操作エージェント」という私たちのビジョンに向けた大きな一歩です。

GUI 環境とエージェントハーンチスにおけるコンピュータ操作

Qwen ファミリーを基盤に設計された Holo3.1 は、最先端のパフォーマンスを維持しつつ、実際にコンピュータ操作エージェントが展開される環境全体での堅牢性の向上を目指しています。

チームが Holo3 を評価から本番環境へ移行する際、私たちは繰り返し同じ課題に直面しました：ある環境での優れたパフォーマンスが、必ずしも別の環境でも発揮されるとは限らないことです。モバイルデバイス、代替のエージェントハネス、異なる実行フレームワークはすべて、独自の分布シフトの原因をもたらします。

Mobile Automation

Holo3.1 は、ブラウザおよびデスクトップ制御を超えて Holo3 の機能を拡張し、モバイル環境において大きな性能向上を実現しました。AndroidWorld における評価では、35B-A3B モデルが 67% から 79.3% に改善し、より小規模な 4B および 9B バリアントも 58% から 72% に向上しています。

Cross-Harness Performance

サードパーティのエージェントスタック内で Holo3 をデプロイするチームをよりよく支援するため、Holo3.1 は、既存の構造化 JSON 出力に加え、関数呼び出しプロトコルに対するネイティブサポートを導入しました。

OSWorld および e コマース、ビジネスソフトウェア、コラボレーションワークフローをカバーする内部ベンチマークスイート全体において、関数呼び出しとネイティブ実行は現在、ほぼ同等のパフォーマンスを達成しています。また、Holo3.1 は、当社の Holotab 製品ハネス内で評価された際、Holo3 を上回る 25% 以上の改善をもたらします。

Smaller Sizes for Cost-Performance Tradeoffs

さらにローカルおよびオンデバイス推論を可能にするため、最先端のパフォーマンスを提供する大規模な 35B-A3B モデルに加え、コスト効率に優れプライバシー保護が可能なデプロイを実現するための小規模モデル（0.8B、4B、9B）も新たにリリースします。

*Holo3.1 および Qwen 3.5 ファミリーにおけるパフォーマンスとコストの比較。全体のパフォーマンスは、まず 4 つの H Corporate ベンチマークを平均化し（これにより各ファミリーが等しく重み付けされ）、その後 OSWorld、AndroidWorld、H Corporate、ScreenSpot-Pro、OSWorld-G にわたる平均値を算出します。

コンシューマー向けハードウェアにおけるローカルエージェントへ向けて

これは、量子化された重みを搭載した最初のリリースです。まずは 35B-A3B チェックポイントから開始し、FP8、Q4 GGUF、NVFP4 の形式で提供します。

NVFP4 については、NVIDIA の Model Optimizer を使用して W4A16 構成で処理しました。これらのチェックポイントは、モデル性能へのほとんどないしは全くない低下を伴いながら、Computer Use Agents（コンピュータ操作エージェント）のための高速なローカル推論を可能にします。FP8 と NVFP4 は同じ OSWorld スコアを達成しており、完全精度の BF16 チェックポイントよりもわずか 2 ポイント程度低いだけです。

速度向上は顕著です。DGX Spark 上では、NVFP4 W4A16 は FP8 の総トークンスループットに対して 1.41 倍、BF16 に対して 1.74 倍の性能を発揮します。

コンシューマー向けハードウェアでのローカルエージェントの実現

また、Computer Use Agents をコンシューマー向けハードウェアでローカルに展開することを目的とした Q4 GGUF チェックポイントもリリースしました。

エージェント自体は Windows または Mac マシン上でローカルで実行され、モデルはその同じマシン上（Apple Silicon 用の参照数値を含んでいます）で動作するか、または同一ネットワーク上の DGX Spark 上で動作します。どちらの場合でも、実行は完全にプライベートかつローカルに留まり、ユーザーのネットワークから何も外部へ流出することはありません。

Spark において、NVIDIA と共同で開発したエージェントハーネスの最適化と、前述の NVFP4 量子化を組み合わせることで、FP8 ベースラインと比較してエンドツーエンドで約 2 倍の高速化が実現され、平均ステップ時間が 6.8 秒から 3.3 秒に短縮されました。

*プラットフォームおよび精度ごとのエージェントリクエストレート。DGX Spark 上では、デフォルトモードとファストモードの両方で NVFP4 を採用した vLLM が最高速のリクエストレートを達成し、次いで Q4 GGUF および FP8 が続きます。これらの改善点を含むさらなる機能は、今後のデスクトップ用エージェントハーネスに実装される予定です。

利用可能性

Holo3.1 ファミリーは 4 つのサイズで提供されています：

モデル

デプロイメントターゲット

Holo3.1-0.8B

超軽量ローカルエージェント

Holo3.1-4B

コスト効率の高いデプロイメント

Holo3.1-9B

パフォーマンスとレイテンシのバランス型

Holo3.1-35B-A3B

最先端のパフォーマンス

また、ローカルおよびエッジ向けデプロイメント用の最適化された FP8、NVFP4、Q4 GGUF チェックポイントも同時にリリースします。

始め方

Holo Models API: https://hcompany.ai/holo-models-api

Hugging Face: https://huggingface.co/collections/Hcompany/holo31

開発者が Holo3.1 を用いてどのような成果を築くか、楽しみにしています。

原文を表示

Back to Articles

Last March, we released Holo3, our state-of-the-art computer-use model. Adoption was immediate. Developers, enterprises, and partners started deploying Holo3 across a wide range of workflows, from browser automation and business software to internal tools and desktop applications. As adoption grew, we realized performance alone was no longer enough.

Users want to run the same computer-use capabilities across desktop and mobile environments, with seamless integration with different agent frameworks. They want deployment flexibility, from cloud inference to fully local execution on end-user devices.

This is why we are releasing the Holo3.1 family. Holo3.1 improves robustness across the three dimensions that matter most in production: environments (web, desktop, mobile), agent frameworks, and deployment targets. For the first time, we release quantized checkpoints optimized for local inference, including FP8, Q4 GGUF, and NVFP4.

Holo3.1 is a major step toward our vision of universal computer-use agents: systems that can operate across environments, integrate into any agent stack, and run wherever the workflow lives.

Computer Use Across GUI Environments and Agent Harnesses

Based on the Qwen family, Holo3.1 was designed to improve robustness across the environments where computer-use agents are actually deployed, while retaining state-of-the-art performance.

As teams moved Holo3 from evaluation to production, we repeatedly observed the same challenge: strong performance in one setting does not necessarily transfer to another. Mobile devices, alternative agent harnesses, and different execution frameworks all introduce their own sources of distribution shift.

Mobile Automation

Holo3.1 expands Holo3's capabilities beyond browser and desktop control, delivering major gains on mobile environments. On AndroidWorld, our 35B-A3B model improves from 67% to 79.3%, while the smaller 4B and 9B variants improve from 58% to 72%.

Cross-Harness Performance

To better support teams deploying Holo inside third-party agent stacks, Holo3.1 introduces native support for function-calling protocols in addition to the structured JSON outputs already available in Holo3.

Across OSWorld and our internal benchmark suite covering e-commerce, business software, and collaboration workflows, function-calling and native execution now achieve near-parity performance. Holo3.1 also delivers more than a 25% improvement over Holo3 when evaluated inside our Holotab product harness.

Smaller Sizes for Cost-Performance Tradeoffs

To further enable local and on-device inference, we are also releasing new model sizes including small models (0.8B, 4B, and 9B) for cost-effective and private deployment, in addition to the larger 35B-A3B model for state-of-the-art performance.

*Performance versus cost for the Holo3.1 and Qwen 3.5 families. Overall performance averages the four H Corporate benchmarks first (so each family is equally weighted), then takes the mean across OSWorld, AndroidWorld, H Corporate, ScreenSpot-Pro, and OSWorld-G.*

Fast & Local Inference

This is our first release to ship quantized weights. We’re starting with 35B-A3B checkpoints, available in FP8, Q4 GGUF, and NVFP4.

For NVFP4, we used NVIDIA's Model Optimizer in a W4A16 configuration. These checkpoints enable fast local inference for Computer Use Agents with little to no degradation in model performance. FP8 and NVFP4 achieve the same OSWorld scores, only about two points below the full-precision BF16 checkpoint.

The speedups are substantial: on DGX Spark, NVFP4 W4A16 delivers 1.41× the total token throughput of FP8 and 1.74× that of BF16.

Towards Local Agents on Consumer Hardware

We also release Q4 GGUF checkpoints aimed at local deployment of Computer Use Agents on consumer hardware.

The agent itself runs locally on a Windows or Mac machine, while the model can either run on that same machine—we include reference numbers for Apple Silicon—or on a DGX Spark on the same network. In both cases, execution stays fully private and local, with nothing leaving the user's network.

On Spark, agent harness optimizations we developed with NVIDIA combined with the NVFP4 quantization above deliver a compound ~2× end-to-end speedup over the FP8 baseline, cutting average step time from 6.8s to 3.3s.

*Agent request rate across platforms and precisions. On DGX Spark, vLLM with NVFP4 achieves the highest request rate in both Default and Fast modes, followed by Q4 GGUF and FP8. These improvements and more will land in an upcoming desktop agent harness.*

Availability

The Holo3.1 family is available in four sizes:

Model

Deployment Target

Holo3.1-0.8B

Ultra-lightweight local agents

Holo3.1-4B

Cost-efficient deployment

Holo3.1-9B

Balanced performance and latency

Holo3.1-35B-A3B

State-of-the-art performance

We are also releasing optimized FP8, NVFP4, and Q4 GGUF checkpoints for local and edge deployment.

Get Started

Holo Models API: https://hcompany.ai/holo-models-api

Hugging Face: https://huggingface.co/collections/Hcompany/holo31

We look forward to seeing what developers build with Holo3.1.

この記事をシェア

TLDR AI★42026年6月17日 09:00

Android 17 が AI エージェント統合を拡大（8 分読了）

Google は Android 17 で AppFunctions と Android MCP を導入し、オンデバイス AI エージェントがアプリからツールを発見・実行できる機能を追加した。これはプラットフォーム全体での AI 統合を深める「インテリジェンスシステム」への移行の一環である。

Latent Space★42026年6月3日 14:49

[AI ニュース] Microsoft Build：MAI-Thinking-1 と MAI ファミリーモデルを発表

Microsoft の Satya Nadella 氏と Mustafa Suleyman 氏が、Microsoft Build で 7 つの新しい MAI モデル（MAI-Thinking-1 など）を発表した。これにより GitHub とエージェントの関係性についても議論された。

Smol AI News★42026年6月2日 14:44

Microsoft Build：MAI-Thinking-1 と MAI ファミリーモデル、Surface RTX Spark Dev Box、Windows の OpenClaw を発表

マイクロソフトは開発者向けカンファレンス「Build」で、思考能力を強化した AI モデル「MAI-Thinking-1」を含む新シリーズ、専用開発機「Surface RTX Spark Dev Box」、および Windows 向けの「OpenClaw」を発表しました。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

Hugging Face Blog·2026年6月2日 23:13·約6分で読める

Holo3.1：高速かつローカル環境でのコンピュータ操作エージェント

#Computer Use Agents #Local AI #Privacy-Preserving AI #Hugging Face

TL;DR

H company は Hugging Face Blog で、ローカル環境で動作し高速な「Holo3.1」という新しいコンピューター使用エージェントを発表しました。

AI深層分析2026年6月11日 23:03

注目/ 5段階

深度40%

キーポイント

ローカル実行とプライバシーの強化

クラウド依存を排し、ユーザーのデータをローカルデバイス上で処理することで、高度なプライバシー保護を実現しています。

高速なエージェント動作の実現

最適化されたアーキテクチャにより、従来のエージェントと比較して著しく高速なタスク実行速度を達成しました。

Hugging Face エコシステムとの統合

H company によって開発され、Hugging Face のプラットフォーム上で公開・利用可能なオープンソースモデルとして提供されています。

多様なモデルサイズと用途

0.8Bから35Bまでの4つのモデルサイズが用意され、軽量ローカル利用から最先端性能まで用途に応じて選択可能。

ローカル・エッジ向け最適化フォーマット

FP8、NVFP4、Q4 GGUFなどの最適化チェックポイントを公開し、ローカル環境やエッジデバイスでの効率的なデプロイを支援。

影響分析・編集コメントを表示

影響分析

編集コメント

記事一覧に戻る

採用が進むにつれ、私たちはパフォーマンスだけではもはや不十分であると気づきました。

GUI 環境とエージェントハーンチスにおけるコンピュータ操作

Mobile Automation

Cross-Harness Performance

Smaller Sizes for Cost-Performance Tradeoffs

コンシューマー向けハードウェアにおけるローカルエージェントへ向けて

これは、量子化された重みを搭載した最初のリリースです。まずは 35B-A3B チェックポイントから開始し、FP8、Q4 GGUF、NVFP4 の形式で提供します。

速度向上は顕著です。DGX Spark 上では、NVFP4 W4A16 は FP8 の総トークンスループットに対して 1.41 倍、BF16 に対して 1.74 倍の性能を発揮します。

コンシューマー向けハードウェアでのローカルエージェントの実現

また、Computer Use Agents をコンシューマー向けハードウェアでローカルに展開することを目的とした Q4 GGUF チェックポイントもリリースしました。

利用可能性

Holo3.1 ファミリーは 4 つのサイズで提供されています：

モデル

デプロイメントターゲット

Holo3.1-0.8B

超軽量ローカルエージェント

Holo3.1-4B

コスト効率の高いデプロイメント

Holo3.1-9B

パフォーマンスとレイテンシのバランス型

Holo3.1-35B-A3B

最先端のパフォーマンス

また、ローカルおよびエッジ向けデプロイメント用の最適化された FP8、NVFP4、Q4 GGUF チェックポイントも同時にリリースします。

始め方

Holo Models API: https://hcompany.ai/holo-models-api

Hugging Face: https://huggingface.co/collections/Hcompany/holo31

開発者が Holo3.1 を用いてどのような成果を築くか、楽しみにしています。

原文を表示

Back to Articles

Holo3.1 is a major step toward our vision of universal computer-use agents: systems that can operate across environments, integrate into any agent stack, and run wherever the workflow lives.

Computer Use Across GUI Environments and Agent Harnesses

Based on the Qwen family, Holo3.1 was designed to improve robustness across the environments where computer-use agents are actually deployed, while retaining state-of-the-art performance.

Mobile Automation

Cross-Harness Performance

Smaller Sizes for Cost-Performance Tradeoffs

Fast & Local Inference

This is our first release to ship quantized weights. We’re starting with 35B-A3B checkpoints, available in FP8, Q4 GGUF, and NVFP4.

The speedups are substantial: on DGX Spark, NVFP4 W4A16 delivers 1.41× the total token throughput of FP8 and 1.74× that of BF16.

Towards Local Agents on Consumer Hardware

We also release Q4 GGUF checkpoints aimed at local deployment of Computer Use Agents on consumer hardware.

Availability

The Holo3.1 family is available in four sizes:

Model

Deployment Target

Holo3.1-0.8B

Ultra-lightweight local agents

Holo3.1-4B

Cost-efficient deployment

Holo3.1-9B

Balanced performance and latency

Holo3.1-35B-A3B

State-of-the-art performance

We are also releasing optimized FP8, NVFP4, and Q4 GGUF checkpoints for local and edge deployment.

Get Started

Holo Models API: https://hcompany.ai/holo-models-api

Hugging Face: https://huggingface.co/collections/Hcompany/holo31

We look forward to seeing what developers build with Holo3.1.

この記事をシェア

TLDR AI★42026年6月17日 09:00

Android 17 が AI エージェント統合を拡大（8 分読了）

Latent Space★42026年6月3日 14:49

[AI ニュース] Microsoft Build：MAI-Thinking-1 と MAI ファミリーモデルを発表

Smol AI News★42026年6月2日 14:44

Microsoft Build：MAI-Thinking-1 と MAI ファミリーモデル、Surface RTX Spark Dev Box、Windows の OpenClaw を発表

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む

キーポイント

影響分析

編集コメント

GUI 環境とエージェントハーンチスにおけるコンピュータ操作

Mobile Automation

Cross-Harness Performance

Smaller Sizes for Cost-Performance Tradeoffs

コンシューマー向けハードウェアにおけるローカルエージェントへ向けて

コンシューマー向けハードウェアでのローカルエージェントの実現

利用可能性

始め方

Computer Use Across GUI Environments and Agent Harnesses

Mobile Automation

Cross-Harness Performance

Smaller Sizes for Cost-Performance Tradeoffs

Fast & Local Inference

Towards Local Agents on Consumer Hardware

Availability

Get Started

関連記事

キーポイント

影響分析

編集コメント

GUI 環境とエージェントハーンチスにおけるコンピュータ操作

Mobile Automation

Cross-Harness Performance

Smaller Sizes for Cost-Performance Tradeoffs

コンシューマー向けハードウェアにおけるローカルエージェントへ向けて

コンシューマー向けハードウェアでのローカルエージェントの実現

利用可能性

始め方

Computer Use Across GUI Environments and Agent Harnesses

Mobile Automation

Cross-Harness Performance

Smaller Sizes for Cost-Performance Tradeoffs

Fast & Local Inference

Towards Local Agents on Consumer Hardware

Availability

Get Started

関連記事