Holotron-12B - 高スループットコンピュータ使用エージェント
H社が公開したHolotron-12Bは、ハイブリッドSSMアーキテクチャを採用したマルチモーダルコンピュータ使用エージェント向けモデルで、長文脈と複数画像を効率的に処理し、高スループット推論を実現する。
キーポイント
コンピュータ使用エージェント向けに最適化
従来のマルチモーダルモデルが静的視覚や指示追従を主目的とするのに対し、Holotron-12Bはインタラクティブ環境で知覚・判断・行動するエージェントのポリシーモデルとして設計されている。
ハイブリッドSSMアーキテクチャによる効率化
State-Space Model(SSM)とアテンション機構を組み合わせた設計により、長文脈推論時の二次的計算コストを回避し、KVキャッシュのメモリフットプリントを大幅に削減している。
NVIDIA Nemotronモデルを基盤
オープンなNVIDIA Nemotron-Nano-2 VLモデルをH社独自のデータでポストトレーニングし、推論効率とスケーラビリティを高めた。
実運用でのスケールと性能を重視
生産環境での高スループット提供を最適化し、複数画像を含む長文脈を扱いながらエージェントベンチマークで良好な性能を発揮することを目指している。
性能向上とスループットの優位性
Holotron-12BはWebVoyager BenchmarkでHolo2-8Bと比較して2倍以上のスループットを達成し、最大同時実行数100で8.9k tokens/sのトークンスループットを実現した。
トレーニングと評価のプロセス
NVIDIAのNemotron-Nano-12B-v2-VL-BF16をベースに、H Companyの独自データで教師ありファインチューニングを行い、約140億トークンでトレーニングされた。
ベンチマークでの性能向上
WebVoyagerのパフォーマンスが35.1%から80.5%に向上し、OS-World-G、GroundUI、WebClickなどのローカライゼーションベンチマークでも大幅な改善を示した。
影響分析・編集コメントを表示
影響分析
この発表は、AIエージェントが実際のコンピュータ環境で効率的に動作するための基盤技術の進展を示しており、従来の静的タスク中心のマルチモーダルモデルから、インタラクティブな実世界応用への転換点となる可能性がある。特にSSMアーキテクチャの採用は、長文脈処理のコスト課題を解決し、実用的なエージェントシステムの普及を加速させる技術的基盤を提供する。
編集コメント
エージェントAIの実用化に向けた重要な技術的進展であり、特にSSMアーキテクチャによる効率化は、長文脈処理の課題解決として業界全体に影響を与える可能性が高い。ただし、具体的なベンチマーク結果や実装詳細が限定的なため、今後の実証データに注目が必要。
記事に戻る Holotron-12B - 高スループット・コンピュータ利用エージェント
アップボート 4


H社のマルチモーダル・コンピュータ利用モデル「Holotron-12B」のリリースをお知らせできることを大変嬉しく思います。オープンなNVIDIA Nemotron-Nano-2 VLモデルを、H社独自のデータミックスでポストトレーニングしたHolotron-12Bは、主に本番環境におけるスケールとパフォーマンスに最適化された新種のモデルを設計するため、当社の研究ラボが緊密に協力した成果です。
H社はNVIDIAインキュベーションプログラムの参加企業です。
このモデルは現在Hugging Faceで利用可能です。
Holotron-12Bを開発した理由
現在のほとんどのマルチモーダルモデルは、主に静的な画像理解や指示追従に最適化されています。しかし、当社のHolo2モデルと同様に、Holotron-12Bには異なる目標があります。それは、インタラクティブな環境において効率的に知覚、判断、行動しなければならないコンピュータ利用エージェントのためのポリシーモデルとして機能することです。
Holotron-12Bでは、本番環境で効率的かつ効果的にスケールし、複数の画像を含む長いコンテキストを扱いながら、エージェントベンチマークでも高い性能を発揮できるモデルを構築したいと考えました。NVIDIA Nemotronモデルは推論面で強固な基盤を提供し、Holotron-12Bの開発を通じて、さらなるトレーニングによってモデルの可能性がどれだけ拡大するかを実証しました。
ハイブリッドSSMアーキテクチャによる高スループット推論
Holotron-12Bの推論効率における大きな飛躍は、ハイブリッド状態空間モデル(SSM)とアテンションメカニズムを採用した基盤となるNemotronアーキテクチャによって実現されています。純粋なトランスフォーマーベースのモデルとは異なり、この設計は高スループットでの運用に最適化されています。状態空間モデルは、フルアテンションメカニズムに伴う二次的な計算コストを回避することで、長いコンテキストの推論に対して優れたスケーラビリティを提供し、特に複数の画像と長いインタラクション履歴を含むエージェントワークロードで効果を発揮します。推論の観点では、SSMの主な利点はメモリフットプリントの劇的な削減です。従来のアテンションはトークンとレイヤーごとにKとVの活性化(いわゆるKVキャッシュ)を保存しますが、SSMは線形リカレントモデルであり、生成されるシーケンスごとにレイヤーあたり一定の状態のみを保存するため、シーケンス長に依存しません。
WebVoyagerベンチマークでの評価では、このモデルは、長いコンテキスト、複数の高解像度画像、100のベンチマークワーカーによる高いリクエスト並列性を特徴とする、実世界のマルチモーダルエージェントワークロードにおいて優れた性能を示しました。単一のH100 GPU上で、最新のSSM最適化(v0.14.1)を施したvLLMを使用して実行した場合、Holotron-12BはHolo2-8Bと比較して2倍以上のスループットを達成しました。これにより、Holotron-12Bはデータ生成、アノテーション、オンライン強化学習などのスループットが重要なワークロードにおいて、魅力的な選択肢となります。
制御された実験環境(図2参照)では、Holotron-12Bは並列性が増加しても効率的にスケールし続け、総トークンスループットは最大並列数100において8.9kトークン/秒まで着実に上昇しました。対照的に、Holo2-8Bの総トークンスループットは5.1kトークン/秒ではるかに早く頭打ちになります。この挙動は、Nemotronアーキテクチャの重要な強み、すなわちより効果的で効率的なVRAM利用と、より小さな全体的なメモリフットプリントを浮き彫りにしており、同じハードウェア上でより大きな実効バッチサイズを可能にします。大きなバッチサイズでも、Holotron-12Bは高いスループットを維持します。
Holotron-12Bのトレーニングと評価
Holotron-12Bは2段階でトレーニングされました。NVIDIAが公開したマルチモーダルベースモデル「Nemotron-Nano-12B-v2-VL-BF16」を出発点としました。その後、H社独自のローカライゼーションおよびナビゲーションデータミックスに対して教師ありファインチューニングを実施し、画面理解、グラウンディング、UIレベルのインタラクションに重点を置きました。
最終チェックポイントは約140億トークンでトレーニングされました。
エージェントベンチマーク
コンピュータ利用およびナビゲーションベンチマークにおいて、Holotron-12BはNemotronベースモデルに対して大幅な改善を示し、確立されたエージェントモデルと比較しても高い性能を発揮します。WebVoyagerのスコアは35.1%から80.5%に向上し、このベンチマークにおけるHolo2-8Bの性能を上回り、エージェントとしての設定下で効果的に機能する能力を示しています。
ローカライゼーションベンチマーク
Holotron-12Bは、OS-World-G、GroundUI、WebClickなどのローカライゼーションおよびグラウンディングベンチマークにおいても、ベースのNemotronモデルに対して大幅に改善されています。
Holotron-12Bは、適切なトレーニング設定とインフラストラクチャ作業と組み合わせることで、NVIDIA Nemotron VLモデルが実世界のマルチモーダルエージェントにとって強固な基盤を提供することを実証しています。
このモデルは、高いエージェント性能、大幅に改善された推論スループット、そして特に高解像度の視覚トレーニングに関する将来の改善への明確な道筋を提供します。
皆様がHolotron-12Bでどのようなものを構築されるか、楽しみにしております。このモデルとチェックポイントは、NVIDIAオープンモデルライセンスの下、現在Hugging Faceで公開されています。
次のステップ: Nemotron 3 Omniによるエージェント知能の未来へのスケーリング
NVIDIAは本日、Nemotron 3 Omniのリリースを発表しました。Holotron-12Bの成功を踏まえ、私たちはこの次世代マルチモーダルモデルのポストトレーニングを準備しています。Nemotron 3ファミリーの強化されたハイブリッドSSM-アテンションとMoE(Mixture of Experts)のアーキテクチャ基盤を活用することで、新たに発表されたNemotron 3 Omniを用いて、推論能力とマルチモーダル精度においてさらなる大きな飛躍を実現することを目指しています。この進化により、Holotronは研究の枠を超えて商用アプリケーションへと発展し、大規模な自律的「コンピュータ利用」の展開に必要とされる、高スループットかつ低レイテンシーの性能を企業に提供することになります。


















原文を表示
Back to Articles Holotron-12B - High Throughput Computer Use Agent
Upvote 4


We're thrilled to release Holotron-12B, a multimodal computer-use model from H Company. Post-trained from the open NVIDIA Nemotron-Nano-2 VL model on H Company’s proprietary data mixture, Holotron-12B is the result of a close collaboration between our research labs to engineer a new type of model optimized primarily for scale and performance in production.
H Company is part of the NVIDIA Inception Program.
The model is now available on Hugging Face.
Why We Built Holotron-12B
Most multimodal models today optimize primarily for static vision or following instructions. Holotron-12B, just like our Holo2 model, however, has a different goal: serving as a policy model for computer-use agents that must perceive, decide, and act efficiently in interactive environments.
With Holotron-12B, we wanted to create a model that could efficiently and effectively scale in production while handling long contexts with multiple images, and still perform well on agent benchmarks. The NVIDIA Nemotron model offered a strong foundation on the inference side, and by developing Holotron-12B we've demonstrated how much more the model can accomplish with further training.
High Throughput Inference with a Hybrid SSM Architecture
Holotron-12B's significant leap in inference efficiency is made possible by its foundational Nemotron architecture, which utilizes a hybrid State-Space Model (SSM) and attention mechanism. Unlike purely transformer-based models, this design is optimized for high-throughput serving. State-space models offer superior scalability for long-context inference by avoiding the quadratic computation cost associated with the full attention mechanism, particularly benefiting agentic workloads involving multiple images and lengthy interaction histories. In terms of inference, the main contribution of an SSM is its dramatically reduced memory-footprint: while vanilla attention stores K and V activations per token and layer (the notorious KV Cache), SSMs are a linear recurrent model, storing only a constant state per layer per generated sequence, independent of the length of the sequence.
When evaluated on the WebVoyager Benchmark, the model excels using a real-world multimodal agentic workload featuring long context, multiple high-resolution images, and a high request concurrency of 100 benchmark workers. Running on a single H100 GPU and using vLLM with the latest SSM optimizations (v0.14.1), Holotron-12B achieved an over 2x higher throughput compared to Holo2-8B. This makes Holotron-12B an attractive choice for throughput-bound workloads, such as data generation, annotation, and online reinforcement learning.
In a controlled experiment setup (see figure 2), Holotron-12B continues to scale efficiently as concurrency increases, with total token throughput rising steadily to 8.9k tokens/s at a max concurrency of 100. In contrast, the total token throughput of Holo2-8B plateaus much more quickly at 5.1k tokens/s. This behaviour highlights a key strength of the Nemotron architecture, namely more effective and efficient VRAM utilization, and smaller overall memory footprint, which allows much larger effective batch sizes on the same hardware. Even at large batch sizes, Holotron-12B maintains strong throughput.
Training and Evaluating Holotron-12B
Holotron-12B was trained in two stages. We started from Nemotron-Nano-12B-v2-VL-BF16, a multimodal base model published by NVIDIA. We then performed supervised fine-tuning on H Company’s proprietary localization and navigation data mixture, focusing on screen understanding, grounding, and UI-level interactions.
The final checkpoint was trained on approximately 14 billion tokens.
Agent Benchmarks
On computer-use and navigation benchmarks, Holotron-12B shows strong improvements over the Nemotron base model and strong performance with established agent models. Its WebVoyager performance increased from 35.1% to 80.5%, exceeding Holo2-8B’s performance on the benchmark and illustrating the model’s ability to perform effectively in an agentic setting.
Localization Benchmarks
Holotron-12B also improves substantially over the base Nemotron model on localization and grounding benchmarks such as OS-World-G, GroundUI, and WebClick.
Holotron-12B demonstrates that the NVIDIA Nemotron VL model provides a strong foundation for real-world multimodal agents when paired with the right training setup and infrastructure work.
The model offers strong agent performance, significantly improved inference throughput, and a clear path for future improvements, particularly around higher-resolution vision training.
We look forward to seeing what others build with Holotron-12B. The model and checkpoints are available now on Hugging Face under an NVIDIA Open Model License.
What’s next: Scaling the Future of Agentic Intelligence with Nemotron 3 Omni
NVIDIA announced today the release of Nemotron 3 Omni. Building on the success of Holotron-12B, we are preparing to post-train this next generation of multimodal models. By leveraging the enhanced hybrid SSM-Attention and MoE architectural foundations of the Nemotron 3 family, we aim to deliver even greater leaps in reasoning capabilities and multimodal precision with the newly announced Nemotron 3 Omni. As this evolution pushes Holotron beyond research and into a commercial application, it will provide enterprises with the high-throughput, low-latency performance required for massive-scale autonomous "computer use" deployments.


















関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み