H社の新Holo2モデルがUIローカライゼーションで先行
H Company は、高解像度インターフェースにおける UI 要素の位置特定精度を劇的に向上させた「Holo2-235B-A22B Preview」モデルを発表し、Screenspot-Pro で SOTA を達成しました。
キーポイント
新モデルと性能記録
2350億パラメータの「Holo2-235B-A22B Preview」が、Screenspot-Pro で 78.5%、OSWorld G で 79.0% の精度を達成し、UI ローカライゼーション分野で新たな SOTA を樹立しました。
アジェンティック・ローカライゼーションの活用
4K 高解像度画面での小さな UI 要素の特定を可能にするため、予測を反復的に refinement する「アジェンティック・ローカライゼーション」技術を導入し、各モデルサイズで相対的に 10-20% の精度向上を実現しました。
大規模トレーニング基盤の効率化
複数のクラウドプロバイダーにまたがる大規模な学習ジョブを管理するために「SkyPilot」を活用し、Kubernetes マニフェストの複雑さを抽象化して研究者がモデル開発に集中できる環境を整備しました。
影響分析・編集コメントを表示
影響分析
この発表は、高解像度かつ複雑化する現代の GUI 環境において、AI が人間のようにインターフェース要素を正確に認識・操作できる能力が飛躍的に向上したことを示しています。特に「アジェンティック」なアプローチと大規模トレーニング基盤の最適化が組み合わさることで、実社会での自動テストやアクセシビリティ支援ツールへの応用が現実味を帯びてきました。
編集コメント
UI ローカライゼーションというニッチかつ実用的な領域で、反復推論(Agentic)の威力を証明する成果であり、GUI 操作自動化の未来像が具体化されつつあります。
記事に戻る H Companyの新Holo2モデル、UIローカライゼーションで先導
Upvote 5 ![]()



最初のHolo2モデル群をリリースしてから2カ月、H Companyは当社最大のUIローカライゼーションモデルとなるHolo2-235B-A22B Previewを発表しました。このモデルは、ScreenSpot-Proで78.5%、OSWorld Gで79.0%という新たなState-of-the-Art (SOTA) 記録を達成しています。
Hugging Faceで利用可能なHolo2-235B-A22B Previewは、UI要素のローカライゼーションに特化した研究用リリースです。

エージェント型ローカライゼーション
高解像度の4Kインターフェースは、ローカライゼーションモデルにとって課題となります。大きなディスプレイ上では、小さなUI要素を正確に特定するのが困難な場合があります。しかし、エージェント型ローカライゼーションにより、Holo2は予測を反復的に改善し、各ステップで精度を高めることができます。これにより、すべてのHolo2モデルサイズで10〜20%の相対的な性能向上を実現しています。
ScreenSpot-ProにおけるHolo2-235B-A22Bの性能
Holo2-235B-A22B Previewは、単一ステップでScreenSpot-Proにおいて70.6%の精度を達成します。エージェントモードでは、3ステップ以内に78.5%を達成し、最も困難なGUIグラウンディングベンチマークにおいて新たなState-of-the-Artを樹立しました。

SkyPilotによるトレーニング
Holo2モデルを大規模にトレーニングするには、複数のクラウドプロバイダーにわたるワークロードの調整が必要です。H Companyは、Kubernetes (k8s) を利用したクラスター上でトレーニングジョブを起動するための統一インターフェースとしてSkyPilotを採用しています。インフラストラクチャの複雑さを抽象化することで、SkyPilotは研究者がk8sマニフェストの管理や個別のデプロイスクリプトのメンテナンスではなく、モデル開発に集中することを可能にします。











原文を表示
Back to Articles H Company's new Holo2 model takes the lead in UI Localization
Upvote 5 ![]()



Two months since releasing our first batch of Holo2 models, H Company is back with our largest UI localization model yet: Holo2-235B-A22B Preview. This model achieves a new State-of-the-Art (SOTA) record of 78.5% on Screenspot-Pro and 79.0% on OSWorld G.
Available on Hugging Face, Holo2-235B-A22B Preview is a research release focused on UI element localization.

Agentic Localization
High-resolution 4K interfaces are challenging for localization models. Small UI elements can be difficult to pinpoint on a large display. With agentic localization, however, Holo2 can iteratively refine its predictions, improving accuracy with each step and unlocking 10-20% relative gains across all Holo2 model sizes.
Holo2-235B-A22B's Performance on ScreenSpot-Pro
Holo2-235B-A22B Preview reaches 70.6% accuracy on ScreenSpot-Pro in a single step. In agent mode, it achieves 78.5% within 3 steps, setting a new state-of-the-art on the most challenging GUI grounding benchmark.

Trained with SkyPilot
Training Holo2 models at scale requires coordinating workloads across multiple cloud providers. H Company uses SkyPilot as a unified interface for launching training jobs on our clusters with Kubernetes (k8s). By abstracting away infrastructure complexity, SkyPilot lets researchers focus on model development instead of managing k8s manifests or maintaining separate deployment scripts.











関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み