Apple Machine Learning·2026年2月17日 09:00·約3分

Ferret-UI Lite：小型オンデバイスGUIエージェント構築からの教訓

#マルチモーダルLLM #オンデバイスAI #GUI理解 #強化学習 #Apple #コンピュータビジョン

TL;DR

Ferret-UI Liteは、モバイルなど多様なプラットフォームで動作する小型のGUIエージェントで、オンデバイスモデルにおけるGUI操作の課題に取り組む。

AI深層分析2026年2月26日 16:42

重要/ 5段階

キーポイント

Appleが開発した小型オンデバイスGUIエージェント「Ferret-UI Lite」を発表

3Bパラメータのコンパクトモデルでモバイル・Web・デスクトップの多様なプラットフォームに対応

実データと合成データの混合、連鎖的思考推論、強化学習を組み合わせた手法で開発

GUIグラウンディングとナビゲーションで競争力のある性能を実証

小型オンデバイスモデルの開発における方法論と教訓を共有

影響分析・編集コメントを表示

影響分析

この研究は、リソース制約のある環境でも効果的なGUIインタラクションを実現する小型AIエージェントの開発手法を示しており、エッジAIやプライバシー重視のアプリケーションへの展開可能性を高める。Appleの研究チームによる実用的な知見の共有は、業界全体の小型モデル開発に影響を与える可能性がある。

編集コメント

Appleが小型オンデバイスモデルの実用化に向けた具体的な手法と成果を公開した点が注目される。特に実データと合成データの混合アプローチは、GUI分野のデータ不足問題への解決策として参考になる。

Ferret-UI Lite: 小型オンデバイスGUIエージェント構築から得られた教訓

著者: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan

出版物を見る

グラフィカルユーザーインターフェース（GUI）と効果的に相互作用する自律エージェントの開発は、特に小型のオンデバイスモデルにおいて、依然として困難な未解決の問題です。本論文では、モバイル、ウェブ、デスクトップなど多様なプラットフォームにわたって動作する、コンパクトなエンドツーエンドのGUIエージェントであるFerret-UI Liteを紹介します。小型モデル開発に最適化された技術を活用し、実データと合成データソースから多様なGUIデータ混合物を精選し、連鎖思考推論と視覚的ツール使用による推論時のパフォーマンス強化、そして設計された報酬を用いた強化学習を通じて、3BパラメータのFerret-UI Liteエージェントを構築しました。Ferret-UI Liteは、他の小規模GUIエージェントと競争力のある性能を達成しています。GUIグラウンディングでは、Ferret-UI LiteはScreenSpot-V2、ScreenSpot-Pro、OSWorld-Gベンチマークにおいて、それぞれ91.6%、53.3%、61.2%のスコアを獲得しました。GUIナビゲーションでは、Ferret-UI LiteはAndroidWorldで28.0%、OSWorldで19.8%の成功率を達成しました。我々は、コンパクトなオンデバイスGUIエージェントの開発から得られた手法と教訓を共有します。

関連する文献と最新情報。

Ferret-UI 2: プラットフォームを超えた普遍的なユーザーインターフェース理解の習得

2025年4月10日研究分野コンピュータビジョン、研究分野ヒューマンコンピュータインタラクション会議 ICLR

プラットフォームの多様性、解像度のばらつき、データの制限など、様々な根本的な問題により、ユーザーインターフェース（UI）理解のための汎用モデルの構築は困難です。本論文では、iPhone、Android、iPad、Webページ、AppleTVなど、幅広いプラットフォームにわたる普遍的なUI理解のために設計されたマルチモーダル大規模言語モデル（MLLM）、Ferret-UI 2を紹介します。Ferret-UIの基盤の上に構築されたFerret-UI 2は…

Ferret-UI: マルチモーダルLLMによる確固たるモバイルUI理解

2024年9月10日研究分野コンピュータビジョン、研究分野ヒューマンコンピュータインタラクション会議 ECCV

マルチモーダル大規模言語モデル（MLLM）の最近の進歩は注目に値しますが、これらの汎用領域のMLLMは、ユーザーインターフェース（UI）画面を効果的に理解し、相互作用する能力において、しばしば不十分です。本論文では、参照、グラウンディング、推論能力を備え、モバイルUI画面の理解を強化するために調整された新しいMLLM、Ferret-UIを提示します。UI画面は通常、より…

機械学習における機会を発見する。

私たちの機械学習研究は、日々新たな領域を切り開いています。

原文を表示

Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

AuthorsZhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan

View publication

Developing autonomous agents that effectively interact with Graphic User Interfaces (GUIs) remains a challenging open problem, especially for small on-device models. In this paper, we present Ferret-UI Lite, a compact, end-to-end GUI agent that operates across diverse platforms, including mobile, web, and desktop. Utilizing techniques optimized for developing small models, we build our 3B Ferret-UI Lite agent through curating a diverse GUI data mixture from real and synthetic sources, strengthening inference-time performance through chain-of-thought reasoning and visual tool-use, and reinforcement learning with designed rewards. Ferret-UI Lite achieves competitive performance with other small-scale GUI agents. In GUI grounding, Ferret-UI Lite attains scores of 91.6%, 53.3%, and 61.2% on the ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI navigation, Ferret-UI Lite achieves success rates of 28.0% on AndroidWorld and 19.8% on OSWorld. We share our methods and lessons learned from developing compact, on-device GUI agents.

Ferret-UI Lite：小型オンデバイスGUIエージェント構築からの教訓

#マルチモーダルLLM #オンデバイスAI #GUI理解 #強化学習 #Apple #コンピュータビジョン

TL;DR

Ferret-UI Liteは、モバイルなど多様なプラットフォームで動作する小型のGUIエージェントで、オンデバイスモデルにおけるGUI操作の課題に取り組む。

AI深層分析2026年2月26日 16:42

重要/ 5段階

キーポイント

Appleが開発した小型オンデバイスGUIエージェント「Ferret-UI Lite」を発表

3Bパラメータのコンパクトモデルでモバイル・Web・デスクトップの多様なプラットフォームに対応

実データと合成データの混合、連鎖的思考推論、強化学習を組み合わせた手法で開発

GUIグラウンディングとナビゲーションで競争力のある性能を実証

小型オンデバイスモデルの開発における方法論と教訓を共有

影響分析・編集コメントを表示

影響分析

編集コメント

Ferret-UI Lite: 小型オンデバイスGUIエージェント構築から得られた教訓

出版物を見る

Ferret-UI Lite：小型オンデバイスGUIエージェント構築からの教訓

キーポイント

影響分析

編集コメント

関連記事

Ferret-UI Lite：小型オンデバイスGUIエージェント構築からの教訓

キーポイント

影響分析

編集コメント

関連記事