Ferret-UI Lite:小型オンデバイスGUIエージェント構築からの教訓
Ferret-UI Liteは、モバイルなど多様なプラットフォームで動作する小型のGUIエージェントで、オンデバイスモデルにおけるGUI操作の課題に取り組む。
キーポイント
Appleが開発した小型オンデバイスGUIエージェント「Ferret-UI Lite」を発表
3Bパラメータのコンパクトモデルでモバイル・Web・デスクトップの多様なプラットフォームに対応
実データと合成データの混合、連鎖的思考推論、強化学習を組み合わせた手法で開発
GUIグラウンディングとナビゲーションで競争力のある性能を実証
小型オンデバイスモデルの開発における方法論と教訓を共有
影響分析・編集コメントを表示
影響分析
この研究は、リソース制約のある環境でも効果的なGUIインタラクションを実現する小型AIエージェントの開発手法を示しており、エッジAIやプライバシー重視のアプリケーションへの展開可能性を高める。Appleの研究チームによる実用的な知見の共有は、業界全体の小型モデル開発に影響を与える可能性がある。
編集コメント
Appleが小型オンデバイスモデルの実用化に向けた具体的な手法と成果を公開した点が注目される。特に実データと合成データの混合アプローチは、GUI分野のデータ不足問題への解決策として参考になる。
Ferret-UI Lite: 小型オンデバイスGUIエージェント構築から得られた教訓
著者: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
出版物を見る
グラフィカルユーザーインターフェース(GUI)と効果的に相互作用する自律エージェントの開発は、特に小型のオンデバイスモデルにおいて、依然として困難な未解決の問題です。本論文では、モバイル、ウェブ、デスクトップなど多様なプラットフォームにわたって動作する、コンパクトなエンドツーエンドのGUIエージェントであるFerret-UI Liteを紹介します。小型モデル開発に最適化された技術を活用し、実データと合成データソースから多様なGUIデータ混合物を精選し、連鎖思考推論と視覚的ツール使用による推論時のパフォーマンス強化、そして設計された報酬を用いた強化学習を通じて、3BパラメータのFerret-UI Liteエージェントを構築しました。Ferret-UI Liteは、他の小規模GUIエージェントと競争力のある性能を達成しています。GUIグラウンディングでは、Ferret-UI LiteはScreenSpot-V2、ScreenSpot-Pro、OSWorld-Gベンチマークにおいて、それぞれ91.6%、53.3%、61.2%のスコアを獲得しました。GUIナビゲーションでは、Ferret-UI LiteはAndroidWorldで28.0%、OSWorldで19.8%の成功率を達成しました。我々は、コンパクトなオンデバイスGUIエージェントの開発から得られた手法と教訓を共有します。
関連する文献と最新情報。
Ferret-UI 2: プラットフォームを超えた普遍的なユーザーインターフェース理解の習得
2025年4月10日 研究分野 コンピュータビジョン、研究分野 ヒューマンコンピュータインタラクション 会議 ICLR
プラットフォームの多様性、解像度のばらつき、データの制限など、様々な根本的な問題により、ユーザーインターフェース(UI)理解のための汎用モデルの構築は困難です。本論文では、iPhone、Android、iPad、Webページ、AppleTVなど、幅広いプラットフォームにわたる普遍的なUI理解のために設計されたマルチモーダル大規模言語モデル(MLLM)、Ferret-UI 2を紹介します。Ferret-UIの基盤の上に構築されたFerret-UI 2は…
Ferret-UI: マルチモーダルLLMによる確固たるモバイルUI理解
2024年9月10日 研究分野 コンピュータビジョン、研究分野 ヒューマンコンピュータインタラクション 会議 ECCV
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は注目に値しますが、これらの汎用領域のMLLMは、ユーザーインターフェース(UI)画面を効果的に理解し、相互作用する能力において、しばしば不十分です。本論文では、参照、グラウンディング、推論能力を備え、モバイルUI画面の理解を強化するために調整された新しいMLLM、Ferret-UIを提示します。UI画面は通常、より…
機械学習における機会を発見する。
私たちの機械学習研究は、日々新たな領域を切り開いています。

原文を表示
Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents
AuthorsZhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan
View publication
Developing autonomous agents that effectively interact with Graphic User Interfaces (GUIs) remains a challenging open problem, especially for small on-device models. In this paper, we present Ferret-UI Lite, a compact, end-to-end GUI agent that operates across diverse platforms, including mobile, web, and desktop. Utilizing techniques optimized for developing small models, we build our 3B Ferret-UI Lite agent through curating a diverse GUI data mixture from real and synthetic sources, strengthening inference-time performance through chain-of-thought reasoning and visual tool-use, and reinforcement learning with designed rewards. Ferret-UI Lite achieves competitive performance with other small-scale GUI agents. In GUI grounding, Ferret-UI Lite attains scores of 91.6%, 53.3%, and 61.2% on the ScreenSpot-V2, ScreenSpot-Pro, and OSWorld-G benchmarks, respectively. For GUI navigation, Ferret-UI Lite achieves success rates of 28.0% on AndroidWorld and 19.8% on OSWorld. We share our methods and lessons learned from developing compact, on-device GUI agents.
Related readings and updates.
Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms
April 10, 2025research area Computer Vision, research area Human-Computer Interactionconference ICLR
Building a generalist model for user interface (UI) understanding is challenging due to various foundational issues, such as platform diversity, resolution variation, and data limitation. In this paper, we introduce Ferret-UI 2, a multimodal large language model (MLLM) designed for universal UI understanding across a wide range of platforms, including iPhone, Android, iPad, Webpage, and AppleTV. Building on the foundation of Ferret-UI, Ferret-UI…
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
September 10, 2024research area Computer Vision, research area Human-Computer Interactionconference ECCV
Recent advancements in multimodal large language models (MLLMs) have been noteworthy, yet, these general-domain MLLMs often fall short in their ability to comprehend and interact effectively with user interface (UI) screens. In this paper, we present Ferret-UI, a new MLLM tailored for enhanced understanding of mobile UI screens, equipped with referring, grounding, and reasoning capabilities. Given that UI screens typically exhibit a more…
Discover opportunities in Machine Learning.
Our research in machine learning breaks new ground every day.

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み