Apple研究者がFerret-UI Liteを発表、UIを見て操作するオンデバイスAIモデル
Appleが開発したFerret-UI Liteは、モバイルやデスクトップ画面を理解し、UI要素を操作できる3BパラメータのオンデバイスAIモデルです。
キーポイント
Appleが3BパラメータのオンデバイスAIモデル「Ferret-UI Lite」を発表し、GUIの視覚理解と操作を可能にした
大規模モデルに依存せず、プライバシー保護と低遅延を実現する小型GUIエージェントの開発に成功
合成データと実データの混合、Chain-of-Thought推論、強化学習を組み合わせた手法で、大規模モデルと同等以上の性能を達成
影響分析・編集コメントを表示
影響分析
この技術は、AIアシスタントの実用性を大幅に向上させ、特に視覚障害者支援や自動化ツール開発に革新をもたらす可能性がある。オンデバイス処理によるプライバシー保護と低遅延は、モバイルAIの新たな基準を設定し、業界の小型化・効率化トレンドを加速させる。
編集コメント
大規模モデル依存からの脱却と実用的なオンデバイスAIの実現は、業界の重要な転換点となる可能性がある。特にプライバシーと応答性の両立は、消費者向けAI製品の新たな基準を提示している。
Appleの研究者が、UIを認識・制御するオンデバイスAIモデル「Ferret-UI Lite」を発表
Appleの研究者が、UIを認識・制御するオンデバイスAIモデル「Ferret-UI Lite」を発表
2026年2月24日 読了時間 2分
Sergio De Simone
InfoQ寄稿者
本記事を聴く - 0:00 再生準備完了 お使いのブラウザはオーディオ要素をサポートしていません。 0:00 0:00 標準1.25倍速1.5倍速 読み上げリスト
AppleのFerret-UI Liteは、モバイルおよびデスクトップ画面向けに最適化された30億パラメータのモデルであり、画面画像を解釈し、アイコンやテキストなどのUI要素を理解し、メッセージを読んだり健康データをチェックするなどしてアプリと対話するように設計されています。
この研究は、モバイル、ウェブ、デスクトップなど複数のプラットフォームにわたるグラフィカルユーザーインターフェース(GUI)と直接対話できる、コンパクトなオンデバイスGUIエージェントの構築に焦点を当てています。
関連論文で研究者らは、「既存のGUIエージェントに関する手法の大半は、逆に、GPTやGeminiのような大規模基盤モデルに焦点を当てている」と指摘し、これによりこれらのエージェントは「多様なGUIナビゲーションタスクにおいて印象的な能力」を獲得していると述べています。しかし、その代償として「モデルの複雑さ、必要な計算リソース、推論時間」の増大、さらには高いレイテンシ、プライバシー保証の低下、ネットワーク接続への依存が生じています。このことが、競争力のある小型のオンデバイスエンドツーエンドエージェントの開発を研究する動機となりましたが、これは依然として困難な課題です。
小型モデル開発のために最適化された技術を活用し、我々は30億パラメータのFerret-UI Liteエージェントを構築しました。その手法は、実データと合成データ源から多様なGUIデータを精選して組み合わせること、連鎖思考推論と視覚的ツール利用による推論時のパフォーマンス強化、そして設計された報酬を用いた強化学習です。
研究者らは説明します。Ferret-UI Liteは、画面画像の切り抜きと連鎖思考プロンプトを用いて、小さなUI要素を含む複雑なレイアウトを理解する精度を向上させます。この戦略により、「大規模モデルと比較して競争力のある、場合によっては優れた性能」がもたらされ、ScreenSpot-V2でのGUIグラウンディングタスク(自然言語の指示に基づいて特定のUI要素の位置を特定・識別するタスク)で91.6%、ScreenSpot-Proで53.3%、OSWorld-Gで61.2%を達成しました。GUIナビゲーションタスクでは、AndroidWorldで成功率28.0%、OSWorldで19.8%を達成しました。
学習には、2段階のパイプラインが採用されました。第1段階では、実データと合成データを組み合わせた多様なGUIインタラクションデータを用いた教師ありファインチューニング(SFT)が行われました。第2段階では、検証可能な報酬を用いた強化学習(RLVR)を適用し、厳密な模倣ではなくタスクの成功を最適化しました。さらに、アクション形式を標準化し、「ズームイン」や連鎖思考推論といった推論時技術を含めることで、モデルの知覚精度を高めました。
研究者らは結論として、GUIグラウンディングとナビゲーションのデータは互いに補完し合うことができ、多様なソースからの合成データを精選することで両タスクのパフォーマンスが大幅に向上すると述べています。さらに、連鎖思考推論と視覚的ツールは改善をもたらすものの、その効果には限界があるとしています。欠点としては、小型モデルは依然として長期的で多段階のタスクに苦戦し、報酬設計の影響を受けやすい点が挙げられています。
研究者らは、Ferret-UI Liteがオンデバイスの「インテリジェント」エージェントとして機能し、AppleがSiriにおけるGoogle Cloudへの依存を減らしながら「プライバシーシールド」を提供できる可能性を示唆しています。
著者について
Sergio De Simone
この記事を評価する
このコンテンツはMobileトピックに属しています
関連トピック:
AI, ML & データエンジニアリング
大規模言語モデル
関連エディトリアル
関連スポンサー
関連スポンサー
2026年3月5日 午前11時(EST) Apache Airflowを用いた本番環境対応AIワークフローのオーケストレーション
講演者: Tamara Fingerlin - Astronomer シニアデベロッパーアドボケート、Pranav Bahadur - Astronomer プロダクトマーケティングマネージャー
The InfoQ Newsletter
毎週火曜日配信、InfoQで先週公開されたコンテンツのまとめ。25万人以上のシニア開発者コミュニティに参加しましょう。 サンプルを見る
私たちはあなたのプライバシーを保護します。
原文を表示
InfoQ Homepage News Apple Researchers Introduce Ferret-UI Lite, an On-Device AI Model for Seeing and Controlling UIs
Apple Researchers Introduce Ferret-UI Lite, an On-Device AI Model for Seeing and Controlling UIs
Feb 24, 2026 2 min read
Sergio De Simone
Write for InfoQ
Listen to this article - 0:00 Audio ready to play Your browser does not support the audio element. 0:00 0:00 Normal1.25x1.5x Like Reading list
Apple's Ferret-UI Lite is a 3B-parameter model optimized for mobile and desktop screens, designed to interpret screen images, understand UI elements such as icons and text, and interact with apps by, e.g., reading messages, checking health data, and more.
The study centers on building compact, on-device GUI agents capable of directly interacting with graphical user interfaces (GUIs) across platforms, including mobile, web, and desktop.
In the related paper, the researchers observe that "the majority of existing methods on GUI agents, contrarily, focus on large foundation models", such as GPT and Gemini, granting these agents "impressive capabilities in diverse GUI navigation tasks". However, this comes at the cost of "modeling complexity, compute budget requirements, and inference time" as well as higher latency, reduced privacy guarantees, and dependency on network connectivity. This motivated the authors to investigate the development of competitive, small, on-device end-to-end agents, which remain challenging.
Utilizing techniques optimized for developing small models, we build our 3B Ferret-UI Lite agent through curating a diverse GUI data mixture from real and synthetic sources, strengthening inference-time performance through chain-of-thought reasoning and visual tool-use, and reinforcement learning with designed rewards.
Ferret-UI Lite, the researchers explain, uses screen image cropping and chain-of-thought prompting to improve accuracy in understanding complex layouts with small UI elements. This strategy brings "competitive, or in some cases superior, performance compared to larger models", achieving 91.6% in GUI grounding tasks (which involve locating and identifying specific UI elements based on natural-language instructions) on ScreenSpot-V2, 53.3% on ScreenSpot-Pro, and 61.2% on OSWorld-G. For GUI navigation tasks, it achieved success rates of 28.0% on AndroidWorld and 19.8% on OSWorld.
For training, the researchers employed a two-stage pipeline. The first stage leveraged supervised fine-tuning (SFT) on a diverse mixture of real and synthetic GUI interaction data. In the second stage, they applied reinforcement learning with verifiable rewards (RLVR) to optimize for task success rather than strict imitation. Additionally, they standardized action formats and included inference-time techniques such as “zoom-in” and chain-of-thought reasoning, to enhance the model’s perceptual accuracy.
The researchers conclude that GUI grounding and navigation data can complement each other, and that the curation of synthetic data from diverse sources significantly improves performance in both tasks. Furthermore, while chain-of-thought reasoning and visual tools bring improvements, their benefit is limited. On the downside, small models continue to struggle with long-horizon, multi-step tasks and are sensitive to reward design.
The researchers suggest that Ferret-UI Lite could function as an on-device "intelligent" agent, enabling Apple to reduce dependence on Google Cloud for Siri while offering a "privacy shield".
About the Author
Sergio De Simone
Rate this Article
This content is in the Mobile topic
Related Topics:
AI, ML & Data Engineering
Large language models
Related Editorial
Related Sponsors
Related Sponsor
March 5th, 2026, 11 AM EST Orchestrating Production-Ready AI Workflows with Apache Airflow
Presented by: Tamara Fingerlin - Senior Developer Advocate at Astronomer, and Pranav Bahadur - Product Marketing Manager at Astronomer
The InfoQ Newsletter
A round-up of last week’s content on InfoQ sent out every Tuesday. Join a community of over 250,000 senior developers. View an example
We protect your privacy.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み