ScreenAI:UIと視覚的状況言語理解のための視覚言語モデル
Google Research は、UI やインフォグラフィックの理解・推論に特化したビジョン言語モデル「ScreenAI」を発表し、50 億パラメータという軽量規模で業界最高性能を達成した。
キーポイント
独自のアーキテクチャと学習手法
PaLI アーキテクチャに pix2struct の柔軟なパッチ戦略を組み合わせた ScreenAI は、画面アノテーションという新タスクを含む独自データセットで訓練されている。
軽量モデルでの SOTA 達成
5B パラメータの比較的小さなモデルでありながら、WebSRC や MoTIF などの UI・インフォグラフィックタスクで最先端の結果を記録し、ChartQA や DocVQA でも同規模モデル中最上位の性能を示した。
大規模データ生成と新リソース公開
LLM による自動的な QA データセット生成を可能にする画期的なアノテーション手法を採用し、Screen Annotation、ScreenQA Short、Complex ScreenQA の 3 つの新規データセットをオープンソースとして公開した。
ScreenAI のアーキテクチャと学習手法
PaLI アーキテクチャをベースに pix2struct の柔軟なパッチ戦略を採用し、UI 要素の特定(型、位置、説明)を要求する新規タスク「Screen Annotation」を含む独自のデータセットで訓練されています。
5B パラメータでの高性能達成
わずか 50 億パラメータという軽量サイズでありながら、UI やインフォグラフィックに関する QA タスクにおいて同等規模のモデルと比較して最上位の性能を記録しています。
新データセットの公開
レイアウト理解能力を評価する「Screen Annotation」と、包括的な QA 能力を検証するための「ScreenQA Short」および「Complex ScreenQA」の 3 つの新規データセットが公開されています。
柔軟なパッチ戦略の採用
Pix2structから導入されたグリッド次元を動的に調整する戦略により、入力画像のアスペクト比を維持したまま処理できるため、様々な形状の画面に対応可能。
影響分析・編集コメントを表示
影響分析
この発表は、画面操作やドキュメント分析を必要とするアプリケーション開発において、大規模な計算リソースを要さずに高精度な視覚推論を実現する道を開く画期的な成果です。特に、LLM を活用したデータ生成プロセスの確立により、今後の UI 特化型 AI の研究と実装コストが大幅に低下することが期待されます。
編集コメント
50 億パラメータという軽量サイズで UI 理解タスクの SOTA を更新した点は、リソース制約のある現場での実装可能性を大きく広げるものです。また、データ生成プロセス自体がモデルの一部として統合されたアプローチは、今後の AI エンジニアリングのパラダイムシフトを示唆しています。
<span class="byline-author">投稿者: Srinivas Sunkara および Gilles Baechler, ソフトウェアエンジニア, Google Research</span>
<img src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhoXlMR7pAKRRnyKZT8C40i6mPX0KKNGT6AFNvFOFIhZ7BD0rXaU3NS_aqISTGq9S_d0zozgcO0HR_v3R6Msm4uUDkaBFsFVx-miaDL6L0UhSz1Is8_L_iFjtvNE5OX9HX98t92b3r-rLQfJG1RrzVW354NdVUlIJVRLdQ_l4dFYa1773J-tJligdvh7QsX/s320/ScreenAI%20-%20hero.jpeg" style="display: none;" />
<p>
画面ユーザーインターフェース(UI)や、チャート、図表、表などのインフォグラフィックは、豊かでインタラクティブなユーザー体験を促進するため、人間同士のコミュニケーションや人間と機械のインタラクションにおいて重要な役割を果たしています。UIとインフォグラフィックは、アイコンやレイアウトなどの類似したデザイン原則と視覚的言語を共有しており、これらのインターフェースを理解し、推論し、対話できる単一のモデルを構築する機会を提供します。しかし、その複雑さと多様な表現形式のため、インフォグラフィックとUIは独特のモデリング上の課題を提示しています。
</p>
<p>
この目的のために、私たちは「<a href="https://arxiv.org/abs/2402.04615">ScreenAI: UIとインフォグラフィック理解のための視覚言語モデル</a>」を紹介します。ScreenAIは、<a href="https://arxiv.org/abs/2305.18565">PaLIアーキテクチャ</a>を、<a href="https://arxiv.org/abs/2210.03347">pix2struct</a>の柔軟なパッチング戦略で改良したものです。私たちは、モデルが画面上のUI要素情報(タイプ、位置、説明)を識別することを要求する新しいScreen Annotationタスクを含む、独自のデータセットとタスクの組み合わせでScreenAIをトレーニングしました。これらのテキスト注釈は、大規模言語モデル(LLM)に画面の説明を提供し、質問応答(QA)、UIナビゲーション、要約のトレーニングデータセットを大規模に自動生成することを可能にします。わずか50億パラメータという規模でありながら、ScreenAIはUIおよびインフォグラフィックベースのタスク(<a href="https://x-lance.github.io/WebSRC/">WebSRC</a>および<a href="https://github.com/aburns4/MoTIF">MoTIF</a>)において最先端の結果を達成し、同規模のモデルと比較して、<a href="https://github.com/vis-nlp/ChartQA">Chart QA</a>、<a href="https://rrc.cvc.uab.es/?ch=17&amp;com=evaluation&amp;task=1">DocVQA</a>、<a href="https://arxiv.org/abs/2104.12756">InfographicVQA</a>において最高クラスのパフォーマンスを示します。また、モデルのレイアウト理解能力を評価するための<a href="https://github.com/google-research-datasets/screen_qa?tab=readme-ov-file#screen-annotation-dataset-details">Screen Annotation</a>、およびそのQA能力をより包括的に評価するための<a href="https://github.com/google-research-datasets/screen_qa/tree/main?tab=readme-ov-file#short_answers-directory">ScreenQA Short</a>と<a href="https://github.com/google-research-datasets/screen_qa?tab=readme-ov-file#complexqa" target="_blank">Complex ScreenQA</a>という3つの新しいデータセットも公開します。
</p>
<div style="line-height: 40%;">
<br />
</div>
<h2>ScreenAI</h2>
<p>
ScreenAIのアーキテクチャは、マルチモーダルエンコーダブロックと自己回帰デコーダで構成される<a href="https://arxiv.org/abs/2209.06794">PaLI</a>に基づいています。PaLIエンコーダは、画像埋め込みを作成する<a href="https://arxiv.org/abs/2010.11929">Vision Transformer</a>(ViT)と、画像とテキストの埋め込みの連結を入力として受け取るマルチモーダルエンコーダを使用します。この柔軟なアーキテクチャにより、ScreenAIは、テキスト+画像からテキストへの問題として再構成可能な視覚タスクを解決することができます。
</p>
<p>
PaLIアーキテクチャの上に、pix2structで導入された柔軟なパッチング戦略を採用しています。固定グリッドパターンを使用する代わりに、入力画像の元のアスペクト比を維持するようにグリッド寸法が選択されます。これにより、ScreenAIは様々なアスペクト比の画像でうまく機能することができます。
</p>
<p>
ScreenAIモデルは、事前学習段階とその後に行われるファインチューニング段階の2段階でトレーニングされます。まず、自己教師あり学習を適用してデータラベルを自動生成し、それらを使用してViTと言語モデルをトレーニングします。ViTはファインチューニング段階では凍結され、この段階で使用されるデータのほとんどは人間の評価者によって手動でラベル付けされています。
</p>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto;"><tbody><tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjS1qatfLUw6BZZgkPxrv0Hx1pAPAehiF8q3kfA0BUyyPx4XXpwZRr75nYl99fTIQwLNmOHXhSBbpzHDnw6yQXZls1ZV-IE-d75jP5M02cRSZTYuU8FJBS4mubPzUPIuvcj_oqkEJcWtNWtnLmPZ3P1jJlDmc8GA1WNq00jUwl2o8gfLIIXlknrjy4z6y7Y/s1600/image6.gif" style="margin-left: auto; margin-right: auto;"><img border="0" data-original-height="583" data-origin
原文を表示
<span class="byline-author">Posted by Srinivas Sunkara and Gilles Baechler, Software Engineers, Google Research</span>
<img src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhoXlMR7pAKRRnyKZT8C40i6mPX0KKNGT6AFNvFOFIhZ7BD0rXaU3NS_aqISTGq9S_d0zozgcO0HR_v3R6Msm4uUDkaBFsFVx-miaDL6L0UhSz1Is8_L_iFjtvNE5OX9HX98t92b3r-rLQfJG1RrzVW354NdVUlIJVRLdQ_l4dFYa1773J-tJligdvh7QsX/s320/ScreenAI%20-%20hero.jpeg" style="display: none;" />
<p>
Screen user interfaces (UIs) and infographics, such as charts, diagrams and tables, play important roles in human communication and human-machine interaction as they facilitate rich and interactive user experiences. UIs and infographics share similar design principles and visual language (e.g., icons and layouts), that offer an opportunity to build a single model that can understand, reason, and interact with these interfaces. However, because of their complexity and varied presentation formats, infographics and UIs present a unique modeling challenge.
</p>
<a name='more'></a>
<p>
To that end, we introduce “<a href="https://arxiv.org/abs/2402.04615">ScreenAI: A Vision-Language Model for UI and Infographics Understanding</a>”. ScreenAI improves upon the <a href="https://arxiv.org/abs/2305.18565">PaLI architecture</a> with the flexible patching strategy from <a href="https://arxiv.org/abs/2210.03347">pix2struct</a>. We train ScreenAI on a unique mixture of datasets and tasks, including a novel Screen Annotation task that requires the model to identify UI element information (i.e., type, location and description) on a screen. These text annotations provide large language models (LLMs) with screen descriptions, enabling them to automatically generate question-answering (QA), UI navigation, and summarization training datasets at scale. At only 5B parameters, ScreenAI achieves state-of-the-art results on UI- and infographic-based tasks (<a href="https://x-lance.github.io/WebSRC/">WebSRC</a> and <a href="https://github.com/aburns4/MoTIF">MoTIF</a>), and best-in-class performance on <a href="https://github.com/vis-nlp/ChartQA">Chart QA</a>, <a href="https://rrc.cvc.uab.es/?ch=17&amp;com=evaluation&amp;task=1">DocVQA</a>, and <a href="https://arxiv.org/abs/2104.12756">InfographicVQA</a> compared to models of similar size. We are also releasing three new datasets: <a href="https://github.com/google-research-datasets/screen_qa?tab=readme-ov-file#screen-annotation-dataset-details">Screen Annotation</a> to evaluate the layout understanding capability of the model, as well as <a href="https://github.com/google-research-datasets/screen_qa/tree/main?tab=readme-ov-file#short_answers-directory">ScreenQA Short</a> and <a href="https://github.com/google-research-datasets/screen_qa?tab=readme-ov-file#complexqa" target="_blank">Complex ScreenQA</a> for a more comprehensive evaluation of its QA capability.
</p>
<div style="line-height: 40%;">
<br />
</div>
<h2>ScreenAI</h2>
<p>
ScreenAI’s architecture is based on <a href="https://arxiv.org/abs/2209.06794">PaLI</a>, composed of a multimodal encoder block and an autoregressive decoder. The PaLI encoder uses a <a href="https://arxiv.org/abs/2010.11929">vision transformer</a> (ViT) that creates image embeddings and a multimodal encoder that takes the concatenation of the image and text embeddings as input. This flexible architecture allows ScreenAI to solve vision tasks that can be recast as text+image-to-text problems.
</p>
<p>
On top of the PaLI architecture, we employ a flexible patching strategy introduced in pix2struct. Instead of using a fixed-grid pattern, the grid dimensions are selected such that they preserve the native aspect ratio of the input image. This enables ScreenAI to work well across images of various aspect ratios.
</p>
<p>
The ScreenAI model is trained in two stages: a pre-training stage followed by a fine-tuning stage. First, self-supervised learning is applied to automatically generate data labels, which are then used to train ViT and the language model. ViT is frozen during the fine-tuning stage, where most data used is manually labeled by human raters.
</p>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto;"><tbody><tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjS1qatfLUw6BZZgkPxrv0Hx1pAPAehiF8q3kfA0BUyyPx4XXpwZRr75nYl99fTIQwLNmOHXhSBbpzHDnw6yQXZls1ZV-IE-d75jP5M02cRSZTYuU8FJBS4mubPzUPIuvcj_oqkEJcWtNWtnLmPZ3P1jJlDmc8GA1WNq00jUwl2o8gfLIIXlknrjy4z6y7Y/s1600/image6.gif" style="margin-left: auto; margin-right: auto;"><img border="0" data-original-height="583" data-origin
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み