AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
TLDR AI·2026年6月15日 09:00·約3分で読める

カウント・アンイシング(2 分読了):テキストガイド付き汎用オブジェクト計数モデルの提案

#Computer Vision#Object Counting#Multimodal Learning#Open Source#Generalist Models
TL;DR

Count Anything は、テキストガイド付きで多様なドメインにまたがる物体を数えるための一般化モデルであり、大規模データセット CLOC と二重粒度の推定機構により既存手法を上回る汎用性を達成した。

AI深層分析2026年6月16日 04:09
4
重要/ 5段階
深度40%
5
関連度30%
5
実用性20%
4
革新性10%
5

キーポイント

1

テキストガイド型カウントの統一枠組み

画像と自然言語クエリを入力として受け取り、対象物の位置を示す点セットを返すことで、カテゴリ条件付きカウントと空間局在化を統合した新しい定式化を提案している。

2

大規模クロスドメインデータセット CLOC の構築

一般シーン、リモートセンシング、病理学など 6 つの視覚ドメインにわたる約 22 万枚の画像と 1,500 万件の物体インスタンスを含む CLOC データセットを新たに作成し、ベンチマークを提供した。

3

二重粒度のインスタンス推定アーキテクチャ

大規模で疎な対象には「領域レベル・スパースカウンタ」を、小さく密集した対象には「ピクセルレベル・デンスカウンタ」を採用し、パラメータフリーな融合により高精度なカウントを実現している。

影響分析・編集コメントを表示

影響分析

この研究は、物体カウントタスクにおけるドメイン固有の断片化という長年の課題に対し、テキストガイド型アプローチと大規模データによる一般化能力で決定的な進展をもたらしました。特に、医療画像や衛星画像など専門領域から日常シーンまで跨ぐ汎用性は、実世界での多様な計測・分析タスクへの即時適用を可能にし、ビジョン AI の実用範囲を大幅に拡大する意義があります。

編集コメント

密度マップに依存しない新しいパラダイムと、6 つの異なるドメインを横断する大規模データセットの公開により、物体カウント分野における「一般化」の実現に向けた重要なマイルストーンです。

タイトル:Count Anything

PDF を表示

**

要約:ドメイン固有のデータセットやタスク定義にまたがる物体数え上げは、一般化ビジョンモデルの急速な進展にもかかわらず依然として分断された状態にあります。既存の数え上げモデルは、群衆、車両、細胞、作物、またはリモートセンシングオブジェクトなどのシナリオ向けに特別に設計されていることが多く、カテゴリ間、視覚ドメイン間、物体スケール間、および密度分布間で一般化することに苦労します。本論文では、テキストガイド付きのドメイン横断的な物体数え上げを研究します。これは、モデルが画像と自然言語クエリを入力として受け取り、その基数(cardinality)が数え上げ結果となるインスタンス接地型のターゲット点セットを返すという設定です。この定式化は、カテゴリ条件付きの数え上げと解釈可能な空間位置特定を統合するものです。この設定をサポートするために、多様な公開データソースを統一されたベンチマークに再編成したクロスドメイン大規模物体数え上げデータセット「CLOC」を構築しました。CLOC は 6 つの視覚ドメイン(一般シーン、リモートセンシング、組織病理学、細胞顕微鏡、農業、微生物学)をカバーし、約 22 万枚の画像、619 カテゴリ、1500 万件の物体インスタンスを含みます。CLOC に基づき、テキストガイド付き物体数え上げ用の一般化モデル「Count Anything」を提案します。密度マップベースの方法(これが数え上げモデルを支配しています)とは異なり、「Count Anything」は離散的なインスタンス点を採用し、二重粒度のインスタンス列挙を実行します。「Region-level Sparse Counter(領域レベルのスプースカウンター)」は大規模でスパースなターゲットに対してオブジェクトレベルのアンカーを提供し、「Pixel-level Dense Counter(ピクセルレベルのデンスカウンター)」は密集した小さなターゲットや境界が不明瞭なターゲットを高密度点予測によって処理します。ポイント中心の教師あり学習戦略により、異種のアノテーションから学習が可能となり、相補的数え上げ融合(Complementary Count Fusion)により両方のカウンターをパラメータフリーな方法で組み合わせます。広範な実験により、「Count Anything」は高い精度と多ドメイン一般化能力を実現し、既存のオープンワールド数え上げ手法を上回ることを示しました。コードは以下の URL で利用可能です:this https URL。

**

主題:

コンピュータビジョンとパターン認識 (cs.CV)

引用形式:

arXiv:2605.30846 [cs.CV]

(またはこのバージョンについては

arXiv:2605.30846v1 [cs.CV])

https://doi.org/10.48550/arXiv.2605.30846

arXiv発行のDOI (DataCite経由)

## 提出履歴

From: Mengqi Lei [メールを表示]

[v1]**

2026年5月29日 (金) 05:08:31 UTC (41,518 KB)

原文を表示

Title:Count Anything

View PDF

Abstract:Object counting remains fragmented across domain-specific datasets and task formulations, despite rapid progress in generalist vision models. Existing counting models are often tailored to scenarios such as crowds, vehicles, cells, crops, or remote-sensing objects, and thus struggle to generalize across categories, visual domains, object scales, and density distributions. In this paper, we study text-guided object counting across domains, where a model takes an image and a natural-language query as input and returns an instance-grounded set of target points whose cardinality gives the count. This formulation unifies category-conditioned counting with interpretable spatial localization. To support this setting, we construct CLOC, a Cross-domain Large-scale Object Counting dataset that reorganizes diverse public data sources into a unified benchmark. CLOC covers six visual domains: General Scene, Remote Sensing, Histopathology, Cellular Microscopy, Agriculture, and Microbiology, with about 220K images, 619 categories, and 15M object instances. Based on CLOC, we propose Count Anything, a generalist model for text-guided object counting. Unlike density-map-based methods, which dominate counting models, Count Anything adopts discrete instance points and performs dual-granularity instance enumeration. A Region-level Sparse Counter provides object-level anchors for large and sparse targets, while a Pixel-level Dense Counter handles small, crowded, and weakly bounded targets via dense point prediction. A point-centric supervision strategy enables learning from heterogeneous annotations, and Complementary Count Fusion combines both counters in a parameter-free manner. Extensive experiments show that Count Anything achieves strong accuracy and multi-domain generalization, outperforming existing open-world counting methods. Code is available at: this https URL.

Subjects:

Computer Vision and Pattern Recognition (cs.CV)

Cite as:

arXiv:2605.30846 [cs.CV]

(or

arXiv:2605.30846v1 [cs.CV] for this version)

https://doi.org/10.48550/arXiv.2605.30846

arXiv-issued DOI via DataCite

Submission history

From: Mengqi Lei [view email] [v1]

Fri, 29 May 2026 05:08:31 UTC (41,518 KB)

この記事をシェア

関連記事

AI News★42026年6月19日 00:57

コンピュータビジョンの導入が小売業の生産性向上を牽引

オペレーターが物理的な棚の追跡を自動化することで、利益率の低下を防ぎ、業界全体で数十億ドル規模のコスト削減を実現している。Coresight Researchと技術プロバイダーのSimbe、RELEX Solutionsによる調査がその効果を算出している。

MIT ML News★42026年6月17日 13:00

AI が鍵の置き場所を特定できるか?

MIT の研究者が、ロボットが複雑な大規模環境の詳細な心理モデルを迅速に形成・想起できる長期記憶フレームワークを開発した。これにより、人間と並んで働くロボットの空間時間的記憶能力が向上する可能性がある。

TechCrunch AI★42026年6月15日 21:00

衛星が自律的に物体を検出可能に — その意味とは

人工衛星が自律的に地上の物体を検出する技術を習得した。これにより、通信遅延を減らし、リアルタイムでの監視能力が向上する可能性がある。

今日のまとめ

AI日報で今日の重要ニュースをまとめ読み

ニュース一覧に戻る元記事を読む