#コンピュータビジョン のAIニュース

53件の記事

Amazon Nova Actによるエージェント型QA自動化でソフトウェア提供を加速

Amazon Nova Actは、従来のQA自動化の課題(専門知識が必要・脆弱性)を解決し、エージェント型自動化でソフトウェア提供を加速する技術を発表した。

AWS Machine Learning Blog·4月1日·★★★★

Nomadicが自律走行車のデータ管理のために840万ドルを調達

Nomadic社が自律走行車から流出するデータを管理するために840万ドルを調達した。同社はディープラーニングモデルを使用してロボットの映像を構造化された検索可能なデータセットに変換する。

TechCrunch AI·4月1日

Naverの「ソウル・ワールド・モデル」、実在するストリートビュー・データを用いてAIによる都市全体の幻覚生成を防止

韓国のインターネット大手Naverが、自社の100万枚以上のストリートビュー画像から都市の実在する幾何学データに基づいたビデオ・ワールド・モデルを構築した。このモデルは、追加の調整なしに他の都市にも一般化できる。

The Decoder·3月29日·★★★★

ガウシアンを減らし、テクスチャを増やす:4Kフィードフォワードテクスチャスプラッティング

研究チームがLGTMを開発した。既存手法の解像度拡張性問題を解決し、コンパクトなガウシアンとテクスチャ予測により4K高解像度合成を可能にした。

Apple Machine Learning·3月28日·★★★★

MetaのSAM 3発表

MetaがSAM 3の詳細情報を公開しました。

X: AI at Meta·3月28日

SAM 3.1で最大16オブジェクト追跡可能に

MetaのSAM 3.1、オブジェクト多重化技術で最大16オブジェクトを同時追跡

X: AI at Meta·3月28日·★★★★

Meta SAM 3.1リリース

SAM 3.1でオブジェクト多重化を導入、AIモデル更新

X: AI at Meta·3月28日·★★★★

Googleが「Search Live」を全世界で展開、スマホカメラをリアルタイムAI検索ツールに

Googleが「Search Live」を200か国以上で展開開始した。この機能はユーザーが音声とカメラを使ってGoogle検索と対話できるようにする。

The Decoder·3月27日·★★★★

ConntourがGeneral CatalystとYCから700万ドルを調達し、セキュリティ映像システム向けAI検索エンジンを構築

Conntourは、セキュリティチームが自然言語でカメラ映像を検索し、任意の物体・人物・状況を発見できるAIモデルを開発した。同社はGeneral CatalystとYCから700万ドルの資金調達に成功した。

TechCrunch AI·3月26日

3Dガウシアンスプラッティングのためのドロップイン知覚最適化

研究チームは、3Dガウシアンスプラッティングの知覚最適化戦略を体系的に探索し、39,320件の主観評価を含む大規模人間評価研究を実施した。これにより、従来のピクセルレベル損失によるぼやけたレンダリング問題を改善する手法を提案している。

Apple Machine Learning·3月26日·★★★★

コンピュータビジョンによる魚類モニタリングの市民科学の強化

マサチューセッツ州の研究者らが、伝統的な目視計数に代わり、コンピュータビジョン技術を活用した魚類モニタリング手法を開発し、減少傾向にあるニシンの個体数動態の把握精度向上を目指している。

MIT ML News·3月26日·★★★★

MinerU-Diffusion論文発表

文書OCRを拡散デコードによる逆レンダリングとして再考する新手法

X: AK·3月26日

ジャンプして遊ぶ:GeminiとMediaPipeでの構築

Googleは、Gemini CanvasとMediaPipe Pose Landmarkerを使用して、モーション制御ゲーム開発のワークフローを効率化する方法を発表した。開発者はGoogle AI Studioで低遅延モデルや安定したトラッキングポイントを最適化できる。

Google Developers AI·3月25日

空間トークン生成による視覚言語モデル強化

Perceptio: 空間トークン生成で視覚言語モデルの知覚能力を向上させる新手法

X: AK·3月25日

Loc3R-VLM発表

言語ベースの3D推論モデルLoc3R-VLMの論文公開

X: AK·3月21日

動画編集の新手法発表

指示に基づく動画編集のための新技術「SAMA」を紹介

X: AK·3月21日

空間理解の新モデル発表

生成モデルによる暗黙的3D事前知識を活用したシーン理解の研究論文

X: AK·3月21日·★★★★

MolmoPoint: VLM向け新手法

VLMsのポインティング精度向上のための新手法「Grounding Tokens」を提案

X: AK·3月19日

MolmoPoint: VLM向け新手法

VLMsのポインティング精度向上のための新手法「MolmoPoint」発表

X: AK·3月19日

V-Co論文発表

視覚表現の整合性向上に関する新手法の研究論文

X: AK·3月19日

Ropedia Xperience-10M公開

大規模なエゴセントリックマルチモーダルデータセットがHugging Faceで公開

X: AK·3月18日

TrajTok:軌跡トークンの学習により動画理解が向上

研究者らが、動画モデルの効率と拡張性を向上させるため、外部パイプラインに依存しない統合型トークナイザー「TrajTok」を提案した。

Apple Machine Learning·3月17日·★★★★

マルチモーダルOCR新モデル発表

文書解析ベンチマークで2位のマルチモーダルOCRモデルが発表されました

X: AK·3月16日

動画推論モデルの屋外適用可能性

動画推論モデルの屋外環境での実用性に関する研究論文が発表されました。

X: AK·3月14日

空間知能の新手法発表

テスト時学習による視覚空間知能のストリーミング手法を提案

X: AK·3月14日

ウクライナが同盟国に戦場データを公開、自律ドローンのAIモデル訓練へ

ウクライナ政府が同盟国に対して戦場データを公開し、自律ドローン用のAIモデルを訓練する取り組みを開始した。

The Decoder·3月13日·★★★★

Metaが高解像度森林高さマップモデルv2を公開

Metaが高解像度全球森林高さマップモデルCHMv2をオープンソースで公開。

X: AI at Meta·3月13日

Googleマップ、AI搭載の「Ask Maps」機能と強化版「没入型」ナビゲーションを導入

Googleは、AIを活用した「Ask Maps」機能と「没入型ナビゲーション」をGoogleマップに追加し、同社はこの没入型ナビゲーションが過去10年以上で最大のアップデートだと述べている。

TechCrunch AI·3月12日

LiTo: 表面ライトフィールドのトークン化

研究者らが、物体の3D形状と視点依存の外観を同時にモデル化する3D潜在表現を提案した。従来手法は3D形状再構成か視点非依存の外観予測に焦点を当てていたため、現実的な視点依存効果の再現が困難だった。本手法はRGB-D画像が表面ライトフィールドのサンプルを提供する点を活用し、そのランダムサブサンプルをコンパクトな潜在ベクトルセットに符号化することで、両方を表現することを学習する。

Apple Machine Learning·3月12日·★★★★

Penguin-VL効率限界の探求

LLMベース視覚エンコーダーでVLMの効率限界を探る新モデル発表

X: AK·3月10日

MatAnyone 2公開

動画マット合成モデルMatAnyone 2がHugging Faceで公開

X: AK·3月10日

ロバストな動画顔偽造検出のためのマルチ周波数融合

研究チームが、単一の軽量な融合手法で2つの手作り特徴量を組み合わせ、より少ないパラメータで高精度な動画顔偽造検出を実現した。Xceptionベースモデルに低周波ウェーブレット特徴と位相特徴を融合するLFWS、およびウェーブレット特徴とLBPを融合するLFWLを構築した。

Apple Machine Learning·3月6日

BBQ-to-Image論文発表

大規模テキスト画像モデルにおける数値バウンディングボックスと色制御技術

X: AK·3月5日

画像生成の空間理解向上

報酬モデリングによる画像生成の空間理解改善に関する研究発表

X: AK·3月3日·★★★★

BumbleがAIを活用した写真フィードバックとプロフィールガイダンスツールを追加

BumbleはAIを活用した写真フィードバック機能とプロフィール作成ガイダンスツールを導入した。Match GroupのTinderやHingeなど他の主要デートアプリも同様にAI機能を採用している。

TechCrunch AI·2月27日

Xray-Visual Models発表

産業規模データで視覚モデルをスケーリングする新モデル

X: AK·2月26日

A.R.I.S.: 深層学習を用いた電子廃棄物分類のための自動リサイクル識別システム

従来の電子廃棄物リサイクルは材料分離・識別能力が不十分で資源損失が大きい。A.R.I.S.は低コスト・携帯型のシュレッダー電子廃棄物選別機で、深層学習により材料回収率を向上させる。

Apple Machine Learning·2月25日·★★★★

Amazon Rekognition、Amazon Neptune、Amazon Bedrockを使用したインテリジェントな写真検索システムの構築

AWS CDKを活用し、Amazon Rekognitionで顔・物体検出、Amazon Neptuneで関係性マッピング、Amazon BedrockでAIキャプション生成を統合した包括的な写真検索システムの構築方法を紹介。

AWS Machine Learning Blog·2月25日·★★★★

長文コンテキスト向け新手法

3D再構築のためのテスト時トレーニング手法を発表

X: AK·2月25日

VLANeXtモデル構築レシピ

強力なVLAモデル構築のための手法とレシピを紹介

X: AK·2月25日·★★★★

大規模動画推論スイート発表

新しい動画推論モデルスイートの研究論文が公開されました。

X: AK·2月25日

Rolling Sink: 動画生成モデルの新手法

限定的な学習とオープンエンドテストを橋渡しするオートリグレッシブ動画拡散モデル

X: AK·2月25日·★★★★

TARA:ダッシュカム経済評価パイプライン

ダッシュカム映像から経済評価を行う新技術「TARA」の発表

X: Claude·2月21日

APAC小売セクターにおけるAIの探求

APAC地域の小売業界では、AIが分析・試験段階から日常業務へ移行中。都市部の店舗密度、高い労働移動率、競争激しいクイックコマースが導入を促進。2025年調査では45%の消費者がAI活用を期待。

AI News·2月21日·★★★★

Ferret-UI Lite:小型オンデバイスGUIエージェント構築からの教訓

Ferret-UI Liteは、モバイルなど多様なプラットフォームで動作する小型のGUIエージェントで、オンデバイスモデルにおけるGUI操作の課題に取り組む。

Apple Machine Learning·2月17日·★★★★

MetaのSegment Anythingモデルが洪水監視に活用

MetaのAIモデルが災害対応の洪水監視に応用されている。

X: AI at Meta·12月23日

Meta研究者AMA開催

SAM 3、SAM 3D、SAM Audioの研究者がReddit AMAを実施

X: AI at Meta·12月18日

MetaのSAM新機能発表

SAM Audio、SAM 3D、SAM 3の新機能をSegment Anything Playgroundで公開

X: AI at Meta·12月17日

MetaとConservationXがSA-FARIデータセットを公開

10,000以上の注釈付き動画を含むAIデータセットを共同開発

X: AI at Meta·11月25日

SCIN: 代表的な皮膚科画像のための新リソース

Google Researchが公開した皮膚科画像データベースSCINは、多様な皮膚疾患の代表的な画像を提供し、AI診断支援の精度向上に寄与します。

Google Research Blog·3月20日·★★★★