#コンピュータビジョン のAIニュース
53件の記事
Amazon Nova Actによるエージェント型QA自動化でソフトウェア提供を加速
Amazon Nova Actは、従来のQA自動化の課題(専門知識が必要・脆弱性)を解決し、エージェント型自動化でソフトウェア提供を加速する技術を発表した。
Nomadicが自律走行車のデータ管理のために840万ドルを調達
Nomadic社が自律走行車から流出するデータを管理するために840万ドルを調達した。同社はディープラーニングモデルを使用してロボットの映像を構造化された検索可能なデータセットに変換する。
Naverの「ソウル・ワールド・モデル」、実在するストリートビュー・データを用いてAIによる都市全体の幻覚生成を防止
韓国のインターネット大手Naverが、自社の100万枚以上のストリートビュー画像から都市の実在する幾何学データに基づいたビデオ・ワールド・モデルを構築した。このモデルは、追加の調整なしに他の都市にも一般化できる。
ガウシアンを減らし、テクスチャを増やす:4Kフィードフォワードテクスチャスプラッティング
研究チームがLGTMを開発した。既存手法の解像度拡張性問題を解決し、コンパクトなガウシアンとテクスチャ予測により4K高解像度合成を可能にした。
MetaのSAM 3発表
MetaがSAM 3の詳細情報を公開しました。
SAM 3.1で最大16オブジェクト追跡可能に
MetaのSAM 3.1、オブジェクト多重化技術で最大16オブジェクトを同時追跡
Meta SAM 3.1リリース
SAM 3.1でオブジェクト多重化を導入、AIモデル更新
Googleが「Search Live」を全世界で展開、スマホカメラをリアルタイムAI検索ツールに
Googleが「Search Live」を200か国以上で展開開始した。この機能はユーザーが音声とカメラを使ってGoogle検索と対話できるようにする。
ConntourがGeneral CatalystとYCから700万ドルを調達し、セキュリティ映像システム向けAI検索エンジンを構築
Conntourは、セキュリティチームが自然言語でカメラ映像を検索し、任意の物体・人物・状況を発見できるAIモデルを開発した。同社はGeneral CatalystとYCから700万ドルの資金調達に成功した。
3Dガウシアンスプラッティングのためのドロップイン知覚最適化
研究チームは、3Dガウシアンスプラッティングの知覚最適化戦略を体系的に探索し、39,320件の主観評価を含む大規模人間評価研究を実施した。これにより、従来のピクセルレベル損失によるぼやけたレンダリング問題を改善する手法を提案している。
コンピュータビジョンによる魚類モニタリングの市民科学の強化
マサチューセッツ州の研究者らが、伝統的な目視計数に代わり、コンピュータビジョン技術を活用した魚類モニタリング手法を開発し、減少傾向にあるニシンの個体数動態の把握精度向上を目指している。
MinerU-Diffusion論文発表
文書OCRを拡散デコードによる逆レンダリングとして再考する新手法
ジャンプして遊ぶ:GeminiとMediaPipeでの構築
Googleは、Gemini CanvasとMediaPipe Pose Landmarkerを使用して、モーション制御ゲーム開発のワークフローを効率化する方法を発表した。開発者はGoogle AI Studioで低遅延モデルや安定したトラッキングポイントを最適化できる。
空間トークン生成による視覚言語モデル強化
Perceptio: 空間トークン生成で視覚言語モデルの知覚能力を向上させる新手法
Loc3R-VLM発表
言語ベースの3D推論モデルLoc3R-VLMの論文公開
動画編集の新手法発表
指示に基づく動画編集のための新技術「SAMA」を紹介
空間理解の新モデル発表
生成モデルによる暗黙的3D事前知識を活用したシーン理解の研究論文
MolmoPoint: VLM向け新手法
VLMsのポインティング精度向上のための新手法「Grounding Tokens」を提案
MolmoPoint: VLM向け新手法
VLMsのポインティング精度向上のための新手法「MolmoPoint」発表
V-Co論文発表
視覚表現の整合性向上に関する新手法の研究論文
Ropedia Xperience-10M公開
大規模なエゴセントリックマルチモーダルデータセットがHugging Faceで公開
TrajTok:軌跡トークンの学習により動画理解が向上
研究者らが、動画モデルの効率と拡張性を向上させるため、外部パイプラインに依存しない統合型トークナイザー「TrajTok」を提案した。
マルチモーダルOCR新モデル発表
文書解析ベンチマークで2位のマルチモーダルOCRモデルが発表されました
動画推論モデルの屋外適用可能性
動画推論モデルの屋外環境での実用性に関する研究論文が発表されました。
空間知能の新手法発表
テスト時学習による視覚空間知能のストリーミング手法を提案
ウクライナが同盟国に戦場データを公開、自律ドローンのAIモデル訓練へ
ウクライナ政府が同盟国に対して戦場データを公開し、自律ドローン用のAIモデルを訓練する取り組みを開始した。
Metaが高解像度森林高さマップモデルv2を公開
Metaが高解像度全球森林高さマップモデルCHMv2をオープンソースで公開。
Googleマップ、AI搭載の「Ask Maps」機能と強化版「没入型」ナビゲーションを導入
Googleは、AIを活用した「Ask Maps」機能と「没入型ナビゲーション」をGoogleマップに追加し、同社はこの没入型ナビゲーションが過去10年以上で最大のアップデートだと述べている。
LiTo: 表面ライトフィールドのトークン化
研究者らが、物体の3D形状と視点依存の外観を同時にモデル化する3D潜在表現を提案した。従来手法は3D形状再構成か視点非依存の外観予測に焦点を当てていたため、現実的な視点依存効果の再現が困難だった。本手法はRGB-D画像が表面ライトフィールドのサンプルを提供する点を活用し、そのランダムサブサンプルをコンパクトな潜在ベクトルセットに符号化することで、両方を表現することを学習する。
Penguin-VL効率限界の探求
LLMベース視覚エンコーダーでVLMの効率限界を探る新モデル発表
MatAnyone 2公開
動画マット合成モデルMatAnyone 2がHugging Faceで公開
ロバストな動画顔偽造検出のためのマルチ周波数融合
研究チームが、単一の軽量な融合手法で2つの手作り特徴量を組み合わせ、より少ないパラメータで高精度な動画顔偽造検出を実現した。Xceptionベースモデルに低周波ウェーブレット特徴と位相特徴を融合するLFWS、およびウェーブレット特徴とLBPを融合するLFWLを構築した。
BBQ-to-Image論文発表
大規模テキスト画像モデルにおける数値バウンディングボックスと色制御技術
画像生成の空間理解向上
報酬モデリングによる画像生成の空間理解改善に関する研究発表
BumbleがAIを活用した写真フィードバックとプロフィールガイダンスツールを追加
BumbleはAIを活用した写真フィードバック機能とプロフィール作成ガイダンスツールを導入した。Match GroupのTinderやHingeなど他の主要デートアプリも同様にAI機能を採用している。
Xray-Visual Models発表
産業規模データで視覚モデルをスケーリングする新モデル
A.R.I.S.: 深層学習を用いた電子廃棄物分類のための自動リサイクル識別システム
従来の電子廃棄物リサイクルは材料分離・識別能力が不十分で資源損失が大きい。A.R.I.S.は低コスト・携帯型のシュレッダー電子廃棄物選別機で、深層学習により材料回収率を向上させる。
Amazon Rekognition、Amazon Neptune、Amazon Bedrockを使用したインテリジェントな写真検索システムの構築
AWS CDKを活用し、Amazon Rekognitionで顔・物体検出、Amazon Neptuneで関係性マッピング、Amazon BedrockでAIキャプション生成を統合した包括的な写真検索システムの構築方法を紹介。
長文コンテキスト向け新手法
3D再構築のためのテスト時トレーニング手法を発表
VLANeXtモデル構築レシピ
強力なVLAモデル構築のための手法とレシピを紹介
大規模動画推論スイート発表
新しい動画推論モデルスイートの研究論文が公開されました。
Rolling Sink: 動画生成モデルの新手法
限定的な学習とオープンエンドテストを橋渡しするオートリグレッシブ動画拡散モデル
TARA:ダッシュカム経済評価パイプライン
ダッシュカム映像から経済評価を行う新技術「TARA」の発表
APAC小売セクターにおけるAIの探求
APAC地域の小売業界では、AIが分析・試験段階から日常業務へ移行中。都市部の店舗密度、高い労働移動率、競争激しいクイックコマースが導入を促進。2025年調査では45%の消費者がAI活用を期待。
Ferret-UI Lite:小型オンデバイスGUIエージェント構築からの教訓
Ferret-UI Liteは、モバイルなど多様なプラットフォームで動作する小型のGUIエージェントで、オンデバイスモデルにおけるGUI操作の課題に取り組む。
MetaのSegment Anythingモデルが洪水監視に活用
MetaのAIモデルが災害対応の洪水監視に応用されている。
Meta研究者AMA開催
SAM 3、SAM 3D、SAM Audioの研究者がReddit AMAを実施
MetaのSAM新機能発表
SAM Audio、SAM 3D、SAM 3の新機能をSegment Anything Playgroundで公開
MetaとConservationXがSA-FARIデータセットを公開
10,000以上の注釈付き動画を含むAIデータセットを共同開発
SCIN: 代表的な皮膚科画像のための新リソース
Google Researchが公開した皮膚科画像データベースSCINは、多様な皮膚疾患の代表的な画像を提供し、AI診断支援の精度向上に寄与します。