#コンピュータビジョン のAIニュース
40件の記事
CA DATA NIGHT #9 〜スポーツの現場を支えるAI・データ活用の最前線〜 開催レポート
Apple、AI による写真編集の幻想に没入
Apple は WWDC 2026 で、現実を正確に捉える必要性を否定し、画像操作を容易にする多数の新 AI 写真編集ツールを発表した。
フューチャーズ・ラボによる実社会向け AI プロトタイプの公開
Google のフューチャーズ・ラボが、実社会で動作する AI プロトタイプを一般に公開した。これにより、AI 技術の実用化事例や未来の応用可能性が示された。
メタ、音声モードとメガネ搭載の「Muse Spark」を公開へ
メタは自社サービス全体で基盤モデル「Muse Spark」を活用し、音声応答の高速化やスマートなショッピング支援、カメラによるリアルタイム視覚認識機能を追加する。この機能はまず米国とカナダのユーザー向けに展開される。
Googleの新作AIツールはストリートビューで映画撮影地の選定を可能にし、衛星画像分析を数週間から数分に短縮
GoogleはCloud Nextで3つの新AI画像ツールを発表した。クリエイターはストリートビューに生成画像を配置でき、自治体は衛星画像分析を数週から数分に短縮できる。
複雑なチャートでは最高のAIモデルも性能が約半分低下、新ベンチマークが発見
RealChart2Codeベンチマークが、実世界データセットから構築された複雑な可視化で14の主要AIモデルをテストした結果、最高の独自モデルでも単純なテストに比べて性能が約半分低下することが判明した。
AWS生成AIサービスで小売を変革
AWSが生成AIサービスを提供し、オンライン小売業者が仮想試着技術を導入することで、購入意欲向上と返品率低減を実現する。
NVIDIA、ロボットシミュレーション訓練を拡張するLyra 2.0を発表
NVIDIAの研究者が、単一写真から大規模で一貫性のある3D環境を生成するシステム「Lyra 2.0」を発表した。生成されたシーンはリアルタイムで探索可能で、ロボットシミュレーションに直接使用できる。
GuideslyがAWS上でアウトドアガイド向けAI生成旅行レポートを構築した方法
Guideslyは、アウトドアレクリエーションの予約・運営・体験を再構築する企業で、AWSを活用してアウトドアガイド向けのAI生成旅行レポートシステムを構築した。
ポッドキャスト:野生生物警察がAIカメラでICEを追跡
野生生物警察がFlockのAI監視カメラデータを移民税関捜査局(ICE)に提供している。また、ウィキペディアのAI使用禁止やセキュアチャットアプリTeleGuardの脆弱性についても議論している。
Netflixが動画から物体を消去し物理効果を再現するAIフレームワーク「VOID」をオープンソース化
Netflixが、動画から物体を削除し、その物体が残した物理的影響(影や反射など)を自動的に調整・再現するAIフレームワーク「VOID」をオープンソースとして公開した。
Know3D、ユーザーがテキストプロンプトで3Dオブジェクトの背面を制御可能に
研究チームが大規模言語モデルの知識を活用し、単一画像から生成した3Dオブジェクトの背面をテキストコマンドで制御する技術を開発した。
バッチモードVC-6とNVIDIA NsightによるビジョンAIパイプラインの高速化
NVIDIAが、ビジョンAIシステムのデコード・前処理・GPU処理などのパイプライン全体を高速化するため、バッチモードVC-6とNVIDIA Nsightを活用する方法を紹介した。
Amazon Nova Actによるエージェント型QA自動化でソフトウェア提供を加速
Amazon Nova Actは、従来のQA自動化の課題(専門知識が必要・脆弱性)を解決し、エージェント型自動化でソフトウェア提供を加速する技術を発表した。
Nomadicが自律走行車のデータ管理のために840万ドルを調達
Nomadic社が自律走行車から流出するデータを管理するために840万ドルを調達した。同社はディープラーニングモデルを使用してロボットの映像を構造化された検索可能なデータセットに変換する。
Naverの「ソウル・ワールド・モデル」、実在するストリートビュー・データを用いてAIによる都市全体の幻覚生成を防止
韓国のインターネット大手Naverが、自社の100万枚以上のストリートビュー画像から都市の実在する幾何学データに基づいたビデオ・ワールド・モデルを構築した。このモデルは、追加の調整なしに他の都市にも一般化できる。
ガウシアンを減らし、テクスチャを増やす:4Kフィードフォワードテクスチャスプラッティング
研究チームがLGTMを開発した。既存手法の解像度拡張性問題を解決し、コンパクトなガウシアンとテクスチャ予測により4K高解像度合成を可能にした。
Googleが「Search Live」を全世界で展開、スマホカメラをリアルタイムAI検索ツールに
Googleが「Search Live」を200か国以上で展開開始した。この機能はユーザーが音声とカメラを使ってGoogle検索と対話できるようにする。
ConntourがGeneral CatalystとYCから700万ドルを調達し、セキュリティ映像システム向けAI検索エンジンを構築
Conntourは、セキュリティチームが自然言語でカメラ映像を検索し、任意の物体・人物・状況を発見できるAIモデルを開発した。同社はGeneral CatalystとYCから700万ドルの資金調達に成功した。
3Dガウシアンスプラッティングのためのドロップイン知覚最適化
研究チームは、3Dガウシアンスプラッティングの知覚最適化戦略を体系的に探索し、39,320件の主観評価を含む大規模人間評価研究を実施した。これにより、従来のピクセルレベル損失によるぼやけたレンダリング問題を改善する手法を提案している。
コンピュータビジョンによる魚類モニタリングの市民科学の強化
マサチューセッツ州の研究者らが、伝統的な目視計数に代わり、コンピュータビジョン技術を活用した魚類モニタリング手法を開発し、減少傾向にあるニシンの個体数動態の把握精度向上を目指している。
ジャンプして遊ぶ:GeminiとMediaPipeでの構築
Googleは、Gemini CanvasとMediaPipe Pose Landmarkerを使用して、モーション制御ゲーム開発のワークフローを効率化する方法を発表した。開発者はGoogle AI Studioで低遅延モデルや安定したトラッキングポイントを最適化できる。
DoorDashが配達員がAIを訓練するための動画を投稿して報酬を得られる新アプリ「Tasks」を発表
DoorDashは配達員が日常業務の動画撮影や他言語での音声記録などのタスクを完了することで報酬を得られる新アプリ「Tasks」を発表した。
Tinder、AIによるカメラロールのスキャン計画
Tinderは、ユーザーのローカル保存写真を機械視覚アルゴリズムでスキャンし、プロフィール作成を支援する計画を発表した。AIはジムの自撮りから家族写真、機密文書まで分析し、ユーザーの興味や価値観を判定する。
TrajTok:軌跡トークンの学習により動画理解が向上
研究者らが、動画モデルの効率と拡張性を向上させるため、外部パイプラインに依存しない統合型トークナイザー「TrajTok」を提案した。
PeacockがAI駆動の動画、モバイルファーストのライブスポーツ、ゲームに進出
Peacockは、AIを活用した動画体験、縦型動画、モバイルゲームを導入し、成長を促進する戦略を発表した。
ウクライナが同盟国に戦場データを公開、自律ドローンのAIモデル訓練へ
ウクライナ政府が同盟国に対して戦場データを公開し、自律ドローン用のAIモデルを訓練する取り組みを開始した。
MetaのJEPAアーキテクチャがノイズの多い医療画像で標準AI手法を上回る
研究者がMetaのJEPAアーキテクチャに基づく心臓超音波AIモデルを発表し、マスク付きオートエンコーダーや対照学習などの標準手法よりも優れた性能を示した。
Googleマップ、AI搭載の「Ask Maps」機能と強化版「没入型」ナビゲーションを導入
Googleは、AIを活用した「Ask Maps」機能と「没入型ナビゲーション」をGoogleマップに追加し、同社はこの没入型ナビゲーションが過去10年以上で最大のアップデートだと述べている。
LiTo: 表面ライトフィールドのトークン化
研究者らが、物体の3D形状と視点依存の外観を同時にモデル化する3D潜在表現を提案した。従来手法は3D形状再構成か視点非依存の外観予測に焦点を当てていたため、現実的な視点依存効果の再現が困難だった。本手法はRGB-D画像が表面ライトフィールドのサンプルを提供する点を活用し、そのランダムサブサンプルをコンパクトな潜在ベクトルセットに符号化することで、両方を表現することを学習する。
ロバストな動画顔偽造検出のためのマルチ周波数融合
研究チームが、単一の軽量な融合手法で2つの手作り特徴量を組み合わせ、より少ないパラメータで高精度な動画顔偽造検出を実現した。Xceptionベースモデルに低周波ウェーブレット特徴と位相特徴を融合するLFWS、およびウェーブレット特徴とLBPを融合するLFWLを構築した。
BumbleがAIを活用した写真フィードバックとプロフィールガイダンスツールを追加
BumbleはAIを活用した写真フィードバック機能とプロフィール作成ガイダンスツールを導入した。Match GroupのTinderやHingeなど他の主要デートアプリも同様にAI機能を採用している。
A.R.I.S.: 深層学習を用いた電子廃棄物分類のための自動リサイクル識別システム
従来の電子廃棄物リサイクルは材料分離・識別能力が不十分で資源損失が大きい。A.R.I.S.は低コスト・携帯型のシュレッダー電子廃棄物選別機で、深層学習により材料回収率を向上させる。
Amazon Rekognition、Amazon Neptune、Amazon Bedrockを使用したインテリジェントな写真検索システムの構築
AWS CDKを活用し、Amazon Rekognitionで顔・物体検出、Amazon Neptuneで関係性マッピング、Amazon BedrockでAIキャプション生成を統合した包括的な写真検索システムの構築方法を紹介。
APAC小売セクターにおけるAIの探求
APAC地域の小売業界では、AIが分析・試験段階から日常業務へ移行中。都市部の店舗密度、高い労働移動率、競争激しいクイックコマースが導入を促進。2025年調査では45%の消費者がAI活用を期待。
Ferret-UI Lite:小型オンデバイスGUIエージェント構築からの教訓
Ferret-UI Liteは、モバイルなど多様なプラットフォームで動作する小型のGUIエージェントで、オンデバイスモデルにおけるGUI操作の課題に取り組む。
SCIN: 代表的な皮膚科画像のための新リソース
Google Researchが公開した皮膚科画像データベースSCINは、多様な皮膚疾患の代表的な画像を提供し、AI診断支援の精度向上に寄与します。
MELON: 未知の姿勢の画像から3Dオブジェクトを再構築
Google Researchが開発したMELONは、姿勢が未知の画像から3Dオブジェクトを再構築する技術で、従来の手法よりも少ないデータで高精度な再構築を実現します。
皮膚科と病理学のための医療特化型埋め込みツール
Google HealthとGoogle Researchの研究者が、皮膚科と病理学向けに医療特化型の埋め込みツールを開発した。このツールは医療画像の分析精度を向上させることを目的としている。
VideoPrism: 映像理解のための基盤的視覚エンコーダ
Google Researchの研究者が、映像理解のための基盤的視覚エンコーダ「VideoPrism」を発表した。このモデルは多様な映像タスクに対応し、映像分析技術の汎用性向上を目指している。