#コンピュータビジョンのAIニュース

40件の記事

Apple は WWDC 2026 で、現実を正確に捉える必要性を否定し、画像操作を容易にする多数の新 AI 写真編集ツールを発表した。

The Verge AI·6月10日·★★★★

フューチャーズ・ラボによる実社会向け AI プロトタイプの公開

Google のフューチャーズ・ラボが、実社会で動作する AI プロトタイプを一般に公開した。これにより、AI 技術の実用化事例や未来の応用可能性が示された。

Google AI Blog·5月29日·★★★★

メタ、音声モードとメガネ搭載の「Muse Spark」を公開へ

メタは自社サービス全体で基盤モデル「Muse Spark」を活用し、音声応答の高速化やスマートなショッピング支援、カメラによるリアルタイム視覚認識機能を追加する。この機能はまず米国とカナダのユーザー向けに展開される。

TLDR AI·5月13日

Googleの新作AIツールはストリートビューで映画撮影地の選定を可能にし、衛星画像分析を数週間から数分に短縮

GoogleはCloud Nextで3つの新AI画像ツールを発表した。クリエイターはストリートビューに生成画像を配置でき、自治体は衛星画像分析を数週から数分に短縮できる。

The Decoder·4月23日

複雑なチャートでは最高のAIモデルも性能が約半分低下、新ベンチマークが発見

RealChart2Codeベンチマークが、実世界データセットから構築された複雑な可視化で14の主要AIモデルをテストした結果、最高の独自モデルでも単純なテストに比べて性能が約半分低下することが判明した。

The Decoder·4月19日·★★★★

AWS生成AIサービスで小売を変革

AWSが生成AIサービスを提供し、オンライン小売業者が仮想試着技術を導入することで、購入意欲向上と返品率低減を実現する。

AWS Machine Learning Blog·4月17日·★★★★

NVIDIA、ロボットシミュレーション訓練を拡張するLyra 2.0を発表

NVIDIAの研究者が、単一写真から大規模で一貫性のある3D環境を生成するシステム「Lyra 2.0」を発表した。生成されたシーンはリアルタイムで探索可能で、ロボットシミュレーションに直接使用できる。

The Decoder·4月17日·★★★★

GuideslyがAWS上でアウトドアガイド向けAI生成旅行レポートを構築した方法

Guideslyは、アウトドアレクリエーションの予約・運営・体験を再構築する企業で、AWSを活用してアウトドアガイド向けのAI生成旅行レポートシステムを構築した。

AWS Machine Learning Blog·4月15日·★★★★

ポッドキャスト：野生生物警察がAIカメラでICEを追跡

野生生物警察がFlockのAI監視カメラデータを移民税関捜査局（ICE）に提供している。また、ウィキペディアのAI使用禁止やセキュアチャットアプリTeleGuardの脆弱性についても議論している。

404 Media·4月8日

Netflixが動画から物体を消去し物理効果を再現するAIフレームワーク「VOID」をオープンソース化

Netflixが、動画から物体を削除し、その物体が残した物理的影響（影や反射など）を自動的に調整・再現するAIフレームワーク「VOID」をオープンソースとして公開した。

The Decoder·4月4日·★★★★

Know3D、ユーザーがテキストプロンプトで3Dオブジェクトの背面を制御可能に

研究チームが大規模言語モデルの知識を活用し、単一画像から生成した3Dオブジェクトの背面をテキストコマンドで制御する技術を開発した。

The Decoder·4月4日·★★★★

バッチモードVC-6とNVIDIA NsightによるビジョンAIパイプラインの高速化

NVIDIAが、ビジョンAIシステムのデコード・前処理・GPU処理などのパイプライン全体を高速化するため、バッチモードVC-6とNVIDIA Nsightを活用する方法を紹介した。

NVIDIA Developer Blog·4月3日

Amazon Nova Actによるエージェント型QA自動化でソフトウェア提供を加速

Amazon Nova Actは、従来のQA自動化の課題（専門知識が必要・脆弱性）を解決し、エージェント型自動化でソフトウェア提供を加速する技術を発表した。

AWS Machine Learning Blog·4月1日·★★★★

Nomadicが自律走行車のデータ管理のために840万ドルを調達

Nomadic社が自律走行車から流出するデータを管理するために840万ドルを調達した。同社はディープラーニングモデルを使用してロボットの映像を構造化された検索可能なデータセットに変換する。

TechCrunch AI·4月1日

Naverの「ソウル・ワールド・モデル」、実在するストリートビュー・データを用いてAIによる都市全体の幻覚生成を防止

韓国のインターネット大手Naverが、自社の100万枚以上のストリートビュー画像から都市の実在する幾何学データに基づいたビデオ・ワールド・モデルを構築した。このモデルは、追加の調整なしに他の都市にも一般化できる。

The Decoder·3月29日·★★★★

ガウシアンを減らし、テクスチャを増やす：4Kフィードフォワードテクスチャスプラッティング

研究チームがLGTMを開発した。既存手法の解像度拡張性問題を解決し、コンパクトなガウシアンとテクスチャ予測により4K高解像度合成を可能にした。

Apple Machine Learning·3月28日·★★★★

Googleが「Search Live」を全世界で展開、スマホカメラをリアルタイムAI検索ツールに

Googleが「Search Live」を200か国以上で展開開始した。この機能はユーザーが音声とカメラを使ってGoogle検索と対話できるようにする。

The Decoder·3月27日·★★★★

ConntourがGeneral CatalystとYCから700万ドルを調達し、セキュリティ映像システム向けAI検索エンジンを構築

Conntourは、セキュリティチームが自然言語でカメラ映像を検索し、任意の物体・人物・状況を発見できるAIモデルを開発した。同社はGeneral CatalystとYCから700万ドルの資金調達に成功した。

TechCrunch AI·3月26日

3Dガウシアンスプラッティングのためのドロップイン知覚最適化

研究チームは、3Dガウシアンスプラッティングの知覚最適化戦略を体系的に探索し、39,320件の主観評価を含む大規模人間評価研究を実施した。これにより、従来のピクセルレベル損失によるぼやけたレンダリング問題を改善する手法を提案している。

Apple Machine Learning·3月26日·★★★★

コンピュータビジョンによる魚類モニタリングの市民科学の強化

マサチューセッツ州の研究者らが、伝統的な目視計数に代わり、コンピュータビジョン技術を活用した魚類モニタリング手法を開発し、減少傾向にあるニシンの個体数動態の把握精度向上を目指している。

MIT ML News·3月26日·★★★★

ジャンプして遊ぶ：GeminiとMediaPipeでの構築

Googleは、Gemini CanvasとMediaPipe Pose Landmarkerを使用して、モーション制御ゲーム開発のワークフローを効率化する方法を発表した。開発者はGoogle AI Studioで低遅延モデルや安定したトラッキングポイントを最適化できる。

Google Developers AI·3月25日

DoorDashが配達員がAIを訓練するための動画を投稿して報酬を得られる新アプリ「Tasks」を発表

DoorDashは配達員が日常業務の動画撮影や他言語での音声記録などのタスクを完了することで報酬を得られる新アプリ「Tasks」を発表した。

TechCrunch AI·3月20日·★★★★

Tinder、AIによるカメラロールのスキャン計画

Tinderは、ユーザーのローカル保存写真を機械視覚アルゴリズムでスキャンし、プロフィール作成を支援する計画を発表した。AIはジムの自撮りから家族写真、機密文書まで分析し、ユーザーの興味や価値観を判定する。

404 Media·3月19日·★★★★

TrajTok：軌跡トークンの学習により動画理解が向上

研究者らが、動画モデルの効率と拡張性を向上させるため、外部パイプラインに依存しない統合型トークナイザー「TrajTok」を提案した。

Apple Machine Learning·3月17日·★★★★

PeacockがAI駆動の動画、モバイルファーストのライブスポーツ、ゲームに進出

Peacockは、AIを活用した動画体験、縦型動画、モバイルゲームを導入し、成長を促進する戦略を発表した。

TechCrunch AI·3月13日

ウクライナが同盟国に戦場データを公開、自律ドローンのAIモデル訓練へ

ウクライナ政府が同盟国に対して戦場データを公開し、自律ドローン用のAIモデルを訓練する取り組みを開始した。

The Decoder·3月13日·★★★★

MetaのJEPAアーキテクチャがノイズの多い医療画像で標準AI手法を上回る

研究者がMetaのJEPAアーキテクチャに基づく心臓超音波AIモデルを発表し、マスク付きオートエンコーダーや対照学習などの標準手法よりも優れた性能を示した。

The Decoder·3月13日·★★★★

Googleマップ、AI搭載の「Ask Maps」機能と強化版「没入型」ナビゲーションを導入

Googleは、AIを活用した「Ask Maps」機能と「没入型ナビゲーション」をGoogleマップに追加し、同社はこの没入型ナビゲーションが過去10年以上で最大のアップデートだと述べている。

TechCrunch AI·3月12日

LiTo: 表面ライトフィールドのトークン化

研究者らが、物体の3D形状と視点依存の外観を同時にモデル化する3D潜在表現を提案した。従来手法は3D形状再構成か視点非依存の外観予測に焦点を当てていたため、現実的な視点依存効果の再現が困難だった。本手法はRGB-D画像が表面ライトフィールドのサンプルを提供する点を活用し、そのランダムサブサンプルをコンパクトな潜在ベクトルセットに符号化することで、両方を表現することを学習する。

Apple Machine Learning·3月12日·★★★★