#computer vision のAIニュース
48件の記事
動画拡散潜在変数からの三角形スプラット生成(5 分読了)
研究チームが、動画拡散モデルの潜在表現から三角形スプラットを直接生成する手法を発表し、3D 再構築の効率化を実現した。
スナップの AI スペックス:笑えるほど奇妙な体験
404 Media は、チャールズ国王の肖像画を背景に、巨大で重たい Snap Specs を装着した際、デジタル版が実像に重ねられ、ナレーターが蝶に触れるよう指示する奇妙な体験を紹介している。
Unlimited OCR Works(GitHub リポジトリ)
DeepSeek OCR をベースに定数 KV キャッシュ設計を組み合わせ、人間の作業記憶を模倣する「Unlimited OCR」モデルが開発された。この技術により、32K の最大長制限下で数十ページの文書を単一の順次処理で転写可能となり、音声認識や翻訳タスクにも応用できる。
Google Home、顔認識精度が向上し離れ向きでも識別可能に
Google は6月23日から、登録された人物の顔認識機能を拡張し、カメラから背を向けても正しく識別できるようにする。これにより、スマートホームカメラによる誤認が減少すると期待される。
ソニーの AI カメラアシスタントは見た目通りひどい
ソニーが新製品「Xperia 1 VIII」で発表した AI カメラアシスタント機能について、The Verge の記者が実際に一週間使用した結果、期待外れの画質しか得られず、同機能が非常に劣っていると評価しました。
Amazon SageMaker AI の処理ジョブで ComfyUI ワークフローを実行する方法
AWS は、Amazon SageMaker AI の処理ジョブ上で ComfyUI ワークフローを実行可能であることを発表し、企業が大規模なコンテンツ生成を自動化できる仕組みを提供した。
コンピュータビジョンの導入が小売業の生産性向上を牽引
オペレーターが物理的な棚の追跡を自動化することで、利益率の低下を防ぎ、業界全体で数十億ドル規模のコスト削減を実現している。Coresight Researchと技術プロバイダーのSimbe、RELEX Solutionsによる調査がその効果を算出している。
AI が鍵の置き場所を特定できるか?
MIT の研究者が、ロボットが複雑な大規模環境の詳細な心理モデルを迅速に形成・想起できる長期記憶フレームワークを開発した。これにより、人間と並んで働くロボットの空間時間的記憶能力が向上する可能性がある。
衛星が自律的に物体を検出可能に — その意味とは
人工衛星が自律的に地上の物体を検出する技術を習得した。これにより、通信遅延を減らし、リアルタイムでの監視能力が向上する可能性がある。
カウント・アンイシング(2 分読了):テキストガイド付き汎用オブジェクト計数モデルの提案
TLDR AI は、特定ドメインに依存せず多様な視覚領域や物体スケールに対応する、テキストガイド付きの一般化型オブジェクト計数モデル「Count Anything」を発表した。既存モデルの汎用性の低さを克服し、高精度な計数を可能にする。
MONAI を用いた UNet による医療 CT ボリュームの脾臓セグメンテーションのためのコーディング実装
MarkTechPost は、MONAI フレームワークを使用して、Medical Segmentation Decathlon の Task09 データセット上の脾臓をセグメント化するエンドツーエンドの 3D 医療画像処理パイプライン構築チュートリアルを提供している。
Decart の新世界モデルは、いくつかの注意点はあるものの、数時間にわたる写実的な運転をシミュレーション可能
Decart は、数時間にわたる写実的な運転状況をシミュレーションできる新しい世界モデルを発表した。ただし、この技術にはいくつかの制限や注意点が存在する。
Apple、新しい「Siri in Camera」機能で請求書分割の煩わしさを解消
Apple は新機能「Siri in Camera」を導入し、ユーザーがカメラを通じて請求書を撮影するだけで、Siri が自動的に金額を認識し、友人との間で請求を公平に分割できるようにする機能を追加した。
銃器検出 AI システムが失敗し、2 人が死亡したナッシュビル高校の銃乱射事件で生存中の生徒が製造会社を提訴
テネシー州ナッシュビルの高校で発生した銃乱射事件で 2 人が死亡するも、導入された「AI 銃検出システム」が武器を検知しなかったため、負傷した生徒がシステム製造元の Omnilert を提訴した。
インターネット上で話題となっている人型ロボットへの懐疑論者のガイド
テック企業が披露する人型ロボットのアクロバットや家事の実演は、実世界での信頼性のある反復作業にはまだ大きな隔たりがあることを示している。
WWDC2026 で期待されるもの:Siri の大規模刷新とApple Intelligenceの更新
Appleが2026年の開発者会議で、Siriの大幅な再設計とAI機能「Apple Intelligence」の新たなアップデートを発表する見込みです。
視覚 AI の次なる最前線はコードである(11 分読了)
TLDR AI は、視覚 AI が最終的なピクセル出力の生成から編集可能なアーティファクトのソースコード作成へ移行し、デザインや 3D モデリングのワークフローを変革していることを報告した。
Amazon、Ring の顔認識機能に関する集団訴訟に直面
Amazon は、自社の Ring 製品が備える顔認識機能に関連して、集団訴訟の被告として訴えられている。
テック企業があなたの家事を撮影することに必死になっている理由
AI学習スタートアップのShiftは、ニューヨークやロンドンで無料で清掃サービスを提供する代わりに、利用者の自宅での様子を撮影してデータ収集を行う計画を発表した。
ロボット学習用データ収集のため全記録を条件に無料清掃を提供するスタートアップ
ドイツのスタートアップ「MicroAGI」は、ニューヨーク市住民に対し、清掃員がカメラを着用して作業をすべて録画し、そのデータをAI搭載ロボットの訓練に使用することを条件に、無料で自宅清掃サービスを提供すると発表した。
Kiwibit の AI 搭載バードフィーダーが私の新しい庭の仲間
Kiwibit が、AI を活用して鳥の行動を分析・記録するスマートなバードフィーダーを発表し、家庭用ガーデン機器として市場に投入した。
IEEE/CVF コンピュータビジョン・パターン認識会議(CVPR)2026
Apple は、6 月 3 日から 7 日にデンバーで開催される CVPR 2026 に新研究を発表し、同会議をスポンサーとして支援する。
このスマートな鳥の餌やり器が、私の裏庭のドラマをより多く捉える
The Verge AI は、サウスカロライナ州の低地に住む著者が、オスプレイやロゼート・スプーンビルなど多様な鳥類を観察するために導入したスマートな鳥の餌やり器について紹介している。
インターネットが Figure AI の人型ロボットによる荷物の処理を注視し続ける
ロボティクス企業 Figure AI は、一週間以上にわたり人型ロボットがコンベアベルトに荷物を積み込む様子をライブ配信しており、その様子は技術愛好家の間で話題となっている。
AI 学習のために保育教諭にカメラ着用を義務付けた研究計画が問題視される
ワシントン大学の研究者らは、保育教諭に第一人称視点のカメラを着用させ、子供を含む全ての映像を記録して AI モデルの開発に利用する計画を立てた。このプログラムはオプトアウト方式で実施され、保護者が記録を防止するための手続きが必要だった。
ソニー、AI カメラアシスタントの誤解を解くために説明を試みる
ソニーは、Xperia 1 XIII で公開した AI カメラアシスタント機能について、画像を編集するものではなく、照明や被写体に基づいて撮影オプションを提案するだけだと説明し、誤解を解こうとしている。
Velox:4D 幾何形状と外観の表現学習フレームワーク
研究者らは、非構造化動的点群から物体の幾何形状と外観を忠実に捉える潜在表現を学習する「Velox」フレームワークを発表した。この手法は時空間カラー点群を圧縮し、下流タスクの効率化に寄与する。
マルチビュー撮影から大規模高品質 3D ガウス頭部再構築手法「HeadsUp」を提案
研究者らは、多数のカメラからの入力画像を圧縮し、中性頭部テンプレートに固定された UV パラメータ化された 3D ガウシアンとして復元するスケーラブルなフィードフォワード手法「HeadsUp」を発表した。この手法は、入力画像の数や解像度に関わらず 3D ガウシアンの数を独立させられる。
実用的な学習型画像圧縮において重要なのは何か
研究者らは、人間の視覚系に最適化された実用的な画像コーデックの設計における重要なモデル選択を包括的に研究し、知覚品質と実行時間の両立を目指す。
ポッドキャスト:Flock が子供向け体操センターのカメラを営業デモに使用した件について
ポッドキャスト番組で、Jason は Flock という企業が営業用デモンストレーションのために、子供たちが通う体操センターの監視カメラにアクセスした事例を紹介しました。また、Emanuel は Nature 誌が ChatGPT の教育効果に関する論文を撤回した理由についても言及しています。
「Whac-a-mole」ジレンマの解決:AI 視覚モデルのバイアスを軽減する新たな手法
研究者らは、特定の肌色に偏ったデータが原因で皮膚がんリスクを見逃す可能性のある AI 診断モデルの問題に対し、バイアスを効果的に低減する新しいアプローチを提案した。
Google Photos、既存の服を AI で仮想試着可能に
Google は写真アプリ「Google Photos」で、ユーザーが既に持っている服を AI が仮想ワードローブ化し、組み合わせや共有ができる新機能を導入した。
ポプサがアマゾン・ノバを活用し、パーソナライズされたタイトル提案で顧客にインスピレーションを与えた方法
写真書籍サービス「ポプサ」は、アマゾンの大規模言語モデル「ノバ」を用い、ユーザーの写真ライブラリから意味のある記憶を掘り起こし、パーソナライズされたタイトル提案を通じて共有可能な体験を提供している。
OlmoEarth埋め込みの紹介:下流分析用のカスタム埋め込みエクスポート
OlmoEarth Studioは、基盤モデルからカスタム地球観測埋め込みをエクスポートし、類似度検索や変化検出などのタスクに利用可能にした。
PATINAの紹介
Microsoft Researchは、大規模言語モデルの出力を評価・改善するためのフレームワーク「PATINA」を発表した。この手法は、モデルの安全性と有用性をバランスよく向上させることを目的としている。
FIFA、世界サッカー運営をAIで再構築中。ワールドカップは最初の試験に過ぎない
FIFAは、2026年カナダ・メキシコ・アメリカ開催の48チーム・104試合のワールドカップ運営を、従来の現地組織委員会に依存せず直接AIで管理する。
米軍、AI支援でイラン3,000標的を攻撃も監視体制は「投資不足」
ウォール・ストリート・ジャーナルが報じた。米軍は生成AIをイラン作戦の情報分析・標的選定・兵站に大規模活用しているが、監視体制への投資は不十分である。
Ringのジェイミー・シミノフはスーパーボウル以降プライバシー懸念を鎮めようとしているが、その回答は役立たないかもしれない
RingのCEOジェイミー・シミノフは、スーパーボウル以降のプライバシー懸念に対応しているが、顔認識技術に関する回答は問題を複雑にしている。
AIモデルの予測説明能力の向上
MITの研究者が、医療診断などの高リスク分野でAIの意思決定を人間が理解できる概念で説明する「概念ボトルネックモデリング」を開発した。
実世界小売セキュリティにおけるポーズベース万引き検出のためのオフラインから周期的適応へ
研究者が、小売店の万引き検出をポーズベースの教師なし映像異常検出問題として定式化し、実環境での運用に向けた周期的適応フレームワークを提案した。
火山に焼かれた数百のローマ文字巻物――AIはテキストを復元できるか?
21歳の学生、ルーケ・ファリトールはスペースXでのインターン期間中、約2000年前の炭化した古代巻物の解読機械学習モデルを訓練した。この取り組みは、79年のヴェスヴィオ火山噴火で埋もれた古代文書の復元において重要な進展を示している。
コンピュータビジョンの最前線 ICCV2025論文紹介
ICCV2025で発表された画像・動画処理の最新論文を紹介。ドラッグ操作による高速画像編集、単一動画からの4Dアニメーション生成、レイヤー制御可能なAIアニメーションなど、実用的な技術が多数発表された。
Adobe Research、状態空間モデルを用いたビデオワールドモデルの長期記憶の実現
Adobe Researchは、行動に基づいて未来フレームを予測するビデオワールドモデルにおいて、状態空間モデルを活用して長期記憶の課題を解決した。これにより、エージェントが動的環境で過去の状態を保持し、計画や推論を行う能力が向上する。
動画生成のための拡散モデル
画像合成で成功した拡散モデルが、動画生成に応用され始めている。動画は1フレームの画像を含むため時間的整合性が求められ、技術的に困難な課題である。
1ペタバイトのデータセットで機械学習する / WebDataset入門
大規模データセットでの機械学習では、ネットワーク帯域やディスクI/Oがボトルネックとなる。本記事では、学習側での効率的なデータ処理方法について解説する。
拡散モデルとは何か?
拡散モデルは、複雑なデータ分布を学習可能な新しい生成モデルである。高品質な画像生成が可能で、SOTAのGANと競合する性能を示している。
対照的表現学習
対照的学習は、類似するサンプルを近接させ、異なるサンプルを遠ざける表現を学ぶ手法である。このアプローチは教師あり・なしの両データに適用可能で、視覚および言語タスクにおいて優れた性能を発揮する。
Jamboardを導入しました
Googleの電子ホワイトボード「Jamboard」が日本で購入可能になり、コーポレートエンジニアリング部門が導入を発表しました。