#computer vision のAIニュース

48件の記事

動画拡散潜在変数からの三角形スプラット生成（5 分読了）

研究チームが、動画拡散モデルの潜在表現から三角形スプラットを直接生成する手法を発表し、3D 再構築の効率化を実現した。

スナップの AI スペックス：笑えるほど奇妙な体験

404 Media は、チャールズ国王の肖像画を背景に、巨大で重たい Snap Specs を装着した際、デジタル版が実像に重ねられ、ナレーターが蝶に触れるよう指示する奇妙な体験を紹介している。

Unlimited OCR Works（GitHub リポジトリ）

DeepSeek OCR をベースに定数 KV キャッシュ設計を組み合わせ、人間の作業記憶を模倣する「Unlimited OCR」モデルが開発された。この技術により、32K の最大長制限下で数十ページの文書を単一の順次処理で転写可能となり、音声認識や翻訳タスクにも応用できる。

TLDR AI·6月24日·★★★★

Google Home、顔認識精度が向上し離れ向きでも識別可能に

Google は6月23日から、登録された人物の顔認識機能を拡張し、カメラから背を向けても正しく識別できるようにする。これにより、スマートホームカメラによる誤認が減少すると期待される。

The Verge AI·6月24日

ソニーの AI カメラアシスタントは見た目通りひどい

ソニーが新製品「Xperia 1 VIII」で発表した AI カメラアシスタント機能について、The Verge の記者が実際に一週間使用した結果、期待外れの画質しか得られず、同機能が非常に劣っていると評価しました。

The Verge AI·6月23日

Amazon SageMaker AI の処理ジョブで ComfyUI ワークフローを実行する方法

AWS は、Amazon SageMaker AI の処理ジョブ上で ComfyUI ワークフローを実行可能であることを発表し、企業が大規模なコンテンツ生成を自動化できる仕組みを提供した。

AWS Machine Learning Blog·6月23日·★★★★

コンピュータビジョンの導入が小売業の生産性向上を牽引

オペレーターが物理的な棚の追跡を自動化することで、利益率の低下を防ぎ、業界全体で数十億ドル規模のコスト削減を実現している。Coresight Researchと技術プロバイダーのSimbe、RELEX Solutionsによる調査がその効果を算出している。

AI News·6月19日·★★★★

AI が鍵の置き場所を特定できるか？

MIT の研究者が、ロボットが複雑な大規模環境の詳細な心理モデルを迅速に形成・想起できる長期記憶フレームワークを開発した。これにより、人間と並んで働くロボットの空間時間的記憶能力が向上する可能性がある。

MIT ML News·6月17日·★★★★

衛星が自律的に物体を検出可能に — その意味とは

人工衛星が自律的に地上の物体を検出する技術を習得した。これにより、通信遅延を減らし、リアルタイムでの監視能力が向上する可能性がある。

TechCrunch AI·6月15日·★★★★

カウント・アンイシング（2 分読了）：テキストガイド付き汎用オブジェクト計数モデルの提案

TLDR AI は、特定ドメインに依存せず多様な視覚領域や物体スケールに対応する、テキストガイド付きの一般化型オブジェクト計数モデル「Count Anything」を発表した。既存モデルの汎用性の低さを克服し、高精度な計数を可能にする。

TLDR AI·6月15日·★★★★

MONAI を用いた UNet による医療 CT ボリュームの脾臓セグメンテーションのためのコーディング実装

MarkTechPost は、MONAI フレームワークを使用して、Medical Segmentation Decathlon の Task09 データセット上の脾臓をセグメント化するエンドツーエンドの 3D 医療画像処理パイプライン構築チュートリアルを提供している。

MarkTechPost·6月12日

Decart の新世界モデルは、いくつかの注意点はあるものの、数時間にわたる写実的な運転をシミュレーション可能

Decart は、数時間にわたる写実的な運転状況をシミュレーションできる新しい世界モデルを発表した。ただし、この技術にはいくつかの制限や注意点が存在する。

TechCrunch AI·6月10日·★★★★

Apple、新しい「Siri in Camera」機能で請求書分割の煩わしさを解消

Apple は新機能「Siri in Camera」を導入し、ユーザーがカメラを通じて請求書を撮影するだけで、Siri が自動的に金額を認識し、友人との間で請求を公平に分割できるようにする機能を追加した。

TechCrunch AI·6月9日

銃器検出 AI システムが失敗し、2 人が死亡したナッシュビル高校の銃乱射事件で生存中の生徒が製造会社を提訴

テネシー州ナッシュビルの高校で発生した銃乱射事件で 2 人が死亡するも、導入された「AI 銃検出システム」が武器を検知しなかったため、負傷した生徒がシステム製造元の Omnilert を提訴した。

Ars Technica AI·6月7日·★★★★

インターネット上で話題となっている人型ロボットへの懐疑論者のガイド

テック企業が披露する人型ロボットのアクロバットや家事の実演は、実世界での信頼性のある反復作業にはまだ大きな隔たりがあることを示している。

Ars Technica AI·6月5日·★★★★

WWDC2026 で期待されるもの：Siri の大規模刷新とApple Intelligenceの更新

Appleが2026年の開発者会議で、Siriの大幅な再設計とAI機能「Apple Intelligence」の新たなアップデートを発表する見込みです。

TechCrunch AI·6月5日·★★★★

視覚 AI の次なる最前線はコードである（11 分読了）

TLDR AI は、視覚 AI が最終的なピクセル出力の生成から編集可能なアーティファクトのソースコード作成へ移行し、デザインや 3D モデリングのワークフローを変革していることを報告した。

TLDR AI·6月3日·★★★★

Amazon、Ring の顔認識機能に関する集団訴訟に直面

Amazon は、自社の Ring 製品が備える顔認識機能に関連して、集団訴訟の被告として訴えられている。

TechCrunch AI·6月3日·★★★★

テック企業があなたの家事を撮影することに必死になっている理由

AI学習スタートアップのShiftは、ニューヨークやロンドンで無料で清掃サービスを提供する代わりに、利用者の自宅での様子を撮影してデータ収集を行う計画を発表した。

The Verge AI·5月30日·★★★★

ロボット学習用データ収集のため全記録を条件に無料清掃を提供するスタートアップ

ドイツのスタートアップ「MicroAGI」は、ニューヨーク市住民に対し、清掃員がカメラを着用して作業をすべて録画し、そのデータをAI搭載ロボットの訓練に使用することを条件に、無料で自宅清掃サービスを提供すると発表した。

Ars Technica AI·5月30日

Kiwibit の AI 搭載バードフィーダーが私の新しい庭の仲間

Kiwibit が、AI を活用して鳥の行動を分析・記録するスマートなバードフィーダーを発表し、家庭用ガーデン機器として市場に投入した。

TechCrunch AI·5月29日

IEEE/CVF コンピュータビジョン・パターン認識会議（CVPR）2026

Apple は、6 月 3 日から 7 日にデンバーで開催される CVPR 2026 に新研究を発表し、同会議をスポンサーとして支援する。

Apple Machine Learning·5月28日

このスマートな鳥の餌やり器が、私の裏庭のドラマをより多く捉える

The Verge AI は、サウスカロライナ州の低地に住む著者が、オスプレイやロゼート・スプーンビルなど多様な鳥類を観察するために導入したスマートな鳥の餌やり器について紹介している。

The Verge AI·5月27日

インターネットが Figure AI の人型ロボットによる荷物の処理を注視し続ける

ロボティクス企業 Figure AI は、一週間以上にわたり人型ロボットがコンベアベルトに荷物を積み込む様子をライブ配信しており、その様子は技術愛好家の間で話題となっている。

Ars Technica AI·5月20日

AI 学習のために保育教諭にカメラ着用を義務付けた研究計画が問題視される

ワシントン大学の研究者らは、保育教諭に第一人称視点のカメラを着用させ、子供を含む全ての映像を記録して AI モデルの開発に利用する計画を立てた。このプログラムはオプトアウト方式で実施され、保護者が記録を防止するための手続きが必要だった。

404 Media·5月18日·★★★★

ソニー、AI カメラアシスタントの誤解を解くために説明を試みる

ソニーは、Xperia 1 XIII で公開した AI カメラアシスタント機能について、画像を編集するものではなく、照明や被写体に基づいて撮影オプションを提案するだけだと説明し、誤解を解こうとしている。

The Verge AI·5月17日

Velox：4D 幾何形状と外観の表現学習フレームワーク

研究者らは、非構造化動的点群から物体の幾何形状と外観を忠実に捉える潜在表現を学習する「Velox」フレームワークを発表した。この手法は時空間カラー点群を圧縮し、下流タスクの効率化に寄与する。

Apple Machine Learning·5月8日·★★★★

マルチビュー撮影から大規模高品質 3D ガウス頭部再構築手法「HeadsUp」を提案

研究者らは、多数のカメラからの入力画像を圧縮し、中性頭部テンプレートに固定された UV パラメータ化された 3D ガウシアンとして復元するスケーラブルなフィードフォワード手法「HeadsUp」を発表した。この手法は、入力画像の数や解像度に関わらず 3D ガウシアンの数を独立させられる。

Apple Machine Learning·5月8日·★★★★

実用的な学習型画像圧縮において重要なのは何か

研究者らは、人間の視覚系に最適化された実用的な画像コーデックの設計における重要なモデル選択を包括的に研究し、知覚品質と実行時間の両立を目指す。

Apple Machine Learning·5月7日·★★★★

ポッドキャスト：Flock が子供向け体操センターのカメラを営業デモに使用した件について

ポッドキャスト番組で、Jason は Flock という企業が営業用デモンストレーションのために、子供たちが通う体操センターの監視カメラにアクセスした事例を紹介しました。また、Emanuel は Nature 誌が ChatGPT の教育効果に関する論文を撤回した理由についても言及しています。

404 Media·5月7日·★★★★

「Whac-a-mole」ジレンマの解決：AI 視覚モデルのバイアスを軽減する新たな手法

研究者らは、特定の肌色に偏ったデータが原因で皮膚がんリスクを見逃す可能性のある AI 診断モデルの問題に対し、バイアスを効果的に低減する新しいアプローチを提案した。

MIT ML News·4月30日·★★★★

Google Photos、既存の服を AI で仮想試着可能に

Google は写真アプリ「Google Photos」で、ユーザーが既に持っている服を AI が仮想ワードローブ化し、組み合わせや共有ができる新機能を導入した。

The Verge AI·4月30日

ポプサがアマゾン・ノバを活用し、パーソナライズされたタイトル提案で顧客にインスピレーションを与えた方法

写真書籍サービス「ポプサ」は、アマゾンの大規模言語モデル「ノバ」を用い、ユーザーの写真ライブラリから意味のある記憶を掘り起こし、パーソナライズされたタイトル提案を通じて共有可能な体験を提供している。

AWS Machine Learning Blog·4月28日

OlmoEarth埋め込みの紹介：下流分析用のカスタム埋め込みエクスポート

OlmoEarth Studioは、基盤モデルからカスタム地球観測埋め込みをエクスポートし、類似度検索や変化検出などのタスクに利用可能にした。

Allen AI (AI2)·4月23日

PATINAの紹介

Microsoft Researchは、大規模言語モデルの出力を評価・改善するためのフレームワーク「PATINA」を発表した。この手法は、モデルの安全性と有用性をバランスよく向上させることを目的としている。

fal.ai Blog·4月11日·★★★★

FIFA、世界サッカー運営をAIで再構築中。ワールドカップは最初の試験に過ぎない

FIFAは、2026年カナダ・メキシコ・アメリカ開催の48チーム・104試合のワールドカップ運営を、従来の現地組織委員会に依存せず直接AIで管理する。

AI News·3月12日·★★★★

米軍、AI支援でイラン3,000標的を攻撃も監視体制は「投資不足」

ウォール・ストリート・ジャーナルが報じた。米軍は生成AIをイラン作戦の情報分析・標的選定・兵站に大規模活用しているが、監視体制への投資は不十分である。

The Decoder·3月9日·★★★★★

Ringのジェイミー・シミノフはスーパーボウル以降プライバシー懸念を鎮めようとしているが、その回答は役立たないかもしれない

RingのCEOジェイミー・シミノフは、スーパーボウル以降のプライバシー懸念に対応しているが、顔認識技術に関する回答は問題を複雑にしている。

TechCrunch AI·3月9日

AIモデルの予測説明能力の向上

MITの研究者が、医療診断などの高リスク分野でAIの意思決定を人間が理解できる概念で説明する「概念ボトルネックモデリング」を開発した。

MIT ML News·3月9日·★★★★

実世界小売セキュリティにおけるポーズベース万引き検出のためのオフラインから周期的適応へ

研究者が、小売店の万引き検出をポーズベースの教師なし映像異常検出問題として定式化し、実環境での運用に向けた周期的適応フレームワークを提案した。

ArXiv cs.AI·3月6日

火山に焼かれた数百のローマ文字巻物――AIはテキストを復元できるか？

21歳の学生、ルーケ・ファリトールはスペースXでのインターン期間中、約2000年前の炭化した古代巻物の解読機械学習モデルを訓練した。この取り組みは、79年のヴェスヴィオ火山噴火で埋もれた古代文書の復元において重要な進展を示している。

Understanding AI·2月18日·★★★★

コンピュータビジョンの最前線 ICCV2025論文紹介

ICCV2025で発表された画像・動画処理の最新論文を紹介。ドラッグ操作による高速画像編集、単一動画からの4Dアニメーション生成、レイヤー制御可能なAIアニメーションなど、実用的な技術が多数発表された。

Algomatic Tech Blog·11月5日·★★★★

Adobe Research、状態空間モデルを用いたビデオワールドモデルの長期記憶の実現

Adobe Researchは、行動に基づいて未来フレームを予測するビデオワールドモデルにおいて、状態空間モデルを活用して長期記憶の課題を解決した。これにより、エージェントが動的環境で過去の状態を保持し、計画や推論を行う能力が向上する。

Synced Review·5月28日·★★★★

動画生成のための拡散モデル

画像合成で成功した拡散モデルが、動画生成に応用され始めている。動画は1フレームの画像を含むため時間的整合性が求められ、技術的に困難な課題である。

Lilian Weng·4月12日·★★★★

1ペタバイトのデータセットで機械学習する / WebDataset入門

大規模データセットでの機械学習では、ネットワーク帯域やディスクI/Oがボトルネックとなる。本記事では、学習側での効率的なデータ処理方法について解説する。

TURING Tech Blog·5月23日·★★★★

拡散モデルとは何か？

拡散モデルは、複雑なデータ分布を学習可能な新しい生成モデルである。高品質な画像生成が可能で、SOTAのGANと競合する性能を示している。

Lilian Weng·7月11日·★★★★

対照的表現学習

対照的学習は、類似するサンプルを近接させ、異なるサンプルを遠ざける表現を学ぶ手法である。このアプローチは教師あり・なしの両データに適用可能で、視覚および言語タスクにおいて優れた性能を発揮する。

Lilian Weng·5月31日·★★★★

Jamboardを導入しました

Googleの電子ホワイトボード「Jamboard」が日本で購入可能になり、コーポレートエンジニアリング部門が導入を発表しました。

SmartNews Developer Blog·10月25日