#データ収集のAIニュース

18件の記事

DAQIRI を活用して高速データ収集におけるリアルタイム AI を実現

NVIDIA は、DAQIRI という技術を用いることで、高速なデータ収集プロセスにおいてリアルタイムでの AI 処理を可能にする機能を発表した。

NVIDIA Developer Blog·6月23日

ロボット学習データの収集は汚く地味な作業だ。一部の AI ラボはすでに XDOF にその業務を委託している

AI ラボの一部が、ロボット訓練に必要なデータ収集という汚く地味な作業を専門企業 XDOF に委託し、対価を支払っている事例が報告された。

TechCrunch AI·6月18日

裁判所、Meta の成人向けサイトデータ収集訴訟を却下せず Meta に訴えられ得ると判断

連邦裁判官は、Strike 3 ホールディングス（Blacked.com 等の運営会社）が Meta を相手取り、同社による成人向け動画の無断スクレイピングに対する訴訟の却下請求を退けた。これにより Meta は著作権侵害で訴えられる可能性が残された。

404 Media·6月15日·★★★★

Google、Play ストア開発者のコードを AI 訓練用に購入へ

Google は Android アプリ開発者に対し、AI コーディングツールの訓練に使用するコードへのアクセス権を購入する提案を非公式に行っている。

404 Media·6月3日·★★★★

TinyFish Bigset がテキストプロンプトからライブデータセットを生成

TinyFish Bigset というツールが、ユーザーのテキスト入力（プロンプト）に基づいて即座に生きたデータセットを作成する機能を公開した。

TLDR AI·6月3日·★★★★

この AI スタートアップは、未来のロボット訓練のために自宅清掃を無料で行う

AI 学習スタートアップ「Shift」が、清掃中の様子を記録してロボット訓練に活用する条件付きで、無料で自宅清掃サービスを提供すると発表した。

The Verge AI·5月29日·★★★★

このスタートアップは、インドのギグ経済が世界のロボットを訓練できると賭けている

インドのオンライン食品配送市場やクラウドキッチン、オンデマンド家事サービスプラットフォームなどの成長を背景に、あるスタートアップが同国のギグ労働力を活用して世界規模のロボット学習データを構築する計画を発表した。

TechCrunch AI·5月27日·★★★★

ポッドキャスト：エリート層は AI を理解していない

サム氏は元 Google CEO のエリック・シュミット氏らが AI を賞賛する卒業式スピーチについて語り、ジェイソン氏は AI 学習用として糞画像の購入オファーを受けた実話を紹介した。

404 Media·5月20日

FBI が全国規模のナンバープレート読み取り装置へのアクセス購入を希望

FBI（連邦捜査局）が、令状なしに車両や人の動きを追跡できる全国規模の自動ナンバープレート読み取り装置（ALPR）へのアクセスを購入したいと考えていることが、404 Media が入手した調達記録から明らかになった。

404 Media·5月19日·★★★★

世界モデルはすべてを変える可能性がある（20 分読了）

ヤン・ルコン氏ら AI パイオニアが、現在の大規模言語モデルの能力を超えた複雑な物理的相互作用を捉えるための「世界モデル」開発に数十億ドルを投資している。この取り組みは、AI が単なるパターン認識から現実世界の理解と対話へと進化するための基盤となるが、効果的な機能には多様で高品質な実世界データの確保という課題が残っている。

TLDR AI·5月7日·★★★★

メタ、従業員のマウス・キーボード操作を追跡してAIエージェントの学習を行う予定

メタは、米国内の従業員のマウス操作やキー入力、スクリーンショットを追跡するソフトウェアを導入し、高品質な学習データを生成して次世代AIエージェントの訓練に活用すると報じられている。

Ars Technica AI·4月22日·★★★★

GitHub、2026年4月からCopilotの利用データをAIモデル学習に使用開始

GitHubは2026年4月24日から、無料・有料プランのユーザーのCopilot利用データを、ユーザーが明示的に拒否しない限りAIモデルの学習に使用する方針を発表した。

The Decoder·3月26日·★★★★

この企業はあなたのZoom会議をAIポッドキャストに密かに変換している

WebinarTV社は、Zoom会議リンクをインターネット上で秘密裏に収集し、通話を録音してAI生成ポッドキャストに変換し、利益を得ている。

404 Media·3月24日·★★★★

アジャイルロボッツがGoogle DeepMindと提携する最新のロボット企業に

アジャイルロボッツはGoogle DeepMindのロボティクス基盤モデルを自社ロボットに組み込み、AI研究所のデータ収集に協力する。

TechCrunch AI·3月24日

SerpApiがGoogleの訴訟を却下する動議を提出

SerpApiのCEOジュリアン・カレギーは、Googleが自社のビジネスモデルと技術に依存する研究者・革新者を保護するため、Googleの訴訟を却下する動議を提出したと発表した。

Andrej Karpathy 厳選·3月3日·★★★★

「あなたは何歳ですか？」とOSが尋ねる

カリフォルニア州が2025年10月にAB-1043法を可決し、OSがアカウント作成時にユーザーの年齢収集を義務付けた。

Andrej Karpathy 厳選·3月1日

現在の言語モデル学習はインターネットの大部分を活用できていない

アップル、スタンフォード大学、ワシントン大学の研究者らが、HTML抽出ツールの選択によって言語モデルの学習データが大きく異なり、ウェブコンテンツの大部分が活用されていないことを発見した。

The Decoder·2月28日

npmデータ主体アクセス要求

npmがGDPRのデータ主体アクセス要求に対応した。

Andrej Karpathy 厳選·2月28日