AI便分析アプリがユーザーの便画像データベースを販売しようとした件
404 Media は、AI 便分析アプリ「PoopCheck」のユーザーデータが暗黒市場で売買されようとしている実態を暴露し、生体情報のプライバシーリスクと AI 学習データの倫理的課題を浮き彫りにした。
キーポイント
生体データの違法・非公式な取引市場の存在
Reddit のデータ交換コミュニティで、15 万枚以上の便画像データベースが AI 学習用として販売されており、これはアプリ開発者によるユーザーデータの流出または意図的な流通を示唆している。
AI 健康診断アプリのデータ収集実態
「PoopCheck」というアプリはブリストル便スケールを用いて腸内健康を分析するが、コミュニティ機能やリーダーボードを通じて大量の生体画像データを収集・蓄積している。
医療研究におけるデータ価値と倫理的ジレンマ
販売者はこのデータを「がん研究」や「ML 訓練」に有用であると主張するが、ユーザーの同意なく高感度な生体情報を取引することは重大なプライバシー侵害である。
ユーザーとコミュニティの反応
Reddit のコメント欄では、この事実に直面した人々が恐怖や後悔を表明しており、アプリ利用者の多くがこのデータの流通を意図していなかったことが示されている。
プライバシーポリシーと利用規約の矛盾
App Store やウェブサイトでは「プライバシー第一」やデータ収集なしを謳っている一方、アプリ内の利用規約ではユーザーデータをAI学習用データベースとして販売・ライセンスする権利を無条件で取得すると明記されている。
削除機能の限界
アカウントを削除しても、すでにAIモデルや集計データに組み込まれた匿名化された個人データは不可逆的に残存し、完全な削除は保証されない。
PoopCheck データベースの規模と構成
同アプリは過去 2 年間で約 25,000 人のユーザーからデータを収集しており、現在 AI 検証済み画像が 15 万枚以上、うち 5,000 枚は人間による手動レビュー付きで提供可能である。
影響分析・編集コメントを表示
影響分析
この記事は、AI 技術の発展に伴い、ユーザーが提供する生体データが「学習用リソース」として商品化される危険性を浮き彫りにしており、医療・ヘルスケア分野における AI データガバナンスの欠如を指摘しています。特に、ユーザーがアプリの利用規約やデータの二次利用について十分に理解していないケースが多く、規制強化と透明性の向上が急務であることを示唆しています。
編集コメント
便の画像データまでが AI 学習用の「金鉱」として取引される現実から、ユーザーデータの取り扱いにおける透明性と同意の重要性を痛感させられる事例です。技術的な革新性よりも、その背後にある倫理的リスクへの警鐘として読むべき記事と言えます。
数週間前、大規模データセットの取引に特化した Reddit のサブレディット「r/DHExchange」で、とんでもない投稿を見かけました。「私が価値ある何かの大規模データベースを溜め込んでいます。ただし、あなたが予想するものではないのです…15 万枚の便画像。」
この投稿は「Ill_Car_7351」というユーザーによってなされ、まさにその名前の通り、数年前に彼が立ち上げた AI による便分析アプリから収集された便のデータベースを販売しようとするものでした。要するに、約 25,000 人の人々が自分の便の画像を撮影し、彼のアプリにアップロードしていたのです。彼はこれらの画像を収集・分析・注釈付けしており、現在はそれらへのアクセス権の販売を検討しています。「私は約 25,000 人から得た、15 万枚以上のラベル付きおよび分類された便の画像を持っています。冗談はさておき、これには大きな価値があることは承知しています(入手が困難で、機械学習 [machine learning] のトレーニングやがん研究などに有用ですが)、どうやって販売するかについては確信が持てません。まるで輝くコインの山に座っているようですが、誰が欲しいのか見つけられません」と投稿者は付け加え、「画像は極めて希少である」と述べ、これらをいくらで売却できるか模索しているところだとしました。
コメント欄には、主に恐怖や嫌悪感を示す人々の反応がありました。「5 歳の時に先生から読み方を教わった。その出来事を今では後悔しています」という投稿もあれば、「何てことだ」というもの、さらに「他人の投稿を削除する方法は?」という投稿もありました。
投稿者にメッセージを送り、データベースの入手に興味があることを伝えた。これが「糞のインターネット(Internet of Shit)」への旅、ひいては AI 学習のために収集された極めて機微なユーザーデータを地下で販売する不快な世界への入り口となった。
この糞データベースは、Soft All Things という会社が開発した PoopCheck というアプリから提供されている。同社は、AI を用いて便の画像を分析し、「毎日の腸内健康スコア」を提供することを謳っている。「当社の AI は、ブリストル便性状分類表(Bristol Stool Scale)と高度なパターン認識技術を用いてあなたの糞を分析します。一貫性、色、形状に関する洞察とその消化器系への意味を得ることができます」と、アプリは宣伝している。ブリストル便性状分類表では、便を「小石のような別々の硬い塊」から「固体成分のない水様便」までを含む 7 つのタイプに分類する。
⟦CODE_0⟧
このアプリには、執筆時点では「共有された便」が 151,317 件ある「コミュニティ」と、ユーザーが自身の便の画像を投稿して他のユーザーからのコメントを得たり、参加することでポイントを獲得できる「リーダーボード」も備わっています。私が感じたところ、コミュニティ内の投稿は少し胃に痛むものでした。「粘土のような感じ」「心配している」「過去 3 週間で断続的にこの問題に対処中」といったタイトルです。写真は自動的にコミュニティへ共有されるわけではなく、写真を撮影する際に共有するか尋ねる仕組みになっています。
アプリ上の「人気」投稿には、他のコミュニティメンバーが寄生虫や大腸がんを患っているのではないかという推測が含まれており、いくつかの投稿のコメント欄では、元の投稿者に対してイベルメクチン(抗寄生虫薬)の使用を推奨する書き込みも見受けられました。
ユーザーは自身の便を他のユーザーと共有するオプションを持っていますが、アプリからは矛盾したメッセージが発せられています。つまり、アップロードされたデータが分析され、注釈が付けられ、他の便とともに商業データベースにパッケージ化されて AI 企業へ販売されるという事実についてです。
PoopCheck の App Store ページには「開発者はこのアプリからデータを収集していません」と記載されています。App Store ダウンロードページ内のプライバシーポリシーへのリンクでは、データの売却や共有について言及されておらず、「健康データは転送中および保存時に暗号化されます。写真は安全に処理されます。業界標準のセキュリティ対策を実装してデータを保護しています」と説明されています。
PoopCheck ウェブサイトの「About」ページには「プライバシーファースト」と明記されており、「健康データは機微な情報です。そのため、プライバシーは機能ではなく、私たちの基盤です。写真は暗号化され、いつでもすべてを削除できます。私たちは自分たちの健康アプリがそうあるべきだと考えるように PoopCheck を構築しました」と述べています。また、よくある質問(FAQ)でも「お客様のプライバシーが最優先事項です」と記載されています。
これは、実際にアプリを開いてアカウントを作成する際にユーザーが同意する「サービス契約」や「利用規約」とは全く異なるものです。サービス契約には、「便画像または健康関連データをアプリにアップロードすることにより、Soft All Things LLC に対し、研究、商業的活用、製品開発、第三者へのライセンス供与など、合法な目的(これらに限られない)のために、当該コンテンツを使用、複製、改変、適応、配布、販売、ライセンス付与し、派生作品を作成する権利を、全世界にわたる、取り消し不能で、永続的かつ無条件の、ロイヤリティフリーで完全支払い済み、譲渡可能、再ライセンス可能なライセンスとして付与します」と明記されています。また、「画像およびデータは、AI 技術や機械学習モデル(machine learning models)の作成、訓練、改善、商業化に使用される可能性があり、これらのモデルやデータから派生した出力は、医療機関、研究機関、商業パートナーを含む第三者へライセンス供与または売却される可能性がある」とも記載されています。
さらに、「ユーザーのデータは AI モデルおよび集約されたデータセットに不可逆的に組み込まれる可能性があります。アカウントを削除しても、個人のプロファイルデータのみが削除され、すでに処理済みまたは AI モデルに組み込まれた匿名化・集約化・派生データについては削除義務が生じない」とされています。「情報の共有」に関するセクションでは、同社は「AI およびデータライセンス(Data Licensing)」を含む「あらゆる事業目的のためにデータを共有または売却する権利を留保する」とも付記しています。
Reddit で Ill_Car_7351 にメッセージを送り、「こんにちは。あなたが投稿したデータベースに興味があります。探していることや、データが収集されたアプリの詳細について、もう少し情報を共有していただけませんか?また、データのサンプルなどがある可能性はありますか?」と尋ねました。するとすぐに返信があり、「こんにちは!このデータベースは実際のユーザーによって収集されました。アプリを立ち上げてから過去数年間で 25,000 人のユーザーがいました。ちなみにアプリ名は PoopCheck です。見てみたい場合はこちらへどうぞ。メールで話しましょうか?もし興味があれば、データのサンプルをお送りできますよ」とのことでした。
私は Soft All Things という会社の「Marco」という人物にメールを送りました。彼は PoopCheck の創設者の一人であると自己紹介しました。私は Reddit で連絡を取り、データの一部を入手したいと考えていると伝えました。私の本名のメールアドレスと氏名を使用しました。
Marco はこう返しました。「もちろん、データのサンプルをお送りできますが、画像フォルダと JSON データを含む Google Drive のリンクでよろしいでしょうか?ご希望であれば他の方法も検討できます」と。さらに、「必要な実際のデータセットのサイズはどのくらいですか?また、どのような用途でお使いになるのでしょうか?ご要望に合致しているか確認するためです」と付け加えました。
私は Marco に、10,000 件のデータを希望し、AI のトレーニングに使用すると伝えました。価格と、含まれるデータの種類について質問しました。
Marco は以下のように返信しました:
「各エントリごとに収集した主要項目を網羅する、画像と JSON メタデータを含むフォルダが見つかるはずです。ご不明な点がございましたら、お気軽にお知らせください。
データセットの内容と価格オプションについてより具体的にイメージしていただくために:現在、AI によって検証済みの画像は 150,000 枚を超えています。そのうち約 5,000 枚については、当社のチームメンバーが AI の出力とラベリングを検証し、手動でレビュー済みです。この部分はより価値が高く、それに伴って価格も設定されています。また、ブリストル便性状分類(Bristol Stool Scale)の特定のタイプは他のタイプに比べて稀であるため、お客様の具体的なニーズによって利用可能なデータの種類が異なる点にもご注意ください。
その点を踏まえた上で、価格オプションのおおよその見積もりを以下に示します:
• 10,000 枚の未レビュー画像(AI 検証済み) — $3,000
• 5,000 枚の完全な人間によるレビューおよび注釈付き(AI 検証の上追加) — $4,000
• レビュー済みの 5,000 枚と未レビューの 5,000 枚の組み合わせ — $5,000
データセットの構造やカバレッジに関するいくつかの点は、対面(またはオンライン通話)で説明する方がわかりやすいため、この件をさらに進めるために簡単な通話を設定できれば幸いです。
Marco が私に送ったサンプルデータセットには、特定の 4 ユーザー(各ユーザーから便画像 5 枚ずつ)の計 20 枚の便の写真が含まれていました。各画像は、ユーザーが報告した一連のデータポイントと、各画像に対する AI 分析結果と紐付けられていました。AI が分析したデータポイントには、撮影時刻、各便のブリストルタイプ(Bristol Type)、"健康" か "不健康" か、"形状" と "性状"、便に血液や粘液が含まれているか、量("大"、"正常"、"小")、そして"浮いている"かどうかといった項目がありました。これらの各データポイントには、AI の分析結果に対する"信頼度"スコアも付与されていました。各画像にはまた、ユーザーが報告した情報も含まれており、そこには"直近の食事は何時か"、"排便時に不快感はあったか("出しにくい";"灼熱感";"鋭い痛み"など)"、"所要時間はどのくらいか"、"普段より臭いが強かったか"、"過去 12 時間にコーヒーまたはアルコールを摂取したか"といった一連の質問への回答が含まれていました。データにはさらに、年齢層、性別、身長、体重、および"乳糖不耐症"や"過敏性腸症候群(IBS)"などの感受性に関する人口統計情報も含まれていました。各画像は、"externalIndividualID"と呼ばれるフィールドを通じて特定のユーザーに紐付けられています。
imageSoft All Things は、自らが構築したデータベースについて静かにしているわけではありません。Poop Check のウェブサイトには「For Business」というページがあり、そこで同社のデータベースを宣伝しています。そこでは、「便の写真を構造化された健康レポートに変換する」"Stool Analysis API"(便分析 API)へのアクセスと、14 万枚以上の画像からなる "Annotated Dataset"(注釈付きデータセット)を提供し、「独自のモデルを訓練するためのもの」として販売しています。これは「私たちが知る限り最大の消費者用便画像データセットである」と宣伝されています。
便の写真を無関係な企業にアップロードする無料アプリが、そのデータをパッケージ化して販売することに焦点を当てたビジネスモデルを持つことは、それほど驚くべきことではないかもしれません。しかし、この種のデータ収集—まさに私たちの排泄物に関するもの—は、私たちがスマートフォンで行うほぼすべての行為が最終的には商品として売られる可能性があることを浮き彫りにしています。そもそもこれを販売のために宣伝している事実に基づけば、あらゆる種類のデータ、さらには文字通りの廃棄物に至るまで、AI によるデータ獲得競争(AI goldrush)が存在することがわかります。
必ず JSON 形式で返してください。translation フィールドのみ。他のフィールド (technical_terms 等) は一切追加しないこと — 余計なフィールドを書こうとして本文翻訳がトークン上限で打ち切られる事故を防ぐため:
{"translation": "翻訳全文"}
研究は繰り返し示しているように、他のデータセットと組み合わせると、匿名化された「匿名」データが必ずしも匿名のままではないということです。昨年末頃、家電大手のコーラー社は、その便分析機能付きスマートトイレのカメラが、コーラー社に送信する画像を適切に暗号化していないことを研究者が示したことで、セキュリティ上の大惨事に見舞われました。ここで懸念されていたのは、あなたの排泄データが悪意のある第三者によって何らかの方法でアクセスされる可能性です。一方、PoopCheck の場合は、誰でも簡単にアクセス権を購入できるのです。
私が Marco 氏に PoopCheck とそのデータベースについて記事を書いていると伝えたところ、彼は私の返信を停止し、私の質問に一切答えませんでした。
原文を表示
imageA few weeks ago, I came across a wild post on Reddit’s r/DHExchange, a subreddit for trading large datasets: “I hoarded a large database of something valuable, just not what’s [sic] you expect…150k stools images.”
The post, made by a user called Ill_Car_7351, was advertising exactly what it sounds like: A database of poop images, collected from an AI poop analyzing app that he had launched several years ago. Basically, 25,000 people had been taking images of their poop and uploading them to his app. He’d been collecting, analyzing, and annotating these images and now wanted to sell access to them: “I’ve got 150k+ labeled and classified images of from roughly 25K different people. Jokes aside, I know there’s a lot of value in it (hard to obtain, useful for ML [machine learning] training, cancer studies etc) but not sure on how to move about it. Feels like I’m sitting on a pile of shi..ny coins but can’t find who wants them.” The poster added that “the images are extremely rare,” and that he was trying to figure out how much money he could sell them for.
The comments were from people who were mostly horrified: “When I was 5 the teacher taught me how to read. I now regret that happened,” one read. “What in the fuck,” another read. “How to delete someone else’s post,” a third said.
I messaged the poster and told him I was interested in obtaining the database. Thus began my journey into the Internet of Shit and, by extension, the unpleasant world of the underground sale of highly sensitive, app-collected user data for AI training.
The poop database comes from an app called PoopCheck, an app made by a company called Soft All Things that purports to use AI to analyze images of one’s stool in order to give you a “daily gut health score.”
“Our AI analyzes your poop using the Bristol Stool Scale and advanced pattern recognition. Get insights on consistency, color, shape, and what they mean for your digestive health,” the app advertises. The Bristol Stool Scale classifies stools into one of seven types ranging from “separate hard lumps, like little pebbles” to “watery with no solid pieces.”
image
imageThe app also features a “community,” of 151,317 “shared stools” at the time of this writing and a “leaderboard,” where people can share images of their poop for commentary from other users and earn points for participating. I found the posts in the community a bit hard to stomach, with titles “like play dough,” “Concerned,” and “Dealing with this on and off for the past 3 weeks.” Pictures are not automatically shared to the community; when you take a photo it asks if you want to share it.
“Popular” posts on the app include people speculating as to whether their fellow community members have parasites or colon cancer; in the comments section of a few posts I saw people recommending ivermectin to the original poster.
Though users have the option to share their poops with other users, the app provides mixed messages about the fact that the data uploaded to the app will be analyzed, annotated, and packaged with other poops into a commercial database to be sold to AI companies.
On the App Store page for PoopCheck, it says “The developer does not collect any data from this app.” The link to the privacy policy from within the App Store download page does not mention anything about selling or sharing the data and says “your health data is encrypted in transit and at rest. Photos are processed securely. We implement industry-standard security measures to protect your data.”
The PoopCheck website’s About page states “Privacy First.” And “Health data is sensitive. That’s why privacy isn’t a feature, it’s our foundation. Your photos are encrypted. You can delete everything at any time. We built PoopCheck the way we’d want our own health apps built.” The FAQ also notes “your privacy is our priority.”
This is completely different from the “Service Agreement” and “Terms and Conditions” people agree to when they actually open the app and make an account. The Service Agreement states that “by uploading stool images or any health-related data to the App, you grant Soft All Things LLC a worldwide, irrevocable, perpetual, unconditional, royalty-free, fully-paid, transferable, sub licensable license to use, reproduce, modify, adapt, distribute, sell, license, and create derivative works from such content for any lawful purpose, including but not limited to research, commercial exploitation, product development, and third party licensing. You acknowledge that your images and data may be used to create, train, improve, and commercialize AI technologies and machine learning models, and that such models and any outputs derived from your data may be licensed or sold to third parties, including medical organizations, research institutions, and commercial partners.”
It adds that “your data may be irreversibly incorporated into AI models and aggregated datasets. Deletion of your account will remove your personal profile data but does not require the removal of anonymized, aggregated, or derivative data already processed or incorporated into AI models.” Under a section called “Sharing of Information,” it adds that the company reserves the right to share or sell the data “for any business purpose,” including “AI and Data Licensing.”
On Reddit, I messaged Ill_Car_7351 and said “Hi - am interested in this database you posted about. Can you share any more info about what you're looking for / details about the app where it was collected? also any chance there's like, a sample of what the data looks like etc?” They responded quickly and said “Hey! The db was gathered by real users, we had 25k users over the last couple years, since we launched the app. It’s called PoopCheck btw if you wanna see it. Let’s maybe talk via email? I’ll be happy to share a sample of the data if that interests you.”
I sent an email to someone named “Marco” at Soft All Things, who identified himself as one of the founders of PoopCheck. I said I had reached out on Reddit and was interested in a sample of the data. I used my real email address and real name.
“We can surely send you a sampling of the dataset, would a Google Drive link containing an image folder and JSON data work? We can also figure out other ways if you prefer,” Marco said. “In terms of the actual dataset you need, what would be the size of it for your needs? And what would you be using it for? Just so we can make sure it’s actually a good fit for your use case.”
I told Marco that I wanted 10,000 pieces of data and said I would use it for AI training. I asked him for pricing and what type of data was included.
Marco responded:
“You'll find a folder with images and JSON metadata covering the key fields we capture per entry. Let us know if you have any questions about it.
To give you a better idea of the dataset and pricing options: we currently have over 150,000 images validated by AI. Around 5,000 of these have also been manually reviewed by a member of our team, who verified the AI output and labeling, making this portion more valuable and priced accordingly. It's also worth noting that certain types on the Bristol Stool Scale are rarer than others, so availability may vary depending on your specific needs.
With that in mind, here there is an estimation of pricing options:
• 10,000 unreviewed images (AI-validated) — $3,000
• 5,000 fully human-reviewed & annotated (on top of AI validation) — $4,000
• 5,000 reviewed + 5,000 unreviewed — $5,000
It would be great to have a quick call to take this further as there are a few things about the dataset's structure and coverage that are easier to walk through live.”
imageThe sample dataset Marco sent me included 20 images of poop from four specific users (five poops each). Each image was tied to a series of user-reported data points as well as AI analyses of each image. AI-analyzed datapoints included the time the poop was taken, the Bristol Type of each poop, whether it was “healthy” or “unhealthy,” the “shape” and “consistency,” whether there was blood or mucus in the poop, and the quantity (“large,” “normal,” or “small”), and whether it was “floating” or not. Each of these data points also had a “confidence” score for how confident the AI was in its analysis. Each image also had user-reported information, which included the answers to a series of questions including “when did you have your last meal,” “any discomfort while pooping? (“Hard to pass;” “burning”; “sharp pain” etc); “How long did it take?” “Did it smell stronger than usual?” “Coffee or alcohol in the last 12 hours?” The data also included demographic information, which includes age ranges, sex, height, weight, and sensitivities such as “lactose intolerance” or “irritable bowel syndrome.” Each image is tied to a specific user through a field called “externalIndividualID.”
imageSoft All Things is not exactly quiet about the database that it has created. On the Poop Check website, it has a page called “For Business,” which advertises its database. It sells access to both the “Stool Analysis API,” which “turns a stool photo into a structured health report,” as well as the “Annotated Dataset,” of 140,000+ images to “train your own models.” It advertises this as the “largest consumer stool image dataset we know of.”
It maybe should not be terribly surprising that a free app in which you upload images of your poop to a random company would have a business model focused on packaging and selling that data. But this type of data collection—of our literal poop—highlights how almost anything we do on our phones can ultimately end up for sale. The fact that it is advertising this for sale at all indicates that there is an AI goldrush for any and all types of data, even our literal waste.
Research has shown, over and over again, that de-identified “anonymous” data doesn’t necessarily remain anonymous when combined with other datasets. Toward the end of last year, the appliance giant Kohler endured a security shitshow when a researcher showed that its stool-analyzing smart toilet camera was not actually properly encrypting the images that it sent to Kohler. The concern there was that your poop data would be somehow accessed by bad actors. In the case of PoopCheck, anyone can simply buy access.
After I told Marco I was writing an article about PoopCheck and its database, he stopped responding to me and did not answer any of my questions.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み