クロワッサン:ML対応データセットのためのメタデータ形式
Google ResearchとMLCommons Associationが、機械学習データセットの多様なデータ表現による課題を解決するためのメタデータフォーマット「Croissant」を発表し、データの理解と再利用の効率化を目指す。
キーポイント
MLデータセットの再利用における課題
ML実践者が既存データセットを再利用する際、データの理解や組織化の把握、特徴量として使用するサブセットの特定に多くの時間を費やしており、多様なデータ表現がML分野の進歩の根本的な障害となっている。
Croissantの目的と役割
CroissantはML対応データセットのためのメタデータフォーマットであり、データの構造、意味、使用法に関する情報を標準化して提供することで、データセットの探索、理解、再利用を容易にする。
標準化と相互運用性の促進
このフォーマットは、異なるプラットフォームやツール間でのデータセットの相互運用性を高め、MLコミュニティ全体でのデータ共有とコラボレーションを促進することを目的としている。
GoogleとMLCommonsの共同開発
Google ResearchのエンジニアとMLCommons Associationの代表者が共同で開発を進めており、業界標準としての採用を目指している。
Croissantの目的と特徴
CroissantはMLデータセット向けのメタデータ形式で、実際のデータ表現を変更せず、標準的な記述と組織化を提供する。schema.orgを基盤とし、ML関連のメタデータ、データリソース、データ組織化、デフォルトのMLセマンティクスを追加する。
既存形式との違い
schema.orgやDCATなどの汎用メタデータ形式はデータ発見向けだが、Croissantは構造化・非構造化ソースからのデータ抽出・結合、責任ある使用のためのメタデータ、トレーニング・テスト・検証セットの定義など、ML特有のニーズに対応する。
エコシステムサポート
Kaggle、Hugging Face、OpenMLがCroissant形式をサポート開始し、Dataset SearchはWeb上のCroissantデータセットを検索可能。TensorFlow、PyTorch、JAXなどの主要MLフレームワークはTFDSパッケージ経由で簡単にロードできる。
影響分析・編集コメントを表示
影響分析
この取り組みは、ML開発におけるデータ準備の負担を軽減し、研究と実装のサイクルを加速させる可能性がある。業界標準として広く採用されれば、データセットの相互運用性が向上し、オープンなMLエコシステムの発展に寄与する。
編集コメント
ML開発のボトルネックであるデータ準備の効率化に直接アプローチする実用的な提案。業界標準化を目指す点で、エコシステム全体への影響が期待される。
Google Research のソフトウェアエンジニアである Omar Benjelloun と、Google Core ML のソフトウェアエンジニアであり MLCommons 協会の会長でもある Peter Mattson によって投稿されました

既存のデータセットを再利用して機械学習(ML: Machine Learning)モデルを訓練しようとする ML 実践者は、データの理解やその組織化の意味付け、あるいは特徴量として使用するサブセットの特定に多くの時間を費やすことがよくあります。実際、あまりにも多くの時間が費やされるため、ML 分野における進展は根本的な障害によって阻害されています:それはデータ表現の多様性です。
ML データセットは、テキストや構造化データから画像、音声、動画に至るまで、広範なコンテンツタイプをカバーしています。同じ種類のコンテンツを扱うデータセット内であっても、各データセットにはファイルとデータ形式の独自の *ad hoc*(その場しのぎの)配置が存在します。この課題は、データの探索からモデルの訓練に至るまでの ML 開発プロセス全体を通じて生産性を低下させます。また、データセットを取り扱うために必要不可欠なツール類の開発も妨げています。
データセットには、schema.org や DCAT などの汎用メタデータフォーマットが存在します。しかし、これらのフォーマットはデータの発見を目的として設計されたものであり、構造化および非構造化ソースからのデータを抽出・結合する機能や、責任ある利用 を可能にするためのメタデータを含める機能、あるいはトレーニングセット、テストセット、検証セットを定義するような機械学習(ML)の利用特性を記述するための特定のニーズには対応していません。
本日、私たちは機械学習向けデータセットのための新しいメタデータフォーマットである Croissant を発表します。Croissant は、業界と学界からなるコミュニティが共同で開発したものであり、MLCommons の取り組みの一環として作成されました。Croissant フォーマットは、実際のデータの表現方法(例えば画像やテキストファイルのフォーマットなど)を変更するものではなく、それを記述し整理するための標準的な手段を提供します。Croissant は、ウェブ上で構造化データを公開するための事実上の標準である schema.org を基盤としており、これはすでに 4,000 万件以上のデータセットで利用されています。Croissant はこれに、機械学習に関連するメタデータ、データリソース、データ組織化、およびデフォルトの ML セマンティクスに関する包括的なレイヤーを追加することで拡張しています。
さらに、主要なツールやリポジトリからのサポートも発表します。本日、ML データセットの広く使用されている 3 つのコレクションである Kaggle、Hugging Face、および OpenML が、ホストするデータセットに対して Croissant 形式のサポートを開始します。また、Dataset Search ツールを使用すれば、ユーザーは Web 上で Croissant データセットを検索できます。さらに、TensorFlow Datasets (TFDS) パッケージを使用して、TensorFlow、PyTorch、JAX を含む人気の高い ML フレームワークでも、Croissant データセットを容易に読み込むことができます。
Croissant
この 1.0 リリースの Croissant には、形式に関する完全な 仕様書、例示データセット のセット、Croissant メタデータの検証・消費・生成を行うためのオープンソースの Python ライブラリ、そして直感的な方法で Croissant データセットの説明を読み込み、検査し、作成するためのオープンソースの ビジュアルエディタ が含まれています。
責任ある AI(RAI)の支援は、Croissant の取り組みにおいて最初から重要な目標の一つでした。また、データライフサイクル管理、データラベリング、参加型データ、ML の安全性と公平性の評価、説明可能性、コンプライアンスといった重要な RAI のユースケースを記述するために必要な主要なプロパティを Croissant に追加する、最初のバージョンの Croissant RAI 語彙 拡張も公開します。
ML データに共通フォーマットが必要なのはなぜか?
ML の作業の大部分は実際にはデータに関する作業です。トレーニングデータとは、モデルの動作を決定する「コード」です。データセットは、大規模言語モデル(LLM)のトレーニングに使用されるテキストのコレクションから、自動車の衝突回避システムのトレーニングに使用される運転シナリオ(注釈付き動画)のコレクションまで多岐にわたります。しかし、ML モデルを開発するための手順は通常、同じ反復的なデータ中心のプロセスに従います:(1) データを見つけまたは収集する、(2) データをクリーニングして洗練させる、(3) データ上でモデルをトレーニングする、(4) より多くのデータでモデルをテストする、(5) モデルが機能しないことに気づく、(6) なぜそうなるのかを理解するためにデータを分析する、(7) 実用的なモデルが達成されるまで繰り返す。共通フォーマットの欠如により、多くの手順が困難になっています。この「データ開発の負担」は、リソースに制約のある研究や初期段階の起業活動において特に重くなります。
Croissant のようなフォーマットの目的は、この一連のプロセスをより容易にすることです。例えば、メタデータは検索エンジンやデータセットリポジトリによって活用され、適切なデータセットを見つけることを容易にします。データリソースと組織情報は、データのクリーニング、精製、分析のためのツールの開発を容易にします。これらの情報とデフォルトの機械学習(ML)セマンティクスにより、ML フレームワークは最小限のコードでデータを活用してモデルのトレーニングやテストを行うことが可能になります。これらすべての改善が相まって、データ開発における負担を大幅に軽減します。
さらに、データセット作成者は、自らのデータセットの発見可能性と使いやすさを重視しています。Croissant を採用することで、利用可能な作成ツールや ML データプラットフォームからのサポートのおかげで最小限の労力で済むにもかかわらず、データセットの価値が向上します。
Croissant は今日何ができるのか?
Croissant エコシステム:ユーザーは Croissant データセットを検索し、主要なリポジトリからダウンロードして、お気に入りの ML フレームワークに簡単に読み込むことができます。また、Croissant エディタを使用して、Croissant メタデータの作成、検査、修正を行うことも可能です。
今日、ユーザーは以下の場所で Croissant データセットを見つけることができます:
- Google Dataset Search(Croissant フィルターを提供)
- HuggingFace
- Kaggle
- OpenML
Croissant データセットを使用することで、以下が可能になります:
- TensorFlow Datasets を介してデータを簡単に取り込み、TensorFlow、PyTorch、JAX などの一般的な ML フレームワークで使用可能にする。
- Croissant エディタ UI(github)を使用してメタデータの検査と修正を行う。
Croissant データセットを公開するには、ユーザーは以下の方法を利用できます:
- Croissant エディタ UI(github)を使用して、ユーザーが提供するデータを分析し、Croissant メタデータの大部分を自動的に生成するとともに、RAI プロパティなどの重要なメタデータフィールドを埋める。
- データセットの Web ページの一部として Croissant 情報を公開し、発見可能かつ再利用可能にする。
- Kaggle、HuggingFace、OpenML など Croissant をサポートするリポジトリのいずれかにデータを公開し、自動的に Croissant メタデータを生成する。
今後の方向性
Croissant が ML プラクティショナーを支援する可能性に私たちは興奮していますが、このフォーマットを真に有用なものにするにはコミュニティの支援が必要です。データセット作成者に対しては、Croissant メタデータの提供を検討することを推奨します。また、データセットをホストするプラットフォームに対しては、ダウンロード用の Croissant ファイルを提供し、データセット検索エンジンによって発見可能となるようデータセット Web ページ内に Croissant メタデータを埋め込むことを推奨します。ラベリングやデータ分析など ML データセットの取り扱いを支援するツールも、Croissant データセットのサポートを検討すべきです。これらすべてを組み合わせることで、データ開発の負担を軽減し、ML 研究および開発のためのより豊かなエコシステムを実現できます。
コミュニティの皆様には、この取り組みに参加していただくことを強く推奨します。
謝辞
*Croissant は、Google の Dataset Search、Kaggle、および TensorFlow Datasets チームによって開発されました。これは MLCommons コミュニティワーキンググループの一環として進められており、同グループには以下の組織からの貢献者も参加しています:Bayer、cTuning Foundation、DANS-KNAW、Dotphoton、Harvard、Hugging Face、Kings College London、LIST、Meta、NASA、North Carolina State University、Open Data Institute、Open University of Catalonia、Sage Bionetworks、TU Eindhoven。
原文を表示
Posted by Omar Benjelloun, Software Engineer, Google Research, and Peter Mattson, Software Engineer, Google Core ML and President, MLCommons Association

Machine learning (ML) practitioners looking to reuse existing datasets to train an ML model often spend a lot of time understanding the data, making sense of its organization, or figuring out what subset to use as features. So much time, in fact, that progress in the field of ML is hampered by a fundamental obstacle: the wide variety of data representations.
ML datasets cover a broad range of content types, from text and structured data to images, audio, and video. Even within datasets that cover the same types of content, every dataset has a unique *ad hoc* arrangement of files and data formats. This challenge reduces productivity throughout the entire ML development process, from finding the data to training the model. It also impedes development of badly needed tooling for working with datasets.
There are general purpose metadata formats for datasets such as schema.org and DCAT. However, these formats were designed for data discovery rather than for the specific needs of ML data, such as the ability to extract and combine data from structured and unstructured sources, to include metadata that would enable responsible use of the data, or to describe ML usage characteristics such as defining training, test and validation sets.
Today, we're introducing Croissant, a new metadata format for ML-ready datasets. Croissant was developed collaboratively by a community from industry and academia, as part of the MLCommons effort. The Croissant format doesn't change how the actual data is represented (e.g., image or text file formats) — it provides a standard way to describe and organize it. Croissant builds upon schema.org, the de facto standard for publishing structured data on the Web, which is already used by over 40M datasets. Croissant augments it with comprehensive layers for ML relevant metadata, data resources, data organization, and default ML semantics.
In addition, we are announcing support from major tools and repositories: Today, three widely used collections of ML datasets — Kaggle, Hugging Face, and OpenML — will begin supporting the Croissant format for the datasets they host; the Dataset Search tool lets users search for Croissant datasets across the Web; and popular ML frameworks, including TensorFlow, PyTorch, and JAX, can load Croissant datasets easily using the TensorFlow Datasets (TFDS) package.
Croissant
This 1.0 release of Croissant includes a complete specification of the format, a set of example datasets, an open source Python library to validate, consume and generate Croissant metadata, and an open source visual editor to load, inspect and create Croissant dataset descriptions in an intuitive way.
Supporting Responsible AI (RAI) was a key goal of the Croissant effort from the start. We are also releasing the first version of the Croissant RAI vocabulary extension, which augments Croissant with key properties needed to describe important RAI use cases such as data life cycle management, data labeling, participatory data, ML safety and fairness evaluation, explainability, and compliance.
Why a shared format for ML data?
The majority of ML work is actually data work. The training data is the “code” that determines the behavior of a model. Datasets can vary from a collection of text used to train a large language model (LLM) to a collection of driving scenarios (annotated videos) used to train a car’s collision avoidance system. However, the steps to develop an ML model typically follow the same iterative data-centric process: (1) find or collect data, (2) clean and refine the data, (3) train the model on the data, (4) test the model on more data, (5) discover the model does not work, (6) analyze the data to find out why, (7) repeat until a workable model is achieved. Many steps are made harder by the lack of a common format. This “data development burden” is especially heavy for resource-limited research and early-stage entrepreneurial efforts.
The goal of a format like Croissant is to make this entire process easier. For instance, the metadata can be leveraged by search engines and dataset repositories to make it easier to find the right dataset. The data resources and organization information make it easier to develop tools for cleaning, refining, and analyzing data. This information and the default ML semantics make it possible for ML frameworks to use the data to train and test models with a minimum of code. Together, these improvements substantially reduce the data development burden.
Additionally, dataset authors care about the discoverability and ease of use of their datasets. Adopting Croissant improves the value of their datasets, while only requiring a minimal effort, thanks to the available creation tools and support from ML data platforms.
What can Croissant do today?
The Croissant ecosystem: Users can Search for Croissant datasets, download them from major repositories, and easily load them into their favorite ML frameworks. They can create, inspect and modify Croissant metadata using the Croissant editor.
Today, users can find Croissant datasets at:
- Google Dataset Search, which offers a Croissant filter.
- HuggingFace
- Kaggle
- OpenML
With a Croissant dataset, it is possible to:
- Ingest data easily via TensorFlow Datasets for use in popular ML frameworks like TensorFlow, PyTorch, and JAX.
- Inspect and modify the metadata using the Croissant editor UI (github).
To publish a Croissant dataset, users can:
- Use the Croissant editor UI (github) to generate a large portion of Croissant metadata automatically by analyzing the data the user provides, and to fill important metadata fields such as RAI properties.
- Publish the Croissant information as part of their dataset Web page to make it discoverable and reusable.
- Publish their data in one of the repositories that support Croissant, such as Kaggle, HuggingFace and OpenML, and automatically generate Croissant metadata.
Future direction
We are excited about Croissant's potential to help ML practitioners, but making this format truly useful requires the support of the community. We encourage dataset creators to consider providing Croissant metadata. We encourage platforms hosting datasets to provide Croissant files for download and embed Croissant metadata in dataset Web pages so that they can be made discoverable by dataset search engines. Tools that help users work with ML datasets, such as labeling or data analysis tools should also consider supporting Croissant datasets. Together, we can reduce the data development burden and enable a richer ecosystem of ML research and development.
We encourage the community to join us in contributing to the effort.
Acknowledgements
*Croissant was developed by the Dataset Search, Kaggle and TensorFlow Datasets teams from Google, as part of an MLCommons community working group, which also includes contributors from these organizations: Bayer, cTuning Foundation, DANS-KNAW, Dotphoton, Harvard, Hugging Face, Kings College London, LIST, Meta, NASA, North Carolina State University, Open Data Institute, Open University of Catalonia, Sage Bionetworks, and TU Eindhoven.*
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み