Open Knowledge Format の紹介(9 分読了)
Open Knowledge Format (OKF) は、LLM が正確な結果を生成するために必要なコンテキストとメタデータを標準化し、異なるシステム間での相互運用性を高めるオープン仕様の導入を発表した。
キーポイント
OKF の基本仕様と構造
OKF v0.1 は、YAML フロントマターを持つディレクトリ形式の Markdown ファイルとして定義され、複雑な圧縮や専用 SDK を必要としないシンプルな構造を採用している。
断片化されたコンテキスト問題の解決
組織内のスキーマ、ビジネス指標の意味、インシデント対応手順など、基盤モデルが利用する知識が散在するシステムを統合し、エージェントが翻訳なしで情報を消費できる標準を提供する。
相互運用性と実装の簡素化
既存の Git リポジトリやファイルシステム上で動作可能であり、GitHub でのレンダリングや検索ツールのインデックス付けも容易で、Obsidian や Notion のような既存パターンとの互換性を保つ。
標準化されたメタデータフィールド
クエリ可能な構造として「type」「title」「description」「resource」「tags」「timestamp」の最小限のフィールドセットを定義し、異なるプロデューサーによるウィキをエージェントが統一して処理できるようにする。
影響分析・編集コメントを表示
影響分析
この仕様の発表は、LLM エージェント開発における「コンテキストの断片化」という根本的な課題に対する実用的な解決策を示すものであり、業界全体で標準化された知識表現形式への移行を加速させる可能性があります。特に、複雑なインフラ構築なしに既存のドキュメント資産を AI 活用可能なリソースとして再利用できる点は、組織の AI 導入コストを劇的に削減する意味を持ちます。
編集コメント
複雑な技術的基盤を必要とせず、既存の Markdown ファイル構造で標準化を進めるというアプローチは、実装コストを抑えつつ AI エージェントの信頼性を高めるための賢明な戦略と言えます。
基盤モデルの性能向上が続く中、関連する文脈の不足が、特にエージェントシステムを構築する際に、その能力を制限することが多々あります。これらのモデルはコード作成やドキュメントの要約、データセットの分析などを支援できますが、正確で実行可能な結果を生み出すためには適切な情報が必要です。
そこで本日、私たちは Open Knowledge Format(OKF)を発表します。これは LLM-wiki パターンをポータブルで相互運用可能な形式として定式化したオープン仕様です。これは、現代の AI システムが必要とするメタデータ、文脈、そしてキュレーションされた知識を表すためのベンダー中立かつエージェントおよび人間に優しい標準規格です。
公開版である OKF v0.1 では、知識を YAML フロントマター付きのマークダウンファイルのディレクトリとして表現し、異なるプロデューサーが作成したウィキを翻訳なしで異なるエージェントが消費できるようになる、少数の合意された規約を含んでいます。
これだけです。複雑な圧縮スキームも、新しいランタイムも、必須の SDK もありません。OKF ドキュメントのバンドルは以下の通りです:
- マークダウンのみ — 任意のエディタで読み込み可能、GitHub でレンダリング可能、あらゆる検索ツールでインデックス可能
- ファイルのみ — ターボールとして出荷可能、あらゆる Git リポジトリにホスト可能、あらゆるファイルシステムにマウント可能
- YAML フロントマターのみ — 照会が必要な少数の構造化フィールド(型、タイトル、説明、リソース、タグ、タイムスタンプ)のために使用
Obsidian、Notion、Hugo、あるいは過去1年間に登場したLLM(大規模言語モデル)のウィキパターンを使用された方なら、その形状は馴染み深く感じられるでしょう。OKF は、これらのパターンを相互運用可能にするために必要な少数の規約を形式化します。
OKF が組織にとってどのような課題を解決できるのか、その仕組み、導入方法、そして今後の展望について見ていきましょう。
分断された文脈の風景
ほとんどの組織において、ファウンデーションモデルが利用する情報は圧倒的に内部知識です:テーブルのスキーマ、ビジネスにおける指標の意味、インシデント対応の手順書(runbook)、2 つのシステム間の結合パス、古い API の非推奨通知など。
現在、これらの知識の原子は、非常に分断された様々なシステムに存在しています:
- 独自のAPIを持つメタデータカタログ
- ウィキ、サードパーティ製システム、または共有ドライブ内
- コードコメント、ドキュストリング(docstrings)、あるいはノートブックセル
- 数人のシニアエンジニアの頭脳の中
AI エージェントが「イベントストリームから週次アクティブユーザーをどのように計算するか?」と問われた場合、その答えはこれらの散在し、互いに非互換な表面から組み立てなければなりません。各ベンダーは独自のカタログ、独自のSDK(ソフトウェア開発キット)、独自の知識グラフスキーマを提供しており、どの知識も製品間や組織間で容易に移植できるものではありません。
その結果:すべてのエージェントビルダーが同じ文脈構築問題をゼロから解決し、すべてのカタログベンダーが同じデータモデルを再発明し、知識自体はそれが作成された表面のいずれかにロックされています。
生きたウィキとしての知識
開発チームは、AI エージェントの構築方法を変えつつあります。同じ事実を何度も検索するためにモデルを使用するのではなく、時間とともに有用性が増していく共有された Markdown ライブラリをエージェントに与えることができます。これにより、エージェントが自分たちのファイルを読み込み更新するという退屈な作業を引き受け、チームはコンテンツをキュレーションし、コードのように管理することが可能になります。
著名な AI 研究者かつ教育者であるアンドレイ・カルパティ氏は、この考え方を彼の LLM Wiki gist で最も鋭く表現しています。「LLM は飽きることがなく、相互参照の更新を忘れることもなく、一度に 15 ファイルに触れることができます」と彼は記述しています。人間が個人用ウィキを放棄してしまう原因となる事務処理こそが、LLM が得意とするところです。
同様の「知識としてのウィキ」パターンは、異なる名称で繰り返し現れています。コーディングエージェントに接続された Obsidian vaults、AGENTS.md / CLAUDE.md 形式の規約ファイル群、実際の作業を行う前にエージェントが参照する index.md や log.md のアーティファクトで満たされたリポジトリ、そしてデータチーム内の「メタデータをコードとして扱う」リポジトリです。
このパターンは説得力があり強力ですが、各インスタンスは個別に作られています。Karpathy のウィキ、あなたのチームのウィキ、ベンダーのカタログエクスポートはいずれも似通った外観(マークダウン、フロントマター、相互リンクなど)をしていても、互いに協力することを意図して設計されたものではありません。どのドキュメントがどのフィールドを持つべきか、ファイル名が何を意味するかについて合意された答えはありません。その結果、ウィキにエンコードされた知識は元のチーム内に閉じ込められたままとなり、新しいエージェントを構築するたびに重複した努力が生じます。
欠けているのは別のサービスではなくフォーマット
この問題に対する答えは、新たな知識サービスではありません。必要なのはフォーマットです。それは以下のような特徴を持つ知識の表現方法であるべきです:
- SDK なしで誰でも作成できる
- インテグレーションなしで誰でも利用可能
- システム、組織、ツール間を移動しても存続する
- 記述対象のコードと共にバージョン管理システムに存在する
- 人間が読みやすく、エージェントが解析可能な形式である:翻訳層を介さない同一ファイル
設計上、OKF はまさにそのフォーマットです。
OKF の仕組み:1画面で見るデザイン
OKF バンドルは、概念を表すマークダウンファイルのディレクトリです。ここでいう「概念」とは、テーブル、データセット、メトリクス、プレイブック、ランブック、API など、捕捉したいあらゆるものを指します。各概念は 1 つのファイルとして表現されます。そのファイルパスが概念のアイデンティティとなります:
各概念ドキュメントには、構造化フィールド用の YAML フロントマターと、それ以外の内容用のマークダウン本文が含まれています:
概念は通常の Markdown リンクによって互いにリンクされ、ファイルシステムが暗示する親子関係よりも豊かな関係性のグラフとしてディレクトリが機能します。バンドルにはオプションで index.md ファイル(エージェントが階層をナビゲートする際の段階的な開示用)や log.md ファイル(変更の経時的履歴用)を含めることができます。
完全な v0.1 仕様(適合基準、クロスリンクルール、および少数の予約済みファイル名を含む)は単一のページに収まります。
デザイン背後の3つの原則
1. 最小限の意見表明。 OKF はすべての概念に対して正確に1つの要件を課します:type フィールドです。それ以外のすべて(どのような型が存在するか、他のフィールドを含めるか、本文にはどのようなセクションがあるかなど)はプロデューサーに委ねられます。仕様は相互運用性の表面を定義するものであり、コンテンツモデルそのものを定義するものではありません。
2. プロデューサーとコンシューマーの独立性。 OKF は知識を作成する者とそれを消費する者を明確に分離します。人間が手作業で作成したバンドルは AI エージェントによって消費できます。メタデータエクスポートパイプラインによって生成されたバンドルはビジュアライザーで閲覧可能です。ある LLM によって合成されたバンドルを別の LLM が照会することもできます。フォーマットが契約であり、両端のツールリングはそれぞれ独立して交換可能です。
3. フォーマット、プラットフォームではない。 OKF は特定のクラウド、データベース、モデルプロバイダー、またはエージェントフレームワークに縛られません。読み取り、書き込み、提供を行うために、 proprietary なアカウントや SDK を決して必要としません。私たちはこれをオープン標準として公開しています。なぜなら、知識フォーマットの価値はそれを所有する誰かではなく、それを話す当事者の数によって生み出されるからです。
仕様と共に提供するもの
このフォーマットを具体化するために、プロデューサー側とコンシューマー側の両方でリファレンス実装を公開します:
- BigQuery データセットを走査し、各テーブルとビューに対して OKF の概念ドキュメントを作成した上で、権威あるドキュメンテーションを検索して各概念に引用元、スキーマ、結合パスを追加するエンリッチメントエージェント。
- 任意の OKF バンドルを単一の自己完結型ファイル内でインタラクティブなグラフビューに変換する静的 HTML ビジュアライザー。バックエンドは不要で、閲覧側へのインストールも不要、データがページから流出することもありません。
- GA4 e コマース、Stack Overflow、Bitcoin 公開データセットの 3 つの即座に閲覧可能なサンプルバンドル。これらはリファレンスエージェントによって生成され、準拠した OKF の生きた例としてリポジトリにコミットされています。
これらは意図的に概念実証です。このエージェントは OKF を作成する一つの手段を示すものであり、フォーマット自体が特定のエージェントフレームワークや LLM(大規模言語モデル)を必要とするものではありません。ビジュアライザーはそれを利用する一つの手段を示すものであり、フォーマット自体が HTML やグラフビューを必要とするものではありません。私たちは、プロデューサーとコンシューマーのエコシステムが、私たちが提供するものよりもはるかに大きく成長することを期待しています(そして望んでいます!)。
ここから先へ
OKF v0.1 は完成された標準規格というよりも、出発点です。このフォーマットは、より多くのプロデューサーとコンシューマーが現れ、実践においてエージェントが実際に必要とする知識表現が何であるかを私たちが集団的に学ぶにつれて進化していくでしょう。
私たちは、知識カタログの構築、エンリッチメントパイプラインの作成、AI エージェント向けに特化したウィキの運営、あるいは AI 知識ドメインにおけるその他のあらゆる活動に関わらず、知識フォーマットがその名にふさわしいものとなる唯一の方法として、初日からオープンな形で公開しています。
ここからは、以下のことをお勧めします:
- 仕様書を読む(短いです!)
- ソースシステム、データベース、ドキュメントサイト用のプロデューサーを作成する
- コンシューマー(ビューア、検索インデックス、バンドル上で推論を行うエージェントなど)を作成する
- 参考実装を自身のデータで試す
- イシュウを報告し、PR を送信するか、拡張案を提案する:仕様書はバージョン管理されており、後方互換性を保ちながら成長できるよう意図的に設計されています
リポジトリ、仕様書、サンプルバンドルは GitHub で利用可能です。また、Google Cloud の Knowledge Catalog も更新され、Open Knowledge Format を取り込んでエージェントに提供できるようになりました。関連するコードと例は こちら でご覧いただけます。
フォーマットそのものが貢献です。私たちが提供したツールは、それを現実のものとし、試すコストを低下させるために存在します。今日の知識がどのような形であれ、OKF は明日交換可能な共通言語として設計されています。
Google Cloud Data Cloud チームによって公開されました。Open Knowledge Format はオープンな仕様であり、貢献、代替実装、および Google 製品以外の採用も明確に歓迎されます。
著者に加え、この取り組みは Google の多くの他者の重要なアイデアによって実現され、その貢献に対して感謝申し上げます。
投稿先:
- データ分析
- AI & マシンラーニング
- BigQuery
原文を表示
As foundation models continue to improve, the lack of relevant context often limits what they can do, especially as they are used to build agentic systems. While these models can help you write code, summarize documents, or analyze a dataset, they still need the right information to produce accurate and actionable results.
That’s why today, we’re introducing the Open Knowledge Format (OKF), an open specification that formalizes the LLM-wiki pattern into a portable, interoperable format. This is a vendor-neutral, agent- and human-friendly standard for representing the metadata, context, and curated knowledge that modern AI systems need.
As published, OKF v0.1 represents knowledge as a directory of markdown files with YAML frontmatter, with a small set of agreed-upon conventions that let wikis written by different producers be consumed by different agents without translation.
That's it. No complex compression scheme, no new runtime, no required SDK. A bundle of OKF documents is:
- Just markdown — readable in any editor, renderable on GitHub, indexable by any search tool
- Just files — shippable as a tarball, hostable in any git repo, mountable on any filesystem
- Just YAML frontmatter — for the small set of structured fields that need to be queryable: type, title, description, resource, tags, and timestamp
If you've used Obsidian, Notion, Hugo, or any of the LLM wiki patterns that have emerged over the past year, the shape will feel familiar. OKF formalizes the small set of conventions needed to make these patterns interoperable.
Let’s take a look at the problem that OKF can solve for your organization, how it works, how to get started with it, and what’s next.
A fragmented context landscape
In most organizations, the information that foundation models use is overwhelmingly internal knowledge: the schema of a table, your business’ meaning of a metric, the runbook for an incident, the join paths between two systems, the deprecation notice for an old API, etc.
Today, these atoms of knowledge live in a variety of highly fragmented systems:
- Metadata catalogs with their own APIs
- Wikis, third-party systems, or in shared drives
- Code comments, docstrings, or notebook cells
- The heads of a few senior engineers
When an AI agent needs to answer "How do I compute weekly active users from our event stream?" it has to assemble the answer from these scattered, mutually incompatible surfaces. Every vendor offers its own catalog, its own SDK, its own knowledge-graph schema, and none of the knowledge is easily portable across products or organizations.
The result: Every agent builder is solving the same context-assembly problem from scratch, every catalog vendor is reinventing the same data models, and the knowledge itself is locked behind whichever surface created it.
Knowledge as a living wiki
Developer teams are changing how they build AI agents. Instead of using models to search the same documents for the same facts over and over, you can give your agents a shared markdown library that grows more useful over time. This lets your agents take on the drudgery of reading and updating their own files, while your team curates the content and manages it like code.
Andrej Karpathy, the prominent AI researcher and educator, articulates this idea most crisply in his LLM Wiki gist. "LLMs don't get bored, don't forget to update a cross-reference, and can touch 15 files in one pass," he writes. The bookkeeping that causes humans to abandon personal wikis is exactly what LLMs are good at.
Similar knowledge-as-Wiki pattern keeps reappearing under different names: Obsidian vaults wired to coding agents, the AGENTS.md / CLAUDE.md family of convention files, repos full of index.md and log.md artifacts that agents consult before doing real work, and "metadata as code" repositories inside data teams.
The pattern is compelling and powerful, but each instance is bespoke. Karpathy's wiki and your team's wiki and a vendor's catalog export may all look alike (markdown, frontmatter, cross-links), but none of them are intentionally designed to cooperate. There is no agreed-upon answer to what fields every document should carry, or what filenames mean what. As a result, the knowledge encoded in wikis remains siloed within the original teams, leading to redundant effort whenever a new agent is built.
What's missing is a format, not another service
The answer to this problem isn’t another knowledge service. You need a format, a way to represent knowledge that:
- Anyone can produce, without an SDK
- Anyone can consume, without an integration
- Survives moving between systems, organizations, and tools
- Lives in version control alongside the code it describes
- Is readable by humans and parseable by agents: the same file, no translation layer
By design, OKF is that format.
How OKF works: The design in one screen
An OKF bundle is a directory of markdown files representing concepts: anything you want to capture, including tables, datasets, metrics, playbooks, runbooks, and APIs. Each concept is one file. The file path is the concept's identity:
Each concept document has a small block of YAML front matter for structured fields and a markdown body for everything else:
Concepts link to each other with normal markdown links, turning the directory into a graph of relationships that is richer than the parent/child links implied by the file system. Bundles can optionally include index.md files (for progressive disclosure as agents navigate the hierarchy) and log.md files (for chronological history of changes).
The full v0.1 specification (including conformance criteria, cross-linking rules, and the small number of reserved filenames) fits on a single page.
Three principles behind the design
1. Minimally opinionated. OKF requires exactly one thing of every concept: a type field. Everything else (e.g., what types exist, what other fields to include, what sections the body has) is left to the producer. The spec defines the interoperability surface, not the content model.
2. Producer/consumer independence. OKF cleanly separates who writes the knowledge from who consumes it. A bundle hand-authored by a human can be consumed by an AI agent. A bundle generated by a metadata export pipeline can be browsed in a visualizer. A bundle synthesized by one LLM can be queried by another. The format is the contract; the tooling at each end is independently swappable.
3. Format, not platform. OKF is not tied to any specific cloud, database, model provider, or agent framework. It will never require a proprietary account or SDK to read, write, or serve. We're publishing it as an open standard because the value of a knowledge format comes from how many parties speak it, not from who owns it.
What we're shipping with the spec
To make the format concrete, we're publishing reference implementations at both the producer and consumer ends:
- An enrichment agent that walks a BigQuery dataset, drafts an OKF concept document for every table and view, then runs a second LLM pass that crawls authoritative documentation and enriches each concept with citations, schemas, and join paths.
- A static HTML visualizer that turns any OKF bundle into an interactive graph view in a single self-contained file; no backend, no install on the viewing side, no data leaves the page.
- Three ready-to-browse sample bundles: GA4 e-commerce, Stack Overflow, and Bitcoin public datasets, produced by the reference agent and committed to the repo as living examples of conformant OKF.
These are proofs of concept, deliberately. The agent demonstrates one way to produce OKF; nothing about the format requires a specific agent framework or LLM. The visualizer demonstrates one way to consume it; nothing about the format requires HTML or a graph view. We expect (and want!) the ecosystem of producers and consumers to grow far beyond what we've shipped.
Where we go from here
OKF v0.1 is a starting point, not a finished standard. The format will evolve as more producers and consumers emerge and as we collectively learn what knowledge representations agents actually need in practice.
We're publishing in the open from day one because that's the only way a knowledge format earns its name, whether you're building a knowledge catalog, an enrichment pipeline, a wiki tailored to AI agents, or anything in the AI knowledge domain.
From here, we encourage you to:
- Read the spec (it's short!)
- Write a producer for your source system, your database, your documentation site
- Write a consumer: a viewer, a search index, an agent that reasons over bundles
- Try the reference implementation against your own data
- File issues, send PRs, or propose extensions: The spec is versioned and explicitly designed for backward-compatible growth
The repo, the spec, and the sample bundles are available in GitHub. We have also updated Google Cloud’s Knowledge Catalog to be able to ingest Open Knowledge Format and serve it to our agents. You can find the relevant code and examples here.
The format itself is the contribution. The tools we've shipped exist to make it real, and to lower the cost of trying it out. Whatever shape your knowledge takes today, OKF is designed to be the lingua franca it can be exchanged for tomorrow.
Published by the Google Cloud Data Cloud team. Open Knowledge Format is an open specification; contributions, alternative implementations, and adoption beyond Google products are all explicitly welcomed.
In addition to the authors, this work came together thanks to key ideas from many others at Google, and we thank them for their contributions.
Posted in- Data Analytics
- AI & Machine Learning
- BigQuery
関連記事
Amazon Bedrock AgentCore に Web 検索機能を導入
AWS は、学習データに依存して最新情報を取得できない AI エージェントの課題を解決するため、Amazon Bedrock AgentCore に Web 検索機能を一般提供開始した。これによりエージェントはリアルタイムの株価やニュースなどを参照可能になった。
Liquid AI、11言語対応の高速多言語検索向け新モデル「LFM2.5-Embedding-350M」と「LFM2.5-ColBERT-350M」を発表
Liquid AI は、11言語間の高速な多言語・異言語検索を実現する新たな取得モデル「LFM2.5-Embedding-350M」と「LFM2.5-ColBERT-350M」を公開した。両モデルはパラメータ数 3.5 億で、LFM ファミリー初の双方向型であり、Hugging Face で利用可能となった。
Domyn と AISquared が Ai2 のオープンリリースをどう活用したか
Domyn と AISquared は、透明性やライセンス管理が不可欠な規制業界向けに AI モデルを開発する際、Ai2 のオープンソースリリースを活用している。これにより顧客の信頼とコンプライアンス確保を実現している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み