多言語 AI を構築する研究者や開発者を加速させる新オープンデータセットの発表
TLDR AI は、多言語 AI モデルの開発を加速させるために新しいオープンデータセットを発表し、研究者や開発者の作業効率向上を図っている。
キーポイント
多言語 AI 支援の新たなリソース公開
TLDR AI が、多言語環境での AI 構築を支援するための新しいオープンデータセットを発表した。
開発効率の向上とアクセシビリティ
このデータセットは、研究者や開発者が多言語 AI をより迅速に構築・テストできる環境を提供し、作業効率を大幅に向上させることを目指している。
オープンソースによる生態系への貢献
クローズドなデータではなくオープンデータとして公開することで、コミュニティ全体での多言語 AI の発展と標準化を促進する意図が示されている。
影響分析・編集コメントを表示
影響分析
このニュースは、多言語対応 AI の開発コストと時間を削減し、非英語圏を含むグローバルな技術コミュニティの参入障壁を下げる重要な一歩となります。特にリソースが限られる研究者やスタートアップにとって、高品質なデータセットへのアクセスが可能になることで、イノベーションの加速が期待されます。
編集コメント
多言語対応は現在の AI 業界における最重要課題の一つであり、TLDR AI が主導して実用的なリソースを提供した点は評価できます。ただし、具体的なデータセットの規模や品質の詳細が本文では明記されていないため、今後の詳細発表に注目が必要です。
ソフトウェアはプログラミング言語で書かれるかもしれませんが、開発者間の協働の核心には人間语言があります。開発者は README でプロジェクトの仕組みを説明し、イシューで助けを求め、プルリクエストでコードのレビュー、議論、改善を行います。この協働は多くの場合英語で行われますが、常にそうとは限りません。AI がソフトウェア構築における役割をますます大きくしていく中で、多言語の開発者コンテンツはこれまで以上に重要になっています。
本日、GitHub はGitHub Multilingual Repositories Dataset(GitHub 多言語リポジトリデータセット)を発表します。これは、非英語の自然言語コンテンツの証拠がある公開 GitHub リポジトリを研究者や開発者が発見できるよう支援するために設計された、リポジトリレベルのメタデータデータセットです。このデータセットを作成する過程で、README、イシュー、プルリクエスト間で言語分布が異なることがわかりました。例えば、非英語言語の中で最も一般的なものはイシューテキストでは韓国語ですが、README では第 5 位です。ポルトガル語は非英語の README リストでトップに位置し、300 万を超えるリポジトリを占めています。
このデータセットは現在、GitHub で CC0-1.0 ライセンスの下で利用可能です。これは、2025 年に私たちが行ったコミットメントの履行であり、その一部として Microsoft の欧州デジタルコミットメントの一環として、オープンソース AI 開発者を含む多言語データへのアクセスをより容易にすることを目指しています。
データセットの内容
GitHub Multilingual Repositories Dataset は、リポジトリの内容をそのままダンプしたものではありません。代わりに、多言語での協働が行われている可能性のあるリポジトリを開発者や研究者が発見できるよう支援するメタデータセットです。このデータセットは、4,000 万を超えるリポジトリにわたる 8,000 万件以上の分類行をカバーしています。各公開リポジトリについて、以下の情報を提供します:
- README、最もコメントの多い issue(課題)、および最もコメントの多い pull request(プルリクエスト)の言語分類。各テキストの最初の 150 文字を入力サンプルとして使用し、20 文字未満のテキストは除外しています。
- fastText、gcld3、lingua-py の各ツールによる各テキストソースの分類結果と、それぞれの信頼度スコア。本データセットでは、信頼度が 0.5 を超える分類のみを含んでいます。
- リポジトリメタデータ:作成タイムスタンプ、ディスク使用量、スター数、フォーク数、主要プログラミング言語、SPDX ライセンス、issue および pull request のカウント、およびスナップショット日付です。
我々は意図的に、3 つの分類器を単一のラベルに統合しませんでした。異なる分類器は、特にリソースが限られた言語において、カバー範囲と信頼度の較正が異なります。3 つすべてを公開することで、ユーザー自身が厳密さをどの程度にするかを選択できます。高精度なギリシャ語サブセットが必要ですか?それとも、ロマンス諸言語の探索的研究のために広い再現性を求めますか?その場合、1 つの分類器だけで十分な場合があります。
これを使って何ができるか
このデータセットは、一般的なウェブテキストでは困難な作業を対象に設計されています:
- 特定の言語で開発者向けドキュメントや協働が含まれている可能性のあるリポジトリを発見する。
- 非英語圏の開発者コミュニティが、イシュー、プルリクエスト、README をどのように利用しているかを研究する。
- 多言語にわたって適切に動作する必要がある AI コーディングツール、ドキュメント生成器、またはレビュー支援ツールのための評価セットを構築する。
- 開発者の豊かな多言語的多様性に関するデータに基づく根拠を用いて、意思決定者が新しい開発者向けツールや AI 機能の言語カバレッジを拡大することを促す。
- オープンソースにおける欧州諸語およびその他の少数派言語の代表性を測定する。
いくつかの注意点
言語識別は困難です。特にソフトウェアリポジトリにおいては顕著です。リポジトリ内のテキストはしばしば短く、バッジ、テンプレート、インストールコマンド、コードスニペット、ユーザー名、または混合言語コンテンツを含む場合があります。150 文字のサンプルがリポジトリ全体を代表するとは限りません。また、分類器のカバレッジや較正も言語によって異なり、特に低資源言語においては顕著な差が見られます。
そのため、このデータセットは言語識別のための絶対的な真値ベンチマークとして扱うべきではありません。むしろ、これは透明性の高い発見ツールとして設計されています。ユーザーは分類結果、信頼度スコア、およびソースを検証し、自身の研究や開発ワークフローに適合する精度と再現率のトレードオフを選択することができます。
このデータセットは、リポジトリの所有者、貢献者、またはコミュニティに関する機密属性を推測するために使用すべきではありません。シグナルはリポジトリレベルのメタデータであり、個人レベルの属性ではありません。
なぜ多言語オープンデータが重要なのか
現在、多くのヨーロッパ言語は、AI システムの構築と評価に用いられるオンラインテキストにおいて依然として過小表現されています。これにより、一部の開発者、言語、コミュニティには AI ツールがうまく機能する一方で、他の人々が取り残されるというリスクが生じます。オープンデータはこの格差を埋めるのに役立ちます。私たちは、開発者向けのコンテンツは一般的なウェブテキストとは異なるため、このデータセットを構築しました。README、イシュー、プルリクエストには、ソフトウェア協働の言語——インストール手順、バグ報告、機能リクエスト、レビューコメント、コミュニティの規範——が含まれています。そのような文脈は、開発者が実際にどのように作業を行っているかをよりよく理解できる AI システムの構築に役立ちます。
多言語の開発者向けコンテンツシグナルをより見つけやすく分析しやすくすることで、このデータセットは研究者、オープンソース開発者、モデルビルダーに対し、ソフトウェア開発における言語表現を研究するための新たなツールを提供します。これにより、格差の特定や評価の改善が支援され、ヨーロッパおよびそれ以外の地域にわたる開発者向けに、より包括的な AI ツールの構築に資する情報が得られます。また、これはより広範な原則を反映しています:開発者向けの AI を構築するには、開発者が実際に使用しているコミュニティ、言語、ワークフローを含めるべきです。
今後の展望
6 月 16 日にストラスブールで開催される Open Innovation Dialogue Hub で、本データセットと多言語 AI におけるオープンデータの広範な重要性について議論します。このイベントは Microsoft Open Innovation Center、欧州評議会、GitHub が共催し、政策決定者、研究者、文化機関、そしてオープンイノベーションのリーダーが集まり、AI、言語的多様性、文化的遺産、およびオープンデータについて議論する場となります。
多言語 AI には、多言語の開発者コミュニティが必要です。このデータセットが、より多くの人々がこれらのコミュニティを研究し、支援し、構築するための手助けとなることを願っています。GitHub で CC0-1.0 ライセンスの下で公開することで、研究者、オープンソースのメンテナ、モデルビルダーに対して、これを利用し、批判し、拡張し、その上に評価セットやツールを構築することを呼びかけています。
もし本データセットを使って面白いことをされた場合は、ぜひお知らせください。
執筆者
image
Staff Software Engineer, CELA
GitHub からのさらなる探索
image
ドキュメント
GitHub をマスターするために必要なすべてを、一つの場所で。 Docs へ移動
GitHub
どこからでも、誰でもが何かを構築できる場所、GitHub で次世代のものを構築しましょう。
image
カスタマー・ストーリー
GitHub を活用して製品を構築している企業やエンジニアリングチームをご紹介します。
GitHub Universe 2026
10 月 28 日と 29 日にサンフランシスコ、またはオンラインで開催される当社のフラッグシップ開発者イベント「GitHub Universe」にご参加ください。このイベントでは、人々、エージェント、そして世界のコードが一つに集まります。
原文を表示
Software may be written in programming languages, but human language is at the heart of developer collaboration. Developers explain how projects work in READMEs. They ask for help in issues. They review, debate, and improve code in pull requests. That collaboration often happens in English—but not always. As AI becomes a bigger part of how developers build software, multilingual developer content matters more than ever.
Today, GitHub is publishing the GitHub Multilingual Repositories Dataset, a repository-level metadata dataset designed to help researchers and developers discover public GitHub repositories with evidence of non-English natural-language content. When building the dataset, we found that language distribution differs across READMEs, issues and pull requests: Korean is the most common non-English language in issue text, but only the fifth-most common in READMEs. Portuguese tops the non-English README list with more than 3 million repositories.
The dataset is now available on GitHub under CC0-1.0. It follows through on a commitment we made in 2025, as part of Microsoft’s European Digital Commitments, to make multilingual data more accessible, including to open source AI developers.
What’s in the dataset
The GitHub Multilingual Repositories Dataset is intentionally not a dump of repository content. Instead, it is a metadata dataset that helps developers and researchers find repositories where multilingual collaboration may be happening. The dataset covers over 80 million classification rows across more than 40 million repositories. For each public repository, we provide:
- Language classifications of the README, the most-commented issue, and the most-commented pull request, with the first 150 characters of each used as the input sample. We exclude texts under 20 characters.
- Classifications for each text source, from fastText, gcld3, and lingua-py, each with a confidence score. The dataset only includes classifications with >0.5 confidence.
- Repository metadata: creation timestamp, disk usage, stars, forks, primary programming language, SPDX license, issue and pull request counts, and the snapshot date.
We deliberately did not collapse the three classifiers into a single label. Different classifiers have different coverage and confidence calibration, especially for lower-resource languages. By exposing all three, we let you decide how strict you want to be. Want a high-precision Greek subset? Require all three classifiers to agree above some confidence threshold. Want broad recall for an exploratory study of Romance languages? One classifier may be enough.
What you can build with it
The dataset is designed for the kind of work that’s hard to do with general web text:
- Discover repositories likely to contain developer documentation or collaboration in specific languages.
- Study how non-English developer communities use issues, pull requests, and READMEs.
- Build evaluation sets for AI coding tools, doc generators, or review assistants that need to behave well across languages.
- Encourage decision-makers to expand language coverage for new developer tools and AI features using data-backed arguments on the rich multilingual diversity of developers.
- Measure representation of European and other underrepresented languages in open source.
Some caveats
Language identification is hard, especially in software repositories. Repository text is often short. It may include badges, templates, installation commands, code snippets, usernames, or mixed-language content. A 150-character sample may not represent the whole repository. Classifiers also vary in coverage and calibration, especially for lower-resource languages.
That is why the dataset should not be treated as a ground-truth benchmark for language identification. Instead, it is designed as a transparent discovery tool. Users can inspect classifications, confidence scores, and sources, then choose the precision and recall tradeoffs that fit their own research or development workflow.
The dataset also should not be used to infer sensitive attributes about repository owners, contributors, or communities. The signals are repository-level metadata, not person-level attributes.
Why open multilingual data matters
Today, many European languages remain underrepresented in the online text used to build and evaluate AI systems. That creates a risk that AI tools work well for some developers, languages, and communities, while leaving others behind. Open data can help close that gap. We built this dataset because developer content is different from general web text. READMEs, issues, and pull requests contain the language of software collaboration: installation instructions, bug reports, feature requests, review comments, and community norms. That context can help build AI systems that better understand how developers actually work.
By making multilingual developer-content signals easier to find and analyze, this dataset gives researchers, open source developers, and model builders another tool for studying language representation in software development. It can help identify gaps, support better evaluation, and inform more inclusive AI tools for developers across Europe and beyond. It also reflects a broader principle: Building AI for developers should include the communities, languages, and workflows developers actually use.
What’s next
We’ll be discussing the dataset, and the broader importance of open data for multilingual AI, at the Open Innovation Dialogue Hub in Strasbourg on June 16. The event is co-organized by the Microsoft Open Innovation Center, the Council of Europe, and GitHub, and will bring together policymakers, researchers, cultural institutions, and open innovation leaders to discuss AI, linguistic diversity, cultural heritage, and open data.
Multilingual AI needs multilingual developer communities. We hope this dataset helps more people study, support, and build for them. By releasing it under CC0-1.0 on GitHub, we’re inviting researchers, open source maintainers, and model builders to use it, critique it, extend it, and build evaluation sets and tools on top of it.
If you do something interesting with it, we’d love to hear about it.
Written by
Staff Software Engineer, CELA
Explore more from GitHub
Docs
Everything you need to master GitHub, all in one place.
GitHub
Build what’s next on GitHub, the place for anyone from anywhere to build anything.
Customer stories
Meet the companies and engineering teams that build with GitHub.
GitHub Universe 2026
Join us October 28-29 in San Francisco or online for GitHub Universe, our flagship developer event uniting people, agents, and the world’s code.
関連記事
[AINews] 今日特に大きな出来事はありませんでした
Latent Space は、GLM 5.2 が依然として注目されていると指摘しつつ、AIE WF 2026 の通常チケットが月曜日に完売すると発表しました。同サイト購読者向けに限定割引を提供し、参加者には Warp や Datadog などからのスポンサークレジットも付与されます。
米国がアンソロピックの「Fable 5」発売を禁止、しかし市場は動じず
米国政府は国家安全保障上の懸念から、アマゾンの研究者らがガードレール回避手法を発見したとして、アンソロピックに対し最新モデル「Fable 5」と「Mythos 5」の販売差し止めを命じた。サイバーセキュリティ研究者らはこの措置が危険だとする公開書簡に署名し、同社も他モデルでも同様の抜け道が存在すると指摘している。
社内データ分析エージェントの構築方法について
GitHub は、大規模なデータ組織が直面する自己完結型のデータアクセスと洞察提供の課題に対し、AI を活用した信頼性の高い解決策として、社内でデータ分析エージェントを構築したことを発表した。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み