#データセット のAIニュース

10件の記事

大西洋月刊が AI 学習に使用された音楽の検索可能データベースを作成

大西洋月刊の記者アレックス・ライズナー氏が、AI モデルの学習に利用されている4つの音楽データセットを特定し、計2100万曲以上を含む検索可能なデータベースとして一般公開した。

The Verge AI·6月21日·★★★★

過去の時代を生きるヴィンテージチャットボットは年配の親戚のよう

AI研究者3名が、ナチスや戦争に関する記述を避けるため1930年以前のデータのみで訓練された「Talkie」と呼ばれる言語モデルを発表した。この130億パラメータのモデルは、デジタル化された英語書籍や新聞のみを学習対象としている。

The Register AI/ML·4月29日

AIはいつ手を引くべきか?:人間が介入を望むタイミングをエージェントに教える

CMUなどの研究者が、AIエージェントが人間の介入を必要とする状況を学習する手法を提案した。この研究は、AIと人間の協調作業における信頼性と効率性の向上を目指している。

ML@CMU·4月13日·★★★★

ProText:長文テキストにおける(誤った)性別表現を測定するためのベンチマークデータセット

研究者らは、多様なスタイルの長文英語テキストにおける性別表現と誤った性別表現を測定するデータセット「ProText」を発表した。このデータセットは、要約や書き換えなどのテキスト変換における性別表現の問題を調査するために設計されている。

Apple Machine Learning·3月31日

mAceReason-Math:RLVR対応の高品質多言語数学問題データセット

研究者らが、多言語数学問題の高品質データセット「mAceReason-Math」を公開した。このデータセットは、検証可能な報酬による強化学習(RLVR)の訓練用に設計されており、英語以外の言語での数学・論理問題解決能力の向上に貢献する。

Apple Machine Learning·3月13日·★★★★

NVIDIAがAI向けオープンデータを構築する方法

NVIDIAは、AIモデルの学習と開発を促進するために、大規模で多様なオープンデータセットを体系的に構築・公開している。

Hugging Face Blog·3月11日·★★★★

研究者ら、動画AIモデルが単なる学習データ増加では解決できない推論の限界に直面と指摘

国際研究チームが最大規模の動画推論データセットを公開し、Sora 2やVeo 3.1などの最新AIモデルでも推論タスクでは人間に大きく劣ることを示した。

The Decoder·3月7日·★★★★

【LeRobot】テレオペレーションで収集した模倣学習データの詳細分析

ABEJAの瀧田氏が、テレオペレーションで収集したロボットアームの模倣学習データセットの構造と可視化方法を解説している。

ABEJA Tech Blog·12月21日

SCIN: 代表的な皮膚科画像のための新リソース

Google Researchが公開した皮膚科画像データベースSCINは、多様な皮膚疾患の代表的な画像を提供し、AI診断支援の精度向上に寄与します。

Google Research Blog·3月20日·★★★★

クロワッサン:ML対応データセットのためのメタデータ形式

Google ResearchとMLCommons Associationのエンジニアが、機械学習用データセットのメタデータ形式「クロワッサン」を発表した。データセットの構造・ライセンス・使用例を標準化し、MLワークフローの効率化を目指す。

Google Research Blog·3月7日·★★★★